08.01.2013 Views

Chinese taalverwerking op de computer - B-t.asia

Chinese taalverwerking op de computer - B-t.asia

Chinese taalverwerking op de computer - B-t.asia

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

FACULTEIT LETTEREN<br />

DEPARTEMENT OOSTERSE EN SLAVISCHE STUDIES<br />

CHINESE TAALVERWERKING OP DE COMPUTER<br />

Deel I : Theoretisch Overzicht<br />

Promotor : Prof. Dr. Fred Truyen Verhan<strong>de</strong>ling aangebo<strong>de</strong>n tot het<br />

verkrijgen van <strong>de</strong> graad van<br />

licentiaat in <strong>de</strong> Sinologie door:<br />

Sébastien Bruggeman<br />

- 2001-2002 -<br />

KATHOLIEKE<br />

UNIVERSITEIT<br />

LEUVEN


VOORWOORD<br />

Dit theoretische overzicht han<strong>de</strong>lt over <strong>de</strong> <strong>Chinese</strong> <strong>taalverwerking</strong> <strong>op</strong> <strong>de</strong> <strong>computer</strong>.<br />

Het heeft <strong>de</strong> bedoeling om zo volledig mogelijk te zijn, maar zal het helaas nooit kunnen zijn<br />

door <strong>de</strong> uitgebreidheid van dit on<strong>de</strong>rwerp. Hoewel dit <strong>de</strong>el veel technische <strong>de</strong>tails bevat is er<br />

geen voorkennis vereist.<br />

Naast dit theoretisch overzicht is er ook nog een praktische handleiding voor mensen<br />

die Chinees in <strong>de</strong> praktijk <strong>op</strong> hun <strong>computer</strong> willen gebruiken. Ook voor dit <strong>de</strong>el is geen<br />

voorkennis vereist, wel wordt er gerekend <strong>op</strong> een basiskennis van Microsoft Windows. Het<br />

voorhan<strong>de</strong>n hebben van een <strong>computer</strong> met internetverbinding maakt het mogelijk om alles<br />

onmid<strong>de</strong>llijk in <strong>de</strong> praktijk om te zetten.<br />

Het <strong>de</strong>r<strong>de</strong> luik van <strong>de</strong>ze verhan<strong>de</strong>ling is een website. Op <strong>de</strong>ze website kunnen extra<br />

documentatie, voorbeel<strong>de</strong>n en links gevon<strong>de</strong>n wor<strong>de</strong>n. Daarnaast kan men ook terecht <strong>op</strong> het<br />

forum voor extra vragen en antwoor<strong>de</strong>n.<br />

Tot slot wens ik U nog veel leesplezier en ho<strong>op</strong> ik dat U door <strong>de</strong>ze<br />

licentiaatsverhan<strong>de</strong>ling een betere kijk krijgt <strong>op</strong> <strong>de</strong> <strong>Chinese</strong> <strong>taalverwerking</strong> <strong>op</strong> <strong>de</strong> <strong>computer</strong>.<br />

Sébastien Bruggeman<br />

Thesis Sébastien Bruggeman Pagina 2


Thesis Sébastien Bruggeman Pagina 3


INHOUDSTAFEL<br />

0. Gebruikte conventies......................................................................................................11<br />

1. Inleiding...........................................................................................................................14<br />

1.1. Talen en schriften.....................................................................................................14<br />

1.2. Vereenvoudiging van <strong>Chinese</strong> karakters..................................................................16<br />

1.3. Typografie................................................................................................................18<br />

1.4. Karakters en <strong>computer</strong>s............................................................................................18<br />

2. Karaktersets....................................................................................................................20<br />

2.1. Westerse talen...........................................................................................................20<br />

2.2. Oosterse talen...........................................................................................................22<br />

2.2.1. Traditioneel Chinees.................................................................................................23<br />

a) CCCII en EACC.......................................................................................................23<br />

b) CNS..........................................................................................................................25<br />

c) Big5..........................................................................................................................28<br />

d) Big5+........................................................................................................................29<br />

e) Big5E........................................................................................................................29<br />

f) Hong Kong GCCS en SCS.......................................................................................30<br />

2.2.2. Vereenvoudigd Chinees............................................................................................30<br />

a) GB 1988-80..............................................................................................................30<br />

b) GB 2312-80..............................................................................................................31<br />

c) GB 6345.1-86...........................................................................................................31<br />

d) GB 8565.2-88...........................................................................................................32<br />

e) ISO-IR-165:1992......................................................................................................33<br />

f) GB/T 12345-90.........................................................................................................34<br />

g) GBK..........................................................................................................................34<br />

h) GB 13000.1...............................................................................................................35<br />

i) GB 18030-2000........................................................................................................36<br />

j) An<strong>de</strong>re GB karaktersets............................................................................................37<br />

2.3. Meertalige karaktersets.............................................................................................37<br />

a) Unico<strong>de</strong> en ISO 10646.............................................................................................38<br />

2.4. Conversie..................................................................................................................41<br />

Thesis Sébastien Bruggeman Pagina 4


3. Co<strong>de</strong>ring..........................................................................................................................43<br />

3.1. Westerse talen...........................................................................................................44<br />

3.2. Chinees.....................................................................................................................44<br />

a) HZ en EHZ...............................................................................................................44<br />

b) ISO 2022...................................................................................................................46<br />

c) EUC..........................................................................................................................47<br />

d) GBK..........................................................................................................................48<br />

e) Big5 en Big5+...........................................................................................................48<br />

f) Overzicht..................................................................................................................48<br />

3.3. Meertalig...................................................................................................................49<br />

a) UCS..........................................................................................................................49<br />

b) UTF...........................................................................................................................49<br />

4. Hardware.........................................................................................................................52<br />

4.1. Toetsenbord..............................................................................................................52<br />

a) Uitspraak gebaseerd..................................................................................................53<br />

b) Structuur gebaseerd..................................................................................................57<br />

c) Combinatie uitspraak – structuur..............................................................................63<br />

d) Directe invoer...........................................................................................................63<br />

4.2. An<strong>de</strong>re......................................................................................................................64<br />

5. Applicaties, toepassingen...............................................................................................65<br />

5.1. Dos............................................................................................................................65<br />

5.2. Microsoft Windows..................................................................................................65<br />

a) Native <strong>Chinese</strong> Windows.........................................................................................65<br />

b) Niet-<strong>Chinese</strong> Windows.............................................................................................66<br />

5.3. Unix / Linux .............................................................................................................66<br />

a) Native <strong>Chinese</strong> Linux...............................................................................................67<br />

b) Niet-<strong>Chinese</strong> Linux ..................................................................................................67<br />

c) Linux in China & Taiwan.........................................................................................68<br />

5.4. Apple........................................................................................................................69<br />

5.5. Chinees en programmeertalen..................................................................................70<br />

5.6. Chinees en databases................................................................................................72<br />

Thesis Sébastien Bruggeman Pagina 5


6. Het <strong>Chinese</strong> internet.......................................................................................................74<br />

7. Appendix.........................................................................................................................78<br />

7.1. Bibliografie...............................................................................................................78<br />

7.2. Links.........................................................................................................................80<br />

7.3. Tabellen....................................................................................................................82<br />

7.4. Figuren......................................................................................................................89<br />

7.5. Dankbetuiging..........................................................................................................91<br />

Bijlage A: Selectie van National Standards in <strong>de</strong> PRC<br />

Bijlage B: Selectie van <strong>Chinese</strong> National Standards van <strong>de</strong> ROC<br />

Bijlage C: Selectie van ISO standaar<strong>de</strong>n<br />

Thesis Sébastien Bruggeman Pagina 6


LIJST VAN TABELLEN<br />

Tabel 1 Niet <strong>Chinese</strong> schriften gebruikt in Zuidoost Azië.......................................................15<br />

Tabel 2 Verschillen<strong>de</strong> varianten van <strong>Chinese</strong> karakters...........................................................15<br />

Tabel 3 Vereenvoudiging van <strong>Chinese</strong> karakters.....................................................................17<br />

Tabel 4 Typografie...................................................................................................................18<br />

Tabel 5 ISO 8859......................................................................................................................22<br />

Tabel 6 CCCII (structuur).........................................................................................................24<br />

Tabel 7 CCCII (laag 1).............................................................................................................24<br />

Tabel 8 EACC..........................................................................................................................25<br />

Tabel 9 CNS 11643-1986.........................................................................................................27<br />

Tabel 10 CNS 11643-1992.......................................................................................................27<br />

Tabel 11 Big5...........................................................................................................................28<br />

Tabel 12 Big5+.........................................................................................................................29<br />

Tabel 13 GB 2312-80...............................................................................................................31<br />

Tabel 14 GB 6345.1-86............................................................................................................32<br />

Tabel 15 GB 8565.2-88............................................................................................................32<br />

Tabel 16 ISO-IR-165:1992.......................................................................................................33<br />

Tabel 17 GB/T 12345-90..........................................................................................................34<br />

Tabel 18 GBK...........................................................................................................................35<br />

Tabel 19 GB 18030 ..................................................................................................................36<br />

Tabel 20 ISO-2022-CN............................................................................................................46<br />

Tabel 21 ISO-2022-CN-EXT...................................................................................................47<br />

Tabel 22 Co<strong>de</strong>ringen en <strong>de</strong> on<strong>de</strong>rsteun<strong>de</strong> karaktersets............................................................48<br />

Tabel 23 Karaktersets en on<strong>de</strong>rsteun<strong>de</strong> co<strong>de</strong>ringen.................................................................48<br />

Tabel 24 UCS-4 is slechts een 31-bit co<strong>de</strong>...............................................................................49<br />

Tabel 25 UTF-8 co<strong>de</strong>ring van UCS-2 en UCS-4.....................................................................50<br />

Tabel 26 Vergelijking tussen <strong>de</strong> verschillen<strong>de</strong> Pinyin invoer metho<strong>de</strong>s..................................56<br />

Tabel 27 Op<strong>de</strong>ling van Wubizixing .........................................................................................58<br />

Tabel 28 Toewijzing van <strong>de</strong> cijfers in Wubihua......................................................................58<br />

Tabel 29 Voorbeeld Wubihua..................................................................................................59<br />

Tabel 30 Voorbeeld Cangjie (1)...............................................................................................60<br />

Tabel 31 Voorbeeld Cangjie (2)...............................................................................................60<br />

Tabel 32 Voorbeeld Cangjie (3)...............................................................................................60<br />

Tabel 33 Voorbeeld Cangjie (4)...............................................................................................61<br />

Thesis Sébastien Bruggeman Pagina 7


Tabel 34 Voorbeeld Cangjie (5)...............................................................................................61<br />

Tabel 35 Voorbeeld Boshiamy.................................................................................................62<br />

Tabel 36 Voorbeeld Tze-loi......................................................................................................63<br />

Tabel 37 Conversietabel b<strong>op</strong>omofo - Pinyin - wa<strong>de</strong>-giles.......................................................82<br />

Tabel 38 Designator sequences gebruikt in ISO-2022-CN en ISO-2022-CN-EXT.................83<br />

Tabel 39 Single shift sequences en shifting characters gebruikt in ISO-2022-CN en ISO-2022-<br />

CN-EXT...........................................................................................................................83<br />

Tabel 40 EUC-TW...................................................................................................................83<br />

Tabel 41 Toewijzing van <strong>de</strong> toetsen voor invoer met <strong>de</strong> Cangjie metho<strong>de</strong>.............................84<br />

Tabel 42 Internetgebruik in China............................................................................................85<br />

Tabel 43 Internetgebruik in Taiwan.........................................................................................85<br />

Tabel 44 Blokken in Unico<strong>de</strong> 3.2.0..........................................................................................86<br />

Thesis Sébastien Bruggeman Pagina 8


LIJST VAN FIGUREN<br />

Figuur 1 Het drie dimensioneel conceptueel mo<strong>de</strong>l gebruikt bij Han-unificatie.....................39<br />

Figuur 2 Gebruik van <strong>de</strong> I<strong>de</strong>ograph Description Sequence......................................................41<br />

Figuur 3 Toetsenbord met Pinyin invoermetho<strong>de</strong> layout.........................................................55<br />

Figuur 4 Toetsenbord met Shuangpin invoermetho<strong>de</strong> layout..................................................55<br />

Figuur 5 Toetsenbord met Zhuyin invoermetho<strong>de</strong> layout........................................................57<br />

Figuur 6 Toetsenbord met Wubizixing invoermetho<strong>de</strong> layout.................................................58<br />

Figuur 7 Toetsenbord met Cangjie invoermetho<strong>de</strong> layout.......................................................59<br />

Figuur 8 Toetsenbord met Sucheng invoermetho<strong>de</strong> layout......................................................61<br />

Figuur 9 Toetsenbord met Dayi invoermetho<strong>de</strong> layout............................................................62<br />

Figuur 10 Toetsenbord met Neima invoermetho<strong>de</strong> layout.......................................................64<br />

Figuur 11 Ruby.........................................................................................................................75<br />

Figuur 12 7-bit en 8-bit co<strong>de</strong> tabel...........................................................................................89<br />

Figuur 13 Een <strong>Chinese</strong> 'typmachine'........................................................................................89<br />

Figuur 14 Boshiamy invoermetho<strong>de</strong>........................................................................................90<br />

Thesis Sébastien Bruggeman Pagina 9


Thesis Sébastien Bruggeman Pagina 10


0. Gebruikte conventies<br />

De karakters gebruikt in <strong>de</strong>ze thesis wor<strong>de</strong>n zoveel mogelijk weergegeven volgens <strong>de</strong><br />

officiële naam en plaats van gebruik. De namen afkomstig uit Taiwan wor<strong>de</strong>n in traditionele<br />

karakters weergegeven, namen afkomstig uit <strong>de</strong> Volksrepubliek China met vereenvoudig<strong>de</strong><br />

karakters (het verschil tussen bei<strong>de</strong> soorten <strong>Chinese</strong> karakters wordt later in <strong>de</strong>ze thesis<br />

uitvoerig beschreven).<br />

De transcriptie van <strong>de</strong> <strong>Chinese</strong> karakters gebeurt volgens <strong>de</strong> Pinyin transcriptie met<br />

toontekens (zie infra). Deze transcriptie werd gekozen omdat ze het makkelijkst te lezen is<br />

voor mensen die geen achtergrond van <strong>de</strong> <strong>Chinese</strong> taal hebben.<br />

Deze thesis is gemaakt in unico<strong>de</strong> (zie infra). De lettertypes die gebruikt wer<strong>de</strong>n in dit<br />

document zijn Times New Roman voor het Romaanse alfabet, 新細明體 voor traditionele<br />

<strong>Chinese</strong> karakters, SimSun voor vereenvoudig<strong>de</strong> <strong>Chinese</strong> karakters, MS Mincho voor Japanse<br />

karakters en Batang voor Koreaanse karakters.<br />

Hexa<strong>de</strong>cimale getallen wor<strong>de</strong>n vooraf gegaan door een 0x.<br />

Om <strong>de</strong>ze thesis ten volle te begrijpen is het nodig dat vooral enkele termen uitgelegd<br />

wor<strong>de</strong>n, zodat er over hun inhoud en gebruik geen verwarring is: 1<br />

Karakter (character): een lid van een set van elementen gebruikt voor <strong>de</strong> organisatie,<br />

controle of representatie van data. 2<br />

Karakterrepertoire (character repertoire) 3 : een set van (abstracte) karakters die geco<strong>de</strong>erd<br />

moeten wor<strong>de</strong>n. Het bevat niet noodzakelijk een or<strong>de</strong>ning. In een karakter repertoire<br />

wordt meestal een naam gegeven aan het karakter, samen met een referentie of een<br />

voorbeeldpresentatie. Soms wor<strong>de</strong>n er karakters ge<strong>de</strong>finieerd die er hetzelf<strong>de</strong> uit zien,<br />

maar die logisch on<strong>de</strong>rschei<strong>de</strong>n zijn. Bijvoorbeeld “A” kan Latin uppercase A, Cyrillic<br />

uppercase A, en Greek uppercase alpha zijn. 4<br />

1 Alhoewel <strong>de</strong> invulling van <strong>de</strong>ze termen niet strikt vast ligt.<br />

2 Het Unico<strong>de</strong> Consortium geeft volgen<strong>de</strong> <strong>de</strong>finitie: ‘The smallest component of written language that has<br />

semantic calues; refers tot he abstract meaning and/or shape, rather than a specific shape (see also glyph),<br />

though in co<strong>de</strong> tables some form of visual representation is essential for the rea<strong>de</strong>r’s un<strong>de</strong>rstanding’. Het World<br />

Wi<strong>de</strong> Web Consortium beschrijft een karakter als een ‘atoom van informatie’.<br />

3 <strong>Chinese</strong> term: 字彙 zìhuì<br />

4 ECMA 35 beschrijft een karakter repertoire als ‘a specified set of characters that are each represented by one<br />

or more bit combinations of a co<strong>de</strong>d character set’.<br />

Thesis Sébastien Bruggeman Pagina 11


Geco<strong>de</strong>er<strong>de</strong> karakterset (co<strong>de</strong>d character set – CCS) 5 : Het ‘mappen’ van een abstract<br />

karakterrepertoire naar een set van niet-negatieve gehele getallen (integers). 6<br />

Voorbeel<strong>de</strong>n van geco<strong>de</strong>er<strong>de</strong> karaktersets zijn ISO 10646 en US ASCII (zie infra).<br />

Karakter co<strong>de</strong>ringsschema (character encoding scheme – CES): Het ‘mappen’ van een<br />

geco<strong>de</strong>er<strong>de</strong> karakterset of verschillen<strong>de</strong> geco<strong>de</strong>er<strong>de</strong> karaktersets naar een set van<br />

sequenties van octetten. Een CES kan dus verschillen<strong>de</strong> CSS omvatten, zo kan EUC-CN<br />

(zie infra) gebruikt wor<strong>de</strong>n om zowel <strong>de</strong> volgen<strong>de</strong> CSS te co<strong>de</strong>ren: ASCII, GB 2312,<br />

CNS 11643 (zie infra).<br />

Character encoding form (CEF): Het ‘mappen’ van een set van niet-negatieve gehele<br />

getalen (van een CCS) naar een set van sequenties van individuele co<strong>de</strong> eenhe<strong>de</strong>n van<br />

een bepaal<strong>de</strong> omschreven breedte, zoals bytes. Deze sequenties hebben niet noodzakelijk<br />

<strong>de</strong>zelf<strong>de</strong> lengte. Het mapt co<strong>de</strong> punten met co<strong>de</strong> eenhe<strong>de</strong>n, terwijl een CES <strong>de</strong> relatie<br />

tussen co<strong>de</strong> eenhe<strong>de</strong>n en bytes weergeeft.<br />

Charset: Een metho<strong>de</strong> om een sequentie van octetten te converteren in een sequentie van<br />

karakters. De conversie kan ook extra controle informatie toevoegen, zoals<br />

richtingsindicators. Deze notering wordt gebruikt in MIME-hea<strong>de</strong>rs (Multipurpose<br />

Internet Mail Extensions).<br />

Co<strong>de</strong>positie (co<strong>de</strong> position): is een geheel getal dat ook wel co<strong>de</strong>punt (co<strong>de</strong>point) wordt<br />

genoemd Een CSS en een co<strong>de</strong>positie van <strong>de</strong>zelf<strong>de</strong> CSS bepalen het karakter.<br />

Octet: een element van <strong>de</strong> set (0, 1, 2, … , 255)<br />

Glyph: Een glyph is <strong>de</strong> eigenlijke representatie van een karakter. Er is geen ‘one-to-one’<br />

relatie tussen karakters en glyphs. Zo heeft het dollar-teken verschillen<strong>de</strong> glyphs: $, $, $,<br />

$ (of soms ook met 2 streepjes er door). Verschillen<strong>de</strong> karakters kunnen soms één glyph<br />

vormen zoals <strong>de</strong> karakters f en i samen het glyph vormen. 7 Een karakter kan een<br />

an<strong>de</strong>re glyph aannemen naar gelang <strong>de</strong> context (dit gebeurt in bijvoorbeeld het Arabisch).<br />

Een an<strong>de</strong>r voorbeeld zijn <strong>de</strong> volgen<strong>de</strong> karakters, Z, Z, Z <strong>de</strong>ze zijn glyphs van Z (latin<br />

capital letter z), maar niet van z (latin small letter z). De term glyph komt van het<br />

Griekse woord voor ‘sculptuur’. 8<br />

5 <strong>Chinese</strong> term: 編碼字符集 biānmǎ zìfújí<br />

6 ECMA 35 beschrijft een CSS als ‘a set of unambiguous rules that establishes a character set and the one-toone<br />

relationship between the characters of the set and their bit combinations’.<br />

7 is een ligatuur: [… ] in één stuk gegoten letters, b.v.: , syn. k<strong>op</strong>pelletter.<br />

8 Het Unico<strong>de</strong> Consortium <strong>de</strong>finieert een glyph als volgt: ‘An abstract form that represents one or more glyph<br />

images’ en een glyph image wordt ge<strong>de</strong>finieerd als ‘The actual, concrete image of a glyph representation having<br />

been rasterized or otherwise imaged onto some display surface.’<br />

Het ISO hanteert volgen<strong>de</strong> <strong>de</strong>finitie in ISO 9541-1: ‘a recognizable abstract graphic symbol which is<br />

in<strong>de</strong>pen<strong>de</strong>nt of a specific <strong>de</strong>sign’<br />

Thesis Sébastien Bruggeman Pagina 12


Big & Little Endian: Er zijn 2 manieren om bytes te or<strong>de</strong>nen (dit is natuurlijk enkel van<br />

toepassing <strong>op</strong> data die meer<strong>de</strong>re bytes bevat), namelijk little endian en big endian.<br />

Bij big endian wordt <strong>de</strong> meest belangrijk byte (<strong>de</strong> byte met <strong>de</strong> hoogste or<strong>de</strong> of meest linkse<br />

bits) in het laagste adres geplaatst met <strong>de</strong> daar<strong>op</strong> volgen<strong>de</strong> bytes in <strong>de</strong> sequentiele hogere<br />

adressen. Bij little endian wordt <strong>de</strong> minst belangrijke byte (<strong>de</strong> byte met <strong>de</strong> laagste of meest<br />

rechtse bits) in het laagste adres geplaatst. Bijvoorbeeld: het <strong>de</strong>cimaal getal 258 (binair:<br />

0100000010) wordt dan in 16 bit omgeving <strong>op</strong>geslagen als volgt:<br />

Little Endian : 00000010 00000001<br />

Big Endian : 00000001 00000010<br />

Little endian wordt gebruikt <strong>op</strong> machines met Vax en Intel processoren (dus dit betekent dat<br />

<strong>computer</strong>s met Windows en Linux doorgaans little endian zijn), big endian in <strong>computer</strong>s met<br />

Motorola en Sun processoren (UNIX en MacOS). Er bestaan systemen die ‘bi-endian’ zijn en<br />

dus met bei<strong>de</strong> overweg kunnen. Het on<strong>de</strong>rscheid tussen big en little endian is van belang bij<br />

het or<strong>de</strong>nen van karakters.<br />

Deze thesis wordt ver<strong>de</strong>r aangevuld met een website die terug te vin<strong>de</strong>n is <strong>op</strong> het volgen<strong>de</strong><br />

internetadres: http://seba.stu<strong>de</strong>ntenweb.org/thesis/<br />

Thesis Sébastien Bruggeman Pagina 13


1. Inleiding<br />

1.1. Talen en schriften<br />

De <strong>Chinese</strong> taal is een groten<strong>de</strong>els monosyllabische en niet-verbuigen<strong>de</strong> taal en dat maakt<br />

een i<strong>de</strong>ografisch 9 schrijfsysteem zeer geschikt. Het <strong>Chinese</strong> schrift is ontstaan omstreeks 2000<br />

voor Christus en heeft een zeer grote invloed gehad <strong>op</strong> het schrift van <strong>de</strong> Japanners, Koreanen<br />

en Vietnamezen. Omdat i<strong>de</strong>ografische karakters min<strong>de</strong>r geschikt zijn voor het weergeven van<br />

<strong>de</strong> Japanse taal ontwikkel<strong>de</strong>n <strong>de</strong> Japanners twee syllabische fonetische 10 schriften, namelijk<br />

het Hiragana en Katakana, <strong>de</strong>ze wor<strong>de</strong>n samen met <strong>de</strong> kanji 11 en het Romaanse 12 schrift<br />

gebruikt. In Korea daarentegen werd een alfabetisch systeem uitgevon<strong>de</strong>n (가모 jamo) dat<br />

‘letters’ groepeert in i<strong>de</strong>ografisch-achtige syllabische blokken, het hangul genaamd (한글<br />

hangul betekent ‘Koreaans schrift’), dit schrift heeft nu bijna het gebruik van hanja 13 doen<br />

verdwijnen. Het Vietnamees heeft in <strong>de</strong> 20 ste eeuw <strong>de</strong> chữ hán 14 laten vallen voor een<br />

alfabetisch schrift, gebaseerd <strong>op</strong> het door ons gebruikte Romaanse schrift (ontwikkeld door<br />

Westerse missionarissen in <strong>de</strong> 17 <strong>de</strong> eeuw). De Chinezen ontwikkel<strong>de</strong>n in het begin van <strong>de</strong><br />

20 ste eeuw ook een fonetisch syllabisch schrift, het Zhuyin (注音符號 zhùyīn fúhào). Een<br />

voorbeeld van al <strong>de</strong>ze schriften vindt men in Tabel 1 <strong>op</strong> pagina 15.<br />

Naast het gebruik van <strong>Chinese</strong> karakters von<strong>de</strong>n <strong>de</strong>ze culturen ook nog karakters uit die<br />

heel sterk <strong>op</strong> <strong>Chinese</strong> karakters lijken 15 , maar die niet in het <strong>Chinese</strong> taalgebied gekend zijn<br />

(国字 kokuji is <strong>de</strong> Japanse term, 국자 / 國字 gugja is <strong>de</strong> Koreaanse term). Deze karakters<br />

gebruiken heel vaak een zelf<strong>de</strong> <strong>op</strong>bouw en on<strong>de</strong>r<strong>de</strong>len als <strong>Chinese</strong> karakters. Door <strong>de</strong>ze<br />

verwantschap is het mogelijk voor <strong>de</strong> verschillen<strong>de</strong> talen om basisteksten van elkaar te<br />

begrijpen indien er <strong>Chinese</strong> karakters gebruikt wor<strong>de</strong>n, maar daarom niet noodzakelijk uit te<br />

9<br />

I<strong>de</strong>ografie: 1) schrift waarin geen klank-, maar begriptekens wor<strong>de</strong>n gebruikt (zoals in het Chinees en in het<br />

hiërogliefenschrift); 2) uitdrukking van een i<strong>de</strong>e.<br />

10<br />

Fonetisch: 1) betrekking hebbend <strong>op</strong> <strong>de</strong> spraakklanken; 2) volgens <strong>de</strong> spraakklanken: fonetisch schrift, schrift<br />

dat zo nauwkeurig mogelijk <strong>de</strong> uitspraak bena<strong>de</strong>rt, waarin ie<strong>de</strong>re klank door een eigen teken wordt voorgesteld;<br />

fonetisch voorgesteld.<br />

11<br />

Kanji, 漢字, Japanse term voor <strong>Chinese</strong> karakters<br />

12<br />

hiermee wordt het Romaanse alfabet bedoeld, ook wel Latijns of Westers alfabet genoemd.<br />

13<br />

Hanja, 한자 / 漢字, Koreaanse term voor <strong>Chinese</strong> karakters<br />

14<br />

Chữ hán, Vietnamese term voor <strong>Chinese</strong> karakters<br />

15<br />

鰯 (iwashi) is het Japanse woord voor sardine. In <strong>de</strong> <strong>Chinese</strong> taal is er geen apart karakter voor sardine er is<br />

wel het woord 沙㆜魚 shādīngyú. 峠 (tōge) en 岾 (점 jeom) zijn respectivelijk het Japanse en Koreaanse<br />

karakter voor ‘bergpas’ en bestaan niet in het Chinees.<br />

Thesis Sébastien Bruggeman Pagina 14


spreken. In <strong>de</strong> lo<strong>op</strong> <strong>de</strong>r tijd hebben karakters afhankelijk van het gebied ook een an<strong>de</strong>re<br />

betekenis gekregen, het <strong>Chinese</strong> karakter 湯 (tāng in het Chinees, tou of yu in het Japans en<br />

thang in het Koreaans) had oorspronkelijk <strong>de</strong> betekenis ‘warm water’. Vandaag betekent het<br />

in het Chinees ‘soep’ terwijl het in het Japans en Koreaans <strong>de</strong> oorspronkelijke betekenis heeft<br />

behou<strong>de</strong>n. Maar ze hebben ook <strong>de</strong> betekenis van ‘soep’ overgenomen in recentere<br />

leenwoor<strong>de</strong>n zoals ‘noodle soep’ (湯麵 Chinees - tāngmiàn, Japans - tanmen, Koreaans -<br />

thangmyen). 16<br />

De metho<strong>de</strong>s om an<strong>de</strong>re talen en schriften dan het Chinees weer te geven valt buiten het<br />

ka<strong>de</strong>r van <strong>de</strong>ze thesis en wor<strong>de</strong>n dus niet behan<strong>de</strong>ld, soms zal er echter wel verwezen wor<strong>de</strong>n<br />

naar gelijkenissen of verschillen tussen <strong>de</strong> <strong>Chinese</strong> taal en <strong>de</strong>ze an<strong>de</strong>re talen.<br />

Tabel 1 Niet <strong>Chinese</strong> schriften gebruikt in Zuidoost Azië<br />

Niet <strong>Chinese</strong><br />

karakters<br />

Romaans schrift abc<strong>de</strong>fghijklmn<strong>op</strong>qrstuvwxyz 1234567890<br />

Zhuyin ㄅㄆㄇㄈㄉㄊㄋㄌㄍㄎㄏㄐㄑㄒㄓㄔㄕㄖㄗㄘㄙㄧㄨㄩㄚㄛㄜ<br />

ㄝㄞㄟㄠㄡㄢㄣㄤㄥㄦ<br />

Hiragana あいうえおかきくけこさしすせそたちつてとなにぬねのはひ<br />

ふへほまみむめもやゆよりるれろわゐゑをんゔ<br />

Katakana アイウエオカキクケコサシスセソタチツテトナニヌネ<br />

ノハヒフヘホマミムメモヤユヨラリルレロワヰ<br />

Jamo ᄀᄁᄂᄃᄄᄅᄆᄇᄈᄉᄊᄌᄍᄎᄏᄐᄑᄒ<br />

Hangul 실시간으로선택한비트에자동으로맞출수있도록하였습니다<br />

Tabel 2 Verschillen<strong>de</strong> varianten van <strong>Chinese</strong> karakters<br />

<strong>Chinese</strong> karakters<br />

Vereenvoudigd 大学之道,在明明德,在亲民,在止于至善。<br />

Traditioneel 大學之道,在明明德,在親民,在止於至善。<br />

Hong Kong 大學之道,在明明德,在親民,在止於至善。<br />

Japan 大学之道,在明明徳,在親民, 在止於至善。<br />

Korea 大學之道,在明明德,在親民,在止於至善。<br />

16 The Unico<strong>de</strong> Standard, Version 3.0, p.260.<br />

Thesis Sébastien Bruggeman Pagina 15


1.2. Vereenvoudiging van <strong>Chinese</strong> karakters<br />

Sinds het ontstaan van het <strong>Chinese</strong> schrift hebben <strong>de</strong> karakters weinig grote veran<strong>de</strong>ringen<br />

on<strong>de</strong>rgaan. Er zijn nieuwe karakters bijgekomen, sommige door het fout k<strong>op</strong>iëren van<br />

karakters, an<strong>de</strong>re wer<strong>de</strong>n gemaakt om nieuwe dingen een naam te geven.<br />

Het historisch zeer belangrijke werk, Kangxi Zidian (康熙字典 kāngxī zìdiǎn) uit <strong>de</strong> 18 <strong>de</strong><br />

eeuw bevat 47 035 karakters, <strong>de</strong> Zhonghua Zihai (中华字海 zhōnghuá zìhǎi) uit 1994 telt<br />

ongeveer 85 000 karakters. Doorgaans wordt het aantal vaak gebruikte karakters geschat <strong>op</strong><br />

ongeveer 5 000 (dit is het aantal dat nodig is om een krant vlot te kunnen lezen).<br />

De belangrijkste hervorming van het <strong>Chinese</strong> schrift is misschien wel <strong>de</strong> vereenvoudiging<br />

van enkele duizen<strong>de</strong>n karakters in het mid<strong>de</strong>n van <strong>de</strong> 20 ste eeuw. In 1949 kwamen <strong>de</strong><br />

Communisten in China aan <strong>de</strong> macht, nadat ze <strong>de</strong> Nationalisten had<strong>de</strong>n verdreven naar<br />

Taiwan. Terwijl <strong>de</strong> nationalisten <strong>op</strong> Taiwan <strong>de</strong> Republiek China in stand hiel<strong>de</strong>n riepen <strong>de</strong><br />

communisten <strong>de</strong> Volksrepubliek China uit en voer<strong>de</strong>n verschillen<strong>de</strong> hervormingen door.<br />

Eén daarvan was <strong>de</strong> vereenvoudiging van <strong>de</strong> karakters. 17 Het doel van <strong>de</strong> vereenvoudiging<br />

was om het aanleren van <strong>Chinese</strong> karakters te vergemakkelijken en zo het analfabetisme tegen<br />

te gaan. In 1952 werd het <strong>Chinese</strong> Character Reform Committee (中国文字改革委员会,<br />

zhōngguó wénzì gaǐgé wěiyuánhuì) <strong>op</strong>gericht om het probleem van karaktervereenvoudiging<br />

te bestu<strong>de</strong>ren en een lijst aan te maken van te vereenvoudigen karakters. Het resultaat van hun<br />

werk was het uitvaardigen van een standaard romanisatie 18 systeem, Pinyin genaamd (拼音<br />

pīnyīn, waarover later meer), het beperken van het aantal karakters voor dagelijks gebruik en<br />

<strong>de</strong> vereenvoudiging van duizen<strong>de</strong>n karakters.<br />

Verschillen<strong>de</strong> lijsten wer<strong>de</strong>n gepubliceerd, waaron<strong>de</strong>r lijsten van vaak gebruikte karakters<br />

en die aldus moeten on<strong>de</strong>rwezen wor<strong>de</strong>n <strong>op</strong> school, maar ze wor<strong>de</strong>n ook gebruikt voor het<br />

<strong>op</strong>stellen van karakter repertoires. Dergelijke lijsten wer<strong>de</strong>n ook in Taiwan en Japan gemaakt.<br />

Op 28 januari 1956 verscheen het <strong>Chinese</strong> Character Simplification Scheme (汉字简化方<br />

案 hànzì jiǎnhuà fāng’àn) en in 1964 verscheen <strong>de</strong> General List of Simplified Characters (简<br />

化字总表 jiǎnhuàzì zǒngbiǎo).<br />

17 Eigenlijk was <strong>de</strong> vereenvoudigsproces reeds <strong>op</strong> het eind van <strong>de</strong> 19 <strong>de</strong> eeuw gestart tij<strong>de</strong>ns <strong>de</strong> zoektocht naar<br />

mo<strong>de</strong>rniteit. In 1935 werd er reeds een lijst met vereenvoudig<strong>de</strong> karakters uitgegeven (第㆒批簡體字表 dìyīpī<br />

jiǎntǐ zìbiāo) dat 324 vereenvoudig<strong>de</strong> karakters bevatte.<br />

18 Romaniseren: 1) (overg.) on<strong>de</strong>r <strong>de</strong> invloed van <strong>de</strong> Romeinse beschaving brengen, een Romeins karakter doen<br />

aannemen; 2) (overg.) Romaanse invloed doen on<strong>de</strong>rgaan, een Romaans karakter doen aannemen; 3) (onoverg.)<br />

(bk.) zich richten naar Romeinse (Italiaanse) voorbeel<strong>de</strong>n.<br />

Thesis Sébastien Bruggeman Pagina 16


In 1977 werd er net na <strong>de</strong> Culturele Revolutie nog een hervorming doorgevoerd (<strong>op</strong> 12<br />

<strong>de</strong>cember werd 第二次汉字简化方案(草案) afgekondigd) maar die werd uitein<strong>de</strong>lijk in juli<br />

1978 terug afgeblazen omdat ze te drastisch bleek te zijn. De laatste versie van <strong>de</strong> General list<br />

of Simplified Characters werd <strong>op</strong>gesteld door het ‘National Working Committe on Language<br />

and Characters’ (国家语言文字工作委员会, guójiā yǔyán wénzì gōngzuò wěiyuánhuì) en<br />

dateert van 10 oktober 1986. Het bevat 2 235 vereenvoudig<strong>de</strong> karakters (<strong>de</strong> lijst van 1956<br />

bevatte er slechts 515 vereenvoudig<strong>de</strong> karakters, <strong>de</strong> lijst van 1964 bevatte er 2 236), <strong>de</strong>ze<br />

karakters zijn <strong>op</strong>gesplitst in 3 tabellen. De eerste tabel zijn traditionele karakter die wanneer<br />

ze vereenvoudigd zijn geen <strong>de</strong>el uitmaken van an<strong>de</strong>re karakters (350). De twee<strong>de</strong> tabel zijn<br />

vereenvoudig<strong>de</strong> karakters die <strong>de</strong>el kunnen uitmaken van an<strong>de</strong>re vereenvoudig<strong>de</strong> karakters 132<br />

ervan kunnen als volwaardig karakter voorkomen, 14 zijn vereenvoudig<strong>de</strong> karakters maar die<br />

niet zelfstandig kunnen gebruikt wor<strong>de</strong>n. De <strong>de</strong>r<strong>de</strong> tabel zijn vereenvoudig<strong>de</strong> karakters die<br />

traditionele <strong>de</strong>len uit <strong>de</strong> vorige tabel bevatten 19 .<br />

Tabel 3 Vereenvoudiging van <strong>Chinese</strong> karakters<br />

Voor vereenvoudiging Na vereenvoudiging Betekenis<br />

車 车 auto, chē<br />

鄭 郑 plechtig, zhèng<br />

學 学 stu<strong>de</strong>ren, xué<br />

Deze vereenvoudiging gebeur<strong>de</strong> in <strong>de</strong> Volksrepubliek China. De Republiek China<br />

(Taiwan), Hong Kong, Macau en <strong>de</strong> meer<strong>de</strong>rheid van <strong>de</strong> overzeese Chinezen behiel<strong>de</strong>n <strong>de</strong><br />

niet-vereenvoudig<strong>de</strong> karakters, enkel Singapore nam <strong>de</strong> vereenvoudiging over. Om het<br />

on<strong>de</strong>rscheid makkelijker te maken wordt er in <strong>de</strong>ze thesis gesproken over vereenvoudig<strong>de</strong><br />

karakters (简体字 jiǎntǐzì) en traditionele karakters (繁體字 fántǐzì). Men spreekt van<br />

“traditioneel” omdat <strong>de</strong> karakters teruggaan <strong>op</strong> <strong>de</strong> oudste vormen van het <strong>Chinese</strong> schrift.<br />

Ook <strong>de</strong> Japanners hebben vereenvoudigingen doorgevoerd in hun <strong>Chinese</strong> karakters, maar<br />

<strong>de</strong>ze staan los van <strong>de</strong> vereenvoudigingen die in <strong>de</strong> Volksrepubliek China hebben<br />

plaatsgevon<strong>de</strong>n.<br />

19 Bron : http://www.sungwh.freeserve.co.uk/hanzi/t-s-intro.htm en<br />

http://www.chineseon.net/resources/hzstand/in<strong>de</strong>x.php<br />

Thesis Sébastien Bruggeman Pagina 17


1.3. Typografie<br />

Typografisch 20 kunnen <strong>Chinese</strong> teksten <strong>op</strong> twee manieren georiënteerd zijn. Bij klassieke<br />

teksten en proza wor<strong>de</strong>n karakters veelal van boven naar on<strong>de</strong>r en van rechts naar links<br />

geschreven. De twee<strong>de</strong> oriëntatie is van links naar rechts en van boven naar on<strong>de</strong>r. Deze<br />

oriëntatie is <strong>de</strong>zelf<strong>de</strong> als voor <strong>de</strong> westerse talen, en is nu <strong>de</strong> meest gebruikte en <strong>de</strong> standaard<br />

voor mo<strong>de</strong>rne en wetenschappelijke teksten. De eerste oriëntatie kan problemen geven met<br />

niet-<strong>Chinese</strong> software. Daarnaast zijn er ook nog heel wat stylistische moeilijkhe<strong>de</strong>n<br />

verbon<strong>de</strong>n met het weergeven van verticale georiënteer<strong>de</strong> tekst (zoals plaatsing van<br />

interpunctietekens en oriëntatie van Westerse letters en cijfers).<br />

Tabel 4 Typografie<br />

大學之道,在明明德,在親民,在止於至<br />

善。知止而后有定,定而后能靜,靜而后<br />

能安,安而后能慮,慮而后能得。物有本<br />

末,事有終始,知所先后,則近道矣。<br />

矣 后<br />

。<br />

,<br />

則<br />

近<br />

道<br />

Rechts links – boven on<strong>de</strong>r Boven on<strong>de</strong>r – links rechts<br />

1.4. Karakters en <strong>computer</strong>s<br />

In een <strong>computer</strong> wor<strong>de</strong>n karakters gerepresenteerd aan <strong>de</strong> hand van een binaire co<strong>de</strong>. Het<br />

symbool 0 (nul) wordt gebruikt voor <strong>de</strong> representatie van <strong>de</strong> afwezigheid van een puls, het<br />

symbool 1 (één) voor <strong>de</strong> aanwezigheid ervan. Wanneer men typt wordt <strong>de</strong> co<strong>de</strong> van <strong>de</strong> toets<br />

(keyco<strong>de</strong>) doorgestuurd, die co<strong>de</strong> wordt dan gebruikt om in <strong>de</strong> keyboard mapping table het<br />

overeenkomstige karakter <strong>op</strong> te zoeken. Zo wordt bij <strong>de</strong> aanslag van ‘A’ <strong>de</strong> toetsco<strong>de</strong> 14<br />

gegenereerd, in <strong>de</strong> keyboard mapping table komt dit overeen met karakter 65 (<strong>de</strong> ASCII co<strong>de</strong><br />

voor A, binair wordt dit gerepresenteerd als 0100 0001).<br />

Stel dat men <strong>de</strong> mapping van het toetsenbord veran<strong>de</strong>rt (van bijvoorbeeld querty naar<br />

azerty) zal <strong>de</strong> aanslag van eenzelf<strong>de</strong> toets een geheel an<strong>de</strong>r resultaat geven. Vervolgens wordt<br />

<strong>de</strong> 'vorm' van <strong>de</strong> letter A uit een lettertypebestand (font) gehaald en <strong>op</strong> het beeldscherm<br />

afgebeeld. Het voor<strong>de</strong>el van een <strong>de</strong>rgelijke aanpak is dat het veel meer mogelijkhe<strong>de</strong>n creëert.<br />

Men hoeft slechts één lettertypebestand te maken waarin men <strong>de</strong> co<strong>de</strong>s van <strong>de</strong> verschillen<strong>de</strong><br />

letters associeert met een vorm.<br />

20 Typografie: 1) boekdrukkunst; 2) (m.betr.t. een bepaald boek) het drukken en <strong>de</strong> wijze van drukken (keuze<br />

van lettertype, vormgeving)<br />

Thesis Sébastien Bruggeman Pagina 18<br />

始<br />

,<br />

知<br />

所<br />

先<br />

末<br />

,<br />

事<br />

有<br />

終<br />

能<br />

得<br />

。<br />

物<br />

有<br />

本<br />

能<br />

慮<br />

,<br />

慮<br />

而<br />

后<br />

能<br />

安<br />

,<br />

安<br />

而<br />

后<br />

能<br />

靜<br />

,<br />

靜<br />

而<br />

后<br />

有<br />

定<br />

,<br />

定<br />

而<br />

后<br />

善<br />

。<br />

知<br />

止<br />

而<br />

后<br />

民<br />

,<br />

在<br />

止<br />

於<br />

至<br />

明<br />

明<br />

德<br />

,<br />

在<br />

親<br />

大<br />

學<br />

之<br />

道<br />

,<br />


Een karakterset bestaat uit een lijst van alle karakters die weergegeven moeten kunnen<br />

wor<strong>de</strong>n, geor<strong>de</strong>nd in een bepaal<strong>de</strong> volgor<strong>de</strong>. Voor <strong>de</strong> Westerse talen is dit geen probleem<br />

want daar kunnen alle karakters makkelijk weergegeven wor<strong>de</strong>n. Bij <strong>Chinese</strong> karakters is het<br />

onmogelijk om alle karakters weer te geven, daarom wordt een lijst <strong>op</strong>gesteld van<br />

vaakgebruikte karakters (常用字 chǎngyòngzì). Deze lijsten wor<strong>de</strong>n niet enkel <strong>op</strong>gesteld voor<br />

het maken van karaktersets maar ook voor het aanleren van karakters <strong>op</strong> school.<br />

Co<strong>de</strong>pagina’s (co<strong>de</strong>pages. IBM gebruikt <strong>de</strong> term Co<strong>de</strong> Page Global I<strong>de</strong>ntifier) zijn<br />

karaktersets die aangepast zijn aan een bepaald besturingssysteem of een co<strong>de</strong>ring, die één of<br />

meer<strong>de</strong>re karaktersets aan kan. Zo slaat Microsoft’s Co<strong>de</strong>page 950 21 <strong>op</strong> <strong>de</strong> Big5 karakterset,<br />

Big5 co<strong>de</strong>ring en Microsoft extenties. Microsoft’s Co<strong>de</strong>page 936 22 slaat <strong>op</strong> GBK en EUC<br />

co<strong>de</strong>ring.<br />

Er zijn twee plaatsen waar <strong>de</strong> namen van <strong>de</strong> karaktersets kunnen geregistreerd wor<strong>de</strong>n<br />

namelijk in het ECMA-register 23 en het IANA-register 24 , <strong>de</strong> procedure tot registratie wordt<br />

beschreven in RFC 2278 IANA Charset Registration Procedures. Nu wor<strong>de</strong>n er nog weinig<br />

nieuwe karaktersets geregistreerd met het toenemend belang en gebruik van Unico<strong>de</strong> (zie<br />

infra).<br />

21 http://www.microsoft.com/global<strong>de</strong>v/reference/dbcs/950.htm<br />

22 http://www.microsoft.com/global<strong>de</strong>v/reference/dbcs/936.htm<br />

23 ECMA: Eur<strong>op</strong>ean Computer Manufacturers Association; http://www.ecma.ch<br />

24 IANA: Internet Assigned Numbers Authority; http://www.iana.org<br />

Thesis Sébastien Bruggeman Pagina 19


2. Karaktersets<br />

2.1. Westerse talen<br />

De <strong>computer</strong> (zoals we die in zijn huidige vorm kennen als pc of mainframe) is ontstaan<br />

in <strong>de</strong> Verenig<strong>de</strong> Staten van Amerika en het Verenigd Koninkrijk. De oorspronkelijke<br />

karaktersets die dus ontwikkeld wer<strong>de</strong>n om tekst weer te geven <strong>op</strong> een scherm zijn dan ook<br />

enkel voor <strong>de</strong> Engelse taal ontwikkeld. Eind jaren ‘50 begon het ASA (American Standard<br />

Association, dat later werd hernoemd tot ANSI, American National Standards Institute 25 ) een<br />

on<strong>de</strong>rzoek om een nieuwe standaard te ontwikkelen. Er werd besloten om een 7 bit co<strong>de</strong> te<br />

ontwikkelen. Een 7 bit co<strong>de</strong> moest namelijk geen ‘verwisseling’ (shifting) toepassen zoals <strong>de</strong><br />

<strong>op</strong> dat moment bestaan<strong>de</strong> 5 bit Baudot co<strong>de</strong>. 26 Op 17 juni 1963 werd X3.4-1963 gepubliceerd.<br />

Het liet verschei<strong>de</strong>ne posities <strong>op</strong>en, en het duur<strong>de</strong> tot 1967 eer <strong>de</strong> ASCII co<strong>de</strong> zoals we die nu<br />

kennen vast lag (X3.4-1967 aka ISO-646-US-1972). ASCII laat 128 karakters toe, 94<br />

karakters en 34 controle karakters (<strong>op</strong> <strong>de</strong> posities 0 tot en met 32 en positie 127). Het bevat<br />

hoofd- en kleine letters Latijn, Arabische getallen, karakters en controle karakters.<br />

Omdat een 8 bit co<strong>de</strong> makkelijker te hanteren is voor een <strong>computer</strong> 27 werd <strong>de</strong> laatste bit in<br />

<strong>de</strong> 7-bit ASCII co<strong>de</strong> <strong>op</strong>gevuld met een parity bit, highlight bit of een end-of-string bit. Door<br />

het gebruik van een pariteitsbit kon<strong>de</strong>n <strong>de</strong> zeven eerste bits gecontroleerd wor<strong>de</strong>n. Een<br />

mo<strong>de</strong>rne versie hiervoor is <strong>de</strong> checksum die bij Belgische bankrekeningsnummers gebruikt<br />

wordt. Later zou <strong>de</strong>ze achtste bit gebruikt wor<strong>de</strong>n om aan internationalisation (i18n) te doen.<br />

In 1967 werd ISO 28 Recommendation 646 uitgevaardigd 29 . Het kwam er <strong>op</strong> neer dat <strong>de</strong><br />

ASCII co<strong>de</strong> werd aanvaard zoals die was, met uitzon<strong>de</strong>ring van die 10 karakterposities (die<br />

overeenkomen met <strong>de</strong> karakters @ [ \ ] ^ ` { | } ~) die wer<strong>de</strong>n gespecificeerd in een versie van<br />

<strong>de</strong> aanbeveling gekend als International Reference Version (IRV).<br />

25 http://www.ansi.org<br />

26 De Baudot co<strong>de</strong> wordt nog steeds voor het nu snel afnemen<strong>de</strong> telexverkeer gebruikt.<br />

27 8 bits zijn 1 byte, <strong>computer</strong>s werken efficiënter wanneer ze data in bytes moeten verwerken. Dit komt omdat<br />

het intern circuit ontworpen is met 'data pathways' van 8, 16, 32, of 64 bits breed. Om <strong>de</strong>ze re<strong>de</strong>n is een 10, 15<br />

bit karakter co<strong>de</strong> min<strong>de</strong>r efficiënt in een <strong>computer</strong>.<br />

28 International Standard Organisation 國際標準組織 guójì biāozhǔn zǔzhī, http://www.iso.org<br />

29 Toen gebruikte ISO nog eer<strong>de</strong>r Recommendations in plaats van Standards. De laatste versie van <strong>de</strong>ze<br />

standaard is <strong>de</strong> <strong>de</strong>r<strong>de</strong> versie, gepubliceer in 1991.<br />

Thesis Sébastien Bruggeman Pagina 20


De ASCII co<strong>de</strong> werd ook gebruikt als basis voor het creëren van 7 bit karakterco<strong>de</strong>s (vaak<br />

afhankelijk van <strong>de</strong> <strong>computer</strong>maker zoals bijvoorbeeld IBM, Apple, Microsoft) voor talen die<br />

niet gebruik maakten van het Latijnse alfabet zoals bijvoorbeeld Arabisch en Grieks. Door het<br />

slechts ge<strong>de</strong>eltelijk vastliggen van <strong>de</strong> ASCII-standaard rezen en rijzen er problemen bij het<br />

gebruik <strong>op</strong> verschillen<strong>de</strong> <strong>computer</strong>systemen. Zo is <strong>de</strong> binaire waar<strong>de</strong> voor “à” <strong>op</strong> een<br />

Macintosh 136, <strong>op</strong> een Windows pc 133, en een UNIX systeem 224. Dus afhankelijk van het<br />

platform kan “à” afgebeeld wor<strong>de</strong>n als “à” (Macintosh), “ê” (Windows) of “ “ (unix). 30 Tot <strong>op</strong><br />

vandaag zijn er 180 karaktersets gebaseerd <strong>op</strong> <strong>de</strong> ASCII co<strong>de</strong> geregistreerd bij het ISO.<br />

Doordat er in <strong>de</strong> Eur<strong>op</strong>ese talen letters wor<strong>de</strong>n gebruikt met accenten <strong>op</strong>, vol<strong>de</strong>ed <strong>de</strong><br />

ASCII standaard niet. Daarom werd er een 8-bit extensie ontwikkeld voor <strong>de</strong> 7-bit co<strong>de</strong> (in<br />

een eerste fase werd een aangepaste versie van ASCII ontwikkeld zoals het Duitse DIN 66003<br />

of het Deense DS 2089. Dit zorg<strong>de</strong> er echter wel voor dat in <strong>de</strong>rgelijke karaktersets an<strong>de</strong>re<br />

karakters niet meer toegankelijk waren). Een 8-bit co<strong>de</strong> liet toe om bijna alle maar niet alle<br />

symbolen en letters te typen.<br />

Om een elektronisch Babel te vermij<strong>de</strong>n creëer<strong>de</strong> het ISO <strong>de</strong> standaard ISO 2022<br />

(ISO/IEC 2022: Character co<strong>de</strong> structure and extension techniques) dat vastlegt hoe 7 en 8<br />

bit karakterco<strong>de</strong>s moet gestructureerd en uitgebreid wor<strong>de</strong>n. In <strong>de</strong>ze standaard wordt<br />

beschreven hoe <strong>de</strong> co<strong>de</strong>tabellen er moeten uitzien (zie Figuur 12 <strong>op</strong> pagina 89). Deze<br />

co<strong>de</strong>tabellen wor<strong>de</strong>n dan later <strong>op</strong>gevuld met karakters. Vaak wordt er verwezen naar een<br />

bepaal<strong>de</strong> positie aan <strong>de</strong> hand van <strong>de</strong> rij- en kolom nummer..<br />

Deze standaard werd later toegepast om <strong>de</strong> standaard die officieus gekend is als Latin-1<br />

(officiële naam: ISO 8859-1) te maken, <strong>de</strong>ze laatste is een extensie van ASCII/ISO 646 en<br />

wordt meestal gebruikt voor het uitwisselen van informatie <strong>op</strong> het internet in West-Eur<strong>op</strong>a.<br />

ISO 8859 is een 8-bit karakterset die vooral gericht is <strong>op</strong> data processing in West- en Oost-<br />

Eur<strong>op</strong>a. Er zijn nu reeds zestien varianten <strong>op</strong> <strong>de</strong>ze karakterset, zie Tabel 5 voor meer<br />

informatie.<br />

30 De<strong>de</strong>ne & Herroelen, Inleiding tot <strong>de</strong> informatica, Deel A, Wouters, Leuven, p.18-19.<br />

Thesis Sébastien Bruggeman Pagina 21


Tabel 5 ISO 8859<br />

Naam Inhoud Jaar<br />

ISO 8859-1 Latin alphabet no.1 (West Eur<strong>op</strong>ees) 1987<br />

ISO 8859-2 Latin alphabet no.2 (Oost Eur<strong>op</strong>ees) 1987<br />

ISO 8859-3 Latin alphabet no.3 (Zuid Eur<strong>op</strong>ees) 1988<br />

ISO 8859-4 Latin alphabet no.4 (Noord Eur<strong>op</strong>ees) 1988<br />

ISO 8859-5 Latin/Cyrillic alphabet 1988<br />

ISO 8859-6 Latin/Arabic alphabet 1987<br />

ISO 8859-7 Latin/Greek alphabet 1987<br />

ISO 8859-8 Latin/Hebrew alphabet 1988<br />

ISO 8859-9 Latin alphabet no.5 (Turks) 1989<br />

ISO 8859-10 Latin alphabet no.6 (Nordic) 1992<br />

CD 8859-11 Latin/Thai alphabet 2001<br />

ISO 8859-13 Latin alphabet no.7 (Baltic Rim) 1998<br />

ISO 8859-14 Latin alphabet no.8 (Celtic) 1998<br />

ISO 8859-15 Latin alphabet no.9 (aanpassing van Latin1 oa euro on<strong>de</strong>rsteuning) 1999<br />

ISO 8859-16 Latin alphabet no.10 2001<br />

Verschillen<strong>de</strong> <strong>computer</strong>makers ontwikkel<strong>de</strong>n hun eigen co<strong>de</strong>pagina’s. Hierdoor kreeg<br />

men voor eenzelf<strong>de</strong> taal verschillen<strong>de</strong> co<strong>de</strong>pagina’s, aan <strong>de</strong> ene kant <strong>de</strong> particuliere<br />

co<strong>de</strong>pagina’s (pr<strong>op</strong>rietary co<strong>de</strong> pages) en aan <strong>de</strong> an<strong>de</strong>re kant <strong>de</strong> gestandaardiseer<strong>de</strong>.<br />

Dergelijke particuliere co<strong>de</strong> pagina’s wer<strong>de</strong>n vooral door OEM’s (Original Equipment<br />

Manufacturer) gemaakt zodat tekst gebaseer<strong>de</strong> PC’s in staat zou<strong>de</strong>n zijn om lijn-karakters af<br />

te kunnen printen en af te beel<strong>de</strong>n; ze wor<strong>de</strong>n ook nog vaak gebruikt om toegang te hebben tot<br />

data gecreëerd door MS-DOS gebaseer<strong>de</strong> programma’s. Dergelijke particuliere co<strong>de</strong>pagina’s<br />

hebben meestal een 3-getals co<strong>de</strong>, bijvoorbeeld. CP 437 voor Amerikaans Engels.<br />

2.2. Oosterse talen<br />

De Japanners waren <strong>de</strong> eersten die probeer<strong>de</strong>n hun taal weer te geven <strong>op</strong> <strong>de</strong> <strong>computer</strong>.<br />

Ze slaag<strong>de</strong>n er in om katakana weer te geven, dit is een set van 63 karakters die gebruikt<br />

wor<strong>de</strong>n om het Japans fonetisch weer te geven. Er was echter nog geen mogelijkheid om kanji<br />

weer te geven.<br />

Dit gebeur<strong>de</strong> met het <strong>op</strong> 1 juni 1969 vastegeleg<strong>de</strong> JIS C 6220 31 dat zowel ASCII als<br />

katakana kon weergeven. Er werd een <strong>op</strong>lossing gevon<strong>de</strong>n om kanji weer te geven, namelijk<br />

het gebruik van twee bytes om één karakter weer te geven. Dit bracht het totaal van mogelijk<br />

31 JIS: Japanese Industry Standard<br />

Thesis Sébastien Bruggeman Pagina 22


weer te geven karakters <strong>op</strong> 65 536. 32 Op 1 januari 1978 werd JIS C 6226-1978 vastgelegd,<br />

het bevatte 6 499 <strong>Chinese</strong> karakters (kanji) en 453 an<strong>de</strong>re karakters.<br />

Een 2 byte karakterco<strong>de</strong> wil zeggen dat er 16 bits wor<strong>de</strong>n gebruikt voor het weergeven<br />

van één karakter, zo wordt het karakter ‘hemel’ (天, tiān) binair als volgt weergegeven, 1101<br />

0001 1010 0100 (Big5). Dit wou echter niet zeggen dat <strong>de</strong> 1 byte co<strong>de</strong> had afgedaan, ze<br />

breid<strong>de</strong>n gewoon het concept van 1 byte uit, dat wil zeggen dat een tekst een mix werd van 1<br />

en 2 byte karakters. Hoe <strong>de</strong>ze uit elkaar wor<strong>de</strong>n gehou<strong>de</strong>n hangt af van <strong>de</strong> co<strong>de</strong>ring. Om <strong>de</strong><br />

on<strong>de</strong>rsteuning en compatibiliteit met 1 byte karakters te bewaren beginnen <strong>de</strong> 2 byte co<strong>de</strong>s<br />

allemaal pas bij hogere posities ( > 0x7F). De eerste byte specificeert <strong>de</strong> rij en <strong>de</strong> twee<strong>de</strong> byte<br />

<strong>de</strong> cel in die rij.<br />

2.2.1. Traditioneel Chinees<br />

Gebied : Taiwan, Hong Kong, Macau, Overzeese Chinezen.<br />

a) CCCII en EACC<br />

CCCII staat voor <strong>Chinese</strong> Character Co<strong>de</strong> for Information Interchange (㆗文資訊交換碼,<br />

zhōngwén zīxùn jiāohuàn mǎ). Het werd ontwikkeld in 1980 om aan <strong>de</strong> Amerikaanse nood<br />

om <strong>op</strong> <strong>de</strong> <strong>computer</strong> met Oost-Aziatische talen te kunnen werken te voldoen. Daarom werd er<br />

een gezant gestuurd om <strong>de</strong> mogelijkhe<strong>de</strong>n te on<strong>de</strong>rzoeken. Op dat ogenblik was <strong>de</strong> enige<br />

standaard om Aziatische talen weer te geven JIS C 6226-1978 en daarom werd ge<strong>op</strong>teerd om<br />

<strong>de</strong>ze standaard over te nemen. Overzeese Chinezen, Amerikaanse Oost-Aziatische<br />

bibliotheken en Taiwanese vertegenwoordigers protesteer<strong>de</strong>n echter tegen <strong>de</strong>ze beslissing met<br />

<strong>de</strong> argumentatie dat Kanji niet <strong>de</strong>zelf<strong>de</strong> betekenis weergeven als <strong>Chinese</strong> karakters 33 .<br />

In Taiwan werd dan een tij<strong>de</strong>lijk comité CCAG (<strong>Chinese</strong> Character Analysis Group; 國字<br />

整理小組 guózì zhěnglǐ xiǎozǔ) <strong>op</strong>gericht dat het Chinees, Japans en Koreaans on<strong>de</strong>rzocht en<br />

<strong>de</strong> verschillen<strong>de</strong> varianten van <strong>de</strong> <strong>Chinese</strong> karakters in die talen. Zo kwam het CCCII in 1980<br />

tot stand. De Amerikanen aanvaard<strong>de</strong>n die standaard om Chinees, Japans en Koreaans mee<br />

weer te geven. In Taiwan zelf werd <strong>de</strong> standaard echter fel bekritiseerd. De karakterset werd<br />

herzien in 1981 (versie 2), 1982 (versie 2.2), 1985 (versie 2.3) en 1987 (versie 3).<br />

32 2^16 = 65 536<br />

33 http://www.math.ncu.edu.tw/~shann/<strong>Chinese</strong>/bbs97.html<br />

Thesis Sébastien Bruggeman Pagina 23


CCCII is <strong>op</strong>gebouwd uit 16 lagen die <strong>op</strong>gebouwd zijn <strong>op</strong>eenvolgen<strong>de</strong> 94x94 niveaus, tot 6<br />

na elkaar. Elke laag vertegenwoordigt een parallelle versie van <strong>de</strong>zelf<strong>de</strong> karakters. In totaal<br />

zijn er zo 94 niveaus. Het resultaat is een 94x94x94 ruimte om karakters in te co<strong>de</strong>ren.<br />

Voor elk groep van variante karakters wordt er een standaard karakter gekozen. Die wordt<br />

geplaatst in <strong>de</strong> eerste laag, <strong>de</strong> rest van <strong>de</strong> variante karakters wor<strong>de</strong>n in lagen twee tot zeven<br />

geplaatst, laag twee wordt wel voorbehou<strong>de</strong>n voor vereenvoudig<strong>de</strong> karakters. Het gebruikt 3<br />

bytes om één karakter weer te geven. Voor elk variant karakter is <strong>de</strong> eerste en twee<strong>de</strong> byte<br />

gelijk aan het standaard karakter, <strong>de</strong> <strong>de</strong>r<strong>de</strong> byte representeert <strong>de</strong> laag waar het karakter zich<br />

bevindt. De <strong>Chinese</strong> karakters zijn geor<strong>de</strong>nd volgens radicaal en vervolgens volgens het<br />

aantal streepjes. De uitgave van 1987 bevat 53 940 karakters. Er wordt nog steeds gewerkt<br />

aan een volgen<strong>de</strong> versie die 75 684 karakters zou moeten bevatten.<br />

Er werd ook een <strong>Chinese</strong> Character Database (CCDB, ㆗國文字資料庫 zhōngguó wénzì<br />

zīliàokù) uitgegeven die van elk karakter <strong>de</strong> attributen bevat zoals sleutel, aantal streepjes en<br />

uitspraak. De CCCII wordt in vele bibliotheken gebruikt omdat het tot nu toe <strong>de</strong> enige is die<br />

voldoet aan <strong>de</strong> nood van <strong>de</strong> bibliotheken.<br />

Tabel 6 CCCII (structuur)<br />

Laag Niveau Inhoud<br />

1 1-6 Non-hanzi en hanzi<br />

2 7-12 Vervoudig<strong>de</strong> <strong>Chinese</strong> karakters (PRC)<br />

3-12 13-72 Variante vormen van <strong>Chinese</strong> karakters uit laag 1<br />

13 73-78 Japanse kana en kanji<br />

14 79-84 Koreaans jamo, hangul en hanja<br />

15 85-90 Reserved<br />

16 91-94 An<strong>de</strong>re karakters<br />

Tabel 7 CCCII (laag 1)<br />

Range Aantal<br />

Controle karakters (niveau 1) Rij 1 0<br />

<strong>Chinese</strong> punctuatie (niveau 1) Rij 11 35<br />

Klassieke radicalen (niveau 1) Rij 12-14- 214<br />

<strong>Chinese</strong> nummers en fonetische symbolen (niveau 1) Rij 15 78<br />

Vaak gebruikte <strong>Chinese</strong> karakters (niveau 1) Rij 16-67 4 808<br />

Min<strong>de</strong>r vaak gebruikte <strong>Chinese</strong> karakters (niveau 1 – 3) Rij 68-64 17 032<br />

An<strong>de</strong>re <strong>Chinese</strong> karakters (niveau 3 – 6) Rij 65-5 20 583<br />

Totaal 42 750<br />

Thesis Sébastien Bruggeman Pagina 24


Een afgelei<strong>de</strong> karakterset is ANSI Z39.64-1989 (East Asian Character Co<strong>de</strong> Set, afgekort<br />

als EACC, oorspronkelijk was <strong>de</strong> naam RLIN East Asian Character Co<strong>de</strong>, afgekort als<br />

REACC), <strong>de</strong>ze bevatte in mei 2001 34 15 728 karakters. Het werd in 1983 ontwikkeld door<br />

Research Libraries Group in samenwerking met het US Library of Congress en <strong>Chinese</strong><br />

Character Analysis Group. In 1989 werd <strong>de</strong>ze karakterset door het ANSI goedgekeurd. In<br />

mei 2001 werd een voorstel ingediend om EACC te ‘mappen’ naar Unico<strong>de</strong>. Dit voorstel<br />

werd in augustus 2001 goedgekeurd.<br />

Tabel 8 EACC<br />

Range Aantal<br />

<strong>Chinese</strong> karakters (voor Chinees, Japans en Koreaans) 13 468<br />

Japans Katakana 86<br />

Japans Hiragana 83<br />

Japanse geluidstekens 4<br />

Koreaans Hangul (mo<strong>de</strong>rn) 1 966<br />

Koreaans Hangul (archaic) 29<br />

Koreaans Jamo 33<br />

Punctuatie tekens (Oost-Azië) 9<br />

Punctuatietekens (Westers) 14<br />

I<strong>de</strong>ographic "component input method" characters (used in RLIN system) 35<br />

Totaal 15 727<br />

b) CNS<br />

CNS 5205 draagt <strong>de</strong> naam Information processing: 7-Bit Co<strong>de</strong>d Character Set For<br />

Information Interchange (資訊處理及交換用七數元碼字元集組 zīxùnchǔlǐ jí jiāohuàn yòng<br />

qī shùyuánmǎ zìyuánjízǔ). Het werd uitgevaardigd <strong>op</strong> 29 februari 1980. Het is <strong>de</strong> Taiwanese<br />

karakterset analoog aan ASCII en ISO 646.<br />

In september 1980 begonnen er besprekingen over het vastleggen van een nationale<br />

karakterset, dit leid<strong>de</strong> tot <strong>de</strong> <strong>op</strong>richting van een speciaal comité <strong>op</strong> 2 september 1982.<br />

In oktober 1983 werd er door verschillen<strong>de</strong> instanties 35 <strong>de</strong> CISCII (<strong>Chinese</strong> I<strong>de</strong>ographic<br />

Standard Co<strong>de</strong> for Information Interchange, 通用漢字標準交換碼, tōngyòng hànzì biāozhǔn<br />

jiāohuàn mǎ) ontwikkeld en <strong>op</strong> proef vrij gegeven. Na goedkeuring en bekendmaking in<br />

maart 1986 door <strong>de</strong> Executive Yuan werd <strong>op</strong> 4 augustus 1986 CNS 11643 36 (CNS staat voor<br />

<strong>Chinese</strong> National Standard 國家標準碼 37 , guójiā biāozhǔn mǎ) door het National Bureau of<br />

34<br />

http://www.loc.gov/marc/marbi/2001/2001-09.html<br />

35<br />

台灣國家科學委員會、教育部國語推行委員會、㆗央標準局、行政院主計處電子資料處理㆗心<br />

36<br />

http://www.cns11643.gov.tw<br />

37<br />

niet afkorten tot 國標碼 guóbiāomǎ want dit is <strong>de</strong> naam voor <strong>de</strong> karakterset die gebruikt wordt in <strong>de</strong> PRC (zie<br />

infra)<br />

Thesis Sébastien Bruggeman Pagina 25


Standards of Taiwan (台灣㆗央標準局, táiwān zhōngyāng biāozhǔnjú) on<strong>de</strong>r <strong>de</strong> naam<br />

Standard Interchange Co<strong>de</strong> for Generally Used <strong>Chinese</strong> Characters (通用漢字標準交換碼<br />

tōngyòng hànzì biāozhǔn jiāohuànmǎ) als nationale karakterset vastgelegd.<br />

CNS 11643 is <strong>op</strong>gebouwd uit verschillen<strong>de</strong> niveaus 38 . De uitgave van 1986 <strong>de</strong>finieer<strong>de</strong><br />

enkel karakters in het eerste en twee<strong>de</strong> niveau. In juni 1988 werd niveau 14 gepubliceerd (通<br />

用漢字標準交換碼-使用者加字區交換碼, tōngyòng hànzì biāozhǔn jiāohuànmǎ –<br />

shǐyòngzhě jiāzìqū jiāohuànmǎ) en in 1990 niveau 15 (戶政用字, hùzhèngyòngzì). Deze<br />

standaard bevatte echter te weinig karakters en werd daarom herzien.<br />

Een vernieuw<strong>de</strong> versie werd gepubliceerd <strong>op</strong> 21 mei 1992 on<strong>de</strong>r <strong>de</strong> naam <strong>Chinese</strong><br />

Standard Interchange Co<strong>de</strong> (㆗文標準交換碼, zhōngwén biāozhǔn jiāohuàn mǎ). Het bevat<br />

48 711 karakters waarvan er 48 027 <strong>Chinese</strong> karakters zijn, een precieze <strong>op</strong><strong>de</strong>ling vindt men<br />

in Tabel 10 <strong>op</strong> pagina 27. De <strong>Chinese</strong> karakters zijn geor<strong>de</strong>nd naar totaal aantal streepjes en<br />

vervolgens per radicaal.<br />

Het bestaat uit 16 niveaus die elk <strong>op</strong>gebouwd zijn uit 94 rijen en 94 kolommen (elk niveau<br />

kan dus maximaal 8 836 karakters bevatten). Niveau 1 tot 11 zijn gereserveerd voor <strong>de</strong><br />

<strong>de</strong>finitie van standaard karakters terwijl niveau 12 tot 16 zelf kunnen wor<strong>de</strong>n <strong>op</strong>gevuld (user-<br />

<strong>de</strong>fined areas). CNS 11643-1992 maakt slechts gebruik van 7 niveaus.<br />

CNS-11643-1992 bevat een aantal fouten, maar <strong>de</strong>ze zijn allemaal een verkeerd tellen van<br />

het aantal streepjes.<br />

In niveau 1 vallen <strong>de</strong> karakters tussen A1 en FE voor <strong>de</strong> eerste byte en tussen A1 en FE<br />

voor <strong>de</strong> 2 <strong>de</strong> byte, in niveau 2 is dat tussen A1 en FE en 21 en 7E. Om <strong>de</strong> <strong>de</strong>cimale waar<strong>de</strong> van<br />

een karakter te berekenen gaat men dan als volgt te werk. Stel dat het karakter zich <strong>op</strong> <strong>de</strong><br />

eerste kolom van <strong>de</strong> 36 ste rij bevindt (㆒ yī) dan is <strong>de</strong> waar<strong>de</strong> voor <strong>de</strong> eerste byte A0 (hex) +<br />

36 = C4 (hex), voor <strong>de</strong> twee<strong>de</strong> byte is dit A0 (hex) + 01 = A1 (hex), dus <strong>de</strong> hexa<strong>de</strong>cimale<br />

waar<strong>de</strong> voor dit karakter is C4A1. Voor een karakter in niveau twee dat zich in <strong>de</strong> eerste<br />

kolom van <strong>de</strong> 36 ste rij bevindt (歈 yú) wordt dit A0 (hex) + 36 = C4 (hex) en 20 (hex) + 01 =<br />

21 (hex) dus C421.<br />

Om compatibiliteit met CNS 5205 en CNS 7654 te bewaren zijn <strong>de</strong> co<strong>de</strong>punten 0 tot 20<br />

en 7F (127) niet <strong>op</strong>gevuld.<br />

38 字面 zìmiàn<br />

Thesis Sébastien Bruggeman Pagina 26


Tabel 9 CNS 11643-1986<br />

Range Aantal<br />

Symbolen, letters, cijfers, radicalen, … 39 (niveau 1) Rij 1-9,34 684<br />

<strong>Chinese</strong> karakters (niveau 1) Rij 36-93 5 401<br />

<strong>Chinese</strong> karakters (niveau 2) Rij 1-82 7 650<br />

<strong>Chinese</strong> karakters (niveau 14) Rij 1-68 6 319<br />

<strong>Chinese</strong> karakters (niveau 15) Rij 1-77 7 169<br />

Totaal 27 223<br />

Van niveau 1 zijn rijen 10-33, 35 en 94 niet toegewezen, van niveau 2 83-94, van niveau 14 69-94 en van niveau<br />

15 78-94<br />

Tabel 10 CNS 11643-1992<br />

Range Aantal<br />

Symbolen, letters, cijfers, radicalen, … 39 (niveau 1) 2121 – 427E 684<br />

<strong>Chinese</strong> karakters 1 (niveau 1) 4421 – 7D4B 5 401<br />

<strong>Chinese</strong> karakters 2 (niveau 2) 2121 – 7244 7 650<br />

<strong>Chinese</strong> karakters 3 (niveau 3) 2121 – 6246 6 148<br />

<strong>Chinese</strong> karakters 4 (niveau 4) 2121 – 6E5C 7 298<br />

<strong>Chinese</strong> karakters 5 (niveau 5) 2121 – 7C51 8 603<br />

<strong>Chinese</strong> karakters 6 (niveau 6) 2121 – 647A 6 388<br />

<strong>Chinese</strong> karakters 7 (niveau 7) 2121 – 6655 6 539<br />

Totaal 48 711<br />

Van niveau 1 zijn rijen 10-33, 35, 94 niet toegewezen, van niveau 2 83-94, van niveau 3 67-94, van niveau 4 79-<br />

94, van niveau 5 93-94, van niveau 6 69-94 en van niveau 7 71-94.<br />

Niveau 1 bevat vaak gebruikte karakters 40 , niveau 2 min<strong>de</strong>r vaak gebruikte karakters 41 ,<br />

niveau 3 zel<strong>de</strong>n gebruikte karakters (罕用字 hǎnyòngzì) 42 en vaak gebruikte variante <strong>Chinese</strong><br />

karakters (異體字 yìtízì) 43 . Niveau 4 bevat on<strong>de</strong>r an<strong>de</strong>re <strong>de</strong> <strong>Chinese</strong> karakters van ISO 10646<br />

versie 2.0, niveau 5 zel<strong>de</strong>n gebruikte karakters, niveaus 6 variante vormen van <strong>Chinese</strong><br />

karakters met 14 of min<strong>de</strong>r streepjes en niveau 7 bevat variante vormen van <strong>Chinese</strong> karakters<br />

met meer dan 14 streepjes.<br />

Er wordt steeds een controle karakter meegegeven dat het niveau waar<strong>op</strong> het karakter zich<br />

bevindt weergeeft. Dit controle karakter blijft gel<strong>de</strong>n voor alle volgen<strong>de</strong> karakters tot nog een<br />

<strong>de</strong>rgelijk controle karakter wordt tegen gekomen.<br />

39 De precicieze <strong>op</strong><strong>de</strong>ling is als volgt: interval 間隔符號 (1), punctuatietekens 標點符號 (28), grafische tekens<br />

括號及製表符號 (89), symbolen ㆒般符號 (34), wetenschappelijke tekens 學術符號 (51), eenhe<strong>de</strong>n 單位符號<br />

(31), cijfers 數字符號 (42), buitenlandse letters 外文字母 (100), 國語注音符號 b<strong>op</strong>omofo (42), in<strong>de</strong>xering<br />

tekens 數字序列符號 (20), klassieke radicalen ㆗國文字部首 (213), grafische presentatie van controle karakters<br />

控制碼符號 (33)<br />

40 4 808 karakters komen uit 常用國字標準字體表 uitgegeven <strong>op</strong> 2 september 1982 door 教育部<br />

41 6 330 karakters komen uit 次常用國字標準字體表 uitgegeven <strong>op</strong> 20 <strong>de</strong>cember 1982 door 教育部<br />

42 uit 罕用國字標準字體表 bevat 18 414 <strong>Chinese</strong> karakters en werd uitgegeven in 1983<br />

43 uit 異體字表 uit 1983 bevat 18 069 <strong>Chinese</strong> karakters<br />

Thesis Sébastien Bruggeman Pagina 27


c) Big5<br />

Big5 (大五 dàwǔ) werd <strong>op</strong> 1 mei 1984 door het Institute for Information Industry of<br />

Taiwan (台灣資訊工業策進會, táiwān zīxùn gōngyè cèjìn huì) bekend gemaakt door <strong>de</strong><br />

publicatie van Computer <strong>Chinese</strong> Glyph and Character Co<strong>de</strong> Mapping Table, Technical<br />

Report C-26 (電腦用㆗文字型與字碼對照表, 技術通報 C-26, diànnǎo yòng zhōngwén<br />

zìxíng yù zìmǎ duìzhào biǎo, jìshù tōngbào C-26).<br />

Deze karakterset wordt zo genoemd omdat 5 grote bedrijven meewerkten aan <strong>de</strong><br />

ontwikkeling ervan. Het is geen nationale standaard maar een <strong>de</strong> facto standaard, <strong>de</strong> officiële<br />

karakterset voor Taiwan is CNS 11643-1992. De big5 karakterset bevat in het totaal 13 494<br />

karakters, soms bevat het nog een supplement van 41 ETen karakters (zie infra).<br />

Tabel 11 Big5<br />

Range Aantal<br />

Punctuatie, grafische karakters, ASCII, … A140 – A343 466<br />

Grieks A344 – A373 48<br />

B<strong>op</strong>omofo A374 – A3BA 37<br />

Toontekens A3BB – A3BF 5<br />

Controle karakters A3C0 – A3E0 33<br />

Vaak gebruikte karakters 常用字 A440 – C67E 5 401<br />

Min<strong>de</strong>r vaak gebruikte karakters 次常用字 C940 – F9D5 7 652<br />

Totaal 13 494<br />

Rijen 39-40 en 90-94 zijn niet toegewezen<br />

Big5 gebruikt een 94x157 matrix en heeft daardoor een maximum capaciteit van 14 758<br />

karakters. De <strong>Chinese</strong> karakters zijn geor<strong>de</strong>nd volgens toenemend aantal streepjes en dan per<br />

radicaal.<br />

Big5 bevat twee karakters die twee maal voorkomen, namelijk <strong>de</strong> karakters 兀 wù (<strong>op</strong><br />

co<strong>de</strong>punten 0xA461 en 0xC94A) en 嗀 huò (<strong>op</strong> co<strong>de</strong>punten 0xDCD1 en 0xDDFC). CNS<br />

11643-1992 bevat <strong>de</strong>ze fouten niet meer, daar is telkens <strong>de</strong> twee<strong>de</strong> co<strong>de</strong>ring verwij<strong>de</strong>rd.<br />

Big5 wordt gebruikt als standaard co<strong>de</strong>ring voor <strong>de</strong> besturingssystemen van Microsoft<br />

Corporation en Apple Computer Inc die volledig traditioneel Chinees gelocaliseerd zijn.<br />

Elke eerste byte van een dubbel byte Big5 karakter moet liggen in het hexa<strong>de</strong>cimale<br />

gebied 0xA1 tot 0xF9 (maar kan ook 0xFA tot 0xFE omvatten) terwijl <strong>de</strong> twee<strong>de</strong> byte in <strong>de</strong><br />

gebie<strong>de</strong>n 0x40 tot 0x7E en 0xA1 tot 0xFE kan vallen. Dit is gedaan om <strong>de</strong> compatibiliteit met<br />

ASCII te bewaren. De co<strong>de</strong>plaatsen 0x7F, 0xA0 en 0xFF wer<strong>de</strong>n <strong>op</strong>zettelijk blanco gelaten.<br />

Big5 is heel gelijkend <strong>op</strong> <strong>de</strong> eerste twee niveaus van CNS-11643, <strong>de</strong> vaak gebruikte karakters<br />

zijn namelijk exact hetzelf<strong>de</strong> alleen <strong>de</strong> positie is verschillend.<br />

Thesis Sébastien Bruggeman Pagina 28


Een heel belangrijke extensie <strong>op</strong> Big5 is <strong>de</strong> “ETen extensie”. ETen 44 is een bedrijf dat in<br />

<strong>de</strong> jaren ’80 een Chinees besturingssysteem <strong>op</strong> <strong>de</strong> markt bracht. Deze extensie bestaat uit twee<br />

blokken. Het eerste blok (C6A1 – C8D3) bevat 365 karakters (o.a. omcirkel<strong>de</strong> cijfers, kana,<br />

Cyrillisch), het twee<strong>de</strong> blok (F9D6 – F9FE) bestaat uit zeven extra <strong>Chinese</strong> karakters (碁 銹<br />

裏 墻 恒 粧 嫺) en 34 lijn-karakters. Door <strong>de</strong> p<strong>op</strong>ulariteit van het besturingssysteem en <strong>de</strong><br />

programma’s wor<strong>de</strong>n Eten karakters bij <strong>de</strong> Big5 karakterset gerekend. De zeven extra <strong>Chinese</strong><br />

karakters zitten ook in CNS 11643-1992 niveau 3..<br />

d) Big5+<br />

Om vereenvoudig<strong>de</strong> <strong>Chinese</strong> karakters te on<strong>de</strong>rsteunen werd in juli 1997 Big5+<br />

ontwikkeld. Deze karakterset bevat 23 940 karakters. Big5+ bestaat uit 2 niveaus. Het is<br />

eigenlijk zeer gelijkend aan GBK (zie infra). Het bevat ook alle <strong>Chinese</strong> karakters die in<br />

Unico<strong>de</strong> wor<strong>de</strong>n ge<strong>de</strong>finieerd. Deze co<strong>de</strong>ring wordt echter niet wijd on<strong>de</strong>rsteund. De sleutels<br />

die alleen kunnen staan zijn weggelaten evenals <strong>de</strong> dubbel geco<strong>de</strong>er<strong>de</strong> karakters uit Big5,<br />

ver<strong>de</strong>r zijn er ook verschillen<strong>de</strong> fouten uit CNS verbeterd. De high byte ligt tussen 0x81 –<br />

0xFE en <strong>de</strong> low byte ligt tussen 0x40 – 0x7E of 0x80 – 0xFE.<br />

Tabel 12 Big5+<br />

Range Aantal<br />

Big5 niveau 1 A440 – C67E 5 401<br />

Big5 niveau 2 C940 – F9D5 7 693<br />

Big5 non-hanzi A140 – A3FE 471<br />

Eten karakters C6A1 – C8FE 408<br />

<strong>Chinese</strong> karakters 8180 – FEA0 4 158<br />

Hanzi en hanzi varianten 8140 – 83FE 471<br />

Hanzi, vereenvoudig<strong>de</strong> hanzi, kanji en hanja 8E40 – A0FE 2 983<br />

User <strong>de</strong>fined characters FA40 – FEFE 785<br />

User <strong>de</strong>fined characters 8440 – 8DFE 1 570<br />

Totaal 23 940<br />

e) Big5E<br />

Big5E staat voor Big5 Extention (Big5 碼補充字集, Big5 mǎ bǔchōng zìjí) is gebaseerd<br />

<strong>op</strong> Big5, Big5+ en CNS 11643. Er wer<strong>de</strong>n 3 954 <strong>Chinese</strong> karakters uit Big5+ en CNS 11643<br />

niveau 3 en 4 geselecteerd om ze in Big5E te co<strong>de</strong>ren in <strong>de</strong> ‘user <strong>de</strong>fined area’. Ook wer<strong>de</strong>n<br />

er nog 128 an<strong>de</strong>re co<strong>de</strong>punten gereserveerd voor latere uitbreiding. Er zijn verschillen<strong>de</strong><br />

‘tools’ ontwikkeld voor Big5E zoals conversietabellen, conversieprogramma’s en verbeter<strong>de</strong><br />

‘input editors’. Big5E werd uitgegeven in 1999.<br />

44 http://www.eten.com.tw<br />

Thesis Sébastien Bruggeman Pagina 29


f) Hong Kong GCCS en SCS<br />

De officiële karakterset en co<strong>de</strong>ring in Hong Kong is Big5. In Hong Kong zijn er echter in<br />

<strong>de</strong> lo<strong>op</strong> <strong>de</strong>r tijd aparte <strong>Chinese</strong> karakters ontwikkeld. Doordat <strong>de</strong>ze karakters niet wor<strong>de</strong>n<br />

on<strong>de</strong>rsteund door het in Taiwan ontwikkel<strong>de</strong> Big5 heeft <strong>de</strong> regering van Hong Kong het <strong>op</strong><br />

Big5 gebaseer<strong>de</strong> Hong Kong GCCS 45 (Government <strong>Chinese</strong> Character Set) uitgevaardigd in<br />

1994. Hong Kong GCCS bevat 3 049 extra karakters. Ongeveer <strong>de</strong> helft van <strong>de</strong>ze karakters<br />

wer<strong>de</strong>n in GBK (en dus ook in Unico<strong>de</strong> 2.1) <strong>op</strong>genomen.<br />

Op 28 september 1999 werd HK SCS (Hong Kong Supplementary Character Set 46 )<br />

gepubliceerd. Het bevat 4 702 karakters (waarvan er 4 261 <strong>Chinese</strong> karakters zijn) meer dan<br />

Big5, die allemaal in <strong>de</strong> user <strong>de</strong>fined area zijn ge<strong>de</strong>finieerd. Er zijn verschillen<strong>de</strong> karakters uit<br />

HK GCCS verwij<strong>de</strong>rd of samengevoegd. De co<strong>de</strong>plaatsen die daardoor vrij kwamen wer<strong>de</strong>n<br />

niet <strong>op</strong>gevuld om compatibiliteit te creëren. In <strong>de</strong>cember werd HKSCS-2000 gepubliceerd dat<br />

nog eens 161 extra karakters bevat.<br />

2.2.2. Vereenvoudigd Chinees<br />

Gebied : Volkrepubliek China, Singapore, overzeese Chinezen<br />

a) GB 1988-80<br />

De officiële naam van <strong>de</strong>ze karakterset is Information technology – 7-bit Co<strong>de</strong>d Character<br />

Set for Information Interchange (信息技术 – 信息交换用七位编码字符集 xīnxí jìshù xīnxí<br />

jiāohuàn yòng qīwèi biānmǎ zìfújí). Deze karakterset wordt soms ook GB-Roman genoemd<br />

(aliassen voor <strong>de</strong>ze karakterset zijn iso-ir-57, ISO646-CN, csISO57GB1988). Dit is <strong>de</strong><br />

analoge <strong>Chinese</strong> variant van ASCII en ISO 646. De twee verschillen zijn dat het dollarteken<br />

($) vervangen werd door het symbool voor <strong>de</strong> <strong>Chinese</strong> Yuan (¥) en <strong>de</strong> til<strong>de</strong> (~) door een<br />

‘overline’.<br />

45 http://www.info.gov.hk/gccs/<br />

46 http://www.info.gov.hk/digital21/eng/hkscs/in<strong>de</strong>x.html<br />

Thesis Sébastien Bruggeman Pagina 30


) GB 2312-80<br />

GB 2312 (GB staat voor National Standard, 国标 guóbiāo, afkorting van 国家标准<br />

guójiā biāozhǔn) werd in 1980 gepubliceerd door het State Bureau of Standardization of the<br />

Pe<strong>op</strong>le’s Repbulic of China (中华人民共和国国家标准总局, zhōnghuárénmíngònghéguó<br />

guójiā bāozhǔn zǒngjú) on<strong>de</strong>r <strong>de</strong> naam Co<strong>de</strong> of <strong>Chinese</strong> I<strong>de</strong>ogram Set for Information<br />

Interchange - Basic Set (信息交换用汉字编码字符集 - 基本集, xìnxī jiāohuàn yòng hànzì<br />

biānmǎ zìfújí – jīběnjí) en werd van kracht <strong>op</strong> 1 mei 1981 (aliassen voor <strong>de</strong>ze karakterset zijn<br />

iso-ir-58 en csISO58GB231280).<br />

De karakterset bevat 7 445 karakters (6 763 <strong>Chinese</strong> karakters en 682 niet <strong>Chinese</strong><br />

karakters), <strong>de</strong> <strong>Chinese</strong> karakters zijn <strong>op</strong>ge<strong>de</strong>eld in vaak gebruikte karakters (3 755) en niet<br />

vaak gebruikte karakters (3 008). Hij is gebaseerd <strong>op</strong> JIS X 0208 en bestaat dus uit een 94x94<br />

rooster. <strong>Chinese</strong> karakters wor<strong>de</strong>n pas ingevuld vanaf <strong>de</strong> zestien<strong>de</strong> rij, <strong>de</strong> eerste vijftien<br />

wor<strong>de</strong>n <strong>op</strong>gevuld door an<strong>de</strong>re karakters. De binaire co<strong>de</strong> voor het karakter ‘hemel’ (天, tiān)<br />

is hier 1110 1100 1100 1100. Elke byte van een dubbel byte GB karakter valt binnen<br />

hexa<strong>de</strong>cimale 0xA1 tot 0xFE gebied. De karakters zijn, net zoals in het Japans, geor<strong>de</strong>nd<br />

volgens <strong>de</strong> uitspraak bij <strong>de</strong> vaak gebruikte <strong>Chinese</strong> karakters. De niet vaak gebruikte <strong>Chinese</strong><br />

karakters wor<strong>de</strong>n geor<strong>de</strong>nd volgens radicaal en vervolgens volgens het aantal streepjes.<br />

Tabel 13 GB 2312-80<br />

Range Aantal<br />

Symbolen Rij 1 94<br />

Nummers Rij 2 72<br />

ISO 646-CN (full width characters) Rij 3 94<br />

Hiragana Rij 4 83<br />

Katakana Rij 5 86<br />

Grieks Rij 6 48<br />

Cyrillisch Rij 7 66<br />

Pinyin Rij 8 26<br />

B<strong>op</strong>omofo Rij 8 37<br />

Line drawing elements Rij 9 76<br />

<strong>Chinese</strong> karakters Rij 16-55 3 755<br />

<strong>Chinese</strong> karakters Rij 56-87 3 008<br />

Totaal 7 445<br />

Rijen 10-15 en 88-94 zijn niet toegewezen<br />

c) GB 6345.1-86<br />

GB 6345.1-86 werd uitgevaardigd <strong>op</strong> 1 <strong>de</strong>cember 1986 en draagt <strong>de</strong> naam 32x32 Dot<br />

Matrix Font Set of <strong>Chinese</strong> I<strong>de</strong>ograms for Information Interchange (信息交换用汉字 32x32<br />

点阵字模集 xìnxí jiāohuàn yòng hànzì 32x32 diǎnzhèn zìmújí).<br />

Thesis Sébastien Bruggeman Pagina 31


Deze karakterset bevat aanvullingen en correcties <strong>op</strong> <strong>de</strong> GB 2312-80 karakterset. Een g<br />

moet an<strong>de</strong>rs weergegeven wor<strong>de</strong>n (g moest g wor<strong>de</strong>n, rij 3 positie 71), er is een karakter dat<br />

niet in zijn vereenvoudig<strong>de</strong> vorm is weergegeven (鍾 moet weergegeven wor<strong>de</strong>n als 锺, rij 79<br />

positie 81), het bevat ook 132 extra karakters.<br />

Tabel 14 GB 6345.1-86<br />

Range Aantal<br />

Symbolen Rij 1 94<br />

Nummers Rij 2 72<br />

ISO 646-CN (full width characters) Rij 3 94<br />

Hiragana Rij 4 83<br />

Katakana Rij 5 86<br />

Grieks Rij 6 48<br />

Cyrillisch Rij 7 66<br />

Pinyin Rij 8 32<br />

B<strong>op</strong>omofo Rij 8 37<br />

Line drawing elements Rij 9 76<br />

Half width GB 1988-89 Rij 10 94<br />

Half width Pinyin characters Rij 11 32<br />

<strong>Chinese</strong> karakters Rij 16-55 3 755<br />

<strong>Chinese</strong> karakters Rij 56-87 3 008<br />

Totaal 7 577<br />

Rij 12-15 en 88-94 zijn niet <strong>op</strong>gevuld. Verschillen met GB2312 in grijs aangeduid.<br />

d) GB 8565.2-88<br />

Deze uitbreiding <strong>op</strong> GB2312-80 werd <strong>op</strong> 1 juli 1988 uitgevaardigd en noemt officieel<br />

Information Processing – Co<strong>de</strong>d Character Sets for Text Communication – Part 2: Graphic<br />

Characters (信息处理 – 文本通信用编码字符集 – 第二部分 – 图形字符集 xìnxí chǔlǐ –<br />

wénběn tōngxìn yòng biānmǎ zìfújí – dì’èr bùfēn – túxíng zìfújí).<br />

Het bevat 705 karakters meer dan GB 2312-80, het bevat echter niet <strong>de</strong> extra karakters die<br />

in GB 6345.1-86 wer<strong>de</strong>n ge<strong>de</strong>finieerd.<br />

Tabel 15 GB 8565.2-88<br />

Range Aantal<br />

Symbolen Rij 1 94<br />

Nummers Rij 2 72<br />

ISO 646-CN (full width characters) Rij 3 94<br />

Hiragana Rij 4 83<br />

Katakana Rij 5 86<br />

Grieks Rij 6 48<br />

Cyrillisch Rij 7 66<br />

Pinyin Rij 8 26<br />

B<strong>op</strong>omofo Rij 8 37<br />

Line drawing elements Rij 9 76<br />

Hanzi from GB 7589-87 Rij 13 50<br />

Thesis Sébastien Bruggeman Pagina 32


Range Aantal<br />

Hanzi from GB 7590-87 Rij 14 92<br />

Extra non-hanzi Rij 15 69<br />

Extra hanzi Rij 15 24<br />

<strong>Chinese</strong> karakters Rij 16-55 3 755<br />

<strong>Chinese</strong> karakters Rij 56-87 3 008<br />

Hanzi from GB 7589-87 Rij 90-94 470<br />

Totaal 8 150<br />

Rij 10-12 en 88-89 zijn niet <strong>op</strong>gevuld. Verschillen met GB2312 in grijs aangeduid.<br />

e) ISO-IR-165:1992<br />

Deze standaard bevat 8 443 karakters, waaron<strong>de</strong>r alle wijzigingen en toevoegingen van<br />

GB 6345.1-86 en GB 8565.2-88. Het draagt <strong>de</strong> naam ISO International Registery #165 en<br />

werd <strong>op</strong> 13 juli 1992 uitgevaardigd. Ze wordt soms ook <strong>de</strong> CCITT (Consultative Committee<br />

on International Telephone and Telegraph) karakterset genoemd.<br />

Tabel 16 ISO-IR-165:1992<br />

Range Aantal<br />

Symbolen Rij 1 94<br />

Nummers Rij 2 72<br />

ISO 646-CN (full width characters) Rij 3 94<br />

Hiragana Rij 4 83<br />

Katakana Rij 5 86<br />

Grieks Rij 6 48<br />

Grieks (background (shading) characters) Rij 6 22<br />

Cyrillisch Rij 7 66<br />

Pinyin Rij 8 32<br />

B<strong>op</strong>omofo Rij 8 37<br />

Line drawing elements Rij 9 76<br />

Half width GB 1988-89 Rij 10 94<br />

Half width Pinyin characters Rij 11 32<br />

Hanzi Rij 12 94<br />

Hanzi from GB 7589-87 + extra Rij 13 94<br />

Hanzi from GB 7590-87 Rij 14 92<br />

Karakters voor datum en tijd Rij 15 69<br />

Extra hanzi Rij 15 25<br />

<strong>Chinese</strong> karakters Rij 16-55 3 755<br />

<strong>Chinese</strong> karakters Rij 56-87 3 008<br />

Hanzi from GB 7589-87 Rij 90-94 470<br />

Totaal 8 376<br />

Rijen 88-89 zijn niet <strong>op</strong>gevuld. Verschillen met GB2312 in grijs aangeduid.<br />

Thesis Sébastien Bruggeman Pagina 33


f) GB/T 12345-90<br />

De officiële naam van <strong>de</strong>ze karakterset is Co<strong>de</strong> of <strong>Chinese</strong> I<strong>de</strong>ogram Set for Information<br />

Interchange Supplementary Set (信息交换用汉字编码字符集 - 辅助集, xìnxī jiāohuàn yòng<br />

hànzì biānmǎ zìfújí - fǔzhùjí) en werd <strong>op</strong> 13 juni 1990 uitgevaardigd door 中华人民共和国<br />

国家技术监督局 (zhōnghuárénmíngònghéguó guójiā jìshù jiāndūjú). Het ging <strong>op</strong> 1 <strong>de</strong>cember<br />

1990 van kracht. De T staat voor Tuijian (推荐 tuījiàn) en betekent aanvulling.<br />

Het is i<strong>de</strong>ntiek aan GB 2312-80 maar alle karakters zijn vervangen door hun traditionele<br />

variant, het bevat 7 709 karakters. Daarvan zijn er 843 niet <strong>Chinese</strong> karakters en 6 866<br />

<strong>Chinese</strong> karakters (3 755 vaak gebruikte karakters, 3 008 niet vaak gebruikte karakters en een<br />

supplement van 103 karakters). In totaal zijn er 2 180 karakters die door hun traditionele<br />

variant zijn vervangen. Deze karakterset bevat helaas ook fouten, het gaat om 2 printfouten.<br />

Tabel 17 GB/T 12345-90<br />

Range Aantal<br />

Symbolen Rij 1 94<br />

Numerals Rij 2 72<br />

Full width GB 1988-89 Rij 3 94<br />

Hiragana Rij 4 83<br />

Katakana Rij 5 86<br />

Grieks alfabet Rij 6 48<br />

Grieks (voor vertikaal gebruik) Rij 6 29<br />

Cyrillisch Rij 7 66<br />

Full width Pinyin Rij 8 32<br />

Zhuyin Rij 8 37<br />

Line drawing elements Rij 9 76<br />

Half width GB 1988-89 Rij 10 94<br />

Half width Pinyin Rij 11 32<br />

<strong>Chinese</strong> karakters Rij 16-55 3 755<br />

<strong>Chinese</strong> karakters Rij 56-87 3 008<br />

Extra <strong>Chinese</strong> karakters Rij 88-89 103<br />

Totaal 7 709<br />

g) GBK<br />

GBK is een superset van GB 2312-80, dat zowel vereenvoudig<strong>de</strong> als traditionele karakters<br />

bevat, maar het is tevens <strong>de</strong> subset van GB 13000.1-93 (zie infra).<br />

De afkorting GBK staat voor Exten<strong>de</strong>d National Standard (国家标准扩展, guójiā<br />

biāozhǔn kuòzhǎn- <strong>de</strong> officiële naam is <strong>Chinese</strong> Internal Co<strong>de</strong> Specification 汉字内码扩展规<br />

范, hànzì nèimǎ kuòzhǎn guīfàn). Het werd <strong>op</strong> 1 <strong>de</strong>cember 1995 door het CITS (中华人民共<br />

和国全国信息技术标准化技术委员会 zhōnghuárénmíngònghéguó quánguó xìnxí jìshù<br />

biāozhǔnhuà jìshù wěiyuánhuì) geformuleerd.<br />

Thesis Sébastien Bruggeman Pagina 34


Verschillen<strong>de</strong> bedrijven 47 verenig<strong>de</strong>n zich <strong>op</strong> 15 <strong>de</strong>cember 1995 en schaar<strong>de</strong>n zich achter<br />

enkele verbeteringen. Deze verbeteringen wer<strong>de</strong>n <strong>op</strong>genomen en <strong>de</strong> verbeter<strong>de</strong> karakterset<br />

werd gepubliceerd als versie 1.0. Het laat <strong>de</strong> karakters en <strong>de</strong> co<strong>de</strong>s ge<strong>de</strong>finieerd in GB 2312<br />

ongewijzigd en positioneert alle extra karakters er rond. Deze extra karakters zijn karakters<br />

die in ISO 10646 (Unico<strong>de</strong> Version 2.1) zitten maar niet in GB 2312-80. Op <strong>de</strong>ze manier<br />

wordt <strong>de</strong> GB-compatibiliteit behou<strong>de</strong>n maar wor<strong>de</strong>n alle Unihan karakters ter beschikking<br />

gesteld. Het bevat 21 886 karakters, maar daarmee zit <strong>de</strong>ze karakter set zo goed als vol (23<br />

940 co<strong>de</strong>punten) en dus werd er overgeschakeld naar GB 18030.<br />

Tabel 18 GBK<br />

Range Co<strong>de</strong>punten Aantal<br />

GB2312-80 en GB/T 12345-90 niet Ch. karakters 0xA1A1 – 0xA9FE 846 717<br />

GB 2312-80 <strong>Chinese</strong> karakters 0xB0A1 – 0xF7FE 6 768 6 763<br />

<strong>Chinese</strong> karakters uit ISO 10646-1:1993 0x8140 – 0xA0FE 6 080 6 080<br />

<strong>Chinese</strong> karakters uit ISO 101646-1+extra karakters 0xAA40 – 0xFEA0 8 160 8 160<br />

Niet <strong>Chinese</strong> karakters van Big5 e.a. karaktersets 0xA840 – 0xA9A0 192 166<br />

Totaal 23 940 21 886<br />

User Defined Area 0xAAA1 – 0xAFFE 564<br />

User Defined Area 0xF8A1 – 0xFEFE 658<br />

User Defined Area 0xA140 – 0xA7A0 672<br />

h) GB 13000.1<br />

GB 13000.1-93 is het <strong>Chinese</strong> equivalent van ISO 10646.1-1993/Unico<strong>de</strong> (zie infra).<br />

Telkens als het ISO en Unico<strong>de</strong> consortium hun karakterset vernieuwen dan wor<strong>de</strong>n <strong>de</strong><br />

aangebrachte veran<strong>de</strong>ringen en aanvullingen overgenomen in GB 13000.1. Het draagt <strong>de</strong><br />

naam Information technology – Universal multiple-octet co<strong>de</strong>d character set (UCS) – Part 1:<br />

Architecture and Basic Multilingual Plane (信息技术 – 通用多八位编码字符集 (UCS) – 第<br />

一部分: 体系结构与基本多文种平面 xìnxíjìshù – tōngyòng duōbāweì biānmǎ zìfújí<br />

(UCS) – dìyī bùfēn: tǐxì jiégòu yú jīběn duōwénzhǒng píngmiàn).<br />

47 国家技术监督局标准化司、电子工业部科技与质量监督司<br />

Thesis Sébastien Bruggeman Pagina 35


i) GB 18030-2000<br />

De meest recente GB co<strong>de</strong>d characterset is het <strong>op</strong> 17 maart 2000 door het Ministry of<br />

Information Industry (中华人民共和国信息产业部 zhōnghuárénmíngònghéguó xìnxí chǎnyè<br />

bù) gepubliceer<strong>de</strong> GB 18030-2000 (Information technology – <strong>Chinese</strong> I<strong>de</strong>ograms co<strong>de</strong>d<br />

character set for information interchange – Extension for the basic set 信息技术 – 信息交换<br />

用汉字编码字符集 – 基本集的扩充 xìnxíjìshù – xìnxíjiāohuàn yòng hànzì biānmǎ zìfújí –<br />

jīběnjí <strong>de</strong> kuòchōng). De bedoeling van <strong>de</strong>ze karakterset is om <strong>de</strong> Unihan Extention A te<br />

combineren met vorige GB karaktersets, maar ook om genoeg co<strong>de</strong>plaatsen te creëren voor<br />

alle geco<strong>de</strong>er<strong>de</strong> co<strong>de</strong>punten in unico<strong>de</strong>’s nieveau 0 (BMP) en plaats voorzien voor 16 extra<br />

niveaus.<br />

Om dit te realiseren wordt een <strong>de</strong>el van <strong>de</strong> karakters (0x00 tot 0x7F) geco<strong>de</strong>erd met één<br />

byte co<strong>de</strong>ring, een <strong>de</strong>el (0x81 tot 0xFE voor <strong>de</strong> eerste byte en 0x40 tot 0x7E voor <strong>de</strong> twee<strong>de</strong><br />

byte) met twee byte co<strong>de</strong>ring, en een laatste <strong>de</strong>el (0x81308130 tot 0xFE39FE39 of an<strong>de</strong>rs<br />

gezegd 0x8130 tot 0xFE39 voor <strong>de</strong> eerste twee bytes en 0x8130 tot 0xFE39 voor <strong>de</strong> <strong>de</strong>r<strong>de</strong> en<br />

vier<strong>de</strong> byte) met vier byte co<strong>de</strong>ring.<br />

GB 18030-2000 vervangt GBK. Het blijft wel compatibel met GBK en GB 2312-80, met<br />

uitzon<strong>de</strong>ring van <strong>de</strong> nieuw toegevoeg<strong>de</strong> karakters, maar probeert tevens ook compatibel te<br />

zijn met unico<strong>de</strong>. Vanaf 1 september 2001 moeten alle pc’s in <strong>de</strong> PRC GB 18030 aankunnen.<br />

Tabel 19 GB 18030<br />

1B<br />

2 bytes<br />

4B<br />

Range Co<strong>de</strong>punten Aantal<br />

GB 11383 A0 – FE 128 128<br />

Grafische karakters A1A1 – A9FE 846 718<br />

Grafische karakters A840 – A9A0 192 166<br />

<strong>Chinese</strong> karakters B0A1 – F7FE 6768 6763<br />

<strong>Chinese</strong> karakters 8140 – A0FE 6080 6080<br />

<strong>Chinese</strong> karakters AA40 – FEA0 8160 8160<br />

User <strong>de</strong>fined Area AAA1 – AFFE 564<br />

User <strong>de</strong>fined Area F8A1 – FEFE 658<br />

User <strong>de</strong>fined Area<br />

GB 13000.1 CJK extension A<br />

A140 – A7A0 672<br />

Thesis Sébastien Bruggeman Pagina 36


j) An<strong>de</strong>re GB karaktersets<br />

GB 7589-87 en zijn traditionele variant GB/T 13131-9X bevatten 7 237 karakters. Het<br />

werd uitgevaardigd <strong>op</strong> 1 <strong>de</strong>cember 1987 en draagt <strong>de</strong> naam Co<strong>de</strong> of <strong>Chinese</strong> I<strong>de</strong>ograms Set<br />

for Information Interchange – the Second Supplementary Set (信息交换用汉字编码字符集–<br />

第二辅助集 xīnxí jiāohuàn yòng hànzì biānmǎ zìfújí – dì’èr fǔzhùjí).<br />

GB 7590-87 en zijn traditionele variant GB/T 13132-9X bevatten 7 039 karkaters. Het<br />

werd uitgevaardigd <strong>op</strong> 1 <strong>de</strong>cember 1987 en draagt <strong>de</strong> naam Co<strong>de</strong> of <strong>Chinese</strong> I<strong>de</strong>ograms Set<br />

for Information Interchange – the Fourth Supplementary Set (信息交换用汉字编码字符集–<br />

第四辅助集 xīnxí jiāohuàn yòng hànzì biānmǎ zìfújí – dì sì fǔzhùjí).<br />

Ze zijn geor<strong>de</strong>nd volgens radicaal en dan volgens het totaal aantal streepjes. Ze beginnen<br />

karakters pas in te vullen vanaf rij 16. De karakters die in <strong>de</strong>ze karaktersets zijn<br />

gespecificeerd zijn handgeschreven waardoor dat lettertypes die <strong>de</strong>ze karaktersets<br />

on<strong>de</strong>rsteunen heel zeldzaam zijn.<br />

Daarnaast bestaan er ook nog standaar<strong>de</strong>n voor verschillen<strong>de</strong> an<strong>de</strong>re talen die in <strong>de</strong> PRC<br />

gesproken wor<strong>de</strong>n zoals voor het Koreaans, Mongools, Yi en Uighurs. Voor een overzicht<br />

van GB standaar<strong>de</strong>n in verband met karkaterset zie Bijlage A.<br />

2.3. Meertalige karaktersets<br />

De eerste echt meertalige karakterset werd ontwikkeld in Japan en droeg <strong>de</strong> naam JIS C<br />

6226-1978, het was tevens <strong>de</strong> eerste karakterset dat brak met 8 bits en twee bytes gebruikte.<br />

Het bevatte het Romaanse alfabet, Grieks, Cyrillisch, symbolen, hiragana, katakana en<br />

kanji (<strong>Chinese</strong> karakters). De standaard draagt nu <strong>de</strong> naam JIS X 0208. De karakterset is<br />

<strong>op</strong>gebouwd uit 94 rijen en 94 kolommen (zoals beschreven in <strong>de</strong> ISO 2022 standaard) en kan<br />

8 836 karakters bevatten.<br />

In <strong>de</strong> eerste helft van <strong>de</strong> jaren ‘80 werd (ook in Japan) begonnen aan een karakterset dat<br />

alle karakters van Azië omvatte, genaamd TRON 48 (The Real-time Operating system Nucleus).<br />

Het systeem bestaat vandaag nog.<br />

Ook <strong>de</strong> eer<strong>de</strong>r vermel<strong>de</strong> CCCII en EACC kunnen als meertalige karaktersets wor<strong>de</strong>n<br />

beschreven.<br />

48 http://www.tron.org<br />

Thesis Sébastien Bruggeman Pagina 37


a) Unico<strong>de</strong> en ISO 10646<br />

In Amerika werd in <strong>de</strong> twee<strong>de</strong> helft van <strong>de</strong> jaren ’80 begonnen aan meertalige karaktersets<br />

en meertalige co<strong>de</strong>ringssystemen. Xerox Corporation (XCCS, Xerox Character Co<strong>de</strong><br />

Standard) en IBM Corporation implementeer<strong>de</strong>n toen reeds met succes <strong>de</strong>rgelijke<br />

karaktersets in hun <strong>computer</strong> systemen. Me<strong>de</strong>werkers van Xerox en Apple begonnen eind <strong>de</strong><br />

jaren ’80 aan <strong>de</strong> ontwikkeling van wat unico<strong>de</strong> werd genoemd (begon met een database dat <strong>de</strong><br />

relatie tussen Japanse en <strong>Chinese</strong> karakters in kaart bracht). De bedoeling was om alle<br />

schriften van <strong>de</strong> wereld in één groot karakterset on<strong>de</strong>r te brengen. 49 In 1989 stapten<br />

verschillen<strong>de</strong> an<strong>de</strong>re bedrijven in het project waaron<strong>de</strong>r Sun, Adobe en Hewlett-Packard.<br />

In september 1989 werd <strong>de</strong> eerste ‘draft’ gepubliceerd en in 1991 kwam versie 1.0 uit<br />

samen met <strong>de</strong> <strong>op</strong>richting van het Unico<strong>de</strong> Consortium 50 . 51<br />

In 1983 begon het ISO aan het ontwikkelen van een 32-bit karakterset Universal Multiple-<br />

Octet Co<strong>de</strong>d Character Set 52 (UCS) genaamd. De ISO standaard die <strong>de</strong> officiële naam<br />

ISO/IEC DIS 10646 Versie 1 (IEC staat voor International Electro-technical Commission 53 )<br />

kreeg, werd on<strong>de</strong>rsteund door <strong>de</strong> Japanse en Eur<strong>op</strong>ese on<strong>de</strong>rzoekers maar helaas niet door <strong>de</strong><br />

Amerikaanse <strong>computer</strong> firma's die gelijktijdig aan Unico<strong>de</strong> werkten. Ze beweer<strong>de</strong>n dat<br />

Unico<strong>de</strong> beter was dan ISO/IEC DIS 10646 Versie 1 omdat het eenvoudiger was. ISO 10646<br />

is namelijk een 32 bit co<strong>de</strong> en daardoor wordt <strong>de</strong> overdrachtssnelheid en <strong>op</strong>slagcapaciteit<br />

sterk beïnvloed, alhoewel een 3 byte karakterco<strong>de</strong> (2^24) 16 777 216 karakters aankan en<br />

daarmee genoeg om alle talen weer te geven, is het niet efficiënt. Omdat <strong>de</strong> meeste talen<br />

slechts één byte nodig hebben zou<strong>de</strong>n <strong>de</strong> 2 bijkomen<strong>de</strong> bytes om bijvoorbeeld <strong>de</strong> letter ‘S’<br />

weer te geven no<strong>de</strong>loze plaatsvulling zijn. Maar dit gaat natuurlijk enkel <strong>op</strong> voor onze<br />

westerse talen. Omdat het Unico<strong>de</strong> consortium bij machte was om parallel met <strong>de</strong> ISO een<br />

eigen standaard te ontwikkelen, door zwaar lobby werk en door on<strong>de</strong>rhan<strong>de</strong>lingen tussen<br />

bei<strong>de</strong> partijen werd <strong>de</strong> ontwikkeling van ISO/IEC DIS 10646 Versie 1 verlaten ten voor<strong>de</strong>le<br />

van een <strong>op</strong> <strong>de</strong> Unico<strong>de</strong> gebaseer<strong>de</strong> ISO/IEC 10646 Version 2, die nu ISO/IEC 10646-1: 1993<br />

wordt genoemd.<br />

Het Unico<strong>de</strong> Consortium noemt hun standaard Unico<strong>de</strong> en gebruikt standaard een<br />

‘variable-length’ 16-bit co<strong>de</strong>ring dat UTF-16 wordt genoemd. Eigenlijk is Unico<strong>de</strong> een subset<br />

van ISO 10646-1:1993 vanuit puur co<strong>de</strong>ringsstandpunt. Het is <strong>op</strong>gebouwd uit een 256x256<br />

49<br />

zie Tabel 44 voor een overzicht van welke talen allemaal in versie 3.2.0 zitten<br />

50<br />

http://www.unico<strong>de</strong>.org<br />

51<br />

Een chronologisch overzicht kan men terug vin<strong>de</strong>n <strong>op</strong> : http://www.unico<strong>de</strong>.org/unico<strong>de</strong>/history<br />

52<br />

wordt in Taiwan vertaald als 廣用多八位元編碼字元集 (guǎng yòng duō bā weìyuán biānmǎ zìyuánjí) terwijl<br />

het in China als 通用多八位编码字符集 (tōngyòng duō bā weì biānmǎ zìfújí) vertaalt wordt.<br />

53<br />

http://www.iec.ch 國際電工委員會 guójì diàngōng wěiyuánhuì<br />

Thesis Sébastien Bruggeman Pagina 38


matrixen, het eerste niveau (niveau 0) wordt het Basic Multilingual Plane (BMP) genoemd.<br />

Unico<strong>de</strong> geeft voorkeur aan Big Endian or<strong>de</strong>ning.<br />

In eerste instantie wou men alle karakters ter wereld in het BMP co<strong>de</strong>ren, maar het BMP<br />

beschikt maar over ± 65 000 co<strong>de</strong>punten. Dit is echter onmogelijk en daarom wer<strong>de</strong>n<br />

verschillen<strong>de</strong> karakters samengevoegd, meer bepaald <strong>de</strong> <strong>Chinese</strong> karakters die gebruikt<br />

wor<strong>de</strong>n in <strong>de</strong> Aziatische talen. Het Unico<strong>de</strong> Consortium heeft hiervoor in juli 1991 een<br />

<strong>Chinese</strong>/Japanese/Korean Joint Research Group (CJK-JRG) 54 <strong>op</strong>gericht, 1993 werd het CJK-<br />

JRG hernoemd tot I<strong>de</strong>ographic Rapporteur Group (IRG).<br />

Het doel van dit comité was om <strong>de</strong> Han-unificatie (Han Unification 55 ) in goe<strong>de</strong> banen te<br />

lei<strong>de</strong>n. Het bevat afgevaardig<strong>de</strong>n van <strong>de</strong> Volksrepubliek China, Hong Kong, Japan, Korea,<br />

Singapore, Republiek China (Taiwan), Vietnam, Verenig<strong>de</strong> Staten van Amerika en Unico<strong>de</strong><br />

Consortium. In <strong>de</strong>cember 1991 werd <strong>de</strong> UniHan 1.0 database vrijgegeven (een eerste draft<br />

was uitgegeven in 1989 en een twee<strong>de</strong> in <strong>de</strong>cember 1990). 56 Het heeft zich on<strong>de</strong>r an<strong>de</strong>re<br />

gebaseerd <strong>op</strong> bestaan<strong>de</strong> karaktersets. 57<br />

Enkel <strong>de</strong> verschillen<strong>de</strong> glyphs van een karakter wor<strong>de</strong>n samen gevoegd. Bij het<br />

samenvoegen wordt er een driedimensieel mo<strong>de</strong>l gemaakt van drie elementen namelijk<br />

semantiek (betekenis, functie), abstracte vorm (algemene vorm) en <strong>de</strong> werkelijke vorm (type-<br />

face vorm).<br />

Figuur 1 Het drie dimensioneel conceptueel mo<strong>de</strong>l gebruikt bij Han-unificatie<br />

54<br />

Dit is een ad hoc comité van ISO/IEC JTC1/SC2/WG2 (Joint Technical Committee 1, Subcommittee 2,<br />

Working Group 2)<br />

55<br />

Het Unico<strong>de</strong> Consortium geeft volgen<strong>de</strong> <strong>de</strong>finitie van <strong>de</strong> term: “The process of i<strong>de</strong>ntifying Han characters that<br />

are in common among the writing systems of <strong>Chinese</strong>, Japanese, Korean, and Vietnamese.”<br />

56<br />

The Unico<strong>de</strong> Standard, Version 3.0, Addison-Wesley, 2000, Appendix A.<br />

57<br />

Voor Chinees zijn <strong>de</strong> belangrijkste: GB2312-80, GB 12345-90, GB 7589-90, GB 7590-90, GB 8565-88, CNS<br />

11643-1992 niveau’s 1 tot en met 7 en 15, EACC, Big5.<br />

Thesis Sébastien Bruggeman Pagina 39


De karakters zijn geor<strong>de</strong>nd aan <strong>de</strong> hand van <strong>de</strong> positie die ze hebben in vier belangrijke<br />

woor<strong>de</strong>nboeken. In volgor<strong>de</strong> van belangrijkheid zijn <strong>de</strong>ze Kangxi Zidian, Dai Kan-Wa Jiten,<br />

Hanyu Da Zidian en Dae Jaweon. Als een karakter in <strong>de</strong> Kangxi Zidian gevon<strong>de</strong>n wordt dan<br />

volgt het <strong>de</strong> volgor<strong>de</strong> van <strong>de</strong> Kanxi Zidian, indien het karakter er niet in staat, dan wordt er<br />

gekeken naar <strong>de</strong> Dai Kan-Wa Jiten. Indien het karakter daarin gevon<strong>de</strong>n wordt dan wordt het<br />

geplaatst na het karakter dat er voor staat in <strong>de</strong> Dai Kan-Wa Jiten maar dan volgens <strong>de</strong> Kangxi<br />

Zidian volgor<strong>de</strong>. Indien het karakter niet gevon<strong>de</strong>n wordt dan wordt er gekeken naar <strong>de</strong><br />

Hanyu Da Zidian en <strong>de</strong> Dae Jaweon <strong>op</strong> eenzelf<strong>de</strong> manier. <strong>Chinese</strong> karakters met een<br />

vereenvoudigd radicaal wor<strong>de</strong>n geplaatst na het laatste karakter met het onvereenvoudig<strong>de</strong><br />

radicaal.<br />

Op dit ogenblik is <strong>de</strong> laatste Unico<strong>de</strong> standaard 3.2.0. Een lijst van software producten die<br />

unico<strong>de</strong> on<strong>de</strong>rsteunen is te vin<strong>de</strong>n <strong>op</strong> <strong>de</strong> website van het Unico<strong>de</strong> Consortium. 58<br />

Bij Unico<strong>de</strong> wordt er <strong>op</strong>nieuw begonnen vanaf 0. Bij <strong>de</strong> vorig besproken karaktersets<br />

werd steeds begonnen aan hogere getallen (>127) om <strong>de</strong> compatibiliteit met ASCII niet te<br />

verliezen. Unico<strong>de</strong> blijft compatibel met ASCII omdat het <strong>de</strong> eerste plaatsen <strong>op</strong>vult met<br />

ASCII.<br />

Unico<strong>de</strong> gaat nog iets ver<strong>de</strong>r dan <strong>de</strong> meeste karakterco<strong>de</strong>s en geeft aan ie<strong>de</strong>r karakter niet<br />

alleen een uniek nummer maar ook een officiële Engelstalige naam, die soms heel dui<strong>de</strong>lijk is<br />

en soms ook totaal nietszeggend kan zijn. Zo is <strong>de</strong> naam voor A: ‘Latin Capital Letter A’,<br />

terwijl <strong>de</strong> naam voor 骨 (gǔ, been) ‘CJK Unified I<strong>de</strong>ograph-9AA8’ is. Daarnaast <strong>de</strong>finieert <strong>de</strong><br />

standaard ook een groot <strong>de</strong>el normatieve eigenschappen en bijkomen<strong>de</strong> informatie.<br />

Negatieve kanten aan Unico<strong>de</strong> zijn dat <strong>de</strong> glyphs samengevoegd wor<strong>de</strong>n bijvoorbeeld <strong>de</strong><br />

glyphs voor 1 (één) zijn in het Chinees, Japans en Koreaans niet volledig hetzelf<strong>de</strong> maar toch<br />

werd maar één co<strong>de</strong>punt toegewezen. Zo wordt het radicaal “gras” van het karakter gras in het<br />

vereenvoudigd Chinees, Japans en Koreaans met drie streepjes geschreven, maar in het<br />

traditioneel Chinees met vier. Veel kritiek is echter cultuur gebon<strong>de</strong>n. Velen hebben het<br />

gevoel dat <strong>de</strong> talen verenigd zijn (dit door het feit dat karaktersets vroeger taalgebon<strong>de</strong>n<br />

waren), dit is echter totaal niet het geval. Ver<strong>de</strong>r zijn veel gespecialiseer<strong>de</strong>, zel<strong>de</strong>n gebruikte<br />

karakters nog niet geco<strong>de</strong>erd in Unico<strong>de</strong>. Daarnaast is het zeer moeilijk om nieuwe karakters<br />

in <strong>de</strong> Unico<strong>de</strong> standaard te krijgen. 59 Het kan via gebruik te maken via Private Use Area<br />

(PUA) of door mid<strong>de</strong>l van <strong>de</strong> I<strong>de</strong>ograph Description Sequence (IDS). Maar het probleem bij<br />

PUA is dat het niet echt in <strong>de</strong> standaard komt, en dat het dus compatibiliteitsproblemen kan<br />

58 http://www.unico<strong>de</strong>.org/unico<strong>de</strong>/onlinedat/products.html<br />

59 <strong>de</strong> procedure is terug te vin<strong>de</strong>n <strong>op</strong> http://www.unico<strong>de</strong>.org/pending/pr<strong>op</strong>osals.html<br />

Thesis Sébastien Bruggeman Pagina 40


geven bij het uitwisselen van data. Het IDS creëert eigenlijk karakters aan <strong>de</strong> hand van <strong>de</strong><br />

twaalf karakters gevon<strong>de</strong>n in <strong>de</strong> I<strong>de</strong>ographic Description blok (2FF0 – 2FFB) maar voegt<br />

eigenlijk ook geen karakters toe. 60 Zie Figuur 2 voor een voorbeeld van hoe het IDS precies<br />

werkt.<br />

Figuur 2 Gebruik van <strong>de</strong> I<strong>de</strong>ograph Description Sequence<br />

Ver<strong>de</strong>r probeert men ook geen symbolen of logo’s van bedrijven er in te plaatsen, dit kan<br />

kleine incompatibiliteiten geven met programma’s die voor bijvoorbeeld Mac zijn geschreven<br />

en die het Apple-teken ( ) willen weergeven.<br />

2.4. Conversie<br />

Zoals reeds vermeld hebben we twee soorten <strong>Chinese</strong> karakters, <strong>de</strong> vereenvoudig<strong>de</strong> en <strong>de</strong><br />

traditionele. Soms is het nodig om een <strong>Chinese</strong> tekst met traditionele karakters om te zetten<br />

naar verenvoudig<strong>de</strong> karakters en visa versa. Zolang men binnen eenzelf<strong>de</strong> soort <strong>Chinese</strong><br />

karakters bleef is conversie geen echt probleem (bijvoorbeeld big5 naar CNS 11643-1992).<br />

Soms ontstaan er fouten omdat een karakterset niet uitgebreid genoeg is (bijvoorbeeld van GB<br />

12345-90 naar GB 2312-80). Helaas is het probleem nog complexer, omdat één<br />

vereenvoudigd karakter soms verschillen<strong>de</strong> traditionele karakters kan omvatten.<br />

Een voorbeeld, we letten hierbij vooral <strong>op</strong> het twee<strong>de</strong> karakter, dit wordt in het<br />

vereenvoudigd Chinees <strong>op</strong> eenzelf<strong>de</strong> manier geschreven maar in het traditioneel Chinees<br />

wordt twee maal een an<strong>de</strong>r karakter gebruikt. Het woord voor “hoofdhaar” (tóufà) in<br />

vereenvoudigd Chinees ziet er als volgt uit 头发, in het traditioneel Chinees 頭髮, het woord<br />

voor “vertrekken” (chūfā) in het vereenvoudigd Chinees ziet er als volgt uit, 出发 en in het<br />

traditioneel Chinees 出發.<br />

60 The Unico<strong>de</strong> Standard, Version 3.0, p.268-271.<br />

Thesis Sébastien Bruggeman Pagina 41


Dit wil dus zeggen dat eenzelf<strong>de</strong> karakter (en dus eenzelf<strong>de</strong> co<strong>de</strong>) in het vereenvoudigd<br />

Chinees meer<strong>de</strong>re traditionele karakters (met verschillen<strong>de</strong> co<strong>de</strong>s) omvat. Sommige<br />

vereenvoudig<strong>de</strong> karakters hebben zelfs meer dan twee traditionele varianten bijvoorbeeld 干<br />

kan 幹, 乾, 榦 of 干 wor<strong>de</strong>n. 后天 (hòutiān, overmorgen) 王后 (wánghòu, koningin) wordt<br />

respectivelijk 後㆝ en 王后.<br />

Ver<strong>de</strong>r is er ook in <strong>de</strong> lo<strong>op</strong> van <strong>de</strong> tijd een verschillend woordgebruik ontstaan of wor<strong>de</strong>n<br />

namen an<strong>de</strong>rs vertaald. Dit stelt het probleem bij het converteren van teksten, namelijk<br />

moeten <strong>de</strong> karakters van woor<strong>de</strong>n gewoon naar hun traditionele variant wor<strong>de</strong>n geconverteerd<br />

of mogen/moeten <strong>de</strong> woor<strong>de</strong>n aangepast wor<strong>de</strong>n aan het doelpubliek. Zo heet een <strong>computer</strong> in<br />

China een 計算機 (jìsuànjī) terwijl het in Taiwan 電腦 (diànnǎo) heet.<br />

Daarnaast zijn <strong>de</strong> traditionele vormen die in <strong>de</strong> Volksrepubliek gebruikt wor<strong>de</strong>n niet altijd<br />

volledig hetzelf<strong>de</strong> als hun Taiwanese traditionele variant, maar in Taiwan wor<strong>de</strong>n ook<br />

vereenvoudig<strong>de</strong> karakters gebruikt (台 vs 臺).<br />

Voor Microsofts IIS webserver bestaat er een ActiveX component dat webpagina’s on-<br />

the-fly converteert 61 . In een Traditioneel <strong>Chinese</strong> windows zit er een tool om bestan<strong>de</strong>n te<br />

converteren. Veel programma’s bevatten een converter, bijvoorbeeld TwinBridge. Op Apple<br />

bestaat er <strong>de</strong> Text Encoding Converter (TEC). Verschillen<strong>de</strong> conversieprogramma’s maken<br />

gebruik van <strong>de</strong>ze TEC zoals Apple <strong>Chinese</strong> Converter, Cyclone, Uctrans en Kctrans.<br />

61 http://www.overseas.com.tw/ccccc/<br />

Thesis Sébastien Bruggeman Pagina 42


3. Co<strong>de</strong>ring<br />

lengte.<br />

Er zijn verschillen<strong>de</strong> categorieën van co<strong>de</strong>ringsmetho<strong>de</strong>s: modale, niet-modale en vaste-<br />

Modale co<strong>de</strong>ringsmetho<strong>de</strong>s maken gebruik van escape sequences 62 of an<strong>de</strong>re speciale<br />

karakters om te kunnen wisselen tussen karaktersets of verschillen<strong>de</strong> versies van een<br />

karakterset en ook om van 1 byte naar 2 byte modus over te gaan. Er bestaan<br />

enkelzijdige en dubbelzijdige modale co<strong>de</strong>ringen.<br />

Bij enkelzijdige modale co<strong>de</strong>ringsmetho<strong>de</strong>s wordt er enkel een startsequentie aan het<br />

begin van <strong>de</strong> veran<strong>de</strong>ring ingevoegd maar niet <strong>op</strong> het ein<strong>de</strong>.<br />

Bij dubbelzijdige modale co<strong>de</strong>ringen wordt er een startsequentie aan het begin van <strong>de</strong><br />

veran<strong>de</strong>ring ingevoegd en een eindsequentie bij het terugschakelen van <strong>de</strong> veran<strong>de</strong>ring.<br />

Dit on<strong>de</strong>rscheid kan van belang zijn bij sorteer<strong>op</strong>eraties. Deze co<strong>de</strong>ringsmetho<strong>de</strong>s<br />

gebruiken in het algemeen 7 bits. ISO 2022 en UTF-7 zijn voorbeel<strong>de</strong>n van modale<br />

co<strong>de</strong>ringsmetho<strong>de</strong>s. HZ is een voorbeeld van een dubbelzijdige modale<br />

co<strong>de</strong>ringsmetho<strong>de</strong>.<br />

Niet-modale co<strong>de</strong>ringsmetho<strong>de</strong>s maken gebruik van <strong>de</strong> numerieke waar<strong>de</strong> van een byte om<br />

te beslissen wanneer we moeten wisselen tussen 1 en 2 byte modus. Deze<br />

co<strong>de</strong>ringsmetho<strong>de</strong>s maken meestal gebruik van 8 bits en zijn van variabele lengte. Deze<br />

vorm van co<strong>de</strong>ring gebruikt meestal min<strong>de</strong>r plaats dan modale en vaste-lengte<br />

co<strong>de</strong>ringsmetho<strong>de</strong>s wat betreft het aantal benodig<strong>de</strong> bytes om eenzelf<strong>de</strong> karakter weer te<br />

geven. Voorbeel<strong>de</strong>n van <strong>de</strong>ze co<strong>de</strong>ringsmetho<strong>de</strong> zijn Big5, Big5+, <strong>de</strong> verschillen<strong>de</strong><br />

versies van EUC, GBK, UTF-8 en UTF-16.<br />

Vaste-lengte co<strong>de</strong>ringsmetho<strong>de</strong>s gebruiken een zelf<strong>de</strong> aantal van bytes om alle karakters in<br />

een karakterset weer te geven. Er is hier dus geen wissel tussen 1 en 2 byte modus nodig.<br />

Deze vorm van co<strong>de</strong>ring vereenvoudigt tekstintensieve <strong>op</strong>eraties zoals zoeken, in<strong>de</strong>xeren<br />

en sorteren van tekst, maar ze kunnen veel plaatsverlies betekenen. Voorbeel<strong>de</strong>n van<br />

<strong>de</strong>ze co<strong>de</strong>ringsmetho<strong>de</strong> zijn ASCII, UCS-2 en UCS-4.<br />

62 Escape sequence: ECMA <strong>de</strong>finitie “A string of bit combinations that is used for control purposes in co<strong>de</strong><br />

extension procedures. The first of these bit combinations represents the control function ESCAPE.”. Deze escape<br />

sequences zijn geregistreerd bij het ISO. ISO 2375:1985: Data processing – Procedure for registration of escape<br />

sequences.<br />

Thesis Sébastien Bruggeman Pagina 43


3.1. Westerse talen<br />

De co<strong>de</strong>ring voor <strong>de</strong> ASCII karakterset staat beschreven in ISO 646:1991 (Information<br />

Technology: ISO 7-bit Co<strong>de</strong>d Character Set for Information Interchange). Het gebruikt 7 bits<br />

waardoor het 128 unieke te co<strong>de</strong>ren karakters toe laat. 63 Slechts 94 van <strong>de</strong>ze karakters in<br />

ASCII zijn printbaar, <strong>de</strong> overige 34 zijn controle karakters 64 of ‘white spaces’. Deze ‘white<br />

spaces’ zijn karakters zoals een spatie of een tab.<br />

ISO 8859 maakt gebruik van 8 bits en laat daardoor 256 uniek geco<strong>de</strong>er<strong>de</strong> karakters toe. 65<br />

IBM ontwikkel<strong>de</strong> zijn eigen enkel-byte karakterset, EBCDIC (Exten<strong>de</strong>d Binary Co<strong>de</strong>d<br />

Decimal Interchange Co<strong>de</strong>) genaamd. Het aantal en <strong>de</strong> types printbare karakters zijn <strong>de</strong>zelf<strong>de</strong><br />

als bij ASCII, maar <strong>de</strong> co<strong>de</strong>ring ervan is volledig verschillend van ASCII.<br />

3.2. Chinees<br />

Met <strong>de</strong> uitzon<strong>de</strong>ring van Big5 en ISO 10646-1:1993 zijn er twee co<strong>de</strong>ringsmetho<strong>de</strong>s die<br />

voor bijna alle Oost-Aziatische talen (maar niet uitsluitend) gebruikt wor<strong>de</strong>n namelijk ISO<br />

2022 en EUC (Exten<strong>de</strong>d Unix Co<strong>de</strong>), er zijn echter wel lokale varianten van <strong>de</strong>ze<br />

co<strong>de</strong>ringsmetho<strong>de</strong>s.<br />

a) HZ en EHZ<br />

HZ (is een afkorting voor 汉字 hànzì) werd in 1989 ontwikkeld door Fung-Fung Lee (李<br />

枫峰 lǐ fēngfēng), een stu<strong>de</strong>nt aan <strong>de</strong> universiteit van Stanford. Het werd ontwikkeld om GB<br />

2312-80 tekst te co<strong>de</strong>ren speciaal voor het uitwisselen van e-mails en berichten <strong>op</strong><br />

nieuwsgroepen (maar wordt ook <strong>op</strong> an<strong>de</strong>re plaatsen gebruikt zoals in bijvoorbeeld terminal<br />

elmulators on<strong>de</strong>r Linux).<br />

Het is een dubbelzijdige modale co<strong>de</strong>ringsmetho<strong>de</strong>. Het wordt beschreven in RFC 1843<br />

HZ - A Data Format for Exchanging Files of Arbitrarily Mixed <strong>Chinese</strong> and ASCII characters.<br />

Het maakt gebruik van een shift sequence 66 van twee printbare karakters (in plaats van een<br />

escape sequence) om van <strong>de</strong> één byte karakters naar <strong>de</strong> twee byte (<strong>Chinese</strong>) karakters te<br />

verspringen.<br />

63<br />

2^7 = 128<br />

64<br />

<strong>Chinese</strong> term: 控制碼 kòngzhìmǎ<br />

65<br />

2^8 = 256<br />

66<br />

Shift sequence: is een escape sequence (zie noot 62) die niet begint met het controle karakter ESC.<br />

Thesis Sébastien Bruggeman Pagina 44


Er wordt uitgegaan van <strong>de</strong> veron<strong>de</strong>rstelling dat er slechts GB 2312-80 en ASCII bestaat.<br />

GB bestaat uit twee bytes waarvan <strong>de</strong> eerste byte valt in het gebied 0x21 tot 0x77 en <strong>de</strong><br />

twee<strong>de</strong> byte in het gebied 0x21 tot 0x7E. Grafische ASCII karakters vallen in het gebied 0x21<br />

tot 0x7E en niet grafische ASCII karakters in het gebied 0x00 tot 0x20 en 0x7F. Aangezien<br />

het gebied van een GB byte overlapt met een byte van een grafisch ASCII karakter moet er<br />

dus versprongen wor<strong>de</strong>n van modus, dit gebeurt via een niet-grafisch ASCII karakter dat in<br />

bei<strong>de</strong> sets gelijk is (‘~’ staat <strong>op</strong> positie 0x7E en valt dus buiten het gebied van een eerste byte<br />

van een GB karakter). De standaard modus is ASCII en alles wordt behan<strong>de</strong>ld als ASCII tot<br />

dat er een til<strong>de</strong> (~) tegengekomen wordt. De til<strong>de</strong> moet gevolgd wor<strong>de</strong>n door een ~, een {,<br />

een } of een /n (nieuwe regel).<br />

Het gebruikt een ~{ om het begin aan te dui<strong>de</strong>n van een GB reeks, vanaf dan wor<strong>de</strong>n<br />

bytes per twee behan<strong>de</strong>ld tot er ~} wordt tegen gekomen dat aanduidt dat er terug naar ASCII<br />

mo<strong>de</strong> moet wor<strong>de</strong>n overgeschakeld. Om een til<strong>de</strong> in ASCII weer te geven moet het dubbel<br />

geco<strong>de</strong>erd wor<strong>de</strong>n (~~), willen we twee bytes behou<strong>de</strong>n terwijl we van lijn verspringen dan<br />

moet ~ (~/n) meegegeven wor<strong>de</strong>n. Een voorbeeld:<br />

Dit is ASCII, wat volgt is in GB .~{


) ISO 2022<br />

Deze co<strong>de</strong>ringsmetho<strong>de</strong> staat beschreven in ISO 2022:1994, Information Technology –<br />

Character co<strong>de</strong> structure and extention techniques. 67 Eigenlijk is het niet echt geschikt voor<br />

interne <strong>op</strong>slag of bewerking <strong>op</strong> <strong>computer</strong> systemen, het werd ontworpen vor informatie<br />

uitwisseling tussen <strong>computer</strong>s, zoals e-mail. Het is een 7 bit modale co<strong>de</strong>ringsmetho<strong>de</strong>. Er<br />

zijn slechts enkele programma’s die ISO 2022 intern kunnen verwerken (bv Emacs Version<br />

20), an<strong>de</strong>re programma’s (meestal e-mail programma’s) zijn wel in staat om ISO 2022<br />

geco<strong>de</strong>er<strong>de</strong> tekst te maken maar verwerken <strong>de</strong> ISO 2022 co<strong>de</strong>ring niet noodzakelijk intern.<br />

De waar<strong>de</strong>n die gebruikt wor<strong>de</strong>n voor het co<strong>de</strong>ren van bytes vallen in <strong>de</strong> hexa<strong>de</strong>cimale<br />

gebied 0x21-0x7E en dit voor zowel <strong>de</strong> eerste als twee<strong>de</strong> byte, dit gebied komt overeen met<br />

het gebied van printbare ASCII karakters. Het gebruikt speciale karakters of speciale reeksen<br />

van karakters namelijk <strong>de</strong>signator sequences 68 , single shift sequences 69 (SSx), shifting<br />

characters 70 en escape sequences 71 .<br />

Van <strong>de</strong>ze co<strong>de</strong>ringsmetho<strong>de</strong> zijn er twee <strong>Chinese</strong> varianten (er is ook een Japanse en<br />

Koreaanse variant respectivelijk ISO-2022-JP en ISO-2022-KR) namelijk ISO-2022-CN en<br />

ISO-2022-CN-EXT, die bei<strong>de</strong>n in RFC 1922 (<strong>Chinese</strong> Character Encoding for Internet<br />

Messages) staan beschreven. Het verschil tussen ISO-2022-CN en ISO-2022-CN-EXT is dat<br />

ISO-2022-CN enkel ASCII, GB 2312-80 en niveaus 1 en 2 van CNS 11643-1992 on<strong>de</strong>rsteunt.<br />

ISO-2022-CN-EXT is i<strong>de</strong>ntiek aan ISO-2022-CN maar het biedt on<strong>de</strong>rsteuning voor meer<br />

karaktersets. Chinees en ASCII wor<strong>de</strong>n van elkaar on<strong>de</strong>rschei<strong>de</strong>n door <strong>de</strong>signations en shift<br />

functies. Het zijn <strong>de</strong> <strong>de</strong>signations die bepalen welke <strong>Chinese</strong> karakterset er gebruikt zal<br />

wor<strong>de</strong>n. Zie tabel Tabel 20 en<br />

Tabel 21.<br />

Tabel 20 ISO-2022-CN<br />

Designator Karakterset<br />

SO GB 2312-80 en CNS 11643-1992 niveau 1<br />

SS2 CNS 11643-1992 niveau 2<br />

67 Standard ECMA-35 is nu i<strong>de</strong>ntiek aan ISO2022 en is integraal terug te vin<strong>de</strong>n <strong>op</strong> <strong>de</strong> ECMA website.<br />

68 Designator sequence: Het geeft aan welke karakterset moet gebruikt wor<strong>de</strong>n wanneer er overgeschakeld wordt<br />

naar dubbele byte modus. Het zorgt evenwel niet voor <strong>de</strong> overschakeling. Het moet in ie<strong>de</strong>re lijn voorkomen die<br />

karakters van <strong>de</strong> karakterset bevat, dit zodat <strong>de</strong> karakters correct zou<strong>de</strong>n weergegeven wor<strong>de</strong>n als er terug<br />

‘gescrolled’ wordt in een venster.<br />

69 Single shift sequence: zorgt voor <strong>de</strong> overschakeling naar dubbele byte modus voor <strong>de</strong> twee karakters die er <strong>op</strong><br />

volgen. Wordt aangeduid met SS2 (0x1B 0x4E) of SS3 (0x1B 0x4F)<br />

70 Shifting character: zorgt voor <strong>de</strong> overschakeling tussen enkele en dubbele byte modus. Een SO (0x0E) duidt<br />

het begin aan, een SI (0x0F) duidt het ein<strong>de</strong> aan van een dubbele byte modus.<br />

71 Escape sequence: Duidt niet alleen aan welke karakterset er moet gebruikt wor<strong>de</strong>n, maar zorgt ook voor <strong>de</strong><br />

overschakeling.<br />

Thesis Sébastien Bruggeman Pagina 46


Tabel 21 ISO-2022-CN-EXT<br />

Designator Karakterset<br />

SO GB 2312-80, GB 12345, ISO-IR-165:1992 en CNS 11643-1992 niveau 1<br />

SS2 GB 7589-87, GB 13131-91 en CNS 11643-1992 niveau 2<br />

SS3 GB 7590-87, GB 13132-91, CNS 11643-1992 niveau 3 tot 7<br />

De invoer van een <strong>de</strong>signator zorgt ervoor dat <strong>de</strong> vorige sequences ongedaan gemaakt<br />

wor<strong>de</strong>n voor <strong>de</strong> karakters die volgen. Hoe <strong>de</strong>ze sequenties er precies uitzien kan men<br />

terugvin<strong>de</strong>n in Tabel 38 en Tabel 39. Ie<strong>de</strong>re lijn moet beginnen en eindigen in ASCII, met<br />

an<strong>de</strong>re woor<strong>de</strong>n er moet een SI wor<strong>de</strong>n meegeven voor het ein<strong>de</strong> van <strong>de</strong> lijn.<br />

Hieron<strong>de</strong>r volgt <strong>de</strong> hexa<strong>de</strong>cimale representatie van “交换交換” geco<strong>de</strong>erd met ISO-2022-<br />

CN waarbij 交換 (jiāohuàn, uitwisseling) <strong>de</strong> eerste maal uit GB 2312-80 karakterset wordt<br />

gehaald en <strong>de</strong> twee<strong>de</strong> maal uit CNS 11643-1992 niveau 1. 72<br />

1B 24 29 41 0E 3D 3B 3B 3B 1B 24 29 47 47 28 5F 50 0F<br />

1B 24 29 41 0E 3D 3B 3B 3B 1B 24 29 47 47 28 5F 50 0F<br />

$ ) A 交换 $ ) G 交換 <br />

GB 2312-80 Begin 2 bytes CNS 11643-92 Ein<strong>de</strong> 2 bytes<br />

c) EUC<br />

EUC staat voor Exten<strong>de</strong>d Unix Co<strong>de</strong>. EUC is een niet-modale variable-lengte 8-bit<br />

co<strong>de</strong>ringsmetho<strong>de</strong>. Het is ontwikkeld als een metho<strong>de</strong> om verschillen<strong>de</strong> karaktersets te<br />

verwerken in één enkele tekststroom. De volledige <strong>de</strong>finitie van EUC co<strong>de</strong>ring bestaat uit 4<br />

co<strong>de</strong> sets. Co<strong>de</strong> set 0 is altijd ofwel <strong>de</strong> ASCII karakterset of een lan<strong>de</strong>lijke variant van ISO<br />

646. De an<strong>de</strong>re co<strong>de</strong> sets zijn een set van variabelen waaruit elk land kan kiezen. Om het<br />

on<strong>de</strong>rscheid te maken tussen ASCII en een <strong>Chinese</strong> karakterset wordt <strong>de</strong> eerste bit van <strong>de</strong><br />

eerste byte <strong>op</strong> 1 geplaatst. Karakters uit <strong>de</strong> <strong>de</strong>r<strong>de</strong> co<strong>de</strong> set wor<strong>de</strong>n voorafgegaan door het<br />

controlekarakter SS2 (0x8E), karakters uit <strong>de</strong> vier<strong>de</strong> co<strong>de</strong> set wor<strong>de</strong>n voorafgegaan door het<br />

controlekarakter SS3 (0x8F). Er zijn verschillen<strong>de</strong> co<strong>de</strong> posities die niet kunnen gebruikt<br />

wor<strong>de</strong>n voor het co<strong>de</strong>ren van printbare karakters namelijk karakters tussen 0x00 – 0x1F en<br />

0x80 – 9F en <strong>de</strong> karakters <strong>op</strong> <strong>de</strong> punten 0x20 (space) en 0x7F (<strong>de</strong>lete). Het gebied 0x21 tot<br />

0x7E wordt gebruikt om enkel-byte ASCII te co<strong>de</strong>ren terwijl het gebied 0xA1 tot 0xFE wordt<br />

gebruikt voor het co<strong>de</strong>ren van twee byte <strong>Chinese</strong> karakters.<br />

EUC-CN wordt gebruikt in China. Dit is een co<strong>de</strong>ring die gebruik maakt van één en twee<br />

byte co<strong>de</strong>ring. Het gebruikt enkel <strong>de</strong> eerste 2 co<strong>de</strong>sets. De eerste is zoals voorgeschreven<br />

ASCII en <strong>de</strong> twee<strong>de</strong> set is GB 2312-80.<br />

72 http://freebsd.sinica.edu.tw/~statue/hanzi/iso2022-2.htm<br />

Thesis Sébastien Bruggeman Pagina 47


EUC-TW wordt gebruikt in Taiwan. De lengte van <strong>de</strong> co<strong>de</strong>ring van een karakter kan<br />

ofwel één, twee of vier bytes lang zijn. Het gebruikt drie co<strong>de</strong>sets. Co<strong>de</strong> set 0 is ASCII, co<strong>de</strong><br />

set 1 bevat CNS 11643-1992 niveau 1, co<strong>de</strong> set 2 bevat CNS 11643-1992 niveaus 2 tot 16.<br />

Door het groot aantal karakters in co<strong>de</strong> set 2 wordt die geco<strong>de</strong>erd met 4 bytes. Zie Tabel 40<br />

voor het gebruik van <strong>de</strong> single shift.<br />

d) GBK<br />

Deze co<strong>de</strong>ring wordt gebruikt voor <strong>de</strong> GBK karakterset, het is ook <strong>de</strong> standaard co<strong>de</strong>ring<br />

voor <strong>de</strong> <strong>Chinese</strong> versies van Windows in <strong>de</strong> Volksrepubliek. Het biedt plaats aan 23 940 co<strong>de</strong><br />

plaatsen waarvan er aan 21 886 karakters zijn toegewezen. Het is compatibel met EUC-CN<br />

want GBK nam EUC-CN’s co<strong>de</strong> set 1 als zijn basis.<br />

e) Big5 en Big5+<br />

Zijn niet-modale co<strong>de</strong>ringsmetho<strong>de</strong>s. Big5 en EUC-TW zijn heel verschillend van elkaar,<br />

EUC-TW is een gemengd één-, twee-, vier-byte co<strong>de</strong>ring dat bestaat uit niveaus, terwijl Big5<br />

een gemeng<strong>de</strong> één- en twee-byte co<strong>de</strong>ring is waarvan <strong>de</strong> waar<strong>de</strong>n van <strong>de</strong> twee<strong>de</strong> byte tot in <strong>de</strong><br />

7 bit regio reiken (eerste byte: A1 – FE, twee<strong>de</strong> byte: 0x40 – 0x7E en 0xA1 – 0xFE).<br />

Big5+ is een extensie van Big5 en nam daarom Big5 als zijn basis.<br />

f) Overzicht<br />

Tabel 22 Co<strong>de</strong>ringen en <strong>de</strong> on<strong>de</strong>rsteun<strong>de</strong> karaktersets<br />

Co<strong>de</strong>ring On<strong>de</strong>rsteun<strong>de</strong> karaktersets<br />

ASCII ASCII, GB-Roman, CNS-Roman,<br />

ISO 2022 ASCII, GB-Roman, CNS-Roman,GB 2312-80, CNS 11643-1992<br />

EUC ASCII, GB-Roman, CNS-Roman,GB 2312-80, GB/T 12345-90, CNS 11643-1992<br />

GBK ASCII, GB-Roman, GB 2312-80, GB/T 12345-90<br />

HZ ASCII, GB-Roman, GB 2312-80<br />

Big5 ASCII, CNS-Roman, Big5<br />

Big5+ ASCII, CNS-Roman, Big5+<br />

Tabel 23 Karaktersets en on<strong>de</strong>rsteun<strong>de</strong> co<strong>de</strong>ringen<br />

Karakterset On<strong>de</strong>rsteun<strong>de</strong> co<strong>de</strong>ringen<br />

CCCII, EACC 3 byte ISO 2022<br />

CNS 11643 ISO-2022-CN, ISO-2022-CN-EXT en EUC-TW<br />

Big5 Big5<br />

GB ISO 2022, ISO-2022-CN, ISO-2022-CN-EXT, GBK, EUC-CN, HZ, zW<br />

GBK GBK<br />

Thesis Sébastien Bruggeman Pagina 48


3.3. Meertalig<br />

a) UCS<br />

UCS staat voor Universal Character Set en heeft twee co<strong>de</strong>ringsmetho<strong>de</strong>s namelijk UCS-<br />

2 en UCS-4. UCS-2 gebruikt 2 bytes en UCS-4 gebruikt 4 bytes. Ze gebruiken een vaste-<br />

lengte co<strong>de</strong>ring. Eigenlijk is UCS-4 geen 32-bit maar slechts een 31-bit co<strong>de</strong> en dit laat dus 2<br />

147 483 648 co<strong>de</strong> punten toe. 73<br />

Tabel 24 UCS-4 is slechts een 31-bit co<strong>de</strong><br />

Bits 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx<br />

Control 7 2 2 2 2 2 = 17<br />

Data 1 6 6 6 6 6 = 31<br />

b) UTF<br />

UTF staat voor UCS Transformation Format, ook hiervan zijn er verschillen<strong>de</strong> versies<br />

namelijk UTF-7, UTF-8, UTF-16 en UTF-32.<br />

UTF-7 is zeer gelijkend aan Base64. Het wordt beschreven in RFC 2152 UTF-7: A Mail-<br />

Safe Transformation Format of Unico<strong>de</strong>. Het is een 7 bit co<strong>de</strong>ring. Het kan alleen gebruikt<br />

wor<strong>de</strong>n om UCS-2 en UTF-16 te co<strong>de</strong>ren. Wat het eigenlijk doet is <strong>de</strong> unico<strong>de</strong> karakters<br />

co<strong>de</strong>ren als US-ASCII bytes samen met shift sequenties (hiervoor wordt ‘+’ gebruikt om het<br />

begin van een shift aan te dui<strong>de</strong>n en ‘-’ om het ein<strong>de</strong> ervan aan te dui<strong>de</strong>n) om karakters die<br />

buiten dat gebied vallen te kunnen co<strong>de</strong>ren. UTF-7 is enkel ontwikkeld enkel en alleen om in<br />

mail-omgeving gebruikt te wor<strong>de</strong>n. In an<strong>de</strong>re omstandighe<strong>de</strong>n gaat <strong>de</strong> voorkeur naar UTF-8<br />

of an<strong>de</strong>re co<strong>de</strong>ringen van Unico<strong>de</strong>. Om een ‘+’ weer te geven moet ‘+-’ wor<strong>de</strong>n ingegeven en<br />

voor een ‘-’ moet het twee maal geco<strong>de</strong>erd wor<strong>de</strong>n (‘--’).<br />

Voorbeeld: Hi Mom J! Wordt geco<strong>de</strong>erd als ‘Hi Mom +Jjo-!’<br />

Hi Mom + Jjo - !<br />

ASCII Begin co<strong>de</strong>ring J Ein<strong>de</strong> co<strong>de</strong>ring ASCII<br />

0048 0069 0020 004D 006F 006D 0020 263A 0021<br />

73 2^31 = 2 147 483 648<br />

Thesis Sébastien Bruggeman Pagina 49


UTF-8 werd ontwikkeld om Unico<strong>de</strong> tekst weer te geven als octets in plaats van als 16-bit<br />

eenhe<strong>de</strong>n. Het werd beschreven in RFC 2279 UTF-8, a transformation format of ISO 10646.<br />

Het is een 8 bit-variabele-lengte co<strong>de</strong>ring. Het kan gebruikt wor<strong>de</strong>n om UCS-2 en UCS-4 te<br />

co<strong>de</strong>ren. Het voor<strong>de</strong>el is dat ie<strong>de</strong>re geldige ASCII string ook een geldige UTF-8 string is<br />

waardoor we terugwaartse compatibiliteit hebben. In UTF-8 wor<strong>de</strong>n karakters geco<strong>de</strong>erd in 1<br />

tot 6 bytes, wanneer een byte alleen voorkomt dat wordt <strong>de</strong> eerste bit <strong>op</strong> 0 gezet, indien een<br />

karakter uit meer<strong>de</strong>re bytes bestaat wordt <strong>de</strong> eerste bit <strong>op</strong> 1 gezet en wordt gevolgd door een<br />

bit <strong>op</strong> 0.<br />

Tabel 25 UTF-8 co<strong>de</strong>ring van UCS-2 en UCS-4<br />

UCS2<br />

UCS4<br />

Range (hex.) UTF-8 octet sequence (binary)<br />

0000 0000-0000 007F 0xxxxxxx<br />

0000 0080-0000 07FF 110xxxxx 10xxxxxx<br />

0000 0800-0000 FFFF 1110xxxx 10xxxxxx 10xxxxxx<br />

0001 0000-001F FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx<br />

0020 0000-03FF FFFF 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx<br />

0400 0000-7FFF FFFF 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx<br />

Voorbeeld: 日本語<br />

日 本 語<br />

HEX 65E5 672C 8A9E<br />

UTF-8 E6 97 A5 E6 9C AC E8 AA 9E<br />

UTF-16 co<strong>de</strong>ert normaalgezien enkel UCS-2 maar laat ook toe om <strong>de</strong> volgen<strong>de</strong> 16<br />

niveaus te co<strong>de</strong>ren die normaalgezien enkel toegankelijk zijn via UCS-4. Het is een variabele-<br />

lengte co<strong>de</strong>ring dat gebruik maakt van een gemeng<strong>de</strong> 16 en 32 bit co<strong>de</strong> ruimte. In<br />

programma’s die geen UTF-16 aankunnen (en dus ie<strong>de</strong>r byte interpreteren als een karakter)<br />

zal het woord ‘hallo’ weergegeven wor<strong>de</strong>n als ‘h a l l o’. Er bestaat UTF-16BE (Big Endian)<br />

en UTF-16LE. (Little Endian). Indien <strong>de</strong> tekst gelabeld staat als UTF-16 kan er een 0xFEFF<br />

wor<strong>de</strong>n meegestuurd als Byte Or<strong>de</strong>r Mark (BOM) en het heeft enkel die betekenis als het aan<br />

het begin van een sequentie staat (an<strong>de</strong>rs betekent het zero width non-breaking space), aan <strong>de</strong><br />

hand daarvan kan men dus <strong>de</strong> or<strong>de</strong>ning van <strong>de</strong> bytes aflei<strong>de</strong>n. als 0xFE gevolgd wordt door<br />

0xFF dan is het BE. Indien <strong>de</strong> eerste bytes 0xFF gevolgd door 0xFE zijn dan is het LE. Indien<br />

<strong>de</strong> tekst gelabeld staat als UTF-16BE of UTF-16BE dan mag er geen BOM meegestuurd<br />

wor<strong>de</strong>n<br />

Thesis Sébastien Bruggeman Pagina 50


Voorbeeld: (0x12345)=Ra (<strong>de</strong> hexa<strong>de</strong>cimale co<strong>de</strong> is <strong>de</strong> co<strong>de</strong> voor het teken Ra)<br />

(0x12345)=Ra<br />

BE D8 08 DF 45 00 3D 00 52 00 61<br />

LE 08 D8 45 DF 3D 00 52 00 61 00<br />

UTF-32 is <strong>de</strong> laatste co<strong>de</strong>ring. Het kan ook <strong>op</strong>ge<strong>de</strong>elt wor<strong>de</strong>n in UTF-32 (al dan niet<br />

gebruik maken<strong>de</strong> van een BOM), UTF-32BE en UTF-32LE. Het kan alle co<strong>de</strong>punten van<br />

Unico<strong>de</strong> co<strong>de</strong>ren. UTF-32 is een subset van UCS-4. 74<br />

74 http://www.unico<strong>de</strong>.org/unico<strong>de</strong>/reports/tr19/<br />

Thesis Sébastien Bruggeman Pagina 51


4. Hardware<br />

4.1. Toetsenbord<br />

Voor het <strong>computer</strong>toetsenbord werd <strong>de</strong> typmachine gebruikt. Een <strong>Chinese</strong> typemachine<br />

bestond uit een soort dienblad dat meer dan 2000 karakters kon bevatten, en verschillen<strong>de</strong><br />

duizen<strong>de</strong>n meer in an<strong>de</strong>re platen (zie Figuur 13 <strong>op</strong> pagina 89). De typist moest eerst <strong>de</strong> plaat<br />

uitlijnen, vervolgens een toets drukken die ervoor zorg<strong>de</strong> dat een arm het gewenste karakter<br />

aandrukte tegen het papier. De machine kon zowel horizontaal als verticaal typen. Het was<br />

re<strong>de</strong>lijk traag maar goe<strong>de</strong> typisten haal<strong>de</strong>n toch ongeveer 20 karakters per minuut. Met <strong>de</strong><br />

komst van <strong>de</strong> <strong>computer</strong> was dit toestel totaal achterhaald. Er moest dus gezocht wor<strong>de</strong>n naar<br />

manieren om Chinees in te voeren via het toetsenbord dat men aan <strong>de</strong> <strong>computer</strong> kon<br />

aansluiten.<br />

De meest voorkomen<strong>de</strong> toetsenbord layout in Azië is net zoals in Amerika <strong>de</strong> QWERTY<br />

layout. Het probleem is dat een toetsenbord niet alle karakters kan bevatten, zelfs niet een<br />

voldoen<strong>de</strong> aantal. Dus wer<strong>de</strong>n er twee zaken bedacht: invoermetho<strong>de</strong>s (input methods) en<br />

conversie woor<strong>de</strong>nboeken (conversion dictionaries). Concreet houdt dit in dat een gebruiker<br />

typt, <strong>de</strong> <strong>computer</strong> interpreteert <strong>de</strong> invoer aan <strong>de</strong> hand van <strong>de</strong> invoermetho<strong>de</strong>, (<strong>de</strong> invoer wordt<br />

door een in <strong>de</strong> invoermetho<strong>de</strong> ingebouw<strong>de</strong> parser gehaald) en het conversiewoor<strong>de</strong>nboek<br />

geeft een lijst van mogelijke karakters die overeenkomen met <strong>de</strong> invoer weer (zeer gelijkend<br />

aan key-value-lookup). Vervolgens moet <strong>de</strong> gebruiker een keuze maken uit <strong>de</strong> lijst ofwel<br />

meer keuzes <strong>op</strong>vragen. Hoe groter het conversiewoor<strong>de</strong>nboek hoe langer <strong>de</strong> lijst van<br />

mogelijke kandidaat karakters. De invoermetho<strong>de</strong> moet er wel voor zorgen dat het als eerste<br />

<strong>de</strong> invoer verwerkt, daarom spreken we ook vaak van front-end processor (FEP), ze draaien<br />

meestal onafhankelijk van het programma dat <strong>de</strong> eigenlijke invoer nodig heeft en daarom<br />

kunnen ze ook voor meer<strong>de</strong>re programma’s gebruikt wor<strong>de</strong>n.<br />

Er zijn vier soorten ‘input method editing’ namelijk on-the-spot, over-the-spot, off-the-<br />

spot en root-window 75 .<br />

75 http://www.mozilla.org/projects/intl/input-method-spec.html<br />

Thesis Sébastien Bruggeman Pagina 52


Bij on-the-spot (ook wel inline input genoemd) wordt <strong>de</strong> tekst rechtstreeks in <strong>de</strong> tekst door<br />

het programma ingevoerd. De tekst die eventueel na <strong>de</strong> positie van invoer staat wordt mee<br />

<strong>op</strong>geschoven tij<strong>de</strong>ns <strong>de</strong> invoer. Er wordt eventueel mogelijks nog uit <strong>de</strong> juiste kandidaten<br />

gekozen en vervolgens wordt <strong>de</strong> tekst werkelijk ingevoegd.<br />

Bij over-the-spot wordt <strong>de</strong> tekst als een soort ‘laag’ ingevoerd en kan aldus over tekst<br />

komen die er <strong>op</strong> volgt. Als <strong>de</strong> gebruiker <strong>de</strong> ingevoer<strong>de</strong> tekst bevestigt wordt het werkelijk<br />

ingevoerd. Hier gebeurt <strong>de</strong> invoer in eenmaal in <strong>de</strong> tekst.<br />

Bij off-the-spot wordt <strong>de</strong> invoer eerst in een invoerbalk ingegeven die on<strong>de</strong>raan het<br />

scherm staat, pas bij bevestiging wordt het <strong>de</strong> tekst ingevoerd.<br />

Bij root-window (ook wel floating window genoemd) wordt <strong>de</strong> tekst ingevoerd in een<br />

invoerbalk die zijn eigen scherm heeft en los staat van het programma waar tekst ingevoerd<br />

wordt. Als <strong>de</strong> gebruiker <strong>de</strong> ingevoer<strong>de</strong> tekst bevestigt, dan wordt <strong>de</strong> tekst daadwerkelijk<br />

ingevoerd.<br />

Er zijn drie manieren om <strong>de</strong> <strong>Chinese</strong> taal in te voeren, <strong>de</strong> eerste is gebaseerd <strong>op</strong> <strong>de</strong><br />

uitspraak (拼音法 pīnyīfǎ), <strong>de</strong> twee<strong>de</strong> is gebaseerd <strong>op</strong> structuur van <strong>de</strong> karakters (拆字法<br />

chāizìfǎ) en <strong>de</strong> <strong>de</strong>r<strong>de</strong> is een combinatie van bei<strong>de</strong> vorige (混合法 hùnhéfǎ). Uitspraak<br />

gebaseer<strong>de</strong> systemen zijn in het algemeen makkelijker aan te leren.<br />

De eerste inputmetho<strong>de</strong>s waren gebaseerd <strong>op</strong> karakterinvoer, ie<strong>de</strong>r karakter moest<br />

afzon<strong>de</strong>rlijk ingegeven wor<strong>de</strong>n. Er zijn echter intelligente systemen ontwikkeld die <strong>Chinese</strong><br />

karakters weergeven naargelang hun frequentie in <strong>de</strong> <strong>Chinese</strong> taal, <strong>de</strong> meest frequente wor<strong>de</strong>n<br />

dan eerst weergegeven, het eigen typgedrag en systemen die werken aan <strong>de</strong> hand van<br />

associatie, hier wordt gekeken naar welke karakters er voor komen.<br />

Hieron<strong>de</strong>r wor<strong>de</strong>n een <strong>de</strong>el invoermetho<strong>de</strong>s besproken, het is onmogelijk om alle<br />

invoermetho<strong>de</strong>s te bespreken en daarom wordt slechts een <strong>de</strong>el <strong>op</strong> korte wijze behan<strong>de</strong>ld.<br />

a) Uitspraak gebaseerd<br />

De twee belangrijkste romanisatie systemen zijn Wa<strong>de</strong>-Giles (韋氏 weíshì) en Pinyin<br />

(拼音 pīnyīn). Daarnaast bestaan er ook nog an<strong>de</strong>re zoals Yale, Romanisation <strong>de</strong> l’Ecole<br />

Française d’Extrême-Orient, …<br />

Wa<strong>de</strong>-Giles (genoemd naar zijn uitvin<strong>de</strong>rs) werd het meest gebruikt in <strong>de</strong> 19 <strong>de</strong> eeuw<br />

en begin 20 ste eeuw in internationale gemeenschap. Sinds <strong>de</strong> erkenning van het Pinyin als<br />

officieel romanisatiesysteem door <strong>de</strong> VN in 1979, heeft het Pinyin veel terrein gewonnen <strong>op</strong><br />

het Wa<strong>de</strong>-Giles.<br />

Thesis Sébastien Bruggeman Pagina 53


In 1928 werd het door Zhao Yuanren (趙元任 zhào yuánrèn) ontwikkel<strong>de</strong> Gwoyeu<br />

Romatzyh (國語羅馬字 guóyǔ luómǎzì) <strong>de</strong> officiële standaard in China voor <strong>de</strong> romanisatie,<br />

maar dit heeft nooit echt veel ingang gevon<strong>de</strong>n. Daarnaast hebben we ook nog het fonetisch<br />

schrift Zhuyin. In 1913 riep <strong>de</strong> <strong>Chinese</strong> regering een Conference on the Unification of<br />

Pronounciation samen en in 1918 werd dan een National Phonetic Alphabet afgekondigd, dit<br />

was het Zhuyin (注音字母 zhùyīn zìmǔ), in 1930 werd een vernieuw<strong>de</strong> versie uitgegeven<br />

on<strong>de</strong>r <strong>de</strong> naam 注音符號 (zhùyīn fúhào).<br />

Het probleem bij <strong>de</strong> <strong>Chinese</strong> taal is dat eenzelf<strong>de</strong> uitspraak verschillen<strong>de</strong> karakters kan<br />

hebben (zo geeft <strong>de</strong> invoer van yì in een Taiwanese MS Windows 133 mogelijke karakters),<br />

wat <strong>de</strong> kans <strong>op</strong> verkeerd typen groter maakt. Hoe meer mogelijkhe<strong>de</strong>n er zijn waaruit gekozen<br />

kan wor<strong>de</strong>n, hoe slechter het is voor <strong>de</strong> ogen omdat er meer geconcentreerd naar het scherm<br />

moet wor<strong>de</strong>n gekeken en <strong>de</strong> ogen veel meer moeten zoeken. Daarom wordt veel meer <strong>op</strong><br />

woor<strong>de</strong>n gewerkt, want het aantal woor<strong>de</strong>n met een i<strong>de</strong>ntieke uitspraak is veel kleiner. Ver<strong>de</strong>r<br />

wordt er meer en meer artificiële intelligentie ingebouwd zodat bijvoorbeeld namen en<br />

plaatsen na verlo<strong>op</strong> van tijd kunnen herkend wor<strong>de</strong>n. Daarnaast is <strong>de</strong> uitspraak van <strong>de</strong><br />

verschillen<strong>de</strong> dialecten in China enorm verschillend, maar gebruiken ze <strong>de</strong>zelf<strong>de</strong> karakters.<br />

ß Pinyin (拼音 pīnyīn – letterlijke betekenis: spellen volgens het geluid)<br />

Pinyin is het officiële romanisatiesysteem in <strong>de</strong> Volksrepubliek China. Het werd<br />

uitgevaardigd in 1958. Sinds 1977 is het <strong>de</strong> VN standaard voor <strong>de</strong> romanisatie van het<br />

Chinees. Pas in 1979 werd het pas <strong>de</strong> officiële standaard en <strong>op</strong> 1 augustus 1982 werd het een<br />

ISO standaard 76 . Pinyin is gebaseerd <strong>op</strong> het Romaanse alfabet en is daarom makkelijk aan te<br />

leren voor niet-Chinezen. Voor Chinezen was het in begin moeilijk om het Romaanse alfabet<br />

te leren. Vandaag is <strong>de</strong> kennis van het Romaanse alfabet echter ook zeer sterk ingeburgerd,<br />

waardoor Pinyin ook voor <strong>de</strong> Chinezen zelf toegankelijk is. Het maakt gebruik van tonen die<br />

ofwel kunnen geschreven wor<strong>de</strong>n (ā), als cijfer <strong>op</strong> het eind van het woord (a1) of niet kan<br />

wor<strong>de</strong>n weergegeven (a). Indien <strong>de</strong> tonen wor<strong>de</strong>n weergegeven dan moet het lettertype dit<br />

on<strong>de</strong>rsteunen. Het voor<strong>de</strong>el van Pinyin is dat het <strong>op</strong> een ‘normaal’ toetsenbord kan getypt<br />

wor<strong>de</strong>n zon<strong>de</strong>r modificaties uit te voeren. Het na<strong>de</strong>el bij het typen is dat men tot 30 of meer<br />

mogelijke karakters krijgt voor één enkele uitspraak en dat er voor het invoeren van één<br />

karakter er soms tot 6 aanslagen moeten gebeuren. Om het aantal mogelijke karakters te<br />

vermin<strong>de</strong>ren kan men <strong>de</strong> toon aangeven (wat weer een extra toetsaanslag is), een an<strong>de</strong>re<br />

76 ISO 7098: Information and documentation -- Romanization of <strong>Chinese</strong> (laatste versie van 1991)<br />

Thesis Sébastien Bruggeman Pagina 54


manier om het aantal keuzes te vermin<strong>de</strong>ren is om meer<strong>de</strong>re karakters na elkaar, of een ganse<br />

zin, te typen. Een an<strong>de</strong>r na<strong>de</strong>el is dat Pinyin het karakter ‘ü’ gebruikt, en dit is niet makkelijk<br />

in te voeren met een qwerty toetsenbord. In CJK programma’s wordt dat <strong>op</strong>gelost door een<br />

‘uu’ of ‘v’ in <strong>de</strong> plaats in te voeren.<br />

中国 (zhōngguó, China): zhong1 + spatie + guo2<br />

Figuur 3 Toetsenbord met Pinyin invoermetho<strong>de</strong> layout<br />

bron: http://www.honco.net/japanese/05/caption/caption-3-04.html<br />

ß Shuang Pinyin (双拼 shuāngpīn)<br />

Shuang Pinyin kan men omschrijven als twee letter Pinyin. Om het aantal<br />

toetsaanslagen te vermin<strong>de</strong>ren werd <strong>de</strong> invoer van verschillen<strong>de</strong> karakters vervangen door één<br />

enkele of twee letters.<br />

中国 (zhōngguó, China): V(zh) + Y (ong) + G(g) + 5(uo)<br />

Figuur 4 Toetsenbord met Shuangpin invoermetho<strong>de</strong> layout<br />

Bron: http://www.honco.net/japanese/05/caption/caption-3-04.html<br />

Pinyin.<br />

ß Half Pinyin(简拼 jiǎnpīn)<br />

Half Pinyin is een invoermetho<strong>de</strong> dat het mid<strong>de</strong>n houdt tussen Pinyin en Shuang<br />

Thesis Sébastien Bruggeman Pagina 55


Tabel 26 Vergelijking tussen <strong>de</strong> verschillen<strong>de</strong> Pinyin invoer metho<strong>de</strong>s<br />

Hanzi Pinyin Shuang Pinyin Half Pinyin<br />

啊 a a a<br />

酷 ku ku ku<br />

處 chu uu iu<br />

汆 cuan cc cuj<br />

張 zhang ag ah<br />

雙 shuang ih uuh<br />

ß Zhuyin (注音 zhùyīn – letterlijke betekenis: annoteren)<br />

Deze metho<strong>de</strong> is ook gekend on<strong>de</strong>r <strong>de</strong> naam BoPoMoFo (dit zijn <strong>de</strong> eerste 4 klanken<br />

van het systeem) of 注音符號 zhùyīnfúhào. Het werd voor het eerst geïntroduceerd in 1913<br />

door het Ministerie van On<strong>de</strong>rwijs (教育部 jiàoyùbù) van <strong>de</strong> Republiek China. De metho<strong>de</strong><br />

on<strong>de</strong>rging verschillen<strong>de</strong> veran<strong>de</strong>ringen tussen 1919 en 1922, het werd vastgelegd in 1930, in<br />

Taiwan voer<strong>de</strong>n ze in 1986 nog enkele wijzigingen door (<strong>de</strong>ze nieuwe versie kreeg <strong>de</strong> naam<br />

國語注音符號第㆓式 guóyǔ zhùyīnfúhào dìérshì). Het was bedoeld als een pedagogisch<br />

hulpmid<strong>de</strong>l om het lezen en <strong>de</strong> uitspraak van het Mandarijns te vergemakkelijken. Deze<br />

metho<strong>de</strong> is nu nog steeds <strong>de</strong> officiële manier in Taiwan om mandarijns (國語 guóyǔ) aan te<br />

leren. De karakters zijn gebaseerd <strong>op</strong> <strong>Chinese</strong> kalligrafische vormen en sommige zijn<br />

rechtstreeks afgeleid van bestaan<strong>de</strong> <strong>Chinese</strong> karakters. Het bestaat uit 37 symbolen, 21<br />

‘me<strong>de</strong>klinkers’ en 16 ‘klinkers’ daarnaast wor<strong>de</strong>n ook nog 5 toonsymbolen gebruikt. (zie<br />

Tabel 37 <strong>op</strong> pagina 82).<br />

Het voor<strong>de</strong>el van <strong>de</strong>ze transcriptie is dat <strong>de</strong> karakters binnen <strong>de</strong> karakterschrijfwijze<br />

passen, zeker als er verticaal wordt geschreven en ver<strong>de</strong>r benadrukt het <strong>de</strong> unieke klanken van<br />

<strong>de</strong> <strong>Chinese</strong> taal. Het na<strong>de</strong>el is echter dat het meer dan 26 karakters bevat, en die moeten<br />

allemaal <strong>op</strong> een toetsenbord komen, daardoor moeten er cijfers en punctuatie karakters<br />

gebruikt wor<strong>de</strong>n waardoor die niet meer onmid<strong>de</strong>llijk toegankelijk zijn. Ver<strong>de</strong>r moet men bij<br />

het wisselen van layout <strong>op</strong>nieuw na<strong>de</strong>nken hoe die layout er uit ziet. Deze tekens zitten bevat<br />

in volgen<strong>de</strong> karaktersets: GB-2312-80, GB/T-12345-90, CNS 11643-1992 en Big5. Er is<br />

echter wel één verschil, het in Taiwan gebruikte ㄧ wordt in GB karakterset als 丨<br />

weergegeven.<br />

㆗國 : 5(ㄓ) + J(ㄨ) + / (ㄥ) + spatie + E (ㄍ) + J (ㄨ) + I (ㄛ) + 6 (ˊ)<br />

Thesis Sébastien Bruggeman Pagina 56


Figuur 5 Toetsenbord met Zhuyin invoermetho<strong>de</strong> layout<br />

b) Structuur gebaseerd<br />

<strong>Chinese</strong> karakters zijn <strong>op</strong>gebouwd uit radicalen en streepjes, algemeen wor<strong>de</strong>n er<br />

214 77 radicalen gebruikt om <strong>Chinese</strong> karakters te in<strong>de</strong>xeren. Sommige van die radicalen<br />

kunnen alleen staan en hebben dan een eigen betekenis, an<strong>de</strong>re kunnen niet <strong>op</strong> zichzelf<br />

gebruikt wor<strong>de</strong>n.<br />

Na <strong>de</strong> studie van <strong>de</strong> <strong>Chinese</strong> karakters <strong>op</strong> vlak van <strong>de</strong> <strong>op</strong>bouw, wer<strong>de</strong>n er<br />

invoermetho<strong>de</strong>s ontwikkeld die <strong>op</strong> <strong>de</strong>rgelijk on<strong>de</strong>rzoek zijn gebaseerd.<br />

Een na<strong>de</strong>el bij <strong>op</strong> structuur gebaseer<strong>de</strong> invoermetho<strong>de</strong>s is dat ze vaak moeilijk aan te<br />

leren zijn waardoor men ze dus ook sneller vergeet. Daarnaast moet men eerst weten hoe men<br />

het karakter moet schrijven alvorens men het kan typen.<br />

Om <strong>de</strong>rgelijke inputmetho<strong>de</strong>s te vergelijken, vergelijkt men vaak <strong>de</strong> invoer van <strong>de</strong><br />

volgen<strong>de</strong> soorten karakters: karakters met gelijk aantal streepjes maar waarvan <strong>de</strong> boven en<br />

on<strong>de</strong>r lengte niet gelijk zijn (田 由 ㆙ 申), karakters met een gelijk aantal streepjes maar<br />

waarvan <strong>de</strong> lengte rechts en links niet gelijk zijn (土 士 / 未 末), karakters met een gelijk<br />

aantal streepjes maar waarvan <strong>de</strong> grootte en <strong>de</strong> breedte niet gelijk zijn (日 曰 / 口 囗),<br />

karakters met gelijk aantal streepjes maar waarvan <strong>de</strong> schrijfrichting niet gelijk is (㆟ 八 入)<br />

en tot slot ingewikkel<strong>de</strong> karakters (鬱 籤).<br />

ß Wubi (五笔字型 wǔbǐzìxíng)<br />

Deze metho<strong>de</strong> werd bedacht door Wang Yongmin (王永民 wáng yǒngmín) uit <strong>de</strong><br />

Volksrepubliek China. Bijna elk karakter kan ingevoerd wor<strong>de</strong>n door slechts 2 toetsaanslagen,<br />

het maximum is vier. Het unieke aan dit systeem is dat bijna ie<strong>de</strong>r karakter zijn eigen<br />

toetsencombinatie heeft. Deze metho<strong>de</strong> ver<strong>de</strong>elt <strong>de</strong> radicalen in 5 secties die <strong>op</strong> hun beurt<br />

ver<strong>de</strong>eld zijn in 5 niveaus. De 25 categorieën zijn dan toegewezen aan <strong>de</strong> toetsen A tot Y <strong>op</strong><br />

77 <strong>de</strong> in<strong>de</strong>ling in 214 vindt zijn oorsprong in het in 1716 gepubliceer<strong>de</strong> <strong>Chinese</strong> woor<strong>de</strong>nboek 康熙字典 (kāngxī<br />

zìdiǎn), <strong>de</strong> PRC heeft dit aantal <strong>op</strong> 186 terug gebracht na vereenvoudiging.<br />

Thesis Sébastien Bruggeman Pagina 57


het toetsenbord. De toets Z dient als ‘wildcard’. Hoe <strong>de</strong>ze groepen precies zijn <strong>op</strong>ge<strong>de</strong>eld kan<br />

men vin<strong>de</strong>n in Tabel 27.<br />

Tabel 27 Op<strong>de</strong>ling van Wubizixing<br />

Toets 1 Toets 2 Toets 3 Toets 4 Toets 5<br />

Groep 1 11 / G 12 / F / 13 / D 14 / S 15 / A<br />

Groep 2 21 / H 22 / J 23 / K 24 / L 25 / M<br />

Groep 3 31 / T 32 / R 33 / E 34 / W 35 / Q<br />

Groep 4 41 / Y 42 / U 43 / I 44 / O 45 / P<br />

Groep 5 51 / N 52 / B 53 / V 54 / C 55 / X<br />

Figuur 6 Toetsenbord met Wubizixing invoermetho<strong>de</strong> layout<br />

Bron: http://www.honco.net/japanese/05/caption/caption-3-05.html<br />

ß Wubihua (五笔划 wǔbǐhuà)<br />

Bij <strong>de</strong>ze metho<strong>de</strong> voert men <strong>de</strong> karakters in aan <strong>de</strong> hand van cijfers. Men baseert zich<br />

<strong>op</strong> <strong>de</strong> schrijfwijze, maar daarbij beperkt men zich enkel tot 5 streepjes. Er zijn 5 soorten<br />

streepjes waar men een cijfer aan gegeven heeft en toegewezen aan het cijferblok rechts <strong>op</strong><br />

het toetsenbord. Bestaat het karakter slechts uit 5 streepjes dan geeft men die in die volgor<strong>de</strong><br />

weer, bestaat uit min<strong>de</strong>r dan 5 dan moet men nog een ‘0’ ingeven, bestaat het karakter uit<br />

meer dan 5 streepjes, dan geeft men <strong>de</strong> eerste 4 en het laatste in. Hoe <strong>de</strong>ze zijn toegewezen<br />

kan men vin<strong>de</strong>n in Tabel 28.<br />

Tabel 28 Toewijzing van <strong>de</strong> cijfers in Wubihua<br />

Keypad nummer Streepje <strong>Chinese</strong> naam Schrijfwijze<br />

1 ㆒ 橫 héng links → rechts<br />

2 丨 豎 shù boven → on<strong>de</strong>r<br />

3 丿 撇 piě rechts boven → links on<strong>de</strong>r<br />

4 捺 nà links boven → rechts on<strong>de</strong>r<br />

5 ㆚ 拆 chāi Links boven → draaiend → rechts on<strong>de</strong>r<br />

Voor <strong>de</strong> invoer gebruikt men <strong>de</strong>zelf<strong>de</strong> regels als bij het schrijven namelijk van boven<br />

naar on<strong>de</strong>r, vervolgens van links naar rechts en tenslotte van buiten naar binnen. Er bestaat<br />

ook een ‘wildcard’ namelijk KP nr 6<br />

Thesis Sébastien Bruggeman Pagina 58


Tabel 29 Voorbeeld Wubihua<br />

Karakter Aantal streepjes Schrijfwijze Co<strong>de</strong><br />

用 5 丿 ㆚ ㆒ ㆒ 丨 35112<br />

五 4 ㆒ 丨 ㆚ ㆒ 12510<br />

总 9 丿 丨 ㆚ 43254<br />

ß Cangjie (倉頡 cāngjié)<br />

Dit is een zeer snelle invoermetho<strong>de</strong>. Deze werd in 1976 ontwikkeld door Zhu Bangfu<br />

(朱邦復 zhū bāngfù) in Taiwan. Het is genoemd naar <strong>de</strong> legendarische uitvin<strong>de</strong>r van het<br />

<strong>Chinese</strong> schrift. Oorspronkelijk noem<strong>de</strong> <strong>de</strong>ze invoermetho<strong>de</strong> 意形檢字法 (yìxíng jiǎnzìfǎ),<br />

daarna ㆝龍輸入法 (tiānlóng shūrùfǎ) en in 1978 kreeg het tenslotte <strong>de</strong> naam 倉頡 (cāngjié).<br />

In 1981 verscheen <strong>de</strong> twee<strong>de</strong> versie en in 1983 <strong>de</strong> <strong>de</strong>r<strong>de</strong> versie van <strong>de</strong>ze invoermetho<strong>de</strong>, nu<br />

zitten we aan versie nummer 5.<br />

Het ver<strong>de</strong>elt 24 radicalen in vier groepen over <strong>de</strong> toetsen A tot W en Y.<br />

ß De eerste groep zijn <strong>de</strong> toetsen A, B, C, D, E, F en G. Het wordt <strong>de</strong> ‘filosofische<br />

groep’ genoemd omdat ze on<strong>de</strong>r an<strong>de</strong>re <strong>de</strong> vijf elementen (metaal, hout, water,<br />

vuur en aar<strong>de</strong>) representeert.<br />

ß De twee<strong>de</strong> groep zijn <strong>de</strong> toetsen H, I, J, K, L, M, N en wordt <strong>de</strong> ‘‘pen stroke’<br />

groep’ genoemd.<br />

ß De <strong>de</strong>r<strong>de</strong> groep wordt ‘lichaams<strong>de</strong>el groep’ genoemd omdat <strong>de</strong> radicalen <strong>de</strong>len<br />

van het menselijk lichaam (mens, hart, hand, mond) beschrijven, en bevat <strong>de</strong><br />

toetsen O, P, Q, R.<br />

ß De laatste groep is ‘karakter vorm’ groep en bestaat uit <strong>de</strong> toetsen S, T, U, V, W,<br />

Y.<br />

De invoer van een karakter gebeurt door het <strong>op</strong> te <strong>de</strong>len in zijn verschillen<strong>de</strong><br />

componenten. Zo wordt het karakter 商 (shāng) <strong>op</strong>gebouwd uit 卜, 金, 月 en 口. Het voor<strong>de</strong>el<br />

is dat het slechts 25 toetsen gebruikt, die dus zon<strong>de</strong>r verlies van punctuatietekens of nummer<br />

<strong>op</strong> het toetsenbord kunnen geplaatst wor<strong>de</strong>n.<br />

㆗國 : ㆗ (L) + spatie + 田 (W) + 戈 (I) + 口 (R) + ㆒ (M)<br />

Figuur 7 Toetsenbord met Cangjie invoermetho<strong>de</strong> layout<br />

Thesis Sébastien Bruggeman Pagina 59


Enkele vuistregels 78 die van toepassing zijn bij Cangjie: als <strong>de</strong> vorm van een Chinees<br />

karakter wordt gereconstrueerd, wordt <strong>de</strong>zelf<strong>de</strong> volgor<strong>de</strong> als bij het schrijven toegepast. Eerst<br />

van links naar rechts, dan van boven naar on<strong>de</strong>r en vervolgens van buiten naar binnen. Een<br />

karakter wordt ver<strong>de</strong>eld in twee <strong>de</strong>len, head en body. De head krijgt maximaal twee co<strong>de</strong>s, <strong>de</strong><br />

body drie. Als <strong>de</strong> head meer dan twee co<strong>de</strong>s bevat dan wordt enkel rekening gehou<strong>de</strong>n met<br />

het eerste en het laatste. Indien <strong>de</strong> body meer dan drie co<strong>de</strong>s omvat, wor<strong>de</strong>n enkel <strong>de</strong> eerste,<br />

twee<strong>de</strong> en laatste co<strong>de</strong> ingevoerd.<br />

Bovenstaan<strong>de</strong> regels werken goed met uitzon<strong>de</strong>ring van karakters die bestaan uit drie <strong>de</strong>len.<br />

Bij karakters die bestaan uit drie <strong>de</strong>len wor<strong>de</strong>n <strong>de</strong> drie co<strong>de</strong>s voor het body ge<strong>de</strong>elte ingevoerd<br />

met <strong>de</strong> eerste en laatste co<strong>de</strong> voor het twee<strong>de</strong> <strong>de</strong>el en <strong>de</strong> laatste co<strong>de</strong> voor het <strong>de</strong>r<strong>de</strong> <strong>de</strong>el.<br />

Voorbeeld: zie Tabel 30.<br />

Tabel 30 Voorbeeld Cangjie (1)<br />

Voorbeeld Correcte vorm Co<strong>de</strong> Incorrecte vorm Co<strong>de</strong><br />

樹 木土廿戈 DGTI 木土口戈 DGRI<br />

徹 竹㆟卜月大 HOYBK 竹㆟卜戈大 HOYIK<br />

捌 手口尸弓 QRSN 手口竹弓 QRHN<br />

矗 十㆒十㆒㆒ JMJMM 十㆒十月㆒ JMJBM<br />

Als er meer<strong>de</strong>re combinaties mogelijk zijn om een karakter in te voeren, dan is <strong>de</strong><br />

combinatie met het minst aantal toetsaanslagen <strong>de</strong> juiste. Voorbeeld: zie Tabel 31.<br />

Tabel 31 Voorbeeld Cangjie (2)<br />

Voorbeeld Correcte vorm Co<strong>de</strong> Incorrecte vorm Co<strong>de</strong><br />

王 ㆒土 MG ㆒十㆒ MJM<br />

九 大弓 KN 大弓山 KNU<br />

言 卜㆒㆒口 YMMR 戈㆒㆒㆒口 IMMMR<br />

Als er meer<strong>de</strong>re manieren zijn om een karakter weer te geven die hetzelf<strong>de</strong> aantal<br />

co<strong>de</strong>s gebruikt, kies dan voor <strong>de</strong> co<strong>de</strong>s die het meest complex zijn. Voorbeeld: zie Tabel 32.<br />

Tabel 32 Voorbeeld Cangjie (3)<br />

Voorbeeld Correcte vorm Co<strong>de</strong> Incorrecte vorm Co<strong>de</strong><br />

夫 手㆟ QO 十大 JK<br />

堇 廿㆗手㆒ TLQM 廿㆗十土 TLJG<br />

78 http://www.fi.muni.cz/usr/wong/teaching/chinese/notes/notes.html<br />

Thesis Sébastien Bruggeman Pagina 60


Kies <strong>de</strong> vormen die die het best overeen stemmen met <strong>de</strong> vorm van het karakter.<br />

Voorbeeld: zie Tabel 33.<br />

Tabel 33 Voorbeeld Cangjie (4)<br />

Voorbeeld Correcte vorm Co<strong>de</strong> Incorrecte vorm Co<strong>de</strong><br />

力 十尸 KS 十弓 KN<br />

也 心木 PD 廿弓山 TNU<br />

吳 口女弓大 RVNK 口竹弓大 RHNK<br />

Ondanks het feit dat <strong>de</strong> X niet tot één van <strong>de</strong> groepen behoort heeft het toch een label<br />

namelijk 難 (nán, moeilijk). De X kan gebruikt wor<strong>de</strong>n wanneer <strong>de</strong> invoer te moeilijk lijkt,<br />

het kan beschouwd wor<strong>de</strong>n als een ‘wildcard’. Voorbeeld : zie Tabel 34.<br />

Tabel 34 Voorbeeld Cangjie (5)<br />

Voorbeeld Vorm Co<strong>de</strong><br />

身 竹難竹 HXH<br />

齊 卜難 YX<br />

臼 竹難 HX<br />

ß Easy Cangjie (速成 sùchéng – easy / soms ook 簡易 jiǎnyì)<br />

Dit is een verkorte van <strong>de</strong> hierboven besproken Cangjie metho<strong>de</strong>. Om het karakter 商<br />

weer te geven moet enkel 卜 en 口 ingegeven wor<strong>de</strong>n.<br />

㆗國 : ㆗ (L) + spatie + 田 (W) + ㆒ (M)<br />

Figuur 8 Toetsenbord met Sucheng invoermetho<strong>de</strong> layout<br />

ß Boshiamy (嘸蝦米 wǔxiāmǐ) 79<br />

Deze invoermetho<strong>de</strong> werd in Taiwan ontwikkeld door Liu Zhongci (劉重次 líu<br />

zhòngcì). Het maakt ook gebruik van radicalen, maar maakt eveneens gebruik van <strong>de</strong><br />

uitspraak. Het gebruikt slechts 26 toetsen. Het is een zeer snelle invoermetho<strong>de</strong>. Hoe <strong>de</strong><br />

toetsen toegewezen zijn kan men terugvin<strong>de</strong>n <strong>op</strong> Figuur 14 <strong>op</strong> pagina 90. Een voorbeeld<br />

vindt men in Tabel 35.<br />

79 http://input.foruto.com/boshiamy/<br />

Thesis Sébastien Bruggeman Pagina 61


Tabel 35 Voorbeeld Boshiamy<br />

Karakter Co<strong>de</strong><br />

淼 WWW betekenis (3 x Water)<br />

命 AOP Vorm<br />

粉 MBD Uitspraak (米 mǐ 八 bā 刀 dāo)<br />

辯 LIL 辛 言 辛<br />

爽 DXXX 大乂乂乂<br />

ß 3 hoeken metho<strong>de</strong> (㆔角 sānjiǎo)<br />

Deze invoermetho<strong>de</strong> werd uitgevon<strong>de</strong>n door Jack Huang (黃克東 huáng kèdōng) en is<br />

gebaseerd <strong>op</strong> <strong>de</strong> 4 hoeken metho<strong>de</strong> die kan gebruikt wor<strong>de</strong>n bij het <strong>op</strong>zoeken van karakters in<br />

woor<strong>de</strong>nboeken<br />

ß Dayi (太易 dàyì) 80 :<br />

Dayi werd uitgevon<strong>de</strong>n door Wang Zanjie (王贊傑 wáng zànjié). Het gebruikt bijna<br />

het ganse toetsenbord wat een na<strong>de</strong>el is. Om een karakter in te voeren zijn slechts 2<br />

toetsaanslagen nodig.<br />

㆗文 : O (口) + 1 (言) + K (立) + X (水)<br />

ß Zhengma (郑码 zhèngmǎ) 81<br />

Figuur 9 Toetsenbord met Dayi invoermetho<strong>de</strong> layout<br />

Zhengma werd uitgevon<strong>de</strong>n door 郑易里 (Zhèng Yìlǐ) en 郑龙 (Zhènglóng). Er<br />

moeten twee of vier toetsen aangeslagen wor<strong>de</strong>n om twee <strong>Chinese</strong> karakters in te voeren.<br />

Deze invoermetho<strong>de</strong> zit standaard in <strong>de</strong> Microsoft Windows versie bestemd voor <strong>de</strong><br />

Volksrepubliek.<br />

ß Array (行列 hángliè) 82<br />

Bij Array wordt het toetsenbord <strong>op</strong>ge<strong>de</strong>eld in tien kolommen en tien rijen. Bijna elk<br />

karakter kan door twee of drie toetsen ingevoerd wor<strong>de</strong>n.<br />

80 http://www.dayi.com<br />

81 http://www.zhongyicts.com.cn/en/zmsrf/zmsrf.htm<br />

82 http://www.array.com.tw/<br />

Thesis Sébastien Bruggeman Pagina 62


c) Combinatie uitspraak – structuur<br />

Invoermetho<strong>de</strong>s die invoer toelaten aan <strong>de</strong> hand van een combinatie tussen uitspraak en<br />

structuur zijn eer<strong>de</strong>r zeldzaam, maar ze bestaan.<br />

ß Tze-loi (子來 zǐlái)<br />

Tze-loi werd uitgevon<strong>de</strong>n door Tze-loi Yeung (楊子來 yang zǐlái). Via <strong>de</strong>ze<br />

invoermetho<strong>de</strong> kan men karakters invoeren door slechts drie toetsaanslagen. De eerste twee<br />

aanslagen zijn gebaseerd <strong>op</strong> <strong>de</strong> structuur van het karakter (<strong>de</strong> hoek bovenaan links en <strong>de</strong> hoek<br />

on<strong>de</strong>raan rechts), en <strong>de</strong> <strong>de</strong>r<strong>de</strong> aanslag is het eerste geluid van <strong>de</strong> uitspraak.<br />

Tabel 36 Voorbeeld Tze-loi<br />

Hanzi Tze-loi Co<strong>de</strong> Tze-Loi (qwerty)<br />

晶 日 + 日 + J JJJ<br />

品 口 + 口 + B HHB<br />

法 ˋ + ㄙ + F 6ZF<br />

ß Renzhi Co<strong>de</strong> (认知码 rènzhīmǎ)<br />

Deze invoermetho<strong>de</strong> bestaat meestal ook uit 3 toetsaanslagen. De eerste is <strong>de</strong> eerste<br />

letter van <strong>de</strong> Pinyin weergave van het karakter, <strong>de</strong> twee<strong>de</strong> aanslag is het eerste streepje, <strong>de</strong><br />

laatste aanslag is het laatste streepje. Het kan soms ook an<strong>de</strong>re elementen bevatten. Soms zijn<br />

er slechts twee of vier toetsaanslagen nodig voor <strong>de</strong> invoer van een karakter.<br />

d) Directe invoer<br />

Met <strong>de</strong>ze invoermetho<strong>de</strong>s voert men karakters onmid<strong>de</strong>llijk in zon<strong>de</strong>r gebruik te maken van<br />

een conversiewoor<strong>de</strong>nboek.<br />

ß Row-cell (国标区位码 guójīqūwèimǎ)<br />

Bij <strong>de</strong>ze invoermetho<strong>de</strong> gebeurt <strong>de</strong> invoer aan <strong>de</strong> hand van het rij-cel nummer uit <strong>de</strong><br />

GB 2310-82 karakterset.<br />

Voorbeeld: 啊 heeft als co<strong>de</strong> 1601<br />

ß Neima 內碼 : (nèimǎ)<br />

Hier gebeurt <strong>de</strong> invoer aan <strong>de</strong> hand van interne co<strong>de</strong> van Big5 of TW-EUC. Deze<br />

invoermetho<strong>de</strong> is zeer gelijkend aan <strong>de</strong> Row-Cell invoer voor GB 2312-80.<br />

Voorbeeld: 啊 heeft als co<strong>de</strong> B0DA<br />

Thesis Sébastien Bruggeman Pagina 63


Figuur 10 Toetsenbord met Neima invoermetho<strong>de</strong> layout<br />

ß Dianbaoma (電報碼 / 电报码 diànbàomǎ)<br />

Deze invoermetho<strong>de</strong> gebruikt het uit 1911 dateren<strong>de</strong> <strong>Chinese</strong> telegrafisch co<strong>de</strong>boek,<br />

dit werd vroeger gebruikt voor <strong>de</strong> elektrische telegraaf (waarbij handmatig via morse co<strong>de</strong><br />

werd geseind). Het is een lijst van ongeveer 9800 karakters die gerangschikt staan volgens<br />

radicaal en vervolgens volgens aantal streepjes. Ie<strong>de</strong>r karakter heeft een unieke co<strong>de</strong><br />

bestaan<strong>de</strong> uit 4 cijfers.<br />

Voorbeeld: 电报码 wordt weergegeven als 7193, 1032, 4316.<br />

4.2. An<strong>de</strong>re<br />

Naast het toetsenbord zijn er nog an<strong>de</strong>re manieren om Chinees in te voeren.<br />

- Stem: Het probleem is dat <strong>de</strong>rgelijke invoer vaak ‘stem gebon<strong>de</strong>n’ is en dat ie<strong>de</strong>re<br />

gebruiker het systeem eerst moet trainen. Ver<strong>de</strong>r zorgt het feit dat Chinees een toontaal<br />

is voor extra moeilijkhe<strong>de</strong>n bij het ontwikkelen.<br />

- Optical Character Recognition (OCR): Er kunnen problemen rijzen bij het inscannen<br />

van traditionele tekst door <strong>de</strong> verschillen<strong>de</strong> schrijfrichtingen.<br />

- Pen: Hierbij schrijft <strong>de</strong> gebruiker met een pen <strong>op</strong> een plaatje waarna het geschreven<br />

karakter <strong>op</strong> het scherm verschijnt. Invoer via <strong>de</strong> pen kan gebruik maken van OCR, maar<br />

het kan ook kijken naar <strong>de</strong> volgor<strong>de</strong> en richting van <strong>de</strong> streepjes.<br />

Thesis Sébastien Bruggeman Pagina 64


5. Applicaties, toepassingen<br />

We kunnen zeggen dat er 3 mogelijkhe<strong>de</strong>n zijn om Chinees te gebruiken <strong>op</strong> een <strong>computer</strong>,<br />

<strong>de</strong> eerste is dat het besturingssysteem volledig in het Chinees is gelokaliseerd (localisation 83 ,<br />

l10n). Dit wil zeggen dat het systeem <strong>Chinese</strong> lettertypes bevat en overweg kan met <strong>de</strong> invoer<br />

en het vertonen van <strong>Chinese</strong> karakters. Algemeen gezien zijn <strong>de</strong>rgelijke besturingssystemen<br />

volledig in het Chinees.<br />

Een twee<strong>de</strong> metho<strong>de</strong> is gebruik te maken van extra softwarepakketten. Hier is het <strong>de</strong><br />

software die <strong>Chinese</strong> lettertypes bevat en <strong>de</strong> invoer en vertoning van <strong>Chinese</strong> karakters<br />

behan<strong>de</strong>lt.<br />

De <strong>de</strong>r<strong>de</strong> metho<strong>de</strong> is dat <strong>de</strong> software zelf overweg kan met <strong>Chinese</strong> karakters omdat het<br />

Unico<strong>de</strong> gebruikt.<br />

5.1. Dos<br />

Voor MS-DOS bestaan er ook verschillen<strong>de</strong> programma’s om Chinees te bekijken, <strong>de</strong><br />

bekendste zijn ETen 84 , ZWDOS en CCDOS (<strong>Chinese</strong> Character Disk Operating System).<br />

CCDOS werd reeds in 1982 ontwikkeld, ETen kwam in november 1985 met 倚㆝㆗文系統<br />

ET2416 (yǐtiān zhōngwén xìtǒng ET2416) <strong>op</strong> <strong>de</strong> markt.<br />

<strong>Chinese</strong> programma’s die met een niet-<strong>Chinese</strong> DOS werken, plaatsen DOS in ‘graphics<br />

mo<strong>de</strong>’ en vertonen zo hun karakters.<br />

5.2. Microsoft Windows 85<br />

a) Native <strong>Chinese</strong> Windows<br />

China heeft een volledig gelokaliseer<strong>de</strong> versie van windows uitgebracht voor <strong>de</strong> <strong>Chinese</strong> 86 ,<br />

Hong Kongse 87 en Taiwanese markt 88 . De <strong>Chinese</strong> versies gebruiken intern GBK, terwijl <strong>de</strong><br />

Taiwanese versies Big5 intern gebruiken.<br />

83 Localiseren van een programma houdt in dat men een internationaal gericht programma gaat aanpassen aan <strong>de</strong><br />

locale markt, meestal <strong>op</strong> gebied van taal, maar ook van gebruikte munt, aantal <strong>de</strong>cimalen, …<br />

84 http://www.eten.com.tw<br />

85 http://www.microsoft.com/windows/<br />

86 http://www.microsoft.com/china/in<strong>de</strong>x.htm<br />

87 http://www.microsoft.com/HK/<strong>de</strong>fault.asp<br />

88 http://www.microsoft.com/taiwan/<br />

Thesis Sébastien Bruggeman Pagina 65


) Niet-<strong>Chinese</strong> Windows<br />

Microsoft voorziet in <strong>Chinese</strong> lettertypes en in <strong>Chinese</strong> Input Method Editors (Microsoft<br />

Global IME) voor zowel traditioneel als vereenvoudigd Chinees. Het is <strong>op</strong> ActiveX gebaseerd.<br />

Als <strong>de</strong> IME geïnstalleerd is dan kan er door het gelijktijdig indrukken <strong>op</strong> <strong>de</strong> ctrl-toets en shift-<br />

toets gewisseld wor<strong>de</strong>n tussen <strong>de</strong> verschillen<strong>de</strong> talen (en toetsenbord layouts). De IME werkt<br />

enkel in programma’s die Unico<strong>de</strong> on<strong>de</strong>rsteunen. MS Global IME 5.02 werkt <strong>op</strong> alle<br />

besturingssytemen maar kan niet gebruikt wor<strong>de</strong>n met Office XP. Wil men MS Global IME<br />

gebruiken in Office XP dan moet men Office XP Tool: Global IME downloa<strong>de</strong>n. Het wordt<br />

door Netscape on<strong>de</strong>rsteund vanaf Netscape Communicator 4.72. IME’s mogen niet<br />

geïnstalleerd wor<strong>de</strong>n <strong>op</strong> een versie van Windows die voor <strong>de</strong>zelf<strong>de</strong> taal gelokaliseerd is. Met<br />

an<strong>de</strong>re woor<strong>de</strong>n <strong>de</strong> IME voor traditioneel Chinees mag niet geïnstalleerd wor<strong>de</strong>n <strong>op</strong> een<br />

Traditioneel <strong>Chinese</strong> versie van Windows.<br />

Microsoft Windows XP is het eerste besturingssysteem van Microsoft dat volledig <strong>op</strong><br />

Unico<strong>de</strong> gebaseerd is. Microsoft heeft sinds <strong>de</strong> eerste versie van Windows steeds in <strong>de</strong><br />

richting van internationalisatie gewerkt.<br />

5.3. Unix / Linux<br />

Linux is een ‘vrij’ 89 besturingssyteem dat veel gelijkenissen toont met UNIX. Het werd<br />

ontwikkeld door Linus Torvalds en het GNU project 90 en is vrijgegeven on<strong>de</strong>r <strong>de</strong> GNU<br />

General Public License 91 (wordt ook wel c<strong>op</strong>yleft genoemd). De GNU GPL werd uitgegeven<br />

door <strong>de</strong> FSF (Free Software Foundation). Dat wil zeggen dat <strong>de</strong> bronco<strong>de</strong> samen met het<br />

programma moet vrijgegeven wor<strong>de</strong>n en voor ie<strong>de</strong>reen toegankelijk moet zijn. Ie<strong>de</strong>reen mag<br />

er stukken uit gebruiken maar moet dan software daar<strong>op</strong> gebaseerd ook uitbrengen on<strong>de</strong>r <strong>de</strong><br />

GNU GPL licentie.<br />

De Free Standards Group 92 heeft in maart 2002 Li18nux 93 vrijgegeven. Het persbericht<br />

beschrijft het als volgt: “Li18nux is an internationalization gui<strong>de</strong> for platform and<br />

applications <strong>de</strong>vel<strong>op</strong>ers, allow Linux and Linux-based programs to reach greater localization<br />

capabilities and obtain global reach.”<br />

In Linux zit er on<strong>de</strong>rsteuning voor Unico<strong>de</strong> in <strong>de</strong> kernel (File Systems / Native<br />

Language Support), maar je moet ook minstens over glibc 2.2 en XFree86 4.0 beschikken.<br />

89 ‘Free as in free speech not as in free beer’ dixit Richard Stallmann<br />

90 http://www.gnu.org. Veel van <strong>de</strong> programma’s wer<strong>de</strong>n ontwikkeld door het GNU project, maar Linus<br />

ontwikkel<strong>de</strong> <strong>de</strong> kernel. Meestal spreekt men over Linux terwijl een meer accurate naam GNU/Linux zou zijn.<br />

91 http://www.fsf.org/licenses/licenses.html<br />

92 http://www.freestandards.org<br />

93 http://www.li18nux.net/<br />

Thesis Sébastien Bruggeman Pagina 66


a) Native <strong>Chinese</strong> Linux<br />

Er zijn verschillen<strong>de</strong> Linux distributies die in China (BluePoint Linux 94 , Cosix Linux 95 ,<br />

Happy Linux 96 , Redflag Linux 97 , TurboLinux 98 , XteamLinux 99 ) of Taiwan (Linpus Linux 100 )<br />

zelf zijn ontwikkeld. Ze zijn volledig in het Chinees gelocaliseerd. Daarnaast is er ook nog<br />

één ‘add-on’ die in Taiwan wordt ontwikkeld, het CLE (<strong>Chinese</strong> Linux Extension, ㆗文延伸<br />

套件 zhōngwén yánshén taòjiàn 101 ). Het CLE is een uitbreiding van <strong>de</strong> Redhat distributie.<br />

b) Niet-<strong>Chinese</strong> Linux<br />

Linux werkt met locals, en om die re<strong>de</strong>n is het vaak nodig als men in een terminal werkt om<br />

<strong>de</strong> local te zetten. De meeste GNU programma’s kunnen overweg met het LC_CTYPE<br />

commando. Om <strong>de</strong> local voor big5 goed te zetten voer het volgen<strong>de</strong> commando uit in bash, sh<br />

of ksh: “LC_CTYPE=zh_TW.big5; export LC_CTYPE”. In tcsh en csh kan als volgt gedaan<br />

wor<strong>de</strong>n: “setenv LC_CTYPE=big5”.<br />

ß cxterm<br />

Cxterm is een aangepaste versie van xterm, een terminal emulator voor X11. De<br />

aanpassingen laten toe om gebruikers GB en Big5 co<strong>de</strong> weer te geven. Zoals reeds aangehaald<br />

begint een ASCII co<strong>de</strong> steeds met een 0 terwijl GB en Big5 steeds met een 1 beginnen. Als<br />

xterm een byte moet weergeven <strong>op</strong> het scherm zal het veron<strong>de</strong>rstellen dat het ASCII is. Als<br />

het geen ASCII is dan zal het niets weer geven. Cxterm zal dat wel doen. Als het met een 0<br />

begint zal het een ASCII karakter weer geven, begint het met een 1 dan zal het een Chinees<br />

karakter weer geven.<br />

Er bestaan verschillen<strong>de</strong> varianten van cxterm, nl. cxterm (gb, hz), cxtermb5 (big5),<br />

cxtermjis (jis) en cxtermks (ksc).<br />

94 http://www.bluepoint.com.cn<br />

95 http://Linux.cosix.com.cn<br />

96 http://www.happyLinux.com.cn<br />

97 http://www.redflag-Linux.com<br />

98 http://www.turboLinux.com.cn<br />

99 http://www.xteamLinux.com.cn<br />

100 http://www.linpus.com.tw<br />

101 http://cle.Linux.org.tw<br />

Thesis Sébastien Bruggeman Pagina 67


ß XCIN<br />

XCIN 102 is <strong>de</strong> afkorting voor X <strong>Chinese</strong> INput, het is een XIN (X Input Method) server dat<br />

wijdverspreid is in Taiwan om Chinees in te voeren in Xwindows. Het werd oorspronkelijk<br />

ontwikkeld door Edward Der-Hua Liu in oktober 1994 en vele an<strong>de</strong>re programmeurs hebben<br />

contributies geleverd. Vandaag wordt XCIN ontwikkeld door het XCIN Project (sinds<br />

februari 1998). Er bestaan plugins (die ook met an<strong>de</strong>r XIN’s werken) zoals DIM (Debian<br />

Input Method) 103 .<br />

ß TaBE<br />

TaBE 104 is <strong>de</strong> afkorting van Localization for Taiwan and Big5 Encoding. Libtabe wordt<br />

omschreven als een ‘library’ dat handige <strong>Chinese</strong> functies en routines aanbiedt en overweg<br />

kan met <strong>de</strong> fundamentele elementen zoals uitspraak (b<strong>op</strong>omofo), karakterfrequentie,<br />

woordi<strong>de</strong>ntificatie en woordfrequentie. Een praktische applicatie van libtabe is een<br />

intelligente fonetische invoermetho<strong>de</strong>-interface, bims genaamd. Bims aanvaar<strong>de</strong>n invoer in<br />

b<strong>op</strong>omofo en creëert uitvoer van betekenisvolle zinnen. De bimsphone module van XCIN is<br />

rechtstreeks gebaseerd <strong>op</strong> <strong>de</strong> libtabe/bims.<br />

ß an<strong>de</strong>re XIM’s zijn:<br />

linput, chinput 105 , cWnn & tWnn, 阳春白雪中文输入法 (yángchūn báixuě zhōngwén<br />

shūrùfǎ) 106<br />

c) Linux in China & Taiwan<br />

De <strong>Chinese</strong> regering steunt Linux, omdat het zo los komt van <strong>de</strong> bijna-mon<strong>op</strong>olie<br />

positie van Microsoft. Dat Microsoft Windows veel veiligheidsproblemen kent is een re<strong>de</strong>n<br />

om Linux te steunen. 107 Daarnaast is het ook een feit dat <strong>de</strong> bronco<strong>de</strong> van Linux vrij is, nog<br />

een re<strong>de</strong>n om voor Linux te kiezen. De producten van Microsoft hebben een gesloten<br />

bronco<strong>de</strong>, <strong>de</strong> <strong>Chinese</strong> regering heeft Microsoft verplicht om haar bron co<strong>de</strong> vrij te geven maar<br />

Microsoft heeft dit besluit aangevochten en on<strong>de</strong>r grote economische druk heeft <strong>de</strong> <strong>Chinese</strong><br />

regering uitein<strong>de</strong>lijk zijn eis laten vallen. Door <strong>de</strong> <strong>op</strong>en-bron (<strong>op</strong>en source) en <strong>de</strong> GPL van<br />

Linux kan en mag ie<strong>de</strong>reen <strong>de</strong> co<strong>de</strong> bekijken en aanpassen. Op een <strong>de</strong>rgelijke manier hoeven<br />

102 http://xcin.Linux.org.tw<br />

103 http://sourceforge.net/projects/dim/<br />

104 http://libtabe.sourceforge.net of http://xcin.Linux.org.tw/libtabe/in<strong>de</strong>x.html<br />

105 http://www.<strong>op</strong>encjk.org/~yumj/project-chinput-e.html<br />

106 http://www.yangchunbaixue.com<br />

107 http://www.theregister.co.uk/content/1/12449.html<br />

http://news.com.com/2100-1001-253515.html?legacy=cnet<br />

Thesis Sébastien Bruggeman Pagina 68


ze niet langer hoge licentiekosten betalen maar kunnen ze ook productiekosten uitsparen.<br />

Toch lijkt het concept van <strong>op</strong>en source niet volledig te werken want volgens RedHat zou<strong>de</strong>n<br />

<strong>de</strong> <strong>Chinese</strong> Linux bouwers zich niet hou<strong>de</strong>n aan <strong>de</strong> GPL en aanpassingen aan <strong>de</strong> co<strong>de</strong>s niet<br />

bekend maken (IDG.net, 03 juli 2001). 108<br />

RedFlag Linux is een door <strong>de</strong> <strong>Chinese</strong> overheid gesubsidieer<strong>de</strong> <strong>Chinese</strong> Linux<br />

distributie 109 . Het wordt ook gesteund door Jiang Mianhang, <strong>de</strong> zoon van presi<strong>de</strong>nt Jiang<br />

Zimin. Een voormalig Microsoft executive is nu <strong>de</strong> chief executive van RedFlag. Het werd in<br />

augustus 1999 <strong>op</strong> <strong>de</strong> <strong>Chinese</strong> Aca<strong>de</strong>my of Sciences 110 <strong>op</strong>gericht door het Institute of<br />

Software 111 en kreeg daarbij hulp van het staatsbedrijf Shanghai NewMargin Venture Capital<br />

en in maart 2001 werd CCIDNET Investment (een venture capital af<strong>de</strong>ling van het Ministerie<br />

van Informatie Industrie) <strong>de</strong> twee<strong>de</strong> grootste aan<strong>de</strong>elhou<strong>de</strong>r.<br />

<strong>Chinese</strong> <strong>computer</strong>makers installeren geen software <strong>op</strong> voorhand omdat het aan<strong>de</strong>el<br />

van gek<strong>op</strong>ieer<strong>de</strong> software veel te groot is (tot 95%). Nu is er echter een campagne om illegale<br />

cd’s tegen te gaan, dit me<strong>de</strong> door <strong>de</strong> toetreding van China tot het WTO (World Tra<strong>de</strong><br />

Organisation) 112 .<br />

5.4. Apple 113<br />

Sinds OS 9 wordt <strong>de</strong> <strong>Chinese</strong> Language Kit (CLK) mee geleverd <strong>op</strong> <strong>de</strong> installatie CD. De<br />

CLK werkt <strong>op</strong> systemen vanaf System 7.1.x. De CLK bevat Worldscript software dat gebruik<br />

maakt van scripts. Dergelijke scripts on<strong>de</strong>rsteunen <strong>de</strong> co<strong>de</strong>ring van (een) bepaal<strong>de</strong><br />

karaktersets voor een specifieke taal. Ze bevatten ook instructies voor het behan<strong>de</strong>len van <strong>de</strong><br />

tekst, sortering, tijdsformaat, nummers, … De CLK bestaat uit twee verschillen<strong>de</strong> scripts, één<br />

voor traditioneel Chinees en één voor vereenvoudigd Chinees. Ze kunnen apart of samen<br />

geïnstalleerd wor<strong>de</strong>n (en ook samen met an<strong>de</strong>re talen). De CLK bevat ook verschillen<strong>de</strong><br />

invoermetho<strong>de</strong>s en lettertypes.<br />

Vanaf MacOS 9.2 wordt er Unico<strong>de</strong> gebruikt. OSX biedt on<strong>de</strong>rsteuning voor Unico<strong>de</strong><br />

versie 3.1, maar veel hangt natuurlijk af van <strong>de</strong> programma’s die gebruikt wor<strong>de</strong>n. Het is<br />

mogelijk om OSX volledig Chinees gelokaliseerd te maken door mid<strong>de</strong>l van het aanpassen<br />

108 http://www.thestandard.com/article/0,1902,27670,00.html?printer_friendly=<br />

109 http://news.cnet.com/news/0-1003-200-5193409.html<br />

110 http://www.casbic.ac.cn<br />

111 http://www.ios.ac.cn<br />

112 http://www.wto.org<br />

113 http://www.apple.com<br />

Thesis Sébastien Bruggeman Pagina 69


van <strong>de</strong> instellingen. Preferences > Language > International, verplaats Traditional <strong>Chinese</strong><br />

of Simplified <strong>Chinese</strong> naar <strong>de</strong> t<strong>op</strong> van <strong>de</strong> lijst en start <strong>op</strong>nieuw <strong>op</strong>.<br />

5.5. Chinees en programmeertalen<br />

ß C (++)<br />

C en C++ zijn één van <strong>de</strong> meest gebruikte programmeertalen en er bestaan dan ook<br />

een hele reeks compilers voor. Verschillen<strong>de</strong> an<strong>de</strong>re talen zijn gebaseerd <strong>op</strong> C (++).<br />

Indien men 16bit characters wil gebruiken dan moeten ze ge<strong>de</strong>finieerd wor<strong>de</strong>n als<br />

wchar_t, indien niet dan wordt <strong>de</strong> standaard char en dus 8bit karakter co<strong>de</strong>ring gebruikt.<br />

Conversie van multiple byte strings naar ‘wi<strong>de</strong> character strings’ gebeurt via mbsrtowcs().<br />

Het omgekeer<strong>de</strong> proces gebeurt via wcsrtombs(). Voor aparte karakters bestaan <strong>de</strong><br />

respectievelijke commando’s mbrtowc() en wcrtomb().<br />

ß JAVA<br />

Java komt met klasses genaamd InputStream Rea<strong>de</strong>r en OutputStream Writer die<br />

lokale co<strong>de</strong>ringen naar Unico<strong>de</strong> en omgekeerd converteren. Big5 en GB2312 zijn daarbij<br />

on<strong>de</strong>rsteund. Dus bij het compileren van <strong>de</strong> bronco<strong>de</strong> moet men <strong>de</strong> co<strong>de</strong>ring meegeven. Voor<br />

een co<strong>de</strong> met Big5 moet volgen<strong>de</strong> co<strong>de</strong> wor<strong>de</strong>n ingegeven: javac -encoding big5<br />

sourcefile.java. Daarnaast kan ook native2ascii dat samen met <strong>de</strong> JDK geleverd wordt<br />

gebruikt wor<strong>de</strong>n om <strong>de</strong> verschillen<strong>de</strong> co<strong>de</strong>ringen te converteren naar <strong>de</strong> \uxxxx unico<strong>de</strong><br />

escapes dat Java kan verwerken.<br />

Java 2 laat toe om <strong>de</strong> lettertypes van <strong>op</strong> <strong>de</strong> machine te gebruiken en dus ook eventuele<br />

<strong>Chinese</strong> lettertypes. Voor <strong>de</strong> introductie van Swing kon Java geen Chinees weergeven buiten<br />

<strong>op</strong> <strong>Chinese</strong> besturingssystemen. Met Swing kan nu Chinees wor<strong>de</strong>n weergegeven in een<strong>de</strong>r<br />

welke component <strong>op</strong> voorwaar<strong>de</strong> dat er lettertypes zijn geïnstalleerd die Chinees kunnen<br />

weergeven. Daarnaast werd in Java 1.3 <strong>de</strong> Input Method Engine SPI geïntroduceerd waardoor<br />

er ook platform onafhankelijke input kan gebeuren. Ervoor maakte Java gebruik van <strong>de</strong><br />

invoermetho<strong>de</strong>s van het besturingssysteem.<br />

Thesis Sébastien Bruggeman Pagina 70


ß XML (eXten<strong>de</strong>d Markup Language)<br />

De XML processor werkt intern met UTF-8 of UTF-16 maar XML kan in principe met<br />

een<strong>de</strong>r welke karakterset geco<strong>de</strong>erd zijn. Buiten <strong>de</strong> processor kan <strong>de</strong> co<strong>de</strong>ring dus gekozen<br />

wor<strong>de</strong>n, maar binnen <strong>de</strong> processor wordt gebruik gemaakt van ISO10646. Elk bestand moet<br />

dan wel voorafgegaan wor<strong>de</strong>n door een XML-<strong>de</strong>claratie die er als volgt uit ziet: 114<br />

<br />

De gekozen co<strong>de</strong>d characterset moet in <strong>de</strong>ze XML-<strong>de</strong>claratie ge<strong>de</strong>finieerd wor<strong>de</strong>n en kan dus<br />

nergens an<strong>de</strong>rs gekozen wor<strong>de</strong>n. Wel is het mogelijk om bij ie<strong>de</strong>r element een taal te<br />

<strong>de</strong>finiëren, met als gevolg dat:<br />

some text <br />

some text <br />

perfect na elkaar in hetzelf<strong>de</strong> document kunnen komen.<br />

ß XHTML<br />

Bij XHTML moeten zowel <strong>de</strong> HTML als <strong>de</strong> XML regel gebruikt wor<strong>de</strong>n. Indien het<br />

document als HTML wordt gebruikt, dan wordt <strong>de</strong> meta tag gebruikt. Indien het document als<br />

XML wordt gebruikt, dan wordt <strong>de</strong> XML <strong>de</strong>claratie gebruikt.<br />

<br />

<br />

ß PHP (Hypertext Preprocessor) 115<br />

PHP is 8-bit clean en laat aldus UTF-8 geco<strong>de</strong>er<strong>de</strong> tekst ongewijzigd door. Er bestaat<br />

een module, mbstring genaamd, die on<strong>de</strong>rsteuning biedt voor ‘mulitple-byte’ co<strong>de</strong>ringen. Er<br />

bestaan <strong>op</strong> dit ogenblik ongeveer 40 functies voor <strong>de</strong>ze module.<br />

ß FLASH 116<br />

Flash 5 on<strong>de</strong>rsteunt het gebruik van <strong>Chinese</strong> lettertypes. Flash MX on<strong>de</strong>rsteunt<br />

Unico<strong>de</strong> en het verticaal weergeven van tekst.<br />

114 http://www.ascc.net/xml<br />

115 http://www.php.net<br />

116 http://www.macromedia.com/software/flash/<br />

Thesis Sébastien Bruggeman Pagina 71


ß Perl 117<br />

Perl had geen ingebouw<strong>de</strong> on<strong>de</strong>rsteuning voor multiple-byte karakters. Daarom werd<br />

er JPerl ontwikkeld, een aangepaste Japanse versie van Perl. Er zijn wel technieken om<br />

multiple-byte te on<strong>de</strong>rsteunen. Deze maken uitvoerig gebruik van ‘regular expressions’. Twee<br />

van <strong>de</strong>rgelijke technieken zijn anchoring en trapping. Vanaf Perl 5.6 on<strong>de</strong>rsteunt Perl<br />

Unico<strong>de</strong>, zelfs intern werkt het met Unico<strong>de</strong>. Ver<strong>de</strong>r werkt Perl 5.6 niet meer byte per byte<br />

maar karakter per karakter.<br />

5.6. Chinees en databases<br />

Veel hangt af van hoe men <strong>de</strong> data uit <strong>de</strong> database haalt. Indien data uit <strong>de</strong> databank<br />

gehaald wordt dan moet ook <strong>de</strong> taal of het programma dat daarvoor gebruikt wordt in staat<br />

zijn om <strong>Chinese</strong> karakters weer te geven.<br />

ß MySQL 118<br />

MySQL heeft UTF-8 on<strong>de</strong>rsteuning. Veel van <strong>de</strong> on<strong>de</strong>rsteuning hangt echter af van <strong>de</strong><br />

configuratie van <strong>de</strong> database. De standaard karakterset is ISO 8859-1 maar men kan<br />

ook ./configure --with-charset= gebruiken om <strong>de</strong> standaard karakterset te veran<strong>de</strong>ren, voor<br />

Chinees zijn <strong>de</strong> on<strong>de</strong>rsteun<strong>de</strong> karaktersets gb2312, gbk en big5. Wil men verschillen<strong>de</strong><br />

karaktersets on<strong>de</strong>rsteunen dan moet MySQL geconfigureerd wor<strong>de</strong>n met --with-extra-<br />

charset=LIST, waarbij list vervangen moet wor<strong>de</strong>n door alle karaktersets die men wil<br />

on<strong>de</strong>rsteunen geschei<strong>de</strong>n door een spatie. Men kan ook all typen om ze allemaal toe te voegen,<br />

of complex om alle karaktersets toe te voegen die niet dynamisch gela<strong>de</strong>n kunnen wor<strong>de</strong>n.<br />

Een uitgebrei<strong>de</strong> configuratie zou er dus als volgt kunnen uitzien: --with-charset=charset --<br />

with-extra-charset=list | complex | all.<br />

Als <strong>Chinese</strong> data wordt gebruikt met <strong>de</strong> Big5 co<strong>de</strong>ring dan moeten <strong>de</strong> kolommen die<br />

<strong>Chinese</strong> karakters bevatten <strong>op</strong> binary geplaast wor<strong>de</strong>n.<br />

117 http://www.perl.com & http://www.cpan.org<br />

118 http://www.mysql.org<br />

Thesis Sébastien Bruggeman Pagina 72


ß Microsoft SQL Server<br />

Microsoft’s SQL heeft Unico<strong>de</strong> on<strong>de</strong>rsteuning sinds MS SQL Server 7.0. Nchar(n)<br />

wordt gebruikt voor vaste-lengte unico<strong>de</strong> data, <strong>de</strong> <strong>op</strong>slagplaats is dan twee maal n bytes.<br />

Nvarchar(n) wordt gebruikt voor variabele lengte unico<strong>de</strong> data, <strong>de</strong> <strong>op</strong>slagplaats in bytes is<br />

dan twee maal <strong>de</strong> lengte van n. Bei<strong>de</strong> data types kunnen slechts een maximum lengte van<br />

4 000 karakters hebben. Het ntext data type wordt ook gebruikte voor variabele lengte<br />

unico<strong>de</strong> data maar met een maximum lengte van 2^30 –1 karakters (1 073 741 823).<br />

ß Oracle Oracle 9i<br />

Oracle biedt reeds on<strong>de</strong>rsteuning voor Unico<strong>de</strong> sinds Oracle7. Er bestaan verschillen<strong>de</strong><br />

statements om databases en hun data naar unico<strong>de</strong> te converteren. Ook hier wor<strong>de</strong>n nchar en<br />

nvarchar2 on<strong>de</strong>rsteunt. Bij nchar wordt <strong>de</strong> vaste lengte meegegeven van <strong>de</strong> data, het<br />

maximum is 2 000 bytes. Bij nvarchar2 moet <strong>de</strong> maximum variable lengte wor<strong>de</strong>n<br />

meegegeven, het maximum is vastgelegd <strong>op</strong> 4 000 bytes.<br />

Thesis Sébastien Bruggeman Pagina 73


6. Het <strong>Chinese</strong> internet<br />

Om symbolen of karakters weer te geven kan het gewoon getypt wor<strong>de</strong>n (♥), kan <strong>de</strong> naam<br />

meegegeven wor<strong>de</strong>n (&hearts;) ofwel typt men <strong>de</strong> <strong>de</strong>cimale waar<strong>de</strong> (&#9829;) of <strong>de</strong><br />

hexa<strong>de</strong>cimale waar<strong>de</strong> (&#x2665;).<br />

Bij het <strong>op</strong>maken van HTML bestan<strong>de</strong>n kan <strong>de</strong> karakterco<strong>de</strong>ring meegegeven wor<strong>de</strong>n, dit<br />

gebeurt aan <strong>de</strong> hand van een META tag die in <strong>de</strong> HEAD-tag kan geplaatst wor<strong>de</strong>n.<br />

De browser gebruikt <strong>de</strong>ze informatie om <strong>de</strong> pagina correct weer te geven. De META tag<br />

voor <strong>de</strong> Big5 karakterset ziet er als volgt uit:<br />

.<br />

Voor <strong>de</strong> <strong>Chinese</strong> taal kan dat ook nog gb2312, gbk, gb18030, hz, big5-hkscs, euc-tw of utf-8<br />

zijn. Daarnaast bestaat er ook sinds HTML 4 een ‘taal-attribuut’ dus in een tag kan het<br />

attribuut lang meegegeven wor<strong>de</strong>n. Taalinformatie wordt overgeërfd in <strong>de</strong><br />

documenthiërarchie.<br />

Bijvoorbeeld: some English text <br />

Er kan ook nog een lan<strong>de</strong>lijke variant <strong>op</strong>gegeven wor<strong>de</strong>n zoals:<br />

some American English text .<br />

De taalco<strong>de</strong>s zijn ge<strong>de</strong>finieerd in ISO 639:1988 Co<strong>de</strong> for representation of names of<br />

languages, <strong>de</strong> landco<strong>de</strong>s in ISO 3166:1988 Co<strong>de</strong> for the representation of names of countries<br />

en RFC 3066 Tags for the I<strong>de</strong>ntification of Languages geeft meer uitleg over het gebruik<br />

ervan. Deze taal-attribuut kan enkel slaan <strong>op</strong> talen gesproken (geschreven, … ) door mensen,<br />

<strong>computer</strong>talen komen dus niet in aanmerking.<br />

Sinds 31 mei 2001 is <strong>de</strong> Ruby Annotation 119 een W3C aanbeveling. RUBY zijn <strong>de</strong> kleine<br />

karakters die vooral bij Oost-Aziatische talen gebruikt wor<strong>de</strong>n om <strong>de</strong> uitspraak (en/of<br />

betekenis) weer te geven van <strong>de</strong> karakters waar ze bij horen. Dit gebeurt aan <strong>de</strong> hand van een<br />

speciale tag, namelijk daarbinnen zet men <strong>de</strong> tekst en wat er<br />

boven komt, komt tussen . Ruby is ook <strong>op</strong>genomen in CSS 3 (dit is nog maar<br />

slechts een working draft), wat <strong>de</strong> mogelijkhe<strong>de</strong>n met RUBY in browsers nog vergroot. 120<br />

119 http://www.w3.org/TR/ruby/<br />

120 http://www.w3.org/TR/css3-ruby/<br />

Thesis Sébastien Bruggeman Pagina 74


Microsoft 121 Internet Explorer 5.0 en hoger on<strong>de</strong>rsteunen RUBY. Netscape on<strong>de</strong>rsteunt<br />

RUBY echter niet.<br />

De on<strong>de</strong>rstaan<strong>de</strong> HTML co<strong>de</strong> geeft Figuur 11 als resultaat in een browser die <strong>de</strong> ruby tag<br />

on<strong>de</strong>rsteunt.<br />

新幹線 しんかんせん <br />

Figuur 11 Ruby<br />

Het is mogelijk om tekst vertikaal weer te geven, wat zeer handig is voor traditionele<br />

teksten. Dit gebeurt aan <strong>de</strong> hand van <strong>de</strong> volgen<strong>de</strong> <strong>de</strong>finitie in <strong>de</strong> stijltag: writing-mo<strong>de</strong>:tb-rl.<br />

De tekst begint dan rechts bovenaan. Westerse letters wor<strong>de</strong>n dan wel 90 gra<strong>de</strong>n gedraaid.<br />

Netscape on<strong>de</strong>rsteunt dit echter niet. Vanaf Microsoft Internet Explorer 5.5 wordt <strong>de</strong>ze functie<br />

wel on<strong>de</strong>rsteund.<br />

Indien <strong>de</strong> <strong>computer</strong> waar<strong>op</strong> gewerkt wordt geen inputmetho<strong>de</strong> bevat, kan er nog steeds<br />

gebruik gemaakt wor<strong>de</strong>n van online invoermetho<strong>de</strong>s. Het <strong>op</strong> javascript gebaseer<strong>de</strong> SIMON<br />

(Sino Input Method ONline) 122 is een heel mooi voorbeeld hiervan.<br />

Volgens het halfjaarlijkse rapport van CNNIC (China Internet Network Information<br />

Center 中国互联网络信息中心 zhōngguó hùlián wǎnglù xìnxízhōngxīn) 123 waren er in<br />

januari van dit jaar 33,7 miljoen internet gebruikers, dit is slechts 2,81% van <strong>de</strong> bevolking. De<br />

meer<strong>de</strong>rheid van <strong>de</strong> internetgebruikers zijn mannen (60%), en van jonge leeftijd (36,2% is<br />

tussen 18 en 24 jaar oud en 16,3% is tussen 25 en 30 jaar oud). In 2001 werd het aantal<br />

internetgebruikers in China rond <strong>de</strong> 26,5 miljoen geschat. In 1999 was dat nog 8,9 miljoen.<br />

Een evolutionair beeld kan men terugvin<strong>de</strong>n in Tabel 42 <strong>op</strong> pagina 85. Volgens TWNIC<br />

(Taiwan Network Information Center 台灣網路信息㆗心 táiwān wǎnglù xìnxízhōngxīn) 124<br />

waren er eind vorig jaar 7,8 miljoen internet gebruikers in Taiwan, dit is 35,45% van <strong>de</strong><br />

bevolking. Een evolutionair beeld kan men terugvin<strong>de</strong>n in Tabel 43 <strong>op</strong> pagina 85.<br />

121 http://msdn.microsoft.com/worksh<strong>op</strong>/Author/dhtml/reference/objects/RUBY.asp<br />

122 http://www.simon.tw.st<br />

123 http://www.cnnic.net.cn. Het profiel van <strong>de</strong>ze organisatie evenals van an<strong>de</strong>re organisaties en ministeries is<br />

terug te vin<strong>de</strong>n <strong>op</strong> http://www.chinaonline.com/refer/ministry_profiles/ministry_profiles.asp<br />

124 http://www.twnic.net.tw<br />

Thesis Sébastien Bruggeman Pagina 75


De <strong>Chinese</strong> regering heeft een “<strong>Chinese</strong> firewall” gecreëerd. Provi<strong>de</strong>rs en internetcafés<br />

moeten software installeren (Internet Police 110). Alle websites die subversieve of<br />

pornografische inhoud hebben moeten geblokkeerd wor<strong>de</strong>n. De <strong>Chinese</strong> regering voegt <strong>de</strong><br />

daad bij het woord en sluit internetcafés die niet voldoen aan <strong>de</strong> eisen. Ver<strong>de</strong>r moeten <strong>de</strong><br />

ISP’s het e-mailverkeer laten screenen en wor<strong>de</strong>n ze verantwoor<strong>de</strong>lijk gesteld voor het<br />

verwij<strong>de</strong>ren van ‘subversieve’ inhoud (CNN.com, 18 januari 2002). De ISP’s moeten een<br />

licentie aanvragen om BBS (Bulletin Board Service) te mogen draaien, <strong>de</strong> overheid en <strong>de</strong><br />

ISP’s hou<strong>de</strong>n toezicht <strong>op</strong> <strong>de</strong> inhoud die er wordt gepubliceerd, ISP’s verwij<strong>de</strong>ren regelmatig<br />

inhoud die <strong>de</strong> regering of <strong>de</strong> politiek van <strong>de</strong> regering in vraag stelt. Er zijn zelfs gevallen waar<br />

<strong>de</strong> auteur van het bericht vervolgd en veroor<strong>de</strong>eld werd. (CNN.com, 27 juli 2001). In 1999<br />

werd <strong>de</strong> Shanghainees Li Hai veroor<strong>de</strong>eld tot twee jaar gevangenisstraf omdat hij <strong>de</strong> redactie<br />

van VIP Reference, een internetkrant van <strong>Chinese</strong> pro-<strong>de</strong>mocratische-activisten die over <strong>de</strong><br />

grens wonen, 30 000 e-mailadressen van <strong>computer</strong>gebruikers in <strong>de</strong> Volksrepubliek ter<br />

beschikking had gesteld.<br />

Buitenlandse bedrijven helpen maar al te graag mee met <strong>de</strong> regering om toch maar die<br />

contracten in <strong>de</strong> wacht te slepen. Zo heeft Cisco zijn hardware aangepast voor <strong>de</strong> <strong>Chinese</strong><br />

markt (dit heeft het voor geen enkel an<strong>de</strong>r land willen doen). Dit houdt in dat <strong>de</strong> firewall alle<br />

buitenlandse websites blokkeert met een politiek incorrecte inhoud en ze vervangt door het<br />

bericht “Operation timed out”. Ver<strong>de</strong>r wordt <strong>de</strong> toegang tot proxysservers zoveel mogelijk<br />

geblokkeerd.<br />

Veel geruchten doen <strong>de</strong> ron<strong>de</strong> dat <strong>de</strong> eerste versie van <strong>de</strong> ‘Co<strong>de</strong> Red’ worm zijn oorsprong<br />

zou hebben in China en dat het daarom enkel niet-<strong>Chinese</strong> MS Windows versies aantast en<br />

een DoS (Denial of Service) aanval uitvoert <strong>op</strong> het Witte Huis. Het zou ontwikkeld zijn als<br />

reactie <strong>op</strong> een inci<strong>de</strong>nt waarbij een Amerikaans spionage vliegtuig door <strong>de</strong> Chinezen werd<br />

neergehaald. Co<strong>de</strong> Red II en Co<strong>de</strong> Red III zijn niet langer gericht <strong>op</strong> het Witte Huis en<br />

zou<strong>de</strong>n eigenlijk volledig nieuwe wormen zijn die hun oorsprong niet in China vin<strong>de</strong>n<br />

(CNN.com, 8 augustus 2001).<br />

Volgens het WIPO 125 (World Intellectual Pr<strong>op</strong>erty Organisation) zal het Chinees het<br />

Engels verdringen als meest gebruikte taal <strong>op</strong> het internet.<br />

125 http://www.wipo.org<br />

Thesis Sébastien Bruggeman Pagina 76


Op het internet zijn er verschillen<strong>de</strong> diensten die een webpagina of een invoer vertalen<br />

naar of vanuit het Chinees. Als men naar het Chinees vertaalt kan men vaak een keuze maken<br />

uit traditioneel Chinees, vereenvoudigd Chinees, en foto’s van karakters (eventueel met keuze<br />

tussen traditioneel of vereenvoudigd). Bij <strong>de</strong>ze laatste keuze wordt <strong>de</strong> tekst niet als tekst<br />

weergegeven maar ie<strong>de</strong>r karakter wordt als afzon<strong>de</strong>rlijke foto weergegeven. Ver<strong>de</strong>r zijn er<br />

ook diensten die er ook nog <strong>de</strong> uitspraak bij voegen. Een voorbeeld van een <strong>de</strong>rgelijke<br />

software is Gist van Alis Software 126 , hun technologie zit on<strong>de</strong>r an<strong>de</strong>re verwerkt in Netscape<br />

6 en in C<strong>op</strong>ernic 2000.<br />

Soms wor<strong>de</strong>n er meer<strong>de</strong>re diensten aangebo<strong>de</strong>n zoals e-mail, versturen van e-kaarten,<br />

chatten, etc. Een voorbeeld hiervan is WorldLingo 127 . Computervertalingen voldoen echter<br />

vaak nog niet aan <strong>de</strong> verwachtingen. Ook IBM is actief <strong>op</strong> dit gebied met zijn WebSphere<br />

Translation Server 128 , het kan naar het Chinees vertalen maar niet omgekeerd. Het product is<br />

gericht <strong>op</strong> <strong>de</strong> e-commerce markt en heeft een zeer hoog prijskaartje. De VN heeft een project<br />

l<strong>op</strong>en aan <strong>de</strong> United Nations University met <strong>de</strong> naam Universal Networking Language 129 .<br />

126 http://www.alis.com/<br />

127 http://www.worldlingo.com/<br />

128 http://www-3.ibm.com/software/speech/enterprise/ep_8.html<br />

129 http://www.unl.ias.unu.edu/<br />

Thesis Sébastien Bruggeman Pagina 77


7. Appendix<br />

7.1. Bibliografie<br />

- Baeten M, E-China, The Electronic Economy of China, licenciaatsverhan<strong>de</strong>ling,<br />

KULeuven, 2000-2001.<br />

- Chinees wordt voertaal <strong>op</strong> internet, Metro, nr.251, 11 <strong>de</strong>cember 2001.<br />

- De Rijck K., Wetenschapswinkel. Chinees, De Standaard, 24 september 2001.<br />

- De<strong>de</strong>ne & Herroelen, Inleiding tot <strong>de</strong> informatica, Deel A, cursus gedoceerd in het ka<strong>de</strong>r<br />

van het vak ‘Inleiding tot <strong>de</strong> informatica’, KULeuven, Wouters, Leuven, 2001.<br />

- ECMA, 7-Bit co<strong>de</strong>d Character Set, ECMA-6, 6 th edition, 1991.<br />

- ECMA, 8-Bit co<strong>de</strong>d Character Set, Structure and Rules, ECMA-43, 3 rd edition, 1991.<br />

- ECMA, Character Co<strong>de</strong> Structure and Extension Techniques, ECMA-35, 6 th edition,<br />

1994.<br />

- Gutmann E., Who Lost China’s Internet, With U.S. assistance, it will remain a tool of the<br />

<strong>Chinese</strong> government, not a force for <strong>de</strong>mocracy, The Weekly Standard, 25 februari<br />

2002. 130<br />

- Halpern J. & Kerman J., The Pitfalls and Complexities of <strong>Chinese</strong> to <strong>Chinese</strong><br />

Conversion, Fourteenth International Unico<strong>de</strong> Conference, Boston, 1999. 131<br />

- Harvey F., FT. Het Internet is overbevolkt, De Standaard, 11 <strong>de</strong>cember 2000.<br />

- Lun<strong>de</strong> K., CJKV Information Processing; <strong>Chinese</strong>, Japanese, Korean & Vietnamese<br />

Computing, O’Reilly & Associates, Sebast<strong>op</strong>ol, 1999.<br />

- Mackay A., Character-building, Nature 410, 1 maart 2001, pag. 19.<br />

- Meeus R., IBM maakt instantvertaler voor internet, De Morgen, 15 januari 2001.<br />

- Mul<strong>de</strong>rs J-P., VN sleutelen aan supervertaalmachine, De Morgen, 25 november 1998.<br />

- Rdg, CURSIEF. China bouwt nieuwe Grote Muur, De Standaard, 20 maart 2000.<br />

- Tanret E., De mogelijkhe<strong>de</strong>n van ICT voor het leren van Engels in China,<br />

licenciaatsverhan<strong>de</strong>ling, KULeuven, 1999-2000.<br />

- The Unico<strong>de</strong> Consortium, The Unico<strong>de</strong> Standard, Version 3.0, MA, Addison-Wesley,<br />

2000.<br />

- Variant Form of <strong>Chinese</strong> Character Co<strong>de</strong> for Information Interchange, volume 2, 2 <strong>de</strong><br />

editie, 1982.<br />

130 http://www.weeklystandard.com/content/public/articles/000/000/000/922dgmtd.asp<br />

131 http://www.cjk.org/cjk/c2c/c2centry.htm<br />

Thesis Sébastien Bruggeman Pagina 78


- Van Dale Groot woor<strong>de</strong>nboek <strong>de</strong>r Ne<strong>de</strong>rlandse taal, 12 <strong>de</strong> uitgave, Van Dale Lexicografie,<br />

Utrecht/Antwerpen, 1992.<br />

- Van <strong>de</strong>r Lin<strong>de</strong>n F., Hoe Internet <strong>de</strong> <strong>Chinese</strong> Muur slo<strong>op</strong>t, De Morgen, 14 april 2001.<br />

- 戴庆厦 许寿椿 高喜奎, 中国各民族文字与计算机信息处理 (zhōngguó gèmínzú<br />

wénzì yú diànnǎo zīxùnchǔlǐ),中央民族学院出版社, 北京, 1991.<br />

- 兩岸常用㆗文資訊名詞對照表及兩岸㆗文資訊內碼對照轉碼表之編擬 (liǎng àn<br />

chángyòng zhōngwén zīxùn míngcí duìzhàobiǎo jí liǎng àn zhōngwén zīxùn nèimǎ<br />

duìzhǎo zhuànmǎbiǎo zhī biānnǐ), 行政院研究發展考核委員會, 1994.<br />

Request For Command (geor<strong>de</strong>nd volgens RFC-nummer)<br />

- Simonsen K.,Character Mnemonics & Character Sets, RFC 1345, June 1992.<br />

- Goldsmidt D. & M. Davis, UTF-7 A Mail-Safe Transformation Format of Unico<strong>de</strong>, RFC<br />

1642, July 1994.<br />

- Alvestrand H., Tags for the I<strong>de</strong>ntification of Languages, RFC 1766, March 1995.<br />

- Ohta M., Character Sets ISO-10646 and ISO 10646-J-1, RFC 1815, July 1995.<br />

- Wei Y., Zhang Y., Li J., Ding J. & Y. Jiang, ASCII Printable Characters-Based <strong>Chinese</strong><br />

Character Encoding for Internet Messages, RFC 1842, August 1995.<br />

- Lee F., HZ - A Data Format for Exchanging Files of Arbitrarily Mixed <strong>Chinese</strong> and<br />

ASCII characters, RFC 1843, August 1995.<br />

- Zhu H., Hu D., Wang Z., Kao T., Chang W. & M. Crispin, <strong>Chinese</strong> Character Encoding<br />

for Internet Messages, RFC 1922, March 1996.<br />

- Goldsmidt D. & M. Davis, UTF-7 A Mail-Safe Transformation Format of Unico<strong>de</strong>, RFC<br />

2152, May 1997.<br />

- Freed N. & J. Postel, IANA Charset Registration Procedures, RFC 2278, January 1998.<br />

- Yergeau F., UTF-8, a transformation format of ISO 10646, RFC 2279, January 1998.<br />

- Whistler K. & G. Adams, Language Tagging in Unico<strong>de</strong> Plain Text, RFC 2482, January<br />

1999.<br />

- Alvestrand H., Tags for the I<strong>de</strong>ntification of Languages, RFC 3066, January 2001.<br />

Thesis Sébastien Bruggeman Pagina 79


7.2. Links<br />

Persoonlijke websites<br />

Brief History of Character Co<strong>de</strong>s in North America, Eur<strong>op</strong>e, and East Asia by Steven Stearle<br />

http://tronweb.super-nova.co.jp/characco<strong>de</strong>hist.html<br />

Chih-Hao Tsai’s Technology Page by Chih-Hao Tsai<br />

http://www.geocities.com/hao510/<br />

<strong>Chinese</strong> Characters and Culture by Rick Harbaugh<br />

http://zhongwen.com<br />

<strong>Chinese</strong> Computer Terminology System by Hong Kong Computer Society<br />

http://ccts.cs.cuhk.edu.hk/<br />

<strong>Chinese</strong> Computing by Wei-Chang Shann<br />

http://www.math.ncu.edu.tw/~shann/<strong>Chinese</strong>/Welcome.html<br />

<strong>Chinese</strong> Mac Home<br />

http://www.yale.edu/chinesemac/in<strong>de</strong>x.html<br />

CJK Quick Start by Gyula Zsigri<br />

http://www.geocities.com/fontboard/cjk<br />

CJKV Information Processing by Ken Lun<strong>de</strong><br />

http://www.oreilly.com/~lun<strong>de</strong>/cjkv-ip.html<br />

Czyborra.com by Roman Czyborra<br />

http://www.czyborra.com<br />

Digital UNIX Technical Reference for Using <strong>Chinese</strong> Features<br />

http://www.tru64unix.compaq.com/docs/base_doc/DOCUMENTATION/V40F_HTM<br />

L/SUPPDOCS/CHINADOC/CHINAPRF.HTM<br />

Global Design Home Page<br />

http://www.xerox-emea.com/global<strong>de</strong>sign/in<strong>de</strong>x.htm<br />

History and prospect of <strong>Chinese</strong> Romanization by Bemjamin AO<br />

http://www.whiteclouds.com/iclc/cliej/cl4ao.htm<br />

Introduction to the <strong>Chinese</strong> language and its Processing by Sylvia Wong<br />

http://www.fi.muni.cz/usr/wong/teaching/chinese/notes/notes.html<br />

On-line <strong>Chinese</strong> Tools by Erik Peterson<br />

http://www.mandarintools.com<br />

Sapienti’s homepage by Dylan W.H.Sung<br />

http://www.sungwh.freeserve.co.uk/in<strong>de</strong>x.html<br />

Thesis Sébastien Bruggeman Pagina 80


The Complete Gui<strong>de</strong> to <strong>Chinese</strong> Language Computing by Erik Peterson<br />

http://www.chinesecomputing.com<br />

Zvon – RFC 1922<br />

http://zvon.org/tmRFC/RFC1922/Output/in<strong>de</strong>x.html<br />

㆗文輸入法世界<br />

http://input.foruto.com<br />

漢字處理<br />

http://freebsd.sinica.edu.tw/~statue/hanzi/<br />

Organisaties en officiële instanties<br />

China Internet Network Information Center<br />

http://www.cnnic.net.cn/<br />

<strong>Chinese</strong>, Japanese and Korean (CJK) Dictionary Data<br />

http://www.cjk.org<br />

CMEX ㆗推會<br />

http://www.cmex.org.tw/<br />

Internet RFC/FYI/STD/BCP Archives<br />

http://www.faqs.org/rfcs/<br />

Taiwan Network Information Center<br />

http://www.twnic.net.tw<br />

The World Wi<strong>de</strong> Web Consortium<br />

http://www.w3c.org<br />

Unico<strong>de</strong> Home Page<br />

http://www.unico<strong>de</strong>.org<br />

教育部資訊網<br />

http://www.edu.tw/<br />

國語會<br />

http://www.edu.tw/mandr/<br />

Thesis Sébastien Bruggeman Pagina 81


7.3. Tabellen<br />

Tabel 37 Conversietabel b<strong>op</strong>omofo - Pinyin - wa<strong>de</strong>-giles<br />

B<strong>op</strong>omofo Pinyin Wa<strong>de</strong>-giles<br />

ㄅ b p<br />

ㄆ p p'<br />

ㄇ m m<br />

ㄈ f f<br />

ㄉ d t<br />

ㄊ t t'<br />

ㄋ n n<br />

ㄌ l l<br />

ㄍ g k<br />

ㄎ k k'<br />

ㄏ h h<br />

ㄐ j ch<br />

ㄑ q ch'<br />

ㄒ x hs<br />

ㄓ zh ch<br />

ㄔ ch ch'<br />

ㄕ sh sh<br />

ㄖ r j<br />

ㄗ z ts/tz<br />

ㄘ c ts'/tz'<br />

ㄙ s s/ss/sz<br />

ㄧ i i<br />

ㄨ u wu<br />

ㄩ ü yü<br />

ㄚ a a<br />

ㄛ o o<br />

ㄜ e e<br />

ㄝ ie ieh<br />

ㄞ ai ai<br />

ㄟ ei ei<br />

ㄠ ao ao<br />

ㄡ ou ou<br />

ㄢ an an<br />

ㄣ en en<br />

ㄤ ang ang<br />

ㄥ eng eng<br />

ㄦ er erh<br />

Thesis Sébastien Bruggeman Pagina 82


Tabel 38 Designator sequences gebruikt in ISO-2022-CN en ISO-2022-CN-EXT<br />

Karakterset Decimaal Hexa<strong>de</strong>cimaal Grafisch (ASCII)<br />

GB 2312-80 27 36 41 65 1B 24 29 41 $ ) A<br />

GB 7589-87 27 36 42 X 1B 24 2A X $ * X<br />

GB 7590-87 27 36 43 X 1B 24 2B X $ + X<br />

GB 12345-90 27 36 41 X 1B 24 29 X $ ) X<br />

GB 13131-91 27 36 42 X 1B 24 2A X $ * X<br />

GB 13132-91 27 36 43 X 1B 24 2B X $ + X<br />

ISO-IR-165 27 36 41 69 1B 24 29 45 $ ) E<br />

CNS 11643-1992 Niveau 1 27 36 41 71 1B 24 29 47 $ ) G<br />

CNS 11643-1992 Niveau 2 27 36 42 72 1B 24 2A 48 $ * H<br />

CNS 11643-1992 Niveau 3 27 36 43 73 1B 24 2B 49 $ + I<br />

CNS 11643-1992 Niveau 4 27 36 43 74 1B 24 2B 4A $ + J<br />

CNS 11643-1992 Niveau 5 27 36 43 75 1B 24 2B 4B $ + K<br />

CNS 11643-1992 Niveau 6 27 36 43 76 1B 24 2B 4C $ + L<br />

CNS 11643-1992 Niveau 7 27 36 43 77 1B 24 2B 4D $ + M<br />

De karaktersets met een X zijn nog niet toegewezen en geregistreerd en kunnen dus ook nog<br />

niet gebruikt wor<strong>de</strong>n. Zie ook http://www.itscj.ipsj.or.jp/ISO-IR/<br />

Tabel 39 Single shift sequences en shifting characters gebruikt in ISO-2022-CN en ISO-2022-CN-EXT<br />

Decimaal Hexa<strong>de</strong>cimaal Grafisch (ASCII)<br />

SS2 27 78 1B 4E N<br />

SS3 27 79 1B 4F O<br />

One byte shift 15 0F <br />

Two byte shift 14 0E <br />

Tabel 40 EUC-TW<br />

0 – 7E → ASCII<br />

A1 – FE A1 – FE A1 – FE → CNS 11643 niveau 1<br />

SS2 A2 A1 – FE A1 – FE → CNS 11643 niveau 2<br />

SS2 A3 A1 – FE A1 – FE → CNS 11643 niveau 3<br />

SS2 A4 A1 – FE A1 – FE → CNS 11643 niveau 4<br />

SS2 A5 A1 – FE A1 – FE → CNS 11643 niveau 5<br />

SS2 A6 A1 – FE A1 – FE → CNS 11643 niveau 6<br />

SS2 A7 A1 – FE A1 – FE → CNS 11643 niveau 7<br />

SS2 A8 A1 – FE A1 – FE → CNS 11643 niveau 8<br />

SS2 A9 A1 – FE A1 – FE → CNS 11643 niveau 9<br />

SS2 AA A1 – FE A1 – FE → CNS 11643 niveau 10<br />

SS2 AB A1 – FE A1 – FE → CNS 11643 niveau 11<br />

SS2 AC A1 – FE A1 – FE → CNS 11643 niveau 12<br />

SS2 AD A1 – FE A1 – FE → CNS 11643 niveau 13<br />

SS2 AE A1 – FE A1 – FE → CNS 11643 niveau 14<br />

SS2 AF A1 – FE A1 – FE → CNS 11643 niveau 15<br />

SS2 B0 A1 – FE A1 – FE → CNS 11643 niveau 16<br />

Thesis Sébastien Bruggeman Pagina 83


Tabel 41 Toewijzing van <strong>de</strong> toetsen voor invoer met <strong>de</strong> Cangjie metho<strong>de</strong><br />

Alphabets Stroke<br />

Types<br />

Correspon<strong>de</strong>nces<br />

<strong>Chinese</strong><br />

A 日 ‘A’ looks like ‘日’<br />

B 月 ‘B’ looks like ‘月’<br />

C 金 ‘C’ looks like a gold (i.e. 金) ring on a girl’s finger<br />

D 木<br />

If a woo<strong>de</strong>n (i.e. 木) trunk is cut into two halves vertically,<br />

each half looks like a ‘D’<br />

E 水 ‘E’ looks like the 3 main branches of the Yangtze river<br />

F 火 ‘F’ is the first character of the word ‘fire’ (i.e. 火)<br />

G 土 ‘G’ is the first character of the word ‘ground’ (i.e. 土)<br />

H 斜 竹<br />

The first stroke of ‘H’ looks like a slanted stroke (i.e. 斜) in<br />

<strong>Chinese</strong><br />

I 點 戈 There is a dot (i.e. 點) on ‘i’<br />

J 交 十<br />

The script writing of ‘J’ looks like a cross (i.e. 交) road on a<br />

highway<br />

K 叉 大<br />

‘K’ looks like a cross road with 3 branching routes (i.e. ㆔叉<br />

路, literally three fork road)<br />

L 縱 ㆗ ‘l’ looks like a vertical (i.e. 縱) line<br />

M 橫 ㆒<br />

The script writing of ‘m’ looks like a crab walking<br />

horizontally (i.e. 橫)<br />

N 鉤 弓 ‘N’ looks like a hook (i.e. 鉤) on the wall<br />

O ㆟ ‘O’ looks like a human (i.e. ㆟) head<br />

A human heart (i.e. 心) is situated to the left of one's body.<br />

P 心 When someone stands <strong>op</strong>posite you, their heart would have<br />

the position like the arc of a ‘P’<br />

Q 手 ‘Q’ looks like a human’s head with a hand (i.e. 手)<br />

R 口 ‘R’ looks like a mouth (i.e. 口) with a mustache<br />

S 側 尸 ‘S’ looks like a si<strong>de</strong> view of a slim girl<br />

T 並 廿<br />

‘T’ looks like two pe<strong>op</strong>le having their shoul<strong>de</strong>r next to each<br />

other (i.e. 肩並肩)<br />

U 仰 山<br />

‘U’ looks like a valley between two hills (i.e. 山). Once you<br />

are standing in the valley, you need to look up (i.e. 仰望)<br />

V 妞 女<br />

‘V’ looks like a necklace with a pendant on a girl’s (i.e. 女)<br />

neck<br />

W 方 田 ‘田’ looks like a window, which starts with the character ‘W’<br />

Y 卜<br />

‘Y’ looks like the instruments for <strong>Chinese</strong> fortune telling<br />

(i.e. 占卜)<br />

Thesis Sébastien Bruggeman Pagina 84


Tabel 42 Internetgebruik in China<br />

Internet gebruikers Computer Hosts Bandbreedte<br />

(x 10 000) (x 10 000) (M)<br />

1997.10 62 30 25<br />

1998.7 118 54 85<br />

1999.1 210 75 143<br />

1999.7 400 146 241<br />

2000.1 890 350 351<br />

2000.7 1 690 650 1 234<br />

2001.1 2 250 892 2 799<br />

2001.7 2 650 1 002 3 257<br />

2002.1 3 370 1 254 7 598<br />

Deze tabel is samengesteld uit verschillen<strong>de</strong> tabellen, omwille van het overzicht zijn <strong>de</strong> getallen afgerond. Het<br />

volledig rapport is terug te vin<strong>de</strong>n <strong>op</strong> http://www.cnnic.net.cn/<strong>de</strong>velst/rep200201-e.shtml<br />

Tabel 43 Internetgebruik in Taiwan<br />

Internet gebruikers Internet Hosts Bandbreedte<br />

(x 10 000) (x 10 000) (Mbps)<br />

1996/12 60<br />

1997/06 126<br />

1997/12 166<br />

1998/06 217<br />

1998/12 301<br />

1999/06 402<br />

1999/12 480<br />

2000/06 560 78<br />

2000/12 627 113 2.136<br />

2001/06 721 197 4.153<br />

2001/12 782 271 7.228<br />

Thesis Sébastien Bruggeman Pagina 85


Tabel 44 Blokken in Unico<strong>de</strong> 3.2.0<br />

Taal Range<br />

Basic Latin 0000 – 007F<br />

Latin-1 Supplement 0080 – 00FF<br />

Latin Exten<strong>de</strong>d-A 0100 – 017F<br />

Latin Exten<strong>de</strong>d-B 0180 – 024F<br />

IPA Extensions 0250 – 02AF<br />

Spacing Modifier Letters 02B0 – 02FF<br />

Combining Diacritical Marks 0300 – 036F<br />

Greek and C<strong>op</strong>tic 0370 – 03FF<br />

Cyrillic 0400 – 04FF<br />

Cyrillic Supplementary 0500 – 052F<br />

Armenian 0530 – 058F<br />

Hebrew 0590 – 05FF<br />

Arabic 0600 – 06FF<br />

Syriac 0700 – 074F<br />

Thaana 0780 – 07BF<br />

Devanagari 0900 – 097F<br />

Bengali 0980 – 09FF<br />

Gurmukhi 0A00 – 0A7F<br />

Gujarati 0A80 – 0AFF<br />

Oriya 0B00 – 0B7F<br />

Tamil 0B80 – 0BFF<br />

Telugu 0C00 – 0C7F<br />

Kannada 0C80 – 0CFF<br />

Malayalam 0D00 – 0D7F<br />

Sinhala 0D80 – 0DFF<br />

Thai 0E00 – 0E7F<br />

Lao 0E80 – 0EFF<br />

Tibetan 0F00 – 0FFF<br />

Myanmar 1000 – 109F<br />

Georgian 10A0 – 10FF<br />

Hangul Jamo 1100 – 11FF<br />

Ethi<strong>op</strong>ic 1200 – 137F<br />

Cherokee 13A0 – 13FF<br />

Unified Canadian Aboriginal Syllabics 1400 – 167F<br />

Ogham 1680 – 169F<br />

Runic 16A0 – 16FF<br />

Tagalog 1700 – 171F<br />

Hanunoo 1720 – 173F<br />

Buhid 1740 – 175F<br />

Tagbanwa 1760 – 177F<br />

Khmer 1780 – 17FF<br />

Mongolian 1800 – 18AF<br />

Latin Exten<strong>de</strong>d Additional 1E00 – 1EFF<br />

Greek Exten<strong>de</strong>d 1F00 – 1FFF<br />

General Punctuation 2000 – 206F<br />

Superscripts and Subscripts 2070 – 209F<br />

Currency Symbols 20A0 – 20CF<br />

Thesis Sébastien Bruggeman Pagina 86


Taal Range<br />

Combining Diacritical Marks for Symbols 20D0 – 20FF<br />

Letterlike Symbols 2100 – 214F<br />

Number Forms 2150 – 218F<br />

Arrows 2190 – 21FF<br />

Mathematical Operators 2200 – 22FF<br />

Miscellaneous Technical 2300 – 23FF<br />

Control Pictures 2400 – 243F<br />

Optical Character Recognition 2440 – 245F<br />

Enclosed Alphanumerics 2460 – 24FF<br />

Box Drawing 2500 – 257F<br />

Block Elements 2580 – 259F<br />

Geometric Shapes 25A0 – 25FF<br />

Miscellaneous Symbols 2600 – 26FF<br />

Dingbats 2700 – 27BF<br />

Miscellaneous Mathematical Symbols-A 27C0 – 27EF<br />

Supplemental Arrows-A 27F0 – 27FF<br />

Braille Patterns 2800 – 28FF<br />

Supplemental Arrows-B 2900 – 297F<br />

Miscellaneous Mathematical Symbols-B 2980 – 29FF<br />

Supplemental Mathematical Operators 2A00 – 2AFF<br />

CJK Radicals Supplement 2E80 – 2EFF<br />

Kangxi Radicals 2F00 – 2FDF<br />

I<strong>de</strong>ographic Description Characters 2FF0 – 2FFF<br />

CJK Symbols and Punctuation 3000 – 303F<br />

Hiragana 3040 – 309F<br />

Katakana 30A0 – 30FF<br />

B<strong>op</strong>omofo 3100 – 312F<br />

Hangul Compatibility Jamo 3130 – 318F<br />

Kanbun 3190 – 319F<br />

B<strong>op</strong>omofo Exten<strong>de</strong>d 31A0 – 31BF<br />

Katakana Phonetic Extensions 31F0 – 31FF<br />

Enclosed CJK Letters and Months 3200 – 32FF<br />

CJK Compatibility 3300 – 33FF<br />

CJK Unified I<strong>de</strong>ographs Extension A 3400 – 4DBF<br />

CJK Unified I<strong>de</strong>ographs 4E00 – 9FFF<br />

Yi Syllables A000 – A48F<br />

Yi Radicals A490 – A4CF<br />

Hangul Syllables AC00 – D7AF<br />

High Surrogates D800 – DB7F<br />

High Private Use Surrogates DB80 – DBFF<br />

Low Surrogates DC00 – DFFF<br />

Private Use Area E000 – F8FF<br />

CJK Compatibility I<strong>de</strong>ographs F900 – FAFF<br />

Alphabetic Presentation Forms FB00 – FB4F<br />

Thesis Sébastien Bruggeman Pagina 87


Taal Range<br />

Arabic Presentation Forms-A FB50 – FDFF<br />

Variation Selectors FE00 – FE0F<br />

Combining Half Marks FE20 – FE2F<br />

CJK Compatibility Forms FE30 – FE4F<br />

Small Form Variants FE50 – FE6F<br />

Arabic Presentation Forms-B FE70 – FEFF<br />

Halfwidth and Fullwidth Forms FF00 – FFEF<br />

Specials FFF0 – FFFF<br />

Old Italic 10300 – 1032F<br />

Gothic 10330 – 1034F<br />

Deseret 10400 – 1044F<br />

Byzantine Musical Symbols 1D000 – 1D0FF<br />

Musical Symbols 1D100 – 1D1FF<br />

Mathematical Alphanumeric Symbols 1D400 – 1D7FF<br />

CJK Unified I<strong>de</strong>ographs Extension B 20000 – 2A6DF<br />

CJK Compatibility I<strong>de</strong>ographs Supplement 2F800 – 2FA1F<br />

Tags E0000 – E007F<br />

Supplementary Private Use Area-A F0000 – FFFFF<br />

Supplementary Private Use Area-B 100000 – 10FFFF<br />

Thesis Sébastien Bruggeman Pagina 88


7.4. Figuren<br />

Figuur 12 7-bit en 8-bit co<strong>de</strong> tabel<br />

Figuur 13 Een <strong>Chinese</strong> 'typmachine'<br />

Thesis Sébastien Bruggeman Pagina 89


Figuur 14 Boshiamy invoermetho<strong>de</strong><br />

Thesis Sébastien Bruggeman Pagina 90


7.5. Dankbetuiging<br />

Speciale dank en waar<strong>de</strong>ring gaat uit naar mijn promotor professor Fred Truyen voor <strong>de</strong><br />

constante motivatie die ik mocht ervaren. Eveneens mijn welgemeen<strong>de</strong> dank voor professor<br />

Jan Engelen van het <strong>de</strong>partement ESAT aan <strong>de</strong> KUL, en zijn assistenten voor <strong>de</strong> vele<br />

technische informatie en verbeteringen. Ook dank aan mijn professoren en me<strong>de</strong>stu<strong>de</strong>nten van<br />

Sinologie aan <strong>de</strong> K.U.Leuven voor <strong>de</strong> afgel<strong>op</strong>en jaren in voor- en tegenspoed.<br />

Heel veel dank gaat ook uit naar mijn ou<strong>de</strong>rs die me <strong>de</strong> kans gaven om <strong>de</strong>ze <strong>op</strong>leiding te<br />

volgen, en me er steeds in gesteund hebben. Ook mijn broer Nicolas voor <strong>de</strong> uren werk en<br />

bergen aanvullingen en verbeteringen. En mijn broertje Justin en neef Brecht voor screenshots<br />

en controle.<br />

Ver<strong>de</strong>r wil ik ook nog Feike van <strong>de</strong> firma Spanninga danken voor het ter beschikking<br />

stellen van Dr.Eye en Microsoft Proofing Tools.<br />

En als laatste, maar zeker niet in het minst dank en groet ik mijn fantastisch lief Julie en<br />

mijn beste vrien<strong>de</strong>n Stefaan en Thijs voor <strong>de</strong> ‘spirituele’ on<strong>de</strong>rsteuning die ze mij gaven.<br />

Thesis Sébastien Bruggeman Pagina 91


Bijlage A: Selectie van National Standards in <strong>de</strong> PRC 132<br />

GB 1988-1980<br />

信息处理交换用的七位编码字符集<br />

GB/T 1988-1988<br />

信息技术 信息交换用七位编码字符集<br />

Information technology--7-bit co<strong>de</strong>d character set for information interchange<br />

GB 2311-1980<br />

信息处理交换用七位编码字符集的扩充方法<br />

GB/T 2311-1988<br />

信息处理 七位和八位编码字符集 代码扩充技术<br />

Information processing— ISO 7-bit and 8-bit co<strong>de</strong>d character sets— Co<strong>de</strong> extension techniques<br />

GB 2312-1980<br />

信息交换用汉字编码字符集 基本集<br />

Co<strong>de</strong> of <strong>Chinese</strong> graphic character set for information interchange--Primary set<br />

GB 2787-1981<br />

信息处理交换用七位编码字符集键盘的字母数字区布居<br />

Keyboard arrangement of the alphabetical area of 7-bit co<strong>de</strong>d character set for information<br />

processing interchange<br />

GB/T 3911-1983<br />

信息处理用七位编码字符集控制字符的图形表示<br />

Graphical representations of the control characters of 7-bit co<strong>de</strong>d character set for information<br />

processing<br />

GB/T 5007.1-1985<br />

信息交换用汉字 24×24 点阵字模集<br />

24×24 Dot matrix font set of chinese i<strong>de</strong>ograms for information interchange<br />

GB/T 5007.2-1985<br />

信息交换用汉字 24×24 点阵字模数据集<br />

24×24 Dot matrix font data set of chinese i<strong>de</strong>ograms for information interchange<br />

GB/T 5199.1-1985<br />

信息交换用汉字 15×16 点阵字模集<br />

15×16 Dot matrix font set of chinese i<strong>de</strong>ograms for information interchange<br />

GB/T 5199.2-1985<br />

信息交换用汉字 15×16 点阵数据集<br />

15×16 Dot matrix font date set of chinese i<strong>de</strong>ograms for information interchange<br />

GB 5261-1985<br />

文字和符号成形设备用的增?控制功能<br />

GB/T 5261-1994<br />

信息处理 七位和八位编码字符集用的控制功能<br />

Information processing--Control functions for 7-bit and 8-bit co<strong>de</strong>d character sets<br />

GB/T 6345.1-1986<br />

信息交换用汉字 32×32 点阵字模集<br />

32×32 Dot matrix font set of chinese i<strong>de</strong>ograms for information interchange<br />

GB/T 6345.2-1986<br />

信息交换用汉字 32×32 点阵字模数据集<br />

32×32 Dot matrix font data set of chinese i<strong>de</strong>ograms for information interchange<br />

132 Bron: http://www.cnaec.com.cn/guifan/02/L70-84.htm<br />

Thesis Sébastien Bruggeman Pagina 92


GB/T 7420-1987<br />

信息处理 从信息处理交换用七位编码字符集中派生四位字符集的导则<br />

Information processing--Gui<strong>de</strong> for the <strong>de</strong>finition of 4-bit character sets <strong>de</strong>rived from the 7-bit<br />

co<strong>de</strong>d character set for information processing interchange<br />

GB/T 7422.1-1987<br />

信息交换用蒙古文 16×12、16×8、16×4 点阵字模集<br />

16×12, 16×8, 16×4 Dot matrix font set of mongolian characters for information interchange<br />

GB/T 7422.2-1987<br />

信息交换用蒙古文 16×12、16×8、16×4 点阵数据集<br />

16×12, 16×8, 16×4 Dot matrix data set of mongolian characters for information interchange<br />

GB/T 7513-1987<br />

汉字整字键盘盘面字排列<br />

GB/T 7514-1987<br />

信息处理交换用七位编码字符集与电报用五单位电码之间的转换<br />

Conversion between the 7-bit co<strong>de</strong>d character set for information processing interchange and the<br />

5-unit co<strong>de</strong> for the telegraph service<br />

GB/T 7589-1987<br />

信息交换用汉字编码字符集 第二辅助集<br />

Co<strong>de</strong> of <strong>Chinese</strong> i<strong>de</strong>ograms set for information interchange--The 2nd supplementary set<br />

GB/T 7590-1987<br />

信息交换用汉字编码字符集 第四辅助集<br />

Co<strong>de</strong> of <strong>Chinese</strong> i<strong>de</strong>ograms set for information interchange--The 4th supplementary set<br />

GB 8045-1987<br />

信息处理交换用蒙古文七位和八位编码图形字符集<br />

Mongolian 7-bit and 8-bit co<strong>de</strong>d graphic character sets for information processing interchange<br />

GB/T 8046-1987<br />

信息处理交换用蒙古文字符集键盘的字母区布局<br />

Keyboard arrangement of the alphabetical area of Mongolian character set for information<br />

processing interchange<br />

GB/T 8565.1-1988<br />

信息处理 文本通信用编码字符集 第一部分 总则<br />

Information processing--Co<strong>de</strong>d character sets for text communication--Part 1: General<br />

introduction<br />

GB/T 8565.2-1988<br />

信息处理 文本通信用编码字符集 第二部分 图形字符集<br />

Information processing--Co<strong>de</strong>d character sets for text communication--Part 2: Graphic characters<br />

GB/T 8565.3-1988<br />

信息处理 文本通信用编码字符集 第三部分: 按页成象格式用控制功能<br />

Information processing--Co<strong>de</strong>d character sets for text communication--Part 3: Control functions<br />

for page-image format<br />

GB/T 11383-1989<br />

信息处理 信息交换用八位代码结构和编码规则<br />

Information processing--8-bit co<strong>de</strong> for information interchange--Structure and rules for<br />

implementation<br />

GB/T 12034-1989<br />

信息交换用汉字 32×32 点阵仿宋体字模集及数据集<br />

32×32 Dot matrix Fangsongti font set and data set of <strong>Chinese</strong> i<strong>de</strong>ograms for information<br />

interchange<br />

Thesis Sébastien Bruggeman Pagina 93


GB/T 12035-1989<br />

信息交换用汉字 32×32 点阵楷体字模集及数据集<br />

32×32 Dot matrix Kaiti font set and data set of <strong>Chinese</strong> i<strong>de</strong>ograms for information interchange<br />

GB/T 12036-1989<br />

信息交换用汉字 32×32 点阵黑体字模集及数据集<br />

32×32 Dot matrix Heiti font set and data set of <strong>Chinese</strong> i<strong>de</strong>ograms for information interchange<br />

GB/T 12037-1989<br />

信息交换用汉字 36×36 点阵宋体字模集及数据集<br />

36×36 Dot matrix Songti font set and data set of <strong>Chinese</strong> i<strong>de</strong>ograms for information interchange<br />

GB/T 12038-1989<br />

信息交换用汉字 36×36 点阵仿宋体字模集及数据集<br />

36×36 Dot matrix Fangsongti font set and data set of <strong>Chinese</strong> i<strong>de</strong>ograms for information<br />

interchange<br />

GB/T 12039-1989<br />

信息交换用汉字 36×36 点阵楷体字模集及数据集<br />

36×36 Dot matrix Kaiti font set and data set of <strong>Chinese</strong> i<strong>de</strong>ograms for information<br />

interchange<br />

GB/T 12040-1989<br />

信息交换用汉字 36×36 点阵黑体字模集及数据集<br />

36×36 Dot matrix Heiti font set and data set of <strong>Chinese</strong> i<strong>de</strong>ograms for information interchange<br />

GB/T 12041-1989<br />

信息交换用汉字 48×48 点阵宋体字模集及数据集<br />

48×48 Dot matrix Songti font set and data set of <strong>Chinese</strong> i<strong>de</strong>ograms for information interchange<br />

GB/T 12042-1989<br />

信息交换用汉字 48×48 点阵仿宋体字模集及数据集<br />

48×48 Dot matrix Fangsongti font set and data set of <strong>Chinese</strong> i<strong>de</strong>ograms for information<br />

interchange<br />

GB/T 12043-1989<br />

信息交换用汉字 48×48 点阵楷体字模集及数据集<br />

48×48 Dot matrix Kaiti font set and data set of <strong>Chinese</strong> i<strong>de</strong>ograms for information interchange<br />

GB/T 12044-1989<br />

信息交换用汉字 48×48 点阵黑体字模集及数据集<br />

48×48 Dot matrix Heiti font set and data set of <strong>Chinese</strong> i<strong>de</strong>ograms for information<br />

interchange<br />

GB 12050-1989<br />

信息处理 信息交换用维吾尔文编码图形字符集<br />

Information processing— Uighur co<strong>de</strong>d graphic character sets for information interchange<br />

GB 12052-1989<br />

信息交换用朝鲜文字编码字符集<br />

Korean character co<strong>de</strong>d character set for information interchange<br />

GB/T 12053-1989<br />

光学识别用字母数字字符集 第一部分: OCR-A 字符集印刷图象的形状和尺寸<br />

Alphanumeric character sets for <strong>op</strong>tical recognition — Part 1: Character set OCR-A— Shapes and<br />

dimensions of the printed image<br />

GB/T 12054-1989<br />

数据处理 转义序列的登记规程<br />

Data processing--Procedure for registration of escape sequences<br />

GB/T 12200.1-1990<br />

汉语信息处理词汇 01 部分: 基本术语<br />

<strong>Chinese</strong> information processing— Vocabulary— Part 01: Fundamental terms<br />

Thesis Sébastien Bruggeman Pagina 94


GB/T 12200.2-1994<br />

汉语信息处理词汇 02 部分: 汉语和汉字<br />

<strong>Chinese</strong> information processing--Vocabulary--Part 02: <strong>Chinese</strong> and <strong>Chinese</strong> character<br />

GB/T 12345-1990<br />

信息交换用汉字编码字符集 辅助集<br />

Co<strong>de</strong> of <strong>Chinese</strong> i<strong>de</strong>ogram set for information interchange supplementary set<br />

GB/T 12508-1990<br />

光学识别用字母数字字符集 第二部分: OCR-B 字符集印刷图象的形状和尺寸<br />

Alphanumeric character sets for <strong>op</strong>tical recognition— Part 2: Character set OCR-B— Shapes and<br />

dimensions of the printed image<br />

GB 13000.1-1993<br />

信息技术 通用多八位编码字符集(UCS) 第一部分:体系结构与基本多文种平面<br />

Information technology--Universal multiple--Octet co<strong>de</strong>d character set(UCS)--Part 1:<br />

Architecture and basic multilingual plane<br />

GB 13131-1991<br />

信息交换用汉字编码字符集 第三辅助集<br />

Co<strong>de</strong> of <strong>Chinese</strong> i<strong>de</strong>ogram set for information interchange 3rd supplementary set<br />

GB 13132-1991<br />

信息交换用汉字编码字符集 第五辅助集<br />

Co<strong>de</strong> of <strong>Chinese</strong> i<strong>de</strong>ogram set for information interchange 5th supplementary set<br />

GB 13134-1991<br />

信息交换用彝文编码字符集<br />

Yi co<strong>de</strong>d character set for information interchange<br />

GB/T 13135-1991<br />

信息交换用彝文字符 15×16 点阵字模集及数据集<br />

15×16 Dot matrix font set and data set of Yi characters for information interchange<br />

GB/T 13141-1991<br />

书目信息交换用希腊字母编码字符集<br />

Greek alphabet co<strong>de</strong>d character set for bibliographic information interchange<br />

GB/T 13142-1991<br />

书目信息交换用拉丁字母代码字符扩充集<br />

Extension of the Latin alphabet co<strong>de</strong>d character set for bibliographic information interchange<br />

GB/T 13715-1992<br />

信息处理用现代汉语分词规范<br />

Contemporary <strong>Chinese</strong> language word segmentation specification for information processing<br />

GB/T 15189-1994<br />

DOS 中文信息处理系统接口规范<br />

Specification of DOS <strong>Chinese</strong> information processing system interface<br />

GB/T 15273.1-1994<br />

信息处理 八位单字节编码图形字符集 第一部分: 拉丁字母一<br />

Information processing--8-bit single-byte co<strong>de</strong>d graphic character sets--Part 1: Latin<br />

alphabet No.1<br />

GB/T 15273.2-1995<br />

信息处理 八位单字节编码图形字符集 第二部分: 拉丁字母二<br />

Information processing--8-bit single-byte co<strong>de</strong>d graphc character sets--Part 2: Latin alphabet<br />

No.2<br />

GB/T 15273.3-1995<br />

信息处理 八位单字节编码图形字符集 第三部分: 拉丁字母三<br />

Information processing--8-bit single-byte co<strong>de</strong>d graphc character sets--Part 3: Latin alphabet<br />

No.3<br />

Thesis Sébastien Bruggeman Pagina 95


GB/T 15273.4-1995<br />

信息处理 八位单字节编码图形字符集 第四部分: 拉丁字母四<br />

Information processing--8-bit single-byte co<strong>de</strong>d graphc character sets--Part 4: Latin alphabet<br />

No.4<br />

GB/T 15273.7-1996<br />

信息处理 八位单字节编码图形字符集 第 7 部分:拉丁/希腊字母<br />

Information processing--8-bit single-byte co<strong>de</strong>d graphic character sets--Part 7: Latin/Greek<br />

alphabet<br />

GB/T 15732-1995<br />

汉字键盘输入用通用词语集<br />

General word set for <strong>Chinese</strong> character keyboard input<br />

GB/T 16683-1996<br />

信息交换用彝文字符 24×24 点阵字模集及数据集<br />

24×24 Dot matrix font set and data set of Yi character for information interchange<br />

GB 16793-1997<br />

信息技术 通用多八位编码字符集(Ⅰ区) 汉字 24 点阵字型 宋体<br />

Information technology--Universal multiple--Octet co<strong>de</strong>d character set (IZone)--24-dots matrix<br />

font of i<strong>de</strong>ogram--Song Ti<br />

GB 16794.1-1997<br />

信息技术 通用多八位编码字符集(Ⅰ区) 汉字 48 点阵字型 第 1 部分:宋体<br />

Information technology--Universal multiple--Octet co<strong>de</strong>d character set(I zone)--48-dots matrix<br />

font of i<strong>de</strong>ogram--Part 1: Song Ti<br />

GB 16959-1997<br />

信息技术 信息交换用藏文编码字符集 基本集<br />

Information technology--Tibetan co<strong>de</strong>d character sets for information interchange--Basic set<br />

GB/T 16960.1-1997<br />

信息技术 藏文编码字符集(基本集)24×48 点阵字型 第 1 部分: 白体<br />

Information technology--Tibetan co<strong>de</strong>d character set (basic set)--24×48 dots matrix font--Part 1:<br />

Bai Ti<br />

GB/T 16964.1-1997<br />

信息技术 字型信息交换 第 1 部分: 体系结构<br />

Information technology--Font information interchange--Part 1: Architecture<br />

GB/T 16964.2-1997<br />

信息技术 字型信息交换 第 2 部分: 交换格式<br />

Information technolong--Font information interchange--Part 2: Interchange format<br />

GB/T 16964.3-1997<br />

信息技术 字型信息交换 第 3 部分: 字形形状表示<br />

Information technology--Font information interchange--Part 3: Glyph shape representation<br />

GB/T 17543-1998<br />

信息技术 藏文编码字符集(基本集)键盘字母数字区的布局<br />

Information technology--Keyboard layout of the alphanumeric zone for Tibetan co<strong>de</strong>d character<br />

set (basic set)<br />

GB/T 16500-1998<br />

信息交换用汉字编码字符集 第七辅助集<br />

Co<strong>de</strong> of chinese i<strong>de</strong>ograms set for information interchange--The 7th supplementary set<br />

GB 17698-1999<br />

信息技术 通用多八位编码字符集(I 区)汉字 16 点阵字型<br />

Information technology--Universal multiple-octet co<strong>de</strong>d character set(I Zone)--16-dots matrix<br />

font of <strong>Chinese</strong> i<strong>de</strong>ogram<br />

Thesis Sébastien Bruggeman Pagina 96


GB 18030-2000<br />

信息技术 – 信息交换用汉字编码字符集 – 基本集的扩充<br />

Information technology – <strong>Chinese</strong> I<strong>de</strong>ograms co<strong>de</strong>d character set for information interchange –<br />

Extension for the basic set<br />

Thesis Sébastien Bruggeman Pagina 97


Bijlage B: Selectie van <strong>Chinese</strong> National Standards van <strong>de</strong> ROC 133<br />

CNS 5205 (X5001)<br />

資訊處理及交換用七數元碼字元集組<br />

Information processing: 7-Bit Co<strong>de</strong>d Character Set For Information Interchange<br />

CNS 7223 (X5005)<br />

資訊處理–七數元碼字元集(組)之控制字元圖示法<br />

Information Processing-Graphical Representations for the Control Characters of the 7-Bit Co<strong>de</strong>d<br />

Character Set<br />

CNS 7654 (X5006)<br />

資訊處理-七位元及八位元碼字元集-延碼技術<br />

Information technology -- Character co<strong>de</strong> structure and extension techniques<br />

CNS 7656 (X5007)<br />

資訊技術–資訊交換用八位元碼–實作結構及規則<br />

Information technology-8-bit co<strong>de</strong> for information interchange-structure and rules for<br />

implementation<br />

CNS 11643-1986 (X5012)<br />

通用漢字標準交換碼<br />

Standard Interchange Co<strong>de</strong> for Generally Used <strong>Chinese</strong> Characters<br />

CNS 11643-1992 (X5012)<br />

㆗文標準交換碼<br />

<strong>Chinese</strong> Standard Interchange Co<strong>de</strong><br />

CNS 11643-01 (X5012-1)<br />

㆗文標準交換碼使用方法<br />

The Usage of <strong>Chinese</strong> Standard Interchange Co<strong>de</strong><br />

CNS 13160 (X5017)<br />

資訊處理 有限字元集系統㆗國際單位制及其他單位制表示法<br />

Information Processing - Representation of SI and Other Units in Systems with Limited<br />

Character Sets<br />

CNS 13246 (X5023)<br />

資訊處理–8位元單㆒位元組碼化圖形字元集(第1部:拉㆜字母第㆒號)<br />

Information Processing - 8 - bit Single - byte Co<strong>de</strong>d Graphic Character Sets - Part 1: Latin<br />

Alphabet NO.1<br />

CNS 13247 (X5024)<br />

資訊處理–8位元單㆒位元組碼化圖形字元集(第2部:拉㆜字母第㆓號)<br />

Information Processing - 8 - bit Single - byte Co<strong>de</strong>d Graphic Character Sets - Part 2: Latin<br />

Alphabet NO.2<br />

CNS 13325 (X5028)<br />

資訊處理–8位元單㆒位元組碼化圖形字元集(第3部:拉㆜字母第㆔號)<br />

Information Processing - 8 - Bit Single - Byte Co<strong>de</strong>d Graphic Character Sets - Part 3: Latin<br />

Alphabet No.3<br />

CNS 13326 (X5029)<br />

資訊處理–8位元單㆒位元組碼化圖形字元集(第4部:拉㆜字母第㆕號)<br />

Information Processing - 8 - Bit Single - Byte Co<strong>de</strong>d Graphic Character Sets - Part 4: Latin<br />

Alphabet No.4<br />

CNS 13327 (X5030)<br />

資訊處理–8位元單㆒位元組碼化圖形字元集(第5部:拉㆜/斯拉夫字母)<br />

Information Processing - 8 - Bit Single - Byte Co<strong>de</strong>d Graphic Character Sets - Part 5: Latin /<br />

Cyrillic Alphabet<br />

133 Bron: http://www.cnsppa.com.tw/ (Deze standaar<strong>de</strong>n vallen on<strong>de</strong>r groep X5)<br />

Thesis Sébastien Bruggeman Pagina 98


CNS 13328 (X5031)<br />

資訊處理–8位元單㆒位元組碼化圖形字元集(第9部:拉㆜字母第五號)<br />

Information Processing - 8 - Bit Single - Byte Co<strong>de</strong>d Graphic Character Sets - Part 9: Latin<br />

Alpbabet No.5<br />

CNS 13384 (X5034)<br />

資訊處理–8位元單㆒位元組碼化圖形字元集(第6部:拉㆜/阿拉伯字母)<br />

Information Processing - 8 Bit Single - Byte Co<strong>de</strong>d Graphic Character Sets - Part 6: Latin/Arabic<br />

Alphabet<br />

CNS 13385 (X5035)<br />

資訊處理–8位元單㆒位元組碼化圖形字元集(第7部:拉㆜/希臘字母)<br />

Information Processing - 8 Bit Single - Byte Co<strong>de</strong>d Graphic Character Sets - Part 7: Latin/Greek<br />

Alphabet<br />

CNS 13386 (X5036)<br />

資訊處理–8位元單㆒位元組碼化圖形字元集(第8部:拉㆜/希伯來字母)<br />

Information Processing - 8 Bit Single - Byte Co<strong>de</strong>d Graphic Character Sets - Part 8:<br />

Latin/Hebrew Alphabet<br />

CNS 13479 (X5038)<br />

資訊技術–碼字元集的控制功能<br />

Information Technology - Control Functions for Co<strong>de</strong>d Character Sets<br />

CNS 13525-1 (X5039-1)<br />

資訊處理–文字通信編碼字元集(第1部:㆒般性介紹)<br />

Information Processing - Co<strong>de</strong>d Character Sets for Text Communication - Part 1: General<br />

Introduction<br />

CNS 13886 (X5053)<br />

資訊技術–供文字通信使用之碼化圖形字元集–拉㆜字母<br />

Information technology-co<strong>de</strong>d graphic character set for text communication-latin alphabet<br />

CNS 14147-1 (X5055-1)<br />

資訊技術–字型資訊交換–第1部:架構<br />

Information technology - Font information interchange - Part 1:Architecture<br />

CNS 14147-2 (X5055-2)<br />

資訊技術–字型資訊交換–第2部:交換格式<br />

Information technology - Font information interchange - Part 2:Interchange format<br />

CNS 14147-3 (X5055-2)<br />

資訊技術–字型資訊交換–第3部:字符形狀表示<br />

Information technology - Font information interchange - Part 3:Glyph shape representation<br />

Thesis Sébastien Bruggeman Pagina 99


Bijlage C: Selectie van ISO standaar<strong>de</strong>n<br />

ISO/IEC 646<br />

Information technology -- ISO 7-bit co<strong>de</strong>d character set for information interchange<br />

Equivalent: GB 1988, CNS 5205<br />

ISO/IEC 2022<br />

Information technology -- Character co<strong>de</strong> structure and extension techniques<br />

Equivalent: GB 2311, CNS 7654<br />

ISO 2047<br />

Information processing -- Graphical representations for the control characters of the 7- bit co<strong>de</strong>d<br />

character set<br />

ISO 2375<br />

Data processing -- Procedure for registration of escape sequences<br />

Equivalent: GB/T 12054<br />

ISO 4873<br />

Information technology -- ISO 8-bit co<strong>de</strong> for information interchange -- Structure and rules for<br />

implementation<br />

Equivalent: GB/T 11383, CNS 7656<br />

ISO/IEC 6429<br />

Information technology -- Control functions for co<strong>de</strong>d character sets<br />

Equivalent: CNS 13479<br />

ISO/IEC 8859-1:1998<br />

Information technology -- 8-bit single-byte co<strong>de</strong>d graphic character sets -- Part 1: Latin alphabet<br />

No. 1<br />

Equivalent: GB/T 15273.1, CNS 13246<br />

ISO/IEC 8859-2:1999<br />

Information technology -- 8-bit single-byte co<strong>de</strong>d graphic character sets -- Part 2: Latin alphabet<br />

No. 2<br />

Equivalent: GB/T 15273.2, CNS 13247<br />

ISO/IEC 8859-3:1999<br />

Information technology -- 8-bit single-byte co<strong>de</strong>d graphic character sets -- Part 3: Latin alphabet<br />

No. 3<br />

Equivalent: GB/T 15273.3, CNS 13325<br />

ISO/IEC 8859-4:1998<br />

Information technology -- 8-bit single-byte co<strong>de</strong>d graphic character sets -- Part 4: Latin alphabet<br />

No. 4<br />

Equivalent: GB/T 15273.4, CNS 13326<br />

ISO/IEC 8859-5:1999<br />

Information technology -- 8-bit single-byte co<strong>de</strong>d graphic character sets -- Part 5: Latin/Cyrillic<br />

alphabet<br />

Equivalent: CNS 13327<br />

ISO/IEC 8859-6:1999<br />

Information technology -- 8-bit single-byte co<strong>de</strong>d graphic character sets -- Part 6: Latin/Arabic<br />

alphabet<br />

Equivalent: CNS 13384<br />

ISO 8859-7:1987<br />

Information processing -- 8-bit single-byte co<strong>de</strong>d graphic character sets -- Part 7: Latin/Greek<br />

alphabet<br />

Equivalent: GB/T 15273.7, CNS 13385<br />

ISO/IEC 8859-8:1999<br />

Information technology -- 8-bit single-byte co<strong>de</strong>d graphic character sets -- Part 8: Latin/Hebrew<br />

alphabet<br />

Equivalent: CNS 13386<br />

Thesis Sébastien Bruggeman Pagina 100


ISO/IEC 8859-9:1999<br />

Information technology -- 8-bit single-byte co<strong>de</strong>d graphic character sets -- Part 9: Latin alphabet<br />

No. 5<br />

Equivalent: CNS 13328<br />

ISO/IEC 8859-10:1998<br />

Information technology -- 8-bit single-byte co<strong>de</strong>d graphic character sets -- Part 10: Latin<br />

alphabet No. 6<br />

ISO/IEC 8859-11:2001<br />

Information technology -- 8-bit single-byte co<strong>de</strong>d graphic character sets -- Part 11: Latin/Thai<br />

alphabet<br />

ISO/IEC 8859-13:1998<br />

Information technology -- 8-bit single-byte co<strong>de</strong>d graphic character sets -- Part 13: Latin<br />

alphabet No. 7<br />

ISO/IEC 8859-14:1998<br />

Information technology -- 8-bit single-byte co<strong>de</strong>d graphic character sets -- Part 14: Latin<br />

alphabet No. 8 (Celtic)<br />

ISO/IEC 8859-15:1999<br />

Information technology -- 8-bit single-byte co<strong>de</strong>d graphic character sets -- Part 15: Latin<br />

alphabet No. 9<br />

ISO/IEC 8859-16:2001<br />

Information technology -- 8-bit single-byte co<strong>de</strong>d graphic character sets -- Part 16: Latin<br />

alphabet No. 10<br />

ISO 9541-1<br />

Information technology -- Font information interchange -- Part 1: Architecture<br />

Equivalent: GB/T 16964.1, CNS 14147-1<br />

ISO 9541-2<br />

Information technology -- Font information interchange -- Part 2: Interchange Format<br />

Equivalent: GB/T 16964.2, CNS 14147-2<br />

ISO 9541-3<br />

Information technology -- Font information interchange -- Part 3: Glyph shape representation<br />

Equivalent: GB/T 16964.3, CNS 14147-3<br />

ISO/IEC 10367<br />

Information technology -- Standardized co<strong>de</strong>d graphic character sets for use in 8-bit co<strong>de</strong>s<br />

ISO/IEC 10646<br />

Information technology -- Universal Multiple-Octet Co<strong>de</strong>d Character Set (UCS)<br />

Equivalent: GB 13000.1<br />

Thesis Sébastien Bruggeman Pagina 101

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!