Chinese taalverwerking op de computer - B-t.asia
Chinese taalverwerking op de computer - B-t.asia
Chinese taalverwerking op de computer - B-t.asia
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
FACULTEIT LETTEREN<br />
DEPARTEMENT OOSTERSE EN SLAVISCHE STUDIES<br />
CHINESE TAALVERWERKING OP DE COMPUTER<br />
Deel I : Theoretisch Overzicht<br />
Promotor : Prof. Dr. Fred Truyen Verhan<strong>de</strong>ling aangebo<strong>de</strong>n tot het<br />
verkrijgen van <strong>de</strong> graad van<br />
licentiaat in <strong>de</strong> Sinologie door:<br />
Sébastien Bruggeman<br />
- 2001-2002 -<br />
KATHOLIEKE<br />
UNIVERSITEIT<br />
LEUVEN
VOORWOORD<br />
Dit theoretische overzicht han<strong>de</strong>lt over <strong>de</strong> <strong>Chinese</strong> <strong>taalverwerking</strong> <strong>op</strong> <strong>de</strong> <strong>computer</strong>.<br />
Het heeft <strong>de</strong> bedoeling om zo volledig mogelijk te zijn, maar zal het helaas nooit kunnen zijn<br />
door <strong>de</strong> uitgebreidheid van dit on<strong>de</strong>rwerp. Hoewel dit <strong>de</strong>el veel technische <strong>de</strong>tails bevat is er<br />
geen voorkennis vereist.<br />
Naast dit theoretisch overzicht is er ook nog een praktische handleiding voor mensen<br />
die Chinees in <strong>de</strong> praktijk <strong>op</strong> hun <strong>computer</strong> willen gebruiken. Ook voor dit <strong>de</strong>el is geen<br />
voorkennis vereist, wel wordt er gerekend <strong>op</strong> een basiskennis van Microsoft Windows. Het<br />
voorhan<strong>de</strong>n hebben van een <strong>computer</strong> met internetverbinding maakt het mogelijk om alles<br />
onmid<strong>de</strong>llijk in <strong>de</strong> praktijk om te zetten.<br />
Het <strong>de</strong>r<strong>de</strong> luik van <strong>de</strong>ze verhan<strong>de</strong>ling is een website. Op <strong>de</strong>ze website kunnen extra<br />
documentatie, voorbeel<strong>de</strong>n en links gevon<strong>de</strong>n wor<strong>de</strong>n. Daarnaast kan men ook terecht <strong>op</strong> het<br />
forum voor extra vragen en antwoor<strong>de</strong>n.<br />
Tot slot wens ik U nog veel leesplezier en ho<strong>op</strong> ik dat U door <strong>de</strong>ze<br />
licentiaatsverhan<strong>de</strong>ling een betere kijk krijgt <strong>op</strong> <strong>de</strong> <strong>Chinese</strong> <strong>taalverwerking</strong> <strong>op</strong> <strong>de</strong> <strong>computer</strong>.<br />
Sébastien Bruggeman<br />
Thesis Sébastien Bruggeman Pagina 2
Thesis Sébastien Bruggeman Pagina 3
INHOUDSTAFEL<br />
0. Gebruikte conventies......................................................................................................11<br />
1. Inleiding...........................................................................................................................14<br />
1.1. Talen en schriften.....................................................................................................14<br />
1.2. Vereenvoudiging van <strong>Chinese</strong> karakters..................................................................16<br />
1.3. Typografie................................................................................................................18<br />
1.4. Karakters en <strong>computer</strong>s............................................................................................18<br />
2. Karaktersets....................................................................................................................20<br />
2.1. Westerse talen...........................................................................................................20<br />
2.2. Oosterse talen...........................................................................................................22<br />
2.2.1. Traditioneel Chinees.................................................................................................23<br />
a) CCCII en EACC.......................................................................................................23<br />
b) CNS..........................................................................................................................25<br />
c) Big5..........................................................................................................................28<br />
d) Big5+........................................................................................................................29<br />
e) Big5E........................................................................................................................29<br />
f) Hong Kong GCCS en SCS.......................................................................................30<br />
2.2.2. Vereenvoudigd Chinees............................................................................................30<br />
a) GB 1988-80..............................................................................................................30<br />
b) GB 2312-80..............................................................................................................31<br />
c) GB 6345.1-86...........................................................................................................31<br />
d) GB 8565.2-88...........................................................................................................32<br />
e) ISO-IR-165:1992......................................................................................................33<br />
f) GB/T 12345-90.........................................................................................................34<br />
g) GBK..........................................................................................................................34<br />
h) GB 13000.1...............................................................................................................35<br />
i) GB 18030-2000........................................................................................................36<br />
j) An<strong>de</strong>re GB karaktersets............................................................................................37<br />
2.3. Meertalige karaktersets.............................................................................................37<br />
a) Unico<strong>de</strong> en ISO 10646.............................................................................................38<br />
2.4. Conversie..................................................................................................................41<br />
Thesis Sébastien Bruggeman Pagina 4
3. Co<strong>de</strong>ring..........................................................................................................................43<br />
3.1. Westerse talen...........................................................................................................44<br />
3.2. Chinees.....................................................................................................................44<br />
a) HZ en EHZ...............................................................................................................44<br />
b) ISO 2022...................................................................................................................46<br />
c) EUC..........................................................................................................................47<br />
d) GBK..........................................................................................................................48<br />
e) Big5 en Big5+...........................................................................................................48<br />
f) Overzicht..................................................................................................................48<br />
3.3. Meertalig...................................................................................................................49<br />
a) UCS..........................................................................................................................49<br />
b) UTF...........................................................................................................................49<br />
4. Hardware.........................................................................................................................52<br />
4.1. Toetsenbord..............................................................................................................52<br />
a) Uitspraak gebaseerd..................................................................................................53<br />
b) Structuur gebaseerd..................................................................................................57<br />
c) Combinatie uitspraak – structuur..............................................................................63<br />
d) Directe invoer...........................................................................................................63<br />
4.2. An<strong>de</strong>re......................................................................................................................64<br />
5. Applicaties, toepassingen...............................................................................................65<br />
5.1. Dos............................................................................................................................65<br />
5.2. Microsoft Windows..................................................................................................65<br />
a) Native <strong>Chinese</strong> Windows.........................................................................................65<br />
b) Niet-<strong>Chinese</strong> Windows.............................................................................................66<br />
5.3. Unix / Linux .............................................................................................................66<br />
a) Native <strong>Chinese</strong> Linux...............................................................................................67<br />
b) Niet-<strong>Chinese</strong> Linux ..................................................................................................67<br />
c) Linux in China & Taiwan.........................................................................................68<br />
5.4. Apple........................................................................................................................69<br />
5.5. Chinees en programmeertalen..................................................................................70<br />
5.6. Chinees en databases................................................................................................72<br />
Thesis Sébastien Bruggeman Pagina 5
6. Het <strong>Chinese</strong> internet.......................................................................................................74<br />
7. Appendix.........................................................................................................................78<br />
7.1. Bibliografie...............................................................................................................78<br />
7.2. Links.........................................................................................................................80<br />
7.3. Tabellen....................................................................................................................82<br />
7.4. Figuren......................................................................................................................89<br />
7.5. Dankbetuiging..........................................................................................................91<br />
Bijlage A: Selectie van National Standards in <strong>de</strong> PRC<br />
Bijlage B: Selectie van <strong>Chinese</strong> National Standards van <strong>de</strong> ROC<br />
Bijlage C: Selectie van ISO standaar<strong>de</strong>n<br />
Thesis Sébastien Bruggeman Pagina 6
LIJST VAN TABELLEN<br />
Tabel 1 Niet <strong>Chinese</strong> schriften gebruikt in Zuidoost Azië.......................................................15<br />
Tabel 2 Verschillen<strong>de</strong> varianten van <strong>Chinese</strong> karakters...........................................................15<br />
Tabel 3 Vereenvoudiging van <strong>Chinese</strong> karakters.....................................................................17<br />
Tabel 4 Typografie...................................................................................................................18<br />
Tabel 5 ISO 8859......................................................................................................................22<br />
Tabel 6 CCCII (structuur).........................................................................................................24<br />
Tabel 7 CCCII (laag 1).............................................................................................................24<br />
Tabel 8 EACC..........................................................................................................................25<br />
Tabel 9 CNS 11643-1986.........................................................................................................27<br />
Tabel 10 CNS 11643-1992.......................................................................................................27<br />
Tabel 11 Big5...........................................................................................................................28<br />
Tabel 12 Big5+.........................................................................................................................29<br />
Tabel 13 GB 2312-80...............................................................................................................31<br />
Tabel 14 GB 6345.1-86............................................................................................................32<br />
Tabel 15 GB 8565.2-88............................................................................................................32<br />
Tabel 16 ISO-IR-165:1992.......................................................................................................33<br />
Tabel 17 GB/T 12345-90..........................................................................................................34<br />
Tabel 18 GBK...........................................................................................................................35<br />
Tabel 19 GB 18030 ..................................................................................................................36<br />
Tabel 20 ISO-2022-CN............................................................................................................46<br />
Tabel 21 ISO-2022-CN-EXT...................................................................................................47<br />
Tabel 22 Co<strong>de</strong>ringen en <strong>de</strong> on<strong>de</strong>rsteun<strong>de</strong> karaktersets............................................................48<br />
Tabel 23 Karaktersets en on<strong>de</strong>rsteun<strong>de</strong> co<strong>de</strong>ringen.................................................................48<br />
Tabel 24 UCS-4 is slechts een 31-bit co<strong>de</strong>...............................................................................49<br />
Tabel 25 UTF-8 co<strong>de</strong>ring van UCS-2 en UCS-4.....................................................................50<br />
Tabel 26 Vergelijking tussen <strong>de</strong> verschillen<strong>de</strong> Pinyin invoer metho<strong>de</strong>s..................................56<br />
Tabel 27 Op<strong>de</strong>ling van Wubizixing .........................................................................................58<br />
Tabel 28 Toewijzing van <strong>de</strong> cijfers in Wubihua......................................................................58<br />
Tabel 29 Voorbeeld Wubihua..................................................................................................59<br />
Tabel 30 Voorbeeld Cangjie (1)...............................................................................................60<br />
Tabel 31 Voorbeeld Cangjie (2)...............................................................................................60<br />
Tabel 32 Voorbeeld Cangjie (3)...............................................................................................60<br />
Tabel 33 Voorbeeld Cangjie (4)...............................................................................................61<br />
Thesis Sébastien Bruggeman Pagina 7
Tabel 34 Voorbeeld Cangjie (5)...............................................................................................61<br />
Tabel 35 Voorbeeld Boshiamy.................................................................................................62<br />
Tabel 36 Voorbeeld Tze-loi......................................................................................................63<br />
Tabel 37 Conversietabel b<strong>op</strong>omofo - Pinyin - wa<strong>de</strong>-giles.......................................................82<br />
Tabel 38 Designator sequences gebruikt in ISO-2022-CN en ISO-2022-CN-EXT.................83<br />
Tabel 39 Single shift sequences en shifting characters gebruikt in ISO-2022-CN en ISO-2022-<br />
CN-EXT...........................................................................................................................83<br />
Tabel 40 EUC-TW...................................................................................................................83<br />
Tabel 41 Toewijzing van <strong>de</strong> toetsen voor invoer met <strong>de</strong> Cangjie metho<strong>de</strong>.............................84<br />
Tabel 42 Internetgebruik in China............................................................................................85<br />
Tabel 43 Internetgebruik in Taiwan.........................................................................................85<br />
Tabel 44 Blokken in Unico<strong>de</strong> 3.2.0..........................................................................................86<br />
Thesis Sébastien Bruggeman Pagina 8
LIJST VAN FIGUREN<br />
Figuur 1 Het drie dimensioneel conceptueel mo<strong>de</strong>l gebruikt bij Han-unificatie.....................39<br />
Figuur 2 Gebruik van <strong>de</strong> I<strong>de</strong>ograph Description Sequence......................................................41<br />
Figuur 3 Toetsenbord met Pinyin invoermetho<strong>de</strong> layout.........................................................55<br />
Figuur 4 Toetsenbord met Shuangpin invoermetho<strong>de</strong> layout..................................................55<br />
Figuur 5 Toetsenbord met Zhuyin invoermetho<strong>de</strong> layout........................................................57<br />
Figuur 6 Toetsenbord met Wubizixing invoermetho<strong>de</strong> layout.................................................58<br />
Figuur 7 Toetsenbord met Cangjie invoermetho<strong>de</strong> layout.......................................................59<br />
Figuur 8 Toetsenbord met Sucheng invoermetho<strong>de</strong> layout......................................................61<br />
Figuur 9 Toetsenbord met Dayi invoermetho<strong>de</strong> layout............................................................62<br />
Figuur 10 Toetsenbord met Neima invoermetho<strong>de</strong> layout.......................................................64<br />
Figuur 11 Ruby.........................................................................................................................75<br />
Figuur 12 7-bit en 8-bit co<strong>de</strong> tabel...........................................................................................89<br />
Figuur 13 Een <strong>Chinese</strong> 'typmachine'........................................................................................89<br />
Figuur 14 Boshiamy invoermetho<strong>de</strong>........................................................................................90<br />
Thesis Sébastien Bruggeman Pagina 9
Thesis Sébastien Bruggeman Pagina 10
0. Gebruikte conventies<br />
De karakters gebruikt in <strong>de</strong>ze thesis wor<strong>de</strong>n zoveel mogelijk weergegeven volgens <strong>de</strong><br />
officiële naam en plaats van gebruik. De namen afkomstig uit Taiwan wor<strong>de</strong>n in traditionele<br />
karakters weergegeven, namen afkomstig uit <strong>de</strong> Volksrepubliek China met vereenvoudig<strong>de</strong><br />
karakters (het verschil tussen bei<strong>de</strong> soorten <strong>Chinese</strong> karakters wordt later in <strong>de</strong>ze thesis<br />
uitvoerig beschreven).<br />
De transcriptie van <strong>de</strong> <strong>Chinese</strong> karakters gebeurt volgens <strong>de</strong> Pinyin transcriptie met<br />
toontekens (zie infra). Deze transcriptie werd gekozen omdat ze het makkelijkst te lezen is<br />
voor mensen die geen achtergrond van <strong>de</strong> <strong>Chinese</strong> taal hebben.<br />
Deze thesis is gemaakt in unico<strong>de</strong> (zie infra). De lettertypes die gebruikt wer<strong>de</strong>n in dit<br />
document zijn Times New Roman voor het Romaanse alfabet, 新細明體 voor traditionele<br />
<strong>Chinese</strong> karakters, SimSun voor vereenvoudig<strong>de</strong> <strong>Chinese</strong> karakters, MS Mincho voor Japanse<br />
karakters en Batang voor Koreaanse karakters.<br />
Hexa<strong>de</strong>cimale getallen wor<strong>de</strong>n vooraf gegaan door een 0x.<br />
Om <strong>de</strong>ze thesis ten volle te begrijpen is het nodig dat vooral enkele termen uitgelegd<br />
wor<strong>de</strong>n, zodat er over hun inhoud en gebruik geen verwarring is: 1<br />
Karakter (character): een lid van een set van elementen gebruikt voor <strong>de</strong> organisatie,<br />
controle of representatie van data. 2<br />
Karakterrepertoire (character repertoire) 3 : een set van (abstracte) karakters die geco<strong>de</strong>erd<br />
moeten wor<strong>de</strong>n. Het bevat niet noodzakelijk een or<strong>de</strong>ning. In een karakter repertoire<br />
wordt meestal een naam gegeven aan het karakter, samen met een referentie of een<br />
voorbeeldpresentatie. Soms wor<strong>de</strong>n er karakters ge<strong>de</strong>finieerd die er hetzelf<strong>de</strong> uit zien,<br />
maar die logisch on<strong>de</strong>rschei<strong>de</strong>n zijn. Bijvoorbeeld “A” kan Latin uppercase A, Cyrillic<br />
uppercase A, en Greek uppercase alpha zijn. 4<br />
1 Alhoewel <strong>de</strong> invulling van <strong>de</strong>ze termen niet strikt vast ligt.<br />
2 Het Unico<strong>de</strong> Consortium geeft volgen<strong>de</strong> <strong>de</strong>finitie: ‘The smallest component of written language that has<br />
semantic calues; refers tot he abstract meaning and/or shape, rather than a specific shape (see also glyph),<br />
though in co<strong>de</strong> tables some form of visual representation is essential for the rea<strong>de</strong>r’s un<strong>de</strong>rstanding’. Het World<br />
Wi<strong>de</strong> Web Consortium beschrijft een karakter als een ‘atoom van informatie’.<br />
3 <strong>Chinese</strong> term: 字彙 zìhuì<br />
4 ECMA 35 beschrijft een karakter repertoire als ‘a specified set of characters that are each represented by one<br />
or more bit combinations of a co<strong>de</strong>d character set’.<br />
Thesis Sébastien Bruggeman Pagina 11
Geco<strong>de</strong>er<strong>de</strong> karakterset (co<strong>de</strong>d character set – CCS) 5 : Het ‘mappen’ van een abstract<br />
karakterrepertoire naar een set van niet-negatieve gehele getallen (integers). 6<br />
Voorbeel<strong>de</strong>n van geco<strong>de</strong>er<strong>de</strong> karaktersets zijn ISO 10646 en US ASCII (zie infra).<br />
Karakter co<strong>de</strong>ringsschema (character encoding scheme – CES): Het ‘mappen’ van een<br />
geco<strong>de</strong>er<strong>de</strong> karakterset of verschillen<strong>de</strong> geco<strong>de</strong>er<strong>de</strong> karaktersets naar een set van<br />
sequenties van octetten. Een CES kan dus verschillen<strong>de</strong> CSS omvatten, zo kan EUC-CN<br />
(zie infra) gebruikt wor<strong>de</strong>n om zowel <strong>de</strong> volgen<strong>de</strong> CSS te co<strong>de</strong>ren: ASCII, GB 2312,<br />
CNS 11643 (zie infra).<br />
Character encoding form (CEF): Het ‘mappen’ van een set van niet-negatieve gehele<br />
getalen (van een CCS) naar een set van sequenties van individuele co<strong>de</strong> eenhe<strong>de</strong>n van<br />
een bepaal<strong>de</strong> omschreven breedte, zoals bytes. Deze sequenties hebben niet noodzakelijk<br />
<strong>de</strong>zelf<strong>de</strong> lengte. Het mapt co<strong>de</strong> punten met co<strong>de</strong> eenhe<strong>de</strong>n, terwijl een CES <strong>de</strong> relatie<br />
tussen co<strong>de</strong> eenhe<strong>de</strong>n en bytes weergeeft.<br />
Charset: Een metho<strong>de</strong> om een sequentie van octetten te converteren in een sequentie van<br />
karakters. De conversie kan ook extra controle informatie toevoegen, zoals<br />
richtingsindicators. Deze notering wordt gebruikt in MIME-hea<strong>de</strong>rs (Multipurpose<br />
Internet Mail Extensions).<br />
Co<strong>de</strong>positie (co<strong>de</strong> position): is een geheel getal dat ook wel co<strong>de</strong>punt (co<strong>de</strong>point) wordt<br />
genoemd Een CSS en een co<strong>de</strong>positie van <strong>de</strong>zelf<strong>de</strong> CSS bepalen het karakter.<br />
Octet: een element van <strong>de</strong> set (0, 1, 2, … , 255)<br />
Glyph: Een glyph is <strong>de</strong> eigenlijke representatie van een karakter. Er is geen ‘one-to-one’<br />
relatie tussen karakters en glyphs. Zo heeft het dollar-teken verschillen<strong>de</strong> glyphs: $, $, $,<br />
$ (of soms ook met 2 streepjes er door). Verschillen<strong>de</strong> karakters kunnen soms één glyph<br />
vormen zoals <strong>de</strong> karakters f en i samen het glyph vormen. 7 Een karakter kan een<br />
an<strong>de</strong>re glyph aannemen naar gelang <strong>de</strong> context (dit gebeurt in bijvoorbeeld het Arabisch).<br />
Een an<strong>de</strong>r voorbeeld zijn <strong>de</strong> volgen<strong>de</strong> karakters, Z, Z, Z <strong>de</strong>ze zijn glyphs van Z (latin<br />
capital letter z), maar niet van z (latin small letter z). De term glyph komt van het<br />
Griekse woord voor ‘sculptuur’. 8<br />
5 <strong>Chinese</strong> term: 編碼字符集 biānmǎ zìfújí<br />
6 ECMA 35 beschrijft een CSS als ‘a set of unambiguous rules that establishes a character set and the one-toone<br />
relationship between the characters of the set and their bit combinations’.<br />
7 is een ligatuur: [… ] in één stuk gegoten letters, b.v.: , syn. k<strong>op</strong>pelletter.<br />
8 Het Unico<strong>de</strong> Consortium <strong>de</strong>finieert een glyph als volgt: ‘An abstract form that represents one or more glyph<br />
images’ en een glyph image wordt ge<strong>de</strong>finieerd als ‘The actual, concrete image of a glyph representation having<br />
been rasterized or otherwise imaged onto some display surface.’<br />
Het ISO hanteert volgen<strong>de</strong> <strong>de</strong>finitie in ISO 9541-1: ‘a recognizable abstract graphic symbol which is<br />
in<strong>de</strong>pen<strong>de</strong>nt of a specific <strong>de</strong>sign’<br />
Thesis Sébastien Bruggeman Pagina 12
Big & Little Endian: Er zijn 2 manieren om bytes te or<strong>de</strong>nen (dit is natuurlijk enkel van<br />
toepassing <strong>op</strong> data die meer<strong>de</strong>re bytes bevat), namelijk little endian en big endian.<br />
Bij big endian wordt <strong>de</strong> meest belangrijk byte (<strong>de</strong> byte met <strong>de</strong> hoogste or<strong>de</strong> of meest linkse<br />
bits) in het laagste adres geplaatst met <strong>de</strong> daar<strong>op</strong> volgen<strong>de</strong> bytes in <strong>de</strong> sequentiele hogere<br />
adressen. Bij little endian wordt <strong>de</strong> minst belangrijke byte (<strong>de</strong> byte met <strong>de</strong> laagste of meest<br />
rechtse bits) in het laagste adres geplaatst. Bijvoorbeeld: het <strong>de</strong>cimaal getal 258 (binair:<br />
0100000010) wordt dan in 16 bit omgeving <strong>op</strong>geslagen als volgt:<br />
Little Endian : 00000010 00000001<br />
Big Endian : 00000001 00000010<br />
Little endian wordt gebruikt <strong>op</strong> machines met Vax en Intel processoren (dus dit betekent dat<br />
<strong>computer</strong>s met Windows en Linux doorgaans little endian zijn), big endian in <strong>computer</strong>s met<br />
Motorola en Sun processoren (UNIX en MacOS). Er bestaan systemen die ‘bi-endian’ zijn en<br />
dus met bei<strong>de</strong> overweg kunnen. Het on<strong>de</strong>rscheid tussen big en little endian is van belang bij<br />
het or<strong>de</strong>nen van karakters.<br />
Deze thesis wordt ver<strong>de</strong>r aangevuld met een website die terug te vin<strong>de</strong>n is <strong>op</strong> het volgen<strong>de</strong><br />
internetadres: http://seba.stu<strong>de</strong>ntenweb.org/thesis/<br />
Thesis Sébastien Bruggeman Pagina 13
1. Inleiding<br />
1.1. Talen en schriften<br />
De <strong>Chinese</strong> taal is een groten<strong>de</strong>els monosyllabische en niet-verbuigen<strong>de</strong> taal en dat maakt<br />
een i<strong>de</strong>ografisch 9 schrijfsysteem zeer geschikt. Het <strong>Chinese</strong> schrift is ontstaan omstreeks 2000<br />
voor Christus en heeft een zeer grote invloed gehad <strong>op</strong> het schrift van <strong>de</strong> Japanners, Koreanen<br />
en Vietnamezen. Omdat i<strong>de</strong>ografische karakters min<strong>de</strong>r geschikt zijn voor het weergeven van<br />
<strong>de</strong> Japanse taal ontwikkel<strong>de</strong>n <strong>de</strong> Japanners twee syllabische fonetische 10 schriften, namelijk<br />
het Hiragana en Katakana, <strong>de</strong>ze wor<strong>de</strong>n samen met <strong>de</strong> kanji 11 en het Romaanse 12 schrift<br />
gebruikt. In Korea daarentegen werd een alfabetisch systeem uitgevon<strong>de</strong>n (가모 jamo) dat<br />
‘letters’ groepeert in i<strong>de</strong>ografisch-achtige syllabische blokken, het hangul genaamd (한글<br />
hangul betekent ‘Koreaans schrift’), dit schrift heeft nu bijna het gebruik van hanja 13 doen<br />
verdwijnen. Het Vietnamees heeft in <strong>de</strong> 20 ste eeuw <strong>de</strong> chữ hán 14 laten vallen voor een<br />
alfabetisch schrift, gebaseerd <strong>op</strong> het door ons gebruikte Romaanse schrift (ontwikkeld door<br />
Westerse missionarissen in <strong>de</strong> 17 <strong>de</strong> eeuw). De Chinezen ontwikkel<strong>de</strong>n in het begin van <strong>de</strong><br />
20 ste eeuw ook een fonetisch syllabisch schrift, het Zhuyin (注音符號 zhùyīn fúhào). Een<br />
voorbeeld van al <strong>de</strong>ze schriften vindt men in Tabel 1 <strong>op</strong> pagina 15.<br />
Naast het gebruik van <strong>Chinese</strong> karakters von<strong>de</strong>n <strong>de</strong>ze culturen ook nog karakters uit die<br />
heel sterk <strong>op</strong> <strong>Chinese</strong> karakters lijken 15 , maar die niet in het <strong>Chinese</strong> taalgebied gekend zijn<br />
(国字 kokuji is <strong>de</strong> Japanse term, 국자 / 國字 gugja is <strong>de</strong> Koreaanse term). Deze karakters<br />
gebruiken heel vaak een zelf<strong>de</strong> <strong>op</strong>bouw en on<strong>de</strong>r<strong>de</strong>len als <strong>Chinese</strong> karakters. Door <strong>de</strong>ze<br />
verwantschap is het mogelijk voor <strong>de</strong> verschillen<strong>de</strong> talen om basisteksten van elkaar te<br />
begrijpen indien er <strong>Chinese</strong> karakters gebruikt wor<strong>de</strong>n, maar daarom niet noodzakelijk uit te<br />
9<br />
I<strong>de</strong>ografie: 1) schrift waarin geen klank-, maar begriptekens wor<strong>de</strong>n gebruikt (zoals in het Chinees en in het<br />
hiërogliefenschrift); 2) uitdrukking van een i<strong>de</strong>e.<br />
10<br />
Fonetisch: 1) betrekking hebbend <strong>op</strong> <strong>de</strong> spraakklanken; 2) volgens <strong>de</strong> spraakklanken: fonetisch schrift, schrift<br />
dat zo nauwkeurig mogelijk <strong>de</strong> uitspraak bena<strong>de</strong>rt, waarin ie<strong>de</strong>re klank door een eigen teken wordt voorgesteld;<br />
fonetisch voorgesteld.<br />
11<br />
Kanji, 漢字, Japanse term voor <strong>Chinese</strong> karakters<br />
12<br />
hiermee wordt het Romaanse alfabet bedoeld, ook wel Latijns of Westers alfabet genoemd.<br />
13<br />
Hanja, 한자 / 漢字, Koreaanse term voor <strong>Chinese</strong> karakters<br />
14<br />
Chữ hán, Vietnamese term voor <strong>Chinese</strong> karakters<br />
15<br />
鰯 (iwashi) is het Japanse woord voor sardine. In <strong>de</strong> <strong>Chinese</strong> taal is er geen apart karakter voor sardine er is<br />
wel het woord 沙㆜魚 shādīngyú. 峠 (tōge) en 岾 (점 jeom) zijn respectivelijk het Japanse en Koreaanse<br />
karakter voor ‘bergpas’ en bestaan niet in het Chinees.<br />
Thesis Sébastien Bruggeman Pagina 14
spreken. In <strong>de</strong> lo<strong>op</strong> <strong>de</strong>r tijd hebben karakters afhankelijk van het gebied ook een an<strong>de</strong>re<br />
betekenis gekregen, het <strong>Chinese</strong> karakter 湯 (tāng in het Chinees, tou of yu in het Japans en<br />
thang in het Koreaans) had oorspronkelijk <strong>de</strong> betekenis ‘warm water’. Vandaag betekent het<br />
in het Chinees ‘soep’ terwijl het in het Japans en Koreaans <strong>de</strong> oorspronkelijke betekenis heeft<br />
behou<strong>de</strong>n. Maar ze hebben ook <strong>de</strong> betekenis van ‘soep’ overgenomen in recentere<br />
leenwoor<strong>de</strong>n zoals ‘noodle soep’ (湯麵 Chinees - tāngmiàn, Japans - tanmen, Koreaans -<br />
thangmyen). 16<br />
De metho<strong>de</strong>s om an<strong>de</strong>re talen en schriften dan het Chinees weer te geven valt buiten het<br />
ka<strong>de</strong>r van <strong>de</strong>ze thesis en wor<strong>de</strong>n dus niet behan<strong>de</strong>ld, soms zal er echter wel verwezen wor<strong>de</strong>n<br />
naar gelijkenissen of verschillen tussen <strong>de</strong> <strong>Chinese</strong> taal en <strong>de</strong>ze an<strong>de</strong>re talen.<br />
Tabel 1 Niet <strong>Chinese</strong> schriften gebruikt in Zuidoost Azië<br />
Niet <strong>Chinese</strong><br />
karakters<br />
Romaans schrift abc<strong>de</strong>fghijklmn<strong>op</strong>qrstuvwxyz 1234567890<br />
Zhuyin ㄅㄆㄇㄈㄉㄊㄋㄌㄍㄎㄏㄐㄑㄒㄓㄔㄕㄖㄗㄘㄙㄧㄨㄩㄚㄛㄜ<br />
ㄝㄞㄟㄠㄡㄢㄣㄤㄥㄦ<br />
Hiragana あいうえおかきくけこさしすせそたちつてとなにぬねのはひ<br />
ふへほまみむめもやゆよりるれろわゐゑをんゔ<br />
Katakana アイウエオカキクケコサシスセソタチツテトナニヌネ<br />
ノハヒフヘホマミムメモヤユヨラリルレロワヰ<br />
Jamo ᄀᄁᄂᄃᄄᄅᄆᄇᄈᄉᄊᄌᄍᄎᄏᄐᄑᄒ<br />
Hangul 실시간으로선택한비트에자동으로맞출수있도록하였습니다<br />
Tabel 2 Verschillen<strong>de</strong> varianten van <strong>Chinese</strong> karakters<br />
<strong>Chinese</strong> karakters<br />
Vereenvoudigd 大学之道,在明明德,在亲民,在止于至善。<br />
Traditioneel 大學之道,在明明德,在親民,在止於至善。<br />
Hong Kong 大學之道,在明明德,在親民,在止於至善。<br />
Japan 大学之道,在明明徳,在親民, 在止於至善。<br />
Korea 大學之道,在明明德,在親民,在止於至善。<br />
16 The Unico<strong>de</strong> Standard, Version 3.0, p.260.<br />
Thesis Sébastien Bruggeman Pagina 15
1.2. Vereenvoudiging van <strong>Chinese</strong> karakters<br />
Sinds het ontstaan van het <strong>Chinese</strong> schrift hebben <strong>de</strong> karakters weinig grote veran<strong>de</strong>ringen<br />
on<strong>de</strong>rgaan. Er zijn nieuwe karakters bijgekomen, sommige door het fout k<strong>op</strong>iëren van<br />
karakters, an<strong>de</strong>re wer<strong>de</strong>n gemaakt om nieuwe dingen een naam te geven.<br />
Het historisch zeer belangrijke werk, Kangxi Zidian (康熙字典 kāngxī zìdiǎn) uit <strong>de</strong> 18 <strong>de</strong><br />
eeuw bevat 47 035 karakters, <strong>de</strong> Zhonghua Zihai (中华字海 zhōnghuá zìhǎi) uit 1994 telt<br />
ongeveer 85 000 karakters. Doorgaans wordt het aantal vaak gebruikte karakters geschat <strong>op</strong><br />
ongeveer 5 000 (dit is het aantal dat nodig is om een krant vlot te kunnen lezen).<br />
De belangrijkste hervorming van het <strong>Chinese</strong> schrift is misschien wel <strong>de</strong> vereenvoudiging<br />
van enkele duizen<strong>de</strong>n karakters in het mid<strong>de</strong>n van <strong>de</strong> 20 ste eeuw. In 1949 kwamen <strong>de</strong><br />
Communisten in China aan <strong>de</strong> macht, nadat ze <strong>de</strong> Nationalisten had<strong>de</strong>n verdreven naar<br />
Taiwan. Terwijl <strong>de</strong> nationalisten <strong>op</strong> Taiwan <strong>de</strong> Republiek China in stand hiel<strong>de</strong>n riepen <strong>de</strong><br />
communisten <strong>de</strong> Volksrepubliek China uit en voer<strong>de</strong>n verschillen<strong>de</strong> hervormingen door.<br />
Eén daarvan was <strong>de</strong> vereenvoudiging van <strong>de</strong> karakters. 17 Het doel van <strong>de</strong> vereenvoudiging<br />
was om het aanleren van <strong>Chinese</strong> karakters te vergemakkelijken en zo het analfabetisme tegen<br />
te gaan. In 1952 werd het <strong>Chinese</strong> Character Reform Committee (中国文字改革委员会,<br />
zhōngguó wénzì gaǐgé wěiyuánhuì) <strong>op</strong>gericht om het probleem van karaktervereenvoudiging<br />
te bestu<strong>de</strong>ren en een lijst aan te maken van te vereenvoudigen karakters. Het resultaat van hun<br />
werk was het uitvaardigen van een standaard romanisatie 18 systeem, Pinyin genaamd (拼音<br />
pīnyīn, waarover later meer), het beperken van het aantal karakters voor dagelijks gebruik en<br />
<strong>de</strong> vereenvoudiging van duizen<strong>de</strong>n karakters.<br />
Verschillen<strong>de</strong> lijsten wer<strong>de</strong>n gepubliceerd, waaron<strong>de</strong>r lijsten van vaak gebruikte karakters<br />
en die aldus moeten on<strong>de</strong>rwezen wor<strong>de</strong>n <strong>op</strong> school, maar ze wor<strong>de</strong>n ook gebruikt voor het<br />
<strong>op</strong>stellen van karakter repertoires. Dergelijke lijsten wer<strong>de</strong>n ook in Taiwan en Japan gemaakt.<br />
Op 28 januari 1956 verscheen het <strong>Chinese</strong> Character Simplification Scheme (汉字简化方<br />
案 hànzì jiǎnhuà fāng’àn) en in 1964 verscheen <strong>de</strong> General List of Simplified Characters (简<br />
化字总表 jiǎnhuàzì zǒngbiǎo).<br />
17 Eigenlijk was <strong>de</strong> vereenvoudigsproces reeds <strong>op</strong> het eind van <strong>de</strong> 19 <strong>de</strong> eeuw gestart tij<strong>de</strong>ns <strong>de</strong> zoektocht naar<br />
mo<strong>de</strong>rniteit. In 1935 werd er reeds een lijst met vereenvoudig<strong>de</strong> karakters uitgegeven (第㆒批簡體字表 dìyīpī<br />
jiǎntǐ zìbiāo) dat 324 vereenvoudig<strong>de</strong> karakters bevatte.<br />
18 Romaniseren: 1) (overg.) on<strong>de</strong>r <strong>de</strong> invloed van <strong>de</strong> Romeinse beschaving brengen, een Romeins karakter doen<br />
aannemen; 2) (overg.) Romaanse invloed doen on<strong>de</strong>rgaan, een Romaans karakter doen aannemen; 3) (onoverg.)<br />
(bk.) zich richten naar Romeinse (Italiaanse) voorbeel<strong>de</strong>n.<br />
Thesis Sébastien Bruggeman Pagina 16
In 1977 werd er net na <strong>de</strong> Culturele Revolutie nog een hervorming doorgevoerd (<strong>op</strong> 12<br />
<strong>de</strong>cember werd 第二次汉字简化方案(草案) afgekondigd) maar die werd uitein<strong>de</strong>lijk in juli<br />
1978 terug afgeblazen omdat ze te drastisch bleek te zijn. De laatste versie van <strong>de</strong> General list<br />
of Simplified Characters werd <strong>op</strong>gesteld door het ‘National Working Committe on Language<br />
and Characters’ (国家语言文字工作委员会, guójiā yǔyán wénzì gōngzuò wěiyuánhuì) en<br />
dateert van 10 oktober 1986. Het bevat 2 235 vereenvoudig<strong>de</strong> karakters (<strong>de</strong> lijst van 1956<br />
bevatte er slechts 515 vereenvoudig<strong>de</strong> karakters, <strong>de</strong> lijst van 1964 bevatte er 2 236), <strong>de</strong>ze<br />
karakters zijn <strong>op</strong>gesplitst in 3 tabellen. De eerste tabel zijn traditionele karakter die wanneer<br />
ze vereenvoudigd zijn geen <strong>de</strong>el uitmaken van an<strong>de</strong>re karakters (350). De twee<strong>de</strong> tabel zijn<br />
vereenvoudig<strong>de</strong> karakters die <strong>de</strong>el kunnen uitmaken van an<strong>de</strong>re vereenvoudig<strong>de</strong> karakters 132<br />
ervan kunnen als volwaardig karakter voorkomen, 14 zijn vereenvoudig<strong>de</strong> karakters maar die<br />
niet zelfstandig kunnen gebruikt wor<strong>de</strong>n. De <strong>de</strong>r<strong>de</strong> tabel zijn vereenvoudig<strong>de</strong> karakters die<br />
traditionele <strong>de</strong>len uit <strong>de</strong> vorige tabel bevatten 19 .<br />
Tabel 3 Vereenvoudiging van <strong>Chinese</strong> karakters<br />
Voor vereenvoudiging Na vereenvoudiging Betekenis<br />
車 车 auto, chē<br />
鄭 郑 plechtig, zhèng<br />
學 学 stu<strong>de</strong>ren, xué<br />
Deze vereenvoudiging gebeur<strong>de</strong> in <strong>de</strong> Volksrepubliek China. De Republiek China<br />
(Taiwan), Hong Kong, Macau en <strong>de</strong> meer<strong>de</strong>rheid van <strong>de</strong> overzeese Chinezen behiel<strong>de</strong>n <strong>de</strong><br />
niet-vereenvoudig<strong>de</strong> karakters, enkel Singapore nam <strong>de</strong> vereenvoudiging over. Om het<br />
on<strong>de</strong>rscheid makkelijker te maken wordt er in <strong>de</strong>ze thesis gesproken over vereenvoudig<strong>de</strong><br />
karakters (简体字 jiǎntǐzì) en traditionele karakters (繁體字 fántǐzì). Men spreekt van<br />
“traditioneel” omdat <strong>de</strong> karakters teruggaan <strong>op</strong> <strong>de</strong> oudste vormen van het <strong>Chinese</strong> schrift.<br />
Ook <strong>de</strong> Japanners hebben vereenvoudigingen doorgevoerd in hun <strong>Chinese</strong> karakters, maar<br />
<strong>de</strong>ze staan los van <strong>de</strong> vereenvoudigingen die in <strong>de</strong> Volksrepubliek China hebben<br />
plaatsgevon<strong>de</strong>n.<br />
19 Bron : http://www.sungwh.freeserve.co.uk/hanzi/t-s-intro.htm en<br />
http://www.chineseon.net/resources/hzstand/in<strong>de</strong>x.php<br />
Thesis Sébastien Bruggeman Pagina 17
1.3. Typografie<br />
Typografisch 20 kunnen <strong>Chinese</strong> teksten <strong>op</strong> twee manieren georiënteerd zijn. Bij klassieke<br />
teksten en proza wor<strong>de</strong>n karakters veelal van boven naar on<strong>de</strong>r en van rechts naar links<br />
geschreven. De twee<strong>de</strong> oriëntatie is van links naar rechts en van boven naar on<strong>de</strong>r. Deze<br />
oriëntatie is <strong>de</strong>zelf<strong>de</strong> als voor <strong>de</strong> westerse talen, en is nu <strong>de</strong> meest gebruikte en <strong>de</strong> standaard<br />
voor mo<strong>de</strong>rne en wetenschappelijke teksten. De eerste oriëntatie kan problemen geven met<br />
niet-<strong>Chinese</strong> software. Daarnaast zijn er ook nog heel wat stylistische moeilijkhe<strong>de</strong>n<br />
verbon<strong>de</strong>n met het weergeven van verticale georiënteer<strong>de</strong> tekst (zoals plaatsing van<br />
interpunctietekens en oriëntatie van Westerse letters en cijfers).<br />
Tabel 4 Typografie<br />
大學之道,在明明德,在親民,在止於至<br />
善。知止而后有定,定而后能靜,靜而后<br />
能安,安而后能慮,慮而后能得。物有本<br />
末,事有終始,知所先后,則近道矣。<br />
矣 后<br />
。<br />
,<br />
則<br />
近<br />
道<br />
Rechts links – boven on<strong>de</strong>r Boven on<strong>de</strong>r – links rechts<br />
1.4. Karakters en <strong>computer</strong>s<br />
In een <strong>computer</strong> wor<strong>de</strong>n karakters gerepresenteerd aan <strong>de</strong> hand van een binaire co<strong>de</strong>. Het<br />
symbool 0 (nul) wordt gebruikt voor <strong>de</strong> representatie van <strong>de</strong> afwezigheid van een puls, het<br />
symbool 1 (één) voor <strong>de</strong> aanwezigheid ervan. Wanneer men typt wordt <strong>de</strong> co<strong>de</strong> van <strong>de</strong> toets<br />
(keyco<strong>de</strong>) doorgestuurd, die co<strong>de</strong> wordt dan gebruikt om in <strong>de</strong> keyboard mapping table het<br />
overeenkomstige karakter <strong>op</strong> te zoeken. Zo wordt bij <strong>de</strong> aanslag van ‘A’ <strong>de</strong> toetsco<strong>de</strong> 14<br />
gegenereerd, in <strong>de</strong> keyboard mapping table komt dit overeen met karakter 65 (<strong>de</strong> ASCII co<strong>de</strong><br />
voor A, binair wordt dit gerepresenteerd als 0100 0001).<br />
Stel dat men <strong>de</strong> mapping van het toetsenbord veran<strong>de</strong>rt (van bijvoorbeeld querty naar<br />
azerty) zal <strong>de</strong> aanslag van eenzelf<strong>de</strong> toets een geheel an<strong>de</strong>r resultaat geven. Vervolgens wordt<br />
<strong>de</strong> 'vorm' van <strong>de</strong> letter A uit een lettertypebestand (font) gehaald en <strong>op</strong> het beeldscherm<br />
afgebeeld. Het voor<strong>de</strong>el van een <strong>de</strong>rgelijke aanpak is dat het veel meer mogelijkhe<strong>de</strong>n creëert.<br />
Men hoeft slechts één lettertypebestand te maken waarin men <strong>de</strong> co<strong>de</strong>s van <strong>de</strong> verschillen<strong>de</strong><br />
letters associeert met een vorm.<br />
20 Typografie: 1) boekdrukkunst; 2) (m.betr.t. een bepaald boek) het drukken en <strong>de</strong> wijze van drukken (keuze<br />
van lettertype, vormgeving)<br />
Thesis Sébastien Bruggeman Pagina 18<br />
始<br />
,<br />
知<br />
所<br />
先<br />
末<br />
,<br />
事<br />
有<br />
終<br />
能<br />
得<br />
。<br />
物<br />
有<br />
本<br />
能<br />
慮<br />
,<br />
慮<br />
而<br />
后<br />
能<br />
安<br />
,<br />
安<br />
而<br />
后<br />
能<br />
靜<br />
,<br />
靜<br />
而<br />
后<br />
有<br />
定<br />
,<br />
定<br />
而<br />
后<br />
善<br />
。<br />
知<br />
止<br />
而<br />
后<br />
民<br />
,<br />
在<br />
止<br />
於<br />
至<br />
明<br />
明<br />
德<br />
,<br />
在<br />
親<br />
大<br />
學<br />
之<br />
道<br />
,<br />
在
Een karakterset bestaat uit een lijst van alle karakters die weergegeven moeten kunnen<br />
wor<strong>de</strong>n, geor<strong>de</strong>nd in een bepaal<strong>de</strong> volgor<strong>de</strong>. Voor <strong>de</strong> Westerse talen is dit geen probleem<br />
want daar kunnen alle karakters makkelijk weergegeven wor<strong>de</strong>n. Bij <strong>Chinese</strong> karakters is het<br />
onmogelijk om alle karakters weer te geven, daarom wordt een lijst <strong>op</strong>gesteld van<br />
vaakgebruikte karakters (常用字 chǎngyòngzì). Deze lijsten wor<strong>de</strong>n niet enkel <strong>op</strong>gesteld voor<br />
het maken van karaktersets maar ook voor het aanleren van karakters <strong>op</strong> school.<br />
Co<strong>de</strong>pagina’s (co<strong>de</strong>pages. IBM gebruikt <strong>de</strong> term Co<strong>de</strong> Page Global I<strong>de</strong>ntifier) zijn<br />
karaktersets die aangepast zijn aan een bepaald besturingssysteem of een co<strong>de</strong>ring, die één of<br />
meer<strong>de</strong>re karaktersets aan kan. Zo slaat Microsoft’s Co<strong>de</strong>page 950 21 <strong>op</strong> <strong>de</strong> Big5 karakterset,<br />
Big5 co<strong>de</strong>ring en Microsoft extenties. Microsoft’s Co<strong>de</strong>page 936 22 slaat <strong>op</strong> GBK en EUC<br />
co<strong>de</strong>ring.<br />
Er zijn twee plaatsen waar <strong>de</strong> namen van <strong>de</strong> karaktersets kunnen geregistreerd wor<strong>de</strong>n<br />
namelijk in het ECMA-register 23 en het IANA-register 24 , <strong>de</strong> procedure tot registratie wordt<br />
beschreven in RFC 2278 IANA Charset Registration Procedures. Nu wor<strong>de</strong>n er nog weinig<br />
nieuwe karaktersets geregistreerd met het toenemend belang en gebruik van Unico<strong>de</strong> (zie<br />
infra).<br />
21 http://www.microsoft.com/global<strong>de</strong>v/reference/dbcs/950.htm<br />
22 http://www.microsoft.com/global<strong>de</strong>v/reference/dbcs/936.htm<br />
23 ECMA: Eur<strong>op</strong>ean Computer Manufacturers Association; http://www.ecma.ch<br />
24 IANA: Internet Assigned Numbers Authority; http://www.iana.org<br />
Thesis Sébastien Bruggeman Pagina 19
2. Karaktersets<br />
2.1. Westerse talen<br />
De <strong>computer</strong> (zoals we die in zijn huidige vorm kennen als pc of mainframe) is ontstaan<br />
in <strong>de</strong> Verenig<strong>de</strong> Staten van Amerika en het Verenigd Koninkrijk. De oorspronkelijke<br />
karaktersets die dus ontwikkeld wer<strong>de</strong>n om tekst weer te geven <strong>op</strong> een scherm zijn dan ook<br />
enkel voor <strong>de</strong> Engelse taal ontwikkeld. Eind jaren ‘50 begon het ASA (American Standard<br />
Association, dat later werd hernoemd tot ANSI, American National Standards Institute 25 ) een<br />
on<strong>de</strong>rzoek om een nieuwe standaard te ontwikkelen. Er werd besloten om een 7 bit co<strong>de</strong> te<br />
ontwikkelen. Een 7 bit co<strong>de</strong> moest namelijk geen ‘verwisseling’ (shifting) toepassen zoals <strong>de</strong><br />
<strong>op</strong> dat moment bestaan<strong>de</strong> 5 bit Baudot co<strong>de</strong>. 26 Op 17 juni 1963 werd X3.4-1963 gepubliceerd.<br />
Het liet verschei<strong>de</strong>ne posities <strong>op</strong>en, en het duur<strong>de</strong> tot 1967 eer <strong>de</strong> ASCII co<strong>de</strong> zoals we die nu<br />
kennen vast lag (X3.4-1967 aka ISO-646-US-1972). ASCII laat 128 karakters toe, 94<br />
karakters en 34 controle karakters (<strong>op</strong> <strong>de</strong> posities 0 tot en met 32 en positie 127). Het bevat<br />
hoofd- en kleine letters Latijn, Arabische getallen, karakters en controle karakters.<br />
Omdat een 8 bit co<strong>de</strong> makkelijker te hanteren is voor een <strong>computer</strong> 27 werd <strong>de</strong> laatste bit in<br />
<strong>de</strong> 7-bit ASCII co<strong>de</strong> <strong>op</strong>gevuld met een parity bit, highlight bit of een end-of-string bit. Door<br />
het gebruik van een pariteitsbit kon<strong>de</strong>n <strong>de</strong> zeven eerste bits gecontroleerd wor<strong>de</strong>n. Een<br />
mo<strong>de</strong>rne versie hiervoor is <strong>de</strong> checksum die bij Belgische bankrekeningsnummers gebruikt<br />
wordt. Later zou <strong>de</strong>ze achtste bit gebruikt wor<strong>de</strong>n om aan internationalisation (i18n) te doen.<br />
In 1967 werd ISO 28 Recommendation 646 uitgevaardigd 29 . Het kwam er <strong>op</strong> neer dat <strong>de</strong><br />
ASCII co<strong>de</strong> werd aanvaard zoals die was, met uitzon<strong>de</strong>ring van die 10 karakterposities (die<br />
overeenkomen met <strong>de</strong> karakters @ [ \ ] ^ ` { | } ~) die wer<strong>de</strong>n gespecificeerd in een versie van<br />
<strong>de</strong> aanbeveling gekend als International Reference Version (IRV).<br />
25 http://www.ansi.org<br />
26 De Baudot co<strong>de</strong> wordt nog steeds voor het nu snel afnemen<strong>de</strong> telexverkeer gebruikt.<br />
27 8 bits zijn 1 byte, <strong>computer</strong>s werken efficiënter wanneer ze data in bytes moeten verwerken. Dit komt omdat<br />
het intern circuit ontworpen is met 'data pathways' van 8, 16, 32, of 64 bits breed. Om <strong>de</strong>ze re<strong>de</strong>n is een 10, 15<br />
bit karakter co<strong>de</strong> min<strong>de</strong>r efficiënt in een <strong>computer</strong>.<br />
28 International Standard Organisation 國際標準組織 guójì biāozhǔn zǔzhī, http://www.iso.org<br />
29 Toen gebruikte ISO nog eer<strong>de</strong>r Recommendations in plaats van Standards. De laatste versie van <strong>de</strong>ze<br />
standaard is <strong>de</strong> <strong>de</strong>r<strong>de</strong> versie, gepubliceer in 1991.<br />
Thesis Sébastien Bruggeman Pagina 20
De ASCII co<strong>de</strong> werd ook gebruikt als basis voor het creëren van 7 bit karakterco<strong>de</strong>s (vaak<br />
afhankelijk van <strong>de</strong> <strong>computer</strong>maker zoals bijvoorbeeld IBM, Apple, Microsoft) voor talen die<br />
niet gebruik maakten van het Latijnse alfabet zoals bijvoorbeeld Arabisch en Grieks. Door het<br />
slechts ge<strong>de</strong>eltelijk vastliggen van <strong>de</strong> ASCII-standaard rezen en rijzen er problemen bij het<br />
gebruik <strong>op</strong> verschillen<strong>de</strong> <strong>computer</strong>systemen. Zo is <strong>de</strong> binaire waar<strong>de</strong> voor “à” <strong>op</strong> een<br />
Macintosh 136, <strong>op</strong> een Windows pc 133, en een UNIX systeem 224. Dus afhankelijk van het<br />
platform kan “à” afgebeeld wor<strong>de</strong>n als “à” (Macintosh), “ê” (Windows) of “ “ (unix). 30 Tot <strong>op</strong><br />
vandaag zijn er 180 karaktersets gebaseerd <strong>op</strong> <strong>de</strong> ASCII co<strong>de</strong> geregistreerd bij het ISO.<br />
Doordat er in <strong>de</strong> Eur<strong>op</strong>ese talen letters wor<strong>de</strong>n gebruikt met accenten <strong>op</strong>, vol<strong>de</strong>ed <strong>de</strong><br />
ASCII standaard niet. Daarom werd er een 8-bit extensie ontwikkeld voor <strong>de</strong> 7-bit co<strong>de</strong> (in<br />
een eerste fase werd een aangepaste versie van ASCII ontwikkeld zoals het Duitse DIN 66003<br />
of het Deense DS 2089. Dit zorg<strong>de</strong> er echter wel voor dat in <strong>de</strong>rgelijke karaktersets an<strong>de</strong>re<br />
karakters niet meer toegankelijk waren). Een 8-bit co<strong>de</strong> liet toe om bijna alle maar niet alle<br />
symbolen en letters te typen.<br />
Om een elektronisch Babel te vermij<strong>de</strong>n creëer<strong>de</strong> het ISO <strong>de</strong> standaard ISO 2022<br />
(ISO/IEC 2022: Character co<strong>de</strong> structure and extension techniques) dat vastlegt hoe 7 en 8<br />
bit karakterco<strong>de</strong>s moet gestructureerd en uitgebreid wor<strong>de</strong>n. In <strong>de</strong>ze standaard wordt<br />
beschreven hoe <strong>de</strong> co<strong>de</strong>tabellen er moeten uitzien (zie Figuur 12 <strong>op</strong> pagina 89). Deze<br />
co<strong>de</strong>tabellen wor<strong>de</strong>n dan later <strong>op</strong>gevuld met karakters. Vaak wordt er verwezen naar een<br />
bepaal<strong>de</strong> positie aan <strong>de</strong> hand van <strong>de</strong> rij- en kolom nummer..<br />
Deze standaard werd later toegepast om <strong>de</strong> standaard die officieus gekend is als Latin-1<br />
(officiële naam: ISO 8859-1) te maken, <strong>de</strong>ze laatste is een extensie van ASCII/ISO 646 en<br />
wordt meestal gebruikt voor het uitwisselen van informatie <strong>op</strong> het internet in West-Eur<strong>op</strong>a.<br />
ISO 8859 is een 8-bit karakterset die vooral gericht is <strong>op</strong> data processing in West- en Oost-<br />
Eur<strong>op</strong>a. Er zijn nu reeds zestien varianten <strong>op</strong> <strong>de</strong>ze karakterset, zie Tabel 5 voor meer<br />
informatie.<br />
30 De<strong>de</strong>ne & Herroelen, Inleiding tot <strong>de</strong> informatica, Deel A, Wouters, Leuven, p.18-19.<br />
Thesis Sébastien Bruggeman Pagina 21
Tabel 5 ISO 8859<br />
Naam Inhoud Jaar<br />
ISO 8859-1 Latin alphabet no.1 (West Eur<strong>op</strong>ees) 1987<br />
ISO 8859-2 Latin alphabet no.2 (Oost Eur<strong>op</strong>ees) 1987<br />
ISO 8859-3 Latin alphabet no.3 (Zuid Eur<strong>op</strong>ees) 1988<br />
ISO 8859-4 Latin alphabet no.4 (Noord Eur<strong>op</strong>ees) 1988<br />
ISO 8859-5 Latin/Cyrillic alphabet 1988<br />
ISO 8859-6 Latin/Arabic alphabet 1987<br />
ISO 8859-7 Latin/Greek alphabet 1987<br />
ISO 8859-8 Latin/Hebrew alphabet 1988<br />
ISO 8859-9 Latin alphabet no.5 (Turks) 1989<br />
ISO 8859-10 Latin alphabet no.6 (Nordic) 1992<br />
CD 8859-11 Latin/Thai alphabet 2001<br />
ISO 8859-13 Latin alphabet no.7 (Baltic Rim) 1998<br />
ISO 8859-14 Latin alphabet no.8 (Celtic) 1998<br />
ISO 8859-15 Latin alphabet no.9 (aanpassing van Latin1 oa euro on<strong>de</strong>rsteuning) 1999<br />
ISO 8859-16 Latin alphabet no.10 2001<br />
Verschillen<strong>de</strong> <strong>computer</strong>makers ontwikkel<strong>de</strong>n hun eigen co<strong>de</strong>pagina’s. Hierdoor kreeg<br />
men voor eenzelf<strong>de</strong> taal verschillen<strong>de</strong> co<strong>de</strong>pagina’s, aan <strong>de</strong> ene kant <strong>de</strong> particuliere<br />
co<strong>de</strong>pagina’s (pr<strong>op</strong>rietary co<strong>de</strong> pages) en aan <strong>de</strong> an<strong>de</strong>re kant <strong>de</strong> gestandaardiseer<strong>de</strong>.<br />
Dergelijke particuliere co<strong>de</strong> pagina’s wer<strong>de</strong>n vooral door OEM’s (Original Equipment<br />
Manufacturer) gemaakt zodat tekst gebaseer<strong>de</strong> PC’s in staat zou<strong>de</strong>n zijn om lijn-karakters af<br />
te kunnen printen en af te beel<strong>de</strong>n; ze wor<strong>de</strong>n ook nog vaak gebruikt om toegang te hebben tot<br />
data gecreëerd door MS-DOS gebaseer<strong>de</strong> programma’s. Dergelijke particuliere co<strong>de</strong>pagina’s<br />
hebben meestal een 3-getals co<strong>de</strong>, bijvoorbeeld. CP 437 voor Amerikaans Engels.<br />
2.2. Oosterse talen<br />
De Japanners waren <strong>de</strong> eersten die probeer<strong>de</strong>n hun taal weer te geven <strong>op</strong> <strong>de</strong> <strong>computer</strong>.<br />
Ze slaag<strong>de</strong>n er in om katakana weer te geven, dit is een set van 63 karakters die gebruikt<br />
wor<strong>de</strong>n om het Japans fonetisch weer te geven. Er was echter nog geen mogelijkheid om kanji<br />
weer te geven.<br />
Dit gebeur<strong>de</strong> met het <strong>op</strong> 1 juni 1969 vastegeleg<strong>de</strong> JIS C 6220 31 dat zowel ASCII als<br />
katakana kon weergeven. Er werd een <strong>op</strong>lossing gevon<strong>de</strong>n om kanji weer te geven, namelijk<br />
het gebruik van twee bytes om één karakter weer te geven. Dit bracht het totaal van mogelijk<br />
31 JIS: Japanese Industry Standard<br />
Thesis Sébastien Bruggeman Pagina 22
weer te geven karakters <strong>op</strong> 65 536. 32 Op 1 januari 1978 werd JIS C 6226-1978 vastgelegd,<br />
het bevatte 6 499 <strong>Chinese</strong> karakters (kanji) en 453 an<strong>de</strong>re karakters.<br />
Een 2 byte karakterco<strong>de</strong> wil zeggen dat er 16 bits wor<strong>de</strong>n gebruikt voor het weergeven<br />
van één karakter, zo wordt het karakter ‘hemel’ (天, tiān) binair als volgt weergegeven, 1101<br />
0001 1010 0100 (Big5). Dit wou echter niet zeggen dat <strong>de</strong> 1 byte co<strong>de</strong> had afgedaan, ze<br />
breid<strong>de</strong>n gewoon het concept van 1 byte uit, dat wil zeggen dat een tekst een mix werd van 1<br />
en 2 byte karakters. Hoe <strong>de</strong>ze uit elkaar wor<strong>de</strong>n gehou<strong>de</strong>n hangt af van <strong>de</strong> co<strong>de</strong>ring. Om <strong>de</strong><br />
on<strong>de</strong>rsteuning en compatibiliteit met 1 byte karakters te bewaren beginnen <strong>de</strong> 2 byte co<strong>de</strong>s<br />
allemaal pas bij hogere posities ( > 0x7F). De eerste byte specificeert <strong>de</strong> rij en <strong>de</strong> twee<strong>de</strong> byte<br />
<strong>de</strong> cel in die rij.<br />
2.2.1. Traditioneel Chinees<br />
Gebied : Taiwan, Hong Kong, Macau, Overzeese Chinezen.<br />
a) CCCII en EACC<br />
CCCII staat voor <strong>Chinese</strong> Character Co<strong>de</strong> for Information Interchange (㆗文資訊交換碼,<br />
zhōngwén zīxùn jiāohuàn mǎ). Het werd ontwikkeld in 1980 om aan <strong>de</strong> Amerikaanse nood<br />
om <strong>op</strong> <strong>de</strong> <strong>computer</strong> met Oost-Aziatische talen te kunnen werken te voldoen. Daarom werd er<br />
een gezant gestuurd om <strong>de</strong> mogelijkhe<strong>de</strong>n te on<strong>de</strong>rzoeken. Op dat ogenblik was <strong>de</strong> enige<br />
standaard om Aziatische talen weer te geven JIS C 6226-1978 en daarom werd ge<strong>op</strong>teerd om<br />
<strong>de</strong>ze standaard over te nemen. Overzeese Chinezen, Amerikaanse Oost-Aziatische<br />
bibliotheken en Taiwanese vertegenwoordigers protesteer<strong>de</strong>n echter tegen <strong>de</strong>ze beslissing met<br />
<strong>de</strong> argumentatie dat Kanji niet <strong>de</strong>zelf<strong>de</strong> betekenis weergeven als <strong>Chinese</strong> karakters 33 .<br />
In Taiwan werd dan een tij<strong>de</strong>lijk comité CCAG (<strong>Chinese</strong> Character Analysis Group; 國字<br />
整理小組 guózì zhěnglǐ xiǎozǔ) <strong>op</strong>gericht dat het Chinees, Japans en Koreaans on<strong>de</strong>rzocht en<br />
<strong>de</strong> verschillen<strong>de</strong> varianten van <strong>de</strong> <strong>Chinese</strong> karakters in die talen. Zo kwam het CCCII in 1980<br />
tot stand. De Amerikanen aanvaard<strong>de</strong>n die standaard om Chinees, Japans en Koreaans mee<br />
weer te geven. In Taiwan zelf werd <strong>de</strong> standaard echter fel bekritiseerd. De karakterset werd<br />
herzien in 1981 (versie 2), 1982 (versie 2.2), 1985 (versie 2.3) en 1987 (versie 3).<br />
32 2^16 = 65 536<br />
33 http://www.math.ncu.edu.tw/~shann/<strong>Chinese</strong>/bbs97.html<br />
Thesis Sébastien Bruggeman Pagina 23
CCCII is <strong>op</strong>gebouwd uit 16 lagen die <strong>op</strong>gebouwd zijn <strong>op</strong>eenvolgen<strong>de</strong> 94x94 niveaus, tot 6<br />
na elkaar. Elke laag vertegenwoordigt een parallelle versie van <strong>de</strong>zelf<strong>de</strong> karakters. In totaal<br />
zijn er zo 94 niveaus. Het resultaat is een 94x94x94 ruimte om karakters in te co<strong>de</strong>ren.<br />
Voor elk groep van variante karakters wordt er een standaard karakter gekozen. Die wordt<br />
geplaatst in <strong>de</strong> eerste laag, <strong>de</strong> rest van <strong>de</strong> variante karakters wor<strong>de</strong>n in lagen twee tot zeven<br />
geplaatst, laag twee wordt wel voorbehou<strong>de</strong>n voor vereenvoudig<strong>de</strong> karakters. Het gebruikt 3<br />
bytes om één karakter weer te geven. Voor elk variant karakter is <strong>de</strong> eerste en twee<strong>de</strong> byte<br />
gelijk aan het standaard karakter, <strong>de</strong> <strong>de</strong>r<strong>de</strong> byte representeert <strong>de</strong> laag waar het karakter zich<br />
bevindt. De <strong>Chinese</strong> karakters zijn geor<strong>de</strong>nd volgens radicaal en vervolgens volgens het<br />
aantal streepjes. De uitgave van 1987 bevat 53 940 karakters. Er wordt nog steeds gewerkt<br />
aan een volgen<strong>de</strong> versie die 75 684 karakters zou moeten bevatten.<br />
Er werd ook een <strong>Chinese</strong> Character Database (CCDB, ㆗國文字資料庫 zhōngguó wénzì<br />
zīliàokù) uitgegeven die van elk karakter <strong>de</strong> attributen bevat zoals sleutel, aantal streepjes en<br />
uitspraak. De CCCII wordt in vele bibliotheken gebruikt omdat het tot nu toe <strong>de</strong> enige is die<br />
voldoet aan <strong>de</strong> nood van <strong>de</strong> bibliotheken.<br />
Tabel 6 CCCII (structuur)<br />
Laag Niveau Inhoud<br />
1 1-6 Non-hanzi en hanzi<br />
2 7-12 Vervoudig<strong>de</strong> <strong>Chinese</strong> karakters (PRC)<br />
3-12 13-72 Variante vormen van <strong>Chinese</strong> karakters uit laag 1<br />
13 73-78 Japanse kana en kanji<br />
14 79-84 Koreaans jamo, hangul en hanja<br />
15 85-90 Reserved<br />
16 91-94 An<strong>de</strong>re karakters<br />
Tabel 7 CCCII (laag 1)<br />
Range Aantal<br />
Controle karakters (niveau 1) Rij 1 0<br />
<strong>Chinese</strong> punctuatie (niveau 1) Rij 11 35<br />
Klassieke radicalen (niveau 1) Rij 12-14- 214<br />
<strong>Chinese</strong> nummers en fonetische symbolen (niveau 1) Rij 15 78<br />
Vaak gebruikte <strong>Chinese</strong> karakters (niveau 1) Rij 16-67 4 808<br />
Min<strong>de</strong>r vaak gebruikte <strong>Chinese</strong> karakters (niveau 1 – 3) Rij 68-64 17 032<br />
An<strong>de</strong>re <strong>Chinese</strong> karakters (niveau 3 – 6) Rij 65-5 20 583<br />
Totaal 42 750<br />
Thesis Sébastien Bruggeman Pagina 24
Een afgelei<strong>de</strong> karakterset is ANSI Z39.64-1989 (East Asian Character Co<strong>de</strong> Set, afgekort<br />
als EACC, oorspronkelijk was <strong>de</strong> naam RLIN East Asian Character Co<strong>de</strong>, afgekort als<br />
REACC), <strong>de</strong>ze bevatte in mei 2001 34 15 728 karakters. Het werd in 1983 ontwikkeld door<br />
Research Libraries Group in samenwerking met het US Library of Congress en <strong>Chinese</strong><br />
Character Analysis Group. In 1989 werd <strong>de</strong>ze karakterset door het ANSI goedgekeurd. In<br />
mei 2001 werd een voorstel ingediend om EACC te ‘mappen’ naar Unico<strong>de</strong>. Dit voorstel<br />
werd in augustus 2001 goedgekeurd.<br />
Tabel 8 EACC<br />
Range Aantal<br />
<strong>Chinese</strong> karakters (voor Chinees, Japans en Koreaans) 13 468<br />
Japans Katakana 86<br />
Japans Hiragana 83<br />
Japanse geluidstekens 4<br />
Koreaans Hangul (mo<strong>de</strong>rn) 1 966<br />
Koreaans Hangul (archaic) 29<br />
Koreaans Jamo 33<br />
Punctuatie tekens (Oost-Azië) 9<br />
Punctuatietekens (Westers) 14<br />
I<strong>de</strong>ographic "component input method" characters (used in RLIN system) 35<br />
Totaal 15 727<br />
b) CNS<br />
CNS 5205 draagt <strong>de</strong> naam Information processing: 7-Bit Co<strong>de</strong>d Character Set For<br />
Information Interchange (資訊處理及交換用七數元碼字元集組 zīxùnchǔlǐ jí jiāohuàn yòng<br />
qī shùyuánmǎ zìyuánjízǔ). Het werd uitgevaardigd <strong>op</strong> 29 februari 1980. Het is <strong>de</strong> Taiwanese<br />
karakterset analoog aan ASCII en ISO 646.<br />
In september 1980 begonnen er besprekingen over het vastleggen van een nationale<br />
karakterset, dit leid<strong>de</strong> tot <strong>de</strong> <strong>op</strong>richting van een speciaal comité <strong>op</strong> 2 september 1982.<br />
In oktober 1983 werd er door verschillen<strong>de</strong> instanties 35 <strong>de</strong> CISCII (<strong>Chinese</strong> I<strong>de</strong>ographic<br />
Standard Co<strong>de</strong> for Information Interchange, 通用漢字標準交換碼, tōngyòng hànzì biāozhǔn<br />
jiāohuàn mǎ) ontwikkeld en <strong>op</strong> proef vrij gegeven. Na goedkeuring en bekendmaking in<br />
maart 1986 door <strong>de</strong> Executive Yuan werd <strong>op</strong> 4 augustus 1986 CNS 11643 36 (CNS staat voor<br />
<strong>Chinese</strong> National Standard 國家標準碼 37 , guójiā biāozhǔn mǎ) door het National Bureau of<br />
34<br />
http://www.loc.gov/marc/marbi/2001/2001-09.html<br />
35<br />
台灣國家科學委員會、教育部國語推行委員會、㆗央標準局、行政院主計處電子資料處理㆗心<br />
36<br />
http://www.cns11643.gov.tw<br />
37<br />
niet afkorten tot 國標碼 guóbiāomǎ want dit is <strong>de</strong> naam voor <strong>de</strong> karakterset die gebruikt wordt in <strong>de</strong> PRC (zie<br />
infra)<br />
Thesis Sébastien Bruggeman Pagina 25
Standards of Taiwan (台灣㆗央標準局, táiwān zhōngyāng biāozhǔnjú) on<strong>de</strong>r <strong>de</strong> naam<br />
Standard Interchange Co<strong>de</strong> for Generally Used <strong>Chinese</strong> Characters (通用漢字標準交換碼<br />
tōngyòng hànzì biāozhǔn jiāohuànmǎ) als nationale karakterset vastgelegd.<br />
CNS 11643 is <strong>op</strong>gebouwd uit verschillen<strong>de</strong> niveaus 38 . De uitgave van 1986 <strong>de</strong>finieer<strong>de</strong><br />
enkel karakters in het eerste en twee<strong>de</strong> niveau. In juni 1988 werd niveau 14 gepubliceerd (通<br />
用漢字標準交換碼-使用者加字區交換碼, tōngyòng hànzì biāozhǔn jiāohuànmǎ –<br />
shǐyòngzhě jiāzìqū jiāohuànmǎ) en in 1990 niveau 15 (戶政用字, hùzhèngyòngzì). Deze<br />
standaard bevatte echter te weinig karakters en werd daarom herzien.<br />
Een vernieuw<strong>de</strong> versie werd gepubliceerd <strong>op</strong> 21 mei 1992 on<strong>de</strong>r <strong>de</strong> naam <strong>Chinese</strong><br />
Standard Interchange Co<strong>de</strong> (㆗文標準交換碼, zhōngwén biāozhǔn jiāohuàn mǎ). Het bevat<br />
48 711 karakters waarvan er 48 027 <strong>Chinese</strong> karakters zijn, een precieze <strong>op</strong><strong>de</strong>ling vindt men<br />
in Tabel 10 <strong>op</strong> pagina 27. De <strong>Chinese</strong> karakters zijn geor<strong>de</strong>nd naar totaal aantal streepjes en<br />
vervolgens per radicaal.<br />
Het bestaat uit 16 niveaus die elk <strong>op</strong>gebouwd zijn uit 94 rijen en 94 kolommen (elk niveau<br />
kan dus maximaal 8 836 karakters bevatten). Niveau 1 tot 11 zijn gereserveerd voor <strong>de</strong><br />
<strong>de</strong>finitie van standaard karakters terwijl niveau 12 tot 16 zelf kunnen wor<strong>de</strong>n <strong>op</strong>gevuld (user-<br />
<strong>de</strong>fined areas). CNS 11643-1992 maakt slechts gebruik van 7 niveaus.<br />
CNS-11643-1992 bevat een aantal fouten, maar <strong>de</strong>ze zijn allemaal een verkeerd tellen van<br />
het aantal streepjes.<br />
In niveau 1 vallen <strong>de</strong> karakters tussen A1 en FE voor <strong>de</strong> eerste byte en tussen A1 en FE<br />
voor <strong>de</strong> 2 <strong>de</strong> byte, in niveau 2 is dat tussen A1 en FE en 21 en 7E. Om <strong>de</strong> <strong>de</strong>cimale waar<strong>de</strong> van<br />
een karakter te berekenen gaat men dan als volgt te werk. Stel dat het karakter zich <strong>op</strong> <strong>de</strong><br />
eerste kolom van <strong>de</strong> 36 ste rij bevindt (㆒ yī) dan is <strong>de</strong> waar<strong>de</strong> voor <strong>de</strong> eerste byte A0 (hex) +<br />
36 = C4 (hex), voor <strong>de</strong> twee<strong>de</strong> byte is dit A0 (hex) + 01 = A1 (hex), dus <strong>de</strong> hexa<strong>de</strong>cimale<br />
waar<strong>de</strong> voor dit karakter is C4A1. Voor een karakter in niveau twee dat zich in <strong>de</strong> eerste<br />
kolom van <strong>de</strong> 36 ste rij bevindt (歈 yú) wordt dit A0 (hex) + 36 = C4 (hex) en 20 (hex) + 01 =<br />
21 (hex) dus C421.<br />
Om compatibiliteit met CNS 5205 en CNS 7654 te bewaren zijn <strong>de</strong> co<strong>de</strong>punten 0 tot 20<br />
en 7F (127) niet <strong>op</strong>gevuld.<br />
38 字面 zìmiàn<br />
Thesis Sébastien Bruggeman Pagina 26
Tabel 9 CNS 11643-1986<br />
Range Aantal<br />
Symbolen, letters, cijfers, radicalen, … 39 (niveau 1) Rij 1-9,34 684<br />
<strong>Chinese</strong> karakters (niveau 1) Rij 36-93 5 401<br />
<strong>Chinese</strong> karakters (niveau 2) Rij 1-82 7 650<br />
<strong>Chinese</strong> karakters (niveau 14) Rij 1-68 6 319<br />
<strong>Chinese</strong> karakters (niveau 15) Rij 1-77 7 169<br />
Totaal 27 223<br />
Van niveau 1 zijn rijen 10-33, 35 en 94 niet toegewezen, van niveau 2 83-94, van niveau 14 69-94 en van niveau<br />
15 78-94<br />
Tabel 10 CNS 11643-1992<br />
Range Aantal<br />
Symbolen, letters, cijfers, radicalen, … 39 (niveau 1) 2121 – 427E 684<br />
<strong>Chinese</strong> karakters 1 (niveau 1) 4421 – 7D4B 5 401<br />
<strong>Chinese</strong> karakters 2 (niveau 2) 2121 – 7244 7 650<br />
<strong>Chinese</strong> karakters 3 (niveau 3) 2121 – 6246 6 148<br />
<strong>Chinese</strong> karakters 4 (niveau 4) 2121 – 6E5C 7 298<br />
<strong>Chinese</strong> karakters 5 (niveau 5) 2121 – 7C51 8 603<br />
<strong>Chinese</strong> karakters 6 (niveau 6) 2121 – 647A 6 388<br />
<strong>Chinese</strong> karakters 7 (niveau 7) 2121 – 6655 6 539<br />
Totaal 48 711<br />
Van niveau 1 zijn rijen 10-33, 35, 94 niet toegewezen, van niveau 2 83-94, van niveau 3 67-94, van niveau 4 79-<br />
94, van niveau 5 93-94, van niveau 6 69-94 en van niveau 7 71-94.<br />
Niveau 1 bevat vaak gebruikte karakters 40 , niveau 2 min<strong>de</strong>r vaak gebruikte karakters 41 ,<br />
niveau 3 zel<strong>de</strong>n gebruikte karakters (罕用字 hǎnyòngzì) 42 en vaak gebruikte variante <strong>Chinese</strong><br />
karakters (異體字 yìtízì) 43 . Niveau 4 bevat on<strong>de</strong>r an<strong>de</strong>re <strong>de</strong> <strong>Chinese</strong> karakters van ISO 10646<br />
versie 2.0, niveau 5 zel<strong>de</strong>n gebruikte karakters, niveaus 6 variante vormen van <strong>Chinese</strong><br />
karakters met 14 of min<strong>de</strong>r streepjes en niveau 7 bevat variante vormen van <strong>Chinese</strong> karakters<br />
met meer dan 14 streepjes.<br />
Er wordt steeds een controle karakter meegegeven dat het niveau waar<strong>op</strong> het karakter zich<br />
bevindt weergeeft. Dit controle karakter blijft gel<strong>de</strong>n voor alle volgen<strong>de</strong> karakters tot nog een<br />
<strong>de</strong>rgelijk controle karakter wordt tegen gekomen.<br />
39 De precicieze <strong>op</strong><strong>de</strong>ling is als volgt: interval 間隔符號 (1), punctuatietekens 標點符號 (28), grafische tekens<br />
括號及製表符號 (89), symbolen ㆒般符號 (34), wetenschappelijke tekens 學術符號 (51), eenhe<strong>de</strong>n 單位符號<br />
(31), cijfers 數字符號 (42), buitenlandse letters 外文字母 (100), 國語注音符號 b<strong>op</strong>omofo (42), in<strong>de</strong>xering<br />
tekens 數字序列符號 (20), klassieke radicalen ㆗國文字部首 (213), grafische presentatie van controle karakters<br />
控制碼符號 (33)<br />
40 4 808 karakters komen uit 常用國字標準字體表 uitgegeven <strong>op</strong> 2 september 1982 door 教育部<br />
41 6 330 karakters komen uit 次常用國字標準字體表 uitgegeven <strong>op</strong> 20 <strong>de</strong>cember 1982 door 教育部<br />
42 uit 罕用國字標準字體表 bevat 18 414 <strong>Chinese</strong> karakters en werd uitgegeven in 1983<br />
43 uit 異體字表 uit 1983 bevat 18 069 <strong>Chinese</strong> karakters<br />
Thesis Sébastien Bruggeman Pagina 27
c) Big5<br />
Big5 (大五 dàwǔ) werd <strong>op</strong> 1 mei 1984 door het Institute for Information Industry of<br />
Taiwan (台灣資訊工業策進會, táiwān zīxùn gōngyè cèjìn huì) bekend gemaakt door <strong>de</strong><br />
publicatie van Computer <strong>Chinese</strong> Glyph and Character Co<strong>de</strong> Mapping Table, Technical<br />
Report C-26 (電腦用㆗文字型與字碼對照表, 技術通報 C-26, diànnǎo yòng zhōngwén<br />
zìxíng yù zìmǎ duìzhào biǎo, jìshù tōngbào C-26).<br />
Deze karakterset wordt zo genoemd omdat 5 grote bedrijven meewerkten aan <strong>de</strong><br />
ontwikkeling ervan. Het is geen nationale standaard maar een <strong>de</strong> facto standaard, <strong>de</strong> officiële<br />
karakterset voor Taiwan is CNS 11643-1992. De big5 karakterset bevat in het totaal 13 494<br />
karakters, soms bevat het nog een supplement van 41 ETen karakters (zie infra).<br />
Tabel 11 Big5<br />
Range Aantal<br />
Punctuatie, grafische karakters, ASCII, … A140 – A343 466<br />
Grieks A344 – A373 48<br />
B<strong>op</strong>omofo A374 – A3BA 37<br />
Toontekens A3BB – A3BF 5<br />
Controle karakters A3C0 – A3E0 33<br />
Vaak gebruikte karakters 常用字 A440 – C67E 5 401<br />
Min<strong>de</strong>r vaak gebruikte karakters 次常用字 C940 – F9D5 7 652<br />
Totaal 13 494<br />
Rijen 39-40 en 90-94 zijn niet toegewezen<br />
Big5 gebruikt een 94x157 matrix en heeft daardoor een maximum capaciteit van 14 758<br />
karakters. De <strong>Chinese</strong> karakters zijn geor<strong>de</strong>nd volgens toenemend aantal streepjes en dan per<br />
radicaal.<br />
Big5 bevat twee karakters die twee maal voorkomen, namelijk <strong>de</strong> karakters 兀 wù (<strong>op</strong><br />
co<strong>de</strong>punten 0xA461 en 0xC94A) en 嗀 huò (<strong>op</strong> co<strong>de</strong>punten 0xDCD1 en 0xDDFC). CNS<br />
11643-1992 bevat <strong>de</strong>ze fouten niet meer, daar is telkens <strong>de</strong> twee<strong>de</strong> co<strong>de</strong>ring verwij<strong>de</strong>rd.<br />
Big5 wordt gebruikt als standaard co<strong>de</strong>ring voor <strong>de</strong> besturingssystemen van Microsoft<br />
Corporation en Apple Computer Inc die volledig traditioneel Chinees gelocaliseerd zijn.<br />
Elke eerste byte van een dubbel byte Big5 karakter moet liggen in het hexa<strong>de</strong>cimale<br />
gebied 0xA1 tot 0xF9 (maar kan ook 0xFA tot 0xFE omvatten) terwijl <strong>de</strong> twee<strong>de</strong> byte in <strong>de</strong><br />
gebie<strong>de</strong>n 0x40 tot 0x7E en 0xA1 tot 0xFE kan vallen. Dit is gedaan om <strong>de</strong> compatibiliteit met<br />
ASCII te bewaren. De co<strong>de</strong>plaatsen 0x7F, 0xA0 en 0xFF wer<strong>de</strong>n <strong>op</strong>zettelijk blanco gelaten.<br />
Big5 is heel gelijkend <strong>op</strong> <strong>de</strong> eerste twee niveaus van CNS-11643, <strong>de</strong> vaak gebruikte karakters<br />
zijn namelijk exact hetzelf<strong>de</strong> alleen <strong>de</strong> positie is verschillend.<br />
Thesis Sébastien Bruggeman Pagina 28
Een heel belangrijke extensie <strong>op</strong> Big5 is <strong>de</strong> “ETen extensie”. ETen 44 is een bedrijf dat in<br />
<strong>de</strong> jaren ’80 een Chinees besturingssysteem <strong>op</strong> <strong>de</strong> markt bracht. Deze extensie bestaat uit twee<br />
blokken. Het eerste blok (C6A1 – C8D3) bevat 365 karakters (o.a. omcirkel<strong>de</strong> cijfers, kana,<br />
Cyrillisch), het twee<strong>de</strong> blok (F9D6 – F9FE) bestaat uit zeven extra <strong>Chinese</strong> karakters (碁 銹<br />
裏 墻 恒 粧 嫺) en 34 lijn-karakters. Door <strong>de</strong> p<strong>op</strong>ulariteit van het besturingssysteem en <strong>de</strong><br />
programma’s wor<strong>de</strong>n Eten karakters bij <strong>de</strong> Big5 karakterset gerekend. De zeven extra <strong>Chinese</strong><br />
karakters zitten ook in CNS 11643-1992 niveau 3..<br />
d) Big5+<br />
Om vereenvoudig<strong>de</strong> <strong>Chinese</strong> karakters te on<strong>de</strong>rsteunen werd in juli 1997 Big5+<br />
ontwikkeld. Deze karakterset bevat 23 940 karakters. Big5+ bestaat uit 2 niveaus. Het is<br />
eigenlijk zeer gelijkend aan GBK (zie infra). Het bevat ook alle <strong>Chinese</strong> karakters die in<br />
Unico<strong>de</strong> wor<strong>de</strong>n ge<strong>de</strong>finieerd. Deze co<strong>de</strong>ring wordt echter niet wijd on<strong>de</strong>rsteund. De sleutels<br />
die alleen kunnen staan zijn weggelaten evenals <strong>de</strong> dubbel geco<strong>de</strong>er<strong>de</strong> karakters uit Big5,<br />
ver<strong>de</strong>r zijn er ook verschillen<strong>de</strong> fouten uit CNS verbeterd. De high byte ligt tussen 0x81 –<br />
0xFE en <strong>de</strong> low byte ligt tussen 0x40 – 0x7E of 0x80 – 0xFE.<br />
Tabel 12 Big5+<br />
Range Aantal<br />
Big5 niveau 1 A440 – C67E 5 401<br />
Big5 niveau 2 C940 – F9D5 7 693<br />
Big5 non-hanzi A140 – A3FE 471<br />
Eten karakters C6A1 – C8FE 408<br />
<strong>Chinese</strong> karakters 8180 – FEA0 4 158<br />
Hanzi en hanzi varianten 8140 – 83FE 471<br />
Hanzi, vereenvoudig<strong>de</strong> hanzi, kanji en hanja 8E40 – A0FE 2 983<br />
User <strong>de</strong>fined characters FA40 – FEFE 785<br />
User <strong>de</strong>fined characters 8440 – 8DFE 1 570<br />
Totaal 23 940<br />
e) Big5E<br />
Big5E staat voor Big5 Extention (Big5 碼補充字集, Big5 mǎ bǔchōng zìjí) is gebaseerd<br />
<strong>op</strong> Big5, Big5+ en CNS 11643. Er wer<strong>de</strong>n 3 954 <strong>Chinese</strong> karakters uit Big5+ en CNS 11643<br />
niveau 3 en 4 geselecteerd om ze in Big5E te co<strong>de</strong>ren in <strong>de</strong> ‘user <strong>de</strong>fined area’. Ook wer<strong>de</strong>n<br />
er nog 128 an<strong>de</strong>re co<strong>de</strong>punten gereserveerd voor latere uitbreiding. Er zijn verschillen<strong>de</strong><br />
‘tools’ ontwikkeld voor Big5E zoals conversietabellen, conversieprogramma’s en verbeter<strong>de</strong><br />
‘input editors’. Big5E werd uitgegeven in 1999.<br />
44 http://www.eten.com.tw<br />
Thesis Sébastien Bruggeman Pagina 29
f) Hong Kong GCCS en SCS<br />
De officiële karakterset en co<strong>de</strong>ring in Hong Kong is Big5. In Hong Kong zijn er echter in<br />
<strong>de</strong> lo<strong>op</strong> <strong>de</strong>r tijd aparte <strong>Chinese</strong> karakters ontwikkeld. Doordat <strong>de</strong>ze karakters niet wor<strong>de</strong>n<br />
on<strong>de</strong>rsteund door het in Taiwan ontwikkel<strong>de</strong> Big5 heeft <strong>de</strong> regering van Hong Kong het <strong>op</strong><br />
Big5 gebaseer<strong>de</strong> Hong Kong GCCS 45 (Government <strong>Chinese</strong> Character Set) uitgevaardigd in<br />
1994. Hong Kong GCCS bevat 3 049 extra karakters. Ongeveer <strong>de</strong> helft van <strong>de</strong>ze karakters<br />
wer<strong>de</strong>n in GBK (en dus ook in Unico<strong>de</strong> 2.1) <strong>op</strong>genomen.<br />
Op 28 september 1999 werd HK SCS (Hong Kong Supplementary Character Set 46 )<br />
gepubliceerd. Het bevat 4 702 karakters (waarvan er 4 261 <strong>Chinese</strong> karakters zijn) meer dan<br />
Big5, die allemaal in <strong>de</strong> user <strong>de</strong>fined area zijn ge<strong>de</strong>finieerd. Er zijn verschillen<strong>de</strong> karakters uit<br />
HK GCCS verwij<strong>de</strong>rd of samengevoegd. De co<strong>de</strong>plaatsen die daardoor vrij kwamen wer<strong>de</strong>n<br />
niet <strong>op</strong>gevuld om compatibiliteit te creëren. In <strong>de</strong>cember werd HKSCS-2000 gepubliceerd dat<br />
nog eens 161 extra karakters bevat.<br />
2.2.2. Vereenvoudigd Chinees<br />
Gebied : Volkrepubliek China, Singapore, overzeese Chinezen<br />
a) GB 1988-80<br />
De officiële naam van <strong>de</strong>ze karakterset is Information technology – 7-bit Co<strong>de</strong>d Character<br />
Set for Information Interchange (信息技术 – 信息交换用七位编码字符集 xīnxí jìshù xīnxí<br />
jiāohuàn yòng qīwèi biānmǎ zìfújí). Deze karakterset wordt soms ook GB-Roman genoemd<br />
(aliassen voor <strong>de</strong>ze karakterset zijn iso-ir-57, ISO646-CN, csISO57GB1988). Dit is <strong>de</strong><br />
analoge <strong>Chinese</strong> variant van ASCII en ISO 646. De twee verschillen zijn dat het dollarteken<br />
($) vervangen werd door het symbool voor <strong>de</strong> <strong>Chinese</strong> Yuan (¥) en <strong>de</strong> til<strong>de</strong> (~) door een<br />
‘overline’.<br />
45 http://www.info.gov.hk/gccs/<br />
46 http://www.info.gov.hk/digital21/eng/hkscs/in<strong>de</strong>x.html<br />
Thesis Sébastien Bruggeman Pagina 30
) GB 2312-80<br />
GB 2312 (GB staat voor National Standard, 国标 guóbiāo, afkorting van 国家标准<br />
guójiā biāozhǔn) werd in 1980 gepubliceerd door het State Bureau of Standardization of the<br />
Pe<strong>op</strong>le’s Repbulic of China (中华人民共和国国家标准总局, zhōnghuárénmíngònghéguó<br />
guójiā bāozhǔn zǒngjú) on<strong>de</strong>r <strong>de</strong> naam Co<strong>de</strong> of <strong>Chinese</strong> I<strong>de</strong>ogram Set for Information<br />
Interchange - Basic Set (信息交换用汉字编码字符集 - 基本集, xìnxī jiāohuàn yòng hànzì<br />
biānmǎ zìfújí – jīběnjí) en werd van kracht <strong>op</strong> 1 mei 1981 (aliassen voor <strong>de</strong>ze karakterset zijn<br />
iso-ir-58 en csISO58GB231280).<br />
De karakterset bevat 7 445 karakters (6 763 <strong>Chinese</strong> karakters en 682 niet <strong>Chinese</strong><br />
karakters), <strong>de</strong> <strong>Chinese</strong> karakters zijn <strong>op</strong>ge<strong>de</strong>eld in vaak gebruikte karakters (3 755) en niet<br />
vaak gebruikte karakters (3 008). Hij is gebaseerd <strong>op</strong> JIS X 0208 en bestaat dus uit een 94x94<br />
rooster. <strong>Chinese</strong> karakters wor<strong>de</strong>n pas ingevuld vanaf <strong>de</strong> zestien<strong>de</strong> rij, <strong>de</strong> eerste vijftien<br />
wor<strong>de</strong>n <strong>op</strong>gevuld door an<strong>de</strong>re karakters. De binaire co<strong>de</strong> voor het karakter ‘hemel’ (天, tiān)<br />
is hier 1110 1100 1100 1100. Elke byte van een dubbel byte GB karakter valt binnen<br />
hexa<strong>de</strong>cimale 0xA1 tot 0xFE gebied. De karakters zijn, net zoals in het Japans, geor<strong>de</strong>nd<br />
volgens <strong>de</strong> uitspraak bij <strong>de</strong> vaak gebruikte <strong>Chinese</strong> karakters. De niet vaak gebruikte <strong>Chinese</strong><br />
karakters wor<strong>de</strong>n geor<strong>de</strong>nd volgens radicaal en vervolgens volgens het aantal streepjes.<br />
Tabel 13 GB 2312-80<br />
Range Aantal<br />
Symbolen Rij 1 94<br />
Nummers Rij 2 72<br />
ISO 646-CN (full width characters) Rij 3 94<br />
Hiragana Rij 4 83<br />
Katakana Rij 5 86<br />
Grieks Rij 6 48<br />
Cyrillisch Rij 7 66<br />
Pinyin Rij 8 26<br />
B<strong>op</strong>omofo Rij 8 37<br />
Line drawing elements Rij 9 76<br />
<strong>Chinese</strong> karakters Rij 16-55 3 755<br />
<strong>Chinese</strong> karakters Rij 56-87 3 008<br />
Totaal 7 445<br />
Rijen 10-15 en 88-94 zijn niet toegewezen<br />
c) GB 6345.1-86<br />
GB 6345.1-86 werd uitgevaardigd <strong>op</strong> 1 <strong>de</strong>cember 1986 en draagt <strong>de</strong> naam 32x32 Dot<br />
Matrix Font Set of <strong>Chinese</strong> I<strong>de</strong>ograms for Information Interchange (信息交换用汉字 32x32<br />
点阵字模集 xìnxí jiāohuàn yòng hànzì 32x32 diǎnzhèn zìmújí).<br />
Thesis Sébastien Bruggeman Pagina 31
Deze karakterset bevat aanvullingen en correcties <strong>op</strong> <strong>de</strong> GB 2312-80 karakterset. Een g<br />
moet an<strong>de</strong>rs weergegeven wor<strong>de</strong>n (g moest g wor<strong>de</strong>n, rij 3 positie 71), er is een karakter dat<br />
niet in zijn vereenvoudig<strong>de</strong> vorm is weergegeven (鍾 moet weergegeven wor<strong>de</strong>n als 锺, rij 79<br />
positie 81), het bevat ook 132 extra karakters.<br />
Tabel 14 GB 6345.1-86<br />
Range Aantal<br />
Symbolen Rij 1 94<br />
Nummers Rij 2 72<br />
ISO 646-CN (full width characters) Rij 3 94<br />
Hiragana Rij 4 83<br />
Katakana Rij 5 86<br />
Grieks Rij 6 48<br />
Cyrillisch Rij 7 66<br />
Pinyin Rij 8 32<br />
B<strong>op</strong>omofo Rij 8 37<br />
Line drawing elements Rij 9 76<br />
Half width GB 1988-89 Rij 10 94<br />
Half width Pinyin characters Rij 11 32<br />
<strong>Chinese</strong> karakters Rij 16-55 3 755<br />
<strong>Chinese</strong> karakters Rij 56-87 3 008<br />
Totaal 7 577<br />
Rij 12-15 en 88-94 zijn niet <strong>op</strong>gevuld. Verschillen met GB2312 in grijs aangeduid.<br />
d) GB 8565.2-88<br />
Deze uitbreiding <strong>op</strong> GB2312-80 werd <strong>op</strong> 1 juli 1988 uitgevaardigd en noemt officieel<br />
Information Processing – Co<strong>de</strong>d Character Sets for Text Communication – Part 2: Graphic<br />
Characters (信息处理 – 文本通信用编码字符集 – 第二部分 – 图形字符集 xìnxí chǔlǐ –<br />
wénběn tōngxìn yòng biānmǎ zìfújí – dì’èr bùfēn – túxíng zìfújí).<br />
Het bevat 705 karakters meer dan GB 2312-80, het bevat echter niet <strong>de</strong> extra karakters die<br />
in GB 6345.1-86 wer<strong>de</strong>n ge<strong>de</strong>finieerd.<br />
Tabel 15 GB 8565.2-88<br />
Range Aantal<br />
Symbolen Rij 1 94<br />
Nummers Rij 2 72<br />
ISO 646-CN (full width characters) Rij 3 94<br />
Hiragana Rij 4 83<br />
Katakana Rij 5 86<br />
Grieks Rij 6 48<br />
Cyrillisch Rij 7 66<br />
Pinyin Rij 8 26<br />
B<strong>op</strong>omofo Rij 8 37<br />
Line drawing elements Rij 9 76<br />
Hanzi from GB 7589-87 Rij 13 50<br />
Thesis Sébastien Bruggeman Pagina 32
Range Aantal<br />
Hanzi from GB 7590-87 Rij 14 92<br />
Extra non-hanzi Rij 15 69<br />
Extra hanzi Rij 15 24<br />
<strong>Chinese</strong> karakters Rij 16-55 3 755<br />
<strong>Chinese</strong> karakters Rij 56-87 3 008<br />
Hanzi from GB 7589-87 Rij 90-94 470<br />
Totaal 8 150<br />
Rij 10-12 en 88-89 zijn niet <strong>op</strong>gevuld. Verschillen met GB2312 in grijs aangeduid.<br />
e) ISO-IR-165:1992<br />
Deze standaard bevat 8 443 karakters, waaron<strong>de</strong>r alle wijzigingen en toevoegingen van<br />
GB 6345.1-86 en GB 8565.2-88. Het draagt <strong>de</strong> naam ISO International Registery #165 en<br />
werd <strong>op</strong> 13 juli 1992 uitgevaardigd. Ze wordt soms ook <strong>de</strong> CCITT (Consultative Committee<br />
on International Telephone and Telegraph) karakterset genoemd.<br />
Tabel 16 ISO-IR-165:1992<br />
Range Aantal<br />
Symbolen Rij 1 94<br />
Nummers Rij 2 72<br />
ISO 646-CN (full width characters) Rij 3 94<br />
Hiragana Rij 4 83<br />
Katakana Rij 5 86<br />
Grieks Rij 6 48<br />
Grieks (background (shading) characters) Rij 6 22<br />
Cyrillisch Rij 7 66<br />
Pinyin Rij 8 32<br />
B<strong>op</strong>omofo Rij 8 37<br />
Line drawing elements Rij 9 76<br />
Half width GB 1988-89 Rij 10 94<br />
Half width Pinyin characters Rij 11 32<br />
Hanzi Rij 12 94<br />
Hanzi from GB 7589-87 + extra Rij 13 94<br />
Hanzi from GB 7590-87 Rij 14 92<br />
Karakters voor datum en tijd Rij 15 69<br />
Extra hanzi Rij 15 25<br />
<strong>Chinese</strong> karakters Rij 16-55 3 755<br />
<strong>Chinese</strong> karakters Rij 56-87 3 008<br />
Hanzi from GB 7589-87 Rij 90-94 470<br />
Totaal 8 376<br />
Rijen 88-89 zijn niet <strong>op</strong>gevuld. Verschillen met GB2312 in grijs aangeduid.<br />
Thesis Sébastien Bruggeman Pagina 33
f) GB/T 12345-90<br />
De officiële naam van <strong>de</strong>ze karakterset is Co<strong>de</strong> of <strong>Chinese</strong> I<strong>de</strong>ogram Set for Information<br />
Interchange Supplementary Set (信息交换用汉字编码字符集 - 辅助集, xìnxī jiāohuàn yòng<br />
hànzì biānmǎ zìfújí - fǔzhùjí) en werd <strong>op</strong> 13 juni 1990 uitgevaardigd door 中华人民共和国<br />
国家技术监督局 (zhōnghuárénmíngònghéguó guójiā jìshù jiāndūjú). Het ging <strong>op</strong> 1 <strong>de</strong>cember<br />
1990 van kracht. De T staat voor Tuijian (推荐 tuījiàn) en betekent aanvulling.<br />
Het is i<strong>de</strong>ntiek aan GB 2312-80 maar alle karakters zijn vervangen door hun traditionele<br />
variant, het bevat 7 709 karakters. Daarvan zijn er 843 niet <strong>Chinese</strong> karakters en 6 866<br />
<strong>Chinese</strong> karakters (3 755 vaak gebruikte karakters, 3 008 niet vaak gebruikte karakters en een<br />
supplement van 103 karakters). In totaal zijn er 2 180 karakters die door hun traditionele<br />
variant zijn vervangen. Deze karakterset bevat helaas ook fouten, het gaat om 2 printfouten.<br />
Tabel 17 GB/T 12345-90<br />
Range Aantal<br />
Symbolen Rij 1 94<br />
Numerals Rij 2 72<br />
Full width GB 1988-89 Rij 3 94<br />
Hiragana Rij 4 83<br />
Katakana Rij 5 86<br />
Grieks alfabet Rij 6 48<br />
Grieks (voor vertikaal gebruik) Rij 6 29<br />
Cyrillisch Rij 7 66<br />
Full width Pinyin Rij 8 32<br />
Zhuyin Rij 8 37<br />
Line drawing elements Rij 9 76<br />
Half width GB 1988-89 Rij 10 94<br />
Half width Pinyin Rij 11 32<br />
<strong>Chinese</strong> karakters Rij 16-55 3 755<br />
<strong>Chinese</strong> karakters Rij 56-87 3 008<br />
Extra <strong>Chinese</strong> karakters Rij 88-89 103<br />
Totaal 7 709<br />
g) GBK<br />
GBK is een superset van GB 2312-80, dat zowel vereenvoudig<strong>de</strong> als traditionele karakters<br />
bevat, maar het is tevens <strong>de</strong> subset van GB 13000.1-93 (zie infra).<br />
De afkorting GBK staat voor Exten<strong>de</strong>d National Standard (国家标准扩展, guójiā<br />
biāozhǔn kuòzhǎn- <strong>de</strong> officiële naam is <strong>Chinese</strong> Internal Co<strong>de</strong> Specification 汉字内码扩展规<br />
范, hànzì nèimǎ kuòzhǎn guīfàn). Het werd <strong>op</strong> 1 <strong>de</strong>cember 1995 door het CITS (中华人民共<br />
和国全国信息技术标准化技术委员会 zhōnghuárénmíngònghéguó quánguó xìnxí jìshù<br />
biāozhǔnhuà jìshù wěiyuánhuì) geformuleerd.<br />
Thesis Sébastien Bruggeman Pagina 34
Verschillen<strong>de</strong> bedrijven 47 verenig<strong>de</strong>n zich <strong>op</strong> 15 <strong>de</strong>cember 1995 en schaar<strong>de</strong>n zich achter<br />
enkele verbeteringen. Deze verbeteringen wer<strong>de</strong>n <strong>op</strong>genomen en <strong>de</strong> verbeter<strong>de</strong> karakterset<br />
werd gepubliceerd als versie 1.0. Het laat <strong>de</strong> karakters en <strong>de</strong> co<strong>de</strong>s ge<strong>de</strong>finieerd in GB 2312<br />
ongewijzigd en positioneert alle extra karakters er rond. Deze extra karakters zijn karakters<br />
die in ISO 10646 (Unico<strong>de</strong> Version 2.1) zitten maar niet in GB 2312-80. Op <strong>de</strong>ze manier<br />
wordt <strong>de</strong> GB-compatibiliteit behou<strong>de</strong>n maar wor<strong>de</strong>n alle Unihan karakters ter beschikking<br />
gesteld. Het bevat 21 886 karakters, maar daarmee zit <strong>de</strong>ze karakter set zo goed als vol (23<br />
940 co<strong>de</strong>punten) en dus werd er overgeschakeld naar GB 18030.<br />
Tabel 18 GBK<br />
Range Co<strong>de</strong>punten Aantal<br />
GB2312-80 en GB/T 12345-90 niet Ch. karakters 0xA1A1 – 0xA9FE 846 717<br />
GB 2312-80 <strong>Chinese</strong> karakters 0xB0A1 – 0xF7FE 6 768 6 763<br />
<strong>Chinese</strong> karakters uit ISO 10646-1:1993 0x8140 – 0xA0FE 6 080 6 080<br />
<strong>Chinese</strong> karakters uit ISO 101646-1+extra karakters 0xAA40 – 0xFEA0 8 160 8 160<br />
Niet <strong>Chinese</strong> karakters van Big5 e.a. karaktersets 0xA840 – 0xA9A0 192 166<br />
Totaal 23 940 21 886<br />
User Defined Area 0xAAA1 – 0xAFFE 564<br />
User Defined Area 0xF8A1 – 0xFEFE 658<br />
User Defined Area 0xA140 – 0xA7A0 672<br />
h) GB 13000.1<br />
GB 13000.1-93 is het <strong>Chinese</strong> equivalent van ISO 10646.1-1993/Unico<strong>de</strong> (zie infra).<br />
Telkens als het ISO en Unico<strong>de</strong> consortium hun karakterset vernieuwen dan wor<strong>de</strong>n <strong>de</strong><br />
aangebrachte veran<strong>de</strong>ringen en aanvullingen overgenomen in GB 13000.1. Het draagt <strong>de</strong><br />
naam Information technology – Universal multiple-octet co<strong>de</strong>d character set (UCS) – Part 1:<br />
Architecture and Basic Multilingual Plane (信息技术 – 通用多八位编码字符集 (UCS) – 第<br />
一部分: 体系结构与基本多文种平面 xìnxíjìshù – tōngyòng duōbāweì biānmǎ zìfújí<br />
(UCS) – dìyī bùfēn: tǐxì jiégòu yú jīběn duōwénzhǒng píngmiàn).<br />
47 国家技术监督局标准化司、电子工业部科技与质量监督司<br />
Thesis Sébastien Bruggeman Pagina 35
i) GB 18030-2000<br />
De meest recente GB co<strong>de</strong>d characterset is het <strong>op</strong> 17 maart 2000 door het Ministry of<br />
Information Industry (中华人民共和国信息产业部 zhōnghuárénmíngònghéguó xìnxí chǎnyè<br />
bù) gepubliceer<strong>de</strong> GB 18030-2000 (Information technology – <strong>Chinese</strong> I<strong>de</strong>ograms co<strong>de</strong>d<br />
character set for information interchange – Extension for the basic set 信息技术 – 信息交换<br />
用汉字编码字符集 – 基本集的扩充 xìnxíjìshù – xìnxíjiāohuàn yòng hànzì biānmǎ zìfújí –<br />
jīběnjí <strong>de</strong> kuòchōng). De bedoeling van <strong>de</strong>ze karakterset is om <strong>de</strong> Unihan Extention A te<br />
combineren met vorige GB karaktersets, maar ook om genoeg co<strong>de</strong>plaatsen te creëren voor<br />
alle geco<strong>de</strong>er<strong>de</strong> co<strong>de</strong>punten in unico<strong>de</strong>’s nieveau 0 (BMP) en plaats voorzien voor 16 extra<br />
niveaus.<br />
Om dit te realiseren wordt een <strong>de</strong>el van <strong>de</strong> karakters (0x00 tot 0x7F) geco<strong>de</strong>erd met één<br />
byte co<strong>de</strong>ring, een <strong>de</strong>el (0x81 tot 0xFE voor <strong>de</strong> eerste byte en 0x40 tot 0x7E voor <strong>de</strong> twee<strong>de</strong><br />
byte) met twee byte co<strong>de</strong>ring, en een laatste <strong>de</strong>el (0x81308130 tot 0xFE39FE39 of an<strong>de</strong>rs<br />
gezegd 0x8130 tot 0xFE39 voor <strong>de</strong> eerste twee bytes en 0x8130 tot 0xFE39 voor <strong>de</strong> <strong>de</strong>r<strong>de</strong> en<br />
vier<strong>de</strong> byte) met vier byte co<strong>de</strong>ring.<br />
GB 18030-2000 vervangt GBK. Het blijft wel compatibel met GBK en GB 2312-80, met<br />
uitzon<strong>de</strong>ring van <strong>de</strong> nieuw toegevoeg<strong>de</strong> karakters, maar probeert tevens ook compatibel te<br />
zijn met unico<strong>de</strong>. Vanaf 1 september 2001 moeten alle pc’s in <strong>de</strong> PRC GB 18030 aankunnen.<br />
Tabel 19 GB 18030<br />
1B<br />
2 bytes<br />
4B<br />
Range Co<strong>de</strong>punten Aantal<br />
GB 11383 A0 – FE 128 128<br />
Grafische karakters A1A1 – A9FE 846 718<br />
Grafische karakters A840 – A9A0 192 166<br />
<strong>Chinese</strong> karakters B0A1 – F7FE 6768 6763<br />
<strong>Chinese</strong> karakters 8140 – A0FE 6080 6080<br />
<strong>Chinese</strong> karakters AA40 – FEA0 8160 8160<br />
User <strong>de</strong>fined Area AAA1 – AFFE 564<br />
User <strong>de</strong>fined Area F8A1 – FEFE 658<br />
User <strong>de</strong>fined Area<br />
GB 13000.1 CJK extension A<br />
A140 – A7A0 672<br />
Thesis Sébastien Bruggeman Pagina 36
j) An<strong>de</strong>re GB karaktersets<br />
GB 7589-87 en zijn traditionele variant GB/T 13131-9X bevatten 7 237 karakters. Het<br />
werd uitgevaardigd <strong>op</strong> 1 <strong>de</strong>cember 1987 en draagt <strong>de</strong> naam Co<strong>de</strong> of <strong>Chinese</strong> I<strong>de</strong>ograms Set<br />
for Information Interchange – the Second Supplementary Set (信息交换用汉字编码字符集–<br />
第二辅助集 xīnxí jiāohuàn yòng hànzì biānmǎ zìfújí – dì’èr fǔzhùjí).<br />
GB 7590-87 en zijn traditionele variant GB/T 13132-9X bevatten 7 039 karkaters. Het<br />
werd uitgevaardigd <strong>op</strong> 1 <strong>de</strong>cember 1987 en draagt <strong>de</strong> naam Co<strong>de</strong> of <strong>Chinese</strong> I<strong>de</strong>ograms Set<br />
for Information Interchange – the Fourth Supplementary Set (信息交换用汉字编码字符集–<br />
第四辅助集 xīnxí jiāohuàn yòng hànzì biānmǎ zìfújí – dì sì fǔzhùjí).<br />
Ze zijn geor<strong>de</strong>nd volgens radicaal en dan volgens het totaal aantal streepjes. Ze beginnen<br />
karakters pas in te vullen vanaf rij 16. De karakters die in <strong>de</strong>ze karaktersets zijn<br />
gespecificeerd zijn handgeschreven waardoor dat lettertypes die <strong>de</strong>ze karaktersets<br />
on<strong>de</strong>rsteunen heel zeldzaam zijn.<br />
Daarnaast bestaan er ook nog standaar<strong>de</strong>n voor verschillen<strong>de</strong> an<strong>de</strong>re talen die in <strong>de</strong> PRC<br />
gesproken wor<strong>de</strong>n zoals voor het Koreaans, Mongools, Yi en Uighurs. Voor een overzicht<br />
van GB standaar<strong>de</strong>n in verband met karkaterset zie Bijlage A.<br />
2.3. Meertalige karaktersets<br />
De eerste echt meertalige karakterset werd ontwikkeld in Japan en droeg <strong>de</strong> naam JIS C<br />
6226-1978, het was tevens <strong>de</strong> eerste karakterset dat brak met 8 bits en twee bytes gebruikte.<br />
Het bevatte het Romaanse alfabet, Grieks, Cyrillisch, symbolen, hiragana, katakana en<br />
kanji (<strong>Chinese</strong> karakters). De standaard draagt nu <strong>de</strong> naam JIS X 0208. De karakterset is<br />
<strong>op</strong>gebouwd uit 94 rijen en 94 kolommen (zoals beschreven in <strong>de</strong> ISO 2022 standaard) en kan<br />
8 836 karakters bevatten.<br />
In <strong>de</strong> eerste helft van <strong>de</strong> jaren ‘80 werd (ook in Japan) begonnen aan een karakterset dat<br />
alle karakters van Azië omvatte, genaamd TRON 48 (The Real-time Operating system Nucleus).<br />
Het systeem bestaat vandaag nog.<br />
Ook <strong>de</strong> eer<strong>de</strong>r vermel<strong>de</strong> CCCII en EACC kunnen als meertalige karaktersets wor<strong>de</strong>n<br />
beschreven.<br />
48 http://www.tron.org<br />
Thesis Sébastien Bruggeman Pagina 37
a) Unico<strong>de</strong> en ISO 10646<br />
In Amerika werd in <strong>de</strong> twee<strong>de</strong> helft van <strong>de</strong> jaren ’80 begonnen aan meertalige karaktersets<br />
en meertalige co<strong>de</strong>ringssystemen. Xerox Corporation (XCCS, Xerox Character Co<strong>de</strong><br />
Standard) en IBM Corporation implementeer<strong>de</strong>n toen reeds met succes <strong>de</strong>rgelijke<br />
karaktersets in hun <strong>computer</strong> systemen. Me<strong>de</strong>werkers van Xerox en Apple begonnen eind <strong>de</strong><br />
jaren ’80 aan <strong>de</strong> ontwikkeling van wat unico<strong>de</strong> werd genoemd (begon met een database dat <strong>de</strong><br />
relatie tussen Japanse en <strong>Chinese</strong> karakters in kaart bracht). De bedoeling was om alle<br />
schriften van <strong>de</strong> wereld in één groot karakterset on<strong>de</strong>r te brengen. 49 In 1989 stapten<br />
verschillen<strong>de</strong> an<strong>de</strong>re bedrijven in het project waaron<strong>de</strong>r Sun, Adobe en Hewlett-Packard.<br />
In september 1989 werd <strong>de</strong> eerste ‘draft’ gepubliceerd en in 1991 kwam versie 1.0 uit<br />
samen met <strong>de</strong> <strong>op</strong>richting van het Unico<strong>de</strong> Consortium 50 . 51<br />
In 1983 begon het ISO aan het ontwikkelen van een 32-bit karakterset Universal Multiple-<br />
Octet Co<strong>de</strong>d Character Set 52 (UCS) genaamd. De ISO standaard die <strong>de</strong> officiële naam<br />
ISO/IEC DIS 10646 Versie 1 (IEC staat voor International Electro-technical Commission 53 )<br />
kreeg, werd on<strong>de</strong>rsteund door <strong>de</strong> Japanse en Eur<strong>op</strong>ese on<strong>de</strong>rzoekers maar helaas niet door <strong>de</strong><br />
Amerikaanse <strong>computer</strong> firma's die gelijktijdig aan Unico<strong>de</strong> werkten. Ze beweer<strong>de</strong>n dat<br />
Unico<strong>de</strong> beter was dan ISO/IEC DIS 10646 Versie 1 omdat het eenvoudiger was. ISO 10646<br />
is namelijk een 32 bit co<strong>de</strong> en daardoor wordt <strong>de</strong> overdrachtssnelheid en <strong>op</strong>slagcapaciteit<br />
sterk beïnvloed, alhoewel een 3 byte karakterco<strong>de</strong> (2^24) 16 777 216 karakters aankan en<br />
daarmee genoeg om alle talen weer te geven, is het niet efficiënt. Omdat <strong>de</strong> meeste talen<br />
slechts één byte nodig hebben zou<strong>de</strong>n <strong>de</strong> 2 bijkomen<strong>de</strong> bytes om bijvoorbeeld <strong>de</strong> letter ‘S’<br />
weer te geven no<strong>de</strong>loze plaatsvulling zijn. Maar dit gaat natuurlijk enkel <strong>op</strong> voor onze<br />
westerse talen. Omdat het Unico<strong>de</strong> consortium bij machte was om parallel met <strong>de</strong> ISO een<br />
eigen standaard te ontwikkelen, door zwaar lobby werk en door on<strong>de</strong>rhan<strong>de</strong>lingen tussen<br />
bei<strong>de</strong> partijen werd <strong>de</strong> ontwikkeling van ISO/IEC DIS 10646 Versie 1 verlaten ten voor<strong>de</strong>le<br />
van een <strong>op</strong> <strong>de</strong> Unico<strong>de</strong> gebaseer<strong>de</strong> ISO/IEC 10646 Version 2, die nu ISO/IEC 10646-1: 1993<br />
wordt genoemd.<br />
Het Unico<strong>de</strong> Consortium noemt hun standaard Unico<strong>de</strong> en gebruikt standaard een<br />
‘variable-length’ 16-bit co<strong>de</strong>ring dat UTF-16 wordt genoemd. Eigenlijk is Unico<strong>de</strong> een subset<br />
van ISO 10646-1:1993 vanuit puur co<strong>de</strong>ringsstandpunt. Het is <strong>op</strong>gebouwd uit een 256x256<br />
49<br />
zie Tabel 44 voor een overzicht van welke talen allemaal in versie 3.2.0 zitten<br />
50<br />
http://www.unico<strong>de</strong>.org<br />
51<br />
Een chronologisch overzicht kan men terug vin<strong>de</strong>n <strong>op</strong> : http://www.unico<strong>de</strong>.org/unico<strong>de</strong>/history<br />
52<br />
wordt in Taiwan vertaald als 廣用多八位元編碼字元集 (guǎng yòng duō bā weìyuán biānmǎ zìyuánjí) terwijl<br />
het in China als 通用多八位编码字符集 (tōngyòng duō bā weì biānmǎ zìfújí) vertaalt wordt.<br />
53<br />
http://www.iec.ch 國際電工委員會 guójì diàngōng wěiyuánhuì<br />
Thesis Sébastien Bruggeman Pagina 38
matrixen, het eerste niveau (niveau 0) wordt het Basic Multilingual Plane (BMP) genoemd.<br />
Unico<strong>de</strong> geeft voorkeur aan Big Endian or<strong>de</strong>ning.<br />
In eerste instantie wou men alle karakters ter wereld in het BMP co<strong>de</strong>ren, maar het BMP<br />
beschikt maar over ± 65 000 co<strong>de</strong>punten. Dit is echter onmogelijk en daarom wer<strong>de</strong>n<br />
verschillen<strong>de</strong> karakters samengevoegd, meer bepaald <strong>de</strong> <strong>Chinese</strong> karakters die gebruikt<br />
wor<strong>de</strong>n in <strong>de</strong> Aziatische talen. Het Unico<strong>de</strong> Consortium heeft hiervoor in juli 1991 een<br />
<strong>Chinese</strong>/Japanese/Korean Joint Research Group (CJK-JRG) 54 <strong>op</strong>gericht, 1993 werd het CJK-<br />
JRG hernoemd tot I<strong>de</strong>ographic Rapporteur Group (IRG).<br />
Het doel van dit comité was om <strong>de</strong> Han-unificatie (Han Unification 55 ) in goe<strong>de</strong> banen te<br />
lei<strong>de</strong>n. Het bevat afgevaardig<strong>de</strong>n van <strong>de</strong> Volksrepubliek China, Hong Kong, Japan, Korea,<br />
Singapore, Republiek China (Taiwan), Vietnam, Verenig<strong>de</strong> Staten van Amerika en Unico<strong>de</strong><br />
Consortium. In <strong>de</strong>cember 1991 werd <strong>de</strong> UniHan 1.0 database vrijgegeven (een eerste draft<br />
was uitgegeven in 1989 en een twee<strong>de</strong> in <strong>de</strong>cember 1990). 56 Het heeft zich on<strong>de</strong>r an<strong>de</strong>re<br />
gebaseerd <strong>op</strong> bestaan<strong>de</strong> karaktersets. 57<br />
Enkel <strong>de</strong> verschillen<strong>de</strong> glyphs van een karakter wor<strong>de</strong>n samen gevoegd. Bij het<br />
samenvoegen wordt er een driedimensieel mo<strong>de</strong>l gemaakt van drie elementen namelijk<br />
semantiek (betekenis, functie), abstracte vorm (algemene vorm) en <strong>de</strong> werkelijke vorm (type-<br />
face vorm).<br />
Figuur 1 Het drie dimensioneel conceptueel mo<strong>de</strong>l gebruikt bij Han-unificatie<br />
54<br />
Dit is een ad hoc comité van ISO/IEC JTC1/SC2/WG2 (Joint Technical Committee 1, Subcommittee 2,<br />
Working Group 2)<br />
55<br />
Het Unico<strong>de</strong> Consortium geeft volgen<strong>de</strong> <strong>de</strong>finitie van <strong>de</strong> term: “The process of i<strong>de</strong>ntifying Han characters that<br />
are in common among the writing systems of <strong>Chinese</strong>, Japanese, Korean, and Vietnamese.”<br />
56<br />
The Unico<strong>de</strong> Standard, Version 3.0, Addison-Wesley, 2000, Appendix A.<br />
57<br />
Voor Chinees zijn <strong>de</strong> belangrijkste: GB2312-80, GB 12345-90, GB 7589-90, GB 7590-90, GB 8565-88, CNS<br />
11643-1992 niveau’s 1 tot en met 7 en 15, EACC, Big5.<br />
Thesis Sébastien Bruggeman Pagina 39
De karakters zijn geor<strong>de</strong>nd aan <strong>de</strong> hand van <strong>de</strong> positie die ze hebben in vier belangrijke<br />
woor<strong>de</strong>nboeken. In volgor<strong>de</strong> van belangrijkheid zijn <strong>de</strong>ze Kangxi Zidian, Dai Kan-Wa Jiten,<br />
Hanyu Da Zidian en Dae Jaweon. Als een karakter in <strong>de</strong> Kangxi Zidian gevon<strong>de</strong>n wordt dan<br />
volgt het <strong>de</strong> volgor<strong>de</strong> van <strong>de</strong> Kanxi Zidian, indien het karakter er niet in staat, dan wordt er<br />
gekeken naar <strong>de</strong> Dai Kan-Wa Jiten. Indien het karakter daarin gevon<strong>de</strong>n wordt dan wordt het<br />
geplaatst na het karakter dat er voor staat in <strong>de</strong> Dai Kan-Wa Jiten maar dan volgens <strong>de</strong> Kangxi<br />
Zidian volgor<strong>de</strong>. Indien het karakter niet gevon<strong>de</strong>n wordt dan wordt er gekeken naar <strong>de</strong><br />
Hanyu Da Zidian en <strong>de</strong> Dae Jaweon <strong>op</strong> eenzelf<strong>de</strong> manier. <strong>Chinese</strong> karakters met een<br />
vereenvoudigd radicaal wor<strong>de</strong>n geplaatst na het laatste karakter met het onvereenvoudig<strong>de</strong><br />
radicaal.<br />
Op dit ogenblik is <strong>de</strong> laatste Unico<strong>de</strong> standaard 3.2.0. Een lijst van software producten die<br />
unico<strong>de</strong> on<strong>de</strong>rsteunen is te vin<strong>de</strong>n <strong>op</strong> <strong>de</strong> website van het Unico<strong>de</strong> Consortium. 58<br />
Bij Unico<strong>de</strong> wordt er <strong>op</strong>nieuw begonnen vanaf 0. Bij <strong>de</strong> vorig besproken karaktersets<br />
werd steeds begonnen aan hogere getallen (>127) om <strong>de</strong> compatibiliteit met ASCII niet te<br />
verliezen. Unico<strong>de</strong> blijft compatibel met ASCII omdat het <strong>de</strong> eerste plaatsen <strong>op</strong>vult met<br />
ASCII.<br />
Unico<strong>de</strong> gaat nog iets ver<strong>de</strong>r dan <strong>de</strong> meeste karakterco<strong>de</strong>s en geeft aan ie<strong>de</strong>r karakter niet<br />
alleen een uniek nummer maar ook een officiële Engelstalige naam, die soms heel dui<strong>de</strong>lijk is<br />
en soms ook totaal nietszeggend kan zijn. Zo is <strong>de</strong> naam voor A: ‘Latin Capital Letter A’,<br />
terwijl <strong>de</strong> naam voor 骨 (gǔ, been) ‘CJK Unified I<strong>de</strong>ograph-9AA8’ is. Daarnaast <strong>de</strong>finieert <strong>de</strong><br />
standaard ook een groot <strong>de</strong>el normatieve eigenschappen en bijkomen<strong>de</strong> informatie.<br />
Negatieve kanten aan Unico<strong>de</strong> zijn dat <strong>de</strong> glyphs samengevoegd wor<strong>de</strong>n bijvoorbeeld <strong>de</strong><br />
glyphs voor 1 (één) zijn in het Chinees, Japans en Koreaans niet volledig hetzelf<strong>de</strong> maar toch<br />
werd maar één co<strong>de</strong>punt toegewezen. Zo wordt het radicaal “gras” van het karakter gras in het<br />
vereenvoudigd Chinees, Japans en Koreaans met drie streepjes geschreven, maar in het<br />
traditioneel Chinees met vier. Veel kritiek is echter cultuur gebon<strong>de</strong>n. Velen hebben het<br />
gevoel dat <strong>de</strong> talen verenigd zijn (dit door het feit dat karaktersets vroeger taalgebon<strong>de</strong>n<br />
waren), dit is echter totaal niet het geval. Ver<strong>de</strong>r zijn veel gespecialiseer<strong>de</strong>, zel<strong>de</strong>n gebruikte<br />
karakters nog niet geco<strong>de</strong>erd in Unico<strong>de</strong>. Daarnaast is het zeer moeilijk om nieuwe karakters<br />
in <strong>de</strong> Unico<strong>de</strong> standaard te krijgen. 59 Het kan via gebruik te maken via Private Use Area<br />
(PUA) of door mid<strong>de</strong>l van <strong>de</strong> I<strong>de</strong>ograph Description Sequence (IDS). Maar het probleem bij<br />
PUA is dat het niet echt in <strong>de</strong> standaard komt, en dat het dus compatibiliteitsproblemen kan<br />
58 http://www.unico<strong>de</strong>.org/unico<strong>de</strong>/onlinedat/products.html<br />
59 <strong>de</strong> procedure is terug te vin<strong>de</strong>n <strong>op</strong> http://www.unico<strong>de</strong>.org/pending/pr<strong>op</strong>osals.html<br />
Thesis Sébastien Bruggeman Pagina 40
geven bij het uitwisselen van data. Het IDS creëert eigenlijk karakters aan <strong>de</strong> hand van <strong>de</strong><br />
twaalf karakters gevon<strong>de</strong>n in <strong>de</strong> I<strong>de</strong>ographic Description blok (2FF0 – 2FFB) maar voegt<br />
eigenlijk ook geen karakters toe. 60 Zie Figuur 2 voor een voorbeeld van hoe het IDS precies<br />
werkt.<br />
Figuur 2 Gebruik van <strong>de</strong> I<strong>de</strong>ograph Description Sequence<br />
Ver<strong>de</strong>r probeert men ook geen symbolen of logo’s van bedrijven er in te plaatsen, dit kan<br />
kleine incompatibiliteiten geven met programma’s die voor bijvoorbeeld Mac zijn geschreven<br />
en die het Apple-teken ( ) willen weergeven.<br />
2.4. Conversie<br />
Zoals reeds vermeld hebben we twee soorten <strong>Chinese</strong> karakters, <strong>de</strong> vereenvoudig<strong>de</strong> en <strong>de</strong><br />
traditionele. Soms is het nodig om een <strong>Chinese</strong> tekst met traditionele karakters om te zetten<br />
naar verenvoudig<strong>de</strong> karakters en visa versa. Zolang men binnen eenzelf<strong>de</strong> soort <strong>Chinese</strong><br />
karakters bleef is conversie geen echt probleem (bijvoorbeeld big5 naar CNS 11643-1992).<br />
Soms ontstaan er fouten omdat een karakterset niet uitgebreid genoeg is (bijvoorbeeld van GB<br />
12345-90 naar GB 2312-80). Helaas is het probleem nog complexer, omdat één<br />
vereenvoudigd karakter soms verschillen<strong>de</strong> traditionele karakters kan omvatten.<br />
Een voorbeeld, we letten hierbij vooral <strong>op</strong> het twee<strong>de</strong> karakter, dit wordt in het<br />
vereenvoudigd Chinees <strong>op</strong> eenzelf<strong>de</strong> manier geschreven maar in het traditioneel Chinees<br />
wordt twee maal een an<strong>de</strong>r karakter gebruikt. Het woord voor “hoofdhaar” (tóufà) in<br />
vereenvoudigd Chinees ziet er als volgt uit 头发, in het traditioneel Chinees 頭髮, het woord<br />
voor “vertrekken” (chūfā) in het vereenvoudigd Chinees ziet er als volgt uit, 出发 en in het<br />
traditioneel Chinees 出發.<br />
60 The Unico<strong>de</strong> Standard, Version 3.0, p.268-271.<br />
Thesis Sébastien Bruggeman Pagina 41
Dit wil dus zeggen dat eenzelf<strong>de</strong> karakter (en dus eenzelf<strong>de</strong> co<strong>de</strong>) in het vereenvoudigd<br />
Chinees meer<strong>de</strong>re traditionele karakters (met verschillen<strong>de</strong> co<strong>de</strong>s) omvat. Sommige<br />
vereenvoudig<strong>de</strong> karakters hebben zelfs meer dan twee traditionele varianten bijvoorbeeld 干<br />
kan 幹, 乾, 榦 of 干 wor<strong>de</strong>n. 后天 (hòutiān, overmorgen) 王后 (wánghòu, koningin) wordt<br />
respectivelijk 後㆝ en 王后.<br />
Ver<strong>de</strong>r is er ook in <strong>de</strong> lo<strong>op</strong> van <strong>de</strong> tijd een verschillend woordgebruik ontstaan of wor<strong>de</strong>n<br />
namen an<strong>de</strong>rs vertaald. Dit stelt het probleem bij het converteren van teksten, namelijk<br />
moeten <strong>de</strong> karakters van woor<strong>de</strong>n gewoon naar hun traditionele variant wor<strong>de</strong>n geconverteerd<br />
of mogen/moeten <strong>de</strong> woor<strong>de</strong>n aangepast wor<strong>de</strong>n aan het doelpubliek. Zo heet een <strong>computer</strong> in<br />
China een 計算機 (jìsuànjī) terwijl het in Taiwan 電腦 (diànnǎo) heet.<br />
Daarnaast zijn <strong>de</strong> traditionele vormen die in <strong>de</strong> Volksrepubliek gebruikt wor<strong>de</strong>n niet altijd<br />
volledig hetzelf<strong>de</strong> als hun Taiwanese traditionele variant, maar in Taiwan wor<strong>de</strong>n ook<br />
vereenvoudig<strong>de</strong> karakters gebruikt (台 vs 臺).<br />
Voor Microsofts IIS webserver bestaat er een ActiveX component dat webpagina’s on-<br />
the-fly converteert 61 . In een Traditioneel <strong>Chinese</strong> windows zit er een tool om bestan<strong>de</strong>n te<br />
converteren. Veel programma’s bevatten een converter, bijvoorbeeld TwinBridge. Op Apple<br />
bestaat er <strong>de</strong> Text Encoding Converter (TEC). Verschillen<strong>de</strong> conversieprogramma’s maken<br />
gebruik van <strong>de</strong>ze TEC zoals Apple <strong>Chinese</strong> Converter, Cyclone, Uctrans en Kctrans.<br />
61 http://www.overseas.com.tw/ccccc/<br />
Thesis Sébastien Bruggeman Pagina 42
3. Co<strong>de</strong>ring<br />
lengte.<br />
Er zijn verschillen<strong>de</strong> categorieën van co<strong>de</strong>ringsmetho<strong>de</strong>s: modale, niet-modale en vaste-<br />
Modale co<strong>de</strong>ringsmetho<strong>de</strong>s maken gebruik van escape sequences 62 of an<strong>de</strong>re speciale<br />
karakters om te kunnen wisselen tussen karaktersets of verschillen<strong>de</strong> versies van een<br />
karakterset en ook om van 1 byte naar 2 byte modus over te gaan. Er bestaan<br />
enkelzijdige en dubbelzijdige modale co<strong>de</strong>ringen.<br />
Bij enkelzijdige modale co<strong>de</strong>ringsmetho<strong>de</strong>s wordt er enkel een startsequentie aan het<br />
begin van <strong>de</strong> veran<strong>de</strong>ring ingevoegd maar niet <strong>op</strong> het ein<strong>de</strong>.<br />
Bij dubbelzijdige modale co<strong>de</strong>ringen wordt er een startsequentie aan het begin van <strong>de</strong><br />
veran<strong>de</strong>ring ingevoegd en een eindsequentie bij het terugschakelen van <strong>de</strong> veran<strong>de</strong>ring.<br />
Dit on<strong>de</strong>rscheid kan van belang zijn bij sorteer<strong>op</strong>eraties. Deze co<strong>de</strong>ringsmetho<strong>de</strong>s<br />
gebruiken in het algemeen 7 bits. ISO 2022 en UTF-7 zijn voorbeel<strong>de</strong>n van modale<br />
co<strong>de</strong>ringsmetho<strong>de</strong>s. HZ is een voorbeeld van een dubbelzijdige modale<br />
co<strong>de</strong>ringsmetho<strong>de</strong>.<br />
Niet-modale co<strong>de</strong>ringsmetho<strong>de</strong>s maken gebruik van <strong>de</strong> numerieke waar<strong>de</strong> van een byte om<br />
te beslissen wanneer we moeten wisselen tussen 1 en 2 byte modus. Deze<br />
co<strong>de</strong>ringsmetho<strong>de</strong>s maken meestal gebruik van 8 bits en zijn van variabele lengte. Deze<br />
vorm van co<strong>de</strong>ring gebruikt meestal min<strong>de</strong>r plaats dan modale en vaste-lengte<br />
co<strong>de</strong>ringsmetho<strong>de</strong>s wat betreft het aantal benodig<strong>de</strong> bytes om eenzelf<strong>de</strong> karakter weer te<br />
geven. Voorbeel<strong>de</strong>n van <strong>de</strong>ze co<strong>de</strong>ringsmetho<strong>de</strong> zijn Big5, Big5+, <strong>de</strong> verschillen<strong>de</strong><br />
versies van EUC, GBK, UTF-8 en UTF-16.<br />
Vaste-lengte co<strong>de</strong>ringsmetho<strong>de</strong>s gebruiken een zelf<strong>de</strong> aantal van bytes om alle karakters in<br />
een karakterset weer te geven. Er is hier dus geen wissel tussen 1 en 2 byte modus nodig.<br />
Deze vorm van co<strong>de</strong>ring vereenvoudigt tekstintensieve <strong>op</strong>eraties zoals zoeken, in<strong>de</strong>xeren<br />
en sorteren van tekst, maar ze kunnen veel plaatsverlies betekenen. Voorbeel<strong>de</strong>n van<br />
<strong>de</strong>ze co<strong>de</strong>ringsmetho<strong>de</strong> zijn ASCII, UCS-2 en UCS-4.<br />
62 Escape sequence: ECMA <strong>de</strong>finitie “A string of bit combinations that is used for control purposes in co<strong>de</strong><br />
extension procedures. The first of these bit combinations represents the control function ESCAPE.”. Deze escape<br />
sequences zijn geregistreerd bij het ISO. ISO 2375:1985: Data processing – Procedure for registration of escape<br />
sequences.<br />
Thesis Sébastien Bruggeman Pagina 43
3.1. Westerse talen<br />
De co<strong>de</strong>ring voor <strong>de</strong> ASCII karakterset staat beschreven in ISO 646:1991 (Information<br />
Technology: ISO 7-bit Co<strong>de</strong>d Character Set for Information Interchange). Het gebruikt 7 bits<br />
waardoor het 128 unieke te co<strong>de</strong>ren karakters toe laat. 63 Slechts 94 van <strong>de</strong>ze karakters in<br />
ASCII zijn printbaar, <strong>de</strong> overige 34 zijn controle karakters 64 of ‘white spaces’. Deze ‘white<br />
spaces’ zijn karakters zoals een spatie of een tab.<br />
ISO 8859 maakt gebruik van 8 bits en laat daardoor 256 uniek geco<strong>de</strong>er<strong>de</strong> karakters toe. 65<br />
IBM ontwikkel<strong>de</strong> zijn eigen enkel-byte karakterset, EBCDIC (Exten<strong>de</strong>d Binary Co<strong>de</strong>d<br />
Decimal Interchange Co<strong>de</strong>) genaamd. Het aantal en <strong>de</strong> types printbare karakters zijn <strong>de</strong>zelf<strong>de</strong><br />
als bij ASCII, maar <strong>de</strong> co<strong>de</strong>ring ervan is volledig verschillend van ASCII.<br />
3.2. Chinees<br />
Met <strong>de</strong> uitzon<strong>de</strong>ring van Big5 en ISO 10646-1:1993 zijn er twee co<strong>de</strong>ringsmetho<strong>de</strong>s die<br />
voor bijna alle Oost-Aziatische talen (maar niet uitsluitend) gebruikt wor<strong>de</strong>n namelijk ISO<br />
2022 en EUC (Exten<strong>de</strong>d Unix Co<strong>de</strong>), er zijn echter wel lokale varianten van <strong>de</strong>ze<br />
co<strong>de</strong>ringsmetho<strong>de</strong>s.<br />
a) HZ en EHZ<br />
HZ (is een afkorting voor 汉字 hànzì) werd in 1989 ontwikkeld door Fung-Fung Lee (李<br />
枫峰 lǐ fēngfēng), een stu<strong>de</strong>nt aan <strong>de</strong> universiteit van Stanford. Het werd ontwikkeld om GB<br />
2312-80 tekst te co<strong>de</strong>ren speciaal voor het uitwisselen van e-mails en berichten <strong>op</strong><br />
nieuwsgroepen (maar wordt ook <strong>op</strong> an<strong>de</strong>re plaatsen gebruikt zoals in bijvoorbeeld terminal<br />
elmulators on<strong>de</strong>r Linux).<br />
Het is een dubbelzijdige modale co<strong>de</strong>ringsmetho<strong>de</strong>. Het wordt beschreven in RFC 1843<br />
HZ - A Data Format for Exchanging Files of Arbitrarily Mixed <strong>Chinese</strong> and ASCII characters.<br />
Het maakt gebruik van een shift sequence 66 van twee printbare karakters (in plaats van een<br />
escape sequence) om van <strong>de</strong> één byte karakters naar <strong>de</strong> twee byte (<strong>Chinese</strong>) karakters te<br />
verspringen.<br />
63<br />
2^7 = 128<br />
64<br />
<strong>Chinese</strong> term: 控制碼 kòngzhìmǎ<br />
65<br />
2^8 = 256<br />
66<br />
Shift sequence: is een escape sequence (zie noot 62) die niet begint met het controle karakter ESC.<br />
Thesis Sébastien Bruggeman Pagina 44
Er wordt uitgegaan van <strong>de</strong> veron<strong>de</strong>rstelling dat er slechts GB 2312-80 en ASCII bestaat.<br />
GB bestaat uit twee bytes waarvan <strong>de</strong> eerste byte valt in het gebied 0x21 tot 0x77 en <strong>de</strong><br />
twee<strong>de</strong> byte in het gebied 0x21 tot 0x7E. Grafische ASCII karakters vallen in het gebied 0x21<br />
tot 0x7E en niet grafische ASCII karakters in het gebied 0x00 tot 0x20 en 0x7F. Aangezien<br />
het gebied van een GB byte overlapt met een byte van een grafisch ASCII karakter moet er<br />
dus versprongen wor<strong>de</strong>n van modus, dit gebeurt via een niet-grafisch ASCII karakter dat in<br />
bei<strong>de</strong> sets gelijk is (‘~’ staat <strong>op</strong> positie 0x7E en valt dus buiten het gebied van een eerste byte<br />
van een GB karakter). De standaard modus is ASCII en alles wordt behan<strong>de</strong>ld als ASCII tot<br />
dat er een til<strong>de</strong> (~) tegengekomen wordt. De til<strong>de</strong> moet gevolgd wor<strong>de</strong>n door een ~, een {,<br />
een } of een /n (nieuwe regel).<br />
Het gebruikt een ~{ om het begin aan te dui<strong>de</strong>n van een GB reeks, vanaf dan wor<strong>de</strong>n<br />
bytes per twee behan<strong>de</strong>ld tot er ~} wordt tegen gekomen dat aanduidt dat er terug naar ASCII<br />
mo<strong>de</strong> moet wor<strong>de</strong>n overgeschakeld. Om een til<strong>de</strong> in ASCII weer te geven moet het dubbel<br />
geco<strong>de</strong>erd wor<strong>de</strong>n (~~), willen we twee bytes behou<strong>de</strong>n terwijl we van lijn verspringen dan<br />
moet ~ (~/n) meegegeven wor<strong>de</strong>n. Een voorbeeld:<br />
Dit is ASCII, wat volgt is in GB .~{
) ISO 2022<br />
Deze co<strong>de</strong>ringsmetho<strong>de</strong> staat beschreven in ISO 2022:1994, Information Technology –<br />
Character co<strong>de</strong> structure and extention techniques. 67 Eigenlijk is het niet echt geschikt voor<br />
interne <strong>op</strong>slag of bewerking <strong>op</strong> <strong>computer</strong> systemen, het werd ontworpen vor informatie<br />
uitwisseling tussen <strong>computer</strong>s, zoals e-mail. Het is een 7 bit modale co<strong>de</strong>ringsmetho<strong>de</strong>. Er<br />
zijn slechts enkele programma’s die ISO 2022 intern kunnen verwerken (bv Emacs Version<br />
20), an<strong>de</strong>re programma’s (meestal e-mail programma’s) zijn wel in staat om ISO 2022<br />
geco<strong>de</strong>er<strong>de</strong> tekst te maken maar verwerken <strong>de</strong> ISO 2022 co<strong>de</strong>ring niet noodzakelijk intern.<br />
De waar<strong>de</strong>n die gebruikt wor<strong>de</strong>n voor het co<strong>de</strong>ren van bytes vallen in <strong>de</strong> hexa<strong>de</strong>cimale<br />
gebied 0x21-0x7E en dit voor zowel <strong>de</strong> eerste als twee<strong>de</strong> byte, dit gebied komt overeen met<br />
het gebied van printbare ASCII karakters. Het gebruikt speciale karakters of speciale reeksen<br />
van karakters namelijk <strong>de</strong>signator sequences 68 , single shift sequences 69 (SSx), shifting<br />
characters 70 en escape sequences 71 .<br />
Van <strong>de</strong>ze co<strong>de</strong>ringsmetho<strong>de</strong> zijn er twee <strong>Chinese</strong> varianten (er is ook een Japanse en<br />
Koreaanse variant respectivelijk ISO-2022-JP en ISO-2022-KR) namelijk ISO-2022-CN en<br />
ISO-2022-CN-EXT, die bei<strong>de</strong>n in RFC 1922 (<strong>Chinese</strong> Character Encoding for Internet<br />
Messages) staan beschreven. Het verschil tussen ISO-2022-CN en ISO-2022-CN-EXT is dat<br />
ISO-2022-CN enkel ASCII, GB 2312-80 en niveaus 1 en 2 van CNS 11643-1992 on<strong>de</strong>rsteunt.<br />
ISO-2022-CN-EXT is i<strong>de</strong>ntiek aan ISO-2022-CN maar het biedt on<strong>de</strong>rsteuning voor meer<br />
karaktersets. Chinees en ASCII wor<strong>de</strong>n van elkaar on<strong>de</strong>rschei<strong>de</strong>n door <strong>de</strong>signations en shift<br />
functies. Het zijn <strong>de</strong> <strong>de</strong>signations die bepalen welke <strong>Chinese</strong> karakterset er gebruikt zal<br />
wor<strong>de</strong>n. Zie tabel Tabel 20 en<br />
Tabel 21.<br />
Tabel 20 ISO-2022-CN<br />
Designator Karakterset<br />
SO GB 2312-80 en CNS 11643-1992 niveau 1<br />
SS2 CNS 11643-1992 niveau 2<br />
67 Standard ECMA-35 is nu i<strong>de</strong>ntiek aan ISO2022 en is integraal terug te vin<strong>de</strong>n <strong>op</strong> <strong>de</strong> ECMA website.<br />
68 Designator sequence: Het geeft aan welke karakterset moet gebruikt wor<strong>de</strong>n wanneer er overgeschakeld wordt<br />
naar dubbele byte modus. Het zorgt evenwel niet voor <strong>de</strong> overschakeling. Het moet in ie<strong>de</strong>re lijn voorkomen die<br />
karakters van <strong>de</strong> karakterset bevat, dit zodat <strong>de</strong> karakters correct zou<strong>de</strong>n weergegeven wor<strong>de</strong>n als er terug<br />
‘gescrolled’ wordt in een venster.<br />
69 Single shift sequence: zorgt voor <strong>de</strong> overschakeling naar dubbele byte modus voor <strong>de</strong> twee karakters die er <strong>op</strong><br />
volgen. Wordt aangeduid met SS2 (0x1B 0x4E) of SS3 (0x1B 0x4F)<br />
70 Shifting character: zorgt voor <strong>de</strong> overschakeling tussen enkele en dubbele byte modus. Een SO (0x0E) duidt<br />
het begin aan, een SI (0x0F) duidt het ein<strong>de</strong> aan van een dubbele byte modus.<br />
71 Escape sequence: Duidt niet alleen aan welke karakterset er moet gebruikt wor<strong>de</strong>n, maar zorgt ook voor <strong>de</strong><br />
overschakeling.<br />
Thesis Sébastien Bruggeman Pagina 46
Tabel 21 ISO-2022-CN-EXT<br />
Designator Karakterset<br />
SO GB 2312-80, GB 12345, ISO-IR-165:1992 en CNS 11643-1992 niveau 1<br />
SS2 GB 7589-87, GB 13131-91 en CNS 11643-1992 niveau 2<br />
SS3 GB 7590-87, GB 13132-91, CNS 11643-1992 niveau 3 tot 7<br />
De invoer van een <strong>de</strong>signator zorgt ervoor dat <strong>de</strong> vorige sequences ongedaan gemaakt<br />
wor<strong>de</strong>n voor <strong>de</strong> karakters die volgen. Hoe <strong>de</strong>ze sequenties er precies uitzien kan men<br />
terugvin<strong>de</strong>n in Tabel 38 en Tabel 39. Ie<strong>de</strong>re lijn moet beginnen en eindigen in ASCII, met<br />
an<strong>de</strong>re woor<strong>de</strong>n er moet een SI wor<strong>de</strong>n meegeven voor het ein<strong>de</strong> van <strong>de</strong> lijn.<br />
Hieron<strong>de</strong>r volgt <strong>de</strong> hexa<strong>de</strong>cimale representatie van “交换交換” geco<strong>de</strong>erd met ISO-2022-<br />
CN waarbij 交換 (jiāohuàn, uitwisseling) <strong>de</strong> eerste maal uit GB 2312-80 karakterset wordt<br />
gehaald en <strong>de</strong> twee<strong>de</strong> maal uit CNS 11643-1992 niveau 1. 72<br />
1B 24 29 41 0E 3D 3B 3B 3B 1B 24 29 47 47 28 5F 50 0F<br />
1B 24 29 41 0E 3D 3B 3B 3B 1B 24 29 47 47 28 5F 50 0F<br />
$ ) A 交换 $ ) G 交換 <br />
GB 2312-80 Begin 2 bytes CNS 11643-92 Ein<strong>de</strong> 2 bytes<br />
c) EUC<br />
EUC staat voor Exten<strong>de</strong>d Unix Co<strong>de</strong>. EUC is een niet-modale variable-lengte 8-bit<br />
co<strong>de</strong>ringsmetho<strong>de</strong>. Het is ontwikkeld als een metho<strong>de</strong> om verschillen<strong>de</strong> karaktersets te<br />
verwerken in één enkele tekststroom. De volledige <strong>de</strong>finitie van EUC co<strong>de</strong>ring bestaat uit 4<br />
co<strong>de</strong> sets. Co<strong>de</strong> set 0 is altijd ofwel <strong>de</strong> ASCII karakterset of een lan<strong>de</strong>lijke variant van ISO<br />
646. De an<strong>de</strong>re co<strong>de</strong> sets zijn een set van variabelen waaruit elk land kan kiezen. Om het<br />
on<strong>de</strong>rscheid te maken tussen ASCII en een <strong>Chinese</strong> karakterset wordt <strong>de</strong> eerste bit van <strong>de</strong><br />
eerste byte <strong>op</strong> 1 geplaatst. Karakters uit <strong>de</strong> <strong>de</strong>r<strong>de</strong> co<strong>de</strong> set wor<strong>de</strong>n voorafgegaan door het<br />
controlekarakter SS2 (0x8E), karakters uit <strong>de</strong> vier<strong>de</strong> co<strong>de</strong> set wor<strong>de</strong>n voorafgegaan door het<br />
controlekarakter SS3 (0x8F). Er zijn verschillen<strong>de</strong> co<strong>de</strong> posities die niet kunnen gebruikt<br />
wor<strong>de</strong>n voor het co<strong>de</strong>ren van printbare karakters namelijk karakters tussen 0x00 – 0x1F en<br />
0x80 – 9F en <strong>de</strong> karakters <strong>op</strong> <strong>de</strong> punten 0x20 (space) en 0x7F (<strong>de</strong>lete). Het gebied 0x21 tot<br />
0x7E wordt gebruikt om enkel-byte ASCII te co<strong>de</strong>ren terwijl het gebied 0xA1 tot 0xFE wordt<br />
gebruikt voor het co<strong>de</strong>ren van twee byte <strong>Chinese</strong> karakters.<br />
EUC-CN wordt gebruikt in China. Dit is een co<strong>de</strong>ring die gebruik maakt van één en twee<br />
byte co<strong>de</strong>ring. Het gebruikt enkel <strong>de</strong> eerste 2 co<strong>de</strong>sets. De eerste is zoals voorgeschreven<br />
ASCII en <strong>de</strong> twee<strong>de</strong> set is GB 2312-80.<br />
72 http://freebsd.sinica.edu.tw/~statue/hanzi/iso2022-2.htm<br />
Thesis Sébastien Bruggeman Pagina 47
EUC-TW wordt gebruikt in Taiwan. De lengte van <strong>de</strong> co<strong>de</strong>ring van een karakter kan<br />
ofwel één, twee of vier bytes lang zijn. Het gebruikt drie co<strong>de</strong>sets. Co<strong>de</strong> set 0 is ASCII, co<strong>de</strong><br />
set 1 bevat CNS 11643-1992 niveau 1, co<strong>de</strong> set 2 bevat CNS 11643-1992 niveaus 2 tot 16.<br />
Door het groot aantal karakters in co<strong>de</strong> set 2 wordt die geco<strong>de</strong>erd met 4 bytes. Zie Tabel 40<br />
voor het gebruik van <strong>de</strong> single shift.<br />
d) GBK<br />
Deze co<strong>de</strong>ring wordt gebruikt voor <strong>de</strong> GBK karakterset, het is ook <strong>de</strong> standaard co<strong>de</strong>ring<br />
voor <strong>de</strong> <strong>Chinese</strong> versies van Windows in <strong>de</strong> Volksrepubliek. Het biedt plaats aan 23 940 co<strong>de</strong><br />
plaatsen waarvan er aan 21 886 karakters zijn toegewezen. Het is compatibel met EUC-CN<br />
want GBK nam EUC-CN’s co<strong>de</strong> set 1 als zijn basis.<br />
e) Big5 en Big5+<br />
Zijn niet-modale co<strong>de</strong>ringsmetho<strong>de</strong>s. Big5 en EUC-TW zijn heel verschillend van elkaar,<br />
EUC-TW is een gemengd één-, twee-, vier-byte co<strong>de</strong>ring dat bestaat uit niveaus, terwijl Big5<br />
een gemeng<strong>de</strong> één- en twee-byte co<strong>de</strong>ring is waarvan <strong>de</strong> waar<strong>de</strong>n van <strong>de</strong> twee<strong>de</strong> byte tot in <strong>de</strong><br />
7 bit regio reiken (eerste byte: A1 – FE, twee<strong>de</strong> byte: 0x40 – 0x7E en 0xA1 – 0xFE).<br />
Big5+ is een extensie van Big5 en nam daarom Big5 als zijn basis.<br />
f) Overzicht<br />
Tabel 22 Co<strong>de</strong>ringen en <strong>de</strong> on<strong>de</strong>rsteun<strong>de</strong> karaktersets<br />
Co<strong>de</strong>ring On<strong>de</strong>rsteun<strong>de</strong> karaktersets<br />
ASCII ASCII, GB-Roman, CNS-Roman,<br />
ISO 2022 ASCII, GB-Roman, CNS-Roman,GB 2312-80, CNS 11643-1992<br />
EUC ASCII, GB-Roman, CNS-Roman,GB 2312-80, GB/T 12345-90, CNS 11643-1992<br />
GBK ASCII, GB-Roman, GB 2312-80, GB/T 12345-90<br />
HZ ASCII, GB-Roman, GB 2312-80<br />
Big5 ASCII, CNS-Roman, Big5<br />
Big5+ ASCII, CNS-Roman, Big5+<br />
Tabel 23 Karaktersets en on<strong>de</strong>rsteun<strong>de</strong> co<strong>de</strong>ringen<br />
Karakterset On<strong>de</strong>rsteun<strong>de</strong> co<strong>de</strong>ringen<br />
CCCII, EACC 3 byte ISO 2022<br />
CNS 11643 ISO-2022-CN, ISO-2022-CN-EXT en EUC-TW<br />
Big5 Big5<br />
GB ISO 2022, ISO-2022-CN, ISO-2022-CN-EXT, GBK, EUC-CN, HZ, zW<br />
GBK GBK<br />
Thesis Sébastien Bruggeman Pagina 48
3.3. Meertalig<br />
a) UCS<br />
UCS staat voor Universal Character Set en heeft twee co<strong>de</strong>ringsmetho<strong>de</strong>s namelijk UCS-<br />
2 en UCS-4. UCS-2 gebruikt 2 bytes en UCS-4 gebruikt 4 bytes. Ze gebruiken een vaste-<br />
lengte co<strong>de</strong>ring. Eigenlijk is UCS-4 geen 32-bit maar slechts een 31-bit co<strong>de</strong> en dit laat dus 2<br />
147 483 648 co<strong>de</strong> punten toe. 73<br />
Tabel 24 UCS-4 is slechts een 31-bit co<strong>de</strong><br />
Bits 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx<br />
Control 7 2 2 2 2 2 = 17<br />
Data 1 6 6 6 6 6 = 31<br />
b) UTF<br />
UTF staat voor UCS Transformation Format, ook hiervan zijn er verschillen<strong>de</strong> versies<br />
namelijk UTF-7, UTF-8, UTF-16 en UTF-32.<br />
UTF-7 is zeer gelijkend aan Base64. Het wordt beschreven in RFC 2152 UTF-7: A Mail-<br />
Safe Transformation Format of Unico<strong>de</strong>. Het is een 7 bit co<strong>de</strong>ring. Het kan alleen gebruikt<br />
wor<strong>de</strong>n om UCS-2 en UTF-16 te co<strong>de</strong>ren. Wat het eigenlijk doet is <strong>de</strong> unico<strong>de</strong> karakters<br />
co<strong>de</strong>ren als US-ASCII bytes samen met shift sequenties (hiervoor wordt ‘+’ gebruikt om het<br />
begin van een shift aan te dui<strong>de</strong>n en ‘-’ om het ein<strong>de</strong> ervan aan te dui<strong>de</strong>n) om karakters die<br />
buiten dat gebied vallen te kunnen co<strong>de</strong>ren. UTF-7 is enkel ontwikkeld enkel en alleen om in<br />
mail-omgeving gebruikt te wor<strong>de</strong>n. In an<strong>de</strong>re omstandighe<strong>de</strong>n gaat <strong>de</strong> voorkeur naar UTF-8<br />
of an<strong>de</strong>re co<strong>de</strong>ringen van Unico<strong>de</strong>. Om een ‘+’ weer te geven moet ‘+-’ wor<strong>de</strong>n ingegeven en<br />
voor een ‘-’ moet het twee maal geco<strong>de</strong>erd wor<strong>de</strong>n (‘--’).<br />
Voorbeeld: Hi Mom J! Wordt geco<strong>de</strong>erd als ‘Hi Mom +Jjo-!’<br />
Hi Mom + Jjo - !<br />
ASCII Begin co<strong>de</strong>ring J Ein<strong>de</strong> co<strong>de</strong>ring ASCII<br />
0048 0069 0020 004D 006F 006D 0020 263A 0021<br />
73 2^31 = 2 147 483 648<br />
Thesis Sébastien Bruggeman Pagina 49
UTF-8 werd ontwikkeld om Unico<strong>de</strong> tekst weer te geven als octets in plaats van als 16-bit<br />
eenhe<strong>de</strong>n. Het werd beschreven in RFC 2279 UTF-8, a transformation format of ISO 10646.<br />
Het is een 8 bit-variabele-lengte co<strong>de</strong>ring. Het kan gebruikt wor<strong>de</strong>n om UCS-2 en UCS-4 te<br />
co<strong>de</strong>ren. Het voor<strong>de</strong>el is dat ie<strong>de</strong>re geldige ASCII string ook een geldige UTF-8 string is<br />
waardoor we terugwaartse compatibiliteit hebben. In UTF-8 wor<strong>de</strong>n karakters geco<strong>de</strong>erd in 1<br />
tot 6 bytes, wanneer een byte alleen voorkomt dat wordt <strong>de</strong> eerste bit <strong>op</strong> 0 gezet, indien een<br />
karakter uit meer<strong>de</strong>re bytes bestaat wordt <strong>de</strong> eerste bit <strong>op</strong> 1 gezet en wordt gevolgd door een<br />
bit <strong>op</strong> 0.<br />
Tabel 25 UTF-8 co<strong>de</strong>ring van UCS-2 en UCS-4<br />
UCS2<br />
UCS4<br />
Range (hex.) UTF-8 octet sequence (binary)<br />
0000 0000-0000 007F 0xxxxxxx<br />
0000 0080-0000 07FF 110xxxxx 10xxxxxx<br />
0000 0800-0000 FFFF 1110xxxx 10xxxxxx 10xxxxxx<br />
0001 0000-001F FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx<br />
0020 0000-03FF FFFF 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx<br />
0400 0000-7FFF FFFF 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx<br />
Voorbeeld: 日本語<br />
日 本 語<br />
HEX 65E5 672C 8A9E<br />
UTF-8 E6 97 A5 E6 9C AC E8 AA 9E<br />
UTF-16 co<strong>de</strong>ert normaalgezien enkel UCS-2 maar laat ook toe om <strong>de</strong> volgen<strong>de</strong> 16<br />
niveaus te co<strong>de</strong>ren die normaalgezien enkel toegankelijk zijn via UCS-4. Het is een variabele-<br />
lengte co<strong>de</strong>ring dat gebruik maakt van een gemeng<strong>de</strong> 16 en 32 bit co<strong>de</strong> ruimte. In<br />
programma’s die geen UTF-16 aankunnen (en dus ie<strong>de</strong>r byte interpreteren als een karakter)<br />
zal het woord ‘hallo’ weergegeven wor<strong>de</strong>n als ‘h a l l o’. Er bestaat UTF-16BE (Big Endian)<br />
en UTF-16LE. (Little Endian). Indien <strong>de</strong> tekst gelabeld staat als UTF-16 kan er een 0xFEFF<br />
wor<strong>de</strong>n meegestuurd als Byte Or<strong>de</strong>r Mark (BOM) en het heeft enkel die betekenis als het aan<br />
het begin van een sequentie staat (an<strong>de</strong>rs betekent het zero width non-breaking space), aan <strong>de</strong><br />
hand daarvan kan men dus <strong>de</strong> or<strong>de</strong>ning van <strong>de</strong> bytes aflei<strong>de</strong>n. als 0xFE gevolgd wordt door<br />
0xFF dan is het BE. Indien <strong>de</strong> eerste bytes 0xFF gevolgd door 0xFE zijn dan is het LE. Indien<br />
<strong>de</strong> tekst gelabeld staat als UTF-16BE of UTF-16BE dan mag er geen BOM meegestuurd<br />
wor<strong>de</strong>n<br />
Thesis Sébastien Bruggeman Pagina 50
Voorbeeld: (0x12345)=Ra (<strong>de</strong> hexa<strong>de</strong>cimale co<strong>de</strong> is <strong>de</strong> co<strong>de</strong> voor het teken Ra)<br />
(0x12345)=Ra<br />
BE D8 08 DF 45 00 3D 00 52 00 61<br />
LE 08 D8 45 DF 3D 00 52 00 61 00<br />
UTF-32 is <strong>de</strong> laatste co<strong>de</strong>ring. Het kan ook <strong>op</strong>ge<strong>de</strong>elt wor<strong>de</strong>n in UTF-32 (al dan niet<br />
gebruik maken<strong>de</strong> van een BOM), UTF-32BE en UTF-32LE. Het kan alle co<strong>de</strong>punten van<br />
Unico<strong>de</strong> co<strong>de</strong>ren. UTF-32 is een subset van UCS-4. 74<br />
74 http://www.unico<strong>de</strong>.org/unico<strong>de</strong>/reports/tr19/<br />
Thesis Sébastien Bruggeman Pagina 51
4. Hardware<br />
4.1. Toetsenbord<br />
Voor het <strong>computer</strong>toetsenbord werd <strong>de</strong> typmachine gebruikt. Een <strong>Chinese</strong> typemachine<br />
bestond uit een soort dienblad dat meer dan 2000 karakters kon bevatten, en verschillen<strong>de</strong><br />
duizen<strong>de</strong>n meer in an<strong>de</strong>re platen (zie Figuur 13 <strong>op</strong> pagina 89). De typist moest eerst <strong>de</strong> plaat<br />
uitlijnen, vervolgens een toets drukken die ervoor zorg<strong>de</strong> dat een arm het gewenste karakter<br />
aandrukte tegen het papier. De machine kon zowel horizontaal als verticaal typen. Het was<br />
re<strong>de</strong>lijk traag maar goe<strong>de</strong> typisten haal<strong>de</strong>n toch ongeveer 20 karakters per minuut. Met <strong>de</strong><br />
komst van <strong>de</strong> <strong>computer</strong> was dit toestel totaal achterhaald. Er moest dus gezocht wor<strong>de</strong>n naar<br />
manieren om Chinees in te voeren via het toetsenbord dat men aan <strong>de</strong> <strong>computer</strong> kon<br />
aansluiten.<br />
De meest voorkomen<strong>de</strong> toetsenbord layout in Azië is net zoals in Amerika <strong>de</strong> QWERTY<br />
layout. Het probleem is dat een toetsenbord niet alle karakters kan bevatten, zelfs niet een<br />
voldoen<strong>de</strong> aantal. Dus wer<strong>de</strong>n er twee zaken bedacht: invoermetho<strong>de</strong>s (input methods) en<br />
conversie woor<strong>de</strong>nboeken (conversion dictionaries). Concreet houdt dit in dat een gebruiker<br />
typt, <strong>de</strong> <strong>computer</strong> interpreteert <strong>de</strong> invoer aan <strong>de</strong> hand van <strong>de</strong> invoermetho<strong>de</strong>, (<strong>de</strong> invoer wordt<br />
door een in <strong>de</strong> invoermetho<strong>de</strong> ingebouw<strong>de</strong> parser gehaald) en het conversiewoor<strong>de</strong>nboek<br />
geeft een lijst van mogelijke karakters die overeenkomen met <strong>de</strong> invoer weer (zeer gelijkend<br />
aan key-value-lookup). Vervolgens moet <strong>de</strong> gebruiker een keuze maken uit <strong>de</strong> lijst ofwel<br />
meer keuzes <strong>op</strong>vragen. Hoe groter het conversiewoor<strong>de</strong>nboek hoe langer <strong>de</strong> lijst van<br />
mogelijke kandidaat karakters. De invoermetho<strong>de</strong> moet er wel voor zorgen dat het als eerste<br />
<strong>de</strong> invoer verwerkt, daarom spreken we ook vaak van front-end processor (FEP), ze draaien<br />
meestal onafhankelijk van het programma dat <strong>de</strong> eigenlijke invoer nodig heeft en daarom<br />
kunnen ze ook voor meer<strong>de</strong>re programma’s gebruikt wor<strong>de</strong>n.<br />
Er zijn vier soorten ‘input method editing’ namelijk on-the-spot, over-the-spot, off-the-<br />
spot en root-window 75 .<br />
75 http://www.mozilla.org/projects/intl/input-method-spec.html<br />
Thesis Sébastien Bruggeman Pagina 52
Bij on-the-spot (ook wel inline input genoemd) wordt <strong>de</strong> tekst rechtstreeks in <strong>de</strong> tekst door<br />
het programma ingevoerd. De tekst die eventueel na <strong>de</strong> positie van invoer staat wordt mee<br />
<strong>op</strong>geschoven tij<strong>de</strong>ns <strong>de</strong> invoer. Er wordt eventueel mogelijks nog uit <strong>de</strong> juiste kandidaten<br />
gekozen en vervolgens wordt <strong>de</strong> tekst werkelijk ingevoegd.<br />
Bij over-the-spot wordt <strong>de</strong> tekst als een soort ‘laag’ ingevoerd en kan aldus over tekst<br />
komen die er <strong>op</strong> volgt. Als <strong>de</strong> gebruiker <strong>de</strong> ingevoer<strong>de</strong> tekst bevestigt wordt het werkelijk<br />
ingevoerd. Hier gebeurt <strong>de</strong> invoer in eenmaal in <strong>de</strong> tekst.<br />
Bij off-the-spot wordt <strong>de</strong> invoer eerst in een invoerbalk ingegeven die on<strong>de</strong>raan het<br />
scherm staat, pas bij bevestiging wordt het <strong>de</strong> tekst ingevoerd.<br />
Bij root-window (ook wel floating window genoemd) wordt <strong>de</strong> tekst ingevoerd in een<br />
invoerbalk die zijn eigen scherm heeft en los staat van het programma waar tekst ingevoerd<br />
wordt. Als <strong>de</strong> gebruiker <strong>de</strong> ingevoer<strong>de</strong> tekst bevestigt, dan wordt <strong>de</strong> tekst daadwerkelijk<br />
ingevoerd.<br />
Er zijn drie manieren om <strong>de</strong> <strong>Chinese</strong> taal in te voeren, <strong>de</strong> eerste is gebaseerd <strong>op</strong> <strong>de</strong><br />
uitspraak (拼音法 pīnyīfǎ), <strong>de</strong> twee<strong>de</strong> is gebaseerd <strong>op</strong> structuur van <strong>de</strong> karakters (拆字法<br />
chāizìfǎ) en <strong>de</strong> <strong>de</strong>r<strong>de</strong> is een combinatie van bei<strong>de</strong> vorige (混合法 hùnhéfǎ). Uitspraak<br />
gebaseer<strong>de</strong> systemen zijn in het algemeen makkelijker aan te leren.<br />
De eerste inputmetho<strong>de</strong>s waren gebaseerd <strong>op</strong> karakterinvoer, ie<strong>de</strong>r karakter moest<br />
afzon<strong>de</strong>rlijk ingegeven wor<strong>de</strong>n. Er zijn echter intelligente systemen ontwikkeld die <strong>Chinese</strong><br />
karakters weergeven naargelang hun frequentie in <strong>de</strong> <strong>Chinese</strong> taal, <strong>de</strong> meest frequente wor<strong>de</strong>n<br />
dan eerst weergegeven, het eigen typgedrag en systemen die werken aan <strong>de</strong> hand van<br />
associatie, hier wordt gekeken naar welke karakters er voor komen.<br />
Hieron<strong>de</strong>r wor<strong>de</strong>n een <strong>de</strong>el invoermetho<strong>de</strong>s besproken, het is onmogelijk om alle<br />
invoermetho<strong>de</strong>s te bespreken en daarom wordt slechts een <strong>de</strong>el <strong>op</strong> korte wijze behan<strong>de</strong>ld.<br />
a) Uitspraak gebaseerd<br />
De twee belangrijkste romanisatie systemen zijn Wa<strong>de</strong>-Giles (韋氏 weíshì) en Pinyin<br />
(拼音 pīnyīn). Daarnaast bestaan er ook nog an<strong>de</strong>re zoals Yale, Romanisation <strong>de</strong> l’Ecole<br />
Française d’Extrême-Orient, …<br />
Wa<strong>de</strong>-Giles (genoemd naar zijn uitvin<strong>de</strong>rs) werd het meest gebruikt in <strong>de</strong> 19 <strong>de</strong> eeuw<br />
en begin 20 ste eeuw in internationale gemeenschap. Sinds <strong>de</strong> erkenning van het Pinyin als<br />
officieel romanisatiesysteem door <strong>de</strong> VN in 1979, heeft het Pinyin veel terrein gewonnen <strong>op</strong><br />
het Wa<strong>de</strong>-Giles.<br />
Thesis Sébastien Bruggeman Pagina 53
In 1928 werd het door Zhao Yuanren (趙元任 zhào yuánrèn) ontwikkel<strong>de</strong> Gwoyeu<br />
Romatzyh (國語羅馬字 guóyǔ luómǎzì) <strong>de</strong> officiële standaard in China voor <strong>de</strong> romanisatie,<br />
maar dit heeft nooit echt veel ingang gevon<strong>de</strong>n. Daarnaast hebben we ook nog het fonetisch<br />
schrift Zhuyin. In 1913 riep <strong>de</strong> <strong>Chinese</strong> regering een Conference on the Unification of<br />
Pronounciation samen en in 1918 werd dan een National Phonetic Alphabet afgekondigd, dit<br />
was het Zhuyin (注音字母 zhùyīn zìmǔ), in 1930 werd een vernieuw<strong>de</strong> versie uitgegeven<br />
on<strong>de</strong>r <strong>de</strong> naam 注音符號 (zhùyīn fúhào).<br />
Het probleem bij <strong>de</strong> <strong>Chinese</strong> taal is dat eenzelf<strong>de</strong> uitspraak verschillen<strong>de</strong> karakters kan<br />
hebben (zo geeft <strong>de</strong> invoer van yì in een Taiwanese MS Windows 133 mogelijke karakters),<br />
wat <strong>de</strong> kans <strong>op</strong> verkeerd typen groter maakt. Hoe meer mogelijkhe<strong>de</strong>n er zijn waaruit gekozen<br />
kan wor<strong>de</strong>n, hoe slechter het is voor <strong>de</strong> ogen omdat er meer geconcentreerd naar het scherm<br />
moet wor<strong>de</strong>n gekeken en <strong>de</strong> ogen veel meer moeten zoeken. Daarom wordt veel meer <strong>op</strong><br />
woor<strong>de</strong>n gewerkt, want het aantal woor<strong>de</strong>n met een i<strong>de</strong>ntieke uitspraak is veel kleiner. Ver<strong>de</strong>r<br />
wordt er meer en meer artificiële intelligentie ingebouwd zodat bijvoorbeeld namen en<br />
plaatsen na verlo<strong>op</strong> van tijd kunnen herkend wor<strong>de</strong>n. Daarnaast is <strong>de</strong> uitspraak van <strong>de</strong><br />
verschillen<strong>de</strong> dialecten in China enorm verschillend, maar gebruiken ze <strong>de</strong>zelf<strong>de</strong> karakters.<br />
ß Pinyin (拼音 pīnyīn – letterlijke betekenis: spellen volgens het geluid)<br />
Pinyin is het officiële romanisatiesysteem in <strong>de</strong> Volksrepubliek China. Het werd<br />
uitgevaardigd in 1958. Sinds 1977 is het <strong>de</strong> VN standaard voor <strong>de</strong> romanisatie van het<br />
Chinees. Pas in 1979 werd het pas <strong>de</strong> officiële standaard en <strong>op</strong> 1 augustus 1982 werd het een<br />
ISO standaard 76 . Pinyin is gebaseerd <strong>op</strong> het Romaanse alfabet en is daarom makkelijk aan te<br />
leren voor niet-Chinezen. Voor Chinezen was het in begin moeilijk om het Romaanse alfabet<br />
te leren. Vandaag is <strong>de</strong> kennis van het Romaanse alfabet echter ook zeer sterk ingeburgerd,<br />
waardoor Pinyin ook voor <strong>de</strong> Chinezen zelf toegankelijk is. Het maakt gebruik van tonen die<br />
ofwel kunnen geschreven wor<strong>de</strong>n (ā), als cijfer <strong>op</strong> het eind van het woord (a1) of niet kan<br />
wor<strong>de</strong>n weergegeven (a). Indien <strong>de</strong> tonen wor<strong>de</strong>n weergegeven dan moet het lettertype dit<br />
on<strong>de</strong>rsteunen. Het voor<strong>de</strong>el van Pinyin is dat het <strong>op</strong> een ‘normaal’ toetsenbord kan getypt<br />
wor<strong>de</strong>n zon<strong>de</strong>r modificaties uit te voeren. Het na<strong>de</strong>el bij het typen is dat men tot 30 of meer<br />
mogelijke karakters krijgt voor één enkele uitspraak en dat er voor het invoeren van één<br />
karakter er soms tot 6 aanslagen moeten gebeuren. Om het aantal mogelijke karakters te<br />
vermin<strong>de</strong>ren kan men <strong>de</strong> toon aangeven (wat weer een extra toetsaanslag is), een an<strong>de</strong>re<br />
76 ISO 7098: Information and documentation -- Romanization of <strong>Chinese</strong> (laatste versie van 1991)<br />
Thesis Sébastien Bruggeman Pagina 54
manier om het aantal keuzes te vermin<strong>de</strong>ren is om meer<strong>de</strong>re karakters na elkaar, of een ganse<br />
zin, te typen. Een an<strong>de</strong>r na<strong>de</strong>el is dat Pinyin het karakter ‘ü’ gebruikt, en dit is niet makkelijk<br />
in te voeren met een qwerty toetsenbord. In CJK programma’s wordt dat <strong>op</strong>gelost door een<br />
‘uu’ of ‘v’ in <strong>de</strong> plaats in te voeren.<br />
中国 (zhōngguó, China): zhong1 + spatie + guo2<br />
Figuur 3 Toetsenbord met Pinyin invoermetho<strong>de</strong> layout<br />
bron: http://www.honco.net/japanese/05/caption/caption-3-04.html<br />
ß Shuang Pinyin (双拼 shuāngpīn)<br />
Shuang Pinyin kan men omschrijven als twee letter Pinyin. Om het aantal<br />
toetsaanslagen te vermin<strong>de</strong>ren werd <strong>de</strong> invoer van verschillen<strong>de</strong> karakters vervangen door één<br />
enkele of twee letters.<br />
中国 (zhōngguó, China): V(zh) + Y (ong) + G(g) + 5(uo)<br />
Figuur 4 Toetsenbord met Shuangpin invoermetho<strong>de</strong> layout<br />
Bron: http://www.honco.net/japanese/05/caption/caption-3-04.html<br />
Pinyin.<br />
ß Half Pinyin(简拼 jiǎnpīn)<br />
Half Pinyin is een invoermetho<strong>de</strong> dat het mid<strong>de</strong>n houdt tussen Pinyin en Shuang<br />
Thesis Sébastien Bruggeman Pagina 55
Tabel 26 Vergelijking tussen <strong>de</strong> verschillen<strong>de</strong> Pinyin invoer metho<strong>de</strong>s<br />
Hanzi Pinyin Shuang Pinyin Half Pinyin<br />
啊 a a a<br />
酷 ku ku ku<br />
處 chu uu iu<br />
汆 cuan cc cuj<br />
張 zhang ag ah<br />
雙 shuang ih uuh<br />
ß Zhuyin (注音 zhùyīn – letterlijke betekenis: annoteren)<br />
Deze metho<strong>de</strong> is ook gekend on<strong>de</strong>r <strong>de</strong> naam BoPoMoFo (dit zijn <strong>de</strong> eerste 4 klanken<br />
van het systeem) of 注音符號 zhùyīnfúhào. Het werd voor het eerst geïntroduceerd in 1913<br />
door het Ministerie van On<strong>de</strong>rwijs (教育部 jiàoyùbù) van <strong>de</strong> Republiek China. De metho<strong>de</strong><br />
on<strong>de</strong>rging verschillen<strong>de</strong> veran<strong>de</strong>ringen tussen 1919 en 1922, het werd vastgelegd in 1930, in<br />
Taiwan voer<strong>de</strong>n ze in 1986 nog enkele wijzigingen door (<strong>de</strong>ze nieuwe versie kreeg <strong>de</strong> naam<br />
國語注音符號第㆓式 guóyǔ zhùyīnfúhào dìérshì). Het was bedoeld als een pedagogisch<br />
hulpmid<strong>de</strong>l om het lezen en <strong>de</strong> uitspraak van het Mandarijns te vergemakkelijken. Deze<br />
metho<strong>de</strong> is nu nog steeds <strong>de</strong> officiële manier in Taiwan om mandarijns (國語 guóyǔ) aan te<br />
leren. De karakters zijn gebaseerd <strong>op</strong> <strong>Chinese</strong> kalligrafische vormen en sommige zijn<br />
rechtstreeks afgeleid van bestaan<strong>de</strong> <strong>Chinese</strong> karakters. Het bestaat uit 37 symbolen, 21<br />
‘me<strong>de</strong>klinkers’ en 16 ‘klinkers’ daarnaast wor<strong>de</strong>n ook nog 5 toonsymbolen gebruikt. (zie<br />
Tabel 37 <strong>op</strong> pagina 82).<br />
Het voor<strong>de</strong>el van <strong>de</strong>ze transcriptie is dat <strong>de</strong> karakters binnen <strong>de</strong> karakterschrijfwijze<br />
passen, zeker als er verticaal wordt geschreven en ver<strong>de</strong>r benadrukt het <strong>de</strong> unieke klanken van<br />
<strong>de</strong> <strong>Chinese</strong> taal. Het na<strong>de</strong>el is echter dat het meer dan 26 karakters bevat, en die moeten<br />
allemaal <strong>op</strong> een toetsenbord komen, daardoor moeten er cijfers en punctuatie karakters<br />
gebruikt wor<strong>de</strong>n waardoor die niet meer onmid<strong>de</strong>llijk toegankelijk zijn. Ver<strong>de</strong>r moet men bij<br />
het wisselen van layout <strong>op</strong>nieuw na<strong>de</strong>nken hoe die layout er uit ziet. Deze tekens zitten bevat<br />
in volgen<strong>de</strong> karaktersets: GB-2312-80, GB/T-12345-90, CNS 11643-1992 en Big5. Er is<br />
echter wel één verschil, het in Taiwan gebruikte ㄧ wordt in GB karakterset als 丨<br />
weergegeven.<br />
㆗國 : 5(ㄓ) + J(ㄨ) + / (ㄥ) + spatie + E (ㄍ) + J (ㄨ) + I (ㄛ) + 6 (ˊ)<br />
Thesis Sébastien Bruggeman Pagina 56
Figuur 5 Toetsenbord met Zhuyin invoermetho<strong>de</strong> layout<br />
b) Structuur gebaseerd<br />
<strong>Chinese</strong> karakters zijn <strong>op</strong>gebouwd uit radicalen en streepjes, algemeen wor<strong>de</strong>n er<br />
214 77 radicalen gebruikt om <strong>Chinese</strong> karakters te in<strong>de</strong>xeren. Sommige van die radicalen<br />
kunnen alleen staan en hebben dan een eigen betekenis, an<strong>de</strong>re kunnen niet <strong>op</strong> zichzelf<br />
gebruikt wor<strong>de</strong>n.<br />
Na <strong>de</strong> studie van <strong>de</strong> <strong>Chinese</strong> karakters <strong>op</strong> vlak van <strong>de</strong> <strong>op</strong>bouw, wer<strong>de</strong>n er<br />
invoermetho<strong>de</strong>s ontwikkeld die <strong>op</strong> <strong>de</strong>rgelijk on<strong>de</strong>rzoek zijn gebaseerd.<br />
Een na<strong>de</strong>el bij <strong>op</strong> structuur gebaseer<strong>de</strong> invoermetho<strong>de</strong>s is dat ze vaak moeilijk aan te<br />
leren zijn waardoor men ze dus ook sneller vergeet. Daarnaast moet men eerst weten hoe men<br />
het karakter moet schrijven alvorens men het kan typen.<br />
Om <strong>de</strong>rgelijke inputmetho<strong>de</strong>s te vergelijken, vergelijkt men vaak <strong>de</strong> invoer van <strong>de</strong><br />
volgen<strong>de</strong> soorten karakters: karakters met gelijk aantal streepjes maar waarvan <strong>de</strong> boven en<br />
on<strong>de</strong>r lengte niet gelijk zijn (田 由 ㆙ 申), karakters met een gelijk aantal streepjes maar<br />
waarvan <strong>de</strong> lengte rechts en links niet gelijk zijn (土 士 / 未 末), karakters met een gelijk<br />
aantal streepjes maar waarvan <strong>de</strong> grootte en <strong>de</strong> breedte niet gelijk zijn (日 曰 / 口 囗),<br />
karakters met gelijk aantal streepjes maar waarvan <strong>de</strong> schrijfrichting niet gelijk is (㆟ 八 入)<br />
en tot slot ingewikkel<strong>de</strong> karakters (鬱 籤).<br />
ß Wubi (五笔字型 wǔbǐzìxíng)<br />
Deze metho<strong>de</strong> werd bedacht door Wang Yongmin (王永民 wáng yǒngmín) uit <strong>de</strong><br />
Volksrepubliek China. Bijna elk karakter kan ingevoerd wor<strong>de</strong>n door slechts 2 toetsaanslagen,<br />
het maximum is vier. Het unieke aan dit systeem is dat bijna ie<strong>de</strong>r karakter zijn eigen<br />
toetsencombinatie heeft. Deze metho<strong>de</strong> ver<strong>de</strong>elt <strong>de</strong> radicalen in 5 secties die <strong>op</strong> hun beurt<br />
ver<strong>de</strong>eld zijn in 5 niveaus. De 25 categorieën zijn dan toegewezen aan <strong>de</strong> toetsen A tot Y <strong>op</strong><br />
77 <strong>de</strong> in<strong>de</strong>ling in 214 vindt zijn oorsprong in het in 1716 gepubliceer<strong>de</strong> <strong>Chinese</strong> woor<strong>de</strong>nboek 康熙字典 (kāngxī<br />
zìdiǎn), <strong>de</strong> PRC heeft dit aantal <strong>op</strong> 186 terug gebracht na vereenvoudiging.<br />
Thesis Sébastien Bruggeman Pagina 57
het toetsenbord. De toets Z dient als ‘wildcard’. Hoe <strong>de</strong>ze groepen precies zijn <strong>op</strong>ge<strong>de</strong>eld kan<br />
men vin<strong>de</strong>n in Tabel 27.<br />
Tabel 27 Op<strong>de</strong>ling van Wubizixing<br />
Toets 1 Toets 2 Toets 3 Toets 4 Toets 5<br />
Groep 1 11 / G 12 / F / 13 / D 14 / S 15 / A<br />
Groep 2 21 / H 22 / J 23 / K 24 / L 25 / M<br />
Groep 3 31 / T 32 / R 33 / E 34 / W 35 / Q<br />
Groep 4 41 / Y 42 / U 43 / I 44 / O 45 / P<br />
Groep 5 51 / N 52 / B 53 / V 54 / C 55 / X<br />
Figuur 6 Toetsenbord met Wubizixing invoermetho<strong>de</strong> layout<br />
Bron: http://www.honco.net/japanese/05/caption/caption-3-05.html<br />
ß Wubihua (五笔划 wǔbǐhuà)<br />
Bij <strong>de</strong>ze metho<strong>de</strong> voert men <strong>de</strong> karakters in aan <strong>de</strong> hand van cijfers. Men baseert zich<br />
<strong>op</strong> <strong>de</strong> schrijfwijze, maar daarbij beperkt men zich enkel tot 5 streepjes. Er zijn 5 soorten<br />
streepjes waar men een cijfer aan gegeven heeft en toegewezen aan het cijferblok rechts <strong>op</strong><br />
het toetsenbord. Bestaat het karakter slechts uit 5 streepjes dan geeft men die in die volgor<strong>de</strong><br />
weer, bestaat uit min<strong>de</strong>r dan 5 dan moet men nog een ‘0’ ingeven, bestaat het karakter uit<br />
meer dan 5 streepjes, dan geeft men <strong>de</strong> eerste 4 en het laatste in. Hoe <strong>de</strong>ze zijn toegewezen<br />
kan men vin<strong>de</strong>n in Tabel 28.<br />
Tabel 28 Toewijzing van <strong>de</strong> cijfers in Wubihua<br />
Keypad nummer Streepje <strong>Chinese</strong> naam Schrijfwijze<br />
1 ㆒ 橫 héng links → rechts<br />
2 丨 豎 shù boven → on<strong>de</strong>r<br />
3 丿 撇 piě rechts boven → links on<strong>de</strong>r<br />
4 捺 nà links boven → rechts on<strong>de</strong>r<br />
5 ㆚ 拆 chāi Links boven → draaiend → rechts on<strong>de</strong>r<br />
Voor <strong>de</strong> invoer gebruikt men <strong>de</strong>zelf<strong>de</strong> regels als bij het schrijven namelijk van boven<br />
naar on<strong>de</strong>r, vervolgens van links naar rechts en tenslotte van buiten naar binnen. Er bestaat<br />
ook een ‘wildcard’ namelijk KP nr 6<br />
Thesis Sébastien Bruggeman Pagina 58
Tabel 29 Voorbeeld Wubihua<br />
Karakter Aantal streepjes Schrijfwijze Co<strong>de</strong><br />
用 5 丿 ㆚ ㆒ ㆒ 丨 35112<br />
五 4 ㆒ 丨 ㆚ ㆒ 12510<br />
总 9 丿 丨 ㆚ 43254<br />
ß Cangjie (倉頡 cāngjié)<br />
Dit is een zeer snelle invoermetho<strong>de</strong>. Deze werd in 1976 ontwikkeld door Zhu Bangfu<br />
(朱邦復 zhū bāngfù) in Taiwan. Het is genoemd naar <strong>de</strong> legendarische uitvin<strong>de</strong>r van het<br />
<strong>Chinese</strong> schrift. Oorspronkelijk noem<strong>de</strong> <strong>de</strong>ze invoermetho<strong>de</strong> 意形檢字法 (yìxíng jiǎnzìfǎ),<br />
daarna ㆝龍輸入法 (tiānlóng shūrùfǎ) en in 1978 kreeg het tenslotte <strong>de</strong> naam 倉頡 (cāngjié).<br />
In 1981 verscheen <strong>de</strong> twee<strong>de</strong> versie en in 1983 <strong>de</strong> <strong>de</strong>r<strong>de</strong> versie van <strong>de</strong>ze invoermetho<strong>de</strong>, nu<br />
zitten we aan versie nummer 5.<br />
Het ver<strong>de</strong>elt 24 radicalen in vier groepen over <strong>de</strong> toetsen A tot W en Y.<br />
ß De eerste groep zijn <strong>de</strong> toetsen A, B, C, D, E, F en G. Het wordt <strong>de</strong> ‘filosofische<br />
groep’ genoemd omdat ze on<strong>de</strong>r an<strong>de</strong>re <strong>de</strong> vijf elementen (metaal, hout, water,<br />
vuur en aar<strong>de</strong>) representeert.<br />
ß De twee<strong>de</strong> groep zijn <strong>de</strong> toetsen H, I, J, K, L, M, N en wordt <strong>de</strong> ‘‘pen stroke’<br />
groep’ genoemd.<br />
ß De <strong>de</strong>r<strong>de</strong> groep wordt ‘lichaams<strong>de</strong>el groep’ genoemd omdat <strong>de</strong> radicalen <strong>de</strong>len<br />
van het menselijk lichaam (mens, hart, hand, mond) beschrijven, en bevat <strong>de</strong><br />
toetsen O, P, Q, R.<br />
ß De laatste groep is ‘karakter vorm’ groep en bestaat uit <strong>de</strong> toetsen S, T, U, V, W,<br />
Y.<br />
De invoer van een karakter gebeurt door het <strong>op</strong> te <strong>de</strong>len in zijn verschillen<strong>de</strong><br />
componenten. Zo wordt het karakter 商 (shāng) <strong>op</strong>gebouwd uit 卜, 金, 月 en 口. Het voor<strong>de</strong>el<br />
is dat het slechts 25 toetsen gebruikt, die dus zon<strong>de</strong>r verlies van punctuatietekens of nummer<br />
<strong>op</strong> het toetsenbord kunnen geplaatst wor<strong>de</strong>n.<br />
㆗國 : ㆗ (L) + spatie + 田 (W) + 戈 (I) + 口 (R) + ㆒ (M)<br />
Figuur 7 Toetsenbord met Cangjie invoermetho<strong>de</strong> layout<br />
Thesis Sébastien Bruggeman Pagina 59
Enkele vuistregels 78 die van toepassing zijn bij Cangjie: als <strong>de</strong> vorm van een Chinees<br />
karakter wordt gereconstrueerd, wordt <strong>de</strong>zelf<strong>de</strong> volgor<strong>de</strong> als bij het schrijven toegepast. Eerst<br />
van links naar rechts, dan van boven naar on<strong>de</strong>r en vervolgens van buiten naar binnen. Een<br />
karakter wordt ver<strong>de</strong>eld in twee <strong>de</strong>len, head en body. De head krijgt maximaal twee co<strong>de</strong>s, <strong>de</strong><br />
body drie. Als <strong>de</strong> head meer dan twee co<strong>de</strong>s bevat dan wordt enkel rekening gehou<strong>de</strong>n met<br />
het eerste en het laatste. Indien <strong>de</strong> body meer dan drie co<strong>de</strong>s omvat, wor<strong>de</strong>n enkel <strong>de</strong> eerste,<br />
twee<strong>de</strong> en laatste co<strong>de</strong> ingevoerd.<br />
Bovenstaan<strong>de</strong> regels werken goed met uitzon<strong>de</strong>ring van karakters die bestaan uit drie <strong>de</strong>len.<br />
Bij karakters die bestaan uit drie <strong>de</strong>len wor<strong>de</strong>n <strong>de</strong> drie co<strong>de</strong>s voor het body ge<strong>de</strong>elte ingevoerd<br />
met <strong>de</strong> eerste en laatste co<strong>de</strong> voor het twee<strong>de</strong> <strong>de</strong>el en <strong>de</strong> laatste co<strong>de</strong> voor het <strong>de</strong>r<strong>de</strong> <strong>de</strong>el.<br />
Voorbeeld: zie Tabel 30.<br />
Tabel 30 Voorbeeld Cangjie (1)<br />
Voorbeeld Correcte vorm Co<strong>de</strong> Incorrecte vorm Co<strong>de</strong><br />
樹 木土廿戈 DGTI 木土口戈 DGRI<br />
徹 竹㆟卜月大 HOYBK 竹㆟卜戈大 HOYIK<br />
捌 手口尸弓 QRSN 手口竹弓 QRHN<br />
矗 十㆒十㆒㆒ JMJMM 十㆒十月㆒ JMJBM<br />
Als er meer<strong>de</strong>re combinaties mogelijk zijn om een karakter in te voeren, dan is <strong>de</strong><br />
combinatie met het minst aantal toetsaanslagen <strong>de</strong> juiste. Voorbeeld: zie Tabel 31.<br />
Tabel 31 Voorbeeld Cangjie (2)<br />
Voorbeeld Correcte vorm Co<strong>de</strong> Incorrecte vorm Co<strong>de</strong><br />
王 ㆒土 MG ㆒十㆒ MJM<br />
九 大弓 KN 大弓山 KNU<br />
言 卜㆒㆒口 YMMR 戈㆒㆒㆒口 IMMMR<br />
Als er meer<strong>de</strong>re manieren zijn om een karakter weer te geven die hetzelf<strong>de</strong> aantal<br />
co<strong>de</strong>s gebruikt, kies dan voor <strong>de</strong> co<strong>de</strong>s die het meest complex zijn. Voorbeeld: zie Tabel 32.<br />
Tabel 32 Voorbeeld Cangjie (3)<br />
Voorbeeld Correcte vorm Co<strong>de</strong> Incorrecte vorm Co<strong>de</strong><br />
夫 手㆟ QO 十大 JK<br />
堇 廿㆗手㆒ TLQM 廿㆗十土 TLJG<br />
78 http://www.fi.muni.cz/usr/wong/teaching/chinese/notes/notes.html<br />
Thesis Sébastien Bruggeman Pagina 60
Kies <strong>de</strong> vormen die die het best overeen stemmen met <strong>de</strong> vorm van het karakter.<br />
Voorbeeld: zie Tabel 33.<br />
Tabel 33 Voorbeeld Cangjie (4)<br />
Voorbeeld Correcte vorm Co<strong>de</strong> Incorrecte vorm Co<strong>de</strong><br />
力 十尸 KS 十弓 KN<br />
也 心木 PD 廿弓山 TNU<br />
吳 口女弓大 RVNK 口竹弓大 RHNK<br />
Ondanks het feit dat <strong>de</strong> X niet tot één van <strong>de</strong> groepen behoort heeft het toch een label<br />
namelijk 難 (nán, moeilijk). De X kan gebruikt wor<strong>de</strong>n wanneer <strong>de</strong> invoer te moeilijk lijkt,<br />
het kan beschouwd wor<strong>de</strong>n als een ‘wildcard’. Voorbeeld : zie Tabel 34.<br />
Tabel 34 Voorbeeld Cangjie (5)<br />
Voorbeeld Vorm Co<strong>de</strong><br />
身 竹難竹 HXH<br />
齊 卜難 YX<br />
臼 竹難 HX<br />
ß Easy Cangjie (速成 sùchéng – easy / soms ook 簡易 jiǎnyì)<br />
Dit is een verkorte van <strong>de</strong> hierboven besproken Cangjie metho<strong>de</strong>. Om het karakter 商<br />
weer te geven moet enkel 卜 en 口 ingegeven wor<strong>de</strong>n.<br />
㆗國 : ㆗ (L) + spatie + 田 (W) + ㆒ (M)<br />
Figuur 8 Toetsenbord met Sucheng invoermetho<strong>de</strong> layout<br />
ß Boshiamy (嘸蝦米 wǔxiāmǐ) 79<br />
Deze invoermetho<strong>de</strong> werd in Taiwan ontwikkeld door Liu Zhongci (劉重次 líu<br />
zhòngcì). Het maakt ook gebruik van radicalen, maar maakt eveneens gebruik van <strong>de</strong><br />
uitspraak. Het gebruikt slechts 26 toetsen. Het is een zeer snelle invoermetho<strong>de</strong>. Hoe <strong>de</strong><br />
toetsen toegewezen zijn kan men terugvin<strong>de</strong>n <strong>op</strong> Figuur 14 <strong>op</strong> pagina 90. Een voorbeeld<br />
vindt men in Tabel 35.<br />
79 http://input.foruto.com/boshiamy/<br />
Thesis Sébastien Bruggeman Pagina 61
Tabel 35 Voorbeeld Boshiamy<br />
Karakter Co<strong>de</strong><br />
淼 WWW betekenis (3 x Water)<br />
命 AOP Vorm<br />
粉 MBD Uitspraak (米 mǐ 八 bā 刀 dāo)<br />
辯 LIL 辛 言 辛<br />
爽 DXXX 大乂乂乂<br />
ß 3 hoeken metho<strong>de</strong> (㆔角 sānjiǎo)<br />
Deze invoermetho<strong>de</strong> werd uitgevon<strong>de</strong>n door Jack Huang (黃克東 huáng kèdōng) en is<br />
gebaseerd <strong>op</strong> <strong>de</strong> 4 hoeken metho<strong>de</strong> die kan gebruikt wor<strong>de</strong>n bij het <strong>op</strong>zoeken van karakters in<br />
woor<strong>de</strong>nboeken<br />
ß Dayi (太易 dàyì) 80 :<br />
Dayi werd uitgevon<strong>de</strong>n door Wang Zanjie (王贊傑 wáng zànjié). Het gebruikt bijna<br />
het ganse toetsenbord wat een na<strong>de</strong>el is. Om een karakter in te voeren zijn slechts 2<br />
toetsaanslagen nodig.<br />
㆗文 : O (口) + 1 (言) + K (立) + X (水)<br />
ß Zhengma (郑码 zhèngmǎ) 81<br />
Figuur 9 Toetsenbord met Dayi invoermetho<strong>de</strong> layout<br />
Zhengma werd uitgevon<strong>de</strong>n door 郑易里 (Zhèng Yìlǐ) en 郑龙 (Zhènglóng). Er<br />
moeten twee of vier toetsen aangeslagen wor<strong>de</strong>n om twee <strong>Chinese</strong> karakters in te voeren.<br />
Deze invoermetho<strong>de</strong> zit standaard in <strong>de</strong> Microsoft Windows versie bestemd voor <strong>de</strong><br />
Volksrepubliek.<br />
ß Array (行列 hángliè) 82<br />
Bij Array wordt het toetsenbord <strong>op</strong>ge<strong>de</strong>eld in tien kolommen en tien rijen. Bijna elk<br />
karakter kan door twee of drie toetsen ingevoerd wor<strong>de</strong>n.<br />
80 http://www.dayi.com<br />
81 http://www.zhongyicts.com.cn/en/zmsrf/zmsrf.htm<br />
82 http://www.array.com.tw/<br />
Thesis Sébastien Bruggeman Pagina 62
c) Combinatie uitspraak – structuur<br />
Invoermetho<strong>de</strong>s die invoer toelaten aan <strong>de</strong> hand van een combinatie tussen uitspraak en<br />
structuur zijn eer<strong>de</strong>r zeldzaam, maar ze bestaan.<br />
ß Tze-loi (子來 zǐlái)<br />
Tze-loi werd uitgevon<strong>de</strong>n door Tze-loi Yeung (楊子來 yang zǐlái). Via <strong>de</strong>ze<br />
invoermetho<strong>de</strong> kan men karakters invoeren door slechts drie toetsaanslagen. De eerste twee<br />
aanslagen zijn gebaseerd <strong>op</strong> <strong>de</strong> structuur van het karakter (<strong>de</strong> hoek bovenaan links en <strong>de</strong> hoek<br />
on<strong>de</strong>raan rechts), en <strong>de</strong> <strong>de</strong>r<strong>de</strong> aanslag is het eerste geluid van <strong>de</strong> uitspraak.<br />
Tabel 36 Voorbeeld Tze-loi<br />
Hanzi Tze-loi Co<strong>de</strong> Tze-Loi (qwerty)<br />
晶 日 + 日 + J JJJ<br />
品 口 + 口 + B HHB<br />
法 ˋ + ㄙ + F 6ZF<br />
ß Renzhi Co<strong>de</strong> (认知码 rènzhīmǎ)<br />
Deze invoermetho<strong>de</strong> bestaat meestal ook uit 3 toetsaanslagen. De eerste is <strong>de</strong> eerste<br />
letter van <strong>de</strong> Pinyin weergave van het karakter, <strong>de</strong> twee<strong>de</strong> aanslag is het eerste streepje, <strong>de</strong><br />
laatste aanslag is het laatste streepje. Het kan soms ook an<strong>de</strong>re elementen bevatten. Soms zijn<br />
er slechts twee of vier toetsaanslagen nodig voor <strong>de</strong> invoer van een karakter.<br />
d) Directe invoer<br />
Met <strong>de</strong>ze invoermetho<strong>de</strong>s voert men karakters onmid<strong>de</strong>llijk in zon<strong>de</strong>r gebruik te maken van<br />
een conversiewoor<strong>de</strong>nboek.<br />
ß Row-cell (国标区位码 guójīqūwèimǎ)<br />
Bij <strong>de</strong>ze invoermetho<strong>de</strong> gebeurt <strong>de</strong> invoer aan <strong>de</strong> hand van het rij-cel nummer uit <strong>de</strong><br />
GB 2310-82 karakterset.<br />
Voorbeeld: 啊 heeft als co<strong>de</strong> 1601<br />
ß Neima 內碼 : (nèimǎ)<br />
Hier gebeurt <strong>de</strong> invoer aan <strong>de</strong> hand van interne co<strong>de</strong> van Big5 of TW-EUC. Deze<br />
invoermetho<strong>de</strong> is zeer gelijkend aan <strong>de</strong> Row-Cell invoer voor GB 2312-80.<br />
Voorbeeld: 啊 heeft als co<strong>de</strong> B0DA<br />
Thesis Sébastien Bruggeman Pagina 63
Figuur 10 Toetsenbord met Neima invoermetho<strong>de</strong> layout<br />
ß Dianbaoma (電報碼 / 电报码 diànbàomǎ)<br />
Deze invoermetho<strong>de</strong> gebruikt het uit 1911 dateren<strong>de</strong> <strong>Chinese</strong> telegrafisch co<strong>de</strong>boek,<br />
dit werd vroeger gebruikt voor <strong>de</strong> elektrische telegraaf (waarbij handmatig via morse co<strong>de</strong><br />
werd geseind). Het is een lijst van ongeveer 9800 karakters die gerangschikt staan volgens<br />
radicaal en vervolgens volgens aantal streepjes. Ie<strong>de</strong>r karakter heeft een unieke co<strong>de</strong><br />
bestaan<strong>de</strong> uit 4 cijfers.<br />
Voorbeeld: 电报码 wordt weergegeven als 7193, 1032, 4316.<br />
4.2. An<strong>de</strong>re<br />
Naast het toetsenbord zijn er nog an<strong>de</strong>re manieren om Chinees in te voeren.<br />
- Stem: Het probleem is dat <strong>de</strong>rgelijke invoer vaak ‘stem gebon<strong>de</strong>n’ is en dat ie<strong>de</strong>re<br />
gebruiker het systeem eerst moet trainen. Ver<strong>de</strong>r zorgt het feit dat Chinees een toontaal<br />
is voor extra moeilijkhe<strong>de</strong>n bij het ontwikkelen.<br />
- Optical Character Recognition (OCR): Er kunnen problemen rijzen bij het inscannen<br />
van traditionele tekst door <strong>de</strong> verschillen<strong>de</strong> schrijfrichtingen.<br />
- Pen: Hierbij schrijft <strong>de</strong> gebruiker met een pen <strong>op</strong> een plaatje waarna het geschreven<br />
karakter <strong>op</strong> het scherm verschijnt. Invoer via <strong>de</strong> pen kan gebruik maken van OCR, maar<br />
het kan ook kijken naar <strong>de</strong> volgor<strong>de</strong> en richting van <strong>de</strong> streepjes.<br />
Thesis Sébastien Bruggeman Pagina 64
5. Applicaties, toepassingen<br />
We kunnen zeggen dat er 3 mogelijkhe<strong>de</strong>n zijn om Chinees te gebruiken <strong>op</strong> een <strong>computer</strong>,<br />
<strong>de</strong> eerste is dat het besturingssysteem volledig in het Chinees is gelokaliseerd (localisation 83 ,<br />
l10n). Dit wil zeggen dat het systeem <strong>Chinese</strong> lettertypes bevat en overweg kan met <strong>de</strong> invoer<br />
en het vertonen van <strong>Chinese</strong> karakters. Algemeen gezien zijn <strong>de</strong>rgelijke besturingssystemen<br />
volledig in het Chinees.<br />
Een twee<strong>de</strong> metho<strong>de</strong> is gebruik te maken van extra softwarepakketten. Hier is het <strong>de</strong><br />
software die <strong>Chinese</strong> lettertypes bevat en <strong>de</strong> invoer en vertoning van <strong>Chinese</strong> karakters<br />
behan<strong>de</strong>lt.<br />
De <strong>de</strong>r<strong>de</strong> metho<strong>de</strong> is dat <strong>de</strong> software zelf overweg kan met <strong>Chinese</strong> karakters omdat het<br />
Unico<strong>de</strong> gebruikt.<br />
5.1. Dos<br />
Voor MS-DOS bestaan er ook verschillen<strong>de</strong> programma’s om Chinees te bekijken, <strong>de</strong><br />
bekendste zijn ETen 84 , ZWDOS en CCDOS (<strong>Chinese</strong> Character Disk Operating System).<br />
CCDOS werd reeds in 1982 ontwikkeld, ETen kwam in november 1985 met 倚㆝㆗文系統<br />
ET2416 (yǐtiān zhōngwén xìtǒng ET2416) <strong>op</strong> <strong>de</strong> markt.<br />
<strong>Chinese</strong> programma’s die met een niet-<strong>Chinese</strong> DOS werken, plaatsen DOS in ‘graphics<br />
mo<strong>de</strong>’ en vertonen zo hun karakters.<br />
5.2. Microsoft Windows 85<br />
a) Native <strong>Chinese</strong> Windows<br />
China heeft een volledig gelokaliseer<strong>de</strong> versie van windows uitgebracht voor <strong>de</strong> <strong>Chinese</strong> 86 ,<br />
Hong Kongse 87 en Taiwanese markt 88 . De <strong>Chinese</strong> versies gebruiken intern GBK, terwijl <strong>de</strong><br />
Taiwanese versies Big5 intern gebruiken.<br />
83 Localiseren van een programma houdt in dat men een internationaal gericht programma gaat aanpassen aan <strong>de</strong><br />
locale markt, meestal <strong>op</strong> gebied van taal, maar ook van gebruikte munt, aantal <strong>de</strong>cimalen, …<br />
84 http://www.eten.com.tw<br />
85 http://www.microsoft.com/windows/<br />
86 http://www.microsoft.com/china/in<strong>de</strong>x.htm<br />
87 http://www.microsoft.com/HK/<strong>de</strong>fault.asp<br />
88 http://www.microsoft.com/taiwan/<br />
Thesis Sébastien Bruggeman Pagina 65
) Niet-<strong>Chinese</strong> Windows<br />
Microsoft voorziet in <strong>Chinese</strong> lettertypes en in <strong>Chinese</strong> Input Method Editors (Microsoft<br />
Global IME) voor zowel traditioneel als vereenvoudigd Chinees. Het is <strong>op</strong> ActiveX gebaseerd.<br />
Als <strong>de</strong> IME geïnstalleerd is dan kan er door het gelijktijdig indrukken <strong>op</strong> <strong>de</strong> ctrl-toets en shift-<br />
toets gewisseld wor<strong>de</strong>n tussen <strong>de</strong> verschillen<strong>de</strong> talen (en toetsenbord layouts). De IME werkt<br />
enkel in programma’s die Unico<strong>de</strong> on<strong>de</strong>rsteunen. MS Global IME 5.02 werkt <strong>op</strong> alle<br />
besturingssytemen maar kan niet gebruikt wor<strong>de</strong>n met Office XP. Wil men MS Global IME<br />
gebruiken in Office XP dan moet men Office XP Tool: Global IME downloa<strong>de</strong>n. Het wordt<br />
door Netscape on<strong>de</strong>rsteund vanaf Netscape Communicator 4.72. IME’s mogen niet<br />
geïnstalleerd wor<strong>de</strong>n <strong>op</strong> een versie van Windows die voor <strong>de</strong>zelf<strong>de</strong> taal gelokaliseerd is. Met<br />
an<strong>de</strong>re woor<strong>de</strong>n <strong>de</strong> IME voor traditioneel Chinees mag niet geïnstalleerd wor<strong>de</strong>n <strong>op</strong> een<br />
Traditioneel <strong>Chinese</strong> versie van Windows.<br />
Microsoft Windows XP is het eerste besturingssysteem van Microsoft dat volledig <strong>op</strong><br />
Unico<strong>de</strong> gebaseerd is. Microsoft heeft sinds <strong>de</strong> eerste versie van Windows steeds in <strong>de</strong><br />
richting van internationalisatie gewerkt.<br />
5.3. Unix / Linux<br />
Linux is een ‘vrij’ 89 besturingssyteem dat veel gelijkenissen toont met UNIX. Het werd<br />
ontwikkeld door Linus Torvalds en het GNU project 90 en is vrijgegeven on<strong>de</strong>r <strong>de</strong> GNU<br />
General Public License 91 (wordt ook wel c<strong>op</strong>yleft genoemd). De GNU GPL werd uitgegeven<br />
door <strong>de</strong> FSF (Free Software Foundation). Dat wil zeggen dat <strong>de</strong> bronco<strong>de</strong> samen met het<br />
programma moet vrijgegeven wor<strong>de</strong>n en voor ie<strong>de</strong>reen toegankelijk moet zijn. Ie<strong>de</strong>reen mag<br />
er stukken uit gebruiken maar moet dan software daar<strong>op</strong> gebaseerd ook uitbrengen on<strong>de</strong>r <strong>de</strong><br />
GNU GPL licentie.<br />
De Free Standards Group 92 heeft in maart 2002 Li18nux 93 vrijgegeven. Het persbericht<br />
beschrijft het als volgt: “Li18nux is an internationalization gui<strong>de</strong> for platform and<br />
applications <strong>de</strong>vel<strong>op</strong>ers, allow Linux and Linux-based programs to reach greater localization<br />
capabilities and obtain global reach.”<br />
In Linux zit er on<strong>de</strong>rsteuning voor Unico<strong>de</strong> in <strong>de</strong> kernel (File Systems / Native<br />
Language Support), maar je moet ook minstens over glibc 2.2 en XFree86 4.0 beschikken.<br />
89 ‘Free as in free speech not as in free beer’ dixit Richard Stallmann<br />
90 http://www.gnu.org. Veel van <strong>de</strong> programma’s wer<strong>de</strong>n ontwikkeld door het GNU project, maar Linus<br />
ontwikkel<strong>de</strong> <strong>de</strong> kernel. Meestal spreekt men over Linux terwijl een meer accurate naam GNU/Linux zou zijn.<br />
91 http://www.fsf.org/licenses/licenses.html<br />
92 http://www.freestandards.org<br />
93 http://www.li18nux.net/<br />
Thesis Sébastien Bruggeman Pagina 66
a) Native <strong>Chinese</strong> Linux<br />
Er zijn verschillen<strong>de</strong> Linux distributies die in China (BluePoint Linux 94 , Cosix Linux 95 ,<br />
Happy Linux 96 , Redflag Linux 97 , TurboLinux 98 , XteamLinux 99 ) of Taiwan (Linpus Linux 100 )<br />
zelf zijn ontwikkeld. Ze zijn volledig in het Chinees gelocaliseerd. Daarnaast is er ook nog<br />
één ‘add-on’ die in Taiwan wordt ontwikkeld, het CLE (<strong>Chinese</strong> Linux Extension, ㆗文延伸<br />
套件 zhōngwén yánshén taòjiàn 101 ). Het CLE is een uitbreiding van <strong>de</strong> Redhat distributie.<br />
b) Niet-<strong>Chinese</strong> Linux<br />
Linux werkt met locals, en om die re<strong>de</strong>n is het vaak nodig als men in een terminal werkt om<br />
<strong>de</strong> local te zetten. De meeste GNU programma’s kunnen overweg met het LC_CTYPE<br />
commando. Om <strong>de</strong> local voor big5 goed te zetten voer het volgen<strong>de</strong> commando uit in bash, sh<br />
of ksh: “LC_CTYPE=zh_TW.big5; export LC_CTYPE”. In tcsh en csh kan als volgt gedaan<br />
wor<strong>de</strong>n: “setenv LC_CTYPE=big5”.<br />
ß cxterm<br />
Cxterm is een aangepaste versie van xterm, een terminal emulator voor X11. De<br />
aanpassingen laten toe om gebruikers GB en Big5 co<strong>de</strong> weer te geven. Zoals reeds aangehaald<br />
begint een ASCII co<strong>de</strong> steeds met een 0 terwijl GB en Big5 steeds met een 1 beginnen. Als<br />
xterm een byte moet weergeven <strong>op</strong> het scherm zal het veron<strong>de</strong>rstellen dat het ASCII is. Als<br />
het geen ASCII is dan zal het niets weer geven. Cxterm zal dat wel doen. Als het met een 0<br />
begint zal het een ASCII karakter weer geven, begint het met een 1 dan zal het een Chinees<br />
karakter weer geven.<br />
Er bestaan verschillen<strong>de</strong> varianten van cxterm, nl. cxterm (gb, hz), cxtermb5 (big5),<br />
cxtermjis (jis) en cxtermks (ksc).<br />
94 http://www.bluepoint.com.cn<br />
95 http://Linux.cosix.com.cn<br />
96 http://www.happyLinux.com.cn<br />
97 http://www.redflag-Linux.com<br />
98 http://www.turboLinux.com.cn<br />
99 http://www.xteamLinux.com.cn<br />
100 http://www.linpus.com.tw<br />
101 http://cle.Linux.org.tw<br />
Thesis Sébastien Bruggeman Pagina 67
ß XCIN<br />
XCIN 102 is <strong>de</strong> afkorting voor X <strong>Chinese</strong> INput, het is een XIN (X Input Method) server dat<br />
wijdverspreid is in Taiwan om Chinees in te voeren in Xwindows. Het werd oorspronkelijk<br />
ontwikkeld door Edward Der-Hua Liu in oktober 1994 en vele an<strong>de</strong>re programmeurs hebben<br />
contributies geleverd. Vandaag wordt XCIN ontwikkeld door het XCIN Project (sinds<br />
februari 1998). Er bestaan plugins (die ook met an<strong>de</strong>r XIN’s werken) zoals DIM (Debian<br />
Input Method) 103 .<br />
ß TaBE<br />
TaBE 104 is <strong>de</strong> afkorting van Localization for Taiwan and Big5 Encoding. Libtabe wordt<br />
omschreven als een ‘library’ dat handige <strong>Chinese</strong> functies en routines aanbiedt en overweg<br />
kan met <strong>de</strong> fundamentele elementen zoals uitspraak (b<strong>op</strong>omofo), karakterfrequentie,<br />
woordi<strong>de</strong>ntificatie en woordfrequentie. Een praktische applicatie van libtabe is een<br />
intelligente fonetische invoermetho<strong>de</strong>-interface, bims genaamd. Bims aanvaar<strong>de</strong>n invoer in<br />
b<strong>op</strong>omofo en creëert uitvoer van betekenisvolle zinnen. De bimsphone module van XCIN is<br />
rechtstreeks gebaseerd <strong>op</strong> <strong>de</strong> libtabe/bims.<br />
ß an<strong>de</strong>re XIM’s zijn:<br />
linput, chinput 105 , cWnn & tWnn, 阳春白雪中文输入法 (yángchūn báixuě zhōngwén<br />
shūrùfǎ) 106<br />
c) Linux in China & Taiwan<br />
De <strong>Chinese</strong> regering steunt Linux, omdat het zo los komt van <strong>de</strong> bijna-mon<strong>op</strong>olie<br />
positie van Microsoft. Dat Microsoft Windows veel veiligheidsproblemen kent is een re<strong>de</strong>n<br />
om Linux te steunen. 107 Daarnaast is het ook een feit dat <strong>de</strong> bronco<strong>de</strong> van Linux vrij is, nog<br />
een re<strong>de</strong>n om voor Linux te kiezen. De producten van Microsoft hebben een gesloten<br />
bronco<strong>de</strong>, <strong>de</strong> <strong>Chinese</strong> regering heeft Microsoft verplicht om haar bron co<strong>de</strong> vrij te geven maar<br />
Microsoft heeft dit besluit aangevochten en on<strong>de</strong>r grote economische druk heeft <strong>de</strong> <strong>Chinese</strong><br />
regering uitein<strong>de</strong>lijk zijn eis laten vallen. Door <strong>de</strong> <strong>op</strong>en-bron (<strong>op</strong>en source) en <strong>de</strong> GPL van<br />
Linux kan en mag ie<strong>de</strong>reen <strong>de</strong> co<strong>de</strong> bekijken en aanpassen. Op een <strong>de</strong>rgelijke manier hoeven<br />
102 http://xcin.Linux.org.tw<br />
103 http://sourceforge.net/projects/dim/<br />
104 http://libtabe.sourceforge.net of http://xcin.Linux.org.tw/libtabe/in<strong>de</strong>x.html<br />
105 http://www.<strong>op</strong>encjk.org/~yumj/project-chinput-e.html<br />
106 http://www.yangchunbaixue.com<br />
107 http://www.theregister.co.uk/content/1/12449.html<br />
http://news.com.com/2100-1001-253515.html?legacy=cnet<br />
Thesis Sébastien Bruggeman Pagina 68
ze niet langer hoge licentiekosten betalen maar kunnen ze ook productiekosten uitsparen.<br />
Toch lijkt het concept van <strong>op</strong>en source niet volledig te werken want volgens RedHat zou<strong>de</strong>n<br />
<strong>de</strong> <strong>Chinese</strong> Linux bouwers zich niet hou<strong>de</strong>n aan <strong>de</strong> GPL en aanpassingen aan <strong>de</strong> co<strong>de</strong>s niet<br />
bekend maken (IDG.net, 03 juli 2001). 108<br />
RedFlag Linux is een door <strong>de</strong> <strong>Chinese</strong> overheid gesubsidieer<strong>de</strong> <strong>Chinese</strong> Linux<br />
distributie 109 . Het wordt ook gesteund door Jiang Mianhang, <strong>de</strong> zoon van presi<strong>de</strong>nt Jiang<br />
Zimin. Een voormalig Microsoft executive is nu <strong>de</strong> chief executive van RedFlag. Het werd in<br />
augustus 1999 <strong>op</strong> <strong>de</strong> <strong>Chinese</strong> Aca<strong>de</strong>my of Sciences 110 <strong>op</strong>gericht door het Institute of<br />
Software 111 en kreeg daarbij hulp van het staatsbedrijf Shanghai NewMargin Venture Capital<br />
en in maart 2001 werd CCIDNET Investment (een venture capital af<strong>de</strong>ling van het Ministerie<br />
van Informatie Industrie) <strong>de</strong> twee<strong>de</strong> grootste aan<strong>de</strong>elhou<strong>de</strong>r.<br />
<strong>Chinese</strong> <strong>computer</strong>makers installeren geen software <strong>op</strong> voorhand omdat het aan<strong>de</strong>el<br />
van gek<strong>op</strong>ieer<strong>de</strong> software veel te groot is (tot 95%). Nu is er echter een campagne om illegale<br />
cd’s tegen te gaan, dit me<strong>de</strong> door <strong>de</strong> toetreding van China tot het WTO (World Tra<strong>de</strong><br />
Organisation) 112 .<br />
5.4. Apple 113<br />
Sinds OS 9 wordt <strong>de</strong> <strong>Chinese</strong> Language Kit (CLK) mee geleverd <strong>op</strong> <strong>de</strong> installatie CD. De<br />
CLK werkt <strong>op</strong> systemen vanaf System 7.1.x. De CLK bevat Worldscript software dat gebruik<br />
maakt van scripts. Dergelijke scripts on<strong>de</strong>rsteunen <strong>de</strong> co<strong>de</strong>ring van (een) bepaal<strong>de</strong><br />
karaktersets voor een specifieke taal. Ze bevatten ook instructies voor het behan<strong>de</strong>len van <strong>de</strong><br />
tekst, sortering, tijdsformaat, nummers, … De CLK bestaat uit twee verschillen<strong>de</strong> scripts, één<br />
voor traditioneel Chinees en één voor vereenvoudigd Chinees. Ze kunnen apart of samen<br />
geïnstalleerd wor<strong>de</strong>n (en ook samen met an<strong>de</strong>re talen). De CLK bevat ook verschillen<strong>de</strong><br />
invoermetho<strong>de</strong>s en lettertypes.<br />
Vanaf MacOS 9.2 wordt er Unico<strong>de</strong> gebruikt. OSX biedt on<strong>de</strong>rsteuning voor Unico<strong>de</strong><br />
versie 3.1, maar veel hangt natuurlijk af van <strong>de</strong> programma’s die gebruikt wor<strong>de</strong>n. Het is<br />
mogelijk om OSX volledig Chinees gelokaliseerd te maken door mid<strong>de</strong>l van het aanpassen<br />
108 http://www.thestandard.com/article/0,1902,27670,00.html?printer_friendly=<br />
109 http://news.cnet.com/news/0-1003-200-5193409.html<br />
110 http://www.casbic.ac.cn<br />
111 http://www.ios.ac.cn<br />
112 http://www.wto.org<br />
113 http://www.apple.com<br />
Thesis Sébastien Bruggeman Pagina 69
van <strong>de</strong> instellingen. Preferences > Language > International, verplaats Traditional <strong>Chinese</strong><br />
of Simplified <strong>Chinese</strong> naar <strong>de</strong> t<strong>op</strong> van <strong>de</strong> lijst en start <strong>op</strong>nieuw <strong>op</strong>.<br />
5.5. Chinees en programmeertalen<br />
ß C (++)<br />
C en C++ zijn één van <strong>de</strong> meest gebruikte programmeertalen en er bestaan dan ook<br />
een hele reeks compilers voor. Verschillen<strong>de</strong> an<strong>de</strong>re talen zijn gebaseerd <strong>op</strong> C (++).<br />
Indien men 16bit characters wil gebruiken dan moeten ze ge<strong>de</strong>finieerd wor<strong>de</strong>n als<br />
wchar_t, indien niet dan wordt <strong>de</strong> standaard char en dus 8bit karakter co<strong>de</strong>ring gebruikt.<br />
Conversie van multiple byte strings naar ‘wi<strong>de</strong> character strings’ gebeurt via mbsrtowcs().<br />
Het omgekeer<strong>de</strong> proces gebeurt via wcsrtombs(). Voor aparte karakters bestaan <strong>de</strong><br />
respectievelijke commando’s mbrtowc() en wcrtomb().<br />
ß JAVA<br />
Java komt met klasses genaamd InputStream Rea<strong>de</strong>r en OutputStream Writer die<br />
lokale co<strong>de</strong>ringen naar Unico<strong>de</strong> en omgekeerd converteren. Big5 en GB2312 zijn daarbij<br />
on<strong>de</strong>rsteund. Dus bij het compileren van <strong>de</strong> bronco<strong>de</strong> moet men <strong>de</strong> co<strong>de</strong>ring meegeven. Voor<br />
een co<strong>de</strong> met Big5 moet volgen<strong>de</strong> co<strong>de</strong> wor<strong>de</strong>n ingegeven: javac -encoding big5<br />
sourcefile.java. Daarnaast kan ook native2ascii dat samen met <strong>de</strong> JDK geleverd wordt<br />
gebruikt wor<strong>de</strong>n om <strong>de</strong> verschillen<strong>de</strong> co<strong>de</strong>ringen te converteren naar <strong>de</strong> \uxxxx unico<strong>de</strong><br />
escapes dat Java kan verwerken.<br />
Java 2 laat toe om <strong>de</strong> lettertypes van <strong>op</strong> <strong>de</strong> machine te gebruiken en dus ook eventuele<br />
<strong>Chinese</strong> lettertypes. Voor <strong>de</strong> introductie van Swing kon Java geen Chinees weergeven buiten<br />
<strong>op</strong> <strong>Chinese</strong> besturingssystemen. Met Swing kan nu Chinees wor<strong>de</strong>n weergegeven in een<strong>de</strong>r<br />
welke component <strong>op</strong> voorwaar<strong>de</strong> dat er lettertypes zijn geïnstalleerd die Chinees kunnen<br />
weergeven. Daarnaast werd in Java 1.3 <strong>de</strong> Input Method Engine SPI geïntroduceerd waardoor<br />
er ook platform onafhankelijke input kan gebeuren. Ervoor maakte Java gebruik van <strong>de</strong><br />
invoermetho<strong>de</strong>s van het besturingssysteem.<br />
Thesis Sébastien Bruggeman Pagina 70
ß XML (eXten<strong>de</strong>d Markup Language)<br />
De XML processor werkt intern met UTF-8 of UTF-16 maar XML kan in principe met<br />
een<strong>de</strong>r welke karakterset geco<strong>de</strong>erd zijn. Buiten <strong>de</strong> processor kan <strong>de</strong> co<strong>de</strong>ring dus gekozen<br />
wor<strong>de</strong>n, maar binnen <strong>de</strong> processor wordt gebruik gemaakt van ISO10646. Elk bestand moet<br />
dan wel voorafgegaan wor<strong>de</strong>n door een XML-<strong>de</strong>claratie die er als volgt uit ziet: 114<br />
<br />
De gekozen co<strong>de</strong>d characterset moet in <strong>de</strong>ze XML-<strong>de</strong>claratie ge<strong>de</strong>finieerd wor<strong>de</strong>n en kan dus<br />
nergens an<strong>de</strong>rs gekozen wor<strong>de</strong>n. Wel is het mogelijk om bij ie<strong>de</strong>r element een taal te<br />
<strong>de</strong>finiëren, met als gevolg dat:<br />
some text <br />
some text <br />
perfect na elkaar in hetzelf<strong>de</strong> document kunnen komen.<br />
ß XHTML<br />
Bij XHTML moeten zowel <strong>de</strong> HTML als <strong>de</strong> XML regel gebruikt wor<strong>de</strong>n. Indien het<br />
document als HTML wordt gebruikt, dan wordt <strong>de</strong> meta tag gebruikt. Indien het document als<br />
XML wordt gebruikt, dan wordt <strong>de</strong> XML <strong>de</strong>claratie gebruikt.<br />
<br />
<br />
ß PHP (Hypertext Preprocessor) 115<br />
PHP is 8-bit clean en laat aldus UTF-8 geco<strong>de</strong>er<strong>de</strong> tekst ongewijzigd door. Er bestaat<br />
een module, mbstring genaamd, die on<strong>de</strong>rsteuning biedt voor ‘mulitple-byte’ co<strong>de</strong>ringen. Er<br />
bestaan <strong>op</strong> dit ogenblik ongeveer 40 functies voor <strong>de</strong>ze module.<br />
ß FLASH 116<br />
Flash 5 on<strong>de</strong>rsteunt het gebruik van <strong>Chinese</strong> lettertypes. Flash MX on<strong>de</strong>rsteunt<br />
Unico<strong>de</strong> en het verticaal weergeven van tekst.<br />
114 http://www.ascc.net/xml<br />
115 http://www.php.net<br />
116 http://www.macromedia.com/software/flash/<br />
Thesis Sébastien Bruggeman Pagina 71
ß Perl 117<br />
Perl had geen ingebouw<strong>de</strong> on<strong>de</strong>rsteuning voor multiple-byte karakters. Daarom werd<br />
er JPerl ontwikkeld, een aangepaste Japanse versie van Perl. Er zijn wel technieken om<br />
multiple-byte te on<strong>de</strong>rsteunen. Deze maken uitvoerig gebruik van ‘regular expressions’. Twee<br />
van <strong>de</strong>rgelijke technieken zijn anchoring en trapping. Vanaf Perl 5.6 on<strong>de</strong>rsteunt Perl<br />
Unico<strong>de</strong>, zelfs intern werkt het met Unico<strong>de</strong>. Ver<strong>de</strong>r werkt Perl 5.6 niet meer byte per byte<br />
maar karakter per karakter.<br />
5.6. Chinees en databases<br />
Veel hangt af van hoe men <strong>de</strong> data uit <strong>de</strong> database haalt. Indien data uit <strong>de</strong> databank<br />
gehaald wordt dan moet ook <strong>de</strong> taal of het programma dat daarvoor gebruikt wordt in staat<br />
zijn om <strong>Chinese</strong> karakters weer te geven.<br />
ß MySQL 118<br />
MySQL heeft UTF-8 on<strong>de</strong>rsteuning. Veel van <strong>de</strong> on<strong>de</strong>rsteuning hangt echter af van <strong>de</strong><br />
configuratie van <strong>de</strong> database. De standaard karakterset is ISO 8859-1 maar men kan<br />
ook ./configure --with-charset= gebruiken om <strong>de</strong> standaard karakterset te veran<strong>de</strong>ren, voor<br />
Chinees zijn <strong>de</strong> on<strong>de</strong>rsteun<strong>de</strong> karaktersets gb2312, gbk en big5. Wil men verschillen<strong>de</strong><br />
karaktersets on<strong>de</strong>rsteunen dan moet MySQL geconfigureerd wor<strong>de</strong>n met --with-extra-<br />
charset=LIST, waarbij list vervangen moet wor<strong>de</strong>n door alle karaktersets die men wil<br />
on<strong>de</strong>rsteunen geschei<strong>de</strong>n door een spatie. Men kan ook all typen om ze allemaal toe te voegen,<br />
of complex om alle karaktersets toe te voegen die niet dynamisch gela<strong>de</strong>n kunnen wor<strong>de</strong>n.<br />
Een uitgebrei<strong>de</strong> configuratie zou er dus als volgt kunnen uitzien: --with-charset=charset --<br />
with-extra-charset=list | complex | all.<br />
Als <strong>Chinese</strong> data wordt gebruikt met <strong>de</strong> Big5 co<strong>de</strong>ring dan moeten <strong>de</strong> kolommen die<br />
<strong>Chinese</strong> karakters bevatten <strong>op</strong> binary geplaast wor<strong>de</strong>n.<br />
117 http://www.perl.com & http://www.cpan.org<br />
118 http://www.mysql.org<br />
Thesis Sébastien Bruggeman Pagina 72
ß Microsoft SQL Server<br />
Microsoft’s SQL heeft Unico<strong>de</strong> on<strong>de</strong>rsteuning sinds MS SQL Server 7.0. Nchar(n)<br />
wordt gebruikt voor vaste-lengte unico<strong>de</strong> data, <strong>de</strong> <strong>op</strong>slagplaats is dan twee maal n bytes.<br />
Nvarchar(n) wordt gebruikt voor variabele lengte unico<strong>de</strong> data, <strong>de</strong> <strong>op</strong>slagplaats in bytes is<br />
dan twee maal <strong>de</strong> lengte van n. Bei<strong>de</strong> data types kunnen slechts een maximum lengte van<br />
4 000 karakters hebben. Het ntext data type wordt ook gebruikte voor variabele lengte<br />
unico<strong>de</strong> data maar met een maximum lengte van 2^30 –1 karakters (1 073 741 823).<br />
ß Oracle Oracle 9i<br />
Oracle biedt reeds on<strong>de</strong>rsteuning voor Unico<strong>de</strong> sinds Oracle7. Er bestaan verschillen<strong>de</strong><br />
statements om databases en hun data naar unico<strong>de</strong> te converteren. Ook hier wor<strong>de</strong>n nchar en<br />
nvarchar2 on<strong>de</strong>rsteunt. Bij nchar wordt <strong>de</strong> vaste lengte meegegeven van <strong>de</strong> data, het<br />
maximum is 2 000 bytes. Bij nvarchar2 moet <strong>de</strong> maximum variable lengte wor<strong>de</strong>n<br />
meegegeven, het maximum is vastgelegd <strong>op</strong> 4 000 bytes.<br />
Thesis Sébastien Bruggeman Pagina 73
6. Het <strong>Chinese</strong> internet<br />
Om symbolen of karakters weer te geven kan het gewoon getypt wor<strong>de</strong>n (♥), kan <strong>de</strong> naam<br />
meegegeven wor<strong>de</strong>n (♥) ofwel typt men <strong>de</strong> <strong>de</strong>cimale waar<strong>de</strong> (♥) of <strong>de</strong><br />
hexa<strong>de</strong>cimale waar<strong>de</strong> (♥).<br />
Bij het <strong>op</strong>maken van HTML bestan<strong>de</strong>n kan <strong>de</strong> karakterco<strong>de</strong>ring meegegeven wor<strong>de</strong>n, dit<br />
gebeurt aan <strong>de</strong> hand van een META tag die in <strong>de</strong> HEAD-tag kan geplaatst wor<strong>de</strong>n.<br />
De browser gebruikt <strong>de</strong>ze informatie om <strong>de</strong> pagina correct weer te geven. De META tag<br />
voor <strong>de</strong> Big5 karakterset ziet er als volgt uit:<br />
.<br />
Voor <strong>de</strong> <strong>Chinese</strong> taal kan dat ook nog gb2312, gbk, gb18030, hz, big5-hkscs, euc-tw of utf-8<br />
zijn. Daarnaast bestaat er ook sinds HTML 4 een ‘taal-attribuut’ dus in een tag kan het<br />
attribuut lang meegegeven wor<strong>de</strong>n. Taalinformatie wordt overgeërfd in <strong>de</strong><br />
documenthiërarchie.<br />
Bijvoorbeeld: some English text <br />
Er kan ook nog een lan<strong>de</strong>lijke variant <strong>op</strong>gegeven wor<strong>de</strong>n zoals:<br />
some American English text .<br />
De taalco<strong>de</strong>s zijn ge<strong>de</strong>finieerd in ISO 639:1988 Co<strong>de</strong> for representation of names of<br />
languages, <strong>de</strong> landco<strong>de</strong>s in ISO 3166:1988 Co<strong>de</strong> for the representation of names of countries<br />
en RFC 3066 Tags for the I<strong>de</strong>ntification of Languages geeft meer uitleg over het gebruik<br />
ervan. Deze taal-attribuut kan enkel slaan <strong>op</strong> talen gesproken (geschreven, … ) door mensen,<br />
<strong>computer</strong>talen komen dus niet in aanmerking.<br />
Sinds 31 mei 2001 is <strong>de</strong> Ruby Annotation 119 een W3C aanbeveling. RUBY zijn <strong>de</strong> kleine<br />
karakters die vooral bij Oost-Aziatische talen gebruikt wor<strong>de</strong>n om <strong>de</strong> uitspraak (en/of<br />
betekenis) weer te geven van <strong>de</strong> karakters waar ze bij horen. Dit gebeurt aan <strong>de</strong> hand van een<br />
speciale tag, namelijk daarbinnen zet men <strong>de</strong> tekst en wat er<br />
boven komt, komt tussen . Ruby is ook <strong>op</strong>genomen in CSS 3 (dit is nog maar<br />
slechts een working draft), wat <strong>de</strong> mogelijkhe<strong>de</strong>n met RUBY in browsers nog vergroot. 120<br />
119 http://www.w3.org/TR/ruby/<br />
120 http://www.w3.org/TR/css3-ruby/<br />
Thesis Sébastien Bruggeman Pagina 74
Microsoft 121 Internet Explorer 5.0 en hoger on<strong>de</strong>rsteunen RUBY. Netscape on<strong>de</strong>rsteunt<br />
RUBY echter niet.<br />
De on<strong>de</strong>rstaan<strong>de</strong> HTML co<strong>de</strong> geeft Figuur 11 als resultaat in een browser die <strong>de</strong> ruby tag<br />
on<strong>de</strong>rsteunt.<br />
新幹線 しんかんせん <br />
Figuur 11 Ruby<br />
Het is mogelijk om tekst vertikaal weer te geven, wat zeer handig is voor traditionele<br />
teksten. Dit gebeurt aan <strong>de</strong> hand van <strong>de</strong> volgen<strong>de</strong> <strong>de</strong>finitie in <strong>de</strong> stijltag: writing-mo<strong>de</strong>:tb-rl.<br />
De tekst begint dan rechts bovenaan. Westerse letters wor<strong>de</strong>n dan wel 90 gra<strong>de</strong>n gedraaid.<br />
Netscape on<strong>de</strong>rsteunt dit echter niet. Vanaf Microsoft Internet Explorer 5.5 wordt <strong>de</strong>ze functie<br />
wel on<strong>de</strong>rsteund.<br />
Indien <strong>de</strong> <strong>computer</strong> waar<strong>op</strong> gewerkt wordt geen inputmetho<strong>de</strong> bevat, kan er nog steeds<br />
gebruik gemaakt wor<strong>de</strong>n van online invoermetho<strong>de</strong>s. Het <strong>op</strong> javascript gebaseer<strong>de</strong> SIMON<br />
(Sino Input Method ONline) 122 is een heel mooi voorbeeld hiervan.<br />
Volgens het halfjaarlijkse rapport van CNNIC (China Internet Network Information<br />
Center 中国互联网络信息中心 zhōngguó hùlián wǎnglù xìnxízhōngxīn) 123 waren er in<br />
januari van dit jaar 33,7 miljoen internet gebruikers, dit is slechts 2,81% van <strong>de</strong> bevolking. De<br />
meer<strong>de</strong>rheid van <strong>de</strong> internetgebruikers zijn mannen (60%), en van jonge leeftijd (36,2% is<br />
tussen 18 en 24 jaar oud en 16,3% is tussen 25 en 30 jaar oud). In 2001 werd het aantal<br />
internetgebruikers in China rond <strong>de</strong> 26,5 miljoen geschat. In 1999 was dat nog 8,9 miljoen.<br />
Een evolutionair beeld kan men terugvin<strong>de</strong>n in Tabel 42 <strong>op</strong> pagina 85. Volgens TWNIC<br />
(Taiwan Network Information Center 台灣網路信息㆗心 táiwān wǎnglù xìnxízhōngxīn) 124<br />
waren er eind vorig jaar 7,8 miljoen internet gebruikers in Taiwan, dit is 35,45% van <strong>de</strong><br />
bevolking. Een evolutionair beeld kan men terugvin<strong>de</strong>n in Tabel 43 <strong>op</strong> pagina 85.<br />
121 http://msdn.microsoft.com/worksh<strong>op</strong>/Author/dhtml/reference/objects/RUBY.asp<br />
122 http://www.simon.tw.st<br />
123 http://www.cnnic.net.cn. Het profiel van <strong>de</strong>ze organisatie evenals van an<strong>de</strong>re organisaties en ministeries is<br />
terug te vin<strong>de</strong>n <strong>op</strong> http://www.chinaonline.com/refer/ministry_profiles/ministry_profiles.asp<br />
124 http://www.twnic.net.tw<br />
Thesis Sébastien Bruggeman Pagina 75
De <strong>Chinese</strong> regering heeft een “<strong>Chinese</strong> firewall” gecreëerd. Provi<strong>de</strong>rs en internetcafés<br />
moeten software installeren (Internet Police 110). Alle websites die subversieve of<br />
pornografische inhoud hebben moeten geblokkeerd wor<strong>de</strong>n. De <strong>Chinese</strong> regering voegt <strong>de</strong><br />
daad bij het woord en sluit internetcafés die niet voldoen aan <strong>de</strong> eisen. Ver<strong>de</strong>r moeten <strong>de</strong><br />
ISP’s het e-mailverkeer laten screenen en wor<strong>de</strong>n ze verantwoor<strong>de</strong>lijk gesteld voor het<br />
verwij<strong>de</strong>ren van ‘subversieve’ inhoud (CNN.com, 18 januari 2002). De ISP’s moeten een<br />
licentie aanvragen om BBS (Bulletin Board Service) te mogen draaien, <strong>de</strong> overheid en <strong>de</strong><br />
ISP’s hou<strong>de</strong>n toezicht <strong>op</strong> <strong>de</strong> inhoud die er wordt gepubliceerd, ISP’s verwij<strong>de</strong>ren regelmatig<br />
inhoud die <strong>de</strong> regering of <strong>de</strong> politiek van <strong>de</strong> regering in vraag stelt. Er zijn zelfs gevallen waar<br />
<strong>de</strong> auteur van het bericht vervolgd en veroor<strong>de</strong>eld werd. (CNN.com, 27 juli 2001). In 1999<br />
werd <strong>de</strong> Shanghainees Li Hai veroor<strong>de</strong>eld tot twee jaar gevangenisstraf omdat hij <strong>de</strong> redactie<br />
van VIP Reference, een internetkrant van <strong>Chinese</strong> pro-<strong>de</strong>mocratische-activisten die over <strong>de</strong><br />
grens wonen, 30 000 e-mailadressen van <strong>computer</strong>gebruikers in <strong>de</strong> Volksrepubliek ter<br />
beschikking had gesteld.<br />
Buitenlandse bedrijven helpen maar al te graag mee met <strong>de</strong> regering om toch maar die<br />
contracten in <strong>de</strong> wacht te slepen. Zo heeft Cisco zijn hardware aangepast voor <strong>de</strong> <strong>Chinese</strong><br />
markt (dit heeft het voor geen enkel an<strong>de</strong>r land willen doen). Dit houdt in dat <strong>de</strong> firewall alle<br />
buitenlandse websites blokkeert met een politiek incorrecte inhoud en ze vervangt door het<br />
bericht “Operation timed out”. Ver<strong>de</strong>r wordt <strong>de</strong> toegang tot proxysservers zoveel mogelijk<br />
geblokkeerd.<br />
Veel geruchten doen <strong>de</strong> ron<strong>de</strong> dat <strong>de</strong> eerste versie van <strong>de</strong> ‘Co<strong>de</strong> Red’ worm zijn oorsprong<br />
zou hebben in China en dat het daarom enkel niet-<strong>Chinese</strong> MS Windows versies aantast en<br />
een DoS (Denial of Service) aanval uitvoert <strong>op</strong> het Witte Huis. Het zou ontwikkeld zijn als<br />
reactie <strong>op</strong> een inci<strong>de</strong>nt waarbij een Amerikaans spionage vliegtuig door <strong>de</strong> Chinezen werd<br />
neergehaald. Co<strong>de</strong> Red II en Co<strong>de</strong> Red III zijn niet langer gericht <strong>op</strong> het Witte Huis en<br />
zou<strong>de</strong>n eigenlijk volledig nieuwe wormen zijn die hun oorsprong niet in China vin<strong>de</strong>n<br />
(CNN.com, 8 augustus 2001).<br />
Volgens het WIPO 125 (World Intellectual Pr<strong>op</strong>erty Organisation) zal het Chinees het<br />
Engels verdringen als meest gebruikte taal <strong>op</strong> het internet.<br />
125 http://www.wipo.org<br />
Thesis Sébastien Bruggeman Pagina 76
Op het internet zijn er verschillen<strong>de</strong> diensten die een webpagina of een invoer vertalen<br />
naar of vanuit het Chinees. Als men naar het Chinees vertaalt kan men vaak een keuze maken<br />
uit traditioneel Chinees, vereenvoudigd Chinees, en foto’s van karakters (eventueel met keuze<br />
tussen traditioneel of vereenvoudigd). Bij <strong>de</strong>ze laatste keuze wordt <strong>de</strong> tekst niet als tekst<br />
weergegeven maar ie<strong>de</strong>r karakter wordt als afzon<strong>de</strong>rlijke foto weergegeven. Ver<strong>de</strong>r zijn er<br />
ook diensten die er ook nog <strong>de</strong> uitspraak bij voegen. Een voorbeeld van een <strong>de</strong>rgelijke<br />
software is Gist van Alis Software 126 , hun technologie zit on<strong>de</strong>r an<strong>de</strong>re verwerkt in Netscape<br />
6 en in C<strong>op</strong>ernic 2000.<br />
Soms wor<strong>de</strong>n er meer<strong>de</strong>re diensten aangebo<strong>de</strong>n zoals e-mail, versturen van e-kaarten,<br />
chatten, etc. Een voorbeeld hiervan is WorldLingo 127 . Computervertalingen voldoen echter<br />
vaak nog niet aan <strong>de</strong> verwachtingen. Ook IBM is actief <strong>op</strong> dit gebied met zijn WebSphere<br />
Translation Server 128 , het kan naar het Chinees vertalen maar niet omgekeerd. Het product is<br />
gericht <strong>op</strong> <strong>de</strong> e-commerce markt en heeft een zeer hoog prijskaartje. De VN heeft een project<br />
l<strong>op</strong>en aan <strong>de</strong> United Nations University met <strong>de</strong> naam Universal Networking Language 129 .<br />
126 http://www.alis.com/<br />
127 http://www.worldlingo.com/<br />
128 http://www-3.ibm.com/software/speech/enterprise/ep_8.html<br />
129 http://www.unl.ias.unu.edu/<br />
Thesis Sébastien Bruggeman Pagina 77
7. Appendix<br />
7.1. Bibliografie<br />
- Baeten M, E-China, The Electronic Economy of China, licenciaatsverhan<strong>de</strong>ling,<br />
KULeuven, 2000-2001.<br />
- Chinees wordt voertaal <strong>op</strong> internet, Metro, nr.251, 11 <strong>de</strong>cember 2001.<br />
- De Rijck K., Wetenschapswinkel. Chinees, De Standaard, 24 september 2001.<br />
- De<strong>de</strong>ne & Herroelen, Inleiding tot <strong>de</strong> informatica, Deel A, cursus gedoceerd in het ka<strong>de</strong>r<br />
van het vak ‘Inleiding tot <strong>de</strong> informatica’, KULeuven, Wouters, Leuven, 2001.<br />
- ECMA, 7-Bit co<strong>de</strong>d Character Set, ECMA-6, 6 th edition, 1991.<br />
- ECMA, 8-Bit co<strong>de</strong>d Character Set, Structure and Rules, ECMA-43, 3 rd edition, 1991.<br />
- ECMA, Character Co<strong>de</strong> Structure and Extension Techniques, ECMA-35, 6 th edition,<br />
1994.<br />
- Gutmann E., Who Lost China’s Internet, With U.S. assistance, it will remain a tool of the<br />
<strong>Chinese</strong> government, not a force for <strong>de</strong>mocracy, The Weekly Standard, 25 februari<br />
2002. 130<br />
- Halpern J. & Kerman J., The Pitfalls and Complexities of <strong>Chinese</strong> to <strong>Chinese</strong><br />
Conversion, Fourteenth International Unico<strong>de</strong> Conference, Boston, 1999. 131<br />
- Harvey F., FT. Het Internet is overbevolkt, De Standaard, 11 <strong>de</strong>cember 2000.<br />
- Lun<strong>de</strong> K., CJKV Information Processing; <strong>Chinese</strong>, Japanese, Korean & Vietnamese<br />
Computing, O’Reilly & Associates, Sebast<strong>op</strong>ol, 1999.<br />
- Mackay A., Character-building, Nature 410, 1 maart 2001, pag. 19.<br />
- Meeus R., IBM maakt instantvertaler voor internet, De Morgen, 15 januari 2001.<br />
- Mul<strong>de</strong>rs J-P., VN sleutelen aan supervertaalmachine, De Morgen, 25 november 1998.<br />
- Rdg, CURSIEF. China bouwt nieuwe Grote Muur, De Standaard, 20 maart 2000.<br />
- Tanret E., De mogelijkhe<strong>de</strong>n van ICT voor het leren van Engels in China,<br />
licenciaatsverhan<strong>de</strong>ling, KULeuven, 1999-2000.<br />
- The Unico<strong>de</strong> Consortium, The Unico<strong>de</strong> Standard, Version 3.0, MA, Addison-Wesley,<br />
2000.<br />
- Variant Form of <strong>Chinese</strong> Character Co<strong>de</strong> for Information Interchange, volume 2, 2 <strong>de</strong><br />
editie, 1982.<br />
130 http://www.weeklystandard.com/content/public/articles/000/000/000/922dgmtd.asp<br />
131 http://www.cjk.org/cjk/c2c/c2centry.htm<br />
Thesis Sébastien Bruggeman Pagina 78
- Van Dale Groot woor<strong>de</strong>nboek <strong>de</strong>r Ne<strong>de</strong>rlandse taal, 12 <strong>de</strong> uitgave, Van Dale Lexicografie,<br />
Utrecht/Antwerpen, 1992.<br />
- Van <strong>de</strong>r Lin<strong>de</strong>n F., Hoe Internet <strong>de</strong> <strong>Chinese</strong> Muur slo<strong>op</strong>t, De Morgen, 14 april 2001.<br />
- 戴庆厦 许寿椿 高喜奎, 中国各民族文字与计算机信息处理 (zhōngguó gèmínzú<br />
wénzì yú diànnǎo zīxùnchǔlǐ),中央民族学院出版社, 北京, 1991.<br />
- 兩岸常用㆗文資訊名詞對照表及兩岸㆗文資訊內碼對照轉碼表之編擬 (liǎng àn<br />
chángyòng zhōngwén zīxùn míngcí duìzhàobiǎo jí liǎng àn zhōngwén zīxùn nèimǎ<br />
duìzhǎo zhuànmǎbiǎo zhī biānnǐ), 行政院研究發展考核委員會, 1994.<br />
Request For Command (geor<strong>de</strong>nd volgens RFC-nummer)<br />
- Simonsen K.,Character Mnemonics & Character Sets, RFC 1345, June 1992.<br />
- Goldsmidt D. & M. Davis, UTF-7 A Mail-Safe Transformation Format of Unico<strong>de</strong>, RFC<br />
1642, July 1994.<br />
- Alvestrand H., Tags for the I<strong>de</strong>ntification of Languages, RFC 1766, March 1995.<br />
- Ohta M., Character Sets ISO-10646 and ISO 10646-J-1, RFC 1815, July 1995.<br />
- Wei Y., Zhang Y., Li J., Ding J. & Y. Jiang, ASCII Printable Characters-Based <strong>Chinese</strong><br />
Character Encoding for Internet Messages, RFC 1842, August 1995.<br />
- Lee F., HZ - A Data Format for Exchanging Files of Arbitrarily Mixed <strong>Chinese</strong> and<br />
ASCII characters, RFC 1843, August 1995.<br />
- Zhu H., Hu D., Wang Z., Kao T., Chang W. & M. Crispin, <strong>Chinese</strong> Character Encoding<br />
for Internet Messages, RFC 1922, March 1996.<br />
- Goldsmidt D. & M. Davis, UTF-7 A Mail-Safe Transformation Format of Unico<strong>de</strong>, RFC<br />
2152, May 1997.<br />
- Freed N. & J. Postel, IANA Charset Registration Procedures, RFC 2278, January 1998.<br />
- Yergeau F., UTF-8, a transformation format of ISO 10646, RFC 2279, January 1998.<br />
- Whistler K. & G. Adams, Language Tagging in Unico<strong>de</strong> Plain Text, RFC 2482, January<br />
1999.<br />
- Alvestrand H., Tags for the I<strong>de</strong>ntification of Languages, RFC 3066, January 2001.<br />
Thesis Sébastien Bruggeman Pagina 79
7.2. Links<br />
Persoonlijke websites<br />
Brief History of Character Co<strong>de</strong>s in North America, Eur<strong>op</strong>e, and East Asia by Steven Stearle<br />
http://tronweb.super-nova.co.jp/characco<strong>de</strong>hist.html<br />
Chih-Hao Tsai’s Technology Page by Chih-Hao Tsai<br />
http://www.geocities.com/hao510/<br />
<strong>Chinese</strong> Characters and Culture by Rick Harbaugh<br />
http://zhongwen.com<br />
<strong>Chinese</strong> Computer Terminology System by Hong Kong Computer Society<br />
http://ccts.cs.cuhk.edu.hk/<br />
<strong>Chinese</strong> Computing by Wei-Chang Shann<br />
http://www.math.ncu.edu.tw/~shann/<strong>Chinese</strong>/Welcome.html<br />
<strong>Chinese</strong> Mac Home<br />
http://www.yale.edu/chinesemac/in<strong>de</strong>x.html<br />
CJK Quick Start by Gyula Zsigri<br />
http://www.geocities.com/fontboard/cjk<br />
CJKV Information Processing by Ken Lun<strong>de</strong><br />
http://www.oreilly.com/~lun<strong>de</strong>/cjkv-ip.html<br />
Czyborra.com by Roman Czyborra<br />
http://www.czyborra.com<br />
Digital UNIX Technical Reference for Using <strong>Chinese</strong> Features<br />
http://www.tru64unix.compaq.com/docs/base_doc/DOCUMENTATION/V40F_HTM<br />
L/SUPPDOCS/CHINADOC/CHINAPRF.HTM<br />
Global Design Home Page<br />
http://www.xerox-emea.com/global<strong>de</strong>sign/in<strong>de</strong>x.htm<br />
History and prospect of <strong>Chinese</strong> Romanization by Bemjamin AO<br />
http://www.whiteclouds.com/iclc/cliej/cl4ao.htm<br />
Introduction to the <strong>Chinese</strong> language and its Processing by Sylvia Wong<br />
http://www.fi.muni.cz/usr/wong/teaching/chinese/notes/notes.html<br />
On-line <strong>Chinese</strong> Tools by Erik Peterson<br />
http://www.mandarintools.com<br />
Sapienti’s homepage by Dylan W.H.Sung<br />
http://www.sungwh.freeserve.co.uk/in<strong>de</strong>x.html<br />
Thesis Sébastien Bruggeman Pagina 80
The Complete Gui<strong>de</strong> to <strong>Chinese</strong> Language Computing by Erik Peterson<br />
http://www.chinesecomputing.com<br />
Zvon – RFC 1922<br />
http://zvon.org/tmRFC/RFC1922/Output/in<strong>de</strong>x.html<br />
㆗文輸入法世界<br />
http://input.foruto.com<br />
漢字處理<br />
http://freebsd.sinica.edu.tw/~statue/hanzi/<br />
Organisaties en officiële instanties<br />
China Internet Network Information Center<br />
http://www.cnnic.net.cn/<br />
<strong>Chinese</strong>, Japanese and Korean (CJK) Dictionary Data<br />
http://www.cjk.org<br />
CMEX ㆗推會<br />
http://www.cmex.org.tw/<br />
Internet RFC/FYI/STD/BCP Archives<br />
http://www.faqs.org/rfcs/<br />
Taiwan Network Information Center<br />
http://www.twnic.net.tw<br />
The World Wi<strong>de</strong> Web Consortium<br />
http://www.w3c.org<br />
Unico<strong>de</strong> Home Page<br />
http://www.unico<strong>de</strong>.org<br />
教育部資訊網<br />
http://www.edu.tw/<br />
國語會<br />
http://www.edu.tw/mandr/<br />
Thesis Sébastien Bruggeman Pagina 81
7.3. Tabellen<br />
Tabel 37 Conversietabel b<strong>op</strong>omofo - Pinyin - wa<strong>de</strong>-giles<br />
B<strong>op</strong>omofo Pinyin Wa<strong>de</strong>-giles<br />
ㄅ b p<br />
ㄆ p p'<br />
ㄇ m m<br />
ㄈ f f<br />
ㄉ d t<br />
ㄊ t t'<br />
ㄋ n n<br />
ㄌ l l<br />
ㄍ g k<br />
ㄎ k k'<br />
ㄏ h h<br />
ㄐ j ch<br />
ㄑ q ch'<br />
ㄒ x hs<br />
ㄓ zh ch<br />
ㄔ ch ch'<br />
ㄕ sh sh<br />
ㄖ r j<br />
ㄗ z ts/tz<br />
ㄘ c ts'/tz'<br />
ㄙ s s/ss/sz<br />
ㄧ i i<br />
ㄨ u wu<br />
ㄩ ü yü<br />
ㄚ a a<br />
ㄛ o o<br />
ㄜ e e<br />
ㄝ ie ieh<br />
ㄞ ai ai<br />
ㄟ ei ei<br />
ㄠ ao ao<br />
ㄡ ou ou<br />
ㄢ an an<br />
ㄣ en en<br />
ㄤ ang ang<br />
ㄥ eng eng<br />
ㄦ er erh<br />
Thesis Sébastien Bruggeman Pagina 82
Tabel 38 Designator sequences gebruikt in ISO-2022-CN en ISO-2022-CN-EXT<br />
Karakterset Decimaal Hexa<strong>de</strong>cimaal Grafisch (ASCII)<br />
GB 2312-80 27 36 41 65 1B 24 29 41 $ ) A<br />
GB 7589-87 27 36 42 X 1B 24 2A X $ * X<br />
GB 7590-87 27 36 43 X 1B 24 2B X $ + X<br />
GB 12345-90 27 36 41 X 1B 24 29 X $ ) X<br />
GB 13131-91 27 36 42 X 1B 24 2A X $ * X<br />
GB 13132-91 27 36 43 X 1B 24 2B X $ + X<br />
ISO-IR-165 27 36 41 69 1B 24 29 45 $ ) E<br />
CNS 11643-1992 Niveau 1 27 36 41 71 1B 24 29 47 $ ) G<br />
CNS 11643-1992 Niveau 2 27 36 42 72 1B 24 2A 48 $ * H<br />
CNS 11643-1992 Niveau 3 27 36 43 73 1B 24 2B 49 $ + I<br />
CNS 11643-1992 Niveau 4 27 36 43 74 1B 24 2B 4A $ + J<br />
CNS 11643-1992 Niveau 5 27 36 43 75 1B 24 2B 4B $ + K<br />
CNS 11643-1992 Niveau 6 27 36 43 76 1B 24 2B 4C $ + L<br />
CNS 11643-1992 Niveau 7 27 36 43 77 1B 24 2B 4D $ + M<br />
De karaktersets met een X zijn nog niet toegewezen en geregistreerd en kunnen dus ook nog<br />
niet gebruikt wor<strong>de</strong>n. Zie ook http://www.itscj.ipsj.or.jp/ISO-IR/<br />
Tabel 39 Single shift sequences en shifting characters gebruikt in ISO-2022-CN en ISO-2022-CN-EXT<br />
Decimaal Hexa<strong>de</strong>cimaal Grafisch (ASCII)<br />
SS2 27 78 1B 4E N<br />
SS3 27 79 1B 4F O<br />
One byte shift 15 0F <br />
Two byte shift 14 0E <br />
Tabel 40 EUC-TW<br />
0 – 7E → ASCII<br />
A1 – FE A1 – FE A1 – FE → CNS 11643 niveau 1<br />
SS2 A2 A1 – FE A1 – FE → CNS 11643 niveau 2<br />
SS2 A3 A1 – FE A1 – FE → CNS 11643 niveau 3<br />
SS2 A4 A1 – FE A1 – FE → CNS 11643 niveau 4<br />
SS2 A5 A1 – FE A1 – FE → CNS 11643 niveau 5<br />
SS2 A6 A1 – FE A1 – FE → CNS 11643 niveau 6<br />
SS2 A7 A1 – FE A1 – FE → CNS 11643 niveau 7<br />
SS2 A8 A1 – FE A1 – FE → CNS 11643 niveau 8<br />
SS2 A9 A1 – FE A1 – FE → CNS 11643 niveau 9<br />
SS2 AA A1 – FE A1 – FE → CNS 11643 niveau 10<br />
SS2 AB A1 – FE A1 – FE → CNS 11643 niveau 11<br />
SS2 AC A1 – FE A1 – FE → CNS 11643 niveau 12<br />
SS2 AD A1 – FE A1 – FE → CNS 11643 niveau 13<br />
SS2 AE A1 – FE A1 – FE → CNS 11643 niveau 14<br />
SS2 AF A1 – FE A1 – FE → CNS 11643 niveau 15<br />
SS2 B0 A1 – FE A1 – FE → CNS 11643 niveau 16<br />
Thesis Sébastien Bruggeman Pagina 83
Tabel 41 Toewijzing van <strong>de</strong> toetsen voor invoer met <strong>de</strong> Cangjie metho<strong>de</strong><br />
Alphabets Stroke<br />
Types<br />
Correspon<strong>de</strong>nces<br />
<strong>Chinese</strong><br />
A 日 ‘A’ looks like ‘日’<br />
B 月 ‘B’ looks like ‘月’<br />
C 金 ‘C’ looks like a gold (i.e. 金) ring on a girl’s finger<br />
D 木<br />
If a woo<strong>de</strong>n (i.e. 木) trunk is cut into two halves vertically,<br />
each half looks like a ‘D’<br />
E 水 ‘E’ looks like the 3 main branches of the Yangtze river<br />
F 火 ‘F’ is the first character of the word ‘fire’ (i.e. 火)<br />
G 土 ‘G’ is the first character of the word ‘ground’ (i.e. 土)<br />
H 斜 竹<br />
The first stroke of ‘H’ looks like a slanted stroke (i.e. 斜) in<br />
<strong>Chinese</strong><br />
I 點 戈 There is a dot (i.e. 點) on ‘i’<br />
J 交 十<br />
The script writing of ‘J’ looks like a cross (i.e. 交) road on a<br />
highway<br />
K 叉 大<br />
‘K’ looks like a cross road with 3 branching routes (i.e. ㆔叉<br />
路, literally three fork road)<br />
L 縱 ㆗ ‘l’ looks like a vertical (i.e. 縱) line<br />
M 橫 ㆒<br />
The script writing of ‘m’ looks like a crab walking<br />
horizontally (i.e. 橫)<br />
N 鉤 弓 ‘N’ looks like a hook (i.e. 鉤) on the wall<br />
O ㆟ ‘O’ looks like a human (i.e. ㆟) head<br />
A human heart (i.e. 心) is situated to the left of one's body.<br />
P 心 When someone stands <strong>op</strong>posite you, their heart would have<br />
the position like the arc of a ‘P’<br />
Q 手 ‘Q’ looks like a human’s head with a hand (i.e. 手)<br />
R 口 ‘R’ looks like a mouth (i.e. 口) with a mustache<br />
S 側 尸 ‘S’ looks like a si<strong>de</strong> view of a slim girl<br />
T 並 廿<br />
‘T’ looks like two pe<strong>op</strong>le having their shoul<strong>de</strong>r next to each<br />
other (i.e. 肩並肩)<br />
U 仰 山<br />
‘U’ looks like a valley between two hills (i.e. 山). Once you<br />
are standing in the valley, you need to look up (i.e. 仰望)<br />
V 妞 女<br />
‘V’ looks like a necklace with a pendant on a girl’s (i.e. 女)<br />
neck<br />
W 方 田 ‘田’ looks like a window, which starts with the character ‘W’<br />
Y 卜<br />
‘Y’ looks like the instruments for <strong>Chinese</strong> fortune telling<br />
(i.e. 占卜)<br />
Thesis Sébastien Bruggeman Pagina 84
Tabel 42 Internetgebruik in China<br />
Internet gebruikers Computer Hosts Bandbreedte<br />
(x 10 000) (x 10 000) (M)<br />
1997.10 62 30 25<br />
1998.7 118 54 85<br />
1999.1 210 75 143<br />
1999.7 400 146 241<br />
2000.1 890 350 351<br />
2000.7 1 690 650 1 234<br />
2001.1 2 250 892 2 799<br />
2001.7 2 650 1 002 3 257<br />
2002.1 3 370 1 254 7 598<br />
Deze tabel is samengesteld uit verschillen<strong>de</strong> tabellen, omwille van het overzicht zijn <strong>de</strong> getallen afgerond. Het<br />
volledig rapport is terug te vin<strong>de</strong>n <strong>op</strong> http://www.cnnic.net.cn/<strong>de</strong>velst/rep200201-e.shtml<br />
Tabel 43 Internetgebruik in Taiwan<br />
Internet gebruikers Internet Hosts Bandbreedte<br />
(x 10 000) (x 10 000) (Mbps)<br />
1996/12 60<br />
1997/06 126<br />
1997/12 166<br />
1998/06 217<br />
1998/12 301<br />
1999/06 402<br />
1999/12 480<br />
2000/06 560 78<br />
2000/12 627 113 2.136<br />
2001/06 721 197 4.153<br />
2001/12 782 271 7.228<br />
Thesis Sébastien Bruggeman Pagina 85
Tabel 44 Blokken in Unico<strong>de</strong> 3.2.0<br />
Taal Range<br />
Basic Latin 0000 – 007F<br />
Latin-1 Supplement 0080 – 00FF<br />
Latin Exten<strong>de</strong>d-A 0100 – 017F<br />
Latin Exten<strong>de</strong>d-B 0180 – 024F<br />
IPA Extensions 0250 – 02AF<br />
Spacing Modifier Letters 02B0 – 02FF<br />
Combining Diacritical Marks 0300 – 036F<br />
Greek and C<strong>op</strong>tic 0370 – 03FF<br />
Cyrillic 0400 – 04FF<br />
Cyrillic Supplementary 0500 – 052F<br />
Armenian 0530 – 058F<br />
Hebrew 0590 – 05FF<br />
Arabic 0600 – 06FF<br />
Syriac 0700 – 074F<br />
Thaana 0780 – 07BF<br />
Devanagari 0900 – 097F<br />
Bengali 0980 – 09FF<br />
Gurmukhi 0A00 – 0A7F<br />
Gujarati 0A80 – 0AFF<br />
Oriya 0B00 – 0B7F<br />
Tamil 0B80 – 0BFF<br />
Telugu 0C00 – 0C7F<br />
Kannada 0C80 – 0CFF<br />
Malayalam 0D00 – 0D7F<br />
Sinhala 0D80 – 0DFF<br />
Thai 0E00 – 0E7F<br />
Lao 0E80 – 0EFF<br />
Tibetan 0F00 – 0FFF<br />
Myanmar 1000 – 109F<br />
Georgian 10A0 – 10FF<br />
Hangul Jamo 1100 – 11FF<br />
Ethi<strong>op</strong>ic 1200 – 137F<br />
Cherokee 13A0 – 13FF<br />
Unified Canadian Aboriginal Syllabics 1400 – 167F<br />
Ogham 1680 – 169F<br />
Runic 16A0 – 16FF<br />
Tagalog 1700 – 171F<br />
Hanunoo 1720 – 173F<br />
Buhid 1740 – 175F<br />
Tagbanwa 1760 – 177F<br />
Khmer 1780 – 17FF<br />
Mongolian 1800 – 18AF<br />
Latin Exten<strong>de</strong>d Additional 1E00 – 1EFF<br />
Greek Exten<strong>de</strong>d 1F00 – 1FFF<br />
General Punctuation 2000 – 206F<br />
Superscripts and Subscripts 2070 – 209F<br />
Currency Symbols 20A0 – 20CF<br />
Thesis Sébastien Bruggeman Pagina 86
Taal Range<br />
Combining Diacritical Marks for Symbols 20D0 – 20FF<br />
Letterlike Symbols 2100 – 214F<br />
Number Forms 2150 – 218F<br />
Arrows 2190 – 21FF<br />
Mathematical Operators 2200 – 22FF<br />
Miscellaneous Technical 2300 – 23FF<br />
Control Pictures 2400 – 243F<br />
Optical Character Recognition 2440 – 245F<br />
Enclosed Alphanumerics 2460 – 24FF<br />
Box Drawing 2500 – 257F<br />
Block Elements 2580 – 259F<br />
Geometric Shapes 25A0 – 25FF<br />
Miscellaneous Symbols 2600 – 26FF<br />
Dingbats 2700 – 27BF<br />
Miscellaneous Mathematical Symbols-A 27C0 – 27EF<br />
Supplemental Arrows-A 27F0 – 27FF<br />
Braille Patterns 2800 – 28FF<br />
Supplemental Arrows-B 2900 – 297F<br />
Miscellaneous Mathematical Symbols-B 2980 – 29FF<br />
Supplemental Mathematical Operators 2A00 – 2AFF<br />
CJK Radicals Supplement 2E80 – 2EFF<br />
Kangxi Radicals 2F00 – 2FDF<br />
I<strong>de</strong>ographic Description Characters 2FF0 – 2FFF<br />
CJK Symbols and Punctuation 3000 – 303F<br />
Hiragana 3040 – 309F<br />
Katakana 30A0 – 30FF<br />
B<strong>op</strong>omofo 3100 – 312F<br />
Hangul Compatibility Jamo 3130 – 318F<br />
Kanbun 3190 – 319F<br />
B<strong>op</strong>omofo Exten<strong>de</strong>d 31A0 – 31BF<br />
Katakana Phonetic Extensions 31F0 – 31FF<br />
Enclosed CJK Letters and Months 3200 – 32FF<br />
CJK Compatibility 3300 – 33FF<br />
CJK Unified I<strong>de</strong>ographs Extension A 3400 – 4DBF<br />
CJK Unified I<strong>de</strong>ographs 4E00 – 9FFF<br />
Yi Syllables A000 – A48F<br />
Yi Radicals A490 – A4CF<br />
Hangul Syllables AC00 – D7AF<br />
High Surrogates D800 – DB7F<br />
High Private Use Surrogates DB80 – DBFF<br />
Low Surrogates DC00 – DFFF<br />
Private Use Area E000 – F8FF<br />
CJK Compatibility I<strong>de</strong>ographs F900 – FAFF<br />
Alphabetic Presentation Forms FB00 – FB4F<br />
Thesis Sébastien Bruggeman Pagina 87
Taal Range<br />
Arabic Presentation Forms-A FB50 – FDFF<br />
Variation Selectors FE00 – FE0F<br />
Combining Half Marks FE20 – FE2F<br />
CJK Compatibility Forms FE30 – FE4F<br />
Small Form Variants FE50 – FE6F<br />
Arabic Presentation Forms-B FE70 – FEFF<br />
Halfwidth and Fullwidth Forms FF00 – FFEF<br />
Specials FFF0 – FFFF<br />
Old Italic 10300 – 1032F<br />
Gothic 10330 – 1034F<br />
Deseret 10400 – 1044F<br />
Byzantine Musical Symbols 1D000 – 1D0FF<br />
Musical Symbols 1D100 – 1D1FF<br />
Mathematical Alphanumeric Symbols 1D400 – 1D7FF<br />
CJK Unified I<strong>de</strong>ographs Extension B 20000 – 2A6DF<br />
CJK Compatibility I<strong>de</strong>ographs Supplement 2F800 – 2FA1F<br />
Tags E0000 – E007F<br />
Supplementary Private Use Area-A F0000 – FFFFF<br />
Supplementary Private Use Area-B 100000 – 10FFFF<br />
Thesis Sébastien Bruggeman Pagina 88
7.4. Figuren<br />
Figuur 12 7-bit en 8-bit co<strong>de</strong> tabel<br />
Figuur 13 Een <strong>Chinese</strong> 'typmachine'<br />
Thesis Sébastien Bruggeman Pagina 89
Figuur 14 Boshiamy invoermetho<strong>de</strong><br />
Thesis Sébastien Bruggeman Pagina 90
7.5. Dankbetuiging<br />
Speciale dank en waar<strong>de</strong>ring gaat uit naar mijn promotor professor Fred Truyen voor <strong>de</strong><br />
constante motivatie die ik mocht ervaren. Eveneens mijn welgemeen<strong>de</strong> dank voor professor<br />
Jan Engelen van het <strong>de</strong>partement ESAT aan <strong>de</strong> KUL, en zijn assistenten voor <strong>de</strong> vele<br />
technische informatie en verbeteringen. Ook dank aan mijn professoren en me<strong>de</strong>stu<strong>de</strong>nten van<br />
Sinologie aan <strong>de</strong> K.U.Leuven voor <strong>de</strong> afgel<strong>op</strong>en jaren in voor- en tegenspoed.<br />
Heel veel dank gaat ook uit naar mijn ou<strong>de</strong>rs die me <strong>de</strong> kans gaven om <strong>de</strong>ze <strong>op</strong>leiding te<br />
volgen, en me er steeds in gesteund hebben. Ook mijn broer Nicolas voor <strong>de</strong> uren werk en<br />
bergen aanvullingen en verbeteringen. En mijn broertje Justin en neef Brecht voor screenshots<br />
en controle.<br />
Ver<strong>de</strong>r wil ik ook nog Feike van <strong>de</strong> firma Spanninga danken voor het ter beschikking<br />
stellen van Dr.Eye en Microsoft Proofing Tools.<br />
En als laatste, maar zeker niet in het minst dank en groet ik mijn fantastisch lief Julie en<br />
mijn beste vrien<strong>de</strong>n Stefaan en Thijs voor <strong>de</strong> ‘spirituele’ on<strong>de</strong>rsteuning die ze mij gaven.<br />
Thesis Sébastien Bruggeman Pagina 91
Bijlage A: Selectie van National Standards in <strong>de</strong> PRC 132<br />
GB 1988-1980<br />
信息处理交换用的七位编码字符集<br />
GB/T 1988-1988<br />
信息技术 信息交换用七位编码字符集<br />
Information technology--7-bit co<strong>de</strong>d character set for information interchange<br />
GB 2311-1980<br />
信息处理交换用七位编码字符集的扩充方法<br />
GB/T 2311-1988<br />
信息处理 七位和八位编码字符集 代码扩充技术<br />
Information processing— ISO 7-bit and 8-bit co<strong>de</strong>d character sets— Co<strong>de</strong> extension techniques<br />
GB 2312-1980<br />
信息交换用汉字编码字符集 基本集<br />
Co<strong>de</strong> of <strong>Chinese</strong> graphic character set for information interchange--Primary set<br />
GB 2787-1981<br />
信息处理交换用七位编码字符集键盘的字母数字区布居<br />
Keyboard arrangement of the alphabetical area of 7-bit co<strong>de</strong>d character set for information<br />
processing interchange<br />
GB/T 3911-1983<br />
信息处理用七位编码字符集控制字符的图形表示<br />
Graphical representations of the control characters of 7-bit co<strong>de</strong>d character set for information<br />
processing<br />
GB/T 5007.1-1985<br />
信息交换用汉字 24×24 点阵字模集<br />
24×24 Dot matrix font set of chinese i<strong>de</strong>ograms for information interchange<br />
GB/T 5007.2-1985<br />
信息交换用汉字 24×24 点阵字模数据集<br />
24×24 Dot matrix font data set of chinese i<strong>de</strong>ograms for information interchange<br />
GB/T 5199.1-1985<br />
信息交换用汉字 15×16 点阵字模集<br />
15×16 Dot matrix font set of chinese i<strong>de</strong>ograms for information interchange<br />
GB/T 5199.2-1985<br />
信息交换用汉字 15×16 点阵数据集<br />
15×16 Dot matrix font date set of chinese i<strong>de</strong>ograms for information interchange<br />
GB 5261-1985<br />
文字和符号成形设备用的增?控制功能<br />
GB/T 5261-1994<br />
信息处理 七位和八位编码字符集用的控制功能<br />
Information processing--Control functions for 7-bit and 8-bit co<strong>de</strong>d character sets<br />
GB/T 6345.1-1986<br />
信息交换用汉字 32×32 点阵字模集<br />
32×32 Dot matrix font set of chinese i<strong>de</strong>ograms for information interchange<br />
GB/T 6345.2-1986<br />
信息交换用汉字 32×32 点阵字模数据集<br />
32×32 Dot matrix font data set of chinese i<strong>de</strong>ograms for information interchange<br />
132 Bron: http://www.cnaec.com.cn/guifan/02/L70-84.htm<br />
Thesis Sébastien Bruggeman Pagina 92
GB/T 7420-1987<br />
信息处理 从信息处理交换用七位编码字符集中派生四位字符集的导则<br />
Information processing--Gui<strong>de</strong> for the <strong>de</strong>finition of 4-bit character sets <strong>de</strong>rived from the 7-bit<br />
co<strong>de</strong>d character set for information processing interchange<br />
GB/T 7422.1-1987<br />
信息交换用蒙古文 16×12、16×8、16×4 点阵字模集<br />
16×12, 16×8, 16×4 Dot matrix font set of mongolian characters for information interchange<br />
GB/T 7422.2-1987<br />
信息交换用蒙古文 16×12、16×8、16×4 点阵数据集<br />
16×12, 16×8, 16×4 Dot matrix data set of mongolian characters for information interchange<br />
GB/T 7513-1987<br />
汉字整字键盘盘面字排列<br />
GB/T 7514-1987<br />
信息处理交换用七位编码字符集与电报用五单位电码之间的转换<br />
Conversion between the 7-bit co<strong>de</strong>d character set for information processing interchange and the<br />
5-unit co<strong>de</strong> for the telegraph service<br />
GB/T 7589-1987<br />
信息交换用汉字编码字符集 第二辅助集<br />
Co<strong>de</strong> of <strong>Chinese</strong> i<strong>de</strong>ograms set for information interchange--The 2nd supplementary set<br />
GB/T 7590-1987<br />
信息交换用汉字编码字符集 第四辅助集<br />
Co<strong>de</strong> of <strong>Chinese</strong> i<strong>de</strong>ograms set for information interchange--The 4th supplementary set<br />
GB 8045-1987<br />
信息处理交换用蒙古文七位和八位编码图形字符集<br />
Mongolian 7-bit and 8-bit co<strong>de</strong>d graphic character sets for information processing interchange<br />
GB/T 8046-1987<br />
信息处理交换用蒙古文字符集键盘的字母区布局<br />
Keyboard arrangement of the alphabetical area of Mongolian character set for information<br />
processing interchange<br />
GB/T 8565.1-1988<br />
信息处理 文本通信用编码字符集 第一部分 总则<br />
Information processing--Co<strong>de</strong>d character sets for text communication--Part 1: General<br />
introduction<br />
GB/T 8565.2-1988<br />
信息处理 文本通信用编码字符集 第二部分 图形字符集<br />
Information processing--Co<strong>de</strong>d character sets for text communication--Part 2: Graphic characters<br />
GB/T 8565.3-1988<br />
信息处理 文本通信用编码字符集 第三部分: 按页成象格式用控制功能<br />
Information processing--Co<strong>de</strong>d character sets for text communication--Part 3: Control functions<br />
for page-image format<br />
GB/T 11383-1989<br />
信息处理 信息交换用八位代码结构和编码规则<br />
Information processing--8-bit co<strong>de</strong> for information interchange--Structure and rules for<br />
implementation<br />
GB/T 12034-1989<br />
信息交换用汉字 32×32 点阵仿宋体字模集及数据集<br />
32×32 Dot matrix Fangsongti font set and data set of <strong>Chinese</strong> i<strong>de</strong>ograms for information<br />
interchange<br />
Thesis Sébastien Bruggeman Pagina 93
GB/T 12035-1989<br />
信息交换用汉字 32×32 点阵楷体字模集及数据集<br />
32×32 Dot matrix Kaiti font set and data set of <strong>Chinese</strong> i<strong>de</strong>ograms for information interchange<br />
GB/T 12036-1989<br />
信息交换用汉字 32×32 点阵黑体字模集及数据集<br />
32×32 Dot matrix Heiti font set and data set of <strong>Chinese</strong> i<strong>de</strong>ograms for information interchange<br />
GB/T 12037-1989<br />
信息交换用汉字 36×36 点阵宋体字模集及数据集<br />
36×36 Dot matrix Songti font set and data set of <strong>Chinese</strong> i<strong>de</strong>ograms for information interchange<br />
GB/T 12038-1989<br />
信息交换用汉字 36×36 点阵仿宋体字模集及数据集<br />
36×36 Dot matrix Fangsongti font set and data set of <strong>Chinese</strong> i<strong>de</strong>ograms for information<br />
interchange<br />
GB/T 12039-1989<br />
信息交换用汉字 36×36 点阵楷体字模集及数据集<br />
36×36 Dot matrix Kaiti font set and data set of <strong>Chinese</strong> i<strong>de</strong>ograms for information<br />
interchange<br />
GB/T 12040-1989<br />
信息交换用汉字 36×36 点阵黑体字模集及数据集<br />
36×36 Dot matrix Heiti font set and data set of <strong>Chinese</strong> i<strong>de</strong>ograms for information interchange<br />
GB/T 12041-1989<br />
信息交换用汉字 48×48 点阵宋体字模集及数据集<br />
48×48 Dot matrix Songti font set and data set of <strong>Chinese</strong> i<strong>de</strong>ograms for information interchange<br />
GB/T 12042-1989<br />
信息交换用汉字 48×48 点阵仿宋体字模集及数据集<br />
48×48 Dot matrix Fangsongti font set and data set of <strong>Chinese</strong> i<strong>de</strong>ograms for information<br />
interchange<br />
GB/T 12043-1989<br />
信息交换用汉字 48×48 点阵楷体字模集及数据集<br />
48×48 Dot matrix Kaiti font set and data set of <strong>Chinese</strong> i<strong>de</strong>ograms for information interchange<br />
GB/T 12044-1989<br />
信息交换用汉字 48×48 点阵黑体字模集及数据集<br />
48×48 Dot matrix Heiti font set and data set of <strong>Chinese</strong> i<strong>de</strong>ograms for information<br />
interchange<br />
GB 12050-1989<br />
信息处理 信息交换用维吾尔文编码图形字符集<br />
Information processing— Uighur co<strong>de</strong>d graphic character sets for information interchange<br />
GB 12052-1989<br />
信息交换用朝鲜文字编码字符集<br />
Korean character co<strong>de</strong>d character set for information interchange<br />
GB/T 12053-1989<br />
光学识别用字母数字字符集 第一部分: OCR-A 字符集印刷图象的形状和尺寸<br />
Alphanumeric character sets for <strong>op</strong>tical recognition — Part 1: Character set OCR-A— Shapes and<br />
dimensions of the printed image<br />
GB/T 12054-1989<br />
数据处理 转义序列的登记规程<br />
Data processing--Procedure for registration of escape sequences<br />
GB/T 12200.1-1990<br />
汉语信息处理词汇 01 部分: 基本术语<br />
<strong>Chinese</strong> information processing— Vocabulary— Part 01: Fundamental terms<br />
Thesis Sébastien Bruggeman Pagina 94
GB/T 12200.2-1994<br />
汉语信息处理词汇 02 部分: 汉语和汉字<br />
<strong>Chinese</strong> information processing--Vocabulary--Part 02: <strong>Chinese</strong> and <strong>Chinese</strong> character<br />
GB/T 12345-1990<br />
信息交换用汉字编码字符集 辅助集<br />
Co<strong>de</strong> of <strong>Chinese</strong> i<strong>de</strong>ogram set for information interchange supplementary set<br />
GB/T 12508-1990<br />
光学识别用字母数字字符集 第二部分: OCR-B 字符集印刷图象的形状和尺寸<br />
Alphanumeric character sets for <strong>op</strong>tical recognition— Part 2: Character set OCR-B— Shapes and<br />
dimensions of the printed image<br />
GB 13000.1-1993<br />
信息技术 通用多八位编码字符集(UCS) 第一部分:体系结构与基本多文种平面<br />
Information technology--Universal multiple--Octet co<strong>de</strong>d character set(UCS)--Part 1:<br />
Architecture and basic multilingual plane<br />
GB 13131-1991<br />
信息交换用汉字编码字符集 第三辅助集<br />
Co<strong>de</strong> of <strong>Chinese</strong> i<strong>de</strong>ogram set for information interchange 3rd supplementary set<br />
GB 13132-1991<br />
信息交换用汉字编码字符集 第五辅助集<br />
Co<strong>de</strong> of <strong>Chinese</strong> i<strong>de</strong>ogram set for information interchange 5th supplementary set<br />
GB 13134-1991<br />
信息交换用彝文编码字符集<br />
Yi co<strong>de</strong>d character set for information interchange<br />
GB/T 13135-1991<br />
信息交换用彝文字符 15×16 点阵字模集及数据集<br />
15×16 Dot matrix font set and data set of Yi characters for information interchange<br />
GB/T 13141-1991<br />
书目信息交换用希腊字母编码字符集<br />
Greek alphabet co<strong>de</strong>d character set for bibliographic information interchange<br />
GB/T 13142-1991<br />
书目信息交换用拉丁字母代码字符扩充集<br />
Extension of the Latin alphabet co<strong>de</strong>d character set for bibliographic information interchange<br />
GB/T 13715-1992<br />
信息处理用现代汉语分词规范<br />
Contemporary <strong>Chinese</strong> language word segmentation specification for information processing<br />
GB/T 15189-1994<br />
DOS 中文信息处理系统接口规范<br />
Specification of DOS <strong>Chinese</strong> information processing system interface<br />
GB/T 15273.1-1994<br />
信息处理 八位单字节编码图形字符集 第一部分: 拉丁字母一<br />
Information processing--8-bit single-byte co<strong>de</strong>d graphic character sets--Part 1: Latin<br />
alphabet No.1<br />
GB/T 15273.2-1995<br />
信息处理 八位单字节编码图形字符集 第二部分: 拉丁字母二<br />
Information processing--8-bit single-byte co<strong>de</strong>d graphc character sets--Part 2: Latin alphabet<br />
No.2<br />
GB/T 15273.3-1995<br />
信息处理 八位单字节编码图形字符集 第三部分: 拉丁字母三<br />
Information processing--8-bit single-byte co<strong>de</strong>d graphc character sets--Part 3: Latin alphabet<br />
No.3<br />
Thesis Sébastien Bruggeman Pagina 95
GB/T 15273.4-1995<br />
信息处理 八位单字节编码图形字符集 第四部分: 拉丁字母四<br />
Information processing--8-bit single-byte co<strong>de</strong>d graphc character sets--Part 4: Latin alphabet<br />
No.4<br />
GB/T 15273.7-1996<br />
信息处理 八位单字节编码图形字符集 第 7 部分:拉丁/希腊字母<br />
Information processing--8-bit single-byte co<strong>de</strong>d graphic character sets--Part 7: Latin/Greek<br />
alphabet<br />
GB/T 15732-1995<br />
汉字键盘输入用通用词语集<br />
General word set for <strong>Chinese</strong> character keyboard input<br />
GB/T 16683-1996<br />
信息交换用彝文字符 24×24 点阵字模集及数据集<br />
24×24 Dot matrix font set and data set of Yi character for information interchange<br />
GB 16793-1997<br />
信息技术 通用多八位编码字符集(Ⅰ区) 汉字 24 点阵字型 宋体<br />
Information technology--Universal multiple--Octet co<strong>de</strong>d character set (IZone)--24-dots matrix<br />
font of i<strong>de</strong>ogram--Song Ti<br />
GB 16794.1-1997<br />
信息技术 通用多八位编码字符集(Ⅰ区) 汉字 48 点阵字型 第 1 部分:宋体<br />
Information technology--Universal multiple--Octet co<strong>de</strong>d character set(I zone)--48-dots matrix<br />
font of i<strong>de</strong>ogram--Part 1: Song Ti<br />
GB 16959-1997<br />
信息技术 信息交换用藏文编码字符集 基本集<br />
Information technology--Tibetan co<strong>de</strong>d character sets for information interchange--Basic set<br />
GB/T 16960.1-1997<br />
信息技术 藏文编码字符集(基本集)24×48 点阵字型 第 1 部分: 白体<br />
Information technology--Tibetan co<strong>de</strong>d character set (basic set)--24×48 dots matrix font--Part 1:<br />
Bai Ti<br />
GB/T 16964.1-1997<br />
信息技术 字型信息交换 第 1 部分: 体系结构<br />
Information technology--Font information interchange--Part 1: Architecture<br />
GB/T 16964.2-1997<br />
信息技术 字型信息交换 第 2 部分: 交换格式<br />
Information technolong--Font information interchange--Part 2: Interchange format<br />
GB/T 16964.3-1997<br />
信息技术 字型信息交换 第 3 部分: 字形形状表示<br />
Information technology--Font information interchange--Part 3: Glyph shape representation<br />
GB/T 17543-1998<br />
信息技术 藏文编码字符集(基本集)键盘字母数字区的布局<br />
Information technology--Keyboard layout of the alphanumeric zone for Tibetan co<strong>de</strong>d character<br />
set (basic set)<br />
GB/T 16500-1998<br />
信息交换用汉字编码字符集 第七辅助集<br />
Co<strong>de</strong> of chinese i<strong>de</strong>ograms set for information interchange--The 7th supplementary set<br />
GB 17698-1999<br />
信息技术 通用多八位编码字符集(I 区)汉字 16 点阵字型<br />
Information technology--Universal multiple-octet co<strong>de</strong>d character set(I Zone)--16-dots matrix<br />
font of <strong>Chinese</strong> i<strong>de</strong>ogram<br />
Thesis Sébastien Bruggeman Pagina 96
GB 18030-2000<br />
信息技术 – 信息交换用汉字编码字符集 – 基本集的扩充<br />
Information technology – <strong>Chinese</strong> I<strong>de</strong>ograms co<strong>de</strong>d character set for information interchange –<br />
Extension for the basic set<br />
Thesis Sébastien Bruggeman Pagina 97
Bijlage B: Selectie van <strong>Chinese</strong> National Standards van <strong>de</strong> ROC 133<br />
CNS 5205 (X5001)<br />
資訊處理及交換用七數元碼字元集組<br />
Information processing: 7-Bit Co<strong>de</strong>d Character Set For Information Interchange<br />
CNS 7223 (X5005)<br />
資訊處理–七數元碼字元集(組)之控制字元圖示法<br />
Information Processing-Graphical Representations for the Control Characters of the 7-Bit Co<strong>de</strong>d<br />
Character Set<br />
CNS 7654 (X5006)<br />
資訊處理-七位元及八位元碼字元集-延碼技術<br />
Information technology -- Character co<strong>de</strong> structure and extension techniques<br />
CNS 7656 (X5007)<br />
資訊技術–資訊交換用八位元碼–實作結構及規則<br />
Information technology-8-bit co<strong>de</strong> for information interchange-structure and rules for<br />
implementation<br />
CNS 11643-1986 (X5012)<br />
通用漢字標準交換碼<br />
Standard Interchange Co<strong>de</strong> for Generally Used <strong>Chinese</strong> Characters<br />
CNS 11643-1992 (X5012)<br />
㆗文標準交換碼<br />
<strong>Chinese</strong> Standard Interchange Co<strong>de</strong><br />
CNS 11643-01 (X5012-1)<br />
㆗文標準交換碼使用方法<br />
The Usage of <strong>Chinese</strong> Standard Interchange Co<strong>de</strong><br />
CNS 13160 (X5017)<br />
資訊處理 有限字元集系統㆗國際單位制及其他單位制表示法<br />
Information Processing - Representation of SI and Other Units in Systems with Limited<br />
Character Sets<br />
CNS 13246 (X5023)<br />
資訊處理–8位元單㆒位元組碼化圖形字元集(第1部:拉㆜字母第㆒號)<br />
Information Processing - 8 - bit Single - byte Co<strong>de</strong>d Graphic Character Sets - Part 1: Latin<br />
Alphabet NO.1<br />
CNS 13247 (X5024)<br />
資訊處理–8位元單㆒位元組碼化圖形字元集(第2部:拉㆜字母第㆓號)<br />
Information Processing - 8 - bit Single - byte Co<strong>de</strong>d Graphic Character Sets - Part 2: Latin<br />
Alphabet NO.2<br />
CNS 13325 (X5028)<br />
資訊處理–8位元單㆒位元組碼化圖形字元集(第3部:拉㆜字母第㆔號)<br />
Information Processing - 8 - Bit Single - Byte Co<strong>de</strong>d Graphic Character Sets - Part 3: Latin<br />
Alphabet No.3<br />
CNS 13326 (X5029)<br />
資訊處理–8位元單㆒位元組碼化圖形字元集(第4部:拉㆜字母第㆕號)<br />
Information Processing - 8 - Bit Single - Byte Co<strong>de</strong>d Graphic Character Sets - Part 4: Latin<br />
Alphabet No.4<br />
CNS 13327 (X5030)<br />
資訊處理–8位元單㆒位元組碼化圖形字元集(第5部:拉㆜/斯拉夫字母)<br />
Information Processing - 8 - Bit Single - Byte Co<strong>de</strong>d Graphic Character Sets - Part 5: Latin /<br />
Cyrillic Alphabet<br />
133 Bron: http://www.cnsppa.com.tw/ (Deze standaar<strong>de</strong>n vallen on<strong>de</strong>r groep X5)<br />
Thesis Sébastien Bruggeman Pagina 98
CNS 13328 (X5031)<br />
資訊處理–8位元單㆒位元組碼化圖形字元集(第9部:拉㆜字母第五號)<br />
Information Processing - 8 - Bit Single - Byte Co<strong>de</strong>d Graphic Character Sets - Part 9: Latin<br />
Alpbabet No.5<br />
CNS 13384 (X5034)<br />
資訊處理–8位元單㆒位元組碼化圖形字元集(第6部:拉㆜/阿拉伯字母)<br />
Information Processing - 8 Bit Single - Byte Co<strong>de</strong>d Graphic Character Sets - Part 6: Latin/Arabic<br />
Alphabet<br />
CNS 13385 (X5035)<br />
資訊處理–8位元單㆒位元組碼化圖形字元集(第7部:拉㆜/希臘字母)<br />
Information Processing - 8 Bit Single - Byte Co<strong>de</strong>d Graphic Character Sets - Part 7: Latin/Greek<br />
Alphabet<br />
CNS 13386 (X5036)<br />
資訊處理–8位元單㆒位元組碼化圖形字元集(第8部:拉㆜/希伯來字母)<br />
Information Processing - 8 Bit Single - Byte Co<strong>de</strong>d Graphic Character Sets - Part 8:<br />
Latin/Hebrew Alphabet<br />
CNS 13479 (X5038)<br />
資訊技術–碼字元集的控制功能<br />
Information Technology - Control Functions for Co<strong>de</strong>d Character Sets<br />
CNS 13525-1 (X5039-1)<br />
資訊處理–文字通信編碼字元集(第1部:㆒般性介紹)<br />
Information Processing - Co<strong>de</strong>d Character Sets for Text Communication - Part 1: General<br />
Introduction<br />
CNS 13886 (X5053)<br />
資訊技術–供文字通信使用之碼化圖形字元集–拉㆜字母<br />
Information technology-co<strong>de</strong>d graphic character set for text communication-latin alphabet<br />
CNS 14147-1 (X5055-1)<br />
資訊技術–字型資訊交換–第1部:架構<br />
Information technology - Font information interchange - Part 1:Architecture<br />
CNS 14147-2 (X5055-2)<br />
資訊技術–字型資訊交換–第2部:交換格式<br />
Information technology - Font information interchange - Part 2:Interchange format<br />
CNS 14147-3 (X5055-2)<br />
資訊技術–字型資訊交換–第3部:字符形狀表示<br />
Information technology - Font information interchange - Part 3:Glyph shape representation<br />
Thesis Sébastien Bruggeman Pagina 99
Bijlage C: Selectie van ISO standaar<strong>de</strong>n<br />
ISO/IEC 646<br />
Information technology -- ISO 7-bit co<strong>de</strong>d character set for information interchange<br />
Equivalent: GB 1988, CNS 5205<br />
ISO/IEC 2022<br />
Information technology -- Character co<strong>de</strong> structure and extension techniques<br />
Equivalent: GB 2311, CNS 7654<br />
ISO 2047<br />
Information processing -- Graphical representations for the control characters of the 7- bit co<strong>de</strong>d<br />
character set<br />
ISO 2375<br />
Data processing -- Procedure for registration of escape sequences<br />
Equivalent: GB/T 12054<br />
ISO 4873<br />
Information technology -- ISO 8-bit co<strong>de</strong> for information interchange -- Structure and rules for<br />
implementation<br />
Equivalent: GB/T 11383, CNS 7656<br />
ISO/IEC 6429<br />
Information technology -- Control functions for co<strong>de</strong>d character sets<br />
Equivalent: CNS 13479<br />
ISO/IEC 8859-1:1998<br />
Information technology -- 8-bit single-byte co<strong>de</strong>d graphic character sets -- Part 1: Latin alphabet<br />
No. 1<br />
Equivalent: GB/T 15273.1, CNS 13246<br />
ISO/IEC 8859-2:1999<br />
Information technology -- 8-bit single-byte co<strong>de</strong>d graphic character sets -- Part 2: Latin alphabet<br />
No. 2<br />
Equivalent: GB/T 15273.2, CNS 13247<br />
ISO/IEC 8859-3:1999<br />
Information technology -- 8-bit single-byte co<strong>de</strong>d graphic character sets -- Part 3: Latin alphabet<br />
No. 3<br />
Equivalent: GB/T 15273.3, CNS 13325<br />
ISO/IEC 8859-4:1998<br />
Information technology -- 8-bit single-byte co<strong>de</strong>d graphic character sets -- Part 4: Latin alphabet<br />
No. 4<br />
Equivalent: GB/T 15273.4, CNS 13326<br />
ISO/IEC 8859-5:1999<br />
Information technology -- 8-bit single-byte co<strong>de</strong>d graphic character sets -- Part 5: Latin/Cyrillic<br />
alphabet<br />
Equivalent: CNS 13327<br />
ISO/IEC 8859-6:1999<br />
Information technology -- 8-bit single-byte co<strong>de</strong>d graphic character sets -- Part 6: Latin/Arabic<br />
alphabet<br />
Equivalent: CNS 13384<br />
ISO 8859-7:1987<br />
Information processing -- 8-bit single-byte co<strong>de</strong>d graphic character sets -- Part 7: Latin/Greek<br />
alphabet<br />
Equivalent: GB/T 15273.7, CNS 13385<br />
ISO/IEC 8859-8:1999<br />
Information technology -- 8-bit single-byte co<strong>de</strong>d graphic character sets -- Part 8: Latin/Hebrew<br />
alphabet<br />
Equivalent: CNS 13386<br />
Thesis Sébastien Bruggeman Pagina 100
ISO/IEC 8859-9:1999<br />
Information technology -- 8-bit single-byte co<strong>de</strong>d graphic character sets -- Part 9: Latin alphabet<br />
No. 5<br />
Equivalent: CNS 13328<br />
ISO/IEC 8859-10:1998<br />
Information technology -- 8-bit single-byte co<strong>de</strong>d graphic character sets -- Part 10: Latin<br />
alphabet No. 6<br />
ISO/IEC 8859-11:2001<br />
Information technology -- 8-bit single-byte co<strong>de</strong>d graphic character sets -- Part 11: Latin/Thai<br />
alphabet<br />
ISO/IEC 8859-13:1998<br />
Information technology -- 8-bit single-byte co<strong>de</strong>d graphic character sets -- Part 13: Latin<br />
alphabet No. 7<br />
ISO/IEC 8859-14:1998<br />
Information technology -- 8-bit single-byte co<strong>de</strong>d graphic character sets -- Part 14: Latin<br />
alphabet No. 8 (Celtic)<br />
ISO/IEC 8859-15:1999<br />
Information technology -- 8-bit single-byte co<strong>de</strong>d graphic character sets -- Part 15: Latin<br />
alphabet No. 9<br />
ISO/IEC 8859-16:2001<br />
Information technology -- 8-bit single-byte co<strong>de</strong>d graphic character sets -- Part 16: Latin<br />
alphabet No. 10<br />
ISO 9541-1<br />
Information technology -- Font information interchange -- Part 1: Architecture<br />
Equivalent: GB/T 16964.1, CNS 14147-1<br />
ISO 9541-2<br />
Information technology -- Font information interchange -- Part 2: Interchange Format<br />
Equivalent: GB/T 16964.2, CNS 14147-2<br />
ISO 9541-3<br />
Information technology -- Font information interchange -- Part 3: Glyph shape representation<br />
Equivalent: GB/T 16964.3, CNS 14147-3<br />
ISO/IEC 10367<br />
Information technology -- Standardized co<strong>de</strong>d graphic character sets for use in 8-bit co<strong>de</strong>s<br />
ISO/IEC 10646<br />
Information technology -- Universal Multiple-Octet Co<strong>de</strong>d Character Set (UCS)<br />
Equivalent: GB 13000.1<br />
Thesis Sébastien Bruggeman Pagina 101