Chinese taalverwerking op de computer - B-t.asia

FACULTEIT LETTEREN 

DEPARTEMENT OOSTERSE EN SLAVISCHE STUDIES 

CHINESE TAALVERWERKING OP DE COMPUTER 

Deel I : Theoretisch Overzicht 

Promotor : Prof. Dr. Fred Truyen Verhandeling aangeboden tot het 

verkrijgen van de graad van 

licentiaat in de Sinologie door: 

Sébastien Bruggeman 

- 2001-2002 - 

KATHOLIEKE 

UNIVERSITEIT 

LEUVEN

VOORWOORD 

Dit theoretische overzicht handelt over de Chinese taalverwerking op de computer. 

Het heeft de bedoeling om zo volledig mogelijk te zijn, maar zal het helaas nooit kunnen zijn 

door de uitgebreidheid van dit onderwerp. Hoewel dit deel veel technische details bevat is er 

geen voorkennis vereist. 

Naast dit theoretisch overzicht is er ook nog een praktische handleiding voor mensen 

die Chinees in de praktijk op hun computer willen gebruiken. Ook voor dit deel is geen 

voorkennis vereist, wel wordt er gerekend op een basiskennis van Microsoft Windows. Het 

voorhanden hebben van een computer met internetverbinding maakt het mogelijk om alles 

onmiddellijk in de praktijk om te zetten. 

Het derde luik van deze verhandeling is een website. Op deze website kunnen extra 

documentatie, voorbeelden en links gevonden worden. Daarnaast kan men ook terecht op het 

forum voor extra vragen en antwoorden. 

Tot slot wens ik U nog veel leesplezier en hoop ik dat U door deze 

licentiaatsverhandeling een betere kijk krijgt op de Chinese taalverwerking op de computer. 

Sébastien Bruggeman 

Thesis Sébastien Bruggeman Pagina 2


INHOUDSTAFEL 

0. Gebruikte conventies......................................................................................................11 

1. Inleiding...........................................................................................................................14 

1.1. Talen en schriften.....................................................................................................14 

1.2. Vereenvoudiging van Chinese karakters..................................................................16 

1.3. Typografie................................................................................................................18 

1.4. Karakters en computers............................................................................................18 

2. Karaktersets....................................................................................................................20 

2.1. Westerse talen...........................................................................................................20 

2.2. Oosterse talen...........................................................................................................22 

2.2.1. Traditioneel Chinees.................................................................................................23 

a) CCCII en EACC.......................................................................................................23 

b) CNS..........................................................................................................................25 

c) Big5..........................................................................................................................28 

d) Big5+........................................................................................................................29 

e) Big5E........................................................................................................................29 

f) Hong Kong GCCS en SCS.......................................................................................30 

2.2.2. Vereenvoudigd Chinees............................................................................................30 

a) GB 1988-80..............................................................................................................30 

b) GB 2312-80..............................................................................................................31 

c) GB 6345.1-86...........................................................................................................31 

d) GB 8565.2-88...........................................................................................................32 

e) ISO-IR-165:1992......................................................................................................33 

f) GB/T 12345-90.........................................................................................................34 

g) GBK..........................................................................................................................34 

h) GB 13000.1...............................................................................................................35 

i) GB 18030-2000........................................................................................................36 

j) Andere GB karaktersets............................................................................................37 

2.3. Meertalige karaktersets.............................................................................................37 

a) Unicode en ISO 10646.............................................................................................38 

2.4. Conversie..................................................................................................................41 


3. Codering..........................................................................................................................43 

3.1. Westerse talen...........................................................................................................44 

3.2. Chinees.....................................................................................................................44 

a) HZ en EHZ...............................................................................................................44 

b) ISO 2022...................................................................................................................46 

c) EUC..........................................................................................................................47 

d) GBK..........................................................................................................................48 

e) Big5 en Big5+...........................................................................................................48 

f) Overzicht..................................................................................................................48 

3.3. Meertalig...................................................................................................................49 

a) UCS..........................................................................................................................49 

b) UTF...........................................................................................................................49 

4. Hardware.........................................................................................................................52 

4.1. Toetsenbord..............................................................................................................52 

a) Uitspraak gebaseerd..................................................................................................53 

b) Structuur gebaseerd..................................................................................................57 

c) Combinatie uitspraak – structuur..............................................................................63 

d) Directe invoer...........................................................................................................63 

4.2. Andere......................................................................................................................64 

5. Applicaties, toepassingen...............................................................................................65 

5.1. Dos............................................................................................................................65 

5.2. Microsoft Windows..................................................................................................65 

a) Native Chinese Windows.........................................................................................65 

b) Niet-Chinese Windows.............................................................................................66 

5.3. Unix / Linux .............................................................................................................66 

a) Native Chinese Linux...............................................................................................67 

b) Niet-Chinese Linux ..................................................................................................67 

c) Linux in China & Taiwan.........................................................................................68 

5.4. Apple........................................................................................................................69 

5.5. Chinees en programmeertalen..................................................................................70 

5.6. Chinees en databases................................................................................................72 


6. Het Chinese internet.......................................................................................................74 

7. Appendix.........................................................................................................................78 

7.1. Bibliografie...............................................................................................................78 

7.2. Links.........................................................................................................................80 

7.3. Tabellen....................................................................................................................82 

7.4. Figuren......................................................................................................................89 

7.5. Dankbetuiging..........................................................................................................91 

Bijlage A: Selectie van National Standards in de PRC 

Bijlage B: Selectie van Chinese National Standards van de ROC 

Bijlage C: Selectie van ISO standaarden 


LIJST VAN TABELLEN 

Tabel 1 Niet Chinese schriften gebruikt in Zuidoost Azië.......................................................15 

Tabel 2 Verschillende varianten van Chinese karakters...........................................................15 

Tabel 3 Vereenvoudiging van Chinese karakters.....................................................................17 

Tabel 4 Typografie...................................................................................................................18 

Tabel 5 ISO 8859......................................................................................................................22 

Tabel 6 CCCII (structuur).........................................................................................................24 

Tabel 7 CCCII (laag 1).............................................................................................................24 

Tabel 8 EACC..........................................................................................................................25 

Tabel 9 CNS 11643-1986.........................................................................................................27 

Tabel 10 CNS 11643-1992.......................................................................................................27 

Tabel 11 Big5...........................................................................................................................28 

Tabel 12 Big5+.........................................................................................................................29 

Tabel 13 GB 2312-80...............................................................................................................31 

Tabel 14 GB 6345.1-86............................................................................................................32 

Tabel 15 GB 8565.2-88............................................................................................................32 

Tabel 16 ISO-IR-165:1992.......................................................................................................33 

Tabel 17 GB/T 12345-90..........................................................................................................34 

Tabel 18 GBK...........................................................................................................................35 

Tabel 19 GB 18030 ..................................................................................................................36 

Tabel 20 ISO-2022-CN............................................................................................................46 

Tabel 21 ISO-2022-CN-EXT...................................................................................................47 

Tabel 22 Coderingen en de ondersteunde karaktersets............................................................48 

Tabel 23 Karaktersets en ondersteunde coderingen.................................................................48 

Tabel 24 UCS-4 is slechts een 31-bit code...............................................................................49 

Tabel 25 UTF-8 codering van UCS-2 en UCS-4.....................................................................50 

Tabel 26 Vergelijking tussen de verschillende Pinyin invoer methodes..................................56 

Tabel 27 Opdeling van Wubizixing .........................................................................................58 

Tabel 28 Toewijzing van de cijfers in Wubihua......................................................................58 

Tabel 29 Voorbeeld Wubihua..................................................................................................59 

Tabel 30 Voorbeeld Cangjie (1)...............................................................................................60 






Tabel 35 Voorbeeld Boshiamy.................................................................................................62 

Tabel 36 Voorbeeld Tze-loi......................................................................................................63 

Tabel 37 Conversietabel bopomofo - Pinyin - wade-giles.......................................................82 

Tabel 38 Designator sequences gebruikt in ISO-2022-CN en ISO-2022-CN-EXT.................83 

Tabel 39 Single shift sequences en shifting characters gebruikt in ISO-2022-CN en ISO-2022- 

CN-EXT...........................................................................................................................83 

Tabel 40 EUC-TW...................................................................................................................83 

Tabel 41 Toewijzing van de toetsen voor invoer met de Cangjie methode.............................84 

Tabel 42 Internetgebruik in China............................................................................................85 

Tabel 43 Internetgebruik in Taiwan.........................................................................................85 

Tabel 44 Blokken in Unicode 3.2.0..........................................................................................86 


LIJST VAN FIGUREN 

Figuur 1 Het drie dimensioneel conceptueel model gebruikt bij Han-unificatie.....................39 

Figuur 2 Gebruik van de Ideograph Description Sequence......................................................41 

Figuur 3 Toetsenbord met Pinyin invoermethode layout.........................................................55 

Figuur 4 Toetsenbord met Shuangpin invoermethode layout..................................................55 

Figuur 5 Toetsenbord met Zhuyin invoermethode layout........................................................57 

Figuur 6 Toetsenbord met Wubizixing invoermethode layout.................................................58 

Figuur 7 Toetsenbord met Cangjie invoermethode layout.......................................................59 

Figuur 8 Toetsenbord met Sucheng invoermethode layout......................................................61 

Figuur 9 Toetsenbord met Dayi invoermethode layout............................................................62 

Figuur 10 Toetsenbord met Neima invoermethode layout.......................................................64 

Figuur 11 Ruby.........................................................................................................................75 

Figuur 12 7-bit en 8-bit code tabel...........................................................................................89 

Figuur 13 Een Chinese 'typmachine'........................................................................................89 

Figuur 14 Boshiamy invoermethode........................................................................................90 



0. Gebruikte conventies 

De karakters gebruikt in deze thesis worden zoveel mogelijk weergegeven volgens de 

officiële naam en plaats van gebruik. De namen afkomstig uit Taiwan worden in traditionele 

karakters weergegeven, namen afkomstig uit de Volksrepubliek China met vereenvoudigde 

karakters (het verschil tussen beide soorten Chinese karakters wordt later in deze thesis 

uitvoerig beschreven). 

De transcriptie van de Chinese karakters gebeurt volgens de Pinyin transcriptie met 

toontekens (zie infra). Deze transcriptie werd gekozen omdat ze het makkelijkst te lezen is 

voor mensen die geen achtergrond van de Chinese taal hebben. 

Deze thesis is gemaakt in unicode (zie infra). De lettertypes die gebruikt werden in dit 

document zijn Times New Roman voor het Romaanse alfabet, 新細明體 voor traditionele 

Chinese karakters, SimSun voor vereenvoudigde Chinese karakters, MS Mincho voor Japanse 

karakters en Batang voor Koreaanse karakters. 

Hexadecimale getallen worden vooraf gegaan door een 0x. 

Om deze thesis ten volle te begrijpen is het nodig dat vooral enkele termen uitgelegd 

worden, zodat er over hun inhoud en gebruik geen verwarring is: 1 

Karakter (character): een lid van een set van elementen gebruikt voor de organisatie, 

controle of representatie van data. 2 

Karakterrepertoire (character repertoire) 3 : een set van (abstracte) karakters die gecodeerd 

moeten worden. Het bevat niet noodzakelijk een ordening. In een karakter repertoire 

wordt meestal een naam gegeven aan het karakter, samen met een referentie of een 

voorbeeldpresentatie. Soms worden er karakters gedefinieerd die er hetzelfde uit zien, 

maar die logisch onderscheiden zijn. Bijvoorbeeld “A” kan Latin uppercase A, Cyrillic 

uppercase A, en Greek uppercase alpha zijn. 4 

1 Alhoewel de invulling van deze termen niet strikt vast ligt. 

2 Het Unicode Consortium geeft volgende definitie: ‘The smallest component of written language that has 

semantic calues; refers tot he abstract meaning and/or shape, rather than a specific shape (see also glyph), 

though in code tables some form of visual representation is essential for the reader’s understanding’. Het World 

Wide Web Consortium beschrijft een karakter als een ‘atoom van informatie’. 

3 Chinese term: 字彙 zìhuì 

4 ECMA 35 beschrijft een karakter repertoire als ‘a specified set of characters that are each represented by one 

or more bit combinations of a coded character set’. 


Gecodeerde karakterset (coded character set – CCS) 5 : Het ‘mappen’ van een abstract 

karakterrepertoire naar een set van niet-negatieve gehele getallen (integers). 6 

Voorbeelden van gecodeerde karaktersets zijn ISO 10646 en US ASCII (zie infra). 

Karakter coderingsschema (character encoding scheme – CES): Het ‘mappen’ van een 

gecodeerde karakterset of verschillende gecodeerde karaktersets naar een set van 

sequenties van octetten. Een CES kan dus verschillende CSS omvatten, zo kan EUC-CN 

(zie infra) gebruikt worden om zowel de volgende CSS te coderen: ASCII, GB 2312, 

CNS 11643 (zie infra). 

Character encoding form (CEF): Het ‘mappen’ van een set van niet-negatieve gehele 

getalen (van een CCS) naar een set van sequenties van individuele code eenheden van 

een bepaalde omschreven breedte, zoals bytes. Deze sequenties hebben niet noodzakelijk 

dezelfde lengte. Het mapt code punten met code eenheden, terwijl een CES de relatie 

tussen code eenheden en bytes weergeeft. 

Charset: Een methode om een sequentie van octetten te converteren in een sequentie van 

karakters. De conversie kan ook extra controle informatie toevoegen, zoals 

richtingsindicators. Deze notering wordt gebruikt in MIME-headers (Multipurpose 

Internet Mail Extensions). 

Codepositie (code position): is een geheel getal dat ook wel codepunt (codepoint) wordt 

genoemd Een CSS en een codepositie van dezelfde CSS bepalen het karakter. 

Octet: een element van de set (0, 1, 2, … , 255) 

Glyph: Een glyph is de eigenlijke representatie van een karakter. Er is geen ‘one-to-one’ 

relatie tussen karakters en glyphs. Zo heeft het dollar-teken verschillende glyphs: $, $, $, 

$ (of soms ook met 2 streepjes er door). Verschillende karakters kunnen soms één glyph 

vormen zoals de karakters f en i samen het glyph vormen. 7 Een karakter kan een 

andere glyph aannemen naar gelang de context (dit gebeurt in bijvoorbeeld het Arabisch). 

Een ander voorbeeld zijn de volgende karakters, Z, Z, Z deze zijn glyphs van Z (latin 

capital letter z), maar niet van z (latin small letter z). De term glyph komt van het 

Griekse woord voor ‘sculptuur’. 8 

5 Chinese term: 編碼字符集 biānmǎ zìfújí 

6 ECMA 35 beschrijft een CSS als ‘a set of unambiguous rules that establishes a character set and the one-toone 

relationship between the characters of the set and their bit combinations’. 

7 is een ligatuur: [… ] in één stuk gegoten letters, b.v.: , syn. koppelletter. 

8 Het Unicode Consortium definieert een glyph als volgt: ‘An abstract form that represents one or more glyph 

images’ en een glyph image wordt gedefinieerd als ‘The actual, concrete image of a glyph representation having 

been rasterized or otherwise imaged onto some display surface.’ 

Het ISO hanteert volgende definitie in ISO 9541-1: ‘a recognizable abstract graphic symbol which is 

independent of a specific design’ 


Big & Little Endian: Er zijn 2 manieren om bytes te ordenen (dit is natuurlijk enkel van 

toepassing op data die meerdere bytes bevat), namelijk little endian en big endian. 

Bij big endian wordt de meest belangrijk byte (de byte met de hoogste orde of meest linkse 

bits) in het laagste adres geplaatst met de daarop volgende bytes in de sequentiele hogere 

adressen. Bij little endian wordt de minst belangrijke byte (de byte met de laagste of meest 

rechtse bits) in het laagste adres geplaatst. Bijvoorbeeld: het decimaal getal 258 (binair: 

0100000010) wordt dan in 16 bit omgeving opgeslagen als volgt: 

Little Endian : 00000010 00000001 

Big Endian : 00000001 00000010 

Little endian wordt gebruikt op machines met Vax en Intel processoren (dus dit betekent dat 

computers met Windows en Linux doorgaans little endian zijn), big endian in computers met 

Motorola en Sun processoren (UNIX en MacOS). Er bestaan systemen die ‘bi-endian’ zijn en 

dus met beide overweg kunnen. Het onderscheid tussen big en little endian is van belang bij 

het ordenen van karakters. 

Deze thesis wordt verder aangevuld met een website die terug te vinden is op het volgende 

internetadres: http://seba.studentenweb.org/thesis/ 


1. Inleiding 

1.1. Talen en schriften 

De Chinese taal is een grotendeels monosyllabische en niet-verbuigende taal en dat maakt 

een ideografisch 9 schrijfsysteem zeer geschikt. Het Chinese schrift is ontstaan omstreeks 2000 

voor Christus en heeft een zeer grote invloed gehad op het schrift van de Japanners, Koreanen 

en Vietnamezen. Omdat ideografische karakters minder geschikt zijn voor het weergeven van 

de Japanse taal ontwikkelden de Japanners twee syllabische fonetische 10 schriften, namelijk 

het Hiragana en Katakana, deze worden samen met de kanji 11 en het Romaanse 12 schrift 

gebruikt. In Korea daarentegen werd een alfabetisch systeem uitgevonden (가모 jamo) dat 

‘letters’ groepeert in ideografisch-achtige syllabische blokken, het hangul genaamd (한글 

hangul betekent ‘Koreaans schrift’), dit schrift heeft nu bijna het gebruik van hanja 13 doen 

verdwijnen. Het Vietnamees heeft in de 20 ste eeuw de chữ hán 14 laten vallen voor een 

alfabetisch schrift, gebaseerd op het door ons gebruikte Romaanse schrift (ontwikkeld door 

Westerse missionarissen in de 17 de eeuw). De Chinezen ontwikkelden in het begin van de 

20 ste eeuw ook een fonetisch syllabisch schrift, het Zhuyin (注音符號 zhùyīn fúhào). Een 

voorbeeld van al deze schriften vindt men in Tabel 1 op pagina 15. 

Naast het gebruik van Chinese karakters vonden deze culturen ook nog karakters uit die 

heel sterk op Chinese karakters lijken 15 , maar die niet in het Chinese taalgebied gekend zijn 

(国字 kokuji is de Japanse term, 국자 / 國字 gugja is de Koreaanse term). Deze karakters 

gebruiken heel vaak een zelfde opbouw en onderdelen als Chinese karakters. Door deze 

verwantschap is het mogelijk voor de verschillende talen om basisteksten van elkaar te 

begrijpen indien er Chinese karakters gebruikt worden, maar daarom niet noodzakelijk uit te 

9 

Ideografie: 1) schrift waarin geen klank-, maar begriptekens worden gebruikt (zoals in het Chinees en in het 

hiërogliefenschrift); 2) uitdrukking van een idee. 

10 

Fonetisch: 1) betrekking hebbend op de spraakklanken; 2) volgens de spraakklanken: fonetisch schrift, schrift 

dat zo nauwkeurig mogelijk de uitspraak benadert, waarin iedere klank door een eigen teken wordt voorgesteld; 

fonetisch voorgesteld. 

11 

Kanji, 漢字, Japanse term voor Chinese karakters 

12 

hiermee wordt het Romaanse alfabet bedoeld, ook wel Latijns of Westers alfabet genoemd. 

13 

Hanja, 한자 / 漢字, Koreaanse term voor Chinese karakters 

14 

Chữ hán, Vietnamese term voor Chinese karakters 

15 

鰯 (iwashi) is het Japanse woord voor sardine. In de Chinese taal is er geen apart karakter voor sardine er is 

wel het woord 沙㆜魚 shādīngyú. 峠 (tōge) en 岾 (점 jeom) zijn respectivelijk het Japanse en Koreaanse 

karakter voor ‘bergpas’ en bestaan niet in het Chinees. 


spreken. In de loop der tijd hebben karakters afhankelijk van het gebied ook een andere 

betekenis gekregen, het Chinese karakter 湯 (tāng in het Chinees, tou of yu in het Japans en 

thang in het Koreaans) had oorspronkelijk de betekenis ‘warm water’. Vandaag betekent het 

in het Chinees ‘soep’ terwijl het in het Japans en Koreaans de oorspronkelijke betekenis heeft 

behouden. Maar ze hebben ook de betekenis van ‘soep’ overgenomen in recentere 

leenwoorden zoals ‘noodle soep’ (湯麵 Chinees - tāngmiàn, Japans - tanmen, Koreaans - 

thangmyen). 16 

De methodes om andere talen en schriften dan het Chinees weer te geven valt buiten het 

kader van deze thesis en worden dus niet behandeld, soms zal er echter wel verwezen worden 

naar gelijkenissen of verschillen tussen de Chinese taal en deze andere talen. 

Tabel 1 Niet Chinese schriften gebruikt in Zuidoost Azië 

Niet Chinese 

karakters 

Romaans schrift abcdefghijklmnopqrstuvwxyz 1234567890 

Zhuyin ㄅㄆㄇㄈㄉㄊㄋㄌㄍㄎㄏㄐㄑㄒㄓㄔㄕㄖㄗㄘㄙㄧㄨㄩㄚㄛㄜ 

ㄝㄞㄟㄠㄡㄢㄣㄤㄥㄦ 

Hiragana あいうえおかきくけこさしすせそたちつてとなにぬねのはひ 

ふへほまみむめもやゆよりるれろわゐゑをんゔ 

Katakana アイウエオカキクケコサシスセソタチツテトナニヌネ 

ノハヒフヘホマミムメモヤユヨラリルレロワヰ 

Jamo ᄀᄁᄂᄃᄄᄅᄆᄇᄈᄉᄊᄌᄍᄎᄏᄐᄑᄒ 

Hangul 실시간으로선택한비트에자동으로맞출수있도록하였습니다 

Tabel 2 Verschillende varianten van Chinese karakters 

Chinese karakters 

Vereenvoudigd 大学之道,在明明德,在亲民,在止于至善。 

Traditioneel 大學之道,在明明德,在親民,在止於至善。 

Hong Kong 大學之道,在明明德,在親民,在止於至善。 

Japan 大学之道,在明明徳,在親民, 在止於至善。 

Korea 大學之道,在明明德,在親民,在止於至善。 

16 The Unicode Standard, Version 3.0, p.260. 


1.2. Vereenvoudiging van Chinese karakters 

Sinds het ontstaan van het Chinese schrift hebben de karakters weinig grote veranderingen 

ondergaan. Er zijn nieuwe karakters bijgekomen, sommige door het fout kopiëren van 

karakters, andere werden gemaakt om nieuwe dingen een naam te geven. 

Het historisch zeer belangrijke werk, Kangxi Zidian (康熙字典 kāngxī zìdiǎn) uit de 18 de 

eeuw bevat 47 035 karakters, de Zhonghua Zihai (中华字海 zhōnghuá zìhǎi) uit 1994 telt 

ongeveer 85 000 karakters. Doorgaans wordt het aantal vaak gebruikte karakters geschat op 

ongeveer 5 000 (dit is het aantal dat nodig is om een krant vlot te kunnen lezen). 

De belangrijkste hervorming van het Chinese schrift is misschien wel de vereenvoudiging 

van enkele duizenden karakters in het midden van de 20 ste eeuw. In 1949 kwamen de 

Communisten in China aan de macht, nadat ze de Nationalisten hadden verdreven naar 

Taiwan. Terwijl de nationalisten op Taiwan de Republiek China in stand hielden riepen de 

communisten de Volksrepubliek China uit en voerden verschillende hervormingen door. 

Eén daarvan was de vereenvoudiging van de karakters. 17 Het doel van de vereenvoudiging 

was om het aanleren van Chinese karakters te vergemakkelijken en zo het analfabetisme tegen 

te gaan. In 1952 werd het Chinese Character Reform Committee (中国文字改革委员会, 

zhōngguó wénzì gaǐgé wěiyuánhuì) opgericht om het probleem van karaktervereenvoudiging 

te bestuderen en een lijst aan te maken van te vereenvoudigen karakters. Het resultaat van hun 

werk was het uitvaardigen van een standaard romanisatie 18 systeem, Pinyin genaamd (拼音 

pīnyīn, waarover later meer), het beperken van het aantal karakters voor dagelijks gebruik en 

de vereenvoudiging van duizenden karakters. 

Verschillende lijsten werden gepubliceerd, waaronder lijsten van vaak gebruikte karakters 

en die aldus moeten onderwezen worden op school, maar ze worden ook gebruikt voor het 

opstellen van karakter repertoires. Dergelijke lijsten werden ook in Taiwan en Japan gemaakt. 

Op 28 januari 1956 verscheen het Chinese Character Simplification Scheme (汉字简化方 

案 hànzì jiǎnhuà fāng’àn) en in 1964 verscheen de General List of Simplified Characters (简 

化字总表 jiǎnhuàzì zǒngbiǎo). 

17 Eigenlijk was de vereenvoudigsproces reeds op het eind van de 19 de eeuw gestart tijdens de zoektocht naar 

moderniteit. In 1935 werd er reeds een lijst met vereenvoudigde karakters uitgegeven (第㆒批簡體字表 dìyīpī 

jiǎntǐ zìbiāo) dat 324 vereenvoudigde karakters bevatte. 

18 Romaniseren: 1) (overg.) onder de invloed van de Romeinse beschaving brengen, een Romeins karakter doen 

aannemen; 2) (overg.) Romaanse invloed doen ondergaan, een Romaans karakter doen aannemen; 3) (onoverg.) 

(bk.) zich richten naar Romeinse (Italiaanse) voorbeelden. 


In 1977 werd er net na de Culturele Revolutie nog een hervorming doorgevoerd (op 12 

december werd 第二次汉字简化方案(草案) afgekondigd) maar die werd uiteindelijk in juli 

1978 terug afgeblazen omdat ze te drastisch bleek te zijn. De laatste versie van de General list 

of Simplified Characters werd opgesteld door het ‘National Working Committe on Language 

and Characters’ (国家语言文字工作委员会, guójiā yǔyán wénzì gōngzuò wěiyuánhuì) en 

dateert van 10 oktober 1986. Het bevat 2 235 vereenvoudigde karakters (de lijst van 1956 

bevatte er slechts 515 vereenvoudigde karakters, de lijst van 1964 bevatte er 2 236), deze 

karakters zijn opgesplitst in 3 tabellen. De eerste tabel zijn traditionele karakter die wanneer 

ze vereenvoudigd zijn geen deel uitmaken van andere karakters (350). De tweede tabel zijn 

vereenvoudigde karakters die deel kunnen uitmaken van andere vereenvoudigde karakters 132 

ervan kunnen als volwaardig karakter voorkomen, 14 zijn vereenvoudigde karakters maar die 

niet zelfstandig kunnen gebruikt worden. De derde tabel zijn vereenvoudigde karakters die 

traditionele delen uit de vorige tabel bevatten 19 . 

Tabel 3 Vereenvoudiging van Chinese karakters 

Voor vereenvoudiging Na vereenvoudiging Betekenis 

車车 auto, chē 

鄭郑 plechtig, zhèng 

學学 studeren, xué 

Deze vereenvoudiging gebeurde in de Volksrepubliek China. De Republiek China 

(Taiwan), Hong Kong, Macau en de meerderheid van de overzeese Chinezen behielden de 

niet-vereenvoudigde karakters, enkel Singapore nam de vereenvoudiging over. Om het 

onderscheid makkelijker te maken wordt er in deze thesis gesproken over vereenvoudigde 

karakters (简体字 jiǎntǐzì) en traditionele karakters (繁體字 fántǐzì). Men spreekt van 

“traditioneel” omdat de karakters teruggaan op de oudste vormen van het Chinese schrift. 

Ook de Japanners hebben vereenvoudigingen doorgevoerd in hun Chinese karakters, maar 

deze staan los van de vereenvoudigingen die in de Volksrepubliek China hebben 

plaatsgevonden. 

19 Bron : http://www.sungwh.freeserve.co.uk/hanzi/t-s-intro.htm en 

http://www.chineseon.net/resources/hzstand/index.php 


1.3. Typografie 

Typografisch 20 kunnen Chinese teksten op twee manieren georiënteerd zijn. Bij klassieke 

teksten en proza worden karakters veelal van boven naar onder en van rechts naar links 

geschreven. De tweede oriëntatie is van links naar rechts en van boven naar onder. Deze 

oriëntatie is dezelfde als voor de westerse talen, en is nu de meest gebruikte en de standaard 

voor moderne en wetenschappelijke teksten. De eerste oriëntatie kan problemen geven met 

niet-Chinese software. Daarnaast zijn er ook nog heel wat stylistische moeilijkheden 

verbonden met het weergeven van verticale georiënteerde tekst (zoals plaatsing van 

interpunctietekens en oriëntatie van Westerse letters en cijfers). 

Tabel 4 Typografie 

大學之道,在明明德,在親民,在止於至 

善。知止而后有定,定而后能靜,靜而后 

能安,安而后能慮,慮而后能得。物有本 

末,事有終始,知所先后,則近道矣。 

矣后 

。 

, 

則 

近 

道 

Rechts links – boven onder Boven onder – links rechts 

1.4. Karakters en computers 

In een computer worden karakters gerepresenteerd aan de hand van een binaire code. Het 

symbool 0 (nul) wordt gebruikt voor de representatie van de afwezigheid van een puls, het 

symbool 1 (één) voor de aanwezigheid ervan. Wanneer men typt wordt de code van de toets 

(keycode) doorgestuurd, die code wordt dan gebruikt om in de keyboard mapping table het 

overeenkomstige karakter op te zoeken. Zo wordt bij de aanslag van ‘A’ de toetscode 14 

gegenereerd, in de keyboard mapping table komt dit overeen met karakter 65 (de ASCII code 

voor A, binair wordt dit gerepresenteerd als 0100 0001). 

Stel dat men de mapping van het toetsenbord verandert (van bijvoorbeeld querty naar 

azerty) zal de aanslag van eenzelfde toets een geheel ander resultaat geven. Vervolgens wordt 

de 'vorm' van de letter A uit een lettertypebestand (font) gehaald en op het beeldscherm 

afgebeeld. Het voordeel van een dergelijke aanpak is dat het veel meer mogelijkheden creëert. 

Men hoeft slechts één lettertypebestand te maken waarin men de codes van de verschillende 

letters associeert met een vorm. 

20 Typografie: 1) boekdrukkunst; 2) (m.betr.t. een bepaald boek) het drukken en de wijze van drukken (keuze 

van lettertype, vormgeving) 

Thesis Sébastien Bruggeman Pagina 18 

始 

, 

知 

所 

先 

末 

, 

事 

有 

終 

能 

得 

。 

物 

有 

本 

能 

慮 

, 

慮 

而 

后 

能 

安 

, 

安 

而 

后 

能 

靜 

, 

靜 

而 

后 

有 

定 

, 

定 

而 

后 

善 

。 

知 

止 

而 

后 

民 

, 

在 

止 

於 

至 

明 

明 

德 

, 

在 

親 

大 

學 

之 

道 

, 

在

Een karakterset bestaat uit een lijst van alle karakters die weergegeven moeten kunnen 

worden, geordend in een bepaalde volgorde. Voor de Westerse talen is dit geen probleem 

want daar kunnen alle karakters makkelijk weergegeven worden. Bij Chinese karakters is het 

onmogelijk om alle karakters weer te geven, daarom wordt een lijst opgesteld van 

vaakgebruikte karakters (常用字 chǎngyòngzì). Deze lijsten worden niet enkel opgesteld voor 

het maken van karaktersets maar ook voor het aanleren van karakters op school. 

Codepagina’s (codepages. IBM gebruikt de term Code Page Global Identifier) zijn 

karaktersets die aangepast zijn aan een bepaald besturingssysteem of een codering, die één of 

meerdere karaktersets aan kan. Zo slaat Microsoft’s Codepage 950 21 op de Big5 karakterset, 

Big5 codering en Microsoft extenties. Microsoft’s Codepage 936 22 slaat op GBK en EUC 

codering. 

Er zijn twee plaatsen waar de namen van de karaktersets kunnen geregistreerd worden 

namelijk in het ECMA-register 23 en het IANA-register 24 , de procedure tot registratie wordt 

beschreven in RFC 2278 IANA Charset Registration Procedures. Nu worden er nog weinig 

nieuwe karaktersets geregistreerd met het toenemend belang en gebruik van Unicode (zie 

infra). 

21 http://www.microsoft.com/globaldev/reference/dbcs/950.htm 

22 http://www.microsoft.com/globaldev/reference/dbcs/936.htm 

23 ECMA: European Computer Manufacturers Association; http://www.ecma.ch 

24 IANA: Internet Assigned Numbers Authority; http://www.iana.org 


2. Karaktersets 

2.1. Westerse talen 

De computer (zoals we die in zijn huidige vorm kennen als pc of mainframe) is ontstaan 

in de Verenigde Staten van Amerika en het Verenigd Koninkrijk. De oorspronkelijke 

karaktersets die dus ontwikkeld werden om tekst weer te geven op een scherm zijn dan ook 

enkel voor de Engelse taal ontwikkeld. Eind jaren ‘50 begon het ASA (American Standard 

Association, dat later werd hernoemd tot ANSI, American National Standards Institute 25 ) een 

onderzoek om een nieuwe standaard te ontwikkelen. Er werd besloten om een 7 bit code te 

ontwikkelen. Een 7 bit code moest namelijk geen ‘verwisseling’ (shifting) toepassen zoals de 

op dat moment bestaande 5 bit Baudot code. 26 Op 17 juni 1963 werd X3.4-1963 gepubliceerd. 

Het liet verscheidene posities open, en het duurde tot 1967 eer de ASCII code zoals we die nu 

kennen vast lag (X3.4-1967 aka ISO-646-US-1972). ASCII laat 128 karakters toe, 94 

karakters en 34 controle karakters (op de posities 0 tot en met 32 en positie 127). Het bevat 

hoofd- en kleine letters Latijn, Arabische getallen, karakters en controle karakters. 

Omdat een 8 bit code makkelijker te hanteren is voor een computer 27 werd de laatste bit in 

de 7-bit ASCII code opgevuld met een parity bit, highlight bit of een end-of-string bit. Door 

het gebruik van een pariteitsbit konden de zeven eerste bits gecontroleerd worden. Een 

moderne versie hiervoor is de checksum die bij Belgische bankrekeningsnummers gebruikt 

wordt. Later zou deze achtste bit gebruikt worden om aan internationalisation (i18n) te doen. 

In 1967 werd ISO 28 Recommendation 646 uitgevaardigd 29 . Het kwam er op neer dat de 

ASCII code werd aanvaard zoals die was, met uitzondering van die 10 karakterposities (die 

overeenkomen met de karakters @ [ \ ] ^ ` { | } ~) die werden gespecificeerd in een versie van 

de aanbeveling gekend als International Reference Version (IRV). 

25 http://www.ansi.org 

26 De Baudot code wordt nog steeds voor het nu snel afnemende telexverkeer gebruikt. 

27 8 bits zijn 1 byte, computers werken efficiënter wanneer ze data in bytes moeten verwerken. Dit komt omdat 

het intern circuit ontworpen is met 'data pathways' van 8, 16, 32, of 64 bits breed. Om deze reden is een 10, 15 

bit karakter code minder efficiënt in een computer. 

28 International Standard Organisation 國際標準組織 guójì biāozhǔn zǔzhī, http://www.iso.org 

29 Toen gebruikte ISO nog eerder Recommendations in plaats van Standards. De laatste versie van deze 

standaard is de derde versie, gepubliceer in 1991. 


De ASCII code werd ook gebruikt als basis voor het creëren van 7 bit karaktercodes (vaak 

afhankelijk van de computermaker zoals bijvoorbeeld IBM, Apple, Microsoft) voor talen die 

niet gebruik maakten van het Latijnse alfabet zoals bijvoorbeeld Arabisch en Grieks. Door het 

slechts gedeeltelijk vastliggen van de ASCII-standaard rezen en rijzen er problemen bij het 

gebruik op verschillende computersystemen. Zo is de binaire waarde voor “à” op een 

Macintosh 136, op een Windows pc 133, en een UNIX systeem 224. Dus afhankelijk van het 

platform kan “à” afgebeeld worden als “à” (Macintosh), “ê” (Windows) of “ “ (unix). 30 Tot op 

vandaag zijn er 180 karaktersets gebaseerd op de ASCII code geregistreerd bij het ISO. 

Doordat er in de Europese talen letters worden gebruikt met accenten op, voldeed de 

ASCII standaard niet. Daarom werd er een 8-bit extensie ontwikkeld voor de 7-bit code (in 

een eerste fase werd een aangepaste versie van ASCII ontwikkeld zoals het Duitse DIN 66003 

of het Deense DS 2089. Dit zorgde er echter wel voor dat in dergelijke karaktersets andere 

karakters niet meer toegankelijk waren). Een 8-bit code liet toe om bijna alle maar niet alle 

symbolen en letters te typen. 

Om een elektronisch Babel te vermijden creëerde het ISO de standaard ISO 2022 

(ISO/IEC 2022: Character code structure and extension techniques) dat vastlegt hoe 7 en 8 

bit karaktercodes moet gestructureerd en uitgebreid worden. In deze standaard wordt 

beschreven hoe de codetabellen er moeten uitzien (zie Figuur 12 op pagina 89). Deze 

codetabellen worden dan later opgevuld met karakters. Vaak wordt er verwezen naar een 

bepaalde positie aan de hand van de rijen kolom nummer.. 

Deze standaard werd later toegepast om de standaard die officieus gekend is als Latin-1 

(officiële naam: ISO 8859-1) te maken, deze laatste is een extensie van ASCII/ISO 646 en 

wordt meestal gebruikt voor het uitwisselen van informatie op het internet in West-Europa. 

ISO 8859 is een 8-bit karakterset die vooral gericht is op data processing in West- en Oost- 

Europa. Er zijn nu reeds zestien varianten op deze karakterset, zie Tabel 5 voor meer 

informatie. 

30 Dedene & Herroelen, Inleiding tot de informatica, Deel A, Wouters, Leuven, p.18-19. 


Tabel 5 ISO 8859 

Naam Inhoud Jaar 

ISO 8859-1 Latin alphabet no.1 (West Europees) 1987 

ISO 8859-2 Latin alphabet no.2 (Oost Europees) 1987 

ISO 8859-3 Latin alphabet no.3 (Zuid Europees) 1988 

ISO 8859-4 Latin alphabet no.4 (Noord Europees) 1988 

ISO 8859-5 Latin/Cyrillic alphabet 1988 

ISO 8859-6 Latin/Arabic alphabet 1987 

ISO 8859-7 Latin/Greek alphabet 1987 

ISO 8859-8 Latin/Hebrew alphabet 1988 

ISO 8859-9 Latin alphabet no.5 (Turks) 1989 

ISO 8859-10 Latin alphabet no.6 (Nordic) 1992 

CD 8859-11 Latin/Thai alphabet 2001 

ISO 8859-13 Latin alphabet no.7 (Baltic Rim) 1998 

ISO 8859-14 Latin alphabet no.8 (Celtic) 1998 

ISO 8859-15 Latin alphabet no.9 (aanpassing van Latin1 oa euro ondersteuning) 1999 

ISO 8859-16 Latin alphabet no.10 2001 

Verschillende computermakers ontwikkelden hun eigen codepagina’s. Hierdoor kreeg 

men voor eenzelfde taal verschillende codepagina’s, aan de ene kant de particuliere 

codepagina’s (proprietary code pages) en aan de andere kant de gestandaardiseerde. 

Dergelijke particuliere code pagina’s werden vooral door OEM’s (Original Equipment 

Manufacturer) gemaakt zodat tekst gebaseerde PC’s in staat zouden zijn om lijn-karakters af 

te kunnen printen en af te beelden; ze worden ook nog vaak gebruikt om toegang te hebben tot 

data gecreëerd door MS-DOS gebaseerde programma’s. Dergelijke particuliere codepagina’s 

hebben meestal een 3-getals code, bijvoorbeeld. CP 437 voor Amerikaans Engels. 

2.2. Oosterse talen 

De Japanners waren de eersten die probeerden hun taal weer te geven op de computer. 

Ze slaagden er in om katakana weer te geven, dit is een set van 63 karakters die gebruikt 

worden om het Japans fonetisch weer te geven. Er was echter nog geen mogelijkheid om kanji 

weer te geven. 

Dit gebeurde met het op 1 juni 1969 vastegelegde JIS C 6220 31 dat zowel ASCII als 

katakana kon weergeven. Er werd een oplossing gevonden om kanji weer te geven, namelijk 

het gebruik van twee bytes om één karakter weer te geven. Dit bracht het totaal van mogelijk 

31 JIS: Japanese Industry Standard 


weer te geven karakters op 65 536. 32 Op 1 januari 1978 werd JIS C 6226-1978 vastgelegd, 

het bevatte 6 499 Chinese karakters (kanji) en 453 andere karakters. 

Een 2 byte karaktercode wil zeggen dat er 16 bits worden gebruikt voor het weergeven 

van één karakter, zo wordt het karakter ‘hemel’ (天, tiān) binair als volgt weergegeven, 1101 

0001 1010 0100 (Big5). Dit wou echter niet zeggen dat de 1 byte code had afgedaan, ze 

breidden gewoon het concept van 1 byte uit, dat wil zeggen dat een tekst een mix werd van 1 

en 2 byte karakters. Hoe deze uit elkaar worden gehouden hangt af van de codering. Om de 

ondersteuning en compatibiliteit met 1 byte karakters te bewaren beginnen de 2 byte codes 

allemaal pas bij hogere posities ( > 0x7F). De eerste byte specificeert de rij en de tweede byte 

de cel in die rij. 

2.2.1. Traditioneel Chinees 

Gebied : Taiwan, Hong Kong, Macau, Overzeese Chinezen. 

a) CCCII en EACC 

CCCII staat voor Chinese Character Code for Information Interchange (㆗文資訊交換碼, 

zhōngwén zīxùn jiāohuàn mǎ). Het werd ontwikkeld in 1980 om aan de Amerikaanse nood 

om op de computer met Oost-Aziatische talen te kunnen werken te voldoen. Daarom werd er 

een gezant gestuurd om de mogelijkheden te onderzoeken. Op dat ogenblik was de enige 

standaard om Aziatische talen weer te geven JIS C 6226-1978 en daarom werd geopteerd om 

deze standaard over te nemen. Overzeese Chinezen, Amerikaanse Oost-Aziatische 

bibliotheken en Taiwanese vertegenwoordigers protesteerden echter tegen deze beslissing met 

de argumentatie dat Kanji niet dezelfde betekenis weergeven als Chinese karakters 33 . 

In Taiwan werd dan een tijdelijk comité CCAG (Chinese Character Analysis Group; 國字 

整理小組 guózì zhěnglǐ xiǎozǔ) opgericht dat het Chinees, Japans en Koreaans onderzocht en 

de verschillende varianten van de Chinese karakters in die talen. Zo kwam het CCCII in 1980 

tot stand. De Amerikanen aanvaardden die standaard om Chinees, Japans en Koreaans mee 

weer te geven. In Taiwan zelf werd de standaard echter fel bekritiseerd. De karakterset werd 

herzien in 1981 (versie 2), 1982 (versie 2.2), 1985 (versie 2.3) en 1987 (versie 3). 

32 2^16 = 65 536 

33 http://www.math.ncu.edu.tw/~shann/Chinese/bbs97.html 


CCCII is opgebouwd uit 16 lagen die opgebouwd zijn opeenvolgende 94x94 niveaus, tot 6 

na elkaar. Elke laag vertegenwoordigt een parallelle versie van dezelfde karakters. In totaal 

zijn er zo 94 niveaus. Het resultaat is een 94x94x94 ruimte om karakters in te coderen. 

Voor elk groep van variante karakters wordt er een standaard karakter gekozen. Die wordt 

geplaatst in de eerste laag, de rest van de variante karakters worden in lagen twee tot zeven 

geplaatst, laag twee wordt wel voorbehouden voor vereenvoudigde karakters. Het gebruikt 3 

bytes om één karakter weer te geven. Voor elk variant karakter is de eerste en tweede byte 

gelijk aan het standaard karakter, de derde byte representeert de laag waar het karakter zich 

bevindt. De Chinese karakters zijn geordend volgens radicaal en vervolgens volgens het 

aantal streepjes. De uitgave van 1987 bevat 53 940 karakters. Er wordt nog steeds gewerkt 

aan een volgende versie die 75 684 karakters zou moeten bevatten. 

Er werd ook een Chinese Character Database (CCDB, ㆗國文字資料庫 zhōngguó wénzì 

zīliàokù) uitgegeven die van elk karakter de attributen bevat zoals sleutel, aantal streepjes en 

uitspraak. De CCCII wordt in vele bibliotheken gebruikt omdat het tot nu toe de enige is die 

voldoet aan de nood van de bibliotheken. 

Tabel 6 CCCII (structuur) 

Laag Niveau Inhoud 

1 1-6 Non-hanzi en hanzi 

2 7-12 Vervoudigde Chinese karakters (PRC) 

3-12 13-72 Variante vormen van Chinese karakters uit laag 1 

13 73-78 Japanse kana en kanji 

14 79-84 Koreaans jamo, hangul en hanja 

15 85-90 Reserved 

16 91-94 Andere karakters 

Tabel 7 CCCII (laag 1) 

Range Aantal 

Controle karakters (niveau 1) Rij 1 0 

Chinese punctuatie (niveau 1) Rij 11 35 

Klassieke radicalen (niveau 1) Rij 12-14- 214 

Chinese nummers en fonetische symbolen (niveau 1) Rij 15 78 

Vaak gebruikte Chinese karakters (niveau 1) Rij 16-67 4 808 

Minder vaak gebruikte Chinese karakters (niveau 1 – 3) Rij 68-64 17 032 

Andere Chinese karakters (niveau 3 – 6) Rij 65-5 20 583 

Totaal 42 750 


Een afgeleide karakterset is ANSI Z39.64-1989 (East Asian Character Code Set, afgekort 

als EACC, oorspronkelijk was de naam RLIN East Asian Character Code, afgekort als 

REACC), deze bevatte in mei 2001 34 15 728 karakters. Het werd in 1983 ontwikkeld door 

Research Libraries Group in samenwerking met het US Library of Congress en Chinese 

Character Analysis Group. In 1989 werd deze karakterset door het ANSI goedgekeurd. In 

mei 2001 werd een voorstel ingediend om EACC te ‘mappen’ naar Unicode. Dit voorstel 

werd in augustus 2001 goedgekeurd. 

Tabel 8 EACC 

Range Aantal 

Chinese karakters (voor Chinees, Japans en Koreaans) 13 468 

Japans Katakana 86 

Japans Hiragana 83 

Japanse geluidstekens 4 

Koreaans Hangul (modern) 1 966 

Koreaans Hangul (archaic) 29 

Koreaans Jamo 33 

Punctuatie tekens (Oost-Azië) 9 

Punctuatietekens (Westers) 14 

Ideographic "component input method" characters (used in RLIN system) 35 

Totaal 15 727 

b) CNS 

CNS 5205 draagt de naam Information processing: 7-Bit Coded Character Set For 

Information Interchange (資訊處理及交換用七數元碼字元集組 zīxùnchǔlǐ jí jiāohuàn yòng 

qī shùyuánmǎ zìyuánjízǔ). Het werd uitgevaardigd op 29 februari 1980. Het is de Taiwanese 

karakterset analoog aan ASCII en ISO 646. 

In september 1980 begonnen er besprekingen over het vastleggen van een nationale 

karakterset, dit leidde tot de oprichting van een speciaal comité op 2 september 1982. 

In oktober 1983 werd er door verschillende instanties 35 de CISCII (Chinese Ideographic 

Standard Code for Information Interchange, 通用漢字標準交換碼, tōngyòng hànzì biāozhǔn 

jiāohuàn mǎ) ontwikkeld en op proef vrij gegeven. Na goedkeuring en bekendmaking in 

maart 1986 door de Executive Yuan werd op 4 augustus 1986 CNS 11643 36 (CNS staat voor 

Chinese National Standard 國家標準碼 37 , guójiā biāozhǔn mǎ) door het National Bureau of 

34 

http://www.loc.gov/marc/marbi/2001/2001-09.html 

35 

台灣國家科學委員會、教育部國語推行委員會、㆗央標準局、行政院主計處電子資料處理㆗心 

36 

http://www.cns11643.gov.tw 

37 

niet afkorten tot 國標碼 guóbiāomǎ want dit is de naam voor de karakterset die gebruikt wordt in de PRC (zie 

infra) 


Standards of Taiwan (台灣㆗央標準局, táiwān zhōngyāng biāozhǔnjú) onder de naam 

Standard Interchange Code for Generally Used Chinese Characters (通用漢字標準交換碼 

tōngyòng hànzì biāozhǔn jiāohuànmǎ) als nationale karakterset vastgelegd. 

CNS 11643 is opgebouwd uit verschillende niveaus 38 . De uitgave van 1986 definieerde 

enkel karakters in het eerste en tweede niveau. In juni 1988 werd niveau 14 gepubliceerd (通 

用漢字標準交換碼-使用者加字區交換碼, tōngyòng hànzì biāozhǔn jiāohuànmǎ – 

shǐyòngzhě jiāzìqū jiāohuànmǎ) en in 1990 niveau 15 (戶政用字, hùzhèngyòngzì). Deze 

standaard bevatte echter te weinig karakters en werd daarom herzien. 

Een vernieuwde versie werd gepubliceerd op 21 mei 1992 onder de naam Chinese 

Standard Interchange Code (㆗文標準交換碼, zhōngwén biāozhǔn jiāohuàn mǎ). Het bevat 

48 711 karakters waarvan er 48 027 Chinese karakters zijn, een precieze opdeling vindt men 

in Tabel 10 op pagina 27. De Chinese karakters zijn geordend naar totaal aantal streepjes en 

vervolgens per radicaal. 

Het bestaat uit 16 niveaus die elk opgebouwd zijn uit 94 rijen en 94 kolommen (elk niveau 

kan dus maximaal 8 836 karakters bevatten). Niveau 1 tot 11 zijn gereserveerd voor de 

definitie van standaard karakters terwijl niveau 12 tot 16 zelf kunnen worden opgevuld (user- 

defined areas). CNS 11643-1992 maakt slechts gebruik van 7 niveaus. 

CNS-11643-1992 bevat een aantal fouten, maar deze zijn allemaal een verkeerd tellen van 

het aantal streepjes. 

In niveau 1 vallen de karakters tussen A1 en FE voor de eerste byte en tussen A1 en FE 

voor de 2 de byte, in niveau 2 is dat tussen A1 en FE en 21 en 7E. Om de decimale waarde van 

een karakter te berekenen gaat men dan als volgt te werk. Stel dat het karakter zich op de 

eerste kolom van de 36 ste rij bevindt (㆒ yī) dan is de waarde voor de eerste byte A0 (hex) + 

36 = C4 (hex), voor de tweede byte is dit A0 (hex) + 01 = A1 (hex), dus de hexadecimale 

waarde voor dit karakter is C4A1. Voor een karakter in niveau twee dat zich in de eerste 

kolom van de 36 ste rij bevindt (歈 yú) wordt dit A0 (hex) + 36 = C4 (hex) en 20 (hex) + 01 = 

21 (hex) dus C421. 

Om compatibiliteit met CNS 5205 en CNS 7654 te bewaren zijn de codepunten 0 tot 20 

en 7F (127) niet opgevuld. 

38 字面 zìmiàn 


Tabel 9 CNS 11643-1986 

Range Aantal 

Symbolen, letters, cijfers, radicalen, … 39 (niveau 1) Rij 1-9,34 684 

Chinese karakters (niveau 1) Rij 36-93 5 401 




Totaal 27 223 

Van niveau 1 zijn rijen 10-33, 35 en 94 niet toegewezen, van niveau 2 83-94, van niveau 14 69-94 en van niveau 

15 78-94 

Tabel 10 CNS 11643-1992 

Range Aantal 

Symbolen, letters, cijfers, radicalen, … 39 (niveau 1) 2121 – 427E 684 

Chinese karakters 1 (niveau 1) 4421 – 7D4B 5 401 

Chinese karakters 2 (niveau 2) 2121 – 7244 7 650 


Chinese karakters 4 (niveau 4) 2121 – 6E5C 7 298 

Chinese karakters 5 (niveau 5) 2121 – 7C51 8 603 

Chinese karakters 6 (niveau 6) 2121 – 647A 6 388 


Totaal 48 711 

Van niveau 1 zijn rijen 10-33, 35, 94 niet toegewezen, van niveau 2 83-94, van niveau 3 67-94, van niveau 4 79- 

94, van niveau 5 93-94, van niveau 6 69-94 en van niveau 7 71-94. 

Niveau 1 bevat vaak gebruikte karakters 40 , niveau 2 minder vaak gebruikte karakters 41 , 

niveau 3 zelden gebruikte karakters (罕用字 hǎnyòngzì) 42 en vaak gebruikte variante Chinese 

karakters (異體字 yìtízì) 43 . Niveau 4 bevat onder andere de Chinese karakters van ISO 10646 

versie 2.0, niveau 5 zelden gebruikte karakters, niveaus 6 variante vormen van Chinese 

karakters met 14 of minder streepjes en niveau 7 bevat variante vormen van Chinese karakters 

met meer dan 14 streepjes. 

Er wordt steeds een controle karakter meegegeven dat het niveau waarop het karakter zich 

bevindt weergeeft. Dit controle karakter blijft gelden voor alle volgende karakters tot nog een 

dergelijk controle karakter wordt tegen gekomen. 

39 De precicieze opdeling is als volgt: interval 間隔符號 (1), punctuatietekens 標點符號 (28), grafische tekens 

括號及製表符號 (89), symbolen ㆒般符號 (34), wetenschappelijke tekens 學術符號 (51), eenheden 單位符號 

(31), cijfers 數字符號 (42), buitenlandse letters 外文字母 (100), 國語注音符號 bopomofo (42), indexering 

tekens 數字序列符號 (20), klassieke radicalen ㆗國文字部首 (213), grafische presentatie van controle karakters 

控制碼符號 (33) 

40 4 808 karakters komen uit 常用國字標準字體表 uitgegeven op 2 september 1982 door 教育部 

41 6 330 karakters komen uit 次常用國字標準字體表 uitgegeven op 20 december 1982 door 教育部 

42 uit 罕用國字標準字體表 bevat 18 414 Chinese karakters en werd uitgegeven in 1983 

43 uit 異體字表 uit 1983 bevat 18 069 Chinese karakters 


c) Big5 

Big5 (大五 dàwǔ) werd op 1 mei 1984 door het Institute for Information Industry of 

Taiwan (台灣資訊工業策進會, táiwān zīxùn gōngyè cèjìn huì) bekend gemaakt door de 

publicatie van Computer Chinese Glyph and Character Code Mapping Table, Technical 

Report C-26 (電腦用㆗文字型與字碼對照表, 技術通報 C-26, diànnǎo yòng zhōngwén 

zìxíng yù zìmǎ duìzhào biǎo, jìshù tōngbào C-26). 

Deze karakterset wordt zo genoemd omdat 5 grote bedrijven meewerkten aan de 

ontwikkeling ervan. Het is geen nationale standaard maar een de facto standaard, de officiële 

karakterset voor Taiwan is CNS 11643-1992. De big5 karakterset bevat in het totaal 13 494 

karakters, soms bevat het nog een supplement van 41 ETen karakters (zie infra). 

Tabel 11 Big5 

Range Aantal 

Punctuatie, grafische karakters, ASCII, … A140 – A343 466 

Grieks A344 – A373 48 

Bopomofo A374 – A3BA 37 

Toontekens A3BB – A3BF 5 

Controle karakters A3C0 – A3E0 33 

Vaak gebruikte karakters 常用字 A440 – C67E 5 401 

Minder vaak gebruikte karakters 次常用字 C940 – F9D5 7 652 

Totaal 13 494 

Rijen 39-40 en 90-94 zijn niet toegewezen 

Big5 gebruikt een 94x157 matrix en heeft daardoor een maximum capaciteit van 14 758 

karakters. De Chinese karakters zijn geordend volgens toenemend aantal streepjes en dan per 

radicaal. 

Big5 bevat twee karakters die twee maal voorkomen, namelijk de karakters 兀 wù (op 

codepunten 0xA461 en 0xC94A) en 嗀 huò (op codepunten 0xDCD1 en 0xDDFC). CNS 

11643-1992 bevat deze fouten niet meer, daar is telkens de tweede codering verwijderd. 

Big5 wordt gebruikt als standaard codering voor de besturingssystemen van Microsoft 

Corporation en Apple Computer Inc die volledig traditioneel Chinees gelocaliseerd zijn. 

Elke eerste byte van een dubbel byte Big5 karakter moet liggen in het hexadecimale 

gebied 0xA1 tot 0xF9 (maar kan ook 0xFA tot 0xFE omvatten) terwijl de tweede byte in de 

gebieden 0x40 tot 0x7E en 0xA1 tot 0xFE kan vallen. Dit is gedaan om de compatibiliteit met 

ASCII te bewaren. De codeplaatsen 0x7F, 0xA0 en 0xFF werden opzettelijk blanco gelaten. 

Big5 is heel gelijkend op de eerste twee niveaus van CNS-11643, de vaak gebruikte karakters 

zijn namelijk exact hetzelfde alleen de positie is verschillend. 


Een heel belangrijke extensie op Big5 is de “ETen extensie”. ETen 44 is een bedrijf dat in 

de jaren ’80 een Chinees besturingssysteem op de markt bracht. Deze extensie bestaat uit twee 

blokken. Het eerste blok (C6A1 – C8D3) bevat 365 karakters (o.a. omcirkelde cijfers, kana, 

Cyrillisch), het tweede blok (F9D6 – F9FE) bestaat uit zeven extra Chinese karakters (碁銹 

裏墻恒粧嫺) en 34 lijn-karakters. Door de populariteit van het besturingssysteem en de 

programma’s worden Eten karakters bij de Big5 karakterset gerekend. De zeven extra Chinese 

karakters zitten ook in CNS 11643-1992 niveau 3.. 

d) Big5+ 

Om vereenvoudigde Chinese karakters te ondersteunen werd in juli 1997 Big5+ 

ontwikkeld. Deze karakterset bevat 23 940 karakters. Big5+ bestaat uit 2 niveaus. Het is 

eigenlijk zeer gelijkend aan GBK (zie infra). Het bevat ook alle Chinese karakters die in 

Unicode worden gedefinieerd. Deze codering wordt echter niet wijd ondersteund. De sleutels 

die alleen kunnen staan zijn weggelaten evenals de dubbel gecodeerde karakters uit Big5, 

verder zijn er ook verschillende fouten uit CNS verbeterd. De high byte ligt tussen 0x81 – 

0xFE en de low byte ligt tussen 0x40 – 0x7E of 0x80 – 0xFE. 

Tabel 12 Big5+ 

Range Aantal 

Big5 niveau 1 A440 – C67E 5 401 

Big5 niveau 2 C940 – F9D5 7 693 

Big5 non-hanzi A140 – A3FE 471 

Eten karakters C6A1 – C8FE 408 

Chinese karakters 8180 – FEA0 4 158 

Hanzi en hanzi varianten 8140 – 83FE 471 

Hanzi, vereenvoudigde hanzi, kanji en hanja 8E40 – A0FE 2 983 

User defined characters FA40 – FEFE 785 

User defined characters 8440 – 8DFE 1 570 

Totaal 23 940 

e) Big5E 

Big5E staat voor Big5 Extention (Big5 碼補充字集, Big5 mǎ bǔchōng zìjí) is gebaseerd 

op Big5, Big5+ en CNS 11643. Er werden 3 954 Chinese karakters uit Big5+ en CNS 11643 

niveau 3 en 4 geselecteerd om ze in Big5E te coderen in de ‘user defined area’. Ook werden 

er nog 128 andere codepunten gereserveerd voor latere uitbreiding. Er zijn verschillende 

‘tools’ ontwikkeld voor Big5E zoals conversietabellen, conversieprogramma’s en verbeterde 

‘input editors’. Big5E werd uitgegeven in 1999. 

44 http://www.eten.com.tw 


f) Hong Kong GCCS en SCS 

De officiële karakterset en codering in Hong Kong is Big5. In Hong Kong zijn er echter in 

de loop der tijd aparte Chinese karakters ontwikkeld. Doordat deze karakters niet worden 

ondersteund door het in Taiwan ontwikkelde Big5 heeft de regering van Hong Kong het op 

Big5 gebaseerde Hong Kong GCCS 45 (Government Chinese Character Set) uitgevaardigd in 

1994. Hong Kong GCCS bevat 3 049 extra karakters. Ongeveer de helft van deze karakters 

werden in GBK (en dus ook in Unicode 2.1) opgenomen. 

Op 28 september 1999 werd HK SCS (Hong Kong Supplementary Character Set 46 ) 

gepubliceerd. Het bevat 4 702 karakters (waarvan er 4 261 Chinese karakters zijn) meer dan 

Big5, die allemaal in de user defined area zijn gedefinieerd. Er zijn verschillende karakters uit 

HK GCCS verwijderd of samengevoegd. De codeplaatsen die daardoor vrij kwamen werden 

niet opgevuld om compatibiliteit te creëren. In december werd HKSCS-2000 gepubliceerd dat 

nog eens 161 extra karakters bevat. 

2.2.2. Vereenvoudigd Chinees 

Gebied : Volkrepubliek China, Singapore, overzeese Chinezen 

a) GB 1988-80 

De officiële naam van deze karakterset is Information technology – 7-bit Coded Character 

Set for Information Interchange (信息技术 – 信息交换用七位编码字符集 xīnxí jìshù xīnxí 

jiāohuàn yòng qīwèi biānmǎ zìfújí). Deze karakterset wordt soms ook GB-Roman genoemd 

(aliassen voor deze karakterset zijn iso-ir-57, ISO646-CN, csISO57GB1988). Dit is de 

analoge Chinese variant van ASCII en ISO 646. De twee verschillen zijn dat het dollarteken 

($) vervangen werd door het symbool voor de Chinese Yuan (¥) en de tilde (~) door een 

‘overline’. 

45 http://www.info.gov.hk/gccs/ 

46 http://www.info.gov.hk/digital21/eng/hkscs/index.html 


) GB 2312-80 

GB 2312 (GB staat voor National Standard, 国标 guóbiāo, afkorting van 国家标准 

guójiā biāozhǔn) werd in 1980 gepubliceerd door het State Bureau of Standardization of the 

People’s Repbulic of China (中华人民共和国国家标准总局, zhōnghuárénmíngònghéguó 

guójiā bāozhǔn zǒngjú) onder de naam Code of Chinese Ideogram Set for Information 

Interchange - Basic Set (信息交换用汉字编码字符集 - 基本集, xìnxī jiāohuàn yòng hànzì 

biānmǎ zìfújí – jīběnjí) en werd van kracht op 1 mei 1981 (aliassen voor deze karakterset zijn 

iso-ir-58 en csISO58GB231280). 

De karakterset bevat 7 445 karakters (6 763 Chinese karakters en 682 niet Chinese 

karakters), de Chinese karakters zijn opgedeeld in vaak gebruikte karakters (3 755) en niet 

vaak gebruikte karakters (3 008). Hij is gebaseerd op JIS X 0208 en bestaat dus uit een 94x94 

rooster. Chinese karakters worden pas ingevuld vanaf de zestiende rij, de eerste vijftien 

worden opgevuld door andere karakters. De binaire code voor het karakter ‘hemel’ (天, tiān) 

is hier 1110 1100 1100 1100. Elke byte van een dubbel byte GB karakter valt binnen 

hexadecimale 0xA1 tot 0xFE gebied. De karakters zijn, net zoals in het Japans, geordend 

volgens de uitspraak bij de vaak gebruikte Chinese karakters. De niet vaak gebruikte Chinese 

karakters worden geordend volgens radicaal en vervolgens volgens het aantal streepjes. 

Tabel 13 GB 2312-80 

Range Aantal 

Symbolen Rij 1 94 

Nummers Rij 2 72 

ISO 646-CN (full width characters) Rij 3 94 

Hiragana Rij 4 83 

Katakana Rij 5 86 

Grieks Rij 6 48 

Cyrillisch Rij 7 66 

Pinyin Rij 8 26 

Bopomofo Rij 8 37 

Line drawing elements Rij 9 76 

Chinese karakters Rij 16-55 3 755 


Totaal 7 445 

Rijen 10-15 en 88-94 zijn niet toegewezen 

c) GB 6345.1-86 

GB 6345.1-86 werd uitgevaardigd op 1 december 1986 en draagt de naam 32x32 Dot 

Matrix Font Set of Chinese Ideograms for Information Interchange (信息交换用汉字 32x32 

点阵字模集 xìnxí jiāohuàn yòng hànzì 32x32 diǎnzhèn zìmújí). 


Deze karakterset bevat aanvullingen en correcties op de GB 2312-80 karakterset. Een g 

moet anders weergegeven worden (g moest g worden, rij 3 positie 71), er is een karakter dat 

niet in zijn vereenvoudigde vorm is weergegeven (鍾 moet weergegeven worden als 锺, rij 79 

positie 81), het bevat ook 132 extra karakters. 

Tabel 14 GB 6345.1-86 

Range Aantal 











Half width GB 1988-89 Rij 10 94 

Half width Pinyin characters Rij 11 32 



Totaal 7 577 

Rij 12-15 en 88-94 zijn niet opgevuld. Verschillen met GB2312 in grijs aangeduid. 

d) GB 8565.2-88 

Deze uitbreiding op GB2312-80 werd op 1 juli 1988 uitgevaardigd en noemt officieel 

Information Processing – Coded Character Sets for Text Communication – Part 2: Graphic 

Characters (信息处理 – 文本通信用编码字符集 – 第二部分 – 图形字符集 xìnxí chǔlǐ – 

wénběn tōngxìn yòng biānmǎ zìfújí – dì’èr bùfēn – túxíng zìfújí). 

Het bevat 705 karakters meer dan GB 2312-80, het bevat echter niet de extra karakters die 

in GB 6345.1-86 werden gedefinieerd. 

Tabel 15 GB 8565.2-88 

Range Aantal 











Hanzi from GB 7589-87 Rij 13 50 


Range Aantal 


Extra non-hanzi Rij 15 69 

Extra hanzi Rij 15 24 



Hanzi from GB 7589-87 Rij 90-94 470 

Totaal 8 150 

Rij 10-12 en 88-89 zijn niet opgevuld. Verschillen met GB2312 in grijs aangeduid. 

e) ISO-IR-165:1992 

Deze standaard bevat 8 443 karakters, waaronder alle wijzigingen en toevoegingen van 

GB 6345.1-86 en GB 8565.2-88. Het draagt de naam ISO International Registery #165 en 

werd op 13 juli 1992 uitgevaardigd. Ze wordt soms ook de CCITT (Consultative Committee 

on International Telephone and Telegraph) karakterset genoemd. 

Tabel 16 ISO-IR-165:1992 

Range Aantal 







Grieks (background (shading) characters) Rij 6 22 






Half width Pinyin characters Rij 11 32 

Hanzi Rij 12 94 

Hanzi from GB 7589-87 + extra Rij 13 94 


Karakters voor datum en tijd Rij 15 69 

Extra hanzi Rij 15 25 



Hanzi from GB 7589-87 Rij 90-94 470 

Totaal 8 376 

Rijen 88-89 zijn niet opgevuld. Verschillen met GB2312 in grijs aangeduid. 


f) GB/T 12345-90 

De officiële naam van deze karakterset is Code of Chinese Ideogram Set for Information 

Interchange Supplementary Set (信息交换用汉字编码字符集 - 辅助集, xìnxī jiāohuàn yòng 

hànzì biānmǎ zìfújí - fǔzhùjí) en werd op 13 juni 1990 uitgevaardigd door 中华人民共和国 

国家技术监督局 (zhōnghuárénmíngònghéguó guójiā jìshù jiāndūjú). Het ging op 1 december 

1990 van kracht. De T staat voor Tuijian (推荐 tuījiàn) en betekent aanvulling. 

Het is identiek aan GB 2312-80 maar alle karakters zijn vervangen door hun traditionele 

variant, het bevat 7 709 karakters. Daarvan zijn er 843 niet Chinese karakters en 6 866 

Chinese karakters (3 755 vaak gebruikte karakters, 3 008 niet vaak gebruikte karakters en een 

supplement van 103 karakters). In totaal zijn er 2 180 karakters die door hun traditionele 

variant zijn vervangen. Deze karakterset bevat helaas ook fouten, het gaat om 2 printfouten. 

Tabel 17 GB/T 12345-90 

Range Aantal 


Numerals Rij 2 72 

Full width GB 1988-89 Rij 3 94 



Grieks alfabet Rij 6 48 

Grieks (voor vertikaal gebruik) Rij 6 29 


Full width Pinyin Rij 8 32 

Zhuyin Rij 8 37 



Half width Pinyin Rij 11 32 



Extra Chinese karakters Rij 88-89 103 

Totaal 7 709 

g) GBK 

GBK is een superset van GB 2312-80, dat zowel vereenvoudigde als traditionele karakters 

bevat, maar het is tevens de subset van GB 13000.1-93 (zie infra). 

De afkorting GBK staat voor Extended National Standard (国家标准扩展, guójiā 

biāozhǔn kuòzhǎn- de officiële naam is Chinese Internal Code Specification 汉字内码扩展规 

范, hànzì nèimǎ kuòzhǎn guīfàn). Het werd op 1 december 1995 door het CITS (中华人民共 

和国全国信息技术标准化技术委员会 zhōnghuárénmíngònghéguó quánguó xìnxí jìshù 

biāozhǔnhuà jìshù wěiyuánhuì) geformuleerd. 


Verschillende bedrijven 47 verenigden zich op 15 december 1995 en schaarden zich achter 

enkele verbeteringen. Deze verbeteringen werden opgenomen en de verbeterde karakterset 

werd gepubliceerd als versie 1.0. Het laat de karakters en de codes gedefinieerd in GB 2312 

ongewijzigd en positioneert alle extra karakters er rond. Deze extra karakters zijn karakters 

die in ISO 10646 (Unicode Version 2.1) zitten maar niet in GB 2312-80. Op deze manier 

wordt de GB-compatibiliteit behouden maar worden alle Unihan karakters ter beschikking 

gesteld. Het bevat 21 886 karakters, maar daarmee zit deze karakter set zo goed als vol (23 

940 codepunten) en dus werd er overgeschakeld naar GB 18030. 

Tabel 18 GBK 

Range Codepunten Aantal 

GB2312-80 en GB/T 12345-90 niet Ch. karakters 0xA1A1 – 0xA9FE 846 717 

GB 2312-80 Chinese karakters 0xB0A1 – 0xF7FE 6 768 6 763 

Chinese karakters uit ISO 10646-1:1993 0x8140 – 0xA0FE 6 080 6 080 

Chinese karakters uit ISO 101646-1+extra karakters 0xAA40 – 0xFEA0 8 160 8 160 

Niet Chinese karakters van Big5 e.a. karaktersets 0xA840 – 0xA9A0 192 166 

Totaal 23 940 21 886 

User Defined Area 0xAAA1 – 0xAFFE 564 

User Defined Area 0xF8A1 – 0xFEFE 658 

User Defined Area 0xA140 – 0xA7A0 672 

h) GB 13000.1 

GB 13000.1-93 is het Chinese equivalent van ISO 10646.1-1993/Unicode (zie infra). 

Telkens als het ISO en Unicode consortium hun karakterset vernieuwen dan worden de 

aangebrachte veranderingen en aanvullingen overgenomen in GB 13000.1. Het draagt de 

naam Information technology – Universal multiple-octet coded character set (UCS) – Part 1: 

Architecture and Basic Multilingual Plane (信息技术 – 通用多八位编码字符集 (UCS) – 第 

一部分: 体系结构与基本多文种平面 xìnxíjìshù – tōngyòng duōbāweì biānmǎ zìfújí 

(UCS) – dìyī bùfēn: tǐxì jiégòu yú jīběn duōwénzhǒng píngmiàn). 

47 国家技术监督局标准化司、电子工业部科技与质量监督司 


i) GB 18030-2000 

De meest recente GB coded characterset is het op 17 maart 2000 door het Ministry of 

Information Industry (中华人民共和国信息产业部 zhōnghuárénmíngònghéguó xìnxí chǎnyè 

bù) gepubliceerde GB 18030-2000 (Information technology – Chinese Ideograms coded 

character set for information interchange – Extension for the basic set 信息技术 – 信息交换 

用汉字编码字符集 – 基本集的扩充 xìnxíjìshù – xìnxíjiāohuàn yòng hànzì biānmǎ zìfújí – 

jīběnjí de kuòchōng). De bedoeling van deze karakterset is om de Unihan Extention A te 

combineren met vorige GB karaktersets, maar ook om genoeg codeplaatsen te creëren voor 

alle gecodeerde codepunten in unicode’s nieveau 0 (BMP) en plaats voorzien voor 16 extra 

niveaus. 

Om dit te realiseren wordt een deel van de karakters (0x00 tot 0x7F) gecodeerd met één 

byte codering, een deel (0x81 tot 0xFE voor de eerste byte en 0x40 tot 0x7E voor de tweede 

byte) met twee byte codering, en een laatste deel (0x81308130 tot 0xFE39FE39 of anders 

gezegd 0x8130 tot 0xFE39 voor de eerste twee bytes en 0x8130 tot 0xFE39 voor de derde en 

vierde byte) met vier byte codering. 

GB 18030-2000 vervangt GBK. Het blijft wel compatibel met GBK en GB 2312-80, met 

uitzondering van de nieuw toegevoegde karakters, maar probeert tevens ook compatibel te 

zijn met unicode. Vanaf 1 september 2001 moeten alle pc’s in de PRC GB 18030 aankunnen. 

Tabel 19 GB 18030 

1B 

2 bytes 

4B 

Range Codepunten Aantal 

GB 11383 A0 – FE 128 128 

Grafische karakters A1A1 – A9FE 846 718 

Grafische karakters A840 – A9A0 192 166 

Chinese karakters B0A1 – F7FE 6768 6763 

Chinese karakters 8140 – A0FE 6080 6080 

Chinese karakters AA40 – FEA0 8160 8160 

User defined Area AAA1 – AFFE 564 

User defined Area F8A1 – FEFE 658 

User defined Area 

GB 13000.1 CJK extension A 

A140 – A7A0 672 


j) Andere GB karaktersets 

GB 7589-87 en zijn traditionele variant GB/T 13131-9X bevatten 7 237 karakters. Het 

werd uitgevaardigd op 1 december 1987 en draagt de naam Code of Chinese Ideograms Set 

for Information Interchange – the Second Supplementary Set (信息交换用汉字编码字符集– 

第二辅助集 xīnxí jiāohuàn yòng hànzì biānmǎ zìfújí – dì’èr fǔzhùjí). 

GB 7590-87 en zijn traditionele variant GB/T 13132-9X bevatten 7 039 karkaters. Het 

werd uitgevaardigd op 1 december 1987 en draagt de naam Code of Chinese Ideograms Set 

for Information Interchange – the Fourth Supplementary Set (信息交换用汉字编码字符集– 

第四辅助集 xīnxí jiāohuàn yòng hànzì biānmǎ zìfújí – dì sì fǔzhùjí). 

Ze zijn geordend volgens radicaal en dan volgens het totaal aantal streepjes. Ze beginnen 

karakters pas in te vullen vanaf rij 16. De karakters die in deze karaktersets zijn 

gespecificeerd zijn handgeschreven waardoor dat lettertypes die deze karaktersets 

ondersteunen heel zeldzaam zijn. 

Daarnaast bestaan er ook nog standaarden voor verschillende andere talen die in de PRC 

gesproken worden zoals voor het Koreaans, Mongools, Yi en Uighurs. Voor een overzicht 

van GB standaarden in verband met karkaterset zie Bijlage A. 

2.3. Meertalige karaktersets 

De eerste echt meertalige karakterset werd ontwikkeld in Japan en droeg de naam JIS C 

6226-1978, het was tevens de eerste karakterset dat brak met 8 bits en twee bytes gebruikte. 

Het bevatte het Romaanse alfabet, Grieks, Cyrillisch, symbolen, hiragana, katakana en 

kanji (Chinese karakters). De standaard draagt nu de naam JIS X 0208. De karakterset is 

opgebouwd uit 94 rijen en 94 kolommen (zoals beschreven in de ISO 2022 standaard) en kan 

8 836 karakters bevatten. 

In de eerste helft van de jaren ‘80 werd (ook in Japan) begonnen aan een karakterset dat 

alle karakters van Azië omvatte, genaamd TRON 48 (The Real-time Operating system Nucleus). 

Het systeem bestaat vandaag nog. 

Ook de eerder vermelde CCCII en EACC kunnen als meertalige karaktersets worden 

beschreven. 

48 http://www.tron.org 


a) Unicode en ISO 10646 

In Amerika werd in de tweede helft van de jaren ’80 begonnen aan meertalige karaktersets 

en meertalige coderingssystemen. Xerox Corporation (XCCS, Xerox Character Code 

Standard) en IBM Corporation implementeerden toen reeds met succes dergelijke 

karaktersets in hun computer systemen. Medewerkers van Xerox en Apple begonnen eind de 

jaren ’80 aan de ontwikkeling van wat unicode werd genoemd (begon met een database dat de 

relatie tussen Japanse en Chinese karakters in kaart bracht). De bedoeling was om alle 

schriften van de wereld in één groot karakterset onder te brengen. 49 In 1989 stapten 

verschillende andere bedrijven in het project waaronder Sun, Adobe en Hewlett-Packard. 

In september 1989 werd de eerste ‘draft’ gepubliceerd en in 1991 kwam versie 1.0 uit 

samen met de oprichting van het Unicode Consortium 50 . 51 

In 1983 begon het ISO aan het ontwikkelen van een 32-bit karakterset Universal Multiple- 

Octet Coded Character Set 52 (UCS) genaamd. De ISO standaard die de officiële naam 

ISO/IEC DIS 10646 Versie 1 (IEC staat voor International Electro-technical Commission 53 ) 

kreeg, werd ondersteund door de Japanse en Europese onderzoekers maar helaas niet door de 

Amerikaanse computer firma's die gelijktijdig aan Unicode werkten. Ze beweerden dat 

Unicode beter was dan ISO/IEC DIS 10646 Versie 1 omdat het eenvoudiger was. ISO 10646 

is namelijk een 32 bit code en daardoor wordt de overdrachtssnelheid en opslagcapaciteit 

sterk beïnvloed, alhoewel een 3 byte karaktercode (2^24) 16 777 216 karakters aankan en 

daarmee genoeg om alle talen weer te geven, is het niet efficiënt. Omdat de meeste talen 

slechts één byte nodig hebben zouden de 2 bijkomende bytes om bijvoorbeeld de letter ‘S’ 

weer te geven nodeloze plaatsvulling zijn. Maar dit gaat natuurlijk enkel op voor onze 

westerse talen. Omdat het Unicode consortium bij machte was om parallel met de ISO een 

eigen standaard te ontwikkelen, door zwaar lobby werk en door onderhandelingen tussen 

beide partijen werd de ontwikkeling van ISO/IEC DIS 10646 Versie 1 verlaten ten voordele 

van een op de Unicode gebaseerde ISO/IEC 10646 Version 2, die nu ISO/IEC 10646-1: 1993 

wordt genoemd. 

Het Unicode Consortium noemt hun standaard Unicode en gebruikt standaard een 

‘variable-length’ 16-bit codering dat UTF-16 wordt genoemd. Eigenlijk is Unicode een subset 

van ISO 10646-1:1993 vanuit puur coderingsstandpunt. Het is opgebouwd uit een 256x256 

49 

zie Tabel 44 voor een overzicht van welke talen allemaal in versie 3.2.0 zitten 

50 

http://www.unicode.org 

51 

Een chronologisch overzicht kan men terug vinden op : http://www.unicode.org/unicode/history 

52 

wordt in Taiwan vertaald als 廣用多八位元編碼字元集 (guǎng yòng duō bā weìyuán biānmǎ zìyuánjí) terwijl 

het in China als 通用多八位编码字符集 (tōngyòng duō bā weì biānmǎ zìfújí) vertaalt wordt. 

53 

http://www.iec.ch 國際電工委員會 guójì diàngōng wěiyuánhuì 


matrixen, het eerste niveau (niveau 0) wordt het Basic Multilingual Plane (BMP) genoemd. 

Unicode geeft voorkeur aan Big Endian ordening. 

In eerste instantie wou men alle karakters ter wereld in het BMP coderen, maar het BMP 

beschikt maar over ± 65 000 codepunten. Dit is echter onmogelijk en daarom werden 

verschillende karakters samengevoegd, meer bepaald de Chinese karakters die gebruikt 

worden in de Aziatische talen. Het Unicode Consortium heeft hiervoor in juli 1991 een 

Chinese/Japanese/Korean Joint Research Group (CJK-JRG) 54 opgericht, 1993 werd het CJK- 

JRG hernoemd tot Ideographic Rapporteur Group (IRG). 

Het doel van dit comité was om de Han-unificatie (Han Unification 55 ) in goede banen te 

leiden. Het bevat afgevaardigden van de Volksrepubliek China, Hong Kong, Japan, Korea, 

Singapore, Republiek China (Taiwan), Vietnam, Verenigde Staten van Amerika en Unicode 

Consortium. In december 1991 werd de UniHan 1.0 database vrijgegeven (een eerste draft 

was uitgegeven in 1989 en een tweede in december 1990). 56 Het heeft zich onder andere 

gebaseerd op bestaande karaktersets. 57 

Enkel de verschillende glyphs van een karakter worden samen gevoegd. Bij het 

samenvoegen wordt er een driedimensieel model gemaakt van drie elementen namelijk 

semantiek (betekenis, functie), abstracte vorm (algemene vorm) en de werkelijke vorm (type- 

face vorm). 

Figuur 1 Het drie dimensioneel conceptueel model gebruikt bij Han-unificatie 

54 

Dit is een ad hoc comité van ISO/IEC JTC1/SC2/WG2 (Joint Technical Committee 1, Subcommittee 2, 

Working Group 2) 

55 

Het Unicode Consortium geeft volgende definitie van de term: “The process of identifying Han characters that 

are in common among the writing systems of Chinese, Japanese, Korean, and Vietnamese.” 

56 

The Unicode Standard, Version 3.0, Addison-Wesley, 2000, Appendix A. 

57 

Voor Chinees zijn de belangrijkste: GB2312-80, GB 12345-90, GB 7589-90, GB 7590-90, GB 8565-88, CNS 

11643-1992 niveau’s 1 tot en met 7 en 15, EACC, Big5. 


De karakters zijn geordend aan de hand van de positie die ze hebben in vier belangrijke 

woordenboeken. In volgorde van belangrijkheid zijn deze Kangxi Zidian, Dai Kan-Wa Jiten, 

Hanyu Da Zidian en Dae Jaweon. Als een karakter in de Kangxi Zidian gevonden wordt dan 

volgt het de volgorde van de Kanxi Zidian, indien het karakter er niet in staat, dan wordt er 

gekeken naar de Dai Kan-Wa Jiten. Indien het karakter daarin gevonden wordt dan wordt het 

geplaatst na het karakter dat er voor staat in de Dai Kan-Wa Jiten maar dan volgens de Kangxi 

Zidian volgorde. Indien het karakter niet gevonden wordt dan wordt er gekeken naar de 

Hanyu Da Zidian en de Dae Jaweon op eenzelfde manier. Chinese karakters met een 

vereenvoudigd radicaal worden geplaatst na het laatste karakter met het onvereenvoudigde 

radicaal. 

Op dit ogenblik is de laatste Unicode standaard 3.2.0. Een lijst van software producten die 

unicode ondersteunen is te vinden op de website van het Unicode Consortium. 58 

Bij Unicode wordt er opnieuw begonnen vanaf 0. Bij de vorig besproken karaktersets 

werd steeds begonnen aan hogere getallen (>127) om de compatibiliteit met ASCII niet te 

verliezen. Unicode blijft compatibel met ASCII omdat het de eerste plaatsen opvult met 

ASCII. 

Unicode gaat nog iets verder dan de meeste karaktercodes en geeft aan ieder karakter niet 

alleen een uniek nummer maar ook een officiële Engelstalige naam, die soms heel duidelijk is 

en soms ook totaal nietszeggend kan zijn. Zo is de naam voor A: ‘Latin Capital Letter A’, 

terwijl de naam voor 骨 (gǔ, been) ‘CJK Unified Ideograph-9AA8’ is. Daarnaast definieert de 

standaard ook een groot deel normatieve eigenschappen en bijkomende informatie. 

Negatieve kanten aan Unicode zijn dat de glyphs samengevoegd worden bijvoorbeeld de 

glyphs voor 1 (één) zijn in het Chinees, Japans en Koreaans niet volledig hetzelfde maar toch 

werd maar één codepunt toegewezen. Zo wordt het radicaal “gras” van het karakter gras in het 

vereenvoudigd Chinees, Japans en Koreaans met drie streepjes geschreven, maar in het 

traditioneel Chinees met vier. Veel kritiek is echter cultuur gebonden. Velen hebben het 

gevoel dat de talen verenigd zijn (dit door het feit dat karaktersets vroeger taalgebonden 

waren), dit is echter totaal niet het geval. Verder zijn veel gespecialiseerde, zelden gebruikte 

karakters nog niet gecodeerd in Unicode. Daarnaast is het zeer moeilijk om nieuwe karakters 

in de Unicode standaard te krijgen. 59 Het kan via gebruik te maken via Private Use Area 

(PUA) of door middel van de Ideograph Description Sequence (IDS). Maar het probleem bij 

PUA is dat het niet echt in de standaard komt, en dat het dus compatibiliteitsproblemen kan 

58 http://www.unicode.org/unicode/onlinedat/products.html 

59 de procedure is terug te vinden op http://www.unicode.org/pending/proposals.html 


geven bij het uitwisselen van data. Het IDS creëert eigenlijk karakters aan de hand van de 

twaalf karakters gevonden in de Ideographic Description blok (2FF0 – 2FFB) maar voegt 

eigenlijk ook geen karakters toe. 60 Zie Figuur 2 voor een voorbeeld van hoe het IDS precies 

werkt. 

Figuur 2 Gebruik van de Ideograph Description Sequence 

Verder probeert men ook geen symbolen of logo’s van bedrijven er in te plaatsen, dit kan 

kleine incompatibiliteiten geven met programma’s die voor bijvoorbeeld Mac zijn geschreven 

en die het Apple-teken ( ) willen weergeven. 

2.4. Conversie 

Zoals reeds vermeld hebben we twee soorten Chinese karakters, de vereenvoudigde en de 

traditionele. Soms is het nodig om een Chinese tekst met traditionele karakters om te zetten 

naar verenvoudigde karakters en visa versa. Zolang men binnen eenzelfde soort Chinese 

karakters bleef is conversie geen echt probleem (bijvoorbeeld big5 naar CNS 11643-1992). 

Soms ontstaan er fouten omdat een karakterset niet uitgebreid genoeg is (bijvoorbeeld van GB 

12345-90 naar GB 2312-80). Helaas is het probleem nog complexer, omdat één 

vereenvoudigd karakter soms verschillende traditionele karakters kan omvatten. 

Een voorbeeld, we letten hierbij vooral op het tweede karakter, dit wordt in het 

vereenvoudigd Chinees op eenzelfde manier geschreven maar in het traditioneel Chinees 

wordt twee maal een ander karakter gebruikt. Het woord voor “hoofdhaar” (tóufà) in 

vereenvoudigd Chinees ziet er als volgt uit 头发, in het traditioneel Chinees 頭髮, het woord 

voor “vertrekken” (chūfā) in het vereenvoudigd Chinees ziet er als volgt uit, 出发 en in het 

traditioneel Chinees 出發. 

60 The Unicode Standard, Version 3.0, p.268-271. 


Dit wil dus zeggen dat eenzelfde karakter (en dus eenzelfde code) in het vereenvoudigd 

Chinees meerdere traditionele karakters (met verschillende codes) omvat. Sommige 

vereenvoudigde karakters hebben zelfs meer dan twee traditionele varianten bijvoorbeeld 干 

kan 幹, 乾, 榦 of 干 worden. 后天 (hòutiān, overmorgen) 王后 (wánghòu, koningin) wordt 

respectivelijk 後㆝ en 王后. 

Verder is er ook in de loop van de tijd een verschillend woordgebruik ontstaan of worden 

namen anders vertaald. Dit stelt het probleem bij het converteren van teksten, namelijk 

moeten de karakters van woorden gewoon naar hun traditionele variant worden geconverteerd 

of mogen/moeten de woorden aangepast worden aan het doelpubliek. Zo heet een computer in 

China een 計算機 (jìsuànjī) terwijl het in Taiwan 電腦 (diànnǎo) heet. 

Daarnaast zijn de traditionele vormen die in de Volksrepubliek gebruikt worden niet altijd 

volledig hetzelfde als hun Taiwanese traditionele variant, maar in Taiwan worden ook 

vereenvoudigde karakters gebruikt (台 vs 臺). 

Voor Microsofts IIS webserver bestaat er een ActiveX component dat webpagina’s on- 

the-fly converteert 61 . In een Traditioneel Chinese windows zit er een tool om bestanden te 

converteren. Veel programma’s bevatten een converter, bijvoorbeeld TwinBridge. Op Apple 

bestaat er de Text Encoding Converter (TEC). Verschillende conversieprogramma’s maken 

gebruik van deze TEC zoals Apple Chinese Converter, Cyclone, Uctrans en Kctrans. 

61 http://www.overseas.com.tw/ccccc/ 


3. Codering 

lengte. 

Er zijn verschillende categorieën van coderingsmethodes: modale, niet-modale en vaste- 

Modale coderingsmethodes maken gebruik van escape sequences 62 of andere speciale 

karakters om te kunnen wisselen tussen karaktersets of verschillende versies van een 

karakterset en ook om van 1 byte naar 2 byte modus over te gaan. Er bestaan 

enkelzijdige en dubbelzijdige modale coderingen. 

Bij enkelzijdige modale coderingsmethodes wordt er enkel een startsequentie aan het 

begin van de verandering ingevoegd maar niet op het einde. 

Bij dubbelzijdige modale coderingen wordt er een startsequentie aan het begin van de 

verandering ingevoegd en een eindsequentie bij het terugschakelen van de verandering. 

Dit onderscheid kan van belang zijn bij sorteeroperaties. Deze coderingsmethodes 

gebruiken in het algemeen 7 bits. ISO 2022 en UTF-7 zijn voorbeelden van modale 

coderingsmethodes. HZ is een voorbeeld van een dubbelzijdige modale 

coderingsmethode. 

Niet-modale coderingsmethodes maken gebruik van de numerieke waarde van een byte om 

te beslissen wanneer we moeten wisselen tussen 1 en 2 byte modus. Deze 

coderingsmethodes maken meestal gebruik van 8 bits en zijn van variabele lengte. Deze 

vorm van codering gebruikt meestal minder plaats dan modale en vaste-lengte 

coderingsmethodes wat betreft het aantal benodigde bytes om eenzelfde karakter weer te 

geven. Voorbeelden van deze coderingsmethode zijn Big5, Big5+, de verschillende 

versies van EUC, GBK, UTF-8 en UTF-16. 

Vaste-lengte coderingsmethodes gebruiken een zelfde aantal van bytes om alle karakters in 

een karakterset weer te geven. Er is hier dus geen wissel tussen 1 en 2 byte modus nodig. 

Deze vorm van codering vereenvoudigt tekstintensieve operaties zoals zoeken, indexeren 

en sorteren van tekst, maar ze kunnen veel plaatsverlies betekenen. Voorbeelden van 

deze coderingsmethode zijn ASCII, UCS-2 en UCS-4. 

62 Escape sequence: ECMA definitie “A string of bit combinations that is used for control purposes in code 

extension procedures. The first of these bit combinations represents the control function ESCAPE.”. Deze escape 

sequences zijn geregistreerd bij het ISO. ISO 2375:1985: Data processing – Procedure for registration of escape 

sequences. 


3.1. Westerse talen 

De codering voor de ASCII karakterset staat beschreven in ISO 646:1991 (Information 

Technology: ISO 7-bit Coded Character Set for Information Interchange). Het gebruikt 7 bits 

waardoor het 128 unieke te coderen karakters toe laat. 63 Slechts 94 van deze karakters in 

ASCII zijn printbaar, de overige 34 zijn controle karakters 64 of ‘white spaces’. Deze ‘white 

spaces’ zijn karakters zoals een spatie of een tab. 

ISO 8859 maakt gebruik van 8 bits en laat daardoor 256 uniek gecodeerde karakters toe. 65 

IBM ontwikkelde zijn eigen enkel-byte karakterset, EBCDIC (Extended Binary Coded 

Decimal Interchange Code) genaamd. Het aantal en de types printbare karakters zijn dezelfde 

als bij ASCII, maar de codering ervan is volledig verschillend van ASCII. 

3.2. Chinees 

Met de uitzondering van Big5 en ISO 10646-1:1993 zijn er twee coderingsmethodes die 

voor bijna alle Oost-Aziatische talen (maar niet uitsluitend) gebruikt worden namelijk ISO 

2022 en EUC (Extended Unix Code), er zijn echter wel lokale varianten van deze 

coderingsmethodes. 

a) HZ en EHZ 

HZ (is een afkorting voor 汉字 hànzì) werd in 1989 ontwikkeld door Fung-Fung Lee (李 

枫峰 lǐ fēngfēng), een student aan de universiteit van Stanford. Het werd ontwikkeld om GB 

2312-80 tekst te coderen speciaal voor het uitwisselen van e-mails en berichten op 

nieuwsgroepen (maar wordt ook op andere plaatsen gebruikt zoals in bijvoorbeeld terminal 

elmulators onder Linux). 

Het is een dubbelzijdige modale coderingsmethode. Het wordt beschreven in RFC 1843 

HZ - A Data Format for Exchanging Files of Arbitrarily Mixed Chinese and ASCII characters. 

Het maakt gebruik van een shift sequence 66 van twee printbare karakters (in plaats van een 

escape sequence) om van de één byte karakters naar de twee byte (Chinese) karakters te 

verspringen. 

63 

2^7 = 128 

64 

Chinese term: 控制碼 kòngzhìmǎ 

65 

2^8 = 256 

66 

Shift sequence: is een escape sequence (zie noot 62) die niet begint met het controle karakter ESC. 


Er wordt uitgegaan van de veronderstelling dat er slechts GB 2312-80 en ASCII bestaat. 

GB bestaat uit twee bytes waarvan de eerste byte valt in het gebied 0x21 tot 0x77 en de 

tweede byte in het gebied 0x21 tot 0x7E. Grafische ASCII karakters vallen in het gebied 0x21 

tot 0x7E en niet grafische ASCII karakters in het gebied 0x00 tot 0x20 en 0x7F. Aangezien 

het gebied van een GB byte overlapt met een byte van een grafisch ASCII karakter moet er 

dus versprongen worden van modus, dit gebeurt via een niet-grafisch ASCII karakter dat in 

beide sets gelijk is (‘~’ staat op positie 0x7E en valt dus buiten het gebied van een eerste byte 

van een GB karakter). De standaard modus is ASCII en alles wordt behandeld als ASCII tot 

dat er een tilde (~) tegengekomen wordt. De tilde moet gevolgd worden door een ~, een {, 

een } of een /n (nieuwe regel). 

Het gebruikt een ~{ om het begin aan te duiden van een GB reeks, vanaf dan worden 

bytes per twee behandeld tot er ~} wordt tegen gekomen dat aanduidt dat er terug naar ASCII 

mode moet worden overgeschakeld. Om een tilde in ASCII weer te geven moet het dubbel 

gecodeerd worden (~~), willen we twee bytes behouden terwijl we van lijn verspringen dan 

moet ~ (~/n) meegegeven worden. Een voorbeeld: 

Dit is ASCII, wat volgt is in GB .~{

) ISO 2022 

Deze coderingsmethode staat beschreven in ISO 2022:1994, Information Technology – 

Character code structure and extention techniques. 67 Eigenlijk is het niet echt geschikt voor 

interne opslag of bewerking op computer systemen, het werd ontworpen vor informatie 

uitwisseling tussen computers, zoals e-mail. Het is een 7 bit modale coderingsmethode. Er 

zijn slechts enkele programma’s die ISO 2022 intern kunnen verwerken (bv Emacs Version 

20), andere programma’s (meestal e-mail programma’s) zijn wel in staat om ISO 2022 

gecodeerde tekst te maken maar verwerken de ISO 2022 codering niet noodzakelijk intern. 

De waarden die gebruikt worden voor het coderen van bytes vallen in de hexadecimale 

gebied 0x21-0x7E en dit voor zowel de eerste als tweede byte, dit gebied komt overeen met 

het gebied van printbare ASCII karakters. Het gebruikt speciale karakters of speciale reeksen 

van karakters namelijk designator sequences 68 , single shift sequences 69 (SSx), shifting 

characters 70 en escape sequences 71 . 

Van deze coderingsmethode zijn er twee Chinese varianten (er is ook een Japanse en 

Koreaanse variant respectivelijk ISO-2022-JP en ISO-2022-KR) namelijk ISO-2022-CN en 

ISO-2022-CN-EXT, die beiden in RFC 1922 (Chinese Character Encoding for Internet 

Messages) staan beschreven. Het verschil tussen ISO-2022-CN en ISO-2022-CN-EXT is dat 

ISO-2022-CN enkel ASCII, GB 2312-80 en niveaus 1 en 2 van CNS 11643-1992 ondersteunt. 

ISO-2022-CN-EXT is identiek aan ISO-2022-CN maar het biedt ondersteuning voor meer 

karaktersets. Chinees en ASCII worden van elkaar onderscheiden door designations en shift 

functies. Het zijn de designations die bepalen welke Chinese karakterset er gebruikt zal 

worden. Zie tabel Tabel 20 en 

Tabel 21. 

Tabel 20 ISO-2022-CN 

Designator Karakterset 

SO GB 2312-80 en CNS 11643-1992 niveau 1 

SS2 CNS 11643-1992 niveau 2 

67 Standard ECMA-35 is nu identiek aan ISO2022 en is integraal terug te vinden op de ECMA website. 

68 Designator sequence: Het geeft aan welke karakterset moet gebruikt worden wanneer er overgeschakeld wordt 

naar dubbele byte modus. Het zorgt evenwel niet voor de overschakeling. Het moet in iedere lijn voorkomen die 

karakters van de karakterset bevat, dit zodat de karakters correct zouden weergegeven worden als er terug 

‘gescrolled’ wordt in een venster. 

69 Single shift sequence: zorgt voor de overschakeling naar dubbele byte modus voor de twee karakters die er op 

volgen. Wordt aangeduid met SS2 (0x1B 0x4E) of SS3 (0x1B 0x4F) 

70 Shifting character: zorgt voor de overschakeling tussen enkele en dubbele byte modus. Een SO (0x0E) duidt 

het begin aan, een SI (0x0F) duidt het einde aan van een dubbele byte modus. 

71 Escape sequence: Duidt niet alleen aan welke karakterset er moet gebruikt worden, maar zorgt ook voor de 

overschakeling. 


Tabel 21 ISO-2022-CN-EXT 

Designator Karakterset 

SO GB 2312-80, GB 12345, ISO-IR-165:1992 en CNS 11643-1992 niveau 1 

SS2 GB 7589-87, GB 13131-91 en CNS 11643-1992 niveau 2 

SS3 GB 7590-87, GB 13132-91, CNS 11643-1992 niveau 3 tot 7 

De invoer van een designator zorgt ervoor dat de vorige sequences ongedaan gemaakt 

worden voor de karakters die volgen. Hoe deze sequenties er precies uitzien kan men 

terugvinden in Tabel 38 en Tabel 39. Iedere lijn moet beginnen en eindigen in ASCII, met 

andere woorden er moet een SI worden meegeven voor het einde van de lijn. 

Hieronder volgt de hexadecimale representatie van “交换交換” gecodeerd met ISO-2022- 

CN waarbij 交換 (jiāohuàn, uitwisseling) de eerste maal uit GB 2312-80 karakterset wordt 

gehaald en de tweede maal uit CNS 11643-1992 niveau 1. 72 

1B 24 29 41 0E 3D 3B 3B 3B 1B 24 29 47 47 28 5F 50 0F 

1B 24 29 41 0E 3D 3B 3B 3B 1B 24 29 47 47 28 5F 50 0F 

$ ) A 交换 $ ) G 交換 

GB 2312-80 Begin 2 bytes CNS 11643-92 Einde 2 bytes 

c) EUC 

EUC staat voor Extended Unix Code. EUC is een niet-modale variable-lengte 8-bit 

coderingsmethode. Het is ontwikkeld als een methode om verschillende karaktersets te 

verwerken in één enkele tekststroom. De volledige definitie van EUC codering bestaat uit 4 

code sets. Code set 0 is altijd ofwel de ASCII karakterset of een landelijke variant van ISO 

646. De andere code sets zijn een set van variabelen waaruit elk land kan kiezen. Om het 

onderscheid te maken tussen ASCII en een Chinese karakterset wordt de eerste bit van de 

eerste byte op 1 geplaatst. Karakters uit de derde code set worden voorafgegaan door het 

controlekarakter SS2 (0x8E), karakters uit de vierde code set worden voorafgegaan door het 

controlekarakter SS3 (0x8F). Er zijn verschillende code posities die niet kunnen gebruikt 

worden voor het coderen van printbare karakters namelijk karakters tussen 0x00 – 0x1F en 

0x80 – 9F en de karakters op de punten 0x20 (space) en 0x7F (delete). Het gebied 0x21 tot 

0x7E wordt gebruikt om enkel-byte ASCII te coderen terwijl het gebied 0xA1 tot 0xFE wordt 

gebruikt voor het coderen van twee byte Chinese karakters. 

EUC-CN wordt gebruikt in China. Dit is een codering die gebruik maakt van één en twee 

byte codering. Het gebruikt enkel de eerste 2 codesets. De eerste is zoals voorgeschreven 

ASCII en de tweede set is GB 2312-80. 

72 http://freebsd.sinica.edu.tw/~statue/hanzi/iso2022-2.htm 


EUC-TW wordt gebruikt in Taiwan. De lengte van de codering van een karakter kan 

ofwel één, twee of vier bytes lang zijn. Het gebruikt drie codesets. Code set 0 is ASCII, code 

set 1 bevat CNS 11643-1992 niveau 1, code set 2 bevat CNS 11643-1992 niveaus 2 tot 16. 

Door het groot aantal karakters in code set 2 wordt die gecodeerd met 4 bytes. Zie Tabel 40 

voor het gebruik van de single shift. 

d) GBK 

Deze codering wordt gebruikt voor de GBK karakterset, het is ook de standaard codering 

voor de Chinese versies van Windows in de Volksrepubliek. Het biedt plaats aan 23 940 code 

plaatsen waarvan er aan 21 886 karakters zijn toegewezen. Het is compatibel met EUC-CN 

want GBK nam EUC-CN’s code set 1 als zijn basis. 

e) Big5 en Big5+ 

Zijn niet-modale coderingsmethodes. Big5 en EUC-TW zijn heel verschillend van elkaar, 

EUC-TW is een gemengd één-, twee-, vier-byte codering dat bestaat uit niveaus, terwijl Big5 

een gemengde één- en twee-byte codering is waarvan de waarden van de tweede byte tot in de 

7 bit regio reiken (eerste byte: A1 – FE, tweede byte: 0x40 – 0x7E en 0xA1 – 0xFE). 

Big5+ is een extensie van Big5 en nam daarom Big5 als zijn basis. 

f) Overzicht 

Tabel 22 Coderingen en de ondersteunde karaktersets 

Codering Ondersteunde karaktersets 

ASCII ASCII, GB-Roman, CNS-Roman, 

ISO 2022 ASCII, GB-Roman, CNS-Roman,GB 2312-80, CNS 11643-1992 

EUC ASCII, GB-Roman, CNS-Roman,GB 2312-80, GB/T 12345-90, CNS 11643-1992 

GBK ASCII, GB-Roman, GB 2312-80, GB/T 12345-90 

HZ ASCII, GB-Roman, GB 2312-80 

Big5 ASCII, CNS-Roman, Big5 

Big5+ ASCII, CNS-Roman, Big5+ 

Tabel 23 Karaktersets en ondersteunde coderingen 

Karakterset Ondersteunde coderingen 

CCCII, EACC 3 byte ISO 2022 

CNS 11643 ISO-2022-CN, ISO-2022-CN-EXT en EUC-TW 

Big5 Big5 

GB ISO 2022, ISO-2022-CN, ISO-2022-CN-EXT, GBK, EUC-CN, HZ, zW 

GBK GBK 


3.3. Meertalig 

a) UCS 

UCS staat voor Universal Character Set en heeft twee coderingsmethodes namelijk UCS- 

2 en UCS-4. UCS-2 gebruikt 2 bytes en UCS-4 gebruikt 4 bytes. Ze gebruiken een vaste- 

lengte codering. Eigenlijk is UCS-4 geen 32-bit maar slechts een 31-bit code en dit laat dus 2 

147 483 648 code punten toe. 73 

Tabel 24 UCS-4 is slechts een 31-bit code 

Bits 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 

Control 7 2 2 2 2 2 = 17 

Data 1 6 6 6 6 6 = 31 

b) UTF 

UTF staat voor UCS Transformation Format, ook hiervan zijn er verschillende versies 

namelijk UTF-7, UTF-8, UTF-16 en UTF-32. 

UTF-7 is zeer gelijkend aan Base64. Het wordt beschreven in RFC 2152 UTF-7: A Mail- 

Safe Transformation Format of Unicode. Het is een 7 bit codering. Het kan alleen gebruikt 

worden om UCS-2 en UTF-16 te coderen. Wat het eigenlijk doet is de unicode karakters 

coderen als US-ASCII bytes samen met shift sequenties (hiervoor wordt ‘+’ gebruikt om het 

begin van een shift aan te duiden en ‘-’ om het einde ervan aan te duiden) om karakters die 

buiten dat gebied vallen te kunnen coderen. UTF-7 is enkel ontwikkeld enkel en alleen om in 

mail-omgeving gebruikt te worden. In andere omstandigheden gaat de voorkeur naar UTF-8 

of andere coderingen van Unicode. Om een ‘+’ weer te geven moet ‘+-’ worden ingegeven en 

voor een ‘-’ moet het twee maal gecodeerd worden (‘--’). 

Voorbeeld: Hi Mom J! Wordt gecodeerd als ‘Hi Mom +Jjo-!’ 

Hi Mom + Jjo - ! 

ASCII Begin codering J Einde codering ASCII 

0048 0069 0020 004D 006F 006D 0020 263A 0021 

73 2^31 = 2 147 483 648 


UTF-8 werd ontwikkeld om Unicode tekst weer te geven als octets in plaats van als 16-bit 

eenheden. Het werd beschreven in RFC 2279 UTF-8, a transformation format of ISO 10646. 

Het is een 8 bit-variabele-lengte codering. Het kan gebruikt worden om UCS-2 en UCS-4 te 

coderen. Het voordeel is dat iedere geldige ASCII string ook een geldige UTF-8 string is 

waardoor we terugwaartse compatibiliteit hebben. In UTF-8 worden karakters gecodeerd in 1 

tot 6 bytes, wanneer een byte alleen voorkomt dat wordt de eerste bit op 0 gezet, indien een 

karakter uit meerdere bytes bestaat wordt de eerste bit op 1 gezet en wordt gevolgd door een 

bit op 0. 

Tabel 25 UTF-8 codering van UCS-2 en UCS-4 

UCS2 

UCS4 

Range (hex.) UTF-8 octet sequence (binary) 

0000 0000-0000 007F 0xxxxxxx 

0000 0080-0000 07FF 110xxxxx 10xxxxxx 

0000 0800-0000 FFFF 1110xxxx 10xxxxxx 10xxxxxx 

0001 0000-001F FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 

0020 0000-03FF FFFF 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 

0400 0000-7FFF FFFF 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 

Voorbeeld: 日本語 

日本語 

HEX 65E5 672C 8A9E 

UTF-8 E6 97 A5 E6 9C AC E8 AA 9E 

UTF-16 codeert normaalgezien enkel UCS-2 maar laat ook toe om de volgende 16 

niveaus te coderen die normaalgezien enkel toegankelijk zijn via UCS-4. Het is een variabele- 

lengte codering dat gebruik maakt van een gemengde 16 en 32 bit code ruimte. In 

programma’s die geen UTF-16 aankunnen (en dus ieder byte interpreteren als een karakter) 

zal het woord ‘hallo’ weergegeven worden als ‘h a l l o’. Er bestaat UTF-16BE (Big Endian) 

en UTF-16LE. (Little Endian). Indien de tekst gelabeld staat als UTF-16 kan er een 0xFEFF 

worden meegestuurd als Byte Order Mark (BOM) en het heeft enkel die betekenis als het aan 

het begin van een sequentie staat (anders betekent het zero width non-breaking space), aan de 

hand daarvan kan men dus de ordening van de bytes afleiden. als 0xFE gevolgd wordt door 

0xFF dan is het BE. Indien de eerste bytes 0xFF gevolgd door 0xFE zijn dan is het LE. Indien 

de tekst gelabeld staat als UTF-16BE of UTF-16BE dan mag er geen BOM meegestuurd 

worden 


Voorbeeld: (0x12345)=Ra (de hexadecimale code is de code voor het teken Ra) 

(0x12345)=Ra 

BE D8 08 DF 45 00 3D 00 52 00 61 

LE 08 D8 45 DF 3D 00 52 00 61 00 

UTF-32 is de laatste codering. Het kan ook opgedeelt worden in UTF-32 (al dan niet 

gebruik makende van een BOM), UTF-32BE en UTF-32LE. Het kan alle codepunten van 

Unicode coderen. UTF-32 is een subset van UCS-4. 74 

74 http://www.unicode.org/unicode/reports/tr19/ 


4. Hardware 

4.1. Toetsenbord 

Voor het computertoetsenbord werd de typmachine gebruikt. Een Chinese typemachine 

bestond uit een soort dienblad dat meer dan 2000 karakters kon bevatten, en verschillende 

duizenden meer in andere platen (zie Figuur 13 op pagina 89). De typist moest eerst de plaat 

uitlijnen, vervolgens een toets drukken die ervoor zorgde dat een arm het gewenste karakter 

aandrukte tegen het papier. De machine kon zowel horizontaal als verticaal typen. Het was 

redelijk traag maar goede typisten haalden toch ongeveer 20 karakters per minuut. Met de 

komst van de computer was dit toestel totaal achterhaald. Er moest dus gezocht worden naar 

manieren om Chinees in te voeren via het toetsenbord dat men aan de computer kon 

aansluiten. 

De meest voorkomende toetsenbord layout in Azië is net zoals in Amerika de QWERTY 

layout. Het probleem is dat een toetsenbord niet alle karakters kan bevatten, zelfs niet een 

voldoende aantal. Dus werden er twee zaken bedacht: invoermethodes (input methods) en 

conversie woordenboeken (conversion dictionaries). Concreet houdt dit in dat een gebruiker 

typt, de computer interpreteert de invoer aan de hand van de invoermethode, (de invoer wordt 

door een in de invoermethode ingebouwde parser gehaald) en het conversiewoordenboek 

geeft een lijst van mogelijke karakters die overeenkomen met de invoer weer (zeer gelijkend 

aan key-value-lookup). Vervolgens moet de gebruiker een keuze maken uit de lijst ofwel 

meer keuzes opvragen. Hoe groter het conversiewoordenboek hoe langer de lijst van 

mogelijke kandidaat karakters. De invoermethode moet er wel voor zorgen dat het als eerste 

de invoer verwerkt, daarom spreken we ook vaak van front-end processor (FEP), ze draaien 

meestal onafhankelijk van het programma dat de eigenlijke invoer nodig heeft en daarom 

kunnen ze ook voor meerdere programma’s gebruikt worden. 

Er zijn vier soorten ‘input method editing’ namelijk on-the-spot, over-the-spot, off-the- 

spot en root-window 75 . 

75 http://www.mozilla.org/projects/intl/input-method-spec.html 


Bij on-the-spot (ook wel inline input genoemd) wordt de tekst rechtstreeks in de tekst door 

het programma ingevoerd. De tekst die eventueel na de positie van invoer staat wordt mee 

opgeschoven tijdens de invoer. Er wordt eventueel mogelijks nog uit de juiste kandidaten 

gekozen en vervolgens wordt de tekst werkelijk ingevoegd. 

Bij over-the-spot wordt de tekst als een soort ‘laag’ ingevoerd en kan aldus over tekst 

komen die er op volgt. Als de gebruiker de ingevoerde tekst bevestigt wordt het werkelijk 

ingevoerd. Hier gebeurt de invoer in eenmaal in de tekst. 

Bij off-the-spot wordt de invoer eerst in een invoerbalk ingegeven die onderaan het 

scherm staat, pas bij bevestiging wordt het de tekst ingevoerd. 

Bij root-window (ook wel floating window genoemd) wordt de tekst ingevoerd in een 

invoerbalk die zijn eigen scherm heeft en los staat van het programma waar tekst ingevoerd 

wordt. Als de gebruiker de ingevoerde tekst bevestigt, dan wordt de tekst daadwerkelijk 

ingevoerd. 

Er zijn drie manieren om de Chinese taal in te voeren, de eerste is gebaseerd op de 

uitspraak (拼音法 pīnyīfǎ), de tweede is gebaseerd op structuur van de karakters (拆字法 

chāizìfǎ) en de derde is een combinatie van beide vorige (混合法 hùnhéfǎ). Uitspraak 

gebaseerde systemen zijn in het algemeen makkelijker aan te leren. 

De eerste inputmethodes waren gebaseerd op karakterinvoer, ieder karakter moest 

afzonderlijk ingegeven worden. Er zijn echter intelligente systemen ontwikkeld die Chinese 

karakters weergeven naargelang hun frequentie in de Chinese taal, de meest frequente worden 

dan eerst weergegeven, het eigen typgedrag en systemen die werken aan de hand van 

associatie, hier wordt gekeken naar welke karakters er voor komen. 

Hieronder worden een deel invoermethodes besproken, het is onmogelijk om alle 

invoermethodes te bespreken en daarom wordt slechts een deel op korte wijze behandeld. 

a) Uitspraak gebaseerd 

De twee belangrijkste romanisatie systemen zijn Wade-Giles (韋氏 weíshì) en Pinyin 

(拼音 pīnyīn). Daarnaast bestaan er ook nog andere zoals Yale, Romanisation de l’Ecole 

Française d’Extrême-Orient, … 

Wade-Giles (genoemd naar zijn uitvinders) werd het meest gebruikt in de 19 de eeuw 

en begin 20 ste eeuw in internationale gemeenschap. Sinds de erkenning van het Pinyin als 

officieel romanisatiesysteem door de VN in 1979, heeft het Pinyin veel terrein gewonnen op 

het Wade-Giles. 


In 1928 werd het door Zhao Yuanren (趙元任 zhào yuánrèn) ontwikkelde Gwoyeu 

Romatzyh (國語羅馬字 guóyǔ luómǎzì) de officiële standaard in China voor de romanisatie, 

maar dit heeft nooit echt veel ingang gevonden. Daarnaast hebben we ook nog het fonetisch 

schrift Zhuyin. In 1913 riep de Chinese regering een Conference on the Unification of 

Pronounciation samen en in 1918 werd dan een National Phonetic Alphabet afgekondigd, dit 

was het Zhuyin (注音字母 zhùyīn zìmǔ), in 1930 werd een vernieuwde versie uitgegeven 

onder de naam 注音符號 (zhùyīn fúhào). 

Het probleem bij de Chinese taal is dat eenzelfde uitspraak verschillende karakters kan 

hebben (zo geeft de invoer van yì in een Taiwanese MS Windows 133 mogelijke karakters), 

wat de kans op verkeerd typen groter maakt. Hoe meer mogelijkheden er zijn waaruit gekozen 

kan worden, hoe slechter het is voor de ogen omdat er meer geconcentreerd naar het scherm 

moet worden gekeken en de ogen veel meer moeten zoeken. Daarom wordt veel meer op 

woorden gewerkt, want het aantal woorden met een identieke uitspraak is veel kleiner. Verder 

wordt er meer en meer artificiële intelligentie ingebouwd zodat bijvoorbeeld namen en 

plaatsen na verloop van tijd kunnen herkend worden. Daarnaast is de uitspraak van de 

verschillende dialecten in China enorm verschillend, maar gebruiken ze dezelfde karakters. 

ß Pinyin (拼音 pīnyīn – letterlijke betekenis: spellen volgens het geluid) 

Pinyin is het officiële romanisatiesysteem in de Volksrepubliek China. Het werd 

uitgevaardigd in 1958. Sinds 1977 is het de VN standaard voor de romanisatie van het 

Chinees. Pas in 1979 werd het pas de officiële standaard en op 1 augustus 1982 werd het een 

ISO standaard 76 . Pinyin is gebaseerd op het Romaanse alfabet en is daarom makkelijk aan te 

leren voor niet-Chinezen. Voor Chinezen was het in begin moeilijk om het Romaanse alfabet 

te leren. Vandaag is de kennis van het Romaanse alfabet echter ook zeer sterk ingeburgerd, 

waardoor Pinyin ook voor de Chinezen zelf toegankelijk is. Het maakt gebruik van tonen die 

ofwel kunnen geschreven worden (ā), als cijfer op het eind van het woord (a1) of niet kan 

worden weergegeven (a). Indien de tonen worden weergegeven dan moet het lettertype dit 

ondersteunen. Het voordeel van Pinyin is dat het op een ‘normaal’ toetsenbord kan getypt 

worden zonder modificaties uit te voeren. Het nadeel bij het typen is dat men tot 30 of meer 

mogelijke karakters krijgt voor één enkele uitspraak en dat er voor het invoeren van één 

karakter er soms tot 6 aanslagen moeten gebeuren. Om het aantal mogelijke karakters te 

verminderen kan men de toon aangeven (wat weer een extra toetsaanslag is), een andere 

76 ISO 7098: Information and documentation -- Romanization of Chinese (laatste versie van 1991) 


manier om het aantal keuzes te verminderen is om meerdere karakters na elkaar, of een ganse 

zin, te typen. Een ander nadeel is dat Pinyin het karakter ‘ü’ gebruikt, en dit is niet makkelijk 

in te voeren met een qwerty toetsenbord. In CJK programma’s wordt dat opgelost door een 

‘uu’ of ‘v’ in de plaats in te voeren. 

中国 (zhōngguó, China): zhong1 + spatie + guo2 

Figuur 3 Toetsenbord met Pinyin invoermethode layout 

bron: http://www.honco.net/japanese/05/caption/caption-3-04.html 

ß Shuang Pinyin (双拼 shuāngpīn) 

Shuang Pinyin kan men omschrijven als twee letter Pinyin. Om het aantal 

toetsaanslagen te verminderen werd de invoer van verschillende karakters vervangen door één 

enkele of twee letters. 

中国 (zhōngguó, China): V(zh) + Y (ong) + G(g) + 5(uo) 

Figuur 4 Toetsenbord met Shuangpin invoermethode layout 

Bron: http://www.honco.net/japanese/05/caption/caption-3-04.html 

Pinyin. 

ß Half Pinyin(简拼 jiǎnpīn) 

Half Pinyin is een invoermethode dat het midden houdt tussen Pinyin en Shuang 


Tabel 26 Vergelijking tussen de verschillende Pinyin invoer methodes 

Hanzi Pinyin Shuang Pinyin Half Pinyin 

啊 a a a 

酷 ku ku ku 

處 chu uu iu 

汆 cuan cc cuj 

張 zhang ag ah 

雙 shuang ih uuh 

ß Zhuyin (注音 zhùyīn – letterlijke betekenis: annoteren) 

Deze methode is ook gekend onder de naam BoPoMoFo (dit zijn de eerste 4 klanken 

van het systeem) of 注音符號 zhùyīnfúhào. Het werd voor het eerst geïntroduceerd in 1913 

door het Ministerie van Onderwijs (教育部 jiàoyùbù) van de Republiek China. De methode 

onderging verschillende veranderingen tussen 1919 en 1922, het werd vastgelegd in 1930, in 

Taiwan voerden ze in 1986 nog enkele wijzigingen door (deze nieuwe versie kreeg de naam 

國語注音符號第㆓式 guóyǔ zhùyīnfúhào dìérshì). Het was bedoeld als een pedagogisch 

hulpmiddel om het lezen en de uitspraak van het Mandarijns te vergemakkelijken. Deze 

methode is nu nog steeds de officiële manier in Taiwan om mandarijns (國語 guóyǔ) aan te 

leren. De karakters zijn gebaseerd op Chinese kalligrafische vormen en sommige zijn 

rechtstreeks afgeleid van bestaande Chinese karakters. Het bestaat uit 37 symbolen, 21 

‘medeklinkers’ en 16 ‘klinkers’ daarnaast worden ook nog 5 toonsymbolen gebruikt. (zie 

Tabel 37 op pagina 82). 

Het voordeel van deze transcriptie is dat de karakters binnen de karakterschrijfwijze 

passen, zeker als er verticaal wordt geschreven en verder benadrukt het de unieke klanken van 

de Chinese taal. Het nadeel is echter dat het meer dan 26 karakters bevat, en die moeten 

allemaal op een toetsenbord komen, daardoor moeten er cijfers en punctuatie karakters 

gebruikt worden waardoor die niet meer onmiddellijk toegankelijk zijn. Verder moet men bij 

het wisselen van layout opnieuw nadenken hoe die layout er uit ziet. Deze tekens zitten bevat 

in volgende karaktersets: GB-2312-80, GB/T-12345-90, CNS 11643-1992 en Big5. Er is 

echter wel één verschil, het in Taiwan gebruikte ㄧ wordt in GB karakterset als 丨 

weergegeven. 

㆗國 : 5(ㄓ) + J(ㄨ) + / (ㄥ) + spatie + E (ㄍ) + J (ㄨ) + I (ㄛ) + 6 (ˊ) 


Figuur 5 Toetsenbord met Zhuyin invoermethode layout 

b) Structuur gebaseerd 

Chinese karakters zijn opgebouwd uit radicalen en streepjes, algemeen worden er 

214 77 radicalen gebruikt om Chinese karakters te indexeren. Sommige van die radicalen 

kunnen alleen staan en hebben dan een eigen betekenis, andere kunnen niet op zichzelf 

gebruikt worden. 

Na de studie van de Chinese karakters op vlak van de opbouw, werden er 

invoermethodes ontwikkeld die op dergelijk onderzoek zijn gebaseerd. 

Een nadeel bij op structuur gebaseerde invoermethodes is dat ze vaak moeilijk aan te 

leren zijn waardoor men ze dus ook sneller vergeet. Daarnaast moet men eerst weten hoe men 

het karakter moet schrijven alvorens men het kan typen. 

Om dergelijke inputmethodes te vergelijken, vergelijkt men vaak de invoer van de 

volgende soorten karakters: karakters met gelijk aantal streepjes maar waarvan de boven en 

onder lengte niet gelijk zijn (田由 ㆙ 申), karakters met een gelijk aantal streepjes maar 

waarvan de lengte rechts en links niet gelijk zijn (土士 / 未末), karakters met een gelijk 

aantal streepjes maar waarvan de grootte en de breedte niet gelijk zijn (日曰 / 口囗), 

karakters met gelijk aantal streepjes maar waarvan de schrijfrichting niet gelijk is (㆟ 八入) 

en tot slot ingewikkelde karakters (鬱籤). 

ß Wubi (五笔字型 wǔbǐzìxíng) 

Deze methode werd bedacht door Wang Yongmin (王永民 wáng yǒngmín) uit de 

Volksrepubliek China. Bijna elk karakter kan ingevoerd worden door slechts 2 toetsaanslagen, 

het maximum is vier. Het unieke aan dit systeem is dat bijna ieder karakter zijn eigen 

toetsencombinatie heeft. Deze methode verdeelt de radicalen in 5 secties die op hun beurt 

verdeeld zijn in 5 niveaus. De 25 categorieën zijn dan toegewezen aan de toetsen A tot Y op 

77 de indeling in 214 vindt zijn oorsprong in het in 1716 gepubliceerde Chinese woordenboek 康熙字典 (kāngxī 

zìdiǎn), de PRC heeft dit aantal op 186 terug gebracht na vereenvoudiging. 


het toetsenbord. De toets Z dient als ‘wildcard’. Hoe deze groepen precies zijn opgedeeld kan 

men vinden in Tabel 27. 

Tabel 27 Opdeling van Wubizixing 

Toets 1 Toets 2 Toets 3 Toets 4 Toets 5 

Groep 1 11 / G 12 / F / 13 / D 14 / S 15 / A 

Groep 2 21 / H 22 / J 23 / K 24 / L 25 / M 

Groep 3 31 / T 32 / R 33 / E 34 / W 35 / Q 

Groep 4 41 / Y 42 / U 43 / I 44 / O 45 / P 

Groep 5 51 / N 52 / B 53 / V 54 / C 55 / X 

Figuur 6 Toetsenbord met Wubizixing invoermethode layout 

Bron: http://www.honco.net/japanese/05/caption/caption-3-05.html 

ß Wubihua (五笔划 wǔbǐhuà) 

Bij deze methode voert men de karakters in aan de hand van cijfers. Men baseert zich 

op de schrijfwijze, maar daarbij beperkt men zich enkel tot 5 streepjes. Er zijn 5 soorten 

streepjes waar men een cijfer aan gegeven heeft en toegewezen aan het cijferblok rechts op 

het toetsenbord. Bestaat het karakter slechts uit 5 streepjes dan geeft men die in die volgorde 

weer, bestaat uit minder dan 5 dan moet men nog een ‘0’ ingeven, bestaat het karakter uit 

meer dan 5 streepjes, dan geeft men de eerste 4 en het laatste in. Hoe deze zijn toegewezen 

kan men vinden in Tabel 28. 

Tabel 28 Toewijzing van de cijfers in Wubihua 

Keypad nummer Streepje Chinese naam Schrijfwijze 

1 ㆒ 橫 héng links → rechts 

2 丨豎 shù boven → onder 

3 丿撇 piě rechts boven → links onder 

4 捺 nà links boven → rechts onder 

5 ㆚ 拆 chāi Links boven → draaiend → rechts onder 

Voor de invoer gebruikt men dezelfde regels als bij het schrijven namelijk van boven 

naar onder, vervolgens van links naar rechts en tenslotte van buiten naar binnen. Er bestaat 

ook een ‘wildcard’ namelijk KP nr 6 


Tabel 29 Voorbeeld Wubihua 

Karakter Aantal streepjes Schrijfwijze Code 

用 5 丿 ㆚ ㆒ ㆒ 丨 35112 

五 4 ㆒ 丨 ㆚ ㆒ 12510 

总 9 丿丨 ㆚ 43254 

ß Cangjie (倉頡 cāngjié) 

Dit is een zeer snelle invoermethode. Deze werd in 1976 ontwikkeld door Zhu Bangfu 

(朱邦復 zhū bāngfù) in Taiwan. Het is genoemd naar de legendarische uitvinder van het 

Chinese schrift. Oorspronkelijk noemde deze invoermethode 意形檢字法 (yìxíng jiǎnzìfǎ), 

daarna ㆝龍輸入法 (tiānlóng shūrùfǎ) en in 1978 kreeg het tenslotte de naam 倉頡 (cāngjié). 

In 1981 verscheen de tweede versie en in 1983 de derde versie van deze invoermethode, nu 

zitten we aan versie nummer 5. 

Het verdeelt 24 radicalen in vier groepen over de toetsen A tot W en Y. 

ß De eerste groep zijn de toetsen A, B, C, D, E, F en G. Het wordt de ‘filosofische 

groep’ genoemd omdat ze onder andere de vijf elementen (metaal, hout, water, 

vuur en aarde) representeert. 

ß De tweede groep zijn de toetsen H, I, J, K, L, M, N en wordt de ‘‘pen stroke’ 

groep’ genoemd. 

ß De derde groep wordt ‘lichaamsdeel groep’ genoemd omdat de radicalen delen 

van het menselijk lichaam (mens, hart, hand, mond) beschrijven, en bevat de 

toetsen O, P, Q, R. 

ß De laatste groep is ‘karakter vorm’ groep en bestaat uit de toetsen S, T, U, V, W, 

Y. 

De invoer van een karakter gebeurt door het op te delen in zijn verschillende 

componenten. Zo wordt het karakter 商 (shāng) opgebouwd uit 卜, 金, 月 en 口. Het voordeel 

is dat het slechts 25 toetsen gebruikt, die dus zonder verlies van punctuatietekens of nummer 

op het toetsenbord kunnen geplaatst worden. 

㆗國 : ㆗ (L) + spatie + 田 (W) + 戈 (I) + 口 (R) + ㆒ (M) 

Figuur 7 Toetsenbord met Cangjie invoermethode layout 


Enkele vuistregels 78 die van toepassing zijn bij Cangjie: als de vorm van een Chinees 

karakter wordt gereconstrueerd, wordt dezelfde volgorde als bij het schrijven toegepast. Eerst 

van links naar rechts, dan van boven naar onder en vervolgens van buiten naar binnen. Een 

karakter wordt verdeeld in twee delen, head en body. De head krijgt maximaal twee codes, de 

body drie. Als de head meer dan twee codes bevat dan wordt enkel rekening gehouden met 

het eerste en het laatste. Indien de body meer dan drie codes omvat, worden enkel de eerste, 

tweede en laatste code ingevoerd. 

Bovenstaande regels werken goed met uitzondering van karakters die bestaan uit drie delen. 

Bij karakters die bestaan uit drie delen worden de drie codes voor het body gedeelte ingevoerd 

met de eerste en laatste code voor het tweede deel en de laatste code voor het derde deel. 

Voorbeeld: zie Tabel 30. 

Tabel 30 Voorbeeld Cangjie (1) 

Voorbeeld Correcte vorm Code Incorrecte vorm Code 

樹木土廿戈 DGTI 木土口戈 DGRI 

徹竹㆟卜月大 HOYBK 竹㆟卜戈大 HOYIK 

捌手口尸弓 QRSN 手口竹弓 QRHN 

矗十㆒十㆒㆒ JMJMM 十㆒十月㆒ JMJBM 

Als er meerdere combinaties mogelijk zijn om een karakter in te voeren, dan is de 

combinatie met het minst aantal toetsaanslagen de juiste. Voorbeeld: zie Tabel 31. 



王 ㆒土 MG ㆒十㆒ MJM 

九大弓 KN 大弓山 KNU 

言卜㆒㆒口 YMMR 戈㆒㆒㆒口 IMMMR 

Als er meerdere manieren zijn om een karakter weer te geven die hetzelfde aantal 

codes gebruikt, kies dan voor de codes die het meest complex zijn. Voorbeeld: zie Tabel 32. 



夫手㆟ QO 十大 JK 

堇廿㆗手㆒ TLQM 廿㆗十土 TLJG 

78 http://www.fi.muni.cz/usr/wong/teaching/chinese/notes/notes.html 


Kies de vormen die die het best overeen stemmen met de vorm van het karakter. 

Voorbeeld: zie Tabel 33. 



力十尸 KS 十弓 KN 

也心木 PD 廿弓山 TNU 

吳口女弓大 RVNK 口竹弓大 RHNK 

Ondanks het feit dat de X niet tot één van de groepen behoort heeft het toch een label 

namelijk 難 (nán, moeilijk). De X kan gebruikt worden wanneer de invoer te moeilijk lijkt, 

het kan beschouwd worden als een ‘wildcard’. Voorbeeld : zie Tabel 34. 


Voorbeeld Vorm Code 

身竹難竹 HXH 

齊卜難 YX 

臼竹難 HX 

ß Easy Cangjie (速成 sùchéng – easy / soms ook 簡易 jiǎnyì) 

Dit is een verkorte van de hierboven besproken Cangjie methode. Om het karakter 商 

weer te geven moet enkel 卜 en 口 ingegeven worden. 

㆗國 : ㆗ (L) + spatie + 田 (W) + ㆒ (M) 

Figuur 8 Toetsenbord met Sucheng invoermethode layout 

ß Boshiamy (嘸蝦米 wǔxiāmǐ) 79 

Deze invoermethode werd in Taiwan ontwikkeld door Liu Zhongci (劉重次 líu 

zhòngcì). Het maakt ook gebruik van radicalen, maar maakt eveneens gebruik van de 

uitspraak. Het gebruikt slechts 26 toetsen. Het is een zeer snelle invoermethode. Hoe de 

toetsen toegewezen zijn kan men terugvinden op Figuur 14 op pagina 90. Een voorbeeld 

vindt men in Tabel 35. 

79 http://input.foruto.com/boshiamy/ 


Tabel 35 Voorbeeld Boshiamy 

Karakter Code 

淼 WWW betekenis (3 x Water) 

命 AOP Vorm 

粉 MBD Uitspraak (米 mǐ 八 bā 刀 dāo) 

辯 LIL 辛言辛 

爽 DXXX 大乂乂乂 

ß 3 hoeken methode (㆔角 sānjiǎo) 

Deze invoermethode werd uitgevonden door Jack Huang (黃克東 huáng kèdōng) en is 

gebaseerd op de 4 hoeken methode die kan gebruikt worden bij het opzoeken van karakters in 

woordenboeken 

ß Dayi (太易 dàyì) 80 : 

Dayi werd uitgevonden door Wang Zanjie (王贊傑 wáng zànjié). Het gebruikt bijna 

het ganse toetsenbord wat een nadeel is. Om een karakter in te voeren zijn slechts 2 

toetsaanslagen nodig. 

㆗文 : O (口) + 1 (言) + K (立) + X (水) 

ß Zhengma (郑码 zhèngmǎ) 81 

Figuur 9 Toetsenbord met Dayi invoermethode layout 

Zhengma werd uitgevonden door 郑易里 (Zhèng Yìlǐ) en 郑龙 (Zhènglóng). Er 

moeten twee of vier toetsen aangeslagen worden om twee Chinese karakters in te voeren. 

Deze invoermethode zit standaard in de Microsoft Windows versie bestemd voor de 

Volksrepubliek. 

ß Array (行列 hángliè) 82 

Bij Array wordt het toetsenbord opgedeeld in tien kolommen en tien rijen. Bijna elk 

karakter kan door twee of drie toetsen ingevoerd worden. 

80 http://www.dayi.com 

81 http://www.zhongyicts.com.cn/en/zmsrf/zmsrf.htm 

82 http://www.array.com.tw/ 


c) Combinatie uitspraak – structuur 

Invoermethodes die invoer toelaten aan de hand van een combinatie tussen uitspraak en 

structuur zijn eerder zeldzaam, maar ze bestaan. 

ß Tze-loi (子來 zǐlái) 

Tze-loi werd uitgevonden door Tze-loi Yeung (楊子來 yang zǐlái). Via deze 

invoermethode kan men karakters invoeren door slechts drie toetsaanslagen. De eerste twee 

aanslagen zijn gebaseerd op de structuur van het karakter (de hoek bovenaan links en de hoek 

onderaan rechts), en de derde aanslag is het eerste geluid van de uitspraak. 

Tabel 36 Voorbeeld Tze-loi 

Hanzi Tze-loi Code Tze-Loi (qwerty) 

晶日 + 日 + J JJJ 

品口 + 口 + B HHB 

法 ˋ + ㄙ + F 6ZF 

ß Renzhi Code (认知码 rènzhīmǎ) 

Deze invoermethode bestaat meestal ook uit 3 toetsaanslagen. De eerste is de eerste 

letter van de Pinyin weergave van het karakter, de tweede aanslag is het eerste streepje, de 

laatste aanslag is het laatste streepje. Het kan soms ook andere elementen bevatten. Soms zijn 

er slechts twee of vier toetsaanslagen nodig voor de invoer van een karakter. 

d) Directe invoer 

Met deze invoermethodes voert men karakters onmiddellijk in zonder gebruik te maken van 

een conversiewoordenboek. 

ß Row-cell (国标区位码 guójīqūwèimǎ) 

Bij deze invoermethode gebeurt de invoer aan de hand van het rij-cel nummer uit de 

GB 2310-82 karakterset. 

Voorbeeld: 啊 heeft als code 1601 

ß Neima 內碼 : (nèimǎ) 

Hier gebeurt de invoer aan de hand van interne code van Big5 of TW-EUC. Deze 

invoermethode is zeer gelijkend aan de Row-Cell invoer voor GB 2312-80. 

Voorbeeld: 啊 heeft als code B0DA 


Figuur 10 Toetsenbord met Neima invoermethode layout 

ß Dianbaoma (電報碼 / 电报码 diànbàomǎ) 

Deze invoermethode gebruikt het uit 1911 daterende Chinese telegrafisch codeboek, 

dit werd vroeger gebruikt voor de elektrische telegraaf (waarbij handmatig via morse code 

werd geseind). Het is een lijst van ongeveer 9800 karakters die gerangschikt staan volgens 

radicaal en vervolgens volgens aantal streepjes. Ieder karakter heeft een unieke code 

bestaande uit 4 cijfers. 

Voorbeeld: 电报码 wordt weergegeven als 7193, 1032, 4316. 

4.2. Andere 

Naast het toetsenbord zijn er nog andere manieren om Chinees in te voeren. 

- Stem: Het probleem is dat dergelijke invoer vaak ‘stem gebonden’ is en dat iedere 

gebruiker het systeem eerst moet trainen. Verder zorgt het feit dat Chinees een toontaal 

is voor extra moeilijkheden bij het ontwikkelen. 

- Optical Character Recognition (OCR): Er kunnen problemen rijzen bij het inscannen 

van traditionele tekst door de verschillende schrijfrichtingen. 

- Pen: Hierbij schrijft de gebruiker met een pen op een plaatje waarna het geschreven 

karakter op het scherm verschijnt. Invoer via de pen kan gebruik maken van OCR, maar 

het kan ook kijken naar de volgorde en richting van de streepjes. 


5. Applicaties, toepassingen 

We kunnen zeggen dat er 3 mogelijkheden zijn om Chinees te gebruiken op een computer, 

de eerste is dat het besturingssysteem volledig in het Chinees is gelokaliseerd (localisation 83 , 

l10n). Dit wil zeggen dat het systeem Chinese lettertypes bevat en overweg kan met de invoer 

en het vertonen van Chinese karakters. Algemeen gezien zijn dergelijke besturingssystemen 

volledig in het Chinees. 

Een tweede methode is gebruik te maken van extra softwarepakketten. Hier is het de 

software die Chinese lettertypes bevat en de invoer en vertoning van Chinese karakters 

behandelt. 

De derde methode is dat de software zelf overweg kan met Chinese karakters omdat het 

Unicode gebruikt. 

5.1. Dos 

Voor MS-DOS bestaan er ook verschillende programma’s om Chinees te bekijken, de 

bekendste zijn ETen 84 , ZWDOS en CCDOS (Chinese Character Disk Operating System). 

CCDOS werd reeds in 1982 ontwikkeld, ETen kwam in november 1985 met 倚㆝㆗文系統 

ET2416 (yǐtiān zhōngwén xìtǒng ET2416) op de markt. 

Chinese programma’s die met een niet-Chinese DOS werken, plaatsen DOS in ‘graphics 

mode’ en vertonen zo hun karakters. 

5.2. Microsoft Windows 85 

a) Native Chinese Windows 

China heeft een volledig gelokaliseerde versie van windows uitgebracht voor de Chinese 86 , 

Hong Kongse 87 en Taiwanese markt 88 . De Chinese versies gebruiken intern GBK, terwijl de 

Taiwanese versies Big5 intern gebruiken. 

83 Localiseren van een programma houdt in dat men een internationaal gericht programma gaat aanpassen aan de 

locale markt, meestal op gebied van taal, maar ook van gebruikte munt, aantal decimalen, … 

84 http://www.eten.com.tw 

85 http://www.microsoft.com/windows/ 

86 http://www.microsoft.com/china/index.htm 

87 http://www.microsoft.com/HK/default.asp 

88 http://www.microsoft.com/taiwan/ 


) Niet-Chinese Windows 

Microsoft voorziet in Chinese lettertypes en in Chinese Input Method Editors (Microsoft 

Global IME) voor zowel traditioneel als vereenvoudigd Chinees. Het is op ActiveX gebaseerd. 

Als de IME geïnstalleerd is dan kan er door het gelijktijdig indrukken op de ctrl-toets en shift- 

toets gewisseld worden tussen de verschillende talen (en toetsenbord layouts). De IME werkt 

enkel in programma’s die Unicode ondersteunen. MS Global IME 5.02 werkt op alle 

besturingssytemen maar kan niet gebruikt worden met Office XP. Wil men MS Global IME 

gebruiken in Office XP dan moet men Office XP Tool: Global IME downloaden. Het wordt 

door Netscape ondersteund vanaf Netscape Communicator 4.72. IME’s mogen niet 

geïnstalleerd worden op een versie van Windows die voor dezelfde taal gelokaliseerd is. Met 

andere woorden de IME voor traditioneel Chinees mag niet geïnstalleerd worden op een 

Traditioneel Chinese versie van Windows. 

Microsoft Windows XP is het eerste besturingssysteem van Microsoft dat volledig op 

Unicode gebaseerd is. Microsoft heeft sinds de eerste versie van Windows steeds in de 

richting van internationalisatie gewerkt. 

5.3. Unix / Linux 

Linux is een ‘vrij’ 89 besturingssyteem dat veel gelijkenissen toont met UNIX. Het werd 

ontwikkeld door Linus Torvalds en het GNU project 90 en is vrijgegeven onder de GNU 

General Public License 91 (wordt ook wel copyleft genoemd). De GNU GPL werd uitgegeven 

door de FSF (Free Software Foundation). Dat wil zeggen dat de broncode samen met het 

programma moet vrijgegeven worden en voor iedereen toegankelijk moet zijn. Iedereen mag 

er stukken uit gebruiken maar moet dan software daarop gebaseerd ook uitbrengen onder de 

GNU GPL licentie. 

De Free Standards Group 92 heeft in maart 2002 Li18nux 93 vrijgegeven. Het persbericht 

beschrijft het als volgt: “Li18nux is an internationalization guide for platform and 

applications developers, allow Linux and Linux-based programs to reach greater localization 

capabilities and obtain global reach.” 

In Linux zit er ondersteuning voor Unicode in de kernel (File Systems / Native 

Language Support), maar je moet ook minstens over glibc 2.2 en XFree86 4.0 beschikken. 

89 ‘Free as in free speech not as in free beer’ dixit Richard Stallmann 

90 http://www.gnu.org. Veel van de programma’s werden ontwikkeld door het GNU project, maar Linus 

ontwikkelde de kernel. Meestal spreekt men over Linux terwijl een meer accurate naam GNU/Linux zou zijn. 

91 http://www.fsf.org/licenses/licenses.html 

92 http://www.freestandards.org 

93 http://www.li18nux.net/ 


a) Native Chinese Linux 

Er zijn verschillende Linux distributies die in China (BluePoint Linux 94 , Cosix Linux 95 , 

Happy Linux 96 , Redflag Linux 97 , TurboLinux 98 , XteamLinux 99 ) of Taiwan (Linpus Linux 100 ) 

zelf zijn ontwikkeld. Ze zijn volledig in het Chinees gelocaliseerd. Daarnaast is er ook nog 

één ‘add-on’ die in Taiwan wordt ontwikkeld, het CLE (Chinese Linux Extension, ㆗文延伸 

套件 zhōngwén yánshén taòjiàn 101 ). Het CLE is een uitbreiding van de Redhat distributie. 

b) Niet-Chinese Linux 

Linux werkt met locals, en om die reden is het vaak nodig als men in een terminal werkt om 

de local te zetten. De meeste GNU programma’s kunnen overweg met het LC_CTYPE 

commando. Om de local voor big5 goed te zetten voer het volgende commando uit in bash, sh 

of ksh: “LC_CTYPE=zh_TW.big5; export LC_CTYPE”. In tcsh en csh kan als volgt gedaan 

worden: “setenv LC_CTYPE=big5”. 

ß cxterm 

Cxterm is een aangepaste versie van xterm, een terminal emulator voor X11. De 

aanpassingen laten toe om gebruikers GB en Big5 code weer te geven. Zoals reeds aangehaald 

begint een ASCII code steeds met een 0 terwijl GB en Big5 steeds met een 1 beginnen. Als 

xterm een byte moet weergeven op het scherm zal het veronderstellen dat het ASCII is. Als 

het geen ASCII is dan zal het niets weer geven. Cxterm zal dat wel doen. Als het met een 0 

begint zal het een ASCII karakter weer geven, begint het met een 1 dan zal het een Chinees 

karakter weer geven. 

Er bestaan verschillende varianten van cxterm, nl. cxterm (gb, hz), cxtermb5 (big5), 

cxtermjis (jis) en cxtermks (ksc). 

94 http://www.bluepoint.com.cn 

95 http://Linux.cosix.com.cn 

96 http://www.happyLinux.com.cn 

97 http://www.redflag-Linux.com 

98 http://www.turboLinux.com.cn 

99 http://www.xteamLinux.com.cn 

100 http://www.linpus.com.tw 

101 http://cle.Linux.org.tw 


ß XCIN 

XCIN 102 is de afkorting voor X Chinese INput, het is een XIN (X Input Method) server dat 

wijdverspreid is in Taiwan om Chinees in te voeren in Xwindows. Het werd oorspronkelijk 

ontwikkeld door Edward Der-Hua Liu in oktober 1994 en vele andere programmeurs hebben 

contributies geleverd. Vandaag wordt XCIN ontwikkeld door het XCIN Project (sinds 

februari 1998). Er bestaan plugins (die ook met ander XIN’s werken) zoals DIM (Debian 

Input Method) 103 . 

ß TaBE 

TaBE 104 is de afkorting van Localization for Taiwan and Big5 Encoding. Libtabe wordt 

omschreven als een ‘library’ dat handige Chinese functies en routines aanbiedt en overweg 

kan met de fundamentele elementen zoals uitspraak (bopomofo), karakterfrequentie, 

woordidentificatie en woordfrequentie. Een praktische applicatie van libtabe is een 

intelligente fonetische invoermethode-interface, bims genaamd. Bims aanvaarden invoer in 

bopomofo en creëert uitvoer van betekenisvolle zinnen. De bimsphone module van XCIN is 

rechtstreeks gebaseerd op de libtabe/bims. 

ß andere XIM’s zijn: 

linput, chinput 105 , cWnn & tWnn, 阳春白雪中文输入法 (yángchūn báixuě zhōngwén 

shūrùfǎ) 106 

c) Linux in China & Taiwan 

De Chinese regering steunt Linux, omdat het zo los komt van de bijna-monopolie 

positie van Microsoft. Dat Microsoft Windows veel veiligheidsproblemen kent is een reden 

om Linux te steunen. 107 Daarnaast is het ook een feit dat de broncode van Linux vrij is, nog 

een reden om voor Linux te kiezen. De producten van Microsoft hebben een gesloten 

broncode, de Chinese regering heeft Microsoft verplicht om haar bron code vrij te geven maar 

Microsoft heeft dit besluit aangevochten en onder grote economische druk heeft de Chinese 

regering uiteindelijk zijn eis laten vallen. Door de open-bron (open source) en de GPL van 

Linux kan en mag iedereen de code bekijken en aanpassen. Op een dergelijke manier hoeven 

102 http://xcin.Linux.org.tw 

103 http://sourceforge.net/projects/dim/ 

104 http://libtabe.sourceforge.net of http://xcin.Linux.org.tw/libtabe/index.html 

105 http://www.opencjk.org/~yumj/project-chinput-e.html 

106 http://www.yangchunbaixue.com 

107 http://www.theregister.co.uk/content/1/12449.html 

http://news.com.com/2100-1001-253515.html?legacy=cnet 


ze niet langer hoge licentiekosten betalen maar kunnen ze ook productiekosten uitsparen. 

Toch lijkt het concept van open source niet volledig te werken want volgens RedHat zouden 

de Chinese Linux bouwers zich niet houden aan de GPL en aanpassingen aan de codes niet 

bekend maken (IDG.net, 03 juli 2001). 108 

RedFlag Linux is een door de Chinese overheid gesubsidieerde Chinese Linux 

distributie 109 . Het wordt ook gesteund door Jiang Mianhang, de zoon van president Jiang 

Zimin. Een voormalig Microsoft executive is nu de chief executive van RedFlag. Het werd in 

augustus 1999 op de Chinese Academy of Sciences 110 opgericht door het Institute of 

Software 111 en kreeg daarbij hulp van het staatsbedrijf Shanghai NewMargin Venture Capital 

en in maart 2001 werd CCIDNET Investment (een venture capital afdeling van het Ministerie 

van Informatie Industrie) de tweede grootste aandeelhouder. 

Chinese computermakers installeren geen software op voorhand omdat het aandeel 

van gekopieerde software veel te groot is (tot 95%). Nu is er echter een campagne om illegale 

cd’s tegen te gaan, dit mede door de toetreding van China tot het WTO (World Trade 

Organisation) 112 . 

5.4. Apple 113 

Sinds OS 9 wordt de Chinese Language Kit (CLK) mee geleverd op de installatie CD. De 

CLK werkt op systemen vanaf System 7.1.x. De CLK bevat Worldscript software dat gebruik 

maakt van scripts. Dergelijke scripts ondersteunen de codering van (een) bepaalde 

karaktersets voor een specifieke taal. Ze bevatten ook instructies voor het behandelen van de 

tekst, sortering, tijdsformaat, nummers, … De CLK bestaat uit twee verschillende scripts, één 

voor traditioneel Chinees en één voor vereenvoudigd Chinees. Ze kunnen apart of samen 

geïnstalleerd worden (en ook samen met andere talen). De CLK bevat ook verschillende 

invoermethodes en lettertypes. 

Vanaf MacOS 9.2 wordt er Unicode gebruikt. OSX biedt ondersteuning voor Unicode 

versie 3.1, maar veel hangt natuurlijk af van de programma’s die gebruikt worden. Het is 

mogelijk om OSX volledig Chinees gelokaliseerd te maken door middel van het aanpassen 

108 http://www.thestandard.com/article/0,1902,27670,00.html?printer_friendly= 

109 http://news.cnet.com/news/0-1003-200-5193409.html 

110 http://www.casbic.ac.cn 

111 http://www.ios.ac.cn 

112 http://www.wto.org 

113 http://www.apple.com 


van de instellingen. Preferences > Language > International, verplaats Traditional Chinese 

of Simplified Chinese naar de top van de lijst en start opnieuw op. 

5.5. Chinees en programmeertalen 

ß C (++) 

C en C++ zijn één van de meest gebruikte programmeertalen en er bestaan dan ook 

een hele reeks compilers voor. Verschillende andere talen zijn gebaseerd op C (++). 

Indien men 16bit characters wil gebruiken dan moeten ze gedefinieerd worden als 

wchar_t, indien niet dan wordt de standaard char en dus 8bit karakter codering gebruikt. 

Conversie van multiple byte strings naar ‘wide character strings’ gebeurt via mbsrtowcs(). 

Het omgekeerde proces gebeurt via wcsrtombs(). Voor aparte karakters bestaan de 

respectievelijke commando’s mbrtowc() en wcrtomb(). 

ß JAVA 

Java komt met klasses genaamd InputStream Reader en OutputStream Writer die 

lokale coderingen naar Unicode en omgekeerd converteren. Big5 en GB2312 zijn daarbij 

ondersteund. Dus bij het compileren van de broncode moet men de codering meegeven. Voor 

een code met Big5 moet volgende code worden ingegeven: javac -encoding big5 

sourcefile.java. Daarnaast kan ook native2ascii dat samen met de JDK geleverd wordt 

gebruikt worden om de verschillende coderingen te converteren naar de \uxxxx unicode 

escapes dat Java kan verwerken. 

Java 2 laat toe om de lettertypes van op de machine te gebruiken en dus ook eventuele 

Chinese lettertypes. Voor de introductie van Swing kon Java geen Chinees weergeven buiten 

op Chinese besturingssystemen. Met Swing kan nu Chinees worden weergegeven in eender 

welke component op voorwaarde dat er lettertypes zijn geïnstalleerd die Chinees kunnen 

weergeven. Daarnaast werd in Java 1.3 de Input Method Engine SPI geïntroduceerd waardoor 

er ook platform onafhankelijke input kan gebeuren. Ervoor maakte Java gebruik van de 

invoermethodes van het besturingssysteem. 


ß XML (eXtended Markup Language) 

De XML processor werkt intern met UTF-8 of UTF-16 maar XML kan in principe met 

eender welke karakterset gecodeerd zijn. Buiten de processor kan de codering dus gekozen 

worden, maar binnen de processor wordt gebruik gemaakt van ISO10646. Elk bestand moet 

dan wel voorafgegaan worden door een XML-declaratie die er als volgt uit ziet: 114 

 

De gekozen coded characterset moet in deze XML-declaratie gedefinieerd worden en kan dus 

nergens anders gekozen worden. Wel is het mogelijk om bij ieder element een taal te 

definiëren, met als gevolg dat: 

some text 

some text 

perfect na elkaar in hetzelfde document kunnen komen. 

ß XHTML 

Bij XHTML moeten zowel de HTML als de XML regel gebruikt worden. Indien het 

document als HTML wordt gebruikt, dan wordt de meta tag gebruikt. Indien het document als 

XML wordt gebruikt, dan wordt de XML declaratie gebruikt. 

 

 

ß PHP (Hypertext Preprocessor) 115 

PHP is 8-bit clean en laat aldus UTF-8 gecodeerde tekst ongewijzigd door. Er bestaat 

een module, mbstring genaamd, die ondersteuning biedt voor ‘mulitple-byte’ coderingen. Er 

bestaan op dit ogenblik ongeveer 40 functies voor deze module. 

ß FLASH 116 

Flash 5 ondersteunt het gebruik van Chinese lettertypes. Flash MX ondersteunt 

Unicode en het verticaal weergeven van tekst. 

114 http://www.ascc.net/xml 

115 http://www.php.net 

116 http://www.macromedia.com/software/flash/ 


ß Perl 117 

Perl had geen ingebouwde ondersteuning voor multiple-byte karakters. Daarom werd 

er JPerl ontwikkeld, een aangepaste Japanse versie van Perl. Er zijn wel technieken om 

multiple-byte te ondersteunen. Deze maken uitvoerig gebruik van ‘regular expressions’. Twee 

van dergelijke technieken zijn anchoring en trapping. Vanaf Perl 5.6 ondersteunt Perl 

Unicode, zelfs intern werkt het met Unicode. Verder werkt Perl 5.6 niet meer byte per byte 

maar karakter per karakter. 

5.6. Chinees en databases 

Veel hangt af van hoe men de data uit de database haalt. Indien data uit de databank 

gehaald wordt dan moet ook de taal of het programma dat daarvoor gebruikt wordt in staat 

zijn om Chinese karakters weer te geven. 

ß MySQL 118 

MySQL heeft UTF-8 ondersteuning. Veel van de ondersteuning hangt echter af van de 

configuratie van de database. De standaard karakterset is ISO 8859-1 maar men kan 

ook ./configure --with-charset= gebruiken om de standaard karakterset te veranderen, voor 

Chinees zijn de ondersteunde karaktersets gb2312, gbk en big5. Wil men verschillende 

karaktersets ondersteunen dan moet MySQL geconfigureerd worden met --with-extra- 

charset=LIST, waarbij list vervangen moet worden door alle karaktersets die men wil 

ondersteunen gescheiden door een spatie. Men kan ook all typen om ze allemaal toe te voegen, 

of complex om alle karaktersets toe te voegen die niet dynamisch geladen kunnen worden. 

Een uitgebreide configuratie zou er dus als volgt kunnen uitzien: --with-charset=charset -- 

with-extra-charset=list | complex | all. 

Als Chinese data wordt gebruikt met de Big5 codering dan moeten de kolommen die 

Chinese karakters bevatten op binary geplaast worden. 

117 http://www.perl.com & http://www.cpan.org 

118 http://www.mysql.org 


ß Microsoft SQL Server 

Microsoft’s SQL heeft Unicode ondersteuning sinds MS SQL Server 7.0. Nchar(n) 

wordt gebruikt voor vaste-lengte unicode data, de opslagplaats is dan twee maal n bytes. 

Nvarchar(n) wordt gebruikt voor variabele lengte unicode data, de opslagplaats in bytes is 

dan twee maal de lengte van n. Beide data types kunnen slechts een maximum lengte van 

4 000 karakters hebben. Het ntext data type wordt ook gebruikte voor variabele lengte 

unicode data maar met een maximum lengte van 2^30 –1 karakters (1 073 741 823). 

ß Oracle Oracle 9i 

Oracle biedt reeds ondersteuning voor Unicode sinds Oracle7. Er bestaan verschillende 

statements om databases en hun data naar unicode te converteren. Ook hier worden nchar en 

nvarchar2 ondersteunt. Bij nchar wordt de vaste lengte meegegeven van de data, het 

maximum is 2 000 bytes. Bij nvarchar2 moet de maximum variable lengte worden 

meegegeven, het maximum is vastgelegd op 4 000 bytes. 


6. Het Chinese internet 

Om symbolen of karakters weer te geven kan het gewoon getypt worden (♥), kan de naam 

meegegeven worden (&hearts;) ofwel typt men de decimale waarde (♥) of de 

hexadecimale waarde (♥). 

Bij het opmaken van HTML bestanden kan de karaktercodering meegegeven worden, dit 

gebeurt aan de hand van een META tag die in de HEAD-tag kan geplaatst worden. 

De browser gebruikt deze informatie om de pagina correct weer te geven. De META tag 

voor de Big5 karakterset ziet er als volgt uit: 

. 

Voor de Chinese taal kan dat ook nog gb2312, gbk, gb18030, hz, big5-hkscs, euc-tw of utf-8 

zijn. Daarnaast bestaat er ook sinds HTML 4 een ‘taal-attribuut’ dus in een tag kan het 

attribuut lang meegegeven worden. Taalinformatie wordt overgeërfd in de 

documenthiërarchie. 

Bijvoorbeeld: some English text 

Er kan ook nog een landelijke variant opgegeven worden zoals: 

some American English text . 

De taalcodes zijn gedefinieerd in ISO 639:1988 Code for representation of names of 

languages, de landcodes in ISO 3166:1988 Code for the representation of names of countries 

en RFC 3066 Tags for the Identification of Languages geeft meer uitleg over het gebruik 

ervan. Deze taal-attribuut kan enkel slaan op talen gesproken (geschreven, … ) door mensen, 

computertalen komen dus niet in aanmerking. 

Sinds 31 mei 2001 is de Ruby Annotation 119 een W3C aanbeveling. RUBY zijn de kleine 

karakters die vooral bij Oost-Aziatische talen gebruikt worden om de uitspraak (en/of 

betekenis) weer te geven van de karakters waar ze bij horen. Dit gebeurt aan de hand van een 

speciale tag, namelijk daarbinnen zet men de tekst en wat er 

boven komt, komt tussen . Ruby is ook opgenomen in CSS 3 (dit is nog maar 

slechts een working draft), wat de mogelijkheden met RUBY in browsers nog vergroot. 120 

119 http://www.w3.org/TR/ruby/ 

120 http://www.w3.org/TR/css3-ruby/ 


Microsoft 121 Internet Explorer 5.0 en hoger ondersteunen RUBY. Netscape ondersteunt 

RUBY echter niet. 

De onderstaande HTML code geeft Figuur 11 als resultaat in een browser die de ruby tag 

ondersteunt. 

新幹線しんかんせん 

Figuur 11 Ruby 

Het is mogelijk om tekst vertikaal weer te geven, wat zeer handig is voor traditionele 

teksten. Dit gebeurt aan de hand van de volgende definitie in de stijltag: writing-mode:tb-rl. 

De tekst begint dan rechts bovenaan. Westerse letters worden dan wel 90 graden gedraaid. 

Netscape ondersteunt dit echter niet. Vanaf Microsoft Internet Explorer 5.5 wordt deze functie 

wel ondersteund. 

Indien de computer waarop gewerkt wordt geen inputmethode bevat, kan er nog steeds 

gebruik gemaakt worden van online invoermethodes. Het op javascript gebaseerde SIMON 

(Sino Input Method ONline) 122 is een heel mooi voorbeeld hiervan. 

Volgens het halfjaarlijkse rapport van CNNIC (China Internet Network Information 

Center 中国互联网络信息中心 zhōngguó hùlián wǎnglù xìnxízhōngxīn) 123 waren er in 

januari van dit jaar 33,7 miljoen internet gebruikers, dit is slechts 2,81% van de bevolking. De 

meerderheid van de internetgebruikers zijn mannen (60%), en van jonge leeftijd (36,2% is 

tussen 18 en 24 jaar oud en 16,3% is tussen 25 en 30 jaar oud). In 2001 werd het aantal 

internetgebruikers in China rond de 26,5 miljoen geschat. In 1999 was dat nog 8,9 miljoen. 

Een evolutionair beeld kan men terugvinden in Tabel 42 op pagina 85. Volgens TWNIC 

(Taiwan Network Information Center 台灣網路信息㆗心 táiwān wǎnglù xìnxízhōngxīn) 124 

waren er eind vorig jaar 7,8 miljoen internet gebruikers in Taiwan, dit is 35,45% van de 

bevolking. Een evolutionair beeld kan men terugvinden in Tabel 43 op pagina 85. 

121 http://msdn.microsoft.com/workshop/Author/dhtml/reference/objects/RUBY.asp 

122 http://www.simon.tw.st 

123 http://www.cnnic.net.cn. Het profiel van deze organisatie evenals van andere organisaties en ministeries is 

terug te vinden op http://www.chinaonline.com/refer/ministry_profiles/ministry_profiles.asp 

124 http://www.twnic.net.tw 


De Chinese regering heeft een “Chinese firewall” gecreëerd. Providers en internetcafés 

moeten software installeren (Internet Police 110). Alle websites die subversieve of 

pornografische inhoud hebben moeten geblokkeerd worden. De Chinese regering voegt de 

daad bij het woord en sluit internetcafés die niet voldoen aan de eisen. Verder moeten de 

ISP’s het e-mailverkeer laten screenen en worden ze verantwoordelijk gesteld voor het 

verwijderen van ‘subversieve’ inhoud (CNN.com, 18 januari 2002). De ISP’s moeten een 

licentie aanvragen om BBS (Bulletin Board Service) te mogen draaien, de overheid en de 

ISP’s houden toezicht op de inhoud die er wordt gepubliceerd, ISP’s verwijderen regelmatig 

inhoud die de regering of de politiek van de regering in vraag stelt. Er zijn zelfs gevallen waar 

de auteur van het bericht vervolgd en veroordeeld werd. (CNN.com, 27 juli 2001). In 1999 

werd de Shanghainees Li Hai veroordeeld tot twee jaar gevangenisstraf omdat hij de redactie 

van VIP Reference, een internetkrant van Chinese pro-democratische-activisten die over de 

grens wonen, 30 000 e-mailadressen van computergebruikers in de Volksrepubliek ter 

beschikking had gesteld. 

Buitenlandse bedrijven helpen maar al te graag mee met de regering om toch maar die 

contracten in de wacht te slepen. Zo heeft Cisco zijn hardware aangepast voor de Chinese 

markt (dit heeft het voor geen enkel ander land willen doen). Dit houdt in dat de firewall alle 

buitenlandse websites blokkeert met een politiek incorrecte inhoud en ze vervangt door het 

bericht “Operation timed out”. Verder wordt de toegang tot proxysservers zoveel mogelijk 

geblokkeerd. 

Veel geruchten doen de ronde dat de eerste versie van de ‘Code Red’ worm zijn oorsprong 

zou hebben in China en dat het daarom enkel niet-Chinese MS Windows versies aantast en 

een DoS (Denial of Service) aanval uitvoert op het Witte Huis. Het zou ontwikkeld zijn als 

reactie op een incident waarbij een Amerikaans spionage vliegtuig door de Chinezen werd 

neergehaald. Code Red II en Code Red III zijn niet langer gericht op het Witte Huis en 

zouden eigenlijk volledig nieuwe wormen zijn die hun oorsprong niet in China vinden 

(CNN.com, 8 augustus 2001). 

Volgens het WIPO 125 (World Intellectual Property Organisation) zal het Chinees het 

Engels verdringen als meest gebruikte taal op het internet. 

125 http://www.wipo.org 


Op het internet zijn er verschillende diensten die een webpagina of een invoer vertalen 

naar of vanuit het Chinees. Als men naar het Chinees vertaalt kan men vaak een keuze maken 

uit traditioneel Chinees, vereenvoudigd Chinees, en foto’s van karakters (eventueel met keuze 

tussen traditioneel of vereenvoudigd). Bij deze laatste keuze wordt de tekst niet als tekst 

weergegeven maar ieder karakter wordt als afzonderlijke foto weergegeven. Verder zijn er 

ook diensten die er ook nog de uitspraak bij voegen. Een voorbeeld van een dergelijke 

software is Gist van Alis Software 126 , hun technologie zit onder andere verwerkt in Netscape 

6 en in Copernic 2000. 

Soms worden er meerdere diensten aangeboden zoals e-mail, versturen van e-kaarten, 

chatten, etc. Een voorbeeld hiervan is WorldLingo 127 . Computervertalingen voldoen echter 

vaak nog niet aan de verwachtingen. Ook IBM is actief op dit gebied met zijn WebSphere 

Translation Server 128 , het kan naar het Chinees vertalen maar niet omgekeerd. Het product is 

gericht op de e-commerce markt en heeft een zeer hoog prijskaartje. De VN heeft een project 

lopen aan de United Nations University met de naam Universal Networking Language 129 . 

126 http://www.alis.com/ 

127 http://www.worldlingo.com/ 

128 http://www-3.ibm.com/software/speech/enterprise/ep_8.html 

129 http://www.unl.ias.unu.edu/ 


7. Appendix 

7.1. Bibliografie 

- Baeten M, E-China, The Electronic Economy of China, licenciaatsverhandeling, 

KULeuven, 2000-2001. 

- Chinees wordt voertaal op internet, Metro, nr.251, 11 december 2001. 

- De Rijck K., Wetenschapswinkel. Chinees, De Standaard, 24 september 2001. 

- Dedene & Herroelen, Inleiding tot de informatica, Deel A, cursus gedoceerd in het kader 

van het vak ‘Inleiding tot de informatica’, KULeuven, Wouters, Leuven, 2001. 

- ECMA, 7-Bit coded Character Set, ECMA-6, 6 th edition, 1991. 

- ECMA, 8-Bit coded Character Set, Structure and Rules, ECMA-43, 3 rd edition, 1991. 

- ECMA, Character Code Structure and Extension Techniques, ECMA-35, 6 th edition, 

1994. 

- Gutmann E., Who Lost China’s Internet, With U.S. assistance, it will remain a tool of the 

Chinese government, not a force for democracy, The Weekly Standard, 25 februari 

2002. 130 

- Halpern J. & Kerman J., The Pitfalls and Complexities of Chinese to Chinese 

Conversion, Fourteenth International Unicode Conference, Boston, 1999. 131 

- Harvey F., FT. Het Internet is overbevolkt, De Standaard, 11 december 2000. 

- Lunde K., CJKV Information Processing; Chinese, Japanese, Korean & Vietnamese 

Computing, O’Reilly & Associates, Sebastopol, 1999. 

- Mackay A., Character-building, Nature 410, 1 maart 2001, pag. 19. 

- Meeus R., IBM maakt instantvertaler voor internet, De Morgen, 15 januari 2001. 

- Mulders J-P., VN sleutelen aan supervertaalmachine, De Morgen, 25 november 1998. 

- Rdg, CURSIEF. China bouwt nieuwe Grote Muur, De Standaard, 20 maart 2000. 

- Tanret E., De mogelijkheden van ICT voor het leren van Engels in China, 

licenciaatsverhandeling, KULeuven, 1999-2000. 

- The Unicode Consortium, The Unicode Standard, Version 3.0, MA, Addison-Wesley, 

2000. 

- Variant Form of Chinese Character Code for Information Interchange, volume 2, 2 de 

editie, 1982. 

130 http://www.weeklystandard.com/content/public/articles/000/000/000/922dgmtd.asp 

131 http://www.cjk.org/cjk/c2c/c2centry.htm 


- Van Dale Groot woordenboek der Nederlandse taal, 12 de uitgave, Van Dale Lexicografie, 

Utrecht/Antwerpen, 1992. 

- Van der Linden F., Hoe Internet de Chinese Muur sloopt, De Morgen, 14 april 2001. 

- 戴庆厦许寿椿高喜奎, 中国各民族文字与计算机信息处理 (zhōngguó gèmínzú 

wénzì yú diànnǎo zīxùnchǔlǐ),中央民族学院出版社, 北京, 1991. 

- 兩岸常用㆗文資訊名詞對照表及兩岸㆗文資訊內碼對照轉碼表之編擬 (liǎng àn 

chángyòng zhōngwén zīxùn míngcí duìzhàobiǎo jí liǎng àn zhōngwén zīxùn nèimǎ 

duìzhǎo zhuànmǎbiǎo zhī biānnǐ), 行政院研究發展考核委員會, 1994. 

Request For Command (geordend volgens RFC-nummer) 

- Simonsen K.,Character Mnemonics & Character Sets, RFC 1345, June 1992. 

- Goldsmidt D. & M. Davis, UTF-7 A Mail-Safe Transformation Format of Unicode, RFC 

1642, July 1994. 

- Alvestrand H., Tags for the Identification of Languages, RFC 1766, March 1995. 

- Ohta M., Character Sets ISO-10646 and ISO 10646-J-1, RFC 1815, July 1995. 

- Wei Y., Zhang Y., Li J., Ding J. & Y. Jiang, ASCII Printable Characters-Based Chinese 

Character Encoding for Internet Messages, RFC 1842, August 1995. 

- Lee F., HZ - A Data Format for Exchanging Files of Arbitrarily Mixed Chinese and 

ASCII characters, RFC 1843, August 1995. 

- Zhu H., Hu D., Wang Z., Kao T., Chang W. & M. Crispin, Chinese Character Encoding 

for Internet Messages, RFC 1922, March 1996. 

- Goldsmidt D. & M. Davis, UTF-7 A Mail-Safe Transformation Format of Unicode, RFC 

2152, May 1997. 

- Freed N. & J. Postel, IANA Charset Registration Procedures, RFC 2278, January 1998. 

- Yergeau F., UTF-8, a transformation format of ISO 10646, RFC 2279, January 1998. 

- Whistler K. & G. Adams, Language Tagging in Unicode Plain Text, RFC 2482, January 

1999. 

- Alvestrand H., Tags for the Identification of Languages, RFC 3066, January 2001. 


7.2. Links 

Persoonlijke websites 

Brief History of Character Codes in North America, Europe, and East Asia by Steven Stearle 

http://tronweb.super-nova.co.jp/characcodehist.html 

Chih-Hao Tsai’s Technology Page by Chih-Hao Tsai 

http://www.geocities.com/hao510/ 

Chinese Characters and Culture by Rick Harbaugh 

http://zhongwen.com 

Chinese Computer Terminology System by Hong Kong Computer Society 

http://ccts.cs.cuhk.edu.hk/ 

Chinese Computing by Wei-Chang Shann 

http://www.math.ncu.edu.tw/~shann/Chinese/Welcome.html 

Chinese Mac Home 

http://www.yale.edu/chinesemac/index.html 

CJK Quick Start by Gyula Zsigri 

http://www.geocities.com/fontboard/cjk 

CJKV Information Processing by Ken Lunde 

http://www.oreilly.com/~lunde/cjkv-ip.html 

Czyborra.com by Roman Czyborra 

http://www.czyborra.com 

Digital UNIX Technical Reference for Using Chinese Features 

http://www.tru64unix.compaq.com/docs/base_doc/DOCUMENTATION/V40F_HTM 

L/SUPPDOCS/CHINADOC/CHINAPRF.HTM 

Global Design Home Page 

http://www.xerox-emea.com/globaldesign/index.htm 

History and prospect of Chinese Romanization by Bemjamin AO 

http://www.whiteclouds.com/iclc/cliej/cl4ao.htm 

Introduction to the Chinese language and its Processing by Sylvia Wong 

http://www.fi.muni.cz/usr/wong/teaching/chinese/notes/notes.html 

On-line Chinese Tools by Erik Peterson 

http://www.mandarintools.com 

Sapienti’s homepage by Dylan W.H.Sung 

http://www.sungwh.freeserve.co.uk/index.html 


The Complete Guide to Chinese Language Computing by Erik Peterson 

http://www.chinesecomputing.com 

Zvon – RFC 1922 

http://zvon.org/tmRFC/RFC1922/Output/index.html 

㆗文輸入法世界 

http://input.foruto.com 

漢字處理 

http://freebsd.sinica.edu.tw/~statue/hanzi/ 

Organisaties en officiële instanties 

China Internet Network Information Center 

http://www.cnnic.net.cn/ 

Chinese, Japanese and Korean (CJK) Dictionary Data 

http://www.cjk.org 

CMEX ㆗推會 

http://www.cmex.org.tw/ 

Internet RFC/FYI/STD/BCP Archives 

http://www.faqs.org/rfcs/ 

Taiwan Network Information Center 

http://www.twnic.net.tw 

The World Wide Web Consortium 

http://www.w3c.org 

Unicode Home Page 

http://www.unicode.org 

教育部資訊網 

http://www.edu.tw/ 

國語會 

http://www.edu.tw/mandr/ 


7.3. Tabellen 

Tabel 37 Conversietabel bopomofo - Pinyin - wade-giles 

Bopomofo Pinyin Wade-giles 

ㄅ b p 

ㄆ p p' 

ㄇ m m 

ㄈ f f 

ㄉ d t 

ㄊ t t' 

ㄋ n n 

ㄌ l l 

ㄍ g k 

ㄎ k k' 

ㄏ h h 

ㄐ j ch 

ㄑ q ch' 

ㄒ x hs 

ㄓ zh ch 

ㄔ ch ch' 

ㄕ sh sh 

ㄖ r j 

ㄗ z ts/tz 

ㄘ c ts'/tz' 

ㄙ s s/ss/sz 

ㄧ i i 

ㄨ u wu 

ㄩ ü yü 

ㄚ a a 

ㄛ o o 

ㄜ e e 

ㄝ ie ieh 

ㄞ ai ai 

ㄟ ei ei 

ㄠ ao ao 

ㄡ ou ou 

ㄢ an an 

ㄣ en en 

ㄤ ang ang 

ㄥ eng eng 

ㄦ er erh 


Tabel 38 Designator sequences gebruikt in ISO-2022-CN en ISO-2022-CN-EXT 

Karakterset Decimaal Hexadecimaal Grafisch (ASCII) 

GB 2312-80 27 36 41 65 1B 24 29 41 $ ) A 

GB 7589-87 27 36 42 X 1B 24 2A X $ * X 

GB 7590-87 27 36 43 X 1B 24 2B X $ + X 

GB 12345-90 27 36 41 X 1B 24 29 X $ ) X 

GB 13131-91 27 36 42 X 1B 24 2A X $ * X 

GB 13132-91 27 36 43 X 1B 24 2B X $ + X 

ISO-IR-165 27 36 41 69 1B 24 29 45 $ ) E 

CNS 11643-1992 Niveau 1 27 36 41 71 1B 24 29 47 $ ) G 

CNS 11643-1992 Niveau 2 27 36 42 72 1B 24 2A 48 $ * H 

CNS 11643-1992 Niveau 3 27 36 43 73 1B 24 2B 49 $ + I 

CNS 11643-1992 Niveau 4 27 36 43 74 1B 24 2B 4A $ + J 

CNS 11643-1992 Niveau 5 27 36 43 75 1B 24 2B 4B $ + K 

CNS 11643-1992 Niveau 6 27 36 43 76 1B 24 2B 4C $ + L 

CNS 11643-1992 Niveau 7 27 36 43 77 1B 24 2B 4D $ + M 

De karaktersets met een X zijn nog niet toegewezen en geregistreerd en kunnen dus ook nog 

niet gebruikt worden. Zie ook http://www.itscj.ipsj.or.jp/ISO-IR/ 

Tabel 39 Single shift sequences en shifting characters gebruikt in ISO-2022-CN en ISO-2022-CN-EXT 

Decimaal Hexadecimaal Grafisch (ASCII) 

SS2 27 78 1B 4E N 

SS3 27 79 1B 4F O 

One byte shift 15 0F 

Two byte shift 14 0E 

Tabel 40 EUC-TW 

0 – 7E → ASCII 

A1 – FE A1 – FE A1 – FE → CNS 11643 niveau 1 

SS2 A2 A1 – FE A1 – FE → CNS 11643 niveau 2 








SS2 AA A1 – FE A1 – FE → CNS 11643 niveau 10 

SS2 AB A1 – FE A1 – FE → CNS 11643 niveau 11 

SS2 AC A1 – FE A1 – FE → CNS 11643 niveau 12 

SS2 AD A1 – FE A1 – FE → CNS 11643 niveau 13 

SS2 AE A1 – FE A1 – FE → CNS 11643 niveau 14 

SS2 AF A1 – FE A1 – FE → CNS 11643 niveau 15 

SS2 B0 A1 – FE A1 – FE → CNS 11643 niveau 16 


Tabel 41 Toewijzing van de toetsen voor invoer met de Cangjie methode 

Alphabets Stroke 

Types 

Correspondences 

Chinese 

A 日 ‘A’ looks like ‘日’ 

B 月 ‘B’ looks like ‘月’ 

C 金 ‘C’ looks like a gold (i.e. 金) ring on a girl’s finger 

D 木 

If a wooden (i.e. 木) trunk is cut into two halves vertically, 

each half looks like a ‘D’ 

E 水 ‘E’ looks like the 3 main branches of the Yangtze river 

F 火 ‘F’ is the first character of the word ‘fire’ (i.e. 火) 

G 土 ‘G’ is the first character of the word ‘ground’ (i.e. 土) 

H 斜竹 

The first stroke of ‘H’ looks like a slanted stroke (i.e. 斜) in 

Chinese 

I 點戈 There is a dot (i.e. 點) on ‘i’ 

J 交十 

The script writing of ‘J’ looks like a cross (i.e. 交) road on a 

highway 

K 叉大 

‘K’ looks like a cross road with 3 branching routes (i.e. ㆔叉 

路, literally three fork road) 

L 縱 ㆗ ‘l’ looks like a vertical (i.e. 縱) line 

M 橫 ㆒ 

The script writing of ‘m’ looks like a crab walking 

horizontally (i.e. 橫) 

N 鉤弓 ‘N’ looks like a hook (i.e. 鉤) on the wall 

O ㆟ ‘O’ looks like a human (i.e. ㆟) head 

A human heart (i.e. 心) is situated to the left of one's body. 

P 心 When someone stands opposite you, their heart would have 

the position like the arc of a ‘P’ 

Q 手 ‘Q’ looks like a human’s head with a hand (i.e. 手) 

R 口 ‘R’ looks like a mouth (i.e. 口) with a mustache 

S 側尸 ‘S’ looks like a side view of a slim girl 

T 並廿 

‘T’ looks like two people having their shoulder next to each 

other (i.e. 肩並肩) 

U 仰山 

‘U’ looks like a valley between two hills (i.e. 山). Once you 

are standing in the valley, you need to look up (i.e. 仰望) 

V 妞女 

‘V’ looks like a necklace with a pendant on a girl’s (i.e. 女) 

neck 

W 方田 ‘田’ looks like a window, which starts with the character ‘W’ 

Y 卜 

‘Y’ looks like the instruments for Chinese fortune telling 

(i.e. 占卜) 


Tabel 42 Internetgebruik in China 

Internet gebruikers Computer Hosts Bandbreedte 

(x 10 000) (x 10 000) (M) 

1997.10 62 30 25 

1998.7 118 54 85 

1999.1 210 75 143 

1999.7 400 146 241 

2000.1 890 350 351 

2000.7 1 690 650 1 234 

2001.1 2 250 892 2 799 

2001.7 2 650 1 002 3 257 

2002.1 3 370 1 254 7 598 

Deze tabel is samengesteld uit verschillende tabellen, omwille van het overzicht zijn de getallen afgerond. Het 

volledig rapport is terug te vinden op http://www.cnnic.net.cn/develst/rep200201-e.shtml 

Tabel 43 Internetgebruik in Taiwan 

Internet gebruikers Internet Hosts Bandbreedte 

(x 10 000) (x 10 000) (Mbps) 

1996/12 60 

1997/06 126 

1997/12 166 

1998/06 217 

1998/12 301 

1999/06 402 

1999/12 480 

2000/06 560 78 

2000/12 627 113 2.136 

2001/06 721 197 4.153 

2001/12 782 271 7.228 


Tabel 44 Blokken in Unicode 3.2.0 

Taal Range 

Basic Latin 0000 – 007F 

Latin-1 Supplement 0080 – 00FF 

Latin Extended-A 0100 – 017F 

Latin Extended-B 0180 – 024F 

IPA Extensions 0250 – 02AF 

Spacing Modifier Letters 02B0 – 02FF 

Combining Diacritical Marks 0300 – 036F 

Greek and Coptic 0370 – 03FF 

Cyrillic 0400 – 04FF 

Cyrillic Supplementary 0500 – 052F 

Armenian 0530 – 058F 

Hebrew 0590 – 05FF 

Arabic 0600 – 06FF 

Syriac 0700 – 074F 

Thaana 0780 – 07BF 

Devanagari 0900 – 097F 

Bengali 0980 – 09FF 

Gurmukhi 0A00 – 0A7F 

Gujarati 0A80 – 0AFF 

Oriya 0B00 – 0B7F 

Tamil 0B80 – 0BFF 

Telugu 0C00 – 0C7F 

Kannada 0C80 – 0CFF 

Malayalam 0D00 – 0D7F 

Sinhala 0D80 – 0DFF 

Thai 0E00 – 0E7F 

Lao 0E80 – 0EFF 

Tibetan 0F00 – 0FFF 

Myanmar 1000 – 109F 

Georgian 10A0 – 10FF 

Hangul Jamo 1100 – 11FF 

Ethiopic 1200 – 137F 

Cherokee 13A0 – 13FF 

Unified Canadian Aboriginal Syllabics 1400 – 167F 

Ogham 1680 – 169F 

Runic 16A0 – 16FF 

Tagalog 1700 – 171F 

Hanunoo 1720 – 173F 

Buhid 1740 – 175F 

Tagbanwa 1760 – 177F 

Khmer 1780 – 17FF 

Mongolian 1800 – 18AF 

Latin Extended Additional 1E00 – 1EFF 

Greek Extended 1F00 – 1FFF 

General Punctuation 2000 – 206F 

Superscripts and Subscripts 2070 – 209F 

Currency Symbols 20A0 – 20CF 


Taal Range 

Combining Diacritical Marks for Symbols 20D0 – 20FF 

Letterlike Symbols 2100 – 214F 

Number Forms 2150 – 218F 

Arrows 2190 – 21FF 

Mathematical Operators 2200 – 22FF 

Miscellaneous Technical 2300 – 23FF 

Control Pictures 2400 – 243F 

Optical Character Recognition 2440 – 245F 

Enclosed Alphanumerics 2460 – 24FF 

Box Drawing 2500 – 257F 

Block Elements 2580 – 259F 

Geometric Shapes 25A0 – 25FF 

Miscellaneous Symbols 2600 – 26FF 

Dingbats 2700 – 27BF 

Miscellaneous Mathematical Symbols-A 27C0 – 27EF 

Supplemental Arrows-A 27F0 – 27FF 

Braille Patterns 2800 – 28FF 

Supplemental Arrows-B 2900 – 297F 

Miscellaneous Mathematical Symbols-B 2980 – 29FF 

Supplemental Mathematical Operators 2A00 – 2AFF 

CJK Radicals Supplement 2E80 – 2EFF 

Kangxi Radicals 2F00 – 2FDF 

Ideographic Description Characters 2FF0 – 2FFF 

CJK Symbols and Punctuation 3000 – 303F 

Hiragana 3040 – 309F 

Katakana 30A0 – 30FF 

Bopomofo 3100 – 312F 

Hangul Compatibility Jamo 3130 – 318F 

Kanbun 3190 – 319F 

Bopomofo Extended 31A0 – 31BF 

Katakana Phonetic Extensions 31F0 – 31FF 

Enclosed CJK Letters and Months 3200 – 32FF 

CJK Compatibility 3300 – 33FF 

CJK Unified Ideographs Extension A 3400 – 4DBF 

CJK Unified Ideographs 4E00 – 9FFF 

Yi Syllables A000 – A48F 

Yi Radicals A490 – A4CF 

Hangul Syllables AC00 – D7AF 

High Surrogates D800 – DB7F 

High Private Use Surrogates DB80 – DBFF 

Low Surrogates DC00 – DFFF 

Private Use Area E000 – F8FF 

CJK Compatibility Ideographs F900 – FAFF 

Alphabetic Presentation Forms FB00 – FB4F 


Taal Range 

Arabic Presentation Forms-A FB50 – FDFF 

Variation Selectors FE00 – FE0F 

Combining Half Marks FE20 – FE2F 

CJK Compatibility Forms FE30 – FE4F 

Small Form Variants FE50 – FE6F 

Arabic Presentation Forms-B FE70 – FEFF 

Halfwidth and Fullwidth Forms FF00 – FFEF 

Specials FFF0 – FFFF 

Old Italic 10300 – 1032F 

Gothic 10330 – 1034F 

Deseret 10400 – 1044F 

Byzantine Musical Symbols 1D000 – 1D0FF 

Musical Symbols 1D100 – 1D1FF 

Mathematical Alphanumeric Symbols 1D400 – 1D7FF 

CJK Unified Ideographs Extension B 20000 – 2A6DF 

CJK Compatibility Ideographs Supplement 2F800 – 2FA1F 

Tags E0000 – E007F 

Supplementary Private Use Area-A F0000 – FFFFF 

Supplementary Private Use Area-B 100000 – 10FFFF 


7.4. Figuren 

Figuur 12 7-bit en 8-bit code tabel 

Figuur 13 Een Chinese 'typmachine' 


Figuur 14 Boshiamy invoermethode 


7.5. Dankbetuiging 

Speciale dank en waardering gaat uit naar mijn promotor professor Fred Truyen voor de 

constante motivatie die ik mocht ervaren. Eveneens mijn welgemeende dank voor professor 

Jan Engelen van het departement ESAT aan de KUL, en zijn assistenten voor de vele 

technische informatie en verbeteringen. Ook dank aan mijn professoren en medestudenten van 

Sinologie aan de K.U.Leuven voor de afgelopen jaren in voor- en tegenspoed. 

Heel veel dank gaat ook uit naar mijn ouders die me de kans gaven om deze opleiding te 

volgen, en me er steeds in gesteund hebben. Ook mijn broer Nicolas voor de uren werk en 

bergen aanvullingen en verbeteringen. En mijn broertje Justin en neef Brecht voor screenshots 

en controle. 

Verder wil ik ook nog Feike van de firma Spanninga danken voor het ter beschikking 

stellen van Dr.Eye en Microsoft Proofing Tools. 

En als laatste, maar zeker niet in het minst dank en groet ik mijn fantastisch lief Julie en 

mijn beste vrienden Stefaan en Thijs voor de ‘spirituele’ ondersteuning die ze mij gaven. 


Bijlage A: Selectie van National Standards in de PRC 132 

GB 1988-1980 

信息处理交换用的七位编码字符集 

GB/T 1988-1988 

信息技术信息交换用七位编码字符集 

Information technology--7-bit coded character set for information interchange 

GB 2311-1980 

信息处理交换用七位编码字符集的扩充方法 

GB/T 2311-1988 

信息处理七位和八位编码字符集代码扩充技术 

Information processing— ISO 7-bit and 8-bit coded character sets— Code extension techniques 

GB 2312-1980 

信息交换用汉字编码字符集基本集 

Code of Chinese graphic character set for information interchange--Primary set 

GB 2787-1981 

信息处理交换用七位编码字符集键盘的字母数字区布居 

Keyboard arrangement of the alphabetical area of 7-bit coded character set for information 

processing interchange 

GB/T 3911-1983 

信息处理用七位编码字符集控制字符的图形表示 

Graphical representations of the control characters of 7-bit coded character set for information 

processing 

GB/T 5007.1-1985 

信息交换用汉字 24×24 点阵字模集 

24×24 Dot matrix font set of chinese ideograms for information interchange 

GB/T 5007.2-1985 

信息交换用汉字 24×24 点阵字模数据集 

24×24 Dot matrix font data set of chinese ideograms for information interchange 

GB/T 5199.1-1985 



GB/T 5199.2-1985 

信息交换用汉字 15×16 点阵数据集 

15×16 Dot matrix font date set of chinese ideograms for information interchange 

GB 5261-1985 

文字和符号成形设备用的增?控制功能 

GB/T 5261-1994 

信息处理七位和八位编码字符集用的控制功能 

Information processing--Control functions for 7-bit and 8-bit coded character sets 

GB/T 6345.1-1986 



GB/T 6345.2-1986 

信息交换用汉字 32×32 点阵字模数据集 

32×32 Dot matrix font data set of chinese ideograms for information interchange 

132 Bron: http://www.cnaec.com.cn/guifan/02/L70-84.htm 


GB/T 7420-1987 

信息处理从信息处理交换用七位编码字符集中派生四位字符集的导则 

Information processing--Guide for the definition of 4-bit character sets derived from the 7-bit 

coded character set for information processing interchange 

GB/T 7422.1-1987 

信息交换用蒙古文 16×12、16×8、16×4 点阵字模集 

16×12, 16×8, 16×4 Dot matrix font set of mongolian characters for information interchange 

GB/T 7422.2-1987 

信息交换用蒙古文 16×12、16×8、16×4 点阵数据集 

16×12, 16×8, 16×4 Dot matrix data set of mongolian characters for information interchange 

GB/T 7513-1987 

汉字整字键盘盘面字排列 

GB/T 7514-1987 

信息处理交换用七位编码字符集与电报用五单位电码之间的转换 

Conversion between the 7-bit coded character set for information processing interchange and the 

5-unit code for the telegraph service 

GB/T 7589-1987 

信息交换用汉字编码字符集第二辅助集 

Code of Chinese ideograms set for information interchange--The 2nd supplementary set 

GB/T 7590-1987 

信息交换用汉字编码字符集第四辅助集 

Code of Chinese ideograms set for information interchange--The 4th supplementary set 

GB 8045-1987 

信息处理交换用蒙古文七位和八位编码图形字符集 

Mongolian 7-bit and 8-bit coded graphic character sets for information processing interchange 

GB/T 8046-1987 

信息处理交换用蒙古文字符集键盘的字母区布局 

Keyboard arrangement of the alphabetical area of Mongolian character set for information 

processing interchange 

GB/T 8565.1-1988 

信息处理文本通信用编码字符集第一部分总则 

Information processing--Coded character sets for text communication--Part 1: General 

introduction 

GB/T 8565.2-1988 

信息处理文本通信用编码字符集第二部分图形字符集 

Information processing--Coded character sets for text communication--Part 2: Graphic characters 

GB/T 8565.3-1988 

信息处理文本通信用编码字符集第三部分: 按页成象格式用控制功能 

Information processing--Coded character sets for text communication--Part 3: Control functions 

for page-image format 

GB/T 11383-1989 

信息处理信息交换用八位代码结构和编码规则 

Information processing--8-bit code for information interchange--Structure and rules for 

implementation 

GB/T 12034-1989 

信息交换用汉字 32×32 点阵仿宋体字模集及数据集 

32×32 Dot matrix Fangsongti font set and data set of Chinese ideograms for information 

interchange 


GB/T 12035-1989 

信息交换用汉字 32×32 点阵楷体字模集及数据集 

32×32 Dot matrix Kaiti font set and data set of Chinese ideograms for information interchange 

GB/T 12036-1989 

信息交换用汉字 32×32 点阵黑体字模集及数据集 

32×32 Dot matrix Heiti font set and data set of Chinese ideograms for information interchange 

GB/T 12037-1989 

信息交换用汉字 36×36 点阵宋体字模集及数据集 

36×36 Dot matrix Songti font set and data set of Chinese ideograms for information interchange 

GB/T 12038-1989 



interchange 

GB/T 12039-1989 


36×36 Dot matrix Kaiti font set and data set of Chinese ideograms for information 

interchange 

GB/T 12040-1989 


36×36 Dot matrix Heiti font set and data set of Chinese ideograms for information interchange 

GB/T 12041-1989 

信息交换用汉字 48×48 点阵宋体字模集及数据集 

48×48 Dot matrix Songti font set and data set of Chinese ideograms for information interchange 

GB/T 12042-1989 



interchange 

GB/T 12043-1989 


48×48 Dot matrix Kaiti font set and data set of Chinese ideograms for information interchange 

GB/T 12044-1989 


48×48 Dot matrix Heiti font set and data set of Chinese ideograms for information 

interchange 

GB 12050-1989 

信息处理信息交换用维吾尔文编码图形字符集 

Information processing— Uighur coded graphic character sets for information interchange 

GB 12052-1989 

信息交换用朝鲜文字编码字符集 

Korean character coded character set for information interchange 

GB/T 12053-1989 

光学识别用字母数字字符集第一部分: OCR-A 字符集印刷图象的形状和尺寸 

Alphanumeric character sets for optical recognition — Part 1: Character set OCR-A— Shapes and 

dimensions of the printed image 

GB/T 12054-1989 

数据处理转义序列的登记规程 

Data processing--Procedure for registration of escape sequences 

GB/T 12200.1-1990 

汉语信息处理词汇 01 部分: 基本术语 

Chinese information processing— Vocabulary— Part 01: Fundamental terms 


GB/T 12200.2-1994 

汉语信息处理词汇 02 部分: 汉语和汉字 

Chinese information processing--Vocabulary--Part 02: Chinese and Chinese character 

GB/T 12345-1990 

信息交换用汉字编码字符集辅助集 

Code of Chinese ideogram set for information interchange supplementary set 

GB/T 12508-1990 

光学识别用字母数字字符集第二部分: OCR-B 字符集印刷图象的形状和尺寸 

Alphanumeric character sets for optical recognition— Part 2: Character set OCR-B— Shapes and 

dimensions of the printed image 

GB 13000.1-1993 

信息技术通用多八位编码字符集(UCS) 第一部分:体系结构与基本多文种平面 

Information technology--Universal multiple--Octet coded character set(UCS)--Part 1: 

Architecture and basic multilingual plane 

GB 13131-1991 

信息交换用汉字编码字符集第三辅助集 

Code of Chinese ideogram set for information interchange 3rd supplementary set 

GB 13132-1991 

信息交换用汉字编码字符集第五辅助集 

Code of Chinese ideogram set for information interchange 5th supplementary set 

GB 13134-1991 

信息交换用彝文编码字符集 

Yi coded character set for information interchange 

GB/T 13135-1991 

信息交换用彝文字符 15×16 点阵字模集及数据集 

15×16 Dot matrix font set and data set of Yi characters for information interchange 

GB/T 13141-1991 

书目信息交换用希腊字母编码字符集 

Greek alphabet coded character set for bibliographic information interchange 

GB/T 13142-1991 

书目信息交换用拉丁字母代码字符扩充集 

Extension of the Latin alphabet coded character set for bibliographic information interchange 

GB/T 13715-1992 

信息处理用现代汉语分词规范 

Contemporary Chinese language word segmentation specification for information processing 

GB/T 15189-1994 

DOS 中文信息处理系统接口规范 

Specification of DOS Chinese information processing system interface 

GB/T 15273.1-1994 

信息处理八位单字节编码图形字符集第一部分: 拉丁字母一 

Information processing--8-bit single-byte coded graphic character sets--Part 1: Latin 

alphabet No.1 

GB/T 15273.2-1995 

信息处理八位单字节编码图形字符集第二部分: 拉丁字母二 

Information processing--8-bit single-byte coded graphc character sets--Part 2: Latin alphabet 

No.2 

GB/T 15273.3-1995 

信息处理八位单字节编码图形字符集第三部分: 拉丁字母三 


No.3 


GB/T 15273.4-1995 

信息处理八位单字节编码图形字符集第四部分: 拉丁字母四 


No.4 

GB/T 15273.7-1996 

信息处理八位单字节编码图形字符集第 7 部分:拉丁/希腊字母 

Information processing--8-bit single-byte coded graphic character sets--Part 7: Latin/Greek 

alphabet 

GB/T 15732-1995 

汉字键盘输入用通用词语集 

General word set for Chinese character keyboard input 

GB/T 16683-1996 

信息交换用彝文字符 24×24 点阵字模集及数据集 

24×24 Dot matrix font set and data set of Yi character for information interchange 

GB 16793-1997 

信息技术通用多八位编码字符集(Ⅰ区) 汉字 24 点阵字型宋体 

Information technology--Universal multiple--Octet coded character set (IZone)--24-dots matrix 

font of ideogram--Song Ti 

GB 16794.1-1997 

信息技术通用多八位编码字符集(Ⅰ区) 汉字 48 点阵字型第 1 部分:宋体 

Information technology--Universal multiple--Octet coded character set(I zone)--48-dots matrix 

font of ideogram--Part 1: Song Ti 

GB 16959-1997 

信息技术信息交换用藏文编码字符集基本集 

Information technology--Tibetan coded character sets for information interchange--Basic set 

GB/T 16960.1-1997 

信息技术藏文编码字符集(基本集)24×48 点阵字型第 1 部分: 白体 

Information technology--Tibetan coded character set (basic set)--24×48 dots matrix font--Part 1: 

Bai Ti 

GB/T 16964.1-1997 

信息技术字型信息交换第 1 部分: 体系结构 

Information technology--Font information interchange--Part 1: Architecture 

GB/T 16964.2-1997 

信息技术字型信息交换第 2 部分: 交换格式 

Information technolong--Font information interchange--Part 2: Interchange format 

GB/T 16964.3-1997 

信息技术字型信息交换第 3 部分: 字形形状表示 

Information technology--Font information interchange--Part 3: Glyph shape representation 

GB/T 17543-1998 

信息技术藏文编码字符集(基本集)键盘字母数字区的布局 

Information technology--Keyboard layout of the alphanumeric zone for Tibetan coded character 

set (basic set) 

GB/T 16500-1998 

信息交换用汉字编码字符集第七辅助集 

Code of chinese ideograms set for information interchange--The 7th supplementary set 

GB 17698-1999 

信息技术通用多八位编码字符集(I 区)汉字 16 点阵字型 

Information technology--Universal multiple-octet coded character set(I Zone)--16-dots matrix 

font of Chinese ideogram 


GB 18030-2000 

信息技术 – 信息交换用汉字编码字符集 – 基本集的扩充 

Information technology – Chinese Ideograms coded character set for information interchange – 

Extension for the basic set 


Bijlage B: Selectie van Chinese National Standards van de ROC 133 

CNS 5205 (X5001) 

資訊處理及交換用七數元碼字元集組 

Information processing: 7-Bit Coded Character Set For Information Interchange 

CNS 7223 (X5005) 

資訊處理–七數元碼字元集(組)之控制字元圖示法 

Information Processing-Graphical Representations for the Control Characters of the 7-Bit Coded 

Character Set 

CNS 7654 (X5006) 

資訊處理-七位元及八位元碼字元集-延碼技術 

Information technology -- Character code structure and extension techniques 

CNS 7656 (X5007) 

資訊技術–資訊交換用八位元碼–實作結構及規則 

Information technology-8-bit code for information interchange-structure and rules for 


CNS 11643-1986 (X5012) 

通用漢字標準交換碼 

Standard Interchange Code for Generally Used Chinese Characters 

CNS 11643-1992 (X5012) 

㆗文標準交換碼 

Chinese Standard Interchange Code 

CNS 11643-01 (X5012-1) 

㆗文標準交換碼使用方法 

The Usage of Chinese Standard Interchange Code 

CNS 13160 (X5017) 

資訊處理有限字元集系統㆗國際單位制及其他單位制表示法 

Information Processing - Representation of SI and Other Units in Systems with Limited 

Character Sets 

CNS 13246 (X5023) 

資訊處理–8位元單㆒位元組碼化圖形字元集(第1部:拉㆜字母第㆒號) 

Information Processing - 8 - bit Single - byte Coded Graphic Character Sets - Part 1: Latin 

Alphabet NO.1 

CNS 13247 (X5024) 

資訊處理–8位元單㆒位元組碼化圖形字元集(第2部:拉㆜字母第㆓號) 

Information Processing - 8 - bit Single - byte Coded Graphic Character Sets - Part 2: Latin 

Alphabet NO.2 

CNS 13325 (X5028) 

資訊處理–8位元單㆒位元組碼化圖形字元集(第3部:拉㆜字母第㆔號) 

Information Processing - 8 - Bit Single - Byte Coded Graphic Character Sets - Part 3: Latin 

Alphabet No.3 

CNS 13326 (X5029) 

資訊處理–8位元單㆒位元組碼化圖形字元集(第4部:拉㆜字母第㆕號) 


Alphabet No.4 

CNS 13327 (X5030) 

資訊處理–8位元單㆒位元組碼化圖形字元集(第5部:拉㆜/斯拉夫字母) 

Information Processing - 8 - Bit Single - Byte Coded Graphic Character Sets - Part 5: Latin / 

Cyrillic Alphabet 

133 Bron: http://www.cnsppa.com.tw/ (Deze standaarden vallen onder groep X5) 


CNS 13328 (X5031) 

資訊處理–8位元單㆒位元組碼化圖形字元集(第9部:拉㆜字母第五號) 


Alpbabet No.5 

CNS 13384 (X5034) 

資訊處理–8位元單㆒位元組碼化圖形字元集(第6部:拉㆜/阿拉伯字母) 

Information Processing - 8 Bit Single - Byte Coded Graphic Character Sets - Part 6: Latin/Arabic 

Alphabet 

CNS 13385 (X5035) 

資訊處理–8位元單㆒位元組碼化圖形字元集(第7部:拉㆜/希臘字母) 

Information Processing - 8 Bit Single - Byte Coded Graphic Character Sets - Part 7: Latin/Greek 

Alphabet 

CNS 13386 (X5036) 

資訊處理–8位元單㆒位元組碼化圖形字元集(第8部:拉㆜/希伯來字母) 

Information Processing - 8 Bit Single - Byte Coded Graphic Character Sets - Part 8: 

Latin/Hebrew Alphabet 

CNS 13479 (X5038) 

資訊技術–碼字元集的控制功能 

Information Technology - Control Functions for Coded Character Sets 

CNS 13525-1 (X5039-1) 

資訊處理–文字通信編碼字元集(第1部:㆒般性介紹) 

Information Processing - Coded Character Sets for Text Communication - Part 1: General 

Introduction 

CNS 13886 (X5053) 

資訊技術–供文字通信使用之碼化圖形字元集–拉㆜字母 

Information technology-coded graphic character set for text communication-latin alphabet 

CNS 14147-1 (X5055-1) 

資訊技術–字型資訊交換–第1部:架構 

Information technology - Font information interchange - Part 1:Architecture 

CNS 14147-2 (X5055-2) 

資訊技術–字型資訊交換–第2部:交換格式 

Information technology - Font information interchange - Part 2:Interchange format 

CNS 14147-3 (X5055-2) 

資訊技術–字型資訊交換–第3部:字符形狀表示 

Information technology - Font information interchange - Part 3:Glyph shape representation 


Bijlage C: Selectie van ISO standaarden 

ISO/IEC 646 

Information technology -- ISO 7-bit coded character set for information interchange 

Equivalent: GB 1988, CNS 5205 

ISO/IEC 2022 

Information technology -- Character code structure and extension techniques 

Equivalent: GB 2311, CNS 7654 

ISO 2047 

Information processing -- Graphical representations for the control characters of the 7- bit coded 

character set 

ISO 2375 

Data processing -- Procedure for registration of escape sequences 

Equivalent: GB/T 12054 

ISO 4873 

Information technology -- ISO 8-bit code for information interchange -- Structure and rules for 


Equivalent: GB/T 11383, CNS 7656 

ISO/IEC 6429 

Information technology -- Control functions for coded character sets 

Equivalent: CNS 13479 

ISO/IEC 8859-1:1998 

Information technology -- 8-bit single-byte coded graphic character sets -- Part 1: Latin alphabet 

No. 1 

Equivalent: GB/T 15273.1, CNS 13246 

ISO/IEC 8859-2:1999 


No. 2 


ISO/IEC 8859-3:1999 


No. 3 


ISO/IEC 8859-4:1998 


No. 4 


ISO/IEC 8859-5:1999 

Information technology -- 8-bit single-byte coded graphic character sets -- Part 5: Latin/Cyrillic 

alphabet 


ISO/IEC 8859-6:1999 

Information technology -- 8-bit single-byte coded graphic character sets -- Part 6: Latin/Arabic 

alphabet 


ISO 8859-7:1987 

Information processing -- 8-bit single-byte coded graphic character sets -- Part 7: Latin/Greek 

alphabet 


ISO/IEC 8859-8:1999 

Information technology -- 8-bit single-byte coded graphic character sets -- Part 8: Latin/Hebrew 

alphabet 



ISO/IEC 8859-9:1999 


No. 5 


ISO/IEC 8859-10:1998 

Information technology -- 8-bit single-byte coded graphic character sets -- Part 10: Latin 

alphabet No. 6 

ISO/IEC 8859-11:2001 

Information technology -- 8-bit single-byte coded graphic character sets -- Part 11: Latin/Thai 

alphabet 

ISO/IEC 8859-13:1998 



ISO/IEC 8859-14:1998 


alphabet No. 8 (Celtic) 

ISO/IEC 8859-15:1999 



ISO/IEC 8859-16:2001 



ISO 9541-1 

Information technology -- Font information interchange -- Part 1: Architecture 

Equivalent: GB/T 16964.1, CNS 14147-1 

ISO 9541-2 

Information technology -- Font information interchange -- Part 2: Interchange Format 


ISO 9541-3 

Information technology -- Font information interchange -- Part 3: Glyph shape representation 


ISO/IEC 10367 

Information technology -- Standardized coded graphic character sets for use in 8-bit codes 

ISO/IEC 10646 

Information technology -- Universal Multiple-Octet Coded Character Set (UCS) 

Equivalent: GB 13000.1

Chinese taalverwerking op de computer - B-t.asia

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?