Chinese taalverwerking op de computer - B-t.asia
Chinese taalverwerking op de computer - B-t.asia
Chinese taalverwerking op de computer - B-t.asia
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
) ISO 2022<br />
Deze co<strong>de</strong>ringsmetho<strong>de</strong> staat beschreven in ISO 2022:1994, Information Technology –<br />
Character co<strong>de</strong> structure and extention techniques. 67 Eigenlijk is het niet echt geschikt voor<br />
interne <strong>op</strong>slag of bewerking <strong>op</strong> <strong>computer</strong> systemen, het werd ontworpen vor informatie<br />
uitwisseling tussen <strong>computer</strong>s, zoals e-mail. Het is een 7 bit modale co<strong>de</strong>ringsmetho<strong>de</strong>. Er<br />
zijn slechts enkele programma’s die ISO 2022 intern kunnen verwerken (bv Emacs Version<br />
20), an<strong>de</strong>re programma’s (meestal e-mail programma’s) zijn wel in staat om ISO 2022<br />
geco<strong>de</strong>er<strong>de</strong> tekst te maken maar verwerken <strong>de</strong> ISO 2022 co<strong>de</strong>ring niet noodzakelijk intern.<br />
De waar<strong>de</strong>n die gebruikt wor<strong>de</strong>n voor het co<strong>de</strong>ren van bytes vallen in <strong>de</strong> hexa<strong>de</strong>cimale<br />
gebied 0x21-0x7E en dit voor zowel <strong>de</strong> eerste als twee<strong>de</strong> byte, dit gebied komt overeen met<br />
het gebied van printbare ASCII karakters. Het gebruikt speciale karakters of speciale reeksen<br />
van karakters namelijk <strong>de</strong>signator sequences 68 , single shift sequences 69 (SSx), shifting<br />
characters 70 en escape sequences 71 .<br />
Van <strong>de</strong>ze co<strong>de</strong>ringsmetho<strong>de</strong> zijn er twee <strong>Chinese</strong> varianten (er is ook een Japanse en<br />
Koreaanse variant respectivelijk ISO-2022-JP en ISO-2022-KR) namelijk ISO-2022-CN en<br />
ISO-2022-CN-EXT, die bei<strong>de</strong>n in RFC 1922 (<strong>Chinese</strong> Character Encoding for Internet<br />
Messages) staan beschreven. Het verschil tussen ISO-2022-CN en ISO-2022-CN-EXT is dat<br />
ISO-2022-CN enkel ASCII, GB 2312-80 en niveaus 1 en 2 van CNS 11643-1992 on<strong>de</strong>rsteunt.<br />
ISO-2022-CN-EXT is i<strong>de</strong>ntiek aan ISO-2022-CN maar het biedt on<strong>de</strong>rsteuning voor meer<br />
karaktersets. Chinees en ASCII wor<strong>de</strong>n van elkaar on<strong>de</strong>rschei<strong>de</strong>n door <strong>de</strong>signations en shift<br />
functies. Het zijn <strong>de</strong> <strong>de</strong>signations die bepalen welke <strong>Chinese</strong> karakterset er gebruikt zal<br />
wor<strong>de</strong>n. Zie tabel Tabel 20 en<br />
Tabel 21.<br />
Tabel 20 ISO-2022-CN<br />
Designator Karakterset<br />
SO GB 2312-80 en CNS 11643-1992 niveau 1<br />
SS2 CNS 11643-1992 niveau 2<br />
67 Standard ECMA-35 is nu i<strong>de</strong>ntiek aan ISO2022 en is integraal terug te vin<strong>de</strong>n <strong>op</strong> <strong>de</strong> ECMA website.<br />
68 Designator sequence: Het geeft aan welke karakterset moet gebruikt wor<strong>de</strong>n wanneer er overgeschakeld wordt<br />
naar dubbele byte modus. Het zorgt evenwel niet voor <strong>de</strong> overschakeling. Het moet in ie<strong>de</strong>re lijn voorkomen die<br />
karakters van <strong>de</strong> karakterset bevat, dit zodat <strong>de</strong> karakters correct zou<strong>de</strong>n weergegeven wor<strong>de</strong>n als er terug<br />
‘gescrolled’ wordt in een venster.<br />
69 Single shift sequence: zorgt voor <strong>de</strong> overschakeling naar dubbele byte modus voor <strong>de</strong> twee karakters die er <strong>op</strong><br />
volgen. Wordt aangeduid met SS2 (0x1B 0x4E) of SS3 (0x1B 0x4F)<br />
70 Shifting character: zorgt voor <strong>de</strong> overschakeling tussen enkele en dubbele byte modus. Een SO (0x0E) duidt<br />
het begin aan, een SI (0x0F) duidt het ein<strong>de</strong> aan van een dubbele byte modus.<br />
71 Escape sequence: Duidt niet alleen aan welke karakterset er moet gebruikt wor<strong>de</strong>n, maar zorgt ook voor <strong>de</strong><br />
overschakeling.<br />
Thesis Sébastien Bruggeman Pagina 46