08.01.2013 Views

Chinese taalverwerking op de computer - B-t.asia

Chinese taalverwerking op de computer - B-t.asia

Chinese taalverwerking op de computer - B-t.asia

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

) ISO 2022<br />

Deze co<strong>de</strong>ringsmetho<strong>de</strong> staat beschreven in ISO 2022:1994, Information Technology –<br />

Character co<strong>de</strong> structure and extention techniques. 67 Eigenlijk is het niet echt geschikt voor<br />

interne <strong>op</strong>slag of bewerking <strong>op</strong> <strong>computer</strong> systemen, het werd ontworpen vor informatie<br />

uitwisseling tussen <strong>computer</strong>s, zoals e-mail. Het is een 7 bit modale co<strong>de</strong>ringsmetho<strong>de</strong>. Er<br />

zijn slechts enkele programma’s die ISO 2022 intern kunnen verwerken (bv Emacs Version<br />

20), an<strong>de</strong>re programma’s (meestal e-mail programma’s) zijn wel in staat om ISO 2022<br />

geco<strong>de</strong>er<strong>de</strong> tekst te maken maar verwerken <strong>de</strong> ISO 2022 co<strong>de</strong>ring niet noodzakelijk intern.<br />

De waar<strong>de</strong>n die gebruikt wor<strong>de</strong>n voor het co<strong>de</strong>ren van bytes vallen in <strong>de</strong> hexa<strong>de</strong>cimale<br />

gebied 0x21-0x7E en dit voor zowel <strong>de</strong> eerste als twee<strong>de</strong> byte, dit gebied komt overeen met<br />

het gebied van printbare ASCII karakters. Het gebruikt speciale karakters of speciale reeksen<br />

van karakters namelijk <strong>de</strong>signator sequences 68 , single shift sequences 69 (SSx), shifting<br />

characters 70 en escape sequences 71 .<br />

Van <strong>de</strong>ze co<strong>de</strong>ringsmetho<strong>de</strong> zijn er twee <strong>Chinese</strong> varianten (er is ook een Japanse en<br />

Koreaanse variant respectivelijk ISO-2022-JP en ISO-2022-KR) namelijk ISO-2022-CN en<br />

ISO-2022-CN-EXT, die bei<strong>de</strong>n in RFC 1922 (<strong>Chinese</strong> Character Encoding for Internet<br />

Messages) staan beschreven. Het verschil tussen ISO-2022-CN en ISO-2022-CN-EXT is dat<br />

ISO-2022-CN enkel ASCII, GB 2312-80 en niveaus 1 en 2 van CNS 11643-1992 on<strong>de</strong>rsteunt.<br />

ISO-2022-CN-EXT is i<strong>de</strong>ntiek aan ISO-2022-CN maar het biedt on<strong>de</strong>rsteuning voor meer<br />

karaktersets. Chinees en ASCII wor<strong>de</strong>n van elkaar on<strong>de</strong>rschei<strong>de</strong>n door <strong>de</strong>signations en shift<br />

functies. Het zijn <strong>de</strong> <strong>de</strong>signations die bepalen welke <strong>Chinese</strong> karakterset er gebruikt zal<br />

wor<strong>de</strong>n. Zie tabel Tabel 20 en<br />

Tabel 21.<br />

Tabel 20 ISO-2022-CN<br />

Designator Karakterset<br />

SO GB 2312-80 en CNS 11643-1992 niveau 1<br />

SS2 CNS 11643-1992 niveau 2<br />

67 Standard ECMA-35 is nu i<strong>de</strong>ntiek aan ISO2022 en is integraal terug te vin<strong>de</strong>n <strong>op</strong> <strong>de</strong> ECMA website.<br />

68 Designator sequence: Het geeft aan welke karakterset moet gebruikt wor<strong>de</strong>n wanneer er overgeschakeld wordt<br />

naar dubbele byte modus. Het zorgt evenwel niet voor <strong>de</strong> overschakeling. Het moet in ie<strong>de</strong>re lijn voorkomen die<br />

karakters van <strong>de</strong> karakterset bevat, dit zodat <strong>de</strong> karakters correct zou<strong>de</strong>n weergegeven wor<strong>de</strong>n als er terug<br />

‘gescrolled’ wordt in een venster.<br />

69 Single shift sequence: zorgt voor <strong>de</strong> overschakeling naar dubbele byte modus voor <strong>de</strong> twee karakters die er <strong>op</strong><br />

volgen. Wordt aangeduid met SS2 (0x1B 0x4E) of SS3 (0x1B 0x4F)<br />

70 Shifting character: zorgt voor <strong>de</strong> overschakeling tussen enkele en dubbele byte modus. Een SO (0x0E) duidt<br />

het begin aan, een SI (0x0F) duidt het ein<strong>de</strong> aan van een dubbele byte modus.<br />

71 Escape sequence: Duidt niet alleen aan welke karakterset er moet gebruikt wor<strong>de</strong>n, maar zorgt ook voor <strong>de</strong><br />

overschakeling.<br />

Thesis Sébastien Bruggeman Pagina 46

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!