Chinese taalverwerking op de computer - B-t.asia
Chinese taalverwerking op de computer - B-t.asia
Chinese taalverwerking op de computer - B-t.asia
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
De karakters zijn geor<strong>de</strong>nd aan <strong>de</strong> hand van <strong>de</strong> positie die ze hebben in vier belangrijke<br />
woor<strong>de</strong>nboeken. In volgor<strong>de</strong> van belangrijkheid zijn <strong>de</strong>ze Kangxi Zidian, Dai Kan-Wa Jiten,<br />
Hanyu Da Zidian en Dae Jaweon. Als een karakter in <strong>de</strong> Kangxi Zidian gevon<strong>de</strong>n wordt dan<br />
volgt het <strong>de</strong> volgor<strong>de</strong> van <strong>de</strong> Kanxi Zidian, indien het karakter er niet in staat, dan wordt er<br />
gekeken naar <strong>de</strong> Dai Kan-Wa Jiten. Indien het karakter daarin gevon<strong>de</strong>n wordt dan wordt het<br />
geplaatst na het karakter dat er voor staat in <strong>de</strong> Dai Kan-Wa Jiten maar dan volgens <strong>de</strong> Kangxi<br />
Zidian volgor<strong>de</strong>. Indien het karakter niet gevon<strong>de</strong>n wordt dan wordt er gekeken naar <strong>de</strong><br />
Hanyu Da Zidian en <strong>de</strong> Dae Jaweon <strong>op</strong> eenzelf<strong>de</strong> manier. <strong>Chinese</strong> karakters met een<br />
vereenvoudigd radicaal wor<strong>de</strong>n geplaatst na het laatste karakter met het onvereenvoudig<strong>de</strong><br />
radicaal.<br />
Op dit ogenblik is <strong>de</strong> laatste Unico<strong>de</strong> standaard 3.2.0. Een lijst van software producten die<br />
unico<strong>de</strong> on<strong>de</strong>rsteunen is te vin<strong>de</strong>n <strong>op</strong> <strong>de</strong> website van het Unico<strong>de</strong> Consortium. 58<br />
Bij Unico<strong>de</strong> wordt er <strong>op</strong>nieuw begonnen vanaf 0. Bij <strong>de</strong> vorig besproken karaktersets<br />
werd steeds begonnen aan hogere getallen (>127) om <strong>de</strong> compatibiliteit met ASCII niet te<br />
verliezen. Unico<strong>de</strong> blijft compatibel met ASCII omdat het <strong>de</strong> eerste plaatsen <strong>op</strong>vult met<br />
ASCII.<br />
Unico<strong>de</strong> gaat nog iets ver<strong>de</strong>r dan <strong>de</strong> meeste karakterco<strong>de</strong>s en geeft aan ie<strong>de</strong>r karakter niet<br />
alleen een uniek nummer maar ook een officiële Engelstalige naam, die soms heel dui<strong>de</strong>lijk is<br />
en soms ook totaal nietszeggend kan zijn. Zo is <strong>de</strong> naam voor A: ‘Latin Capital Letter A’,<br />
terwijl <strong>de</strong> naam voor 骨 (gǔ, been) ‘CJK Unified I<strong>de</strong>ograph-9AA8’ is. Daarnaast <strong>de</strong>finieert <strong>de</strong><br />
standaard ook een groot <strong>de</strong>el normatieve eigenschappen en bijkomen<strong>de</strong> informatie.<br />
Negatieve kanten aan Unico<strong>de</strong> zijn dat <strong>de</strong> glyphs samengevoegd wor<strong>de</strong>n bijvoorbeeld <strong>de</strong><br />
glyphs voor 1 (één) zijn in het Chinees, Japans en Koreaans niet volledig hetzelf<strong>de</strong> maar toch<br />
werd maar één co<strong>de</strong>punt toegewezen. Zo wordt het radicaal “gras” van het karakter gras in het<br />
vereenvoudigd Chinees, Japans en Koreaans met drie streepjes geschreven, maar in het<br />
traditioneel Chinees met vier. Veel kritiek is echter cultuur gebon<strong>de</strong>n. Velen hebben het<br />
gevoel dat <strong>de</strong> talen verenigd zijn (dit door het feit dat karaktersets vroeger taalgebon<strong>de</strong>n<br />
waren), dit is echter totaal niet het geval. Ver<strong>de</strong>r zijn veel gespecialiseer<strong>de</strong>, zel<strong>de</strong>n gebruikte<br />
karakters nog niet geco<strong>de</strong>erd in Unico<strong>de</strong>. Daarnaast is het zeer moeilijk om nieuwe karakters<br />
in <strong>de</strong> Unico<strong>de</strong> standaard te krijgen. 59 Het kan via gebruik te maken via Private Use Area<br />
(PUA) of door mid<strong>de</strong>l van <strong>de</strong> I<strong>de</strong>ograph Description Sequence (IDS). Maar het probleem bij<br />
PUA is dat het niet echt in <strong>de</strong> standaard komt, en dat het dus compatibiliteitsproblemen kan<br />
58 http://www.unico<strong>de</strong>.org/unico<strong>de</strong>/onlinedat/products.html<br />
59 <strong>de</strong> procedure is terug te vin<strong>de</strong>n <strong>op</strong> http://www.unico<strong>de</strong>.org/pending/pr<strong>op</strong>osals.html<br />
Thesis Sébastien Bruggeman Pagina 40