08.01.2013 Views

Chinese taalverwerking op de computer - B-t.asia

Chinese taalverwerking op de computer - B-t.asia

Chinese taalverwerking op de computer - B-t.asia

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

De karakters zijn geor<strong>de</strong>nd aan <strong>de</strong> hand van <strong>de</strong> positie die ze hebben in vier belangrijke<br />

woor<strong>de</strong>nboeken. In volgor<strong>de</strong> van belangrijkheid zijn <strong>de</strong>ze Kangxi Zidian, Dai Kan-Wa Jiten,<br />

Hanyu Da Zidian en Dae Jaweon. Als een karakter in <strong>de</strong> Kangxi Zidian gevon<strong>de</strong>n wordt dan<br />

volgt het <strong>de</strong> volgor<strong>de</strong> van <strong>de</strong> Kanxi Zidian, indien het karakter er niet in staat, dan wordt er<br />

gekeken naar <strong>de</strong> Dai Kan-Wa Jiten. Indien het karakter daarin gevon<strong>de</strong>n wordt dan wordt het<br />

geplaatst na het karakter dat er voor staat in <strong>de</strong> Dai Kan-Wa Jiten maar dan volgens <strong>de</strong> Kangxi<br />

Zidian volgor<strong>de</strong>. Indien het karakter niet gevon<strong>de</strong>n wordt dan wordt er gekeken naar <strong>de</strong><br />

Hanyu Da Zidian en <strong>de</strong> Dae Jaweon <strong>op</strong> eenzelf<strong>de</strong> manier. <strong>Chinese</strong> karakters met een<br />

vereenvoudigd radicaal wor<strong>de</strong>n geplaatst na het laatste karakter met het onvereenvoudig<strong>de</strong><br />

radicaal.<br />

Op dit ogenblik is <strong>de</strong> laatste Unico<strong>de</strong> standaard 3.2.0. Een lijst van software producten die<br />

unico<strong>de</strong> on<strong>de</strong>rsteunen is te vin<strong>de</strong>n <strong>op</strong> <strong>de</strong> website van het Unico<strong>de</strong> Consortium. 58<br />

Bij Unico<strong>de</strong> wordt er <strong>op</strong>nieuw begonnen vanaf 0. Bij <strong>de</strong> vorig besproken karaktersets<br />

werd steeds begonnen aan hogere getallen (>127) om <strong>de</strong> compatibiliteit met ASCII niet te<br />

verliezen. Unico<strong>de</strong> blijft compatibel met ASCII omdat het <strong>de</strong> eerste plaatsen <strong>op</strong>vult met<br />

ASCII.<br />

Unico<strong>de</strong> gaat nog iets ver<strong>de</strong>r dan <strong>de</strong> meeste karakterco<strong>de</strong>s en geeft aan ie<strong>de</strong>r karakter niet<br />

alleen een uniek nummer maar ook een officiële Engelstalige naam, die soms heel dui<strong>de</strong>lijk is<br />

en soms ook totaal nietszeggend kan zijn. Zo is <strong>de</strong> naam voor A: ‘Latin Capital Letter A’,<br />

terwijl <strong>de</strong> naam voor 骨 (gǔ, been) ‘CJK Unified I<strong>de</strong>ograph-9AA8’ is. Daarnaast <strong>de</strong>finieert <strong>de</strong><br />

standaard ook een groot <strong>de</strong>el normatieve eigenschappen en bijkomen<strong>de</strong> informatie.<br />

Negatieve kanten aan Unico<strong>de</strong> zijn dat <strong>de</strong> glyphs samengevoegd wor<strong>de</strong>n bijvoorbeeld <strong>de</strong><br />

glyphs voor 1 (één) zijn in het Chinees, Japans en Koreaans niet volledig hetzelf<strong>de</strong> maar toch<br />

werd maar één co<strong>de</strong>punt toegewezen. Zo wordt het radicaal “gras” van het karakter gras in het<br />

vereenvoudigd Chinees, Japans en Koreaans met drie streepjes geschreven, maar in het<br />

traditioneel Chinees met vier. Veel kritiek is echter cultuur gebon<strong>de</strong>n. Velen hebben het<br />

gevoel dat <strong>de</strong> talen verenigd zijn (dit door het feit dat karaktersets vroeger taalgebon<strong>de</strong>n<br />

waren), dit is echter totaal niet het geval. Ver<strong>de</strong>r zijn veel gespecialiseer<strong>de</strong>, zel<strong>de</strong>n gebruikte<br />

karakters nog niet geco<strong>de</strong>erd in Unico<strong>de</strong>. Daarnaast is het zeer moeilijk om nieuwe karakters<br />

in <strong>de</strong> Unico<strong>de</strong> standaard te krijgen. 59 Het kan via gebruik te maken via Private Use Area<br />

(PUA) of door mid<strong>de</strong>l van <strong>de</strong> I<strong>de</strong>ograph Description Sequence (IDS). Maar het probleem bij<br />

PUA is dat het niet echt in <strong>de</strong> standaard komt, en dat het dus compatibiliteitsproblemen kan<br />

58 http://www.unico<strong>de</strong>.org/unico<strong>de</strong>/onlinedat/products.html<br />

59 <strong>de</strong> procedure is terug te vin<strong>de</strong>n <strong>op</strong> http://www.unico<strong>de</strong>.org/pending/pr<strong>op</strong>osals.html<br />

Thesis Sébastien Bruggeman Pagina 40

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!