Originalskrift i flerspråkiga bibliotekskataloger - BADA - Högskolan i ...
Originalskrift i flerspråkiga bibliotekskataloger - BADA - Högskolan i ...
Originalskrift i flerspråkiga bibliotekskataloger - BADA - Högskolan i ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
de andra teckenuppsättningarna och 16 bitar var inte längre tillräckligt. Dessutom var det<br />
svårt för vissa systems gränssnitt att hantera 16-bitar och de krävde en form av Unicode som<br />
kunde hanteras i 8-bitars-koder. Andra system föredrog enheter av 32 bitar. Resultatet blev att<br />
man utvecklade olika transformeringsformat (UTF) av Unicode, UTF-8 UTF-16 och UTF-32<br />
som vart och ett passade bäst i en viss programmeringsmiljö och som också snabbt kunde<br />
konverteras till andra format efter behov. De olika formaten innebär att man kan använda ett<br />
eller fler kodelement per tecken. Målet är att alla skriftsystem ska täckas i en unik repertoar,<br />
vare sig det handlar om modern, klassisk eller teknisk tillämpning. 67<br />
2. Ett effektivt system<br />
Alla kodpositioner har samma värde eller status. Det finns inga koder där det krävs en<br />
sekvens med shift eller escape utan alla koder nås på ett jämlikt sätt. Så långt som möjligt<br />
kodas också en skrifts tecken tillsammans vilket gör dem lättare att finna och också gör<br />
implementeringen lättare. 68<br />
3. Tecken – inte former<br />
När man från början skulle representera text i datorbaserad form tänkte man sig att varje<br />
textelement som syntes på papperet var unikt och skulle således ha en unik kod. Man gav<br />
alltså individuella koder till varje sätt att skriva ett tecken eller bokstav även om betydelsen i<br />
grund och botten var densamma. Man kodifierade det man såg. Unicode har gått ifrån detta. I<br />
stället för att identifiera enskilda textelement identifierar man kodelement. Vare sig den<br />
latinska bokstaven g har formen g eller g har den samma kod och samma namn. Samma sak<br />
gäller de olika sätten man kan skriva ett östasiatiskt tecken på eller de arabiska bokstäverna<br />
som kan ha olika form beroende på dess position i ordet. Systemet kodar tryckningen på<br />
tangenterna som t ex ”U+0041 LATIN LETTER CAPITAL A”, eller ”U+0647 ARABIC<br />
LETTER HEH”, men det är programvaran/fonten som använder koden som ett index för att<br />
hitta själva bilden av koden, dvs formen, som i dessa fall kan vara AAAAAAA, eller ? ? ? ? .<br />
Unicode har alltså att göra med kodningen och betydelsen av tecknen, ingenting annat. Den<br />
här principen är fundamental för Unicode och beskrivs som att man skiljer mellan<br />
”character”, tecken, och ”glyph”, form. Tecknet är det skrivna språkets minsta komponent<br />
som har ett semantiskt värde och formen är enbart en synlig representation av tecknet. Det här<br />
är viktigt eftersom vissa språk, t ex arabiska och olika indiska skriftsystem innefattar många<br />
fler former än semantiska tecken. 69<br />
4. Semantiska egenskaper<br />
Unicode anser vissa semantiska egenskaper som inneboende i tecknet och betraktas då som en<br />
del av standarden. Det kan handla om sådant som t ex gemena och versaler, nummer och<br />
siffror, skriftens riktning eller egenskaper som kräver sekvenser av tecken. 70<br />
5. Ren text<br />
Unicode har att göra med den rena texten, själva sekvensen av teckenkoder. Texten är det<br />
grundläggande materialet för den text vi ser där information som språk, fontstorlek, färg,<br />
hypertextlänkar osv lagts till. Den enkla rena texten är standardiserad och får bara innehålla<br />
tillräcklig information för att den ska vara läsbar. 71<br />
67 Ibid., s. 12<br />
68 Ibid., s. 13<br />
69 Ibid., s. 13 f<br />
70 Ibid.<br />
71 Aliprand, 1998, s. 100 ff<br />
The Unicode Standard : version 3.0, 2000, s. 13 ff<br />
30