17.07.2013 Views

Originalskrift i flerspråkiga bibliotekskataloger - BADA - Högskolan i ...

Originalskrift i flerspråkiga bibliotekskataloger - BADA - Högskolan i ...

Originalskrift i flerspråkiga bibliotekskataloger - BADA - Högskolan i ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

de andra teckenuppsättningarna och 16 bitar var inte längre tillräckligt. Dessutom var det<br />

svårt för vissa systems gränssnitt att hantera 16-bitar och de krävde en form av Unicode som<br />

kunde hanteras i 8-bitars-koder. Andra system föredrog enheter av 32 bitar. Resultatet blev att<br />

man utvecklade olika transformeringsformat (UTF) av Unicode, UTF-8 UTF-16 och UTF-32<br />

som vart och ett passade bäst i en viss programmeringsmiljö och som också snabbt kunde<br />

konverteras till andra format efter behov. De olika formaten innebär att man kan använda ett<br />

eller fler kodelement per tecken. Målet är att alla skriftsystem ska täckas i en unik repertoar,<br />

vare sig det handlar om modern, klassisk eller teknisk tillämpning. 67<br />

2. Ett effektivt system<br />

Alla kodpositioner har samma värde eller status. Det finns inga koder där det krävs en<br />

sekvens med shift eller escape utan alla koder nås på ett jämlikt sätt. Så långt som möjligt<br />

kodas också en skrifts tecken tillsammans vilket gör dem lättare att finna och också gör<br />

implementeringen lättare. 68<br />

3. Tecken – inte former<br />

När man från början skulle representera text i datorbaserad form tänkte man sig att varje<br />

textelement som syntes på papperet var unikt och skulle således ha en unik kod. Man gav<br />

alltså individuella koder till varje sätt att skriva ett tecken eller bokstav även om betydelsen i<br />

grund och botten var densamma. Man kodifierade det man såg. Unicode har gått ifrån detta. I<br />

stället för att identifiera enskilda textelement identifierar man kodelement. Vare sig den<br />

latinska bokstaven g har formen g eller g har den samma kod och samma namn. Samma sak<br />

gäller de olika sätten man kan skriva ett östasiatiskt tecken på eller de arabiska bokstäverna<br />

som kan ha olika form beroende på dess position i ordet. Systemet kodar tryckningen på<br />

tangenterna som t ex ”U+0041 LATIN LETTER CAPITAL A”, eller ”U+0647 ARABIC<br />

LETTER HEH”, men det är programvaran/fonten som använder koden som ett index för att<br />

hitta själva bilden av koden, dvs formen, som i dessa fall kan vara AAAAAAA, eller ? ? ? ? .<br />

Unicode har alltså att göra med kodningen och betydelsen av tecknen, ingenting annat. Den<br />

här principen är fundamental för Unicode och beskrivs som att man skiljer mellan<br />

”character”, tecken, och ”glyph”, form. Tecknet är det skrivna språkets minsta komponent<br />

som har ett semantiskt värde och formen är enbart en synlig representation av tecknet. Det här<br />

är viktigt eftersom vissa språk, t ex arabiska och olika indiska skriftsystem innefattar många<br />

fler former än semantiska tecken. 69<br />

4. Semantiska egenskaper<br />

Unicode anser vissa semantiska egenskaper som inneboende i tecknet och betraktas då som en<br />

del av standarden. Det kan handla om sådant som t ex gemena och versaler, nummer och<br />

siffror, skriftens riktning eller egenskaper som kräver sekvenser av tecken. 70<br />

5. Ren text<br />

Unicode har att göra med den rena texten, själva sekvensen av teckenkoder. Texten är det<br />

grundläggande materialet för den text vi ser där information som språk, fontstorlek, färg,<br />

hypertextlänkar osv lagts till. Den enkla rena texten är standardiserad och får bara innehålla<br />

tillräcklig information för att den ska vara läsbar. 71<br />

67 Ibid., s. 12<br />

68 Ibid., s. 13<br />

69 Ibid., s. 13 f<br />

70 Ibid.<br />

71 Aliprand, 1998, s. 100 ff<br />

The Unicode Standard : version 3.0, 2000, s. 13 ff<br />

30

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!