13.07.2015 Aufrufe

HTML & CSS

HTML & CSS

HTML & CSS

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Zeichenkodierung 39bekannt), bezeichnet man eine Methode, jeden Codepunkt als Folge von einem oder mehreren Bytes auszudrücken.Eine solche Bytefolge, die einen Codepunkt und damit ein Zeichen darstellt, nennt man code unit. In einfachenFällen gibt es nicht mehr als 256 = 2 8 Codepunkte, so dass man jeden Codepunkt in einem Byte speichern kann, wiees auch häufig geschieht, z. B. bei Verwendung eines der in ISO 8859 definierten Zeichencodes.Bei Verwendung von Unicode ist das nicht mehr möglich, da S weit mehr als 256 Zeichen enthält. Hier verwendetman z. B. UTF-16, wo die Codepunkte 0 bis 2 16 -1 in zwei und alle größeren in vier Byte abgespeichert werden. Manunterscheidet hier UTF-16BE (big-endian) und UTF-16LE (little-endian), die sich in der Reihenfolge der Bytes ineiner code unit unterscheiden.Beim UTF-32 verwendet man immer vier Byte für jeden Codepunkt, und UTF-8 verwendet je nach Codepunkt einoder mehrere Bytes: die Codepunkte 0 bis 127 werden in einem einzigen Byte gespeichert, so dass diese Darstellungbei den meisten englischen und europäischen Texten platzsparend ist, den die Zeichen mit diesen Codepunkten(Zeichen des ASCII) kommen mit Abstand am häufigsten vor. Weitere Verfahren sind etwa: SCSU, BOCU undPunycode. Komplexe Schemes können zwischen mehreren Varianten wechseln (ISO/IEC 2022).Um die Reihenfolge der Bytes in einer code unit unmissverständlich anzugeben, wird oft eine BOM (byte ordermark) vorangestellt (0xEF,0xBB,0xBF bei UTF-8; 0xFF, 0xFE bei UTF-16LE; 0xFE, 0xFF bei UTF-16BE).Ein Glyph ist eine grafische Darstellung eines einzelnen Schriftzeichens.Beispiel: Das chinesische Schriftzeichen für Berg, shan, 山 hat im Unicode den Codepunkt U+5C71 = 山 undbenötigt zur Darstellung 15 Bit. Mit UTF-16 als cef wird es als eine code unit abgelegt. Mit ces bigendian steht 5C,71 im Speicher, mit littleendian 71, 5C. Mit UTF-8 stehen die drei units E5, B1, B1 im Speicher. Das Glyph ist 山 .Zur Erleichterung für den verwirrten Leser sei noch angemerkt, dass die weitaus meisten Texte in einer der dreiUnicode-encodings UTF-8, UTF-16BE oder UTF-16LE gespeichert sind, was den Umgang mit Texten wesentlicherleichtert.Literatur• Jacques André: Caractères numériques: introduction. In: Cahiers GUTenberg. Bd. 26, Mai 1997, ISSN1257-2217 [1] , S. 5–44, (in französischer Sprache).• Yannis Haralambous: Fonts & encodings. From Unicode to advanced typography and everything in between.Übersetzt von P. Scott Horne. O'Reilly, Beijing u. a. 2007, ISBN 978-0-596-10242-5 (in englischer Sprache).• Peter Karow: Digitale Schriften. Darstellung und Formate. 2. verbesserte Auflage. Springer, Berlin u. a. 1992,ISBN 3-540-54917-X.• Mai-Linh Thi Truong, Jürgen Siebert, Erik Spiekermann (Hrsg.): FontBook. Digital Typeface Compendium (=FontBook 4). 4. überarbeitete und erweiterte Auflage. FSI FontShop International, Berlin 2006, ISBN3-930023-04-0 (in englischer Sprache).

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!