Griechische Schrift für den Computer - Siebener Kurier
Griechische Schrift für den Computer - Siebener Kurier
Griechische Schrift für den Computer - Siebener Kurier
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Hanna-Chris Gast "<strong>Griechische</strong> <strong>Schrift</strong> <strong>für</strong> <strong>den</strong> <strong>Computer</strong>" 2. Auflage, Berlin 2011, http://www.siebener-kurier.de/chris-aufsaetze<br />
6 <strong>Griechische</strong> Buchstaben im Internet<br />
Für Griechisch kenne ich leider keine spezielle Untersuchung, welche Codierung <strong>für</strong><br />
Webseiten mit griechischer Sprache am häufigsten ist. Griechisch sind etwa 0,3 %<br />
aller Internetseiten, "ISO-8859-7" (griechisch) gibt es bei ungefähr 0,1 % aller<br />
Internetseiten insgesamt und "Windows-1253" (griechisch) bei ungefähr 0,1 % aller<br />
Internetseiten insgesamt.<br />
UTF-8 wird in 53,2 % aller Internetseiten verwendet und ist damit insgesamt die<br />
häufigste Codierung im Internet [37]. Ob nun bei <strong>Griechische</strong>n Seiten UTF-8<br />
häufiger ist als ISO oder Windows, lässt sich daraus nicht ableiten, da die Werte <strong>für</strong><br />
eine statistische Auswertung nicht ausreichen.<br />
Eine eigene Suche mit der Google-Spezialsuche nach Texten in griechischer<br />
Sprache<br />
– "Content-Type: text/html; charset=iso-8859-7" ca 51 500 mal,<br />
104 und der jeweiligen Textzeile ergab:<br />
– "Content-Type: text/html; charset=UTF-8": ca 220 000 mal,<br />
– "Content-Type: text/html; charset=windows-1253" ca 20 700 mal,<br />
Folglich wird auch bei griechischen Internetseiten UTF-8 am häufigsten verwendet.<br />
6.1 Codierung UTF-8<br />
UTF-8 bedeutet "8-bit UCS Transformation Format" und ist heute die im Internet am<br />
häufigsten angewendete Codierung [37]. Die Berechnung von UTF-8 aus <strong>den</strong><br />
Unicode-Werten in ISO/IEC 10646:2011, Anhang D, genormt.<br />
Bei der Übertragung von Texten mit UTF-8 entstehen weniger Fehler als bei der<br />
direkten Unicode-Codierung. Das erste Byte bei einem Mehrbyte-Code beginnt mit<br />
soviel Einsen (binär) vor der ersten Null, wie der Code insgesamt Bytes hat 105 . Die<br />
Folgebytes beginnen mit "10" (binär). Hexadezimal ausgedrückt bedeutet das, dass<br />
das erste Byte Werte von (hex.) "C0" bis "FD" enthalten kann und die Folgebytes<br />
Werte von (hex) "80" bis "BF". Auf diese Weise ist die UTF-8-Übertragung stabiler<br />
gegen verloren gegangene Bytes und erlaubt eine leichtere Synchronisation als die<br />
direkte Unicode-Übertragung.<br />
Ausnahme sind die Unicode-Zeichen mit Codes von Null bis 7F (hexadezimal). In<br />
diesem Bereich ist UTF-8 i<strong>den</strong>tisch mit ASCII. Die Bytes (hex.) 00 bis 7F sind bei<br />
UTF-8 außerdem reserviert ausschließlich <strong>für</strong> <strong>den</strong> ASCII-Bereich, so dass es keine<br />
Verwechslung mit höheren Unicode-Werten geben kann, wenn bei der Übertragung<br />
mal ein Byte verloren geht.<br />
104 Abfrage 3. Juli 2010.<br />
105 1 Byte mit 8 Bit, auch "Oktett" genannt, ist in der hexadezimalen Darstellung eine Kombination<br />
114<br />
aus zwei Zeichen von Null bis F.