06.01.2013 Aufrufe

Griechische Schrift für den Computer - Siebener Kurier

Griechische Schrift für den Computer - Siebener Kurier

Griechische Schrift für den Computer - Siebener Kurier

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Hanna-Chris Gast "<strong>Griechische</strong> <strong>Schrift</strong> <strong>für</strong> <strong>den</strong> <strong>Computer</strong>" 2. Auflage, Berlin 2011, http://www.siebener-kurier.de/chris-aufsaetze<br />

6 <strong>Griechische</strong> Buchstaben im Internet<br />

Für Griechisch kenne ich leider keine spezielle Untersuchung, welche Codierung <strong>für</strong><br />

Webseiten mit griechischer Sprache am häufigsten ist. Griechisch sind etwa 0,3 %<br />

aller Internetseiten, "ISO-8859-7" (griechisch) gibt es bei ungefähr 0,1 % aller<br />

Internetseiten insgesamt und "Windows-1253" (griechisch) bei ungefähr 0,1 % aller<br />

Internetseiten insgesamt.<br />

UTF-8 wird in 53,2 % aller Internetseiten verwendet und ist damit insgesamt die<br />

häufigste Codierung im Internet [37]. Ob nun bei <strong>Griechische</strong>n Seiten UTF-8<br />

häufiger ist als ISO oder Windows, lässt sich daraus nicht ableiten, da die Werte <strong>für</strong><br />

eine statistische Auswertung nicht ausreichen.<br />

Eine eigene Suche mit der Google-Spezialsuche nach Texten in griechischer<br />

Sprache<br />

– "Content-Type: text/html; charset=iso-8859-7" ca 51 500 mal,<br />

104 und der jeweiligen Textzeile ergab:<br />

– "Content-Type: text/html; charset=UTF-8": ca 220 000 mal,<br />

– "Content-Type: text/html; charset=windows-1253" ca 20 700 mal,<br />

Folglich wird auch bei griechischen Internetseiten UTF-8 am häufigsten verwendet.<br />

6.1 Codierung UTF-8<br />

UTF-8 bedeutet "8-bit UCS Transformation Format" und ist heute die im Internet am<br />

häufigsten angewendete Codierung [37]. Die Berechnung von UTF-8 aus <strong>den</strong><br />

Unicode-Werten in ISO/IEC 10646:2011, Anhang D, genormt.<br />

Bei der Übertragung von Texten mit UTF-8 entstehen weniger Fehler als bei der<br />

direkten Unicode-Codierung. Das erste Byte bei einem Mehrbyte-Code beginnt mit<br />

soviel Einsen (binär) vor der ersten Null, wie der Code insgesamt Bytes hat 105 . Die<br />

Folgebytes beginnen mit "10" (binär). Hexadezimal ausgedrückt bedeutet das, dass<br />

das erste Byte Werte von (hex.) "C0" bis "FD" enthalten kann und die Folgebytes<br />

Werte von (hex) "80" bis "BF". Auf diese Weise ist die UTF-8-Übertragung stabiler<br />

gegen verloren gegangene Bytes und erlaubt eine leichtere Synchronisation als die<br />

direkte Unicode-Übertragung.<br />

Ausnahme sind die Unicode-Zeichen mit Codes von Null bis 7F (hexadezimal). In<br />

diesem Bereich ist UTF-8 i<strong>den</strong>tisch mit ASCII. Die Bytes (hex.) 00 bis 7F sind bei<br />

UTF-8 außerdem reserviert ausschließlich <strong>für</strong> <strong>den</strong> ASCII-Bereich, so dass es keine<br />

Verwechslung mit höheren Unicode-Werten geben kann, wenn bei der Übertragung<br />

mal ein Byte verloren geht.<br />

104 Abfrage 3. Juli 2010.<br />

105 1 Byte mit 8 Bit, auch "Oktett" genannt, ist in der hexadezimalen Darstellung eine Kombination<br />

114<br />

aus zwei Zeichen von Null bis F.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!