19.04.2013 Aufrufe

Erste Schritte mit XELATEX - Dante eV

Erste Schritte mit XELATEX - Dante eV

Erste Schritte mit XELATEX - Dante eV

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

18 <strong>Erste</strong> <strong>Schritte</strong> <strong>mit</strong> X E<br />

LATEX (pdf)TEX ist, wie bereits gesagt, 8-Bit-orientiert. Wie ein 8-Bit-Editor zerlegt<br />

es einen Eingabestrom in Oktetts. Es kann also maximal 256 Eingabezeichen<br />

unterscheiden. Wenn ein Eingabeoktett <strong>mit</strong> einer Null beginnt,<br />

geht (pdf)TEX davon aus, dass das entsprechende ASCII-Zeichen gemeint<br />

ist. Falls die Datei Oktetts außerhalb des ASCII-Bereichs enthält, braucht<br />

pdfTEX weitere Informationen. In L ATEX wird dazu das Paket inputenc benutzt:<br />

Das Paket «aktiviert» alle Nicht-ASCII-Zeichen, d. h. macht sie zu<br />

Befehlen. Anschließend kann diesen Befehlen eine sinnvolle Definition gegeben<br />

werden. (Nicht so sinnvolle Definitionen sind auch möglich: z. B. würde<br />

\DeclareInputText{128}{\,DM} in einem in cp1252-kodierten Text jedes Eurozeichen<br />

durch den «DM» ersetzen.)<br />

UTF-8<br />

Benutzt ein Editor UTF-8, wird ein Zeichen nicht in eine Bitfolge <strong>mit</strong> einer<br />

festen Länge übersetzt, sondern es werden für ein Zeichen ein oder mehrere<br />

Oktetts benutzt. Erlaubt sind derzeit bis zu vier Oktetts, wobei aber die<br />

4-Oktett-Zeichen selten benötigt werden. ASCII-Zeichen sind beispielsweise<br />

durch kurze 1-Oktett-Folgen kodiert, Umlaute wie «ä» oder «ü» sind 2-Oktett-<br />

Zeichen. Zur Kennzeichnung der Länge und der Bestandteile eines Zeichens<br />

benutzt UTF-8 sogenannte Start- und Folgebits:<br />

1-Oktett-Zeichen:<br />

2-Oktett-Zeichen:<br />

3-Oktett-Zeichen:<br />

1. Oktett<br />

←−−−−−−−−→<br />

←→<br />

0 XXXXXXX<br />

Startbit<br />

←−−−−→<br />

Codebits<br />

Startoktett<br />

←−−−−−−−→<br />

110 XXXXX<br />

←→ ←−−→<br />

Startbits Codebits<br />

Startoktett<br />

←−−−−−−−−−→<br />

1110 XXXX<br />

←−→<br />

Startbits<br />

←−→<br />

Codebits<br />

(ASCII-Zeichen)<br />

Folgeoktett<br />

←−−−−−−−→<br />

←→<br />

10 XXXXXX<br />

←−−−→<br />

FolgebitsCodebits<br />

Folgeoktett<br />

←−−−−−−−−→<br />

10 XXXXXX<br />

←→<br />

Folgebits<br />

Es ist wichtig, sich folgende Dinge zu merken:<br />

←−−−→<br />

Codebits<br />

Folgeoktett<br />

←−−−−−−−−→<br />

10 XXXXXX<br />

←→<br />

Folgebits<br />

←−−−→<br />

Codebits<br />

◦ Bei einer Textdatei, die nur ASCII-Zeichen enthält, ist es unwichtig, ob<br />

man sie als UTF-8 oder in einer beliebigen 8-Bit-Kodierung speichert.<br />

Das Ergebnis ist völlig identisch. Es ist auch egal, ob man sie in einem<br />

UTF-8- oder 8-Bit-Editor öffnet: Beide werden das Gleiche anzeigen. Das<br />

ist ziemlich beruhigend, weil es bedeutet, dass X E<br />

TEX <strong>mit</strong> den meisten<br />

LATEX-Styles keine Probleme haben wird.<br />

Die TEXnische Komödie 3/2008

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!