Erste Schritte mit XELATEX - Dante eV
Erste Schritte mit XELATEX - Dante eV
Erste Schritte mit XELATEX - Dante eV
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
18 <strong>Erste</strong> <strong>Schritte</strong> <strong>mit</strong> X E<br />
LATEX (pdf)TEX ist, wie bereits gesagt, 8-Bit-orientiert. Wie ein 8-Bit-Editor zerlegt<br />
es einen Eingabestrom in Oktetts. Es kann also maximal 256 Eingabezeichen<br />
unterscheiden. Wenn ein Eingabeoktett <strong>mit</strong> einer Null beginnt,<br />
geht (pdf)TEX davon aus, dass das entsprechende ASCII-Zeichen gemeint<br />
ist. Falls die Datei Oktetts außerhalb des ASCII-Bereichs enthält, braucht<br />
pdfTEX weitere Informationen. In L ATEX wird dazu das Paket inputenc benutzt:<br />
Das Paket «aktiviert» alle Nicht-ASCII-Zeichen, d. h. macht sie zu<br />
Befehlen. Anschließend kann diesen Befehlen eine sinnvolle Definition gegeben<br />
werden. (Nicht so sinnvolle Definitionen sind auch möglich: z. B. würde<br />
\DeclareInputText{128}{\,DM} in einem in cp1252-kodierten Text jedes Eurozeichen<br />
durch den «DM» ersetzen.)<br />
UTF-8<br />
Benutzt ein Editor UTF-8, wird ein Zeichen nicht in eine Bitfolge <strong>mit</strong> einer<br />
festen Länge übersetzt, sondern es werden für ein Zeichen ein oder mehrere<br />
Oktetts benutzt. Erlaubt sind derzeit bis zu vier Oktetts, wobei aber die<br />
4-Oktett-Zeichen selten benötigt werden. ASCII-Zeichen sind beispielsweise<br />
durch kurze 1-Oktett-Folgen kodiert, Umlaute wie «ä» oder «ü» sind 2-Oktett-<br />
Zeichen. Zur Kennzeichnung der Länge und der Bestandteile eines Zeichens<br />
benutzt UTF-8 sogenannte Start- und Folgebits:<br />
1-Oktett-Zeichen:<br />
2-Oktett-Zeichen:<br />
3-Oktett-Zeichen:<br />
1. Oktett<br />
←−−−−−−−−→<br />
←→<br />
0 XXXXXXX<br />
Startbit<br />
←−−−−→<br />
Codebits<br />
Startoktett<br />
←−−−−−−−→<br />
110 XXXXX<br />
←→ ←−−→<br />
Startbits Codebits<br />
Startoktett<br />
←−−−−−−−−−→<br />
1110 XXXX<br />
←−→<br />
Startbits<br />
←−→<br />
Codebits<br />
(ASCII-Zeichen)<br />
Folgeoktett<br />
←−−−−−−−→<br />
←→<br />
10 XXXXXX<br />
←−−−→<br />
FolgebitsCodebits<br />
Folgeoktett<br />
←−−−−−−−−→<br />
10 XXXXXX<br />
←→<br />
Folgebits<br />
Es ist wichtig, sich folgende Dinge zu merken:<br />
←−−−→<br />
Codebits<br />
Folgeoktett<br />
←−−−−−−−−→<br />
10 XXXXXX<br />
←→<br />
Folgebits<br />
←−−−→<br />
Codebits<br />
◦ Bei einer Textdatei, die nur ASCII-Zeichen enthält, ist es unwichtig, ob<br />
man sie als UTF-8 oder in einer beliebigen 8-Bit-Kodierung speichert.<br />
Das Ergebnis ist völlig identisch. Es ist auch egal, ob man sie in einem<br />
UTF-8- oder 8-Bit-Editor öffnet: Beide werden das Gleiche anzeigen. Das<br />
ist ziemlich beruhigend, weil es bedeutet, dass X E<br />
TEX <strong>mit</strong> den meisten<br />
LATEX-Styles keine Probleme haben wird.<br />
Die TEXnische Komödie 3/2008