24.02.2013 Aufrufe

Einf ¨uhrung in UNIX - CIS

Einf ¨uhrung in UNIX - CIS

Einf ¨uhrung in UNIX - CIS

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

2.7 Writer’s Workbench 121<br />

halb kann e<strong>in</strong> entsprechend ausgestatteter Bildschirm oder Drucker dasselbe<br />

Textfile e<strong>in</strong>mal mit amerikanischen ASCII-Zeichen ausgeben, e<strong>in</strong> andermal<br />

mit deutschen ASCII-Zeichen. Werden bei E<strong>in</strong>- und Ausgabe unterschiedliche<br />

Zeichensätze verwendet, gibt es Zeichensalat. Andersherum gesagt: Wenn ich<br />

e<strong>in</strong>en Text ausgebe, muß ich die Codetafel der E<strong>in</strong>gabe kennen.<br />

Spendiert man e<strong>in</strong> Bit mehr, so lassen sich 2 8 = 256 Zeichen darstellen.<br />

Das ist der bessere Weg. Hewlett-Packard hat die nationalen Sonderzeichen<br />

den Nummern 128 bis 255 zugeordnet und so den Zeichensatz ROMAN8<br />

geschaffen, dessen untere Hälfte mit dem ASCII-Zeichensatz identisch ist.<br />

Das hat den Vorzug, daß re<strong>in</strong>e ASCII-Texte genau so verarbeitet werden<br />

wie ROMAN8-Texte. Leider hat sich diese Codetafel nicht allgeme<strong>in</strong> durchgesetzt.<br />

Die Firma IBM hat schon frühzeitig bei größeren Anlagen den Extended<br />

B<strong>in</strong>ary Coded Decimal Interchange Code EBCDIC mit acht Bits verwendet,<br />

der aber nirgends mit ASCII übere<strong>in</strong>stimmt. Hätte sich diese Codetafel statt<br />

ASCII durchgesetzt, wäre uns Europäern e<strong>in</strong>ige Mühe erspart geblieben.<br />

Die <strong>in</strong>ternationale Normen-Organisation ISO hat mehrere 8-bit-<br />

Zeichensätze festgelegt, von denen e<strong>in</strong>er unter dem Namen Lat<strong>in</strong>-1 nach ISO<br />

8859-1 Verbreitung gewonnen hat, vor allem <strong>in</strong> weltweiten Netzdiensten. Se<strong>in</strong>e<br />

untere Hälfte ist wieder mit US-ASCII identisch, die obere enthält die<br />

Sonderzeichen west- und mitteleuropäischer Sprachen. Polnische und tschechische<br />

Sonderzeichen s<strong>in</strong>d <strong>in</strong> Lat<strong>in</strong>-2 nach ISO 8859-2 enthalten, siehe Anhang<br />

Lat<strong>in</strong>-1 und Lat<strong>in</strong>-2 ab Seite 279. Kyrillische Zeichen s<strong>in</strong>d <strong>in</strong> ISO 8859-<br />

5, griechische <strong>in</strong> ISO 8859-7 beschrieben (nicht als Lat<strong>in</strong>-* bezeichnet; Lat<strong>in</strong>-5<br />

ist Türkisch nach ISO 8859-9).<br />

Die Lat<strong>in</strong>-Zeichensätze enthalten außer dem gewohnten Zwischenraumzeichen<br />

(space) e<strong>in</strong> <strong>in</strong> Textverarbeitungen oft benötigtes Zeichen für e<strong>in</strong>en<br />

Zwischenraum, bei dem ke<strong>in</strong> Zeilenumbruch erfolgen darf (Lat<strong>in</strong>-1 Nr. 160,<br />

no-break space). In LaTeX wird hierfür die Tilde verwendet, <strong>in</strong> HTML die Entity<br />

&nbsp;. Dieses Zeichen kommt beispielsweise zwischen Zahl und Maße<strong>in</strong>heit<br />

oder zwischen den Initialen e<strong>in</strong>es Namens vor.<br />

Bei ihren PCs schließlich wollte IBM außer nationalen Sonderzeichen<br />

auch e<strong>in</strong>ige Halbgrafikzeichen wie Mondgesichter, Herzchen, Noten und L<strong>in</strong>ien<br />

unterbr<strong>in</strong>gen und schuf e<strong>in</strong>en weiteren Zeichensatz IBM-PC, der <strong>in</strong> se<strong>in</strong>em<br />

Kern mit ASCII übere<strong>in</strong>stimmt, ansonsten aber weder mit EBCDIC noch<br />

mit ROMAN8.<br />

Auch wenn die Ausgabegeräte 8-bit-Zeichensätze kennen, ist noch nicht<br />

sicher, daß man die Sonderzeichen benutzen kann. Die Programme müssen<br />

ebenfalls mitspielen. Der hergebrachte vi(1)-Editor, die curses(3)-<br />

Bibliothek für Bildschirmfunktionen und e<strong>in</strong>ige Email-Programme verarbeiten<br />

nur 7-bit-Zeichen. Erst jüngere Versionen von <strong>UNIX</strong> mit Native Language<br />

Support unterstützen 8-bit-Zeichensätze voll. Textverarbeitende Software,<br />

die 8-bit-Zeichensätze verträgt, wird als 8-bit-clean bezeichnet. Bei<br />

Textübertragungen zwischen Computern (Email) ist Mißtrauen angebracht.<br />

Die Konsequenz heißt <strong>in</strong> kritischen Fällen Beschränkung auf 7-bit-US-ASCII.<br />

Was macht man, wenn es zu viele Standards gibt? Man erf<strong>in</strong>det e<strong>in</strong>en neu-

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!