21.11.2013 Aufrufe

Ein Computerlinguistisches Lexikon als komplexes System

Ein Computerlinguistisches Lexikon als komplexes System

Ein Computerlinguistisches Lexikon als komplexes System

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

<strong>Ein</strong>leitung<br />

Zeitung Jahrgänge Korpusgröße in Tokens<br />

Frankfurter Rundschau (FR) 1992 - 1993 40,6 Millionen<br />

Stuttgarter Zeitung (STZ) 1991 - 1993 36,2 Millionen<br />

VDI-Nachrichten (VDI) 1990 - 1991 0,2 Millionen<br />

tageszeitung (TAZ) 1988 - 1994 111,3 Millionen<br />

German Law (Gesetzestexte) k.A. 5,7 Millionen<br />

Donaukurier (DK) 1992 - 1993 8,4 Millionen<br />

Computerzeitung (CZ) 1993 - 1994 2,1 Millionen<br />

gesamt: HGC 1988 - 1994 204,5 Millionen<br />

Abbildung 1.3: Die Bestandteile des HGC<br />

eingeschränkt, die sich aus den Buchstaben des deutschen Alphabets mit Hinzunahme<br />

des französischen é 3 zusammensetzen, <strong>als</strong>o a-z, ä, ö, ü in Klein- und<br />

Großschreibung sowie ß und é. 4 Von den 204 Millionen Tokens sind dies 166<br />

Millionen oder 81% aller Tokens des HGC. Diese verteilen sich auf 2,1 Millionen<br />

Types. Somit umfasst die Datengrundlage für das in dieser Arbeit beschriebene<br />

<strong>Lexikon</strong>- und Morphologiesystem 2,1 Millionen Types. 5<br />

Für Textkorpora gilt der Grundsatz der large number of rare events. Dieser<br />

besagt, dass eine große Anzahl Types sehr geringe Tokenhäufigkeiten aufweist,<br />

während einige wenige Types sehr hohe Tokenfrequenzen haben. Nach Zipfs<br />

Gesetz gilt, dass der Rang einer Wortform in einer nach Häufigkeit absteigend<br />

sortierten Liste umgekehrt proportional seiner Vorkommenshäufigkeit ist (vgl.<br />

Zipf (1949), Baayen (2001)). Im HGC äußert sich das dergestalt, dass 1,1 Millionen<br />

(53%) der 2,1 Millionen Types Hapax Legomena (griechisch für ’einmal<br />

Gesagtes’) oder abkürzend Hapaxe sind, <strong>als</strong>o Types, die nur genau einmal im<br />

Korpus vorkommen. Dies verweist noch einmal auf die oben angegebene Motivation:<br />

Bei diesen 1,1 Millionen Wortformen handelt es sich zum größten Teil<br />

um morphologisch komplexe Wörter.<br />

Die Liste der 2,1 Millionen Wortformen und Häufigkeiten, nach Häufigkeiten<br />

absteigend sortiert, wird im weiteren Verlauf dieser Arbeit <strong>als</strong> HGC-<br />

Wortliste bezeichnet.<br />

3 é ist das einzige fremde Zeichen, das in eingedeutschten Fremdwörtern wie Café, Varieté<br />

häufiger vorkommt.<br />

4 <strong>Ein</strong>e ausführliche Analyse von “Sonderformen” und “Mischformen”, <strong>als</strong>o solchen, die sich<br />

nicht ausschließlich aus Buchstaben zusammensetzen, wird in Maier-Meyer (1995), S. 109ff.,<br />

vorgenommen.<br />

5 Unter den 2,1 Millionen Wortformen kommen sehr viele Schreibfehler, fremdsprachiges<br />

Material und textsortenspezifische Formen (in Zeitungstexten z.B. Korrespondentenkürzel) vor,<br />

deren Behandlung nicht Gegenstand der Morphologie ist. Die Datengrundlage umfasst dennoch<br />

weit mehr <strong>als</strong> eine Million Wortformen, die jeweils eine Analyse erhalten sollen.<br />

8

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!