21.11.2013 Aufrufe

Ein Computerlinguistisches Lexikon als komplexes System

Ein Computerlinguistisches Lexikon als komplexes System

Ein Computerlinguistisches Lexikon als komplexes System

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

9<br />

<br />

¡<br />

<br />

¡<br />

¦<br />

¨§2©§ "<br />

<br />

¡<br />

<br />

9<br />

§<br />

:<br />

9<br />

¦<br />

9<br />

¦<br />

§<br />

:<br />

¦<br />

Vorhandene <strong>Lexikon</strong>-<strong>System</strong>e<br />

linguistisch adäquat behandelt werden können, wiegt diesen Nachteil deutlich<br />

auf: Erst mit einem fundierten <strong>Lexikon</strong>modell ist eine umfangreiche strukturierte<br />

und konsistente Erweiterung eines <strong>Lexikon</strong>s zu erreichen. Ohne ein solches<br />

Modell wären weder die Wartbarkeit noch eine hohe Qualität der Ressource<br />

möglich.<br />

5.2 CELEX<br />

Die CELEX Lexical Database (vgl. Baayen et al. (1995); CELEX (1995a)) ist eine<br />

Sammlung von Dateien, die für etwa 365 000 Wortformen des Deutschen (das<br />

entspricht 51 000 Lemmata) Informationen zu Orthographie, Phonologie, Morphologie,<br />

Syntax sowie Vorkommenshäufigkeit in mehreren Korpora enthalten.<br />

Zu jedem der fünf Bereiche existiert eine ausführliche Dokumentation (vgl. Gulikers<br />

et al. (1995)). Die der Ressource zugrundeliegenden Korpora stammen<br />

vom Institut für Kommunikationsforschung und Phonetik (IKP) in Bonn und<br />

vom Institut für deutsche Sprache (IDS) in Mannheim.<br />

5.2.1 Die Struktur der Ressource<br />

Die Anordnung der Daten in den CELEX-Dateien geschieht zeilenweise: <strong>Ein</strong>zelinformationen<br />

zu jeweils einem Lemma oder einer Wortform sind je Zeile durch<br />

einen Schrägstrich voneinander getrennt. Die Lemmata sind durchlaufend von<br />

1 (A) bis 51 728 (Zytostom) numeriert. Diese Nummer verweist bei jedem Wortformeintrag<br />

auf das dazugehörige Lemma. Da die Ressource ursprünglich in<br />

Form einer relationalen Datenbank vorlag, sind die Dateien wie Abbildungen<br />

von Datenbanktabellen in Textdateien vorstellbar und die laufende Nummer<br />

wie eine eindeutige Identifikations-Nummer (ID).<br />

In den folgenden Tabellen ist für die drei Lexeme Haus , Häuschen und<br />

Häuserblock dargestellt, welche und wie die zugehörige linguistische Information<br />

in CELEX repräsentiert wird. Zur Illustration spezieller Merkmalbelegungen<br />

werden teilweise weitere Lexeme oder Wortformen hinzugenommen.<br />

2<br />

2<br />

¨§2<br />

¢¡8<br />

¡¤£¦¥¢¡¡8<br />

¡¡¡8<br />

¡8<br />

¡<br />

¡<br />

<br />

2<br />

" ¡<br />

2<br />

2<br />

¢<br />

¡ ©§<br />

¡ ©§<br />

¡<br />

¡<br />

¡¡<br />

¡<br />

¡<br />

£¡"789;:¡<br />

2"<br />

§?<br />

2<br />

§?"<br />

¢¡"789;:¡">¡789;:¡789;:¡><br />

£¨£<br />

¡"728"9 :<br />

¥¡"789 :<br />

¡>¡789;:<br />

¡789;:<br />

¡><br />

¢¡<br />

2<br />

¢©§ <br />

<br />

¡¢¡<br />

<br />

¢©§ <br />

<br />

¡"728"9<br />

¡">¡728"9 :<br />

¡"728"9<br />

¡"><br />

£¨£¦¢¡"728"9 :<br />

Abbildung 5.2: CELEX. Deutsche Orthographie, Lemma<br />

Abbildung 5.2 zeigt fünf Orthographie-<strong>Ein</strong>träge (aus der Datei , German<br />

Orthography, Lemmas). Für Haus ist ¤¤<br />

die laufende Nummer, die in allen<br />

66

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!