21.11.2013 Aufrufe

Ein Computerlinguistisches Lexikon als komplexes System

Ein Computerlinguistisches Lexikon als komplexes System

Ein Computerlinguistisches Lexikon als komplexes System

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

5.3 CISLEX<br />

schen mit morphologischer, syntaktischer und semantischer Information.” (CIS-<br />

LEX (o.J.)).<br />

Das CISLEX ist die von den vorgestellten Ressourcen am besten dokumentierte.<br />

Drei Dissertationen allein beschäftigen sich mit den Themen der automatischen<br />

Lemmatisierung (vgl. Maier-Meyer (1995); hier findet eine Dokumentation<br />

des Bestandes an Wortarten in CISLEX statt), der semantischen Klassifikation<br />

der Substantive (Langer (1996); hier wird eine vollständige Ontologie entwickelt,<br />

in die alle Substantive aus CISLEX eingefügt werden) und der syntaktischen<br />

und semantischen Beschreibung der Verbklassen (Schnorbusch (1998)).<br />

5.3.1 Aufbau und Inhalt des CISLEX<br />

Das CISLEX ist entsprechend der Unterscheidung von vier Typen von Wortformen<br />

modular aufgebaut. Die vier Typen sind “[e]infache und komplexe Wortformen”,<br />

“Eigennamen aus den verschiedensten Bereichen”, “Fremd- und Fachwörter”<br />

sowie “Kurz- und Sonderformen” (Maier-Meyer (1995), S. 26). Die vier<br />

korrespondierenden Lexika sind “das deutsche Kernlexikon”, “das Namenslexikon”,<br />

“das Fremd- und Fachwörterbuch” und “das <strong>Lexikon</strong> der Sonderformen”<br />

(ebd.). Der <strong>Lexikon</strong>aufbau und die <strong>Lexikon</strong>erweiterung erfolgten mit<br />

Hilfe von Wortlisten und Korpora: “Auf der Basis von verfügbaren Wortlisten<br />

wurde ein Grundstock von Lemmata angelegt, der zum einen durch den Vergleich<br />

mit gängigen Wörterbüchern und zum anderen durch Korpusuntersuchungen<br />

ständig aktualisiert und erweitert wird.” (Maier-Meyer (1995), S. 30)<br />

Die vier Hauptlexika sind jeweils wieder in Teillexika unterteilt. So gibt es<br />

im Kernlexikon ein <strong>Lexikon</strong> der einfachen Formen, eines der erweiterten einfachen<br />

Formen, eines der komplexen Formen und eines schließlich der flektierten<br />

Formen. “Bei der Aufteilung in ein <strong>Lexikon</strong> der einfachen Formen und ein <strong>Lexikon</strong><br />

der komplexen Formen geht es lediglich um eine möglichst effiziente und<br />

möglichst redundanzfreie Darstellung des ausgewählten Wortschatzes.” (Maier-<br />

Meyer (1995), S. 31) Diese dient dann einer möglichst effizienten kaskadierten<br />

morphologischen Verarbeitung von Wortformen: Zur morphologischen Analyse<br />

kann zunächst geschaut werden, ob die Wortform bei den flektierten einfachen<br />

Formen zu finden ist (das entspricht dem Nachschauen in der Vollformenliste).<br />

Dann wird von rechts nach links versucht, eine flektierte einfache Form<br />

abzutrennen, auf ihre Grundform zurückzuführen und wiederum zu schauen,<br />

ob die komplexe Grundform im <strong>Lexikon</strong> der komplexen Formen vorhanden ist.<br />

Erst danach wird bei Misserfolg ein Zerlegungsalgorithmus angewandt.<br />

Die Unterscheidung von einfachen und komplexen Formen entspricht nicht<br />

ganz der Aufteilung in Simplizia und Wortbildungen: “[D]ie häufigsten Suffixe<br />

[werden] <strong>als</strong> spezielle Kategorien” in das <strong>Lexikon</strong> der einfachen Formen aufgenommen<br />

(vgl. Maier-Meyer (1995), S. 32). Suffixbildungen, die nicht mit<br />

einem dieser Suffixe stattfinden, gelten <strong>als</strong>o <strong>als</strong> einfache Formen. Präfigierun-<br />

73

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!