21.11.2013 Aufrufe

Ein Computerlinguistisches Lexikon als komplexes System

Ein Computerlinguistisches Lexikon als komplexes System

Ein Computerlinguistisches Lexikon als komplexes System

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Aufbau und Verwendung des IMSLEX<br />

in CISLEX oder eine Auszeichnung mit semantischen Verbklassen sind derzeit<br />

nicht geplant.<br />

Das letzte Modul schließlich enthält Informationen, die spezifisch für eine<br />

Kategorie sind. Bei Substantiven (und Substantivsuffixen) ist dies die Paradigmenkategorisierung<br />

Genus. Bei Adjektiven (und Adjektivsuffixen) ist es<br />

die Tatsache, ob ein Adjektiv nur attributiv oder prädikativ verwendet werden<br />

kann oder beides. Bei Derivationssuffixen sind hier die <strong>Ein</strong>schränkungen für<br />

die Wahl der Basen in Form von Merkmalen verzeichnet. Bei Präfixen gilt dies<br />

in eingeschränkter Form ebenso: Hier werden typische Verbpräfixe von solchen<br />

unterschieden, die sich mit Substantiven und Adjektiven verbinden. Bei den<br />

Verbpartikeln ist die Klasse nach Aldinger (2002) angegeben, und bei den Abkürzungen<br />

kann die ausgeschriebene Form verzeichnet werden.<br />

7.3.2 <strong>Ein</strong>ordnung in ein Wörterbuchmodell<br />

Heid führt fünf allgemeine Beschreibungskriterien für elektronische Wörterbücher<br />

auf (vgl. Heid (1997), S. 9ff.), die im Folgenden für die <strong>Ein</strong>ordnung<br />

von IMSLEX genutzt werden sollen: “Anwendungsorientierung”, “inhaltliche<br />

Beschreibung”, “formale Organisation”, “technische Eigenschaften” und “Zusammenhang<br />

[. . . ] mit anderen [. . . ] Ressourcen” (Heid (1997), S. 9).<br />

“[D]ie Anwendungsorientierung eines Wörterbuchs bezeichnet die angestrebte<br />

hauptsächliche Benutzung, die der Wörterbuchentwickler für das Wörterbuch<br />

vorsieht.” (ebd., S. 10) In Falle des IMSLEX handelt es sich um eine<br />

Ressource, die den Datenbestand für die Erzeugung eines <strong>System</strong>s zur automatischen<br />

morphologischen Analyse des Deutschen zur Verfügung stellt. Sie ist<br />

allerdings so flexibel und modular gestaltet, dass der in ihr gespeicherte Datenbestand<br />

auch von anderen computerlinguistischen Anwendungen genutzt<br />

werden kann.<br />

Bei der inhaltlichen Beschreibung “sind makrostrukturelle und mikrostrukturelle<br />

Aspekte zu unterscheiden” (ebd., S. 10). In der Makrostruktur enthält<br />

das <strong>Lexikon</strong> ca. 60 000 Lexeme zu Wortformen, die in einem großen Korpus<br />

deutschsprachiger Zeitungstexte vorkommen. Die Zeitungen stammen aus den<br />

Jahren 1988 bis 1994, und das Korpus umfasst 200 Millionen Token. Neben<br />

den Lexemen umfasst die Makrostruktur ca. 260 Derivationsaffixe. Mehrwortlexeme<br />

sind erst in Ansätzen vorhanden. Die Gruppierung der <strong>Ein</strong>träge geschieht<br />

nach Wortarten. In der Mikrostruktur wird differenziert nach Wortart<br />

und Flexionsklasse, weiterhin nach morphologischer Form (einfach oder komplex),<br />

Fähigkeit zur Selektion (Affix vs. Stamm) und Herkunft. Neben der orthographischen<br />

Form wird eine phonetische Transkription angegeben, weiterhin<br />

Flexions-, Derivations- und Kompositionsstammformen und schließlich Subkategorisierungsinformationen<br />

für Verben, Substantive und Adjektive. Eigennamen<br />

sind nach semantischen Kriterien gegliedert. Durch die Verwendung von<br />

114

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!