21.11.2013 Aufrufe

Ein Computerlinguistisches Lexikon als komplexes System

Ein Computerlinguistisches Lexikon als komplexes System

Ein Computerlinguistisches Lexikon als komplexes System

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

3.2 Morphologiesysteme<br />

3.2 Morphologiesysteme<br />

Nachdem in den vorangegangenen Abschnitten beschrieben wurde, wie mit<br />

Finite-State-Transducern die morphologische Analyse vonstatten geht und wie<br />

insbesondere Zwei-Ebenen-<strong>System</strong>e die Vorteile der schnellen und effizienten<br />

Verarbeitung in Finite-State-Technik mit der Eleganz der linguistischen Beschreibungsmöglichkeiten<br />

morphologischer Prozesse vereinen, wird in diesem<br />

Abschnitt ein Zwei-Ebenen-Morphologiesystem beschrieben. Dafür wurde das<br />

<strong>System</strong> DMOR ausgewählt, das die Datengrundlage für das in dieser Arbeit beschriebene<br />

<strong>Lexikon</strong> IMSLEX bildet.<br />

Unterschiede in der Behandlung von Fugenelementen oder Wortbildungsmustern<br />

ändern nichts daran, dass im Endeffekt jedes Morphologiesystem die<br />

Zerlegung einer Wortform in ihre morphosyntaktischen Merkmale vollzieht. Die<br />

Unterschiede ergeben sich im Detail, durch die Liberalität von Wortbildungsregeln<br />

und die Auswahl der <strong>Ein</strong>heiten, die im internen <strong>Lexikon</strong> des <strong>System</strong>s<br />

abgelegt werden.<br />

Im Anschluss an die Beschreibung von DMOR werden einige Aspekte zur<br />

Bewertung der Performanz von Morphologiesystemen vorgestellt, die später in<br />

dieser Arbeit helfen werden, die Qualität des <strong>Lexikon</strong>s zu bewerten.<br />

3.2.1 DMOR – ein Zwei-Ebenen-<strong>System</strong><br />

Bei DMOR handelt es sich um die Implementierung einer Zwei-Ebenen-<br />

Morphologie für das Deutsche, die <strong>als</strong> Finite-State-Transducer realisiert ist (vgl.<br />

Abschnitt 3.1.2). Das <strong>System</strong> wurde in Schiller (1996) vorgestellt. Es besteht<br />

aus einem <strong>Lexikon</strong>teil und einer Sammlung von Zwei-Ebenen-Regeln, die gemeinsam<br />

in einen endlichen Automaten kompiliert werden. DMOR behandelt<br />

Flexion und Komposition. Derivation ist in DMOR nur für zwei eingeschränkte<br />

Bereiche realisiert: Movierung (Sammler Sammlerin; Schwabe<br />

Schwäbin) und Adjektivbildung bei Städtenamen (Stuttgart Stuttgarter<br />

Stuttgarterin). Diese beiden Anwendungsbereiche sind bereits in den Flexionsklassen<br />

der Substantive markiert (Movierung durch =in im Flexionsklassenbezeichner,<br />

vgl. Tabelle 3.19). Alle anderen Derivationen müssen in den Lexika<br />

aufgelistet werden. 7<br />

Die DMOR-Lexika sind nach Wortarten gegliedert auf Dateien verteilt.<br />

Fachsprachliche Substantive und geographische Namen werden gesondert<br />

behandelt. Die nicht-flektierenden Klassen Adverbien, Adpositionen, Konjunktionen,<br />

Interjektionen, Partikeln werden in einer Datei zusammengefasst.<br />

7 Die Gruppe der Derivationen auf -ung, -heit, -keit, -ion, -(i)tät, -schaft ist aufgrund ihres<br />

gleichartigen Flexionsverhaltens in einer $¢¡¤£%¤£¦¥¤£¦¥<br />

Flexionsklasse versammelt, wird aber<br />

nicht weiter <strong>als</strong> Derivation gekennzeichnet. Dies gilt analog für Derivationen auf -chen und<br />

-lein mit der Flexionsklasse NNeut-Dimin.<br />

31

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!