21.11.2013 Aufrufe

Ein Computerlinguistisches Lexikon als komplexes System

Ein Computerlinguistisches Lexikon als komplexes System

Ein Computerlinguistisches Lexikon als komplexes System

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

3.2 Morphologiesysteme<br />

einen endlichen Automaten dient, ist für Erweiterungen allein die Möglichkeit<br />

der Hinzufügung von Stamm/Flexionsklasse-Paaren vorgesehen. Weitergehende<br />

Informationen lassen sich nur schwer integrieren. Dies führt z.B. dazu, dass<br />

eine vorhandene (semantische) Unterteilung der Personennamen in Vor- und<br />

Nachnamen im Flexionsklassenbezeichner kodiert wird. Diese Vermischung linguistischer<br />

Beschreibungsebenen in den zur Verfügung stehenden Mitteln (<strong>als</strong>o<br />

den Sublexika) erschwert die Transparenz des Gesamtsystems und damit die<br />

Erweiterbarkeit erheblich.<br />

3.2.2 Aspekte von Morphologiesystemen<br />

Die Leistungsfähigkeit von Morphologiesystemen lässt sich anhand einiger<br />

Aspekte definieren. Diese sind Effizienz, Korrektheit, Robustheit, Abdeckung und<br />

Spezifizität (vgl. Abbildung 3.20, entnommen von Vortragsfolien zum Thema<br />

Sprachtechnologie von Hans Uszkoreit, vgl. Uszkoreit (2000), Folie 20).<br />

efficiency<br />

accuracy<br />

robustness<br />

coverage<br />

specifity<br />

geringer Zeit- und Speicherbedarf<br />

Fähigkeit, linguistisch korrekte Lösungen zu finden<br />

Fähigkeit, mit allen möglichen <strong>Ein</strong>gaben fertigzuwerden<br />

größtmögliche Abdeckung der Sprache<br />

Fähigkeit, die richtige Analyse zu selegieren<br />

Abbildung 3.20: Performanzkriterien nach Uszkoreit<br />

Die Effizienz besagt zum einen, wie viele Wortformen in welcher Zeitspanne<br />

analysiert werden können, und zum anderen, wieviel Speicher dabei zur<br />

Laufzeit und für die Daten benötigt wird. Bei den auf der Morpholympics vorgestellten<br />

<strong>System</strong>en variierte der Zeitbedarf von einigen tausend Wortformen<br />

pro Sekunde bis hinunter zu weniger <strong>als</strong> 10 Wortformen pro Sekunde (vgl.<br />

Hausser (1996), S. 13), ein Unterschied, der sich bei der automatischen morphologischen<br />

Analyse eines Korpus mit mehreren Millionen Wortformen durchaus<br />

bemerkbar macht. Der Speicherbedarf ist heutzutage nicht mehr entscheidend,<br />

da Festplattengrößen im Gigabytebereich (ein Gigabyte entspricht 1024<br />

Megabyte) und Hauptspeicher im Bereich mehrerer hundert Megabytes liegen:<br />

Der Speicherbedarf für Regeln und Lexika im DMOR-<strong>System</strong> liegt bei ungefähr<br />

einem Megabyte (vgl. Schiller (1996), S. 48).<br />

Korrektheit ist ein relativer Begriff. Hundertprozentige Korrektheit kann ein<br />

Morphologiesystem nicht erreichen, wenn es keine allgemein anerkannte Theorie<br />

der Morphologie gibt. Solange umstritten ist, was genau eine Konversion ist<br />

und was nicht, kann kein <strong>System</strong> für sich reklamieren, Konversionen generell<br />

analysieren zu können. Neben der Theorie müssen insbesondere die Anforderungen<br />

der einer morphologischen Analyse nachfolgenden Komponenten berücksichtigt<br />

werden.<br />

43

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!