Aspekte der morphologischen Analyse des Deutschen - Universität ...
Aspekte der morphologischen Analyse des Deutschen - Universität ...
Aspekte der morphologischen Analyse des Deutschen - Universität ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
4 Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
Konzeptionell kann das Problem <strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong> in zwei Teilschritte zerlegt<br />
werden:<br />
1. Ein erster Schritt zerlegt das möglicherweise komplexe Wort in seine bekannten, d.h. im<br />
Lexikon verzeichneten Teile. Dieser Vorgang, im weiteren Segmentierung, Zerlegung o<strong>der</strong><br />
Partitionierung genannt, unterscheidet morphologische <strong>Analyse</strong>verfahren von solchen <strong>der</strong><br />
Satzsyntax, die mit geschriebener Sprache arbeiten. Bei letzteren genügt ein einfacher<br />
Tokenizer, <strong>der</strong> aufgrund <strong>der</strong> einfachen operationalen Definition von Wort – ein Wort ist<br />
alles, was zwischen Leerzeichen steht – diese Wörter auffindet.<br />
2. Ein zweiter Schritt, <strong>der</strong> mittels einer strukturellen <strong>Analyse</strong> feststellt, in welchen konfigurationellen<br />
Beziehungen die gefundenen Segmente stehen und wie sich die Merkmale <strong>des</strong><br />
Gesamtwortes aus den Merkmalen seiner Teile ergeben.<br />
Diese Unterglie<strong>der</strong>ung muß jedoch nicht zwangsläufig auch zu einer Sequentialität <strong>des</strong> Verfahrens<br />
führen, wie weiter unten deutlich wird.<br />
Die methodologische Grundlage <strong>des</strong> hier vorgestellten Modells bilden nun zwei Grundannahmen:<br />
• Die Segmentierungskomponente sollte so einfach und so effizient wie möglich sein; alle<br />
restlichen Aufgaben erledigt die strukturelle <strong>Analyse</strong>.<br />
• Soweit wie möglich sollen Techniken <strong>der</strong> Präkompilation genutzt werden, um einen<br />
möglichst großen Teil <strong>der</strong> <strong>Analyse</strong>last in <strong>der</strong> Kompilationsphase aufzufangen.<br />
Folgende Vorteile sollen sich aus einer <strong>der</strong>artigen Aufgabenteilung ergeben:<br />
• Die Effizienz <strong>der</strong> Segmentierung wird durch die Einfachheit <strong>des</strong> Algorithmus gesteigert.<br />
• Schnittstellenprobleme zwischen Segmentierungsverfahren und struktureller <strong>Analyse</strong>,<br />
die sich aufgrund <strong>der</strong> Verwendung unterschiedlicher Formalismen ergeben können,<br />
werden auf diese Weise vermieden 1 .<br />
Allerdings sind auch eventuelle Nachteile in Kauf zu nehmen:<br />
• Parsing ist im allgemeinen Fall komplexitätstheoretisch aufwendiger als das Erkennen<br />
von regulären Sprachen.<br />
• Parsverfahren für natürliche Sprachen neigen im allgemeinen zur Übergenerierung.<br />
Zum weiteren Aufbau dieses Kapitels: Abschnitt 4.2 geht auf die Funktionsweise <strong>des</strong> segmentierenden<br />
Automaten ein, während Abschnitt 4.3 sich dem verwendeten Parsverfahren<br />
widmet. Zunächst kommt aber die Organisation <strong>des</strong> Lexikons zur Sprache.<br />
1 Eine an<strong>der</strong>e Möglichkeit <strong>der</strong> Vermeidung solcher Schnittstellenprobleme besteht darin, die<br />
<strong>Analyse</strong>automaten im gleichen Formalismus zu repräsentieren wie die Wortgrammatik. Vgl. dazu<br />
beispielsweise die Arbeiten von Krieger et al. (1993).<br />
91