Aspekte der morphologischen Analyse des Deutschen - Universität ...
Aspekte der morphologischen Analyse des Deutschen - Universität ...
Aspekte der morphologischen Analyse des Deutschen - Universität ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
hierbei das Problem, daß das Verfahren von Aho/Corasick nicht garantiert, daß die Segmente<br />
das Gesamtwort partitionieren; es ist vielmehr möglich, daß Segmente sich überlappen,<br />
dies ist ja geradezu <strong>der</strong> prototypische Fall <strong>der</strong> Anwendung dieses Automatentyps.<br />
Formal ist <strong>der</strong> segmentierende Automat durch ein 7-Tupel beschrieben.<br />
Die ersten fünf Tupelkomponenten sind wie beim (deterministischen) endlichen<br />
Automaten definiert:<br />
Σ dem Automatenalphabet (hier also aus den Symbolen <strong>der</strong> Zielsprache Deutsch<br />
{ a,...,z,ä,ö,ü,ß,-} bestehend)<br />
S eine Menge von Zuständen<br />
Q0 q0 ∈ S, dem Anfangszustand <strong>des</strong> Automaten<br />
goto eine (totale) Übergangsfunktion S × Σ � S ∪ { fail }; <strong>der</strong> Funktionswert ist , fail für<br />
alle Symbole aus Σ, für die kein Übergang definiert ist (entspricht <strong>der</strong> δ -Funktion<br />
eines endlichen Automaten)<br />
F F ⊆ S, <strong>der</strong> Menge <strong>der</strong> Endzustände <strong>des</strong> Automaten<br />
Hinzu kommen zwei weitere Funktionen:<br />
ƒ die sog. failure-Funktion S � S<br />
Σ* Σ*<br />
output die Ausgabefunktion oS : � 2 ;<br />
×<br />
die erste Komponente in einem 2-Tupel in output(s) ist <strong>der</strong> Name <strong>des</strong><br />
<strong>morphologischen</strong> Paradigmas, die zweite enthält einen Schlüssel in dieses Paradigma.<br />
Bei trivialen Paradigmen ohne Allomorphie ist die zweite Komponente ε.<br />
Die nachfolgende Abbildung zeigt einen Beispielautomaten nach dem Einfügen <strong>der</strong> Lexeme<br />
tausch- 5 , Tausch, Stau, Staub, staun-, Becken, Ecke, –s– (Fugenelement) und -n (Flexiv). Unterschiede<br />
hinsichtlich Groß- und Kleinschreibung werden hierbei nicht berücksichtigt, da sie<br />
nicht signifikant sind: Einerseits werden normalerweise klein geschriebene Wörter am Satzanfang<br />
groß geschrieben, während das Umgekehrte bei Wörtern/Stämmen gilt, die innerhalb<br />
von komplexen Wörtern stehen.<br />
5 Um das Beispiel einfach zu halten, wird darauf verzichtet, in die Ausgabefunktion ein Schlüsselpaar<br />
aufzunehmen; es wird lediglich das im Automaten repräsentierte Morph angegeben.<br />
95