Aspekte der morphologischen Analyse des Deutschen - Universität ...
Aspekte der morphologischen Analyse des Deutschen - Universität ...
Aspekte der morphologischen Analyse des Deutschen - Universität ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
Suffix von Becken ist. Allgemeiner gefaßt enthält die Ausgabefunktion für einen Zustand s<br />
neben dem Eintrag σ, <strong>der</strong> von s charakterisiert wird (s.u.) auch alle echten Suffixe von σ.<br />
Beispiel 4.2: <strong>Analyse</strong> <strong>des</strong> Wortes „Staubecken“<br />
Durchlaufene<br />
Zustandsfolge:<br />
Ausgegebene<br />
Segmente:<br />
0 7 8 9 10 11 13<br />
(=f(11))<br />
14 15 16 17 18<br />
↓ ↓ ↓ ↓ ↓<br />
s Stau Staub Ecke Becken,n<br />
Aho/Corasick (1975) haben gezeigt, daß bei einer Wortlänge von n höchstens 2n Zustände 6<br />
durchlaufen werden, d.h. das Durchlaufen <strong>der</strong> Automatenzustände ist von <strong>der</strong> Ordnung<br />
O(n). Die aufwendigste Operation <strong>des</strong> Algorithmus 4.1 ist die mit { *1* } gekennzeichnete<br />
Zeile. Im schlechtesten Fall muß die Ausgabefunktion für einen Zustand Verweise für alle in<br />
den Automaten eingefügten Morpheme ausgeben, d.h. <strong>der</strong> Algorithmus hat hierfür einen<br />
Zeitbedarf, <strong>der</strong> linear proportional zur Summe <strong>der</strong> Längen aller eingefügten Verweise ist<br />
(Aho/Corasick (1975), Theorem 3), wobei zu beachten ist, daß die Komplexität dieser Ausgabe<br />
nicht von n, <strong>der</strong> Länge <strong>des</strong> zu analysierenden Wortes abhängt. Dieser schlechteste Fall<br />
ist im Fall <strong>der</strong> Anwendung <strong>des</strong> Automaten für die morphologische <strong>Analyse</strong> sehr unwahrscheinlich<br />
(dies hieße nämlich, daß es einen Zustand s gibt, <strong>der</strong> eine Zeichenkette z charakterisiert,<br />
die alle Lexeme <strong>des</strong> <strong>Deutschen</strong> als Suffixe enthält).<br />
Eine weitere Frage ist noch zu klären: Ein Kriterium für die Konzeption <strong>des</strong> <strong>Analyse</strong>modells<br />
war, es auf einem <strong>der</strong> bekannten Automatenmodelle zu basieren, vorzugsweise auf dem<br />
Modell endlicher Automaten. Die failure-Funktion <strong>des</strong> segmentierenden Automaten scheint<br />
nun aus diesem Rahmen herauszufallen. Dies ist jedoch nicht <strong>der</strong> Fall, da es ohne weiteres<br />
möglich ist, den Automaten mit seiner failure-Funktion in einen deterministischen endlichen<br />
Automaten mit Ausgabefunktion umzuwandeln. Der entsprechende Algorithmus hierfür ist<br />
in Anhang A wie<strong>der</strong>gegeben. Der Grund, warum diese Determinisierung <strong>des</strong> Segmentierers<br />
nicht durchgeführt wird, ist <strong>der</strong>, daß sich dadurch die Anzahl <strong>der</strong> Zustandsübergänge stark<br />
erhöhen kann. Dies ist ein Umstand, <strong>der</strong> für das ursprüngliche Problem <strong>der</strong> Suche mit einer<br />
relativen kleinen Menge von Schlüsselwörtern in einem größeren Text ohne Relevanz ist,<br />
beim Problem von sehr vielen Schlüsselwörtern (in <strong>der</strong> Größenordnung einiger zehntausend)<br />
jedoch deutlich zu Buche schlagen kann. Beispiel 4.3 veranschaulicht die deterministische<br />
Version <strong>des</strong> Automaten aus Abb. 4.1. Die Determinisierung kommt durch Ausrechnen<br />
<strong>des</strong> Gesamteffekts <strong>der</strong> failure-Funktion zustande.<br />
Beispiel 4.3: Der Automat aus Abb. 4.1 als deterministischer Automat<br />
Die zu einer Relation umgewandelte δ-Funktion <strong>des</strong> deterministischen Automaten weist bei<br />
einem Alphabet S={ a-z, ä, ö, ü, ß, - } 744 Tupel auf, davon führen 132 zu Zuständen ungleich<br />
0. Demgegenüber enthalten goto- und failure-Funktion <strong>des</strong> Beispielautomaten zusammen 72<br />
Tupel, also ca. 1/10 davon. Die Ausgabefunktion ist in beiden Fällen gleich.<br />
6 Diese Zahl setzt sich zusammen aus n goto–Übergängen und höchstens n Aufrufen <strong>der</strong> failure–<br />
Funktion, da für jeden Zustand s <strong>der</strong> Zustand f(s) dem Startzustand „näher“ ist als s selbst.<br />
98