11.02.2013 Aufrufe

Aspekte der morphologischen Analyse des Deutschen - Universität ...

Aspekte der morphologischen Analyse des Deutschen - Universität ...

Aspekte der morphologischen Analyse des Deutschen - Universität ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />

Suffix von Becken ist. Allgemeiner gefaßt enthält die Ausgabefunktion für einen Zustand s<br />

neben dem Eintrag σ, <strong>der</strong> von s charakterisiert wird (s.u.) auch alle echten Suffixe von σ.<br />

Beispiel 4.2: <strong>Analyse</strong> <strong>des</strong> Wortes „Staubecken“<br />

Durchlaufene<br />

Zustandsfolge:<br />

Ausgegebene<br />

Segmente:<br />

0 7 8 9 10 11 13<br />

(=f(11))<br />

14 15 16 17 18<br />

↓ ↓ ↓ ↓ ↓<br />

s Stau Staub Ecke Becken,n<br />

Aho/Corasick (1975) haben gezeigt, daß bei einer Wortlänge von n höchstens 2n Zustände 6<br />

durchlaufen werden, d.h. das Durchlaufen <strong>der</strong> Automatenzustände ist von <strong>der</strong> Ordnung<br />

O(n). Die aufwendigste Operation <strong>des</strong> Algorithmus 4.1 ist die mit { *1* } gekennzeichnete<br />

Zeile. Im schlechtesten Fall muß die Ausgabefunktion für einen Zustand Verweise für alle in<br />

den Automaten eingefügten Morpheme ausgeben, d.h. <strong>der</strong> Algorithmus hat hierfür einen<br />

Zeitbedarf, <strong>der</strong> linear proportional zur Summe <strong>der</strong> Längen aller eingefügten Verweise ist<br />

(Aho/Corasick (1975), Theorem 3), wobei zu beachten ist, daß die Komplexität dieser Ausgabe<br />

nicht von n, <strong>der</strong> Länge <strong>des</strong> zu analysierenden Wortes abhängt. Dieser schlechteste Fall<br />

ist im Fall <strong>der</strong> Anwendung <strong>des</strong> Automaten für die morphologische <strong>Analyse</strong> sehr unwahrscheinlich<br />

(dies hieße nämlich, daß es einen Zustand s gibt, <strong>der</strong> eine Zeichenkette z charakterisiert,<br />

die alle Lexeme <strong>des</strong> <strong>Deutschen</strong> als Suffixe enthält).<br />

Eine weitere Frage ist noch zu klären: Ein Kriterium für die Konzeption <strong>des</strong> <strong>Analyse</strong>modells<br />

war, es auf einem <strong>der</strong> bekannten Automatenmodelle zu basieren, vorzugsweise auf dem<br />

Modell endlicher Automaten. Die failure-Funktion <strong>des</strong> segmentierenden Automaten scheint<br />

nun aus diesem Rahmen herauszufallen. Dies ist jedoch nicht <strong>der</strong> Fall, da es ohne weiteres<br />

möglich ist, den Automaten mit seiner failure-Funktion in einen deterministischen endlichen<br />

Automaten mit Ausgabefunktion umzuwandeln. Der entsprechende Algorithmus hierfür ist<br />

in Anhang A wie<strong>der</strong>gegeben. Der Grund, warum diese Determinisierung <strong>des</strong> Segmentierers<br />

nicht durchgeführt wird, ist <strong>der</strong>, daß sich dadurch die Anzahl <strong>der</strong> Zustandsübergänge stark<br />

erhöhen kann. Dies ist ein Umstand, <strong>der</strong> für das ursprüngliche Problem <strong>der</strong> Suche mit einer<br />

relativen kleinen Menge von Schlüsselwörtern in einem größeren Text ohne Relevanz ist,<br />

beim Problem von sehr vielen Schlüsselwörtern (in <strong>der</strong> Größenordnung einiger zehntausend)<br />

jedoch deutlich zu Buche schlagen kann. Beispiel 4.3 veranschaulicht die deterministische<br />

Version <strong>des</strong> Automaten aus Abb. 4.1. Die Determinisierung kommt durch Ausrechnen<br />

<strong>des</strong> Gesamteffekts <strong>der</strong> failure-Funktion zustande.<br />

Beispiel 4.3: Der Automat aus Abb. 4.1 als deterministischer Automat<br />

Die zu einer Relation umgewandelte δ-Funktion <strong>des</strong> deterministischen Automaten weist bei<br />

einem Alphabet S={ a-z, ä, ö, ü, ß, - } 744 Tupel auf, davon führen 132 zu Zuständen ungleich<br />

0. Demgegenüber enthalten goto- und failure-Funktion <strong>des</strong> Beispielautomaten zusammen 72<br />

Tupel, also ca. 1/10 davon. Die Ausgabefunktion ist in beiden Fällen gleich.<br />

6 Diese Zahl setzt sich zusammen aus n goto–Übergängen und höchstens n Aufrufen <strong>der</strong> failure–<br />

Funktion, da für jeden Zustand s <strong>der</strong> Zustand f(s) dem Startzustand „näher“ ist als s selbst.<br />

98

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!