11.02.2013 Aufrufe

Aspekte der morphologischen Analyse des Deutschen - Universität ...

Aspekte der morphologischen Analyse des Deutschen - Universität ...

Aspekte der morphologischen Analyse des Deutschen - Universität ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />

hierbei das Problem, daß das Verfahren von Aho/Corasick nicht garantiert, daß die Segmente<br />

das Gesamtwort partitionieren; es ist vielmehr möglich, daß Segmente sich überlappen,<br />

dies ist ja geradezu <strong>der</strong> prototypische Fall <strong>der</strong> Anwendung dieses Automatentyps.<br />

Formal ist <strong>der</strong> segmentierende Automat durch ein 7-Tupel beschrieben.<br />

Die ersten fünf Tupelkomponenten sind wie beim (deterministischen) endlichen<br />

Automaten definiert:<br />

Σ dem Automatenalphabet (hier also aus den Symbolen <strong>der</strong> Zielsprache Deutsch<br />

{ a,...,z,ä,ö,ü,ß,-} bestehend)<br />

S eine Menge von Zuständen<br />

Q0 q0 ∈ S, dem Anfangszustand <strong>des</strong> Automaten<br />

goto eine (totale) Übergangsfunktion S × Σ � S ∪ { fail }; <strong>der</strong> Funktionswert ist , fail für<br />

alle Symbole aus Σ, für die kein Übergang definiert ist (entspricht <strong>der</strong> δ -Funktion<br />

eines endlichen Automaten)<br />

F F ⊆ S, <strong>der</strong> Menge <strong>der</strong> Endzustände <strong>des</strong> Automaten<br />

Hinzu kommen zwei weitere Funktionen:<br />

ƒ die sog. failure-Funktion S � S<br />

Σ* Σ*<br />

output die Ausgabefunktion oS : � 2 ;<br />

×<br />

die erste Komponente in einem 2-Tupel in output(s) ist <strong>der</strong> Name <strong>des</strong><br />

<strong>morphologischen</strong> Paradigmas, die zweite enthält einen Schlüssel in dieses Paradigma.<br />

Bei trivialen Paradigmen ohne Allomorphie ist die zweite Komponente ε.<br />

Die nachfolgende Abbildung zeigt einen Beispielautomaten nach dem Einfügen <strong>der</strong> Lexeme<br />

tausch- 5 , Tausch, Stau, Staub, staun-, Becken, Ecke, –s– (Fugenelement) und -n (Flexiv). Unterschiede<br />

hinsichtlich Groß- und Kleinschreibung werden hierbei nicht berücksichtigt, da sie<br />

nicht signifikant sind: Einerseits werden normalerweise klein geschriebene Wörter am Satzanfang<br />

groß geschrieben, während das Umgekehrte bei Wörtern/Stämmen gilt, die innerhalb<br />

von komplexen Wörtern stehen.<br />

5 Um das Beispiel einfach zu halten, wird darauf verzichtet, in die Ausgabefunktion ein Schlüsselpaar<br />

aufzunehmen; es wird lediglich das im Automaten repräsentierte Morph angegeben.<br />

95

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!