Aspekte der morphologischen Analyse des Deutschen - Universität ...
Aspekte der morphologischen Analyse des Deutschen - Universität ...
Aspekte der morphologischen Analyse des Deutschen - Universität ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
zung von Regularitäten <strong>der</strong> unterschiedlichsten Art soviel Informationen wie möglich über<br />
sie zu erschließen. Sobald die so erzeugten unvollständigen Lexikoneinträge eine gewisses<br />
Maß an Spezifizität erreichen, kann man erwägen, sie in das Listemlexikon aufzunehmen,<br />
was eine Aktualisierung <strong>des</strong> Automaten nach sich ziehen muß. Die Frage ist nun, wie aufwendig<br />
dieser Vorgang ist, d.h. inwieweit eventuell sogar <strong>der</strong> ganze Automat davon betroffen<br />
sein kann.<br />
Die Aktualisierung <strong>der</strong> Übergangsfunktion goto ist unproblematisch, da hierbei höchstens so<br />
viele neue Zustände und Übergänge erzeugt werden müssen, wie das neu einzufügende<br />
Listem lang ist. Ist kein Präfix <strong>des</strong> neuen Listems im Automaten verzeichnet (gibt es also für<br />
das erste Wortsymbol keinen Übergang vom Startzustand <strong>des</strong> Automaten in einen an<strong>der</strong>en,<br />
vom Startzustand verschiedenen Zustand), so muß zudem aus <strong>der</strong> Startzustandsschleife <strong>der</strong><br />
Übergang für das erste Wortsymbol entfernt werden.<br />
Die Neuanpassung <strong>der</strong> failure–Funktion ist u.U. aufwendiger. Über die Berechnung <strong>der</strong><br />
Funktionswerte für die neu erzeugten Zustände hinaus können auch an<strong>der</strong>e failure–Werte<br />
von einer Än<strong>der</strong>ung betroffen sein. Das folgende Theorem charakterisiert die Zustände, für<br />
die die failure–Funktion geän<strong>der</strong>t werden muß. Zuvor muß jedoch noch ein Hilfsbegriff eingeführt<br />
werden.<br />
Definition 4.2: Charakterisierung<br />
Ein Automatenzustand s charakterisiert eine Kette w, gdw. sich w aus <strong>der</strong> Verkettung <strong>der</strong><br />
Label entlang <strong>des</strong> Pfads vom Startzustand zum Zustand s ergibt. Man schreibt hierfür auch<br />
String(s) = w.<br />
Theorem 4.1<br />
Das neu einzufügende Listem sei w = δβ, wobei δ (möglicherweise ε) <strong>der</strong> Teil sei, bei dem<br />
bereits vorhandene Übergänge verfolgt werden und β≠ε <strong>der</strong>jenige sei, für den neue Automatenzustände<br />
und -übergänge eingeführt werden müssen. Dann muß die failure-Funktion<br />
(außer für die Zustände, die für β eingefügt wurden) für genau die Zustände s aktualisiert<br />
werden, für die gilt:<br />
s charakterisiert eine Folge von Symbolen αδγ (α ≠ ε) und es gibt Ketten π (möglicherweise ε),<br />
so daß gilt: β=γπ.<br />
Beweisskizze:<br />
δ<br />
α<br />
q<br />
β<br />
γ π<br />
t<br />
δ p γ s<br />
Es gilt (vor und nach dem Einfügen <strong>der</strong> Zustände und Übergänge für β): failure(p) = q. Da<br />
allgemein gilt (aufgrund <strong>der</strong> Konstruktionsvorschrift von failure, siehe Anhang A): failure(δ*(r,σ))<br />
= δ*(failure(r), σ), ist auch failure(s) = t (mit r = p und σ = γ ).<br />
Das Zustände wie s die einzigen sind, <strong>der</strong>en failure-Funktionswerte aktualisiert werden<br />
müssen, ist ebenfalls leicht zu sehen.<br />
114