Aspekte der morphologischen Analyse des Deutschen - Universität ...
Aspekte der morphologischen Analyse des Deutschen - Universität ...
Aspekte der morphologischen Analyse des Deutschen - Universität ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
Der Grund hierfür ist natürlich, daß das Fugenelement s zufällig ein Präfix <strong>des</strong> eigentlich als<br />
unbekannt anzusetzenden Wortteils stein ist. Darüber hinaus kann <strong>der</strong> Fall eintreten, daß<br />
Kandidaten für U-Kanten, die nicht den weiter unten dargelegten heuristischen Tests Genüge<br />
tun, erst gar nicht in den Chart eingefügt werden, mit dem Ergebnis, daß die gesamte<br />
<strong>Analyse</strong> durch den Chartparser scheitert.<br />
Es ist demnach wünschenswert, zwischen Affixen und Stämmen eine Gewichtung vorzunehmen.<br />
Hierzu ist eine Än<strong>der</strong>ung an Definition 4.1 d) vorzunehmen:<br />
(3)<br />
si keinen Teilstring z ∈ Lex enthält, so daß die z zugeordnete Beschreibung Desc von<br />
simple_stem subsumiert wird.<br />
Algorithmus 4.3 ist dann entsprechend so anzupassen, daß er auf <strong>der</strong> Suche nach Anschlußpunkten<br />
alle Kategorien bis auf solche vom Typ simple_stem „überspringt“.<br />
Weiterhin kann man Heuristiken einsetzen, um die Anzahl <strong>der</strong> eingefügten U-Kanten zu<br />
minimieren; schließlich bedeutet jede solche Kante für den Parser einen erhöhten <strong>Analyse</strong>aufwand.<br />
Alle in Zeile 9 <strong>des</strong> Algorithmus postulierten Segmente werden daher einer zweistufigen<br />
heuristischen Filterung unterworfen, die unplausible Kandidaten zurückweist:<br />
1. Enthält das Lexikon Elemente <strong>der</strong> geschlossenen Klassen (also Flexive, Affixe etc.) vollständig,<br />
so kann ein unbekannter Wortteil einer <strong>der</strong> drei Hauptklassen zugeordnet werden,<br />
die an <strong>der</strong> Wortbildung partizipieren – Nomen, Verben und Adjektive. Führt man<br />
zudem eine Min<strong>des</strong>tlänge für unbekannte Teile ein - unter <strong>der</strong> Voraussetzung, daß Listeme<br />
mit kleinerer Länge sämtlich im Lexikon verzeichnet sind, kann man das Postulieren<br />
„zu kurzer“ Segmente vom Typ unbekannt verhin<strong>der</strong>n.<br />
2. Die Graphemstruktur unbekannter Wortteile muß natürlich den Regularitäten <strong>des</strong> Silben-<br />
und Wortaufbaus im <strong>Deutschen</strong> unterliegen, die am besten wie<strong>der</strong>um in Form eines o<strong>der</strong><br />
mehrerer endlicher Automaten (o<strong>der</strong> Two-Level-Transducer) repräsentiert werden, womit<br />
dann vorgeschlagene Segmente mit unzulässigen Konsonantenabfolgen usw. unterdrückt<br />
werden können. Dieses Vorgehen kann natürlich nicht exakt sein, da <strong>der</strong> unbekannte<br />
Wortteil selbst wie<strong>der</strong>um komplex sein kann, ohne daß seine Teile im Lexikon<br />
stehen. An den Morphgrenzen zwischen diesen Teilen sind jedoch Laut- und indirekt<br />
damit Graphemkombinationen erlaubt, die innerhalb eines Simplexwortes nicht möglich<br />
wären. Dem könnte damit begegnet werden, daß man einen Automaten einsetzt, <strong>der</strong> den<br />
Silbenaufbau deutscher Wörter korrekt abbildet und <strong>der</strong> ε-Übergänge o<strong>der</strong> Übergänge,<br />
die mit Fugensymbolen etikettiert sind von seinen Endzuständen in den Startzustand besitzt.<br />
Ein solche Automat akzeptiert somit Folgen von Simplexwörtern, <strong>der</strong>en Teile untereinan<strong>der</strong><br />
möglicherweise durch Fugensymbole getrennt sind. Die einfachste Möglichkeit<br />
besteht jedoch darin, eine vollständige Liste <strong>der</strong> Silben im <strong>Deutschen</strong> heranzuziehen und<br />
damit zu überprüfen, ob das vorgeschlagene Segment aus einer Folge dieser Silben besteht.<br />
Hierbei wird jedoch außer Acht gelassen, daß nicht alle Silben an allen Positionen<br />
im Wort auftreten können. Eine weitere Variante, die bei <strong>der</strong> Implementierung <strong>des</strong> hier<br />
vorgestellten Systems ebenfalls weiter verfolgt wurde, ist die, aus einem in maschinenlesbarer<br />
Form vorliegenden Lexikon – beispielsweise <strong>der</strong> CELEX-Datenbank (Baayen et<br />
al. (1993)) alle monomorphematischen Stämme und Wurzeln zu extrahieren und in Form<br />
eines Tries zum Überprüfen von als unbekannt postulierten Wortsegmenten zu verwenden.<br />
Dies engt die Hypothesen auf tatsächlich vorkommende Stämme ein, ohne daß für<br />
jeden dieser Stämme ein voll ausdifferenzierter Lexikoneintrag vorliegen müßte. Wählt<br />
man diesen Weg, so gibt es allerdings noch eine effizientere Alternative. Man könnte alle<br />
Simplexwörter, für die kein Lexikoneintrag existiert, ebenso gleich in den segmentieren-<br />
108