11.02.2013 Aufrufe

Aspekte der morphologischen Analyse des Deutschen - Universität ...

Aspekte der morphologischen Analyse des Deutschen - Universität ...

Aspekte der morphologischen Analyse des Deutschen - Universität ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />

Der Grund hierfür ist natürlich, daß das Fugenelement s zufällig ein Präfix <strong>des</strong> eigentlich als<br />

unbekannt anzusetzenden Wortteils stein ist. Darüber hinaus kann <strong>der</strong> Fall eintreten, daß<br />

Kandidaten für U-Kanten, die nicht den weiter unten dargelegten heuristischen Tests Genüge<br />

tun, erst gar nicht in den Chart eingefügt werden, mit dem Ergebnis, daß die gesamte<br />

<strong>Analyse</strong> durch den Chartparser scheitert.<br />

Es ist demnach wünschenswert, zwischen Affixen und Stämmen eine Gewichtung vorzunehmen.<br />

Hierzu ist eine Än<strong>der</strong>ung an Definition 4.1 d) vorzunehmen:<br />

(3)<br />

si keinen Teilstring z ∈ Lex enthält, so daß die z zugeordnete Beschreibung Desc von<br />

simple_stem subsumiert wird.<br />

Algorithmus 4.3 ist dann entsprechend so anzupassen, daß er auf <strong>der</strong> Suche nach Anschlußpunkten<br />

alle Kategorien bis auf solche vom Typ simple_stem „überspringt“.<br />

Weiterhin kann man Heuristiken einsetzen, um die Anzahl <strong>der</strong> eingefügten U-Kanten zu<br />

minimieren; schließlich bedeutet jede solche Kante für den Parser einen erhöhten <strong>Analyse</strong>aufwand.<br />

Alle in Zeile 9 <strong>des</strong> Algorithmus postulierten Segmente werden daher einer zweistufigen<br />

heuristischen Filterung unterworfen, die unplausible Kandidaten zurückweist:<br />

1. Enthält das Lexikon Elemente <strong>der</strong> geschlossenen Klassen (also Flexive, Affixe etc.) vollständig,<br />

so kann ein unbekannter Wortteil einer <strong>der</strong> drei Hauptklassen zugeordnet werden,<br />

die an <strong>der</strong> Wortbildung partizipieren – Nomen, Verben und Adjektive. Führt man<br />

zudem eine Min<strong>des</strong>tlänge für unbekannte Teile ein - unter <strong>der</strong> Voraussetzung, daß Listeme<br />

mit kleinerer Länge sämtlich im Lexikon verzeichnet sind, kann man das Postulieren<br />

„zu kurzer“ Segmente vom Typ unbekannt verhin<strong>der</strong>n.<br />

2. Die Graphemstruktur unbekannter Wortteile muß natürlich den Regularitäten <strong>des</strong> Silben-<br />

und Wortaufbaus im <strong>Deutschen</strong> unterliegen, die am besten wie<strong>der</strong>um in Form eines o<strong>der</strong><br />

mehrerer endlicher Automaten (o<strong>der</strong> Two-Level-Transducer) repräsentiert werden, womit<br />

dann vorgeschlagene Segmente mit unzulässigen Konsonantenabfolgen usw. unterdrückt<br />

werden können. Dieses Vorgehen kann natürlich nicht exakt sein, da <strong>der</strong> unbekannte<br />

Wortteil selbst wie<strong>der</strong>um komplex sein kann, ohne daß seine Teile im Lexikon<br />

stehen. An den Morphgrenzen zwischen diesen Teilen sind jedoch Laut- und indirekt<br />

damit Graphemkombinationen erlaubt, die innerhalb eines Simplexwortes nicht möglich<br />

wären. Dem könnte damit begegnet werden, daß man einen Automaten einsetzt, <strong>der</strong> den<br />

Silbenaufbau deutscher Wörter korrekt abbildet und <strong>der</strong> ε-Übergänge o<strong>der</strong> Übergänge,<br />

die mit Fugensymbolen etikettiert sind von seinen Endzuständen in den Startzustand besitzt.<br />

Ein solche Automat akzeptiert somit Folgen von Simplexwörtern, <strong>der</strong>en Teile untereinan<strong>der</strong><br />

möglicherweise durch Fugensymbole getrennt sind. Die einfachste Möglichkeit<br />

besteht jedoch darin, eine vollständige Liste <strong>der</strong> Silben im <strong>Deutschen</strong> heranzuziehen und<br />

damit zu überprüfen, ob das vorgeschlagene Segment aus einer Folge dieser Silben besteht.<br />

Hierbei wird jedoch außer Acht gelassen, daß nicht alle Silben an allen Positionen<br />

im Wort auftreten können. Eine weitere Variante, die bei <strong>der</strong> Implementierung <strong>des</strong> hier<br />

vorgestellten Systems ebenfalls weiter verfolgt wurde, ist die, aus einem in maschinenlesbarer<br />

Form vorliegenden Lexikon – beispielsweise <strong>der</strong> CELEX-Datenbank (Baayen et<br />

al. (1993)) alle monomorphematischen Stämme und Wurzeln zu extrahieren und in Form<br />

eines Tries zum Überprüfen von als unbekannt postulierten Wortsegmenten zu verwenden.<br />

Dies engt die Hypothesen auf tatsächlich vorkommende Stämme ein, ohne daß für<br />

jeden dieser Stämme ein voll ausdifferenzierter Lexikoneintrag vorliegen müßte. Wählt<br />

man diesen Weg, so gibt es allerdings noch eine effizientere Alternative. Man könnte alle<br />

Simplexwörter, für die kein Lexikoneintrag existiert, ebenso gleich in den segmentieren-<br />

108

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!