11.02.2013 Aufrufe

Aspekte der morphologischen Analyse des Deutschen - Universität ...

Aspekte der morphologischen Analyse des Deutschen - Universität ...

Aspekte der morphologischen Analyse des Deutschen - Universität ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />

Die Hauptfunktion <strong>des</strong> Parsers ist durch folgende Funktion Parse() gegeben:<br />

Eingabe Das zu analysierende Wort Word<br />

Ausgabe Eine Menge von <strong>Analyse</strong>n<br />

Datenstrukturen<br />

Eine Wortgrammatik WordGrammar<br />

Eine Chart-Datenstruktur Chart<br />

Ein Segmentierer Segmentizer<br />

Verfahren function parse(Word:): <br />

begin<br />

Chart.Init_Chart<br />

% convert Word into a list of atoms, e.g. 'Hi' becomes ['H',i]<br />

Symbollist := atom_to_atomlist(Word)<br />

% shift the found segments into the chart<br />

Segmentizer.Insert_segments_into_chart(Symbollist,Word)<br />

% check whether it's necessary to insert "unknown"-segments<br />

% after the last lexical segment<br />

Chart.Complete_Chart(Word),<br />

% find all edges spanning the whole word<br />

return(Chart.Generate_Structures(WordGrammar.Startcat,|Word|)).<br />

end<br />

Die Funktion Insert_segments_into_chart() ist im wesentlichen durch Algorithmus 4.1 gegeben;<br />

lediglich die durch {*1} markierte Zeile wird durch einen Shift()-Aufruf für das Segment<br />

(s.o.) ersetzt. Die Funktion Complete_Chart() fügt weitere "unknown"-Segmente in den Chart<br />

ein, für den Fall, daß das zuletzt gefundene Segment kein Suffix <strong>des</strong> zu analysierenden<br />

Wortes ist. Generate_Structures() schließlich erzeugt alle möglichen <strong>Analyse</strong>n aus dem Chart.<br />

Eine Prolog-Implementierung dieses Verfahrens befindet sich in Anhang C.<br />

4.3.2 Behandlung unbekannter Segmente<br />

Die Grundidee, Strukturanalyse eines Wortes auch dann fortzuführen, wenn Teile von ihm<br />

nicht im Lexikon aufgeführt sind, besteht darin, diese Wortteile als „unbekannt“ zu markieren,<br />

sie mit einer unterspezifizierten grammatischen Kategorie zu versehen und sie dann<br />

während <strong>des</strong> Wortstrukturparsings wie „normale“ lexikalische Segmente zu behandeln.<br />

Aufgrund <strong>der</strong> Nichtdirektionalität <strong>des</strong> gewählten Grammatikformalismus können diese<br />

speziellen Kanten dann mit Hilfe ihres Kontextes im Wort, <strong>der</strong> angewandten grammatischen<br />

Regeln und Prinzipien weiter instantiiert werden, so daß sie, wenn diese Instantiierung ein<br />

bestimmtes Maß erreicht hat, in einen speziellen Teil <strong>des</strong> Lexikons, <strong>der</strong> Morphemhypothesen<br />

enthält, aufgenommen werden können.<br />

Wie im nächsten, <strong>der</strong> Wortgrammatik gewidmeten Kapitel noch näher ausgeführt wird, sind<br />

im Lexikon alle Elemente <strong>der</strong> offenen Klassen, also <strong>der</strong> Klassen, die in <strong>der</strong> Hauptsache an<br />

<strong>der</strong> Wortbildung beteiligt sind, mit <strong>der</strong> <strong>morphologischen</strong> Kategorie simple_stem markiert, so<br />

daß auch unbekannte Wortteile dieser Kategorie zugeordnet werden. Der Grund für die<br />

Wahl gerade dieser Kategorie liegt natürlich darin, daß sich alle an<strong>der</strong>en Wortbildungskategorien<br />

wie Präfixe, Suffixe und Flexive ohne großen Aufwand vollständig im Lexikon erfassen<br />

lassen.<br />

104

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!