Aspekte der morphologischen Analyse des Deutschen - Universität ...
Aspekte der morphologischen Analyse des Deutschen - Universität ...
Aspekte der morphologischen Analyse des Deutschen - Universität ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
Die Hauptfunktion <strong>des</strong> Parsers ist durch folgende Funktion Parse() gegeben:<br />
Eingabe Das zu analysierende Wort Word<br />
Ausgabe Eine Menge von <strong>Analyse</strong>n<br />
Datenstrukturen<br />
Eine Wortgrammatik WordGrammar<br />
Eine Chart-Datenstruktur Chart<br />
Ein Segmentierer Segmentizer<br />
Verfahren function parse(Word:): <br />
begin<br />
Chart.Init_Chart<br />
% convert Word into a list of atoms, e.g. 'Hi' becomes ['H',i]<br />
Symbollist := atom_to_atomlist(Word)<br />
% shift the found segments into the chart<br />
Segmentizer.Insert_segments_into_chart(Symbollist,Word)<br />
% check whether it's necessary to insert "unknown"-segments<br />
% after the last lexical segment<br />
Chart.Complete_Chart(Word),<br />
% find all edges spanning the whole word<br />
return(Chart.Generate_Structures(WordGrammar.Startcat,|Word|)).<br />
end<br />
Die Funktion Insert_segments_into_chart() ist im wesentlichen durch Algorithmus 4.1 gegeben;<br />
lediglich die durch {*1} markierte Zeile wird durch einen Shift()-Aufruf für das Segment<br />
(s.o.) ersetzt. Die Funktion Complete_Chart() fügt weitere "unknown"-Segmente in den Chart<br />
ein, für den Fall, daß das zuletzt gefundene Segment kein Suffix <strong>des</strong> zu analysierenden<br />
Wortes ist. Generate_Structures() schließlich erzeugt alle möglichen <strong>Analyse</strong>n aus dem Chart.<br />
Eine Prolog-Implementierung dieses Verfahrens befindet sich in Anhang C.<br />
4.3.2 Behandlung unbekannter Segmente<br />
Die Grundidee, Strukturanalyse eines Wortes auch dann fortzuführen, wenn Teile von ihm<br />
nicht im Lexikon aufgeführt sind, besteht darin, diese Wortteile als „unbekannt“ zu markieren,<br />
sie mit einer unterspezifizierten grammatischen Kategorie zu versehen und sie dann<br />
während <strong>des</strong> Wortstrukturparsings wie „normale“ lexikalische Segmente zu behandeln.<br />
Aufgrund <strong>der</strong> Nichtdirektionalität <strong>des</strong> gewählten Grammatikformalismus können diese<br />
speziellen Kanten dann mit Hilfe ihres Kontextes im Wort, <strong>der</strong> angewandten grammatischen<br />
Regeln und Prinzipien weiter instantiiert werden, so daß sie, wenn diese Instantiierung ein<br />
bestimmtes Maß erreicht hat, in einen speziellen Teil <strong>des</strong> Lexikons, <strong>der</strong> Morphemhypothesen<br />
enthält, aufgenommen werden können.<br />
Wie im nächsten, <strong>der</strong> Wortgrammatik gewidmeten Kapitel noch näher ausgeführt wird, sind<br />
im Lexikon alle Elemente <strong>der</strong> offenen Klassen, also <strong>der</strong> Klassen, die in <strong>der</strong> Hauptsache an<br />
<strong>der</strong> Wortbildung beteiligt sind, mit <strong>der</strong> <strong>morphologischen</strong> Kategorie simple_stem markiert, so<br />
daß auch unbekannte Wortteile dieser Kategorie zugeordnet werden. Der Grund für die<br />
Wahl gerade dieser Kategorie liegt natürlich darin, daß sich alle an<strong>der</strong>en Wortbildungskategorien<br />
wie Präfixe, Suffixe und Flexive ohne großen Aufwand vollständig im Lexikon erfassen<br />
lassen.<br />
104