Aspekte der morphologischen Analyse des Deutschen - Universität ...
Aspekte der morphologischen Analyse des Deutschen - Universität ...
Aspekte der morphologischen Analyse des Deutschen - Universität ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Kapitel 1: Einführung<br />
L = { w | P 1 (w) � P 2 (w) � ... � P n (w) }<br />
Zu klären ist, welcher Art die oben verwendeten Prädikate P i sind. Dietrich (1973:21f) klassifiziert<br />
diese Prädikate in semantische, paradigmatische und strukturale. Paradigmatische<br />
Eigenschaften sind Wortklassenzugehörigkeit und Flexionsklasse, zu den strukturalen zählen<br />
syntaktische Anfor<strong>der</strong>ungen einer Wortform an ihre Umgebung, beispielsweise <strong>der</strong> Valenzrahmen.<br />
Zu unterscheiden ist zwischen dem Lemma und dem Lemmanamen. Das Lemma ist, wie oben<br />
definiert, eine Menge von Wortformen, die in einem bestimmten Verhältnis zueinan<strong>der</strong> stehen.<br />
Als Lemmanamen wählt man meist eine ausgezeichnete, merkmalsmäßig maximal<br />
unmarkierte Form (vgl. Gallmann (1990)) aus dem Lemma, die sog. Zitierform. Ziel <strong>der</strong><br />
Lemmatisierung ist, Wortformen im Text auf diese Zitierform zurückzuführen und gleichzeitig<br />
ihre für die jeweilige Anwendung relevanten Merkmale zu bestimmen. Die hierbei<br />
verwendeten Verfahren sind durchweg operational, d.h. in den <strong>Analyse</strong>mechansimus ist das<br />
sprachliche Wissen über Wortformen, Endungen einer Sprache etc. direkt hineinkodiert.<br />
Typischerweise wird ein Eingabewort von rechts nach links analysiert, wobei im allgemeinen<br />
abwechselnd Endungsgrapheme abgespalten und Lexikonzugriffe durchgeführt werden.<br />
Eine eigene Beschreibungsebene <strong>der</strong> sprachlichen Seite existiert nicht, das fertige Programm<br />
ist die Lemmatisierung. Der Kontrollfluß innerhalb dieses Programms wird üblicherweise<br />
durch Flußdiagramme dargestellt; Abb. 1.3 zeigt einen Ausschnitt aus Dietrich<br />
(1973: 172).<br />
Gegen die vorgeschlagenen Modelle und Methoden <strong>der</strong> Lemmatisierung können eine ganze<br />
Reihe von Einwänden gemacht werden.<br />
Zuallererst wird natürlich die selbst auferlegte Beschränkung auf die Behandlung <strong>der</strong> Flexion<br />
dem prinzipiell offenen Charakter <strong>der</strong> Lexika natürlicher Sprachen nicht gerecht. Verständlich<br />
ist dieses Defizit allerdings vor dem Hintergrund <strong>der</strong> Leistungsfähigkeit damaliger<br />
Rechenanlagen und dem Fehlen jeglicher konkreter Theorien zur Wortbildung.<br />
Ein weiterer Kritikpunkt läßt sich an <strong>der</strong> Prozeduralität <strong>der</strong> postulierten Modelle festmachen.<br />
Auch wenn diese generell begrüßt werden kann – Hockett (1954) hält die prozedurale<br />
Item-and-Process-Konzeption gegenüber dem (deklarativen) Item-and-Arrangement-Modell für<br />
überlegen – so stört doch ihr kaum restringierter Charakter. Wie oben schon beschrieben<br />
bestehen <strong>der</strong>artige <strong>Analyse</strong>verfahren nur aus einer Spezifikation <strong>des</strong> Kontrollflusses während<br />
<strong>der</strong> <strong>Analyse</strong>, <strong>der</strong> üblicherweise in Form eines Flußdiagrammes visualisiert wird. Die Verfahren<br />
selbst rekurrieren dabei nicht auf eine abstrakte Ebene eines <strong>der</strong> bekannten Automatenmodelle,<br />
um beispielsweise generelle Aussagen zur Kapazität und Komplexität zu machen,<br />
son<strong>der</strong>n überspringen diese Zwischenebene und beziehen sich gleich auf die zur Implementierung<br />
<strong>des</strong> Modells verwendeten Programmiersprache (bei den ersten Lemmatisierungsprogrammen<br />
war dies FORTRAN). Da Programmiersprachen dieser Art sämtlich turingmaschinenäquivalent<br />
sind, kommt das <strong>der</strong> Aussage gleich, daß Methoden zur <strong>morphologischen</strong><br />
<strong>Analyse</strong> diese Kapazität zwingend aufweisen müssen. Nun sind nicht wenige Autoren (z.B.<br />
Gazdar (1985)) <strong>der</strong> Ansicht, daß sich die Modelle <strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong> natürlicher<br />
Sprachen in Form von endlichen Automaten darstellen lassen (vgl. Abschnitt 1.2.1); es stellt<br />
sich also die Frage, warum man dann implizit Turingmaschinen dazu verwendet.<br />
Dem "Überfluß" an Prozeduralität in diesen Modellen steht ein Mangel an Deklarativität<br />
gegenüber. Die Lemmatisierungsalgorithmen <strong>der</strong> 70iger Jahre sind alle dadurch charakterisiert<br />
(vgl. z.B. Dietrichs (1973)), keine Unterscheidung zwischen Daten auf <strong>der</strong> einen Seite<br />
und Verfahren zur Manipulation dieser Daten auf <strong>der</strong> an<strong>der</strong>en Seite vorzunehmen. Dies<br />
führt dazu, daß es nur schwer möglich ist, die spezifizierten Algorithmen für die <strong>Analyse</strong><br />
an<strong>der</strong>er Sprachen zu adaptieren. Darüber hinaus ist es unmöglich, innerhalb <strong>der</strong> Lemmati-<br />
10