11.02.2013 Aufrufe

Aspekte der morphologischen Analyse des Deutschen - Universität ...

Aspekte der morphologischen Analyse des Deutschen - Universität ...

Aspekte der morphologischen Analyse des Deutschen - Universität ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Kapitel 1: Einführung<br />

L = { w | P 1 (w) � P 2 (w) � ... � P n (w) }<br />

Zu klären ist, welcher Art die oben verwendeten Prädikate P i sind. Dietrich (1973:21f) klassifiziert<br />

diese Prädikate in semantische, paradigmatische und strukturale. Paradigmatische<br />

Eigenschaften sind Wortklassenzugehörigkeit und Flexionsklasse, zu den strukturalen zählen<br />

syntaktische Anfor<strong>der</strong>ungen einer Wortform an ihre Umgebung, beispielsweise <strong>der</strong> Valenzrahmen.<br />

Zu unterscheiden ist zwischen dem Lemma und dem Lemmanamen. Das Lemma ist, wie oben<br />

definiert, eine Menge von Wortformen, die in einem bestimmten Verhältnis zueinan<strong>der</strong> stehen.<br />

Als Lemmanamen wählt man meist eine ausgezeichnete, merkmalsmäßig maximal<br />

unmarkierte Form (vgl. Gallmann (1990)) aus dem Lemma, die sog. Zitierform. Ziel <strong>der</strong><br />

Lemmatisierung ist, Wortformen im Text auf diese Zitierform zurückzuführen und gleichzeitig<br />

ihre für die jeweilige Anwendung relevanten Merkmale zu bestimmen. Die hierbei<br />

verwendeten Verfahren sind durchweg operational, d.h. in den <strong>Analyse</strong>mechansimus ist das<br />

sprachliche Wissen über Wortformen, Endungen einer Sprache etc. direkt hineinkodiert.<br />

Typischerweise wird ein Eingabewort von rechts nach links analysiert, wobei im allgemeinen<br />

abwechselnd Endungsgrapheme abgespalten und Lexikonzugriffe durchgeführt werden.<br />

Eine eigene Beschreibungsebene <strong>der</strong> sprachlichen Seite existiert nicht, das fertige Programm<br />

ist die Lemmatisierung. Der Kontrollfluß innerhalb dieses Programms wird üblicherweise<br />

durch Flußdiagramme dargestellt; Abb. 1.3 zeigt einen Ausschnitt aus Dietrich<br />

(1973: 172).<br />

Gegen die vorgeschlagenen Modelle und Methoden <strong>der</strong> Lemmatisierung können eine ganze<br />

Reihe von Einwänden gemacht werden.<br />

Zuallererst wird natürlich die selbst auferlegte Beschränkung auf die Behandlung <strong>der</strong> Flexion<br />

dem prinzipiell offenen Charakter <strong>der</strong> Lexika natürlicher Sprachen nicht gerecht. Verständlich<br />

ist dieses Defizit allerdings vor dem Hintergrund <strong>der</strong> Leistungsfähigkeit damaliger<br />

Rechenanlagen und dem Fehlen jeglicher konkreter Theorien zur Wortbildung.<br />

Ein weiterer Kritikpunkt läßt sich an <strong>der</strong> Prozeduralität <strong>der</strong> postulierten Modelle festmachen.<br />

Auch wenn diese generell begrüßt werden kann – Hockett (1954) hält die prozedurale<br />

Item-and-Process-Konzeption gegenüber dem (deklarativen) Item-and-Arrangement-Modell für<br />

überlegen – so stört doch ihr kaum restringierter Charakter. Wie oben schon beschrieben<br />

bestehen <strong>der</strong>artige <strong>Analyse</strong>verfahren nur aus einer Spezifikation <strong>des</strong> Kontrollflusses während<br />

<strong>der</strong> <strong>Analyse</strong>, <strong>der</strong> üblicherweise in Form eines Flußdiagrammes visualisiert wird. Die Verfahren<br />

selbst rekurrieren dabei nicht auf eine abstrakte Ebene eines <strong>der</strong> bekannten Automatenmodelle,<br />

um beispielsweise generelle Aussagen zur Kapazität und Komplexität zu machen,<br />

son<strong>der</strong>n überspringen diese Zwischenebene und beziehen sich gleich auf die zur Implementierung<br />

<strong>des</strong> Modells verwendeten Programmiersprache (bei den ersten Lemmatisierungsprogrammen<br />

war dies FORTRAN). Da Programmiersprachen dieser Art sämtlich turingmaschinenäquivalent<br />

sind, kommt das <strong>der</strong> Aussage gleich, daß Methoden zur <strong>morphologischen</strong><br />

<strong>Analyse</strong> diese Kapazität zwingend aufweisen müssen. Nun sind nicht wenige Autoren (z.B.<br />

Gazdar (1985)) <strong>der</strong> Ansicht, daß sich die Modelle <strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong> natürlicher<br />

Sprachen in Form von endlichen Automaten darstellen lassen (vgl. Abschnitt 1.2.1); es stellt<br />

sich also die Frage, warum man dann implizit Turingmaschinen dazu verwendet.<br />

Dem "Überfluß" an Prozeduralität in diesen Modellen steht ein Mangel an Deklarativität<br />

gegenüber. Die Lemmatisierungsalgorithmen <strong>der</strong> 70iger Jahre sind alle dadurch charakterisiert<br />

(vgl. z.B. Dietrichs (1973)), keine Unterscheidung zwischen Daten auf <strong>der</strong> einen Seite<br />

und Verfahren zur Manipulation dieser Daten auf <strong>der</strong> an<strong>der</strong>en Seite vorzunehmen. Dies<br />

führt dazu, daß es nur schwer möglich ist, die spezifizierten Algorithmen für die <strong>Analyse</strong><br />

an<strong>der</strong>er Sprachen zu adaptieren. Darüber hinaus ist es unmöglich, innerhalb <strong>der</strong> Lemmati-<br />

10

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!