Aspekte der morphologischen Analyse des Deutschen - Universität ...

Weitere Magazine

Empfehlungen

Info

Kapitel 1: Einführung Man kann jedoch der Ansicht sein, daß zu semantischen Interpretation von komplexen Wörtern, insbes. Komposita, auch die Struktur eines Wortes eine Rolle spielt. Der Transducer operiert hierzu jedoch auf der falschen Ebene, da seine Terminalsymbole Grapheme o.ä. sind, die für die Strukturermittlung auf der Ebene der Morpheme keine Rolle spielen. Darüber hinaus sind endliche Automaten bei Zugrundelegung einer rechtslinearen Grammatik lediglich in der Lage, nur rein rechtsverzweigende Strukturen zu erzeugen. Dies wird jedoch den verschiedenen strukturellen Möglichkeiten innerhalb der Komposition im Deutschen nicht gerecht. � Ein vierter Einwand ist von komplexitätstheoretischer Seite gemacht worden. Barton et al. (1987) haben durch Reduktion des (NP-vollständigen) Erfüllungsproblems für aussagenlogische Formeln (SAT) auf Automaten des Two-Level-Modells gezeigt, daß dieses NPhart ist. Dies kann im schlechtesten Fall zur Folge haben, daß die Analysezeit eines Two- Level-Erkennungsproblems exponentiell (oder schlechter) von seiner Länge abhängt. Auch wenn Koskenniemi/Church (1988) auf den artifiziellen Charakter eines SAT-Problems im Two-Level-Gewand hinweisen, so sollte dieses Resultat doch zu denken geben. Zum einen gibt es in einigen Sprachen tatsächlich Prozesse, die eine gewisse Ähnlichkeit mit der Belegung der aussagenlogischen Variablen mit Wahrheitswerten haben, beispielsweise Prozesse der Vokalharmonie, die über das ganze Wort verlaufen. Zum anderen haben morphologische Phänomene in natürlichen Sprachen anscheinend Besonderheiten, die exponentielle Analysezeiten bei menschlichen Hörern ausschließen, welche jedoch nicht im Rahmen des Two-Level-Modells ausgedrückt werden können. Die blinde, kombinatorische Suche, die für das exponentielle Laufzeitverhalten verantwortlich ist, kommt bei algorithmischen Analyseproblemen immer nur dann zur Anwendung, wenn absolut keine lokalen Kriterien zur Verfügung stehen, die bei der Lösungsfindung mit herangezogen werden können. Zusammenfassend kann man also festhalten, daß das Two-Level-Modell einerseits zu stark, andererseits auch wiederum zu schwach ist (siehe Einwand 2). Sein eklatantester Mangel ist m.E. jedoch seine Beschränkung auf rein morphographematische Phänomene und damit das Fehlen jeder transparenten Interaktion von im Lexikon verzeichneten morphosyntaktischen Merkmalen mit den Regel-Transducern. Das Ziel meines Modells ist, alle möglichen Informationsquellen bei der morphologischen Analyse auszunutzen, also Lexikon, Satzparser und Domänenwissen, und auf diese Weise die Beschränkung auf morphographematische Regularitäten zu überwinden. 1.2.2 Vorarbeiten aus dem Bereich der Lemmatisierung In den siebziger Jahren wurde unter dem Stichwort Lemmatisierung vor allem in der Computerlinguistik im deutschen Sprachraum versucht, die Flexionsmorphologie unter Zugrundelegung einer prozeduralen Konzeption in einem Computermodell abzubilden. Stellvertretend für die Vielzahl der damaligen Bemühungen seien an dieser Stelle Dietrich (1973), Eggers et al. (1980), Hoeppner (1980) und Finkler/Neumann (1986) genannt. Zunächst muß geklärt werden, was unter Lemmatisierung verstanden wird: Lemmatisierung ist die Rückführung einer Wortform auf ein Lemma. Wortformen können einfache Wörter (Zeichenfolgen zwischen Leerzeichen) sein, jedoch auch mehrere Wörter umfassen, beispielsweise im Fall der periphrastischen Zeiten im Deutschen, wobei die die Wortform konstituierenden Wörter nicht notwendigerweise kontinuierlich angeordnet sein müssen. Ein Lemma L wird zunächst einmal verstanden als diejenige Menge von Wortformen w, die alle eine festgesetzte Menge von Prädikaten P erfüllen, formal: 9
Kapitel 1: Einführung L = { w | P 1 (w) � P 2 (w) � ... � P n (w) } Zu klären ist, welcher Art die oben verwendeten Prädikate P i sind. Dietrich (1973:21f) klassifiziert diese Prädikate in semantische, paradigmatische und strukturale. Paradigmatische Eigenschaften sind Wortklassenzugehörigkeit und Flexionsklasse, zu den strukturalen zählen syntaktische Anforderungen einer Wortform an ihre Umgebung, beispielsweise der Valenzrahmen. Zu unterscheiden ist zwischen dem Lemma und dem Lemmanamen. Das Lemma ist, wie oben definiert, eine Menge von Wortformen, die in einem bestimmten Verhältnis zueinander stehen. Als Lemmanamen wählt man meist eine ausgezeichnete, merkmalsmäßig maximal unmarkierte Form (vgl. Gallmann (1990)) aus dem Lemma, die sog. Zitierform. Ziel der Lemmatisierung ist, Wortformen im Text auf diese Zitierform zurückzuführen und gleichzeitig ihre für die jeweilige Anwendung relevanten Merkmale zu bestimmen. Die hierbei verwendeten Verfahren sind durchweg operational, d.h. in den Analysemechansimus ist das sprachliche Wissen über Wortformen, Endungen einer Sprache etc. direkt hineinkodiert. Typischerweise wird ein Eingabewort von rechts nach links analysiert, wobei im allgemeinen abwechselnd Endungsgrapheme abgespalten und Lexikonzugriffe durchgeführt werden. Eine eigene Beschreibungsebene der sprachlichen Seite existiert nicht, das fertige Programm ist die Lemmatisierung. Der Kontrollfluß innerhalb dieses Programms wird üblicherweise durch Flußdiagramme dargestellt; Abb. 1.3 zeigt einen Ausschnitt aus Dietrich (1973: 172). Gegen die vorgeschlagenen Modelle und Methoden der Lemmatisierung können eine ganze Reihe von Einwänden gemacht werden. Zuallererst wird natürlich die selbst auferlegte Beschränkung auf die Behandlung der Flexion dem prinzipiell offenen Charakter der Lexika natürlicher Sprachen nicht gerecht. Verständlich ist dieses Defizit allerdings vor dem Hintergrund der Leistungsfähigkeit damaliger Rechenanlagen und dem Fehlen jeglicher konkreter Theorien zur Wortbildung. Ein weiterer Kritikpunkt läßt sich an der Prozeduralität der postulierten Modelle festmachen. Auch wenn diese generell begrüßt werden kann – Hockett (1954) hält die prozedurale Item-and-Process-Konzeption gegenüber dem (deklarativen) Item-and-Arrangement-Modell für überlegen – so stört doch ihr kaum restringierter Charakter. Wie oben schon beschrieben bestehen derartige Analyseverfahren nur aus einer Spezifikation des Kontrollflusses während der Analyse, der üblicherweise in Form eines Flußdiagrammes visualisiert wird. Die Verfahren selbst rekurrieren dabei nicht auf eine abstrakte Ebene eines der bekannten Automatenmodelle, um beispielsweise generelle Aussagen zur Kapazität und Komplexität zu machen, sondern überspringen diese Zwischenebene und beziehen sich gleich auf die zur Implementierung des Modells verwendeten Programmiersprache (bei den ersten Lemmatisierungsprogrammen war dies FORTRAN). Da Programmiersprachen dieser Art sämtlich turingmaschinenäquivalent sind, kommt das der Aussage gleich, daß Methoden zur morphologischen Analyse diese Kapazität zwingend aufweisen müssen. Nun sind nicht wenige Autoren (z.B. Gazdar (1985)) der Ansicht, daß sich die Modelle der morphologischen Analyse natürlicher Sprachen in Form von endlichen Automaten darstellen lassen (vgl. Abschnitt 1.2.1); es stellt sich also die Frage, warum man dann implizit Turingmaschinen dazu verwendet. Dem "Überfluß" an Prozeduralität in diesen Modellen steht ein Mangel an Deklarativität gegenüber. Die Lemmatisierungsalgorithmen der 70iger Jahre sind alle dadurch charakterisiert (vgl. z.B. Dietrichs (1973)), keine Unterscheidung zwischen Daten auf der einen Seite und Verfahren zur Manipulation dieser Daten auf der anderen Seite vorzunehmen. Dies führt dazu, daß es nur schwer möglich ist, die spezifizierten Algorithmen für die Analyse anderer Sprachen zu adaptieren. Darüber hinaus ist es unmöglich, innerhalb der Lemmati- 10
Seite 1 und 2: Aspekte der morphologischen Analyse
Seite 3 und 4: Inhaltsverzeichnis 1 EINFÜHRUNG ..
Seite 5 und 6: 5.3.2.3 Interpretation von Komposit
Seite 7 und 8: Kapitel 1: Einführung Dies führt
Seite 9 und 10: Kapitel 1: Einführung Weise als re
Seite 11 und 12: Kapitel 1: Einführung wobei a und
Seite 13: Kapitel 1: Einführung Es gibt nun
Seite 17 und 18: Kapitel 1: Einführung 1.2.3 Die Le
Seite 19 und 20: Kapitel 1: Einführung Die zu teste
Seite 21 und 22: FREE-MORPHEME WORD-FORM VERB-FORM M
Seite 23 und 24: Kapitel 1: Einführung Nach Daelema
Seite 25 und 26: PHON 1 PAST-PART 2 SYN|LOC|SUBCAT
Seite 27 und 28: 1.4 Methodisches Kapitel 1: Einfüh
Seite 29 und 30: 2 Merkmalsstrukturen Kapitel 2: Mer
Seite 31 und 32: Kapitel 2: Merkmalsstrukturen Die M
Seite 33 und 34: Kapitel 2: Merkmalsstrukturen Beisp
Seite 35 und 36: Kapitel 2: Merkmalsstrukturen 2. Di
Seite 39 und 40: Kapitel 2: Merkmalsstrukturen f) X
Seite 41 und 42: Kapitel 2: Merkmalsstrukturen vorko
Seite 45 und 46: Kapitel 2: Merkmalsstrukturen 8. To
Seite 47 und 48: Kapitel 2: Merkmalsstrukturen d.h.
Seite 49 und 50: Kapitel 3: Wortsyntax und Wortseman
Seite 61 und 62: (11) a) A Hoch Kapitel 3: Wortsynta
Seite 65 und 66:
(22) a) die Soldaten beobachten die
Seite 67 und 68:
Kapitel 3: Wortsyntax und Wortseman
Seite 69 und 70:
3.2.2 Derivation Kapitel 3: Wortsyn
Seite 71 und 72:
(40) a) versalzen b) befeuchten, ve
Seite 73 und 74:
Seite 75 und 76:
Seite 77 und 78:
Seite 79 und 80:
Seite 81 und 82:
(50) Kapitel 3: Wortsyntax und Wort
Seite 83 und 84:
Seite 85 und 86:
Seite 87 und 88:
3.4 Das generative Lexikon 3.4.1 St
Seite 89 und 90:
v. Color vi. Position Kapitel 3: Wo
Seite 91 und 92:
Seite 93 und 94:
Seite 95 und 96:
Seite 97 und 98:
Kapitel 4: Ein Modell eines morphol
Seite 99 und 100:
Seite 101 und 102:
a) Die Übergangsfunktion goto Kapi
Seite 103 und 104:
Seite 105 und 106:
Seite 107 und 108:
Seite 109 und 110:
Seite 111 und 112:
Seite 113 und 114:
Seite 115 und 116:
Seite 117 und 118:
Seite 119 und 120:
Seite 121 und 122:
4.6 Zusammenfassung Kapitel 4: Ein
Seite 123 und 124:
Seite 125 und 126:
Kapitel 5: Eine merkmalsbasierte Be
Seite 127 und 128:
Seite 129 und 130:
Seite 131 und 132:
Seite 133 und 134:
Seite 135 und 136:
Seite 137 und 138:
Seite 139 und 140:
Seite 141 und 142:
Seite 143 und 144:
Seite 145 und 146:
Seite 147 und 148:
Seite 149 und 150:
Seite 151 und 152:
Seite 153 und 154:
Seite 155 und 156:
Seite 157 und 158:
Seite 159 und 160:
Seite 161 und 162:
Seite 163 und 164:
Seite 165 und 166:
Seite 167 und 168:
Seite 169 und 170:
Seite 171 und 172:
Seite 173 und 174:
5.4.2 Semantik Kapitel 5: Eine merk
Seite 175 und 176:
GRAPH: fabrik SYN: SEM: CAT: n Kapi
Seite 177 und 178:
Seite 179 und 180:
Seite 181 und 182:
Seite 183 und 184:
Kapitel 6: Zusammenfassung was ande
Seite 185 und 186:
Literaturverzeichnis Literaturverze
Seite 187 und 188:
Literaturverzeichnis Earley, Jay (1
Seite 189 und 190:
Literaturverzeichnis Kaplan, Ronald
Seite 191 und 192:
Literaturverzeichnis Scalise, Sergi
Seite 193 und 194:
Anhang A: Algorithmen Anhang A: Ana
Seite 195 und 196:
Anhang A: Algorithmen A.1.2 Umwandl
Seite 197 und 198:
verb_infl_or_imp :: MOOD: mood verb
Seite 199 und 200:
Anhang B: Typenhierarchie und Merkm
Seite 201 und 202:
Anhang C: Programmcode /***********
Seite 203 und 204:
Seite 205 und 206:
Anhang C: Programmcode process_queu
Seite 207 und 208:
Seite 209 und 210:
C.2 Der Chart-Parser Anhang C: Prog
Seite 211 und 212:
store(edge(Begin,End,Cat,Closed,Ope
Seite 213 und 214:
Seite 215 und 216:
Anhang C: Programmcode C.3 CUF-Prog
Seite 217 und 218:
% Case hierarchy after Heinz/Matias
Seite 219 und 220:
eventstr < cfs. eventstr = activity
Seite 221 und 222:
physical_state < cfs. physical_stat
Seite 223 und 224:
Seite 225 und 226:
Seite 227 und 228:
Anhang C: Programmcode sem:content:
Seite 229 und 230:
no_arguments & sem("Buch"). morph("
Seite 231 und 232:
morph("schoen") := form: "schön" &
Seite 233 und 234:
Anhang C: Programmcode argstr_prepo
Seite 235 und 236:
Anhang C: Programmcode % -ung for i
Seite 237 und 238:
Anhang C: Programmcode argstr:(subj
Seite 239 und 240:
Anhang C: Programmcode v_infl_affix
Seite 241 und 242:
Anhang C: Programmcode [role(worker
Seite 243 und 244:
Anhang C: Programmcode event(rescue
Seite 245 und 246:
* Commented out because of the dang
Seite 247 und 248:
Anhang C: Programmcode member(role:
Seite 249 und 250:
Anhang C: Programmcode % argument r
Seite 251 und 252:
Anhang C: Programmcode %type_shift_
Seite 253 und 254:
event(Type,Roles) := event_type:Typ
Seite 255 und 256:
testword(21) := ["rett","end"]. tes
Seite 257 und 258:
% Composition & Derivation test_wor
Alle anzeigen

Aspekte der morphologischen Analyse des Deutschen - Universität ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?