Aspekte der morphologischen Analyse des Deutschen - Universität ...

Weitere Magazine

Empfehlungen

Info

Kapitel 4: Ein Modell eines morphologischen Analysesystems Ein Problem des Ansatzes scheint zu sein, daß komplexe Worte w in Ketten ασβ partitioniert werden, wobei σ ein im Lexikon verzeichnetes Morphem ist, α jedoch nicht im Lexikon vorkommt (β ∈ Σ*), beispielsweise die Zerlegung von Staub in S und taub, wobei S kein Lexikoneintrag zugeordnet ist. Was hier jedoch wie ein Problem des Algorithmus aussieht, erweist sich als Vorteil, wenn man annimmt, daß es sich bei α um ein zulässiges Morphem der zu analysierenden Sprache handelt, welches lediglich im verwendeten Lexikon nicht verzeichnet ist. Unbekannt sind in diesem Sinne also alle Segmente eines Wortes, die von keiner Partitionierung des Wortes erfaßt werden. Dieses Identifizieren von nicht im Lexikon verzeichneten Segmenten ist wesentlich für das mitverfolgte Ziel, auch Wörter mit unbekannten Teilen zu analysieren und wird durch den im nächsten Abschnitt beschriebenen Wortstrukturparser geleistet. 4.3 Wortstrukturparsing Der Parser – als zweiter Teilschritt des hier vorgestellten Analyseverfahrens – erzeugt aus den gefundenen Wortsegmentierungen die von der Wortgrammatik definierten Wortstrukturen. Zwei Möglichkeiten sind denkbar, diesen Parser in den Analysevorgang zu integrieren: 1. der üblichen Konzeption der Compilerkonstruktion folgend hat der Parser die Hauptkontrolle und ruft den Segmentierer auf, sobald der Parser ein neues Token in seine Analyse zu integrieren hat. 2. der Segmentierer hat die Kontrolle über die Analyse und übermittelt sukzessiv gefundene Token an den Parser, der damit angefangene Analysen fortzusetzen versucht. Beide Grundstrategien sind mit einer gewünschten Inkrementalität des Gesamtverfahrens zunächst einmal vereinbar. Allerdings stellt sich bei Möglichkeit 1 das nicht einfach zu lösende Problem, daß der Segmentierer aufgrund seiner parallelen Operationsweise nicht immer nur ein Token zurückgibt, sondern möglicherweise auch mehrere, die in unterschiedliche Strukturbäume zu integrieren sind. So erscheint es zweckmäßiger, Zuflucht zu Möglichkeit 2 zu nehmen, der zumal noch der Reiz des Unüblichen anhaftet. Allerdings schränkt diese Entscheidung die anwendbaren Parsstrategien ein. Da nun der Segmentierer den Parser steuert – abweichend also von Standardverfahren in vergleichbaren Problembereichen wie dem Compiling von Programmiersprachen – können nicht mehr alle Parsverfahren eingesetzt werden. Beispielsweise impliziert eine ausschließlich hypothesengetriebene Strategie, wie sie das Top-Down-Parsing charakterisiert, daß der Parser immer dann den Scanner zur Rückgabe eines neuen Symbols auffordert, wenn ersterer Regeln angewendet hat, die auf der rechten Regelseite Terminalsymbole enthalten. Sollen Parser und Scanner bezüglich der Steuerung im umgekehrten Verhältnis stehen, kommt nur ein wenigstens teilweise datengetriebenes (Bottom-up) Verfahren in Frage. Hierbei erzeugt der Scanner/Segmentierer ein neues Symbol, was im Zuge des Versuchs, dieses zu integrieren, zu rekursiv sich fortsetzenden Reduktionen führen kann, die schließlich im Erfolgsfalle beim Startsymbol enden. Geeignete Parsverfahren, die den hier gestellten Erfordernissen – zumindest teilweise Bottom-up-Strategie, Zugriff auf Zustandsinformationen und inkrementelle Vorgehensweise – entsprechen, sind Chart-Parsing und das auf der LR(k)-Technik beruhende Verfahren von Tomita (vgl. Tomita (1987)). Allerdings müßten auf den ersten Blick beide Verfahren aufgrund des prinzipiell nichtdeterministischen Charakters des Zerlegungsprozesses modifiziert werden, beispielsweise, indem jeder Zerlegungsalternative ein separater Parser zugeordnet wird. Da alternative Zerlegungen jedoch häufig gemeinsame Segmente an den glei- 99
Kapitel 4: Ein Modell eines morphologischen Analysesystems chen Wortpositionen aufweisen, entsteht hieraus indes ein Mehraufwand, der jedoch durch Anwendung der Grundidee des Chart-Parsings vermieden werden kann. Die Effizienz des Chart- bzw. Earley-Parsings ergibt sich schließlich in erster Linie daraus, daß über bereits analysierte Konstituenten Buch geführt wird. Verwendet man nun einen gemeinsamen Chart für alle Zerlegungsalternativen, so werden Wortteile, die in mehr als einer Segmentierung vorhanden sind, auch nur einmal analysiert. Hierzu sind jedoch leichte Änderungen des ursprünglichen Chart-Parsing-Algorithmus nötig, die Gegenstand des folgenden Abschnitts sind. 4.3.1 Das Parsverfahren Wie zuvor erwähnt, wird die strukturelle Analyse durch einen Bottom-Up-Chart-Parser (der genau genommen ein Left-Corner-Parser mit Speicherung der Teilresultate ist) geleistet, der den Zerlegungen auf der Basis einer typisierten Unifikationsgrammatik, wie sie in Kapitel 2 beschrieben wurde, Strukturen zuordnet. Wie bei allen Chart-Parsern lassen sich drei Grundoperationen – Shift, Expand und Complete – ausmachen, die jeweils auf eine zentrale Funktion Closure() zurückgreifen, die abhängig vom Status der Kante (aktiv bzw. passiv) die weiteren Schritte (Expansion oder Kombination) bestimmt. Zur Handhabung strukturierter Kategorien werden die üblichen Erweiterungen vorgenommen. Die Darstellungsform der Algorithmen lehnt sich an die in Naumann/Langer (1994:252ff.) an. Um den Besonderheiten des Wortstrukturparsings gerecht zu werden, wurde vor allem die Shift()-Funktion modifiziert. Eine Kante ist gegeben durch ein 4-Tupel < i, j, A → α • β, Condition > wobei i und j die Anfangs- bzw. Endpositionen des bereits analysierten Teils der Konstituente und A→ α β eine Regel der Unifikationsgrammatik ist, von der α bereits erkannt wurde. Da im verwendeten Grammatikformalismus (vgl. Kapitel 2) Regeln mit Bedingungen attribuiert werden können, die einerseits die Anwendbarkeit einer Regel prüfen und andererseits Variablenbindungen vornehmen, wird in der letzten Komponente des Tupels ein Verweis auf die mit der Regel A→ α β verknüpfte Bedingung gespeichert. Diese Bedingungen, die en detail erst im nächsten Kapitel besprochen werden, dienen dazu, allgemeine Aufbauprinzipien deutscher Wortstrukturen nichtredundant in die Analyse mit einzubeziehen. 100
Seite 1 und 2:
Aspekte der morphologischen Analyse
Seite 3 und 4:
Inhaltsverzeichnis 1 EINFÜHRUNG ..
Seite 5 und 6:
5.3.2.3 Interpretation von Komposit
Seite 7 und 8:
Kapitel 1: Einführung Dies führt
Seite 9 und 10:
Kapitel 1: Einführung Weise als re
Seite 11 und 12:
Kapitel 1: Einführung wobei a und
Seite 13 und 14:
Kapitel 1: Einführung Es gibt nun
Seite 15 und 16:
Kapitel 1: Einführung L = { w | P
Seite 17 und 18:
Kapitel 1: Einführung 1.2.3 Die Le
Seite 19 und 20:
Kapitel 1: Einführung Die zu teste
Seite 21 und 22:
FREE-MORPHEME WORD-FORM VERB-FORM M
Seite 23 und 24:
Kapitel 1: Einführung Nach Daelema
Seite 25 und 26:
PHON 1 PAST-PART 2 SYN|LOC|SUBCAT
Seite 27 und 28:
1.4 Methodisches Kapitel 1: Einfüh
Seite 29 und 30:
2 Merkmalsstrukturen Kapitel 2: Mer
Seite 31 und 32:
Kapitel 2: Merkmalsstrukturen Die M
Seite 33 und 34:
Kapitel 2: Merkmalsstrukturen Beisp
Seite 35 und 36:
Kapitel 2: Merkmalsstrukturen 2. Di
Seite 37 und 38:
Seite 39 und 40:
Kapitel 2: Merkmalsstrukturen f) X
Seite 41 und 42:
Kapitel 2: Merkmalsstrukturen vorko
Seite 43 und 44:
Seite 45 und 46:
Kapitel 2: Merkmalsstrukturen 8. To
Seite 47 und 48:
Kapitel 2: Merkmalsstrukturen d.h.
Seite 49 und 50:
Kapitel 3: Wortsyntax und Wortseman
Seite 51 und 52:
Kapitel 3: Wortsyntax und Wortseman
Seite 53 und 54: Kapitel 3: Wortsyntax und Wortseman
Seite 61 und 62: (11) a) A Hoch Kapitel 3: Wortsynta
Seite 65 und 66: (22) a) die Soldaten beobachten die
Seite 69 und 70: 3.2.2 Derivation Kapitel 3: Wortsyn
Seite 71 und 72: (40) a) versalzen b) befeuchten, ve
Seite 81 und 82: (50) Kapitel 3: Wortsyntax und Wort
Seite 87 und 88: 3.4 Das generative Lexikon 3.4.1 St
Seite 89 und 90: v. Color vi. Position Kapitel 3: Wo
Seite 97 und 98: Kapitel 4: Ein Modell eines morphol
Seite 101 und 102: a) Die Übergangsfunktion goto Kapi
Seite 103: Kapitel 4: Ein Modell eines morphol
Seite 121 und 122: 4.6 Zusammenfassung Kapitel 4: Ein
Seite 125 und 126: Kapitel 5: Eine merkmalsbasierte Be
Seite 155 und 156:
Kapitel 5: Eine merkmalsbasierte Be
Seite 157 und 158:
Seite 159 und 160:
Seite 161 und 162:
Seite 163 und 164:
Seite 165 und 166:
Seite 167 und 168:
Seite 169 und 170:
Seite 171 und 172:
Seite 173 und 174:
5.4.2 Semantik Kapitel 5: Eine merk
Seite 175 und 176:
GRAPH: fabrik SYN: SEM: CAT: n Kapi
Seite 177 und 178:
Seite 179 und 180:
Seite 181 und 182:
Seite 183 und 184:
Kapitel 6: Zusammenfassung was ande
Seite 185 und 186:
Literaturverzeichnis Literaturverze
Seite 187 und 188:
Literaturverzeichnis Earley, Jay (1
Seite 189 und 190:
Literaturverzeichnis Kaplan, Ronald
Seite 191 und 192:
Literaturverzeichnis Scalise, Sergi
Seite 193 und 194:
Anhang A: Algorithmen Anhang A: Ana
Seite 195 und 196:
Anhang A: Algorithmen A.1.2 Umwandl
Seite 197 und 198:
verb_infl_or_imp :: MOOD: mood verb
Seite 199 und 200:
Anhang B: Typenhierarchie und Merkm
Seite 201 und 202:
Anhang C: Programmcode /***********
Seite 203 und 204:
Seite 205 und 206:
Anhang C: Programmcode process_queu
Seite 207 und 208:
Seite 209 und 210:
C.2 Der Chart-Parser Anhang C: Prog
Seite 211 und 212:
store(edge(Begin,End,Cat,Closed,Ope
Seite 213 und 214:
Seite 215 und 216:
Anhang C: Programmcode C.3 CUF-Prog
Seite 217 und 218:
% Case hierarchy after Heinz/Matias
Seite 219 und 220:
eventstr < cfs. eventstr = activity
Seite 221 und 222:
physical_state < cfs. physical_stat
Seite 223 und 224:
Seite 225 und 226:
Seite 227 und 228:
Anhang C: Programmcode sem:content:
Seite 229 und 230:
no_arguments & sem("Buch"). morph("
Seite 231 und 232:
morph("schoen") := form: "schön" &
Seite 233 und 234:
Anhang C: Programmcode argstr_prepo
Seite 235 und 236:
Anhang C: Programmcode % -ung for i
Seite 237 und 238:
Anhang C: Programmcode argstr:(subj
Seite 239 und 240:
Anhang C: Programmcode v_infl_affix
Seite 241 und 242:
Anhang C: Programmcode [role(worker
Seite 243 und 244:
Anhang C: Programmcode event(rescue
Seite 245 und 246:
* Commented out because of the dang
Seite 247 und 248:
Anhang C: Programmcode member(role:
Seite 249 und 250:
Anhang C: Programmcode % argument r
Seite 251 und 252:
Anhang C: Programmcode %type_shift_
Seite 253 und 254:
event(Type,Roles) := event_type:Typ
Seite 255 und 256:
testword(21) := ["rett","end"]. tes
Seite 257 und 258:
% Composition & Derivation test_wor
Alle anzeigen

Aspekte der morphologischen Analyse des Deutschen - Universität ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?