Aspekte der morphologischen Analyse des Deutschen - Universität ...

Weitere Magazine

Empfehlungen

Info

Kapitel 4: Ein Modell eines morphologischen Analysesystems Die Kante von k nach k‘ kann keine U-Kante sein. Wäre sie es, dann hätte der Algorithmus zuvor eine L-Kante von k‘ zu einer Position l mit k‘< l ≤ n eingefügt, da U-Kanten immer vor den gerade gefundenen L-Segmenten eingefügt werden. Dies widerspricht aber der Annahme, daß es keinen Pfad von k‘ zu einer Position l zwischen k‘ und n gibt, so daß Algorithmus 4.3 die Zeilen 9-13 nicht erreicht hätte. Demnach ist die Kante von k nach k‘ eine L- Kante. Zu b): es wird kein U-Segment eingefügt, so daß ap+1...aq ein L-Segment enthält. Angenommen, eine gerade eingefügte U-Kante U von k bis k‘ enthielte ein L- Segment L von n zu n‘. In Abhängigkeit von der Position von L bzgl. U ergeben sich vier Fälle: a) n = k, n‘= k‘ b) n = k, n‘ < k‘ c) n > k, n‘ = k‘ und d) n > k, n‘ < k‘. Alle Möglichkeiten lassen sich mit dem gleichen Argument wie eben ausschließen, so daß L keine Teilkette von U sein kann. Zu c), Vollständigkeit: es reicht aus, folgenden Grenzfall zu betrachten; die anderen folgen aus der Transitivität der „verbunden“-Relation. Angenommen der Chart enthielte zwei L- Kanten L1 = (k , k‘) und L2 = (k‘‘, k‘‘‘) (k‘ < k‘‘) . L2 sei das zuletzt gefundene Wortsegment, es gibt keine U-Kante von k‘ nach k‘‘ und kein weiteres L-Segment zwischen L1 und L2: (2) k k‘ n k‘‘ k‘‘‘ Wenn Algorithmus 4.3 keine U-Kante zwischen k‘ und k‘‘ eingefügt hat, dann muß sich dazwischen ein Knoten n mit einer Kante (n, k‘‘) befinden, da das Verfahren beim ersten mit k‘‘ über einen Pfad verbundenen Knoten (also n) anhält. Diese Kante (n, k‘‘) kann keine L-Kante sein, da zwischen L1 und L2 laut Annahme keine weitere L-Kante „interveniert“. Angenommen also, sie wäre also eine U-Kante. Dann muß es aber noch eine weitere L-Kante k‘ – n geben, für die die U-Kante (n, k‘‘) eingefügt wurde, als p im Algorithmus 4.3 gleich k‘‘ war – ein weiterer Widerspruch zu der Annahme, daß sich zwischen L1 und L2 keine L-Kanten befinden. Hierdurch ist gezeigt worden, daß es in Algorithmus 4.3 ausreicht, das Einfügen von U- Kanten beim ersten „verbundenen“ Knoten zu beenden. 4.3.2.1 Verfeinerungen Algorithmus 4.3 stellt zwar u.U. durch U-Segmente „aufgefüllte“ Segmentierungen her, behandelt aber alle L-Segmente formal gleich, d.h. beachtet nicht, ob es sich bei L-Segmenten, für die eine U-Kante eingeführt wird, um Stämme oder Affixe handelt. Hierdurch kann es in manchen Fällen zum Einfügen nicht angemessener U-Kanten kommen. Beispiel 4.5: Das Wort Baustein soll analysiert werden, wobei Bau und das Fugenelement s im Lexikon verzeichnet sind, Stein jedoch nicht. Vor der Komplettierung des Charts durch Complete_Chart() in der Funktion Parse() enthält der Chart die partielle Segmentierung Eine U-Kante wird eingefügt, was hier jedoch nicht gewünscht ist. 107
Kapitel 4: Ein Modell eines morphologischen Analysesystems Der Grund hierfür ist natürlich, daß das Fugenelement s zufällig ein Präfix des eigentlich als unbekannt anzusetzenden Wortteils stein ist. Darüber hinaus kann der Fall eintreten, daß Kandidaten für U-Kanten, die nicht den weiter unten dargelegten heuristischen Tests Genüge tun, erst gar nicht in den Chart eingefügt werden, mit dem Ergebnis, daß die gesamte Analyse durch den Chartparser scheitert. Es ist demnach wünschenswert, zwischen Affixen und Stämmen eine Gewichtung vorzunehmen. Hierzu ist eine Änderung an Definition 4.1 d) vorzunehmen: (3) si keinen Teilstring z ∈ Lex enthält, so daß die z zugeordnete Beschreibung Desc von simple_stem subsumiert wird. Algorithmus 4.3 ist dann entsprechend so anzupassen, daß er auf der Suche nach Anschlußpunkten alle Kategorien bis auf solche vom Typ simple_stem „überspringt“. Weiterhin kann man Heuristiken einsetzen, um die Anzahl der eingefügten U-Kanten zu minimieren; schließlich bedeutet jede solche Kante für den Parser einen erhöhten Analyseaufwand. Alle in Zeile 9 des Algorithmus postulierten Segmente werden daher einer zweistufigen heuristischen Filterung unterworfen, die unplausible Kandidaten zurückweist: 1. Enthält das Lexikon Elemente der geschlossenen Klassen (also Flexive, Affixe etc.) vollständig, so kann ein unbekannter Wortteil einer der drei Hauptklassen zugeordnet werden, die an der Wortbildung partizipieren – Nomen, Verben und Adjektive. Führt man zudem eine Mindestlänge für unbekannte Teile ein - unter der Voraussetzung, daß Listeme mit kleinerer Länge sämtlich im Lexikon verzeichnet sind, kann man das Postulieren „zu kurzer“ Segmente vom Typ unbekannt verhindern. 2. Die Graphemstruktur unbekannter Wortteile muß natürlich den Regularitäten des Silben- und Wortaufbaus im Deutschen unterliegen, die am besten wiederum in Form eines oder mehrerer endlicher Automaten (oder Two-Level-Transducer) repräsentiert werden, womit dann vorgeschlagene Segmente mit unzulässigen Konsonantenabfolgen usw. unterdrückt werden können. Dieses Vorgehen kann natürlich nicht exakt sein, da der unbekannte Wortteil selbst wiederum komplex sein kann, ohne daß seine Teile im Lexikon stehen. An den Morphgrenzen zwischen diesen Teilen sind jedoch Laut- und indirekt damit Graphemkombinationen erlaubt, die innerhalb eines Simplexwortes nicht möglich wären. Dem könnte damit begegnet werden, daß man einen Automaten einsetzt, der den Silbenaufbau deutscher Wörter korrekt abbildet und der ε-Übergänge oder Übergänge, die mit Fugensymbolen etikettiert sind von seinen Endzuständen in den Startzustand besitzt. Ein solche Automat akzeptiert somit Folgen von Simplexwörtern, deren Teile untereinander möglicherweise durch Fugensymbole getrennt sind. Die einfachste Möglichkeit besteht jedoch darin, eine vollständige Liste der Silben im Deutschen heranzuziehen und damit zu überprüfen, ob das vorgeschlagene Segment aus einer Folge dieser Silben besteht. Hierbei wird jedoch außer Acht gelassen, daß nicht alle Silben an allen Positionen im Wort auftreten können. Eine weitere Variante, die bei der Implementierung des hier vorgestellten Systems ebenfalls weiter verfolgt wurde, ist die, aus einem in maschinenlesbarer Form vorliegenden Lexikon – beispielsweise der CELEX-Datenbank (Baayen et al. (1993)) alle monomorphematischen Stämme und Wurzeln zu extrahieren und in Form eines Tries zum Überprüfen von als unbekannt postulierten Wortsegmenten zu verwenden. Dies engt die Hypothesen auf tatsächlich vorkommende Stämme ein, ohne daß für jeden dieser Stämme ein voll ausdifferenzierter Lexikoneintrag vorliegen müßte. Wählt man diesen Weg, so gibt es allerdings noch eine effizientere Alternative. Man könnte alle Simplexwörter, für die kein Lexikoneintrag existiert, ebenso gleich in den segmentieren- 108
Seite 1 und 2:
Aspekte der morphologischen Analyse
Seite 3 und 4:
Inhaltsverzeichnis 1 EINFÜHRUNG ..
Seite 5 und 6:
5.3.2.3 Interpretation von Komposit
Seite 7 und 8:
Kapitel 1: Einführung Dies führt
Seite 9 und 10:
Kapitel 1: Einführung Weise als re
Seite 11 und 12:
Kapitel 1: Einführung wobei a und
Seite 13 und 14:
Kapitel 1: Einführung Es gibt nun
Seite 15 und 16:
Kapitel 1: Einführung L = { w | P
Seite 17 und 18:
Kapitel 1: Einführung 1.2.3 Die Le
Seite 19 und 20:
Kapitel 1: Einführung Die zu teste
Seite 21 und 22:
FREE-MORPHEME WORD-FORM VERB-FORM M
Seite 23 und 24:
Kapitel 1: Einführung Nach Daelema
Seite 25 und 26:
PHON 1 PAST-PART 2 SYN|LOC|SUBCAT
Seite 27 und 28:
1.4 Methodisches Kapitel 1: Einfüh
Seite 29 und 30:
2 Merkmalsstrukturen Kapitel 2: Mer
Seite 31 und 32:
Kapitel 2: Merkmalsstrukturen Die M
Seite 33 und 34:
Kapitel 2: Merkmalsstrukturen Beisp
Seite 35 und 36:
Kapitel 2: Merkmalsstrukturen 2. Di
Seite 37 und 38:
Seite 39 und 40:
Kapitel 2: Merkmalsstrukturen f) X
Seite 41 und 42:
Kapitel 2: Merkmalsstrukturen vorko
Seite 43 und 44:
Seite 45 und 46:
Kapitel 2: Merkmalsstrukturen 8. To
Seite 47 und 48:
Kapitel 2: Merkmalsstrukturen d.h.
Seite 49 und 50:
Kapitel 3: Wortsyntax und Wortseman
Seite 51 und 52:
Seite 53 und 54:
Seite 55 und 56:
Seite 57 und 58:
Seite 59 und 60:
Seite 61 und 62: (11) a) A Hoch Kapitel 3: Wortsynta
Seite 63 und 64: Kapitel 3: Wortsyntax und Wortseman
Seite 65 und 66: (22) a) die Soldaten beobachten die
Seite 69 und 70: 3.2.2 Derivation Kapitel 3: Wortsyn
Seite 71 und 72: (40) a) versalzen b) befeuchten, ve
Seite 81 und 82: (50) Kapitel 3: Wortsyntax und Wort
Seite 87 und 88: 3.4 Das generative Lexikon 3.4.1 St
Seite 89 und 90: v. Color vi. Position Kapitel 3: Wo
Seite 97 und 98: Kapitel 4: Ein Modell eines morphol
Seite 101 und 102: a) Die Übergangsfunktion goto Kapi
Seite 111: Kapitel 4: Ein Modell eines morphol
Seite 121 und 122: 4.6 Zusammenfassung Kapitel 4: Ein
Seite 125 und 126: Kapitel 5: Eine merkmalsbasierte Be
Seite 163 und 164:
Kapitel 5: Eine merkmalsbasierte Be
Seite 165 und 166:
Seite 167 und 168:
Seite 169 und 170:
Seite 171 und 172:
Seite 173 und 174:
5.4.2 Semantik Kapitel 5: Eine merk
Seite 175 und 176:
GRAPH: fabrik SYN: SEM: CAT: n Kapi
Seite 177 und 178:
Seite 179 und 180:
Seite 181 und 182:
Seite 183 und 184:
Kapitel 6: Zusammenfassung was ande
Seite 185 und 186:
Literaturverzeichnis Literaturverze
Seite 187 und 188:
Literaturverzeichnis Earley, Jay (1
Seite 189 und 190:
Literaturverzeichnis Kaplan, Ronald
Seite 191 und 192:
Literaturverzeichnis Scalise, Sergi
Seite 193 und 194:
Anhang A: Algorithmen Anhang A: Ana
Seite 195 und 196:
Anhang A: Algorithmen A.1.2 Umwandl
Seite 197 und 198:
verb_infl_or_imp :: MOOD: mood verb
Seite 199 und 200:
Anhang B: Typenhierarchie und Merkm
Seite 201 und 202:
Anhang C: Programmcode /***********
Seite 203 und 204:
Seite 205 und 206:
Anhang C: Programmcode process_queu
Seite 207 und 208:
Seite 209 und 210:
C.2 Der Chart-Parser Anhang C: Prog
Seite 211 und 212:
store(edge(Begin,End,Cat,Closed,Ope
Seite 213 und 214:
Seite 215 und 216:
Anhang C: Programmcode C.3 CUF-Prog
Seite 217 und 218:
% Case hierarchy after Heinz/Matias
Seite 219 und 220:
eventstr < cfs. eventstr = activity
Seite 221 und 222:
physical_state < cfs. physical_stat
Seite 223 und 224:
Seite 225 und 226:
Seite 227 und 228:
Anhang C: Programmcode sem:content:
Seite 229 und 230:
no_arguments & sem("Buch"). morph("
Seite 231 und 232:
morph("schoen") := form: "schön" &
Seite 233 und 234:
Anhang C: Programmcode argstr_prepo
Seite 235 und 236:
Anhang C: Programmcode % -ung for i
Seite 237 und 238:
Anhang C: Programmcode argstr:(subj
Seite 239 und 240:
Anhang C: Programmcode v_infl_affix
Seite 241 und 242:
Anhang C: Programmcode [role(worker
Seite 243 und 244:
Anhang C: Programmcode event(rescue
Seite 245 und 246:
* Commented out because of the dang
Seite 247 und 248:
Anhang C: Programmcode member(role:
Seite 249 und 250:
Anhang C: Programmcode % argument r
Seite 251 und 252:
Anhang C: Programmcode %type_shift_
Seite 253 und 254:
event(Type,Roles) := event_type:Typ
Seite 255 und 256:
testword(21) := ["rett","end"]. tes
Seite 257 und 258:
% Composition & Derivation test_wor
Alle anzeigen

Aspekte der morphologischen Analyse des Deutschen - Universität ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?