11.02.2013 Aufrufe

Aspekte der morphologischen Analyse des Deutschen - Universität ...

Aspekte der morphologischen Analyse des Deutschen - Universität ...

Aspekte der morphologischen Analyse des Deutschen - Universität ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />

Zunächst soll aber definiert werden, was unter einer Segmentierung verstanden werden soll:<br />

Definition 4.1: (Vollständige) Segmentierung<br />

Eine Segmentierung Ω einer Zeichenkette w ist eine Zerlegung s1s2...sk = w (k ≥ 1). Eine Segmentierung<br />

bzgl. eines Lexikons Lex = Σ* × Desc heißt vollständig, wenn für alle si gilt:<br />

∃E ∈ Lex (abgekürzt im folgenden mit si ∈ Lex). Ein Segment si heißt unbekannt bzgl.<br />

einer Segmentierung Ω = s1s2...sk, wenn<br />

a) si ∉ Lex<br />

b) i = 1 o<strong>der</strong> si-1 ∈ Lex<br />

c) i = k o<strong>der</strong> si+1 ∈ Lex<br />

d) si keinen Teilstring z ∈ Lex enthält.<br />

Für „unbekannt“-Segmente soll im folgenden die Kurzformen U-Segment bzw. U-Kante<br />

verwendet werden; für im Lexikon enthaltene Wortteile entsprechend L-Segment (L-Kante).<br />

Bedingungen b) und c) stellen sicher, daß U-Segmente entwe<strong>der</strong> an den Wortenden auftreten<br />

o<strong>der</strong> an im Lexikon verzeichnete Segmente angrenzen. Bedingung d) soll gewährleisten, daß<br />

nicht "unnötig" lange Segmente als "unbekannt" postuliert werden, beispielsweise ein<br />

Kompositum AB, wenn A und B im Lexikon aufgeführt sind, AB jedoch nicht.<br />

Segmente für unbekannte Wortteile werden in den Chart eingetragen, nachdem ein weiteres<br />

Wortsegment gefunden wurde, das sich nicht an alle bereits bestehenden Segmentierungen<br />

im Chart anschließen läßt:<br />

Endpunkte bereits Neu gefundenes<br />

bestehen<strong>der</strong> Segmentierungen Wortsegment<br />

Abb. 4.2: Einfügen neuer Wortsegmente<br />

U-Segmente dienen also dazu, die „Lücken“ zwischen im Lexikon aufgeführten Wortteilen<br />

zu schließen und werden nach folgendem Verfahren eingefügt:<br />

105

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!