11.02.2013 Aufrufe

Aspekte der morphologischen Analyse des Deutschen - Universität ...

Aspekte der morphologischen Analyse des Deutschen - Universität ...

Aspekte der morphologischen Analyse des Deutschen - Universität ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />

Ein Problem <strong>des</strong> Ansatzes scheint zu sein, daß komplexe Worte w in Ketten ασβ partitioniert<br />

werden, wobei σ ein im Lexikon verzeichnetes Morphem ist, α jedoch nicht im Lexikon vorkommt<br />

(β ∈ Σ*), beispielsweise die Zerlegung von Staub in S und taub, wobei S kein Lexikoneintrag<br />

zugeordnet ist. Was hier jedoch wie ein Problem <strong>des</strong> Algorithmus aussieht, erweist<br />

sich als Vorteil, wenn man annimmt, daß es sich bei α um ein zulässiges Morphem <strong>der</strong><br />

zu analysierenden Sprache handelt, welches lediglich im verwendeten Lexikon nicht verzeichnet<br />

ist. Unbekannt sind in diesem Sinne also alle Segmente eines Wortes, die von keiner<br />

Partitionierung <strong>des</strong> Wortes erfaßt werden. Dieses Identifizieren von nicht im Lexikon verzeichneten<br />

Segmenten ist wesentlich für das mitverfolgte Ziel, auch Wörter mit unbekannten<br />

Teilen zu analysieren und wird durch den im nächsten Abschnitt beschriebenen Wortstrukturparser<br />

geleistet.<br />

4.3 Wortstrukturparsing<br />

Der Parser – als zweiter Teilschritt <strong>des</strong> hier vorgestellten <strong>Analyse</strong>verfahrens – erzeugt aus<br />

den gefundenen Wortsegmentierungen die von <strong>der</strong> Wortgrammatik definierten Wortstrukturen.<br />

Zwei Möglichkeiten sind denkbar, diesen Parser in den <strong>Analyse</strong>vorgang zu integrieren:<br />

1. <strong>der</strong> üblichen Konzeption <strong>der</strong> Compilerkonstruktion folgend hat <strong>der</strong> Parser die Hauptkontrolle<br />

und ruft den Segmentierer auf, sobald <strong>der</strong> Parser ein neues Token in seine<br />

<strong>Analyse</strong> zu integrieren hat.<br />

2. <strong>der</strong> Segmentierer hat die Kontrolle über die <strong>Analyse</strong> und übermittelt sukzessiv gefundene<br />

Token an den Parser, <strong>der</strong> damit angefangene <strong>Analyse</strong>n fortzusetzen versucht.<br />

Beide Grundstrategien sind mit einer gewünschten Inkrementalität <strong>des</strong> Gesamtverfahrens<br />

zunächst einmal vereinbar. Allerdings stellt sich bei Möglichkeit 1 das nicht einfach zu lösende<br />

Problem, daß <strong>der</strong> Segmentierer aufgrund seiner parallelen Operationsweise nicht immer<br />

nur ein Token zurückgibt, son<strong>der</strong>n möglicherweise auch mehrere, die in unterschiedliche<br />

Strukturbäume zu integrieren sind. So erscheint es zweckmäßiger, Zuflucht zu Möglichkeit<br />

2 zu nehmen, <strong>der</strong> zumal noch <strong>der</strong> Reiz <strong>des</strong> Unüblichen anhaftet.<br />

Allerdings schränkt diese Entscheidung die anwendbaren Parsstrategien ein. Da nun <strong>der</strong><br />

Segmentierer den Parser steuert – abweichend also von Standardverfahren in vergleichbaren<br />

Problembereichen wie dem Compiling von Programmiersprachen – können nicht mehr alle<br />

Parsverfahren eingesetzt werden. Beispielsweise impliziert eine ausschließlich hypothesengetriebene<br />

Strategie, wie sie das Top-Down-Parsing charakterisiert, daß <strong>der</strong> Parser immer<br />

dann den Scanner zur Rückgabe eines neuen Symbols auffor<strong>der</strong>t, wenn ersterer Regeln angewendet<br />

hat, die auf <strong>der</strong> rechten Regelseite Terminalsymbole enthalten. Sollen Parser und<br />

Scanner bezüglich <strong>der</strong> Steuerung im umgekehrten Verhältnis stehen, kommt nur ein wenigstens<br />

teilweise datengetriebenes (Bottom-up) Verfahren in Frage. Hierbei erzeugt <strong>der</strong> Scanner/Segmentierer<br />

ein neues Symbol, was im Zuge <strong>des</strong> Versuchs, dieses zu integrieren, zu<br />

rekursiv sich fortsetzenden Reduktionen führen kann, die schließlich im Erfolgsfalle beim<br />

Startsymbol enden.<br />

Geeignete Parsverfahren, die den hier gestellten Erfor<strong>der</strong>nissen – zumin<strong>des</strong>t teilweise Bottom-up-Strategie,<br />

Zugriff auf Zustandsinformationen und inkrementelle Vorgehensweise –<br />

entsprechen, sind Chart-Parsing und das auf <strong>der</strong> LR(k)-Technik beruhende Verfahren von<br />

Tomita (vgl. Tomita (1987)). Allerdings müßten auf den ersten Blick beide Verfahren aufgrund<br />

<strong>des</strong> prinzipiell nichtdeterministischen Charakters <strong>des</strong> Zerlegungsprozesses modifiziert<br />

werden, beispielsweise, indem je<strong>der</strong> Zerlegungsalternative ein separater Parser zugeordnet<br />

wird. Da alternative Zerlegungen jedoch häufig gemeinsame Segmente an den glei-<br />

99

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!