21.11.2013 Aufrufe

Ein Computerlinguistisches Lexikon als komplexes System

Ein Computerlinguistisches Lexikon als komplexes System

Ein Computerlinguistisches Lexikon als komplexes System

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

3.1 Computerlinguistische Modellierung<br />

Transducer oder kurz Transducer, bei dem die <strong>Ein</strong>gabe modifiziert wird oder<br />

Zeichenketten zusätzlich ausgegeben werden können.<br />

Abbildung 3.3: <strong>Ein</strong> simpler Transducer<br />

Der in Abbildung 3.3 dargestellte Transducer liest wiederum die <strong>Ein</strong>gabezeichenkette<br />

Apfel, vertauscht jedoch bei jedem Zustandsübergang das <strong>Ein</strong>gabezeichen<br />

gegen ein anderes Zeichen. 3 Das Resultat nach Abarbeiten der <strong>Ein</strong>gabe ist<br />

die Zeichenkette Saft.<br />

3.1.3 Problem regelbasierter <strong>System</strong>e: Übergenerierung<br />

Der am einfachsten zu realisierende Automat 4 erlaubt die beliebige Verkettung<br />

aller im <strong>Lexikon</strong> vorkommenden Morpheme. Jeder Zustand, der nach dem Lesen<br />

des letzten Zeichens eines Morphems im <strong>Lexikon</strong> auftritt, wird <strong>als</strong> Endzustand<br />

definiert, von dem aus ein Übergang in den Startzustand stattfindet.<br />

Die <strong>Ein</strong>gabe wird nur dann abgelehnt, wenn sie sich nicht aus aneinandergereihten<br />

Morphemen zusammensetzt. Umgekehrt wird jede beliebige Kombination<br />

oder auch Wiederholung von Morphemen akzeptiert, <strong>als</strong>o auch den<br />

Regeln der Wortbildung zuwiderlaufende Phantasieformen wie *wend ab keit,<br />

*keit bar, *keit keit keit usw. Dieses Phänomen wird <strong>als</strong> Übergenerierung bezeichnet.<br />

Die Sprache (die Menge aller Zeichenketten), die der Automat erkennt,<br />

umfasst zwar alle Wortformen, die <strong>als</strong> korrekt erkannt werden sollen,<br />

darüber hinaus aber auch noch einen wesentlich größeren Teil von Formen, die<br />

keine gültigen Wortformen des Deutschen sind.<br />

<strong>Ein</strong>e Übersicht über einige der möglichen Morpheme und Morphemgruppen,<br />

die in der Wortform Auseinandersetzungen enthalten sind (vgl. Abbildung<br />

3.4) zeigt die Komplexität, die bereits mit der Anzahl der möglichen Zerlegungen<br />

einer Wortform verbunden ist. Während das menschliche Gehirn die<br />

meisten der <strong>als</strong> zufällige Zeichenketten in der Wortform enthaltenen Bestandteile<br />

wie den Namen Ina, das Substantivsuffiv -and oder das Substantiv Zunge<br />

einfach auszublenden vermag, hat ein Computer zunächst einmal keine Anhaltspunkte,<br />

aus welchen Bestandteilen sich die komplexe Wortform sinnvoll<br />

zusammensetzt. Dies funktioniert lediglich über die explizite Angabe von Re-<br />

3 Das Zeichen (im letzten Übergang) wird in der Ausgabe nicht dargestellt, es steht für ein<br />

leeres Zeichen.<br />

¡<br />

4 Hier und im Folgenden ist immer ein Transducer gemeint, wenn von einem Automaten<br />

gesprochen wird. <strong>Ein</strong> Transducer ist lediglich eine spezielle Art eines Automaten.<br />

25

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!