21.11.2013 Aufrufe

Ein Computerlinguistisches Lexikon als komplexes System

Ein Computerlinguistisches Lexikon als komplexes System

Ein Computerlinguistisches Lexikon als komplexes System

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

3.1 Computerlinguistische Modellierung<br />

3.1.2 Methoden der regelbasierten Verarbeitung<br />

Stemming<br />

In einem regelbasierten Morphologiesystem gibt es i.A. zwei Methoden der Verarbeitung<br />

der <strong>Ein</strong>gabe: Abarbeitung von links nach rechts oder Abarbeitung von<br />

rechts nach links. Die Methode von rechts nach links, <strong>als</strong>o mit dem Ende der<br />

Wortform beginnend, ähnelt dem Stemming. Das ist eine linguistisch gesehen<br />

recht ungenau arbeitende Variante der Lemmatisierung, die häufig bei Information<br />

Retrieval bzw. Information Extraction eingesetzt wird. Sie erfordert lediglich<br />

ein <strong>Lexikon</strong> der Flexionsendungen einer Sprache (und ggf. der produktiven Derivationssuffixe)<br />

und ermöglicht die Rückführung von rein konkatenativ gebildeten<br />

Flexionsformen auf eine Art flexionsendungsloser Stammform. Dass diese<br />

nicht mit der morphologisch gesehen richtigen Grundform übereinstimmen<br />

muss, zeigen alle auf -e oder -en endenden Substantive, da diese Endungen <strong>als</strong><br />

potentielle Flexionsendungen abgetrennt werden: Aus Freude wird Freud, aus<br />

Eisen Eis (allerdings werden die flektierten Formen Bilds, Bildes, Bilder, Bildern<br />

allesamt auf eine Stammform Bild zurückgeführt).<br />

<strong>Ein</strong> Beispiel für ein Morphologiesystem, das die <strong>Ein</strong>gabewortform von rechts<br />

nach links abarbeitet, ist Morphy (vgl. Lezius (1996)). Hier werden bei der Analyse<br />

einer Wortform sukzessive einzelne Zeichen abgetrennt und es wird überprüft,<br />

ob ein Stamm gefunden wurde. Zusätzlich wird in jedem Schritt versucht,<br />

morphologische Prozesse wie Umlautung und ß/ss-Wechsel (Kuß/Küsse in alter<br />

Rechtschreibung) rückgängig zu machen, um so am Ende eine Grundform und<br />

mögliche Flexionsendungen zu finden. Ist dies der Fall, wird geprüft, ob die<br />

<strong>Ein</strong>gabe-Wortform aus der gefundenen Grundform generiert werden kann. Im<br />

Erfolgsfall ist eine mögliche Analyse mit Grundform, Flexionsstamm und morphologischer<br />

Information (diese wird mit den Flexiven zusammen gespeichert)<br />

ermittelt worden. Durch den Generierungsschritt wird das Problem des Stemmings,<br />

die Erkennung f<strong>als</strong>cher Grundformen, umgangen.<br />

Schritt <strong>Ein</strong>gabe Test Resultat<br />

1 Bäume Bäume, Baume –<br />

2 Bäum e Bäum, Baum Baum + Pluralendung<br />

3 Bäu me Bäu, Bau – (me ist keine Flexionsendung)<br />

4 Bä ume Bä, Ba –<br />

5 B äume B –<br />

Abbildung 3.1: Morphologische Analyse von Bäume in Morphy<br />

In Abbildung 3.1 ist die Abarbeitung der Wortform Bäume dargestellt. In<br />

jedem Schritt wird ein weiteres Zeichen rechts abgetrennt und der Rest links<br />

davon geprüft. In diesem Beispiel wird immer sowohl nach der umgelauteten<br />

23

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!