21.11.2013 Aufrufe

Ein Computerlinguistisches Lexikon als komplexes System

Ein Computerlinguistisches Lexikon als komplexes System

Ein Computerlinguistisches Lexikon als komplexes System

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Methoden der morphologischen Analyse<br />

geln: <strong>Ein</strong>e Wortform muss vollständig und ohne Überlappungen zusammengesetzt<br />

werden, einem Nomensuffix muss ein Nomen vorweggehen usw.<br />

Morphem(gruppe)<br />

Kategorie(n) in IMSLEX<br />

%¢¡¤£¦¥¤§¨£¦©¡ $ %<br />

au<br />

¦ $¢¡ $&%¤£¦¥¨¨¦¥¡©¤£¢<br />

aus<br />

¤£¦¥¨¨¦¥¡©¤£¢<br />

auseinander<br />

¤¦¥¨¡©¤£¢¤£¦¥¨<br />

auseinandersetz<br />

!"¡¤&%¢¡!<br />

auseinandersetzung<br />

¢£¦¥¨<br />

sein<br />

¨"¡¤&%¡#$ $%£&%!¤&&!'<br />

ei<br />

¥¨¡©¤£¢()¤£¦¥¨#*¢£¦¥¨ ¥¡©¤£<br />

ein<br />

¥ $&% $%£&%<br />

einander<br />

¥¢£¨&!'+)¢¦ $¤¢¡ $ %,$ $%£&%¢&&!'<br />

in<br />

$¢%£<br />

ina<br />

%¢¡¤£¦¥¤§¨£¦©¡ $ %<br />

na<br />

¦ $¢¡ $&%¤£¦¥¨¨¦¥¡©¤£¢<br />

an<br />

$$%£&%¤&&!'<br />

and<br />

¢¢§£¦©¨¡<br />

ander<br />

¢¨¤£¦¥¦)$¤%!£<br />

anders<br />

¨¥¤£¨&!'<br />

de<br />

¨¥¡©¤£<br />

der<br />

¢§£¦©¡!!¤&¨&!'#-$ $%!£&%¤&¨&!'#¥¤£¨&.'#)¥$&% $%£ %<br />

er<br />

¢£¦¥¨<br />

ersetz<br />

"¡¢&%¢¡<br />

ersetzung<br />

"¡¤ %¢¡<br />

set<br />

¢£¦¥¨<br />

setz<br />

"¡¤ %¢¡<br />

setzung<br />

¢ $¢¡! $&%¤¦¥¡©¤£¢/)¢£¦¥¨ ¥¡©¤£<br />

zu<br />

"¡¤ %¢¡<br />

zunge<br />

¥¢£¨&!'<br />

un<br />

$ $%£&%¢&&!'<br />

ung<br />

¨¥¤£¨&!'<br />

ge<br />

¦ $¢¡ $&%) ¡¤&%¢¡<br />

gen<br />

en<br />

¢§£¦©¡!¤&&.'<br />

Abbildung 3.4: Morpheme und Morphemgruppen in Auseinandersetzung<br />

Übergenerierung kann vermindert werden, indem Teilautomaten für bestimmte<br />

Aufgaben vorgesehen und hintereinandergeschaltet werden. Durch separate<br />

Automaten für Präfixe, Stämme und Suffixe kann verhindert werden,<br />

dass Präfixe an Suffix- oder Stammposition auftreten. Auch hier kommt es aber<br />

zu massiver Übergenerierung, da immer noch jedes im <strong>Lexikon</strong> verzeichnete<br />

Affix an jeden Stamm treten kann, auch wenn dies unsinnige Kombinationen<br />

wie *be ruder keit, *ver baum lich etc. ergeben kann. Wenn ein Automat eine<br />

Wortform wie unaufhörlich erkennen soll, wird er auch *unaufhaltlich erkennen,<br />

da beide demselben Wortbildungsmuster folgen. Die stetige Verfeinerung<br />

des Automaten zur immer genaueren Erkennung endet irgendwann bei den<br />

26

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!