21.11.2013 Aufrufe

Ein Computerlinguistisches Lexikon als komplexes System

Ein Computerlinguistisches Lexikon als komplexes System

Ein Computerlinguistisches Lexikon als komplexes System

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

8.2 Vorschläge zur Durchführung der morphologischen Analyse<br />

5. Der ’Guesser’ (engl.). Falls Wortformen nach Durchlaufen der Stufen 1 bis<br />

4 noch immer nicht erkannt wurden, wird nach Suffix entschieden (dann<br />

kann zumindest die Flexion richtig erkannt werden), sonst handelt es sich<br />

bei großgeschriebenen Formen um Eigennamen.<br />

Die Übergänge zwischen den Varianten 3 bis 5 sind fließend. Wenn eine<br />

Morphologiekomponente die Wortbildungsregeln nicht einschränkt, können einige<br />

der in Stufe 3 vorgenommenen Generalisierungen bereits eine Stufe vorher<br />

durchgeführt werden.<br />

Für das IMSLEX ist das Modell deswegen attraktiv, weil anstelle einer<br />

großen, uniformen Makrostruktur, wie sie aus dem DMOR-<strong>Lexikon</strong> übernommen<br />

wurde, eine Menge von fein unterschiedenen Lexemen vorliegt, die nach<br />

verschiedenen Attributen gruppiert werden können. Es ist ein Leichtes, die <strong>als</strong><br />

morphologisch komplex markierten <strong>Ein</strong>heiten in die Liste für den direkten Zugriff<br />

auszulesen. Da ein Großteil von ihnen über einen Struktureintrag verfügt,<br />

sind die unmittelbaren Konstituenten bekannt und können mit ausgegeben werden.<br />

Allerdings handelt es sich nicht um Vollformen, so dass zusätzlich zum<br />

Auslesen noch die Generierung der Vollformen erfolgen muss. 13<br />

Für die folgenden Stufen wird dann das gesamte <strong>Lexikon</strong> ausgelesen. In<br />

Stufe 2 werden alle Phänomene erfasst, die völlig regulär ablaufen, <strong>als</strong>o sich<br />

aus den im <strong>Lexikon</strong> gespeicherten <strong>Ein</strong>heiten bilden lassen. Diese Stufe bietet<br />

eine sehr gute Möglichkeit, das <strong>Lexikon</strong> zu testen: Da an dieser Stelle noch<br />

keine Heuristiken eingesetzt werden, können die in dieser Stufe nicht analysierten<br />

<strong>Ein</strong>heiten direkt auf fehlende morphologische <strong>Ein</strong>heiten zurückgeführt<br />

werden. 14 Allerdings kann es hier auch zum umgekehrten Fehlerfall kommen:<br />

Es gibt eine Analyse, aber sie ist f<strong>als</strong>ch. <strong>Ein</strong> Beispiel dafür ist die Zerlegung der<br />

im Korpus belegten französischen Wortform Beaucoup (an einem Satzanfang)<br />

in die Substantive (der) Beau und (der) Coup.<br />

Stufe 3 bildet den Kompromiss zwischen Freiheit und Restriktion der Generalisierungen.<br />

Da die erwähnten Formen aus den Paradigmen der Wortarten<br />

oft formgleich mit Fugenelementen sind, wird ein geringeres Risiko eingegangen<br />

<strong>als</strong> bei der Freigabe von bestimmten typischen Fugenelementen für alle<br />

Erstglieder unabhängig vom Paradigma.<br />

Stufe 4 bildet alle Prozesse ab, denen die Bildung von Stammformen unterliegen<br />

kann. Dies trägt der Tatsache Rechnung, dass z.B. eine umgelautete<br />

Derivationsstammform oft nur in ein oder zwei verschiedenen Wortbildungsmustern<br />

belegt ist (Öfchen, Öflein) und daher auch nur entsprechend schwer zu<br />

finden und im <strong>Lexikon</strong> zu verzeichnen ist. 15 Diese Stufe kann dafür verwendet<br />

13 Da der morphologische Kopf und das Paradigma bekannt sind, ist dies nicht schwer.<br />

14 Natürlich können auch Wortbildungsregeln fehlen, aber da diese gewöhnlich sehr generell<br />

gehalten werden, ist das Fehlen von <strong>Ein</strong>heiten wahrscheinlicher.<br />

15 Für einen umgelauteten Derivations- und Kompositionsstamm für das Lexem Klang ¡<br />

sind genau zwei Wortbildungen im HGC belegt, die darüber hinaus auch nur je einmal vorkom-<br />

127

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!