21.11.2013 Aufrufe

Ein Computerlinguistisches Lexikon als komplexes System

Ein Computerlinguistisches Lexikon als komplexes System

Ein Computerlinguistisches Lexikon als komplexes System

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

5.1 DeKo<br />

die an Wortbildung teilnehmen, sind die Derivations- und Kompositionsstämme<br />

aufgelistet. Zu jedem Lexem ist die phonetische Transkription in SAM-<br />

PA-Notation (phonetisches Alphabet aus ASCII-Zeichen, vgl. SAMPA (1989))<br />

mitsamt der Silbenbetonung und der Anzahl der Sprechsilben angegeben.<br />

An syntaktischen Informationen ist die Speicherung von Subkategorisierungsrahmen<br />

für Verben, Adjektive und Substantive vorgesehen. Verschiedene<br />

Arten semantischer Information sind vorgesehen, aber noch nicht weiter spezifiziert<br />

worden. Das Feld Semantischer Typ wird bislang <strong>als</strong> einziges verwendet.<br />

Hier werden Eigennamen unterschieden nach Vor-, Nach- und Städtenamen,<br />

bei Substantiven kann die Unterscheidung von Appellativa (count nouns) und<br />

Kontinuativa (mass nouns) sowie Titeln usw. vorgenommen werden.<br />

Schließlich wird die Gesamtvorkommenshäufigkeit der Formen des Lexems<br />

im HGC verzeichnet. Es handelt sich allerdings nicht um die tatsächliche Lemmafrequenz,<br />

sondern um die Summe der Tokenfrequenzen aller in ihrer Oberflächenform<br />

verschiedenen Wortformen aus dem jeweiligen Paradigma. 5 Bei<br />

gebundenen lexikalischen <strong>Ein</strong>heiten ist die Feststellung der Frequenz schwierig<br />

bis unmöglich, da hier zunächst die Art der Wortbildung feststehen müsste, bevor<br />

die Affixfrequenz gezählt werden kann (Schwung darf nicht <strong>als</strong> Affix -ung<br />

gezählt werden).<br />

5.1.3 Diskussion<br />

Mit der in DeKo vorgenommenen detaillierten Beschreibung von Derivationsaffixen<br />

und Kompositionsmustern wird die linguistisch adäquate maschinelle<br />

Behandlung von Derivation und Komposition ermöglicht. Bislang lagen derartige<br />

Beschreibungen für das Deutsche hauptsächlich in gedruckter Form und für<br />

einheimische Affixe vor (vgl. z.B. die Reihe zur Deutschen Wortbildung, Kühnhold<br />

und Wellmann (1973), Wellmann (1975), Kühnhold et al. (1978), Ortner<br />

et al. (1991), Pümpel-Mader et al. (1992), oder Fleischer und Barz (1995)).<br />

Die Kombination von fundierter linguistischer Beschreibung, <strong>Lexikon</strong>konzeption<br />

und Realisierung in einem endlichen Automaten ist ein großer Schritt in<br />

Richtung maschinelle Analyse von Wortbildungsphänomenen, die in deutschen<br />

Textkorpora vorkommen.<br />

Auf der anderen Seite erfordert die Umsetzung des Modells einen sehr<br />

großen Aufwand bei der Vergabe der Merkmalwerte für mehr <strong>als</strong> 50 000 Lexeme<br />

im (DMOR-)<strong>Lexikon</strong>. Obwohl das Projekt einige Jahre zurückliegt, konnten<br />

dennoch bislang längst nicht alle Informationen erhoben werden. Der Vorteil<br />

allerdings, ein wohldefiniertes <strong>Lexikon</strong>konzept zu haben, so dass Phänomene<br />

5 Für ¡ ¢ Schuster ist die Vorkommenshäufigkeit die Tokenfrequenz der Formen Schuster,<br />

Schusters, Schustern im HGC. Vorkommen des homonymen Eigennamens £ ¢¤<br />

(Schuster ) werden<br />

<strong>als</strong>o mitgezählt, d.h., die angegebene Vorkommenshäufigkeit liegt häufig höher <strong>als</strong> der<br />

tatsächlich zu erwartende Wert.<br />

65

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!