21.11.2013 Aufrufe

Ein Computerlinguistisches Lexikon als komplexes System

Ein Computerlinguistisches Lexikon als komplexes System

Ein Computerlinguistisches Lexikon als komplexes System

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Methoden der morphologischen Analyse<br />

Jede Datei ist weiter unterteilt in Sublexika. Für Substantive sind dies<br />

¨©¨© ¡ £ ¥£¢¤¨ ¤£©¡ ¨©¨©¡¤£ ¥£¢¨¥¤ ©<br />

¨©¨ ¡¤£ ¥¡<br />

und . Die Untergliederung<br />

dient der Steuerung des Kompositionsverhaltens der Stämme. Unter<br />

¨©¨§¦ ¦ £© © ¥<br />

¤£ ¡<br />

¨©¨ ¡¤£ ¥¨¢¤¨<br />

sind jeweils einige Stämme aufgelistet, die nicht <strong>als</strong> Kompositumsköpfe<br />

auftreten dürfen (z.B. Ei zur Vermeidung von F<strong>als</strong>chanalysen wie<br />

Drucker=Ei, Bücher=Ei, Ziegel=Ei, . . . ). Unter (no compounding)<br />

werden Stämme zusammengefasst, die generell nicht an ¨©¨© ¡¤£ ¥£¢¤¨¥¤© Komposition<br />

teilnehmen dürfen (einzelne Buchstaben z.B. oder Adjektive wie gang, das nur<br />

£© ¦ ©¥<br />

¨©¨¥¦<br />

in einer festen Fügung gang und gäbe vorkommt, und lose). Das -<br />

Sublexikon ist eine Besonderheit: Hier werden Kompositionserstglieder aufgelistet,<br />

die nicht über Fortsetzungsklassen erzeugt werden können (vgl. unten<br />

S. 37). Bei Verben dienen die unterschiedlichen Sublexika der Unterscheidung<br />

der Partizipbildung: Es wird noch nach Partizipbildung mit und ohne ge- differenziert.<br />

Die Sublexika werden in Teilautomaten kompiliert, die jeweils eine Funktion<br />

übernehmen: Es gibt Automaten, die für jeweils kleingeschriebene oder großgeschriebene<br />

nicht-komponierbare Formen zuständig sind, solche, die für kleingeschriebene<br />

Kompositionsköpfe (oder, bei Bindestrich-Komposita, für großgeschriebene)<br />

zuständig sind, und solche, die für klein- und großgeschriebene<br />

Kompositionserstglieder zuständig sind. <strong>Ein</strong> Grund dafür ist die Vermeidung<br />

von zu starker Übergenerierung, die entstünde, wenn alle Wortarten gleichberechtigt<br />

an Komposition teilhaben dürften (vgl. z.B. die Anzahl der möglichen<br />

Morpheme in einer Wortform in Abbildung 3.4, S. 26).<br />

(3.5) Soforthilfe sofort=Hilfe<br />

In Beispiel 3.5 wird veranschaulicht, dass in einer morphologisch komplexen<br />

Wortform Groß- und Kleinschreibung bestimmter Wortarten gerade vertauscht<br />

vorkommen können.<br />

Zu jedem Stamm im <strong>Lexikon</strong> ist eine Fortsetzungsklasse angegeben, die wiederum<br />

ein Sublexikon definiert, das in weitere Fortsetzungsklassen verzweigt. 8<br />

Die Fortsetzungsklassen auf der obersten Ebene, <strong>als</strong>o bei den Stammeinträgen,<br />

entsprechen den Flexionsklassen von Lexemen. Implizit repräsentiert ein Paar<br />

aus Stamm und Flexionsklasse in einem Sublexikon <strong>als</strong>o ein Lexem. Bei den<br />

nicht-flektierenden Klassen werden ebenfalls ’Flexionsklassen’ angegeben, die<br />

dann allerdings nicht in Fortsetzungsklassen verzweigen, sondern nur die Wortart<br />

festlegen und ggf. syntaktische Informationen kodieren: bei Adverbien die<br />

Tatsache, ob es sich um Pronominaladverbien oder Frageadverbien handelt, bei<br />

Konjunktionen der Typ (koordinierend, subordinierend, vergleichend), bei Adpositionen<br />

der Kasus, der regiert wird.<br />

Bei den geschlossenen Wortarten wie den Pronomen oder bei unregelmäßigen<br />

Paradigmen werden in DMOR die Wortformen einzeln aufgelistet und mit<br />

8 <strong>Ein</strong>e Illustration hierzu ist in Abbildung 3.5 auf Seite 28 gegeben.<br />

32

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!