21.11.2013 Aufrufe

Ein Computerlinguistisches Lexikon als komplexes System

Ein Computerlinguistisches Lexikon als komplexes System

Ein Computerlinguistisches Lexikon als komplexes System

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

7.1 Anlegen des <strong>Lexikon</strong>s<br />

terscheidung von Lexemen wie welch und all , die nicht flektieren und nur<br />

vor Artikeln auftreten: welch ein Tag, all die Kinder. Bei den meisten Pronomen<br />

ist anstelle der Flexionsklasse (Element DMORklasse) zu jeder Vollform<br />

der Morphologiestring angegeben: zur Form dessen<br />

¡ §¢¨¨£¤ ¡<br />

beim Lexem die §" ¢§¤£ ¥ £¢ ¢¡<br />

. Zur Steuerung der Ausleseroutine erhält das ¢ Merkmal<br />

¡ ¦ <br />

DMORtyp den Wert .<br />

Affixe und Zusätze Affixe und Konfixe sind nicht im DMOR-<strong>Lexikon</strong> eingetragen.<br />

Diese <strong>Ein</strong>träge müssen neu erzeugt werden. Zitierform und damit Lexem<br />

ist das Affix mit einem Bindestrich an der Seite, an der die Basis affigiert wird:<br />

-chen , ent- . Bei Präfixen und Konfixen bleibt die Flexionsinformation leer,<br />

während bei Suffixen Stammform und Flexionsklasse eingetragen werden: Als<br />

Stamm wird die Form ohne Bindestrich (chen) eingetragen. Die Flexionsklasse<br />

ist identisch mit der Flexionsklasse von chen-Derivationen (Hölzchen, Stöckchen).<br />

Bei Partikelverben und sogenannten ’Erstgliedern’ bleibt ebenfalls die Flexionsinformation<br />

leer, da auch sie nur aufgrund ihrer Wortbildungsstämme eingetragen<br />

sind (Ausgehanzug, Darstellung; Schrebergarten, Allroundtalent), die<br />

einer <strong>Ein</strong>heit zugeordnet werden müssen.<br />

Sonderklassen Abkürzungen, nicht ihre ausgeschriebene Form, werden<br />

<strong>als</strong> Zitierformen gewählt. Beim Element Flexionsmorphologie werden die<br />

Stamm/Flexionsklassen-Paare aus DMOR übernommen (DMORtyp: ).<br />

£<br />

Wie bei den Adverbien können später <strong>Ein</strong>träge miteinander verschmolzen werden,<br />

bei denen es verschiedene Abkürzungsvarianten für dieselbe ausgeschrie-<br />

¦ ¦<br />

bene Form gibt (z.B. s, sek, sec für Sekunde).<br />

7.1.3 Auffüllen der DeKo-Merkmale<br />

Nach dem Erzeugen des Grundlexikons aus den DMOR-Dateien müssen diejenigen<br />

Informationen aufgefüllt werden, die in DMOR nicht enthalten sind. Dies<br />

betrifft insbesondere die Merkmale der lexikalischen <strong>Ein</strong>heit, die noch nicht mit<br />

einem sinnvollen Defaultwert belegt sind. Es handelt sich dabei um die Attribute<br />

m_form (morphologische Form) und herkunft sowie um die Derivationsund<br />

Kompositionsstämme. 8<br />

Während es sich bei der (halb)automatischen Umwandlung einer Ressource<br />

in eine andere um eine vergleichsweise einfache Operation handelt, ist die Auszeichnung<br />

von knapp 40 000 Substantiven, Adjektiven und Verben mit Informationen<br />

sehr zeitaufwendig. Da es sich bei den <strong>Ein</strong>heiten aus dem DMOR-<strong>Lexikon</strong><br />

um die Lexeme der in Texten häufig vorkommenden Wortformen handelt, sind<br />

8 Die ausführliche Beschreibung der Affixe fand bereits im Rahmen des DeKo-Projekts statt<br />

(vgl. 5.1) und konnte für das IMSLEX einfach übernommen werden.<br />

99

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!