21.11.2013 Aufrufe

Ein Computerlinguistisches Lexikon als komplexes System

Ein Computerlinguistisches Lexikon als komplexes System

Ein Computerlinguistisches Lexikon als komplexes System

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Aufbau und Verwendung des IMSLEX<br />

1. Soll die Ressource aus einer oder aus mehreren Dateien bestehen?<br />

2. Wie werden Attributwerte vorbelegt, die angegeben werden müssen, für<br />

die aber noch keine Daten vorhanden sind?<br />

Aufteilung der IMSLEX-Daten in Dateien<br />

Dadurch, dass die Struktur sämtlicher lexikalischer <strong>Ein</strong>heiten in einer gemeinsamen<br />

DTD definiert wird, könnte die gesamte Ressource in einer einzigen Datei<br />

repräsentiert werden. Durch die Merkmalwerte kann jeder <strong>Ein</strong>trag jederzeit<br />

zweifelsfrei identifiziert werden.<br />

Datei Kategorie Typ<br />

IMSLEX_NN.xml Substantiv offene Klassen<br />

IMSLEX_NE.xml Name<br />

IMSLEX_ADJ.xml Adjektiv<br />

IMSLEX_V.xml Verb<br />

IMSLEX_PartV.xml Partikelverb<br />

IMSLEX_ADV.xml Adposition, Adverb geschlossene Klassen<br />

Interjektion, Konjunktion, Partikel<br />

IMSLEX_PRON.xml Artikel, Pronomen<br />

IMSLEX_NUM.xml Numeral<br />

IMSLEX_Praefix.xml (verschiedene Präfixe) Affixe und Zusätze<br />

IMSLEX_Suffix.xml (verschiedene Suffixe)<br />

IMSLEX_Konfix.xml Konfix<br />

IMSLEX_Erstglied.xml Erstglied<br />

IMSLEX_VPartikel.xml Verbpartikel<br />

IMSLEX_ABK.xml (verschiedene Abkürzungen) Sonderklassen<br />

Abbildung 7.1: <strong>Ein</strong>teilung der XML-Dateien in IMSLEX<br />

Für das IMSLEX wird dennoch die in DMOR praktizierte Idee der Aufteilung<br />

in Dateien (grob) nach Wortarten übernommen, so dass für jeweils eine Wortart<br />

oder einige Wortarten eigene Dateien vorgesehen sind (vgl. Abbildung 7.1 2 ).<br />

Das bietet den Vorteil, nicht mit einer einzigen sehr großen Textdatei arbeiten<br />

zu müssen 3 , sondern mit mehreren kleinen Dateien, die auch separat bearbeitet<br />

werden können.<br />

2 Adverbien zählen zu den offenen Klassen. Da in der Adverb-Datei jedoch zumeist Vertreter<br />

geschlossener Klassen gesammelt sind, wird sie in dieser Abbildung bei den ’geschlossenen<br />

Klassen’ dargestellt. ’Affixe und Zusätze’ sind im DMOR-Modell teilweise nicht vorhanden.<br />

3 Momentan umfasst das Substantivlexikon in seiner XML-Repräsentation 20 Megabyte (MB)<br />

an Daten für 21 000 <strong>Ein</strong>träge.<br />

94

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!