21.11.2013 Aufrufe

Ein Computerlinguistisches Lexikon als komplexes System

Ein Computerlinguistisches Lexikon als komplexes System

Ein Computerlinguistisches Lexikon als komplexes System

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Konzeption des IMSLEX<br />

die Ausführung von Kontrollstrukturen, so dass Aussagen der dargestellten Art<br />

zumindest maschinell überprüfbar sind.<br />

Der größte Vorteil von XML ist die Trennung von Ressource und Strukturbeschreibung:<br />

Jede Dokumentinstanz kann mit einem XML-Parser automatisch<br />

auf ihre Gültigkeit gemäß der Dokumenttyp-Definition geprüft werden, so dass<br />

bestimmte Arten von Fehlern von vornherein ausgeschlossen sind.<br />

Modellierungsprinzipien<br />

Trotz der wenigen Beschreibungskonstrukte, die im XML-Formalismus geboten<br />

werden, sind die Lösungsmöglichkeiten für Modellierungsaufgaben vielfältig.<br />

Die beiden Extreme sind der völlige Verzicht auf Dokumentinhalt, <strong>als</strong>o die Kodierung<br />

sämtlicher Informationen <strong>als</strong> Elementhierarchie und in Form von Attributen,<br />

oder aber die Verwendung möglichst weniger Elemente bei einer sehr<br />

flachen Hierarchie. Im ersten Fall lässt sich sehr gezielt auf einzelne Informationseinheiten<br />

zugreifen, allerdings leidet die Übersichtlichkeit der Ressource an<br />

der Menge der Metadaten im Verhältnis zum Dokumentinhalt. Beim zweiten Extrem<br />

tritt das Markup auf Kosten der Granularität der gespeicherten Informationen<br />

in den Hintergrund. Die Entscheidung zwischen Dokumentinhalt, Attribut<br />

oder Element lässt sich nur in Abhängigkeit der zu modellierenden Ressource<br />

festlegen. Es gibt allerdings einige generelle Prinzipien, die die Verständlichkeit<br />

der gewählten Modellierung erhöhen.<br />

Attribute werden am besten dann verwendet, wenn ein Merkmal über<br />

eine vorgegebene, nicht zu große Menge von Werten verfügt. Wortarten<br />

sind ein Beispiel für einen solchen Aufzählungstyp, ebenso die Unterscheidung,<br />

ob eine <strong>Ein</strong>heit morphologisch einfach oder komplex ist.<br />

Lässt sich eine Information in weitere Informationen untergliedern, dann<br />

empfiehlt sich die Modellierung <strong>als</strong> Element. Treten beispielsweise zwei<br />

Elemente stets gemeinsam auf, so können sie in ein übergeordnetes Element<br />

eingebettet werden.<br />

Dokumentinhalt schließlich ist den Informationen vorbehalten, die nicht<br />

weiter zerlegt werden müssen bzw. die nicht aufzählbar sind: Kommentare<br />

z.B. werden i.A. nicht für spezielle Anfragen benötigt. Die Zitierformen<br />

lassen sich nicht <strong>als</strong> Aufzählungstyp repräsentieren, etc.<br />

Diese Empfehlungen lassen sich nicht immer einhalten, aber wo dies nicht<br />

geschieht, sollte dokumentiert werden, warum an dieser Stelle vom Standardvorgehen<br />

abgewichen wurde.<br />

78

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!