19.11.2013 Aufrufe

Strukturierung von Bedeutungserklärungen mit XML - Arbeitsbereich ...

Strukturierung von Bedeutungserklärungen mit XML - Arbeitsbereich ...

Strukturierung von Bedeutungserklärungen mit XML - Arbeitsbereich ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

4<br />

hat := hat (1:n) 8<br />

wea := wird erklärt als (1:c)<br />

wva := wird verwendet als (1:c*n)<br />

trai := tritt auf in (1:n)<br />

enth := enthält (1:n)<br />

Abb. 1: Ein ERM für die <strong>Bedeutungserklärungen</strong> <strong>von</strong> Verben in Wörterbüchern:<br />

StichV<br />

hat<br />

DefPh<br />

wea<br />

enth<br />

trai<br />

wva<br />

DefV<br />

2 Definitionsstruktur einer Bedeutungserklärung und <strong>XML</strong> Repräsentation<br />

Im folgenden wird ein Programmsystem vorgestellt, das aus Wörterbuchartikel, die durch<br />

graphische Mittel segmentiert sind (HTML-Tags), <strong>Bedeutungserklärungen</strong> <strong>von</strong> Verben in<br />

einem <strong>XML</strong>-Format extrahiert, <strong>mit</strong> dem obiges ERM implementiert ist. Die erzeugte <strong>XML</strong>-<br />

Datei ist in Bezug auf die in Kap. 1 beschriebene DTD 9 valide. Das Java-Programmsystem<br />

VERBSEMANTIK 10 besteht aus folgenden Modulen:<br />

• SentenceView: Steuermodul, Verwaltung <strong>von</strong> Benutzereingaben.<br />

• IPEE: Internet Pattern Extract Engine: Für Worterklärungen <strong>von</strong> Verben, die als Artikelbestandteile<br />

<strong>von</strong> maschinenlesbaren WWW-Wörterbüchern vorliegen und deren Feinstruktur<br />

<strong>mit</strong>tels HTML-Tags gegliedert ist, wird ein Pattern Matching Verfahren durchgeführt,<br />

<strong>mit</strong> dem die einzelnen Lesarten des Artikeleintrags segmentiert werden.<br />

• Module: Wortartentagger und Phrasenanalyse: Für sämtliche Wortformen einer extrahierten<br />

Bedeutungserklärung werden die zugehörigen Wortarten bestimmt 11 . Das Tagging-Verfahren<br />

ist eine Variante des LEMMA2-Verfahrens, das zur Familie der LEM-<br />

8 Die Beziehungstypen (Relationships) sind hier <strong>mit</strong> Kardinalitäten angegeben. Für die Kardinalität c gilt: c<br />

{0, 1}.<br />

9 Siehe Anlage 1.<br />

10 Die Entwicklung fand im Rahmen einer <strong>von</strong> mir betreuten Master-Thesis ([Frey 2007]) statt.<br />

11 Hierbei werden Wortart-Dateien, die in einem semi-strukturierten Daten-Format (=:ssd) vorliegen (vgl. [Frey<br />

2007: 34ff.]), verwendet.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!