Strukturierung von Bedeutungserklärungen mit XML - Arbeitsbereich ...
Strukturierung von Bedeutungserklärungen mit XML - Arbeitsbereich ...
Strukturierung von Bedeutungserklärungen mit XML - Arbeitsbereich ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
4<br />
hat := hat (1:n) 8<br />
wea := wird erklärt als (1:c)<br />
wva := wird verwendet als (1:c*n)<br />
trai := tritt auf in (1:n)<br />
enth := enthält (1:n)<br />
Abb. 1: Ein ERM für die <strong>Bedeutungserklärungen</strong> <strong>von</strong> Verben in Wörterbüchern:<br />
StichV<br />
hat<br />
DefPh<br />
wea<br />
enth<br />
trai<br />
wva<br />
DefV<br />
2 Definitionsstruktur einer Bedeutungserklärung und <strong>XML</strong> Repräsentation<br />
Im folgenden wird ein Programmsystem vorgestellt, das aus Wörterbuchartikel, die durch<br />
graphische Mittel segmentiert sind (HTML-Tags), <strong>Bedeutungserklärungen</strong> <strong>von</strong> Verben in<br />
einem <strong>XML</strong>-Format extrahiert, <strong>mit</strong> dem obiges ERM implementiert ist. Die erzeugte <strong>XML</strong>-<br />
Datei ist in Bezug auf die in Kap. 1 beschriebene DTD 9 valide. Das Java-Programmsystem<br />
VERBSEMANTIK 10 besteht aus folgenden Modulen:<br />
• SentenceView: Steuermodul, Verwaltung <strong>von</strong> Benutzereingaben.<br />
• IPEE: Internet Pattern Extract Engine: Für Worterklärungen <strong>von</strong> Verben, die als Artikelbestandteile<br />
<strong>von</strong> maschinenlesbaren WWW-Wörterbüchern vorliegen und deren Feinstruktur<br />
<strong>mit</strong>tels HTML-Tags gegliedert ist, wird ein Pattern Matching Verfahren durchgeführt,<br />
<strong>mit</strong> dem die einzelnen Lesarten des Artikeleintrags segmentiert werden.<br />
• Module: Wortartentagger und Phrasenanalyse: Für sämtliche Wortformen einer extrahierten<br />
Bedeutungserklärung werden die zugehörigen Wortarten bestimmt 11 . Das Tagging-Verfahren<br />
ist eine Variante des LEMMA2-Verfahrens, das zur Familie der LEM-<br />
8 Die Beziehungstypen (Relationships) sind hier <strong>mit</strong> Kardinalitäten angegeben. Für die Kardinalität c gilt: c<br />
{0, 1}.<br />
9 Siehe Anlage 1.<br />
10 Die Entwicklung fand im Rahmen einer <strong>von</strong> mir betreuten Master-Thesis ([Frey 2007]) statt.<br />
11 Hierbei werden Wortart-Dateien, die in einem semi-strukturierten Daten-Format (=:ssd) vorliegen (vgl. [Frey<br />
2007: 34ff.]), verwendet.