30.01.2014 Aufrufe

Eine computerlinguistische Untersuchung des Genitivschwundes

Eine computerlinguistische Untersuchung des Genitivschwundes

Eine computerlinguistische Untersuchung des Genitivschwundes

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

4. Durchführung<br />

Anschließend wird per elsif das nächste Muster im Hexagramm gesucht. Dieses<br />

Muster ermittelt alle Wörter, die auf –ere, -sten oder –ste enden sowie als POS Tag<br />

ADJA tragen und in Kombination mit einem definiten Artikel sowie einem Nomen am<br />

Ende <strong>des</strong> Strings stehen. Das Fragezeichen ? drückt hierbei die Optionalität <strong>des</strong><br />

vorausgehenden Zeichens aus, weshalb –sten? sowohl –ste als auch –sten entspricht<br />

(Siehe Schwartz et al., 2005).<br />

Das nächste Suchmuster gestaltet sich etwas komplexer. Zunächst wird entweder das<br />

Wort eine, <strong>Eine</strong>, ein oder Ein in Verknüpfung mit den POS Tags ART oder PIS<br />

gesucht. An <strong>des</strong>sen Stelle können aber auch das substituierende Demonstrativpronomen<br />

die, ein Wort mit dem Tag für Kardinalzahlen CARD oder die substituierenden<br />

Indefinitpronomen keiner oder andere treten. Weitere Alternativen sind kein<br />

mit dem Kürzel PIAT, Die- oder denjenigen als substituieren<strong>des</strong> Demonstrativpronomen<br />

oder schlussendlich der Artikel dem. Anschließend folgt ein definiter Artikel und<br />

ein Nomen, ein Possessivpronomen, oder die Kardinalzahl drei am Ende <strong>des</strong> Strings.<br />

Danach folgen diejenigen Suchmuster, die aufgrund von Tagfehlern oder anderen<br />

Problemen erstellt werden mussten. Beispielsweise wurde das Nomen Haupt fälschlicherweise<br />

vom TreeTagger als Eigennamen NE interpretiert und wird somit nicht<br />

durch das obige Muster erfasst. Außerdem müssen die Genitive, die durch der, eigentlich<br />

PDS und nicht ART, und welche eingeleitet werden, ebenfalls extra aufgeführt<br />

werden. Das Caret ^ kennzeichnet hierbei den Beginn eines Strings (siehe Schwartz et<br />

al., 2005). Nach der Ausgabe dieser Genitive endet die foreach-Schleife.<br />

Mit Hilfe der nächsten foreach-Schleife werden Genitive mit definitem Artikel im nächstgrößeren<br />

N-Gramm, bestehend aus vier Bigrammen, gesucht. Diese Oktagramme sind<br />

im Array @oktagram gespeichert. Es wird in derselben Weise wie bei der Suche in den<br />

Hexagrammen vorgegangen. Auch die weitere Identifizierung <strong>des</strong> adnominalen Genitivs<br />

mit definitem Artikel erfolgt nach demselben Schema und es wird nach Mustern,<br />

die einem solchen entsprechen, gesucht. Hierzu werden zusätzlich Dekagramme,<br />

Dodekagramme, Tetrakaidekagramme und Hektakaidekagramme benötigt.<br />

Der nachfolgende Schritt dient zur Erfassung derjenigen Konstruktionen, die fälschlicherweise<br />

als Genitiv erkannt wurden, da sie in eines der obigen Suchmuster passen,<br />

jedoch keine genitivische Konstruktion darstellen. Hierbei wird als erstes eine Information<br />

über die Funktion der nachfolgenden Konstruktionen in die Ausgabedatei<br />

geschrieben. Anschließend wird ein Zähler $nogen für diese falsch erkannten Muster<br />

eingeführt und auf Null gesetzt. Danach werden nach der gleichen Vorgehensweise<br />

wie zur Erkennung der Genitive mittels foreach-Schleifen bestimmte Kombinationen<br />

28

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!