30.01.2014 Aufrufe

Eine computerlinguistische Untersuchung des Genitivschwundes

Eine computerlinguistische Untersuchung des Genitivschwundes

Eine computerlinguistische Untersuchung des Genitivschwundes

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

4. Durchführung<br />

4. Durchführung<br />

Um den Genitivschwund umfassender untersuchen zu können, muss ein Programm in<br />

Perl geschrieben werden, das den nötigen Anforderungen entspricht. Zudem müssen<br />

die Texte für die Verarbeitung, unter anderem durch den eben erwähnten TreeTagger,<br />

vorbereitet werden. Der strukturelle Ablauf der Programmierung und auch die einzelnen<br />

Schritte, die zur Erstellung nötig waren, werden im folgenden Abschnitt verdeutlicht.<br />

Anschließend werden die Probleme, die während der Programmierung entstanden<br />

und die es zu beseitigen galt, angesprochen.<br />

4.1 Struktureller Ablauf<br />

Der erste Schritt innerhalb der <strong>Untersuchung</strong> besteht darin, die Novellen für das POS<br />

Tagging durch den TreeTagger vorzubereiten, um unbrauchbare Ergebnisse zu vermeiden.<br />

Daraufhin werden die Novellen entsprechend durch den Tagger annotiert,<br />

damit sie dann von dem tatsächlichen Hauptprogramm analysiert werden können. Der<br />

strukturelle Aufbau <strong>des</strong> Perlskripts zur <strong>Untersuchung</strong> <strong>des</strong> Genitivschwun<strong>des</strong> wird am<br />

Ende dieses Abschnitts dargelegt.<br />

4.1.1 Vorbereitung der Texte für das POS Tagging<br />

Zunächst werden die Novellen, die als Textdatei unter goethe_novelle.txt für „Novelle“<br />

von Goethe, mann_todinvenedig.txt für „Der Tod in Venedig“ von Mann und entsprechend<br />

timm_currywurst.txt für „Die Entdeckung der Currywurst“ von Timm ohne<br />

Vorwort und weitere nicht-inhaltsbezogene Angaben gespeichert sind, für den darauffolgenden<br />

Prozess <strong>des</strong> Part-of-speech Taggings vorbereitet. Diese Texte sind unter<br />

anderem auf der CD-ROM in Anhang 3 zu finden.<br />

Zur Vermeidung von späteren Tagfehlern, wie etwa der Zuweisung der falschen<br />

Wortart, sollen die Dateien vor der Anwendung <strong>des</strong> TreeTaggers von bestimmten<br />

Zeichen bereinigt werden. Dafür wurde das Programm preprocess.pl 5 erstellt, welches<br />

die Texte für die Zuweisung der POS Tags vorbereitet.<br />

Der Programmaufruf kann unter anderem in der Betriebssystem-Shell erfolgen,<br />

nachdem man als erstes per Befehl cd (change directory) und der Pfadangabe <strong>des</strong><br />

Ordners, in dem das Programm gespeichert ist, in eben diesen wechselt. Danach gibt<br />

man perl und den Namen der Programmdatei, in diesem Fall preprocess.pl, an und das<br />

Programm startet.<br />

Zu Beginn wird der Benutzer mittels <strong>des</strong> print-Statements darüber informiert, wozu das<br />

Programm dient. Nach dem Statement steht in Anführungszeichen der auszugebende<br />

5 ebenfalls in Anhang 3<br />

18

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!