Eine computerlinguistische Untersuchung des Genitivschwundes
Eine computerlinguistische Untersuchung des Genitivschwundes
Eine computerlinguistische Untersuchung des Genitivschwundes
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
4. Durchführung<br />
4. Durchführung<br />
Um den Genitivschwund umfassender untersuchen zu können, muss ein Programm in<br />
Perl geschrieben werden, das den nötigen Anforderungen entspricht. Zudem müssen<br />
die Texte für die Verarbeitung, unter anderem durch den eben erwähnten TreeTagger,<br />
vorbereitet werden. Der strukturelle Ablauf der Programmierung und auch die einzelnen<br />
Schritte, die zur Erstellung nötig waren, werden im folgenden Abschnitt verdeutlicht.<br />
Anschließend werden die Probleme, die während der Programmierung entstanden<br />
und die es zu beseitigen galt, angesprochen.<br />
4.1 Struktureller Ablauf<br />
Der erste Schritt innerhalb der <strong>Untersuchung</strong> besteht darin, die Novellen für das POS<br />
Tagging durch den TreeTagger vorzubereiten, um unbrauchbare Ergebnisse zu vermeiden.<br />
Daraufhin werden die Novellen entsprechend durch den Tagger annotiert,<br />
damit sie dann von dem tatsächlichen Hauptprogramm analysiert werden können. Der<br />
strukturelle Aufbau <strong>des</strong> Perlskripts zur <strong>Untersuchung</strong> <strong>des</strong> Genitivschwun<strong>des</strong> wird am<br />
Ende dieses Abschnitts dargelegt.<br />
4.1.1 Vorbereitung der Texte für das POS Tagging<br />
Zunächst werden die Novellen, die als Textdatei unter goethe_novelle.txt für „Novelle“<br />
von Goethe, mann_todinvenedig.txt für „Der Tod in Venedig“ von Mann und entsprechend<br />
timm_currywurst.txt für „Die Entdeckung der Currywurst“ von Timm ohne<br />
Vorwort und weitere nicht-inhaltsbezogene Angaben gespeichert sind, für den darauffolgenden<br />
Prozess <strong>des</strong> Part-of-speech Taggings vorbereitet. Diese Texte sind unter<br />
anderem auf der CD-ROM in Anhang 3 zu finden.<br />
Zur Vermeidung von späteren Tagfehlern, wie etwa der Zuweisung der falschen<br />
Wortart, sollen die Dateien vor der Anwendung <strong>des</strong> TreeTaggers von bestimmten<br />
Zeichen bereinigt werden. Dafür wurde das Programm preprocess.pl 5 erstellt, welches<br />
die Texte für die Zuweisung der POS Tags vorbereitet.<br />
Der Programmaufruf kann unter anderem in der Betriebssystem-Shell erfolgen,<br />
nachdem man als erstes per Befehl cd (change directory) und der Pfadangabe <strong>des</strong><br />
Ordners, in dem das Programm gespeichert ist, in eben diesen wechselt. Danach gibt<br />
man perl und den Namen der Programmdatei, in diesem Fall preprocess.pl, an und das<br />
Programm startet.<br />
Zu Beginn wird der Benutzer mittels <strong>des</strong> print-Statements darüber informiert, wozu das<br />
Programm dient. Nach dem Statement steht in Anführungszeichen der auszugebende<br />
5 ebenfalls in Anhang 3<br />
18