30.01.2014 Aufrufe

Eine computerlinguistische Untersuchung des Genitivschwundes

Eine computerlinguistische Untersuchung des Genitivschwundes

Eine computerlinguistische Untersuchung des Genitivschwundes

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

4. Durchführung<br />

Abbildung 6: Erstellung der aus Wörtern und POS Tags bestehenden Bigramme<br />

Insgesamt soll die while-Schleife dazu dienen, Bigramme, die in diesem Programm aus<br />

einem Wort und einem POS Tag bestehen, zu erstellen und diese in einem Array zu<br />

speichern. Die vollständige Erstellung dieser Bigramme ist in Abbildung 6 dargestellt.<br />

Dabei wird innerhalb der while-Schleife durch foreach und split je<strong>des</strong> Wort $wd in einer<br />

Zeile zunächst in der Variable $z festgehalten. Dann werden in einer if-Kontrollstruktur<br />

mit Hilfe von Regular Expressions, die auch reguläre Ausdrücke genannt werden, und<br />

dem Binding Operator =~ jene Vorkommnisse von $z gesucht, die dem Muster eines<br />

POS Tags entsprechen. Die regulären Ausdrücke stehen hierbei zwischen zwei nach<br />

vorne gelehnten Schrägstrichen. Der Binding Operator gleicht Muster auf <strong>des</strong>sen<br />

rechten Seite mit einem String auf der linken Seite ab (siehe Schwartz et al., 2005). Bei<br />

Schwartz et al. (2005) ist folgende Definition für reguläre Ausdrücke zu finden:<br />

„A regular expression, often called a pattern in Perl, is a template that matches or doesn’t<br />

match a given string.“<br />

(Schwartz et al., 2005: 100)<br />

Besteht ein Wort aus zwei oder mehreren Großbuchstaben, was durch das Muster<br />

[A-Z][A-Z]+ erzeugt wird oder einem Satzzeichen, deren POS Tags durch $. oder $,<br />

dargestellt sind, so wird ein Paar $x bestehend aus $y und $z dem Array @bigram<br />

hinzugefügt. Das Muster in der Form (a|b) drückt hierbei aus, dass entweder a oder b<br />

gesucht wird. Durch die eckigen Klammern wird die Character Class ausgedrückt,<br />

womit nur ein Buchstabe aus der Reichweite von A bis Z gefunden werden muss.<br />

Das + ist das sogenannte Kleene Plus, welches besagt, dass das vorausgegangene<br />

Zeichen entweder einmal oder unendlich oft vorkommt. Außerdem muss $ hinter einem<br />

Schrägstrich \ stehen, da $ sonst als regulärer Ausdruck für das Ende einer Zeile<br />

beziehungsweise das Ende eines Strings fehlinterpretiert werden würde (siehe<br />

24

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!