28.12.2013 Aufrufe

pdf - Universität zu Köln

pdf - Universität zu Köln

pdf - Universität zu Köln

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Als Datenbank wurde MySQL ausgewählt, obwohl aufgrund der geringen Komplexität<br />

der Testdatenbank auch andere Datenbanken diese Aufgabe erfüllen könnten. Da<br />

SQL-Datenbanken jedoch seit einigen Jahren einen Standard darstellen, wurde MySQL<br />

als Vertreter dieser Datenbankkategorie verwendet. Obwohl MySQL eine Vielzahl von<br />

Erweiterungen des SQL-Standards bietet, wurde versucht, auf MySQL-spezifische Funktionalität<br />

<strong>zu</strong> verzichten. Lediglich beim Einfügen wurde aus Geschwindigkeitsgründen die<br />

Multiple-Insert-Funktionalität 56 verwendet.<br />

Software Version Quelle<br />

Perl 5.8.5 http://www.cpan.org/src/<br />

MySQL 4.0.22 http://www.mysql.com<br />

DBI 1.45 http://search.cpan.org/ timb/DBI-1.45/<br />

DBD::mysql 2.9004 http://search.cpan.org/ rudy/DBD-mysql-2.9004/<br />

Text::Metaphone 1.96 http://search.cpan.org/ mschwern/Text-Metaphone-1.96/<br />

Text::DoubleMetaphone 0.07 http://search.cpan.org/author/MAURICE/Text-DoubleMetaphone-0.07/<br />

Wait::Filtert 1.800 http://search.cpan.org/ ulpfr/WAIT-1.800/<br />

Phonet 1.3.1 http://www.heise.de/ct/ftp/99/25/252/<br />

Abbildung 17: Auflistung der eingesetzten Software und Be<strong>zu</strong>gsquellen<br />

Die Phonix-Implementierung in dem benutzten Perl-Modul WAIT::Filter scheint nicht<br />

in allen Punkten mit der Beschreibung in dem Artikel Gadd (1988) überein<strong>zu</strong>stimmen.<br />

Insbesondere die Generierung von mehreren Schlüssel wird nicht unterstützt. Aus den<br />

generierten Schlüsseln lässt sich ersehen, dass ,,Ending-Sounds” 57 nicht kodiert werden.<br />

Aufgrund der Ergebnisse von Pfeifer u. a. (1995) ist <strong>zu</strong> vermuten, dass mit dieser Funktionalität<br />

eine Verbesserung der Ergebnisse für diesen Algorithmus möglich wäre.<br />

Da die Beschreibung der ,,<strong>Köln</strong>er Phonetik” noch einige Unklarheiten aufwies, wurde<br />

die Implementation dahingehend modifiziert, dass die in dem Artikel von Postel (1969)<br />

gegebenen Beispielschlüssel mit den generierten Schlüsseln übereinstimmen. Die in dem<br />

Artikel beschriebene Vorgehensweise für Namens<strong>zu</strong>sätze wurde nicht berücksichtigt, da<br />

diese nicht Bestandteil des Korpus sind. Außerdem wurde das in die Klasse 8 und<br />

die Umlaute in die Liste der Vokale aufgenommen.<br />

6.4 Allgemeine Statistik<br />

Zu diesem Zeitpunkt der Untersuchung ist es bereits möglich allgemeinere Aussagen über<br />

die erzeugten Schlüssel vor<strong>zu</strong>legen. So haben einige der Verfahren eine feste Schlüssellänge<br />

durch Auffüllen von Leerpositionen und/oder Abschneiden von <strong>zu</strong> langen Schlüsseln. Bei<br />

56 Hierbei werden mehrere Datensätze auf einmal angelegt. Dies reduziert den Kommunikationsaufwand<br />

zwischen den Skripten und der Datenbank. Diese Möglichkeit der Beschleunigung existiert auch bei anderen<br />

Datenbanken, ist jedoch kein Standard. Die Verwendung von Multiple-Inserts erschien sinnvoll, da<br />

das Einfügen der gesamten Daten samt Generierung der Schlüssel aus den Namen auf dem verwendeten<br />

Rechner über zwei Stunden dauerte.<br />

57 siehe hier<strong>zu</strong> auch die Beschreibung des Algorithmus in Kapitel 3.6.4<br />

35

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!