pdf - Universität zu Köln
pdf - Universität zu Köln
pdf - Universität zu Köln
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Als Datenbank wurde MySQL ausgewählt, obwohl aufgrund der geringen Komplexität<br />
der Testdatenbank auch andere Datenbanken diese Aufgabe erfüllen könnten. Da<br />
SQL-Datenbanken jedoch seit einigen Jahren einen Standard darstellen, wurde MySQL<br />
als Vertreter dieser Datenbankkategorie verwendet. Obwohl MySQL eine Vielzahl von<br />
Erweiterungen des SQL-Standards bietet, wurde versucht, auf MySQL-spezifische Funktionalität<br />
<strong>zu</strong> verzichten. Lediglich beim Einfügen wurde aus Geschwindigkeitsgründen die<br />
Multiple-Insert-Funktionalität 56 verwendet.<br />
Software Version Quelle<br />
Perl 5.8.5 http://www.cpan.org/src/<br />
MySQL 4.0.22 http://www.mysql.com<br />
DBI 1.45 http://search.cpan.org/ timb/DBI-1.45/<br />
DBD::mysql 2.9004 http://search.cpan.org/ rudy/DBD-mysql-2.9004/<br />
Text::Metaphone 1.96 http://search.cpan.org/ mschwern/Text-Metaphone-1.96/<br />
Text::DoubleMetaphone 0.07 http://search.cpan.org/author/MAURICE/Text-DoubleMetaphone-0.07/<br />
Wait::Filtert 1.800 http://search.cpan.org/ ulpfr/WAIT-1.800/<br />
Phonet 1.3.1 http://www.heise.de/ct/ftp/99/25/252/<br />
Abbildung 17: Auflistung der eingesetzten Software und Be<strong>zu</strong>gsquellen<br />
Die Phonix-Implementierung in dem benutzten Perl-Modul WAIT::Filter scheint nicht<br />
in allen Punkten mit der Beschreibung in dem Artikel Gadd (1988) überein<strong>zu</strong>stimmen.<br />
Insbesondere die Generierung von mehreren Schlüssel wird nicht unterstützt. Aus den<br />
generierten Schlüsseln lässt sich ersehen, dass ,,Ending-Sounds” 57 nicht kodiert werden.<br />
Aufgrund der Ergebnisse von Pfeifer u. a. (1995) ist <strong>zu</strong> vermuten, dass mit dieser Funktionalität<br />
eine Verbesserung der Ergebnisse für diesen Algorithmus möglich wäre.<br />
Da die Beschreibung der ,,<strong>Köln</strong>er Phonetik” noch einige Unklarheiten aufwies, wurde<br />
die Implementation dahingehend modifiziert, dass die in dem Artikel von Postel (1969)<br />
gegebenen Beispielschlüssel mit den generierten Schlüsseln übereinstimmen. Die in dem<br />
Artikel beschriebene Vorgehensweise für Namens<strong>zu</strong>sätze wurde nicht berücksichtigt, da<br />
diese nicht Bestandteil des Korpus sind. Außerdem wurde das in die Klasse 8 und<br />
die Umlaute in die Liste der Vokale aufgenommen.<br />
6.4 Allgemeine Statistik<br />
Zu diesem Zeitpunkt der Untersuchung ist es bereits möglich allgemeinere Aussagen über<br />
die erzeugten Schlüssel vor<strong>zu</strong>legen. So haben einige der Verfahren eine feste Schlüssellänge<br />
durch Auffüllen von Leerpositionen und/oder Abschneiden von <strong>zu</strong> langen Schlüsseln. Bei<br />
56 Hierbei werden mehrere Datensätze auf einmal angelegt. Dies reduziert den Kommunikationsaufwand<br />
zwischen den Skripten und der Datenbank. Diese Möglichkeit der Beschleunigung existiert auch bei anderen<br />
Datenbanken, ist jedoch kein Standard. Die Verwendung von Multiple-Inserts erschien sinnvoll, da<br />
das Einfügen der gesamten Daten samt Generierung der Schlüssel aus den Namen auf dem verwendeten<br />
Rechner über zwei Stunden dauerte.<br />
57 siehe hier<strong>zu</strong> auch die Beschreibung des Algorithmus in Kapitel 3.6.4<br />
35