pdf - Universität zu Köln
pdf - Universität zu Köln
pdf - Universität zu Köln
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
6 Vergleich der Verfahren für eine Phonetische Suche<br />
Mehrere Untersuchungen über den Vergleich von Verfahren für die Phonetische Suche sind<br />
für andere Sprachkontexte, wie z. B. Englisch oder Dänisch, bekannt. Neben dem anderen<br />
Sprachkontext weichen aber auch andere Rahmenbedingungen dieser Untersuchungen, wie<br />
der verwendete Korpus oder die Art der Bewertung, <strong>zu</strong>m Teil erheblich von dieser Arbeit<br />
ab. Im Folgenden soll ein Überblick über die bekannten Untersuchungen gegeben werden.<br />
6.1 Bekannte Untersuchungen<br />
Lait u. Randell (1993) vergleichen Soundex, Metaphone und zwei weitere Algorithmen für<br />
den sprachunabhängigen Vergleich von Zeichenketten. Eines davon, das ,,k-approximate<br />
String-Matching” wird nicht genauer beschrieben. Das Zweite, nach der Urheberin Guth-<br />
Algorithmus genannt, scheint eine stark vereinfachte Form der Levenshtein-Distanz <strong>zu</strong><br />
sein. Zusätzlich wird am Ende des Artikels ein weiteres, neu entwickeltes Soundex-Derivat<br />
mit dem Namen Fonex 48 vorgestellt.<br />
Der Aspekt einer datenbankbasierten Speicherung und Abfrage von Familiennamen<br />
durch die generierten Schlüssel wird bei Lait u. Randell (1993) nicht berücksichtigt, obwohl<br />
sowohl Soundex als auch Metaphone diese Anwendung nahelegen. Vielmehr wird<br />
angenommen, dass jeder Eingabename mit jedem anderen Namen verglichen werden muss.<br />
Die Untersuchung basiert auf einem Korpus von äquivalenten englischen Familiennamen<br />
aus Park u. Park (1992). Diese werden <strong>zu</strong>sätzlich um simulierte Tippfehler ergänzt, um<br />
das Verhalten der Algorithmen auf Robustheit bezüglich dieser <strong>zu</strong> testen. Am Rande werden<br />
Aspekte von Namens<strong>zu</strong>sätzen besprochen. So sind z. B. und <br />
in der Aussprache sehr ähnlich.<br />
Es wird eine Reihe von Kriterien aufgestellt, die ein Korpus für den Namensvergleich<br />
erfüllen sollte:<br />
• Im Korpus sollten alle möglichen Anfangsbuchstaben in den Familiennamen vertreten<br />
sein. Dies wird damit begründet, dass Probleme einzelner Algorithmen, insbesondere<br />
die des unmodifizierten Soundex, ansonsten nicht in die Bewertung einfliessen.<br />
• Die in dem Korpus enthaltenen Familiennamen sollten insbesondere in Be<strong>zu</strong>g auf die<br />
Buchstaben einer Normalverteilung für Namen entsprechen. Dieses Kriterium dürfte<br />
dem Schwerpunkt der Arbeit bei Tippfehlern <strong>zu</strong>geordnet werden.<br />
• Die Länge der Namen sollte einer repräsentativen Verteilung der Längen entsprechen.<br />
48 Da <strong>zu</strong>m einen diese Variante über den Artikel hinaus keine Verbreitung gefunden hat und <strong>zu</strong>m anderen<br />
kein Anlass für die besondere Tauglichkeit für das Deutsche gegeben war, wurde darauf verzichtet, dieses<br />
Verfahren <strong>zu</strong> implementieren und in den Vergleich mit auf<strong>zu</strong>nehmen.<br />
32