28.12.2013 Aufrufe

pdf - Universität zu Köln

pdf - Universität zu Köln

pdf - Universität zu Köln

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

6 Vergleich der Verfahren für eine Phonetische Suche<br />

Mehrere Untersuchungen über den Vergleich von Verfahren für die Phonetische Suche sind<br />

für andere Sprachkontexte, wie z. B. Englisch oder Dänisch, bekannt. Neben dem anderen<br />

Sprachkontext weichen aber auch andere Rahmenbedingungen dieser Untersuchungen, wie<br />

der verwendete Korpus oder die Art der Bewertung, <strong>zu</strong>m Teil erheblich von dieser Arbeit<br />

ab. Im Folgenden soll ein Überblick über die bekannten Untersuchungen gegeben werden.<br />

6.1 Bekannte Untersuchungen<br />

Lait u. Randell (1993) vergleichen Soundex, Metaphone und zwei weitere Algorithmen für<br />

den sprachunabhängigen Vergleich von Zeichenketten. Eines davon, das ,,k-approximate<br />

String-Matching” wird nicht genauer beschrieben. Das Zweite, nach der Urheberin Guth-<br />

Algorithmus genannt, scheint eine stark vereinfachte Form der Levenshtein-Distanz <strong>zu</strong><br />

sein. Zusätzlich wird am Ende des Artikels ein weiteres, neu entwickeltes Soundex-Derivat<br />

mit dem Namen Fonex 48 vorgestellt.<br />

Der Aspekt einer datenbankbasierten Speicherung und Abfrage von Familiennamen<br />

durch die generierten Schlüssel wird bei Lait u. Randell (1993) nicht berücksichtigt, obwohl<br />

sowohl Soundex als auch Metaphone diese Anwendung nahelegen. Vielmehr wird<br />

angenommen, dass jeder Eingabename mit jedem anderen Namen verglichen werden muss.<br />

Die Untersuchung basiert auf einem Korpus von äquivalenten englischen Familiennamen<br />

aus Park u. Park (1992). Diese werden <strong>zu</strong>sätzlich um simulierte Tippfehler ergänzt, um<br />

das Verhalten der Algorithmen auf Robustheit bezüglich dieser <strong>zu</strong> testen. Am Rande werden<br />

Aspekte von Namens<strong>zu</strong>sätzen besprochen. So sind z. B. und <br />

in der Aussprache sehr ähnlich.<br />

Es wird eine Reihe von Kriterien aufgestellt, die ein Korpus für den Namensvergleich<br />

erfüllen sollte:<br />

• Im Korpus sollten alle möglichen Anfangsbuchstaben in den Familiennamen vertreten<br />

sein. Dies wird damit begründet, dass Probleme einzelner Algorithmen, insbesondere<br />

die des unmodifizierten Soundex, ansonsten nicht in die Bewertung einfliessen.<br />

• Die in dem Korpus enthaltenen Familiennamen sollten insbesondere in Be<strong>zu</strong>g auf die<br />

Buchstaben einer Normalverteilung für Namen entsprechen. Dieses Kriterium dürfte<br />

dem Schwerpunkt der Arbeit bei Tippfehlern <strong>zu</strong>geordnet werden.<br />

• Die Länge der Namen sollte einer repräsentativen Verteilung der Längen entsprechen.<br />

48 Da <strong>zu</strong>m einen diese Variante über den Artikel hinaus keine Verbreitung gefunden hat und <strong>zu</strong>m anderen<br />

kein Anlass für die besondere Tauglichkeit für das Deutsche gegeben war, wurde darauf verzichtet, dieses<br />

Verfahren <strong>zu</strong> implementieren und in den Vergleich mit auf<strong>zu</strong>nehmen.<br />

32

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!