pdf - Universität zu Köln
pdf - Universität zu Köln
pdf - Universität zu Köln
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
1000<br />
900<br />
800<br />
700<br />
600<br />
500<br />
400<br />
300<br />
200<br />
100<br />
0<br />
759<br />
phonix<br />
434<br />
exsoundex<br />
226<br />
soundex<br />
223<br />
koelner<br />
220<br />
daitch<br />
217<br />
dmeta<br />
184<br />
metaphone<br />
41<br />
phonet2<br />
28<br />
phonem<br />
13<br />
phonet<br />
Abbildung 20: Anzahl der Suchergebnisse für . Insgesamt wurden 1.098 unterschiedliche<br />
Ergebnisse gefunden.<br />
Um <strong>zu</strong> vermitteln, wie die Verteilung der Suchergebnisse auf die Algorithmen ist, wird<br />
für die ersten hundert Namen der Mittelwert des prozentualen Anteils an der Anzahl der<br />
gelieferten Namen angegeben. Insbesondere Extended Soundex, ,,<strong>Köln</strong>er Phonetik” und<br />
Soundex liefern sehr viele Ergebnisse. Der durchschnittliche Anteil der richtigen Suchergebnisse<br />
für alle Verfahren <strong>zu</strong>sammen liegt bei lediglich ca. 4,72 %. Wie Abbildung 21<br />
zeigt, sind vor allem Soundex und Extended Soundex für die größte Anzahl der Suchergebnisse<br />
verantwortlich.<br />
100<br />
90<br />
80<br />
70<br />
60<br />
50<br />
40<br />
30<br />
20<br />
10<br />
0<br />
0.42<br />
phonet<br />
1.01<br />
phonet2<br />
1.26<br />
phonem<br />
4.72<br />
metaphone<br />
14.01<br />
koelner<br />
19.89<br />
daitch<br />
21.38<br />
phonix<br />
23.21<br />
dmeta<br />
37.00<br />
soundex<br />
49.87<br />
exsoundex<br />
Abbildung 21: Mittlerer Anteil an insgesamt gelieferten Suchergebnissen in % für die<br />
fünfzig häufigsten Namen.<br />
Die für einen Namen gefundenen Suchergebnisse wurden von Hand in drei Kategorien<br />
eingeordnet: Gut, Akzeptabel und Fehlerhaft. Gut entspricht einer möglichen Übereinstimmung<br />
in der Aussprache. Ein akzeptables Ergebnis liegt vor, wenn die Aussprache<br />
ähnlich ist. Ein Fehler wird gewertet, wenn die Aussprache des gesuchten Namens auf<br />
jeden Fall verschieden von dem gefundenen Namen ist.<br />
Aufgrund der Datenmenge wurde für das Bewerten der Namensähnlichkeit ein kurzes<br />
Programm geschrieben, welches ein Suchfeld und zwei Tabellen anzeigt. In dem Suchfeld<br />
ist die Eingabe von regulären Ausdrücken 58 möglich. Die dem regulären Ausdruck entsprechenden<br />
Einträge werden in der ersten Tabelle angezeigt. Die weitere Tabelle enthält<br />
58 siehe Kapitel 8.1<br />
37