pdf - Universität zu Köln
pdf - Universität zu Köln
pdf - Universität zu Köln
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
50<br />
40<br />
41.31<br />
40.83<br />
40.21<br />
38.82<br />
36.72<br />
36.36<br />
36.00<br />
30<br />
20<br />
10<br />
0<br />
koelner<br />
daitch<br />
exsoundex<br />
metaphone<br />
phonix<br />
soundex<br />
dmeta<br />
12.45<br />
phonet2<br />
9.50<br />
phonet<br />
1.14<br />
phonem<br />
Abbildung 47: Prozentualer Anteil der durch Abgleich der Graphemvarianten des /i/ gefilterten<br />
Suchergebnisse der 50 häufigsten Namen.<br />
48 dargestellt. Demnach ist der reguläre Ausdruck für das /a/ für die Filterung ähnlich<br />
<strong>zu</strong>verlässig, jedoch werden weniger richtige Suchresultate entfernt.<br />
1,0<br />
0,9<br />
0,8<br />
0,7<br />
0,6<br />
0,5<br />
0,4<br />
0,3<br />
0,2<br />
0,1<br />
0,0<br />
0.24<br />
exsoundex<br />
0.22<br />
koelner<br />
0.20<br />
soundex<br />
0.16<br />
phonem<br />
0.16<br />
phonix<br />
0.14<br />
daitch<br />
0.12<br />
dmeta<br />
0.06<br />
metaphone<br />
0.00<br />
phonet<br />
0.00<br />
phonet2<br />
Abbildung 48: Durchschnittliche Anzahl der durch Abgleich von Graphemvarianten des<br />
/i/ fälschlicherweise gefilterten Suchergebnisse bei den 50 häufigsten Namen.<br />
9 Schlussbemerkungen<br />
In dieser Arbeit wurde ein Überblick über ausgewählte, relevante Verfahren für eine Phonetische<br />
Suche gegeben. Darüber hinaus wurde ein Blick in den Bereich der Methoden für<br />
den Vergleich zweier Zeichenketten vorgenommen. Die Verfahren für die Suche wurden anhand<br />
eines umfangreichen Korpus auf Ihre Anwendbarkeit für häufige deutsche Familiennamen<br />
untersucht. Dabei wurde sowohl die Anzahl von korrekten Suchergebnissen, als<br />
auch die Fehlerquote beachtet. Anschliessend wurden aus der Auswertung und vorhandener<br />
Literatur gewonnene, ausgewählte Aspekte der Graphem-Phonem-Beziehungen im<br />
Deutschen besprochen. Schliesslich wurden mehrere Vorschläge für eine Verbesserung der<br />
Fehlerquote der Verfahren für Phonetische Suchen vorgenommen und auf Ihre Anwendbarkeit<br />
überprüft. Somit wurden drei einfach <strong>zu</strong> implementierende Methoden vorgestellt, die<br />
die Fehlerquote immens verbessern. Für eine noch bessere Filterung und die Möglichkeit,<br />
die Suchergebnisse nach Ähnlichkeit <strong>zu</strong> sortieren, bleibt die Vermutung, dass die bereits<br />
angesprochenen phonetisch/phonologischen motivierten Gewichtungen für Edit-Distance-<br />
Algorithmen noch besser für diesen Zweck geeignet sind. Vorausset<strong>zu</strong>ng dafür wäre allerdings<br />
ein frei verfügbarer, konfigurierbarer und in der Praxis einsetzbarer Graphem-nach-<br />
60