28.12.2013 Aufrufe

pdf - Universität zu Köln

pdf - Universität zu Köln

pdf - Universität zu Köln

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

50<br />

40<br />

41.31<br />

40.83<br />

40.21<br />

38.82<br />

36.72<br />

36.36<br />

36.00<br />

30<br />

20<br />

10<br />

0<br />

koelner<br />

daitch<br />

exsoundex<br />

metaphone<br />

phonix<br />

soundex<br />

dmeta<br />

12.45<br />

phonet2<br />

9.50<br />

phonet<br />

1.14<br />

phonem<br />

Abbildung 47: Prozentualer Anteil der durch Abgleich der Graphemvarianten des /i/ gefilterten<br />

Suchergebnisse der 50 häufigsten Namen.<br />

48 dargestellt. Demnach ist der reguläre Ausdruck für das /a/ für die Filterung ähnlich<br />

<strong>zu</strong>verlässig, jedoch werden weniger richtige Suchresultate entfernt.<br />

1,0<br />

0,9<br />

0,8<br />

0,7<br />

0,6<br />

0,5<br />

0,4<br />

0,3<br />

0,2<br />

0,1<br />

0,0<br />

0.24<br />

exsoundex<br />

0.22<br />

koelner<br />

0.20<br />

soundex<br />

0.16<br />

phonem<br />

0.16<br />

phonix<br />

0.14<br />

daitch<br />

0.12<br />

dmeta<br />

0.06<br />

metaphone<br />

0.00<br />

phonet<br />

0.00<br />

phonet2<br />

Abbildung 48: Durchschnittliche Anzahl der durch Abgleich von Graphemvarianten des<br />

/i/ fälschlicherweise gefilterten Suchergebnisse bei den 50 häufigsten Namen.<br />

9 Schlussbemerkungen<br />

In dieser Arbeit wurde ein Überblick über ausgewählte, relevante Verfahren für eine Phonetische<br />

Suche gegeben. Darüber hinaus wurde ein Blick in den Bereich der Methoden für<br />

den Vergleich zweier Zeichenketten vorgenommen. Die Verfahren für die Suche wurden anhand<br />

eines umfangreichen Korpus auf Ihre Anwendbarkeit für häufige deutsche Familiennamen<br />

untersucht. Dabei wurde sowohl die Anzahl von korrekten Suchergebnissen, als<br />

auch die Fehlerquote beachtet. Anschliessend wurden aus der Auswertung und vorhandener<br />

Literatur gewonnene, ausgewählte Aspekte der Graphem-Phonem-Beziehungen im<br />

Deutschen besprochen. Schliesslich wurden mehrere Vorschläge für eine Verbesserung der<br />

Fehlerquote der Verfahren für Phonetische Suchen vorgenommen und auf Ihre Anwendbarkeit<br />

überprüft. Somit wurden drei einfach <strong>zu</strong> implementierende Methoden vorgestellt, die<br />

die Fehlerquote immens verbessern. Für eine noch bessere Filterung und die Möglichkeit,<br />

die Suchergebnisse nach Ähnlichkeit <strong>zu</strong> sortieren, bleibt die Vermutung, dass die bereits<br />

angesprochenen phonetisch/phonologischen motivierten Gewichtungen für Edit-Distance-<br />

Algorithmen noch besser für diesen Zweck geeignet sind. Vorausset<strong>zu</strong>ng dafür wäre allerdings<br />

ein frei verfügbarer, konfigurierbarer und in der Praxis einsetzbarer Graphem-nach-<br />

60

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!