28.12.2013 Aufrufe

pdf - Universität zu Köln

pdf - Universität zu Köln

pdf - Universität zu Köln

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

100<br />

90<br />

80<br />

70<br />

60<br />

50<br />

40<br />

30<br />

20<br />

10<br />

0<br />

69.06<br />

exsoundex<br />

44.48<br />

phonem<br />

44.12<br />

daitch<br />

29.51<br />

phonix<br />

23.64<br />

koelner<br />

23.08<br />

dmeta<br />

18.87<br />

metaphone<br />

10.25<br />

soundex<br />

2.67<br />

phonet2<br />

0.50<br />

phonet<br />

Abbildung 43: Prozentualer Anteil der durch genauere Untersuchung der initialen Grapheme<br />

gefilterten Suchergebnisse bei den 50 häufigsten Namen. Vor allem Soundex und<br />

Phonem profitieren von einer genaueren Betrachtung der ersten Grapheme.<br />

Das Ergebnis in den Abbildungen 43 und 44 zeigt, dass die meisten Algorithmen hier<br />

noch einiges an Spielraum lassen und in diesem Kontext viel <strong>zu</strong> ungenau arbeiten.<br />

1,0<br />

0,9<br />

0,8<br />

0,7<br />

0,6<br />

0,5<br />

0,4<br />

0,3<br />

0,2<br />

0,1<br />

0,0<br />

0.72<br />

exsoundex<br />

0.48<br />

phonem<br />

0.46<br />

dmeta<br />

0.34<br />

phonix<br />

0.34<br />

metaphone<br />

0.32<br />

koelner<br />

0.32<br />

daitch<br />

0.24<br />

phonet2<br />

0.16<br />

soundex<br />

0.06<br />

phonet<br />

Abbildung 44: Durchschnittliche Anzahl der durch Überprüfung der initialen Grapheme<br />

fälschlicherweise gefilterten Suchergebnisse bei den 50 häufigsten Namen.<br />

8.5 Benut<strong>zu</strong>ng der vokalischen Information<br />

Wie vorher bereits mehrfach erörtert, verwerfen viele der Verfahren die Information, die<br />

durch vokalische Grapheme getragen wird. Als einfaches Experiment wurde ein regulärer<br />

Ausdruck entwickelt, der alle Schreibweisen der Vokale /i/ und /a/ erkennt. Gefiltert wurden<br />

die Suchresultate, die nicht auf die gleiche Weise auf den Ausdruck matchen, wie es<br />

bei der Suchanfrage der Fall ist.<br />

50<br />

40<br />

41.42<br />

30<br />

28.73<br />

28.04<br />

27.96<br />

27.00<br />

26.89<br />

25.19<br />

20<br />

10<br />

0<br />

phonix<br />

soundex<br />

exsoundex<br />

koelner<br />

daitch<br />

dmeta<br />

metaphone<br />

2.97<br />

phonet2<br />

2.36<br />

phonem<br />

0.00<br />

phonet<br />

Abbildung 45: Prozentualer Anteil der durch den Abgleich der Graphemvarianten des /a/<br />

bei den 50 häufigsten Namen.<br />

58

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!