pdf - Universität zu Köln
pdf - Universität zu Köln
pdf - Universität zu Köln
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
100<br />
90<br />
80<br />
70<br />
60<br />
50<br />
40<br />
30<br />
20<br />
10<br />
0<br />
69.06<br />
exsoundex<br />
44.48<br />
phonem<br />
44.12<br />
daitch<br />
29.51<br />
phonix<br />
23.64<br />
koelner<br />
23.08<br />
dmeta<br />
18.87<br />
metaphone<br />
10.25<br />
soundex<br />
2.67<br />
phonet2<br />
0.50<br />
phonet<br />
Abbildung 43: Prozentualer Anteil der durch genauere Untersuchung der initialen Grapheme<br />
gefilterten Suchergebnisse bei den 50 häufigsten Namen. Vor allem Soundex und<br />
Phonem profitieren von einer genaueren Betrachtung der ersten Grapheme.<br />
Das Ergebnis in den Abbildungen 43 und 44 zeigt, dass die meisten Algorithmen hier<br />
noch einiges an Spielraum lassen und in diesem Kontext viel <strong>zu</strong> ungenau arbeiten.<br />
1,0<br />
0,9<br />
0,8<br />
0,7<br />
0,6<br />
0,5<br />
0,4<br />
0,3<br />
0,2<br />
0,1<br />
0,0<br />
0.72<br />
exsoundex<br />
0.48<br />
phonem<br />
0.46<br />
dmeta<br />
0.34<br />
phonix<br />
0.34<br />
metaphone<br />
0.32<br />
koelner<br />
0.32<br />
daitch<br />
0.24<br />
phonet2<br />
0.16<br />
soundex<br />
0.06<br />
phonet<br />
Abbildung 44: Durchschnittliche Anzahl der durch Überprüfung der initialen Grapheme<br />
fälschlicherweise gefilterten Suchergebnisse bei den 50 häufigsten Namen.<br />
8.5 Benut<strong>zu</strong>ng der vokalischen Information<br />
Wie vorher bereits mehrfach erörtert, verwerfen viele der Verfahren die Information, die<br />
durch vokalische Grapheme getragen wird. Als einfaches Experiment wurde ein regulärer<br />
Ausdruck entwickelt, der alle Schreibweisen der Vokale /i/ und /a/ erkennt. Gefiltert wurden<br />
die Suchresultate, die nicht auf die gleiche Weise auf den Ausdruck matchen, wie es<br />
bei der Suchanfrage der Fall ist.<br />
50<br />
40<br />
41.42<br />
30<br />
28.73<br />
28.04<br />
27.96<br />
27.00<br />
26.89<br />
25.19<br />
20<br />
10<br />
0<br />
phonix<br />
soundex<br />
exsoundex<br />
koelner<br />
daitch<br />
dmeta<br />
metaphone<br />
2.97<br />
phonet2<br />
2.36<br />
phonem<br />
0.00<br />
phonet<br />
Abbildung 45: Prozentualer Anteil der durch den Abgleich der Graphemvarianten des /a/<br />
bei den 50 häufigsten Namen.<br />
58