pdf - Universität zu Köln
pdf - Universität zu Köln
pdf - Universität zu Köln
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
erwähnten Artikel von Belhoula (1993), wurden nicht weiter verfolgt, da für das Zählen<br />
der Silbenanzahl das Sonoritätsprinzip aus<strong>zu</strong>reichen scheint.<br />
Bei der Implementierung stellten sich jedoch schnell erste Fragen. Zum einen bereitet<br />
wiederum die Phonotaktik Probleme, <strong>zu</strong>m anderen ist die Vergabe der Sonoritätswerte<br />
fehleranfällig. Ersteres Problem wurde dadurch gelöst, dass bestimmte Zeichenkombinationen<br />
wie z. B. und <strong>zu</strong>sammengefasst wurden. Dadurch lassen sich jedoch<br />
Wörter wie z. B. nicht mehr an der richtigen Position trennen. Dies ist<br />
zwar unschön, aber für den Anwendungszweck ausreichend, da lediglich die Anzahl der<br />
Silben gezählt werden muss. Aus diesem Grund wurde auch auf eine Maximierung des<br />
Onsets verzichtet.<br />
50<br />
40<br />
30<br />
30.81<br />
26.83<br />
20<br />
10<br />
0<br />
soundex<br />
dmeta<br />
13.20<br />
exsoundex<br />
10.22<br />
koelner<br />
9.87<br />
phonix<br />
8.49<br />
daitch<br />
8.17<br />
metaphone<br />
3.24<br />
phonem<br />
0.00<br />
phonet2<br />
0.00<br />
phonet<br />
Abbildung 40: Prozentualer Anteil der durch Überprüfung der Silbenanzahl gefilterten<br />
Suchergebnisse bei den 50 häufigsten Namen. Insbesondere Soundex und Double Metaphone<br />
profitieren sehr von dieser Maßnahme.<br />
Die zweite Problematik zeigt ein prinzipielles Problem des Sonoritätsprinzips, wenn<br />
versucht wird, es auf Grapheme an<strong>zu</strong>wenden. Namen wie oder <br />
besitzen Vokalkombinationen, die nicht, wie sonst üblich, in einer Silbe <strong>zu</strong>sammengefasst<br />
werden, sondern beide einen Silbenkern darstellen. Bei Namen wie diesen sind Fehler beim<br />
Zählen der Silbenanzahl <strong>zu</strong> erwarten.<br />
Aus diesem Grund wurden für den Vergleich der Silbenanzahl zwei Methoden gegenübergestellt.<br />
Zunächst wurde untersucht, wie die Anzahl der Fehler <strong>zu</strong> bewerten ist,<br />
wenn die Silbenanzahl gleich ist. In Abbildumg 39 findet sich die durchschnittliche Anzahl<br />
an fehlerhaften Filterungen in den 50 häufigsten Namen mit diesen Rahmenbedingungen.<br />
Da hier relativ viele Fehler auftreten, wurde in einem zweiten Schritt eine Toleranz von<br />
einer Silbe erlaubt. Mit dieser Toleranz wurde unter den 50 und 100 häufigsten Namen<br />
kein als korrekt eingestuftes Suchergebnis gelöscht. Die Wirkung der Filterung auf nicht<br />
korrekte Suchresultate wird in Abbildung 40 gezeigt. Die Wirkung der Filterung ist hier<br />
etwa um den Faktor zwei schwächer als bei der Annahme der Gleichheit der Silbenanzahl,<br />
jedoch sind keine negativen Auswirkungen auf die Anzahl der richtigen Suchresultate <strong>zu</strong><br />
bemerken.<br />
56