28.12.2013 Aufrufe

pdf - Universität zu Köln

pdf - Universität zu Köln

pdf - Universität zu Köln

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

erwähnten Artikel von Belhoula (1993), wurden nicht weiter verfolgt, da für das Zählen<br />

der Silbenanzahl das Sonoritätsprinzip aus<strong>zu</strong>reichen scheint.<br />

Bei der Implementierung stellten sich jedoch schnell erste Fragen. Zum einen bereitet<br />

wiederum die Phonotaktik Probleme, <strong>zu</strong>m anderen ist die Vergabe der Sonoritätswerte<br />

fehleranfällig. Ersteres Problem wurde dadurch gelöst, dass bestimmte Zeichenkombinationen<br />

wie z. B. und <strong>zu</strong>sammengefasst wurden. Dadurch lassen sich jedoch<br />

Wörter wie z. B. nicht mehr an der richtigen Position trennen. Dies ist<br />

zwar unschön, aber für den Anwendungszweck ausreichend, da lediglich die Anzahl der<br />

Silben gezählt werden muss. Aus diesem Grund wurde auch auf eine Maximierung des<br />

Onsets verzichtet.<br />

50<br />

40<br />

30<br />

30.81<br />

26.83<br />

20<br />

10<br />

0<br />

soundex<br />

dmeta<br />

13.20<br />

exsoundex<br />

10.22<br />

koelner<br />

9.87<br />

phonix<br />

8.49<br />

daitch<br />

8.17<br />

metaphone<br />

3.24<br />

phonem<br />

0.00<br />

phonet2<br />

0.00<br />

phonet<br />

Abbildung 40: Prozentualer Anteil der durch Überprüfung der Silbenanzahl gefilterten<br />

Suchergebnisse bei den 50 häufigsten Namen. Insbesondere Soundex und Double Metaphone<br />

profitieren sehr von dieser Maßnahme.<br />

Die zweite Problematik zeigt ein prinzipielles Problem des Sonoritätsprinzips, wenn<br />

versucht wird, es auf Grapheme an<strong>zu</strong>wenden. Namen wie oder <br />

besitzen Vokalkombinationen, die nicht, wie sonst üblich, in einer Silbe <strong>zu</strong>sammengefasst<br />

werden, sondern beide einen Silbenkern darstellen. Bei Namen wie diesen sind Fehler beim<br />

Zählen der Silbenanzahl <strong>zu</strong> erwarten.<br />

Aus diesem Grund wurden für den Vergleich der Silbenanzahl zwei Methoden gegenübergestellt.<br />

Zunächst wurde untersucht, wie die Anzahl der Fehler <strong>zu</strong> bewerten ist,<br />

wenn die Silbenanzahl gleich ist. In Abbildumg 39 findet sich die durchschnittliche Anzahl<br />

an fehlerhaften Filterungen in den 50 häufigsten Namen mit diesen Rahmenbedingungen.<br />

Da hier relativ viele Fehler auftreten, wurde in einem zweiten Schritt eine Toleranz von<br />

einer Silbe erlaubt. Mit dieser Toleranz wurde unter den 50 und 100 häufigsten Namen<br />

kein als korrekt eingestuftes Suchergebnis gelöscht. Die Wirkung der Filterung auf nicht<br />

korrekte Suchresultate wird in Abbildung 40 gezeigt. Die Wirkung der Filterung ist hier<br />

etwa um den Faktor zwei schwächer als bei der Annahme der Gleichheit der Silbenanzahl,<br />

jedoch sind keine negativen Auswirkungen auf die Anzahl der richtigen Suchresultate <strong>zu</strong><br />

bemerken.<br />

56

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!