28.12.2013 Aufrufe

pdf - Universität zu Köln

pdf - Universität zu Köln

pdf - Universität zu Köln

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Wenn z. B. nach gesucht wird, ist ein Suchresultat, welches<br />

ein enthält. Da aber das ebenfalls gefundene kein enthält, kann es<br />

gefiltert werden. Andererseits kann in der Suchabfrage kein /a/ realisiert werden.<br />

Dementsprechend sind hier Suchergebnisse mit , wie z. B. meist<br />

nicht erwünscht, obwohl auch ähnliche Namen wie z. B. existieren. Hier könnte<br />

überlegt werden, ob das ein Phon erzeugen könnte, das dem /a/ ähnlich ist. In den<br />

fünfzig häufigsten Namen gab es kein Indiz dafür, so dass hier vorerst darauf verzichtet<br />

wurde.<br />

1,0<br />

0,9<br />

0,8<br />

0,7<br />

0,6<br />

0,5<br />

0,4<br />

0,3<br />

0,2<br />

0,1<br />

0,0<br />

0.14<br />

phonix<br />

0.10<br />

daitch<br />

0.08<br />

dmeta<br />

0.08<br />

soundex<br />

0.08<br />

koelner<br />

0.06<br />

metaphone<br />

0.06<br />

phonet2<br />

0.06<br />

exsoundex<br />

0.02<br />

phonem<br />

0.00<br />

phonet<br />

Abbildung 46: Durchschnittliche Anzahl der durch den Abgleich von Graphemvarianten<br />

des /a/ fälschlicherweise gefilterten Suchergebnisse bei den 50 häufigsten Namen.<br />

Für die Erkennung des /a/ wurde somit der Ausdruck<br />

/a[^eiyju]|er|a$|r$|á|à|^a/<br />

verwendet. Demnach enthält ein Name ein /a/, wenn es eine Teilzeichenkette hat,<br />

auf das kein , , , oder folgt. Auch wenn am Ende der Zeichenkette<br />

ein , ein einzelnes oder steht, ist ein Matching mit dem Ausdruck erfolgreich.<br />

Die Varianten mit Accent sind der Vollständigkeit halber ebenfalls aufgenommen<br />

worden. Sie treten nicht in Kombination mit anderen Vokalen auf und können somit ohne<br />

Einschränkungen als /a/ bewertet werden.<br />

Abbildung 46 zeigt, dass dieses Vorgehen in einigen wenigen Fällen noch Probleme<br />

bereitet. Allerdings dürfte der Erfolg in Abbildung 45 bestätigen, dass vokalische Information<br />

im Deutschen relevant ist.<br />

Analog <strong>zu</strong>m /a/ wurde für das /i/ der reguläre Ausdruck<br />

/[^aei][\374iy][^j]|ii|[^qae]ue/<br />

für die Detektion von Graphemen verwendet, die ähnlich einem /i/ ausgesprochen werden<br />

können. Der angegebene Ausdruck deckt sicherlich nicht alle Fälle ab, in denen ein dem /i/<br />

ähnlicher Laut beschrieben wird, allerdings scheint er bei den fünfzig häufigsten Namen<br />

aus<strong>zu</strong>reichen. Die Resultate der Filterung werden in den folgenden Abbildungen 47 und<br />

59

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!