pdf - Universität zu Köln
pdf - Universität zu Köln
pdf - Universität zu Köln
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Wenn z. B. nach gesucht wird, ist ein Suchresultat, welches<br />
ein enthält. Da aber das ebenfalls gefundene kein enthält, kann es<br />
gefiltert werden. Andererseits kann in der Suchabfrage kein /a/ realisiert werden.<br />
Dementsprechend sind hier Suchergebnisse mit , wie z. B. meist<br />
nicht erwünscht, obwohl auch ähnliche Namen wie z. B. existieren. Hier könnte<br />
überlegt werden, ob das ein Phon erzeugen könnte, das dem /a/ ähnlich ist. In den<br />
fünfzig häufigsten Namen gab es kein Indiz dafür, so dass hier vorerst darauf verzichtet<br />
wurde.<br />
1,0<br />
0,9<br />
0,8<br />
0,7<br />
0,6<br />
0,5<br />
0,4<br />
0,3<br />
0,2<br />
0,1<br />
0,0<br />
0.14<br />
phonix<br />
0.10<br />
daitch<br />
0.08<br />
dmeta<br />
0.08<br />
soundex<br />
0.08<br />
koelner<br />
0.06<br />
metaphone<br />
0.06<br />
phonet2<br />
0.06<br />
exsoundex<br />
0.02<br />
phonem<br />
0.00<br />
phonet<br />
Abbildung 46: Durchschnittliche Anzahl der durch den Abgleich von Graphemvarianten<br />
des /a/ fälschlicherweise gefilterten Suchergebnisse bei den 50 häufigsten Namen.<br />
Für die Erkennung des /a/ wurde somit der Ausdruck<br />
/a[^eiyju]|er|a$|r$|á|à|^a/<br />
verwendet. Demnach enthält ein Name ein /a/, wenn es eine Teilzeichenkette hat,<br />
auf das kein , , , oder folgt. Auch wenn am Ende der Zeichenkette<br />
ein , ein einzelnes oder steht, ist ein Matching mit dem Ausdruck erfolgreich.<br />
Die Varianten mit Accent sind der Vollständigkeit halber ebenfalls aufgenommen<br />
worden. Sie treten nicht in Kombination mit anderen Vokalen auf und können somit ohne<br />
Einschränkungen als /a/ bewertet werden.<br />
Abbildung 46 zeigt, dass dieses Vorgehen in einigen wenigen Fällen noch Probleme<br />
bereitet. Allerdings dürfte der Erfolg in Abbildung 45 bestätigen, dass vokalische Information<br />
im Deutschen relevant ist.<br />
Analog <strong>zu</strong>m /a/ wurde für das /i/ der reguläre Ausdruck<br />
/[^aei][\374iy][^j]|ii|[^qae]ue/<br />
für die Detektion von Graphemen verwendet, die ähnlich einem /i/ ausgesprochen werden<br />
können. Der angegebene Ausdruck deckt sicherlich nicht alle Fälle ab, in denen ein dem /i/<br />
ähnlicher Laut beschrieben wird, allerdings scheint er bei den fünfzig häufigsten Namen<br />
aus<strong>zu</strong>reichen. Die Resultate der Filterung werden in den folgenden Abbildungen 47 und<br />
59