pdf - Universität zu Köln
pdf - Universität zu Köln
pdf - Universität zu Köln
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
das Deutsche beschränkt, gibt es viele Ambiguitäten in der Aussprache. So variiert die<br />
Aussprache regional stark, selbst, wenn das weite Feld der Dialekte vernachlässigt wird.<br />
Zusätzlich werden mit der fortschreitenden Vermischung der Kulturen viele Familiennamen<br />
aus ihrem Sprachkontext herausgenommen oder assimiliert. So bleibt vorerst in der<br />
Praxis nichts anderes übrig, als ein Verfahren <strong>zu</strong> entwickeln, welches in einem definiertem<br />
sprachlichem Kontext möglichst gut funktioniert. Ein Verfahren, welches für mehrere<br />
Sprachen Aussprachevarianten berücksichtigt, dürfte einen erheblichen Forschungsaufwand<br />
verlangen. Aber auch danach werden für den praktischen Einsatz relevante Grenzen<br />
wie Rechenleistung und Speicherbedarf nicht jeden beliebigen Anwendungszweck <strong>zu</strong>lassen.<br />
Eine weitere vorteilhafte Eigenschaft wäre, wenn der Algorithmus für eine Eingabezeichenkette<br />
möglichst wenig Schlüssel generiert oder die Anzahl der erzeugten Schlüssel begrenzt.<br />
Ansonsten könnten die Geschwindigkeitsvorteile des Hashingprinzips bei ungünstigen<br />
Eingabezeichenketten 11 durch kombinatorische Explosion 12 gefährdet werden.<br />
Gegen eine <strong>zu</strong> kleine Anzahl von Regeln spricht, dass Sonderfälle der Orthographie<br />
nicht oder nicht ausreichend abgedeckt werden können. Es gilt einen Kompromiss zwischen<br />
der Anzahl der verwendeten Regeln und der resultierenden Trefferquote <strong>zu</strong> finden.<br />
Algorithmen für die Phonetische Suche profitieren von einer Auswertung des Graphemkontextes.<br />
Dies gilt insbesondere für die deutsche Sprache. Ein bekanntes Beispiel dafür<br />
ist das Graphem , dessen Aussprachevarianten [ç] und [X] vor allem durch den vorhergehenden<br />
Vokal bestimmt werden. Verschiedene Methoden der Berücksichtigung des<br />
Kontextes werden bei den einzelnen Verfahren detaillierter besprochen.<br />
Eine kurze Schlüssellänge und/oder ein kleines Zielalphabet für den erzeugten Schlüssel<br />
erlauben die effiziente Speicherung in digitalen Speichersystemen. Wilde u. Meyer (1988)<br />
schlagen eine Begren<strong>zu</strong>ng der Schlüssellänge auf fünf oder sechs Zeichen vor, um die Anzahl<br />
der korrekten Suchergebnisse <strong>zu</strong> maximieren. Dies wird damit begründet, dass die<br />
meisten Schreib- oder Hörfehler am Ende des Wortes auftreten. Laut Kukich (1992) ist<br />
dies jedoch nicht unbedingt der Fall.<br />
Eine kurze Schlüssellänge erleichtert darüber hinaus eine weitere Verwendung in ei-<br />
11 In der informatischen Literatur wird hier mit Worst-Case-Abschät<strong>zu</strong>ngen gearbeitet, auf deren Verwendung<br />
im Folgenden verzichtet wird, da die vorgestellten Algorithmen nur mit sehr kurzen Eingabezeichenketten<br />
arbeiten und eine durch den Anwendungszweck bestimmte Obergrenze der Komplexität<br />
haben.<br />
12 Mit jeder Alternative für die Aussprache multipliziert sich die Anzahl der Schlüssel um die Anzahl<br />
der Aussprachevarianten. Bei der Berechnung der Schlüssel für den Korpus konnte beobachtet werden,<br />
das der Daitch-Mokotoff Algorithmus im Normalfall nur wenige Schlüssel generiert. So werden lediglich<br />
für 3,55 % der Einträge mehr als zwei Schlüssel kodiert. In 91,7 % dieser Fälle waren es vier Schlüssel. Das<br />
Maximum lag bei 32 Schlüsseln für einen Eintrag. Dieses Maximum wurde nur acht Mal für Familiennamen<br />
im Korpus erzeugt.<br />
7