28.12.2013 Aufrufe

pdf - Universität zu Köln

pdf - Universität zu Köln

pdf - Universität zu Köln

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

das Deutsche beschränkt, gibt es viele Ambiguitäten in der Aussprache. So variiert die<br />

Aussprache regional stark, selbst, wenn das weite Feld der Dialekte vernachlässigt wird.<br />

Zusätzlich werden mit der fortschreitenden Vermischung der Kulturen viele Familiennamen<br />

aus ihrem Sprachkontext herausgenommen oder assimiliert. So bleibt vorerst in der<br />

Praxis nichts anderes übrig, als ein Verfahren <strong>zu</strong> entwickeln, welches in einem definiertem<br />

sprachlichem Kontext möglichst gut funktioniert. Ein Verfahren, welches für mehrere<br />

Sprachen Aussprachevarianten berücksichtigt, dürfte einen erheblichen Forschungsaufwand<br />

verlangen. Aber auch danach werden für den praktischen Einsatz relevante Grenzen<br />

wie Rechenleistung und Speicherbedarf nicht jeden beliebigen Anwendungszweck <strong>zu</strong>lassen.<br />

Eine weitere vorteilhafte Eigenschaft wäre, wenn der Algorithmus für eine Eingabezeichenkette<br />

möglichst wenig Schlüssel generiert oder die Anzahl der erzeugten Schlüssel begrenzt.<br />

Ansonsten könnten die Geschwindigkeitsvorteile des Hashingprinzips bei ungünstigen<br />

Eingabezeichenketten 11 durch kombinatorische Explosion 12 gefährdet werden.<br />

Gegen eine <strong>zu</strong> kleine Anzahl von Regeln spricht, dass Sonderfälle der Orthographie<br />

nicht oder nicht ausreichend abgedeckt werden können. Es gilt einen Kompromiss zwischen<br />

der Anzahl der verwendeten Regeln und der resultierenden Trefferquote <strong>zu</strong> finden.<br />

Algorithmen für die Phonetische Suche profitieren von einer Auswertung des Graphemkontextes.<br />

Dies gilt insbesondere für die deutsche Sprache. Ein bekanntes Beispiel dafür<br />

ist das Graphem , dessen Aussprachevarianten [ç] und [X] vor allem durch den vorhergehenden<br />

Vokal bestimmt werden. Verschiedene Methoden der Berücksichtigung des<br />

Kontextes werden bei den einzelnen Verfahren detaillierter besprochen.<br />

Eine kurze Schlüssellänge und/oder ein kleines Zielalphabet für den erzeugten Schlüssel<br />

erlauben die effiziente Speicherung in digitalen Speichersystemen. Wilde u. Meyer (1988)<br />

schlagen eine Begren<strong>zu</strong>ng der Schlüssellänge auf fünf oder sechs Zeichen vor, um die Anzahl<br />

der korrekten Suchergebnisse <strong>zu</strong> maximieren. Dies wird damit begründet, dass die<br />

meisten Schreib- oder Hörfehler am Ende des Wortes auftreten. Laut Kukich (1992) ist<br />

dies jedoch nicht unbedingt der Fall.<br />

Eine kurze Schlüssellänge erleichtert darüber hinaus eine weitere Verwendung in ei-<br />

11 In der informatischen Literatur wird hier mit Worst-Case-Abschät<strong>zu</strong>ngen gearbeitet, auf deren Verwendung<br />

im Folgenden verzichtet wird, da die vorgestellten Algorithmen nur mit sehr kurzen Eingabezeichenketten<br />

arbeiten und eine durch den Anwendungszweck bestimmte Obergrenze der Komplexität<br />

haben.<br />

12 Mit jeder Alternative für die Aussprache multipliziert sich die Anzahl der Schlüssel um die Anzahl<br />

der Aussprachevarianten. Bei der Berechnung der Schlüssel für den Korpus konnte beobachtet werden,<br />

das der Daitch-Mokotoff Algorithmus im Normalfall nur wenige Schlüssel generiert. So werden lediglich<br />

für 3,55 % der Einträge mehr als zwei Schlüssel kodiert. In 91,7 % dieser Fälle waren es vier Schlüssel. Das<br />

Maximum lag bei 32 Schlüsseln für einen Eintrag. Dieses Maximum wurde nur acht Mal für Familiennamen<br />

im Korpus erzeugt.<br />

7

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!