28.12.2013 Aufrufe

pdf - Universität zu Köln

pdf - Universität zu Köln

pdf - Universität zu Köln

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Eigenschaften der im ursprünglichen Algorithmus aufgebauten Matrix aufbauen. Nirgendwo<br />

in der Literatur wurde aber eine Abschät<strong>zu</strong>ng des Laufzeitverhaltens verschiedener<br />

Varianten für sehr kurze Zeichenketten 40 vorgenommen, wie sie für den Vergleich von einzelnen<br />

Namen interessant sind.<br />

Falls die <strong>zu</strong> errechnende Gesamtdistanz einen Schwellwert haben soll, wie es bei Suchfunktionen<br />

meist der Fall ist, kann der Algorithmus durch ein Stopkriterium beschleunigt<br />

werden. Dies wird z. B. von Erikson (1997, S.20) vorgeschlagen. Dabei wird die Berechnung<br />

abgebrochen, sobald ein Schwellwert erreicht wird.<br />

An den vorgestellten Beispielen zeigt sich, dass die ,,edit-distance”-basierten Verfahren<br />

große Probleme mit Graphemen haben, die Homonyme mit einer unterschiedlichen Anzahl<br />

von Zeichen besitzen. So zeigt das vorgestellte Beispiel vs. <br />

eine Distanz von 2, obwohl die Aussprache identisch ist. Für eine Angleichung ist es also<br />

wünschenswert, alle Grapheme in eine Repräsentation mit gleicher Zeichenlänge <strong>zu</strong> bringen,<br />

eine Eigenschaft, die die meisten Verfahren für die phonetische Schlüsselgenerierung<br />

erfüllen. Für diesen Zweck sei nochmals auf die schon im vorherigen Kapitel erwähnte<br />

Möglichkeit der automatischen Erzeugung von Transkriptionen in Formaten, wie SAMPA<br />

oder dem IPA-Alphabet hingewiesen.<br />

Weiterhin wurde mehrfach 41 vorgeschlagen, eine Gewichtung für die Erset<strong>zu</strong>ng von<br />

Zeichen ein<strong>zu</strong>führen. So könnten Grapheme, die phonetisch sehr ähnlich sind, geringeres<br />

Gewicht haben, als Grapheme, die sehr unterschiedlichen Lauten entsprechen. So sind<br />

sich die Phone /b/ und /p/ sehr viel ähnlicher, als dies bei einem /p/ und einem /S/ der<br />

Fall ist. Erstere unterscheiden sich lediglich in dem Merkmal Stimmhaftigkeit, während<br />

bei dem zweiten Beispiel eine andere Artikulationsstelle und eine andere Artikulationsart<br />

vorliegt. Eine mögliche Quelle für eine solche Gewichtung für das Deutsche wären die<br />

Ähnlichkeitsuntersuchungen von Transkriptionen aus Vieregge (1985). Hier wird für Phone<br />

des Deutschen eine Ähnlichkeitsmatrix angegeben, welche auf distinktiven Merkmalen<br />

beruht. Die Gewichtung dieser Matrix wurde in empirischen Studien <strong>zu</strong> menschlichen Transkriptionsverhalten<br />

verifiziert und dürfte auch für den vorgeschlagenen Zweck anwendbar<br />

sein.<br />

4.5 N-Gram basierte Verfahren<br />

Bei den N-Gram-basierenden Verfahren werden aus den <strong>zu</strong> vergleichenden Zeichenketten<br />

alle Zeichenkombinationen vorgegebener Länge extrahiert. Ein Vergleich der Teilzeichenketten<br />

beruht auf der Annahme, dass sich zwei Zeichenketten ähnlich sind, wenn eine große<br />

40 Dies wäre ein Punkt, der noch <strong>zu</strong> untersuchen wäre, aber leider auch den Rahmen dieser Arbeit<br />

sprengen würde.<br />

41 Z. B. von Erikson (1997) und Navarro (2001)<br />

25

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!