pdf - Universität zu Köln
pdf - Universität zu Köln
pdf - Universität zu Köln
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Eigenschaften der im ursprünglichen Algorithmus aufgebauten Matrix aufbauen. Nirgendwo<br />
in der Literatur wurde aber eine Abschät<strong>zu</strong>ng des Laufzeitverhaltens verschiedener<br />
Varianten für sehr kurze Zeichenketten 40 vorgenommen, wie sie für den Vergleich von einzelnen<br />
Namen interessant sind.<br />
Falls die <strong>zu</strong> errechnende Gesamtdistanz einen Schwellwert haben soll, wie es bei Suchfunktionen<br />
meist der Fall ist, kann der Algorithmus durch ein Stopkriterium beschleunigt<br />
werden. Dies wird z. B. von Erikson (1997, S.20) vorgeschlagen. Dabei wird die Berechnung<br />
abgebrochen, sobald ein Schwellwert erreicht wird.<br />
An den vorgestellten Beispielen zeigt sich, dass die ,,edit-distance”-basierten Verfahren<br />
große Probleme mit Graphemen haben, die Homonyme mit einer unterschiedlichen Anzahl<br />
von Zeichen besitzen. So zeigt das vorgestellte Beispiel vs. <br />
eine Distanz von 2, obwohl die Aussprache identisch ist. Für eine Angleichung ist es also<br />
wünschenswert, alle Grapheme in eine Repräsentation mit gleicher Zeichenlänge <strong>zu</strong> bringen,<br />
eine Eigenschaft, die die meisten Verfahren für die phonetische Schlüsselgenerierung<br />
erfüllen. Für diesen Zweck sei nochmals auf die schon im vorherigen Kapitel erwähnte<br />
Möglichkeit der automatischen Erzeugung von Transkriptionen in Formaten, wie SAMPA<br />
oder dem IPA-Alphabet hingewiesen.<br />
Weiterhin wurde mehrfach 41 vorgeschlagen, eine Gewichtung für die Erset<strong>zu</strong>ng von<br />
Zeichen ein<strong>zu</strong>führen. So könnten Grapheme, die phonetisch sehr ähnlich sind, geringeres<br />
Gewicht haben, als Grapheme, die sehr unterschiedlichen Lauten entsprechen. So sind<br />
sich die Phone /b/ und /p/ sehr viel ähnlicher, als dies bei einem /p/ und einem /S/ der<br />
Fall ist. Erstere unterscheiden sich lediglich in dem Merkmal Stimmhaftigkeit, während<br />
bei dem zweiten Beispiel eine andere Artikulationsstelle und eine andere Artikulationsart<br />
vorliegt. Eine mögliche Quelle für eine solche Gewichtung für das Deutsche wären die<br />
Ähnlichkeitsuntersuchungen von Transkriptionen aus Vieregge (1985). Hier wird für Phone<br />
des Deutschen eine Ähnlichkeitsmatrix angegeben, welche auf distinktiven Merkmalen<br />
beruht. Die Gewichtung dieser Matrix wurde in empirischen Studien <strong>zu</strong> menschlichen Transkriptionsverhalten<br />
verifiziert und dürfte auch für den vorgeschlagenen Zweck anwendbar<br />
sein.<br />
4.5 N-Gram basierte Verfahren<br />
Bei den N-Gram-basierenden Verfahren werden aus den <strong>zu</strong> vergleichenden Zeichenketten<br />
alle Zeichenkombinationen vorgegebener Länge extrahiert. Ein Vergleich der Teilzeichenketten<br />
beruht auf der Annahme, dass sich zwei Zeichenketten ähnlich sind, wenn eine große<br />
40 Dies wäre ein Punkt, der noch <strong>zu</strong> untersuchen wäre, aber leider auch den Rahmen dieser Arbeit<br />
sprengen würde.<br />
41 Z. B. von Erikson (1997) und Navarro (2001)<br />
25