pdf - Universität zu Köln
pdf - Universität zu Köln
pdf - Universität zu Köln
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
• Die Datenmenge sollte nicht <strong>zu</strong> klein gewählt werden, ansonsten könnten Geschwindigkeitsmessungen<br />
<strong>zu</strong> viele Nebenaspekte des verwendeten Betriebssystems, wie z.<br />
B. das Startverhalten des Programms, miteinbeziehen.<br />
Pfeifer u. a. (1995) untersuchen vor allem die Kombination von Algorithmen für die<br />
Phonetische Suche. Zuerst werden Soundex, die Varianten von Phonix, Damerau-Levenshtein<br />
und zwei Verfahren namens Skeleton Key und Omission Key 49 miteinander verglichen.<br />
Anschliessend werden Kombinationen der vorgestellten Verfahren mit Hilfe von Recallund<br />
Precision-Diagrammen 50 beurteilt. Gesamtergebnis der Untersuchung ist, dass die<br />
Phonixvariante mit Ending-Sound in Kombination mit Digrammstatistik das beste Ranking<br />
erzeugt.<br />
In Erikson (1997) handelt es sich um eine Untersuchung für das Schwedische. Diese<br />
Arbeit misst <strong>zu</strong>m einen die Geschwindigkeit der untersuchten Algorithmen, aber auch die<br />
Fehlerrate. Für die Kategorisierung der Suchresultate werden dabei eng bemessene Kriterien<br />
verwendet. So ist ein positives Suchergebnis bei Erikson (1997) nur dann gegeben,<br />
wenn ein Name exakt gleich ausgesprochen werden kann. Es werden deshalb Probleme bei<br />
der akustischen Übertragung und sonstige Ähnlichkeiten bei der Aussprache nicht berücksichtigt.<br />
Für diesen Aufsatz wurde ein Korpus von 5.327 unterschiedlichen schwedischen Namen<br />
verwendet. Weiterhin wurde für die Generierung von Suchanfragen eine nicht weiter<br />
spezifizierte Zahl von Namen aus dem Stockholmer Telefonbuch verwendet.<br />
Bei Erikson (1997) werden einige Verfahren vorgestellt, die der Autor als ungeeignet<br />
einstuft. So wird berichtet, dass das Training von neuronalen Netzwerken wegen des nicht<br />
polynomiellen Laufzeitverhaltens <strong>zu</strong> langsam ist. Die schon erwähnten Skeleton-Keys und<br />
das Verfahren nach Guth sind ebenfalls nicht effektiv genug bzw. liefern <strong>zu</strong> viele, fehlerhafte<br />
Ergebnisse. Für die sprachunabhängige Verarbeitung wird die Verwendung von<br />
Digrammen, für die sprachabhängige Verarbeitung die eines gewichteten 51 Edit-Distance-<br />
Verfahrens empfohlen. Das vereinfachte Ergebnis dieser Arbeit lässt sich folgendermassen<br />
49 Hierbei handelt es sich um Verfahren für die Umgruppierungen und Sortierung der Buchstaben nach<br />
Konsonanten und Vokalen. Sie schnitten sowohl bei den Untersuchung von Pfeifer u. a. (1995), als auch bei<br />
Erikson (1997) besonders schlecht ab, so dass Sie im Rahmen dieser Arbeit keine weitere Berücksichtigung<br />
mehr finden.<br />
50 Recall/Precision wird in Raghavan u. a. (1989) beschrieben. Es handelt sich um ein Verfahren, welches<br />
die Güte eines Rankings bewertet und diese mit Hilfe von Diagrammen visualisiert.<br />
51 Für die Gewichtung wurde auf bestehende Äquivalenztabellen für schwedische Grapheme <strong>zu</strong>rückgegriffen.<br />
Diese sind jedoch lediglich in schwedischer Sprache publiziert worden und konnten deshalb im<br />
Rahmen dieser Arbeit nicht berücksichtigt werden. Aufgrund der im Artikel gegebenen Beispiele wird<br />
ausserdem angenommen, dass das Schwedische weniger Probleme mit dem Alignment von Graphemen<br />
33