28.12.2013 Aufrufe

pdf - Universität zu Köln

pdf - Universität zu Köln

pdf - Universität zu Köln

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

• Die Datenmenge sollte nicht <strong>zu</strong> klein gewählt werden, ansonsten könnten Geschwindigkeitsmessungen<br />

<strong>zu</strong> viele Nebenaspekte des verwendeten Betriebssystems, wie z.<br />

B. das Startverhalten des Programms, miteinbeziehen.<br />

Pfeifer u. a. (1995) untersuchen vor allem die Kombination von Algorithmen für die<br />

Phonetische Suche. Zuerst werden Soundex, die Varianten von Phonix, Damerau-Levenshtein<br />

und zwei Verfahren namens Skeleton Key und Omission Key 49 miteinander verglichen.<br />

Anschliessend werden Kombinationen der vorgestellten Verfahren mit Hilfe von Recallund<br />

Precision-Diagrammen 50 beurteilt. Gesamtergebnis der Untersuchung ist, dass die<br />

Phonixvariante mit Ending-Sound in Kombination mit Digrammstatistik das beste Ranking<br />

erzeugt.<br />

In Erikson (1997) handelt es sich um eine Untersuchung für das Schwedische. Diese<br />

Arbeit misst <strong>zu</strong>m einen die Geschwindigkeit der untersuchten Algorithmen, aber auch die<br />

Fehlerrate. Für die Kategorisierung der Suchresultate werden dabei eng bemessene Kriterien<br />

verwendet. So ist ein positives Suchergebnis bei Erikson (1997) nur dann gegeben,<br />

wenn ein Name exakt gleich ausgesprochen werden kann. Es werden deshalb Probleme bei<br />

der akustischen Übertragung und sonstige Ähnlichkeiten bei der Aussprache nicht berücksichtigt.<br />

Für diesen Aufsatz wurde ein Korpus von 5.327 unterschiedlichen schwedischen Namen<br />

verwendet. Weiterhin wurde für die Generierung von Suchanfragen eine nicht weiter<br />

spezifizierte Zahl von Namen aus dem Stockholmer Telefonbuch verwendet.<br />

Bei Erikson (1997) werden einige Verfahren vorgestellt, die der Autor als ungeeignet<br />

einstuft. So wird berichtet, dass das Training von neuronalen Netzwerken wegen des nicht<br />

polynomiellen Laufzeitverhaltens <strong>zu</strong> langsam ist. Die schon erwähnten Skeleton-Keys und<br />

das Verfahren nach Guth sind ebenfalls nicht effektiv genug bzw. liefern <strong>zu</strong> viele, fehlerhafte<br />

Ergebnisse. Für die sprachunabhängige Verarbeitung wird die Verwendung von<br />

Digrammen, für die sprachabhängige Verarbeitung die eines gewichteten 51 Edit-Distance-<br />

Verfahrens empfohlen. Das vereinfachte Ergebnis dieser Arbeit lässt sich folgendermassen<br />

49 Hierbei handelt es sich um Verfahren für die Umgruppierungen und Sortierung der Buchstaben nach<br />

Konsonanten und Vokalen. Sie schnitten sowohl bei den Untersuchung von Pfeifer u. a. (1995), als auch bei<br />

Erikson (1997) besonders schlecht ab, so dass Sie im Rahmen dieser Arbeit keine weitere Berücksichtigung<br />

mehr finden.<br />

50 Recall/Precision wird in Raghavan u. a. (1989) beschrieben. Es handelt sich um ein Verfahren, welches<br />

die Güte eines Rankings bewertet und diese mit Hilfe von Diagrammen visualisiert.<br />

51 Für die Gewichtung wurde auf bestehende Äquivalenztabellen für schwedische Grapheme <strong>zu</strong>rückgegriffen.<br />

Diese sind jedoch lediglich in schwedischer Sprache publiziert worden und konnten deshalb im<br />

Rahmen dieser Arbeit nicht berücksichtigt werden. Aufgrund der im Artikel gegebenen Beispiele wird<br />

ausserdem angenommen, dass das Schwedische weniger Probleme mit dem Alignment von Graphemen<br />

33

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!