25.12.2013 Aufrufe

PDF-Download - Deutsche Geodätische Kommission

PDF-Download - Deutsche Geodätische Kommission

PDF-Download - Deutsche Geodätische Kommission

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

5.4. DISTANZ- UND ÄHNLICHKEITSMASSE BASIEREND AUF HINTERGRUNDWISSEN 45<br />

Definition 5.3.8 (Hamming-Distanz)<br />

d(x, y) =<br />

n∑<br />

h(x i ,y i ) mit h(x i ,y i )=<br />

i=1<br />

{ 1, falls xi ≠ y i<br />

0 sonst<br />

Levenshtein-Distanz<br />

Im Falle beliebig langer, aber nicht notwendig gleich langer Symbolfolgen bietet sich die sogenannte Levenshtein-<br />

Distanz (Levenshtein 1965) an. Die Levenshtein-Distanz ist nach dem russischen Wissenschaftler Vladimir<br />

Levenshtein benannt, der diesen Algorithmus im Jahre 1965 veröffentlichte. Die Levenshtein-Distanz wird auch<br />

häufig mit Edit-Distanz bezeichnet.<br />

Definition 5.3.9 (Levenshtein-Distanz)<br />

Die Levenshtein-Distanz zweier Symbolfolgen (Strings) x und y ist die minimale Anzahl von Editieroperationen,<br />

um den String x in den String y zu transformieren, wenn folgende Editieroperationen zugelassen sind:<br />

Einfügen, Löschen und Ersetzen. DieLevenshtein-Distanz lässt sich wie folgt rekursiv definieren:<br />

d(x, y) = d(x 1,n ,y 1,m )mit<br />

⎧<br />

j, falls i =0<br />

⎪⎨<br />

i, falls j =0<br />

d(x 1,i ,y 1,j ) =<br />

d(x 1,i−1 ,y 1,j−1 ),<br />

falls i, j > 0 und x i = y j<br />

⎪⎩<br />

min{d(x 1,i−1 ,y 1,j−1 )+1,d(x 1,i−1 ,y 1,j )+1,d(x 1,i ,y 1,j−1 )+1} sonst<br />

Zur Berechnung der Levenshtein-Distanz wird die Methode der Dynamischen Programmierung (Bellman 1957,<br />

Sniedovich 1992) verwendet. Die Levenshtein-Distanz zwischen zwei Strings mit den Längen m und n kann im<br />

allgemeinen in O(mn) berechnet werden (Levenshtein 1965, Sankoff & Kruskal 1983, Ukkonen 1985, Arslan &<br />

Egecioglu 2000).<br />

Die Levenshtein-Distanz wird in Bereichen, wie z.B. dem Text Mining (Data Mining auf Texten), der automatischen<br />

Rechtschreibprüfung, der maschinellen Spracherkennung, der computergestützten DNA-Analyse und der<br />

sogenannten Plagiat-Erkennung (literarischer Diebstahl, Nachahmung) angewendet.<br />

Die Hamming-Distanz kann als ein Sonderfall der Levenshtein-Distanz angesehen werden. Erlaubt man als<br />

einzige Editieroperation die Operation Ersetzen und vergleicht nur gleich lange Strings, dann berechnet man<br />

somit die Hamming-Distanz.<br />

Die Levenshtein-Distanz kann auch in dem Sinne verallgemeinert werden, dass man durch eine Gewichts- oder<br />

Kostenfunktion jeder Editieroperation ein Gewicht (Kosten) zuordnet und nicht nach der minimalen Anzahl<br />

von Editieroperationen sucht, sondern nach der Folge von Editieroperationen mit dem geringsten Gewicht (den<br />

geringsten Kosten). Das minimale Gewicht (der minimale Kostenaufwand) ist dann die Distanz zwischen beiden<br />

Symbolfolgen.<br />

Ergänzt man die Editieroperationen noch um die Operation Vertausche zwei benachbarte Symbole, dannerhält<br />

man die sogenannte Damerau-Levenshtein-Distanz (Damerau 1964, Pfeifer, Poersch & Fuhr 1995).<br />

5.4 Distanz- und Ähnlichkeitsmaße basierend auf Hintergrundwissen<br />

In den vorigen Abschnitten haben wir einige Maße zum Vergleich verschiedener Datentypen aufgezählt. Im allgemeinen<br />

bestehen die Daten (Objekte) eines betrachteten Datensatzes oder einer Datenbank aus Merkmalen<br />

unterschiedlicher Datentypen. Um solche komplexen Daten miteinander zu vergleichen, kann man im einfachsten<br />

Fall die Werte aller vorkommenden Merkmale als nominale Daten auffassen und dann z.B. die Levenshtein- oder

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!