PDF-Download - Deutsche Geodätische Kommission
PDF-Download - Deutsche Geodätische Kommission
PDF-Download - Deutsche Geodätische Kommission
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
5.4. DISTANZ- UND ÄHNLICHKEITSMASSE BASIEREND AUF HINTERGRUNDWISSEN 45<br />
Definition 5.3.8 (Hamming-Distanz)<br />
d(x, y) =<br />
n∑<br />
h(x i ,y i ) mit h(x i ,y i )=<br />
i=1<br />
{ 1, falls xi ≠ y i<br />
0 sonst<br />
Levenshtein-Distanz<br />
Im Falle beliebig langer, aber nicht notwendig gleich langer Symbolfolgen bietet sich die sogenannte Levenshtein-<br />
Distanz (Levenshtein 1965) an. Die Levenshtein-Distanz ist nach dem russischen Wissenschaftler Vladimir<br />
Levenshtein benannt, der diesen Algorithmus im Jahre 1965 veröffentlichte. Die Levenshtein-Distanz wird auch<br />
häufig mit Edit-Distanz bezeichnet.<br />
Definition 5.3.9 (Levenshtein-Distanz)<br />
Die Levenshtein-Distanz zweier Symbolfolgen (Strings) x und y ist die minimale Anzahl von Editieroperationen,<br />
um den String x in den String y zu transformieren, wenn folgende Editieroperationen zugelassen sind:<br />
Einfügen, Löschen und Ersetzen. DieLevenshtein-Distanz lässt sich wie folgt rekursiv definieren:<br />
d(x, y) = d(x 1,n ,y 1,m )mit<br />
⎧<br />
j, falls i =0<br />
⎪⎨<br />
i, falls j =0<br />
d(x 1,i ,y 1,j ) =<br />
d(x 1,i−1 ,y 1,j−1 ),<br />
falls i, j > 0 und x i = y j<br />
⎪⎩<br />
min{d(x 1,i−1 ,y 1,j−1 )+1,d(x 1,i−1 ,y 1,j )+1,d(x 1,i ,y 1,j−1 )+1} sonst<br />
Zur Berechnung der Levenshtein-Distanz wird die Methode der Dynamischen Programmierung (Bellman 1957,<br />
Sniedovich 1992) verwendet. Die Levenshtein-Distanz zwischen zwei Strings mit den Längen m und n kann im<br />
allgemeinen in O(mn) berechnet werden (Levenshtein 1965, Sankoff & Kruskal 1983, Ukkonen 1985, Arslan &<br />
Egecioglu 2000).<br />
Die Levenshtein-Distanz wird in Bereichen, wie z.B. dem Text Mining (Data Mining auf Texten), der automatischen<br />
Rechtschreibprüfung, der maschinellen Spracherkennung, der computergestützten DNA-Analyse und der<br />
sogenannten Plagiat-Erkennung (literarischer Diebstahl, Nachahmung) angewendet.<br />
Die Hamming-Distanz kann als ein Sonderfall der Levenshtein-Distanz angesehen werden. Erlaubt man als<br />
einzige Editieroperation die Operation Ersetzen und vergleicht nur gleich lange Strings, dann berechnet man<br />
somit die Hamming-Distanz.<br />
Die Levenshtein-Distanz kann auch in dem Sinne verallgemeinert werden, dass man durch eine Gewichts- oder<br />
Kostenfunktion jeder Editieroperation ein Gewicht (Kosten) zuordnet und nicht nach der minimalen Anzahl<br />
von Editieroperationen sucht, sondern nach der Folge von Editieroperationen mit dem geringsten Gewicht (den<br />
geringsten Kosten). Das minimale Gewicht (der minimale Kostenaufwand) ist dann die Distanz zwischen beiden<br />
Symbolfolgen.<br />
Ergänzt man die Editieroperationen noch um die Operation Vertausche zwei benachbarte Symbole, dannerhält<br />
man die sogenannte Damerau-Levenshtein-Distanz (Damerau 1964, Pfeifer, Poersch & Fuhr 1995).<br />
5.4 Distanz- und Ähnlichkeitsmaße basierend auf Hintergrundwissen<br />
In den vorigen Abschnitten haben wir einige Maße zum Vergleich verschiedener Datentypen aufgezählt. Im allgemeinen<br />
bestehen die Daten (Objekte) eines betrachteten Datensatzes oder einer Datenbank aus Merkmalen<br />
unterschiedlicher Datentypen. Um solche komplexen Daten miteinander zu vergleichen, kann man im einfachsten<br />
Fall die Werte aller vorkommenden Merkmale als nominale Daten auffassen und dann z.B. die Levenshtein- oder