PDF-Download - Deutsche Geodätische Kommission

Weitere Magazine

Empfehlungen

Info

44 KAPITEL 5. ÄHNLICHKEITS- UND DISTANZMASSE Die L 1 -Norm ist die sogenannte Manhattan-Distanz oder City-Block-Distanz .DieL 2 -Norm ist die klassische euklidische Distanz . Den Sonderfall L ∞ bezeichnet man als Maximum-Distanz oder Tschebyscheff- Norm. Essindnatürlich auch gewichtete L p −Metriken möglich. Quadratische Distanzform Definition 5.3.5 (Quadratische Distanzform) Seien x, y ∈ R n und sei A eine n × n-Ähnlichkeitsmatrix, dann lässt sich die Distanz zwischen x und y, wie folgt definieren: √ d A (x, y) =(x − y)A(x − y) T oder d A (x, y) = (x − y)A(x − y) T Mahalanobis-Distanzen Die sogenannten Mahalanobis-Distanzen sind häufig verwendete quadratische Distanzformen zum Vergleich von Clustern. Da die Mahalanobis-Distanzen auf Kovarianzmatrizen aufbauen ergeben sich nur für hinreichend große (≥ 25) Cluster sinnvolle Werte. Diese Distanzen erfüllen im allgemeinen auch nicht die Dreiecksungleichung (5.3.2) (Zahn 1996). Definition 5.3.6 (Mahalanobis-Distanz Typ I) Seien k Cluster C 1 ,...,C k gegeben und bezeichnet µ C den Mittelwertvektor, ∑ C die Kovarianzmatrix und n C die Größe eines Clusters C, dannnenntman d(C i ,C j )=(µ Ci − µ Cj ) T W −1 1 ∑ C iC j (µ Ci − µ Cj ), mit W CiC j = (n Ci C n Ci + n i + n Cj ∑C j ) Cj die Mahalanobis-Distanz vom Typ I. Sind alle Nichtdiagonalelemente von ∑ C i und ∑ C j gleich Null (unabhängige Merkmale), dann ergibt sich die sogenannte Mittelwert-Varianz-Distanz. Die Mahalanobis-Distanz vom Typ I ist sehr aufwendig zu berechnen, da für k Cluster, die paarweise miteinander verglichen werden sollen, ( k 2) Matrizen invertiert werden müssen. Kann man davon ausgehen, dass die Korrelation in allen k Clustern die gleiche ist, sollte die Mahalanobis-Distanz vom Typ II verwendet werden, da hier nur eine einzige Matrix invertiert werden muss. Definition 5.3.7 (Mahalanobis-Distanz Typ II) Seien k Cluster C 1 ,...,C k gegeben und bezeichnet µ C den Mittelwertvektor, ∑ C die Kovarianzmatrix und n C die Größe eines Clusters C, dannnenntman d(C i ,C j )=(µ Ci − µ Cj ) T W −1 k (µ C i − µ Cj ), mit W k = 1 ∑ k j=1 n C j k∑ j=1 n Cj ∑C j die Mahalanobis-Distanz vom Typ II. 5.3.2 Nominale Distanzmaße Hamming-Distanz Aus der Informations- und Codierungstheorie stammt die bekannte Hamming-Distanz (Hamming 1987). Richard W. Hamming führte die Hamming-Distanz bei seinen Arbeiten zur Entwicklung fehlerkorrigierender Codes für die fehlerfreie Übertragung von binären Signalen ein. Der verallgemeinerte M-Koeffizient (Def. 5.2.5) ist eine direkte Ableitung aus der Hamming-Distanz.
5.4. DISTANZ- UND ÄHNLICHKEITSMASSE BASIEREND AUF HINTERGRUNDWISSEN 45 Definition 5.3.8 (Hamming-Distanz) d(x, y) = n∑ h(x i ,y i ) mit h(x i ,y i )= i=1 { 1, falls xi ≠ y i 0 sonst Levenshtein-Distanz Im Falle beliebig langer, aber nicht notwendig gleich langer Symbolfolgen bietet sich die sogenannte Levenshtein- Distanz (Levenshtein 1965) an. Die Levenshtein-Distanz ist nach dem russischen Wissenschaftler Vladimir Levenshtein benannt, der diesen Algorithmus im Jahre 1965 veröffentlichte. Die Levenshtein-Distanz wird auch häufig mit Edit-Distanz bezeichnet. Definition 5.3.9 (Levenshtein-Distanz) Die Levenshtein-Distanz zweier Symbolfolgen (Strings) x und y ist die minimale Anzahl von Editieroperationen, um den String x in den String y zu transformieren, wenn folgende Editieroperationen zugelassen sind: Einfügen, Löschen und Ersetzen. DieLevenshtein-Distanz lässt sich wie folgt rekursiv definieren: d(x, y) = d(x 1,n ,y 1,m )mit ⎧ j, falls i =0 ⎪⎨ i, falls j =0 d(x 1,i ,y 1,j ) = d(x 1,i−1 ,y 1,j−1 ), falls i, j > 0 und x i = y j ⎪⎩ min{d(x 1,i−1 ,y 1,j−1 )+1,d(x 1,i−1 ,y 1,j )+1,d(x 1,i ,y 1,j−1 )+1} sonst Zur Berechnung der Levenshtein-Distanz wird die Methode der Dynamischen Programmierung (Bellman 1957, Sniedovich 1992) verwendet. Die Levenshtein-Distanz zwischen zwei Strings mit den Längen m und n kann im allgemeinen in O(mn) berechnet werden (Levenshtein 1965, Sankoff & Kruskal 1983, Ukkonen 1985, Arslan & Egecioglu 2000). Die Levenshtein-Distanz wird in Bereichen, wie z.B. dem Text Mining (Data Mining auf Texten), der automatischen Rechtschreibprüfung, der maschinellen Spracherkennung, der computergestützten DNA-Analyse und der sogenannten Plagiat-Erkennung (literarischer Diebstahl, Nachahmung) angewendet. Die Hamming-Distanz kann als ein Sonderfall der Levenshtein-Distanz angesehen werden. Erlaubt man als einzige Editieroperation die Operation Ersetzen und vergleicht nur gleich lange Strings, dann berechnet man somit die Hamming-Distanz. Die Levenshtein-Distanz kann auch in dem Sinne verallgemeinert werden, dass man durch eine Gewichts- oder Kostenfunktion jeder Editieroperation ein Gewicht (Kosten) zuordnet und nicht nach der minimalen Anzahl von Editieroperationen sucht, sondern nach der Folge von Editieroperationen mit dem geringsten Gewicht (den geringsten Kosten). Das minimale Gewicht (der minimale Kostenaufwand) ist dann die Distanz zwischen beiden Symbolfolgen. Ergänzt man die Editieroperationen noch um die Operation Vertausche zwei benachbarte Symbole, dannerhält man die sogenannte Damerau-Levenshtein-Distanz (Damerau 1964, Pfeifer, Poersch & Fuhr 1995). 5.4 Distanz- und Ähnlichkeitsmaße basierend auf Hintergrundwissen In den vorigen Abschnitten haben wir einige Maße zum Vergleich verschiedener Datentypen aufgezählt. Im allgemeinen bestehen die Daten (Objekte) eines betrachteten Datensatzes oder einer Datenbank aus Merkmalen unterschiedlicher Datentypen. Um solche komplexen Daten miteinander zu vergleichen, kann man im einfachsten Fall die Werte aller vorkommenden Merkmale als nominale Daten auffassen und dann z.B. die Levenshtein- oder
Seite 1: DEUTSCHE GEODÄTISCHE KOMMISSION be
Seite 4 und 5: Adresse der Deutschen Geodätischen
Seite 6 und 7: 5 Ähnlichkeits- und Distanzmaße 3
Seite 9 und 10: 7 Zusammenfassung Die Notwendigkeit
Seite 11 und 12: 9 Kapitel 1 Einleitung 1.1 Motivati
Seite 13 und 14: 1.3. ABGRENZUNG ZU ANDEREN ARBEITEN
Seite 15 und 16: 13 Kapitel 2 Interpretation raumbez
Seite 17 und 18: 2.1. ABLEITUNG VON 3D-GEBÄUDEHYPOT
Seite 19 und 20: 2.2. FORTFÜHRUNG VON ATKIS-DATEN B
Seite 27 und 28: 25 Kapitel 3 Data Mining und Knowle
Seite 29 und 30: 3.2. DATA MINING AUFGABEN UND METHO
Seite 31 und 32: 3.3. RAUMBEZOGENES DATA MINING 29 G
Seite 33 und 34: 31 Kapitel 4 Clusteranalyse Abbildu
Seite 35 und 36: 4.2. HIERARCHISCHES UND NICHT-HIERA
Seite 37 und 38: 4.3. GRAPHBASIERTES CLUSTERING 35
Seite 39 und 40: 37 Kapitel 5 Ähnlichkeits- und Dis
Seite 41 und 42: 5.2. ÄHNLICHKEIT 39 M-Koeffizient
Seite 43 und 44: 5.2. ÄHNLICHKEIT 41 Merkmale Haus
Seite 45: 5.3. DISTANZ 43 Definition 5.3.2 (M
Seite 49 und 50: 5.4. DISTANZ- UND ÄHNLICHKEITSMASS
Seite 51 und 52: 5.4. DISTANZ- UND ÄHNLICHKEITSMASS
Seite 53 und 54: 5.6. DISKUSSION 51 dies als direkte
Seite 55 und 56: 53 Kapitel 6 Nachbarschaftsgraphen
Seite 57 und 58: 6.1. GRAPHEN 55 Definition 6.1.3 (E
Seite 59 und 60: 6.1. GRAPHEN 57 Brückenkante Endka
Seite 61 und 62: 6.1. GRAPHEN 59 (a) Kette (b) Stern
Seite 63 und 64: 6.2. TYPEN VON NACHBARSCHAFTSGRAPHE
Seite 69 und 70: 6.3. HIERARCHIE DER NACHBARSCHAFTSG
Seite 71 und 72: 6.4. KOMPLEXITÄT 69 6.4 Komplexit
Seite 73 und 74: 71 Kapitel 7 Hierarchisches Nachbar
Seite 75 und 76: 7.2. WAS IST EIN NACHBARSCHAFTSGRAP
Seite 77 und 78: 7.3. SCHÄTZUNG VON CLUSTERMERKMALE
Seite 79 und 80: 7.4. MEDIANBASIERTE ÄHNLICHKEITSRE
Seite 81 und 82: 7.4. MEDIANBASIERTE ÄHNLICHKEITSRE
Seite 83 und 84: 7.5. HPGCL-ALGORITHMUS 81 Diese Ran
Seite 85 und 86: 7.8. VERALLGEMEINERUNG AUF QUALITAT
Seite 87 und 88: 7.9. BERECHNUNG DER RANDBESCHREIBUN
Seite 89 und 90: 87 Kapitel 8 Evaluierung des HPGCL-
Seite 91 und 92: 8.1. TESTDATEN 89 (a) ohne Rauschen
Seite 93 und 94: 8.2. AUSWIRKUNG DER NACHBARSCHAFTSG
Seite 95 und 96: 8.2. AUSWIRKUNG DER NACHBARSCHAFTSG
Seite 97 und 98:
8.2. AUSWIRKUNG DER NACHBARSCHAFTSG
Seite 99 und 100:
8.3. ERGEBNISSE FÜR DIE KÜNSTLICH
Seite 101 und 102:
8.4. ERGEBNISSE FÜR DIE REALEN TES
Seite 103 und 104:
8.5. LAUFZEITVERHALTEN 101 (a) Modu
Seite 105 und 106:
Seite 107 und 108:
8.5. LAUFZEITVERHALTEN 105 (a) NNG:
Seite 109 und 110:
Seite 111 und 112:
109 Kapitel 9 Diskussion und Ausbli
Seite 113 und 114:
9.2. AUSBLICK 111 • Neben der exp
Seite 115 und 116:
Literaturverzeichnis Agarwal, P. &
Seite 117 und 118:
LITERATURVERZEICHNIS 115 Goodman, J
Seite 119 und 120:
LITERATURVERZEICHNIS 117 Rao, S. (1
Seite 121 und 122:
119 Anhang A Manuelle Auswertungen
Seite 123 und 124:
121 (a) Auswertung 5 (b) Auswertung
Seite 125 und 126:
123 (a) Auswertung 3 (b) Auswertung
Seite 127 und 128:
125 Anhang B Testmessungen Die hier
Seite 129 und 130:
127 Tabelle B.1 - Fortsetzung von v
Seite 131 und 132:
129 Anhang C Nachbarschaftsgraphen
Seite 133 und 134:
131 (a) 4-Nächster-Nachbar-Graph (
Seite 135 und 136:
133 Anhang D Auswertung Vaihingen (
Seite 137 und 138:
135 (a) GG (b) NNG-GG (c) DT (d) NN
Seite 139 und 140:
137 Dank Die vorliegende Arbeit ent
Seite 141:
139 Lebenslauf Name Anschrift Gebur
Alle anzeigen

PDF-Download - Deutsche Geodätische Kommission

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?