PDF-Download - Deutsche Geodätische Kommission

Weitere Magazine

Empfehlungen

Info

34 KAPITEL 4. CLUSTERANALYSE A B C D E F G Abbildung 4.3: Beispiel für ein Dendrogramm. 4.2.2 Hierarchische Clusterverfahren Hierarchische Clusterverfahren erzeugen ein Dendrogramm (Abb. 4.3), d.h. eine Baumstruktur, die eine Abfolge von verknüpften Clustern darstellt. Diese Abfolge beschreibt unterschiedliche Ebenen der Unterteilung. An der Wurzel des Baumes befindet sich ein einziges Cluster, welches alle anderen beinhaltet. In den Blättern des Baumes befinden sich Cluster, die aus nur einem Datenelement bestehen. Dendrogramme können sowohl topdown als auch bottom-up erzeugt werden. Die bottom-up Methode, auch als agglomerative Technik bezeichnet, startet mit jedem Datenelement als Cluster. In jedem Schritt des agglomerativen Algorithmus werden die zwei ähnlichsten Cluster zusammengefasst – wobei natürlich ein Ähnlichkeitsmaß vorgegeben sein muss. Die Anzahl der Cluster reduziert sich mit jedem Aggregationsschritt um eins. Das Verfahren wird so lange iteriert, bis entweder ein einziges großes Cluster übrig geblieben ist, eine vorgegebene Anzahl von Clustern erzeugt wurde, oder der Abstand zweier Cluster über einem vorgegebenen Schwellwert liegt. Die top-down-Methode arbeitet umgekehrt – sie wird auch als divisives Verfahren bezeichnet. Die agglomerativen Verfahren sind in der Literatur am meisten verbreitet. Es existieren sehr viele unterschiedliche Varianten von hierarchischen Algorithmen. Generell arbeiten hierarchische Clusterverfahren auf Basis einer Ähnlichkeitsmatrix, wobei jedes Element der Matrix die Ähnlichkeit zwischen zwei Datenelementen beschreibt. In jedem Schritt des Algorithmus muss die Ähnlichkeitsmatrix aufdatiert werden, um die Änderungen, die sich durch die Cluster-Zusammenfassung ergeben, fortzuführen. Die Verfahren lassen sich folgenden drei Techniken zuordnen: • Zentroid (bzw. Medoid) basierte Verfahren, • Linkage basierte Techniken und • Varianz (bzw. Fehlerquadratsummen) basierte Verfahren. Das erste Verfahren hat ähnliche Eigenschaften wie die nicht-hierarchischen Verfahren (z.B. k-means und k- medoid), d.h. es kann keine beliebigen Clusterformen detektieren. Das älteste Linkage-Verfahren ist der single linkage Algorithmus, der manchmal auch als Nächste-Nachbar- Verfahren bezeichnet wird. Dieses Verfahren benötigt keinen Repräsentanten, sondern das Cluster wird durch alle seine Datenelemente repräsentiert. Der Abstand zwischen zwei Clustern ergibt sich dabei aus dem Abstand jeweils zweier Datenelemente aus den unterschiedlichen Clustern. Im Falle des single linkage Verfahrens wird als Abstandsmaß die kürzeste Distanz verwendet. Weitere Verfahren ergeben sich durch Wahl eines anderen Distanzmaßes: • single linkage Verfahren: d(I,J):= min d(x, y) x∈I,y∈J
4.3. GRAPHBASIERTES CLUSTERING 35 • complete linkage Verfahren: d(I,J):= max d(x, y) x∈I,y∈J • average linkage Verfahren: d(I,J):= 1 ∑ d(x, y) |I||J| x∈I,y∈J • Ward Verfahren: d(I,J):= 2|I||J| |I|+|J| d(µ I,µ J ) Die Linkage-Methoden können Cluster beliebiger Form und Größe ermitteln. Der Nachteil liegt jedoch darin, dass sie nicht robust gegenüber Rauschen und Ausreißern in den Daten sind. Weiterhin ergeben sich Probleme bei nur schwach separierbaren Clustern. Um die Nachteile der hierarchischen Verfahren zu überwinden, wurden Algorithmen wie die Methode der Shared- Near-Neighbors (Jarvis & Patrick 1973), bzw. CURE (Guha et al. 1998) und ROCK (Guha et al. 1999) vorgeschlagen. Anstelle eines einzigen Cluster-Repräsentanten nutzt CURE eine vorgegebene konstante Anzahl an Repräsentanten für ein Cluster. Der ROCK Algorithmus arbeitet auf einem abgeleiteten Ähnlichkeitsgraphen und berücksichtigt ein vorgegebenes Modell für die Inter-Cluster-Heterogenität. Die Methode der Shared-Near- Neighbors nutzt einen k-Nächste-Nachbar-Graph, umdieÄhnlichkeit zwischen zwei Clustern zu bestimmen. Der Vorteil dieses Verfahrens gegenüber den meisten anderen ist, dass es ohne einen vorgegebenen absoluten Maßstab auskommt, um die Ähnlichkeit (Nachbarschaft) von Objekten zu bestimmen. Karypis, Han & Kumar (1999) beschreiben ein Verfahren, das ebenfalls auf dem k-Nächste-Nachbar-Graphen aufbaut. 4.3 Graphbasiertes Clustering Nach (Jaromczyk & Toussaint 1992) sind graphbasierte Clusterverfahren die mächtigsten Werkzeuge, um Ergebnisse zu erzielen, die dem menschlichen Leistungsvermögen nahe kommen. Die grundlegende Idee der graphbasierten Clusterverfahren ist sehr einfach: Aus den Originaldaten wird ein Nachbarschaftsgraph berechnet (z.B. der Minimal Spannende Baum). In diesem Graphen werden diejenigen Kanten eliminiert, die – gemäß einem vorzugebenden Kriterium – länger sind als ihre Nachbarn. Das Ergebnis ist schließlich ein Graphengeflecht (Wald), in dem jeder Baum ein Cluster repräsentiert. Die sogenannten Baumzerlegungsverfahren (van Schröder 2001) gehören ebenfalls zu den graphbasierten Verfahren. Sie setzen jedoch voraus, dass es sich bei dem Graphen um einen Baum (azyklischen Graphen) handelt. Das in dieser Arbeit entwickelte Verfahren (Kap. 7) gehört auch zu den graphbasierten Clusterverfahren. Im folgenden Kapitel werden wir auf die Nachbarschaftsgraphen genauer eingehen.
Seite 1: DEUTSCHE GEODÄTISCHE KOMMISSION be
Seite 4 und 5: Adresse der Deutschen Geodätischen
Seite 6 und 7: 5 Ähnlichkeits- und Distanzmaße 3
Seite 9 und 10: 7 Zusammenfassung Die Notwendigkeit
Seite 11 und 12: 9 Kapitel 1 Einleitung 1.1 Motivati
Seite 13 und 14: 1.3. ABGRENZUNG ZU ANDEREN ARBEITEN
Seite 15 und 16: 13 Kapitel 2 Interpretation raumbez
Seite 17 und 18: 2.1. ABLEITUNG VON 3D-GEBÄUDEHYPOT
Seite 19 und 20: 2.2. FORTFÜHRUNG VON ATKIS-DATEN B
Seite 27 und 28: 25 Kapitel 3 Data Mining und Knowle
Seite 29 und 30: 3.2. DATA MINING AUFGABEN UND METHO
Seite 31 und 32: 3.3. RAUMBEZOGENES DATA MINING 29 G
Seite 33 und 34: 31 Kapitel 4 Clusteranalyse Abbildu
Seite 35: 4.2. HIERARCHISCHES UND NICHT-HIERA
Seite 39 und 40: 37 Kapitel 5 Ähnlichkeits- und Dis
Seite 41 und 42: 5.2. ÄHNLICHKEIT 39 M-Koeffizient
Seite 43 und 44: 5.2. ÄHNLICHKEIT 41 Merkmale Haus
Seite 45 und 46: 5.3. DISTANZ 43 Definition 5.3.2 (M
Seite 47 und 48: 5.4. DISTANZ- UND ÄHNLICHKEITSMASS
Seite 53 und 54: 5.6. DISKUSSION 51 dies als direkte
Seite 55 und 56: 53 Kapitel 6 Nachbarschaftsgraphen
Seite 57 und 58: 6.1. GRAPHEN 55 Definition 6.1.3 (E
Seite 59 und 60: 6.1. GRAPHEN 57 Brückenkante Endka
Seite 61 und 62: 6.1. GRAPHEN 59 (a) Kette (b) Stern
Seite 63 und 64: 6.2. TYPEN VON NACHBARSCHAFTSGRAPHE
Seite 69 und 70: 6.3. HIERARCHIE DER NACHBARSCHAFTSG
Seite 71 und 72: 6.4. KOMPLEXITÄT 69 6.4 Komplexit
Seite 73 und 74: 71 Kapitel 7 Hierarchisches Nachbar
Seite 75 und 76: 7.2. WAS IST EIN NACHBARSCHAFTSGRAP
Seite 77 und 78: 7.3. SCHÄTZUNG VON CLUSTERMERKMALE
Seite 79 und 80: 7.4. MEDIANBASIERTE ÄHNLICHKEITSRE
Seite 81 und 82: 7.4. MEDIANBASIERTE ÄHNLICHKEITSRE
Seite 83 und 84: 7.5. HPGCL-ALGORITHMUS 81 Diese Ran
Seite 85 und 86: 7.8. VERALLGEMEINERUNG AUF QUALITAT
Seite 87 und 88:
7.9. BERECHNUNG DER RANDBESCHREIBUN
Seite 89 und 90:
87 Kapitel 8 Evaluierung des HPGCL-
Seite 91 und 92:
8.1. TESTDATEN 89 (a) ohne Rauschen
Seite 93 und 94:
8.2. AUSWIRKUNG DER NACHBARSCHAFTSG
Seite 95 und 96:
Seite 97 und 98:
Seite 99 und 100:
8.3. ERGEBNISSE FÜR DIE KÜNSTLICH
Seite 101 und 102:
8.4. ERGEBNISSE FÜR DIE REALEN TES
Seite 103 und 104:
8.5. LAUFZEITVERHALTEN 101 (a) Modu
Seite 105 und 106:
Seite 107 und 108:
8.5. LAUFZEITVERHALTEN 105 (a) NNG:
Seite 109 und 110:
Seite 111 und 112:
109 Kapitel 9 Diskussion und Ausbli
Seite 113 und 114:
9.2. AUSBLICK 111 • Neben der exp
Seite 115 und 116:
Literaturverzeichnis Agarwal, P. &
Seite 117 und 118:
LITERATURVERZEICHNIS 115 Goodman, J
Seite 119 und 120:
LITERATURVERZEICHNIS 117 Rao, S. (1
Seite 121 und 122:
119 Anhang A Manuelle Auswertungen
Seite 123 und 124:
121 (a) Auswertung 5 (b) Auswertung
Seite 125 und 126:
123 (a) Auswertung 3 (b) Auswertung
Seite 127 und 128:
125 Anhang B Testmessungen Die hier
Seite 129 und 130:
127 Tabelle B.1 - Fortsetzung von v
Seite 131 und 132:
129 Anhang C Nachbarschaftsgraphen
Seite 133 und 134:
131 (a) 4-Nächster-Nachbar-Graph (
Seite 135 und 136:
133 Anhang D Auswertung Vaihingen (
Seite 137 und 138:
135 (a) GG (b) NNG-GG (c) DT (d) NN
Seite 139 und 140:
137 Dank Die vorliegende Arbeit ent
Seite 141:
139 Lebenslauf Name Anschrift Gebur
Alle anzeigen

PDF-Download - Deutsche Geodätische Kommission

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?