PDF-Download - Deutsche Geodätische Kommission

Weitere Magazine

Empfehlungen

Info

32 KAPITEL 4. CLUSTERANALYSE Clusterverfahren hierarchisch Top-down partitionierend Bottom-up agglomerativ (HACM) divisiv Single Pass Relocation Clique Ward Complete Linkage Average Linkage Single Linkage Abbildung 4.2: Clusterverfahren PAM (Kaufman & Rousseeuw 1990), CLARANS (Ng & Han 1994), DBSCAN (Ester et al. 1996), CURE (Guha, Rastogi & Shim 1998) und ROCK (Guha, Rastogi & Shim 1999) basieren darauf, Cluster zu finden, die einem statistischen Modell genügen. K-means, PAM und CLARANS gehen von der Annahme aus, dass die Cluster hyperellipsoidisch, bzw. hypersphärisch sind und ähnliche Größen aufweisen. DBSCAN nutzt ein Dichte-basiertes Maß density reachable, welches alle Punkte eines Clusters erfüllen müssen, wohingegen Punkte, die zu unterschiedlichen Clustern gehören, diese Eigenschaft nicht aufweisen dürfen. Alle diese Algorithmen hängen elementar von der Wahl der Parameter im statistischen Modell ab und können daher fehlschlagen, wenn diese nicht zur zugrundeliegenden Datenmenge passen, oder auch wenn das Modell die Charakteristika der Cluster (z.B. Form, Größe, Dichte) nicht korrekt beschreibt. Weiterhin müssen oft geeignete Abbruchkriterien für die Verfahren vorgegeben werden. Das heißt, diese Verfahren sind nicht parameterfrei. Wir werden im Kapitel 7 ein parameterfreies Verfahren beschreiben. 4.1 Methoden zur Clusteranalyse Eine detaillierte Einführung in das Gebiet der Clusteranalyse findet man in (Berkhin 2002). Im folgenden wollen wir eine grobe Übersicht über existierende Clusterverfahren geben (Abb. 4.2). Clustering Algorithmen lassen sich wie folgt einteilen: • Hierarchische Methoden – Agglomerative Verfahren – Divisive Verfahren • Partitionierende Methoden – K-medoids Verfahren – K-means Verfahren – Dichte-basierte Verfahren – Relocation Verfahren
4.2. HIERARCHISCHES UND NICHT-HIERARCHISCHES CLUSTERING 33 – Probabilistische Verfahren • Grid-basierte Methoden • KI-Methoden – Neuronale Netze – Gradienten-Verfahren – Evolutionäre Verfahren • Hochdimensionale Methoden – Projektive Verfahren – Clustering auf Unterräumen • Skalierbare Algorithmen Die Ergebnisse von Clusterverfahren können im wesentlichen wie folgt unterschieden werden: • Disjunktive oder nicht-disjunktive Verfahren, d.h. die berechneten Cluster dürfen sich überlappen oder nicht. • Vollständige oder partielle Verfahren, d.h. es werden alle gegebenen Objekte Clustern zugewiesen oder nur Teilmengen stellen Cluster dar. • Konvexe oder konkave Verfahren, d.h. es sind nur Cluster mit konvexer Form möglich oder auch Cluster mit konkaver Form. 4.2 Hierarchisches und nicht-hierarchisches Clustering 4.2.1 Nicht-hierarchische Clusterverfahren Nicht-hierarchische Clusterverfahren werden auch als partitionierende Cluster-Techniken bezeichnet. Es wird versucht, eine einfache Unterteilung der Daten in eine Menge von k nicht-überlappenden Clustern zu erreichen, wobei diese Unterteilungen ein vorgegebenes Kriterium optimieren. Jedes Cluster muss mindestens ein Element enthalten, und jedes Datenelement darf nur zu einer Gruppe gehören. Die meisten partitionierenden Verfahren gehen von einer vorgegebenen Startunterteilung aus; anschließend wird die Zugehörigkeit der Datenelemente im Laufe der Iterationen sukzessive adaptiert, um eine bessere Unterteilung zu erreichen. Zentroid-basierte Verfahren wie die k-means-Methode (MacQueen 1967), (Jain & Dubes 1988) und der ISODATA-Algorithmus (Ball & Hall 1965) weisen die Datenelemente denjenigen Clustern zu, deren mittlere Euklidische Distanz zum Clusterzentrum minimal ist. Diese Verfahren sind nur für metrische Räume geeignet, da sie den Zentroid (Mittelpunkt) aus einer gegebenen Menge von Datenelementen ermitteln müssen. Medoid-basierte Verfahren wie CLARANS und PAM nutzen ein repräsentatives Datenelement, den sogenannten Medoid, und suchen die Summe der Abstände zwischen dem Medoid und den ihm zugeordneten Datenelementen zu minimieren. Ein Nachteil der Zentroid- und Medoid-basierten Verfahren ist, dass nicht alle Vorgaben von k zu natürlichen Clustern führen. Daher müssen die Verfahren in der Regel mehrfach durchlaufen werden, um die beste Unterteilung zu erhalten. Diese Entscheidung kann mittels vorgegebener Optimierungskriterien automatisiert werden. Der größte Nachteil liegt allerdings darin, dass sie lediglich konvexe Clusterformen ermitteln können: Konkave Formen, bei denen es vorkommt, dass ein Datenelement näher dem Repräsentanten eines anderen Clusters liegt, als dem eigenen, können nicht erkannt werden. Diese Formen kommen jedoch in natürlichen Clustern häufig vor; auch können natürliche Cluster oft von stark unterschiedlicher Größe sein.
Seite 1: DEUTSCHE GEODÄTISCHE KOMMISSION be
Seite 4 und 5: Adresse der Deutschen Geodätischen
Seite 6 und 7: 5 Ähnlichkeits- und Distanzmaße 3
Seite 9 und 10: 7 Zusammenfassung Die Notwendigkeit
Seite 11 und 12: 9 Kapitel 1 Einleitung 1.1 Motivati
Seite 13 und 14: 1.3. ABGRENZUNG ZU ANDEREN ARBEITEN
Seite 15 und 16: 13 Kapitel 2 Interpretation raumbez
Seite 17 und 18: 2.1. ABLEITUNG VON 3D-GEBÄUDEHYPOT
Seite 19 und 20: 2.2. FORTFÜHRUNG VON ATKIS-DATEN B
Seite 27 und 28: 25 Kapitel 3 Data Mining und Knowle
Seite 29 und 30: 3.2. DATA MINING AUFGABEN UND METHO
Seite 31 und 32: 3.3. RAUMBEZOGENES DATA MINING 29 G
Seite 33: 31 Kapitel 4 Clusteranalyse Abbildu
Seite 37 und 38: 4.3. GRAPHBASIERTES CLUSTERING 35
Seite 39 und 40: 37 Kapitel 5 Ähnlichkeits- und Dis
Seite 41 und 42: 5.2. ÄHNLICHKEIT 39 M-Koeffizient
Seite 43 und 44: 5.2. ÄHNLICHKEIT 41 Merkmale Haus
Seite 45 und 46: 5.3. DISTANZ 43 Definition 5.3.2 (M
Seite 47 und 48: 5.4. DISTANZ- UND ÄHNLICHKEITSMASS
Seite 53 und 54: 5.6. DISKUSSION 51 dies als direkte
Seite 55 und 56: 53 Kapitel 6 Nachbarschaftsgraphen
Seite 57 und 58: 6.1. GRAPHEN 55 Definition 6.1.3 (E
Seite 59 und 60: 6.1. GRAPHEN 57 Brückenkante Endka
Seite 61 und 62: 6.1. GRAPHEN 59 (a) Kette (b) Stern
Seite 63 und 64: 6.2. TYPEN VON NACHBARSCHAFTSGRAPHE
Seite 69 und 70: 6.3. HIERARCHIE DER NACHBARSCHAFTSG
Seite 71 und 72: 6.4. KOMPLEXITÄT 69 6.4 Komplexit
Seite 73 und 74: 71 Kapitel 7 Hierarchisches Nachbar
Seite 75 und 76: 7.2. WAS IST EIN NACHBARSCHAFTSGRAP
Seite 77 und 78: 7.3. SCHÄTZUNG VON CLUSTERMERKMALE
Seite 79 und 80: 7.4. MEDIANBASIERTE ÄHNLICHKEITSRE
Seite 81 und 82: 7.4. MEDIANBASIERTE ÄHNLICHKEITSRE
Seite 83 und 84: 7.5. HPGCL-ALGORITHMUS 81 Diese Ran
Seite 85 und 86:
7.8. VERALLGEMEINERUNG AUF QUALITAT
Seite 87 und 88:
7.9. BERECHNUNG DER RANDBESCHREIBUN
Seite 89 und 90:
87 Kapitel 8 Evaluierung des HPGCL-
Seite 91 und 92:
8.1. TESTDATEN 89 (a) ohne Rauschen
Seite 93 und 94:
8.2. AUSWIRKUNG DER NACHBARSCHAFTSG
Seite 95 und 96:
Seite 97 und 98:
Seite 99 und 100:
8.3. ERGEBNISSE FÜR DIE KÜNSTLICH
Seite 101 und 102:
8.4. ERGEBNISSE FÜR DIE REALEN TES
Seite 103 und 104:
8.5. LAUFZEITVERHALTEN 101 (a) Modu
Seite 105 und 106:
Seite 107 und 108:
8.5. LAUFZEITVERHALTEN 105 (a) NNG:
Seite 109 und 110:
Seite 111 und 112:
109 Kapitel 9 Diskussion und Ausbli
Seite 113 und 114:
9.2. AUSBLICK 111 • Neben der exp
Seite 115 und 116:
Literaturverzeichnis Agarwal, P. &
Seite 117 und 118:
LITERATURVERZEICHNIS 115 Goodman, J
Seite 119 und 120:
LITERATURVERZEICHNIS 117 Rao, S. (1
Seite 121 und 122:
119 Anhang A Manuelle Auswertungen
Seite 123 und 124:
121 (a) Auswertung 5 (b) Auswertung
Seite 125 und 126:
123 (a) Auswertung 3 (b) Auswertung
Seite 127 und 128:
125 Anhang B Testmessungen Die hier
Seite 129 und 130:
127 Tabelle B.1 - Fortsetzung von v
Seite 131 und 132:
129 Anhang C Nachbarschaftsgraphen
Seite 133 und 134:
131 (a) 4-Nächster-Nachbar-Graph (
Seite 135 und 136:
133 Anhang D Auswertung Vaihingen (
Seite 137 und 138:
135 (a) GG (b) NNG-GG (c) DT (d) NN
Seite 139 und 140:
137 Dank Die vorliegende Arbeit ent
Seite 141:
139 Lebenslauf Name Anschrift Gebur
Alle anzeigen

PDF-Download - Deutsche Geodätische Kommission

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?