PDF-Download - Deutsche Geodätische Kommission
PDF-Download - Deutsche Geodätische Kommission
PDF-Download - Deutsche Geodätische Kommission
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
4.2. HIERARCHISCHES UND NICHT-HIERARCHISCHES CLUSTERING 33<br />
– Probabilistische Verfahren<br />
• Grid-basierte Methoden<br />
• KI-Methoden<br />
– Neuronale Netze<br />
– Gradienten-Verfahren<br />
– Evolutionäre Verfahren<br />
• Hochdimensionale Methoden<br />
– Projektive Verfahren<br />
– Clustering auf Unterräumen<br />
• Skalierbare Algorithmen<br />
Die Ergebnisse von Clusterverfahren können im wesentlichen wie folgt unterschieden werden:<br />
• Disjunktive oder nicht-disjunktive Verfahren, d.h. die berechneten Cluster dürfen sich überlappen oder<br />
nicht.<br />
• Vollständige oder partielle Verfahren, d.h. es werden alle gegebenen Objekte Clustern zugewiesen oder<br />
nur Teilmengen stellen Cluster dar.<br />
• Konvexe oder konkave Verfahren, d.h. es sind nur Cluster mit konvexer Form möglich oder auch Cluster<br />
mit konkaver Form.<br />
4.2 Hierarchisches und nicht-hierarchisches Clustering<br />
4.2.1 Nicht-hierarchische Clusterverfahren<br />
Nicht-hierarchische Clusterverfahren werden auch als partitionierende Cluster-Techniken bezeichnet. Es wird<br />
versucht, eine einfache Unterteilung der Daten in eine Menge von k nicht-überlappenden Clustern zu erreichen,<br />
wobei diese Unterteilungen ein vorgegebenes Kriterium optimieren. Jedes Cluster muss mindestens ein Element<br />
enthalten, und jedes Datenelement darf nur zu einer Gruppe gehören. Die meisten partitionierenden Verfahren<br />
gehen von einer vorgegebenen Startunterteilung aus; anschließend wird die Zugehörigkeit der Datenelemente im<br />
Laufe der Iterationen sukzessive adaptiert, um eine bessere Unterteilung zu erreichen. Zentroid-basierte Verfahren<br />
wie die k-means-Methode (MacQueen 1967), (Jain & Dubes 1988) und der ISODATA-Algorithmus (Ball &<br />
Hall 1965) weisen die Datenelemente denjenigen Clustern zu, deren mittlere Euklidische Distanz zum Clusterzentrum<br />
minimal ist. Diese Verfahren sind nur für metrische Räume geeignet, da sie den Zentroid (Mittelpunkt) aus<br />
einer gegebenen Menge von Datenelementen ermitteln müssen. Medoid-basierte Verfahren wie CLARANS und<br />
PAM nutzen ein repräsentatives Datenelement, den sogenannten Medoid, und suchen die Summe der Abstände<br />
zwischen dem Medoid und den ihm zugeordneten Datenelementen zu minimieren.<br />
Ein Nachteil der Zentroid- und Medoid-basierten Verfahren ist, dass nicht alle Vorgaben von k zu natürlichen<br />
Clustern führen. Daher müssen die Verfahren in der Regel mehrfach durchlaufen werden, um die beste Unterteilung<br />
zu erhalten. Diese Entscheidung kann mittels vorgegebener Optimierungskriterien automatisiert werden.<br />
Der größte Nachteil liegt allerdings darin, dass sie lediglich konvexe Clusterformen ermitteln können: Konkave<br />
Formen, bei denen es vorkommt, dass ein Datenelement näher dem Repräsentanten eines anderen Clusters liegt,<br />
als dem eigenen, können nicht erkannt werden. Diese Formen kommen jedoch in natürlichen Clustern häufig<br />
vor; auch können natürliche Cluster oft von stark unterschiedlicher Größe sein.