25.12.2013 Aufrufe

PDF-Download - Deutsche Geodätische Kommission

PDF-Download - Deutsche Geodätische Kommission

PDF-Download - Deutsche Geodätische Kommission

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

4.2. HIERARCHISCHES UND NICHT-HIERARCHISCHES CLUSTERING 33<br />

– Probabilistische Verfahren<br />

• Grid-basierte Methoden<br />

• KI-Methoden<br />

– Neuronale Netze<br />

– Gradienten-Verfahren<br />

– Evolutionäre Verfahren<br />

• Hochdimensionale Methoden<br />

– Projektive Verfahren<br />

– Clustering auf Unterräumen<br />

• Skalierbare Algorithmen<br />

Die Ergebnisse von Clusterverfahren können im wesentlichen wie folgt unterschieden werden:<br />

• Disjunktive oder nicht-disjunktive Verfahren, d.h. die berechneten Cluster dürfen sich überlappen oder<br />

nicht.<br />

• Vollständige oder partielle Verfahren, d.h. es werden alle gegebenen Objekte Clustern zugewiesen oder<br />

nur Teilmengen stellen Cluster dar.<br />

• Konvexe oder konkave Verfahren, d.h. es sind nur Cluster mit konvexer Form möglich oder auch Cluster<br />

mit konkaver Form.<br />

4.2 Hierarchisches und nicht-hierarchisches Clustering<br />

4.2.1 Nicht-hierarchische Clusterverfahren<br />

Nicht-hierarchische Clusterverfahren werden auch als partitionierende Cluster-Techniken bezeichnet. Es wird<br />

versucht, eine einfache Unterteilung der Daten in eine Menge von k nicht-überlappenden Clustern zu erreichen,<br />

wobei diese Unterteilungen ein vorgegebenes Kriterium optimieren. Jedes Cluster muss mindestens ein Element<br />

enthalten, und jedes Datenelement darf nur zu einer Gruppe gehören. Die meisten partitionierenden Verfahren<br />

gehen von einer vorgegebenen Startunterteilung aus; anschließend wird die Zugehörigkeit der Datenelemente im<br />

Laufe der Iterationen sukzessive adaptiert, um eine bessere Unterteilung zu erreichen. Zentroid-basierte Verfahren<br />

wie die k-means-Methode (MacQueen 1967), (Jain & Dubes 1988) und der ISODATA-Algorithmus (Ball &<br />

Hall 1965) weisen die Datenelemente denjenigen Clustern zu, deren mittlere Euklidische Distanz zum Clusterzentrum<br />

minimal ist. Diese Verfahren sind nur für metrische Räume geeignet, da sie den Zentroid (Mittelpunkt) aus<br />

einer gegebenen Menge von Datenelementen ermitteln müssen. Medoid-basierte Verfahren wie CLARANS und<br />

PAM nutzen ein repräsentatives Datenelement, den sogenannten Medoid, und suchen die Summe der Abstände<br />

zwischen dem Medoid und den ihm zugeordneten Datenelementen zu minimieren.<br />

Ein Nachteil der Zentroid- und Medoid-basierten Verfahren ist, dass nicht alle Vorgaben von k zu natürlichen<br />

Clustern führen. Daher müssen die Verfahren in der Regel mehrfach durchlaufen werden, um die beste Unterteilung<br />

zu erhalten. Diese Entscheidung kann mittels vorgegebener Optimierungskriterien automatisiert werden.<br />

Der größte Nachteil liegt allerdings darin, dass sie lediglich konvexe Clusterformen ermitteln können: Konkave<br />

Formen, bei denen es vorkommt, dass ein Datenelement näher dem Repräsentanten eines anderen Clusters liegt,<br />

als dem eigenen, können nicht erkannt werden. Diese Formen kommen jedoch in natürlichen Clustern häufig<br />

vor; auch können natürliche Cluster oft von stark unterschiedlicher Größe sein.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!