PDF-Download - Deutsche Geodätische Kommission
PDF-Download - Deutsche Geodätische Kommission
PDF-Download - Deutsche Geodätische Kommission
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
4.3. GRAPHBASIERTES CLUSTERING 35<br />
• complete linkage Verfahren: d(I,J):= max d(x, y)<br />
x∈I,y∈J<br />
• average linkage Verfahren: d(I,J):= 1 ∑<br />
d(x, y)<br />
|I||J|<br />
x∈I,y∈J<br />
• Ward Verfahren: d(I,J):= 2|I||J|<br />
|I|+|J| d(µ I,µ J )<br />
Die Linkage-Methoden können Cluster beliebiger Form und Größe ermitteln. Der Nachteil liegt jedoch darin,<br />
dass sie nicht robust gegenüber Rauschen und Ausreißern in den Daten sind. Weiterhin ergeben sich Probleme<br />
bei nur schwach separierbaren Clustern.<br />
Um die Nachteile der hierarchischen Verfahren zu überwinden, wurden Algorithmen wie die Methode der Shared-<br />
Near-Neighbors (Jarvis & Patrick 1973), bzw. CURE (Guha et al. 1998) und ROCK (Guha et al. 1999) vorgeschlagen.<br />
Anstelle eines einzigen Cluster-Repräsentanten nutzt CURE eine vorgegebene konstante Anzahl an<br />
Repräsentanten für ein Cluster. Der ROCK Algorithmus arbeitet auf einem abgeleiteten Ähnlichkeitsgraphen<br />
und berücksichtigt ein vorgegebenes Modell für die Inter-Cluster-Heterogenität. Die Methode der Shared-Near-<br />
Neighbors nutzt einen k-Nächste-Nachbar-Graph, umdieÄhnlichkeit zwischen zwei Clustern zu bestimmen.<br />
Der Vorteil dieses Verfahrens gegenüber den meisten anderen ist, dass es ohne einen vorgegebenen absoluten<br />
Maßstab auskommt, um die Ähnlichkeit (Nachbarschaft) von Objekten zu bestimmen. Karypis, Han & Kumar<br />
(1999) beschreiben ein Verfahren, das ebenfalls auf dem k-Nächste-Nachbar-Graphen aufbaut.<br />
4.3 Graphbasiertes Clustering<br />
Nach (Jaromczyk & Toussaint 1992) sind graphbasierte Clusterverfahren die mächtigsten Werkzeuge, um Ergebnisse<br />
zu erzielen, die dem menschlichen Leistungsvermögen nahe kommen. Die grundlegende Idee der graphbasierten<br />
Clusterverfahren ist sehr einfach: Aus den Originaldaten wird ein Nachbarschaftsgraph berechnet (z.B.<br />
der Minimal Spannende Baum). In diesem Graphen werden diejenigen Kanten eliminiert, die – gemäß einem vorzugebenden<br />
Kriterium – länger sind als ihre Nachbarn. Das Ergebnis ist schließlich ein Graphengeflecht (Wald),<br />
in dem jeder Baum ein Cluster repräsentiert. Die sogenannten Baumzerlegungsverfahren (van Schröder 2001)<br />
gehören ebenfalls zu den graphbasierten Verfahren. Sie setzen jedoch voraus, dass es sich bei dem Graphen um<br />
einen Baum (azyklischen Graphen) handelt. Das in dieser Arbeit entwickelte Verfahren (Kap. 7) gehört auch zu<br />
den graphbasierten Clusterverfahren. Im folgenden Kapitel werden wir auf die Nachbarschaftsgraphen genauer<br />
eingehen.