25.12.2013 Aufrufe

PDF-Download - Deutsche Geodätische Kommission

PDF-Download - Deutsche Geodätische Kommission

PDF-Download - Deutsche Geodätische Kommission

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

4.3. GRAPHBASIERTES CLUSTERING 35<br />

• complete linkage Verfahren: d(I,J):= max d(x, y)<br />

x∈I,y∈J<br />

• average linkage Verfahren: d(I,J):= 1 ∑<br />

d(x, y)<br />

|I||J|<br />

x∈I,y∈J<br />

• Ward Verfahren: d(I,J):= 2|I||J|<br />

|I|+|J| d(µ I,µ J )<br />

Die Linkage-Methoden können Cluster beliebiger Form und Größe ermitteln. Der Nachteil liegt jedoch darin,<br />

dass sie nicht robust gegenüber Rauschen und Ausreißern in den Daten sind. Weiterhin ergeben sich Probleme<br />

bei nur schwach separierbaren Clustern.<br />

Um die Nachteile der hierarchischen Verfahren zu überwinden, wurden Algorithmen wie die Methode der Shared-<br />

Near-Neighbors (Jarvis & Patrick 1973), bzw. CURE (Guha et al. 1998) und ROCK (Guha et al. 1999) vorgeschlagen.<br />

Anstelle eines einzigen Cluster-Repräsentanten nutzt CURE eine vorgegebene konstante Anzahl an<br />

Repräsentanten für ein Cluster. Der ROCK Algorithmus arbeitet auf einem abgeleiteten Ähnlichkeitsgraphen<br />

und berücksichtigt ein vorgegebenes Modell für die Inter-Cluster-Heterogenität. Die Methode der Shared-Near-<br />

Neighbors nutzt einen k-Nächste-Nachbar-Graph, umdieÄhnlichkeit zwischen zwei Clustern zu bestimmen.<br />

Der Vorteil dieses Verfahrens gegenüber den meisten anderen ist, dass es ohne einen vorgegebenen absoluten<br />

Maßstab auskommt, um die Ähnlichkeit (Nachbarschaft) von Objekten zu bestimmen. Karypis, Han & Kumar<br />

(1999) beschreiben ein Verfahren, das ebenfalls auf dem k-Nächste-Nachbar-Graphen aufbaut.<br />

4.3 Graphbasiertes Clustering<br />

Nach (Jaromczyk & Toussaint 1992) sind graphbasierte Clusterverfahren die mächtigsten Werkzeuge, um Ergebnisse<br />

zu erzielen, die dem menschlichen Leistungsvermögen nahe kommen. Die grundlegende Idee der graphbasierten<br />

Clusterverfahren ist sehr einfach: Aus den Originaldaten wird ein Nachbarschaftsgraph berechnet (z.B.<br />

der Minimal Spannende Baum). In diesem Graphen werden diejenigen Kanten eliminiert, die – gemäß einem vorzugebenden<br />

Kriterium – länger sind als ihre Nachbarn. Das Ergebnis ist schließlich ein Graphengeflecht (Wald),<br />

in dem jeder Baum ein Cluster repräsentiert. Die sogenannten Baumzerlegungsverfahren (van Schröder 2001)<br />

gehören ebenfalls zu den graphbasierten Verfahren. Sie setzen jedoch voraus, dass es sich bei dem Graphen um<br />

einen Baum (azyklischen Graphen) handelt. Das in dieser Arbeit entwickelte Verfahren (Kap. 7) gehört auch zu<br />

den graphbasierten Clusterverfahren. Im folgenden Kapitel werden wir auf die Nachbarschaftsgraphen genauer<br />

eingehen.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!