18.12.2012 Aufrufe

Carl von Ossietzky Universität Oldenburg Hausarbeit ... - DIKO :: Index

Carl von Ossietzky Universität Oldenburg Hausarbeit ... - DIKO :: Index

Carl von Ossietzky Universität Oldenburg Hausarbeit ... - DIKO :: Index

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

4.1 Clusteranalyse<br />

Abbildung 4: Die Clusteranalyse nach Clarans[Fay96]<br />

Das Ziel einer Clusteranalyse ist laut Späth [Spä83] die Zusammenfassung<br />

der zu klassifizierenden Objekte zu Klassen, so dass die Objekte innerhalb einer<br />

Klasse möglichst ähnlich und die Klassen untereinander möglichst unähnlich<br />

sind. Die Clusteranalyse möchte durch Algorithmen eine Segmentierung erreichen,<br />

speziell auf Basis der expliziten und impliziten Daten. Es gibt verschiedene<br />

Clusterverfahren, die alle angewandt werden können, um das oben genannte Ziel<br />

zu erreichen. Die Wahl der jeweiligen Clusterverfahren ist abhängig <strong>von</strong> dem<br />

gewünschten Ergebnis und den vorhandenen Eingabedaten. Durch eine Vorauswahl<br />

bestimmter Datensätze, z.B. Aussortieren der so genannten Ausreiser aus<br />

der Statistik, kann die Effizienz gesteigert werden. Zum Beispiel bei einem Vergleich<br />

<strong>von</strong> Supermärkten wie Aldi, Lidl, Pennymarkt und Feinkost-Käfer, wäre<br />

letzteres ein Ausreißer; Feinkost-Käfer ist zwar auch ein Supermarkt, würde aber<br />

das durchschnittliche Ergebnis verfälschen, und die Auswertung wäre nicht sinnvoll.<br />

Da Käfer z.B. ein anderes Warenangebot besitzt und die Käuferschicht eine<br />

andere ist. Wichtig für eine sinnvolle Auswertung ist darüber hinaus die Definition,<br />

wie viele Cluster gebildet werden sollen und über wie viele Durchgänge<br />

der Algorithmus gehen soll.<br />

Man unterscheidet partionierende und hierarchische Clusteringverfahren. Sie<br />

werden im folgenden kurz beschrieben. Graphentheoretische Verfahren werden<br />

vernachlässigt. Im partionierenden Verfahren werden die Daten in k Cluster eingeteilt,<br />

wobei jeder Cluster C aus mindestens einem Objekt besteht, jedes Objekt<br />

höchstens einem Cluster angehört und die Cluster sich nicht überlappen.<br />

Partionierende Verfahren umfassen mehrere Ansätze z.B. den k-means- und den<br />

k-medoid- Ansatz. Hier werden Cluster durch zentrale Punkte dargestellt, die<br />

kompaktesten Cluster werden rausgefiltert. Es gibt darüber hinaus die Erwartungsmaximierung.<br />

Hier werden Cluster durch Gaußverteilungen repräsentiert<br />

und die Zugehörigkeit eines Objektes zu einem Cluster wird über Wahrscheinlichkeiten<br />

dargestellt. Gaußverteilungen sind eine statistische Kennzahl. Statistische<br />

Kennzahlen spielen bei der Clusteranalyse eine große Bedeutung.<br />

Auch bei hierarchischen Verfahren, wo das Distanzmaß, bzw. Unähnlichkeitsmaß<br />

15

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!