Carl von Ossietzky Universität Oldenburg Hausarbeit ... - DIKO :: Index
Carl von Ossietzky Universität Oldenburg Hausarbeit ... - DIKO :: Index
Carl von Ossietzky Universität Oldenburg Hausarbeit ... - DIKO :: Index
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
4.1 Clusteranalyse<br />
Abbildung 4: Die Clusteranalyse nach Clarans[Fay96]<br />
Das Ziel einer Clusteranalyse ist laut Späth [Spä83] die Zusammenfassung<br />
der zu klassifizierenden Objekte zu Klassen, so dass die Objekte innerhalb einer<br />
Klasse möglichst ähnlich und die Klassen untereinander möglichst unähnlich<br />
sind. Die Clusteranalyse möchte durch Algorithmen eine Segmentierung erreichen,<br />
speziell auf Basis der expliziten und impliziten Daten. Es gibt verschiedene<br />
Clusterverfahren, die alle angewandt werden können, um das oben genannte Ziel<br />
zu erreichen. Die Wahl der jeweiligen Clusterverfahren ist abhängig <strong>von</strong> dem<br />
gewünschten Ergebnis und den vorhandenen Eingabedaten. Durch eine Vorauswahl<br />
bestimmter Datensätze, z.B. Aussortieren der so genannten Ausreiser aus<br />
der Statistik, kann die Effizienz gesteigert werden. Zum Beispiel bei einem Vergleich<br />
<strong>von</strong> Supermärkten wie Aldi, Lidl, Pennymarkt und Feinkost-Käfer, wäre<br />
letzteres ein Ausreißer; Feinkost-Käfer ist zwar auch ein Supermarkt, würde aber<br />
das durchschnittliche Ergebnis verfälschen, und die Auswertung wäre nicht sinnvoll.<br />
Da Käfer z.B. ein anderes Warenangebot besitzt und die Käuferschicht eine<br />
andere ist. Wichtig für eine sinnvolle Auswertung ist darüber hinaus die Definition,<br />
wie viele Cluster gebildet werden sollen und über wie viele Durchgänge<br />
der Algorithmus gehen soll.<br />
Man unterscheidet partionierende und hierarchische Clusteringverfahren. Sie<br />
werden im folgenden kurz beschrieben. Graphentheoretische Verfahren werden<br />
vernachlässigt. Im partionierenden Verfahren werden die Daten in k Cluster eingeteilt,<br />
wobei jeder Cluster C aus mindestens einem Objekt besteht, jedes Objekt<br />
höchstens einem Cluster angehört und die Cluster sich nicht überlappen.<br />
Partionierende Verfahren umfassen mehrere Ansätze z.B. den k-means- und den<br />
k-medoid- Ansatz. Hier werden Cluster durch zentrale Punkte dargestellt, die<br />
kompaktesten Cluster werden rausgefiltert. Es gibt darüber hinaus die Erwartungsmaximierung.<br />
Hier werden Cluster durch Gaußverteilungen repräsentiert<br />
und die Zugehörigkeit eines Objektes zu einem Cluster wird über Wahrscheinlichkeiten<br />
dargestellt. Gaußverteilungen sind eine statistische Kennzahl. Statistische<br />
Kennzahlen spielen bei der Clusteranalyse eine große Bedeutung.<br />
Auch bei hierarchischen Verfahren, wo das Distanzmaß, bzw. Unähnlichkeitsmaß<br />
15