36 KAPITEL 4. CLUSTERANALYSE
37 Kapitel 5 Ähnlichkeits- und Distanzmaße Wie wir im vorangegangenen Kapitel gesehen haben, benötigt jedes Clusterverfahren ein Maß, um die Ähnlichkeit zwischen einzelnen Elementen des betrachteten Objektraums, zwischen Gruppen von Elementen (Clustern) oder zwischen Elementen und Clustern bestimmen zu können. Ein solches Maß ist nicht trivial, da im allgemeinen in Datenbanken mehr nicht-numerische Daten als numerische gespeichert sind. Lassen sich die nichtnumerischen Daten eindeutig auf Zahlen abbilden, kann das Clustering-Problem auf einen n−dimensionalen Vektorraum abgebildet werden, in dem dann eine klassische Metrik aus der Mathematik zur Messung der Distanz oder Ähnlichkeit verwendet werden kann. Der Vergleich zwischen Clustern lässt sich aber meistens nur durch zusätzliche Bedingungen geeignet definieren. Zuerst werden wir in diesem Kapitel auf die möglichen verschiedenen Arten (Skalen) von Daten eingehen und dann die Definition von Ähnlichkeits- und Distanzmaßen erläutern. Bei der folgenden Aufzählung von Maßen erheben wir natürlich keinen Anspruch auf Vollständigkeit. Es soll einzig gezeigt werden, wie vielfältig das Problem des Vergleichs von Objekten ist und immer im Kontext zu einem Modell definiert werden muss. 5.1 Skalentypen Im allgemeinen sind die Merkmale eines zu gruppierenden Datensatzes von unterschiedlicher Art, d.h. die Merkmale besitzen nicht den gleichen Skalentyp (Abb. 5.1). Skalentypen lassen sich in quantitative und qualitative Typen einteilen. Die quantitativen Typen entsprechen den Zahlen oder Typen, die sich eindeutig auf eine Zahlenmenge abbilden lassen. Mit quantitativen Daten kann man somit rechnen (+,-,*,/), sie lassen sich anordnen/vergleichen und vermessen“, da die Zahlenmengen metrische Räume sind. Die quantitativen Daten lassen sich in diskrete und ” in kontinuierliche Typenunterteilen.DiediskretenTypenlassensichaufdieMengedernatürlichen Zahlen abbilden. Die kontinuierlichen Typen lassen sich dagegen nur auf Teilmengen der reellen Zahlen abbilden. Die Anzahl von Besuchern einer Veranstaltung sind ein Beispiel für einen diskreten Skalentyp. Die Fläche von Grundstücken, gemessen in m 2 , ist dagegen ein Beispiel für einen kontinuierlichen Skalentyp. Qualitative Daten sind alle Arten von Daten mit denen man nicht rechnen kann. Im günstigsten Fall lassen sich qualitative Daten in eindeutiger Weise anordnen, wie die sogenannten ordinalen Datentypen (z.B. die Körpergröße mit der Wertemenge {klein, mittel, groß}). Die qualitativen Daten lassen sich in die schon erwähnten ordinalen Typen und in die sogenannten nominalen und binären Typen einteilen. Mit nominal bezeichnet man mehrkategoriale Daten, wie z.B. die Haarfarbe mit der Wertemenge {schwarz, rot, braun, blond}, d.h. man kann diesen Merkmalen verbale Ausprägungen zuordnen und diese auf Gleichheit überprüfen, jedoch kann man weder mit ihnen rechnen noch lassen sie sich in eindeutiger Weise anordnen. Binäre Skalentypen 1 kann man als Sonderfall der nominalen Skalentypen auffassen, da sich ebenfalls für die Merkmale nur die Gleichheit überprüfen lässt. Zusätzlich besteht bei binären Skalentypen die Wertemenge aus nur zwei Elementen, wie z.B. {ja,nein}, {gut, schlecht} oder {männlich,weiblich}. 1 Binäre Skalentypen werden auch als dichotome Variablen bezeichnet.