PDF-Download - Deutsche Geodätische Kommission
PDF-Download - Deutsche Geodätische Kommission
PDF-Download - Deutsche Geodätische Kommission
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
37<br />
Kapitel 5<br />
Ähnlichkeits- und Distanzmaße<br />
Wie wir im vorangegangenen Kapitel gesehen haben, benötigt jedes Clusterverfahren ein Maß, um die<br />
Ähnlichkeit zwischen einzelnen Elementen des betrachteten Objektraums, zwischen Gruppen von Elementen<br />
(Clustern) oder zwischen Elementen und Clustern bestimmen zu können. Ein solches Maß ist nicht trivial, da im<br />
allgemeinen in Datenbanken mehr nicht-numerische Daten als numerische gespeichert sind. Lassen sich die nichtnumerischen<br />
Daten eindeutig auf Zahlen abbilden, kann das Clustering-Problem auf einen n−dimensionalen<br />
Vektorraum abgebildet werden, in dem dann eine klassische Metrik aus der Mathematik zur Messung der Distanz<br />
oder Ähnlichkeit verwendet werden kann. Der Vergleich zwischen Clustern lässt sich aber meistens nur<br />
durch zusätzliche Bedingungen geeignet definieren. Zuerst werden wir in diesem Kapitel auf die möglichen verschiedenen<br />
Arten (Skalen) von Daten eingehen und dann die Definition von Ähnlichkeits- und Distanzmaßen<br />
erläutern. Bei der folgenden Aufzählung von Maßen erheben wir natürlich keinen Anspruch auf Vollständigkeit.<br />
Es soll einzig gezeigt werden, wie vielfältig das Problem des Vergleichs von Objekten ist und immer im Kontext<br />
zu einem Modell definiert werden muss.<br />
5.1 Skalentypen<br />
Im allgemeinen sind die Merkmale eines zu gruppierenden Datensatzes von unterschiedlicher Art, d.h. die Merkmale<br />
besitzen nicht den gleichen Skalentyp (Abb. 5.1). Skalentypen lassen sich in quantitative und qualitative<br />
Typen einteilen.<br />
Die quantitativen Typen entsprechen den Zahlen oder Typen, die sich eindeutig auf eine Zahlenmenge abbilden<br />
lassen. Mit quantitativen Daten kann man somit rechnen (+,-,*,/), sie lassen sich anordnen/vergleichen und<br />
vermessen“, da die Zahlenmengen metrische Räume sind. Die quantitativen Daten lassen sich in diskrete und<br />
”<br />
in kontinuierliche Typenunterteilen.DiediskretenTypenlassensichaufdieMengedernatürlichen Zahlen<br />
abbilden. Die kontinuierlichen Typen lassen sich dagegen nur auf Teilmengen der reellen Zahlen abbilden. Die<br />
Anzahl von Besuchern einer Veranstaltung sind ein Beispiel für einen diskreten Skalentyp. Die Fläche von<br />
Grundstücken, gemessen in m 2 , ist dagegen ein Beispiel für einen kontinuierlichen Skalentyp.<br />
Qualitative Daten sind alle Arten von Daten mit denen man nicht rechnen kann. Im günstigsten Fall lassen<br />
sich qualitative Daten in eindeutiger Weise anordnen, wie die sogenannten ordinalen Datentypen (z.B.<br />
die Körpergröße mit der Wertemenge {klein, mittel, groß}). Die qualitativen Daten lassen sich in die schon<br />
erwähnten ordinalen Typen und in die sogenannten nominalen und binären Typen einteilen. Mit nominal bezeichnet<br />
man mehrkategoriale Daten, wie z.B. die Haarfarbe mit der Wertemenge {schwarz, rot, braun, blond},<br />
d.h. man kann diesen Merkmalen verbale Ausprägungen zuordnen und diese auf Gleichheit überprüfen, jedoch<br />
kann man weder mit ihnen rechnen noch lassen sie sich in eindeutiger Weise anordnen. Binäre Skalentypen 1 kann<br />
man als Sonderfall der nominalen Skalentypen auffassen, da sich ebenfalls für die Merkmale nur die Gleichheit<br />
überprüfen lässt. Zusätzlich besteht bei binären Skalentypen die Wertemenge aus nur zwei Elementen, wie z.B.<br />
{ja,nein}, {gut, schlecht} oder {männlich,weiblich}.<br />
1 Binäre Skalentypen werden auch als dichotome Variablen bezeichnet.