25.12.2013 Aufrufe

PDF-Download - Deutsche Geodätische Kommission

PDF-Download - Deutsche Geodätische Kommission

PDF-Download - Deutsche Geodätische Kommission

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

37<br />

Kapitel 5<br />

Ähnlichkeits- und Distanzmaße<br />

Wie wir im vorangegangenen Kapitel gesehen haben, benötigt jedes Clusterverfahren ein Maß, um die<br />

Ähnlichkeit zwischen einzelnen Elementen des betrachteten Objektraums, zwischen Gruppen von Elementen<br />

(Clustern) oder zwischen Elementen und Clustern bestimmen zu können. Ein solches Maß ist nicht trivial, da im<br />

allgemeinen in Datenbanken mehr nicht-numerische Daten als numerische gespeichert sind. Lassen sich die nichtnumerischen<br />

Daten eindeutig auf Zahlen abbilden, kann das Clustering-Problem auf einen n−dimensionalen<br />

Vektorraum abgebildet werden, in dem dann eine klassische Metrik aus der Mathematik zur Messung der Distanz<br />

oder Ähnlichkeit verwendet werden kann. Der Vergleich zwischen Clustern lässt sich aber meistens nur<br />

durch zusätzliche Bedingungen geeignet definieren. Zuerst werden wir in diesem Kapitel auf die möglichen verschiedenen<br />

Arten (Skalen) von Daten eingehen und dann die Definition von Ähnlichkeits- und Distanzmaßen<br />

erläutern. Bei der folgenden Aufzählung von Maßen erheben wir natürlich keinen Anspruch auf Vollständigkeit.<br />

Es soll einzig gezeigt werden, wie vielfältig das Problem des Vergleichs von Objekten ist und immer im Kontext<br />

zu einem Modell definiert werden muss.<br />

5.1 Skalentypen<br />

Im allgemeinen sind die Merkmale eines zu gruppierenden Datensatzes von unterschiedlicher Art, d.h. die Merkmale<br />

besitzen nicht den gleichen Skalentyp (Abb. 5.1). Skalentypen lassen sich in quantitative und qualitative<br />

Typen einteilen.<br />

Die quantitativen Typen entsprechen den Zahlen oder Typen, die sich eindeutig auf eine Zahlenmenge abbilden<br />

lassen. Mit quantitativen Daten kann man somit rechnen (+,-,*,/), sie lassen sich anordnen/vergleichen und<br />

vermessen“, da die Zahlenmengen metrische Räume sind. Die quantitativen Daten lassen sich in diskrete und<br />

”<br />

in kontinuierliche Typenunterteilen.DiediskretenTypenlassensichaufdieMengedernatürlichen Zahlen<br />

abbilden. Die kontinuierlichen Typen lassen sich dagegen nur auf Teilmengen der reellen Zahlen abbilden. Die<br />

Anzahl von Besuchern einer Veranstaltung sind ein Beispiel für einen diskreten Skalentyp. Die Fläche von<br />

Grundstücken, gemessen in m 2 , ist dagegen ein Beispiel für einen kontinuierlichen Skalentyp.<br />

Qualitative Daten sind alle Arten von Daten mit denen man nicht rechnen kann. Im günstigsten Fall lassen<br />

sich qualitative Daten in eindeutiger Weise anordnen, wie die sogenannten ordinalen Datentypen (z.B.<br />

die Körpergröße mit der Wertemenge {klein, mittel, groß}). Die qualitativen Daten lassen sich in die schon<br />

erwähnten ordinalen Typen und in die sogenannten nominalen und binären Typen einteilen. Mit nominal bezeichnet<br />

man mehrkategoriale Daten, wie z.B. die Haarfarbe mit der Wertemenge {schwarz, rot, braun, blond},<br />

d.h. man kann diesen Merkmalen verbale Ausprägungen zuordnen und diese auf Gleichheit überprüfen, jedoch<br />

kann man weder mit ihnen rechnen noch lassen sie sich in eindeutiger Weise anordnen. Binäre Skalentypen 1 kann<br />

man als Sonderfall der nominalen Skalentypen auffassen, da sich ebenfalls für die Merkmale nur die Gleichheit<br />

überprüfen lässt. Zusätzlich besteht bei binären Skalentypen die Wertemenge aus nur zwei Elementen, wie z.B.<br />

{ja,nein}, {gut, schlecht} oder {männlich,weiblich}.<br />

1 Binäre Skalentypen werden auch als dichotome Variablen bezeichnet.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!