PDF-Download - Deutsche Geodätische Kommission
PDF-Download - Deutsche Geodätische Kommission
PDF-Download - Deutsche Geodätische Kommission
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
46 KAPITEL 5. ÄHNLICHKEITS- UND DISTANZMASSE<br />
Hamming-Distanz anwenden. Dieses Vorgehen wird in den meisten Fällen keine sinnvollen Ergebnisse erbringen.<br />
Nehmen wir als Beispiel einen Datensatz aus dem Amtlichen Liegenschaftskataster-Informationssystem ALKIS,<br />
in dem geometrische Informationen und Sachinformationen simultan gespeichert sind. Betrachten wir nun jedes<br />
Objekt dieses Datensatzes, der Informationen über die Geometrieart (Punkt, Linie, Fläche), Lage (Koordinaten)<br />
und Nutzungsarten enthält, als eine einzige große Symbolfolge, dann ist es höchst unwahrscheinlich, dass<br />
wir durch ein Clusterverfahren eine Gruppierung erhalten, die die räumliche Nähe, die Form und die Nutzung<br />
der Objekte sinnvoll berücksichtigt. Das Verfahren wird einzig eine Zerlegung liefern, die die Ähnlichkeit dieser<br />
Symbolfolgen berücksichtigt. Um eine sinnvolle Gruppierung zu erhalten, muss also immer spezifisches Hintergrundwissen,<br />
also ein Modell, zugrunde gelegt werden. Das einfachste Modell kann dadurch gebildet werden,<br />
dass man alle vorkommenden Merkmale eines Objektes definiert und zu jedem Merkmal den Skalentyp und<br />
die zu verwendende Distanz- oder Ähnlichkeitsfunktion vorgibt. Wird nun jedes Objekt als Merkmalsvektor<br />
betrachtet, dann kann für diesen Vektor unter Berücksichtigung von Korollar 1 (Seite 43) und Definition 5.3.3<br />
eine Distanz- oder Ähnlichkeitsfunktion definiert werden.<br />
Diese Definition ist jedoch im Falle unseres Beispiels immer noch nicht ausreichend, wenn wir eine vernünftige<br />
Gruppierung bzgl. der Nutzungsart erwarten. In der ALK existieren für Gebäude 87 verschiedene Nutzungsarten,<br />
die in Form einer Zahl (Gebäudeschlüssel) oder als Zeichenkette zur Verfügung stehen. Als Beispiel sollen die<br />
folgenden Gebäudenutzungen dienen, dabei ist der erste Wert der Gebäudeschlüssel, der zweite die Textform<br />
und der dritte Wert die Bedeutung in der Realität:<br />
⋄ 2366 : Gar → Garage<br />
⋄ 2361 : Phs → Parkhaus<br />
⋄ 2359 : Aufzug → Aufzug<br />
⋄ 1411 : Büro → Bürogebäude<br />
⋄ 1409 : Ghs → Geschäftshaus<br />
⋄ 1301 : Whs → Wohnhaus<br />
⋄ 1841 : Wghs → Wohn- und Geschäftshaus<br />
⋄ 1842 : Wbüro → Wohn- und Bürogebäude<br />
Wenn wir nun als Mensch solche Gebäudeobjekte miteinander vergleichen – unter der Annahme das wir nach<br />
Objekten möglichst gleicher Nutzung suchen – dann werden wir z.B. feststellen, dass Garage und Parkhaus<br />
ähnlich sind. Einen Aufzug und eine Garage würden wir jedoch als völlig verschieden einstufen. Basierend<br />
auf den oben definierten Zahlenwerten und Zeichenketten wird man jedoch keinerlei vernünftiges Ergebnis<br />
erzielen können. Die Levenshtein-Distanz zwischen Gar und Phs wäre 3, dagegen wäre die Levenshtein-Distanz<br />
zwischen Gar und Aufzug mit 6 größer. Dieses Ergebnis sieht auf den ersten Blick vernünftig aus, beruht jedoch<br />
nur darauf, dass Aufzug nicht abgekürzt wurde. Hätte man für Aufzug zum Beispiel Auf verwendet, wäre<br />
die Distanz ebenfalls 3. Wenn wir die Zahlenwerte betrachten und den Betrag der Differenz als Abstandsmaß<br />
verwenden, erhalten wir als Distanz zwischen Garage und Parkhaus 5 sowie zwischen Garage und Aufzug 7.<br />
Jedoch wäre der Abstand zwischen Parkhaus und Aufzug 2 und somit ein Aufzug und ein Parkhaus erheblich<br />
ähnlicher, als ein Parkhaus und eine Garage. Ein Parkhaus besitzt meistens einen Aufzug, jedoch ist ein Parkhaus<br />
kein Aufzug und somit ist diese Distanz sinnlos. Ähnlich argumentieren kann man für die Schlüsselwerte und<br />
Zeichenketten von Bürogebäude, Geschäftshaus, Wohnhaus und deren Kombinationen.<br />
Wie man sieht genügt es nicht, einfach nur eine dem Skalentyp angepasste Ähnlichkeits- oder Distanzfunktion<br />
zu wählen, sondern man muss auch berücksichtigen, ob der Skalentyp ein Merkmal direkt repräsentiert.<br />
Ist das betrachtete Merkmal z.B. die Körpergröße in cm, dann ist ein Zahlentyp oder ein ordinaler Skalentyp<br />
eine angemessene Darstellung, da das Merkmal Körpergröße eine messbare, physikalische Eigenschaft ist. Ist<br />
das Merkmal andererseits ein nominaler Skalentyp, wie z.B. der Name oder die Adresse einer Person oder ein<br />
Ausschnitt der DNA eines Lebewesen, dann muss man unterscheiden, ob diese Symbolfolgen oder die ”<br />
Bedeutungen“,<br />
die hinter diesen nominalen Typen stehen, von Interesse sind. Anders ausgedrückt: sind wir nur am<br />
Namen einer Person oder der Person selbst interessiert? Genauso ist es mit der Nutzung von Gebäuden. Jegliche<br />
Art der Bezeichnung einer Gebäudenutzung kann nur eine Codierung der komplexen Bedeutung, die hinter dem<br />
Begriff Gebäudenutzung steht, darstellen. Im allgemeinen wird man immer eine Art von Hintergrundwissen<br />
(Modell), das mehr oder weniger komplex sein kann, benötigen und einem Clusteralgorithmus in geeigneter<br />
Form zur Verfügung stellen.<br />
In vielen Fällen kann menschliches Wissen in hierarchischer Form geordnet werden. Eine solche hierarchische<br />
Ordnung von Begriffen oder Objekten (Individuen), die wir im weiteren mit der Bedeutung, die hinter diesen