25.12.2013 Aufrufe

PDF-Download - Deutsche Geodätische Kommission

PDF-Download - Deutsche Geodätische Kommission

PDF-Download - Deutsche Geodätische Kommission

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

46 KAPITEL 5. ÄHNLICHKEITS- UND DISTANZMASSE<br />

Hamming-Distanz anwenden. Dieses Vorgehen wird in den meisten Fällen keine sinnvollen Ergebnisse erbringen.<br />

Nehmen wir als Beispiel einen Datensatz aus dem Amtlichen Liegenschaftskataster-Informationssystem ALKIS,<br />

in dem geometrische Informationen und Sachinformationen simultan gespeichert sind. Betrachten wir nun jedes<br />

Objekt dieses Datensatzes, der Informationen über die Geometrieart (Punkt, Linie, Fläche), Lage (Koordinaten)<br />

und Nutzungsarten enthält, als eine einzige große Symbolfolge, dann ist es höchst unwahrscheinlich, dass<br />

wir durch ein Clusterverfahren eine Gruppierung erhalten, die die räumliche Nähe, die Form und die Nutzung<br />

der Objekte sinnvoll berücksichtigt. Das Verfahren wird einzig eine Zerlegung liefern, die die Ähnlichkeit dieser<br />

Symbolfolgen berücksichtigt. Um eine sinnvolle Gruppierung zu erhalten, muss also immer spezifisches Hintergrundwissen,<br />

also ein Modell, zugrunde gelegt werden. Das einfachste Modell kann dadurch gebildet werden,<br />

dass man alle vorkommenden Merkmale eines Objektes definiert und zu jedem Merkmal den Skalentyp und<br />

die zu verwendende Distanz- oder Ähnlichkeitsfunktion vorgibt. Wird nun jedes Objekt als Merkmalsvektor<br />

betrachtet, dann kann für diesen Vektor unter Berücksichtigung von Korollar 1 (Seite 43) und Definition 5.3.3<br />

eine Distanz- oder Ähnlichkeitsfunktion definiert werden.<br />

Diese Definition ist jedoch im Falle unseres Beispiels immer noch nicht ausreichend, wenn wir eine vernünftige<br />

Gruppierung bzgl. der Nutzungsart erwarten. In der ALK existieren für Gebäude 87 verschiedene Nutzungsarten,<br />

die in Form einer Zahl (Gebäudeschlüssel) oder als Zeichenkette zur Verfügung stehen. Als Beispiel sollen die<br />

folgenden Gebäudenutzungen dienen, dabei ist der erste Wert der Gebäudeschlüssel, der zweite die Textform<br />

und der dritte Wert die Bedeutung in der Realität:<br />

⋄ 2366 : Gar → Garage<br />

⋄ 2361 : Phs → Parkhaus<br />

⋄ 2359 : Aufzug → Aufzug<br />

⋄ 1411 : Büro → Bürogebäude<br />

⋄ 1409 : Ghs → Geschäftshaus<br />

⋄ 1301 : Whs → Wohnhaus<br />

⋄ 1841 : Wghs → Wohn- und Geschäftshaus<br />

⋄ 1842 : Wbüro → Wohn- und Bürogebäude<br />

Wenn wir nun als Mensch solche Gebäudeobjekte miteinander vergleichen – unter der Annahme das wir nach<br />

Objekten möglichst gleicher Nutzung suchen – dann werden wir z.B. feststellen, dass Garage und Parkhaus<br />

ähnlich sind. Einen Aufzug und eine Garage würden wir jedoch als völlig verschieden einstufen. Basierend<br />

auf den oben definierten Zahlenwerten und Zeichenketten wird man jedoch keinerlei vernünftiges Ergebnis<br />

erzielen können. Die Levenshtein-Distanz zwischen Gar und Phs wäre 3, dagegen wäre die Levenshtein-Distanz<br />

zwischen Gar und Aufzug mit 6 größer. Dieses Ergebnis sieht auf den ersten Blick vernünftig aus, beruht jedoch<br />

nur darauf, dass Aufzug nicht abgekürzt wurde. Hätte man für Aufzug zum Beispiel Auf verwendet, wäre<br />

die Distanz ebenfalls 3. Wenn wir die Zahlenwerte betrachten und den Betrag der Differenz als Abstandsmaß<br />

verwenden, erhalten wir als Distanz zwischen Garage und Parkhaus 5 sowie zwischen Garage und Aufzug 7.<br />

Jedoch wäre der Abstand zwischen Parkhaus und Aufzug 2 und somit ein Aufzug und ein Parkhaus erheblich<br />

ähnlicher, als ein Parkhaus und eine Garage. Ein Parkhaus besitzt meistens einen Aufzug, jedoch ist ein Parkhaus<br />

kein Aufzug und somit ist diese Distanz sinnlos. Ähnlich argumentieren kann man für die Schlüsselwerte und<br />

Zeichenketten von Bürogebäude, Geschäftshaus, Wohnhaus und deren Kombinationen.<br />

Wie man sieht genügt es nicht, einfach nur eine dem Skalentyp angepasste Ähnlichkeits- oder Distanzfunktion<br />

zu wählen, sondern man muss auch berücksichtigen, ob der Skalentyp ein Merkmal direkt repräsentiert.<br />

Ist das betrachtete Merkmal z.B. die Körpergröße in cm, dann ist ein Zahlentyp oder ein ordinaler Skalentyp<br />

eine angemessene Darstellung, da das Merkmal Körpergröße eine messbare, physikalische Eigenschaft ist. Ist<br />

das Merkmal andererseits ein nominaler Skalentyp, wie z.B. der Name oder die Adresse einer Person oder ein<br />

Ausschnitt der DNA eines Lebewesen, dann muss man unterscheiden, ob diese Symbolfolgen oder die ”<br />

Bedeutungen“,<br />

die hinter diesen nominalen Typen stehen, von Interesse sind. Anders ausgedrückt: sind wir nur am<br />

Namen einer Person oder der Person selbst interessiert? Genauso ist es mit der Nutzung von Gebäuden. Jegliche<br />

Art der Bezeichnung einer Gebäudenutzung kann nur eine Codierung der komplexen Bedeutung, die hinter dem<br />

Begriff Gebäudenutzung steht, darstellen. Im allgemeinen wird man immer eine Art von Hintergrundwissen<br />

(Modell), das mehr oder weniger komplex sein kann, benötigen und einem Clusteralgorithmus in geeigneter<br />

Form zur Verfügung stellen.<br />

In vielen Fällen kann menschliches Wissen in hierarchischer Form geordnet werden. Eine solche hierarchische<br />

Ordnung von Begriffen oder Objekten (Individuen), die wir im weiteren mit der Bedeutung, die hinter diesen

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!