14.11.2013 Aufrufe

Hausarbeit - Friedrich-Schiller-Universität Jena

Hausarbeit - Friedrich-Schiller-Universität Jena

Hausarbeit - Friedrich-Schiller-Universität Jena

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

<strong>Friedrich</strong> – <strong>Schiller</strong> - <strong>Universität</strong><br />

Institut für Geographie<br />

Wintersemester 2004/2005<br />

<strong>Hausarbeit</strong> zum Hauptseminar:<br />

Analyse und Modellierung räumlicher Daten<br />

Leiter: Dr. Martin Herold<br />

Thema:<br />

Räumliche Autokorrelation und deskriptive Methoden<br />

Verfasser:<br />

Christian Pfeifer<br />

Wanderslebenstr. 7, 07745 <strong>Jena</strong><br />

E-mail: christian_pfeifer@gmx.net<br />

Abgegeben am 22.10.2004


Inhalt<br />

1 Einleitung 2<br />

2 Allgemeine deskriptive Methoden 2<br />

2.1 Mittelwerte 2<br />

2.1.1 Arithmetische Mittel 2<br />

2.1.2 Median und Modus 3<br />

2.2 Streuungsmaße 3<br />

2.2.1 Standartabweichung und Varianz 3<br />

2.2.2 Schiefe und Exzess 4<br />

2.3 „Nearest Neighbor“-Analyse 4<br />

2.4 Histogramm 5<br />

2.5 Datenniveaus 6<br />

2.6 Objektarten 7<br />

3 Räumliche Autokorrelation 7<br />

3.1 Hinführung 7<br />

3.2 Das erste Gesetz der Geographie 8<br />

3.3 Berechnung der räumliche Autokorrelation 10<br />

3.3.1 Geary’s (c) Index 11<br />

3.3.2 Moran’s (I) Index 12<br />

3.4 Probleme 12<br />

3.4.1 Datenherkunft 12<br />

3.4.2 MAUP 13<br />

3.5 Spatial Sampling 13<br />

4 Schlussbemerkung 15<br />

Literatur 15<br />

1


1 Einleitung<br />

Um herauszufinden wie bestimmte Eigenschaften im Raum verteilt sind bedarf es spezieller<br />

statistischer Methoden, besonders dann, wenn die zu untersuchenden Eigenschaften in<br />

Beziehung zum Raum oder zu anderen Merkmalen stehen. Um diese Beziehungen für den<br />

Betrachter sichtbar zu machen werden diese durch deskriptive Methoden analysiert und in<br />

Form einer einzigen oder weniger Zahlen ausgedrückt. In dieser Arbeit soll dabei ein<br />

Hauptaugenmerk auf die Datenanalyse in Bezug auf die räumliche Autokorrelation gelegt<br />

werden. Diese, soviel soll schon gesagt werden, beschäftigt sich mit der räumlichen<br />

Beziehung zwischen Objekten und ihren Nachbarn. Oder wie MORAN schon 1948 schrieb<br />

„The presence, absence, or characteristics of some spatial objects may sometimes have<br />

significant impacts on the presence, absence, or characteristics of the neighboring objects.”<br />

( LO & YEUNG 2002: 117)<br />

Aber bevor auf diese spezielle deskriptive Methode der räumlichen Autokorrelation<br />

eingegangen wird, sollen zuvor ausgewählte, grundlegende Verfahren und Sachverhalte der<br />

traditionellen deskriptiven Statistik erläutert werden.<br />

2 Allgemeine deskriptive Methoden<br />

Die deskriptive bzw. beschreibende Statistik befasst sich mit der Analyse und Darstellung von<br />

räumlichen und zeitlichen Daten. Die Methoden der deskriptiven Statistik haben das Ziel, die<br />

oft großen Datenmengen mit nur wenigen Zahlen zu charakterisieren, so dass sie für den<br />

Betrachter gut interpretierbar sind. Dabei zählt die Visualisierung der Daten, wie z.B. in einer<br />

Karte, zu den besten Methoden bestimmte Muster in den Daten zu erfassen. Zu den<br />

deskriptiven Methoden gehört der Mittelwert und die Streuung, welche nun kurz vorgestellt<br />

werden (LO & YEUNG 2002: 350 & HELMSCHROT & FINK 2001).<br />

2.1 Mittelwerte<br />

Durch die Mittelwerte (engl. central tendency) wird das Zentrum der Verteilung<br />

charakterisiert. Mittelwerte können u.a. durch das arithmetische Mittel, den Median oder den<br />

Modus angeben werden (HELMSCHROT & FINK 2001).<br />

2.1.1 Arithmetische Mittel<br />

Das arithmetische Mittel berechnet man aus der Summe aller<br />

Einzelwerte, dividiert durch die Gesamtzahl aller Stichprobenfälle<br />

(siehe Formel 1). Man sollte diese Formel anwenden, wenn die<br />

Formel 1: Mittelwert x m<br />

Werte hauptsächlich um das arithmetische Mittel verteilt sind. Ist (HELMSCHROT & FINK 2001)<br />

die Stichprobe zu heterogen (weicht zu sehr von der Glockenform<br />

ab) bringt dieses Verfahren zu große Nachteile mit sich (HELMSCHROT & FINK 2001).<br />

2


2.1.2 Median und Modus<br />

Der Median ist der Wert, der die nach der Größe geordnete Verteilung in 2 gleichgroße<br />

Bereiche teilt. Beispiel: Gegeben ist ein beliebige Zahlenreihe mit den Werten 1, 3, 5, 7, 66.<br />

Der mittlere Wert also der Median ist hier 5.<br />

Bei einer ungeraden Anzahl von Stichproben wird der Median von den beiden in der Mitte<br />

stehenden Zahlen gebildet. Der Median hat den Vorteil, dass er sich im Gegensatz zum<br />

arithmetischen Mittel nicht durch einzelne hohe Werte beeinflussen lässt.<br />

Der Modus hingegen zeigt den am häufigsten vorkommenden Merkmalswert einer Datenreihe<br />

oder einer Klasse auf (LO & YEUNG 2002: 351 & HELMSCHROT & FINK 2001).<br />

2.2 Streuungsmaße<br />

Die Streuung (engl.: dispersion) gibt an, wie weit die Merkmalswerte um das Zentrum verteilt<br />

sind. Um die Streuung anzugeben gibt es vier gebräuchliche Möglichkeiten.<br />

2.2.1 Standartabweichung und Varianz<br />

Nach LO & YEUNG (2002: 351) ist die Standartabweichung die wichtigste Maßeinheit um die<br />

Streuung zu charakterisieren. Um die Standartabweichung berechnen zu können, muss vorher<br />

die Varianz gebildet werden. Denn die Standartabweichung ergibt sich, aus der Wurzel der<br />

Varianz (siehe Fromel 3). Die Varianz selbst wird nach der Formel 2 berechnet. Hier muss die<br />

Summe der quadrierten Abweichungen vom Mittelwert x m , durch die Gesamtzahl der<br />

Elemente n dividiert werden.<br />

Formel 3: Varianz s² (HELMSCHROT & FINK 2001)<br />

Formel 2: Standartabweichung s<br />

(HELMSCHROT & FINK 2001)<br />

Die Standartabweichung gibt an, wie sich die Streuung einer Verteilung um den Mittelwert<br />

verhält. Allerdings hat sie den Nachteil, dass man die Standartabweichungen zweier<br />

verschiedener Stichproben nur vergleichen kann, wenn deren arithmetische Mittel in etwa<br />

gleichgroß sind (LO & YEUNG 2002: 351 & HELMSCHROT & FINK 2001).<br />

3


2.2.2 Schiefe und Exzess<br />

Die Schiefe (engl.: skewness) wie der Exzess (engl.: kurtosis) sind Formenparameter, d.h. sie<br />

geben Auskunft über die Form der Verteilung.<br />

„Die Schiefe […] stellt ein Maß für die Symmetrie der Verteilung um das arithmetische<br />

Mittel dar und errechnet sich…“ (HELMSCHROT & FINK 2001) aus der Differenz des<br />

Mittelwert x m vom Median Me, welche durch die Standartabweichung s dividiert wird, wie in<br />

Formel 4 abgebildet. Wenn die Form der Verteilung symmetrisch ist, dann hat die Schiefe g<br />

einen Wert von 0, ist g größer als 0 handelt es sich um eine positive Schiefe, der Median ist<br />

links vom Mittel. Bei einer negativen Schiefe hingegen ist g kleiner als 0 und der Median<br />

rechts vom Mittel.<br />

Formel 4: Schiefe g (HELMSCHROT & FINK 2001) Formel 5: Exzess Ez (HELMSCHROT & FINK 2001)<br />

Der Exzess hingegen ist ein Maß für die Steilheit der Verteilung. So beschreibt er, ob die<br />

Merkmalsverteilung spitz oder flach um das Zentrum verteilt ist. Berechnet wird er, wie in<br />

Formel 5 aufgezeigt. Von einer spitzen Verteilung spricht man, wenn der Exzess Ez größer<br />

als eins ist und damit steiler zuläuft als eine Normalverteilung. Keinen Exzess (Ez = 1) findet<br />

man bei einer Normalverteilung vor. Ist der Exzess kleiner als eins (negativer Exzess) ist die<br />

Verteilung flacher als eine Normalverteilung (LO & YEUNG 2002: 351).<br />

2.3 „Nearest Neighbor“-Analyse<br />

Bei der „Nearest Neighbor“-Analyse werden Verteilungsmuster von Punkten auf einer Fläche<br />

untersucht. Dabei kann bestimmt werden, ob die Messpunkte regelmäßig, unregelmäßig oder<br />

in Clustern (Gruppen) auftreten. „Diese Einordnung [in regelmäßig, unregelmäßig oder in<br />

Clustern] erfolgt über das Messen der Distanzen zwischen gepaarten Datenpunkten. Gepaart<br />

werden dabei die Punkte mit der geringsten räumlichen Distanz zueinander - die ‚Nearest<br />

Neighbor’.“ (DUMFARTH & LORUP 2000)<br />

Um Verwechslungen mit der räumliche Autokorrelation aus dem Weg zu gehen, muss klar<br />

festgestellt werden, dass bei der „Nearest Neighbor“-Analyse nur die räumliche Verteilung<br />

der Punkte bestimmt wird, nicht aber im Zusammenhang mit den Ausmaß der Werte, den<br />

diese Punkte haben<br />

4


Abbildung 1: Mögliche Verteilungsmuster (a) regelmäßig, (b) unregelmäßig, (c) gruppiert<br />

(DUMFARTH & LORUP 2000)<br />

Bei der „Nearest Neighbor“-Analyse gibt es einige Dinge zu beachten, um mögliche<br />

Ungenauigkeiten und Fehlmessungen so gering wie möglich zu halten. Weil es notwendig ist,<br />

die Punktdichte in dem Gebiet zu kennen, muss die Größe der Fläche, in dem die Analyse<br />

durchgeführt werden soll, genau festgelegt werden. Ist nämlich die zu untersuchende Fläche<br />

zu groß im Verhältnis zur Anzahl der Punkte, erhält man eine viel geringere Punktdichte als<br />

wenn man für die gleiche Anzahl von Punkten eine kleineres Gebiet für die Untersuchung<br />

verwendet.<br />

Auch das Problem des Kanteneffektes (engl.: edge effect) sollte nicht vernachlässigt werden.<br />

Das Problem liegt hier darin, dass es unter Umständen auch Punkte außerhalb der Grenzen<br />

der Untersuchungsmatrix gibt, zu denen aber von den Punkten am Rande der Matrix keine<br />

Distanz gemessen werden kann, obwohl diese am nächsten liegen. Um dies zu verhindern,<br />

sollte auch eine Messung zu Punkten außerhalb der Untersuchungsmatrix zugelassen werden<br />

(LO & YEUNG 2002: 357).<br />

2.4 Histogramm<br />

Neben der Karte ist das Histogramm<br />

(siehe Diagramm 1) eine der verbreitesten<br />

Möglichkeiten Daten visuell darzustellen.<br />

Ein Histogramm zeigt an, wie viele<br />

Merkmalsausprägungen in einer<br />

bestimmten vorher festgelegten Klasse<br />

sind. Dabei gibt die y-Achse Auskunft<br />

über die Häufigkeit der Variable (z.B.:<br />

Anzahl von Temperaturwerten) und die x-<br />

Achse zeigt die Klassen, in denen die<br />

Werte eingeordnet werden (z.B.: in der<br />

Klasse 0-5°C liegen 3 Werte). Es liegt also<br />

eine Klassenhäufigkeitsverteilung vor,<br />

durch die man erkennen kann, wie sich die<br />

Diagramm 1: Histogramm [rot] mit<br />

Normalverteilung [schwarz] (DUMFARTH & LORUP 2000)<br />

5


Werte über das gestammte Wertespektrum verteilen. Die wichtigste Form einer<br />

Häufigkeitsverteilung ist die glockenförmige Normalverteilung. Diese ist so bedeutend, da<br />

viele statistische Methoden auf Daten angewiesen sind, die aus einer normalverteilten<br />

Grundgesamtheit kommen. Bei einer Normalverteilung liegt das arithmetisches Mittel und<br />

Median nahe beieinander (oder sind gleich) und repräsentieren die Mitte der Datenmenge<br />

(HELMSCHROT & FINK 2001).<br />

2.5 Datenniveaus<br />

Da bestimmte deskriptive Methoden nur bei Daten bestimmter Skalenart angewendet werden<br />

können, sollen hier die verschieden Skalen kurz vorgestellt werden. Das Problem liegt hier in<br />

dem Umstand, dass Daten verschiedenste Merkmalsausprägungen repräsentieren, die in<br />

unterschiedlichsten Maßeinheiten gemessen werden. So kann ein Datensatz aus<br />

Temperaturdaten bestehen, die in °C gespeichert werden oder aber die Entfernungen<br />

repräsentieren, die in Metern gemessen werden. Dabei muss beachtet werden, dass man zwar<br />

sagen kann, 2m sind doppelt so viel wie 4m, aber 10 °C sind nicht doppelt so warm wie 5°C,<br />

weil die Maßeinheit Grad Celsius einen zufälligen Nullpunkt hat, im Gegensatz zu Kelvin<br />

oder dem metrischen System (HELMSCHROT & FINK 2001).<br />

• Nominalskalierte Daten sind mit Werten unterschiedlicher Merkmale besetzt und eine<br />

Rangfolge der Merkmale kann nicht gebildet werden. Beispiele hierfür sind Namen,<br />

Religionszugehörigkeit aber auch bei Ja-Nein-Fragen wie „Hat der Haushalt einen<br />

PKW?“.<br />

• Die Ordinalskala gilt für Werte, deren Merkmale in eine Rangfolge gebracht werden<br />

kann und die Abstände zwischen benachbarten Werten sind nicht immer identisch.<br />

Beispiele sind Erdzeitalter, Zensuren oder das Einkaufsverhalten (oft, regelmäßig,<br />

selten).<br />

• Bei intervallskalierten Daten sind die Abstände zwischen benachbarten Werten<br />

identisch, aber es gibt keinen definierten Nullpunkt. Darunter fällt die schon oben<br />

erwähnte Maßeinheit Grad Celsius, aber auch der Intelligenzquotient.<br />

• Ratioskalen unterscheiden sich von der intervallskalierten nur in dem Punkt, dass hier<br />

ein definierter Nullpunkt festgelegt ist. Dazu gehört die Angabe von Entfernung in<br />

Metern, das Gewicht in Kilogramm oder das Einkommen in Euro.<br />

(HELMSCHROT & FINK 2001)<br />

6


2.6 Objektarten<br />

Ähnlich wie bei den Skalenarten ist die Anwendung von statistischen Methoden nur an<br />

bestimmte Objektarten gekoppelt (siehe Geary’s (c) Index ). Geographische Objekte werden<br />

nach ihrer Topologieausdehnung, also der Art wie sie den Raum ausfüllen gemessen.<br />

• Punkte haben keine dimensionale Ausbreitung, also auch keine Länge, Breite oder<br />

Höhe. Punkte können verwendet werden um die räumliche Verteilung von<br />

Ereignissen und deren Muster wiederzugeben.<br />

• Linien haben genau eine Dimension, die Länge. Sie werden verwendet, um Distanzen<br />

zu messen oder lineare Objekte darzustellen, beispielsweise Strassen.<br />

• Flächenobjekte haben eine zwei dimensionale Ausdehnung, die Länge und Breite,<br />

aber keine Höhe. Sie werden verwendet, um natürliche Objekte wie Felder oder<br />

künstliche Objekte wie Bevölkerungsverteilungen darzustellen.<br />

• Oberflächen und Volumen sind dreidimensional. Sie finden Verwendung bei der<br />

Darstellung von natürlichen Objekten wie digitalen Geländemodellen oder bei<br />

Phänomenen wie das Besucherpotential eines Einkaufszentrums.<br />

• Zeit wird oft als eine weitere Dimension angesehen, kann aber nach LONGLEY et al.<br />

(2002: 101) im GIS nur schwer simuliert werden.<br />

Wichtig ist noch zu wissen, wie sich die einzelnen Dimensionen zueinander verhalten. So<br />

kann man ein höher dimensionales Objekt auf eine niederes Herunterrechnen, aber nicht<br />

umgekehrt. Wie man ein Objekt letztendlich im GIS darstellt, hängt auch von dem Maßstab<br />

ab. „For example, on a less-detailed map of the world, New York is represented as zerodimensional<br />

point. On a more-detailed map such as a road atlas it will be represented as twodimensional<br />

point.” (LONGLEY et al. 2001: 101) In Wirklichkeit ist die Stadt aber dreidimensional<br />

und kann als solche auch von bestimmten Softwaresystemen wiedergegeben<br />

werden (LONGLEY et al. 2001: 101).<br />

3 Räumliche Autokorrelation<br />

3.1 Hinführung<br />

Das Problem der traditionellen statistischen Analysen ist, dass es bei der Untersuchung von<br />

Zusammenhängen, die eine stochastische Abhängigkeit aufweisen, zu fehlerhaften Resultaten<br />

kommt. So sind Fehlschätzungen der Korrelation zwischen stochastisch abhängigen Variablen<br />

möglich, wodurch Test- und Schätzverfahren verzerrte Ergebnisse liefern und<br />

Fehlinterpretationen die Folge sind. Allerdings kommen stochastische abhängige Variablen in<br />

der Statistik, sehr oft vor und ihre genaue Analyse ist meist von großem Interesse.<br />

(BAHRENBERG et al. 2003²: 360-362) Stochastische Abhängigkeit heißt, dass bestimmte<br />

statistische Ereignisse nicht unabhängig voneinander auftreten.<br />

7


Die Ursache für das Unvermögen der traditionellen Statistik mit Daten umzugehen, die<br />

stochastische Abhängig sind, liegt darin, dass sie auf Zufallsvariablen basiert. Darunter<br />

versteht man, dass die verschiednen Datenwerte der Zufallsvariable rein zufällig zustande<br />

kommen und somit unabhängig voneinander sind (ABLER et al. 1992: 154). Am Beispiel eines<br />

Würfelexperiments soll dies verdeutlicht werden. Würfelt man eine 6 hat dies keinerlei<br />

Einfluss auf den nächsten Würfeldurchgang. Die Wahrscheinlichkeit wieder eine 6 zu würfeln<br />

ist bei jeden Durchgang gleich groß. Vorherige Ereignisse haben keinen Einfluss auf<br />

nachfolgende Ereignisse.<br />

„In Hinblick auf die räumliche Verteilung von Datenpunkten bedeutet dies, daß die<br />

verschiedenen Werte einer Variablen unabhängig von ihrer räumlichen Position zustande<br />

kommen. Erscheinungen wie Distanz der Werte zueinander, Nachbarschaft, Nähe, Richtung<br />

und dergleichen haben also keinen Einfluß auf den Wert eines bzw. aller Datenwerte.“<br />

(DUMFARTH & LORUP 2000) Dass dies aber nicht den Gegebenheiten der Realität entspricht,<br />

ist leicht erkennbar und wird am Beispiel des Bodenmarktes deutlich. Denn dann würde die<br />

räumliche Verteilung der Grundstückspreise keinerlei Muster aufzeigen, da ja alles<br />

zufallsverteilt ist. Im Stadtzentrum beispielsweise würden sich willkürlich sehr teure<br />

Grundstücke mit sehr billigen oder mittelteuren abwechseln.<br />

Bei der Geostatistik geht man daher den Ansatz an, dass die Werte, die eine Variable<br />

annehmen kann, durch eine Funktion gesteuert wird, weshalb man von regionalisierten<br />

Variablen spricht. Das heißt, dass die Werte eines Gebietes bzw. einer Region einander<br />

ähnlich sind, weil sie sich ja untereinander beeinflussen können und dass mit zunehmender<br />

Entfernung die Ähnlichkeit abnimmt. Dies beschrieb W. TOBLER mit dem ersten Gesetz der<br />

Geographie, welches im nächsten Abschnitt erläutert werden wird.<br />

Weiterhin geht man davon aus, dass die Verbreitung eines Phänomens nur ausreichend mit zu<br />

Hilfenahme von räumlichen Eigenschaften (z.B.: Distanz oder Nachbarschaft) erklärt werden<br />

kann (DUMFARTH & LORUP 2000).<br />

3.2 Das erste Gesetz der Geographie und mehr (und seine Folgen)<br />

W. TOBER formulierte 1970 das erste gesetzt der Geographie und beschrieb somit das schon<br />

seit langem bekannte Phänomen, das sich benachbarte Objekte oft ähnlicher waren als weit<br />

entfernte. „The first law of geography is that everything is related to everything else, but near<br />

things are more related than distant things.”(TOBLER 1970 in ABLER 1992: 155) Dieses Gesetz<br />

der Geographie ist, so LONGLEY et al. (2001: 99), die allgemeinste Formulierung über die<br />

Verteilung räumlicher Erscheinungen.<br />

Mit seinem Gesetzt beschreibt TOBLER die räumliche Autokorrelation, also den Grad, mit<br />

dem nahe und entfernte Dinge miteinander verbunden sind (LONGLEY et al. 2001: 99).<br />

Die räumliche Autokorrelation ist eine Bezeichnung für die Abhängigkeit zwischen<br />

benachbarten Orten, wie es überall auf der Erdoberfläche vorkommt. „In practice, the<br />

8


existence of spatial autocorrelation means that if A and B are close together, what happens at<br />

A is related to what happens at B, and vice-versa.”(ABLER et al 1992: 287) Obwohl es logisch<br />

erscheint, dass Dinge die sich räumlich nahe sind, auch ähnliche Merkmale aufweisen, kann<br />

der Umkehrschluss, dass sich die Merkmale von Objekten, die weit entfernt von einander<br />

sind, stark unterscheiden, nicht so einfach gezogen werden. Für ABLER et al. (1992: 287) ist<br />

vielmehr die Frage entscheidend, wie weit zwei Orte von einander entfernt sein müssen,<br />

damit sich diese nicht gegenseitig beeinflussen, sie also unabhängig voneinander sind. Es soll<br />

nur kurz erwähnt werden, dass der gleiche Umstand auf die Zeit bezogen zeitliche<br />

Autokorrelation genannt wird (LONGLEY et al. 2001: 99).<br />

Bei der Bestimmung der räumliche Autokorrelation sind die Lage der Objekte zueinander und<br />

ihre Merkmalsausprägung die wichtigsten Faktoren. Dabei werden gleichzeitig die<br />

Gemeinsamkeiten im Ort und in der Eigenschaft miteinander verglichen (siehe Abschnitt 3.3<br />

Berechnung der räumlichen Autokorrelation). Wenn Objekte nahe beieinander liegen bzw.<br />

benachbart sind und sie das gleichen Merkmal beinhalten, dann spricht man von einem<br />

Muster mit positiver räumlichen Autokorrelation.<br />

„Conversely, negative Spatial autocorrelation is said to exist when features which are close<br />

together in space tend to be more dissimilar in attributes than features which are further apart<br />

(in opposition to Tobler’s Law).“ (LONGLEY et al. 2001: 100,101) Eine räumliche<br />

Autokorrelation ist nicht vorhanden, wenn die Merkmale unabhängig vom Ort sind (LONGLEY<br />

et al. 2001: 101).<br />

Abbildung 2: Typen der räumlichen Autokorrelation (LO & YEUNG 2002: 117)<br />

An Abbildung 2 sind die drei wichtigsten Typen von räumliche Autokorrelationen aufgezeigt.<br />

Die Klassifizierung richtet sich nach der relativen Verteilung räumlicher Objekte und ihrer<br />

Nachbarn. Feld A zeigt die extremste Form positiver Autokorrelation zwischen benachbarten<br />

Zellen. Hier liegen jeweils die schwarzen und weißen Zellen in einer homogenen Fläche<br />

zusammen bzw. räumliche Objekte, die die gleichen Eigenschaften haben, liegen räumlich<br />

nah beieinander. Das genaue Gegenteil, also eine extrem negative räumliche Autokorrelation,<br />

zeigt das Feld C. Hier grenzen an jedes schwarze Feld jeweils nur weiße Felder und<br />

9


Abbildung 3: Bevölkerungsverteilung in Kalifornien und Iowa (ABLER et al. 1992: 84)<br />

umgekehrt. Eine zufällige räumliche Autokorrelation sieht man im Feld B. Dort gibt es keine<br />

größeren Cluster von Objekten mit den gleichen Werten.( LONGLEY et al. 2001: 101 & LO &<br />

YEUNG 2002: 117)<br />

In Abbildung 3 sieht man ein praktisches Beispiel für die unterschiedliche Typen räumliche<br />

Autokorrelation. Hier wird auch deutlich, dass weniger die durchschnittliche<br />

Bevölkerungsdichte von Interesse ist (was auch in der traditionellen Statistik berechnet<br />

werden kann), sondern dass es für eine Interpretation viel interessanter (aber auch<br />

schwieriger) zu wissen ist, wo Ballungen und wo ländliche Gebiete sind. Beide Regionen sind<br />

von der Fläche her in etwa gleich groß, haben aber eine vollkommen unterschiedliche<br />

Bevölkerungsverteilung. In San Bernardino herrscht aufgrund des nur in wenigen Teilen<br />

erreichbaren Grundwassers eine starke räumliche Autokorrelation der Bevölkerung. Im<br />

Gegensatz dazu steht das Gebiet in Iowa, das nur eine schlechte räumliche Autokorrelation<br />

aufweist, was u.a. auf die gleichmäßig vorkommenden Ressourcen zurückzuführen ist (ABLER<br />

et al. 1992: 83).<br />

3.3 Berechnung der räumliche Autokorrelation<br />

Bei der Berechnung der räumliche Autokorrelation werden zwei Werte miteinander<br />

verglichen. Erstens die Gleichwertigkeit der Attribute und zweitens die Ähnlichkeit des Ortes<br />

der Objekte, welche mit den Attributen besetzt sind. Dabei hängt es von dem verwendeten<br />

Datentyp ab, mit welcher Methode die Attribute miteinander verglichen werden können und<br />

von dem Objekttyp,<br />

10


wie die Nachbarschaft festgestellt werden kann (LONGLEY et al. 2001: 114). Zwei der<br />

wichtigsten Methoden, die räumliche Autokorrelation anzugeben, ist der Geary’s (c) Index<br />

und der Moran’s (I) Index (LO & YEUNG 2002: 351).<br />

3.3.1 Geary’s (c) Index<br />

Der von Geary entwickelte Index ist eine Maß zur Angabe der räumliche Autokorrelation für<br />

Objekte mit intervallskalierten Attributdaten. Deshalb kann man diesen Index gut bei der<br />

Analyse von Datenansammlungen verwenden, die von Erhebungsgebieten<br />

(engl. census tracts) stammen.<br />

Der Geary’s (c) Index misst die Ähnlichkeit der Werte von i und j (siehe Formel 6).<br />

Die Variable z i entspricht dem Wert des Objektes c i . Die Ähnlichkeit des Ortes, wo sich i und<br />

j befinden, wird durch die boolesche Variable w ij angegeben, wobei w ij = 1 ist, wenn sie<br />

benachbart sind und wij = 0, wenn sie es nicht sind (LO & YEUNG 2002: 351,352). Aber das<br />

ist nur eine von vielen Möglichkeiten, w ij zu definieren, denn w ij repräsentiert die<br />

Nachbarschaftsbeziehungen und da diese je nach Aufgabe anders festgelegt werden können,<br />

muss diese auch in der Formel entsprechend definiert werden<br />

(BAHRENBERG et al. 2003²: 381-383). Daraus ergibt sich dann der Index (c) wie in Formel 7<br />

beschrieben, wobei s ² die Varianz des Merkmale z i ist.<br />

Wenn das Ergebnis von c = 1 ist, dann sind die Merkmale der Objekte unabhängig von ihrer<br />

Lage verteilt. Der Index (c) ist kleiner als eins, wenn gleiche Merkmale an gleichen Orten<br />

vorkommen, es also eine positive räumliche Autokorrelation gibt. Und schließlich kann (c)<br />

auch größer als eins sein, wenn sich Merkmale und Lage der Objekte unterscheiden, also eine<br />

negative räumliche Autokorrelation vorliegt (LO & YEUNG 2002: 351,352).<br />

Formel 6: Berechnung des Geary’s<br />

(c) Index (LO & YEUNG 2002: 351)<br />

Formel 7: Berechnung des Geary’s (c) Index<br />

(LO & YEUNG 2002: 351)<br />

11


3.3.2 Moran’s (I) Index<br />

Der Moran’s (I) Index hat starke Ähnlichkeit mit Geary’s Index mit dem Unterschied, dass<br />

hier die Ergebnisse dem Betrachter wahrscheinlich logischer erscheinen. Denn hier stehen<br />

positive Ergebnisse auch für eine positive räumliche Autokorrelation und negative für eine<br />

negative räumliche Autokorrelation. Wenn der Index 0 ist, weist dies auf unabhängige<br />

unkorrelierte Daten hin, mit zufälliger Anordnung.<br />

Die Variablen in der unteren Formel 8 zur Berechnung des Index (I) werden fast genauso<br />

definiert wie bei Geary’s (c) Index. Allerdings wird c ij nach der oberen Formel 8 beschrieben.<br />

z i steht wieder für den Wert des Objektes i und j. Die Variable ist der Mittelwert, s²<br />

entspricht der Varianz von z i . Die räumliche Nähe für i und j wird wieder durch w ij,<br />

angegeben (LO & YEUNG 2002:352).<br />

Moran’s and Gearie’s Index kann man nur bei<br />

flächenhaften Objekten anwenden. Es gibt aber<br />

Punkt, Linien und Rasterobjekte für die auch<br />

über Umwege eine Berechnung der räumliche<br />

Autokorrelation möglich ist.<br />

Bei Punktdaten kann man beispielsweise die<br />

Punkte in Flächen umwandeln und dann so die<br />

oben erwähnten Indizes anwenden. Die<br />

räumliche Autokorrelation zwischen<br />

linienförmigen Objekte kann man berechen,<br />

Formel 8: Berechnung des Moran’s (I) Index wenn die Linien Verbindungen zwischen<br />

(LO & YEUNG 2002: 352)<br />

Punkten repräsentieren, die mit Merkmalen<br />

besetzt sind. So wird dann die<br />

Merkmalsähnlichkeit von den Punktpaaren mit anderen Punktpaaren verglichen und die<br />

räumliche Nähe wird dadurch gemessen ob es eine direkte Verbindung zwischen den<br />

Punktpaaren gibt. Bei Rasterdaten wird einfach verglichen, ob einzelne Rasterzellen gleiche<br />

Außengrenzen haben (LO & YEUNG 2002: 352).<br />

3.4 Probleme<br />

3.4.1 Datenherkunft<br />

Ein allgemeines Problem, das viele Analysen betrifft, ist, dass man nicht weiß, ob die<br />

Ergebnisse stimmen, weil man nicht sicher sein kann, dass die Daten, die diesen zu Grunde<br />

liegen, korrekt sind. Mit den Worten von LONGLEY et al. (2001: 137) ausgedrückt: „<br />

Uncertainties in data lead to uncertainties in the result of analysis.“ Die Ursache liegt u.a. in<br />

der Generalisierung und Bündelung der rohen Ausgangsdaten (welche die Realität<br />

widerspiegeln sollen), z.B.: wenn Krankheitsfälle nur pro Bezirk angegeben werden oder<br />

12


Bevölkerungszahlen nur für ein bestimmtes Gebiet angeboten werden. Obwohl man die<br />

Ursache für dieses Problem nicht beheben kann, ist es doch möglich, es genau zu<br />

quantifizieren, um so zumindest die schlimmsten Effekte zu verringern. Die Probleme<br />

kommen auch daher, weil in einen GIS Daten unterschiedlichster Herkunft, Maßstabes,<br />

Detailgenauigkeit und Klassifizierung miteinander verschmelzt werden<br />

(LONGLEY et al. 2001: 137).<br />

3.4.2 MAUP<br />

Das „modifiable areal unit problem“ (MAUP) tritt auf, wenn willkürlich festgelegte Grenzen<br />

für die Berechnung von räumlichen Ereignissen genutzt werden. Dies tritt z.B. bei<br />

Volkszählungsdaten auf, die in bestimmten Flächen angegeben werden, oder die Angabe des<br />

Wahlergebnisses wird höchstens in der Größe von Stadtvierteln gemacht, nicht aber in der<br />

von Einzelpersonen. Vom statistischen Standpunkt her sind diese Grenzen beliebig festgelegt<br />

worden weil, „They do not necessarily consider with breaks in the data. Thus, changing the<br />

boundaries of units […] can affect the appearance of the data.“ (HEYWOOD et al. 2002²: 125)<br />

Deshalb ist es sehr problematisch, zwei Karten oder Datensätze miteinander zu vergleichen,<br />

die denselben Ausschnitt zeigen, aber deren Flächeneinheiten sich unterscheiden (HEYWOOD<br />

et al. 2002²: 125 & LONGLEY et al. 2001: 138).<br />

3.5 Spatial Sampling<br />

Als letztes soll noch kurz auf das spatial sampling eingegangen werden, da die durch das<br />

sampling reduzierten Daten auch bei der Analyse der räumliche Autokorrelation verwendet<br />

werden. Sampling ist ein Prozess, bei dem aus einem Feld mit vielen Objekten, einige wenige<br />

herausgesucht werden. Dies ist nötig, da die reale Welt unendlich komplex ist, ein GIS aber<br />

nicht unendlich viele Daten verarbeiten kann. Daher braucht es eine Reduzierung der Daten,<br />

wie es durch das sampling geschieht. Die sampling Modelle (engl.: sampling scheme, siehe<br />

Abbildung 4) bestimmen die räumliche Verteilung der einzelnen Stichprobenpunkte im<br />

Untersuchungsgebiet (LONGLEY et al. 2001: 103).<br />

• Das Feld A in Abbildung 4 zeigt eine einfache zufällige Stichprobe, also eine, in der<br />

jeder Punkt die gleiche Wahrscheinlichkeit hatte, gezogen zu werden. Dieses Modell<br />

hat den Vorteil, dass es statistisch völlig korrekt ist, aber es weist in der Praxis einige<br />

Schwierigkeiten auf. So kann es vorkommen, das kleine, aber wichtige Bereiche<br />

unterpräsentiert werden, es sei denn es handelt sich um eine sehr große Anzahl von<br />

Stichproben.<br />

• Bei einer systematischen Stichprobe wird der erste Punkt zufällig ermittelt und an<br />

diesem dann die restlichen entlang eines festen Schemas ausgerichtet, wie in Feld B zu<br />

sehen. Diese Methode ist einfach durchzuführen, kann aber bei Daten die periodischen<br />

Änderungen unterliegen, starke Fehler verursachen.<br />

13


• Eine strategische Zufallstichprobe findet man dann vor, wenn man das<br />

Untersuchungsgebiet in bestimmte Teilgebiete gliedert und dann in jedem Teilgebiet<br />

eine zufällige Stichrobe nimmt (siehe Abbildung 4, Feld C).Dieses Modell scheint am<br />

geeignetsten, weil nur eine geringe Anzahl von Stichproben gezogen werden muss.<br />

Allerdings leidet dieses Modell auch unter denselben Problemen wie die<br />

Zufallsstichprobe.<br />

• Das letzte hier aufgeführte sampling Modell zeigt ein strategisches, systematisches<br />

und unangepasstes Modell. Wie der Name schon sagt, vereinigt es die<br />

Vorgehensweise und auch Vorteile der drei vorher genannten Modelle (LO & YEUNG<br />

2002: 118,119).<br />

Zur Stichprobenanzahl lässt sich sagen, dass je heterogener räumliche Phänomene verteilt<br />

sind, desto mehr Stichproben sollten genommen werden, um die ganze breite des Umfanges<br />

zu erfassen. Und je homogener die Verteilung desto weniger Stichproben müssen genommen<br />

werden. Zu beachten ist, dass aus Gründen der Repräsentativität eine gewisse Mindestanzahl<br />

an Stichproben gesammelt werden müssen (LONGLEY et al. 2001: 118).<br />

Abbildung 4: Vier geographische sampling Modelle (LO & YEUNG 2002: 118 )<br />

14


4 Schlussbemerkung<br />

Wie hoffentlich gezeigt werden konnte ist die Analyse räumlich korrelierter Daten eine<br />

komplexe, aber aufschlussreiche Methodik mit vielfachen Anwendungsmöglichkeiten.<br />

Trotzdem ist mir beim lesen der vielfältigen Literatur aufgefallen, dass immer wieder erwähnt<br />

wird, dass die Methoden zur Analyse räumlichen korrelierter Daten nur schlecht oder gar<br />

nicht in GIS integriert sind, wie auch LO & YEUNG (2002: 350) bemängeln. Lediglich mit<br />

Idris32 so LO & YEUNG (2002: 350) ist es möglich räumlichen Autokorrelation mit den<br />

Modul „AUTOCORR“ zu bestimmen. Hingegen bietet das weit verbreitet ArcInfo keine<br />

direkte Unterstützung bei der Analyse von räumlichen Autokorrelation. Nur durch eine<br />

Kopplung mit anderen Statistikprogrammen (z.B.: SPSS) kann diese Funktion implementiert<br />

werden.<br />

Bleibt zu hoffen, dass in Zukunft diesem Gebiet der Datenanalyse mehr Aufmerksamkeit<br />

geschenkt wird, um deren Bedeutung gerecht zu werden.<br />

Literatur<br />

ABLER R.F., MARCUS G. M. & J. M. OLSEN (1992): Geography’s inner worlds, Pervasive<br />

Themes in Contemporary American Geography. New Jersey.<br />

BAHRENBERG G., GIESE E. & J. NIPPER (2003²): Statistische Methoden in der Geographie,<br />

Bd. 2. Berlin, Stuttgart.<br />

HEYWOOD I., CORNELIUS S. & S. CARVER (2002²): An Introduction to Geographical<br />

Information Systems. Essex.<br />

LO C. P. & A. K.W. YEUNG (2002): Concepts and Techniques of Geographic Information<br />

Systems. New Jersey.<br />

LONGLEY P. A., GOODCHILD M.F., MAGUIRE D. J. & D.W. RHIND (2001): Geographic<br />

Information, Systems and Science. Chichester, New York.<br />

Internetliteratur<br />

HELMSCHROT J. & M. FINK (2001): Skript zum Proseminar Statistik,<br />

www.geogr.uni-jena.de/~c8firma/Statistik/ (letzter Aufruf 2002)<br />

DUMFARTH E. & E. J. LORUP (2000): Geostatistik I - Theorie und Praxis,<br />

www.geo.sbg.ac.at/staff/lorup/lv/geostats2000/ (letzter Aufruf 21.10.04)<br />

15

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!