01.09.2013 Aufrufe

buch.041116.pdf - PDF-Format

buch.041116.pdf - PDF-Format

buch.041116.pdf - PDF-Format

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Grundkurs Statistik<br />

—<br />

mit Rechnerunterstützung<br />

Veith Tiemann<br />

Hans-Peter Wolf<br />

BASICS<br />

Version: 15. November 2004


Inhaltsverzeichnis<br />

1 Beschreibende Statistik 4<br />

1.1 Was für Daten gibt es? . . . . . . . . . . . . . . . . . . . . . . . . 4<br />

1.2 Analyse univariater Daten . . . . . . . . . . . . . . . . . . . . . . 4<br />

1.2.1 Häufigkeitstabellen und deren Darstellung . . . . . . . . . 5<br />

Ein Beispiel: Kryptographie . . . . . . . . . . . . . . . . . 24<br />

1.2.2 Zurück zur Urliste . . . . . . . . . . . . . . . . . . . . . . 32<br />

Betrachtungen zur Lage . . . . . . . . . . . . . . . . . . . 33<br />

Betrachtungen zur Streuung . . . . . . . . . . . . . . . . . 43<br />

Betrachtungen zur Verteilung . . . . . . . . . . . . . . . . 51<br />

1.2.3 Die empirische Verteilungsfunktion . . . . . . . . . . . . . 62<br />

1.2.4 Konzentrationsmaße und Indizes . . . . . . . . . . . . . . 65<br />

1.2.5 Fallstudien . . . . . . . . . . . . . . . . . . . . . . . . . . . 65<br />

Lotto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65<br />

3


Kapitel 1<br />

Beschreibende Statistik<br />

1.1 Was für Daten gibt es?<br />

1.2 Analyse univariater Daten<br />

Vorschau<br />

Kapitel 1.2 In diesem Abschnitt werden statistische Verfahren zur Analyse<br />

eindimensionaler Datensätze vorgestellt. Ziel des Kapitels ist es, eine<br />

Antwort auf die Frage zu finden: ” Wie erhält man möglichst effizient<br />

Informationen aus Daten?“<br />

Den Anfang machen dabei die diskrete und stetige Häufigkeitsanalyse<br />

(Kapitel 1.2.1). Die Häufigkeitsanalyse wird mit einem Beispiel aus der<br />

Kryptographie abgerundet (Kapitel 1.2.1).<br />

Im Anschluß daran werden den Datensatz zusammenfassende Maßzahlen und<br />

Graphiken vorgestellt (Kapitel 1.2.2). Diese Möglichkeiten der Verdichtung<br />

decken alle wesentlichen Blickwinkel auf eindimensionale Daten ab.<br />

Im letzten Abschnitt wird die empirische Verteilungsfunktion expliziert<br />

(Kapitel 1.2.3).<br />

in:1<br />

Nach der Diskussion über die verschiedenen Typen von Daten sind wir nun<br />

gut gerüstet, um uns dem tatsächlichen Datenmaterial zu nähern. Univariate<br />

Daten bedeutet, daß ein eindimensionaler Datensatz vorliegt. Ein Merkmal wurde<br />

beobachtet, z.B. das Gewicht oder das Alter von verschiedenen Personen. Als<br />

Ausgangspunkt liegt die sogenannte Urliste vor. Diese zeigt die Daten, wie sie<br />

angefallen sind.<br />

Die folgende Auflistung ist das Ergebnis einer Befragung der Erstsemester im<br />

Studiengang BWL (aus dem Jahre 1996) nach ihrem Alter — mit Alter ist im<br />

folgenden gerade dieser Datensatz gemeint:<br />

> print(alter)<br />

out:1 4


1.2. ANALYSE UNIVARIATER DATEN 5<br />

23 21 22 19 20 21 21 22 20 20 22 21 20 20 19 26 21 20 25 26 22 19<br />

21 20 20 19 23 20 21 22 20 21 18 21 20 24 24 19 23 24 20 20 20 21<br />

19 20 23 20 20 21 20 20 24 19 21 20 28 24 20 20 23 21 20 21 19 21<br />

21 20 23 20 22 21 23 19 20 23 21 21 21 20 21 23 20 22 21 28 21 22<br />

23 22 22 20 22 21 19 19 19 20 20 21 24 19 22 20 23 20 21 22 23 20<br />

23 20 18 21 21 24 23 21 21 20 20 24 19 23 22 21 20 24 21 19 21 20<br />

23 20 20 20 22 20 20 20 20 21 20 21 21 20 20 22 23 19 20 20 19 23<br />

27 21 21 24 27 20 21 21 20 19 19 19 21 19 22 19 20 24 21 20 23 21<br />

21 27 20 18 19 20 24 20 29 26 25 22 24 26 30 20 20 23 21 20 22 22<br />

21 25 22 20 21 22 20 19 19 22 23 20 19 19 20 20 19 22 20 27 27 20<br />

24 21 20 21 20 24 22 23 23 20 20 21 21 21 20 22 19 19 19 23 20 23<br />

21 23 21 20 20 19 21 24 20 20 20 20 21 20 20 20 21 19 22 21 20 20<br />

22<br />

Wie man sieht, sieht man gar nichts. Die Urliste ist sehr unübersichtlich. Dabei<br />

ist ein Stichprobenumfang von n = 265 nicht einmal besonders groß.<br />

Was für eine Struktur über die Altersverteilung der Studierenden verbergen<br />

die Daten? Sind die meisten Studierenden jünger als 25 Jahre? Wie vergleicht<br />

man solche Datensätze aus verschiedenen Jahren? Wie kann man also die Daten<br />

so verdichten, daß Vergleiche effizient gezogen werden können?<br />

In diesem Kapitel werden statistische Verfahren vorgestellt, wie man aus der<br />

Urliste solche und andere Informationen gewinnen kann.<br />

1.2.1 Häufigkeitstabellen und deren Darstellung<br />

Bei kleineren Umfängen würde es bereits helfen, den geordneten Datensatz<br />

hinzuschreiben, also die Daten der Größe nach zu sortieren und nicht die Reihenfolge<br />

zu verwenden, in der die Daten erhoben wurden. Man muß aber aufpassen,<br />

ob dabei relevante Informationen (bestimmte Strukturen beispielsweise) verloren<br />

gehen.<br />

In diesem Fall, also bei einem etwas größeren Stichprobenumfang, bietet sich<br />

die sogenannte Häufigkeitstabelle an.<br />

Definition: Häufigkeitstabelle<br />

In einer Häufigkeitstabelle werden sämtliche Merkmalsausprägungen sowie die<br />

absoluten und relativen Häufigkeiten dargestellt. Diese kann für alle Skalentypen<br />

erstellt werden. <br />

Man unterscheidet die diskrete und die stetige (klassierte) Häufigkeitstabelle;<br />

das hängt von der Beschaffenheit des Merkmales ab. Eine Häufigkeitstabelle zählt,<br />

ordnet und faßt zusammen.<br />

Das Merkmal Alter ist einer der erwähnten Grenzfälle. Wir wollen es zunächst<br />

als diskretes, später dann als stetiges Merkmal auffassen.


6 KAPITEL 1. BESCHREIBENDE STATISTIK<br />

Die diskrete Häufigkeitstabelle Zum Erstellen der diskreten Häufigkeitstabelle<br />

muß man zunächst abzählen, wie viele unterschiedliche Merkmalsausprägungen<br />

es gibt. Dann wird gezählt — per Hand mit Strichliste —, wie oft die<br />

einzelnen Ausprägungen beobachtet wurden.<br />

Bei wenigstens ordinalem Skalenniveau sind die Ausprägungen xi in der Tabelle<br />

aufsteigend sortiert angeordnet. 1 In der Häufigkeitstabelle wird die folgende<br />

Notation verwandt:<br />

i Der Index zählt die verschiedenen Merkmalsausprägungen durch.<br />

xi i-te Merkmalsausprägung des Merkmals X; i = 1, . . . , k<br />

ni absolute Häufigkeit von xi — Wie oft wurde xi beobachtet?<br />

hi relative Häufigkeit von xi — Wieviel Prozent der Beobachtungen<br />

sind gleich xi?<br />

Fi kumulierte relative Häufigkeit (empirische Verteilungsfunktion),<br />

macht nur Sinn bei mindestens ordinalskalierten Merkmalen.<br />

Mit Hilfe dieser kann dann die Häufigkeitstabelle erzeugt werden. Hier ist<br />

zunächst der formale Aufbau: 2<br />

i xi ni hi = ni<br />

n<br />

1 x1 n1 h1 = n1<br />

n<br />

2 x2 n2 h2 = n2<br />

n<br />

3 x3 n3 h3 = n3<br />

n<br />

.<br />

.<br />

.<br />

k xk nk hk = nk<br />

n<br />

.<br />

Fi = i<br />

j=1 hj<br />

F1 = h1<br />

F2 = h1 + h2<br />

F3 = h1 + h2 + h3<br />

.<br />

Fk = 1<br />

Zum besseren Verständnis der Zusammensetzung der Häufigkeitstabelle seien<br />

zusätzlich die folgenden Zusammenhänge dargelegt, welche in jeder Häufigkeitstabelle<br />

gelten:<br />

1 Formal: xi < xi+1.<br />

2 Zum Summenzeichen: Vgl. den Exkurs auf Seite 31.


1.2. ANALYSE UNIVARIATER DATEN 7<br />

k Anzahl der verschiedenen Merkmalsausprägungen.<br />

xk Bei wenigstens ordinalem Skalenniveau ist das die größte Be-<br />

k i=1<br />

obachtung.<br />

ni = n<br />

k i=1<br />

Die Summe aller Einzelhäufigkeiten ergibt die Gesamthäufigkeit.<br />

hi = 1 Wenn man alle Beobachtungen berücksichtigt, kommt man<br />

auf 100%.<br />

Diese Erkenntnisse können gut zur Konsistenzprüfung einer selbst erstellten Häufigkeitstabelle<br />

verwandt werden.<br />

Für den Beispieldatensatz Alter ergibt sich die mit Hilfe der von uns eingesetzten<br />

statistischen Software folgende diskrete (gerundete) Häufigkeitstabelle:<br />

> haeufigkeit.diskret(alter) in:2<br />

-------------------------i<br />

x.i n.i h.i F.i<br />

--------------------------<br />

1 18 3 0.011 0.011<br />

2 19 33 0.125 0.136<br />

3 20 85 0.321 0.457<br />

4 21 58 0.219 0.675<br />

5 22 28 0.106 0.781<br />

6 23 26 0.098 0.879<br />

7 24 16 0.060 0.940<br />

8 25 3 0.011 0.951<br />

9 26 4 0.015 0.966<br />

10 27 5 0.019 0.985<br />

11 28 2 0.008 0.992<br />

12 29 1 0.004 0.996<br />

13 30 1 0.004 1.000<br />

--------------------------<br />

Der Datensatz wird offensichtlich gewinnbringend zusammengefaßt. Die Tabelle<br />

liefert dem Betrachter zu jeder Merkmalsausprägung, zu jedem Alter, die<br />

absoluten und die relativen Häufigkeiten. Die häufigste Beobachtung ist 20, fast<br />

ein Drittel der Studierenden hatten dieses Alter. Lediglich jeweils ein Studierender<br />

war zum Zeitpunkt der Befragung 29 bzw. 30 Jahre alt.<br />

Es sei noch eine Bemerkung zur letzten Spalte gemacht. Mit Hilfe der kumulierten<br />

relativen Häufigkeiten kann man Fragen der Art beantworten, wie sie zu<br />

Beginn des Kapitels an die Rohdaten formuliert wurden: 3<br />

tion.<br />

3 Vgl. auch Kapitel 1.2.3 für eine umfassende Abhandlung zur empirischen Verteilungsfunk-<br />

out:2


8 KAPITEL 1. BESCHREIBENDE STATISTIK<br />

• Wie groß ist der Anteil der Studierenden, die höchstens 25 Jahre alt sind?<br />

Antwort: F8 = 0.951. Das heißt also, daß 95.1% dieser Studierenden 25<br />

Jahre oder jünger sind.<br />

• Wie groß ist der Anteil der Studierenden, die mindestens 26 Jahre alt sind?<br />

Antwort: 1−F8 = 1−0.951 = 0.049. Mit knapp 5% ist nur ein sehr geringer<br />

Anteil der Studierenden älter als 25 Jahre.<br />

Stabdiagramm Es läßt sich feststellen, daß die Tabelle die Daten zwar bereits<br />

stark verdichtet und damit wesentlich übersichtlicher ist als die Urliste, daß die<br />

Darstellungsform aber noch zu wünschen übrig läßt. Es wäre schön, wenn man<br />

die wichtigen Strukturen schneller entdecken könnte; graphische Verfahren bieten<br />

sich an.<br />

Definition: Stabdiagramm<br />

Die graphische Darstellung der Häufigkeitstabelle heißt Stabdiagramm. Auf<br />

der horizontalen Achse werden die Ausprägungen abgetragen, auf der vertikalen<br />

die dazugehörigen relativen bzw. absoluten Häufigkeiten. <br />

Für den Datensatz Alter kann das folgende Stabdiagramm erstellt werden:


1.2. ANALYSE UNIVARIATER DATEN 9<br />

> stabdiagramm(alter) in:3<br />

rel. Haeufigkeiten<br />

0.0 0.05 0.10 0.15 0.20 0.25 0.30<br />

Stabdiagramm von Alter<br />

18 19 20 21 22 23 24 25 26 27 28 29 30<br />

Abbildung 1<br />

Am Stabdiagramm kann man auf einen Blick die Struktur oder auch den<br />

Charakter der Daten erkennen:<br />

• Der Datensatz ist schief. Wesentlich mehr Beobachtungen befinden sich<br />

auf der ersten Hälfte der Merkmalsachse.<br />

• Man kann einen Berg identifizieren mit dem eindeutigen Gipfel 20 Jahre.<br />

• Der Datensatz belegt auf der Merkmalsachse den Bereich von 18 bis 30<br />

Jahre.<br />

Modus Die Statistik bietet diverse zusammenfassende Kennzahlen für verschiedene<br />

Aspekte eines Datensatzes an, die sogenannten Maßzahlen. Es kann bereits<br />

eine erste Maßzahl definiert werden, welche sich aus der bloßen Betrachtung des<br />

Stabdiagramms ergibt: 4<br />

4 Für weitere Maßzahlen vgl. Kapitel 1.2.2.<br />

out:3


10 KAPITEL 1. BESCHREIBENDE STATISTIK<br />

Definition: Modus/ Modalwert (diskret)<br />

Der häufigste Wert in einem diskreten Datensatz wird als Modus bezeichnet,<br />

also die Merkmalsausprägung, die am häufigsten beobachtet werden konnte.<br />

Im Stabdiagramm ist es die Merkmalsausprägung, über der der längste Stab<br />

abgetragen ist.<br />

Falls mehrere Werte in Frage kommen, existiert der Modus nicht. <br />

Im Beispiel nimmt der Modus den Wert 20 Jahre an — die am stärksten besetzte<br />

Merkmalsausprägung. Die Mehrzahl der Studierenden war zum Zeitpunkt<br />

der Befragung 20 Jahre alt.<br />

Der Modus ist ein Lageparameter. Er verrät uns etwas darüber, wo die größte<br />

Häufigkeit der Merkmalsausprägungen eines Datensatzes auf der Merkmalsachse<br />

zu finden ist. 5<br />

Tortendiagramm Meist ist es schwierig, die Verhältnisse zwischen den verschiedenen<br />

Anteilen mit Hilfe des Stabdiagramms richtig zu beurteilen. Es bietet<br />

sich eine andere graphische Darstellung an, das Tortendiagramm.<br />

Ausgangspunkt ist ein Kreis, der die Gesamtheit aller Daten repräsentiert.<br />

Nun werden für jede Merkmalsausprägung Kreissegmente (die Tortenstücke) eingezeichnet.<br />

Die Größe des Winkels ist für jedes Tortenstück proportional zur relativen<br />

Häufigkeit der entsprechenden Merkmalsausprägung — mit dem Dreisatz<br />

einfach zu berechnen und mit dem Geodreieck in den Kreis einzutragen:<br />

→ 100% = 360 Grad; 50% = 180 Grad; 26% = 93,6 Grad<br />

Die Häufigkeitstabelle zum bereits vertrauten Datensatz Alter soll nun durch<br />

ein Kreisdiagramm dargestellt werden. Mit Hilfe des Rechners kommt man zu<br />

dem folgenden Ergebnis:<br />

5 Für weitere zentrale und nicht-zentrale Lagemaße vgl. Kapitel 1.2.2.


1.2. ANALYSE UNIVARIATER DATEN 11<br />

> piechart(haeufigkeit.diskret(alter)) in:4<br />

21<br />

20<br />

22<br />

Abbildung 2<br />

23<br />

19<br />

24<br />

18<br />

25<br />

26<br />

27<br />

28 29 30<br />

Mit Hilfe dieser Flächendarstellung der relativen Häufigkeiten gelingt es einem<br />

Betrachter besser, einen Vergleich zwischen den verschiedenen Häufigkeiten<br />

anzustellen — das Kreissegment, das die Ausprägung 20 repräsentiert, wirkt wesentlich<br />

wuchtiger als die für die übrigen Ausprägungen. Vor allem zur Darstellung<br />

von nominalskalierte Daten wird das Tortendiagramm oft benutzt.<br />

Balkendiagramm Die Überlegenheit von Graphiken soll anhand des folgenden<br />

Zitats untermauert werden:<br />

” Ich will nicht gerade so weit gehen zu behaupten, das erste Buch der<br />

Bibel wäre besser als Tabelle darzustellen, aber die eine oder andere<br />

Datengraphik hätte selbst diesem Klassiker ganz gut getan. Denn es<br />

wurden gezählt:<br />

,Zum Stamm Ruben 46.500. Der Kinder Simeon nach ihrer Geburt<br />

und Geschlecht . . . 59.300. Der Kinder Gad nach ihrer Geburt und<br />

Geschlecht, ihren Vaterhäusern und Namen, von zwanzig Jahren und<br />

darüber, was ins Heer zu ziehen taugte, 45.650 . . . ‘<br />

Und so geht es noch zwei Spalten lang weiter. In einem Teil der Genesis,<br />

der im Englischen sehr treffend auch ,The Book of Numbers‘<br />

out:4


12 KAPITEL 1. BESCHREIBENDE STATISTIK<br />

heißt. Diese gleiche Information, wenn es denn darauf wirklich ankäme,<br />

wäre weit schneller und präziser etwa durch ein Balkendiagramm<br />

zu übermitteln.“<br />

Walter Krämer: So überzeugt man mit Statistik, 1. Kapitel.<br />

Die folgende Graphik stellt das vorgeschlagene Balkendiagramm dar. Ein<br />

Balkendiagramm ist nichts Anderes als ein Stabdiagramm. Es ist um 90 Grad gedreht,<br />

und die Stäbe sind durch Balken gleicher Breite ersetzt; bei beiden können<br />

statt der relativen auch die absoluten Häufigkeiten abgetragen werden:<br />

Abbildung 3<br />

Eine häufig anzutreffende Anwendung des Balkendiagramms ist die sogenannte<br />

Alterspyramide. Diese stellt den geschlechtsspezifischen Altersaufbau der<br />

Bevölkerung eines Landes zu einem bestimmten Zeitpunkt graphisch dar. Auf<br />

der horizontalen Achse sind die Häufigkeiten abgetragen, auf der vertikalen die<br />

Alterklassen. Die Balken für Männer und Frauen werden dann nach links bzw.<br />

rechts abgetragen.<br />

In der Bevölkerungsstatistik und Demographie unterscheidet man folgende<br />

Umrißformen:<br />

• wachsende Bevölkerung: pyramidenförmiger Umriß,<br />

• stationäre Bevölkerung: glockenförmiger Umriß,<br />

• schrumpfende Bevölkerung: spindel- oder urnenförmiger Umriß.<br />

Sehr interessant ist die Betrachtung von Alterspyramiden zu verschiedenen Zeitpunkten:


1.2. ANALYSE UNIVARIATER DATEN 13<br />

Abbildung 4<br />

Die Veränderungen über die Zeit im Bevölkerungsaufbau sind sehr schön zu<br />

erkennen und lassen sich gut interpretieren:<br />

• Von 1910 bis 1925 sind die Gefallenen des Ersten Weltkrieges (Delle bei den<br />

Männern) sowie die Geburtenausfälle aufgrund des Krieges (kürzere Balken<br />

bei Männern und Frauen.) als deutliche Veränderung sichtbar.<br />

• 1939 sind nun zusätzliche Geburtenausfälle aufgrund der Weltwirtschaftskrise<br />

in der Pyramide zu sehen (Schwarzer Freitag: 1929).<br />

• Diese Eigenarten kann man in den folgenden Pyramiden weiter beobachten<br />

bzw. werden durch weitere Besonderheiten ergänzt.


14 KAPITEL 1. BESCHREIBENDE STATISTIK<br />

• Im Jahr 1980 hat Deutschland eine spindelförmige Form, die Bevölkerung<br />

geht also zurück. Dieses spezielle Aussehen weist allerdings starke, historisch<br />

bedingte Unregelmäßigkeiten auf.<br />

Die stetige Häufigkeitstabelle In der nächsten Graphik sind einige Stabdiagramme<br />

dargestellt, die sich aus Befragung von Studierenden ergeben haben. Bei<br />

der Betrachtung wird man feststellen, daß die Aussagekraft der Stabdiagramme<br />

nachläßt. Woran liegt das?<br />

rel. Haeufigkeiten<br />

0.0 0.02 0.04 0.06 0.08 0.10 0.12<br />

Groesse<br />

159 166 173 180 187 194 201<br />

rel. Haeufigkeiten<br />

0.0 0.05 0.10 0.15 0.20 0.25 0.30<br />

Abbildung 5<br />

Mathenoten<br />

1.0 2.0 3.0 4.0 5.0 6.0<br />

Diese Stabdiagramme sind noch einigermaßen gut zu interpretieren, obwohl<br />

man beim Merkmal Größe durchaus der Meinung sein könnte, daß diese Darstellung<br />

unübersichtlich ist — es sind einfach zu viele Striche eingezeichnet. Mit dem<br />

Stabdiagramm zu den Mathenoten kann man auch nicht ganz zufrieden sein. Die<br />

Zwischennoten stören den Gesamteindruck.<br />

Spätestens bei den Stabdiagrammen auf der nächsten Seite muß man sagen,<br />

daß diese die Eigenarten der Datensätze nicht gut wiedergeben bzw. keine gute<br />

Übersicht liefern.


1.2. ANALYSE UNIVARIATER DATEN 15<br />

rel. Haeufigkeiten<br />

0.0 0.02 0.04 0.06 0.08 0.10 0.12<br />

Anzahl Buecher<br />

0 328 800 1500 3000<br />

rel. Haeufigkeiten<br />

0.0 0.02 0.04 0.06 0.08 0.10<br />

Abbildung 6<br />

Anzahl CDs<br />

0 50 120 200 280 450<br />

Für das Merkmal Anzahl Bücher ist im folgenden eine verkürzte diskrete Häufigkeitstabelle<br />

angegeben. An ihr läßt sich gut identifizieren, warum die diskrete<br />

Betrachtungsweise hier nicht angebracht ist: Es gibt zu viele Merkmalsausprägungen,<br />

die sehr geringe Besetzungszahlen (Häufigkeiten) aufweisen:<br />

x.i 0 2 5 6 10 12 15 20 21 25 30 40 45 50 60 63 70 75 80 100 120<br />

n.i 11 1 2 1 5 1 2 16 1 5 19 10 1 25 8 1 4 1 8 24 5<br />

---------------------------------------------------------------------x.i<br />

130 150 152 180 200 220 250 300 328 350 400 500 600 800 1500 3000<br />

n.i 1 7 1 2 11 1 1 8 1 1 4 2 1 1 1 1<br />

Hier sollte man besser zur stetigen Sichtweise übergehen. Zu beachten ist<br />

allerdings, daß bei der stetigen Sichtweise der Bezug zu den Daten etwas verloren<br />

geht. Das Phänomen Prominente Zahlen wird unkenntlich:<br />

Beim Stabdiagramm zum Datensatz Größe ist sehr schön zu erkennen, was<br />

prominente Zahlen wohl sein könnten. Der längste Stab ist an der Stelle 180cm.<br />

Das ist kein Zufall. Viele Leute wissen nicht genau, wie groß sie sind oder auch<br />

wieviel sie wiegen. Die Werte 180 bzw. 75 kommen einem oft als erstes in den<br />

Sinn — bei einem entsprechenden Stabdiagramm zu Gewichtsdaten wird man eine<br />

Häufung bei der Beobachtung 75 feststellen können. Bei Abschätzungen stellen<br />

sich oft prominente Zahlen ein.<br />

Bei einer stetigen (kontinuierlichen) Betrachtungsweise werden die Merkmalsausprägungen<br />

in Klassen unterteilt. Es wird dann gezählt, wie viele Beobach-


16 KAPITEL 1. BESCHREIBENDE STATISTIK<br />

tungen in die entsprechende Klasse fallen. Die klassierte Häufigkeitstabelle<br />

verwendet folgende Notation:<br />

i der Index zählt die verschiedenen Klassen durch<br />

X steht für das Merkmal<br />

UGi Untergrenze der i-ten Klasse. Es gilt: UGi < UGi+1<br />

OGi Obergrenze der i-ten Klasse. Es gilt: OGi < OGi+1<br />

ni absolute Häufigkeit in der i-ten Klasse — Wie viele Beobachtungen<br />

fallen in die i-te Klasse?<br />

hi relative Häufigkeit in der i-ten Klasse — Wieviel Prozent der Beobachtungen<br />

liegen in der i-ten Klasse?<br />

∆xi Klassenbreite der i-ten Klasse: ∆xi = OGi − UGi<br />

Fi kumulierte relative Häufigkeit (empirische Verteilungsfunktion)<br />

Einige Symbole und Platzhalter sind schon aus der diskreten Betrachtungsweise<br />

bekannt, so daß die Beschreibung an dieser Stelle etwas sparsamer ausfallen<br />

kann. Die klassierte Häufigkeitstabelle hat dann den folgenden formalen Aufbau:<br />

i UGi < X ≤ OGi ni hi ∆xi Fi<br />

1 UG1 < X ≤ OG1 n1 h1 ∆x1 F1 = h1<br />

2 UG2 < X ≤ OG2 n2 h2 ∆x2 F2 = h1 + h2<br />

3 UG3 < X ≤ OG3 n3 h3 ∆x3 F3 = h1 + h2 + h3<br />

.<br />

.<br />

k UGk < X ≤ OGk nk hk ∆xk Fk = 1<br />

.<br />

.<br />

Zum besseren Verständnis seinen wieder einige Zusammenhänge aufgezeigt,<br />

die sich aus der Häufigkeitstabelle ergeben:<br />

k Anzahl der verschiedenen Klassen.<br />

k i=1 ni = n Die Summe aller Einzelhäufigkeiten ergibt die Gesamthäufigkeit.<br />

k i=1 hi = 1 Wenn man alle Beobachtungen berücksichtigt, erhält man<br />

100%.<br />

.<br />

.


1.2. ANALYSE UNIVARIATER DATEN 17<br />

Für das Beispiel Alter 6 kann z.B. die folgende stetige (gerundete) Häufigkeitstabelle<br />

generiert werden:<br />

> haeufigkeit.stetig(alter,anzahl.klassen=6) in:5<br />

--------------------------i<br />

ug.i og.i n.i h.i F.i<br />

---------------------------<br />

1 18 20 121 0.457 0.457<br />

2 20 22 86 0.325 0.781<br />

3 22 24 42 0.158 0.940<br />

4 24 26 7 0.026 0.966<br />

5 26 28 7 0.026 0.992<br />

6 28 30 2 0.008 1.000<br />

---------------------------<br />

Als Klassenbreite (für alle Klassen) wurde zwei Jahre gewählt. Für drei Jahre<br />

ergibt sich:<br />

out:5<br />

> haeufigkeit.stetig(alter,anzahl.klassen=4) in:6<br />

--------------------------i<br />

ug.i og.i n.i h.i F.i<br />

---------------------------<br />

1 18 21 179 0.675 0.675<br />

2 21 24 70 0.264 0.940<br />

3 24 27 12 0.045 0.985<br />

4 27 30 4 0.015 1.000<br />

---------------------------<br />

Wie groß geeignete Klassen sind, kommt auf den Datensatz an. Es existieren<br />

gewisse Proportionalitäsregeln, die in statistischen Softwarepaketen implementiert<br />

sind. Zum Beispiel wird die Klassenzahl oft als proportional zum Logarithmus<br />

zur Basis 2 des Stichprobenumfangs bestimmt. Ein solches Vorgehen<br />

erlaubt einer Statistiksoftware, automatisiert Vorschläge für die Klassierung zu<br />

generieren. Letztlich muß man aber selber entscheiden, welche Klassengrenzen<br />

man wählt. Was würde sich übrigens bei einer Klassenbreite von einem Jahr ergeben?<br />

In einer stetigen Häufigkeitstabelle gilt: Die Untergrenze gehört nicht zur Klasse<br />

dazu. Durch dieses Vorgehen wird der Stetigkeit der Daten Rechnung getragen.<br />

Wenn also eine Beobachtung zufällig den Wert einer Untergrenze annimmt, dann<br />

wird sie einer Klasse tiefer zugeordnet. Somit ist eine Eindeutigkeit in bezug auf<br />

die Zuordnung der Daten garantiert.<br />

6 Vgl. Seite 4f für die diskrete Behandlung.<br />

out:6


18 KAPITEL 1. BESCHREIBENDE STATISTIK<br />

Bei der praktischen Anwendung kann es passieren, wie im Beispiel mit den<br />

Altersdaten, daß die Daten diskreter Natur sind. Aus ästhetischen Gründen, damit<br />

die Klassen eine gewisse Gleichmäßigkeit aufweisen, wird die Klassenbildung<br />

so gehandhabt, daß (nur) für die erste Klasse gilt: Die Untergrenze gehört zum<br />

Datensatz dazu.<br />

Sind alle Klassen gleichgroß, spricht man von äquidistanten Klassen. Das<br />

muß nicht so sein. Am Ende dieses Abschnittes wird dies illustriert.<br />

Das Histogramm Auch bei der klassierten Darstellung möchte man auf graphische<br />

Hilfsmittel zurückgreifen können. Das stetige Pendant zum Stabdiagramm<br />

ist das Histogramm: 7<br />

Definition: Histogramm<br />

Das Histogramm ist die graphische Darstellung der klassierten Häufigkeitstabelle.<br />

• Äquidistante Klassen:<br />

Über jeder Klasse wird ein Rechteck (=Flächenstreifen) abgetragen, dessen<br />

Höhe der relativen Häufigkeit in der Klasse entspricht.<br />

• Nicht-äquidistante Klassen:<br />

Wenn nicht alle Klassen die gleiche Breite haben, dann kann man nicht<br />

einfach die relative Häufigkeit nach oben abtragen. Dies würde zu einer<br />

verzerrten Darstellung führen. Über jeder Klasse wird ein Rechteck<br />

(=Flächenstreifen) mit folgender Höhe abgetragen — es wird für jede<br />

Klasse die sogenannte Häufigkeitsdichte fi berechnet:<br />

fi = hi<br />

∆xi<br />

= relative Häufigkeit<br />

Klassenbreite<br />

Im äquidistanten Fall kann natürlich ebenfalls die Häufigkeitsdichte fi abgetragen<br />

werden. Das ändert nichts am grundsätzlichen Aussehen des Histogramms,<br />

da jede relative Häufigkeit durch dieselbe Zahl geteilt wird. Auf diese Weise entspricht<br />

die Größe der Fläche jedes Rechtecks gerade der relativen Häufigkeit in<br />

der Klasse (= Prinzip der Flächenproportionalität).<br />

So wird eine sehr breite Klasse, in der genau so viele Beobachtungen liegen<br />

wie in einer sehr schmalen Klasse, entsprechend ein Rechteck mit geringer Höhe<br />

bekommen, dagegen die sehr schmale Klasse ein hohes Rechteck. Somit ist auch<br />

die Bezeichnung Häufigkeitsdichte gut zu interpretieren.<br />

7 In manchen Lehrbüchern wird die Häufigkeitsdichte mit ˆ fi (sprich: ” f dach“) bezeichnet.<br />

Der Grund dafür liegt in der Abgrenzung der Datenwelt zur Modellwelt. Die Berechnung der<br />

Häufigkeitsdichte ist nämlich als Schätzer der Modelldichte zu interpretieren.


1.2. ANALYSE UNIVARIATER DATEN 19<br />

Zurück zum Beispiel. Für das Merkmal Alter kann das folgende Histogramm<br />

dargestellt werden:<br />

> histogramm(alter) in:7<br />

0 20 40 60 80 100 120<br />

Histogramm von Alter<br />

18 20 22 24 26 28 30<br />

Abbildung 7<br />

Dieses Histogramm ist eine gute Darstellung der Daten. Auf einen Blick kann<br />

man die Struktur erkennen. Die Dominanz der ersten Klasse wird deutlich betont.<br />

Das Abfallen nach rechts charakterisiert diesen Datensatz, er ist schief.<br />

Definition: Modus/ Modalwert (stetig)<br />

Die Klassenmitte der am häufigsten besetzten Klasse in einem klassierten Datensatz<br />

wird als Modus bezeichnet. Im Histogramm ist dies der Mittelpunkt<br />

der Klasse, über der der größte Flächenstreifen abgetragen ist. <br />

Im Beispiel beträgt der Modus 19 Jahre. Der diskrete Modus zu diesem Datensatz<br />

ist 20 Jahre. 8 Der stetige Modus ist etwas kleiner.<br />

Satz 1: Die Histogrammfläche beträgt 1. <br />

8 Vgl. Seite 10.<br />

out:7


20 KAPITEL 1. BESCHREIBENDE STATISTIK<br />

Beweis von Satz 1: Der Beweis ist eine direkte Konsequenz aus dem Prinzip<br />

der Flächenproportionalität:<br />

Histogrammfläche = Summe der Flächenstreifen<br />

=<br />

=<br />

=<br />

=<br />

=<br />

k<br />

Höhei × Breitei<br />

i=1<br />

k<br />

fi · ∆xi<br />

i=1<br />

k hi<br />

· ∆xi<br />

∆xi<br />

i=1<br />

k<br />

i=1<br />

k<br />

i=1<br />

hi<br />

= 1/n ·<br />

= 1<br />

Im folgenden soll der Einfluß der Klassenwahl auf das Aussehen und die Aussagekraft<br />

des Histogramms aufgezeigt werden. Dazu wird noch einmal der Datensatz<br />

Anzahl Bücher aus der Studentenbefragung herangezogen: manchmal ist<br />

weniger mehr, scheint eine Quintessenz zu sein. Sukzessive sind zunächst die<br />

größte sowie die zwei größten Beobachtungen weggelassen worden. Die Grenzen<br />

sind offensichtlich schlecht gewählt. Die beiden unteren Histogramme zeigen alle<br />

Beobachtungen kleiner 400 bzw. kleiner 300. Sind die Grenzen hierfür passend?<br />

ni<br />

n<br />

k<br />

i=1<br />

ni<br />


1.2. ANALYSE UNIVARIATER DATEN 21<br />

0 50 100 150<br />

0 20 40 60 80<br />

Anzahl ohne Max<br />

0 500 1000 1500<br />

Anzahl < 400<br />

0 100 200 300<br />

0 10 20 30<br />

Abbildung 8<br />

0 20 40 60 80 120 Anzahl ohne 2 groessten<br />

0 200 400 600 800<br />

Anzahl < 300<br />

0 50 150 250<br />

Die (verkürzte) Häufigkeitstabelle für Anzahl Bücher weniger 400 ergibt sich<br />

als:<br />

-------------ug.i<br />

og.i n.i<br />

--------------<br />

-50 0 11<br />

0 50 89<br />

50 100 46<br />

100 150 13<br />

150 200 14<br />

200 250 2<br />

250 300 8<br />

300 350 2<br />

--------------<br />

Man beachte in diesem Beispiel die Problematik in bezug auf die erste Untergrenze.<br />

Offensichtlich haben seltsamerweise 11 Studierende angegeben, sie hätten<br />

gar keine Bücher. Dieser Datensatz hat aber nun deutlich stetige Züge — viele<br />

Merkmalsausprägungen und geringe Besetzungszahlen —, so daß ein verzerrter


22 KAPITEL 1. BESCHREIBENDE STATISTIK<br />

Eindruck entstünde, wenn die Null als Untergrenze dazugehören würde. Hier hat<br />

die Software den Vorschlag gemacht, die Klassen symmetrisch um Null zu beginnen<br />

— 50 Einheiten nach links, 50 Einheiten nach rechts. Daß negative Zahlen<br />

natürlich keinen Sinn machen bei Zählprozessen, kann die Software nicht wissen.<br />

Anhand des Datensatzes Gewicht, der auf der Seite 15 bereits kurz dargestellt<br />

wurde, soll der Einfluß der Klassenwahl demonstriert werden. In den folgenden<br />

Graphiken sind jeweils äquidistante Klassen verwandt worden. Überlegen Sie, was<br />

sich über eine optimale Anzahl von Klassen aussagen läßt?<br />

n.i<br />

n.i<br />

n.i<br />

0 50 100 150<br />

0 20 40 60 80 100<br />

0 10 20 30<br />

Histogramm von Gewicht<br />

0 50 100 150 200<br />

Histogramm von Gewicht<br />

40 60 80 100 120<br />

Histogramm von Gewicht<br />

60 80 100 120<br />

n.i<br />

n.i<br />

n.i<br />

0 50 100 150<br />

0 10 20 30 40 50<br />

0 5 10 15 20<br />

Abbildung 9<br />

Histogramm von Gewicht<br />

0 50 100 150<br />

Histogramm von Gewicht<br />

40 60 80 100 120<br />

Histogramm von Gewicht<br />

60 80 100 120<br />

Bei den folgenden Graphiken, wieder mit dem Merkmal Gewicht erzeugt, kann<br />

man sehr schön erkennen, inwiefern das bloße Abtragen von relativen Häufigkeiten<br />

bei nicht-äquidistanten Klassen zu wenig hilfreichen Darstellungen führt. Die<br />

beiden Graphiken haben jeweils dieselbe Klasseneinteilung. Links ist die absolute<br />

Häufigkeit abgetragen, rechts die Häufigkeitsdichte:


1.2. ANALYSE UNIVARIATER DATEN 23<br />

0 20 40 60 80 Falsches Histogramm von Gewicht<br />

40 60 80 100 120<br />

0.0 0.005 0.010 0.015 0.020 0.025 0.030<br />

Abbildung 10<br />

Histogramm von Gewicht<br />

40 60 80 100 120<br />

Der Unterschied ist sehr deutlich. In der linken Graphik dominiert die letzte<br />

Klasse das Histogramm. Der Balken ist sehr breit und sehr hoch. Diese Darstellung<br />

ist aber irreführend. In der rechten Graphik konnten durch Abtragen der<br />

Häufigkeitsdichte die wahren Verhältnisse zum Ausdruck gebracht werden.<br />

Durch die Umsetzung der Häufigkeitsdichte (=relative Häufigkeit geteilt durch<br />

die Klassenbreite) wird berücksichtigt, auf wieviel Raum in bezug auf die Skala<br />

sich wie viele Beobachtungen verteilen.


Rückblick<br />

Kapitel<br />

1.2.1<br />

24 KAPITEL 1. BESCHREIBENDE STATISTIK<br />

Die Häufigkeitsanalyse hat sich als hilfreich erwiesen, Datenmaterial zu<br />

verdichten und damit übersichtlicher darzustellen.<br />

Im Rahmen der diskreten Häufigkeitsanalyse wurden das Konzept<br />

Häufigkeitstabelle sowie deren graphische Repräsentationen Stabdiagramm,<br />

Tortendiagramm, Balkendiagramm und mit dem Modus (diskret) eine erste<br />

Maßzahl vorgestellt. Das spezielle Balkendiagramm Alterspyramide schloß<br />

die Betrachtung ab.<br />

Im Rahmen der stetigen Häufigkeitsanalyse wurde das Konzept der<br />

klassierten Häufigkeitstabelle eingeführt. Die graphische Darstellung ist das<br />

Histogramm. Der Modus (stetig) wurde definiert.<br />

In der praktischen Anwendung sind die Übergänge von diskreter zu stetiger<br />

Betrachtung teilweise fließend und können nicht kategorisch festgelegt<br />

werden.<br />

Abschließend bleibt festzuhalten, daß man mit der bloßen Häufigkeitsanalyse<br />

Informationen verschenkt, da eben nur Häufigkeiten betrachtet werden und<br />

nicht die ursprünglichen Beobachtungen. Das ist vor allem bei Daten mit<br />

metrischem Meßniveau ungeschickt. Also zurück zu den Daten! Dieser Weg<br />

soll im Anschluß an das Beispiel aus der Kryptologie begangen werden.<br />

Ein Beispiel: Kryptographie<br />

Im diesem Abschnitt wird mit Hilfe der Häufigkeitsanalyse die Analyse eines<br />

Kryptogramms (=ein verschlüsselter Klartext) vorgeführt. 9 Die Häufigkeitsanalyse<br />

ist ein sehr wichtiges Instrument, um monoalphabetisch und symmetrisch<br />

verschlüsselte Texte zu entschlüsseln.<br />

Monoalphabetisch heißt, daß jeder Buchstabe des Klartextalphabetes (ABC-<br />

DE. . . XYZ) durch genau einen anderen ersetzt wird, z.B. (DFGV. . . UJA). Das<br />

heißt, aus einem A wird im Beispiel ein D usw. Dieses Geheimtextalphabet ist<br />

der sogenannte Schlüssel. Sender und Empfänger benutzen denselben Schlüssel;<br />

bei solchen Verschlüsselungsverfahren spricht man von symmetrischen Verschlüsselungsverfahren.<br />

Auf die gerade vorgestellt Weise können 26! ≈ 4 · 10 26 verschiedene Schlüssel<br />

erzeugt werden. Diese Zahl ist so gigantisch, daß man die Schlüssel nicht systematisch<br />

ausprobieren kann, was natürlich zur Entschlüsselung führen würde. Wenn<br />

ein Computer pro Sekunde 1 Milliarde Schlüssel durchprobieren könnte, dann<br />

würde es etwa 4 · 10 17 Sekunden, also 4 · 10 17 /(60 · 60 · 24 · 365) = 1.3 · 10 10 Jahre<br />

dauern, um alle Schlüssel durchzuprobieren. Das Alter des Universums beträgt<br />

so etwa 10 10 Jahre. Heißt das, daß die Verschlüsselung sicher ist?<br />

9 Für weitergehende Informationen vgl.:<br />

http://www.wiwi.uni-bielefeld.de/StatCompSci/tiemann/tiemann.html<br />

dort caesar.html und rsa.html.


1.2. ANALYSE UNIVARIATER DATEN 25<br />

Exkurs: Caesar-Verschlüsselung<br />

Eine einfachere Variante der monoalphabetischen Verschlüsselung ist die<br />

sogenannte Caesar-Verschlüsselung.<br />

Hierbei wird nicht eine beliebige Reihenfolge des Alphabets gewählt, sondern<br />

lediglich ein anderer Startpunkt. Der Buchstabe, mit dem das A verschlüsselt<br />

wird, ist dann die Schlüsselinformation, hier also das D:<br />

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z<br />

D E F G H I J K L M N O P Q R S T U V W X Y Z A B C<br />

Ein Caesar-verschlüsselter Text kann genauso geknackt werden, wie ein<br />

allgemein monoalphabetisch verschlüsselter, es geht sogar etwas einfacher.<br />

Oder man probiert alle Schlüssel durch, es gibt ja nur 25. ⋆<br />

Der folgende Text ist auf die vorgestellte monoalphabetische Art und Weise<br />

verschlüsselt worden:<br />

"tnsftiivtdwpknpdbycnycievvnteisfwwtiptbrdiptnrdtbjtbjtctiteiteinvdoejtngtbok<br />

cbtiretvtvneycieycvkirahtnhktbtieycvzbksveskrtlnvkvvptnntiskiiwkitooeaetivtbg<br />

fbjtctipetjbdipjtnkwvctevhebpeipetnfjtikiivtisldwztidivtbvtelvpetntateycitine<br />

ycpkpdbyckdnpknnneteineycntcbctvtbfjtineipteitcfcteivtbitgkbekiakdohtentixtpt<br />

bsldwztinfllteislteitnkrrelpptbjbdipjtnkwvctevnteinfwevenvkdycpethkclptnrtjbe<br />

ootnsldwztiadgtbnvtctitbenvbkdcdipklnfctvtbfjtidipieycvjlkvvdiptrtixtctvtbfjt<br />

itbpetsldwztieineycneipptnvfrtnntbgfipetntisldwztihtbptiiditeiejtadoktllejkdn<br />

jthktclvpettbnvtnvdotenvklnfteitvtelnveyczbfrtpetahtevtnvdotenvteitgflltbctrd<br />

ijklltteictevtieiptisldwztijtlkijtieipettipjdtlvejtnveyczbfrtpetofljtiptjbkzc<br />

esnvtllvpetntngfbjtctipkbhktcbtipteisldwztieineycxthtelnctvtbfjtienvneippetgt<br />

bnycetptitisldwztiadteikiptbcfwfjtiklltneipnycletnnleycteikrrelpptbjbdipjtnkw<br />

vctevptbnfjtikiivtsldwztitootsvrtnycbtervptijbftnntbtikdnhkclotcltbptiwkiewgt<br />

bjlteycadbteinvdoejtinveyczbfrtwkycvhtiipetsldwztinycltycvjthktclvneipklnfpet<br />

jtbkptrtnycbetrtititejtinyckovtiieycvkdnbteyctipkdohtentivmzenyctsldwztirelpd<br />

ijtineiptnpkbokrtbietpkneivtbtnnetbtiptwtbswklkdnntbkycvjtlknntihtbptirtvbetr<br />

tokweletivkjtnotbvejdijtihfyctidwnktvatnycdlslknnti"<br />

Sieht schwierig aus? Nun, ein nicht knackbarer Code würde genauso aussehen.<br />

Dieser hier ist nicht schwer zu attackieren: Als erstes wollen wir uns die<br />

Häufigkeitsverteilung der Buchstaben anschauen:<br />

a b c d e f g h i j k l m<br />

0.008 0.052 0.048 0.039 0.088 0.022 0.007 0.013 0.104 0.034 0.049 0.043 0.001<br />

n o p q r s t u v w x y z<br />

0.076 0.017 0.050 0.000 0.020 0.017 0.188 0.000 0.056 0.022 0.002 0.027 0.014


26 KAPITEL 1. BESCHREIBENDE STATISTIK<br />

. . . und nun der Häufigkeit nach geordnet:<br />

t i e n v b p k c l d j y<br />

0.188 0.104 0.088 0.076 0.056 0.052 0.050 0.049 0.048 0.043 0.039 0.034 0.027<br />

w f r s o z h a g x m u q<br />

0.022 0.022 0.020 0.017 0.017 0.014 0.013 0.008 0.007 0.002 0.001 0.000 0.000<br />

Hier sind deutliche Unterschiede zu erkennen, was die Häufigkeiten angeht.<br />

Die beiden Häufigkeitstabellen sollen im Stabdiagramm dargestellt werden:<br />

rel.Haeufigkeit<br />

rel.Haeufigkeit<br />

0.0 0.05 0.10 0.15<br />

0.0 0.05 0.10 0.15<br />

Haeufigkeiten der Buchstaben<br />

im Geheimtext<br />

a b c d e f g h i j k l m n o p q r s t u v w x y z<br />

Buchstaben<br />

Haeufigkeiten der Buchstaben<br />

im Geheimtext (sortiert)<br />

t i e n v b p k c l d j y w f r s o z h a g x m u q<br />

Buchstaben<br />

Abbildung 11<br />

Die deutsche Sprache hat die Eigenschaft, daß die Häufigkeiten der einzelnen<br />

Buchstaben sehr unterschiedlich sind. Der mit Abstand häufigste Buchstabe ist<br />

das e, der seltenste Buchstabe ist das q. In der folgenden Tabelle sind die relativen<br />

Häufigkeiten der einzelnen Buchstaben dargestellt, in der anschließenden Graphik<br />

sind diese im Stabdiagramm abgetragen:


1.2. ANALYSE UNIVARIATER DATEN 27<br />

a b c d e f g h i j k<br />

0.0651 0.0189 0.0306 0.0508 0.174 0.0166 0.0301 0.0476 0.0755 0.0027 0.0121<br />

l m n o p q r s t u v<br />

0.0344 0.0253 0.0978 0.0251 0.0079 0.0002 0.070 0.0727 0.0615 0.0435 0.0067<br />

w x y z<br />

0.0189 0.0003 0.0004 0.0113<br />

. . . und geordnet:<br />

e n i s r a t d h u l<br />

0.1740 0.0978 0.0755 0.0727 0.0700 0.0651 0.0615 0.0508 0.0476 0.0435 0.0344<br />

c g m o w b f k z p<br />

0.0306 0.0301 0.0253 0.0251 0.0189 0.0189 0.0166 0.0121 0.0113 0.0079<br />

v j y x q<br />

0.0067 0.0027 0.0004 0.0003 0.0002<br />

rel.Haeufigkeit<br />

rel.Haeufigkeit<br />

0.0 0.05 0.10 0.15<br />

0.0 0.05 0.10 0.15<br />

Haeufigkeiten der Buchstaben<br />

in der deutschen Sprache<br />

a b c d e f g h i j k l m n o p q r s t u v w x y z<br />

Buchstaben<br />

Haeufigkeiten der Buchstaben<br />

in der deutschen Sprache (sortiert)<br />

e n i s r a t d h u l c g m o w b f k z p v j y x q<br />

Buchstaben<br />

Abbildung 12<br />

Vergleicht man die beiden Stabdiagramme der sortierten Häufigkeiten (Geheimtext<br />

und deutsche Sprache), dann stellt man fest, daß die Darstellungen sehr


28 KAPITEL 1. BESCHREIBENDE STATISTIK<br />

große Ähnlichkeiten aufweisen, bis auf die Beschriftung der einzelnen Stäbe mit<br />

Buchstaben. Das ist gerade der Ansatzpunkt.<br />

Im Geheimtext ist das t am häufigsten, in der deutschen Sprache ist es das e.<br />

Die beiden relativen Häufigkeiten sind sich sowohl absolut betrachtet sehr ähnlich<br />

als auch im Vergleich zu den jeweils nächst häufigen. Es erscheint aussichtsreich,<br />

im Geheimtext die Buchstaben gemäß ihrer Häufigkeiten zu ersetzen.<br />

Zusätzlich zu den Häufigkeiten der einzelnen Buchstaben sind auch die von<br />

Paaren aufeinanderfolgenden Buchstaben (Bigramme) bekannt. Die 10 häufigsten<br />

Bigramme sind:<br />

In der deutschen Sprache:<br />

Paar rel.H.<br />

-----------en<br />

0.0388<br />

er 0.0375<br />

ch 0.0275<br />

te 0.0226<br />

de 0.0200<br />

nd 0.0199<br />

ei 0.0188<br />

ie 0.0179<br />

in 0.0167<br />

es 0.0152<br />

------------<br />

. . . und im Geheimtext:<br />

Paar abs.H rel.H<br />

------------------ti<br />

61 0.051<br />

tb 36 0.030<br />

te 34 0.028<br />

yc 32 0.027<br />

tn 30 0.025<br />

jt 29 0.024<br />

ei 29 0.024<br />

ip 27 0.022<br />

et 24 0.020<br />

pt 23 0.019<br />

-------------------<br />

Aus diesen Informationen lassen sich nun bereits die folgenden Ersetzungen<br />

identifizieren:<br />

Geheimtext wird zu<br />

t e<br />

i n<br />

e i<br />

n s<br />

b r<br />

y c<br />

c h<br />

Für die letzten vier Ersetzungen war die Bigrammanalyse von großer Bedeutung.<br />

Diese sieben Ersetzungen sollen vorgenommen werden. Hier ist das Ergebnis<br />

der Substitutionen; direkt danach ist wieder der Geheimtext abgedruckt:


1.2. ANALYSE UNIVARIATER DATEN 29<br />

es--enn-e----s--rchschni--sein----en-er--n-es--er-er-eheneineins---i-es-er--hren-ie<br />

-e-sichnich--n---es--erenich--r---i---e-s-----essen--nn--ne--i-ien-er--r-ehen-ie-rn--es---hei--ir-in-ies--en-nn-en-----en-n-er-ei---iese-eichnensich----rch--s--sssieinsichsehrhe-er--ensin-eineh-hein-erne--ri-n-----eisen-e-er-----ens---ein--eines--i---er-r-n--es---hei-seins--i-is---ch-ie--h--es-e-ri--es-----en---ers-eheneris-r--h<br />

-n---s-he-er--en-n-nich-------n-e-en-ehe-er--ener-ie-----eninsichsin--es---esser--n<br />

-iesen-----en-er-enn-neini-e----e--i---s-e--eh---ieers-es---eis---s-eine-ei-s-ich-r<br />

--e-ie--ei-es---eis-eine----erhe--n----eeinhei-enin-en-----en-e--n-enin-ieen---e--i<br />

-es-ich-r--e-ie----en-e-r--hi-s-e----ieses--r-ehen--r--ehren-ein-----eninsich-e-eishe-er--enis-sin--ie-erschie-enen-----en--ein-n-erh----en---esin-sch-iess-ichein--i---er-r-n--es---hei--ers--en-nn-e-----ene--e---eschrei---en-r-esseren--s--h--eh-er<br />

-en--ni--er--eich--reins---i-ens-ich-r--e--ch--enn-ie-----ensch-ech--e--eh--sin---s<br />

--ie-er--e-eschrie-enenei-ensch---ennich---sreichen-----eisen---ische-----en-i---nensin-es--r---ernie--sin-eressieren-e-er------sser-ch--e--ssen-er-en-e-rie-e---i-ie<br />

n---es-er-i--n-en--chen--s-e--esch-----ssen<br />

tnsftiivtdwpknpdbycnycievvnteisfwwtiptbrdiptnrdtbjtbjtctiteiteinvdoejtngtbokcbtiret<br />

vtvneycieycvkirahtnhktbtieycvzbksveskrtlnvkvvptnntiskiiwkitooeaetivtbgfbjtctipetjbd<br />

ipjtnkwvctevhebpeipetnfjtikiivtisldwztidivtbvtelvpetntateycitineycpkpdbyckdnpknnnet<br />

eineycntcbctvtbfjtineipteitcfcteivtbitgkbekiakdohtentixtptbsldwztinfllteislteitnkrr<br />

elpptbjbdipjtnkwvctevnteinfwevenvkdycpethkclptnrtjbeootnsldwztiadgtbnvtctitbenvbkdc<br />

dipklnfctvtbfjtidipieycvjlkvvdiptrtixtctvtbfjtitbpetsldwztieineycneipptnvfrtnntbgfi<br />

petntisldwztihtbptiiditeiejtadoktllejkdnjthktclvpettbnvtnvdotenvklnfteitvtelnveyczb<br />

frtpetahtevtnvdotenvteitgflltbctrdijklltteictevtieiptisldwztijtlkijtieipettipjdtlve<br />

jtnveyczbfrtpetofljtiptjbkzcesnvtllvpetntngfbjtctipkbhktcbtipteisldwztieineycxthtel<br />

nctvtbfjtienvneippetgtbnycetptitisldwztiadteikiptbcfwfjtiklltneipnycletnnleycteikrr<br />

elpptbjbdipjtnkwvctevptbnfjtikiivtsldwztitootsvrtnycbtervptijbftnntbtikdnhkclotcltb<br />

ptiwkiewgtbjlteycadbteinvdoejtinveyczbfrtwkycvhtiipetsldwztinycltycvjthktclvneipkln<br />

fpetjtbkptrtnycbetrtititejtinyckovtiieycvkdnbteyctipkdohtentivmzenyctsldwztirelpdij<br />

tineiptnpkbokrtbietpkneivtbtnnetbtiptwtbswklkdnntbkycvjtlknntihtbptirtvbetrtokwelet<br />

ivkjtnotbvejdijtihfyctidwnktvatnycdlslknnti<br />

Nun sind genaues Hingucken und detektivisches Aufspüren gefragt. Wenn man<br />

also mal in die erste Zeile des Geheimtextes schaut, dann fällt folgende Passage<br />

auf:<br />

--rchschni--sein----en<br />

Das könnte durchschnittseinkommen geheißen haben. Jetzt müssen im Geheimtext<br />

die entsprechenden Buchstaben gesucht werden. Das geht recht einfach,<br />

da die Texte genau übereinander stehen: pdbycnycievvnteisfwwti.<br />

Davon sind bereits viele Buchstaben identifiziert. Das doppelte v sowie das<br />

doppelte w sind eine starke Bestätigung für die Vermutung. Diese Ersetzungen<br />

können also vorgenommen werden:<br />

--rchschni--sein----en<br />

pdbycnycievvnteisfwwti


Rückblick<br />

Kapitel<br />

1.2.1<br />

30 KAPITEL 1. BESCHREIBENDE STATISTIK<br />

Geheimtext wird zu<br />

p d<br />

d u<br />

v t<br />

s k<br />

f o<br />

w m<br />

Diese Ersetzungen führen dann zu:<br />

eskoennteumd-sdurchschnittseinkommender-undes-uer-er-eheneineinstu-i-es-er--hren-ie<br />

tetsichnicht-n---es--erenicht-r-ktik--e-st-ttdessenk-nnm-ne--i-ienter-or-ehendie-ru<br />

nd-es-mtheit-irdindieso-en-nntenk-um-enuntertei-tdiese-eichnensichd-durch-usd-sssie<br />

insichsehrhetero-ensindeinehoheinterne--ri-n--u--eisen-ederk-um-enso--eink-eines--i-dder-rund-es-mtheitseinsomitist-uchdie--h-des-e-ri--esk-um-en-u-ersteheneristr-uh<br />

und--sohetero-enundnicht---ttunde-en-ehetero-enerdiek-um-eninsichsinddesto-esser-on<br />

diesenk-um-en-erdennuneini-e-u--e--i--us-e--eh-tdieerstestu-eist--soeinetei-stich-r<br />

o-edie--eitestu-eisteine-o--erhe-un----eeinheitenindenk-um-en-e--n-enindieend-ue-ti<br />

-estich-ro-edie-o--ende-r--hikste--tdieses-or-ehend-r--ehrendeink-um-eninsich-e-eishetero-enistsinddie-erschiedenenk-um-en-uein-nderhomo-en---esindsch-iess-ichein--i-dder-rund-es-mtheitderso-en-nntek-um-ene--ekt-eschrei-tden-roesseren-us--h--eh-er<br />

denm-nim-er--eich-ureinstu-i-enstich-ro-em-cht-enndiek-um-ensch-echt-e--eh-tsind--s<br />

odie-er-de-eschrie-enenei-ensch--tennicht-usreichend-u--eisent--ischek-um-en-i-dunensindesd-r---ernied-sinteressierendemerkm---usser-cht-e--ssen-erden-etrie-e--mi-ie<br />

nt--es-erti-un-en-ochenums-et-eschu-k--ssen<br />

Im Prinzip ist der Text damit entschlüsselt. Würde man mit der Analyse<br />

fortfahren, dann ergäbe sich der folgende Schlüssel, das folgende Geheimtextalphabet:<br />

k r y p t o j c e x s l w i f z q b n v d g h u m a<br />

a b c d e f g h i j k l m n o p q r s t u v w x y z<br />

Um die Verschlüsselung nachhaltig zu verbessern, muß versucht werden, die<br />

Häufigkeiten der Buchstaben zu verschleiern, so daß idealerweise alle Geheimtextbuchstaben<br />

gleichhäufig sind.<br />

Hier bieten sich sogenannte polyalphabetische Verschlüsselungsverfahren<br />

an. Bei diesen wechselt das Geheimtextalphabet ständig. Wir wollen hierauf<br />

nicht weiter eingehen, Neugierige können unter der zu Beginn des Beispiels angegebenen<br />

Internetadresse weiterlesen.<br />

Das Beispiel diente dazu, eine bedeutsame und interessante Anwendung der<br />

Häufigkeitsanalyse vorzustellen. Im übrigen ist die Häufigkeitsanalyse ebenso<br />

brauchbar beim Analysieren polyalphabetisch verschlüsselter Texte. Es muß<br />

lediglich etwas mehr Vorarbeit geleistet werden.


1.2. ANALYSE UNIVARIATER DATEN 31<br />

Exkurs: Summenzeichen<br />

Der große griechische Buchstabe Σ (lies: Sigma) dient dazu, die mathematische<br />

Schreibweise zu vereinfachen. Der Umgang und die Interpretation sind<br />

folgendermaßen zu verstehen:<br />

10<br />

i=1<br />

i = 1 + 2 + . . . + 10 (lies: ” Summe i gleich 1 bis 10 von i.“)<br />

Die ersten zehn natürlichen Zahlen werden aufaddiert. Der Index i (i kann<br />

auch j oder sonstwie heißen) durchläuft nacheinander die Werte 1 bis 10.<br />

Es wird jedesmal dazuaddiert, was rechts vom Summenzeichen steht:<br />

10<br />

i=1<br />

1 =<br />

<br />

1 + 1 +<br />

<br />

. . . + 1<br />

<br />

= 10<br />

10−mal<br />

Das funktioniert natürlich auch mit Platzhaltern (Variablen). . .<br />

k<br />

ni = n1 + n2 + . . . + nk = n<br />

i=1<br />

. . . oder mit solchen Ausdrücken:<br />

10<br />

i=1<br />

i 2 = 1 2 + 2 2 + . . . + 10 2 = 385<br />

Im zarten Kindesalter hat Carl Friedrich Gauß (1777-1855) übrigens<br />

einen Zusammenhang zur Berechnung der Summe der ersten n natürlichen<br />

Zahlen entdeckt:<br />

n<br />

n · (n + 1)<br />

i = 1 + 2 + 3 + . . . + n =<br />

2<br />

i=1<br />

Er hat (wahrscheinlich) die Zahlen folgendermaßen hingeschrieben:<br />

1 + 2 + . . . + n−1 + n → i = ?<br />

n + n − 1 + . . . + 2 + 1 → i = ?<br />

n+1 + n + 1 + . . . + n+1 + n+1 → 2 · i = n · (n + 1)<br />

Das Fragezeichen symbolisiert die gesuchte Summe.<br />

Anhand dieser Tabelle wird klar, daß n · (n + 1) gerade doppelt so groß ist<br />

wie die unbekannte gesuchte Summe — man kann ja horizontal wie auch<br />

vertikal summieren. ⋆


in:8<br />

32 KAPITEL 1. BESCHREIBENDE STATISTIK<br />

1.2.2 Zurück zur Urliste<br />

Man hat das Gefühl, daß bei der bloßen Häufigkeitsbetrachtung Informationen<br />

verschenkt werden. Es werden schließlich nicht die tatsächlich beobachteten Daten<br />

bei der Analyse berücksichtigt. Diese sind zunächst transformiert worden, so daß<br />

lediglich Merkmalsausprägungen und deren Häufigkeiten dem Beschreiben der<br />

Daten zugrunde lagen.<br />

Bei nominalskalierten Daten ist dieses Vorgehen zur Erkenntnisgewinnung im<br />

Prinzip das einzig mögliche. In bezug auf ordinal- und vor allem kardinalskalierte<br />

Daten ist das anfänglich beschriebene ungute Gefühl allerdings nicht zu<br />

übergehen: Den Daten kann mehr entlockt werden.<br />

Anhand des auf der Seite 15 vorgestellten Datensatzes buecher.stud soll der<br />

Schritt zurück zur Urliste beschrieben werden. In der Urliste, auch als Rohdaten<br />

bezeichnet, stehen die Daten so, wie sie ursprünglich beobachtet oder erhoben<br />

wurden. Die folgenden Bezeichnungen sollen gelten:<br />

X Allgemeine Bezeichnung für das Merkmal.<br />

n Stichprobenumfang.<br />

xi i-te Beobachtung vom Merkmal X, mit i = 1, 2, . . . , n.<br />

x(i), i = 1 . . . n Dies bezeichnet die Rangwertreihe, also den geordneten Datensatz:<br />

x(1) ist die kleinste, x(n) die größte Beobachtung.<br />

Der Datensatz buecher.stud hat einen Stichprobenumfang von n = 195.<br />

Der Übersicht halber soll daraus zunächst eine Zufallsstichprobe vom Umfang 20<br />

gezogen werden, die wir mit x bezeichnen wollen. Mit der Funktion sample()<br />

kann diese Zufallsstichprobe einfach realisiert werden. Der Datensatz x sowie die<br />

Rangwertreihe von x werden durch die Funktion halbe.halbe() jeweils in 2<br />

gleich große Blöcke aufgeteilt:<br />

> x halbe.halbe(x); halbe.halbe(sort(x))<br />

out:8 150 60 10 70 100 100 40 40 800 100<br />

60 40 70 200 5 60 300 80 20 10<br />

5 10 10 20 40 40 40 60 60 60<br />

70 70 80 100 100 100 150 200 300 800<br />

Während wir durch das Hinschreiben von x kaum zusätzliche Informationen<br />

gewinnen — man stelle sich nun die gleiche Darstellung mit 195 Datenpunkten<br />

vor —, läßt sich durch das Aufteilen der Rangwertreihe in 2 gleich große Hälften<br />

bereits etwas ablesen. Die untere Hälfte der Studierenden besitzt höchstens 60<br />

Bücher, während die Studierenden der zweiten Hälfte mindestens 70 Bücher im


1.2. ANALYSE UNIVARIATER DATEN 33<br />

Regal stehen haben. Eine Person hat angegeben, lediglich 5 Bücher zu besitzen,<br />

während am anderen Ende jemand 800 hat.<br />

Liegt zwischen 60 und 70 sowas wie der Durchschnitt der Daten? Wie kann<br />

man die große Diskrepanz zwischen den Beobachtungen angemessen beschreiben?<br />

Diesen Fragen soll in den nächsten Abschnitten nachgegangen werden.<br />

Betrachtungen zur Lage<br />

Lage? Wo auf der unendlich weiten Merkmalsachse mit der Dimension Anzahl<br />

Bücher liegt der Datensatz, wie viele Bücher besitzen die verschiedenen Studierenden?<br />

Dazu soll zunächst ein Dot-Plot der Daten betrachtet werden, bei dem<br />

zusätzlich die bereits identifizierte Stelle 60 als vertikale Linie eingetragen ist —<br />

beim Dot Plot sei die horizontale Achse die Merkmalsachse, auf der vertikalen<br />

Achse wird der Index i abgetragen:<br />

> dot.plot(x,main="Dot Plot von x_i",xlab="Anzahl Buecher",ylab="i")<br />

> abline(v=60) in:8<br />

i<br />

5 10 15 20<br />

Dot Plot von x_i<br />

0 200 400 600 800<br />

Anzahl Buecher<br />

Abbildung 7<br />

out:8


in:8<br />

34 KAPITEL 1. BESCHREIBENDE STATISTIK<br />

Auf einen Blick kann man erkennen, daß die Daten relativ dicht gedrängt bis<br />

zur eingezeichneten Stelle 60 Bücher liegen. Jenseits der 60 machen sich die Daten<br />

wesentlich breiter auf der Merkmalsachse. Die zweite Hälfte benötigt mehr Platz,<br />

sie erstreckt sich bis hin zur 800. Wo liegen also die Daten? Kann man die Lage<br />

zusammenfassend beschreiben? Wenn man sich eine Zahl wünschen dürfte, die<br />

ein typischer Repräsentant der Daten sein soll, welche würde man wählen?<br />

Mit den zentralen Lageschätzern versucht man, diese letzten Gedanken<br />

umzusetzen. Es wird eine Zahl aus den Daten generiert, die alle anderen vertritt<br />

und somit für den Datensatz typisch ist. Der zentrale Lageschätzer ist durch einen<br />

minimalen Abstand zu den Beobachtungen ausgezeichnet, er liegt in der Mitte der<br />

Daten. Immer?<br />

Definition: Arithmetisches Mittel<br />

¯x = 1<br />

n<br />

n<br />

i=1<br />

xi = x1 + x2 + . . . + xn<br />

n<br />

(sprich: ” x quer“)<br />

Um das arithmetische Mittel sinnvoll berechnen zu können, müssen die Daten<br />

kardinales Meßniveau aufweisen. Ist die Differenz zwischen zwei Merkmalsausprägungen<br />

sachlogisch der entscheidende Unterschied, nicht das Verhältnis,<br />

dann macht dieser Mittelwert Sinn (vgl. geometrisches Mittel).<br />

Das arithmetische Mittel hat die Eigenschaft der Linearität<br />

yi = a + b · xi ⇒ ¯y = a + b · ¯x<br />

Das arithmetische Mittel ist ausreißerempfindlich. <br />

> mean(x)<br />

out:8 115.75<br />

in:8<br />

Ist ¯x = 115.75 der typische Repräsentant für den Datensatz x? Ein kurzes<br />

Nachzählen auf der Seite 32 der Rangwertreihe von x verrät uns, daß 16 von<br />

20 Studierenden, also 80%, deutlich weniger, die übrigen 4 aber wesentlich mehr<br />

Bücher besitzen. Der gefundene Mittelwert scheint also niemandem gerecht zu<br />

werden.<br />

Wie groß sind die arithmetischen Mittel in den beide gerade genannten Gruppen,<br />

was ist also die mittlere Anzahl Bücher derjenigen, die weniger als 115 Bücher<br />

besitzen bzw. derer, die mehr haben:<br />

out:8 54.0625<br />

362.5<br />

> mean(x[x mean(x[x>mean(x)])


i<br />

i<br />

i<br />

1.2. ANALYSE UNIVARIATER DATEN 35<br />

Ein Blick auf die Rangwertreihe verrät: Während die erste Zahl ein guter<br />

Repräsentant ist, kommt die zweite wieder nicht in Frage. Woran liegt das?<br />

Das arithmetische Mittel kann interpretiert werden als diejenige Zahl, die jede<br />

Beobachtung annehmen würde, wenn die Gesamtsumme aller tatsächlichen Beobachtungen<br />

gleichmäßig verteilt wäre. Wenn nun aber eine oder einige wenige<br />

Beobachtungen viel größer (kleiner) sind als alle anderen, dann wird die Gesamtsumme<br />

so groß (klein), daß der resultierende Mittelwert die zentrale Lage der<br />

Daten überschätzt (unterschätzt).<br />

Das ist hier der Fall. Die Beobachtungen 800 und auch 300 sind weit entfernt<br />

vom Rest der Daten und können als Ausreißer bezeichnet werden. In der<br />

folgenden Graphik ist der Einfluß dieser Ausreißer auf den Mittelwert dargestellt:<br />

5 10 15 20<br />

5 10 15<br />

5 10 15<br />

<br />

Alle Beobachtungen<br />

Mittelwert: 115.75<br />

115.75<br />

0 200 400 600 800<br />

Anzahl Buecher<br />

Alle Beobachtungen kleiner 800<br />

Mittelwert: 79.74<br />

79.74<br />

0 200 400 600 800<br />

Anzahl Buecher<br />

Alle Beobachtungen kleiner 300<br />

Mittelwert: 67.5<br />

67.5<br />

0 200 400 600 800<br />

Anzahl Buecher<br />

in:8<br />

out:8


in:8<br />

36 KAPITEL 1. BESCHREIBENDE STATISTIK<br />

Abbildung 7<br />

Definition: Median (Zentralwert)<br />

x0.5 =<br />

<br />

x ( n+1<br />

2 ) für n ungerade<br />

1 · (x( n<br />

2 2 ) + x( n<br />

2 +1)) für n gerade<br />

Die Daten müssen wenigstens ordinales Meßniveau aufweisen. Der Median teilt<br />

den geordneten Datensatz in zwei gleich große Hälften. Jeweils links und rechts<br />

liegen 50% der Daten, daher auch x0.5.<br />

Der Median ist ein robuster Lageschätzer. Er ist gerade nicht ausreißerempfindlich,<br />

da bei seiner Berechnung die Werte der Beobachtungen nicht berücksichtigt<br />

werden. <br />

Aufgrund der Darstellung der Rangwertreihe auf der Seite 32 wissen wir, daß<br />

der Median zwischen 60 und 70 liegen muß. Da der Datensatz einen geraden<br />

Stichprobenumfang hat, kann der Median selber nicht eine eigentliche Beobachtung<br />

sein. In diesem Fall ist der Median der Mittelwert aus 60 und 70:<br />

out:8 65<br />

> median(x)<br />

Der Median ist ein guter Repräsentant der Daten. Auffällig ist, daß die Streichung<br />

der Beobachtungen 800 und 300 Bücher zu einem Mittelwert führt (67.5),<br />

der dem Gesamtmedian sehr ähnlich ist.<br />

Die Idee des Weglassens von Beobachtungen ist beim getrimmten arithmetischen<br />

Mittel umgesetzt:<br />

Definition: Getrimmtes arithmetisches Mittel<br />

¯xα =<br />

1<br />

n − 2⌊nα⌋<br />

n−⌊nα⌋ <br />

i=1+⌊nα⌋<br />

Bei der Berechnung dieses Mittelwertes werden gezielt die (α · 100)% kleinsten<br />

sowie größten, also die extremen Beobachtungen an den Rändern, weggelassen.<br />

Der Mittelwert wird dadurch robust gegen Ausreißer.<br />

α (sprich ” alpha“) liegt zwischen 0 und 0.5.<br />

Die Gaußklammer ⌊u⌋ ist der ganzzahlige Anteil von u. <br />

Aus α = 0.05 folgt beispielsweise bei n = 20, daß die kleinste und die größte<br />

Beobachtung aus der Stichprobe zu streichen sind, ⌊20 · 0.05⌋ = 1. Anschließend<br />

wird der Mittelwert berechnet.<br />

x(i)


in:8<br />

out:8<br />

1.2. ANALYSE UNIVARIATER DATEN 37<br />

> mean(x,trim=0.05)<br />

83.89<br />

Welches α man nimmt, hängt von der Beschaffenheit der Daten ab. Für den<br />

Augenblick soll die folgende Graphik als Antwort auf die Frage dienen — was<br />

ergibt sich eigentlich für α = 0 bzw. α = 0.5?<br />

<br />

getrimmtes Mittel<br />

70 80 90 100 110<br />

Verschiedene getrimmte arithmetische Mittel<br />

0.0 0.1 0.2 0.3 0.4 0.5<br />

alpha<br />

Abbildung 7<br />

Ab α > 0.1 ist Veränderung im resultierenden Mittelwert nicht mehr sehr<br />

groß. Eine mögliche Empfehlung ist also, die 2 größten sowie die 2 kleinsten<br />

Werte zu streichen. Dann ergibt sich ¯x0.1 = 75.<br />

Definition: Modus<br />

diskret: der häufigste Wert<br />

stetig: Klassenmitte der am häufigsten besetzten Klasse<br />

Der Modus kann für alle Meßniveaus berechnet werden, existiert allerdings<br />

nicht immer. Wenn beispielsweise die beiden am häufigsten beobachteten Merkmalsausprägungen<br />

gleich oft vorkommen, dann kann der Modus nicht bestimmt<br />

werden. Die gleiche Aussage gilt entsprechend für klassierte Daten. <br />

in:8<br />

out:8<br />

in:8<br />

out:8


in:8<br />

out:8<br />

38 KAPITEL 1. BESCHREIBENDE STATISTIK<br />

mittelwert median 0.1-getrimmt modus.stetig modus.diskret<br />

115.75 65 75 50 NA<br />

Bei der Stichprobe vom Umfang 20 wird bereits deutlich, daß die isolierte<br />

Betrachtung eines Mittelwertes nicht zu empfehlen ist, um Aussagen über die<br />

Daten zu wagen. Man kann sich vorstellen, daß sich dies umso schwieriger gestaltet,<br />

je umfangreicher die Daten sind. Bei n = 20 gibt schließlich der Dot-Plot<br />

gute Auskünfte. Was ist aber bei n = 100000?<br />

Wir benötigen weitere, die Daten zusammenfassende Hilfsmittel. Zunächst<br />

sollen die nicht-zentralen Lageschätzer betrachtet werden.<br />

Definition: Extremwerte<br />

• Minimum: der kleinste Wert — x(1)<br />

• Maximum: der größte Wert — x(n)<br />

Diese Maßzahlen benötigen wenigstens ordinales Meßniveau. <br />

Definition: Quartile<br />

• unteres Quartil: x0.25<br />

Das untere Quartil ist der Median der unteren Hälfte. Links von x0.25<br />

liegen 25% der Daten, rechts davon 75%.<br />

• oberes Quartil: x0.75<br />

Das obere Quartil ist der Median der oberen Hälfte. Links von x0.75 liegen<br />

75% der Daten, rechts davon 25%.<br />

Diese Maßzahlen benötigen ebenfalls wenigstens ordinales Meßniveau. <br />

Mit Hilfe dieser 4 Maßzahlen und dem Median läßt sich der Datensatz in vier<br />

gleich umfangreiche Segmente unterteilen, so daß auf einen Blick Aussagen zur<br />

Symmetrie bzw. Schiefe und Ausreißern gemacht werden können, die über den<br />

Vergleich Mittelwert/ Median hinausgehen. Hier sind zunächst die Maßzahlen:<br />

> summary(x)<br />

Min. 1st Qu. Median Mean 3rd Qu. Max.<br />

5.0 40.0 65.0 115.8 100.0 800.0<br />

Der relativ große Unterschied zwischen Mittelwert und Median deutet bereits<br />

auf Ausreißer hin. Die folgende Graphik illustriert dies anschaulich:


in:8<br />

out:8<br />

1.2. ANALYSE UNIVARIATER DATEN 39<br />

> dot.plot(x,xlab="Anzahl Buecher",ylab="i",<br />

main="Dot-Plot von x_i\nmit Senkrechten nach jeweils 25% der Daten")<br />

> abline(v=summary(x)[-4],lty=2)<br />

i<br />

5 10 15 20<br />

Dot−Plot von x_i<br />

mit Senkrechten nach jeweils 25% der Daten<br />

0 200 400 600 800<br />

Anzahl Buecher<br />

Abbildung 7<br />

Der Dot-Plot, ergänzt um die vier nicht-zentralen Maßzahlen sowie den Median,<br />

läßt sich sehr schön interpretieren. Die ersten 75% der Daten benötigen<br />

mehr oder weniger gleich viel Platz auf der Merkmalsachse, während die letzten<br />

25% unverhältnismäßig viel mehr Raum in Anspruch nehmen. Die vier Abstände<br />

sehen so aus:<br />

> diff(summary(x)[-4])<br />

35 25 35 700<br />

in:8<br />

out:8


in:8<br />

out:8<br />

in:8<br />

out:8<br />

40 KAPITEL 1. BESCHREIBENDE STATISTIK<br />

Definition: Boxplot<br />

Im Boxplot werden die fünf Maßzahlen Minimum, unteres Quartil, Median,<br />

oberes Quartil und Maximum dargestellt.<br />

Die box — ein Rechteck, das über der Merkmalsachse vom unteren bis zum<br />

oberen Quartil abgetragen wird — enthält die zentralen 50% der Daten. Die<br />

Box ist durch den Median in zwei Hälften geteilt.<br />

An die beiden Enden der box werden die whiskers gehängt, Linien die bis zum<br />

Minimum bzw. Maximum gezogen werden.<br />

Es kann sinnvoll sein, die whiskers nicht bis zu den Extremwerten zu zeichnen,<br />

sondern diese früher enden zu lassen. Ausreißer werden dann gesondert<br />

markiert (vgl. XXX). <br />

> boxplot(x,range=0,main="Boxplot von x_i",<br />

horizontal=T,xlab="Anzahl Buecher")<br />

Boxplot von x_i<br />

0 200 400 600 800<br />

Anzahl Buecher<br />

Abbildung 7<br />

Der Boxplot bestätigt die Erkenntnisse der vergangenen Seiten. Der Boxplot<br />

ist ein sehr geeignetes Instrument, um verschiedene Datensätze miteinander zu<br />

vergleichen. Es läßt sich z.B. der Frage nach gehen, ob die gezogene Stichprobe<br />

vom Umfang 20 den Datensatz Anzahl Bücher gut wiedergibt — beim Vergleich<br />

scheinen vertikale Boxplots geeigneter zu sein als horizontale, welche aber wiederum<br />

Symmetrieeigenschaften besser erkennen lassen:<br />

> boxplot(x,buecher.stud,range=0,main="Boxplot",<br />

names=c("x","buecher.stud"),ylab="Anzahl Buecher")


1.2. ANALYSE UNIVARIATER DATEN 41<br />

Anzahl Buecher<br />

0 500 1000 1500 2000 2500 3000<br />

Boxplot<br />

x buecher.stud<br />

Abbildung 7<br />

Die Struktur ist in beiden Datensätzen identisch, die Daten sind sehr asymmetrisch.<br />

Ist das Zufall, oder ist jede Stichprobe vom Umfang n = 20 gleich gut<br />

zu gebrauchen? Hier sind die zusammenfassenden Maßzahlen:<br />

> summary(x)<br />

> summary(buecher.stud) in:8<br />

Min. 1st Qu. Median Mean 3rd Qu. Max.<br />

5.0 40.0 65.0 115.8 100.0 800.0<br />

Min. 1st Qu. Median Mean 3rd Qu. Max.<br />

0.0 30.0 50.0 119.6 110.0 3000.0<br />

Im Detail sind deutliche Unterschiede erkennbar. Das Experiment Zufallsstichprobe<br />

mit n = 20 soll gerade 30 mal wiederholt werden — die 1. Stichprobe<br />

ist identisch mit x:<br />

out:8<br />

> xx boxplot(xx, range=0, main="Boxplots zu 30 Wiederholungen\nmit n=20",<br />

ylab="Anzahl Buecher") in:8<br />

out:8


in:8<br />

out:8<br />

42 KAPITEL 1. BESCHREIBENDE STATISTIK<br />

Anzahl Buecher<br />

0 500 1000 1500 2000 2500 3000<br />

Boxplots zu 30 Wiederholungen<br />

mit n= 20<br />

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29<br />

Abbildung 7<br />

Jede Stichprobe sieht anders aus. Die bereits herausgearbeitete Grundtendenz<br />

ist aber jeweils erkennbar, mal besser mal schlechter. Die Ausreißer werden nur<br />

selten erwischt. Können die Informationen aus den einzelnen Stichproben gebündelt<br />

werden, um schärfere Aussagen machen zu können?<br />

Die 30 Stichproben sollen zusammengefaßt werden. Es sollen die Durchschnittswerte<br />

der sechs Maßzahlen Minimum bis Maximum gebildet werden. Das<br />

durchschnittliche Minimum wird dann beispielsweise aus der Summe der jeweils<br />

kleinsten Beobachtungen in den 30 Stichproben gebildet,welche durch 30 geteilt<br />

wird.<br />

> <br />

Durchschnitte von:<br />

Min. 1st Qu. Median Mean 3rd Qu. Max.<br />

4.37 30.64 59.47 101.40 112.92 527.60


1.2. ANALYSE UNIVARIATER DATEN 43<br />

Die Ergebnisse sind in mancherlei Hinsicht immer noch recht ungenau. Die<br />

nächste Graphik zeigt den Boxplot aller 30 Mittelwerte und Mediane ergänzt um<br />

alle 30 errechneten Mittelwerte und Mediane:<br />

> in:8<br />

50 100 150 200 250<br />

*<br />

Boxplot der Mittelwerte und Mediane<br />

sowie die Masszahlen selber<br />

*<br />

*<br />

*<br />

*<br />

*<br />

* *<br />

* * *<br />

* *<br />

* *<br />

*<br />

*<br />

*<br />

* *<br />

* *<br />

* *<br />

* *<br />

* *<br />

* *<br />

*<br />

*<br />

*<br />

*<br />

* *<br />

* *<br />

* * *<br />

* ** * *<br />

*<br />

*<br />

* *<br />

* *<br />

*<br />

Mittelwert Median<br />

Abbildung 7<br />

*<br />

* * *<br />

Wie man sieht schwanken die Realisationen bei den Mittelwerten deutlich<br />

stärker als bei den Medianen.<br />

XXXXXXXXXXXXXXX<br />

Nun könnte man sich fragen, wozu das ganze? Stichproben sind dann wichtig,<br />

wenn man die Grundgesamtheit insgesamt nicht erreichen kann oder wenn diese<br />

zu groß ist, als daß man sie sich insgesamt vornehmen kann. Man muß sich also auf<br />

seine Stichprobe und den daraus genierten Maßzahlen und Graphiken verlassen<br />

können. Die Experimente auf den letzten Seiten dienten dazu, diesen Blick zu<br />

schärfen.<br />

XXXXXXXXXXXXXXXXXXXX<br />

Betrachtungen zur Streuung<br />

Ohne Streuung keine Statistik! Das klingt nach einer gewagten Formulierung,<br />

entspricht aber bei genauerem Hinsehen den Umständen. Wann sind einem schon<br />

mal Daten untergekommen, die nicht streuen, die sich also in ihrer n-Fachheit<br />

auf einen Punkt konzentrieren? Vermutlich gar nicht.<br />

Wie unterscheiden sich die Beobachtungen? Was für Ursachen hat die Streuung<br />

und was für Konsequenzen ergeben sich daraus? Ist der Unterschied in den<br />

out:8


44 KAPITEL 1. BESCHREIBENDE STATISTIK<br />

Beobachtungen lediglich eine zufällige Laune oder steckt mehr dahinter? Streuung<br />

macht eine Analyse erst notwendig, sie ist das Salz in der statistischen Suppe.<br />

Über die Lage wissen wir nun so einiges. Was hält man aber vom folgenden<br />

Umgang in einer Tageszeitung mit eben diesen Lageschätzern?<br />

Ich habe nicht 80 Tafeln Schokolade im vergangenen Jahr gegessen. Und wie<br />

sieht es beim Einkommen aus? Sozialhilfeempfänger werden die Angaben zum<br />

verfügbaren Einkommen vermutlich eher bestätigen können als Mitglieder der<br />

Gruppe der Selbständigen. Warum ist das so? Es liegt an der Streuung.<br />

Gerade bei den Selbständigen wird das verfügbare Einkommen enormen Unterschieden<br />

ausgesetzt sein. Wie sind die verschiedenen Mittelwerte zustande gekommen?<br />

Wird dem Leser das arithmetische Mittel präsentiert oder der Median<br />

oder der Modus? Wenn die Angabe 172.800 DM nun das arithmetische Mittel sein


1.2. ANALYSE UNIVARIATER DATEN 45<br />

sollte, wie kann die Zahl dann interpretiert werden? Wie würde ein Bill Gates eine<br />

solche Statistik beeinflussen?<br />

Man hat das Gefühl, daß die bloße Angabe eines Mittelwertes oder auch eines<br />

Medians nicht ausreicht, um Aussagen über die Einkommensverhältnisse so vieler<br />

Menschen zu machen. Offensichtlich würde ein Boxplot in dieser Situation bereits<br />

für viel Klarheit sorgen. Es gibt eine Reihe von Maßzahlen, die versuchen, diese<br />

Unterschiede bei den Beobachtungen zu quantifizieren.<br />

Definition: Spannweite (range)<br />

Wie groß ist der Bereich, auf dem die Daten liegen? Wie breit machen sich die<br />

Daten auf der Merkmalsachse?<br />

sw = x(n) − x(1)<br />

Definition: Interquartilsabstand (iqd, iqr)<br />

Wie groß ist der Bereich, auf dem die zentralen 50% Daten liegen? Wie breit<br />

ist das Rechteck beim Boxplot?<br />

iqr = x0.75 − x0.25<br />

Diese beiden Maßzahlen zusammen betrachtet geben bereits erste Aufschlüsse<br />

über die Eigenarten eines Datensatzes. Sind nämlich die Unterschiede zwischen<br />

den beiden Maßzahlen außergewöhnlich groß — dabei ist natürlich die Maßeinheit<br />

zu berücksichtigen —, dann ist das ein erstes Indiz für Ausreißer im Datensatz.<br />

Bei der Stichprobe x und auch beim gesamten Datensatz buecher.stud scheint<br />

das gerade der Fall zu sein — vgl. Seite 41:<br />

> diff(range(x)); diff(range(buecher.stud))<br />

> iqd(x); iqd(buecher.stud) in:8<br />

795<br />

3000<br />

60<br />

80<br />

Die 795 ist wesentlich größer als die 60, und auch 3000 ist viel größer als 80.<br />

Die nächsten beiden Graphiken verallgemeinern nun diese Idee. Es werden<br />

die p%-zentralen Daten betrachtet, wobei p alle Werte zwischen 0% und 100%<br />

annimmt. Es wird jeweils die Spannweite ausgerechnet und gegen p abgetragen.<br />

Für p = 100 ergibt sich der range, für p = 0.5 der Interquartilsabstand.<br />

<br />

<br />

out:8


in:8<br />

out:8<br />

Spannweiten<br />

in:8<br />

out:8<br />

0 200 400 600 800<br />

46 KAPITEL 1. BESCHREIBENDE STATISTIK<br />

> range.plot(x,marker=c(0.25,0.50,0.75,0.95))<br />

> range.plot(buecher.stud,marker=c(0.25,0.50,0.75,0.95))<br />

Spannweiten in Abh. von p<br />

fuer x<br />

0 20 40 60 80 100<br />

p%<br />

Spannweiten<br />

0 500 1000 1500 2000 2500 3000<br />

Spannweiten in Abh. von p<br />

fuer Anzahl Buecher<br />

0 20 40 60 80 100<br />

Die Bilder decken sehr anschaulich auf, daß der Platzverbrauch der beiden<br />

Datensätze in bezug auf die Merkmalsachse stark ansteigt. Die mittleren 50%<br />

bzw. die mittleren 75% der Daten machen sich nicht übermäßig breit auf der<br />

Merkmalsachse.<br />

Definition: Stichprobenvarianz s 2 / Mittlere quadratische Abweichung<br />

d 2<br />

d 2 = 1<br />

n ·<br />

s 2 = 1<br />

n − 1 ·<br />

n<br />

(xi − ¯x) 2<br />

i=1<br />

n<br />

(xi − ¯x) 2 =<br />

i=1<br />

n − 1<br />

n<br />

Die (Stichproben-) Standardabweichung s ist die Wurzel aus der Stichprobenvarianz.<br />

Sie ist wie das arithmetische Mittel ausreißerempfindlich.<br />

Die Wurzel aus den beiden Maßzahlen gibt jeweils die durchschnittliche Entfernung<br />

der Beobachtungen zum arithmetischen Mittel an.<br />

Anmerkung: Die Bedeutung der unterschiedlichen Gewichtungen der beiden<br />

Maßzahlen wird im Kapitel XXXXX deutlich. Hier reicht der Hinweis: Ist n<br />

groß, ist der Unterschied zu vernachlässigen. <br />

Die Standardabweichung ist eine wichtige Maßzahl zur Beschreibung der<br />

Streuung von Datensätzen.<br />

· s 2<br />

> sqrt(var(x)); sqrt(msd(x))<br />

> sqrt(var(buecher.stud)); sqrt(msd(buecher.stud))<br />

p%


1.2. ANALYSE UNIVARIATER DATEN 47<br />

175.76 171.31<br />

257.81 257.15<br />

In bezug auf den gesamten Datensatz heißt das also, daß im Durchschnitt<br />

die Studierenden fast 260 Bücher weniger oder mehr haben als das arithmetische<br />

Mittel von etwa 120 Büchern angibt. Nun ist offenbar 120 − 260 kleiner als Null.<br />

Die hohe Streuung ist also durch Ausreißer nach oben zu erklären.<br />

Schauen wir uns die Formel zur Berechnung von s bzw. d einmal genauer<br />

an. Wenn man durchschnittliche Abstände haben möchte, warum wird dann zunächst<br />

das Quadrat dieser Abstände gebildet? Warum werden nicht die einfachen<br />

Differenzen aufsummiert, was naheliegend erscheint?<br />

Satz 3: Die Summer aller Abweichungen vom arithmetischen Mittel<br />

ist immer Null. <br />

Beweis von Satz 3:<br />

n<br />

(xi − ¯x) =<br />

i=1<br />

=<br />

=<br />

=<br />

= 0<br />

n<br />

i=1<br />

xi −<br />

n<br />

¯x<br />

i=1<br />

n<br />

xi − n · ¯x<br />

i=1<br />

n<br />

xi − n · 1<br />

n<br />

n n<br />

i=1<br />

i=1<br />

xi −<br />

Dieser Umstand liegt an der Definition des Mittelwertes. Die negative Summe<br />

der Abstände der Beobachtungen zum arithmetischen, die kleiner als der Mittelwert<br />

sind, ist gerade genauso groß wie die entsprechende positive Summe. Der<br />

Mittelwert ist damit übrigens gerade die Stelle des Schwerpunkts eines physikalischen<br />

Systems.<br />

Natürlich hätte man auch die absoluten Abstände aufaddieren können. Mit<br />

Beträgen rechnet es sich allerdings schwerer als mit Quadraten.<br />

i=1<br />

xi<br />

n<br />

i=1<br />

xi<br />


in:8<br />

out:8<br />

in:8<br />

out:8<br />

48 KAPITEL 1. BESCHREIBENDE STATISTIK<br />

Definition: Variationskoeffizient<br />

vk = s<br />

¯x<br />

Ein relatives Streuungsmaß ermöglicht den Vergleich verschiedenartiger<br />

Datensätze in bezug auf die Streuung. Die Dimensionen werden bei der Berechnung<br />

herausgekürzt.<br />

Es erleichtert ebenso den Streuungsvergleich von Daten mit unterschiedlichen<br />

Mittelwerten. Eine Standardabweichung von 1 bei einem Mittelwert von 10<br />

hat naturgemäß eine andere Bedeutung als die gleiche Standardabweichung<br />

bei einem Mittelwert von vielleicht 100.<br />

Anmerkung: Bei einem Mittelwert nahe Null stößt man auf Interpretationsgrenzen.<br />

<br />

Wir wissen, daß der Unterschied in den arithmetischen Mitteln nicht zu groß<br />

ist. Der Variationskoeffizient wird dahingehend keine Überraschungen produzieren.<br />

Aber ein Variationskoeffizient von über 2 heißt, daß im Durchschnitt die<br />

Beobachtungen mehr als doppelt so weit vom arithmetischen Mittel entfernt liegen.<br />

Diese Feststellung relativiert die Aussagekraft des Mittelwertes gehörig:<br />

> sqrt(var(x))/mean(x)<br />

> sqrt(var(buecher.stud))/mean(buecher.stud)<br />

1.52<br />

2.16<br />

Es soll wieder der Versuch unternommen werden, eine Graphik aus den Daten<br />

zu erzeugen, welche die Veränderung des Streuungsmaßes bei sukzessiver Hinzunahme<br />

der Datenpunkte aufzeigt:<br />

> vk.plot(buecher.stud); vk.plot(x,add=T)<br />

> vk.plot(gewicht.stud); vk.plot(groesse.stud,add=T)


vk<br />

0.0 0.5 1.0 1.5 2.0<br />

1.2. ANALYSE UNIVARIATER DATEN 49<br />

Variationskoeffizient in Abh. von p<br />

fuer Anzahl Buecher und x<br />

0 20 40 60 80 100<br />

p%<br />

vk<br />

Variationskoeffizient in Abh. von p<br />

fuer Gewicht und Groesse<br />

0 20 40 60 80 100<br />

In der linken Graphik ist die Stichprobe x gestrichelt dargestellt. Zum Vergleich<br />

sind in der rechten Graphik für die Datensätze Größe und Gewicht die<br />

gleichen Bilder erzeugt worden. Bei diesen Datensätzen ist der Verlauf der Kurven<br />

eben nicht durch ein plötzliches sprunghaftes Ansteigen gekennzeichnet.<br />

Definition: Median Absolute Deviation (MAD)<br />

Der Median der absoluten Entfernungen aller Beobachtungen vom Median<br />

0.0 0.1 0.2 0.3 0.4 0.5<br />

MAD = Median{|x1 − x0.5|, . . . , |xn − x0.5|}<br />

Der MAD wird in der Regel durch die Zahl 0.6745 geteilt. Diese Normierung<br />

bewirkt, daß der Schätzer bessere theoretische Eigenschaften hat (vgl. Kapitel<br />

XXXXXX).<br />

Der MAD ist ein robuster Schätzer für die Streuung. <br />

Satz 2: Der MAD der Standardnormalverteilung ist der 75%-Punkt<br />

der Standardnormalverteilung: Z0.75 = 0.6745 <br />

p%


in:8<br />

out:8<br />

50 KAPITEL 1. BESCHREIBENDE STATISTIK<br />

Beweis von Satz 2: Sei Z standardnormalverteilt, Z ∼ N(0, 1). Da der<br />

Median der Standardnormalverteilung Null ist, ist zunächst die Verteilung von<br />

Y = |Z − 0| = |Z| gesucht:<br />

FY (y) = P (Y ≤ y)<br />

= P (|Z| ≤ y)<br />

= P (−y ≤ Z ≤ y)<br />

= Φ(y) − Φ(−y)<br />

= 2Φ(y) − 1<br />

Die Zufallsvariable Y ist so definiert worden, daß der Median y0.5 gerade der<br />

MAD von Z ist:<br />

Daraus ergibt sich nun aber:<br />

FY (y0.5) = 0.5<br />

2Φ(y0.5) − 1 = 0.5<br />

Φ(y0.5) = 0.75<br />

y0.5 = Φ(0.75) −1 = 0.6745<br />

Also ist der MAD der Standardnormalverteilung gerade Z0.75, also der 75%-<br />

Punkt.<br />

> qnorm(0.75)<br />

0.6744898<br />

Die Berechnung des MAD soll anhand von x demonstriert werden. Es werden<br />

zunächst die absoluten Entfernungen vom Median bestimmt. Aufgrund der<br />

gewählten Darstellung läßt sich bereits der Median dieser Abstände erkennen:<br />

> entfernung halbe.halbe(sort(entfernung))<br />

> median(entfernung)<br />

5 5 5 5 5 15 25 25 25 35<br />

35 35 45 55 55 60 85 135 235 735<br />

35<br />

Der tatsächliche Median dieser Abstände, 35, ist nun noch zu normieren. Die<br />

Funktion mad() kommt zum selben Ergebnis:<br />


1.2. ANALYSE UNIVARIATER DATEN 51<br />

> median(entfernung)/0.6745<br />

> mad(x)<br />

> mad(buecher.stud) in:8<br />

51.89<br />

51.89<br />

44.48<br />

Diese neuen Erkenntnisse relativieren die sehr starken Streuungen. Jene sind<br />

durch eine Reihe großer Beobachtungen nach oben gedrückt worden.<br />

Betrachtungen zur Verteilung<br />

Zu Beginn des Kapitels haben wir das Histogramm kennengelernt, um möglichst<br />

kompakt etwas über einen Datensatz zu erfahren. Auf einen Blick kann man<br />

erkennen, wo das Zentrum der Daten liegt und wie die Daten darum verteilt<br />

sind. Ganz wunschlos glücklich kann man mit dem Histogramm nicht sein, da<br />

nichts über das Innenleben der Klassen erfährt und da die Klassen mehr oder<br />

weniger willkürlich gebildet werden, ist dies u.U. ein unbefriedigender Zustand.<br />

Betrachten wir einmal die folgende Graphik — das Histogramm kennen wir<br />

bereits von der Seite XXXX:<br />

Haeufigkeitsdichte<br />

0.00 0.01 0.02 0.03 0.04<br />

Histogramm mit Dichtespur<br />

40 60 80 100 120<br />

Gewicht<br />

Die Kurve, die über das Histogramm gelegt wurde, ist ein sogenannter Kerndichteschätzer.<br />

Man könnte diesen vielleicht als verstetigtes Histogramm bezeichnen.<br />

Je höher die Kurve, desto dichter und gehäufter liegen die Beobachtungen<br />

in diesem Bereich, genau wie beim Histogramm. Der Unterschied ist nun<br />

aber, daß jeder einzelne Punkt mit seiner individuellen Lage einen Beitrag zur<br />

Höhe der Kurve leistet, die entstehende Kurve ist zudem glatt und kann daher<br />

out:8


52 KAPITEL 1. BESCHREIBENDE STATISTIK<br />

viel besser auf Eigenarten eines Datensatzes eingehen. Beim Histogramm interessierte<br />

lediglich die Zugehörigkeit zur Klasse, es entsteht ein Gebilde aus vielen<br />

Rechtecken.<br />

Die Kurve verrät zum Beispiel, und zwar ohne daß eine bestimmte (und künstliche)<br />

Klasseneinteilung gewählt werden muß, wo das Zentrum der Daten liegt und<br />

wie innerhalb der Klassen die Daten verteilt sind. Die nächste Graphik kombiniert<br />

die Dichtespur mit dem Stabdiagramm. Das Stabdiagramm erklärt sehr schön den<br />

Verlauf der Dichtespur. Gleichzeitig wird deutlich, daß ein Stabdiagramm für diesen<br />

Datensatz eben nicht gut geeignet ist, während die Kurvendarstellung sehr<br />

angemessen zu sein scheint:<br />

0.00 0.01 0.02 0.03 0.04<br />

Dichtespur mit Stabdiagramm<br />

40 60 80 100 120<br />

Gewicht<br />

Wie kommt man nun zu dieser Kurve? Die Konstruktion setzt auf der<br />

Grunderkenntnis auf, daß die (theoretische) Dichtefunktion fX(x) gerade die Ableitung<br />

der Verteilungsfunktion FX(x) ist. Folgender Zusammenhang gilt — man<br />

beachte, daß im stetigen Fall jeder diskrete Punkt die Wahrscheinlichkeit Null<br />

zugewiesen bekommt:<br />

fX(x) = dFX<br />

(x) = lim<br />

dx h→0<br />

1<br />

2h<br />

P (x − h < X < x + h)<br />

Die Dichte an einer Stelle x ist also die Wahrscheinlichkeit, daß sich die Zufallsvariable<br />

X in einer aber-witzig winzigen Umgebung um die Stelle x realisiert,<br />

genaugenommen im Moment des Grenzübergangs zum völligen Verschwinden dieser<br />

Umgebung.


1.2. ANALYSE UNIVARIATER DATEN 53<br />

Exkurs: Differentialquotient<br />

Der Differenzenquotient<br />

f(x) − f(x0)<br />

x − x0<br />

gibt die Steigung der Sekante durch die Punkte (x, f(x)) und (x0, f(x0))<br />

an. Der Differentialquotient<br />

f(x) − f(x0)<br />

lim<br />

x→x0 x − x0<br />

gibt die Steigung des Funktionsgraphen an der Stelle x0 an.<br />

Grob gilt also für die Funktion F (x) — statt x → x0 soll ein Intervall um<br />

x betrachtet werden mit h → 0:<br />

= F (x + h) − F (x − h)<br />

F (x) − F (x0)<br />

x − x0<br />

= F (x + h) − F (x − h)<br />

x + h − (x − h)<br />

=<br />

2h<br />

P (X ≤ x + h) − P (X ≤ x − h)<br />

2h<br />

= P (x − h < X < x + h)<br />

2h<br />

Für jeden Wert von h muß die Wahrscheinlichkeit, daß die Zufallsvariable sich<br />

in dem Intervall der Größe 2h um x ∈ R realisiert, abgeschätzt werden, das heißt,<br />

es muß gezählt werden, es wurden Realisationen von X, die Xi, beobachtet:<br />

ˆP (x − h < X < x + h) = 1/n · (Anzahl der Xi in (x − h, x + h))<br />

Daraus ergibt sich:<br />

ˆfX(x) = 1<br />

2hn · (Anzahl der Xi in (x − h, x + h))<br />

Diese Funktion läßt sich auch kompakter folgendermaßen schreiben:<br />

mit dem sogenannten Kern<br />

ˆfX(x) = 1<br />

n<br />

w(x) =<br />

n 1<br />

h w<br />

<br />

x −<br />

<br />

Xi<br />

h<br />

i=1<br />

1/2 für |x| < 1<br />

0 sonst<br />


54 KAPITEL 1. BESCHREIBENDE STATISTIK<br />

Falls also <br />

x − Xi<br />

h<br />

<br />

<br />

<br />

< 1<br />

gilt, dann nimmt w() den Wert 1/2 an, also gerade dann, wenn gilt<br />

x − h < Xi < x + h<br />

Jeder Punkt Xi, der im Intervall um x liegt, liefert zur Gesamtsumme gerade 1/2<br />

dazu. Die beiden Darstellungen von ˆ f() sind also äquivalent.<br />

Der Dichteschätzer wird demnach folgendermaßen konstruiert: Um jede Be-<br />

obachtung wird ein Rechteck mit der Breite 2h und mit der Höhe 1<br />

2hn<br />

gelegt. Die<br />

Höhen der Rechtecke werden aufsummiert.<br />

Für die Daten 3,4,6,9,14 sind vier Kerndichteschätzer mit jeweils verschiedenen<br />

Werten von h konstruiert worden — die 5 Datenpunkte sind auf der<br />

Nullachse eingetragen:<br />

0.00 0.05 0.10 0.15 0.20<br />

0.00 0.02 0.04 0.06 0.08 0.10<br />

Kerndichteschaetzer mit<br />

h= 1<br />

0 5 10 15<br />

Fensterbreite: 2<br />

Kerndichteschaetzer mit<br />

h= 3<br />

0 5 10 15 20<br />

Fensterbreite: 6<br />

0.00 0.05 0.10 0.15<br />

0.00 0.02 0.04 0.06 0.08<br />

Kerndichteschaetzer mit<br />

h= 2<br />

0 5 10 15<br />

Fensterbreite: 4<br />

Kerndichteschaetzer mit<br />

h= 5<br />

−5 0 5 10 15 20<br />

Fensterbreite: 10<br />

Die geschätzte Dichte ist definiert über dem gesamten R. Das erste Mal, daß<br />

die Dichte positiv wird, ist dann, wenn der linke Rand des Fensters um die kleinste<br />

Beobachtung erreicht wird, dann springt ˆ f() auf 1/(2 · h · n).<br />

An den Graphiken kann man gut den Einfluß der Fensterbreite (= 2 · h) auf<br />

den Verlauf der Dichteschätzung sehen. Mit größer werdendem h gehen lokale<br />

Informationen verloren, die Kurve verläuft dafür weniger zickig.<br />

Die nächste Graphik veranschaulicht die Summation der einzelnen Beiträge


1.2. ANALYSE UNIVARIATER DATEN 55<br />

für h = 1— jeder Beitrag ist natürlich exakt 1/(2 · 1 · 5) = 1/10, aus Darstellungsgründen<br />

schwanken die Geraden um 1/10:<br />

0.1<br />

Beitrag einer Beobachtung<br />

zur Dichteschaetzung<br />

0 5 10 15 20<br />

Aufgrund der Wahl der Kernfunktion erhalten alle Punkte, die in dem Fenster<br />

liegen, das gleiche Gewicht. Das heißt, ein Punkt, der nah an x liegt, liefert<br />

denselben Beitrag zur Summe wie ein Punkt, der sich am äußersten Rand des<br />

Fensters um x befindet. Dieses Vorgehen führt zum eckigen, also nicht glatten<br />

Aussehen der Dichteschätzung.<br />

Es soll nun eine Kernfunktion w() gewählt werden, die so gewichtet, daß<br />

Beobachtungen, die näher an x liegen einen höheren Beitrag zur Summe liefern,<br />

als Beobachtungen, die zwar im Fenster aber doch weiter weg von x sind.<br />

Wählt man w() nun auch noch so, daß w() selber eine Dichtefunktion ist,<br />

dann hat der Dichteschätzer alle Eigenschaften einer Dichtefunktion.<br />

Gerne wählt man die Standardnormalverteilung als Kernfunktion:<br />

h= 1<br />

w(x) = 1 1<br />

− √ e 2<br />

2π x2


56 KAPITEL 1. BESCHREIBENDE STATISTIK<br />

0.00 0.05 0.10 0.15 0.20<br />

0.00 0.02 0.04 0.06 0.08 0.10 0.12<br />

Kerndichteschaetzer mit<br />

h= 1<br />

2 4 6 8 10 12 14 16<br />

Fensterbreite: 2<br />

Kerndichteschaetzer mit<br />

h= 3<br />

0 5 10 15<br />

Fensterbreite: 6<br />

0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14<br />

0.00 0.02 0.04 0.06 0.08<br />

Kerndichteschaetzer mit<br />

h= 2<br />

0 5 10 15<br />

Fensterbreite: 4<br />

Kerndichteschaetzer mit<br />

h= 5<br />

−5 0 5 10 15 20<br />

Fensterbreite: 10<br />

Die Ähnlichkeit zu den Dichteschätzern mit Rechtecksfunktion als Kern ist<br />

nicht zu übersehen. Mit zunehmender Fensterbreite wird der Funktionsverlauf<br />

glatter, es gehen aber lokale Informationen verloren. Bei der Wahl von h sollte<br />

also nach einem Kompromiß zwischen glattem Kurvenverlauf und wenig Informationsverlust<br />

gesucht werden. Ein Vorschlag ist zum Beispiel, h = iqd(x), also<br />

den doppelten Interquartilsabstand als Fensterbreite zu wählen .<br />

Der Vollständigkeit halber zeigt die folgende Graphik die verschiedenen Gaußkurven,<br />

die durch Addition zum Dichteschätzer führen:<br />

0.00 0.05 0.10 0.15 0.20<br />

Beitrag einer Beobachtung<br />

zur Dichteschaetzung<br />

0 5 10 15 20<br />

Fensterbreite 2<br />

Für die Gewichtsdaten sind noch einmal 4 Dichteschätzer mit verschiedenen<br />

Einstellungen für die Fensterbreite erzeugt worden:


1.2. ANALYSE UNIVARIATER DATEN 57<br />

0.00 0.01 0.02 0.03 0.04 0.05 0.06<br />

0.00 0.01 0.02 0.03<br />

Dichteschaetzer mit<br />

2h=1/2*Iqd<br />

60 80 100 120<br />

Fensterbreite: 2.5<br />

Dichteschaetzer mit<br />

2h=2*Iqd<br />

40 60 80 100 120<br />

Fensterbreite: 10<br />

0.00 0.01 0.02 0.03 0.04<br />

0.000 0.005 0.010 0.015 0.020 0.025 0.030<br />

Dichteschaetzer mit<br />

2h=Iqd<br />

40 60 80 100 120<br />

Fensterbreite: 5<br />

Dichteschaetzer mit<br />

2h=4*Iqd<br />

40 60 80 100 120<br />

Fensterbreite: 20<br />

Zum Abschluß wollen wir noch verschiedene Dichteschätzer für den Datensatz<br />

Anzahl Bücher bzw. der Zufallsstichprobe x betrachten:<br />

0.000 0.002 0.004 0.006 0.008<br />

0.000 0.002 0.004 0.006 0.008<br />

Dichteschaetzer<br />

x<br />

0 200 400 600 800<br />

Fensterbreite: 60<br />

Dichteschaetzer<br />

Anzahl Buecher<br />

0 500 1000 2000 3000<br />

Fensterbreite: 80<br />

0.000 0.001 0.002 0.003 0.004 0.005 0.006 0.007<br />

0.000 0.001 0.002 0.003 0.004 0.005 0.006<br />

Dichteschaetzer<br />

x<br />

0 200 400 600 800<br />

Fensterbreite: 120<br />

Dichteschaetzer<br />

Anzahl Buecher<br />

0 500 1000 2000 3000<br />

Fensterbreite: 160<br />

In der oberen Zeile ist die Stichprobe, in der unteren der gesamte Datensatz


in:8<br />

58 KAPITEL 1. BESCHREIBENDE STATISTIK<br />

dargestellt. Die Fensterbreite ist in der ersten Spalte jeweils der einfach Interquartilsabstand,<br />

in der zweiten Spalte ist es der doppelte.<br />

Neben den Maßzahlen zu Lage und Streuung, existiert ebenso die Möglichkeit,<br />

das Aussehen einer Verteilung mit geeigneten Maßzahlen zu beschreiben. Ein<br />

erster Ansatz bietet der Vergleich der drei vorgestellten zentralen Lageschätzer.<br />

Verteilen sich die Daten nämlich gleichmäßig um ein Symmetriezentrum, dann<br />

sind Modus, Median und arithmetisches Mittel ungefähr gleich groß:<br />

> cbind(modus=modus(gewicht.stud),median=median(gewicht.stud),<br />

mean=mean(gewicht.stud))<br />

> cbind(modus=modus(groesse.stud),median=median(groesse.stud),<br />

mean=mean(groesse.stud))<br />

out:8 modus median mean<br />

70 70 69.41<br />

modus median mean<br />

180 180 178.79<br />

in:8<br />

Der Vergleich der drei Maßzahlen bestätigt die Vermutung, daß die Datensätze<br />

symmetrisch und nicht schief sind. Und bei den Büchern?<br />

> cbind(modus=modus(x),median=median(x),mean=mean(x))<br />

> cbind(modus=modus(buecher.stud),median=median(buecher.stud),<br />

mean=mean(buecher.stud))<br />

out:8 modus median mean<br />

50 65 115.75<br />

modus median mean<br />

50 50 119.58<br />

Diese Konstellation — modus(x) < median(x) < mean(x) — deutet auf eine<br />

rechtsschiefe bzw. linkssteile Datensituation hin. Wenn man sich den Dichteschätzer<br />

anschaut, dann stellt man fest, daß dieser links stark ansteigt, um dann nach<br />

rechts abzufallen. Gilt das umgekehrte so nennt man die Verteilung der Daten<br />

linksschief bzw. rechtssteil.<br />

Zwei Maßzahlen sollen vorgestellt, die Berechnungen kurz argumentiert werden.<br />

Alle Maßzahlen, zunächst einmal abgesehen von den robusten, wurden folgendermaßen<br />

berechnet: Für jedes xi wird die Differenz zu einem bestimmten<br />

Zentrum gebildet. Diese Differenz wird potenziert, das ganze wird aufsummiert.<br />

Beim arithmetischen Mittel wurde die Differenz zur Null betrachtet und die<br />

Potenz war Eins. Bei d 2 bzw. s 2 wurde die Differenz zu ¯x betrachtet, potenziert<br />

wurde mit zwei. Je größer nun die Zahl ist, mit der potenziert wird, desto mehr<br />

Gewicht wird an die Ränder des Datensatzes verlegt, da die größeren Differenzen


1.2. ANALYSE UNIVARIATER DATEN 59<br />

durch die hohe Potenz mehr betont werden als die kleinen Differenzen, also als<br />

Daten, die nah bei ¯x liegen. Damit ist der Einfluß der weit entfernten Datenpunkte<br />

auf diese Maßzahlen größer.<br />

Definition: Schiefe<br />

S = 1<br />

n ·<br />

n i=1 (xi − ¯x) 3<br />

(d2 ) 3/2<br />

• S > 0: Die Daten sind rechtsschief.<br />

• S = 0: Die Daten sind symmetrisch.<br />

• S < 0: Die Daten sind linksschief.<br />

Hinweis: Durch die Normierung mit d 3 ist die Maßzahl dimensionslos. <br />

> schiefe(x); schiefe(buecher.stud)<br />

> schiefe(groesse.stud); schiefe(gewicht.stud)<br />

3.188 0.0095<br />

8.186 0.6004<br />

Die Maßzahlen bestätigen die vorherigen Überlegungen.<br />

Definition: Kurtosis<br />

K = 1<br />

n ·<br />

n i=1 (xi − ¯x) 4<br />

(d2 ) 2<br />

K ∗ = K − 3<br />

• K ∗ > 0: Die Wölbung an den Rändern der Dichte ist im Vergleich zur<br />

Normalverteilung niedriger. Es liegt mehr Dichtemasse am Rand.<br />

• K ∗ = 0: Die Ränder gleichen denen der Normalverteilung.<br />

• K ∗ < 0: Die Wölbung an den Rändern ist niedriger. Es liegt weniger<br />

Dichtemasse am Rand.<br />

Hinweis: Auch diese Maßzahl ist dimensionslos. Im Falle der Normalverteilung<br />

ist die (theoretische) Kurtosis K gerade 3. <br />

> kurtosis(x); kurtosis(buecher.stud)<br />

> kurtosis(groesse.stud)-3; kurtosis(gewicht.stud)-3<br />

in:8<br />

out:8<br />

in:8<br />

out:8


in:8<br />

out:8<br />

60 KAPITEL 1. BESCHREIBENDE STATISTIK<br />

12.831 -0.208<br />

85.407 0.844<br />

Wer auf den alten 10-Mark Schein schaut, weiß, wie die Dichte der Normalverteilung<br />

aussieht — wer keine DM-Noten mehr hat, muß bis Kapitel XXXX<br />

warten. Die beiden Bücherdatensätze haben wesentlich mehr Dichtemasse an den<br />

Rändern. Aufgrund der Schiefemaßzahl wissen wir aber auch, daß diese Masse<br />

nicht symmetrisch, d.h. nicht gleichmäßig rechts und links vom Zentrum liegt.<br />

Mit diesen beiden Maßzahlen hat man auch ein erstes Indiz dafür, ob bei einem<br />

konkreten Datensatz die Normalverteilungsannahme gerechtfertigt ist. Für sehr<br />

viele Verfahren ist diese Annahme nämlich Voraussetzung.<br />

Definition: Box-Cox-Transformation<br />

Ein Datensatz x wird auf einen neuen Datensatz y = T (x) abgebildet, der<br />

in Abhängigkeit vom Parameter λ (sprich: Lambda“) eine geringere Schiefe<br />

”<br />

aufweist als der ursprüngliche Datensatz.<br />

T (x) =<br />

x λ −1<br />

λ<br />

für λ = 0<br />

ln x für λ = 0<br />

Dieses Vorgehen ist dadurch zu begründen, daß weitergehende Analysen und<br />

Modellierungen der Daten mit asymmetrischen Datensätzen schwieriger ist als<br />

mit symmetrischen. <br />

Um beispielsweise der Normalverteilungsannahme näherzukommen, kann sich<br />

die Box-Cox-Transformation als geeignete Maßnahme erweisen. Eine Möglichkeit,<br />

einen günstigen Wert für λ zu ermitteln, ist, eine ganze Reihe von Box-Cox-<br />

Transformationen für einen Datensatz durchzuführen und jeweils S und K ∗ zu<br />

berechnen. Eine graphische Darstellung hilft dann bei der Entscheidung:<br />

> box.cox.plot(x)<br />

> box.cox.plot(buehcer.stud)


1.2. ANALYSE UNIVARIATER DATEN 61<br />

Kurtosis<br />

0 2 4 6 8 10 12 14<br />

Kurtosis und Schiefe<br />

fuer x<br />

Fuer lambda=0<br />

S=−0.13, K*=0.2<br />

−2 0 2 4<br />

Schiefe<br />

Kurtosis<br />

0 50 100 150<br />

Fuer lambda=0.1<br />

S=−0.23, K*=1.36<br />

Kurtosis und Schiefe<br />

fuer Anzahl Buecher<br />

0 5 10<br />

Nimmt man nun die Vorschläge für λ auf, gelangt man zu folgenden Verteilungen:<br />

0.0 0.1 0.2 0.3 0.4<br />

0.00 0.05 0.10 0.15 0.20<br />

boxcox mit λ=0.1<br />

0 2 4 6 8<br />

urspr. x<br />

boxcox mit λ=0.1<br />

0 5 10 15<br />

urspr. Anzahl Buecher<br />

boxcox mit λ=0<br />

urspr. x<br />

Schiefe<br />

2 3 4 5 6<br />

boxcox mit λ=0.1<br />

0 2 4 6 8 10 12<br />

urspr. Anzahl Buecher<br />

Durch die Transformation ist erreicht worden, daß die starke Rechtsschiefe<br />

ausgeglichen wurde. Die Merkmalsachse ist nicht mehr im Sinne der ursprünglichen<br />

Daten interpretierbar. Für Modellierungsversuche ist das aber u.U. nicht<br />

wichtig.


in:8<br />

out:8<br />

in:8<br />

out:8<br />

62 KAPITEL 1. BESCHREIBENDE STATISTIK<br />

1.2.3 Die empirische Verteilungsfunktion<br />

Auf der Seite 33 wurde der Dot-Plot einer Zufallsstichprobe Stichprobe vom Umfang<br />

n = 20 aus dem Datensatz Anzahl Bücher gezeigt. Was halten Sie von dieser<br />

leicht veränderten Darstellung der Daten?<br />

> dot.plot(sort(x),main="Dot Plot von x_(i)",<br />

xlab="Anzahl Buecher",ylab="(i)")<br />

(i)<br />

2 4 6 8 10 12 14 16 18 20<br />

Dot Plot von x_(i)<br />

0 200 400 600 800<br />

Anzahl Buecher<br />

Abbildung 7<br />

In diesem Dot-Plot sind nicht die xi sondern die x(i) abgetragen worden, also<br />

die Rangwertreihe. Ganz vorsichtig sind zwei Geraden hinzugefügt worden, vertikal<br />

durch den Median bzw. horizontal die Stelle 10 verlaufend. Die Zahlen X von<br />

0 bis 20 sind auf die Zahlen Z = (x − min(X))/(max(X) − min(X)) von 0 bis<br />

1 transformiert worden. Diese Transformation ist als zusätzliche vertikale Achse<br />

eingezeichnet.<br />

Im Gegensatz zum normalen Dot-Plot wird durch die Lage der Punkte eine<br />

Kurve beschrieben, die von links unten nach rechts oben verläuft. Das Steigungsverhalten<br />

der Kurve schwankt stark. Am Anfang verläuft die Kurve steiler, am<br />

Ende flacht sie ab.<br />

Die Graphik soll, leicht verändert, noch einmal dargestellt werden:<br />

> emp.cdf(x,stetig=F)<br />

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1


1.2. ANALYSE UNIVARIATER DATEN 63<br />

kum. rel. Haeufigkeiten<br />

0.0 0.2 0.4 0.6 0.8 1.0<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

Empirische Verteilungsfunktion<br />

*<br />

*<br />

0 200 400 600 800<br />

Abbildung 7<br />

Die 20 Beobachtungen sind durch kleine Sterne zusätzlich gekennzeichnet.<br />

Die Punkte sind durch Treppenstufen miteinander verbunden. Die empirische<br />

Verteilungsfunktion ˆ F () zeigt zu jeder Stelle x ∈ R die relative Anzahl ˆ F (x) der<br />

Beobachtungen an, die nicht größer sind als x:<br />

Definition: Empirische Verteilungsfunktion ˆ F (x) (diskret)<br />

ˆF (x) =<br />

Anzahl der Beobachtungen kleiner gleich x<br />

Anzahl der Beobachtungen<br />

Die empirische Verteilungsfunktion stellt die kumulierte relative Häufigkeit graphisch<br />

dar. <br />

ˆF (x) verallgemeinert anschaulich das Konzept von Median und Quartil hin zu<br />

den Quantilen. Wenn mich Beispielsweise die Frage umtreibt, wie viele Bücher<br />

die unteren 25% höchstens besitzen (= unteres Quartil, x0.25), dann beantwortet<br />

mir ˆ F (x) gerade diese Frage durch Hinschauen: Ich bewege mich von der 25%<br />

Stelle nach rechts, solange bis ich auf die Kurve treffe. Dort fällt man dann das<br />

Lot auf die Merkmalsachse und hat den gewünschten Punkt erreicht.<br />

Diese Fragestellung kann natürlich für jedes xp, mit 0 ≤ p ≤ 1 gestellt werden.<br />

*


64 KAPITEL 1. BESCHREIBENDE STATISTIK<br />

Je steiler ˆ F (x) verläuft, desto dichter gedrängt liegen die Daten, verflacht die<br />

Kurve dagegen, dann machen sich die Beobachtungen rar. Die theoretische Verteilungsfunktion<br />

F () ist die Flächenfunktion der Dichtefunktion f(). Die gerade<br />

erstellte empirische Verteilungsfunktion zu x korrespondiert daher zu der empirischen<br />

Dichte (vgl. Seite XXXX) — verläuft ˆ F () sehr steil und flacht anschließend<br />

ab, dann muß viel relative Häufigkeit, also Fläche unter dem Dichteschätzer, zu<br />

Beginn angesiedelt werden.<br />

Definition: Empirische Verteilungsfunktion ˆ F (x) (stetig)<br />

⎧<br />

⎪⎨<br />

0 für x < UG1<br />

ˆF (x) = ˆF (UGi) + (x − UGi) ·<br />

⎪⎩<br />

ˆ fi UGi < x ≤ OGi<br />

1 für x > UGk<br />

Dabei ist ˆ fi die Häufigkeitsdichte in der i−ten Klasse, in welcher gerade x liegt.<br />

Um ˆ F () zu berechnen, wird die kumulierte relative Häufigkeit bis zur Untergrenze<br />

der Klasse i, in der x liegt, berechnet, F (UGi). Hinzuaddiert wird die<br />

relative Häufigkeit von der Untergrenze bis zur Stelle x. <br />

Im folgenden sind vier verschiedene empirische Verteilungsfunktionen der Zufallsstichprobe<br />

x dargestellt. Der Buchstabe K markiert die Klassengrenzen<br />

Zusätzlich sind der sortierte Datensatz durch Sterne eingetragen sowie verschiedene<br />

Quantilsanfragen aus der Graphik zur diskreten Version von ˆ F () von<br />

der Seite XXXX übernommen worden.


1.2. ANALYSE UNIVARIATER DATEN 65<br />

kum. rel. Haeufigkeiten<br />

kum. rel. Haeufigkeiten<br />

0.0 0.2 0.4 0.6 0.8 1.0<br />

0.0 0.2 0.4 0.6 0.8 1.0<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

Emp. Verteilungsfkt.<br />

1 Klasse<br />

*<br />

0 200 400 600<br />

K<br />

800<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

Emp. Verteilungsfkt.<br />

8 Klassen<br />

*<br />

K K K K K K K K<br />

0 200 400 600 800<br />

*<br />

*<br />

kum. rel. Haeufigkeiten<br />

kum. rel. Haeufigkeiten<br />

0.0 0.2 0.4 0.6 0.8 1.0<br />

0.0 0.2 0.4 0.6 0.8 1.0<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

Emp. Verteilungsfkt.<br />

4 Klassen<br />

*<br />

K K K K<br />

0 200 400 600 800<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

*<br />

Emp. Verteilungsfkt.<br />

13 Klassen<br />

K K K K<br />

0 200 400 600 800<br />

Das konkrete Aussehen von ˆ F () hängt von der Wahl der Klassengrenzen ab.<br />

Im Bild links oben wurde lediglich eine Klasse gebildet, von 0 bis 800. Man<br />

kann gut erkennen, daß bei der stetigen empirischen Verteilungsfunktion implizit<br />

Gleichverteilung innerhalb einer Klasse unterstellt wird. Bei nur einer Klasse ist<br />

das offensichtlich falsch, wie die zusätzlich eingezeichneten Hilfspunkte aufzeigen.<br />

Bei 4 Klassen sieht das Bild bereits besser aus, die Ausreißerstruktur wird<br />

aufgedeckt. Allerdings ist die Wahl der ersten Klasse (0, 200) denkbar schlecht.<br />

Die damit angenommene Gleichverteilung ist ungünstig.<br />

Bei 8 Klassen kommen die Quantilsanfragen zu fast identischen Ergebnissen<br />

wie die aus der diskreten Darstellung.<br />

1.2.4 Konzentrationsmaße und Indizes<br />

1.2.5 Fallstudien<br />

Lotto<br />

Spielen Sie auch Lotto? Dann wäre das folgende Angebot ja vielleicht etwas für<br />

Sie:<br />

*<br />

*<br />

*


66 KAPITEL 1. BESCHREIBENDE STATISTIK<br />

Wie man an dem handschriftlichen Eintrag erkennt, stimmt keine einzige der<br />

vorausgesagten Ziffern. Wie wahrscheinlich ist es denn die ersehnten 6 Richtige<br />

zu ziehen, oder wenigstens ein wenig Geld zu verdienen? Was gewinnt eine<br />

Lottospielerin?<br />

Es ist sinnvoll, sich einer solchen Frage aus zwei Richtungen zu nähern: Wie<br />

sehen die samstägigen Ziehungen aus, und was tippen die Leute eigentlich.<br />

Für dieses Vorhaben werden 2 Ansätze angeboten, die miteinander kombiniert<br />

werden sollen:<br />

• Alle gezogenen Lottozahlen von Oktober 1955 bis einschließlich 2003 stehen<br />

zur Verfügung. Das sind 2516 Ziehungen bzw. 15096 gezogene Ziffern<br />

(www.west-lotto.de).<br />

• Mit dem Rechner simulierte Lottoziehungen — so viele man will (R).<br />

Schauen wir uns also zunächst die Häufigkeitsverteilung der gezogenen Ziffern<br />

von 1. . . . 49 an:


1.2. ANALYSE UNIVARIATER DATEN 67<br />

rel. Haeufigkeiten<br />

0.000 0.005 0.010 0.015 0.020<br />

250<br />

13<br />

Haeufigkeitsverteilung der<br />

Kugeln 1...49<br />

1 3 5 7 9 12 15 18 21 24 27 30 33 36 39 42 45 48<br />

Kugel<br />

Man sieht, daß nicht alle Kugeln gleich häufig aus der Trommel gezogen wurden.<br />

Manche häufiger, manche weniger häufig. Die Kugel mit der Nummer 32<br />

führt die Liste an, Schlußlicht ist die 13. Im Stabdiagramm sind die relativen<br />

Häufigkeiten abgetragen. Die horizontale Linie ist an die Stelle 1/49 plaziert worden.<br />

Es ist zu erwarten gewesen, daß die Stäbe nicht alle bei 1/49 enden. Sind die<br />

Unterschiede normal? Oder darf man nun bereits Schlußfolgerungen ziehen? Müßten<br />

so viele Ziehungen nicht ein gleichmäßigeres Ergebnis liefern? Wir vertagen<br />

die Beantwortung ein wenig.<br />

Die Ziehungsvorschrift sieht vor, daß 6 Kugeln ohne Zurücklegen aus der<br />

Trommel entnommen werden. Man könnte sich fragen wie die Häufigkeitsverteilung<br />

bei den Ziehungen 1 . . . 6 aussieht:<br />

359<br />

32


68 KAPITEL 1. BESCHREIBENDE STATISTIK<br />

rel. Haeufigkeiten<br />

rel. Haeufigkeiten<br />

rel. Haeufigkeiten<br />

0.000 0.005 0.010 0.015 0.020 0.025<br />

0.000 0.005 0.010 0.015 0.020 0.025<br />

0.000 0.005 0.010 0.015 0.020 0.025<br />

39<br />

7<br />

61<br />

17<br />

1. Kugel<br />

61 61<br />

3738<br />

1 4 7 11 15 19 23 27 31 35 39 43 47<br />

70<br />

6<br />

3. Kugel<br />

1 4 7 11 15 19 23 27 31 35 39 43 47<br />

28<br />

13<br />

5. Kugel<br />

1 4 7 11 15 19 23 27 31 35 39 43 47<br />

68<br />

41<br />

30<br />

45<br />

rel. Haeufigkeiten<br />

rel. Haeufigkeiten<br />

rel. Haeufigkeiten<br />

0.000 0.005 0.010 0.015 0.020 0.025 0.030<br />

0.000 0.005 0.010 0.015 0.020 0.025<br />

2. Kugel<br />

1 4 7 11 15 19 23 27 31 35 39 43 47<br />

33<br />

15<br />

4. Kugel<br />

36<br />

79<br />

30 32<br />

1 4 7 11 15 19 23 27 31 35 39 43 47<br />

6. Kugel<br />

1 4 7 11 15 19 23 27 31 35 39 43 47<br />

Die Stabdiagramme sehen alle relativ gleichartig aus und ähneln dem Gesamtstabdiagramm.<br />

Man könnte sagen, daß bei letzterem die Stäbe etwas insgesamt<br />

etwas enger um die 1/49 streuen. Die nächste Graphik stellt die Standardabweichungen<br />

der relativen Häufigkeiten für die Kugeln 1 . . . 49 dar. Das G steht<br />

für Gesamtbetrachtung, es ist also die Streuung der relativen Häufigkeiten unter<br />

Berücksichtigung aller 15096 gezogenen Ziffern. Die Zahlen von 1 . . . 6 beziehen<br />

sich auf die 1. gezogene Kugel, die 2. usw. Hier liegen also jeweils lediglich<br />

15096/6 = 2516 Beobachtungen zugrunde:<br />

0.000 0.005 0.010 0.015 0.020 0.025<br />

66<br />

9<br />

35<br />

28<br />

72<br />

49


1.2. ANALYSE UNIVARIATER DATEN 69<br />

s<br />

s<br />

0.0000 0.0010 0.0020 0.0030<br />

0 5 10 15<br />

1<br />

1<br />

2<br />

2<br />

Streuungen der relativen<br />

Haeufigkeiten<br />

3<br />

Ziehung und Gesamt<br />

Streuungen der absoluten<br />

Haeufigkeiten<br />

Ziehung und Gesamt<br />

4 5<br />

3 4 5<br />

Die Graphik bestätigt den Eindruck. Bei G ist die Streuung deutlich geringer<br />

als bei den einzelnen Ziehungen. Allerdings nur bei Betrachtung der relativen<br />

Häufigkeiten, bei den absoluten ist die Streuung sogar größer.<br />

Es soll noch eine weitere Graphik betrachtet werden, und dann fassen wir<br />

zusammen.<br />

rel. Haeufigkeit<br />

0.00 0.01 0.02 0.03 0.04 0.05<br />

Entwicklung der rel. Haeufigkeiten von<br />

2 38 11 41 12 16 26 30 5 43<br />

0 5000 10000 15000<br />

Ziehung<br />

Es wurden zufällig 10 Kugeln ausgewählt, deren chronologisches Auftauchen<br />

unter den 15096 gezogenen Kugeln verfolgt wurde. Für jede Kugel wurde zu<br />

jedem Zeitpunkt auf der horizontalen Achse die aktuelle relative Häufigkeit auf<br />

G<br />

G<br />

6<br />

6


el. Haeufigkeiten<br />

0.000 0.005 0.010 0.015 0.020<br />

70 KAPITEL 1. BESCHREIBENDE STATISTIK<br />

der vertikalen Achse abgetragen, so daß 10 Linienzüge entstehen. Bei allem Zufall<br />

ist eindeutig zu erkennen, wohin die Reise geht. Keine der Kugeln hat, und das<br />

wissen wir schon vom Stabdiagramm, am Ende eine relative Häufigkeit von 1/49.<br />

Während die Kurven zu Beginn jedoch großen Schwankungen unterworfen sind,<br />

so stabilisiert sich dieses Bild deutlich. Nach spätestens 4000 gezogenen Kugeln<br />

schwanken die Häufigkeiten um diese erwarte Häufigkeit.<br />

Zusammenfassend läßt sich feststellen, daß mit zunehmendem Ziehungsumfang<br />

sich die Verteilung langsam stabilisiert, die relativen Häufigkeiten bewegen<br />

sich auf 1/49 zu. Wir haben Indizien dafür gefunden, daß für die absoluten Häufigkeiten<br />

u.U. die gegenteilige Aussage gilt. Hilft diese Feststellung für eine Prognose?<br />

Sind diese knapp 50 Jahre Lottoziehungen eigentlich ein typisches Ergebnis?<br />

Mit Hilfe von R sollen noch einmal 50 Jahre lang Lottozahlen gezogen werden.<br />

Die Simulation ist dementsprechend so aufgebaut, daß 2516-mal 6 Kugeln ohne<br />

Zurücklegen gezogen werden. Hier ist das Ergebnis:<br />

269<br />

3<br />

Haeufigkeitsverteilung der<br />

Kugeln 1...49 − Simulation<br />

1 3 5 7 9 12 15 18 21 24 27 30 33 36 39 42 45 48<br />

Kugel<br />

354<br />

32<br />

rel. Haeufigkeit<br />

0.00 0.01 0.02 0.03 0.04 0.05<br />

Entwicklung der rel. Haeufigkeiten von<br />

2 38 11 41 12 16 26 30 5 43<br />

0 5000 10000 15000<br />

Ziehung − Simulation<br />

Es kommen natürlich verschiedene Bilder heraus. Allerdings ist die Grundstruktur<br />

dieselbe. Simulation und tatsächliche Ziehung haben sich gewissermaßen<br />

gegenseitig bestätigt.<br />

Was wäre, wenn bereits seit 250 Jahren in Deutschland Lotto gespielt würde?<br />

Das wäre ein mehr als 5-mal so langer Zeitraum im Vergleich zum tatsächlichen<br />

Zeithorizont. Das entspräche dann 250 · 52 = 13000 Ziehungen, was 13000 · 6 =<br />

78000 gezogene Kugeln bedeutet. Hier das Ergebnis — die eben gezogenen 15096<br />

gezogenen Ziffern sind hier ebenfalls berücksichtigt:


el. Haeufigkeiten<br />

0.000 0.005 0.010 0.015 0.020<br />

1.2. ANALYSE UNIVARIATER DATEN 71<br />

1503<br />

2<br />

Haeufigkeitsverteilung der<br />

Kugeln 1...49 − Simulation<br />

1 3 5 7 9 12 15 18 21 24 27 30 33 36 39 42 45 48<br />

Kugel − Basis: 78000 Kugeln)<br />

1671<br />

35<br />

rel. Haeufigkeit<br />

0.00 0.01 0.02 0.03 0.04 0.05<br />

Entwicklung der rel. Haeufigkeiten von<br />

2 38 11 41 12 16 26 30 5 43<br />

0 20000 40000 60000 80000<br />

Ziehung − Simulation<br />

Bereits anhand des Stabdiagrammes läßt sich feststellen, daß die Streuung<br />

der relativen Häufigkeiten dramatisch abgenommen hat. Die Unterschiede in den<br />

absoluten Häufigkeiten haben dagegen zugenommen. In Zahlen ausgedrückt heißt<br />

das für alle 78000 Ziehungen — man vergleiche das einmal mit der Graphik auf<br />

der Seite 68:<br />

Streuung der relativen Haeufigkeiten:<br />

s=0.00051<br />

Streuung der absoluten Haeufigkeiten:<br />

s=39.54<br />

Bei der Darstellung der Entwicklung der relativen Häufigkeiten ist zur Orientierung<br />

an der Stelle 15096 ein senkrechter Strich eingezeichnet worden, die Stelle<br />

entspricht dem Ziehungszeitraum von knapp 50 Jahren. Die Schwankungen der<br />

Kurven nimmt im weiteren Verlauf stark ab.<br />

Hilft dieser Blick in die Zukunft nun, um brauchbare Vorhersagen zu treffen?<br />

Nein gar nicht, die Gleichförmigkeit verhindert das. Wenn sich abgezeichnet hätte,<br />

daß einige Kugeln stark abweichen vom Trend zur 1/49 dann ja, so aber nicht.<br />

Wie ist mit Blick auf das Stabdiagramm von der Seite 66 die Bemerkung<br />

einzustufen, die Kugel 13 müsse aber langsam mal aufholen, während die 32 in<br />

der Zukunft sicherlich weniger häufig gezogen werden wird? Auch auf der Lotto-<br />

Internetseite wird man auf Ziffern hingewiesen, die schon lange nicht mehr gezogen<br />

wurden bzw. eine geringe Häufigkeit aufweisen. Schert sich die Kugel darum?<br />

Es ist schon richtig, die relativen Häufigkeiten gleichen sich, wie demonstriert,<br />

langfristig immer mehr an. Allerdings ist langfristig wörtlich zu verstehen, es<br />

dauert, und es ist nicht vorhersehbar. Die Kugeln haben nämlich kein Gedächtnis<br />

in bezug auf ihr eigenes Auftauchen in der Statistik. Jede Samstagsziehung ist<br />

unabhängig von der davor und beeinflußt auch nicht die zukünftigen. Im übrigen


Wartezeit<br />

Wartezeit<br />

0 10 20 30 40 50 60 70<br />

0 10 20 30 40 50<br />

72 KAPITEL 1. BESCHREIBENDE STATISTIK<br />

konnte auch demonstriert werden, daß die absoluten Häufigkeiten sich immer<br />

weiter weg von der Idealvorstellung bewegen.<br />

Das folgende Warte-Experiment soll dies empirisch untermauern. Wie lange<br />

muß man so im Durchschnitt darauf warten, daß eine bestimmte Kugel am Samstag<br />

gezogen wird? Diese diskrete Wartezeit kann alle ganzen zahlen größer oder<br />

gleich Null annehmen — an zwei aufeinanderfolgenden Samstagen wurde jene<br />

Kugel gezogen.<br />

Was geben die Daten für die Kugeln 13 und 25 her:<br />

Warten auf die 13<br />

mittlere Wartezeit: 8.96<br />

0 500 1000 1500 2000 2500<br />

Ziehung<br />

Warten auf die 25<br />

mittlere Wartezeit: 6.95<br />

0 500 1000 1500 2000 2500<br />

Ziehung<br />

rel. Haeufigkeiten<br />

rel. Haeufigkeiten<br />

0.00 0.02 0.04 0.06 0.08 0.10<br />

0.00 0.02 0.04 0.06 0.08 0.10 0.12<br />

Warten auf die 13<br />

0 3 6 9 13 17 21 25 29 34 43 68<br />

Wartezeiten<br />

Warten auf die 25<br />

0 2 4 6 8 11 14 17 21 24 27 31 34 45 49<br />

Wartezeiten<br />

Auf die 13 mußte im Durchschnitt 2 Wochen länger gewartet werden als auf<br />

die 25. Ohne zu viel Theorie vorwegzunehmen (vgl.Kapitel XXXX), lassen sich<br />

diese Zahlen mit Erwartungen verknüpfen. Jede Kugel hat an jedem Samstag eine<br />

Wahrscheinlichkeit von 6/49, gezogen zu werden. Sie ist also so alle 1/(6/49) =<br />

49/6 = 8.17 mal dran, also so etwa alle acht Wochen. Für die Wartezeit muß noch


el. Haeufigkeiten<br />

0.00 0.02 0.04 0.06 0.08 0.10 0.12<br />

1.2. ANALYSE UNIVARIATER DATEN 73<br />

die Eins abgezogen werden — um dran zu sein muß schließlich wenigstens einmal<br />

gezogen werden, was wiederum einer Wartezeit von mindestens Null entspricht<br />

—, so daß das durchschnittliche Warten bei etwas über Sieben liegt.<br />

Die empirischen Wartezeiten korrespondieren mit der Erwartung. Die 25 wurde<br />

insgesamt bisher etwas häufiger als mit 1/49 gezogen — oder 6/49 wenn man<br />

die Ziehung als Einheit ansieht. Die 13 dagegen seltener, was sich in einer größeren<br />

Wartezeit widerspiegelt.<br />

Es mußte bis zu 68 Wochen gewartet werden, bis die 13 endlich wieder gezogen<br />

wurde. Wenn man dann nach 67 Wochen voller Zuversicht die 13 angekreuzt<br />

hätte, wäre man sehr enttäuscht gewesen. Die Wahrscheinlichkeiten ändern sich<br />

nicht, gezogen zu werden, auch wenn ein Kugel aufgrund einer zufälligen Laune<br />

über einen längeren Zeitraum nicht gezogen würde.<br />

Täten sie es doch, dann müßte man folgendes Phänomen bei den empirischen<br />

Wartezeiten beobachten können. Nähme die Wahrscheinlichkeit, gezogen<br />

zu werden, zu, je länger eine Kugel nicht gezogen wird, dann müßte sich die<br />

durchschnittliche zusätzliche Wartezeit verringern.<br />

Anders formuliert: Es werden nur diejenigen Warteperioden berücksichtigt, bei<br />

denen länger als siebenmal auf eine Kugel gewartet werden mußte. Stimmt die<br />

Aussage über die steigenden Wahrscheinlichkeiten, dann müßten die zusätzlichen<br />

Wartezeiten jenseits der 7 deutlich kleiner sein als die gesamten Wartezeiten.<br />

Die zusätzliche Wartezeit ist also wie folgt definiert:<br />

zusätzliche Wartezeit := (Wartezeit ≥ 8) − 8<br />

Es ergeben sich die folgenden Stabdiagramme der zusätzlichen Wartezeiten<br />

für die Kugeln 13 und 25:<br />

Warten auf die 13<br />

durchschn. Warten: 9.14<br />

0 3 6 9 12 16 20 24 29 35 60<br />

zus. Wartezeiten ab 8<br />

rel. Haeufigkeiten<br />

0.00 0.02 0.04 0.06 0.08 0.10 0.12<br />

Warten auf die 25<br />

durchschn. Warten: 8.33<br />

0 2 4 6 8 10 13 16 19 23 26 37 41<br />

zus. Wartezeiten ab 8<br />

Wie man sieht hat die durchschnittliche zusätzliche Wartezeit sogar zugenommen.<br />

In der nächsten Graphik sind die durchschnittlichen Wartezeiten für


el. Haeufigkeiten<br />

0.0 0.1 0.2 0.3 0.4<br />

74 KAPITEL 1. BESCHREIBENDE STATISTIK<br />

alle 49 Kugeln im Vergleich mit den zusätzlichen Wartezeiten dargestellt. Dieses<br />

für zusätzliches Warten ab 8, 10,12 und 14:<br />

zus. warten ab 8<br />

zus. warten ab 12<br />

6.0 6.5 7.0 7.5 8.0 8.5 9.0<br />

6 7 8 9 10<br />

32<br />

Vgl. der durchschn. Wartezeiten<br />

oben:28, unten:21<br />

38<br />

49<br />

20<br />

15<br />

22<br />

5<br />

25<br />

44<br />

42 27 41<br />

23<br />

48<br />

4<br />

31 35 29<br />

6<br />

18 3917<br />

9<br />

14<br />

11<br />

43 10<br />

26 2 37<br />

3<br />

2133<br />

40<br />

36<br />

19<br />

1<br />

12 7<br />

24<br />

16<br />

46<br />

4730<br />

6.0 6.5 7.0 7.5 8.0 8.5 9.0<br />

32<br />

49<br />

38<br />

8<br />

45<br />

34<br />

alle Wartezeiten<br />

Vgl. der durchschn. Wartezeiten<br />

oben:28, unten:21<br />

5<br />

23<br />

4629<br />

4<br />

30<br />

27 20<br />

25 11<br />

26 9<br />

35 12<br />

1<br />

6.0 6.5 7.0 7.5 8.0 8.5 9.0<br />

alle Wartezeiten<br />

28<br />

16<br />

227<br />

15 47 8<br />

44<br />

34<br />

4842<br />

621<br />

17 41<br />

39<br />

3<br />

33<br />

2 31 1843 19 37<br />

36 40<br />

14<br />

24<br />

10<br />

28<br />

45<br />

13<br />

13<br />

zus. warten ab 10<br />

zus. warten ab 14<br />

6 7 8 9<br />

5 6 7 8 9 10<br />

32<br />

Vgl. der durchschn. Wartezeiten<br />

oben:32, unten:17<br />

49<br />

38<br />

22<br />

5<br />

30 16<br />

20<br />

34<br />

8 28<br />

25<br />

46 23<br />

1215<br />

47<br />

7<br />

4<br />

26<br />

18<br />

17<br />

6<br />

10 14<br />

9 19<br />

27<br />

42<br />

31<br />

43 41<br />

35 29<br />

39<br />

33 40<br />

44<br />

48<br />

21 3<br />

2<br />

36<br />

11<br />

37<br />

1<br />

24<br />

6.0 6.5 7.0 7.5 8.0 8.5 9.0<br />

32<br />

49<br />

38<br />

45<br />

alle Wartezeiten<br />

Vgl. der durchschn. Wartezeiten<br />

oben:26, unten:23<br />

11<br />

44 16<br />

20<br />

5 15 30<br />

47 4<br />

22<br />

46<br />

25 9 41<br />

29<br />

26<br />

4821<br />

6 37<br />

2718<br />

35<br />

33 17<br />

42 31<br />

2 43<br />

3<br />

39<br />

19<br />

36 24<br />

10 14<br />

40<br />

1<br />

7<br />

12<br />

45<br />

8<br />

6.0 6.5 7.0 7.5 8.0 8.5 9.0<br />

23<br />

34<br />

alle Wartezeiten<br />

Von der Thematik beflügelt, tippt der Autor dieser Zeilen 1 Reihe Lotto für<br />

Samstag den 10. April: 9,13,24,27,40,44. Wie hätte man damit in der Vergangenheit<br />

abgeschnitten?<br />

1127<br />

1026<br />

Tip:<br />

9,13,24,27,40,44<br />

321<br />

0 1 2 3 4<br />

Anzahl Richtige<br />

40<br />

2<br />

Anzahl Richtige<br />

0 1 2 3 4<br />

28<br />

Wann, wie viele Richtige<br />

0 500 1000 1500 2000 2500<br />

Ziehung<br />

13<br />

13


1.2. ANALYSE UNIVARIATER DATEN 75<br />

Nicht besonders gut! Die letzten knapp 50 Jahre hätten zweimal 4- Richtige,<br />

sowie 40 mal 3-Richtige eingebracht. Unter finanziellen Gesichtspunkten ist das<br />

ein ziemlich miserabeles Ergebnis. 2516 Reihen zu tippen, kostet etwa 2000 Euro.<br />

Der Gewinn mit den 40 Dreiern und zwei Vierern liegt je nach Quoten bei wohl<br />

nicht mehr als 400 Euro. In über 98% aller Lottoziehungen hätte man gar nichts<br />

gewonnen.<br />

Ein Blick auf die rechte Graphik erweckt den Eindruck, daß man so etwa alle<br />

1000 Ziehungen mal mit 4-Richtigen rechnen kann. Die nächste Graphik zeigt, daß<br />

die relativen Häufigkeiten schnell stabil werden, mit Überraschungen ist nicht zu<br />

rechnen.<br />

rel. Haeufigkeit<br />

0.0 0.2 0.4 0.6 0.8 1.0<br />

Entwicklung der relativen<br />

Gewinnhaeufigkeiten<br />

0 500 1000 1500 2000 2500<br />

Ziehung<br />

Warum spielt man also trotzdem? Dieselbe Analyse soll nun mit den für den<br />

Zeitraum von 250 Jahren simulierten 13000 Ziehungen durchgeführt werden.<br />

0<br />

1<br />

2<br />

3<br />

4


el. Haeufigkeiten<br />

0.0 0.1 0.2 0.3 0.4<br />

76 KAPITEL 1. BESCHREIBENDE STATISTIK<br />

5621<br />

5424<br />

Tip:<br />

9,13,24,27,40,44<br />

1704<br />

0 1 2 3 4<br />

Anzahl Richtige<br />

237<br />

14<br />

Anzahl Richtige<br />

Wann, wie viele Richtige<br />

0 2000 4000 6000 8000 10000 12000<br />

Nach 250 Jahren sind nicht einmal 5-Richtige dabei. Die Simulation bestätigt<br />

die Ergebnisse. Etwa alle 1000 Ziehungen (≈ 20 Jahre) kann man mit 4-Richtigen<br />

rechnen. Auch hier gewinnt man in über 98% aller Ziehungen gar nichts.<br />

rel. Haeufigkeit<br />

0.0 0.2 0.4 0.6 0.8 1.0<br />

0 1 2 3 4<br />

Entwicklung der relativen<br />

Gewinnhaeufigkeiten<br />

Ziehung<br />

Ziehung<br />

0 2000 4000 6000 8000 10000 12000<br />

Und was ist mit 5- oder gar 6-Richtigen? Zur Beantwortung dieser Frage sei auf<br />

das Kapitel XXX verwiesen. Noch eine Schlußbemerkung: 2516 bzw. auch 13.000<br />

Ziehungen sind im Vergleich zur Gesamtzahl aller möglichen und verschiedenen<br />

Lottoziehungen immer noch sehr wenige — verglichen mit den 13.000 gibt es<br />

0<br />

1<br />

2<br />

3<br />

4


1.2. ANALYSE UNIVARIATER DATEN 77<br />

mehr als 1000-mal so viele. Nach über 260.000 Jahren kann man anfangen, damit<br />

zu rechnen, daß sich jede mögliche Kombination wenigstens einmal ereignet hat.<br />

Und die Prognose vom Anfang? Was halten Sie von der Aussage über das<br />

Gesetz der großen Zahlen bzw. den nicht idealen Zufallszahlengenerator?<br />

Dieses Werbeblatt wurde per email verschickt. Eine Idee, warum so eine Werbeaktion<br />

vielleicht gemacht wurde — die Aussagen lassen sich aus den Datenanalysen<br />

der letzten Seiten gewinnen: Angenommen es wurden 10 Million solcher<br />

emails verschickt mit insgesamt vielleicht 50.000 verschiedenen Glückszahlen — es<br />

haben also jeweils 200 Adressaten dieselben Glückszahlen bekommen. Die überwältigende<br />

Mehrheit wird 0- bzw. 1-Richtigen mit ihren persönlichen Prognosen<br />

erreichen, etwas über 40.000 der Glückszahlen werden so abschneiden.<br />

Es ist aber auch so, daß knapp 1000 der prognostizierten Lottozahlen 3- oder<br />

sogar 4-Richtige vorhersagen werden. Diese Gruppe, immerhin 200.000 Adressaten,<br />

werden durchaus beeindruckt sein von den demonstrierten Vorhersagefähigkeiten.<br />

Und eine Gruppe, also 200 Personen, wird sich vermutlich sogar sehr<br />

ärgern, den Lottotip nicht gespielt zu haben, ihre persönliche Prognose resultierte<br />

nämlich in 5-Richtigen.<br />

Mit einer solchen oder ähnlichen Rechnung wird klar, warum sich der Aufwand<br />

für die Anbieter der Prognosen lohnen könnte. Mit dem Medium email ist es<br />

zudem äußerst günstig, so massenhaft Werbematerial zu verschicken.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!