buch.041116.pdf - PDF-Format
buch.041116.pdf - PDF-Format
buch.041116.pdf - PDF-Format
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Grundkurs Statistik<br />
—<br />
mit Rechnerunterstützung<br />
Veith Tiemann<br />
Hans-Peter Wolf<br />
BASICS<br />
Version: 15. November 2004
Inhaltsverzeichnis<br />
1 Beschreibende Statistik 4<br />
1.1 Was für Daten gibt es? . . . . . . . . . . . . . . . . . . . . . . . . 4<br />
1.2 Analyse univariater Daten . . . . . . . . . . . . . . . . . . . . . . 4<br />
1.2.1 Häufigkeitstabellen und deren Darstellung . . . . . . . . . 5<br />
Ein Beispiel: Kryptographie . . . . . . . . . . . . . . . . . 24<br />
1.2.2 Zurück zur Urliste . . . . . . . . . . . . . . . . . . . . . . 32<br />
Betrachtungen zur Lage . . . . . . . . . . . . . . . . . . . 33<br />
Betrachtungen zur Streuung . . . . . . . . . . . . . . . . . 43<br />
Betrachtungen zur Verteilung . . . . . . . . . . . . . . . . 51<br />
1.2.3 Die empirische Verteilungsfunktion . . . . . . . . . . . . . 62<br />
1.2.4 Konzentrationsmaße und Indizes . . . . . . . . . . . . . . 65<br />
1.2.5 Fallstudien . . . . . . . . . . . . . . . . . . . . . . . . . . . 65<br />
Lotto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65<br />
3
Kapitel 1<br />
Beschreibende Statistik<br />
1.1 Was für Daten gibt es?<br />
1.2 Analyse univariater Daten<br />
Vorschau<br />
Kapitel 1.2 In diesem Abschnitt werden statistische Verfahren zur Analyse<br />
eindimensionaler Datensätze vorgestellt. Ziel des Kapitels ist es, eine<br />
Antwort auf die Frage zu finden: ” Wie erhält man möglichst effizient<br />
Informationen aus Daten?“<br />
Den Anfang machen dabei die diskrete und stetige Häufigkeitsanalyse<br />
(Kapitel 1.2.1). Die Häufigkeitsanalyse wird mit einem Beispiel aus der<br />
Kryptographie abgerundet (Kapitel 1.2.1).<br />
Im Anschluß daran werden den Datensatz zusammenfassende Maßzahlen und<br />
Graphiken vorgestellt (Kapitel 1.2.2). Diese Möglichkeiten der Verdichtung<br />
decken alle wesentlichen Blickwinkel auf eindimensionale Daten ab.<br />
Im letzten Abschnitt wird die empirische Verteilungsfunktion expliziert<br />
(Kapitel 1.2.3).<br />
in:1<br />
Nach der Diskussion über die verschiedenen Typen von Daten sind wir nun<br />
gut gerüstet, um uns dem tatsächlichen Datenmaterial zu nähern. Univariate<br />
Daten bedeutet, daß ein eindimensionaler Datensatz vorliegt. Ein Merkmal wurde<br />
beobachtet, z.B. das Gewicht oder das Alter von verschiedenen Personen. Als<br />
Ausgangspunkt liegt die sogenannte Urliste vor. Diese zeigt die Daten, wie sie<br />
angefallen sind.<br />
Die folgende Auflistung ist das Ergebnis einer Befragung der Erstsemester im<br />
Studiengang BWL (aus dem Jahre 1996) nach ihrem Alter — mit Alter ist im<br />
folgenden gerade dieser Datensatz gemeint:<br />
> print(alter)<br />
out:1 4
1.2. ANALYSE UNIVARIATER DATEN 5<br />
23 21 22 19 20 21 21 22 20 20 22 21 20 20 19 26 21 20 25 26 22 19<br />
21 20 20 19 23 20 21 22 20 21 18 21 20 24 24 19 23 24 20 20 20 21<br />
19 20 23 20 20 21 20 20 24 19 21 20 28 24 20 20 23 21 20 21 19 21<br />
21 20 23 20 22 21 23 19 20 23 21 21 21 20 21 23 20 22 21 28 21 22<br />
23 22 22 20 22 21 19 19 19 20 20 21 24 19 22 20 23 20 21 22 23 20<br />
23 20 18 21 21 24 23 21 21 20 20 24 19 23 22 21 20 24 21 19 21 20<br />
23 20 20 20 22 20 20 20 20 21 20 21 21 20 20 22 23 19 20 20 19 23<br />
27 21 21 24 27 20 21 21 20 19 19 19 21 19 22 19 20 24 21 20 23 21<br />
21 27 20 18 19 20 24 20 29 26 25 22 24 26 30 20 20 23 21 20 22 22<br />
21 25 22 20 21 22 20 19 19 22 23 20 19 19 20 20 19 22 20 27 27 20<br />
24 21 20 21 20 24 22 23 23 20 20 21 21 21 20 22 19 19 19 23 20 23<br />
21 23 21 20 20 19 21 24 20 20 20 20 21 20 20 20 21 19 22 21 20 20<br />
22<br />
Wie man sieht, sieht man gar nichts. Die Urliste ist sehr unübersichtlich. Dabei<br />
ist ein Stichprobenumfang von n = 265 nicht einmal besonders groß.<br />
Was für eine Struktur über die Altersverteilung der Studierenden verbergen<br />
die Daten? Sind die meisten Studierenden jünger als 25 Jahre? Wie vergleicht<br />
man solche Datensätze aus verschiedenen Jahren? Wie kann man also die Daten<br />
so verdichten, daß Vergleiche effizient gezogen werden können?<br />
In diesem Kapitel werden statistische Verfahren vorgestellt, wie man aus der<br />
Urliste solche und andere Informationen gewinnen kann.<br />
1.2.1 Häufigkeitstabellen und deren Darstellung<br />
Bei kleineren Umfängen würde es bereits helfen, den geordneten Datensatz<br />
hinzuschreiben, also die Daten der Größe nach zu sortieren und nicht die Reihenfolge<br />
zu verwenden, in der die Daten erhoben wurden. Man muß aber aufpassen,<br />
ob dabei relevante Informationen (bestimmte Strukturen beispielsweise) verloren<br />
gehen.<br />
In diesem Fall, also bei einem etwas größeren Stichprobenumfang, bietet sich<br />
die sogenannte Häufigkeitstabelle an.<br />
Definition: Häufigkeitstabelle<br />
In einer Häufigkeitstabelle werden sämtliche Merkmalsausprägungen sowie die<br />
absoluten und relativen Häufigkeiten dargestellt. Diese kann für alle Skalentypen<br />
erstellt werden. <br />
Man unterscheidet die diskrete und die stetige (klassierte) Häufigkeitstabelle;<br />
das hängt von der Beschaffenheit des Merkmales ab. Eine Häufigkeitstabelle zählt,<br />
ordnet und faßt zusammen.<br />
Das Merkmal Alter ist einer der erwähnten Grenzfälle. Wir wollen es zunächst<br />
als diskretes, später dann als stetiges Merkmal auffassen.
6 KAPITEL 1. BESCHREIBENDE STATISTIK<br />
Die diskrete Häufigkeitstabelle Zum Erstellen der diskreten Häufigkeitstabelle<br />
muß man zunächst abzählen, wie viele unterschiedliche Merkmalsausprägungen<br />
es gibt. Dann wird gezählt — per Hand mit Strichliste —, wie oft die<br />
einzelnen Ausprägungen beobachtet wurden.<br />
Bei wenigstens ordinalem Skalenniveau sind die Ausprägungen xi in der Tabelle<br />
aufsteigend sortiert angeordnet. 1 In der Häufigkeitstabelle wird die folgende<br />
Notation verwandt:<br />
i Der Index zählt die verschiedenen Merkmalsausprägungen durch.<br />
xi i-te Merkmalsausprägung des Merkmals X; i = 1, . . . , k<br />
ni absolute Häufigkeit von xi — Wie oft wurde xi beobachtet?<br />
hi relative Häufigkeit von xi — Wieviel Prozent der Beobachtungen<br />
sind gleich xi?<br />
Fi kumulierte relative Häufigkeit (empirische Verteilungsfunktion),<br />
macht nur Sinn bei mindestens ordinalskalierten Merkmalen.<br />
Mit Hilfe dieser kann dann die Häufigkeitstabelle erzeugt werden. Hier ist<br />
zunächst der formale Aufbau: 2<br />
i xi ni hi = ni<br />
n<br />
1 x1 n1 h1 = n1<br />
n<br />
2 x2 n2 h2 = n2<br />
n<br />
3 x3 n3 h3 = n3<br />
n<br />
.<br />
.<br />
.<br />
k xk nk hk = nk<br />
n<br />
.<br />
Fi = i<br />
j=1 hj<br />
F1 = h1<br />
F2 = h1 + h2<br />
F3 = h1 + h2 + h3<br />
.<br />
Fk = 1<br />
Zum besseren Verständnis der Zusammensetzung der Häufigkeitstabelle seien<br />
zusätzlich die folgenden Zusammenhänge dargelegt, welche in jeder Häufigkeitstabelle<br />
gelten:<br />
1 Formal: xi < xi+1.<br />
2 Zum Summenzeichen: Vgl. den Exkurs auf Seite 31.
1.2. ANALYSE UNIVARIATER DATEN 7<br />
k Anzahl der verschiedenen Merkmalsausprägungen.<br />
xk Bei wenigstens ordinalem Skalenniveau ist das die größte Be-<br />
k i=1<br />
obachtung.<br />
ni = n<br />
k i=1<br />
Die Summe aller Einzelhäufigkeiten ergibt die Gesamthäufigkeit.<br />
hi = 1 Wenn man alle Beobachtungen berücksichtigt, kommt man<br />
auf 100%.<br />
Diese Erkenntnisse können gut zur Konsistenzprüfung einer selbst erstellten Häufigkeitstabelle<br />
verwandt werden.<br />
Für den Beispieldatensatz Alter ergibt sich die mit Hilfe der von uns eingesetzten<br />
statistischen Software folgende diskrete (gerundete) Häufigkeitstabelle:<br />
> haeufigkeit.diskret(alter) in:2<br />
-------------------------i<br />
x.i n.i h.i F.i<br />
--------------------------<br />
1 18 3 0.011 0.011<br />
2 19 33 0.125 0.136<br />
3 20 85 0.321 0.457<br />
4 21 58 0.219 0.675<br />
5 22 28 0.106 0.781<br />
6 23 26 0.098 0.879<br />
7 24 16 0.060 0.940<br />
8 25 3 0.011 0.951<br />
9 26 4 0.015 0.966<br />
10 27 5 0.019 0.985<br />
11 28 2 0.008 0.992<br />
12 29 1 0.004 0.996<br />
13 30 1 0.004 1.000<br />
--------------------------<br />
Der Datensatz wird offensichtlich gewinnbringend zusammengefaßt. Die Tabelle<br />
liefert dem Betrachter zu jeder Merkmalsausprägung, zu jedem Alter, die<br />
absoluten und die relativen Häufigkeiten. Die häufigste Beobachtung ist 20, fast<br />
ein Drittel der Studierenden hatten dieses Alter. Lediglich jeweils ein Studierender<br />
war zum Zeitpunkt der Befragung 29 bzw. 30 Jahre alt.<br />
Es sei noch eine Bemerkung zur letzten Spalte gemacht. Mit Hilfe der kumulierten<br />
relativen Häufigkeiten kann man Fragen der Art beantworten, wie sie zu<br />
Beginn des Kapitels an die Rohdaten formuliert wurden: 3<br />
tion.<br />
3 Vgl. auch Kapitel 1.2.3 für eine umfassende Abhandlung zur empirischen Verteilungsfunk-<br />
out:2
8 KAPITEL 1. BESCHREIBENDE STATISTIK<br />
• Wie groß ist der Anteil der Studierenden, die höchstens 25 Jahre alt sind?<br />
Antwort: F8 = 0.951. Das heißt also, daß 95.1% dieser Studierenden 25<br />
Jahre oder jünger sind.<br />
• Wie groß ist der Anteil der Studierenden, die mindestens 26 Jahre alt sind?<br />
Antwort: 1−F8 = 1−0.951 = 0.049. Mit knapp 5% ist nur ein sehr geringer<br />
Anteil der Studierenden älter als 25 Jahre.<br />
Stabdiagramm Es läßt sich feststellen, daß die Tabelle die Daten zwar bereits<br />
stark verdichtet und damit wesentlich übersichtlicher ist als die Urliste, daß die<br />
Darstellungsform aber noch zu wünschen übrig läßt. Es wäre schön, wenn man<br />
die wichtigen Strukturen schneller entdecken könnte; graphische Verfahren bieten<br />
sich an.<br />
Definition: Stabdiagramm<br />
Die graphische Darstellung der Häufigkeitstabelle heißt Stabdiagramm. Auf<br />
der horizontalen Achse werden die Ausprägungen abgetragen, auf der vertikalen<br />
die dazugehörigen relativen bzw. absoluten Häufigkeiten. <br />
Für den Datensatz Alter kann das folgende Stabdiagramm erstellt werden:
1.2. ANALYSE UNIVARIATER DATEN 9<br />
> stabdiagramm(alter) in:3<br />
rel. Haeufigkeiten<br />
0.0 0.05 0.10 0.15 0.20 0.25 0.30<br />
Stabdiagramm von Alter<br />
18 19 20 21 22 23 24 25 26 27 28 29 30<br />
Abbildung 1<br />
Am Stabdiagramm kann man auf einen Blick die Struktur oder auch den<br />
Charakter der Daten erkennen:<br />
• Der Datensatz ist schief. Wesentlich mehr Beobachtungen befinden sich<br />
auf der ersten Hälfte der Merkmalsachse.<br />
• Man kann einen Berg identifizieren mit dem eindeutigen Gipfel 20 Jahre.<br />
• Der Datensatz belegt auf der Merkmalsachse den Bereich von 18 bis 30<br />
Jahre.<br />
Modus Die Statistik bietet diverse zusammenfassende Kennzahlen für verschiedene<br />
Aspekte eines Datensatzes an, die sogenannten Maßzahlen. Es kann bereits<br />
eine erste Maßzahl definiert werden, welche sich aus der bloßen Betrachtung des<br />
Stabdiagramms ergibt: 4<br />
4 Für weitere Maßzahlen vgl. Kapitel 1.2.2.<br />
out:3
10 KAPITEL 1. BESCHREIBENDE STATISTIK<br />
Definition: Modus/ Modalwert (diskret)<br />
Der häufigste Wert in einem diskreten Datensatz wird als Modus bezeichnet,<br />
also die Merkmalsausprägung, die am häufigsten beobachtet werden konnte.<br />
Im Stabdiagramm ist es die Merkmalsausprägung, über der der längste Stab<br />
abgetragen ist.<br />
Falls mehrere Werte in Frage kommen, existiert der Modus nicht. <br />
Im Beispiel nimmt der Modus den Wert 20 Jahre an — die am stärksten besetzte<br />
Merkmalsausprägung. Die Mehrzahl der Studierenden war zum Zeitpunkt<br />
der Befragung 20 Jahre alt.<br />
Der Modus ist ein Lageparameter. Er verrät uns etwas darüber, wo die größte<br />
Häufigkeit der Merkmalsausprägungen eines Datensatzes auf der Merkmalsachse<br />
zu finden ist. 5<br />
Tortendiagramm Meist ist es schwierig, die Verhältnisse zwischen den verschiedenen<br />
Anteilen mit Hilfe des Stabdiagramms richtig zu beurteilen. Es bietet<br />
sich eine andere graphische Darstellung an, das Tortendiagramm.<br />
Ausgangspunkt ist ein Kreis, der die Gesamtheit aller Daten repräsentiert.<br />
Nun werden für jede Merkmalsausprägung Kreissegmente (die Tortenstücke) eingezeichnet.<br />
Die Größe des Winkels ist für jedes Tortenstück proportional zur relativen<br />
Häufigkeit der entsprechenden Merkmalsausprägung — mit dem Dreisatz<br />
einfach zu berechnen und mit dem Geodreieck in den Kreis einzutragen:<br />
→ 100% = 360 Grad; 50% = 180 Grad; 26% = 93,6 Grad<br />
Die Häufigkeitstabelle zum bereits vertrauten Datensatz Alter soll nun durch<br />
ein Kreisdiagramm dargestellt werden. Mit Hilfe des Rechners kommt man zu<br />
dem folgenden Ergebnis:<br />
5 Für weitere zentrale und nicht-zentrale Lagemaße vgl. Kapitel 1.2.2.
1.2. ANALYSE UNIVARIATER DATEN 11<br />
> piechart(haeufigkeit.diskret(alter)) in:4<br />
21<br />
20<br />
22<br />
Abbildung 2<br />
23<br />
19<br />
24<br />
18<br />
25<br />
26<br />
27<br />
28 29 30<br />
Mit Hilfe dieser Flächendarstellung der relativen Häufigkeiten gelingt es einem<br />
Betrachter besser, einen Vergleich zwischen den verschiedenen Häufigkeiten<br />
anzustellen — das Kreissegment, das die Ausprägung 20 repräsentiert, wirkt wesentlich<br />
wuchtiger als die für die übrigen Ausprägungen. Vor allem zur Darstellung<br />
von nominalskalierte Daten wird das Tortendiagramm oft benutzt.<br />
Balkendiagramm Die Überlegenheit von Graphiken soll anhand des folgenden<br />
Zitats untermauert werden:<br />
” Ich will nicht gerade so weit gehen zu behaupten, das erste Buch der<br />
Bibel wäre besser als Tabelle darzustellen, aber die eine oder andere<br />
Datengraphik hätte selbst diesem Klassiker ganz gut getan. Denn es<br />
wurden gezählt:<br />
,Zum Stamm Ruben 46.500. Der Kinder Simeon nach ihrer Geburt<br />
und Geschlecht . . . 59.300. Der Kinder Gad nach ihrer Geburt und<br />
Geschlecht, ihren Vaterhäusern und Namen, von zwanzig Jahren und<br />
darüber, was ins Heer zu ziehen taugte, 45.650 . . . ‘<br />
Und so geht es noch zwei Spalten lang weiter. In einem Teil der Genesis,<br />
der im Englischen sehr treffend auch ,The Book of Numbers‘<br />
out:4
12 KAPITEL 1. BESCHREIBENDE STATISTIK<br />
heißt. Diese gleiche Information, wenn es denn darauf wirklich ankäme,<br />
wäre weit schneller und präziser etwa durch ein Balkendiagramm<br />
zu übermitteln.“<br />
Walter Krämer: So überzeugt man mit Statistik, 1. Kapitel.<br />
Die folgende Graphik stellt das vorgeschlagene Balkendiagramm dar. Ein<br />
Balkendiagramm ist nichts Anderes als ein Stabdiagramm. Es ist um 90 Grad gedreht,<br />
und die Stäbe sind durch Balken gleicher Breite ersetzt; bei beiden können<br />
statt der relativen auch die absoluten Häufigkeiten abgetragen werden:<br />
Abbildung 3<br />
Eine häufig anzutreffende Anwendung des Balkendiagramms ist die sogenannte<br />
Alterspyramide. Diese stellt den geschlechtsspezifischen Altersaufbau der<br />
Bevölkerung eines Landes zu einem bestimmten Zeitpunkt graphisch dar. Auf<br />
der horizontalen Achse sind die Häufigkeiten abgetragen, auf der vertikalen die<br />
Alterklassen. Die Balken für Männer und Frauen werden dann nach links bzw.<br />
rechts abgetragen.<br />
In der Bevölkerungsstatistik und Demographie unterscheidet man folgende<br />
Umrißformen:<br />
• wachsende Bevölkerung: pyramidenförmiger Umriß,<br />
• stationäre Bevölkerung: glockenförmiger Umriß,<br />
• schrumpfende Bevölkerung: spindel- oder urnenförmiger Umriß.<br />
Sehr interessant ist die Betrachtung von Alterspyramiden zu verschiedenen Zeitpunkten:
1.2. ANALYSE UNIVARIATER DATEN 13<br />
Abbildung 4<br />
Die Veränderungen über die Zeit im Bevölkerungsaufbau sind sehr schön zu<br />
erkennen und lassen sich gut interpretieren:<br />
• Von 1910 bis 1925 sind die Gefallenen des Ersten Weltkrieges (Delle bei den<br />
Männern) sowie die Geburtenausfälle aufgrund des Krieges (kürzere Balken<br />
bei Männern und Frauen.) als deutliche Veränderung sichtbar.<br />
• 1939 sind nun zusätzliche Geburtenausfälle aufgrund der Weltwirtschaftskrise<br />
in der Pyramide zu sehen (Schwarzer Freitag: 1929).<br />
• Diese Eigenarten kann man in den folgenden Pyramiden weiter beobachten<br />
bzw. werden durch weitere Besonderheiten ergänzt.
14 KAPITEL 1. BESCHREIBENDE STATISTIK<br />
• Im Jahr 1980 hat Deutschland eine spindelförmige Form, die Bevölkerung<br />
geht also zurück. Dieses spezielle Aussehen weist allerdings starke, historisch<br />
bedingte Unregelmäßigkeiten auf.<br />
Die stetige Häufigkeitstabelle In der nächsten Graphik sind einige Stabdiagramme<br />
dargestellt, die sich aus Befragung von Studierenden ergeben haben. Bei<br />
der Betrachtung wird man feststellen, daß die Aussagekraft der Stabdiagramme<br />
nachläßt. Woran liegt das?<br />
rel. Haeufigkeiten<br />
0.0 0.02 0.04 0.06 0.08 0.10 0.12<br />
Groesse<br />
159 166 173 180 187 194 201<br />
rel. Haeufigkeiten<br />
0.0 0.05 0.10 0.15 0.20 0.25 0.30<br />
Abbildung 5<br />
Mathenoten<br />
1.0 2.0 3.0 4.0 5.0 6.0<br />
Diese Stabdiagramme sind noch einigermaßen gut zu interpretieren, obwohl<br />
man beim Merkmal Größe durchaus der Meinung sein könnte, daß diese Darstellung<br />
unübersichtlich ist — es sind einfach zu viele Striche eingezeichnet. Mit dem<br />
Stabdiagramm zu den Mathenoten kann man auch nicht ganz zufrieden sein. Die<br />
Zwischennoten stören den Gesamteindruck.<br />
Spätestens bei den Stabdiagrammen auf der nächsten Seite muß man sagen,<br />
daß diese die Eigenarten der Datensätze nicht gut wiedergeben bzw. keine gute<br />
Übersicht liefern.
1.2. ANALYSE UNIVARIATER DATEN 15<br />
rel. Haeufigkeiten<br />
0.0 0.02 0.04 0.06 0.08 0.10 0.12<br />
Anzahl Buecher<br />
0 328 800 1500 3000<br />
rel. Haeufigkeiten<br />
0.0 0.02 0.04 0.06 0.08 0.10<br />
Abbildung 6<br />
Anzahl CDs<br />
0 50 120 200 280 450<br />
Für das Merkmal Anzahl Bücher ist im folgenden eine verkürzte diskrete Häufigkeitstabelle<br />
angegeben. An ihr läßt sich gut identifizieren, warum die diskrete<br />
Betrachtungsweise hier nicht angebracht ist: Es gibt zu viele Merkmalsausprägungen,<br />
die sehr geringe Besetzungszahlen (Häufigkeiten) aufweisen:<br />
x.i 0 2 5 6 10 12 15 20 21 25 30 40 45 50 60 63 70 75 80 100 120<br />
n.i 11 1 2 1 5 1 2 16 1 5 19 10 1 25 8 1 4 1 8 24 5<br />
---------------------------------------------------------------------x.i<br />
130 150 152 180 200 220 250 300 328 350 400 500 600 800 1500 3000<br />
n.i 1 7 1 2 11 1 1 8 1 1 4 2 1 1 1 1<br />
Hier sollte man besser zur stetigen Sichtweise übergehen. Zu beachten ist<br />
allerdings, daß bei der stetigen Sichtweise der Bezug zu den Daten etwas verloren<br />
geht. Das Phänomen Prominente Zahlen wird unkenntlich:<br />
Beim Stabdiagramm zum Datensatz Größe ist sehr schön zu erkennen, was<br />
prominente Zahlen wohl sein könnten. Der längste Stab ist an der Stelle 180cm.<br />
Das ist kein Zufall. Viele Leute wissen nicht genau, wie groß sie sind oder auch<br />
wieviel sie wiegen. Die Werte 180 bzw. 75 kommen einem oft als erstes in den<br />
Sinn — bei einem entsprechenden Stabdiagramm zu Gewichtsdaten wird man eine<br />
Häufung bei der Beobachtung 75 feststellen können. Bei Abschätzungen stellen<br />
sich oft prominente Zahlen ein.<br />
Bei einer stetigen (kontinuierlichen) Betrachtungsweise werden die Merkmalsausprägungen<br />
in Klassen unterteilt. Es wird dann gezählt, wie viele Beobach-
16 KAPITEL 1. BESCHREIBENDE STATISTIK<br />
tungen in die entsprechende Klasse fallen. Die klassierte Häufigkeitstabelle<br />
verwendet folgende Notation:<br />
i der Index zählt die verschiedenen Klassen durch<br />
X steht für das Merkmal<br />
UGi Untergrenze der i-ten Klasse. Es gilt: UGi < UGi+1<br />
OGi Obergrenze der i-ten Klasse. Es gilt: OGi < OGi+1<br />
ni absolute Häufigkeit in der i-ten Klasse — Wie viele Beobachtungen<br />
fallen in die i-te Klasse?<br />
hi relative Häufigkeit in der i-ten Klasse — Wieviel Prozent der Beobachtungen<br />
liegen in der i-ten Klasse?<br />
∆xi Klassenbreite der i-ten Klasse: ∆xi = OGi − UGi<br />
Fi kumulierte relative Häufigkeit (empirische Verteilungsfunktion)<br />
Einige Symbole und Platzhalter sind schon aus der diskreten Betrachtungsweise<br />
bekannt, so daß die Beschreibung an dieser Stelle etwas sparsamer ausfallen<br />
kann. Die klassierte Häufigkeitstabelle hat dann den folgenden formalen Aufbau:<br />
i UGi < X ≤ OGi ni hi ∆xi Fi<br />
1 UG1 < X ≤ OG1 n1 h1 ∆x1 F1 = h1<br />
2 UG2 < X ≤ OG2 n2 h2 ∆x2 F2 = h1 + h2<br />
3 UG3 < X ≤ OG3 n3 h3 ∆x3 F3 = h1 + h2 + h3<br />
.<br />
.<br />
k UGk < X ≤ OGk nk hk ∆xk Fk = 1<br />
.<br />
.<br />
Zum besseren Verständnis seinen wieder einige Zusammenhänge aufgezeigt,<br />
die sich aus der Häufigkeitstabelle ergeben:<br />
k Anzahl der verschiedenen Klassen.<br />
k i=1 ni = n Die Summe aller Einzelhäufigkeiten ergibt die Gesamthäufigkeit.<br />
k i=1 hi = 1 Wenn man alle Beobachtungen berücksichtigt, erhält man<br />
100%.<br />
.<br />
.
1.2. ANALYSE UNIVARIATER DATEN 17<br />
Für das Beispiel Alter 6 kann z.B. die folgende stetige (gerundete) Häufigkeitstabelle<br />
generiert werden:<br />
> haeufigkeit.stetig(alter,anzahl.klassen=6) in:5<br />
--------------------------i<br />
ug.i og.i n.i h.i F.i<br />
---------------------------<br />
1 18 20 121 0.457 0.457<br />
2 20 22 86 0.325 0.781<br />
3 22 24 42 0.158 0.940<br />
4 24 26 7 0.026 0.966<br />
5 26 28 7 0.026 0.992<br />
6 28 30 2 0.008 1.000<br />
---------------------------<br />
Als Klassenbreite (für alle Klassen) wurde zwei Jahre gewählt. Für drei Jahre<br />
ergibt sich:<br />
out:5<br />
> haeufigkeit.stetig(alter,anzahl.klassen=4) in:6<br />
--------------------------i<br />
ug.i og.i n.i h.i F.i<br />
---------------------------<br />
1 18 21 179 0.675 0.675<br />
2 21 24 70 0.264 0.940<br />
3 24 27 12 0.045 0.985<br />
4 27 30 4 0.015 1.000<br />
---------------------------<br />
Wie groß geeignete Klassen sind, kommt auf den Datensatz an. Es existieren<br />
gewisse Proportionalitäsregeln, die in statistischen Softwarepaketen implementiert<br />
sind. Zum Beispiel wird die Klassenzahl oft als proportional zum Logarithmus<br />
zur Basis 2 des Stichprobenumfangs bestimmt. Ein solches Vorgehen<br />
erlaubt einer Statistiksoftware, automatisiert Vorschläge für die Klassierung zu<br />
generieren. Letztlich muß man aber selber entscheiden, welche Klassengrenzen<br />
man wählt. Was würde sich übrigens bei einer Klassenbreite von einem Jahr ergeben?<br />
In einer stetigen Häufigkeitstabelle gilt: Die Untergrenze gehört nicht zur Klasse<br />
dazu. Durch dieses Vorgehen wird der Stetigkeit der Daten Rechnung getragen.<br />
Wenn also eine Beobachtung zufällig den Wert einer Untergrenze annimmt, dann<br />
wird sie einer Klasse tiefer zugeordnet. Somit ist eine Eindeutigkeit in bezug auf<br />
die Zuordnung der Daten garantiert.<br />
6 Vgl. Seite 4f für die diskrete Behandlung.<br />
out:6
18 KAPITEL 1. BESCHREIBENDE STATISTIK<br />
Bei der praktischen Anwendung kann es passieren, wie im Beispiel mit den<br />
Altersdaten, daß die Daten diskreter Natur sind. Aus ästhetischen Gründen, damit<br />
die Klassen eine gewisse Gleichmäßigkeit aufweisen, wird die Klassenbildung<br />
so gehandhabt, daß (nur) für die erste Klasse gilt: Die Untergrenze gehört zum<br />
Datensatz dazu.<br />
Sind alle Klassen gleichgroß, spricht man von äquidistanten Klassen. Das<br />
muß nicht so sein. Am Ende dieses Abschnittes wird dies illustriert.<br />
Das Histogramm Auch bei der klassierten Darstellung möchte man auf graphische<br />
Hilfsmittel zurückgreifen können. Das stetige Pendant zum Stabdiagramm<br />
ist das Histogramm: 7<br />
Definition: Histogramm<br />
Das Histogramm ist die graphische Darstellung der klassierten Häufigkeitstabelle.<br />
• Äquidistante Klassen:<br />
Über jeder Klasse wird ein Rechteck (=Flächenstreifen) abgetragen, dessen<br />
Höhe der relativen Häufigkeit in der Klasse entspricht.<br />
• Nicht-äquidistante Klassen:<br />
Wenn nicht alle Klassen die gleiche Breite haben, dann kann man nicht<br />
einfach die relative Häufigkeit nach oben abtragen. Dies würde zu einer<br />
verzerrten Darstellung führen. Über jeder Klasse wird ein Rechteck<br />
(=Flächenstreifen) mit folgender Höhe abgetragen — es wird für jede<br />
Klasse die sogenannte Häufigkeitsdichte fi berechnet:<br />
fi = hi<br />
∆xi<br />
= relative Häufigkeit<br />
Klassenbreite<br />
Im äquidistanten Fall kann natürlich ebenfalls die Häufigkeitsdichte fi abgetragen<br />
werden. Das ändert nichts am grundsätzlichen Aussehen des Histogramms,<br />
da jede relative Häufigkeit durch dieselbe Zahl geteilt wird. Auf diese Weise entspricht<br />
die Größe der Fläche jedes Rechtecks gerade der relativen Häufigkeit in<br />
der Klasse (= Prinzip der Flächenproportionalität).<br />
So wird eine sehr breite Klasse, in der genau so viele Beobachtungen liegen<br />
wie in einer sehr schmalen Klasse, entsprechend ein Rechteck mit geringer Höhe<br />
bekommen, dagegen die sehr schmale Klasse ein hohes Rechteck. Somit ist auch<br />
die Bezeichnung Häufigkeitsdichte gut zu interpretieren.<br />
7 In manchen Lehrbüchern wird die Häufigkeitsdichte mit ˆ fi (sprich: ” f dach“) bezeichnet.<br />
Der Grund dafür liegt in der Abgrenzung der Datenwelt zur Modellwelt. Die Berechnung der<br />
Häufigkeitsdichte ist nämlich als Schätzer der Modelldichte zu interpretieren.
1.2. ANALYSE UNIVARIATER DATEN 19<br />
Zurück zum Beispiel. Für das Merkmal Alter kann das folgende Histogramm<br />
dargestellt werden:<br />
> histogramm(alter) in:7<br />
0 20 40 60 80 100 120<br />
Histogramm von Alter<br />
18 20 22 24 26 28 30<br />
Abbildung 7<br />
Dieses Histogramm ist eine gute Darstellung der Daten. Auf einen Blick kann<br />
man die Struktur erkennen. Die Dominanz der ersten Klasse wird deutlich betont.<br />
Das Abfallen nach rechts charakterisiert diesen Datensatz, er ist schief.<br />
Definition: Modus/ Modalwert (stetig)<br />
Die Klassenmitte der am häufigsten besetzten Klasse in einem klassierten Datensatz<br />
wird als Modus bezeichnet. Im Histogramm ist dies der Mittelpunkt<br />
der Klasse, über der der größte Flächenstreifen abgetragen ist. <br />
Im Beispiel beträgt der Modus 19 Jahre. Der diskrete Modus zu diesem Datensatz<br />
ist 20 Jahre. 8 Der stetige Modus ist etwas kleiner.<br />
Satz 1: Die Histogrammfläche beträgt 1. <br />
8 Vgl. Seite 10.<br />
out:7
20 KAPITEL 1. BESCHREIBENDE STATISTIK<br />
Beweis von Satz 1: Der Beweis ist eine direkte Konsequenz aus dem Prinzip<br />
der Flächenproportionalität:<br />
Histogrammfläche = Summe der Flächenstreifen<br />
=<br />
=<br />
=<br />
=<br />
=<br />
k<br />
Höhei × Breitei<br />
i=1<br />
k<br />
fi · ∆xi<br />
i=1<br />
k hi<br />
· ∆xi<br />
∆xi<br />
i=1<br />
k<br />
i=1<br />
k<br />
i=1<br />
hi<br />
= 1/n ·<br />
= 1<br />
Im folgenden soll der Einfluß der Klassenwahl auf das Aussehen und die Aussagekraft<br />
des Histogramms aufgezeigt werden. Dazu wird noch einmal der Datensatz<br />
Anzahl Bücher aus der Studentenbefragung herangezogen: manchmal ist<br />
weniger mehr, scheint eine Quintessenz zu sein. Sukzessive sind zunächst die<br />
größte sowie die zwei größten Beobachtungen weggelassen worden. Die Grenzen<br />
sind offensichtlich schlecht gewählt. Die beiden unteren Histogramme zeigen alle<br />
Beobachtungen kleiner 400 bzw. kleiner 300. Sind die Grenzen hierfür passend?<br />
ni<br />
n<br />
k<br />
i=1<br />
ni<br />
△
1.2. ANALYSE UNIVARIATER DATEN 21<br />
0 50 100 150<br />
0 20 40 60 80<br />
Anzahl ohne Max<br />
0 500 1000 1500<br />
Anzahl < 400<br />
0 100 200 300<br />
0 10 20 30<br />
Abbildung 8<br />
0 20 40 60 80 120 Anzahl ohne 2 groessten<br />
0 200 400 600 800<br />
Anzahl < 300<br />
0 50 150 250<br />
Die (verkürzte) Häufigkeitstabelle für Anzahl Bücher weniger 400 ergibt sich<br />
als:<br />
-------------ug.i<br />
og.i n.i<br />
--------------<br />
-50 0 11<br />
0 50 89<br />
50 100 46<br />
100 150 13<br />
150 200 14<br />
200 250 2<br />
250 300 8<br />
300 350 2<br />
--------------<br />
Man beachte in diesem Beispiel die Problematik in bezug auf die erste Untergrenze.<br />
Offensichtlich haben seltsamerweise 11 Studierende angegeben, sie hätten<br />
gar keine Bücher. Dieser Datensatz hat aber nun deutlich stetige Züge — viele<br />
Merkmalsausprägungen und geringe Besetzungszahlen —, so daß ein verzerrter
22 KAPITEL 1. BESCHREIBENDE STATISTIK<br />
Eindruck entstünde, wenn die Null als Untergrenze dazugehören würde. Hier hat<br />
die Software den Vorschlag gemacht, die Klassen symmetrisch um Null zu beginnen<br />
— 50 Einheiten nach links, 50 Einheiten nach rechts. Daß negative Zahlen<br />
natürlich keinen Sinn machen bei Zählprozessen, kann die Software nicht wissen.<br />
Anhand des Datensatzes Gewicht, der auf der Seite 15 bereits kurz dargestellt<br />
wurde, soll der Einfluß der Klassenwahl demonstriert werden. In den folgenden<br />
Graphiken sind jeweils äquidistante Klassen verwandt worden. Überlegen Sie, was<br />
sich über eine optimale Anzahl von Klassen aussagen läßt?<br />
n.i<br />
n.i<br />
n.i<br />
0 50 100 150<br />
0 20 40 60 80 100<br />
0 10 20 30<br />
Histogramm von Gewicht<br />
0 50 100 150 200<br />
Histogramm von Gewicht<br />
40 60 80 100 120<br />
Histogramm von Gewicht<br />
60 80 100 120<br />
n.i<br />
n.i<br />
n.i<br />
0 50 100 150<br />
0 10 20 30 40 50<br />
0 5 10 15 20<br />
Abbildung 9<br />
Histogramm von Gewicht<br />
0 50 100 150<br />
Histogramm von Gewicht<br />
40 60 80 100 120<br />
Histogramm von Gewicht<br />
60 80 100 120<br />
Bei den folgenden Graphiken, wieder mit dem Merkmal Gewicht erzeugt, kann<br />
man sehr schön erkennen, inwiefern das bloße Abtragen von relativen Häufigkeiten<br />
bei nicht-äquidistanten Klassen zu wenig hilfreichen Darstellungen führt. Die<br />
beiden Graphiken haben jeweils dieselbe Klasseneinteilung. Links ist die absolute<br />
Häufigkeit abgetragen, rechts die Häufigkeitsdichte:
1.2. ANALYSE UNIVARIATER DATEN 23<br />
0 20 40 60 80 Falsches Histogramm von Gewicht<br />
40 60 80 100 120<br />
0.0 0.005 0.010 0.015 0.020 0.025 0.030<br />
Abbildung 10<br />
Histogramm von Gewicht<br />
40 60 80 100 120<br />
Der Unterschied ist sehr deutlich. In der linken Graphik dominiert die letzte<br />
Klasse das Histogramm. Der Balken ist sehr breit und sehr hoch. Diese Darstellung<br />
ist aber irreführend. In der rechten Graphik konnten durch Abtragen der<br />
Häufigkeitsdichte die wahren Verhältnisse zum Ausdruck gebracht werden.<br />
Durch die Umsetzung der Häufigkeitsdichte (=relative Häufigkeit geteilt durch<br />
die Klassenbreite) wird berücksichtigt, auf wieviel Raum in bezug auf die Skala<br />
sich wie viele Beobachtungen verteilen.
Rückblick<br />
Kapitel<br />
1.2.1<br />
24 KAPITEL 1. BESCHREIBENDE STATISTIK<br />
Die Häufigkeitsanalyse hat sich als hilfreich erwiesen, Datenmaterial zu<br />
verdichten und damit übersichtlicher darzustellen.<br />
Im Rahmen der diskreten Häufigkeitsanalyse wurden das Konzept<br />
Häufigkeitstabelle sowie deren graphische Repräsentationen Stabdiagramm,<br />
Tortendiagramm, Balkendiagramm und mit dem Modus (diskret) eine erste<br />
Maßzahl vorgestellt. Das spezielle Balkendiagramm Alterspyramide schloß<br />
die Betrachtung ab.<br />
Im Rahmen der stetigen Häufigkeitsanalyse wurde das Konzept der<br />
klassierten Häufigkeitstabelle eingeführt. Die graphische Darstellung ist das<br />
Histogramm. Der Modus (stetig) wurde definiert.<br />
In der praktischen Anwendung sind die Übergänge von diskreter zu stetiger<br />
Betrachtung teilweise fließend und können nicht kategorisch festgelegt<br />
werden.<br />
Abschließend bleibt festzuhalten, daß man mit der bloßen Häufigkeitsanalyse<br />
Informationen verschenkt, da eben nur Häufigkeiten betrachtet werden und<br />
nicht die ursprünglichen Beobachtungen. Das ist vor allem bei Daten mit<br />
metrischem Meßniveau ungeschickt. Also zurück zu den Daten! Dieser Weg<br />
soll im Anschluß an das Beispiel aus der Kryptologie begangen werden.<br />
Ein Beispiel: Kryptographie<br />
Im diesem Abschnitt wird mit Hilfe der Häufigkeitsanalyse die Analyse eines<br />
Kryptogramms (=ein verschlüsselter Klartext) vorgeführt. 9 Die Häufigkeitsanalyse<br />
ist ein sehr wichtiges Instrument, um monoalphabetisch und symmetrisch<br />
verschlüsselte Texte zu entschlüsseln.<br />
Monoalphabetisch heißt, daß jeder Buchstabe des Klartextalphabetes (ABC-<br />
DE. . . XYZ) durch genau einen anderen ersetzt wird, z.B. (DFGV. . . UJA). Das<br />
heißt, aus einem A wird im Beispiel ein D usw. Dieses Geheimtextalphabet ist<br />
der sogenannte Schlüssel. Sender und Empfänger benutzen denselben Schlüssel;<br />
bei solchen Verschlüsselungsverfahren spricht man von symmetrischen Verschlüsselungsverfahren.<br />
Auf die gerade vorgestellt Weise können 26! ≈ 4 · 10 26 verschiedene Schlüssel<br />
erzeugt werden. Diese Zahl ist so gigantisch, daß man die Schlüssel nicht systematisch<br />
ausprobieren kann, was natürlich zur Entschlüsselung führen würde. Wenn<br />
ein Computer pro Sekunde 1 Milliarde Schlüssel durchprobieren könnte, dann<br />
würde es etwa 4 · 10 17 Sekunden, also 4 · 10 17 /(60 · 60 · 24 · 365) = 1.3 · 10 10 Jahre<br />
dauern, um alle Schlüssel durchzuprobieren. Das Alter des Universums beträgt<br />
so etwa 10 10 Jahre. Heißt das, daß die Verschlüsselung sicher ist?<br />
9 Für weitergehende Informationen vgl.:<br />
http://www.wiwi.uni-bielefeld.de/StatCompSci/tiemann/tiemann.html<br />
dort caesar.html und rsa.html.
1.2. ANALYSE UNIVARIATER DATEN 25<br />
Exkurs: Caesar-Verschlüsselung<br />
Eine einfachere Variante der monoalphabetischen Verschlüsselung ist die<br />
sogenannte Caesar-Verschlüsselung.<br />
Hierbei wird nicht eine beliebige Reihenfolge des Alphabets gewählt, sondern<br />
lediglich ein anderer Startpunkt. Der Buchstabe, mit dem das A verschlüsselt<br />
wird, ist dann die Schlüsselinformation, hier also das D:<br />
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z<br />
D E F G H I J K L M N O P Q R S T U V W X Y Z A B C<br />
Ein Caesar-verschlüsselter Text kann genauso geknackt werden, wie ein<br />
allgemein monoalphabetisch verschlüsselter, es geht sogar etwas einfacher.<br />
Oder man probiert alle Schlüssel durch, es gibt ja nur 25. ⋆<br />
Der folgende Text ist auf die vorgestellte monoalphabetische Art und Weise<br />
verschlüsselt worden:<br />
"tnsftiivtdwpknpdbycnycievvnteisfwwtiptbrdiptnrdtbjtbjtctiteiteinvdoejtngtbok<br />
cbtiretvtvneycieycvkirahtnhktbtieycvzbksveskrtlnvkvvptnntiskiiwkitooeaetivtbg<br />
fbjtctipetjbdipjtnkwvctevhebpeipetnfjtikiivtisldwztidivtbvtelvpetntateycitine<br />
ycpkpdbyckdnpknnneteineycntcbctvtbfjtineipteitcfcteivtbitgkbekiakdohtentixtpt<br />
bsldwztinfllteislteitnkrrelpptbjbdipjtnkwvctevnteinfwevenvkdycpethkclptnrtjbe<br />
ootnsldwztiadgtbnvtctitbenvbkdcdipklnfctvtbfjtidipieycvjlkvvdiptrtixtctvtbfjt<br />
itbpetsldwztieineycneipptnvfrtnntbgfipetntisldwztihtbptiiditeiejtadoktllejkdn<br />
jthktclvpettbnvtnvdotenvklnfteitvtelnveyczbfrtpetahtevtnvdotenvteitgflltbctrd<br />
ijklltteictevtieiptisldwztijtlkijtieipettipjdtlvejtnveyczbfrtpetofljtiptjbkzc<br />
esnvtllvpetntngfbjtctipkbhktcbtipteisldwztieineycxthtelnctvtbfjtienvneippetgt<br />
bnycetptitisldwztiadteikiptbcfwfjtiklltneipnycletnnleycteikrrelpptbjbdipjtnkw<br />
vctevptbnfjtikiivtsldwztitootsvrtnycbtervptijbftnntbtikdnhkclotcltbptiwkiewgt<br />
bjlteycadbteinvdoejtinveyczbfrtwkycvhtiipetsldwztinycltycvjthktclvneipklnfpet<br />
jtbkptrtnycbetrtititejtinyckovtiieycvkdnbteyctipkdohtentivmzenyctsldwztirelpd<br />
ijtineiptnpkbokrtbietpkneivtbtnnetbtiptwtbswklkdnntbkycvjtlknntihtbptirtvbetr<br />
tokweletivkjtnotbvejdijtihfyctidwnktvatnycdlslknnti"<br />
Sieht schwierig aus? Nun, ein nicht knackbarer Code würde genauso aussehen.<br />
Dieser hier ist nicht schwer zu attackieren: Als erstes wollen wir uns die<br />
Häufigkeitsverteilung der Buchstaben anschauen:<br />
a b c d e f g h i j k l m<br />
0.008 0.052 0.048 0.039 0.088 0.022 0.007 0.013 0.104 0.034 0.049 0.043 0.001<br />
n o p q r s t u v w x y z<br />
0.076 0.017 0.050 0.000 0.020 0.017 0.188 0.000 0.056 0.022 0.002 0.027 0.014
26 KAPITEL 1. BESCHREIBENDE STATISTIK<br />
. . . und nun der Häufigkeit nach geordnet:<br />
t i e n v b p k c l d j y<br />
0.188 0.104 0.088 0.076 0.056 0.052 0.050 0.049 0.048 0.043 0.039 0.034 0.027<br />
w f r s o z h a g x m u q<br />
0.022 0.022 0.020 0.017 0.017 0.014 0.013 0.008 0.007 0.002 0.001 0.000 0.000<br />
Hier sind deutliche Unterschiede zu erkennen, was die Häufigkeiten angeht.<br />
Die beiden Häufigkeitstabellen sollen im Stabdiagramm dargestellt werden:<br />
rel.Haeufigkeit<br />
rel.Haeufigkeit<br />
0.0 0.05 0.10 0.15<br />
0.0 0.05 0.10 0.15<br />
Haeufigkeiten der Buchstaben<br />
im Geheimtext<br />
a b c d e f g h i j k l m n o p q r s t u v w x y z<br />
Buchstaben<br />
Haeufigkeiten der Buchstaben<br />
im Geheimtext (sortiert)<br />
t i e n v b p k c l d j y w f r s o z h a g x m u q<br />
Buchstaben<br />
Abbildung 11<br />
Die deutsche Sprache hat die Eigenschaft, daß die Häufigkeiten der einzelnen<br />
Buchstaben sehr unterschiedlich sind. Der mit Abstand häufigste Buchstabe ist<br />
das e, der seltenste Buchstabe ist das q. In der folgenden Tabelle sind die relativen<br />
Häufigkeiten der einzelnen Buchstaben dargestellt, in der anschließenden Graphik<br />
sind diese im Stabdiagramm abgetragen:
1.2. ANALYSE UNIVARIATER DATEN 27<br />
a b c d e f g h i j k<br />
0.0651 0.0189 0.0306 0.0508 0.174 0.0166 0.0301 0.0476 0.0755 0.0027 0.0121<br />
l m n o p q r s t u v<br />
0.0344 0.0253 0.0978 0.0251 0.0079 0.0002 0.070 0.0727 0.0615 0.0435 0.0067<br />
w x y z<br />
0.0189 0.0003 0.0004 0.0113<br />
. . . und geordnet:<br />
e n i s r a t d h u l<br />
0.1740 0.0978 0.0755 0.0727 0.0700 0.0651 0.0615 0.0508 0.0476 0.0435 0.0344<br />
c g m o w b f k z p<br />
0.0306 0.0301 0.0253 0.0251 0.0189 0.0189 0.0166 0.0121 0.0113 0.0079<br />
v j y x q<br />
0.0067 0.0027 0.0004 0.0003 0.0002<br />
rel.Haeufigkeit<br />
rel.Haeufigkeit<br />
0.0 0.05 0.10 0.15<br />
0.0 0.05 0.10 0.15<br />
Haeufigkeiten der Buchstaben<br />
in der deutschen Sprache<br />
a b c d e f g h i j k l m n o p q r s t u v w x y z<br />
Buchstaben<br />
Haeufigkeiten der Buchstaben<br />
in der deutschen Sprache (sortiert)<br />
e n i s r a t d h u l c g m o w b f k z p v j y x q<br />
Buchstaben<br />
Abbildung 12<br />
Vergleicht man die beiden Stabdiagramme der sortierten Häufigkeiten (Geheimtext<br />
und deutsche Sprache), dann stellt man fest, daß die Darstellungen sehr
28 KAPITEL 1. BESCHREIBENDE STATISTIK<br />
große Ähnlichkeiten aufweisen, bis auf die Beschriftung der einzelnen Stäbe mit<br />
Buchstaben. Das ist gerade der Ansatzpunkt.<br />
Im Geheimtext ist das t am häufigsten, in der deutschen Sprache ist es das e.<br />
Die beiden relativen Häufigkeiten sind sich sowohl absolut betrachtet sehr ähnlich<br />
als auch im Vergleich zu den jeweils nächst häufigen. Es erscheint aussichtsreich,<br />
im Geheimtext die Buchstaben gemäß ihrer Häufigkeiten zu ersetzen.<br />
Zusätzlich zu den Häufigkeiten der einzelnen Buchstaben sind auch die von<br />
Paaren aufeinanderfolgenden Buchstaben (Bigramme) bekannt. Die 10 häufigsten<br />
Bigramme sind:<br />
In der deutschen Sprache:<br />
Paar rel.H.<br />
-----------en<br />
0.0388<br />
er 0.0375<br />
ch 0.0275<br />
te 0.0226<br />
de 0.0200<br />
nd 0.0199<br />
ei 0.0188<br />
ie 0.0179<br />
in 0.0167<br />
es 0.0152<br />
------------<br />
. . . und im Geheimtext:<br />
Paar abs.H rel.H<br />
------------------ti<br />
61 0.051<br />
tb 36 0.030<br />
te 34 0.028<br />
yc 32 0.027<br />
tn 30 0.025<br />
jt 29 0.024<br />
ei 29 0.024<br />
ip 27 0.022<br />
et 24 0.020<br />
pt 23 0.019<br />
-------------------<br />
Aus diesen Informationen lassen sich nun bereits die folgenden Ersetzungen<br />
identifizieren:<br />
Geheimtext wird zu<br />
t e<br />
i n<br />
e i<br />
n s<br />
b r<br />
y c<br />
c h<br />
Für die letzten vier Ersetzungen war die Bigrammanalyse von großer Bedeutung.<br />
Diese sieben Ersetzungen sollen vorgenommen werden. Hier ist das Ergebnis<br />
der Substitutionen; direkt danach ist wieder der Geheimtext abgedruckt:
1.2. ANALYSE UNIVARIATER DATEN 29<br />
es--enn-e----s--rchschni--sein----en-er--n-es--er-er-eheneineins---i-es-er--hren-ie<br />
-e-sichnich--n---es--erenich--r---i---e-s-----essen--nn--ne--i-ien-er--r-ehen-ie-rn--es---hei--ir-in-ies--en-nn-en-----en-n-er-ei---iese-eichnensich----rch--s--sssieinsichsehrhe-er--ensin-eineh-hein-erne--ri-n-----eisen-e-er-----ens---ein--eines--i---er-r-n--es---hei-seins--i-is---ch-ie--h--es-e-ri--es-----en---ers-eheneris-r--h<br />
-n---s-he-er--en-n-nich-------n-e-en-ehe-er--ener-ie-----eninsichsin--es---esser--n<br />
-iesen-----en-er-enn-neini-e----e--i---s-e--eh---ieers-es---eis---s-eine-ei-s-ich-r<br />
--e-ie--ei-es---eis-eine----erhe--n----eeinhei-enin-en-----en-e--n-enin-ieen---e--i<br />
-es-ich-r--e-ie----en-e-r--hi-s-e----ieses--r-ehen--r--ehren-ein-----eninsich-e-eishe-er--enis-sin--ie-erschie-enen-----en--ein-n-erh----en---esin-sch-iess-ichein--i---er-r-n--es---hei--ers--en-nn-e-----ene--e---eschrei---en-r-esseren--s--h--eh-er<br />
-en--ni--er--eich--reins---i-ens-ich-r--e--ch--enn-ie-----ensch-ech--e--eh--sin---s<br />
--ie-er--e-eschrie-enenei-ensch---ennich---sreichen-----eisen---ische-----en-i---nensin-es--r---ernie--sin-eressieren-e-er------sser-ch--e--ssen-er-en-e-rie-e---i-ie<br />
n---es-er-i--n-en--chen--s-e--esch-----ssen<br />
tnsftiivtdwpknpdbycnycievvnteisfwwtiptbrdiptnrdtbjtbjtctiteiteinvdoejtngtbokcbtiret<br />
vtvneycieycvkirahtnhktbtieycvzbksveskrtlnvkvvptnntiskiiwkitooeaetivtbgfbjtctipetjbd<br />
ipjtnkwvctevhebpeipetnfjtikiivtisldwztidivtbvtelvpetntateycitineycpkpdbyckdnpknnnet<br />
eineycntcbctvtbfjtineipteitcfcteivtbitgkbekiakdohtentixtptbsldwztinfllteislteitnkrr<br />
elpptbjbdipjtnkwvctevnteinfwevenvkdycpethkclptnrtjbeootnsldwztiadgtbnvtctitbenvbkdc<br />
dipklnfctvtbfjtidipieycvjlkvvdiptrtixtctvtbfjtitbpetsldwztieineycneipptnvfrtnntbgfi<br />
petntisldwztihtbptiiditeiejtadoktllejkdnjthktclvpettbnvtnvdotenvklnfteitvtelnveyczb<br />
frtpetahtevtnvdotenvteitgflltbctrdijklltteictevtieiptisldwztijtlkijtieipettipjdtlve<br />
jtnveyczbfrtpetofljtiptjbkzcesnvtllvpetntngfbjtctipkbhktcbtipteisldwztieineycxthtel<br />
nctvtbfjtienvneippetgtbnycetptitisldwztiadteikiptbcfwfjtiklltneipnycletnnleycteikrr<br />
elpptbjbdipjtnkwvctevptbnfjtikiivtsldwztitootsvrtnycbtervptijbftnntbtikdnhkclotcltb<br />
ptiwkiewgtbjlteycadbteinvdoejtinveyczbfrtwkycvhtiipetsldwztinycltycvjthktclvneipkln<br />
fpetjtbkptrtnycbetrtititejtinyckovtiieycvkdnbteyctipkdohtentivmzenyctsldwztirelpdij<br />
tineiptnpkbokrtbietpkneivtbtnnetbtiptwtbswklkdnntbkycvjtlknntihtbptirtvbetrtokwelet<br />
ivkjtnotbvejdijtihfyctidwnktvatnycdlslknnti<br />
Nun sind genaues Hingucken und detektivisches Aufspüren gefragt. Wenn man<br />
also mal in die erste Zeile des Geheimtextes schaut, dann fällt folgende Passage<br />
auf:<br />
--rchschni--sein----en<br />
Das könnte durchschnittseinkommen geheißen haben. Jetzt müssen im Geheimtext<br />
die entsprechenden Buchstaben gesucht werden. Das geht recht einfach,<br />
da die Texte genau übereinander stehen: pdbycnycievvnteisfwwti.<br />
Davon sind bereits viele Buchstaben identifiziert. Das doppelte v sowie das<br />
doppelte w sind eine starke Bestätigung für die Vermutung. Diese Ersetzungen<br />
können also vorgenommen werden:<br />
--rchschni--sein----en<br />
pdbycnycievvnteisfwwti
Rückblick<br />
Kapitel<br />
1.2.1<br />
30 KAPITEL 1. BESCHREIBENDE STATISTIK<br />
Geheimtext wird zu<br />
p d<br />
d u<br />
v t<br />
s k<br />
f o<br />
w m<br />
Diese Ersetzungen führen dann zu:<br />
eskoennteumd-sdurchschnittseinkommender-undes-uer-er-eheneineinstu-i-es-er--hren-ie<br />
tetsichnicht-n---es--erenicht-r-ktik--e-st-ttdessenk-nnm-ne--i-ienter-or-ehendie-ru<br />
nd-es-mtheit-irdindieso-en-nntenk-um-enuntertei-tdiese-eichnensichd-durch-usd-sssie<br />
insichsehrhetero-ensindeinehoheinterne--ri-n--u--eisen-ederk-um-enso--eink-eines--i-dder-rund-es-mtheitseinsomitist-uchdie--h-des-e-ri--esk-um-en-u-ersteheneristr-uh<br />
und--sohetero-enundnicht---ttunde-en-ehetero-enerdiek-um-eninsichsinddesto-esser-on<br />
diesenk-um-en-erdennuneini-e-u--e--i--us-e--eh-tdieerstestu-eist--soeinetei-stich-r<br />
o-edie--eitestu-eisteine-o--erhe-un----eeinheitenindenk-um-en-e--n-enindieend-ue-ti<br />
-estich-ro-edie-o--ende-r--hikste--tdieses-or-ehend-r--ehrendeink-um-eninsich-e-eishetero-enistsinddie-erschiedenenk-um-en-uein-nderhomo-en---esindsch-iess-ichein--i-dder-rund-es-mtheitderso-en-nntek-um-ene--ekt-eschrei-tden-roesseren-us--h--eh-er<br />
denm-nim-er--eich-ureinstu-i-enstich-ro-em-cht-enndiek-um-ensch-echt-e--eh-tsind--s<br />
odie-er-de-eschrie-enenei-ensch--tennicht-usreichend-u--eisent--ischek-um-en-i-dunensindesd-r---ernied-sinteressierendemerkm---usser-cht-e--ssen-erden-etrie-e--mi-ie<br />
nt--es-erti-un-en-ochenums-et-eschu-k--ssen<br />
Im Prinzip ist der Text damit entschlüsselt. Würde man mit der Analyse<br />
fortfahren, dann ergäbe sich der folgende Schlüssel, das folgende Geheimtextalphabet:<br />
k r y p t o j c e x s l w i f z q b n v d g h u m a<br />
a b c d e f g h i j k l m n o p q r s t u v w x y z<br />
Um die Verschlüsselung nachhaltig zu verbessern, muß versucht werden, die<br />
Häufigkeiten der Buchstaben zu verschleiern, so daß idealerweise alle Geheimtextbuchstaben<br />
gleichhäufig sind.<br />
Hier bieten sich sogenannte polyalphabetische Verschlüsselungsverfahren<br />
an. Bei diesen wechselt das Geheimtextalphabet ständig. Wir wollen hierauf<br />
nicht weiter eingehen, Neugierige können unter der zu Beginn des Beispiels angegebenen<br />
Internetadresse weiterlesen.<br />
Das Beispiel diente dazu, eine bedeutsame und interessante Anwendung der<br />
Häufigkeitsanalyse vorzustellen. Im übrigen ist die Häufigkeitsanalyse ebenso<br />
brauchbar beim Analysieren polyalphabetisch verschlüsselter Texte. Es muß<br />
lediglich etwas mehr Vorarbeit geleistet werden.
1.2. ANALYSE UNIVARIATER DATEN 31<br />
Exkurs: Summenzeichen<br />
Der große griechische Buchstabe Σ (lies: Sigma) dient dazu, die mathematische<br />
Schreibweise zu vereinfachen. Der Umgang und die Interpretation sind<br />
folgendermaßen zu verstehen:<br />
10<br />
i=1<br />
i = 1 + 2 + . . . + 10 (lies: ” Summe i gleich 1 bis 10 von i.“)<br />
Die ersten zehn natürlichen Zahlen werden aufaddiert. Der Index i (i kann<br />
auch j oder sonstwie heißen) durchläuft nacheinander die Werte 1 bis 10.<br />
Es wird jedesmal dazuaddiert, was rechts vom Summenzeichen steht:<br />
10<br />
i=1<br />
1 =<br />
<br />
1 + 1 +<br />
<br />
. . . + 1<br />
<br />
= 10<br />
10−mal<br />
Das funktioniert natürlich auch mit Platzhaltern (Variablen). . .<br />
k<br />
ni = n1 + n2 + . . . + nk = n<br />
i=1<br />
. . . oder mit solchen Ausdrücken:<br />
10<br />
i=1<br />
i 2 = 1 2 + 2 2 + . . . + 10 2 = 385<br />
Im zarten Kindesalter hat Carl Friedrich Gauß (1777-1855) übrigens<br />
einen Zusammenhang zur Berechnung der Summe der ersten n natürlichen<br />
Zahlen entdeckt:<br />
n<br />
n · (n + 1)<br />
i = 1 + 2 + 3 + . . . + n =<br />
2<br />
i=1<br />
Er hat (wahrscheinlich) die Zahlen folgendermaßen hingeschrieben:<br />
1 + 2 + . . . + n−1 + n → i = ?<br />
n + n − 1 + . . . + 2 + 1 → i = ?<br />
n+1 + n + 1 + . . . + n+1 + n+1 → 2 · i = n · (n + 1)<br />
Das Fragezeichen symbolisiert die gesuchte Summe.<br />
Anhand dieser Tabelle wird klar, daß n · (n + 1) gerade doppelt so groß ist<br />
wie die unbekannte gesuchte Summe — man kann ja horizontal wie auch<br />
vertikal summieren. ⋆
in:8<br />
32 KAPITEL 1. BESCHREIBENDE STATISTIK<br />
1.2.2 Zurück zur Urliste<br />
Man hat das Gefühl, daß bei der bloßen Häufigkeitsbetrachtung Informationen<br />
verschenkt werden. Es werden schließlich nicht die tatsächlich beobachteten Daten<br />
bei der Analyse berücksichtigt. Diese sind zunächst transformiert worden, so daß<br />
lediglich Merkmalsausprägungen und deren Häufigkeiten dem Beschreiben der<br />
Daten zugrunde lagen.<br />
Bei nominalskalierten Daten ist dieses Vorgehen zur Erkenntnisgewinnung im<br />
Prinzip das einzig mögliche. In bezug auf ordinal- und vor allem kardinalskalierte<br />
Daten ist das anfänglich beschriebene ungute Gefühl allerdings nicht zu<br />
übergehen: Den Daten kann mehr entlockt werden.<br />
Anhand des auf der Seite 15 vorgestellten Datensatzes buecher.stud soll der<br />
Schritt zurück zur Urliste beschrieben werden. In der Urliste, auch als Rohdaten<br />
bezeichnet, stehen die Daten so, wie sie ursprünglich beobachtet oder erhoben<br />
wurden. Die folgenden Bezeichnungen sollen gelten:<br />
X Allgemeine Bezeichnung für das Merkmal.<br />
n Stichprobenumfang.<br />
xi i-te Beobachtung vom Merkmal X, mit i = 1, 2, . . . , n.<br />
x(i), i = 1 . . . n Dies bezeichnet die Rangwertreihe, also den geordneten Datensatz:<br />
x(1) ist die kleinste, x(n) die größte Beobachtung.<br />
Der Datensatz buecher.stud hat einen Stichprobenumfang von n = 195.<br />
Der Übersicht halber soll daraus zunächst eine Zufallsstichprobe vom Umfang 20<br />
gezogen werden, die wir mit x bezeichnen wollen. Mit der Funktion sample()<br />
kann diese Zufallsstichprobe einfach realisiert werden. Der Datensatz x sowie die<br />
Rangwertreihe von x werden durch die Funktion halbe.halbe() jeweils in 2<br />
gleich große Blöcke aufgeteilt:<br />
> x halbe.halbe(x); halbe.halbe(sort(x))<br />
out:8 150 60 10 70 100 100 40 40 800 100<br />
60 40 70 200 5 60 300 80 20 10<br />
5 10 10 20 40 40 40 60 60 60<br />
70 70 80 100 100 100 150 200 300 800<br />
Während wir durch das Hinschreiben von x kaum zusätzliche Informationen<br />
gewinnen — man stelle sich nun die gleiche Darstellung mit 195 Datenpunkten<br />
vor —, läßt sich durch das Aufteilen der Rangwertreihe in 2 gleich große Hälften<br />
bereits etwas ablesen. Die untere Hälfte der Studierenden besitzt höchstens 60<br />
Bücher, während die Studierenden der zweiten Hälfte mindestens 70 Bücher im
1.2. ANALYSE UNIVARIATER DATEN 33<br />
Regal stehen haben. Eine Person hat angegeben, lediglich 5 Bücher zu besitzen,<br />
während am anderen Ende jemand 800 hat.<br />
Liegt zwischen 60 und 70 sowas wie der Durchschnitt der Daten? Wie kann<br />
man die große Diskrepanz zwischen den Beobachtungen angemessen beschreiben?<br />
Diesen Fragen soll in den nächsten Abschnitten nachgegangen werden.<br />
Betrachtungen zur Lage<br />
Lage? Wo auf der unendlich weiten Merkmalsachse mit der Dimension Anzahl<br />
Bücher liegt der Datensatz, wie viele Bücher besitzen die verschiedenen Studierenden?<br />
Dazu soll zunächst ein Dot-Plot der Daten betrachtet werden, bei dem<br />
zusätzlich die bereits identifizierte Stelle 60 als vertikale Linie eingetragen ist —<br />
beim Dot Plot sei die horizontale Achse die Merkmalsachse, auf der vertikalen<br />
Achse wird der Index i abgetragen:<br />
> dot.plot(x,main="Dot Plot von x_i",xlab="Anzahl Buecher",ylab="i")<br />
> abline(v=60) in:8<br />
i<br />
5 10 15 20<br />
Dot Plot von x_i<br />
0 200 400 600 800<br />
Anzahl Buecher<br />
Abbildung 7<br />
out:8
in:8<br />
34 KAPITEL 1. BESCHREIBENDE STATISTIK<br />
Auf einen Blick kann man erkennen, daß die Daten relativ dicht gedrängt bis<br />
zur eingezeichneten Stelle 60 Bücher liegen. Jenseits der 60 machen sich die Daten<br />
wesentlich breiter auf der Merkmalsachse. Die zweite Hälfte benötigt mehr Platz,<br />
sie erstreckt sich bis hin zur 800. Wo liegen also die Daten? Kann man die Lage<br />
zusammenfassend beschreiben? Wenn man sich eine Zahl wünschen dürfte, die<br />
ein typischer Repräsentant der Daten sein soll, welche würde man wählen?<br />
Mit den zentralen Lageschätzern versucht man, diese letzten Gedanken<br />
umzusetzen. Es wird eine Zahl aus den Daten generiert, die alle anderen vertritt<br />
und somit für den Datensatz typisch ist. Der zentrale Lageschätzer ist durch einen<br />
minimalen Abstand zu den Beobachtungen ausgezeichnet, er liegt in der Mitte der<br />
Daten. Immer?<br />
Definition: Arithmetisches Mittel<br />
¯x = 1<br />
n<br />
n<br />
i=1<br />
xi = x1 + x2 + . . . + xn<br />
n<br />
(sprich: ” x quer“)<br />
Um das arithmetische Mittel sinnvoll berechnen zu können, müssen die Daten<br />
kardinales Meßniveau aufweisen. Ist die Differenz zwischen zwei Merkmalsausprägungen<br />
sachlogisch der entscheidende Unterschied, nicht das Verhältnis,<br />
dann macht dieser Mittelwert Sinn (vgl. geometrisches Mittel).<br />
Das arithmetische Mittel hat die Eigenschaft der Linearität<br />
yi = a + b · xi ⇒ ¯y = a + b · ¯x<br />
Das arithmetische Mittel ist ausreißerempfindlich. <br />
> mean(x)<br />
out:8 115.75<br />
in:8<br />
Ist ¯x = 115.75 der typische Repräsentant für den Datensatz x? Ein kurzes<br />
Nachzählen auf der Seite 32 der Rangwertreihe von x verrät uns, daß 16 von<br />
20 Studierenden, also 80%, deutlich weniger, die übrigen 4 aber wesentlich mehr<br />
Bücher besitzen. Der gefundene Mittelwert scheint also niemandem gerecht zu<br />
werden.<br />
Wie groß sind die arithmetischen Mittel in den beide gerade genannten Gruppen,<br />
was ist also die mittlere Anzahl Bücher derjenigen, die weniger als 115 Bücher<br />
besitzen bzw. derer, die mehr haben:<br />
out:8 54.0625<br />
362.5<br />
> mean(x[x mean(x[x>mean(x)])
i<br />
i<br />
i<br />
1.2. ANALYSE UNIVARIATER DATEN 35<br />
Ein Blick auf die Rangwertreihe verrät: Während die erste Zahl ein guter<br />
Repräsentant ist, kommt die zweite wieder nicht in Frage. Woran liegt das?<br />
Das arithmetische Mittel kann interpretiert werden als diejenige Zahl, die jede<br />
Beobachtung annehmen würde, wenn die Gesamtsumme aller tatsächlichen Beobachtungen<br />
gleichmäßig verteilt wäre. Wenn nun aber eine oder einige wenige<br />
Beobachtungen viel größer (kleiner) sind als alle anderen, dann wird die Gesamtsumme<br />
so groß (klein), daß der resultierende Mittelwert die zentrale Lage der<br />
Daten überschätzt (unterschätzt).<br />
Das ist hier der Fall. Die Beobachtungen 800 und auch 300 sind weit entfernt<br />
vom Rest der Daten und können als Ausreißer bezeichnet werden. In der<br />
folgenden Graphik ist der Einfluß dieser Ausreißer auf den Mittelwert dargestellt:<br />
5 10 15 20<br />
5 10 15<br />
5 10 15<br />
<br />
Alle Beobachtungen<br />
Mittelwert: 115.75<br />
115.75<br />
0 200 400 600 800<br />
Anzahl Buecher<br />
Alle Beobachtungen kleiner 800<br />
Mittelwert: 79.74<br />
79.74<br />
0 200 400 600 800<br />
Anzahl Buecher<br />
Alle Beobachtungen kleiner 300<br />
Mittelwert: 67.5<br />
67.5<br />
0 200 400 600 800<br />
Anzahl Buecher<br />
in:8<br />
out:8
in:8<br />
36 KAPITEL 1. BESCHREIBENDE STATISTIK<br />
Abbildung 7<br />
Definition: Median (Zentralwert)<br />
x0.5 =<br />
<br />
x ( n+1<br />
2 ) für n ungerade<br />
1 · (x( n<br />
2 2 ) + x( n<br />
2 +1)) für n gerade<br />
Die Daten müssen wenigstens ordinales Meßniveau aufweisen. Der Median teilt<br />
den geordneten Datensatz in zwei gleich große Hälften. Jeweils links und rechts<br />
liegen 50% der Daten, daher auch x0.5.<br />
Der Median ist ein robuster Lageschätzer. Er ist gerade nicht ausreißerempfindlich,<br />
da bei seiner Berechnung die Werte der Beobachtungen nicht berücksichtigt<br />
werden. <br />
Aufgrund der Darstellung der Rangwertreihe auf der Seite 32 wissen wir, daß<br />
der Median zwischen 60 und 70 liegen muß. Da der Datensatz einen geraden<br />
Stichprobenumfang hat, kann der Median selber nicht eine eigentliche Beobachtung<br />
sein. In diesem Fall ist der Median der Mittelwert aus 60 und 70:<br />
out:8 65<br />
> median(x)<br />
Der Median ist ein guter Repräsentant der Daten. Auffällig ist, daß die Streichung<br />
der Beobachtungen 800 und 300 Bücher zu einem Mittelwert führt (67.5),<br />
der dem Gesamtmedian sehr ähnlich ist.<br />
Die Idee des Weglassens von Beobachtungen ist beim getrimmten arithmetischen<br />
Mittel umgesetzt:<br />
Definition: Getrimmtes arithmetisches Mittel<br />
¯xα =<br />
1<br />
n − 2⌊nα⌋<br />
n−⌊nα⌋ <br />
i=1+⌊nα⌋<br />
Bei der Berechnung dieses Mittelwertes werden gezielt die (α · 100)% kleinsten<br />
sowie größten, also die extremen Beobachtungen an den Rändern, weggelassen.<br />
Der Mittelwert wird dadurch robust gegen Ausreißer.<br />
α (sprich ” alpha“) liegt zwischen 0 und 0.5.<br />
Die Gaußklammer ⌊u⌋ ist der ganzzahlige Anteil von u. <br />
Aus α = 0.05 folgt beispielsweise bei n = 20, daß die kleinste und die größte<br />
Beobachtung aus der Stichprobe zu streichen sind, ⌊20 · 0.05⌋ = 1. Anschließend<br />
wird der Mittelwert berechnet.<br />
x(i)
in:8<br />
out:8<br />
1.2. ANALYSE UNIVARIATER DATEN 37<br />
> mean(x,trim=0.05)<br />
83.89<br />
Welches α man nimmt, hängt von der Beschaffenheit der Daten ab. Für den<br />
Augenblick soll die folgende Graphik als Antwort auf die Frage dienen — was<br />
ergibt sich eigentlich für α = 0 bzw. α = 0.5?<br />
<br />
getrimmtes Mittel<br />
70 80 90 100 110<br />
Verschiedene getrimmte arithmetische Mittel<br />
0.0 0.1 0.2 0.3 0.4 0.5<br />
alpha<br />
Abbildung 7<br />
Ab α > 0.1 ist Veränderung im resultierenden Mittelwert nicht mehr sehr<br />
groß. Eine mögliche Empfehlung ist also, die 2 größten sowie die 2 kleinsten<br />
Werte zu streichen. Dann ergibt sich ¯x0.1 = 75.<br />
Definition: Modus<br />
diskret: der häufigste Wert<br />
stetig: Klassenmitte der am häufigsten besetzten Klasse<br />
Der Modus kann für alle Meßniveaus berechnet werden, existiert allerdings<br />
nicht immer. Wenn beispielsweise die beiden am häufigsten beobachteten Merkmalsausprägungen<br />
gleich oft vorkommen, dann kann der Modus nicht bestimmt<br />
werden. Die gleiche Aussage gilt entsprechend für klassierte Daten. <br />
in:8<br />
out:8<br />
in:8<br />
out:8
in:8<br />
out:8<br />
38 KAPITEL 1. BESCHREIBENDE STATISTIK<br />
mittelwert median 0.1-getrimmt modus.stetig modus.diskret<br />
115.75 65 75 50 NA<br />
Bei der Stichprobe vom Umfang 20 wird bereits deutlich, daß die isolierte<br />
Betrachtung eines Mittelwertes nicht zu empfehlen ist, um Aussagen über die<br />
Daten zu wagen. Man kann sich vorstellen, daß sich dies umso schwieriger gestaltet,<br />
je umfangreicher die Daten sind. Bei n = 20 gibt schließlich der Dot-Plot<br />
gute Auskünfte. Was ist aber bei n = 100000?<br />
Wir benötigen weitere, die Daten zusammenfassende Hilfsmittel. Zunächst<br />
sollen die nicht-zentralen Lageschätzer betrachtet werden.<br />
Definition: Extremwerte<br />
• Minimum: der kleinste Wert — x(1)<br />
• Maximum: der größte Wert — x(n)<br />
Diese Maßzahlen benötigen wenigstens ordinales Meßniveau. <br />
Definition: Quartile<br />
• unteres Quartil: x0.25<br />
Das untere Quartil ist der Median der unteren Hälfte. Links von x0.25<br />
liegen 25% der Daten, rechts davon 75%.<br />
• oberes Quartil: x0.75<br />
Das obere Quartil ist der Median der oberen Hälfte. Links von x0.75 liegen<br />
75% der Daten, rechts davon 25%.<br />
Diese Maßzahlen benötigen ebenfalls wenigstens ordinales Meßniveau. <br />
Mit Hilfe dieser 4 Maßzahlen und dem Median läßt sich der Datensatz in vier<br />
gleich umfangreiche Segmente unterteilen, so daß auf einen Blick Aussagen zur<br />
Symmetrie bzw. Schiefe und Ausreißern gemacht werden können, die über den<br />
Vergleich Mittelwert/ Median hinausgehen. Hier sind zunächst die Maßzahlen:<br />
> summary(x)<br />
Min. 1st Qu. Median Mean 3rd Qu. Max.<br />
5.0 40.0 65.0 115.8 100.0 800.0<br />
Der relativ große Unterschied zwischen Mittelwert und Median deutet bereits<br />
auf Ausreißer hin. Die folgende Graphik illustriert dies anschaulich:
in:8<br />
out:8<br />
1.2. ANALYSE UNIVARIATER DATEN 39<br />
> dot.plot(x,xlab="Anzahl Buecher",ylab="i",<br />
main="Dot-Plot von x_i\nmit Senkrechten nach jeweils 25% der Daten")<br />
> abline(v=summary(x)[-4],lty=2)<br />
i<br />
5 10 15 20<br />
Dot−Plot von x_i<br />
mit Senkrechten nach jeweils 25% der Daten<br />
0 200 400 600 800<br />
Anzahl Buecher<br />
Abbildung 7<br />
Der Dot-Plot, ergänzt um die vier nicht-zentralen Maßzahlen sowie den Median,<br />
läßt sich sehr schön interpretieren. Die ersten 75% der Daten benötigen<br />
mehr oder weniger gleich viel Platz auf der Merkmalsachse, während die letzten<br />
25% unverhältnismäßig viel mehr Raum in Anspruch nehmen. Die vier Abstände<br />
sehen so aus:<br />
> diff(summary(x)[-4])<br />
35 25 35 700<br />
in:8<br />
out:8
in:8<br />
out:8<br />
in:8<br />
out:8<br />
40 KAPITEL 1. BESCHREIBENDE STATISTIK<br />
Definition: Boxplot<br />
Im Boxplot werden die fünf Maßzahlen Minimum, unteres Quartil, Median,<br />
oberes Quartil und Maximum dargestellt.<br />
Die box — ein Rechteck, das über der Merkmalsachse vom unteren bis zum<br />
oberen Quartil abgetragen wird — enthält die zentralen 50% der Daten. Die<br />
Box ist durch den Median in zwei Hälften geteilt.<br />
An die beiden Enden der box werden die whiskers gehängt, Linien die bis zum<br />
Minimum bzw. Maximum gezogen werden.<br />
Es kann sinnvoll sein, die whiskers nicht bis zu den Extremwerten zu zeichnen,<br />
sondern diese früher enden zu lassen. Ausreißer werden dann gesondert<br />
markiert (vgl. XXX). <br />
> boxplot(x,range=0,main="Boxplot von x_i",<br />
horizontal=T,xlab="Anzahl Buecher")<br />
Boxplot von x_i<br />
0 200 400 600 800<br />
Anzahl Buecher<br />
Abbildung 7<br />
Der Boxplot bestätigt die Erkenntnisse der vergangenen Seiten. Der Boxplot<br />
ist ein sehr geeignetes Instrument, um verschiedene Datensätze miteinander zu<br />
vergleichen. Es läßt sich z.B. der Frage nach gehen, ob die gezogene Stichprobe<br />
vom Umfang 20 den Datensatz Anzahl Bücher gut wiedergibt — beim Vergleich<br />
scheinen vertikale Boxplots geeigneter zu sein als horizontale, welche aber wiederum<br />
Symmetrieeigenschaften besser erkennen lassen:<br />
> boxplot(x,buecher.stud,range=0,main="Boxplot",<br />
names=c("x","buecher.stud"),ylab="Anzahl Buecher")
1.2. ANALYSE UNIVARIATER DATEN 41<br />
Anzahl Buecher<br />
0 500 1000 1500 2000 2500 3000<br />
Boxplot<br />
x buecher.stud<br />
Abbildung 7<br />
Die Struktur ist in beiden Datensätzen identisch, die Daten sind sehr asymmetrisch.<br />
Ist das Zufall, oder ist jede Stichprobe vom Umfang n = 20 gleich gut<br />
zu gebrauchen? Hier sind die zusammenfassenden Maßzahlen:<br />
> summary(x)<br />
> summary(buecher.stud) in:8<br />
Min. 1st Qu. Median Mean 3rd Qu. Max.<br />
5.0 40.0 65.0 115.8 100.0 800.0<br />
Min. 1st Qu. Median Mean 3rd Qu. Max.<br />
0.0 30.0 50.0 119.6 110.0 3000.0<br />
Im Detail sind deutliche Unterschiede erkennbar. Das Experiment Zufallsstichprobe<br />
mit n = 20 soll gerade 30 mal wiederholt werden — die 1. Stichprobe<br />
ist identisch mit x:<br />
out:8<br />
> xx boxplot(xx, range=0, main="Boxplots zu 30 Wiederholungen\nmit n=20",<br />
ylab="Anzahl Buecher") in:8<br />
out:8
in:8<br />
out:8<br />
42 KAPITEL 1. BESCHREIBENDE STATISTIK<br />
Anzahl Buecher<br />
0 500 1000 1500 2000 2500 3000<br />
Boxplots zu 30 Wiederholungen<br />
mit n= 20<br />
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29<br />
Abbildung 7<br />
Jede Stichprobe sieht anders aus. Die bereits herausgearbeitete Grundtendenz<br />
ist aber jeweils erkennbar, mal besser mal schlechter. Die Ausreißer werden nur<br />
selten erwischt. Können die Informationen aus den einzelnen Stichproben gebündelt<br />
werden, um schärfere Aussagen machen zu können?<br />
Die 30 Stichproben sollen zusammengefaßt werden. Es sollen die Durchschnittswerte<br />
der sechs Maßzahlen Minimum bis Maximum gebildet werden. Das<br />
durchschnittliche Minimum wird dann beispielsweise aus der Summe der jeweils<br />
kleinsten Beobachtungen in den 30 Stichproben gebildet,welche durch 30 geteilt<br />
wird.<br />
> <br />
Durchschnitte von:<br />
Min. 1st Qu. Median Mean 3rd Qu. Max.<br />
4.37 30.64 59.47 101.40 112.92 527.60
1.2. ANALYSE UNIVARIATER DATEN 43<br />
Die Ergebnisse sind in mancherlei Hinsicht immer noch recht ungenau. Die<br />
nächste Graphik zeigt den Boxplot aller 30 Mittelwerte und Mediane ergänzt um<br />
alle 30 errechneten Mittelwerte und Mediane:<br />
> in:8<br />
50 100 150 200 250<br />
*<br />
Boxplot der Mittelwerte und Mediane<br />
sowie die Masszahlen selber<br />
*<br />
*<br />
*<br />
*<br />
*<br />
* *<br />
* * *<br />
* *<br />
* *<br />
*<br />
*<br />
*<br />
* *<br />
* *<br />
* *<br />
* *<br />
* *<br />
* *<br />
*<br />
*<br />
*<br />
*<br />
* *<br />
* *<br />
* * *<br />
* ** * *<br />
*<br />
*<br />
* *<br />
* *<br />
*<br />
Mittelwert Median<br />
Abbildung 7<br />
*<br />
* * *<br />
Wie man sieht schwanken die Realisationen bei den Mittelwerten deutlich<br />
stärker als bei den Medianen.<br />
XXXXXXXXXXXXXXX<br />
Nun könnte man sich fragen, wozu das ganze? Stichproben sind dann wichtig,<br />
wenn man die Grundgesamtheit insgesamt nicht erreichen kann oder wenn diese<br />
zu groß ist, als daß man sie sich insgesamt vornehmen kann. Man muß sich also auf<br />
seine Stichprobe und den daraus genierten Maßzahlen und Graphiken verlassen<br />
können. Die Experimente auf den letzten Seiten dienten dazu, diesen Blick zu<br />
schärfen.<br />
XXXXXXXXXXXXXXXXXXXX<br />
Betrachtungen zur Streuung<br />
Ohne Streuung keine Statistik! Das klingt nach einer gewagten Formulierung,<br />
entspricht aber bei genauerem Hinsehen den Umständen. Wann sind einem schon<br />
mal Daten untergekommen, die nicht streuen, die sich also in ihrer n-Fachheit<br />
auf einen Punkt konzentrieren? Vermutlich gar nicht.<br />
Wie unterscheiden sich die Beobachtungen? Was für Ursachen hat die Streuung<br />
und was für Konsequenzen ergeben sich daraus? Ist der Unterschied in den<br />
out:8
44 KAPITEL 1. BESCHREIBENDE STATISTIK<br />
Beobachtungen lediglich eine zufällige Laune oder steckt mehr dahinter? Streuung<br />
macht eine Analyse erst notwendig, sie ist das Salz in der statistischen Suppe.<br />
Über die Lage wissen wir nun so einiges. Was hält man aber vom folgenden<br />
Umgang in einer Tageszeitung mit eben diesen Lageschätzern?<br />
Ich habe nicht 80 Tafeln Schokolade im vergangenen Jahr gegessen. Und wie<br />
sieht es beim Einkommen aus? Sozialhilfeempfänger werden die Angaben zum<br />
verfügbaren Einkommen vermutlich eher bestätigen können als Mitglieder der<br />
Gruppe der Selbständigen. Warum ist das so? Es liegt an der Streuung.<br />
Gerade bei den Selbständigen wird das verfügbare Einkommen enormen Unterschieden<br />
ausgesetzt sein. Wie sind die verschiedenen Mittelwerte zustande gekommen?<br />
Wird dem Leser das arithmetische Mittel präsentiert oder der Median<br />
oder der Modus? Wenn die Angabe 172.800 DM nun das arithmetische Mittel sein
1.2. ANALYSE UNIVARIATER DATEN 45<br />
sollte, wie kann die Zahl dann interpretiert werden? Wie würde ein Bill Gates eine<br />
solche Statistik beeinflussen?<br />
Man hat das Gefühl, daß die bloße Angabe eines Mittelwertes oder auch eines<br />
Medians nicht ausreicht, um Aussagen über die Einkommensverhältnisse so vieler<br />
Menschen zu machen. Offensichtlich würde ein Boxplot in dieser Situation bereits<br />
für viel Klarheit sorgen. Es gibt eine Reihe von Maßzahlen, die versuchen, diese<br />
Unterschiede bei den Beobachtungen zu quantifizieren.<br />
Definition: Spannweite (range)<br />
Wie groß ist der Bereich, auf dem die Daten liegen? Wie breit machen sich die<br />
Daten auf der Merkmalsachse?<br />
sw = x(n) − x(1)<br />
Definition: Interquartilsabstand (iqd, iqr)<br />
Wie groß ist der Bereich, auf dem die zentralen 50% Daten liegen? Wie breit<br />
ist das Rechteck beim Boxplot?<br />
iqr = x0.75 − x0.25<br />
Diese beiden Maßzahlen zusammen betrachtet geben bereits erste Aufschlüsse<br />
über die Eigenarten eines Datensatzes. Sind nämlich die Unterschiede zwischen<br />
den beiden Maßzahlen außergewöhnlich groß — dabei ist natürlich die Maßeinheit<br />
zu berücksichtigen —, dann ist das ein erstes Indiz für Ausreißer im Datensatz.<br />
Bei der Stichprobe x und auch beim gesamten Datensatz buecher.stud scheint<br />
das gerade der Fall zu sein — vgl. Seite 41:<br />
> diff(range(x)); diff(range(buecher.stud))<br />
> iqd(x); iqd(buecher.stud) in:8<br />
795<br />
3000<br />
60<br />
80<br />
Die 795 ist wesentlich größer als die 60, und auch 3000 ist viel größer als 80.<br />
Die nächsten beiden Graphiken verallgemeinern nun diese Idee. Es werden<br />
die p%-zentralen Daten betrachtet, wobei p alle Werte zwischen 0% und 100%<br />
annimmt. Es wird jeweils die Spannweite ausgerechnet und gegen p abgetragen.<br />
Für p = 100 ergibt sich der range, für p = 0.5 der Interquartilsabstand.<br />
<br />
<br />
out:8
in:8<br />
out:8<br />
Spannweiten<br />
in:8<br />
out:8<br />
0 200 400 600 800<br />
46 KAPITEL 1. BESCHREIBENDE STATISTIK<br />
> range.plot(x,marker=c(0.25,0.50,0.75,0.95))<br />
> range.plot(buecher.stud,marker=c(0.25,0.50,0.75,0.95))<br />
Spannweiten in Abh. von p<br />
fuer x<br />
0 20 40 60 80 100<br />
p%<br />
Spannweiten<br />
0 500 1000 1500 2000 2500 3000<br />
Spannweiten in Abh. von p<br />
fuer Anzahl Buecher<br />
0 20 40 60 80 100<br />
Die Bilder decken sehr anschaulich auf, daß der Platzverbrauch der beiden<br />
Datensätze in bezug auf die Merkmalsachse stark ansteigt. Die mittleren 50%<br />
bzw. die mittleren 75% der Daten machen sich nicht übermäßig breit auf der<br />
Merkmalsachse.<br />
Definition: Stichprobenvarianz s 2 / Mittlere quadratische Abweichung<br />
d 2<br />
d 2 = 1<br />
n ·<br />
s 2 = 1<br />
n − 1 ·<br />
n<br />
(xi − ¯x) 2<br />
i=1<br />
n<br />
(xi − ¯x) 2 =<br />
i=1<br />
n − 1<br />
n<br />
Die (Stichproben-) Standardabweichung s ist die Wurzel aus der Stichprobenvarianz.<br />
Sie ist wie das arithmetische Mittel ausreißerempfindlich.<br />
Die Wurzel aus den beiden Maßzahlen gibt jeweils die durchschnittliche Entfernung<br />
der Beobachtungen zum arithmetischen Mittel an.<br />
Anmerkung: Die Bedeutung der unterschiedlichen Gewichtungen der beiden<br />
Maßzahlen wird im Kapitel XXXXX deutlich. Hier reicht der Hinweis: Ist n<br />
groß, ist der Unterschied zu vernachlässigen. <br />
Die Standardabweichung ist eine wichtige Maßzahl zur Beschreibung der<br />
Streuung von Datensätzen.<br />
· s 2<br />
> sqrt(var(x)); sqrt(msd(x))<br />
> sqrt(var(buecher.stud)); sqrt(msd(buecher.stud))<br />
p%
1.2. ANALYSE UNIVARIATER DATEN 47<br />
175.76 171.31<br />
257.81 257.15<br />
In bezug auf den gesamten Datensatz heißt das also, daß im Durchschnitt<br />
die Studierenden fast 260 Bücher weniger oder mehr haben als das arithmetische<br />
Mittel von etwa 120 Büchern angibt. Nun ist offenbar 120 − 260 kleiner als Null.<br />
Die hohe Streuung ist also durch Ausreißer nach oben zu erklären.<br />
Schauen wir uns die Formel zur Berechnung von s bzw. d einmal genauer<br />
an. Wenn man durchschnittliche Abstände haben möchte, warum wird dann zunächst<br />
das Quadrat dieser Abstände gebildet? Warum werden nicht die einfachen<br />
Differenzen aufsummiert, was naheliegend erscheint?<br />
Satz 3: Die Summer aller Abweichungen vom arithmetischen Mittel<br />
ist immer Null. <br />
Beweis von Satz 3:<br />
n<br />
(xi − ¯x) =<br />
i=1<br />
=<br />
=<br />
=<br />
= 0<br />
n<br />
i=1<br />
xi −<br />
n<br />
¯x<br />
i=1<br />
n<br />
xi − n · ¯x<br />
i=1<br />
n<br />
xi − n · 1<br />
n<br />
n n<br />
i=1<br />
i=1<br />
xi −<br />
Dieser Umstand liegt an der Definition des Mittelwertes. Die negative Summe<br />
der Abstände der Beobachtungen zum arithmetischen, die kleiner als der Mittelwert<br />
sind, ist gerade genauso groß wie die entsprechende positive Summe. Der<br />
Mittelwert ist damit übrigens gerade die Stelle des Schwerpunkts eines physikalischen<br />
Systems.<br />
Natürlich hätte man auch die absoluten Abstände aufaddieren können. Mit<br />
Beträgen rechnet es sich allerdings schwerer als mit Quadraten.<br />
i=1<br />
xi<br />
n<br />
i=1<br />
xi<br />
△
in:8<br />
out:8<br />
in:8<br />
out:8<br />
48 KAPITEL 1. BESCHREIBENDE STATISTIK<br />
Definition: Variationskoeffizient<br />
vk = s<br />
¯x<br />
Ein relatives Streuungsmaß ermöglicht den Vergleich verschiedenartiger<br />
Datensätze in bezug auf die Streuung. Die Dimensionen werden bei der Berechnung<br />
herausgekürzt.<br />
Es erleichtert ebenso den Streuungsvergleich von Daten mit unterschiedlichen<br />
Mittelwerten. Eine Standardabweichung von 1 bei einem Mittelwert von 10<br />
hat naturgemäß eine andere Bedeutung als die gleiche Standardabweichung<br />
bei einem Mittelwert von vielleicht 100.<br />
Anmerkung: Bei einem Mittelwert nahe Null stößt man auf Interpretationsgrenzen.<br />
<br />
Wir wissen, daß der Unterschied in den arithmetischen Mitteln nicht zu groß<br />
ist. Der Variationskoeffizient wird dahingehend keine Überraschungen produzieren.<br />
Aber ein Variationskoeffizient von über 2 heißt, daß im Durchschnitt die<br />
Beobachtungen mehr als doppelt so weit vom arithmetischen Mittel entfernt liegen.<br />
Diese Feststellung relativiert die Aussagekraft des Mittelwertes gehörig:<br />
> sqrt(var(x))/mean(x)<br />
> sqrt(var(buecher.stud))/mean(buecher.stud)<br />
1.52<br />
2.16<br />
Es soll wieder der Versuch unternommen werden, eine Graphik aus den Daten<br />
zu erzeugen, welche die Veränderung des Streuungsmaßes bei sukzessiver Hinzunahme<br />
der Datenpunkte aufzeigt:<br />
> vk.plot(buecher.stud); vk.plot(x,add=T)<br />
> vk.plot(gewicht.stud); vk.plot(groesse.stud,add=T)
vk<br />
0.0 0.5 1.0 1.5 2.0<br />
1.2. ANALYSE UNIVARIATER DATEN 49<br />
Variationskoeffizient in Abh. von p<br />
fuer Anzahl Buecher und x<br />
0 20 40 60 80 100<br />
p%<br />
vk<br />
Variationskoeffizient in Abh. von p<br />
fuer Gewicht und Groesse<br />
0 20 40 60 80 100<br />
In der linken Graphik ist die Stichprobe x gestrichelt dargestellt. Zum Vergleich<br />
sind in der rechten Graphik für die Datensätze Größe und Gewicht die<br />
gleichen Bilder erzeugt worden. Bei diesen Datensätzen ist der Verlauf der Kurven<br />
eben nicht durch ein plötzliches sprunghaftes Ansteigen gekennzeichnet.<br />
Definition: Median Absolute Deviation (MAD)<br />
Der Median der absoluten Entfernungen aller Beobachtungen vom Median<br />
0.0 0.1 0.2 0.3 0.4 0.5<br />
MAD = Median{|x1 − x0.5|, . . . , |xn − x0.5|}<br />
Der MAD wird in der Regel durch die Zahl 0.6745 geteilt. Diese Normierung<br />
bewirkt, daß der Schätzer bessere theoretische Eigenschaften hat (vgl. Kapitel<br />
XXXXXX).<br />
Der MAD ist ein robuster Schätzer für die Streuung. <br />
Satz 2: Der MAD der Standardnormalverteilung ist der 75%-Punkt<br />
der Standardnormalverteilung: Z0.75 = 0.6745 <br />
p%
in:8<br />
out:8<br />
50 KAPITEL 1. BESCHREIBENDE STATISTIK<br />
Beweis von Satz 2: Sei Z standardnormalverteilt, Z ∼ N(0, 1). Da der<br />
Median der Standardnormalverteilung Null ist, ist zunächst die Verteilung von<br />
Y = |Z − 0| = |Z| gesucht:<br />
FY (y) = P (Y ≤ y)<br />
= P (|Z| ≤ y)<br />
= P (−y ≤ Z ≤ y)<br />
= Φ(y) − Φ(−y)<br />
= 2Φ(y) − 1<br />
Die Zufallsvariable Y ist so definiert worden, daß der Median y0.5 gerade der<br />
MAD von Z ist:<br />
Daraus ergibt sich nun aber:<br />
FY (y0.5) = 0.5<br />
2Φ(y0.5) − 1 = 0.5<br />
Φ(y0.5) = 0.75<br />
y0.5 = Φ(0.75) −1 = 0.6745<br />
Also ist der MAD der Standardnormalverteilung gerade Z0.75, also der 75%-<br />
Punkt.<br />
> qnorm(0.75)<br />
0.6744898<br />
Die Berechnung des MAD soll anhand von x demonstriert werden. Es werden<br />
zunächst die absoluten Entfernungen vom Median bestimmt. Aufgrund der<br />
gewählten Darstellung läßt sich bereits der Median dieser Abstände erkennen:<br />
> entfernung halbe.halbe(sort(entfernung))<br />
> median(entfernung)<br />
5 5 5 5 5 15 25 25 25 35<br />
35 35 45 55 55 60 85 135 235 735<br />
35<br />
Der tatsächliche Median dieser Abstände, 35, ist nun noch zu normieren. Die<br />
Funktion mad() kommt zum selben Ergebnis:<br />
△
1.2. ANALYSE UNIVARIATER DATEN 51<br />
> median(entfernung)/0.6745<br />
> mad(x)<br />
> mad(buecher.stud) in:8<br />
51.89<br />
51.89<br />
44.48<br />
Diese neuen Erkenntnisse relativieren die sehr starken Streuungen. Jene sind<br />
durch eine Reihe großer Beobachtungen nach oben gedrückt worden.<br />
Betrachtungen zur Verteilung<br />
Zu Beginn des Kapitels haben wir das Histogramm kennengelernt, um möglichst<br />
kompakt etwas über einen Datensatz zu erfahren. Auf einen Blick kann man<br />
erkennen, wo das Zentrum der Daten liegt und wie die Daten darum verteilt<br />
sind. Ganz wunschlos glücklich kann man mit dem Histogramm nicht sein, da<br />
nichts über das Innenleben der Klassen erfährt und da die Klassen mehr oder<br />
weniger willkürlich gebildet werden, ist dies u.U. ein unbefriedigender Zustand.<br />
Betrachten wir einmal die folgende Graphik — das Histogramm kennen wir<br />
bereits von der Seite XXXX:<br />
Haeufigkeitsdichte<br />
0.00 0.01 0.02 0.03 0.04<br />
Histogramm mit Dichtespur<br />
40 60 80 100 120<br />
Gewicht<br />
Die Kurve, die über das Histogramm gelegt wurde, ist ein sogenannter Kerndichteschätzer.<br />
Man könnte diesen vielleicht als verstetigtes Histogramm bezeichnen.<br />
Je höher die Kurve, desto dichter und gehäufter liegen die Beobachtungen<br />
in diesem Bereich, genau wie beim Histogramm. Der Unterschied ist nun<br />
aber, daß jeder einzelne Punkt mit seiner individuellen Lage einen Beitrag zur<br />
Höhe der Kurve leistet, die entstehende Kurve ist zudem glatt und kann daher<br />
out:8
52 KAPITEL 1. BESCHREIBENDE STATISTIK<br />
viel besser auf Eigenarten eines Datensatzes eingehen. Beim Histogramm interessierte<br />
lediglich die Zugehörigkeit zur Klasse, es entsteht ein Gebilde aus vielen<br />
Rechtecken.<br />
Die Kurve verrät zum Beispiel, und zwar ohne daß eine bestimmte (und künstliche)<br />
Klasseneinteilung gewählt werden muß, wo das Zentrum der Daten liegt und<br />
wie innerhalb der Klassen die Daten verteilt sind. Die nächste Graphik kombiniert<br />
die Dichtespur mit dem Stabdiagramm. Das Stabdiagramm erklärt sehr schön den<br />
Verlauf der Dichtespur. Gleichzeitig wird deutlich, daß ein Stabdiagramm für diesen<br />
Datensatz eben nicht gut geeignet ist, während die Kurvendarstellung sehr<br />
angemessen zu sein scheint:<br />
0.00 0.01 0.02 0.03 0.04<br />
Dichtespur mit Stabdiagramm<br />
40 60 80 100 120<br />
Gewicht<br />
Wie kommt man nun zu dieser Kurve? Die Konstruktion setzt auf der<br />
Grunderkenntnis auf, daß die (theoretische) Dichtefunktion fX(x) gerade die Ableitung<br />
der Verteilungsfunktion FX(x) ist. Folgender Zusammenhang gilt — man<br />
beachte, daß im stetigen Fall jeder diskrete Punkt die Wahrscheinlichkeit Null<br />
zugewiesen bekommt:<br />
fX(x) = dFX<br />
(x) = lim<br />
dx h→0<br />
1<br />
2h<br />
P (x − h < X < x + h)<br />
Die Dichte an einer Stelle x ist also die Wahrscheinlichkeit, daß sich die Zufallsvariable<br />
X in einer aber-witzig winzigen Umgebung um die Stelle x realisiert,<br />
genaugenommen im Moment des Grenzübergangs zum völligen Verschwinden dieser<br />
Umgebung.
1.2. ANALYSE UNIVARIATER DATEN 53<br />
Exkurs: Differentialquotient<br />
Der Differenzenquotient<br />
f(x) − f(x0)<br />
x − x0<br />
gibt die Steigung der Sekante durch die Punkte (x, f(x)) und (x0, f(x0))<br />
an. Der Differentialquotient<br />
f(x) − f(x0)<br />
lim<br />
x→x0 x − x0<br />
gibt die Steigung des Funktionsgraphen an der Stelle x0 an.<br />
Grob gilt also für die Funktion F (x) — statt x → x0 soll ein Intervall um<br />
x betrachtet werden mit h → 0:<br />
= F (x + h) − F (x − h)<br />
F (x) − F (x0)<br />
x − x0<br />
= F (x + h) − F (x − h)<br />
x + h − (x − h)<br />
=<br />
2h<br />
P (X ≤ x + h) − P (X ≤ x − h)<br />
2h<br />
= P (x − h < X < x + h)<br />
2h<br />
Für jeden Wert von h muß die Wahrscheinlichkeit, daß die Zufallsvariable sich<br />
in dem Intervall der Größe 2h um x ∈ R realisiert, abgeschätzt werden, das heißt,<br />
es muß gezählt werden, es wurden Realisationen von X, die Xi, beobachtet:<br />
ˆP (x − h < X < x + h) = 1/n · (Anzahl der Xi in (x − h, x + h))<br />
Daraus ergibt sich:<br />
ˆfX(x) = 1<br />
2hn · (Anzahl der Xi in (x − h, x + h))<br />
Diese Funktion läßt sich auch kompakter folgendermaßen schreiben:<br />
mit dem sogenannten Kern<br />
ˆfX(x) = 1<br />
n<br />
w(x) =<br />
n 1<br />
h w<br />
<br />
x −<br />
<br />
Xi<br />
h<br />
i=1<br />
1/2 für |x| < 1<br />
0 sonst<br />
⋆
54 KAPITEL 1. BESCHREIBENDE STATISTIK<br />
Falls also <br />
x − Xi<br />
h<br />
<br />
<br />
<br />
< 1<br />
gilt, dann nimmt w() den Wert 1/2 an, also gerade dann, wenn gilt<br />
x − h < Xi < x + h<br />
Jeder Punkt Xi, der im Intervall um x liegt, liefert zur Gesamtsumme gerade 1/2<br />
dazu. Die beiden Darstellungen von ˆ f() sind also äquivalent.<br />
Der Dichteschätzer wird demnach folgendermaßen konstruiert: Um jede Be-<br />
obachtung wird ein Rechteck mit der Breite 2h und mit der Höhe 1<br />
2hn<br />
gelegt. Die<br />
Höhen der Rechtecke werden aufsummiert.<br />
Für die Daten 3,4,6,9,14 sind vier Kerndichteschätzer mit jeweils verschiedenen<br />
Werten von h konstruiert worden — die 5 Datenpunkte sind auf der<br />
Nullachse eingetragen:<br />
0.00 0.05 0.10 0.15 0.20<br />
0.00 0.02 0.04 0.06 0.08 0.10<br />
Kerndichteschaetzer mit<br />
h= 1<br />
0 5 10 15<br />
Fensterbreite: 2<br />
Kerndichteschaetzer mit<br />
h= 3<br />
0 5 10 15 20<br />
Fensterbreite: 6<br />
0.00 0.05 0.10 0.15<br />
0.00 0.02 0.04 0.06 0.08<br />
Kerndichteschaetzer mit<br />
h= 2<br />
0 5 10 15<br />
Fensterbreite: 4<br />
Kerndichteschaetzer mit<br />
h= 5<br />
−5 0 5 10 15 20<br />
Fensterbreite: 10<br />
Die geschätzte Dichte ist definiert über dem gesamten R. Das erste Mal, daß<br />
die Dichte positiv wird, ist dann, wenn der linke Rand des Fensters um die kleinste<br />
Beobachtung erreicht wird, dann springt ˆ f() auf 1/(2 · h · n).<br />
An den Graphiken kann man gut den Einfluß der Fensterbreite (= 2 · h) auf<br />
den Verlauf der Dichteschätzung sehen. Mit größer werdendem h gehen lokale<br />
Informationen verloren, die Kurve verläuft dafür weniger zickig.<br />
Die nächste Graphik veranschaulicht die Summation der einzelnen Beiträge
1.2. ANALYSE UNIVARIATER DATEN 55<br />
für h = 1— jeder Beitrag ist natürlich exakt 1/(2 · 1 · 5) = 1/10, aus Darstellungsgründen<br />
schwanken die Geraden um 1/10:<br />
0.1<br />
Beitrag einer Beobachtung<br />
zur Dichteschaetzung<br />
0 5 10 15 20<br />
Aufgrund der Wahl der Kernfunktion erhalten alle Punkte, die in dem Fenster<br />
liegen, das gleiche Gewicht. Das heißt, ein Punkt, der nah an x liegt, liefert<br />
denselben Beitrag zur Summe wie ein Punkt, der sich am äußersten Rand des<br />
Fensters um x befindet. Dieses Vorgehen führt zum eckigen, also nicht glatten<br />
Aussehen der Dichteschätzung.<br />
Es soll nun eine Kernfunktion w() gewählt werden, die so gewichtet, daß<br />
Beobachtungen, die näher an x liegen einen höheren Beitrag zur Summe liefern,<br />
als Beobachtungen, die zwar im Fenster aber doch weiter weg von x sind.<br />
Wählt man w() nun auch noch so, daß w() selber eine Dichtefunktion ist,<br />
dann hat der Dichteschätzer alle Eigenschaften einer Dichtefunktion.<br />
Gerne wählt man die Standardnormalverteilung als Kernfunktion:<br />
h= 1<br />
w(x) = 1 1<br />
− √ e 2<br />
2π x2
56 KAPITEL 1. BESCHREIBENDE STATISTIK<br />
0.00 0.05 0.10 0.15 0.20<br />
0.00 0.02 0.04 0.06 0.08 0.10 0.12<br />
Kerndichteschaetzer mit<br />
h= 1<br />
2 4 6 8 10 12 14 16<br />
Fensterbreite: 2<br />
Kerndichteschaetzer mit<br />
h= 3<br />
0 5 10 15<br />
Fensterbreite: 6<br />
0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14<br />
0.00 0.02 0.04 0.06 0.08<br />
Kerndichteschaetzer mit<br />
h= 2<br />
0 5 10 15<br />
Fensterbreite: 4<br />
Kerndichteschaetzer mit<br />
h= 5<br />
−5 0 5 10 15 20<br />
Fensterbreite: 10<br />
Die Ähnlichkeit zu den Dichteschätzern mit Rechtecksfunktion als Kern ist<br />
nicht zu übersehen. Mit zunehmender Fensterbreite wird der Funktionsverlauf<br />
glatter, es gehen aber lokale Informationen verloren. Bei der Wahl von h sollte<br />
also nach einem Kompromiß zwischen glattem Kurvenverlauf und wenig Informationsverlust<br />
gesucht werden. Ein Vorschlag ist zum Beispiel, h = iqd(x), also<br />
den doppelten Interquartilsabstand als Fensterbreite zu wählen .<br />
Der Vollständigkeit halber zeigt die folgende Graphik die verschiedenen Gaußkurven,<br />
die durch Addition zum Dichteschätzer führen:<br />
0.00 0.05 0.10 0.15 0.20<br />
Beitrag einer Beobachtung<br />
zur Dichteschaetzung<br />
0 5 10 15 20<br />
Fensterbreite 2<br />
Für die Gewichtsdaten sind noch einmal 4 Dichteschätzer mit verschiedenen<br />
Einstellungen für die Fensterbreite erzeugt worden:
1.2. ANALYSE UNIVARIATER DATEN 57<br />
0.00 0.01 0.02 0.03 0.04 0.05 0.06<br />
0.00 0.01 0.02 0.03<br />
Dichteschaetzer mit<br />
2h=1/2*Iqd<br />
60 80 100 120<br />
Fensterbreite: 2.5<br />
Dichteschaetzer mit<br />
2h=2*Iqd<br />
40 60 80 100 120<br />
Fensterbreite: 10<br />
0.00 0.01 0.02 0.03 0.04<br />
0.000 0.005 0.010 0.015 0.020 0.025 0.030<br />
Dichteschaetzer mit<br />
2h=Iqd<br />
40 60 80 100 120<br />
Fensterbreite: 5<br />
Dichteschaetzer mit<br />
2h=4*Iqd<br />
40 60 80 100 120<br />
Fensterbreite: 20<br />
Zum Abschluß wollen wir noch verschiedene Dichteschätzer für den Datensatz<br />
Anzahl Bücher bzw. der Zufallsstichprobe x betrachten:<br />
0.000 0.002 0.004 0.006 0.008<br />
0.000 0.002 0.004 0.006 0.008<br />
Dichteschaetzer<br />
x<br />
0 200 400 600 800<br />
Fensterbreite: 60<br />
Dichteschaetzer<br />
Anzahl Buecher<br />
0 500 1000 2000 3000<br />
Fensterbreite: 80<br />
0.000 0.001 0.002 0.003 0.004 0.005 0.006 0.007<br />
0.000 0.001 0.002 0.003 0.004 0.005 0.006<br />
Dichteschaetzer<br />
x<br />
0 200 400 600 800<br />
Fensterbreite: 120<br />
Dichteschaetzer<br />
Anzahl Buecher<br />
0 500 1000 2000 3000<br />
Fensterbreite: 160<br />
In der oberen Zeile ist die Stichprobe, in der unteren der gesamte Datensatz
in:8<br />
58 KAPITEL 1. BESCHREIBENDE STATISTIK<br />
dargestellt. Die Fensterbreite ist in der ersten Spalte jeweils der einfach Interquartilsabstand,<br />
in der zweiten Spalte ist es der doppelte.<br />
Neben den Maßzahlen zu Lage und Streuung, existiert ebenso die Möglichkeit,<br />
das Aussehen einer Verteilung mit geeigneten Maßzahlen zu beschreiben. Ein<br />
erster Ansatz bietet der Vergleich der drei vorgestellten zentralen Lageschätzer.<br />
Verteilen sich die Daten nämlich gleichmäßig um ein Symmetriezentrum, dann<br />
sind Modus, Median und arithmetisches Mittel ungefähr gleich groß:<br />
> cbind(modus=modus(gewicht.stud),median=median(gewicht.stud),<br />
mean=mean(gewicht.stud))<br />
> cbind(modus=modus(groesse.stud),median=median(groesse.stud),<br />
mean=mean(groesse.stud))<br />
out:8 modus median mean<br />
70 70 69.41<br />
modus median mean<br />
180 180 178.79<br />
in:8<br />
Der Vergleich der drei Maßzahlen bestätigt die Vermutung, daß die Datensätze<br />
symmetrisch und nicht schief sind. Und bei den Büchern?<br />
> cbind(modus=modus(x),median=median(x),mean=mean(x))<br />
> cbind(modus=modus(buecher.stud),median=median(buecher.stud),<br />
mean=mean(buecher.stud))<br />
out:8 modus median mean<br />
50 65 115.75<br />
modus median mean<br />
50 50 119.58<br />
Diese Konstellation — modus(x) < median(x) < mean(x) — deutet auf eine<br />
rechtsschiefe bzw. linkssteile Datensituation hin. Wenn man sich den Dichteschätzer<br />
anschaut, dann stellt man fest, daß dieser links stark ansteigt, um dann nach<br />
rechts abzufallen. Gilt das umgekehrte so nennt man die Verteilung der Daten<br />
linksschief bzw. rechtssteil.<br />
Zwei Maßzahlen sollen vorgestellt, die Berechnungen kurz argumentiert werden.<br />
Alle Maßzahlen, zunächst einmal abgesehen von den robusten, wurden folgendermaßen<br />
berechnet: Für jedes xi wird die Differenz zu einem bestimmten<br />
Zentrum gebildet. Diese Differenz wird potenziert, das ganze wird aufsummiert.<br />
Beim arithmetischen Mittel wurde die Differenz zur Null betrachtet und die<br />
Potenz war Eins. Bei d 2 bzw. s 2 wurde die Differenz zu ¯x betrachtet, potenziert<br />
wurde mit zwei. Je größer nun die Zahl ist, mit der potenziert wird, desto mehr<br />
Gewicht wird an die Ränder des Datensatzes verlegt, da die größeren Differenzen
1.2. ANALYSE UNIVARIATER DATEN 59<br />
durch die hohe Potenz mehr betont werden als die kleinen Differenzen, also als<br />
Daten, die nah bei ¯x liegen. Damit ist der Einfluß der weit entfernten Datenpunkte<br />
auf diese Maßzahlen größer.<br />
Definition: Schiefe<br />
S = 1<br />
n ·<br />
n i=1 (xi − ¯x) 3<br />
(d2 ) 3/2<br />
• S > 0: Die Daten sind rechtsschief.<br />
• S = 0: Die Daten sind symmetrisch.<br />
• S < 0: Die Daten sind linksschief.<br />
Hinweis: Durch die Normierung mit d 3 ist die Maßzahl dimensionslos. <br />
> schiefe(x); schiefe(buecher.stud)<br />
> schiefe(groesse.stud); schiefe(gewicht.stud)<br />
3.188 0.0095<br />
8.186 0.6004<br />
Die Maßzahlen bestätigen die vorherigen Überlegungen.<br />
Definition: Kurtosis<br />
K = 1<br />
n ·<br />
n i=1 (xi − ¯x) 4<br />
(d2 ) 2<br />
K ∗ = K − 3<br />
• K ∗ > 0: Die Wölbung an den Rändern der Dichte ist im Vergleich zur<br />
Normalverteilung niedriger. Es liegt mehr Dichtemasse am Rand.<br />
• K ∗ = 0: Die Ränder gleichen denen der Normalverteilung.<br />
• K ∗ < 0: Die Wölbung an den Rändern ist niedriger. Es liegt weniger<br />
Dichtemasse am Rand.<br />
Hinweis: Auch diese Maßzahl ist dimensionslos. Im Falle der Normalverteilung<br />
ist die (theoretische) Kurtosis K gerade 3. <br />
> kurtosis(x); kurtosis(buecher.stud)<br />
> kurtosis(groesse.stud)-3; kurtosis(gewicht.stud)-3<br />
in:8<br />
out:8<br />
in:8<br />
out:8
in:8<br />
out:8<br />
60 KAPITEL 1. BESCHREIBENDE STATISTIK<br />
12.831 -0.208<br />
85.407 0.844<br />
Wer auf den alten 10-Mark Schein schaut, weiß, wie die Dichte der Normalverteilung<br />
aussieht — wer keine DM-Noten mehr hat, muß bis Kapitel XXXX<br />
warten. Die beiden Bücherdatensätze haben wesentlich mehr Dichtemasse an den<br />
Rändern. Aufgrund der Schiefemaßzahl wissen wir aber auch, daß diese Masse<br />
nicht symmetrisch, d.h. nicht gleichmäßig rechts und links vom Zentrum liegt.<br />
Mit diesen beiden Maßzahlen hat man auch ein erstes Indiz dafür, ob bei einem<br />
konkreten Datensatz die Normalverteilungsannahme gerechtfertigt ist. Für sehr<br />
viele Verfahren ist diese Annahme nämlich Voraussetzung.<br />
Definition: Box-Cox-Transformation<br />
Ein Datensatz x wird auf einen neuen Datensatz y = T (x) abgebildet, der<br />
in Abhängigkeit vom Parameter λ (sprich: Lambda“) eine geringere Schiefe<br />
”<br />
aufweist als der ursprüngliche Datensatz.<br />
T (x) =<br />
x λ −1<br />
λ<br />
für λ = 0<br />
ln x für λ = 0<br />
Dieses Vorgehen ist dadurch zu begründen, daß weitergehende Analysen und<br />
Modellierungen der Daten mit asymmetrischen Datensätzen schwieriger ist als<br />
mit symmetrischen. <br />
Um beispielsweise der Normalverteilungsannahme näherzukommen, kann sich<br />
die Box-Cox-Transformation als geeignete Maßnahme erweisen. Eine Möglichkeit,<br />
einen günstigen Wert für λ zu ermitteln, ist, eine ganze Reihe von Box-Cox-<br />
Transformationen für einen Datensatz durchzuführen und jeweils S und K ∗ zu<br />
berechnen. Eine graphische Darstellung hilft dann bei der Entscheidung:<br />
> box.cox.plot(x)<br />
> box.cox.plot(buehcer.stud)
1.2. ANALYSE UNIVARIATER DATEN 61<br />
Kurtosis<br />
0 2 4 6 8 10 12 14<br />
Kurtosis und Schiefe<br />
fuer x<br />
Fuer lambda=0<br />
S=−0.13, K*=0.2<br />
−2 0 2 4<br />
Schiefe<br />
Kurtosis<br />
0 50 100 150<br />
Fuer lambda=0.1<br />
S=−0.23, K*=1.36<br />
Kurtosis und Schiefe<br />
fuer Anzahl Buecher<br />
0 5 10<br />
Nimmt man nun die Vorschläge für λ auf, gelangt man zu folgenden Verteilungen:<br />
0.0 0.1 0.2 0.3 0.4<br />
0.00 0.05 0.10 0.15 0.20<br />
boxcox mit λ=0.1<br />
0 2 4 6 8<br />
urspr. x<br />
boxcox mit λ=0.1<br />
0 5 10 15<br />
urspr. Anzahl Buecher<br />
boxcox mit λ=0<br />
urspr. x<br />
Schiefe<br />
2 3 4 5 6<br />
boxcox mit λ=0.1<br />
0 2 4 6 8 10 12<br />
urspr. Anzahl Buecher<br />
Durch die Transformation ist erreicht worden, daß die starke Rechtsschiefe<br />
ausgeglichen wurde. Die Merkmalsachse ist nicht mehr im Sinne der ursprünglichen<br />
Daten interpretierbar. Für Modellierungsversuche ist das aber u.U. nicht<br />
wichtig.
in:8<br />
out:8<br />
in:8<br />
out:8<br />
62 KAPITEL 1. BESCHREIBENDE STATISTIK<br />
1.2.3 Die empirische Verteilungsfunktion<br />
Auf der Seite 33 wurde der Dot-Plot einer Zufallsstichprobe Stichprobe vom Umfang<br />
n = 20 aus dem Datensatz Anzahl Bücher gezeigt. Was halten Sie von dieser<br />
leicht veränderten Darstellung der Daten?<br />
> dot.plot(sort(x),main="Dot Plot von x_(i)",<br />
xlab="Anzahl Buecher",ylab="(i)")<br />
(i)<br />
2 4 6 8 10 12 14 16 18 20<br />
Dot Plot von x_(i)<br />
0 200 400 600 800<br />
Anzahl Buecher<br />
Abbildung 7<br />
In diesem Dot-Plot sind nicht die xi sondern die x(i) abgetragen worden, also<br />
die Rangwertreihe. Ganz vorsichtig sind zwei Geraden hinzugefügt worden, vertikal<br />
durch den Median bzw. horizontal die Stelle 10 verlaufend. Die Zahlen X von<br />
0 bis 20 sind auf die Zahlen Z = (x − min(X))/(max(X) − min(X)) von 0 bis<br />
1 transformiert worden. Diese Transformation ist als zusätzliche vertikale Achse<br />
eingezeichnet.<br />
Im Gegensatz zum normalen Dot-Plot wird durch die Lage der Punkte eine<br />
Kurve beschrieben, die von links unten nach rechts oben verläuft. Das Steigungsverhalten<br />
der Kurve schwankt stark. Am Anfang verläuft die Kurve steiler, am<br />
Ende flacht sie ab.<br />
Die Graphik soll, leicht verändert, noch einmal dargestellt werden:<br />
> emp.cdf(x,stetig=F)<br />
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
1.2. ANALYSE UNIVARIATER DATEN 63<br />
kum. rel. Haeufigkeiten<br />
0.0 0.2 0.4 0.6 0.8 1.0<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
Empirische Verteilungsfunktion<br />
*<br />
*<br />
0 200 400 600 800<br />
Abbildung 7<br />
Die 20 Beobachtungen sind durch kleine Sterne zusätzlich gekennzeichnet.<br />
Die Punkte sind durch Treppenstufen miteinander verbunden. Die empirische<br />
Verteilungsfunktion ˆ F () zeigt zu jeder Stelle x ∈ R die relative Anzahl ˆ F (x) der<br />
Beobachtungen an, die nicht größer sind als x:<br />
Definition: Empirische Verteilungsfunktion ˆ F (x) (diskret)<br />
ˆF (x) =<br />
Anzahl der Beobachtungen kleiner gleich x<br />
Anzahl der Beobachtungen<br />
Die empirische Verteilungsfunktion stellt die kumulierte relative Häufigkeit graphisch<br />
dar. <br />
ˆF (x) verallgemeinert anschaulich das Konzept von Median und Quartil hin zu<br />
den Quantilen. Wenn mich Beispielsweise die Frage umtreibt, wie viele Bücher<br />
die unteren 25% höchstens besitzen (= unteres Quartil, x0.25), dann beantwortet<br />
mir ˆ F (x) gerade diese Frage durch Hinschauen: Ich bewege mich von der 25%<br />
Stelle nach rechts, solange bis ich auf die Kurve treffe. Dort fällt man dann das<br />
Lot auf die Merkmalsachse und hat den gewünschten Punkt erreicht.<br />
Diese Fragestellung kann natürlich für jedes xp, mit 0 ≤ p ≤ 1 gestellt werden.<br />
*
64 KAPITEL 1. BESCHREIBENDE STATISTIK<br />
Je steiler ˆ F (x) verläuft, desto dichter gedrängt liegen die Daten, verflacht die<br />
Kurve dagegen, dann machen sich die Beobachtungen rar. Die theoretische Verteilungsfunktion<br />
F () ist die Flächenfunktion der Dichtefunktion f(). Die gerade<br />
erstellte empirische Verteilungsfunktion zu x korrespondiert daher zu der empirischen<br />
Dichte (vgl. Seite XXXX) — verläuft ˆ F () sehr steil und flacht anschließend<br />
ab, dann muß viel relative Häufigkeit, also Fläche unter dem Dichteschätzer, zu<br />
Beginn angesiedelt werden.<br />
Definition: Empirische Verteilungsfunktion ˆ F (x) (stetig)<br />
⎧<br />
⎪⎨<br />
0 für x < UG1<br />
ˆF (x) = ˆF (UGi) + (x − UGi) ·<br />
⎪⎩<br />
ˆ fi UGi < x ≤ OGi<br />
1 für x > UGk<br />
Dabei ist ˆ fi die Häufigkeitsdichte in der i−ten Klasse, in welcher gerade x liegt.<br />
Um ˆ F () zu berechnen, wird die kumulierte relative Häufigkeit bis zur Untergrenze<br />
der Klasse i, in der x liegt, berechnet, F (UGi). Hinzuaddiert wird die<br />
relative Häufigkeit von der Untergrenze bis zur Stelle x. <br />
Im folgenden sind vier verschiedene empirische Verteilungsfunktionen der Zufallsstichprobe<br />
x dargestellt. Der Buchstabe K markiert die Klassengrenzen<br />
Zusätzlich sind der sortierte Datensatz durch Sterne eingetragen sowie verschiedene<br />
Quantilsanfragen aus der Graphik zur diskreten Version von ˆ F () von<br />
der Seite XXXX übernommen worden.
1.2. ANALYSE UNIVARIATER DATEN 65<br />
kum. rel. Haeufigkeiten<br />
kum. rel. Haeufigkeiten<br />
0.0 0.2 0.4 0.6 0.8 1.0<br />
0.0 0.2 0.4 0.6 0.8 1.0<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
Emp. Verteilungsfkt.<br />
1 Klasse<br />
*<br />
0 200 400 600<br />
K<br />
800<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
Emp. Verteilungsfkt.<br />
8 Klassen<br />
*<br />
K K K K K K K K<br />
0 200 400 600 800<br />
*<br />
*<br />
kum. rel. Haeufigkeiten<br />
kum. rel. Haeufigkeiten<br />
0.0 0.2 0.4 0.6 0.8 1.0<br />
0.0 0.2 0.4 0.6 0.8 1.0<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
Emp. Verteilungsfkt.<br />
4 Klassen<br />
*<br />
K K K K<br />
0 200 400 600 800<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
*<br />
Emp. Verteilungsfkt.<br />
13 Klassen<br />
K K K K<br />
0 200 400 600 800<br />
Das konkrete Aussehen von ˆ F () hängt von der Wahl der Klassengrenzen ab.<br />
Im Bild links oben wurde lediglich eine Klasse gebildet, von 0 bis 800. Man<br />
kann gut erkennen, daß bei der stetigen empirischen Verteilungsfunktion implizit<br />
Gleichverteilung innerhalb einer Klasse unterstellt wird. Bei nur einer Klasse ist<br />
das offensichtlich falsch, wie die zusätzlich eingezeichneten Hilfspunkte aufzeigen.<br />
Bei 4 Klassen sieht das Bild bereits besser aus, die Ausreißerstruktur wird<br />
aufgedeckt. Allerdings ist die Wahl der ersten Klasse (0, 200) denkbar schlecht.<br />
Die damit angenommene Gleichverteilung ist ungünstig.<br />
Bei 8 Klassen kommen die Quantilsanfragen zu fast identischen Ergebnissen<br />
wie die aus der diskreten Darstellung.<br />
1.2.4 Konzentrationsmaße und Indizes<br />
1.2.5 Fallstudien<br />
Lotto<br />
Spielen Sie auch Lotto? Dann wäre das folgende Angebot ja vielleicht etwas für<br />
Sie:<br />
*<br />
*<br />
*
66 KAPITEL 1. BESCHREIBENDE STATISTIK<br />
Wie man an dem handschriftlichen Eintrag erkennt, stimmt keine einzige der<br />
vorausgesagten Ziffern. Wie wahrscheinlich ist es denn die ersehnten 6 Richtige<br />
zu ziehen, oder wenigstens ein wenig Geld zu verdienen? Was gewinnt eine<br />
Lottospielerin?<br />
Es ist sinnvoll, sich einer solchen Frage aus zwei Richtungen zu nähern: Wie<br />
sehen die samstägigen Ziehungen aus, und was tippen die Leute eigentlich.<br />
Für dieses Vorhaben werden 2 Ansätze angeboten, die miteinander kombiniert<br />
werden sollen:<br />
• Alle gezogenen Lottozahlen von Oktober 1955 bis einschließlich 2003 stehen<br />
zur Verfügung. Das sind 2516 Ziehungen bzw. 15096 gezogene Ziffern<br />
(www.west-lotto.de).<br />
• Mit dem Rechner simulierte Lottoziehungen — so viele man will (R).<br />
Schauen wir uns also zunächst die Häufigkeitsverteilung der gezogenen Ziffern<br />
von 1. . . . 49 an:
1.2. ANALYSE UNIVARIATER DATEN 67<br />
rel. Haeufigkeiten<br />
0.000 0.005 0.010 0.015 0.020<br />
250<br />
13<br />
Haeufigkeitsverteilung der<br />
Kugeln 1...49<br />
1 3 5 7 9 12 15 18 21 24 27 30 33 36 39 42 45 48<br />
Kugel<br />
Man sieht, daß nicht alle Kugeln gleich häufig aus der Trommel gezogen wurden.<br />
Manche häufiger, manche weniger häufig. Die Kugel mit der Nummer 32<br />
führt die Liste an, Schlußlicht ist die 13. Im Stabdiagramm sind die relativen<br />
Häufigkeiten abgetragen. Die horizontale Linie ist an die Stelle 1/49 plaziert worden.<br />
Es ist zu erwarten gewesen, daß die Stäbe nicht alle bei 1/49 enden. Sind die<br />
Unterschiede normal? Oder darf man nun bereits Schlußfolgerungen ziehen? Müßten<br />
so viele Ziehungen nicht ein gleichmäßigeres Ergebnis liefern? Wir vertagen<br />
die Beantwortung ein wenig.<br />
Die Ziehungsvorschrift sieht vor, daß 6 Kugeln ohne Zurücklegen aus der<br />
Trommel entnommen werden. Man könnte sich fragen wie die Häufigkeitsverteilung<br />
bei den Ziehungen 1 . . . 6 aussieht:<br />
359<br />
32
68 KAPITEL 1. BESCHREIBENDE STATISTIK<br />
rel. Haeufigkeiten<br />
rel. Haeufigkeiten<br />
rel. Haeufigkeiten<br />
0.000 0.005 0.010 0.015 0.020 0.025<br />
0.000 0.005 0.010 0.015 0.020 0.025<br />
0.000 0.005 0.010 0.015 0.020 0.025<br />
39<br />
7<br />
61<br />
17<br />
1. Kugel<br />
61 61<br />
3738<br />
1 4 7 11 15 19 23 27 31 35 39 43 47<br />
70<br />
6<br />
3. Kugel<br />
1 4 7 11 15 19 23 27 31 35 39 43 47<br />
28<br />
13<br />
5. Kugel<br />
1 4 7 11 15 19 23 27 31 35 39 43 47<br />
68<br />
41<br />
30<br />
45<br />
rel. Haeufigkeiten<br />
rel. Haeufigkeiten<br />
rel. Haeufigkeiten<br />
0.000 0.005 0.010 0.015 0.020 0.025 0.030<br />
0.000 0.005 0.010 0.015 0.020 0.025<br />
2. Kugel<br />
1 4 7 11 15 19 23 27 31 35 39 43 47<br />
33<br />
15<br />
4. Kugel<br />
36<br />
79<br />
30 32<br />
1 4 7 11 15 19 23 27 31 35 39 43 47<br />
6. Kugel<br />
1 4 7 11 15 19 23 27 31 35 39 43 47<br />
Die Stabdiagramme sehen alle relativ gleichartig aus und ähneln dem Gesamtstabdiagramm.<br />
Man könnte sagen, daß bei letzterem die Stäbe etwas insgesamt<br />
etwas enger um die 1/49 streuen. Die nächste Graphik stellt die Standardabweichungen<br />
der relativen Häufigkeiten für die Kugeln 1 . . . 49 dar. Das G steht<br />
für Gesamtbetrachtung, es ist also die Streuung der relativen Häufigkeiten unter<br />
Berücksichtigung aller 15096 gezogenen Ziffern. Die Zahlen von 1 . . . 6 beziehen<br />
sich auf die 1. gezogene Kugel, die 2. usw. Hier liegen also jeweils lediglich<br />
15096/6 = 2516 Beobachtungen zugrunde:<br />
0.000 0.005 0.010 0.015 0.020 0.025<br />
66<br />
9<br />
35<br />
28<br />
72<br />
49
1.2. ANALYSE UNIVARIATER DATEN 69<br />
s<br />
s<br />
0.0000 0.0010 0.0020 0.0030<br />
0 5 10 15<br />
1<br />
1<br />
2<br />
2<br />
Streuungen der relativen<br />
Haeufigkeiten<br />
3<br />
Ziehung und Gesamt<br />
Streuungen der absoluten<br />
Haeufigkeiten<br />
Ziehung und Gesamt<br />
4 5<br />
3 4 5<br />
Die Graphik bestätigt den Eindruck. Bei G ist die Streuung deutlich geringer<br />
als bei den einzelnen Ziehungen. Allerdings nur bei Betrachtung der relativen<br />
Häufigkeiten, bei den absoluten ist die Streuung sogar größer.<br />
Es soll noch eine weitere Graphik betrachtet werden, und dann fassen wir<br />
zusammen.<br />
rel. Haeufigkeit<br />
0.00 0.01 0.02 0.03 0.04 0.05<br />
Entwicklung der rel. Haeufigkeiten von<br />
2 38 11 41 12 16 26 30 5 43<br />
0 5000 10000 15000<br />
Ziehung<br />
Es wurden zufällig 10 Kugeln ausgewählt, deren chronologisches Auftauchen<br />
unter den 15096 gezogenen Kugeln verfolgt wurde. Für jede Kugel wurde zu<br />
jedem Zeitpunkt auf der horizontalen Achse die aktuelle relative Häufigkeit auf<br />
G<br />
G<br />
6<br />
6
el. Haeufigkeiten<br />
0.000 0.005 0.010 0.015 0.020<br />
70 KAPITEL 1. BESCHREIBENDE STATISTIK<br />
der vertikalen Achse abgetragen, so daß 10 Linienzüge entstehen. Bei allem Zufall<br />
ist eindeutig zu erkennen, wohin die Reise geht. Keine der Kugeln hat, und das<br />
wissen wir schon vom Stabdiagramm, am Ende eine relative Häufigkeit von 1/49.<br />
Während die Kurven zu Beginn jedoch großen Schwankungen unterworfen sind,<br />
so stabilisiert sich dieses Bild deutlich. Nach spätestens 4000 gezogenen Kugeln<br />
schwanken die Häufigkeiten um diese erwarte Häufigkeit.<br />
Zusammenfassend läßt sich feststellen, daß mit zunehmendem Ziehungsumfang<br />
sich die Verteilung langsam stabilisiert, die relativen Häufigkeiten bewegen<br />
sich auf 1/49 zu. Wir haben Indizien dafür gefunden, daß für die absoluten Häufigkeiten<br />
u.U. die gegenteilige Aussage gilt. Hilft diese Feststellung für eine Prognose?<br />
Sind diese knapp 50 Jahre Lottoziehungen eigentlich ein typisches Ergebnis?<br />
Mit Hilfe von R sollen noch einmal 50 Jahre lang Lottozahlen gezogen werden.<br />
Die Simulation ist dementsprechend so aufgebaut, daß 2516-mal 6 Kugeln ohne<br />
Zurücklegen gezogen werden. Hier ist das Ergebnis:<br />
269<br />
3<br />
Haeufigkeitsverteilung der<br />
Kugeln 1...49 − Simulation<br />
1 3 5 7 9 12 15 18 21 24 27 30 33 36 39 42 45 48<br />
Kugel<br />
354<br />
32<br />
rel. Haeufigkeit<br />
0.00 0.01 0.02 0.03 0.04 0.05<br />
Entwicklung der rel. Haeufigkeiten von<br />
2 38 11 41 12 16 26 30 5 43<br />
0 5000 10000 15000<br />
Ziehung − Simulation<br />
Es kommen natürlich verschiedene Bilder heraus. Allerdings ist die Grundstruktur<br />
dieselbe. Simulation und tatsächliche Ziehung haben sich gewissermaßen<br />
gegenseitig bestätigt.<br />
Was wäre, wenn bereits seit 250 Jahren in Deutschland Lotto gespielt würde?<br />
Das wäre ein mehr als 5-mal so langer Zeitraum im Vergleich zum tatsächlichen<br />
Zeithorizont. Das entspräche dann 250 · 52 = 13000 Ziehungen, was 13000 · 6 =<br />
78000 gezogene Kugeln bedeutet. Hier das Ergebnis — die eben gezogenen 15096<br />
gezogenen Ziffern sind hier ebenfalls berücksichtigt:
el. Haeufigkeiten<br />
0.000 0.005 0.010 0.015 0.020<br />
1.2. ANALYSE UNIVARIATER DATEN 71<br />
1503<br />
2<br />
Haeufigkeitsverteilung der<br />
Kugeln 1...49 − Simulation<br />
1 3 5 7 9 12 15 18 21 24 27 30 33 36 39 42 45 48<br />
Kugel − Basis: 78000 Kugeln)<br />
1671<br />
35<br />
rel. Haeufigkeit<br />
0.00 0.01 0.02 0.03 0.04 0.05<br />
Entwicklung der rel. Haeufigkeiten von<br />
2 38 11 41 12 16 26 30 5 43<br />
0 20000 40000 60000 80000<br />
Ziehung − Simulation<br />
Bereits anhand des Stabdiagrammes läßt sich feststellen, daß die Streuung<br />
der relativen Häufigkeiten dramatisch abgenommen hat. Die Unterschiede in den<br />
absoluten Häufigkeiten haben dagegen zugenommen. In Zahlen ausgedrückt heißt<br />
das für alle 78000 Ziehungen — man vergleiche das einmal mit der Graphik auf<br />
der Seite 68:<br />
Streuung der relativen Haeufigkeiten:<br />
s=0.00051<br />
Streuung der absoluten Haeufigkeiten:<br />
s=39.54<br />
Bei der Darstellung der Entwicklung der relativen Häufigkeiten ist zur Orientierung<br />
an der Stelle 15096 ein senkrechter Strich eingezeichnet worden, die Stelle<br />
entspricht dem Ziehungszeitraum von knapp 50 Jahren. Die Schwankungen der<br />
Kurven nimmt im weiteren Verlauf stark ab.<br />
Hilft dieser Blick in die Zukunft nun, um brauchbare Vorhersagen zu treffen?<br />
Nein gar nicht, die Gleichförmigkeit verhindert das. Wenn sich abgezeichnet hätte,<br />
daß einige Kugeln stark abweichen vom Trend zur 1/49 dann ja, so aber nicht.<br />
Wie ist mit Blick auf das Stabdiagramm von der Seite 66 die Bemerkung<br />
einzustufen, die Kugel 13 müsse aber langsam mal aufholen, während die 32 in<br />
der Zukunft sicherlich weniger häufig gezogen werden wird? Auch auf der Lotto-<br />
Internetseite wird man auf Ziffern hingewiesen, die schon lange nicht mehr gezogen<br />
wurden bzw. eine geringe Häufigkeit aufweisen. Schert sich die Kugel darum?<br />
Es ist schon richtig, die relativen Häufigkeiten gleichen sich, wie demonstriert,<br />
langfristig immer mehr an. Allerdings ist langfristig wörtlich zu verstehen, es<br />
dauert, und es ist nicht vorhersehbar. Die Kugeln haben nämlich kein Gedächtnis<br />
in bezug auf ihr eigenes Auftauchen in der Statistik. Jede Samstagsziehung ist<br />
unabhängig von der davor und beeinflußt auch nicht die zukünftigen. Im übrigen
Wartezeit<br />
Wartezeit<br />
0 10 20 30 40 50 60 70<br />
0 10 20 30 40 50<br />
72 KAPITEL 1. BESCHREIBENDE STATISTIK<br />
konnte auch demonstriert werden, daß die absoluten Häufigkeiten sich immer<br />
weiter weg von der Idealvorstellung bewegen.<br />
Das folgende Warte-Experiment soll dies empirisch untermauern. Wie lange<br />
muß man so im Durchschnitt darauf warten, daß eine bestimmte Kugel am Samstag<br />
gezogen wird? Diese diskrete Wartezeit kann alle ganzen zahlen größer oder<br />
gleich Null annehmen — an zwei aufeinanderfolgenden Samstagen wurde jene<br />
Kugel gezogen.<br />
Was geben die Daten für die Kugeln 13 und 25 her:<br />
Warten auf die 13<br />
mittlere Wartezeit: 8.96<br />
0 500 1000 1500 2000 2500<br />
Ziehung<br />
Warten auf die 25<br />
mittlere Wartezeit: 6.95<br />
0 500 1000 1500 2000 2500<br />
Ziehung<br />
rel. Haeufigkeiten<br />
rel. Haeufigkeiten<br />
0.00 0.02 0.04 0.06 0.08 0.10<br />
0.00 0.02 0.04 0.06 0.08 0.10 0.12<br />
Warten auf die 13<br />
0 3 6 9 13 17 21 25 29 34 43 68<br />
Wartezeiten<br />
Warten auf die 25<br />
0 2 4 6 8 11 14 17 21 24 27 31 34 45 49<br />
Wartezeiten<br />
Auf die 13 mußte im Durchschnitt 2 Wochen länger gewartet werden als auf<br />
die 25. Ohne zu viel Theorie vorwegzunehmen (vgl.Kapitel XXXX), lassen sich<br />
diese Zahlen mit Erwartungen verknüpfen. Jede Kugel hat an jedem Samstag eine<br />
Wahrscheinlichkeit von 6/49, gezogen zu werden. Sie ist also so alle 1/(6/49) =<br />
49/6 = 8.17 mal dran, also so etwa alle acht Wochen. Für die Wartezeit muß noch
el. Haeufigkeiten<br />
0.00 0.02 0.04 0.06 0.08 0.10 0.12<br />
1.2. ANALYSE UNIVARIATER DATEN 73<br />
die Eins abgezogen werden — um dran zu sein muß schließlich wenigstens einmal<br />
gezogen werden, was wiederum einer Wartezeit von mindestens Null entspricht<br />
—, so daß das durchschnittliche Warten bei etwas über Sieben liegt.<br />
Die empirischen Wartezeiten korrespondieren mit der Erwartung. Die 25 wurde<br />
insgesamt bisher etwas häufiger als mit 1/49 gezogen — oder 6/49 wenn man<br />
die Ziehung als Einheit ansieht. Die 13 dagegen seltener, was sich in einer größeren<br />
Wartezeit widerspiegelt.<br />
Es mußte bis zu 68 Wochen gewartet werden, bis die 13 endlich wieder gezogen<br />
wurde. Wenn man dann nach 67 Wochen voller Zuversicht die 13 angekreuzt<br />
hätte, wäre man sehr enttäuscht gewesen. Die Wahrscheinlichkeiten ändern sich<br />
nicht, gezogen zu werden, auch wenn ein Kugel aufgrund einer zufälligen Laune<br />
über einen längeren Zeitraum nicht gezogen würde.<br />
Täten sie es doch, dann müßte man folgendes Phänomen bei den empirischen<br />
Wartezeiten beobachten können. Nähme die Wahrscheinlichkeit, gezogen<br />
zu werden, zu, je länger eine Kugel nicht gezogen wird, dann müßte sich die<br />
durchschnittliche zusätzliche Wartezeit verringern.<br />
Anders formuliert: Es werden nur diejenigen Warteperioden berücksichtigt, bei<br />
denen länger als siebenmal auf eine Kugel gewartet werden mußte. Stimmt die<br />
Aussage über die steigenden Wahrscheinlichkeiten, dann müßten die zusätzlichen<br />
Wartezeiten jenseits der 7 deutlich kleiner sein als die gesamten Wartezeiten.<br />
Die zusätzliche Wartezeit ist also wie folgt definiert:<br />
zusätzliche Wartezeit := (Wartezeit ≥ 8) − 8<br />
Es ergeben sich die folgenden Stabdiagramme der zusätzlichen Wartezeiten<br />
für die Kugeln 13 und 25:<br />
Warten auf die 13<br />
durchschn. Warten: 9.14<br />
0 3 6 9 12 16 20 24 29 35 60<br />
zus. Wartezeiten ab 8<br />
rel. Haeufigkeiten<br />
0.00 0.02 0.04 0.06 0.08 0.10 0.12<br />
Warten auf die 25<br />
durchschn. Warten: 8.33<br />
0 2 4 6 8 10 13 16 19 23 26 37 41<br />
zus. Wartezeiten ab 8<br />
Wie man sieht hat die durchschnittliche zusätzliche Wartezeit sogar zugenommen.<br />
In der nächsten Graphik sind die durchschnittlichen Wartezeiten für
el. Haeufigkeiten<br />
0.0 0.1 0.2 0.3 0.4<br />
74 KAPITEL 1. BESCHREIBENDE STATISTIK<br />
alle 49 Kugeln im Vergleich mit den zusätzlichen Wartezeiten dargestellt. Dieses<br />
für zusätzliches Warten ab 8, 10,12 und 14:<br />
zus. warten ab 8<br />
zus. warten ab 12<br />
6.0 6.5 7.0 7.5 8.0 8.5 9.0<br />
6 7 8 9 10<br />
32<br />
Vgl. der durchschn. Wartezeiten<br />
oben:28, unten:21<br />
38<br />
49<br />
20<br />
15<br />
22<br />
5<br />
25<br />
44<br />
42 27 41<br />
23<br />
48<br />
4<br />
31 35 29<br />
6<br />
18 3917<br />
9<br />
14<br />
11<br />
43 10<br />
26 2 37<br />
3<br />
2133<br />
40<br />
36<br />
19<br />
1<br />
12 7<br />
24<br />
16<br />
46<br />
4730<br />
6.0 6.5 7.0 7.5 8.0 8.5 9.0<br />
32<br />
49<br />
38<br />
8<br />
45<br />
34<br />
alle Wartezeiten<br />
Vgl. der durchschn. Wartezeiten<br />
oben:28, unten:21<br />
5<br />
23<br />
4629<br />
4<br />
30<br />
27 20<br />
25 11<br />
26 9<br />
35 12<br />
1<br />
6.0 6.5 7.0 7.5 8.0 8.5 9.0<br />
alle Wartezeiten<br />
28<br />
16<br />
227<br />
15 47 8<br />
44<br />
34<br />
4842<br />
621<br />
17 41<br />
39<br />
3<br />
33<br />
2 31 1843 19 37<br />
36 40<br />
14<br />
24<br />
10<br />
28<br />
45<br />
13<br />
13<br />
zus. warten ab 10<br />
zus. warten ab 14<br />
6 7 8 9<br />
5 6 7 8 9 10<br />
32<br />
Vgl. der durchschn. Wartezeiten<br />
oben:32, unten:17<br />
49<br />
38<br />
22<br />
5<br />
30 16<br />
20<br />
34<br />
8 28<br />
25<br />
46 23<br />
1215<br />
47<br />
7<br />
4<br />
26<br />
18<br />
17<br />
6<br />
10 14<br />
9 19<br />
27<br />
42<br />
31<br />
43 41<br />
35 29<br />
39<br />
33 40<br />
44<br />
48<br />
21 3<br />
2<br />
36<br />
11<br />
37<br />
1<br />
24<br />
6.0 6.5 7.0 7.5 8.0 8.5 9.0<br />
32<br />
49<br />
38<br />
45<br />
alle Wartezeiten<br />
Vgl. der durchschn. Wartezeiten<br />
oben:26, unten:23<br />
11<br />
44 16<br />
20<br />
5 15 30<br />
47 4<br />
22<br />
46<br />
25 9 41<br />
29<br />
26<br />
4821<br />
6 37<br />
2718<br />
35<br />
33 17<br />
42 31<br />
2 43<br />
3<br />
39<br />
19<br />
36 24<br />
10 14<br />
40<br />
1<br />
7<br />
12<br />
45<br />
8<br />
6.0 6.5 7.0 7.5 8.0 8.5 9.0<br />
23<br />
34<br />
alle Wartezeiten<br />
Von der Thematik beflügelt, tippt der Autor dieser Zeilen 1 Reihe Lotto für<br />
Samstag den 10. April: 9,13,24,27,40,44. Wie hätte man damit in der Vergangenheit<br />
abgeschnitten?<br />
1127<br />
1026<br />
Tip:<br />
9,13,24,27,40,44<br />
321<br />
0 1 2 3 4<br />
Anzahl Richtige<br />
40<br />
2<br />
Anzahl Richtige<br />
0 1 2 3 4<br />
28<br />
Wann, wie viele Richtige<br />
0 500 1000 1500 2000 2500<br />
Ziehung<br />
13<br />
13
1.2. ANALYSE UNIVARIATER DATEN 75<br />
Nicht besonders gut! Die letzten knapp 50 Jahre hätten zweimal 4- Richtige,<br />
sowie 40 mal 3-Richtige eingebracht. Unter finanziellen Gesichtspunkten ist das<br />
ein ziemlich miserabeles Ergebnis. 2516 Reihen zu tippen, kostet etwa 2000 Euro.<br />
Der Gewinn mit den 40 Dreiern und zwei Vierern liegt je nach Quoten bei wohl<br />
nicht mehr als 400 Euro. In über 98% aller Lottoziehungen hätte man gar nichts<br />
gewonnen.<br />
Ein Blick auf die rechte Graphik erweckt den Eindruck, daß man so etwa alle<br />
1000 Ziehungen mal mit 4-Richtigen rechnen kann. Die nächste Graphik zeigt, daß<br />
die relativen Häufigkeiten schnell stabil werden, mit Überraschungen ist nicht zu<br />
rechnen.<br />
rel. Haeufigkeit<br />
0.0 0.2 0.4 0.6 0.8 1.0<br />
Entwicklung der relativen<br />
Gewinnhaeufigkeiten<br />
0 500 1000 1500 2000 2500<br />
Ziehung<br />
Warum spielt man also trotzdem? Dieselbe Analyse soll nun mit den für den<br />
Zeitraum von 250 Jahren simulierten 13000 Ziehungen durchgeführt werden.<br />
0<br />
1<br />
2<br />
3<br />
4
el. Haeufigkeiten<br />
0.0 0.1 0.2 0.3 0.4<br />
76 KAPITEL 1. BESCHREIBENDE STATISTIK<br />
5621<br />
5424<br />
Tip:<br />
9,13,24,27,40,44<br />
1704<br />
0 1 2 3 4<br />
Anzahl Richtige<br />
237<br />
14<br />
Anzahl Richtige<br />
Wann, wie viele Richtige<br />
0 2000 4000 6000 8000 10000 12000<br />
Nach 250 Jahren sind nicht einmal 5-Richtige dabei. Die Simulation bestätigt<br />
die Ergebnisse. Etwa alle 1000 Ziehungen (≈ 20 Jahre) kann man mit 4-Richtigen<br />
rechnen. Auch hier gewinnt man in über 98% aller Ziehungen gar nichts.<br />
rel. Haeufigkeit<br />
0.0 0.2 0.4 0.6 0.8 1.0<br />
0 1 2 3 4<br />
Entwicklung der relativen<br />
Gewinnhaeufigkeiten<br />
Ziehung<br />
Ziehung<br />
0 2000 4000 6000 8000 10000 12000<br />
Und was ist mit 5- oder gar 6-Richtigen? Zur Beantwortung dieser Frage sei auf<br />
das Kapitel XXX verwiesen. Noch eine Schlußbemerkung: 2516 bzw. auch 13.000<br />
Ziehungen sind im Vergleich zur Gesamtzahl aller möglichen und verschiedenen<br />
Lottoziehungen immer noch sehr wenige — verglichen mit den 13.000 gibt es<br />
0<br />
1<br />
2<br />
3<br />
4
1.2. ANALYSE UNIVARIATER DATEN 77<br />
mehr als 1000-mal so viele. Nach über 260.000 Jahren kann man anfangen, damit<br />
zu rechnen, daß sich jede mögliche Kombination wenigstens einmal ereignet hat.<br />
Und die Prognose vom Anfang? Was halten Sie von der Aussage über das<br />
Gesetz der großen Zahlen bzw. den nicht idealen Zufallszahlengenerator?<br />
Dieses Werbeblatt wurde per email verschickt. Eine Idee, warum so eine Werbeaktion<br />
vielleicht gemacht wurde — die Aussagen lassen sich aus den Datenanalysen<br />
der letzten Seiten gewinnen: Angenommen es wurden 10 Million solcher<br />
emails verschickt mit insgesamt vielleicht 50.000 verschiedenen Glückszahlen — es<br />
haben also jeweils 200 Adressaten dieselben Glückszahlen bekommen. Die überwältigende<br />
Mehrheit wird 0- bzw. 1-Richtigen mit ihren persönlichen Prognosen<br />
erreichen, etwas über 40.000 der Glückszahlen werden so abschneiden.<br />
Es ist aber auch so, daß knapp 1000 der prognostizierten Lottozahlen 3- oder<br />
sogar 4-Richtige vorhersagen werden. Diese Gruppe, immerhin 200.000 Adressaten,<br />
werden durchaus beeindruckt sein von den demonstrierten Vorhersagefähigkeiten.<br />
Und eine Gruppe, also 200 Personen, wird sich vermutlich sogar sehr<br />
ärgern, den Lottotip nicht gespielt zu haben, ihre persönliche Prognose resultierte<br />
nämlich in 5-Richtigen.<br />
Mit einer solchen oder ähnlichen Rechnung wird klar, warum sich der Aufwand<br />
für die Anbieter der Prognosen lohnen könnte. Mit dem Medium email ist es<br />
zudem äußerst günstig, so massenhaft Werbematerial zu verschicken.