buch.041116.pdf - PDF-Format

Grundkurs Statistik 

— 

mit Rechnerunterstützung 

Veith Tiemann 

Hans-Peter Wolf 

BASICS 

Version: 15. November 2004

Inhaltsverzeichnis 

1 Beschreibende Statistik 4 

1.1 Was für Daten gibt es? . . . . . . . . . . . . . . . . . . . . . . . . 4 

1.2 Analyse univariater Daten . . . . . . . . . . . . . . . . . . . . . . 4 

1.2.1 Häufigkeitstabellen und deren Darstellung . . . . . . . . . 5 

Ein Beispiel: Kryptographie . . . . . . . . . . . . . . . . . 24 

1.2.2 Zurück zur Urliste . . . . . . . . . . . . . . . . . . . . . . 32 

Betrachtungen zur Lage . . . . . . . . . . . . . . . . . . . 33 

Betrachtungen zur Streuung . . . . . . . . . . . . . . . . . 43 

Betrachtungen zur Verteilung . . . . . . . . . . . . . . . . 51 

1.2.3 Die empirische Verteilungsfunktion . . . . . . . . . . . . . 62 

1.2.4 Konzentrationsmaße und Indizes . . . . . . . . . . . . . . 65 

1.2.5 Fallstudien . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 

Lotto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 

3

Kapitel 1 

Beschreibende Statistik 

1.1 Was für Daten gibt es? 

1.2 Analyse univariater Daten 

Vorschau 

Kapitel 1.2 In diesem Abschnitt werden statistische Verfahren zur Analyse 

eindimensionaler Datensätze vorgestellt. Ziel des Kapitels ist es, eine 

Antwort auf die Frage zu finden: ” Wie erhält man möglichst effizient 

Informationen aus Daten?“ 

Den Anfang machen dabei die diskrete und stetige Häufigkeitsanalyse 

(Kapitel 1.2.1). Die Häufigkeitsanalyse wird mit einem Beispiel aus der 

Kryptographie abgerundet (Kapitel 1.2.1). 

Im Anschluß daran werden den Datensatz zusammenfassende Maßzahlen und 

Graphiken vorgestellt (Kapitel 1.2.2). Diese Möglichkeiten der Verdichtung 

decken alle wesentlichen Blickwinkel auf eindimensionale Daten ab. 

Im letzten Abschnitt wird die empirische Verteilungsfunktion expliziert 

(Kapitel 1.2.3). 

in:1 

Nach der Diskussion über die verschiedenen Typen von Daten sind wir nun 

gut gerüstet, um uns dem tatsächlichen Datenmaterial zu nähern. Univariate 

Daten bedeutet, daß ein eindimensionaler Datensatz vorliegt. Ein Merkmal wurde 

beobachtet, z.B. das Gewicht oder das Alter von verschiedenen Personen. Als 

Ausgangspunkt liegt die sogenannte Urliste vor. Diese zeigt die Daten, wie sie 

angefallen sind. 

Die folgende Auflistung ist das Ergebnis einer Befragung der Erstsemester im 

Studiengang BWL (aus dem Jahre 1996) nach ihrem Alter — mit Alter ist im 

folgenden gerade dieser Datensatz gemeint: 

> print(alter) 

out:1 4

1.2. ANALYSE UNIVARIATER DATEN 5 

23 21 22 19 20 21 21 22 20 20 22 21 20 20 19 26 21 20 25 26 22 19 

21 20 20 19 23 20 21 22 20 21 18 21 20 24 24 19 23 24 20 20 20 21 

19 20 23 20 20 21 20 20 24 19 21 20 28 24 20 20 23 21 20 21 19 21 

21 20 23 20 22 21 23 19 20 23 21 21 21 20 21 23 20 22 21 28 21 22 

23 22 22 20 22 21 19 19 19 20 20 21 24 19 22 20 23 20 21 22 23 20 

23 20 18 21 21 24 23 21 21 20 20 24 19 23 22 21 20 24 21 19 21 20 

23 20 20 20 22 20 20 20 20 21 20 21 21 20 20 22 23 19 20 20 19 23 

27 21 21 24 27 20 21 21 20 19 19 19 21 19 22 19 20 24 21 20 23 21 

21 27 20 18 19 20 24 20 29 26 25 22 24 26 30 20 20 23 21 20 22 22 

21 25 22 20 21 22 20 19 19 22 23 20 19 19 20 20 19 22 20 27 27 20 

24 21 20 21 20 24 22 23 23 20 20 21 21 21 20 22 19 19 19 23 20 23 

21 23 21 20 20 19 21 24 20 20 20 20 21 20 20 20 21 19 22 21 20 20 

22 

Wie man sieht, sieht man gar nichts. Die Urliste ist sehr unübersichtlich. Dabei 

ist ein Stichprobenumfang von n = 265 nicht einmal besonders groß. 

Was für eine Struktur über die Altersverteilung der Studierenden verbergen 

die Daten? Sind die meisten Studierenden jünger als 25 Jahre? Wie vergleicht 

man solche Datensätze aus verschiedenen Jahren? Wie kann man also die Daten 

so verdichten, daß Vergleiche effizient gezogen werden können? 

In diesem Kapitel werden statistische Verfahren vorgestellt, wie man aus der 

Urliste solche und andere Informationen gewinnen kann. 

1.2.1 Häufigkeitstabellen und deren Darstellung 

Bei kleineren Umfängen würde es bereits helfen, den geordneten Datensatz 

hinzuschreiben, also die Daten der Größe nach zu sortieren und nicht die Reihenfolge 

zu verwenden, in der die Daten erhoben wurden. Man muß aber aufpassen, 

ob dabei relevante Informationen (bestimmte Strukturen beispielsweise) verloren 

gehen. 

In diesem Fall, also bei einem etwas größeren Stichprobenumfang, bietet sich 

die sogenannte Häufigkeitstabelle an. 

Definition: Häufigkeitstabelle 

In einer Häufigkeitstabelle werden sämtliche Merkmalsausprägungen sowie die 

absoluten und relativen Häufigkeiten dargestellt. Diese kann für alle Skalentypen 

erstellt werden. 

Man unterscheidet die diskrete und die stetige (klassierte) Häufigkeitstabelle; 

das hängt von der Beschaffenheit des Merkmales ab. Eine Häufigkeitstabelle zählt, 

ordnet und faßt zusammen. 

Das Merkmal Alter ist einer der erwähnten Grenzfälle. Wir wollen es zunächst 

als diskretes, später dann als stetiges Merkmal auffassen.

6 KAPITEL 1. BESCHREIBENDE STATISTIK 

Die diskrete Häufigkeitstabelle Zum Erstellen der diskreten Häufigkeitstabelle 

muß man zunächst abzählen, wie viele unterschiedliche Merkmalsausprägungen 

es gibt. Dann wird gezählt — per Hand mit Strichliste —, wie oft die 

einzelnen Ausprägungen beobachtet wurden. 

Bei wenigstens ordinalem Skalenniveau sind die Ausprägungen xi in der Tabelle 

aufsteigend sortiert angeordnet. 1 In der Häufigkeitstabelle wird die folgende 

Notation verwandt: 

i Der Index zählt die verschiedenen Merkmalsausprägungen durch. 

xi i-te Merkmalsausprägung des Merkmals X; i = 1, . . . , k 

ni absolute Häufigkeit von xi — Wie oft wurde xi beobachtet? 

hi relative Häufigkeit von xi — Wieviel Prozent der Beobachtungen 

sind gleich xi? 

Fi kumulierte relative Häufigkeit (empirische Verteilungsfunktion), 

macht nur Sinn bei mindestens ordinalskalierten Merkmalen. 

Mit Hilfe dieser kann dann die Häufigkeitstabelle erzeugt werden. Hier ist 

zunächst der formale Aufbau: 2 

i xi ni hi = ni 

n 

1 x1 n1 h1 = n1 

n 

2 x2 n2 h2 = n2 

n 

3 x3 n3 h3 = n3 

n 

. 

. 

. 

k xk nk hk = nk 

n 

. 

Fi = i 

j=1 hj 

F1 = h1 

F2 = h1 + h2 

F3 = h1 + h2 + h3 

. 

Fk = 1 

Zum besseren Verständnis der Zusammensetzung der Häufigkeitstabelle seien 

zusätzlich die folgenden Zusammenhänge dargelegt, welche in jeder Häufigkeitstabelle 

gelten: 

1 Formal: xi < xi+1. 

2 Zum Summenzeichen: Vgl. den Exkurs auf Seite 31.


k Anzahl der verschiedenen Merkmalsausprägungen. 

xk Bei wenigstens ordinalem Skalenniveau ist das die größte Be- 

k i=1 

obachtung. 

ni = n 

k i=1 

Die Summe aller Einzelhäufigkeiten ergibt die Gesamthäufigkeit. 

hi = 1 Wenn man alle Beobachtungen berücksichtigt, kommt man 

auf 100%. 

Diese Erkenntnisse können gut zur Konsistenzprüfung einer selbst erstellten Häufigkeitstabelle 

verwandt werden. 

Für den Beispieldatensatz Alter ergibt sich die mit Hilfe der von uns eingesetzten 

statistischen Software folgende diskrete (gerundete) Häufigkeitstabelle: 

> haeufigkeit.diskret(alter) in:2 

-------------------------i 

x.i n.i h.i F.i 

-------------------------- 

1 18 3 0.011 0.011 

2 19 33 0.125 0.136 

3 20 85 0.321 0.457 

4 21 58 0.219 0.675 

5 22 28 0.106 0.781 

6 23 26 0.098 0.879 

7 24 16 0.060 0.940 

8 25 3 0.011 0.951 

9 26 4 0.015 0.966 

10 27 5 0.019 0.985 

11 28 2 0.008 0.992 

12 29 1 0.004 0.996 

13 30 1 0.004 1.000 

-------------------------- 

Der Datensatz wird offensichtlich gewinnbringend zusammengefaßt. Die Tabelle 

liefert dem Betrachter zu jeder Merkmalsausprägung, zu jedem Alter, die 

absoluten und die relativen Häufigkeiten. Die häufigste Beobachtung ist 20, fast 

ein Drittel der Studierenden hatten dieses Alter. Lediglich jeweils ein Studierender 

war zum Zeitpunkt der Befragung 29 bzw. 30 Jahre alt. 

Es sei noch eine Bemerkung zur letzten Spalte gemacht. Mit Hilfe der kumulierten 

relativen Häufigkeiten kann man Fragen der Art beantworten, wie sie zu 

Beginn des Kapitels an die Rohdaten formuliert wurden: 3 

tion. 

3 Vgl. auch Kapitel 1.2.3 für eine umfassende Abhandlung zur empirischen Verteilungsfunk- 

out:2


• Wie groß ist der Anteil der Studierenden, die höchstens 25 Jahre alt sind? 

Antwort: F8 = 0.951. Das heißt also, daß 95.1% dieser Studierenden 25 

Jahre oder jünger sind. 

• Wie groß ist der Anteil der Studierenden, die mindestens 26 Jahre alt sind? 

Antwort: 1−F8 = 1−0.951 = 0.049. Mit knapp 5% ist nur ein sehr geringer 

Anteil der Studierenden älter als 25 Jahre. 

Stabdiagramm Es läßt sich feststellen, daß die Tabelle die Daten zwar bereits 

stark verdichtet und damit wesentlich übersichtlicher ist als die Urliste, daß die 

Darstellungsform aber noch zu wünschen übrig läßt. Es wäre schön, wenn man 

die wichtigen Strukturen schneller entdecken könnte; graphische Verfahren bieten 

sich an. 

Definition: Stabdiagramm 

Die graphische Darstellung der Häufigkeitstabelle heißt Stabdiagramm. Auf 

der horizontalen Achse werden die Ausprägungen abgetragen, auf der vertikalen 

die dazugehörigen relativen bzw. absoluten Häufigkeiten. 

Für den Datensatz Alter kann das folgende Stabdiagramm erstellt werden:


> stabdiagramm(alter) in:3 

rel. Haeufigkeiten 

0.0 0.05 0.10 0.15 0.20 0.25 0.30 

Stabdiagramm von Alter 

18 19 20 21 22 23 24 25 26 27 28 29 30 

Abbildung 1 

Am Stabdiagramm kann man auf einen Blick die Struktur oder auch den 

Charakter der Daten erkennen: 

• Der Datensatz ist schief. Wesentlich mehr Beobachtungen befinden sich 

auf der ersten Hälfte der Merkmalsachse. 

• Man kann einen Berg identifizieren mit dem eindeutigen Gipfel 20 Jahre. 

• Der Datensatz belegt auf der Merkmalsachse den Bereich von 18 bis 30 

Jahre. 

Modus Die Statistik bietet diverse zusammenfassende Kennzahlen für verschiedene 

Aspekte eines Datensatzes an, die sogenannten Maßzahlen. Es kann bereits 

eine erste Maßzahl definiert werden, welche sich aus der bloßen Betrachtung des 

Stabdiagramms ergibt: 4 

4 Für weitere Maßzahlen vgl. Kapitel 1.2.2. 

out:3


Definition: Modus/ Modalwert (diskret) 

Der häufigste Wert in einem diskreten Datensatz wird als Modus bezeichnet, 

also die Merkmalsausprägung, die am häufigsten beobachtet werden konnte. 

Im Stabdiagramm ist es die Merkmalsausprägung, über der der längste Stab 

abgetragen ist. 

Falls mehrere Werte in Frage kommen, existiert der Modus nicht. 

Im Beispiel nimmt der Modus den Wert 20 Jahre an — die am stärksten besetzte 

Merkmalsausprägung. Die Mehrzahl der Studierenden war zum Zeitpunkt 

der Befragung 20 Jahre alt. 

Der Modus ist ein Lageparameter. Er verrät uns etwas darüber, wo die größte 

Häufigkeit der Merkmalsausprägungen eines Datensatzes auf der Merkmalsachse 

zu finden ist. 5 

Tortendiagramm Meist ist es schwierig, die Verhältnisse zwischen den verschiedenen 

Anteilen mit Hilfe des Stabdiagramms richtig zu beurteilen. Es bietet 

sich eine andere graphische Darstellung an, das Tortendiagramm. 

Ausgangspunkt ist ein Kreis, der die Gesamtheit aller Daten repräsentiert. 

Nun werden für jede Merkmalsausprägung Kreissegmente (die Tortenstücke) eingezeichnet. 

Die Größe des Winkels ist für jedes Tortenstück proportional zur relativen 

Häufigkeit der entsprechenden Merkmalsausprägung — mit dem Dreisatz 

einfach zu berechnen und mit dem Geodreieck in den Kreis einzutragen: 

→ 100% = 360 Grad; 50% = 180 Grad; 26% = 93,6 Grad 

Die Häufigkeitstabelle zum bereits vertrauten Datensatz Alter soll nun durch 

ein Kreisdiagramm dargestellt werden. Mit Hilfe des Rechners kommt man zu 

dem folgenden Ergebnis: 

5 Für weitere zentrale und nicht-zentrale Lagemaße vgl. Kapitel 1.2.2.


> piechart(haeufigkeit.diskret(alter)) in:4 

21 

20 

22 

Abbildung 2 

23 

19 

24 

18 

25 

26 

27 

28 29 30 

Mit Hilfe dieser Flächendarstellung der relativen Häufigkeiten gelingt es einem 

Betrachter besser, einen Vergleich zwischen den verschiedenen Häufigkeiten 

anzustellen — das Kreissegment, das die Ausprägung 20 repräsentiert, wirkt wesentlich 

wuchtiger als die für die übrigen Ausprägungen. Vor allem zur Darstellung 

von nominalskalierte Daten wird das Tortendiagramm oft benutzt. 

Balkendiagramm Die Überlegenheit von Graphiken soll anhand des folgenden 

Zitats untermauert werden: 

” Ich will nicht gerade so weit gehen zu behaupten, das erste Buch der 

Bibel wäre besser als Tabelle darzustellen, aber die eine oder andere 

Datengraphik hätte selbst diesem Klassiker ganz gut getan. Denn es 

wurden gezählt: 

,Zum Stamm Ruben 46.500. Der Kinder Simeon nach ihrer Geburt 

und Geschlecht . . . 59.300. Der Kinder Gad nach ihrer Geburt und 

Geschlecht, ihren Vaterhäusern und Namen, von zwanzig Jahren und 

darüber, was ins Heer zu ziehen taugte, 45.650 . . . ‘ 

Und so geht es noch zwei Spalten lang weiter. In einem Teil der Genesis, 

der im Englischen sehr treffend auch ,The Book of Numbers‘ 

out:4


heißt. Diese gleiche Information, wenn es denn darauf wirklich ankäme, 

wäre weit schneller und präziser etwa durch ein Balkendiagramm 

zu übermitteln.“ 

Walter Krämer: So überzeugt man mit Statistik, 1. Kapitel. 

Die folgende Graphik stellt das vorgeschlagene Balkendiagramm dar. Ein 

Balkendiagramm ist nichts Anderes als ein Stabdiagramm. Es ist um 90 Grad gedreht, 

und die Stäbe sind durch Balken gleicher Breite ersetzt; bei beiden können 

statt der relativen auch die absoluten Häufigkeiten abgetragen werden: 

Abbildung 3 

Eine häufig anzutreffende Anwendung des Balkendiagramms ist die sogenannte 

Alterspyramide. Diese stellt den geschlechtsspezifischen Altersaufbau der 

Bevölkerung eines Landes zu einem bestimmten Zeitpunkt graphisch dar. Auf 

der horizontalen Achse sind die Häufigkeiten abgetragen, auf der vertikalen die 

Alterklassen. Die Balken für Männer und Frauen werden dann nach links bzw. 

rechts abgetragen. 

In der Bevölkerungsstatistik und Demographie unterscheidet man folgende 

Umrißformen: 

• wachsende Bevölkerung: pyramidenförmiger Umriß, 

• stationäre Bevölkerung: glockenförmiger Umriß, 

• schrumpfende Bevölkerung: spindel- oder urnenförmiger Umriß. 

Sehr interessant ist die Betrachtung von Alterspyramiden zu verschiedenen Zeitpunkten:


Abbildung 4 

Die Veränderungen über die Zeit im Bevölkerungsaufbau sind sehr schön zu 

erkennen und lassen sich gut interpretieren: 

• Von 1910 bis 1925 sind die Gefallenen des Ersten Weltkrieges (Delle bei den 

Männern) sowie die Geburtenausfälle aufgrund des Krieges (kürzere Balken 

bei Männern und Frauen.) als deutliche Veränderung sichtbar. 

• 1939 sind nun zusätzliche Geburtenausfälle aufgrund der Weltwirtschaftskrise 

in der Pyramide zu sehen (Schwarzer Freitag: 1929). 

• Diese Eigenarten kann man in den folgenden Pyramiden weiter beobachten 

bzw. werden durch weitere Besonderheiten ergänzt.


• Im Jahr 1980 hat Deutschland eine spindelförmige Form, die Bevölkerung 

geht also zurück. Dieses spezielle Aussehen weist allerdings starke, historisch 

bedingte Unregelmäßigkeiten auf. 

Die stetige Häufigkeitstabelle In der nächsten Graphik sind einige Stabdiagramme 

dargestellt, die sich aus Befragung von Studierenden ergeben haben. Bei 

der Betrachtung wird man feststellen, daß die Aussagekraft der Stabdiagramme 

nachläßt. Woran liegt das? 


0.0 0.02 0.04 0.06 0.08 0.10 0.12 

Groesse 

159 166 173 180 187 194 201 


0.0 0.05 0.10 0.15 0.20 0.25 0.30 

Abbildung 5 

Mathenoten 

1.0 2.0 3.0 4.0 5.0 6.0 

Diese Stabdiagramme sind noch einigermaßen gut zu interpretieren, obwohl 

man beim Merkmal Größe durchaus der Meinung sein könnte, daß diese Darstellung 

unübersichtlich ist — es sind einfach zu viele Striche eingezeichnet. Mit dem 

Stabdiagramm zu den Mathenoten kann man auch nicht ganz zufrieden sein. Die 

Zwischennoten stören den Gesamteindruck. 

Spätestens bei den Stabdiagrammen auf der nächsten Seite muß man sagen, 

daß diese die Eigenarten der Datensätze nicht gut wiedergeben bzw. keine gute 

Übersicht liefern.



0.0 0.02 0.04 0.06 0.08 0.10 0.12 

Anzahl Buecher 

0 328 800 1500 3000 


0.0 0.02 0.04 0.06 0.08 0.10 

Abbildung 6 

Anzahl CDs 

0 50 120 200 280 450 

Für das Merkmal Anzahl Bücher ist im folgenden eine verkürzte diskrete Häufigkeitstabelle 

angegeben. An ihr läßt sich gut identifizieren, warum die diskrete 

Betrachtungsweise hier nicht angebracht ist: Es gibt zu viele Merkmalsausprägungen, 

die sehr geringe Besetzungszahlen (Häufigkeiten) aufweisen: 

x.i 0 2 5 6 10 12 15 20 21 25 30 40 45 50 60 63 70 75 80 100 120 

n.i 11 1 2 1 5 1 2 16 1 5 19 10 1 25 8 1 4 1 8 24 5 

---------------------------------------------------------------------x.i 

130 150 152 180 200 220 250 300 328 350 400 500 600 800 1500 3000 

n.i 1 7 1 2 11 1 1 8 1 1 4 2 1 1 1 1 

Hier sollte man besser zur stetigen Sichtweise übergehen. Zu beachten ist 

allerdings, daß bei der stetigen Sichtweise der Bezug zu den Daten etwas verloren 

geht. Das Phänomen Prominente Zahlen wird unkenntlich: 

Beim Stabdiagramm zum Datensatz Größe ist sehr schön zu erkennen, was 

prominente Zahlen wohl sein könnten. Der längste Stab ist an der Stelle 180cm. 

Das ist kein Zufall. Viele Leute wissen nicht genau, wie groß sie sind oder auch 

wieviel sie wiegen. Die Werte 180 bzw. 75 kommen einem oft als erstes in den 

Sinn — bei einem entsprechenden Stabdiagramm zu Gewichtsdaten wird man eine 

Häufung bei der Beobachtung 75 feststellen können. Bei Abschätzungen stellen 

sich oft prominente Zahlen ein. 

Bei einer stetigen (kontinuierlichen) Betrachtungsweise werden die Merkmalsausprägungen 

in Klassen unterteilt. Es wird dann gezählt, wie viele Beobach-


tungen in die entsprechende Klasse fallen. Die klassierte Häufigkeitstabelle 

verwendet folgende Notation: 

i der Index zählt die verschiedenen Klassen durch 

X steht für das Merkmal 

UGi Untergrenze der i-ten Klasse. Es gilt: UGi < UGi+1 

OGi Obergrenze der i-ten Klasse. Es gilt: OGi < OGi+1 

ni absolute Häufigkeit in der i-ten Klasse — Wie viele Beobachtungen 

fallen in die i-te Klasse? 

hi relative Häufigkeit in der i-ten Klasse — Wieviel Prozent der Beobachtungen 

liegen in der i-ten Klasse? 

∆xi Klassenbreite der i-ten Klasse: ∆xi = OGi − UGi 

Fi kumulierte relative Häufigkeit (empirische Verteilungsfunktion) 

Einige Symbole und Platzhalter sind schon aus der diskreten Betrachtungsweise 

bekannt, so daß die Beschreibung an dieser Stelle etwas sparsamer ausfallen 

kann. Die klassierte Häufigkeitstabelle hat dann den folgenden formalen Aufbau: 

i UGi < X ≤ OGi ni hi ∆xi Fi 

1 UG1 < X ≤ OG1 n1 h1 ∆x1 F1 = h1 

2 UG2 < X ≤ OG2 n2 h2 ∆x2 F2 = h1 + h2 

3 UG3 < X ≤ OG3 n3 h3 ∆x3 F3 = h1 + h2 + h3 

. 

. 

k UGk < X ≤ OGk nk hk ∆xk Fk = 1 

. 

. 

Zum besseren Verständnis seinen wieder einige Zusammenhänge aufgezeigt, 

die sich aus der Häufigkeitstabelle ergeben: 

k Anzahl der verschiedenen Klassen. 

k i=1 ni = n Die Summe aller Einzelhäufigkeiten ergibt die Gesamthäufigkeit. 

k i=1 hi = 1 Wenn man alle Beobachtungen berücksichtigt, erhält man 

100%. 

. 

.


Für das Beispiel Alter 6 kann z.B. die folgende stetige (gerundete) Häufigkeitstabelle 

generiert werden: 

> haeufigkeit.stetig(alter,anzahl.klassen=6) in:5 

--------------------------i 

ug.i og.i n.i h.i F.i 

--------------------------- 

1 18 20 121 0.457 0.457 

2 20 22 86 0.325 0.781 

3 22 24 42 0.158 0.940 

4 24 26 7 0.026 0.966 

5 26 28 7 0.026 0.992 

6 28 30 2 0.008 1.000 

--------------------------- 

Als Klassenbreite (für alle Klassen) wurde zwei Jahre gewählt. Für drei Jahre 

ergibt sich: 

out:5 

> haeufigkeit.stetig(alter,anzahl.klassen=4) in:6 

--------------------------i 

ug.i og.i n.i h.i F.i 

--------------------------- 

1 18 21 179 0.675 0.675 

2 21 24 70 0.264 0.940 

3 24 27 12 0.045 0.985 

4 27 30 4 0.015 1.000 

--------------------------- 

Wie groß geeignete Klassen sind, kommt auf den Datensatz an. Es existieren 

gewisse Proportionalitäsregeln, die in statistischen Softwarepaketen implementiert 

sind. Zum Beispiel wird die Klassenzahl oft als proportional zum Logarithmus 

zur Basis 2 des Stichprobenumfangs bestimmt. Ein solches Vorgehen 

erlaubt einer Statistiksoftware, automatisiert Vorschläge für die Klassierung zu 

generieren. Letztlich muß man aber selber entscheiden, welche Klassengrenzen 

man wählt. Was würde sich übrigens bei einer Klassenbreite von einem Jahr ergeben? 

In einer stetigen Häufigkeitstabelle gilt: Die Untergrenze gehört nicht zur Klasse 

dazu. Durch dieses Vorgehen wird der Stetigkeit der Daten Rechnung getragen. 

Wenn also eine Beobachtung zufällig den Wert einer Untergrenze annimmt, dann 

wird sie einer Klasse tiefer zugeordnet. Somit ist eine Eindeutigkeit in bezug auf 

die Zuordnung der Daten garantiert. 

6 Vgl. Seite 4f für die diskrete Behandlung. 

out:6


Bei der praktischen Anwendung kann es passieren, wie im Beispiel mit den 

Altersdaten, daß die Daten diskreter Natur sind. Aus ästhetischen Gründen, damit 

die Klassen eine gewisse Gleichmäßigkeit aufweisen, wird die Klassenbildung 

so gehandhabt, daß (nur) für die erste Klasse gilt: Die Untergrenze gehört zum 

Datensatz dazu. 

Sind alle Klassen gleichgroß, spricht man von äquidistanten Klassen. Das 

muß nicht so sein. Am Ende dieses Abschnittes wird dies illustriert. 

Das Histogramm Auch bei der klassierten Darstellung möchte man auf graphische 

Hilfsmittel zurückgreifen können. Das stetige Pendant zum Stabdiagramm 

ist das Histogramm: 7 

Definition: Histogramm 

Das Histogramm ist die graphische Darstellung der klassierten Häufigkeitstabelle. 

• Äquidistante Klassen: 

Über jeder Klasse wird ein Rechteck (=Flächenstreifen) abgetragen, dessen 

Höhe der relativen Häufigkeit in der Klasse entspricht. 

• Nicht-äquidistante Klassen: 

Wenn nicht alle Klassen die gleiche Breite haben, dann kann man nicht 

einfach die relative Häufigkeit nach oben abtragen. Dies würde zu einer 

verzerrten Darstellung führen. Über jeder Klasse wird ein Rechteck 

(=Flächenstreifen) mit folgender Höhe abgetragen — es wird für jede 

Klasse die sogenannte Häufigkeitsdichte fi berechnet: 

fi = hi 

∆xi 

= relative Häufigkeit 

Klassenbreite 

Im äquidistanten Fall kann natürlich ebenfalls die Häufigkeitsdichte fi abgetragen 

werden. Das ändert nichts am grundsätzlichen Aussehen des Histogramms, 

da jede relative Häufigkeit durch dieselbe Zahl geteilt wird. Auf diese Weise entspricht 

die Größe der Fläche jedes Rechtecks gerade der relativen Häufigkeit in 

der Klasse (= Prinzip der Flächenproportionalität). 

So wird eine sehr breite Klasse, in der genau so viele Beobachtungen liegen 

wie in einer sehr schmalen Klasse, entsprechend ein Rechteck mit geringer Höhe 

bekommen, dagegen die sehr schmale Klasse ein hohes Rechteck. Somit ist auch 

die Bezeichnung Häufigkeitsdichte gut zu interpretieren. 

7 In manchen Lehrbüchern wird die Häufigkeitsdichte mit ˆ fi (sprich: ” f dach“) bezeichnet. 

Der Grund dafür liegt in der Abgrenzung der Datenwelt zur Modellwelt. Die Berechnung der 

Häufigkeitsdichte ist nämlich als Schätzer der Modelldichte zu interpretieren.


Zurück zum Beispiel. Für das Merkmal Alter kann das folgende Histogramm 

dargestellt werden: 

> histogramm(alter) in:7 

0 20 40 60 80 100 120 

Histogramm von Alter 

18 20 22 24 26 28 30 

Abbildung 7 

Dieses Histogramm ist eine gute Darstellung der Daten. Auf einen Blick kann 

man die Struktur erkennen. Die Dominanz der ersten Klasse wird deutlich betont. 

Das Abfallen nach rechts charakterisiert diesen Datensatz, er ist schief. 

Definition: Modus/ Modalwert (stetig) 

Die Klassenmitte der am häufigsten besetzten Klasse in einem klassierten Datensatz 

wird als Modus bezeichnet. Im Histogramm ist dies der Mittelpunkt 

der Klasse, über der der größte Flächenstreifen abgetragen ist. 

Im Beispiel beträgt der Modus 19 Jahre. Der diskrete Modus zu diesem Datensatz 

ist 20 Jahre. 8 Der stetige Modus ist etwas kleiner. 

Satz 1: Die Histogrammfläche beträgt 1. 

8 Vgl. Seite 10. 

out:7


Beweis von Satz 1: Der Beweis ist eine direkte Konsequenz aus dem Prinzip 

der Flächenproportionalität: 

Histogrammfläche = Summe der Flächenstreifen 

= 

= 

= 

= 

= 

k 

Höhei × Breitei 

i=1 

k 

fi · ∆xi 

i=1 

k hi 

· ∆xi 

∆xi 

i=1 

k 

i=1 

k 

i=1 

hi 

= 1/n · 

= 1 

Im folgenden soll der Einfluß der Klassenwahl auf das Aussehen und die Aussagekraft 

des Histogramms aufgezeigt werden. Dazu wird noch einmal der Datensatz 

Anzahl Bücher aus der Studentenbefragung herangezogen: manchmal ist 

weniger mehr, scheint eine Quintessenz zu sein. Sukzessive sind zunächst die 

größte sowie die zwei größten Beobachtungen weggelassen worden. Die Grenzen 

sind offensichtlich schlecht gewählt. Die beiden unteren Histogramme zeigen alle 

Beobachtungen kleiner 400 bzw. kleiner 300. Sind die Grenzen hierfür passend? 

ni 

n 

k 

i=1 

ni 

△


0 50 100 150 

0 20 40 60 80 

Anzahl ohne Max 

0 500 1000 1500 

Anzahl < 400 

0 100 200 300 

0 10 20 30 

Abbildung 8 

0 20 40 60 80 120 Anzahl ohne 2 groessten 

0 200 400 600 800 

Anzahl < 300 

0 50 150 250 

Die (verkürzte) Häufigkeitstabelle für Anzahl Bücher weniger 400 ergibt sich 

als: 

-------------ug.i 

og.i n.i 

-------------- 

-50 0 11 

0 50 89 

50 100 46 

100 150 13 

150 200 14 

200 250 2 

250 300 8 

300 350 2 

-------------- 

Man beachte in diesem Beispiel die Problematik in bezug auf die erste Untergrenze. 

Offensichtlich haben seltsamerweise 11 Studierende angegeben, sie hätten 

gar keine Bücher. Dieser Datensatz hat aber nun deutlich stetige Züge — viele 

Merkmalsausprägungen und geringe Besetzungszahlen —, so daß ein verzerrter


Eindruck entstünde, wenn die Null als Untergrenze dazugehören würde. Hier hat 

die Software den Vorschlag gemacht, die Klassen symmetrisch um Null zu beginnen 

— 50 Einheiten nach links, 50 Einheiten nach rechts. Daß negative Zahlen 

natürlich keinen Sinn machen bei Zählprozessen, kann die Software nicht wissen. 

Anhand des Datensatzes Gewicht, der auf der Seite 15 bereits kurz dargestellt 

wurde, soll der Einfluß der Klassenwahl demonstriert werden. In den folgenden 

Graphiken sind jeweils äquidistante Klassen verwandt worden. Überlegen Sie, was 

sich über eine optimale Anzahl von Klassen aussagen läßt? 

n.i 

n.i 

n.i 

0 50 100 150 

0 20 40 60 80 100 

0 10 20 30 

Histogramm von Gewicht 

0 50 100 150 200 


40 60 80 100 120 


60 80 100 120 

n.i 

n.i 

n.i 

0 50 100 150 

0 10 20 30 40 50 

0 5 10 15 20 

Abbildung 9 


0 50 100 150 


40 60 80 100 120 


60 80 100 120 

Bei den folgenden Graphiken, wieder mit dem Merkmal Gewicht erzeugt, kann 

man sehr schön erkennen, inwiefern das bloße Abtragen von relativen Häufigkeiten 

bei nicht-äquidistanten Klassen zu wenig hilfreichen Darstellungen führt. Die 

beiden Graphiken haben jeweils dieselbe Klasseneinteilung. Links ist die absolute 

Häufigkeit abgetragen, rechts die Häufigkeitsdichte:


0 20 40 60 80 Falsches Histogramm von Gewicht 

40 60 80 100 120 

0.0 0.005 0.010 0.015 0.020 0.025 0.030 

Abbildung 10 


40 60 80 100 120 

Der Unterschied ist sehr deutlich. In der linken Graphik dominiert die letzte 

Klasse das Histogramm. Der Balken ist sehr breit und sehr hoch. Diese Darstellung 

ist aber irreführend. In der rechten Graphik konnten durch Abtragen der 

Häufigkeitsdichte die wahren Verhältnisse zum Ausdruck gebracht werden. 

Durch die Umsetzung der Häufigkeitsdichte (=relative Häufigkeit geteilt durch 

die Klassenbreite) wird berücksichtigt, auf wieviel Raum in bezug auf die Skala 

sich wie viele Beobachtungen verteilen.

Rückblick 

Kapitel 

1.2.1 


Die Häufigkeitsanalyse hat sich als hilfreich erwiesen, Datenmaterial zu 

verdichten und damit übersichtlicher darzustellen. 

Im Rahmen der diskreten Häufigkeitsanalyse wurden das Konzept 

Häufigkeitstabelle sowie deren graphische Repräsentationen Stabdiagramm, 

Tortendiagramm, Balkendiagramm und mit dem Modus (diskret) eine erste 

Maßzahl vorgestellt. Das spezielle Balkendiagramm Alterspyramide schloß 

die Betrachtung ab. 

Im Rahmen der stetigen Häufigkeitsanalyse wurde das Konzept der 

klassierten Häufigkeitstabelle eingeführt. Die graphische Darstellung ist das 

Histogramm. Der Modus (stetig) wurde definiert. 

In der praktischen Anwendung sind die Übergänge von diskreter zu stetiger 

Betrachtung teilweise fließend und können nicht kategorisch festgelegt 

werden. 

Abschließend bleibt festzuhalten, daß man mit der bloßen Häufigkeitsanalyse 

Informationen verschenkt, da eben nur Häufigkeiten betrachtet werden und 

nicht die ursprünglichen Beobachtungen. Das ist vor allem bei Daten mit 

metrischem Meßniveau ungeschickt. Also zurück zu den Daten! Dieser Weg 

soll im Anschluß an das Beispiel aus der Kryptologie begangen werden. 

Ein Beispiel: Kryptographie 

Im diesem Abschnitt wird mit Hilfe der Häufigkeitsanalyse die Analyse eines 

Kryptogramms (=ein verschlüsselter Klartext) vorgeführt. 9 Die Häufigkeitsanalyse 

ist ein sehr wichtiges Instrument, um monoalphabetisch und symmetrisch 

verschlüsselte Texte zu entschlüsseln. 

Monoalphabetisch heißt, daß jeder Buchstabe des Klartextalphabetes (ABC- 

DE. . . XYZ) durch genau einen anderen ersetzt wird, z.B. (DFGV. . . UJA). Das 

heißt, aus einem A wird im Beispiel ein D usw. Dieses Geheimtextalphabet ist 

der sogenannte Schlüssel. Sender und Empfänger benutzen denselben Schlüssel; 

bei solchen Verschlüsselungsverfahren spricht man von symmetrischen Verschlüsselungsverfahren. 

Auf die gerade vorgestellt Weise können 26! ≈ 4 · 10 26 verschiedene Schlüssel 

erzeugt werden. Diese Zahl ist so gigantisch, daß man die Schlüssel nicht systematisch 

ausprobieren kann, was natürlich zur Entschlüsselung führen würde. Wenn 

ein Computer pro Sekunde 1 Milliarde Schlüssel durchprobieren könnte, dann 

würde es etwa 4 · 10 17 Sekunden, also 4 · 10 17 /(60 · 60 · 24 · 365) = 1.3 · 10 10 Jahre 

dauern, um alle Schlüssel durchzuprobieren. Das Alter des Universums beträgt 

so etwa 10 10 Jahre. Heißt das, daß die Verschlüsselung sicher ist? 

9 Für weitergehende Informationen vgl.: 

http://www.wiwi.uni-bielefeld.de/StatCompSci/tiemann/tiemann.html 

dort caesar.html und rsa.html.


Exkurs: Caesar-Verschlüsselung 

Eine einfachere Variante der monoalphabetischen Verschlüsselung ist die 

sogenannte Caesar-Verschlüsselung. 

Hierbei wird nicht eine beliebige Reihenfolge des Alphabets gewählt, sondern 

lediglich ein anderer Startpunkt. Der Buchstabe, mit dem das A verschlüsselt 

wird, ist dann die Schlüsselinformation, hier also das D: 

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 

D E F G H I J K L M N O P Q R S T U V W X Y Z A B C 

Ein Caesar-verschlüsselter Text kann genauso geknackt werden, wie ein 

allgemein monoalphabetisch verschlüsselter, es geht sogar etwas einfacher. 

Oder man probiert alle Schlüssel durch, es gibt ja nur 25. ⋆ 

Der folgende Text ist auf die vorgestellte monoalphabetische Art und Weise 

verschlüsselt worden: 

"tnsftiivtdwpknpdbycnycievvnteisfwwtiptbrdiptnrdtbjtbjtctiteiteinvdoejtngtbok 

cbtiretvtvneycieycvkirahtnhktbtieycvzbksveskrtlnvkvvptnntiskiiwkitooeaetivtbg 

fbjtctipetjbdipjtnkwvctevhebpeipetnfjtikiivtisldwztidivtbvtelvpetntateycitine 

ycpkpdbyckdnpknnneteineycntcbctvtbfjtineipteitcfcteivtbitgkbekiakdohtentixtpt 

bsldwztinfllteislteitnkrrelpptbjbdipjtnkwvctevnteinfwevenvkdycpethkclptnrtjbe 

ootnsldwztiadgtbnvtctitbenvbkdcdipklnfctvtbfjtidipieycvjlkvvdiptrtixtctvtbfjt 

itbpetsldwztieineycneipptnvfrtnntbgfipetntisldwztihtbptiiditeiejtadoktllejkdn 

jthktclvpettbnvtnvdotenvklnfteitvtelnveyczbfrtpetahtevtnvdotenvteitgflltbctrd 

ijklltteictevtieiptisldwztijtlkijtieipettipjdtlvejtnveyczbfrtpetofljtiptjbkzc 

esnvtllvpetntngfbjtctipkbhktcbtipteisldwztieineycxthtelnctvtbfjtienvneippetgt 

bnycetptitisldwztiadteikiptbcfwfjtiklltneipnycletnnleycteikrrelpptbjbdipjtnkw 

vctevptbnfjtikiivtsldwztitootsvrtnycbtervptijbftnntbtikdnhkclotcltbptiwkiewgt 

bjlteycadbteinvdoejtinveyczbfrtwkycvhtiipetsldwztinycltycvjthktclvneipklnfpet 

jtbkptrtnycbetrtititejtinyckovtiieycvkdnbteyctipkdohtentivmzenyctsldwztirelpd 

ijtineiptnpkbokrtbietpkneivtbtnnetbtiptwtbswklkdnntbkycvjtlknntihtbptirtvbetr 

tokweletivkjtnotbvejdijtihfyctidwnktvatnycdlslknnti" 

Sieht schwierig aus? Nun, ein nicht knackbarer Code würde genauso aussehen. 

Dieser hier ist nicht schwer zu attackieren: Als erstes wollen wir uns die 

Häufigkeitsverteilung der Buchstaben anschauen: 

a b c d e f g h i j k l m 

0.008 0.052 0.048 0.039 0.088 0.022 0.007 0.013 0.104 0.034 0.049 0.043 0.001 

n o p q r s t u v w x y z 

0.076 0.017 0.050 0.000 0.020 0.017 0.188 0.000 0.056 0.022 0.002 0.027 0.014


. . . und nun der Häufigkeit nach geordnet: 

t i e n v b p k c l d j y 

0.188 0.104 0.088 0.076 0.056 0.052 0.050 0.049 0.048 0.043 0.039 0.034 0.027 

w f r s o z h a g x m u q 

0.022 0.022 0.020 0.017 0.017 0.014 0.013 0.008 0.007 0.002 0.001 0.000 0.000 

Hier sind deutliche Unterschiede zu erkennen, was die Häufigkeiten angeht. 

Die beiden Häufigkeitstabellen sollen im Stabdiagramm dargestellt werden: 

rel.Haeufigkeit 


0.0 0.05 0.10 0.15 

0.0 0.05 0.10 0.15 

Haeufigkeiten der Buchstaben 

im Geheimtext 

a b c d e f g h i j k l m n o p q r s t u v w x y z 

Buchstaben 


im Geheimtext (sortiert) 

t i e n v b p k c l d j y w f r s o z h a g x m u q 

Buchstaben 

Abbildung 11 

Die deutsche Sprache hat die Eigenschaft, daß die Häufigkeiten der einzelnen 

Buchstaben sehr unterschiedlich sind. Der mit Abstand häufigste Buchstabe ist 

das e, der seltenste Buchstabe ist das q. In der folgenden Tabelle sind die relativen 

Häufigkeiten der einzelnen Buchstaben dargestellt, in der anschließenden Graphik 

sind diese im Stabdiagramm abgetragen:


a b c d e f g h i j k 

0.0651 0.0189 0.0306 0.0508 0.174 0.0166 0.0301 0.0476 0.0755 0.0027 0.0121 

l m n o p q r s t u v 

0.0344 0.0253 0.0978 0.0251 0.0079 0.0002 0.070 0.0727 0.0615 0.0435 0.0067 

w x y z 

0.0189 0.0003 0.0004 0.0113 

. . . und geordnet: 

e n i s r a t d h u l 

0.1740 0.0978 0.0755 0.0727 0.0700 0.0651 0.0615 0.0508 0.0476 0.0435 0.0344 

c g m o w b f k z p 

0.0306 0.0301 0.0253 0.0251 0.0189 0.0189 0.0166 0.0121 0.0113 0.0079 

v j y x q 

0.0067 0.0027 0.0004 0.0003 0.0002 



0.0 0.05 0.10 0.15 

0.0 0.05 0.10 0.15 


in der deutschen Sprache 


Buchstaben 


in der deutschen Sprache (sortiert) 

e n i s r a t d h u l c g m o w b f k z p v j y x q 

Buchstaben 

Abbildung 12 

Vergleicht man die beiden Stabdiagramme der sortierten Häufigkeiten (Geheimtext 

und deutsche Sprache), dann stellt man fest, daß die Darstellungen sehr


große Ähnlichkeiten aufweisen, bis auf die Beschriftung der einzelnen Stäbe mit 

Buchstaben. Das ist gerade der Ansatzpunkt. 

Im Geheimtext ist das t am häufigsten, in der deutschen Sprache ist es das e. 

Die beiden relativen Häufigkeiten sind sich sowohl absolut betrachtet sehr ähnlich 

als auch im Vergleich zu den jeweils nächst häufigen. Es erscheint aussichtsreich, 

im Geheimtext die Buchstaben gemäß ihrer Häufigkeiten zu ersetzen. 

Zusätzlich zu den Häufigkeiten der einzelnen Buchstaben sind auch die von 

Paaren aufeinanderfolgenden Buchstaben (Bigramme) bekannt. Die 10 häufigsten 

Bigramme sind: 

In der deutschen Sprache: 

Paar rel.H. 

-----------en 

0.0388 

er 0.0375 

ch 0.0275 

te 0.0226 

de 0.0200 

nd 0.0199 

ei 0.0188 

ie 0.0179 

in 0.0167 

es 0.0152 

------------ 

. . . und im Geheimtext: 

Paar abs.H rel.H 

------------------ti 

61 0.051 

tb 36 0.030 

te 34 0.028 

yc 32 0.027 

tn 30 0.025 

jt 29 0.024 

ei 29 0.024 

ip 27 0.022 

et 24 0.020 

pt 23 0.019 

------------------- 

Aus diesen Informationen lassen sich nun bereits die folgenden Ersetzungen 

identifizieren: 

Geheimtext wird zu 

t e 

i n 

e i 

n s 

b r 

y c 

c h 

Für die letzten vier Ersetzungen war die Bigrammanalyse von großer Bedeutung. 

Diese sieben Ersetzungen sollen vorgenommen werden. Hier ist das Ergebnis 

der Substitutionen; direkt danach ist wieder der Geheimtext abgedruckt:


es--enn-e----s--rchschni--sein----en-er--n-es--er-er-eheneineins---i-es-er--hren-ie 

-e-sichnich--n---es--erenich--r---i---e-s-----essen--nn--ne--i-ien-er--r-ehen-ie-rn--es---hei--ir-in-ies--en-nn-en-----en-n-er-ei---iese-eichnensich----rch--s--sssieinsichsehrhe-er--ensin-eineh-hein-erne--ri-n-----eisen-e-er-----ens---ein--eines--i---er-r-n--es---hei-seins--i-is---ch-ie--h--es-e-ri--es-----en---ers-eheneris-r--h 

-n---s-he-er--en-n-nich-------n-e-en-ehe-er--ener-ie-----eninsichsin--es---esser--n 

-iesen-----en-er-enn-neini-e----e--i---s-e--eh---ieers-es---eis---s-eine-ei-s-ich-r 

--e-ie--ei-es---eis-eine----erhe--n----eeinhei-enin-en-----en-e--n-enin-ieen---e--i 

-es-ich-r--e-ie----en-e-r--hi-s-e----ieses--r-ehen--r--ehren-ein-----eninsich-e-eishe-er--enis-sin--ie-erschie-enen-----en--ein-n-erh----en---esin-sch-iess-ichein--i---er-r-n--es---hei--ers--en-nn-e-----ene--e---eschrei---en-r-esseren--s--h--eh-er 

-en--ni--er--eich--reins---i-ens-ich-r--e--ch--enn-ie-----ensch-ech--e--eh--sin---s 

--ie-er--e-eschrie-enenei-ensch---ennich---sreichen-----eisen---ische-----en-i---nensin-es--r---ernie--sin-eressieren-e-er------sser-ch--e--ssen-er-en-e-rie-e---i-ie 

n---es-er-i--n-en--chen--s-e--esch-----ssen 

tnsftiivtdwpknpdbycnycievvnteisfwwtiptbrdiptnrdtbjtbjtctiteiteinvdoejtngtbokcbtiret 

vtvneycieycvkirahtnhktbtieycvzbksveskrtlnvkvvptnntiskiiwkitooeaetivtbgfbjtctipetjbd 

ipjtnkwvctevhebpeipetnfjtikiivtisldwztidivtbvtelvpetntateycitineycpkpdbyckdnpknnnet 

eineycntcbctvtbfjtineipteitcfcteivtbitgkbekiakdohtentixtptbsldwztinfllteislteitnkrr 

elpptbjbdipjtnkwvctevnteinfwevenvkdycpethkclptnrtjbeootnsldwztiadgtbnvtctitbenvbkdc 

dipklnfctvtbfjtidipieycvjlkvvdiptrtixtctvtbfjtitbpetsldwztieineycneipptnvfrtnntbgfi 

petntisldwztihtbptiiditeiejtadoktllejkdnjthktclvpettbnvtnvdotenvklnfteitvtelnveyczb 

frtpetahtevtnvdotenvteitgflltbctrdijklltteictevtieiptisldwztijtlkijtieipettipjdtlve 

jtnveyczbfrtpetofljtiptjbkzcesnvtllvpetntngfbjtctipkbhktcbtipteisldwztieineycxthtel 

nctvtbfjtienvneippetgtbnycetptitisldwztiadteikiptbcfwfjtiklltneipnycletnnleycteikrr 

elpptbjbdipjtnkwvctevptbnfjtikiivtsldwztitootsvrtnycbtervptijbftnntbtikdnhkclotcltb 

ptiwkiewgtbjlteycadbteinvdoejtinveyczbfrtwkycvhtiipetsldwztinycltycvjthktclvneipkln 

fpetjtbkptrtnycbetrtititejtinyckovtiieycvkdnbteyctipkdohtentivmzenyctsldwztirelpdij 

tineiptnpkbokrtbietpkneivtbtnnetbtiptwtbswklkdnntbkycvjtlknntihtbptirtvbetrtokwelet 

ivkjtnotbvejdijtihfyctidwnktvatnycdlslknnti 

Nun sind genaues Hingucken und detektivisches Aufspüren gefragt. Wenn man 

also mal in die erste Zeile des Geheimtextes schaut, dann fällt folgende Passage 

auf: 

--rchschni--sein----en 

Das könnte durchschnittseinkommen geheißen haben. Jetzt müssen im Geheimtext 

die entsprechenden Buchstaben gesucht werden. Das geht recht einfach, 

da die Texte genau übereinander stehen: pdbycnycievvnteisfwwti. 

Davon sind bereits viele Buchstaben identifiziert. Das doppelte v sowie das 

doppelte w sind eine starke Bestätigung für die Vermutung. Diese Ersetzungen 

können also vorgenommen werden: 

--rchschni--sein----en 

pdbycnycievvnteisfwwti

Rückblick 

Kapitel 

1.2.1 


Geheimtext wird zu 

p d 

d u 

v t 

s k 

f o 

w m 

Diese Ersetzungen führen dann zu: 

eskoennteumd-sdurchschnittseinkommender-undes-uer-er-eheneineinstu-i-es-er--hren-ie 

tetsichnicht-n---es--erenicht-r-ktik--e-st-ttdessenk-nnm-ne--i-ienter-or-ehendie-ru 

nd-es-mtheit-irdindieso-en-nntenk-um-enuntertei-tdiese-eichnensichd-durch-usd-sssie 

insichsehrhetero-ensindeinehoheinterne--ri-n--u--eisen-ederk-um-enso--eink-eines--i-dder-rund-es-mtheitseinsomitist-uchdie--h-des-e-ri--esk-um-en-u-ersteheneristr-uh 

und--sohetero-enundnicht---ttunde-en-ehetero-enerdiek-um-eninsichsinddesto-esser-on 

diesenk-um-en-erdennuneini-e-u--e--i--us-e--eh-tdieerstestu-eist--soeinetei-stich-r 

o-edie--eitestu-eisteine-o--erhe-un----eeinheitenindenk-um-en-e--n-enindieend-ue-ti 

-estich-ro-edie-o--ende-r--hikste--tdieses-or-ehend-r--ehrendeink-um-eninsich-e-eishetero-enistsinddie-erschiedenenk-um-en-uein-nderhomo-en---esindsch-iess-ichein--i-dder-rund-es-mtheitderso-en-nntek-um-ene--ekt-eschrei-tden-roesseren-us--h--eh-er 

denm-nim-er--eich-ureinstu-i-enstich-ro-em-cht-enndiek-um-ensch-echt-e--eh-tsind--s 

odie-er-de-eschrie-enenei-ensch--tennicht-usreichend-u--eisent--ischek-um-en-i-dunensindesd-r---ernied-sinteressierendemerkm---usser-cht-e--ssen-erden-etrie-e--mi-ie 

nt--es-erti-un-en-ochenums-et-eschu-k--ssen 

Im Prinzip ist der Text damit entschlüsselt. Würde man mit der Analyse 

fortfahren, dann ergäbe sich der folgende Schlüssel, das folgende Geheimtextalphabet: 

k r y p t o j c e x s l w i f z q b n v d g h u m a 


Um die Verschlüsselung nachhaltig zu verbessern, muß versucht werden, die 

Häufigkeiten der Buchstaben zu verschleiern, so daß idealerweise alle Geheimtextbuchstaben 

gleichhäufig sind. 

Hier bieten sich sogenannte polyalphabetische Verschlüsselungsverfahren 

an. Bei diesen wechselt das Geheimtextalphabet ständig. Wir wollen hierauf 

nicht weiter eingehen, Neugierige können unter der zu Beginn des Beispiels angegebenen 

Internetadresse weiterlesen. 

Das Beispiel diente dazu, eine bedeutsame und interessante Anwendung der 

Häufigkeitsanalyse vorzustellen. Im übrigen ist die Häufigkeitsanalyse ebenso 

brauchbar beim Analysieren polyalphabetisch verschlüsselter Texte. Es muß 

lediglich etwas mehr Vorarbeit geleistet werden.


Exkurs: Summenzeichen 

Der große griechische Buchstabe Σ (lies: Sigma) dient dazu, die mathematische 

Schreibweise zu vereinfachen. Der Umgang und die Interpretation sind 

folgendermaßen zu verstehen: 

10 

i=1 

i = 1 + 2 + . . . + 10 (lies: ” Summe i gleich 1 bis 10 von i.“) 

Die ersten zehn natürlichen Zahlen werden aufaddiert. Der Index i (i kann 

auch j oder sonstwie heißen) durchläuft nacheinander die Werte 1 bis 10. 

Es wird jedesmal dazuaddiert, was rechts vom Summenzeichen steht: 

10 

i=1 

1 = 

 

1 + 1 + 

 

. . . + 1 

 

= 10 

10−mal 

Das funktioniert natürlich auch mit Platzhaltern (Variablen). . . 

k 

ni = n1 + n2 + . . . + nk = n 

i=1 

. . . oder mit solchen Ausdrücken: 

10 

i=1 

i 2 = 1 2 + 2 2 + . . . + 10 2 = 385 

Im zarten Kindesalter hat Carl Friedrich Gauß (1777-1855) übrigens 

einen Zusammenhang zur Berechnung der Summe der ersten n natürlichen 

Zahlen entdeckt: 

n 

n · (n + 1) 

i = 1 + 2 + 3 + . . . + n = 

2 

i=1 

Er hat (wahrscheinlich) die Zahlen folgendermaßen hingeschrieben: 

1 + 2 + . . . + n−1 + n → i = ? 

n + n − 1 + . . . + 2 + 1 → i = ? 

n+1 + n + 1 + . . . + n+1 + n+1 → 2 · i = n · (n + 1) 

Das Fragezeichen symbolisiert die gesuchte Summe. 

Anhand dieser Tabelle wird klar, daß n · (n + 1) gerade doppelt so groß ist 

wie die unbekannte gesuchte Summe — man kann ja horizontal wie auch 

vertikal summieren. ⋆

in:8 


1.2.2 Zurück zur Urliste 

Man hat das Gefühl, daß bei der bloßen Häufigkeitsbetrachtung Informationen 

verschenkt werden. Es werden schließlich nicht die tatsächlich beobachteten Daten 

bei der Analyse berücksichtigt. Diese sind zunächst transformiert worden, so daß 

lediglich Merkmalsausprägungen und deren Häufigkeiten dem Beschreiben der 

Daten zugrunde lagen. 

Bei nominalskalierten Daten ist dieses Vorgehen zur Erkenntnisgewinnung im 

Prinzip das einzig mögliche. In bezug auf ordinal- und vor allem kardinalskalierte 

Daten ist das anfänglich beschriebene ungute Gefühl allerdings nicht zu 

übergehen: Den Daten kann mehr entlockt werden. 

Anhand des auf der Seite 15 vorgestellten Datensatzes buecher.stud soll der 

Schritt zurück zur Urliste beschrieben werden. In der Urliste, auch als Rohdaten 

bezeichnet, stehen die Daten so, wie sie ursprünglich beobachtet oder erhoben 

wurden. Die folgenden Bezeichnungen sollen gelten: 

X Allgemeine Bezeichnung für das Merkmal. 

n Stichprobenumfang. 

xi i-te Beobachtung vom Merkmal X, mit i = 1, 2, . . . , n. 

x(i), i = 1 . . . n Dies bezeichnet die Rangwertreihe, also den geordneten Datensatz: 

x(1) ist die kleinste, x(n) die größte Beobachtung. 

Der Datensatz buecher.stud hat einen Stichprobenumfang von n = 195. 

Der Übersicht halber soll daraus zunächst eine Zufallsstichprobe vom Umfang 20 

gezogen werden, die wir mit x bezeichnen wollen. Mit der Funktion sample() 

kann diese Zufallsstichprobe einfach realisiert werden. Der Datensatz x sowie die 

Rangwertreihe von x werden durch die Funktion halbe.halbe() jeweils in 2 

gleich große Blöcke aufgeteilt: 

> x halbe.halbe(x); halbe.halbe(sort(x)) 

out:8 150 60 10 70 100 100 40 40 800 100 

60 40 70 200 5 60 300 80 20 10 

5 10 10 20 40 40 40 60 60 60 

70 70 80 100 100 100 150 200 300 800 

Während wir durch das Hinschreiben von x kaum zusätzliche Informationen 

gewinnen — man stelle sich nun die gleiche Darstellung mit 195 Datenpunkten 

vor —, läßt sich durch das Aufteilen der Rangwertreihe in 2 gleich große Hälften 

bereits etwas ablesen. Die untere Hälfte der Studierenden besitzt höchstens 60 

Bücher, während die Studierenden der zweiten Hälfte mindestens 70 Bücher im


Regal stehen haben. Eine Person hat angegeben, lediglich 5 Bücher zu besitzen, 

während am anderen Ende jemand 800 hat. 

Liegt zwischen 60 und 70 sowas wie der Durchschnitt der Daten? Wie kann 

man die große Diskrepanz zwischen den Beobachtungen angemessen beschreiben? 

Diesen Fragen soll in den nächsten Abschnitten nachgegangen werden. 

Betrachtungen zur Lage 

Lage? Wo auf der unendlich weiten Merkmalsachse mit der Dimension Anzahl 

Bücher liegt der Datensatz, wie viele Bücher besitzen die verschiedenen Studierenden? 

Dazu soll zunächst ein Dot-Plot der Daten betrachtet werden, bei dem 

zusätzlich die bereits identifizierte Stelle 60 als vertikale Linie eingetragen ist — 

beim Dot Plot sei die horizontale Achse die Merkmalsachse, auf der vertikalen 

Achse wird der Index i abgetragen: 

> dot.plot(x,main="Dot Plot von x_i",xlab="Anzahl Buecher",ylab="i") 

> abline(v=60) in:8 

i 

5 10 15 20 

Dot Plot von x_i 

0 200 400 600 800 


Abbildung 7 

out:8

in:8 


Auf einen Blick kann man erkennen, daß die Daten relativ dicht gedrängt bis 

zur eingezeichneten Stelle 60 Bücher liegen. Jenseits der 60 machen sich die Daten 

wesentlich breiter auf der Merkmalsachse. Die zweite Hälfte benötigt mehr Platz, 

sie erstreckt sich bis hin zur 800. Wo liegen also die Daten? Kann man die Lage 

zusammenfassend beschreiben? Wenn man sich eine Zahl wünschen dürfte, die 

ein typischer Repräsentant der Daten sein soll, welche würde man wählen? 

Mit den zentralen Lageschätzern versucht man, diese letzten Gedanken 

umzusetzen. Es wird eine Zahl aus den Daten generiert, die alle anderen vertritt 

und somit für den Datensatz typisch ist. Der zentrale Lageschätzer ist durch einen 

minimalen Abstand zu den Beobachtungen ausgezeichnet, er liegt in der Mitte der 

Daten. Immer? 

Definition: Arithmetisches Mittel 

¯x = 1 

n 

n 

i=1 

xi = x1 + x2 + . . . + xn 

n 

(sprich: ” x quer“) 

Um das arithmetische Mittel sinnvoll berechnen zu können, müssen die Daten 

kardinales Meßniveau aufweisen. Ist die Differenz zwischen zwei Merkmalsausprägungen 

sachlogisch der entscheidende Unterschied, nicht das Verhältnis, 

dann macht dieser Mittelwert Sinn (vgl. geometrisches Mittel). 

Das arithmetische Mittel hat die Eigenschaft der Linearität 

yi = a + b · xi ⇒ ¯y = a + b · ¯x 

Das arithmetische Mittel ist ausreißerempfindlich. 

> mean(x) 

out:8 115.75 

in:8 

Ist ¯x = 115.75 der typische Repräsentant für den Datensatz x? Ein kurzes 

Nachzählen auf der Seite 32 der Rangwertreihe von x verrät uns, daß 16 von 

20 Studierenden, also 80%, deutlich weniger, die übrigen 4 aber wesentlich mehr 

Bücher besitzen. Der gefundene Mittelwert scheint also niemandem gerecht zu 

werden. 

Wie groß sind die arithmetischen Mittel in den beide gerade genannten Gruppen, 

was ist also die mittlere Anzahl Bücher derjenigen, die weniger als 115 Bücher 

besitzen bzw. derer, die mehr haben: 

out:8 54.0625 

362.5 

> mean(x[x mean(x[x>mean(x)])

i 

i 

i 


Ein Blick auf die Rangwertreihe verrät: Während die erste Zahl ein guter 

Repräsentant ist, kommt die zweite wieder nicht in Frage. Woran liegt das? 

Das arithmetische Mittel kann interpretiert werden als diejenige Zahl, die jede 

Beobachtung annehmen würde, wenn die Gesamtsumme aller tatsächlichen Beobachtungen 

gleichmäßig verteilt wäre. Wenn nun aber eine oder einige wenige 

Beobachtungen viel größer (kleiner) sind als alle anderen, dann wird die Gesamtsumme 

so groß (klein), daß der resultierende Mittelwert die zentrale Lage der 

Daten überschätzt (unterschätzt). 

Das ist hier der Fall. Die Beobachtungen 800 und auch 300 sind weit entfernt 

vom Rest der Daten und können als Ausreißer bezeichnet werden. In der 

folgenden Graphik ist der Einfluß dieser Ausreißer auf den Mittelwert dargestellt: 

5 10 15 20 

5 10 15 

5 10 15 

 

Alle Beobachtungen 

Mittelwert: 115.75 

115.75 

0 200 400 600 800 


Alle Beobachtungen kleiner 800 


79.74 

0 200 400 600 800 


Alle Beobachtungen kleiner 300 


67.5 

0 200 400 600 800 


in:8 

out:8

in:8 


Abbildung 7 

Definition: Median (Zentralwert) 

x0.5 = 

 

x ( n+1 

2 ) für n ungerade 

1 · (x( n 

2 2 ) + x( n 

2 +1)) für n gerade 

Die Daten müssen wenigstens ordinales Meßniveau aufweisen. Der Median teilt 

den geordneten Datensatz in zwei gleich große Hälften. Jeweils links und rechts 

liegen 50% der Daten, daher auch x0.5. 

Der Median ist ein robuster Lageschätzer. Er ist gerade nicht ausreißerempfindlich, 

da bei seiner Berechnung die Werte der Beobachtungen nicht berücksichtigt 

werden. 

Aufgrund der Darstellung der Rangwertreihe auf der Seite 32 wissen wir, daß 

der Median zwischen 60 und 70 liegen muß. Da der Datensatz einen geraden 

Stichprobenumfang hat, kann der Median selber nicht eine eigentliche Beobachtung 

sein. In diesem Fall ist der Median der Mittelwert aus 60 und 70: 

out:8 65 

> median(x) 

Der Median ist ein guter Repräsentant der Daten. Auffällig ist, daß die Streichung 

der Beobachtungen 800 und 300 Bücher zu einem Mittelwert führt (67.5), 

der dem Gesamtmedian sehr ähnlich ist. 

Die Idee des Weglassens von Beobachtungen ist beim getrimmten arithmetischen 

Mittel umgesetzt: 

Definition: Getrimmtes arithmetisches Mittel 

¯xα = 

1 

n − 2⌊nα⌋ 

n−⌊nα⌋ 

i=1+⌊nα⌋ 

Bei der Berechnung dieses Mittelwertes werden gezielt die (α · 100)% kleinsten 

sowie größten, also die extremen Beobachtungen an den Rändern, weggelassen. 

Der Mittelwert wird dadurch robust gegen Ausreißer. 

α (sprich ” alpha“) liegt zwischen 0 und 0.5. 

Die Gaußklammer ⌊u⌋ ist der ganzzahlige Anteil von u. 

Aus α = 0.05 folgt beispielsweise bei n = 20, daß die kleinste und die größte 

Beobachtung aus der Stichprobe zu streichen sind, ⌊20 · 0.05⌋ = 1. Anschließend 

wird der Mittelwert berechnet. 

x(i)

in:8 

out:8 


> mean(x,trim=0.05) 

83.89 

Welches α man nimmt, hängt von der Beschaffenheit der Daten ab. Für den 

Augenblick soll die folgende Graphik als Antwort auf die Frage dienen — was 

ergibt sich eigentlich für α = 0 bzw. α = 0.5? 

 

getrimmtes Mittel 

70 80 90 100 110 

Verschiedene getrimmte arithmetische Mittel 

0.0 0.1 0.2 0.3 0.4 0.5 

alpha 

Abbildung 7 

Ab α > 0.1 ist Veränderung im resultierenden Mittelwert nicht mehr sehr 

groß. Eine mögliche Empfehlung ist also, die 2 größten sowie die 2 kleinsten 

Werte zu streichen. Dann ergibt sich ¯x0.1 = 75. 

Definition: Modus 

diskret: der häufigste Wert 

stetig: Klassenmitte der am häufigsten besetzten Klasse 

Der Modus kann für alle Meßniveaus berechnet werden, existiert allerdings 

nicht immer. Wenn beispielsweise die beiden am häufigsten beobachteten Merkmalsausprägungen 

gleich oft vorkommen, dann kann der Modus nicht bestimmt 

werden. Die gleiche Aussage gilt entsprechend für klassierte Daten. 

in:8 

out:8 

in:8 

out:8

in:8 

out:8 


mittelwert median 0.1-getrimmt modus.stetig modus.diskret 

115.75 65 75 50 NA 

Bei der Stichprobe vom Umfang 20 wird bereits deutlich, daß die isolierte 

Betrachtung eines Mittelwertes nicht zu empfehlen ist, um Aussagen über die 

Daten zu wagen. Man kann sich vorstellen, daß sich dies umso schwieriger gestaltet, 

je umfangreicher die Daten sind. Bei n = 20 gibt schließlich der Dot-Plot 

gute Auskünfte. Was ist aber bei n = 100000? 

Wir benötigen weitere, die Daten zusammenfassende Hilfsmittel. Zunächst 

sollen die nicht-zentralen Lageschätzer betrachtet werden. 

Definition: Extremwerte 

• Minimum: der kleinste Wert — x(1) 

• Maximum: der größte Wert — x(n) 

Diese Maßzahlen benötigen wenigstens ordinales Meßniveau. 

Definition: Quartile 

• unteres Quartil: x0.25 

Das untere Quartil ist der Median der unteren Hälfte. Links von x0.25 

liegen 25% der Daten, rechts davon 75%. 

• oberes Quartil: x0.75 

Das obere Quartil ist der Median der oberen Hälfte. Links von x0.75 liegen 

75% der Daten, rechts davon 25%. 

Diese Maßzahlen benötigen ebenfalls wenigstens ordinales Meßniveau. 

Mit Hilfe dieser 4 Maßzahlen und dem Median läßt sich der Datensatz in vier 

gleich umfangreiche Segmente unterteilen, so daß auf einen Blick Aussagen zur 

Symmetrie bzw. Schiefe und Ausreißern gemacht werden können, die über den 

Vergleich Mittelwert/ Median hinausgehen. Hier sind zunächst die Maßzahlen: 

> summary(x) 

Min. 1st Qu. Median Mean 3rd Qu. Max. 

5.0 40.0 65.0 115.8 100.0 800.0 

Der relativ große Unterschied zwischen Mittelwert und Median deutet bereits 

auf Ausreißer hin. Die folgende Graphik illustriert dies anschaulich:

in:8 

out:8 


> dot.plot(x,xlab="Anzahl Buecher",ylab="i", 

main="Dot-Plot von x_i\nmit Senkrechten nach jeweils 25% der Daten") 

> abline(v=summary(x)[-4],lty=2) 

i 

5 10 15 20 

Dot−Plot von x_i 

mit Senkrechten nach jeweils 25% der Daten 

0 200 400 600 800 


Abbildung 7 

Der Dot-Plot, ergänzt um die vier nicht-zentralen Maßzahlen sowie den Median, 

läßt sich sehr schön interpretieren. Die ersten 75% der Daten benötigen 

mehr oder weniger gleich viel Platz auf der Merkmalsachse, während die letzten 

25% unverhältnismäßig viel mehr Raum in Anspruch nehmen. Die vier Abstände 

sehen so aus: 

> diff(summary(x)[-4]) 

35 25 35 700 

in:8 

out:8

in:8 

out:8 

in:8 

out:8 


Definition: Boxplot 

Im Boxplot werden die fünf Maßzahlen Minimum, unteres Quartil, Median, 

oberes Quartil und Maximum dargestellt. 

Die box — ein Rechteck, das über der Merkmalsachse vom unteren bis zum 

oberen Quartil abgetragen wird — enthält die zentralen 50% der Daten. Die 

Box ist durch den Median in zwei Hälften geteilt. 

An die beiden Enden der box werden die whiskers gehängt, Linien die bis zum 

Minimum bzw. Maximum gezogen werden. 

Es kann sinnvoll sein, die whiskers nicht bis zu den Extremwerten zu zeichnen, 

sondern diese früher enden zu lassen. Ausreißer werden dann gesondert 

markiert (vgl. XXX). 

> boxplot(x,range=0,main="Boxplot von x_i", 

horizontal=T,xlab="Anzahl Buecher") 

Boxplot von x_i 

0 200 400 600 800 


Abbildung 7 

Der Boxplot bestätigt die Erkenntnisse der vergangenen Seiten. Der Boxplot 

ist ein sehr geeignetes Instrument, um verschiedene Datensätze miteinander zu 

vergleichen. Es läßt sich z.B. der Frage nach gehen, ob die gezogene Stichprobe 

vom Umfang 20 den Datensatz Anzahl Bücher gut wiedergibt — beim Vergleich 

scheinen vertikale Boxplots geeigneter zu sein als horizontale, welche aber wiederum 

Symmetrieeigenschaften besser erkennen lassen: 

> boxplot(x,buecher.stud,range=0,main="Boxplot", 

names=c("x","buecher.stud"),ylab="Anzahl Buecher")



0 500 1000 1500 2000 2500 3000 

Boxplot 

x buecher.stud 

Abbildung 7 

Die Struktur ist in beiden Datensätzen identisch, die Daten sind sehr asymmetrisch. 

Ist das Zufall, oder ist jede Stichprobe vom Umfang n = 20 gleich gut 

zu gebrauchen? Hier sind die zusammenfassenden Maßzahlen: 

> summary(x) 

> summary(buecher.stud) in:8 


5.0 40.0 65.0 115.8 100.0 800.0 


0.0 30.0 50.0 119.6 110.0 3000.0 

Im Detail sind deutliche Unterschiede erkennbar. Das Experiment Zufallsstichprobe 

mit n = 20 soll gerade 30 mal wiederholt werden — die 1. Stichprobe 

ist identisch mit x: 

out:8 

> xx boxplot(xx, range=0, main="Boxplots zu 30 Wiederholungen\nmit n=20", 

ylab="Anzahl Buecher") in:8 

out:8

in:8 

out:8 



0 500 1000 1500 2000 2500 3000 

Boxplots zu 30 Wiederholungen 

mit n= 20 

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 

Abbildung 7 

Jede Stichprobe sieht anders aus. Die bereits herausgearbeitete Grundtendenz 

ist aber jeweils erkennbar, mal besser mal schlechter. Die Ausreißer werden nur 

selten erwischt. Können die Informationen aus den einzelnen Stichproben gebündelt 

werden, um schärfere Aussagen machen zu können? 

Die 30 Stichproben sollen zusammengefaßt werden. Es sollen die Durchschnittswerte 

der sechs Maßzahlen Minimum bis Maximum gebildet werden. Das 

durchschnittliche Minimum wird dann beispielsweise aus der Summe der jeweils 

kleinsten Beobachtungen in den 30 Stichproben gebildet,welche durch 30 geteilt 

wird. 

> 

Durchschnitte von: 


4.37 30.64 59.47 101.40 112.92 527.60


Die Ergebnisse sind in mancherlei Hinsicht immer noch recht ungenau. Die 

nächste Graphik zeigt den Boxplot aller 30 Mittelwerte und Mediane ergänzt um 

alle 30 errechneten Mittelwerte und Mediane: 

> in:8 

50 100 150 200 250 

* 

Boxplot der Mittelwerte und Mediane 

sowie die Masszahlen selber 

* 

* 

* 

* 

* 

* * 

* * * 

* * 

* * 

* 

* 

* 

* * 

* * 

* * 

* * 

* * 

* * 

* 

* 

* 

* 

* * 

* * 

* * * 

* ** * * 

* 

* 

* * 

* * 

* 

Mittelwert Median 

Abbildung 7 

* 

* * * 

Wie man sieht schwanken die Realisationen bei den Mittelwerten deutlich 

stärker als bei den Medianen. 

XXXXXXXXXXXXXXX 

Nun könnte man sich fragen, wozu das ganze? Stichproben sind dann wichtig, 

wenn man die Grundgesamtheit insgesamt nicht erreichen kann oder wenn diese 

zu groß ist, als daß man sie sich insgesamt vornehmen kann. Man muß sich also auf 

seine Stichprobe und den daraus genierten Maßzahlen und Graphiken verlassen 

können. Die Experimente auf den letzten Seiten dienten dazu, diesen Blick zu 

schärfen. 

XXXXXXXXXXXXXXXXXXXX 

Betrachtungen zur Streuung 

Ohne Streuung keine Statistik! Das klingt nach einer gewagten Formulierung, 

entspricht aber bei genauerem Hinsehen den Umständen. Wann sind einem schon 

mal Daten untergekommen, die nicht streuen, die sich also in ihrer n-Fachheit 

auf einen Punkt konzentrieren? Vermutlich gar nicht. 

Wie unterscheiden sich die Beobachtungen? Was für Ursachen hat die Streuung 

und was für Konsequenzen ergeben sich daraus? Ist der Unterschied in den 

out:8


Beobachtungen lediglich eine zufällige Laune oder steckt mehr dahinter? Streuung 

macht eine Analyse erst notwendig, sie ist das Salz in der statistischen Suppe. 

Über die Lage wissen wir nun so einiges. Was hält man aber vom folgenden 

Umgang in einer Tageszeitung mit eben diesen Lageschätzern? 

Ich habe nicht 80 Tafeln Schokolade im vergangenen Jahr gegessen. Und wie 

sieht es beim Einkommen aus? Sozialhilfeempfänger werden die Angaben zum 

verfügbaren Einkommen vermutlich eher bestätigen können als Mitglieder der 

Gruppe der Selbständigen. Warum ist das so? Es liegt an der Streuung. 

Gerade bei den Selbständigen wird das verfügbare Einkommen enormen Unterschieden 

ausgesetzt sein. Wie sind die verschiedenen Mittelwerte zustande gekommen? 

Wird dem Leser das arithmetische Mittel präsentiert oder der Median 

oder der Modus? Wenn die Angabe 172.800 DM nun das arithmetische Mittel sein


sollte, wie kann die Zahl dann interpretiert werden? Wie würde ein Bill Gates eine 

solche Statistik beeinflussen? 

Man hat das Gefühl, daß die bloße Angabe eines Mittelwertes oder auch eines 

Medians nicht ausreicht, um Aussagen über die Einkommensverhältnisse so vieler 

Menschen zu machen. Offensichtlich würde ein Boxplot in dieser Situation bereits 

für viel Klarheit sorgen. Es gibt eine Reihe von Maßzahlen, die versuchen, diese 

Unterschiede bei den Beobachtungen zu quantifizieren. 

Definition: Spannweite (range) 

Wie groß ist der Bereich, auf dem die Daten liegen? Wie breit machen sich die 

Daten auf der Merkmalsachse? 

sw = x(n) − x(1) 

Definition: Interquartilsabstand (iqd, iqr) 

Wie groß ist der Bereich, auf dem die zentralen 50% Daten liegen? Wie breit 

ist das Rechteck beim Boxplot? 

iqr = x0.75 − x0.25 

Diese beiden Maßzahlen zusammen betrachtet geben bereits erste Aufschlüsse 

über die Eigenarten eines Datensatzes. Sind nämlich die Unterschiede zwischen 

den beiden Maßzahlen außergewöhnlich groß — dabei ist natürlich die Maßeinheit 

zu berücksichtigen —, dann ist das ein erstes Indiz für Ausreißer im Datensatz. 

Bei der Stichprobe x und auch beim gesamten Datensatz buecher.stud scheint 

das gerade der Fall zu sein — vgl. Seite 41: 

> diff(range(x)); diff(range(buecher.stud)) 

> iqd(x); iqd(buecher.stud) in:8 

795 

3000 

60 

80 

Die 795 ist wesentlich größer als die 60, und auch 3000 ist viel größer als 80. 

Die nächsten beiden Graphiken verallgemeinern nun diese Idee. Es werden 

die p%-zentralen Daten betrachtet, wobei p alle Werte zwischen 0% und 100% 

annimmt. Es wird jeweils die Spannweite ausgerechnet und gegen p abgetragen. 

Für p = 100 ergibt sich der range, für p = 0.5 der Interquartilsabstand. 

 

 

out:8

in:8 

out:8 

Spannweiten 

in:8 

out:8 

0 200 400 600 800 


> range.plot(x,marker=c(0.25,0.50,0.75,0.95)) 

> range.plot(buecher.stud,marker=c(0.25,0.50,0.75,0.95)) 

Spannweiten in Abh. von p 

fuer x 

0 20 40 60 80 100 

p% 

Spannweiten 

0 500 1000 1500 2000 2500 3000 

Spannweiten in Abh. von p 

fuer Anzahl Buecher 

0 20 40 60 80 100 

Die Bilder decken sehr anschaulich auf, daß der Platzverbrauch der beiden 

Datensätze in bezug auf die Merkmalsachse stark ansteigt. Die mittleren 50% 

bzw. die mittleren 75% der Daten machen sich nicht übermäßig breit auf der 

Merkmalsachse. 

Definition: Stichprobenvarianz s 2 / Mittlere quadratische Abweichung 

d 2 

d 2 = 1 

n · 

s 2 = 1 

n − 1 · 

n 

(xi − ¯x) 2 

i=1 

n 

(xi − ¯x) 2 = 

i=1 

n − 1 

n 

Die (Stichproben-) Standardabweichung s ist die Wurzel aus der Stichprobenvarianz. 

Sie ist wie das arithmetische Mittel ausreißerempfindlich. 

Die Wurzel aus den beiden Maßzahlen gibt jeweils die durchschnittliche Entfernung 

der Beobachtungen zum arithmetischen Mittel an. 

Anmerkung: Die Bedeutung der unterschiedlichen Gewichtungen der beiden 

Maßzahlen wird im Kapitel XXXXX deutlich. Hier reicht der Hinweis: Ist n 

groß, ist der Unterschied zu vernachlässigen. 

Die Standardabweichung ist eine wichtige Maßzahl zur Beschreibung der 

Streuung von Datensätzen. 

· s 2 

> sqrt(var(x)); sqrt(msd(x)) 

> sqrt(var(buecher.stud)); sqrt(msd(buecher.stud)) 

p%


175.76 171.31 

257.81 257.15 

In bezug auf den gesamten Datensatz heißt das also, daß im Durchschnitt 

die Studierenden fast 260 Bücher weniger oder mehr haben als das arithmetische 

Mittel von etwa 120 Büchern angibt. Nun ist offenbar 120 − 260 kleiner als Null. 

Die hohe Streuung ist also durch Ausreißer nach oben zu erklären. 

Schauen wir uns die Formel zur Berechnung von s bzw. d einmal genauer 

an. Wenn man durchschnittliche Abstände haben möchte, warum wird dann zunächst 

das Quadrat dieser Abstände gebildet? Warum werden nicht die einfachen 

Differenzen aufsummiert, was naheliegend erscheint? 

Satz 3: Die Summer aller Abweichungen vom arithmetischen Mittel 

ist immer Null. 

Beweis von Satz 3: 

n 

(xi − ¯x) = 

i=1 

= 

= 

= 

= 0 

n 

i=1 

xi − 

n 

¯x 

i=1 

n 

xi − n · ¯x 

i=1 

n 

xi − n · 1 

n 

n n 

i=1 

i=1 

xi − 

Dieser Umstand liegt an der Definition des Mittelwertes. Die negative Summe 

der Abstände der Beobachtungen zum arithmetischen, die kleiner als der Mittelwert 

sind, ist gerade genauso groß wie die entsprechende positive Summe. Der 

Mittelwert ist damit übrigens gerade die Stelle des Schwerpunkts eines physikalischen 

Systems. 

Natürlich hätte man auch die absoluten Abstände aufaddieren können. Mit 

Beträgen rechnet es sich allerdings schwerer als mit Quadraten. 

i=1 

xi 

n 

i=1 

xi 

△

in:8 

out:8 

in:8 

out:8 


Definition: Variationskoeffizient 

vk = s 

¯x 

Ein relatives Streuungsmaß ermöglicht den Vergleich verschiedenartiger 

Datensätze in bezug auf die Streuung. Die Dimensionen werden bei der Berechnung 

herausgekürzt. 

Es erleichtert ebenso den Streuungsvergleich von Daten mit unterschiedlichen 

Mittelwerten. Eine Standardabweichung von 1 bei einem Mittelwert von 10 

hat naturgemäß eine andere Bedeutung als die gleiche Standardabweichung 

bei einem Mittelwert von vielleicht 100. 

Anmerkung: Bei einem Mittelwert nahe Null stößt man auf Interpretationsgrenzen. 

 

Wir wissen, daß der Unterschied in den arithmetischen Mitteln nicht zu groß 

ist. Der Variationskoeffizient wird dahingehend keine Überraschungen produzieren. 

Aber ein Variationskoeffizient von über 2 heißt, daß im Durchschnitt die 

Beobachtungen mehr als doppelt so weit vom arithmetischen Mittel entfernt liegen. 

Diese Feststellung relativiert die Aussagekraft des Mittelwertes gehörig: 

> sqrt(var(x))/mean(x) 

> sqrt(var(buecher.stud))/mean(buecher.stud) 

1.52 

2.16 

Es soll wieder der Versuch unternommen werden, eine Graphik aus den Daten 

zu erzeugen, welche die Veränderung des Streuungsmaßes bei sukzessiver Hinzunahme 

der Datenpunkte aufzeigt: 

> vk.plot(buecher.stud); vk.plot(x,add=T) 

> vk.plot(gewicht.stud); vk.plot(groesse.stud,add=T)

vk 

0.0 0.5 1.0 1.5 2.0 


Variationskoeffizient in Abh. von p 

fuer Anzahl Buecher und x 

0 20 40 60 80 100 

p% 

vk 

Variationskoeffizient in Abh. von p 

fuer Gewicht und Groesse 

0 20 40 60 80 100 

In der linken Graphik ist die Stichprobe x gestrichelt dargestellt. Zum Vergleich 

sind in der rechten Graphik für die Datensätze Größe und Gewicht die 

gleichen Bilder erzeugt worden. Bei diesen Datensätzen ist der Verlauf der Kurven 

eben nicht durch ein plötzliches sprunghaftes Ansteigen gekennzeichnet. 

Definition: Median Absolute Deviation (MAD) 

Der Median der absoluten Entfernungen aller Beobachtungen vom Median 

0.0 0.1 0.2 0.3 0.4 0.5 

MAD = Median{|x1 − x0.5|, . . . , |xn − x0.5|} 

Der MAD wird in der Regel durch die Zahl 0.6745 geteilt. Diese Normierung 

bewirkt, daß der Schätzer bessere theoretische Eigenschaften hat (vgl. Kapitel 

XXXXXX). 

Der MAD ist ein robuster Schätzer für die Streuung. 

Satz 2: Der MAD der Standardnormalverteilung ist der 75%-Punkt 

der Standardnormalverteilung: Z0.75 = 0.6745 

p%

in:8 

out:8 


Beweis von Satz 2: Sei Z standardnormalverteilt, Z ∼ N(0, 1). Da der 

Median der Standardnormalverteilung Null ist, ist zunächst die Verteilung von 

Y = |Z − 0| = |Z| gesucht: 

FY (y) = P (Y ≤ y) 

= P (|Z| ≤ y) 

= P (−y ≤ Z ≤ y) 

= Φ(y) − Φ(−y) 

= 2Φ(y) − 1 

Die Zufallsvariable Y ist so definiert worden, daß der Median y0.5 gerade der 

MAD von Z ist: 

Daraus ergibt sich nun aber: 

FY (y0.5) = 0.5 

2Φ(y0.5) − 1 = 0.5 

Φ(y0.5) = 0.75 

y0.5 = Φ(0.75) −1 = 0.6745 

Also ist der MAD der Standardnormalverteilung gerade Z0.75, also der 75%- 

Punkt. 

> qnorm(0.75) 

0.6744898 

Die Berechnung des MAD soll anhand von x demonstriert werden. Es werden 

zunächst die absoluten Entfernungen vom Median bestimmt. Aufgrund der 

gewählten Darstellung läßt sich bereits der Median dieser Abstände erkennen: 

> entfernung halbe.halbe(sort(entfernung)) 

> median(entfernung) 

5 5 5 5 5 15 25 25 25 35 

35 35 45 55 55 60 85 135 235 735 

35 

Der tatsächliche Median dieser Abstände, 35, ist nun noch zu normieren. Die 

Funktion mad() kommt zum selben Ergebnis: 

△


> median(entfernung)/0.6745 

> mad(x) 

> mad(buecher.stud) in:8 

51.89 

51.89 

44.48 

Diese neuen Erkenntnisse relativieren die sehr starken Streuungen. Jene sind 

durch eine Reihe großer Beobachtungen nach oben gedrückt worden. 

Betrachtungen zur Verteilung 

Zu Beginn des Kapitels haben wir das Histogramm kennengelernt, um möglichst 

kompakt etwas über einen Datensatz zu erfahren. Auf einen Blick kann man 

erkennen, wo das Zentrum der Daten liegt und wie die Daten darum verteilt 

sind. Ganz wunschlos glücklich kann man mit dem Histogramm nicht sein, da 

nichts über das Innenleben der Klassen erfährt und da die Klassen mehr oder 

weniger willkürlich gebildet werden, ist dies u.U. ein unbefriedigender Zustand. 

Betrachten wir einmal die folgende Graphik — das Histogramm kennen wir 

bereits von der Seite XXXX: 

Haeufigkeitsdichte 

0.00 0.01 0.02 0.03 0.04 

Histogramm mit Dichtespur 

40 60 80 100 120 

Gewicht 

Die Kurve, die über das Histogramm gelegt wurde, ist ein sogenannter Kerndichteschätzer. 

Man könnte diesen vielleicht als verstetigtes Histogramm bezeichnen. 

Je höher die Kurve, desto dichter und gehäufter liegen die Beobachtungen 

in diesem Bereich, genau wie beim Histogramm. Der Unterschied ist nun 

aber, daß jeder einzelne Punkt mit seiner individuellen Lage einen Beitrag zur 

Höhe der Kurve leistet, die entstehende Kurve ist zudem glatt und kann daher 

out:8


viel besser auf Eigenarten eines Datensatzes eingehen. Beim Histogramm interessierte 

lediglich die Zugehörigkeit zur Klasse, es entsteht ein Gebilde aus vielen 

Rechtecken. 

Die Kurve verrät zum Beispiel, und zwar ohne daß eine bestimmte (und künstliche) 

Klasseneinteilung gewählt werden muß, wo das Zentrum der Daten liegt und 

wie innerhalb der Klassen die Daten verteilt sind. Die nächste Graphik kombiniert 

die Dichtespur mit dem Stabdiagramm. Das Stabdiagramm erklärt sehr schön den 

Verlauf der Dichtespur. Gleichzeitig wird deutlich, daß ein Stabdiagramm für diesen 

Datensatz eben nicht gut geeignet ist, während die Kurvendarstellung sehr 

angemessen zu sein scheint: 

0.00 0.01 0.02 0.03 0.04 

Dichtespur mit Stabdiagramm 

40 60 80 100 120 

Gewicht 

Wie kommt man nun zu dieser Kurve? Die Konstruktion setzt auf der 

Grunderkenntnis auf, daß die (theoretische) Dichtefunktion fX(x) gerade die Ableitung 

der Verteilungsfunktion FX(x) ist. Folgender Zusammenhang gilt — man 

beachte, daß im stetigen Fall jeder diskrete Punkt die Wahrscheinlichkeit Null 

zugewiesen bekommt: 

fX(x) = dFX 

(x) = lim 

dx h→0 

1 

2h 

P (x − h < X < x + h) 

Die Dichte an einer Stelle x ist also die Wahrscheinlichkeit, daß sich die Zufallsvariable 

X in einer aber-witzig winzigen Umgebung um die Stelle x realisiert, 

genaugenommen im Moment des Grenzübergangs zum völligen Verschwinden dieser 

Umgebung.


Exkurs: Differentialquotient 

Der Differenzenquotient 

f(x) − f(x0) 

x − x0 

gibt die Steigung der Sekante durch die Punkte (x, f(x)) und (x0, f(x0)) 

an. Der Differentialquotient 

f(x) − f(x0) 

lim 

x→x0 x − x0 

gibt die Steigung des Funktionsgraphen an der Stelle x0 an. 

Grob gilt also für die Funktion F (x) — statt x → x0 soll ein Intervall um 

x betrachtet werden mit h → 0: 

= F (x + h) − F (x − h) 

F (x) − F (x0) 

x − x0 

= F (x + h) − F (x − h) 

x + h − (x − h) 

= 

2h 

P (X ≤ x + h) − P (X ≤ x − h) 

2h 

= P (x − h < X < x + h) 

2h 

Für jeden Wert von h muß die Wahrscheinlichkeit, daß die Zufallsvariable sich 

in dem Intervall der Größe 2h um x ∈ R realisiert, abgeschätzt werden, das heißt, 

es muß gezählt werden, es wurden Realisationen von X, die Xi, beobachtet: 

ˆP (x − h < X < x + h) = 1/n · (Anzahl der Xi in (x − h, x + h)) 

Daraus ergibt sich: 

ˆfX(x) = 1 

2hn · (Anzahl der Xi in (x − h, x + h)) 

Diese Funktion läßt sich auch kompakter folgendermaßen schreiben: 

mit dem sogenannten Kern 

ˆfX(x) = 1 

n 

w(x) = 

n 1 

h w 

 

x − 

 

Xi 

h 

i=1 

1/2 für |x| < 1 

0 sonst 

⋆


Falls also 

x − Xi 

h 

 

 

 

< 1 

gilt, dann nimmt w() den Wert 1/2 an, also gerade dann, wenn gilt 

x − h < Xi < x + h 

Jeder Punkt Xi, der im Intervall um x liegt, liefert zur Gesamtsumme gerade 1/2 

dazu. Die beiden Darstellungen von ˆ f() sind also äquivalent. 

Der Dichteschätzer wird demnach folgendermaßen konstruiert: Um jede Be- 

obachtung wird ein Rechteck mit der Breite 2h und mit der Höhe 1 

2hn 

gelegt. Die 

Höhen der Rechtecke werden aufsummiert. 

Für die Daten 3,4,6,9,14 sind vier Kerndichteschätzer mit jeweils verschiedenen 

Werten von h konstruiert worden — die 5 Datenpunkte sind auf der 

Nullachse eingetragen: 

0.00 0.05 0.10 0.15 0.20 

0.00 0.02 0.04 0.06 0.08 0.10 

Kerndichteschaetzer mit 

h= 1 

0 5 10 15 

Fensterbreite: 2 


h= 3 

0 5 10 15 20 


0.00 0.05 0.10 0.15 

0.00 0.02 0.04 0.06 0.08 


h= 2 

0 5 10 15 



h= 5 

−5 0 5 10 15 20 


Die geschätzte Dichte ist definiert über dem gesamten R. Das erste Mal, daß 

die Dichte positiv wird, ist dann, wenn der linke Rand des Fensters um die kleinste 

Beobachtung erreicht wird, dann springt ˆ f() auf 1/(2 · h · n). 

An den Graphiken kann man gut den Einfluß der Fensterbreite (= 2 · h) auf 

den Verlauf der Dichteschätzung sehen. Mit größer werdendem h gehen lokale 

Informationen verloren, die Kurve verläuft dafür weniger zickig. 

Die nächste Graphik veranschaulicht die Summation der einzelnen Beiträge


für h = 1— jeder Beitrag ist natürlich exakt 1/(2 · 1 · 5) = 1/10, aus Darstellungsgründen 

schwanken die Geraden um 1/10: 

0.1 

Beitrag einer Beobachtung 

zur Dichteschaetzung 

0 5 10 15 20 

Aufgrund der Wahl der Kernfunktion erhalten alle Punkte, die in dem Fenster 

liegen, das gleiche Gewicht. Das heißt, ein Punkt, der nah an x liegt, liefert 

denselben Beitrag zur Summe wie ein Punkt, der sich am äußersten Rand des 

Fensters um x befindet. Dieses Vorgehen führt zum eckigen, also nicht glatten 

Aussehen der Dichteschätzung. 

Es soll nun eine Kernfunktion w() gewählt werden, die so gewichtet, daß 

Beobachtungen, die näher an x liegen einen höheren Beitrag zur Summe liefern, 

als Beobachtungen, die zwar im Fenster aber doch weiter weg von x sind. 

Wählt man w() nun auch noch so, daß w() selber eine Dichtefunktion ist, 

dann hat der Dichteschätzer alle Eigenschaften einer Dichtefunktion. 

Gerne wählt man die Standardnormalverteilung als Kernfunktion: 

h= 1 

w(x) = 1 1 

− √ e 2 

2π x2


0.00 0.05 0.10 0.15 0.20 

0.00 0.02 0.04 0.06 0.08 0.10 0.12 


h= 1 

2 4 6 8 10 12 14 16 



h= 3 

0 5 10 15 


0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14 

0.00 0.02 0.04 0.06 0.08 


h= 2 

0 5 10 15 



h= 5 

−5 0 5 10 15 20 


Die Ähnlichkeit zu den Dichteschätzern mit Rechtecksfunktion als Kern ist 

nicht zu übersehen. Mit zunehmender Fensterbreite wird der Funktionsverlauf 

glatter, es gehen aber lokale Informationen verloren. Bei der Wahl von h sollte 

also nach einem Kompromiß zwischen glattem Kurvenverlauf und wenig Informationsverlust 

gesucht werden. Ein Vorschlag ist zum Beispiel, h = iqd(x), also 

den doppelten Interquartilsabstand als Fensterbreite zu wählen . 

Der Vollständigkeit halber zeigt die folgende Graphik die verschiedenen Gaußkurven, 

die durch Addition zum Dichteschätzer führen: 

0.00 0.05 0.10 0.15 0.20 

Beitrag einer Beobachtung 

zur Dichteschaetzung 

0 5 10 15 20 

Fensterbreite 2 

Für die Gewichtsdaten sind noch einmal 4 Dichteschätzer mit verschiedenen 

Einstellungen für die Fensterbreite erzeugt worden:


0.00 0.01 0.02 0.03 0.04 0.05 0.06 

0.00 0.01 0.02 0.03 

Dichteschaetzer mit 

2h=1/2*Iqd 

60 80 100 120 

Fensterbreite: 2.5 


2h=2*Iqd 

40 60 80 100 120 


0.00 0.01 0.02 0.03 0.04 

0.000 0.005 0.010 0.015 0.020 0.025 0.030 


2h=Iqd 

40 60 80 100 120 



2h=4*Iqd 

40 60 80 100 120 


Zum Abschluß wollen wir noch verschiedene Dichteschätzer für den Datensatz 

Anzahl Bücher bzw. der Zufallsstichprobe x betrachten: 

0.000 0.002 0.004 0.006 0.008 

0.000 0.002 0.004 0.006 0.008 

Dichteschaetzer 

x 

0 200 400 600 800 




0 500 1000 2000 3000 


0.000 0.001 0.002 0.003 0.004 0.005 0.006 0.007 

0.000 0.001 0.002 0.003 0.004 0.005 0.006 


x 

0 200 400 600 800 




0 500 1000 2000 3000 


In der oberen Zeile ist die Stichprobe, in der unteren der gesamte Datensatz

in:8 


dargestellt. Die Fensterbreite ist in der ersten Spalte jeweils der einfach Interquartilsabstand, 

in der zweiten Spalte ist es der doppelte. 

Neben den Maßzahlen zu Lage und Streuung, existiert ebenso die Möglichkeit, 

das Aussehen einer Verteilung mit geeigneten Maßzahlen zu beschreiben. Ein 

erster Ansatz bietet der Vergleich der drei vorgestellten zentralen Lageschätzer. 

Verteilen sich die Daten nämlich gleichmäßig um ein Symmetriezentrum, dann 

sind Modus, Median und arithmetisches Mittel ungefähr gleich groß: 

> cbind(modus=modus(gewicht.stud),median=median(gewicht.stud), 

mean=mean(gewicht.stud)) 

> cbind(modus=modus(groesse.stud),median=median(groesse.stud), 

mean=mean(groesse.stud)) 

out:8 modus median mean 

70 70 69.41 

modus median mean 

180 180 178.79 

in:8 

Der Vergleich der drei Maßzahlen bestätigt die Vermutung, daß die Datensätze 

symmetrisch und nicht schief sind. Und bei den Büchern? 

> cbind(modus=modus(x),median=median(x),mean=mean(x)) 

> cbind(modus=modus(buecher.stud),median=median(buecher.stud), 

mean=mean(buecher.stud)) 

out:8 modus median mean 

50 65 115.75 

modus median mean 

50 50 119.58 

Diese Konstellation — modus(x) < median(x) < mean(x) — deutet auf eine 

rechtsschiefe bzw. linkssteile Datensituation hin. Wenn man sich den Dichteschätzer 

anschaut, dann stellt man fest, daß dieser links stark ansteigt, um dann nach 

rechts abzufallen. Gilt das umgekehrte so nennt man die Verteilung der Daten 

linksschief bzw. rechtssteil. 

Zwei Maßzahlen sollen vorgestellt, die Berechnungen kurz argumentiert werden. 

Alle Maßzahlen, zunächst einmal abgesehen von den robusten, wurden folgendermaßen 

berechnet: Für jedes xi wird die Differenz zu einem bestimmten 

Zentrum gebildet. Diese Differenz wird potenziert, das ganze wird aufsummiert. 

Beim arithmetischen Mittel wurde die Differenz zur Null betrachtet und die 

Potenz war Eins. Bei d 2 bzw. s 2 wurde die Differenz zu ¯x betrachtet, potenziert 

wurde mit zwei. Je größer nun die Zahl ist, mit der potenziert wird, desto mehr 

Gewicht wird an die Ränder des Datensatzes verlegt, da die größeren Differenzen


durch die hohe Potenz mehr betont werden als die kleinen Differenzen, also als 

Daten, die nah bei ¯x liegen. Damit ist der Einfluß der weit entfernten Datenpunkte 

auf diese Maßzahlen größer. 

Definition: Schiefe 

S = 1 

n · 

n i=1 (xi − ¯x) 3 

(d2 ) 3/2 

• S > 0: Die Daten sind rechtsschief. 

• S = 0: Die Daten sind symmetrisch. 

• S < 0: Die Daten sind linksschief. 

Hinweis: Durch die Normierung mit d 3 ist die Maßzahl dimensionslos. 

> schiefe(x); schiefe(buecher.stud) 

> schiefe(groesse.stud); schiefe(gewicht.stud) 

3.188 0.0095 

8.186 0.6004 

Die Maßzahlen bestätigen die vorherigen Überlegungen. 

Definition: Kurtosis 

K = 1 

n · 

n i=1 (xi − ¯x) 4 

(d2 ) 2 

K ∗ = K − 3 

• K ∗ > 0: Die Wölbung an den Rändern der Dichte ist im Vergleich zur 

Normalverteilung niedriger. Es liegt mehr Dichtemasse am Rand. 

• K ∗ = 0: Die Ränder gleichen denen der Normalverteilung. 

• K ∗ < 0: Die Wölbung an den Rändern ist niedriger. Es liegt weniger 

Dichtemasse am Rand. 

Hinweis: Auch diese Maßzahl ist dimensionslos. Im Falle der Normalverteilung 

ist die (theoretische) Kurtosis K gerade 3. 

> kurtosis(x); kurtosis(buecher.stud) 

> kurtosis(groesse.stud)-3; kurtosis(gewicht.stud)-3 

in:8 

out:8 

in:8 

out:8

in:8 

out:8 


12.831 -0.208 

85.407 0.844 

Wer auf den alten 10-Mark Schein schaut, weiß, wie die Dichte der Normalverteilung 

aussieht — wer keine DM-Noten mehr hat, muß bis Kapitel XXXX 

warten. Die beiden Bücherdatensätze haben wesentlich mehr Dichtemasse an den 

Rändern. Aufgrund der Schiefemaßzahl wissen wir aber auch, daß diese Masse 

nicht symmetrisch, d.h. nicht gleichmäßig rechts und links vom Zentrum liegt. 

Mit diesen beiden Maßzahlen hat man auch ein erstes Indiz dafür, ob bei einem 

konkreten Datensatz die Normalverteilungsannahme gerechtfertigt ist. Für sehr 

viele Verfahren ist diese Annahme nämlich Voraussetzung. 

Definition: Box-Cox-Transformation 

Ein Datensatz x wird auf einen neuen Datensatz y = T (x) abgebildet, der 

in Abhängigkeit vom Parameter λ (sprich: Lambda“) eine geringere Schiefe 

” 

aufweist als der ursprüngliche Datensatz. 

T (x) = 

x λ −1 

λ 

für λ = 0 

ln x für λ = 0 

Dieses Vorgehen ist dadurch zu begründen, daß weitergehende Analysen und 

Modellierungen der Daten mit asymmetrischen Datensätzen schwieriger ist als 

mit symmetrischen. 

Um beispielsweise der Normalverteilungsannahme näherzukommen, kann sich 

die Box-Cox-Transformation als geeignete Maßnahme erweisen. Eine Möglichkeit, 

einen günstigen Wert für λ zu ermitteln, ist, eine ganze Reihe von Box-Cox- 

Transformationen für einen Datensatz durchzuführen und jeweils S und K ∗ zu 

berechnen. Eine graphische Darstellung hilft dann bei der Entscheidung: 

> box.cox.plot(x) 

> box.cox.plot(buehcer.stud)


Kurtosis 

0 2 4 6 8 10 12 14 

Kurtosis und Schiefe 

fuer x 

Fuer lambda=0 

S=−0.13, K*=0.2 

−2 0 2 4 

Schiefe 

Kurtosis 

0 50 100 150 

Fuer lambda=0.1 

S=−0.23, K*=1.36 

Kurtosis und Schiefe 

fuer Anzahl Buecher 

0 5 10 

Nimmt man nun die Vorschläge für λ auf, gelangt man zu folgenden Verteilungen: 

0.0 0.1 0.2 0.3 0.4 

0.00 0.05 0.10 0.15 0.20 

boxcox mit λ=0.1 

0 2 4 6 8 

urspr. x 


0 5 10 15 

urspr. Anzahl Buecher 

boxcox mit λ=0 

urspr. x 

Schiefe 

2 3 4 5 6 


0 2 4 6 8 10 12 

urspr. Anzahl Buecher 

Durch die Transformation ist erreicht worden, daß die starke Rechtsschiefe 

ausgeglichen wurde. Die Merkmalsachse ist nicht mehr im Sinne der ursprünglichen 

Daten interpretierbar. Für Modellierungsversuche ist das aber u.U. nicht 

wichtig.

in:8 

out:8 

in:8 

out:8 


1.2.3 Die empirische Verteilungsfunktion 

Auf der Seite 33 wurde der Dot-Plot einer Zufallsstichprobe Stichprobe vom Umfang 

n = 20 aus dem Datensatz Anzahl Bücher gezeigt. Was halten Sie von dieser 

leicht veränderten Darstellung der Daten? 

> dot.plot(sort(x),main="Dot Plot von x_(i)", 

xlab="Anzahl Buecher",ylab="(i)") 

(i) 

2 4 6 8 10 12 14 16 18 20 

Dot Plot von x_(i) 

0 200 400 600 800 


Abbildung 7 

In diesem Dot-Plot sind nicht die xi sondern die x(i) abgetragen worden, also 

die Rangwertreihe. Ganz vorsichtig sind zwei Geraden hinzugefügt worden, vertikal 

durch den Median bzw. horizontal die Stelle 10 verlaufend. Die Zahlen X von 

0 bis 20 sind auf die Zahlen Z = (x − min(X))/(max(X) − min(X)) von 0 bis 

1 transformiert worden. Diese Transformation ist als zusätzliche vertikale Achse 

eingezeichnet. 

Im Gegensatz zum normalen Dot-Plot wird durch die Lage der Punkte eine 

Kurve beschrieben, die von links unten nach rechts oben verläuft. Das Steigungsverhalten 

der Kurve schwankt stark. Am Anfang verläuft die Kurve steiler, am 

Ende flacht sie ab. 

Die Graphik soll, leicht verändert, noch einmal dargestellt werden: 

> emp.cdf(x,stetig=F) 

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1


kum. rel. Haeufigkeiten 

0.0 0.2 0.4 0.6 0.8 1.0 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

Empirische Verteilungsfunktion 

* 

* 

0 200 400 600 800 

Abbildung 7 

Die 20 Beobachtungen sind durch kleine Sterne zusätzlich gekennzeichnet. 

Die Punkte sind durch Treppenstufen miteinander verbunden. Die empirische 

Verteilungsfunktion ˆ F () zeigt zu jeder Stelle x ∈ R die relative Anzahl ˆ F (x) der 

Beobachtungen an, die nicht größer sind als x: 

Definition: Empirische Verteilungsfunktion ˆ F (x) (diskret) 

ˆF (x) = 

Anzahl der Beobachtungen kleiner gleich x 

Anzahl der Beobachtungen 

Die empirische Verteilungsfunktion stellt die kumulierte relative Häufigkeit graphisch 

dar. 

ˆF (x) verallgemeinert anschaulich das Konzept von Median und Quartil hin zu 

den Quantilen. Wenn mich Beispielsweise die Frage umtreibt, wie viele Bücher 

die unteren 25% höchstens besitzen (= unteres Quartil, x0.25), dann beantwortet 

mir ˆ F (x) gerade diese Frage durch Hinschauen: Ich bewege mich von der 25% 

Stelle nach rechts, solange bis ich auf die Kurve treffe. Dort fällt man dann das 

Lot auf die Merkmalsachse und hat den gewünschten Punkt erreicht. 

Diese Fragestellung kann natürlich für jedes xp, mit 0 ≤ p ≤ 1 gestellt werden. 

*


Je steiler ˆ F (x) verläuft, desto dichter gedrängt liegen die Daten, verflacht die 

Kurve dagegen, dann machen sich die Beobachtungen rar. Die theoretische Verteilungsfunktion 

F () ist die Flächenfunktion der Dichtefunktion f(). Die gerade 

erstellte empirische Verteilungsfunktion zu x korrespondiert daher zu der empirischen 

Dichte (vgl. Seite XXXX) — verläuft ˆ F () sehr steil und flacht anschließend 

ab, dann muß viel relative Häufigkeit, also Fläche unter dem Dichteschätzer, zu 

Beginn angesiedelt werden. 

Definition: Empirische Verteilungsfunktion ˆ F (x) (stetig) 

⎧ 

⎪⎨ 

0 für x < UG1 

ˆF (x) = ˆF (UGi) + (x − UGi) · 

⎪⎩ 

ˆ fi UGi < x ≤ OGi 

1 für x > UGk 

Dabei ist ˆ fi die Häufigkeitsdichte in der i−ten Klasse, in welcher gerade x liegt. 

Um ˆ F () zu berechnen, wird die kumulierte relative Häufigkeit bis zur Untergrenze 

der Klasse i, in der x liegt, berechnet, F (UGi). Hinzuaddiert wird die 

relative Häufigkeit von der Untergrenze bis zur Stelle x. 

Im folgenden sind vier verschiedene empirische Verteilungsfunktionen der Zufallsstichprobe 

x dargestellt. Der Buchstabe K markiert die Klassengrenzen 

Zusätzlich sind der sortierte Datensatz durch Sterne eingetragen sowie verschiedene 

Quantilsanfragen aus der Graphik zur diskreten Version von ˆ F () von 

der Seite XXXX übernommen worden.




0.0 0.2 0.4 0.6 0.8 1.0 

0.0 0.2 0.4 0.6 0.8 1.0 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

Emp. Verteilungsfkt. 

1 Klasse 

* 

0 200 400 600 

K 

800 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 


8 Klassen 

* 

K K K K K K K K 

0 200 400 600 800 

* 

* 



0.0 0.2 0.4 0.6 0.8 1.0 

0.0 0.2 0.4 0.6 0.8 1.0 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 


4 Klassen 

* 

K K K K 

0 200 400 600 800 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 


13 Klassen 

K K K K 

0 200 400 600 800 

Das konkrete Aussehen von ˆ F () hängt von der Wahl der Klassengrenzen ab. 

Im Bild links oben wurde lediglich eine Klasse gebildet, von 0 bis 800. Man 

kann gut erkennen, daß bei der stetigen empirischen Verteilungsfunktion implizit 

Gleichverteilung innerhalb einer Klasse unterstellt wird. Bei nur einer Klasse ist 

das offensichtlich falsch, wie die zusätzlich eingezeichneten Hilfspunkte aufzeigen. 

Bei 4 Klassen sieht das Bild bereits besser aus, die Ausreißerstruktur wird 

aufgedeckt. Allerdings ist die Wahl der ersten Klasse (0, 200) denkbar schlecht. 

Die damit angenommene Gleichverteilung ist ungünstig. 

Bei 8 Klassen kommen die Quantilsanfragen zu fast identischen Ergebnissen 

wie die aus der diskreten Darstellung. 

1.2.4 Konzentrationsmaße und Indizes 

1.2.5 Fallstudien 

Lotto 

Spielen Sie auch Lotto? Dann wäre das folgende Angebot ja vielleicht etwas für 

Sie: 

* 

* 

*


Wie man an dem handschriftlichen Eintrag erkennt, stimmt keine einzige der 

vorausgesagten Ziffern. Wie wahrscheinlich ist es denn die ersehnten 6 Richtige 

zu ziehen, oder wenigstens ein wenig Geld zu verdienen? Was gewinnt eine 

Lottospielerin? 

Es ist sinnvoll, sich einer solchen Frage aus zwei Richtungen zu nähern: Wie 

sehen die samstägigen Ziehungen aus, und was tippen die Leute eigentlich. 

Für dieses Vorhaben werden 2 Ansätze angeboten, die miteinander kombiniert 

werden sollen: 

• Alle gezogenen Lottozahlen von Oktober 1955 bis einschließlich 2003 stehen 

zur Verfügung. Das sind 2516 Ziehungen bzw. 15096 gezogene Ziffern 

(www.west-lotto.de). 

• Mit dem Rechner simulierte Lottoziehungen — so viele man will (R). 

Schauen wir uns also zunächst die Häufigkeitsverteilung der gezogenen Ziffern 

von 1. . . . 49 an:



0.000 0.005 0.010 0.015 0.020 

250 

13 

Haeufigkeitsverteilung der 

Kugeln 1...49 

1 3 5 7 9 12 15 18 21 24 27 30 33 36 39 42 45 48 

Kugel 

Man sieht, daß nicht alle Kugeln gleich häufig aus der Trommel gezogen wurden. 

Manche häufiger, manche weniger häufig. Die Kugel mit der Nummer 32 

führt die Liste an, Schlußlicht ist die 13. Im Stabdiagramm sind die relativen 

Häufigkeiten abgetragen. Die horizontale Linie ist an die Stelle 1/49 plaziert worden. 

Es ist zu erwarten gewesen, daß die Stäbe nicht alle bei 1/49 enden. Sind die 

Unterschiede normal? Oder darf man nun bereits Schlußfolgerungen ziehen? Müßten 

so viele Ziehungen nicht ein gleichmäßigeres Ergebnis liefern? Wir vertagen 

die Beantwortung ein wenig. 

Die Ziehungsvorschrift sieht vor, daß 6 Kugeln ohne Zurücklegen aus der 

Trommel entnommen werden. Man könnte sich fragen wie die Häufigkeitsverteilung 

bei den Ziehungen 1 . . . 6 aussieht: 

359 

32





0.000 0.005 0.010 0.015 0.020 0.025 

0.000 0.005 0.010 0.015 0.020 0.025 

0.000 0.005 0.010 0.015 0.020 0.025 

39 

7 

61 

17 

1. Kugel 

61 61 

3738 

1 4 7 11 15 19 23 27 31 35 39 43 47 

70 

6 

3. Kugel 

1 4 7 11 15 19 23 27 31 35 39 43 47 

28 

13 

5. Kugel 

1 4 7 11 15 19 23 27 31 35 39 43 47 

68 

41 

30 

45 




0.000 0.005 0.010 0.015 0.020 0.025 0.030 

0.000 0.005 0.010 0.015 0.020 0.025 

2. Kugel 

1 4 7 11 15 19 23 27 31 35 39 43 47 

33 

15 

4. Kugel 

36 

79 

30 32 

1 4 7 11 15 19 23 27 31 35 39 43 47 

6. Kugel 

1 4 7 11 15 19 23 27 31 35 39 43 47 

Die Stabdiagramme sehen alle relativ gleichartig aus und ähneln dem Gesamtstabdiagramm. 

Man könnte sagen, daß bei letzterem die Stäbe etwas insgesamt 

etwas enger um die 1/49 streuen. Die nächste Graphik stellt die Standardabweichungen 

der relativen Häufigkeiten für die Kugeln 1 . . . 49 dar. Das G steht 

für Gesamtbetrachtung, es ist also die Streuung der relativen Häufigkeiten unter 

Berücksichtigung aller 15096 gezogenen Ziffern. Die Zahlen von 1 . . . 6 beziehen 

sich auf die 1. gezogene Kugel, die 2. usw. Hier liegen also jeweils lediglich 

15096/6 = 2516 Beobachtungen zugrunde: 

0.000 0.005 0.010 0.015 0.020 0.025 

66 

9 

35 

28 

72 

49


s 

s 

0.0000 0.0010 0.0020 0.0030 

0 5 10 15 

1 

1 

2 

2 

Streuungen der relativen 

Haeufigkeiten 

3 

Ziehung und Gesamt 

Streuungen der absoluten 

Haeufigkeiten 

Ziehung und Gesamt 

4 5 

3 4 5 

Die Graphik bestätigt den Eindruck. Bei G ist die Streuung deutlich geringer 

als bei den einzelnen Ziehungen. Allerdings nur bei Betrachtung der relativen 

Häufigkeiten, bei den absoluten ist die Streuung sogar größer. 

Es soll noch eine weitere Graphik betrachtet werden, und dann fassen wir 

zusammen. 

rel. Haeufigkeit 

0.00 0.01 0.02 0.03 0.04 0.05 

Entwicklung der rel. Haeufigkeiten von 

2 38 11 41 12 16 26 30 5 43 

0 5000 10000 15000 

Ziehung 

Es wurden zufällig 10 Kugeln ausgewählt, deren chronologisches Auftauchen 

unter den 15096 gezogenen Kugeln verfolgt wurde. Für jede Kugel wurde zu 

jedem Zeitpunkt auf der horizontalen Achse die aktuelle relative Häufigkeit auf 

G 

G 

6 

6

el. Haeufigkeiten 

0.000 0.005 0.010 0.015 0.020 


der vertikalen Achse abgetragen, so daß 10 Linienzüge entstehen. Bei allem Zufall 

ist eindeutig zu erkennen, wohin die Reise geht. Keine der Kugeln hat, und das 

wissen wir schon vom Stabdiagramm, am Ende eine relative Häufigkeit von 1/49. 

Während die Kurven zu Beginn jedoch großen Schwankungen unterworfen sind, 

so stabilisiert sich dieses Bild deutlich. Nach spätestens 4000 gezogenen Kugeln 

schwanken die Häufigkeiten um diese erwarte Häufigkeit. 

Zusammenfassend läßt sich feststellen, daß mit zunehmendem Ziehungsumfang 

sich die Verteilung langsam stabilisiert, die relativen Häufigkeiten bewegen 

sich auf 1/49 zu. Wir haben Indizien dafür gefunden, daß für die absoluten Häufigkeiten 

u.U. die gegenteilige Aussage gilt. Hilft diese Feststellung für eine Prognose? 

Sind diese knapp 50 Jahre Lottoziehungen eigentlich ein typisches Ergebnis? 

Mit Hilfe von R sollen noch einmal 50 Jahre lang Lottozahlen gezogen werden. 

Die Simulation ist dementsprechend so aufgebaut, daß 2516-mal 6 Kugeln ohne 

Zurücklegen gezogen werden. Hier ist das Ergebnis: 

269 

3 


Kugeln 1...49 − Simulation 

1 3 5 7 9 12 15 18 21 24 27 30 33 36 39 42 45 48 

Kugel 

354 

32 


0.00 0.01 0.02 0.03 0.04 0.05 


2 38 11 41 12 16 26 30 5 43 

0 5000 10000 15000 

Ziehung − Simulation 

Es kommen natürlich verschiedene Bilder heraus. Allerdings ist die Grundstruktur 

dieselbe. Simulation und tatsächliche Ziehung haben sich gewissermaßen 

gegenseitig bestätigt. 

Was wäre, wenn bereits seit 250 Jahren in Deutschland Lotto gespielt würde? 

Das wäre ein mehr als 5-mal so langer Zeitraum im Vergleich zum tatsächlichen 

Zeithorizont. Das entspräche dann 250 · 52 = 13000 Ziehungen, was 13000 · 6 = 

78000 gezogene Kugeln bedeutet. Hier das Ergebnis — die eben gezogenen 15096 

gezogenen Ziffern sind hier ebenfalls berücksichtigt:


0.000 0.005 0.010 0.015 0.020 


1503 

2 


Kugeln 1...49 − Simulation 

1 3 5 7 9 12 15 18 21 24 27 30 33 36 39 42 45 48 

Kugel − Basis: 78000 Kugeln) 

1671 

35 


0.00 0.01 0.02 0.03 0.04 0.05 


2 38 11 41 12 16 26 30 5 43 

0 20000 40000 60000 80000 

Ziehung − Simulation 

Bereits anhand des Stabdiagrammes läßt sich feststellen, daß die Streuung 

der relativen Häufigkeiten dramatisch abgenommen hat. Die Unterschiede in den 

absoluten Häufigkeiten haben dagegen zugenommen. In Zahlen ausgedrückt heißt 

das für alle 78000 Ziehungen — man vergleiche das einmal mit der Graphik auf 

der Seite 68: 

Streuung der relativen Haeufigkeiten: 

s=0.00051 

Streuung der absoluten Haeufigkeiten: 

s=39.54 

Bei der Darstellung der Entwicklung der relativen Häufigkeiten ist zur Orientierung 

an der Stelle 15096 ein senkrechter Strich eingezeichnet worden, die Stelle 

entspricht dem Ziehungszeitraum von knapp 50 Jahren. Die Schwankungen der 

Kurven nimmt im weiteren Verlauf stark ab. 

Hilft dieser Blick in die Zukunft nun, um brauchbare Vorhersagen zu treffen? 

Nein gar nicht, die Gleichförmigkeit verhindert das. Wenn sich abgezeichnet hätte, 

daß einige Kugeln stark abweichen vom Trend zur 1/49 dann ja, so aber nicht. 

Wie ist mit Blick auf das Stabdiagramm von der Seite 66 die Bemerkung 

einzustufen, die Kugel 13 müsse aber langsam mal aufholen, während die 32 in 

der Zukunft sicherlich weniger häufig gezogen werden wird? Auch auf der Lotto- 

Internetseite wird man auf Ziffern hingewiesen, die schon lange nicht mehr gezogen 

wurden bzw. eine geringe Häufigkeit aufweisen. Schert sich die Kugel darum? 

Es ist schon richtig, die relativen Häufigkeiten gleichen sich, wie demonstriert, 

langfristig immer mehr an. Allerdings ist langfristig wörtlich zu verstehen, es 

dauert, und es ist nicht vorhersehbar. Die Kugeln haben nämlich kein Gedächtnis 

in bezug auf ihr eigenes Auftauchen in der Statistik. Jede Samstagsziehung ist 

unabhängig von der davor und beeinflußt auch nicht die zukünftigen. Im übrigen

Wartezeit 

Wartezeit 

0 10 20 30 40 50 60 70 

0 10 20 30 40 50 


konnte auch demonstriert werden, daß die absoluten Häufigkeiten sich immer 

weiter weg von der Idealvorstellung bewegen. 

Das folgende Warte-Experiment soll dies empirisch untermauern. Wie lange 

muß man so im Durchschnitt darauf warten, daß eine bestimmte Kugel am Samstag 

gezogen wird? Diese diskrete Wartezeit kann alle ganzen zahlen größer oder 

gleich Null annehmen — an zwei aufeinanderfolgenden Samstagen wurde jene 

Kugel gezogen. 

Was geben die Daten für die Kugeln 13 und 25 her: 

Warten auf die 13 

mittlere Wartezeit: 8.96 

0 500 1000 1500 2000 2500 

Ziehung 


mittlere Wartezeit: 6.95 

0 500 1000 1500 2000 2500 

Ziehung 



0.00 0.02 0.04 0.06 0.08 0.10 

0.00 0.02 0.04 0.06 0.08 0.10 0.12 


0 3 6 9 13 17 21 25 29 34 43 68 

Wartezeiten 


0 2 4 6 8 11 14 17 21 24 27 31 34 45 49 

Wartezeiten 

Auf die 13 mußte im Durchschnitt 2 Wochen länger gewartet werden als auf 

die 25. Ohne zu viel Theorie vorwegzunehmen (vgl.Kapitel XXXX), lassen sich 

diese Zahlen mit Erwartungen verknüpfen. Jede Kugel hat an jedem Samstag eine 

Wahrscheinlichkeit von 6/49, gezogen zu werden. Sie ist also so alle 1/(6/49) = 

49/6 = 8.17 mal dran, also so etwa alle acht Wochen. Für die Wartezeit muß noch


0.00 0.02 0.04 0.06 0.08 0.10 0.12 


die Eins abgezogen werden — um dran zu sein muß schließlich wenigstens einmal 

gezogen werden, was wiederum einer Wartezeit von mindestens Null entspricht 

—, so daß das durchschnittliche Warten bei etwas über Sieben liegt. 

Die empirischen Wartezeiten korrespondieren mit der Erwartung. Die 25 wurde 

insgesamt bisher etwas häufiger als mit 1/49 gezogen — oder 6/49 wenn man 

die Ziehung als Einheit ansieht. Die 13 dagegen seltener, was sich in einer größeren 

Wartezeit widerspiegelt. 

Es mußte bis zu 68 Wochen gewartet werden, bis die 13 endlich wieder gezogen 

wurde. Wenn man dann nach 67 Wochen voller Zuversicht die 13 angekreuzt 

hätte, wäre man sehr enttäuscht gewesen. Die Wahrscheinlichkeiten ändern sich 

nicht, gezogen zu werden, auch wenn ein Kugel aufgrund einer zufälligen Laune 

über einen längeren Zeitraum nicht gezogen würde. 

Täten sie es doch, dann müßte man folgendes Phänomen bei den empirischen 

Wartezeiten beobachten können. Nähme die Wahrscheinlichkeit, gezogen 

zu werden, zu, je länger eine Kugel nicht gezogen wird, dann müßte sich die 

durchschnittliche zusätzliche Wartezeit verringern. 

Anders formuliert: Es werden nur diejenigen Warteperioden berücksichtigt, bei 

denen länger als siebenmal auf eine Kugel gewartet werden mußte. Stimmt die 

Aussage über die steigenden Wahrscheinlichkeiten, dann müßten die zusätzlichen 

Wartezeiten jenseits der 7 deutlich kleiner sein als die gesamten Wartezeiten. 

Die zusätzliche Wartezeit ist also wie folgt definiert: 

zusätzliche Wartezeit := (Wartezeit ≥ 8) − 8 

Es ergeben sich die folgenden Stabdiagramme der zusätzlichen Wartezeiten 

für die Kugeln 13 und 25: 


durchschn. Warten: 9.14 

0 3 6 9 12 16 20 24 29 35 60 

zus. Wartezeiten ab 8 


0.00 0.02 0.04 0.06 0.08 0.10 0.12 


durchschn. Warten: 8.33 

0 2 4 6 8 10 13 16 19 23 26 37 41 

zus. Wartezeiten ab 8 

Wie man sieht hat die durchschnittliche zusätzliche Wartezeit sogar zugenommen. 

In der nächsten Graphik sind die durchschnittlichen Wartezeiten für


0.0 0.1 0.2 0.3 0.4 


alle 49 Kugeln im Vergleich mit den zusätzlichen Wartezeiten dargestellt. Dieses 

für zusätzliches Warten ab 8, 10,12 und 14: 

zus. warten ab 8 


6.0 6.5 7.0 7.5 8.0 8.5 9.0 

6 7 8 9 10 

32 

Vgl. der durchschn. Wartezeiten 

oben:28, unten:21 

38 

49 

20 

15 

22 

5 

25 

44 

42 27 41 

23 

48 

4 

31 35 29 

6 

18 3917 

9 

14 

11 

43 10 

26 2 37 

3 

2133 

40 

36 

19 

1 

12 7 

24 

16 

46 

4730 

6.0 6.5 7.0 7.5 8.0 8.5 9.0 

32 

49 

38 

8 

45 

34 

alle Wartezeiten 



5 

23 

4629 

4 

30 

27 20 

25 11 

26 9 

35 12 

1 

6.0 6.5 7.0 7.5 8.0 8.5 9.0 


28 

16 

227 

15 47 8 

44 

34 

4842 

621 

17 41 

39 

3 

33 

2 31 1843 19 37 

36 40 

14 

24 

10 

28 

45 

13 

13 



6 7 8 9 

5 6 7 8 9 10 

32 



49 

38 

22 

5 

30 16 

20 

34 

8 28 

25 

46 23 

1215 

47 

7 

4 

26 

18 

17 

6 

10 14 

9 19 

27 

42 

31 

43 41 

35 29 

39 

33 40 

44 

48 

21 3 

2 

36 

11 

37 

1 

24 

6.0 6.5 7.0 7.5 8.0 8.5 9.0 

32 

49 

38 

45 




11 

44 16 

20 

5 15 30 

47 4 

22 

46 

25 9 41 

29 

26 

4821 

6 37 

2718 

35 

33 17 

42 31 

2 43 

3 

39 

19 

36 24 

10 14 

40 

1 

7 

12 

45 

8 

6.0 6.5 7.0 7.5 8.0 8.5 9.0 

23 

34 


Von der Thematik beflügelt, tippt der Autor dieser Zeilen 1 Reihe Lotto für 

Samstag den 10. April: 9,13,24,27,40,44. Wie hätte man damit in der Vergangenheit 

abgeschnitten? 

1127 

1026 

Tip: 

9,13,24,27,40,44 

321 

0 1 2 3 4 

Anzahl Richtige 

40 

2 


0 1 2 3 4 

28 

Wann, wie viele Richtige 

0 500 1000 1500 2000 2500 

Ziehung 

13 

13


Nicht besonders gut! Die letzten knapp 50 Jahre hätten zweimal 4- Richtige, 

sowie 40 mal 3-Richtige eingebracht. Unter finanziellen Gesichtspunkten ist das 

ein ziemlich miserabeles Ergebnis. 2516 Reihen zu tippen, kostet etwa 2000 Euro. 

Der Gewinn mit den 40 Dreiern und zwei Vierern liegt je nach Quoten bei wohl 

nicht mehr als 400 Euro. In über 98% aller Lottoziehungen hätte man gar nichts 

gewonnen. 

Ein Blick auf die rechte Graphik erweckt den Eindruck, daß man so etwa alle 

1000 Ziehungen mal mit 4-Richtigen rechnen kann. Die nächste Graphik zeigt, daß 

die relativen Häufigkeiten schnell stabil werden, mit Überraschungen ist nicht zu 

rechnen. 


0.0 0.2 0.4 0.6 0.8 1.0 

Entwicklung der relativen 

Gewinnhaeufigkeiten 

0 500 1000 1500 2000 2500 

Ziehung 

Warum spielt man also trotzdem? Dieselbe Analyse soll nun mit den für den 

Zeitraum von 250 Jahren simulierten 13000 Ziehungen durchgeführt werden. 

0 

1 

2 

3 

4


0.0 0.1 0.2 0.3 0.4 


5621 

5424 

Tip: 

9,13,24,27,40,44 

1704 

0 1 2 3 4 


237 

14 


Wann, wie viele Richtige 

0 2000 4000 6000 8000 10000 12000 

Nach 250 Jahren sind nicht einmal 5-Richtige dabei. Die Simulation bestätigt 

die Ergebnisse. Etwa alle 1000 Ziehungen (≈ 20 Jahre) kann man mit 4-Richtigen 

rechnen. Auch hier gewinnt man in über 98% aller Ziehungen gar nichts. 


0.0 0.2 0.4 0.6 0.8 1.0 

0 1 2 3 4 

Entwicklung der relativen 

Gewinnhaeufigkeiten 

Ziehung 

Ziehung 

0 2000 4000 6000 8000 10000 12000 

Und was ist mit 5- oder gar 6-Richtigen? Zur Beantwortung dieser Frage sei auf 

das Kapitel XXX verwiesen. Noch eine Schlußbemerkung: 2516 bzw. auch 13.000 

Ziehungen sind im Vergleich zur Gesamtzahl aller möglichen und verschiedenen 

Lottoziehungen immer noch sehr wenige — verglichen mit den 13.000 gibt es 

0 

1 

2 

3 

4


mehr als 1000-mal so viele. Nach über 260.000 Jahren kann man anfangen, damit 

zu rechnen, daß sich jede mögliche Kombination wenigstens einmal ereignet hat. 

Und die Prognose vom Anfang? Was halten Sie von der Aussage über das 

Gesetz der großen Zahlen bzw. den nicht idealen Zufallszahlengenerator? 

Dieses Werbeblatt wurde per email verschickt. Eine Idee, warum so eine Werbeaktion 

vielleicht gemacht wurde — die Aussagen lassen sich aus den Datenanalysen 

der letzten Seiten gewinnen: Angenommen es wurden 10 Million solcher 

emails verschickt mit insgesamt vielleicht 50.000 verschiedenen Glückszahlen — es 

haben also jeweils 200 Adressaten dieselben Glückszahlen bekommen. Die überwältigende 

Mehrheit wird 0- bzw. 1-Richtigen mit ihren persönlichen Prognosen 

erreichen, etwas über 40.000 der Glückszahlen werden so abschneiden. 

Es ist aber auch so, daß knapp 1000 der prognostizierten Lottozahlen 3- oder 

sogar 4-Richtige vorhersagen werden. Diese Gruppe, immerhin 200.000 Adressaten, 

werden durchaus beeindruckt sein von den demonstrierten Vorhersagefähigkeiten. 

Und eine Gruppe, also 200 Personen, wird sich vermutlich sogar sehr 

ärgern, den Lottotip nicht gespielt zu haben, ihre persönliche Prognose resultierte 

nämlich in 5-Richtigen. 

Mit einer solchen oder ähnlichen Rechnung wird klar, warum sich der Aufwand 

für die Anbieter der Prognosen lohnen könnte. Mit dem Medium email ist es 

zudem äußerst günstig, so massenhaft Werbematerial zu verschicken.

buch.041116.pdf - PDF-Format

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?