Statistik I

Inhaltsverzeichnis: 

Statistik I 

Teil I: Versuchsplanung Seite 1 

Teil II: Deskriptive Statistik Seite 3 

Teil III: Korrelation und Regression Seite 10 

Teil IV: Wahrscheinlichkeitstheorie Seite 21 

Teil V: Variabilität zufälliger Prozesse Seite 30 

Teil VI: Stichprobenverfahren Seite 37 

Hinweise und Anmerkungen der Herausgeber: 

Dieses Skript basiert auf unseren Mitschriften der Vorlesung Statistik I vom WS 1996/97 und 

WS 1997/98. Es soll den uns nachfolgenden Hörern der Vorlesung das Abschreiben der 

immer wieder gleichen Folien ersparen, so daß man sich intensiv auf den Inhalt konzentrieren 

kann. An einigen Stellen fügt Herr Olbricht gerne einige Notizen ein, die sich jedoch immer 

wieder ändern. Es ist also immer noch notwendig, der Vorlesung zu folgen, um die aktuellen 

Hinweise und Erklärungshilfen zu erhalten. 

Die Seitenangaben, die immer wieder als Hinweise gegeben werden, beziehen sich auf das 

Buch von Freedman/ Pisani/ Purves/ Adhikari: Statistics, 2 nd Edition (W.W. Norton, 1991). 

Ergänzend zur Vorlesung wird von dem zuständigen Lehrstuhl jeweils ein Übungsskript 

herausgegeben. Von uns sei an dieser Stelle nur der Hinweis gegeben, diese Übungen ernst zu 

nehmen, weil die regelmäßige Übung und das eigenständige Lösen von Aufgaben − auch 

wenn man nicht immer ein oder das richtige Ergebnis finden sollte − doch sehr zur 

erfolgreichen Vorbereitung auf die Klausur beiträgt! Auch wenn es sich jetzt gerade etwas 

oberlehrerhaft angehört hat, aber so waren nun einmal unsere Erfahrungen mit der Vorlesung, 

den Übungen und der abschließenden für das Vordiplom zählenden Klausur ! 

Nun möchten wir Euch nur noch viel Spaß und viel Erfolg wünschen !!! 

Stephanie Neuberg und Alexander Prell 

Statistik I − Seite 1

Teil I: Versuchsplanung 

1. Kontrollierte Experimente 

Wie gewinnt man „gesicherte Erkenntnisse“ ? 

→ Vergleich unter identischen Bedingungen 

Zuordnung zu Gruppen (Behandlungsgruppe − Kontrollgruppe): 

Kontrollierte Zuordnung durch den Experimentator oder 

Randomisierte Zuordnung, explizit „zufällig“, dies schließt bias, und 

somit vermengte (confounded) Effekte weitgehend aus. 

Bsp.: Polio − Impfstoff 

ist ein randomisierter, kontrollierter doppeltblinder Versuch 

2. Beobachtungsstudien 

doppelt − blind: weder Versuchsperson noch Auswerter kennen die 

Zugehörigkeit zu Kontroll− und Behandlungsgruppe 

(hier: Verwendung von Placebos) 

Manchmal liegt die Zuordnung nicht in der Hand des Experimentators, z. B. 

Raucher / Nichtraucher 

Ein vermengender Faktor kann manchmal durch Unterteilung in kleinere 

homogene Gruppen „kontrolliert“ werden. 


Teil II: Deskriptive Statistik 

Ziel: Darstellung und Aufbereitung von Datenmaterial 

Einordnung: 

Daten Modell 

→ deskriptive Statistik → Wahrscheinlichkeitstheorie 

Schluß 

→ analytische Statistik 

Daten: Untersuchungseinheiten 

Merkmale (Variablen) 

Merkmalsausprägungen („Daten“) 

Klassifikationen: 

a) Meßskalenniveau 

− nominal (m, w) ungeordnet 

− ordinal (1, ..., 6) geordnet 

− metrisch 

+ Intervallskala → Differenzen sinnvoll 

+ Ratio Skala → Intervallskala mit Nullpunkt, Differenzen 

und Verhältnisse sinnvoll 

b) Art des Merkmals 

− quantitativ („Zahl“) 

+ diskret 

+ stetig 

− qualitativ („Status, Eigenschaft“) 

+ geordnet 

+ ungeordnet 

c) Art der Messung 

− analog 

− digital 

⇒ alle Daten lassen sich numerisch kodieren, d. h. Daten sind ein Haufen von 

Zahlen. 


3. Histogramme 

Bsp.: mathematisches Seminar 

10 Teilnehmer mit folgenden Kontoständen in HDM 

2, 3, 3, 4, 5, 5, 5, 8, 9, 10 

VWL−Vorlesung 

271 Teilnehmer mit folgenden Kontoständen in HDM 

9, 9, 9, 9, 9, 10, 15, 200, 200, ... 

Gibt es „mehr“ 9 bei Mathe oder VWL 

→ Vergleiche standardisieren → Prozentwerte 

a) Stabdiagramm 

b) Säulendiagramm 

c) Histogramm 

− Histogramm stellt Prozentzahlen als Flächen dar 

− die verteilte Skala ist die „Dichteskala“: 

→ Prozentzahl der Fläche pro Einheit der horizontalen Skala 

− Höhe des Blocks ergibt sich durch Division: 

→ Höhe * Grundseite = Prozentzahl der Fälle in dem betr. 

Intervall 

− die Gesamtfläche ist 1 bzw. 100% ! 

− Anwendung der Histogramme: 

Histogramme werden zur Darstellung von Daten und zum 

Vergleich von Populationen verwendet. Sie werden allerdings 

schichtweise verglichen. 

(siehe Beispiele im Buch: Zusammenhang zwischen Blutdruck 

und Pille, intelligente und dumme Raten) 

4. Arithmetisches Mittel und Standardabweichung 

Beschreibung von Daten durch: 

a) Lagemaße („typischer Wert“) 

b) Streuungsmaße („Abweichungen“) 

Dies ist aber wenig sinnvoll bei mehrgipfligen Histogrammen ! 

a) Lagemaß: arithmetisches Mittel 

arithmetisches Mittel = 

Interpretation und Eigenschaften des arithmetischen Mittels: 

− balanciert das Histogramm aus 

− Schwerpunkt der Verteilung 

− hängt stark von extremen Werten ab (Hebelwirkung) 

− ungeeignet für stark „schiefe“ Verteilungen 


Median: − Zentralwert des Histogramms 

− jeweils 50% der Daten liegen links und rechts vom 

Median 

− unempfindlich gegen extreme Werte 

Modus: − Lage des Gipfels des Histogramms 

− häufigster Wert 

b) Streuungsmaß: Standardabweichung 

root mean square ( r.m.s.) = 

SD = 

Eigenschaften der SD: 

− selbe Einheit wie die Daten 

− mißt die Streuung der Daten um das Mittel 

− vielfach liegen 

68% der Datenwerte nicht weiter als 1 SD 

95% der Datenwerte nicht weiter als 2 SD 

vom arithmetischen Mittel entfernt 

5. Normalapproximation von Histogrammen 

mathematische Definition: 

f(x) = 

graphisch: Glockenkurve 

Eigenschaften: 

− symmetrisch um 0 

− Fläche unter der Kurve ist 1, bzw. 100% 

− Fläche zwischen −1 und 1 ist ≈ 68% 



− Fläche außerhalb [−4;4] ist verschwindend klein 

Verallgemeinerung: 

Es gibt eigentlich viele Glockenkurven, die sich nur durch die Lage des 

Scheitelpunktes und die Breite unterscheiden. 

Die Formel ist: 

g(x) = 


... 

Der obige Spezialfall (µ = 0, σ = 1) reicht aus, wenn Standardeinheiten 

benutzt werden. 

Standardeinheiten: 

− geben dasjenige Vielfache der Standardabweichungen an, um das im 

Wert über ( + ) oder unter ( − ) dem arithmetischen Mittel liegt 

− Beispiel: HANES− Daten: ave = 63,5, SD = 2,5 

Dann ist 68,5 = 63,5 + 2 * 2,5, also +2 in Standardeinheiten 

61,0 = 63,5 − 1 * 2,5, also −1 in Standardeinheiten 

Umgekehrt: −1,5 in Standardeinheiten entspricht 63,5 − 1,5 * 2,5 ≈ 

59,75 

− Vorteil: man braucht nur eine Glockenkurve und nur eine Tabelle 

Flächenberechnung: 

prinzipiell: Integration 

aber: kein genereller Ausdruck für Integral möglich 

→ daher Verwendung von Tabellen 

ACHTUNG: unterschiedlicher Aufbau der Tabellen 

Normalapproximation von Histogrammen: 

Quantile: 

Verfahren: − Ersetze Histogramme durch die Normalverteilung 

(NV) 

− Berechne Flächenanteil durch NV 

Beispiel: MW = 69; SD = 3 

Gesucht: Prozentsatz zwischen 63 und 72 ? 

Bemerkung: − Falls Histogramm der NV− Kurve folgt, fassen ave und 

SD alle Informationen gut zusammen 

− gilt nicht immer ! 

Problem: Wie faßt man eine „nichtnormale“ Verteilung zusammen? 

Beispiel: Einkommensverteilung 

1% Quantil: $ 1.300, d.h. 1% verdienen nicht mehr als 

... ... 

99% Quantil: $ 125.600, d.h. ... 


6. Meßfehler 

Definition: Das a % − Quantil ist der Wert, unter dem a % und über 

dem ( 100 − a ) % der Daten liegen. 

Spezialfälle: 25% − Quantil: „unteres Quartil“ 

50% − Quantil: „Median“ 

75% − Quantil: „oberes Quartil“ 

Streuungsmaß: Quartilsabstand = oberes Quartil − unteres Quartil 

Deshalb halten wir fest: 

a) zufällige Fehler 

Ein a % − Quantil ist ein Wert, „unter“ (im Sinne von ≤) dem 

mindestens a % der Daten und „über“ (im Sinne von ≥) dem 

mindestens (100 − a) % der Daten liegen. 

Falls es mehrere solche Werte gibt, bilden diese ein Intervall. 

Das a % − Quantil ist der Intervallmittelpunkt. 

Wie gehen die Zufallsfehler in die Messung ein ? 

⇒ Meßwert = wahrer Wert + Zufallsfehler 

≈ ⏐ 

Mittelwert beschrieben durch 

die Standardabweichung 

b) Ausreißer 

Definition: Ein Wert, der zu einem anderen Grundelement gehört 

aber: Wie wird das festgestellt ? 

Effekt: große Standardabweichung, verzerrte Werte 

c) systematische Fehler 

→ niemals Werte ohne Grund ausschließen, evtl. robuste 

Verfahren verwenden 

− stets derselbe Fehler 

− nicht aus Daten zu entnehmen, höchstens durch Vergleiche 

Meßwert = wahrer Wert + systematischer Fehler + Zufallsfehler 

Genauigkeit und Präzision: 

Genauigkeit bei systematischen Fehler 

Präzision bei zufälligem Fehler 


7. Hinweise zur Analyse, Darstellung und Präsentation von Daten und 

Ergebnissen 

a) Explorative Datenanalyse 

Stem − and − Leaf Displays: 

5 5 2 8 ... 

6 5 3 ... 

7 ... 

8 ... 

9 ... 

10 ... 

Bemerkungen: 

− ist den Histogrammen ähnlich 

− zeigt die vollen Daten 

− leichtes Ablesen von Median und Quantilen 

b) 5 − Number − Summaries 

Ziel: Gesamteindruck von den Daten 

Definition: 

Median 

unteres Quantil oberes Quantil 

Minimum Maximum 

Bemerkung: 

− mehrfaches Halbieren 

− häufig etwas anderes definiert mittels huiges (statt Quantilen), 

aber komplizierter 

− 7− number− summaries analog 


c) Boxplots 

Ziel: zeichnerische Umsetzung der 5− number− summaries 

⏐ ⏐ ⏐ ⏐ ⏐ 

52 62 68,5 78 93 

= Q1 = Q 2 = Q 3 

1. Kasten (Box) aus Median (Q 2) und Quartilen (Q1, Q3) 

2. Ablesen des Quartilenabstandes (Q3 − Q1). Anlegen des 1,5− 

fachen Quartilenabstandes an Q1 bzw. Q3 definiert die 

„Normalbereiche“. Streiche den extremsten Datenpunkt 

innerhalb dieser Bereiche. 

Bemerkung: 

− auch vertikal möglich 

− zeigt: a) Zentralwert 

b) Streuung (durch Q3 − Q1) 

c) Symmetrie 

d) Ausreißer 

− vergleichende Boxplots 

⇒ mehrere nebeneinander (oder übereinander) 


Teil III: Korrelation und Regression 

8. Korrelation und Regression 

a) Streuungsdiagramm (scatter plot) 

→ graphische Darstellung der Beziehung zwischen Größe und Gewicht 

Aussage: Lage der Datenwolke 

Form der Datenwolke 

Assoziation / Neigung 

Ausreißer 

b) Korrelationskoeffizient 

→ Beschreibung der Datenwolke durch Kennzahlen 

− für die x− Werte: arithmetisches Mittel und SD 

− für die y− Werte: arithmetisches Mittel und SD 

→ steckt den Rahmen ab 

− Korrelationskoeffizient (r) ist ein relatives Maß (−1 bis +1) der 

Häufung um eine Gerade 

− schwer zu interpretieren !!! 

⇒ aber je näher an −1 oder +1, desto „stärker“ sind die 

Datenpunkte um eine Gerade gehäuft 

c) SD − Gerade (oder SD − Linie) 

Falls r = 1 (bzw. r = −1) wird eine exakte lineare Beziehung bestehen. 

Dann kann man (in SD− Einheiten) x und y schnell ineinander 

umrechnen (vgl. auch Resultate der Übungen). 

SDx 

SDy 

r = 1 r = −1 

Definition: 

durch den Punkt (Mittel von x , Mittel von y), mit der Steigung 

a) falls r > 0 

b) − falls r < 0 

SDx 

c) eines der obigen , falls r = 0 

SDy 


d) Berechnung des Korrelationskoeffizienten 

9. Mehr über Korrelation 

− x−und y−Werte in SD− Einheiten umrechnen 

− Mittel der Produkte bilden 

r = Mittel [( x in SD− Einheiten ) * ( y in SD− Einheiten )] 

Bemerkung: 

r > 0: wenn gleichsinnige Abweichungen 

r < 0: wenn gegensinnige Abweichungen 

vom Mittelwert vorherrschen 

ausgeschlossen: 

Falls SDx = 0 oder SDy = 0, so ist r nicht definiert. Es 

muß also wenigstens zwei verschiedene x− bzw. y− 

Werte geben. 

a) Eigenschaften des Korrelationskoeffizienten 

Der Korrelationskoeffizient basiert auf den in SD− Einheiten 

umgerechneten Werten. Daher bleibt er unverändert !, wenn man 

− die x−Werte (oder die y−Werte) mit der gleichen positiven 

Zahl multipliziert → Verzerrung 

− zu den x−Werten (oder y−Werten) die gleiche Zahl addiert 

→ Verschiebung 

− die Variablen x und y vertauscht (aber nicht nur einzelne 

Paare !!!) 

b) Aussehen der Streuungsdiagramme 

− kann durchaus verschieden sein, z. B. gespiegelt 

− kann insbesondere bei unterschiedlichen Standardabweichungen 

variieren 

→ SD´en „gleich“ denken, wie in Standardbeispiel S. 119 / 121 

c) Probleme beim Gebrauch des Korrelationskoeffizienten 

− kann durch Ausreißer verfälscht werden 

− zeigt nur lineare Assoziationen 

⇒ Deswegen nicht zu verwenden, falls folgende Situationen eintreten: 

+ + + 

+ + + 

+ + + 

+ + + + 

+ + + 

Ausreißer nichtlinearer 

Zusammenhang 

⇒ Deshalb ist ein Streuungsdiagramm immer hilfreich !!! 


d) „ökologische“ Korrelation 

→ Korrelationskoeffizient für Durchschnitte oder Raten, also 

zusammengefaßte Größen 

Dies unterdrückt einen Teil der Streuung und übertreibt i. a. die 

Assoziation (→ problematisch). 

Beispiel: 

A B 

C C 

B C B C 

A B 

A B 

A A 

vorher nachher 

e) Korrelation und Verursachung 

→ Assoziation Ø Kausalbeziehung 

(Dies folgt schon aus der Symmetrie !) 

Beispiele: Größe − Gewicht 

Anzahl Störche − Anzahl Geburten 

10. Regression 

Problemstellung: Welche lineare Beziehung besteht ? 

→ Die SD−Linie ist nicht notwendigerweise der beste 

Kandidat 

Bsp.: HANES− Daten für Größe und Gewicht 

Männer mit der Größe 73 = 70 + 3 

(MW) (SD) 

haben im Durchschnitt das Gewicht 

176 = 162 + 0,47 * 30 

(MW) (r) (SD) 

a) Regressionsgerade von y auf x 

− gibt zu jedem x den Durchschnittswert der zugehörigen y an 

− geht durch den Punkt (Mittel der x−Werte ; Mittel der y−Werte) 

− hat die Steigung 

b) Spezialfälle 

r = 0: kein linearer Zusammenhang, Kenntnis von x−Werten ist 

nutzlos 

r = 1: eine Gerade, nämlich die SD−Gerade 

r = −1: analog 


c) Kurve der arithmetischen Mittel 

Für jeden kleinen vertikalen Streifen um x bildet man den Durchschnitt 

der dazu gehörigen y−Werte. Dies liefert eine „vergröberte“ 

Datenwolke bzw. Kurve von Durchschnitten (→ vgl. „ökologische 

Korrelation) 

Regressionsgerade: 

− ist geglättete Form dieser Kurve 

− sollte nicht zu sehr von der Kurve abweichen; bei deutlicher 

Nichtlinearität ist (lineare) Regression gefährlich 

d) Schätzungen für einige x− Werte 

− problemlos berechenbar mittels Regression 

− aber sehr bedenklich, wenn extrapoliert wird (über den Bereich der 

Herkunft der Daten hinaus) 

Bsp.: Schätzung der Quantilrängen 

e) Regressionsfehlschluß 

SAT, GPA jeweils „normal“ 

Korrelationskoeffizient = 0,40 

Student Schlau liegt beim SAT beim 90% − Quantil 

Wo wird er beim GPA liegen ? 

→ Er liegt 1,3 SD über dem Mittel 

Wird also voraussichtlich 0,40 * 1,3 ≈ 0,5 SD´en über dem 

Mittel abschließen, d. h. bei ≈ 69%. 

Betrachte: wiederholtes Testen 

dann wird sehr oft: Spitzengruppe im Durchschnitt relativ schlechter 

Schlußlichtgruppe im Durchschnitt relativ besser 

Dies trifft zu bei (und liegt an): 

− „Zwetschgenform“ der Datenwolke 

− Regression des zweiten Resultats (y) auf das erste (x) sog. 

Regressionseffekt 

Bsp.: Größe von Vätern und Söhnen 

zur Plausibilität: 

beobachtetes Testergebnis = wahres Ergebnis + Zufallsfehler 


Annahme: wahres Ergebnis in der Bevölkerung normalverteilt mit 

Mittel = 100 und SD = 15; 

⇒ Zufallsfehler = ± 5 

beobachtet: 140 

kann sein: 135 + 5 oder 145 − 5 

135 

145 

aber es gibt mehr Leute mit ≈ 135 als wahrem Ergebnis 

⇒ Durchschnitt der „Gruppe 140“ wird bei Wiederholung niedriger 

liegen 

f) Regressionsfehlschluß 

Annahme, daß der Regressionseffekt eine „wirkliche“ Ursache hat. 

g) Die zwei Regressionen 

Symmetrie: Es gibt auch die Regressionsgerade von x auf y. Diese sagt 

x−Werte aus gewissen y−Werten hervor. 

Situation: 

Regression SD− Gerade 

von x auf y 

Datenwolke 

Regression 

von y auf x 

Statt vertikale, jetzt horizontale Streifen. Dies sind 

unterschiedliche Teilbereiche. 


11. Der r. m. s.− Fehler bei Regression 

→ Residuen und der r. m. s.− Fehler 

a) Definitionen 

Residuum 

= beobachteter Wert − Vorhersage 

= vertikaler Abstand zwischen Punkt und Regressionsgerade 

mit Vorzeichen 

Beobachteter 

Wert 

+ 

r. m. s.− Fehler der Regressionsgeraden 

= r. m. s. der Residuen 

1rms 

Regressionsgerade 

von y auf x 

68% − 95% − Regel 

Für viele (nicht alle) Streuungsdiagramme gilt: 

∼ 68% der Punkte liegen innerhalb ± 1 r. m. s.− Fehler 

um die Regressionsgerade 

∼ 95% der Punkte liegen innerhalb ± 2 r. m. s.− Fehler 

um die Regressionsgerade 

Regressionsgerade 


) Zusammenhang mit Mittelwert und SD 

Mittel 

+ + 

X1 

+ + 

Dies ist gerade der Fall „r = 0“ (= unkorreliert). 

Die Regressionsgerade kann sich den Datenpunkten besser anpassen als 

eine „nur horizontale“ Gerade 

bzw.: Korrelation „hilft“ bei der Vorhersage 

also: r. m. s. der Regressionsgeraden wird ≤ SDy sein 

c) Berechnung des r. m. s.− Fehlers 

r. m. s.− Fehler der Regressionsgeraden von y auf x = * SDy 

(Einheit also wie y) 

Spezialfälle: r = ± 1 , dann = 0 

r = 0, dann = 1 

d) PLOTS der Residuen 

Verfahren: 

X2 

X3 

X1 

X2 

X3 

Regressions 

gerade von 

auf x 


Eigenschaften: 

a) Mittelwert ist 0 

b) Regressionsgerade (der Residuen auf x) ist die x− Achse 

Ziel: Überprüfung des Modells 

− alles o. k., dies erwartet man 

− nichtlinearer, (quadratischer) Anteil 

− Zeiteffekt (Neukalibrierung) 

− unterschiedliche Präzision, siehe oben 


f) Vertikale Streifen 

Bsp.: Größe von Vätern und Söhnen (siehe S. 179) 

Histogramme für die Größe der Söhne, deren Väter 64 bzw. 72 

inches groß sind. 

% per inch 

67 

71 

⇒ verschoben, aber ähnliche Form und gleiche SD´s 

allgemein heißt dies: Homoskedastizität 

Das Gegenteil wäre: Heteroskedastizität 

Dann: unterschiedliche Präzision der Vorhersagen, d. h. der r. m. s.− 

Fehler stellt nur einen Durchschnitt dar. 

(Bemerkung: man müßte gewichten.) 

g) Normalapproximation für vertikale Streifen 

Voraussetzung: „zwetschgenförmiges“ Diagramm, ⇒ dann: 

homoskedastisch etc. 

Insbesondere entspricht jeder vertikale Streifen einer Normalverteilung, 

etwa so: 

Verfahren: 

Man braucht lediglich: neuen Mittelwert 

neue Standardabweichung 


Bsp.: x = LSATscore y = first−year score 

zwetschgenförmiges Diagramm mit Mittel der x = 32, 

Mittel der y = 68, 

SDx = 6, 

SDy = 10 und 

r = 0,6 

12. Die Regressionsgerade 

a) Steigung und Achsenabschnitt 

b) Nutzen 

Wieviel Prozent der Studenten mit LSAT ≈ 35 hatten first− year 

scors über 75 ? 

neues Mittel: 35 = 32 + 0,5 * 6 , also 0,5 SE 

daher: 68 + 0,6 * 0,5 * 10 = 71 

neue SD: * 10 = 8 

Also wie gewohnt: = 0,5 SE; ergibt ≈ 31% 

Wir wissen schon: Die Regressionsgerade 

− geht durch den Punkt (Mittel von x, Mittel von y) 

− hat die Steigung 

Regressionsgleichung: 

y = ax + b mit a = 

b = ( Mittel von y ) − a * ( Mittel von x ) 

= Vorhersagewert für x = 0 

(Achsenabschnitt) 

− Vereinfachung bei häufiger Anwendung 

− manchmal aber nicht immer) direkte Interpolationsmöglichkeit für a 

und b (Vorsicht bei Beobachtungsstudien) 

c) technische Anmerkung 

(lineare) Regression von y auf x: 

⇒ Auflösen nach y 

(lineare) Regression von x auf y: 

⇒ Auflösen nach x 


d) Methode der kleinsten Quadrate 

Ziel: Anpassung einer Gerade an Punkte 

Schätzung der Parameter 

Idee: 

zur Vorhersage von y aus x: 

Minimiere die Summe der quad. vert. Abstände, d. h. 

minimiere den r. m. s.− Fehler 

denke nach frage Mathematiker 

Lösung: Regressionsgerade von y auf x ! 

Bsp.: Hooke´sches Gesetz 

Sprechweise: Geschätzt nach der Methode der kleinsten Quadrate 

(„KQ − Schätzer“) 

e) Sinn und Unsinn von Regression 

Bsp.: Fläche und Umfang von Rechtecken 

20 „typische Rechtecke“ 

Regressionsgleichung: Fläche = a * Umfang + b 

− ergibt scheinbar ziemlich brauchbaren Zusammenhang 

Konsequenz: 

− stets kritisch prüfen 

− Situation beachten 

− Regression ist ein wichtiges, verallgemeinerungsfähiges 

Hilfsmittel, aber kein Allheilmittel ! 


Teil IV: Wahrscheinlichkeitstheorie 

13. Wahrscheinlichkeit 

a) Zur „Semantik“ des Begriffs „Wahrscheinlichkeit“ 

Verwendung: 

− in der Alltagssprache in sehr vielen Situationen, 

z. B. Wahrscheinlichkeit für „Regen“ 

− Bedeutung nicht immer klar 

z. B. „Überlebenschance 90% bei Operationen“ 

Historisch: 

besonders in der Theorie der Glücksspiele, aber auch in der 

„Stochastik“ = Kunst des vernünftigen Vermuten 

gemeinsame Eigenschaften: 

− falls ein Zufallsphänomen über lange Zeit unter den gleichen 

Bedingungen wiederholt wird, gibt die Wahrscheinlichkeit 

eines Ereignisses die relative Häufigkeit dieses Ergebnisses in 

der Zeit an 

− Wahrscheinlichkeiten werden in Prozent zwischen 0% und 

100% ausgedrückt (bzw. zwischen 0 und 1) 

− Summe der Wahrscheinlichkeiten für ein Ereignis und das 

Komplementärereignis (d. h. das Ereignis tritt nicht ein) ist 

100% 

Betrachtung auf lange Sicht: 

Bsp. 1: Urne 1 mit 3 roten und 2 blauen Kugeln sowie Urne 2 mit 30 

roten und 20 blauen Kugeln. 

Eine Kugel wird zufällig gezogen. Bei ROT Gewinn 1 DM. 

Welche Urne ist günstiger ? 

→ kein Unterschied, da es nur auf das Verhältnis ankommt. 

Dies ist jeweils (dies gilt nur, wenn das Verhältnis sich nicht 

ändert). 

Bsp. 2: Schachtel mit Zetteln 1 , 2 , 3. Wir ziehen zwei Zettel. Der 

erste ist 3. Dann zwei Varianten: 

a) Ziehen mit Zurücklegen 

b) Ziehen ohne Zurücklegen 

b) Bedingte Wahrscheinlichkeiten 

Bsp.: Zwei Karten ohne Zurücklegen zufällig ziehen (Kartenspiel mit 

52 Karten). Falls die zweite Karte Herz− Dame ist, Gewinn. 

a) Gewinnchance ? 

Jede der 52 Karten kann mit der gleichen Wahrscheinlichkeit 

die zweite sein ⇒ Gewinnchance 


) die erste Karte ist Herz− Dame 

⇒ Gewinnchance (bei zweiter Ziehung) = 0 

c) die erste Karte ist Kreuz− Sieben 

⇒ Gewinnchance = 

In b) und c) bedingte Wahrscheinlichkeit, da sie von Ausgang 

der ersten Ziehung abhängt. 

Sprechweise: 

− Wahrscheinlichkeit eines Ereignisses unter der Bedingung, 

daß ein anderes Ereignis eingetreten ist 

− Wahrscheinlichkeit für Ereignis A gegeben Ereignis B 

Schreibweise: 

P (A | B) heißt „bedingte Wahrscheinlichkeit von A bei 

gegebenen B“. 

Bsp.: einmaliges Ziehen aus 1, 2 (grün) und 3, 4 (rot) 

⇒ P (1 | rot) = 0, P (1 | grün) = und P (1) = 

c) Multiplikationsregel 

Bsp.: Wie oben (2 Karten aus 52) 

Wahrscheinlichkeit dafür, daß erste Karte Kreuz−Sieben und die 

zweite Karte Herz−Dame ist ? 

⇒ in der Fälle: erste Karte ist Kreuz−Sieben; in der Fälle: 

zweite Karte ist Herz− Dame. 

⇒ insgesamt: * = 

Multiplikationsregel: 

d) Unabhängigkeit 

Wk ( zwei Ereignisse treten gemeinsam ein ) 

= Wk ( erstes Ereignis ) * bedingte Wk ( das zweite Ereignis 

tritt ein, gegeben das erste Ereignis ) 

Definition: 

Zwei Ereignisse heißen unabhängig, falls Wahrscheinlichkeit für das 

Zweite nicht davon beeinflußt wird, ob das erste Ereignis eingetreten 

ist oder nicht. 

Oder präziser: 

Falls die bedingte Wahrscheinlichkeit (zweites Ereignis, gegeben erstes 

Ereignis) nicht vom Ausgang des ersten Ereignisses abhängt. 


Beispiele: 

a) Zweimaliger Wurf einer Münze: unabhängig 

b) Einmaliges Ziehen aus 1, 2 (grün) und 1, 2 (rot) 

Wk (rot) = + Wk (rot | 1) = Wk (rot | 2) 

Wk (grün) = + Wk (grün | 1) = Wk (grün | 2) 

Farbe und Wert sind unabhängig. 

c) Einmaliges Zeihen aus 1, 1 (grün) und 2, 2 (rot) 

Wert verrät die Farbe (wird umgekehrt); nicht unabhängig, 

also abhängig. 

e) Unabhängiges Ziehen mit bzw. ohne Zurücklegen 

→ Ziehen mit Zurücklegen in der Regel unabhängig 

Ziehen ohne Zurücklegen in der Regel abhängig 

(Beispiele siehe oben) 

f) Multiplikationsregel bei Unabhängigkeit 

Wk (zwei Ereignisse treten gemeinsam ein) = 

Wk (erstes Ereignis tritt ein) * Wk (zweites Ereignis tritt ein) 

Bsp.: in Teil b) 

Wk (1rot) = Wk (1) * Wk (rot) = 

⇒ erhebliche Vereinfachung−beim Ziehen mit Zurücklegen anwendbar 

g) Anwendbarkeit von Wahrscheinlichkeitstheorien; Überlegungen 

häufig identische Wiederholungen → i. d. R. unproblematisch 

Beispiele: Qualitätskontrolle, Medizin, Glücksspiele 

aber: Einzelfälle sehr problematisch 

14. Mehr über Wahrscheinlichkeit 

a) Vollständige Listen 

Für viele Zufallsvorgänge kann man sämtliche Resultate aufschreiben 

und als gleichwahrscheinlich ansehen (sog. LAPLACE − Experiment). 


Dann gilt für ein Ereignis: 

Wk(Ereignis) = relative Häufigkeit des Ereignisses 

= 

Bemerkung: etwas zirkulär 

Beispiele: 

b) Additionsregel 

a) einmaliges Würfeln 

Wahrscheinlichkeit für eine gerade Zahl ? 

günstige Fälle: 2, 4, 6 

mögliche Fälle: 1, 2, 3, 4, 5, 6 

also: Wk (gerade Zahl) = 

b) zweimal Würfeln 

Wk (Augensumme 4) = 

c) dreimal Würfeln 



genauer: mögliche Fälle: 216 (=6*6*6) 

günstige Fälle für 9: 25 

günstige Fälle für 10: 27 

(⇒ Betrachtung der günstigen Trippel) 

Definition: 

Zwei Ereignisse schließen sich gegenseitig aus, wenn sie nicht 

gleichzeitig eintreten können. 

Additionsregel: 

Falls sich die Ereignisse E1 und E2 gegenseitig ausschließen, so gibt 

Wk (wenigstens E1 oder E2) = Wk (E1) + Wk (E2) 

Beispiele: 

a) einmaliges Würfeln 

Wk (1 oder 2) = Wk (1) + Wk (2) = 

b) zweimaliges Würfeln 

Wk (wenigstens einmal die 6) = 

(beim 1. Wurf die 6 und beim 2. Wurf die 6 schließen sich 

nicht aus ⇒ Formel nicht anwendbar) 

direkte Lösung: 


c) Zur Berechnung von komplexen Wahrscheinlichkeiten 

Problem: 

n−maliges Würfeln 

Gesucht: Wk (wenigstens einmal die 6) = ? 

(Additionsregel nicht anwendbar (Prüfe n > 6) 

Lösung: 

Wk (wenigstens einmal die 6) = 1 − Wk (keinmal die 6) = 

= 1 − Wk (nicht im 1. Wurf) − ... − Wk (nicht im n− ten Wurf) 

= 

= 1 − () n 

bei n = 1: 

bei n = 2: 

d) Historische Beispiele 

vgl. Paradox des Chevalier de Méré 

Ist Gleichwahrscheinlichkeit realistisch ?? 

e) Baumdiagramme 

Ziel: Veranschaulichung mehrstufiger Zufallsexperimente 

Bsp.: Zweimaliger Münzwurf 

* 

Allgemeiner: 

1/2 

1/2 

P (A1) 

P (A2) 

K 

Z 

1/2 

1/2 

1/2 

1/2 

P (B1 | A1) 

P (B2 | A1) 

K 

Z 

K 

Z 

Wk (KK) = 1/4 

Wk (KZ) = 1/4 

Wk (ZK) = 1/4 

Wk (ZZ) = 1/4 

Wk (wenigstens 1x K) = Wk (KK) + Wk (KZ) + Wk (ZK) = 

⇒ Multiplikationsregel und Additionsregel übertragen sich auf 

den Pfad 

* 

A1 

A2 

B1 

B2 

also: P (B1 | A1) = 

Manchmal ist es bequem, mit absoluten Zahlen zu rechnen: 

Bsp.: Geburtenkontrolle 


einfacher: Münzwurf, bei K Stopp, bei Z noch einmal und dann Stopp 

* 

1000 

Baumdiagramm: 0,99 pos 

0,0001 

0,9999 

1/2 

1/2 

K 

500 

Z 

500 

1/2 

1/2 

0,01 

0,02 

0,98 

K also: 750 K, 750 Z 

250 

Z 

250 

⇒ an Wahrscheinlichkeit (Jungen | Mädchen) ändert sich nichts, 

ich blende nur einen Teil aus 

f) Berechnung inverser Wahrscheinlichkeiten (Bayes − Theorem) 

Bsp.: Virusinfektion 

Bevölkerung: 100 Mio. 

Infiziert: 10.000 

Test: pos. neg. 

infiziert 99% 1% 

nicht inf. 2% 98% 

Ein zufällig ausgewählter Patient hat positives Resultat 

Bedeutung ? Wahrscheinlichkeit (infiziert | pos. Resultat) 

inf 

nicht inf 

neg 

pos 

neg 

Wk (infiziert | positiv) = ≈ 0,0049 ≈ 0,5% 

Wegen der Größe der nicht infizierten Gruppe kommen auch die 

meisten positiven Resultate aus dieser Gruppe. 


15. Binominalkoeffizienten 

a) mathematische Grundlagen 

n! = n * (n − 1) * ... * 1 Definiere: 0! = 1 

n! Möglichkeiten n verschiedene Objekte zuordnen: 

n Objekte , k und n −k seien gleich 

Wie viele Anordnungsmöglichkeiten gibt es ? 

( ):= Gesprochen: „ n über k“ 

Der Binominalkoeffizient ( ):= gibt an, wie viele Möglichkeiten es 

gibt, n Objekte, von denen jeweils k bzw. (n − k) gleich sind, in einer 

Reihe anzuordnen. (Beachte Konvention: 0! = 1.) 

b) Binominalformel 

Situation: 

− ein Versuch wird n− mal identisch wiederholt 

− ein bestehendes Ereignis tritt jeweils mit Wahrscheinlichkeit p 

ein 

− die Versuche sind unabhängig 

Aussage: 

Dann ist die Wahrscheinlichkeit, daß das Ereignis genau k−mal 

eintritt, durch die 

Herleitung: 

Binominalformel 

* p k * (1 − p) n−k gegeben. 

Eintreten:= 1; Nicht Eintreten:= 0 

Dann: k− mal 1 und (n − k)− mal 0 anordnen. Die Wahrscheinlichkeit 

für (1, ... , 1, 0, ... , 0) ist p k * (1 − p) n−k und es gibt () 

Anordnungen ⇒ () * p k * (1 − p) n−k 

Beispiele: 

a) zehnmaliger Münzwurf 

Wk (3x K) = () * () 3 * () 7 = * () 10 = 

b) zehnmaliges Würfeln 

Wahrscheinlichkeit (2x 6) = () * () 2 * () 8 

c) zweimal Ziehen ohne Zurücklegen aus Schachtel mit vier 

Zetteln 

Wk (1x 3) = ? 

⇒ nicht unabhängig, daher nicht anwendbar !!! 


d) viermaliges Münzwerfen 

Wk (mind. 1x K) = 1 − () * () 0 * () 4 

= 1 − () 4 = 

Teil V: Variabilität zufälliger Prozesse 

16. Das Gesetz der großen Zahlen 

Bsp.: Kerichs Münzwurf−Experiment 

Resultat: 

Anzahl der Würfe Anz. d. Köpfe Anz. Köpfe − * Anz. 

Würfe 

10 4 − 1 

100 44 − 6 

200 98 − 2 

... ... ... 

5000 2533 33 

... ... ... 

10000 5067 67 

Dies beweist nichts, illustriert aber folgendes: 

− die Anzahl von K schwankt um * Anzahl der Würfe; es gilt: 

Anzahl von K = * Anzahl der Würfe + Zufallsfehler 

− die Größe des Zufallsfehlers nimmt mit steigender Zahl der Würfe zu 

− bezogen auf die Anzahl der Würfe (d. h. ausgedrückt in % der 

Wurfanzahl) nimmt die Größe des Zufallsfehlers jedoch ab. 

− quantitativ ist der Zufallsfehler bei 100 ungefähr 5; bei 10.000 

ungefähr 50. Hundertmal mehr Würfe führen also zu einem um den 

Faktor = 10 vergrößerten Zufallsfehler. 

− Andersherum: 

Will man den relativen Fehler halbieren, muß man die Wurfanzahl 

vervierfachen !!! 

Ferner illustrieren Kerich´s Resultate: 

Es gibt keine „Kompensation“ durch das Gesetz der großen Zahlen. Auf 

eine lange Folge von Kopf muß keineswegs Zahl folgen. 


Zufallsprozesse und Schachtelmodelle 

− zufällige Prozesse treten in vielen Formen auf: 

Münzwurf, Würfeln, Geburt, „Stichprobe“, ... 

− einheitliche Beschreibung möglich durch: 

Schachtelmodelle und Ziehungen daraus 

... 

Man sieht: 

− „zufällig“ (d. h. jeder Zettel mit gleicher Wahrscheinlichkeit) 

− mit Zurücklegen 

⇒ relevante Größe ist die Summe der Ziehungen; deren 

Zufallsschwankung kann dann analysiert werden. 

Dazu nötige Angaben: 

− welche Zahlen treten in der Schachtel auf ? 

− wie oft kommen sie vor ? 

− wie oft wird gezogen ? 

b) Aufstellung eines Schachtelmodells 

Bsp.: Nevada−Roulette 

(38 Felder, davon 18 rot, 18 schwarz, 2 grün) 

1) 10 mal setzen von $1 auf rot 

Gewinnquote 1: 1 

⇒ also lauten die Zahlen auf dem Zettel: + 1 Gewinn 

⇒ insgesamt also: 18 x +1 und 20 x −1 

Es wird zehnmal gezogen. 

− 1 Verlust 

→ Nettogewinn = Summe der Ziehungen (in $) 

2) Fünfmaliges Setzen auf eine einzelne Zahl in neuem 

Schachtelmodell: 

1 x +35 und 37 x −1 

Es wird fünfmal gezogen. 

→ Nettogewinn = Summe der Ziehungen (in $) 


17. Erwartungswert und Standardfehler 

a) Erwartungswert 

Hintergrund: für Daten: für Zufallsprozeß: 

Bsp.: 100 Ziehungen aus 1 1 1 5 

→ 25 * 5 + 75 * 1 = 200 

Formel: 

b) Standardfehler 

Mittelwert Erwartungswert 

Standardabweichung Standardfehler 

Erwartungswert für eine Summe der Ziehungen mit 

Zurücklegen aus einer Schachtel = (Anzahl der Ziehungen) * 

(Mittelwert der Schachtel) 

[Mittelwert der Schachtel = arithm. Mittel der Werte in der 

Schachtel] 

Bsp.: 25x Ziehen mit Zurücklegen aus 0 2 3 4 6 

Erwartungswert der Summe: 25 * (0 + 2 + 3 + 4 + 6) = 75 

Schwankung ??? 

Summe = Erwartungswert + Zufallsfehler 

Größenordnung des Zufallsfehlers ? → Standardfehler („SE“) 

Formel: 

Beim Ziehen mit Zurücklegen aus einem Schachtelmodell ist 

der Standardfehler für die Summe der Ziehungen gleich: 

* (SD der Schachtel) 

[SD der Schachtel = Standardabweichung der Werte in der 

Schachtel] → „Quadratwurzelregel“ 

Hinweis: SE nimmt zu mit 

− der Anzahl der Ziehungen 

− der SD der Schachtel 

Bemerkung: Oft wird nicht zwischen SD und SE unterschieden 

Bsp.: siehe oben 


Mittelwert der Schachtel = 3 

SD der Schachtel = 

= 

SE für die Summe von 25 Ziehungen: * 2 = 10 

also: Summe = 75 + Zufallsfehler (SE = 10) 

Illustration: siehe Tabelle auf S. 267 

Hintergrund: SE wächst nur langsam mit der Anzahl der 

Ziehungen, weil Fehlerauslöschung 

(Kompensation) wirksam wird. 

c) Benutzung der Normalverteilung 

Bsp.: 25 Ziehungen aus 0 2 3 4 6 

Wie viele Werte (der Summe) liegen zwischen 50 und 100 ? 

Idee: Normalverteilung benutzen 

Voraussetzung: Anzahl der Ziehungen ist nicht „zu klein“ 

Verfahren: Umrechnen auf SD−Einheiten 

Bsp.: Gewinnerwartung eines Casinos 

Benutzung der Normalverteilung ⇒ Fläche 99 % 

bei 10.000 Spielen, jeweils 1 DM auf rot 

Wk (Gewinn des Kasinos ≥ 250 DM) = ??? 

Schachtel: 20 x +1 und 18 x −1; 10.000 Ziehungen 

Mittelwert der Schachtel ≈ 0,05 DM 

SD der Schachtel ≈ 1,00 DM 

also: Erwartungswert d. Summe ≈ 10.000 * 0,05 DM = 500 DM 

SE der Summe ≈ * 1,00 DM = 100 DM 


eine Vereinfachung: 

Situation: Schachtel mit genau zwei verschiedenen Arten von 

Zetteln 

SD der Schachtel = 

Bsp.: 1 1 1 5 ≈ 1,73 

Herleitung: Es reicht, Schachteln mit k Einsen und (n − k) 

Nullen zu betrachten (wegen 

Multiplikation und Addition mit 

Konstanten) 

Dann gilt: 

Mittel = 

SD = = 

= = 

d) Klassifikations− und Abzählprobleme 

Beispiel: 60x Würfeln 

a) Summe = ??? (Erwartungswert ± SE) 

Schachtel: 1 2 3 4 5 6, 60 Ziehungen 

Mittel der Schachtel: 3,5 

SD der Schachtel: 1,71 

Erwartungswert der Summe: 60 * 3,5 = 210 

SE der Summe: * 1,71 ≈ 13 

b) Anzahl der 6 = ??? (Erwartungswert ± SE) 

Dies kann wieder als „Summe“ von Ziehungen geschrieben werden, 

indem man die Schachtel modifiziert und die günstigen Ereignisse 

zählt. 

1 2 3 4 5 6 

↓ ↓ ↓ ↓ ↓ ↓ 

0 0 0 0 0 1 

Betrachte 60 Ziehungen; Anzahl der 6 entspricht der Summe der 

grünen Zettel. 

Mittelwert der grünen Schachtel = 

SD der grünen Schachtel = ≈ 0,37 


also bei 60 Ziehungen: 

Anzahl der 6 = Summe der grünen Zettel 

Erwartungswert: 60 * = 10 

SE: * 0,37 ≈ 3 

e) Beziehung zum Gesetz der großen Zahl 

Quadratwurzelregel − Gesetz der großen Zahlen 

Bsp.: Anzahl der "K" bei n−Münzwürfen 

Schachtel: 0 1 

Mittelwert = , SE = 

Anzahl der Würfe Erwartungswert in % der Anzahl 

± SE der Würfe 

100 50 ± 5 50 % ± 5 % 

10000 5000 ± 50 50 % ± 0,5 % 

1000000 500000 ± 500 50 % ± 0,05 % 

18. Normalapproximation von Wahrscheinlichkeitshistogrammen 

a) Wahrscheinlichkeitshistogramme 

Bsp.: n−maliger Münzwurf, bzw. (Summe aus einmaligen) Ziehen aus 

0, 1; n−mal wiederholt 

Fazit: Das Wahrscheinlichkeitshistogramm repräsentiert 

Wahrscheinlichkeiten durch Flächen. Bei Betrachtung auf lange 

Sicht nähert sich das Daten−Histogramm immer mehr dem 

Wahrscheinlichkeits−Histogramm an. 

(vgl. auch Buch S. 287) 

b) Normalapproximation für Wahrscheinlichkeits−Histogramme 

Situation: Summe aus k−maligem Ziehen aus 0 1, n−mal wiederholt 

für n → ∞: Wahrscheinlichkeits−Histogramm 

für k → ∞: ??? 

Fazit: Beim Ziehen aus einem Schachtelmodell nähert sich das 

Wahrscheinlichkeits−Histogramm für die Summe aus k 

Ziehungen mit wachsendem k stets der Normalverteilung an. 

Der Inhalt der Schachtel spielt keine entscheidende Rolle. 


Bsp.: 100−maliger Münzwurf 

1) Wk (45 (K ( 55) = ??? 

2) Wk (45 < K < 55) = ??? 

3) Wk (K = 50) = ??? 

Summe aus 100−maligem Ziehen aus 0 1, angenähert 

normalverteilt mit Erwartungswert = 50 und 

SE = 5 

dann umrechnen auf Standardeinheiten 

zu 1): 45 ⇒ 44,5 entspricht − 1,1 Standardeinheiten 

55 ⇒ 55,5 entspricht + 1,1 Standardeinheiten 

⇒ Fläche ≈ 72,87 % 



⇒ Fläche ≈ 63,19 % 



Zusatzbemerkung: 

⇒ Fläche ≈ 7,97 % 

− k muß hinreichend groß sein (hängt vom Inhalt der Schachtel 

ab) 

− gilt nur für Summen, nicht für Produkte 

− entscheidende Größen 

a) Mittelwert der Schachtel 

b) SD der Schachtel ((0) 

c) Anzahl der Ziehungen 

→ Dies bestimmt Erwartungswert und SE. 


Teil VI : Stichprobenverfahren 

19. Stichprobenuntersuchung 

a) Grundbegriffe 

b) Probleme 

− Grundgesamtheit (Population) 

= Menge von Personen, Gegenständen oder Meßwerten, über 

die man etwas erfahren möchte (z. B. Wähler in Bayern) 

− Parameter 

= numerischer Kennwert einer Grundgesamtheit (z. B. Anteil 

der Wähler der Partei K); i. a. können Parameter nicht exakt 

bestimmt werden, sondern müssen geschätzt werden. 

− Stichprobe 

= Teil der Grundgesamtheit 

− Statistische Größe 

= Kennwert einer Stichprobe, kann (nach Ziehen) berechnet 

werden und zur Schätzung eines Parameters dienen. 

Grundgesamtheit Ziehen 

Stichprobe 

(Parameter) (stat. Größe) 

− Wie zählt man eine Stichprobe ? 

− Wie zieht man Rückschlüsse von der Stichprobe auf die 

Grundgesamtheit ? 

c) Umfrage des „Literary Digest“ 

1936 : Roosevelt ↔ London 

Prognose : 43% zu 57% 

Resultat : 62% zu 38% 

Genauer : 

Rückschluß 

Prozentsatz Roosevelt 

Prognose Digest 43 

Prognose Gallup für die D. P. 44 

Prognose Gallup 56 

Wahlergebnis 62 


− Methode Digest 

10 Millionen Fragebögen per Post verschickt an Adressen aus 

Telefonbüchern, Automobilclubs mit dem Rücklauf von 2,4 

Millionen 

− Gallup : Zufallsstichprobe 

− 50.000 Wähler für die Prognose befragt 

− 3.000 Wähler für die Prognose der D. P. befragt 

− Problem bei Digest − Umfrage 

− Verzerrung durch ungeeignete Auswahl (selection bias) 

− Verzerrung durch Nichtbeantwortung (non − response bias) 

− Probleme bei Gallup 

Man sieht : 

− keine für die Prognose der D. P. 

− Nichtbeantwortung für die eigene Prognose 

(und natürlich das Auswahlproblem) 

große Stichproben sind nicht notwendigerweise „gut“ !!! 

und man sollte stets fragen : 

− Was ist die Grundgesamtheit, was die Parameter ? 

− Wie wurde Stichprobe ausgewählt ? 

− Wie hoch war die Antwortrate ? 

und auch noch : 

− Wann wurde gefragt ? 

− Was / Wie wurde gefragt ? 

− Wer war der Auftraggeber ? 

d) Beispiel : Präsidentschaftswahlen 1948 in den USA 

Resultate : Tabelle 2 auf Seite 309 

Erklärung : Es wurden Quotenstichproben verwendet, d. h. innerhalb 

bestimmter Vorgaben (z. B. Geschlechterverhältnis) 

suchen die Interviewer die Befragten „nach Gutdünken“ 

aus. 

Aber : Dies kann einen systematischen Fehler verursachen. (In 

diesem Fall in Richtung der „Republikaner“); vgl. 

Tabelle 3 auf Seite 311 

⇒ nicht empfehlenswert !!! 


e) Wahrscheinlichkeitsmethoden 

Kennzeichen: Für jedes Individuum kann die Wahrscheinlichkeit 

berechnet werden, daß es für die Stichprobe ausgewählt 

wird. 

einfache Zufallsauswahl (simple random sampling): 

zufälliges Auswählen (mit gleichen 

Wahrscheinlichkeiten) „ohne Zurücklegen“ einfach, aber 

oft nicht praktikabel, da die Grundgesamtheit nicht 

erfaßt werden kann. 

mehrstufiges Verfahren (multistage cluster sampling): 

man wählt zunächst zufällig eine Stadt, Bezirk, usw.; 

siehe Bsp. Gallup, Seite 313). 

Klumpenverfahren: 

man wählt zunächst einen Bezirk, dann ein Haus, aber 

dann alle Bewohner des Hauses. 

geschichtete Stichproben: 

Grundgesamtheit wird zunächst in Schichten unterteilt, 

aus denen dann separat Stichproben gezogen werden. 

Bemerkung: 

− viele Variationen 

− Auswahlkriterien : Kosten und Zielsetzung der Untersuchung 

f) Güte der Wahrscheinlichkeitsmethoden 

Beispiel : Gallup Prognosen, Tabelle 4 auf S. 314 

Fazit : erstaunlich gut 

aber : auch gegenläufige Entwicklungen (mehr Antwortausfall, 

weniger Stabilität) 

− Gallup−Fragebogen 

→ S. 317 / 319 

− Telefonumfragen 

Vorteil : geringe Kosten 

Achtung : Telefonnummernvergabe beachten (Schema ?) 

→ sehr verbreitet 

Ausblick : auch hier gilt : 

Schätzung = Parameter + Bias + Zufallsfehler 

zum Bias (systematischer Fehler) vgl. oben und 

zum Zufallsfehler vgl. unten (Kapitel 20) 


20. Zufallsfehler bei Stichprobenverfahren 

Beispiel : Aus Daten von 6.672 Amerikanern [3.091 (= 46%) Männer und 

3.581 (= 54%) Frauen] sollen 100 ausgewählt werden. 

→ einfaches Zufallsmodell 

a) Wie sieht es dann mit der Anzahl der Männer unter diesen 100 aus ? 

bias : nicht zu erwarten 

Zufallsfehler ? 

SE ? 

Schachtelmodell : 

3.091 x 1 und 3.581 x 0, daraus 100 Ziehungen ohne 

Zurücklegen 

Wir betrachten aber zunächst den Fall : 

100 Ziehungen mit Zurücklegen 

⇒ MW = 0,46 

SD = ≈ 0,50 

EW = 100 * 0,46 = 46 

SE = * 0,5 = 5 

⇒ Man erwartet : 

46 ± 5 Männer oder als Prozentsatz 46% ± 5% 

Um den SE für einen Prozentsatz (in Prozentpunkten) zu 

bestimmen, rechnet man zunächst mit den absoluten Zahlen und 

dann auf % um ! 

⇒ Was passiert bei 400 Ziehungen ? 

EW = 400 * 0,46 = 184 

SE = * 0,5 = 10 

⇒ Man erwartet 184 ± 10 Männer oder als Prozentsatz 

ausgedrückt : 46% ± 2,5% 

also : Multiplikation der Stichprobengröße mit 4 führt zur 

Division des SE durch = 2 

Hintergrund : Gesetz der großen Zahlen, Quadratwurzelregel 

Mit welcher Wahrscheinlichkeit ist der Anteil der Männer in der 

Stichprobe zwischen 41% und 51% 

⇒ NV− Tabelle ⇒ Fläche ≈ 95% 


) Korrekturfaktor 

− bisher mit Zurücklegen, aber eigentlich ohne Zurücklegen 

− Bsp.:1,25 Mill. Wähler in RP 

12,5 Mill. Wähler in NRW 

⇒ Annahme : Anteil der Partei X = 50% 

Stichprobe 2.500 Wähler für RP (1 von 500) 

→ Wie groß muß die Stichprobe für NRW sein, wenn die 

Genauigkeit gleich gut sein soll ? 

Antwort : 2.500 (1 von 5.000 !), denn : 

RP 625.000 x 1 und 625.000 x 0 

NRW 625.0000 x 1 und 625.0000 x 0 

Falls wir mit Zurücklegen ziehen, können wir auch 1 x 0 und 1 x 1 

betrachten, es ergibt sich jeweils das Gleiche. 

Beim Ziehen ohne Zurücklegen gibt es einen kleinen Unterschied, es 

gilt nämlich : 

Dabei ist der Korrekturfaktor : 

SEohne = Korrekturfaktor * SEmit 

Dieser Korrekturfaktor ist meist nahe bei 1. 

Ausnahme: Stichprobe ist Großteil der Grundgesamtheit. 

Bemerkung: 

− andere Prozentsätze der Parteien ändern das Bild der 

Schachtel kaum (SD bleibt ≈ 0,5) 

− intuitiv eigentlich klar 

21. Zur Genauigkeit von hochgerechneten Prozentsätzen 

a) Hintergrund 

bisher: Zufallsfehler beim Ziehen einer Stichprobe 

nun : Fehler beim Rückschluß auf die Population 

Bsp.: Wahl eines Bürgermeisters 

Kandidat „K“ möchte „sichergehen“ 

100.000 Wähler → Stichprobe 2.500 

? % Stimmen für K ← 1.328 für K (≅ 53%) 

⇒ Schätzung : 53% ± Zufallsfehler 


) Schachtelmodell 

? x 1 und ? x 0 (in der Bedeutung 1 = für K , 0 = gegen K) mit 

insgesamt 100.000 Zetteln, aus denen 2.500 Ziehungen vorgenommen 

werden. 

Zur Berechnung von SE brauchen wir aber SD der Schachtel. 

also : 

SD = 

Ausweg : wir schätzen SD aus der Stichprobe 

SD = ≈ 0,5 

SE = * 0,5 = 25 

25 entspricht 1% von 2.500, also ⇒ Schätzung : 53% ± 1% 

Idee war: Verhältnisse in der Stichprobe auf die Schachtel 

übertragen. Dies ist in Ordnung, wenn die Stichprobe 

nicht allzu klein ist. 

Was kann man tun, wenn die Stichprobe zu klein ist ? → Dann kann 

man SD nicht mehr schätzen, aber abschätzen, d. h. man nimmt 

den „schlechtesten Fall“ an. 

Anteil der „0“ ⇒ SD = 

Wie groß kann SD im schlechtesten werden ? 

SD 

Sei p = Anteil der „1“, also ist 1 − p = 

p(1−p) 

¼ max. für p = ½ 

1/2 1 

Also : Abschätzung SD ó 0,5 ist möglich 

Bemerkung : Obige Schätzungen gelten für einfache 

Zufallsstichproben, nicht ohne weiteres für kompliziertere 

Stichprobenverfahren. 

p 


c) Konfidenzintervalle 

Situation: 

Prozentsatz in = Prozentsatz in ± Zufallsfehler 

der Stichprobe der Population 

53 % = 52 % + 1 % 

= 51 % + 2 % 

= 55 % − 2 % 

= 40 % + 13 % 

= 83 % − 30 % 

Alle diese Situationen sind möglich, aber da SE ≈ 1% sind nicht 

alle Möglichkeiten in gleicher Weise „zu erwarten“ 

Idee: Wir fassen die „am ehesten zu erwartenden“ Möglichkeiten in 

einem Intervall zusammen. 

Definition: 

Prozentsatz in der ± 1 SE : 68 % − Konfidenzintervall 

± 2 SE : 95% − Konfidenzintervall 

± 3 SE : 99% − Konfidenzintervall 

usw. ( → in Anlehnung an die Normalverteilung) 

Manchmal sagt man auch : 

− „Konfidenzintervall zum Niveau x %“ 

− „x % − Vertrauensintervall“ 

Bemerkung: 

nur approximativ zu sehen, da 

− SE geschätzt und 

− Normalverteilung benutzt wird 

d) Interpretation 

− „mit WK 95% liegt der wahre Prozentsatz für Kandidat K im 

Intervall [51%; 55 %]“; naheliegend, aber nicht ganz richtig, denn 

der „wahre“ Prozentsatz liegt fest, er ist keine Zufallsgröße. 

− zufällig, d. h. von der Stichprobe abhängig, sind die 

Intervallgrenzen! 


⇒ also sollte man sagen : 

„mit WK 95% überdeckt (enthält) das Intervall [51%; 55 %] den 

wahren Prozentsatz“ 

und meinen: „95% aller derart gebildeten Intervalle leisten dies“ 

⇒ somit: Aussage über die Qualität der Methode, nicht über den 

Einzelfall!!! 

− Bsp.: Abb. 1 auf Seite 352 

− Randnotiz: Falls man Wahrscheinlichkeit nicht nur als relative 

Häufigkeit auffaßt, ist eine andere Interpretation möglich. 

− WARNUNG: 

Die obigen Methoden gelten für einfache Zufallsstichproben. 

Für andere Verfahren erhält man i. a. deutlich schlechtere 

Ergebnisse. 

Bsp.: Gallup−Poll Resultate, S. 356 

22. Arbeitsmarktstatistik für die USA 

Hinweis : Details von Interesse, zeigt im wesentlichen : 

− Komplexität realer Untersuchungen 

− auftretende Schwierigkeiten 

a) Stichprobenplan des „current population survey“ 

1973 Primary sampling limits (PSU) 

gruppiert in 

715 Schichten 

715 PSU werden mit Wahrscheinlichkeitsverfahren gewählt 

(i. w. proportional zur Bevölkerungszahl). 

"einige" Ultimate SU (USU) werden mit 

Wahrscheinlichkeitsverfahren gewählt (i.w. so, daß die 

Chance für jede Einzelperson gleich ist − und daß alle 51 

Staaten mit etwa gleicher Genauigkeit abgedeckt 

werden). 

Durchführung : ∼ 67.000 housing units 

∼ 53.000 können befragt werden 

∼ 115.000 Personen 


) Abgrenzungsprobleme 

Wer ist „arbeitslos“, „arbeitssuchend“, „beschäftigt“ usw. ? 

⇒ Aufschlüsselungsproblem : Kriterien ? 

Gewichtung : Ziel : Reduzierung des Zufallsfehlers 

Methode : i. w. „nachträgliche Schichtung“ 

Berechnung der Standardfehler : 

Es handelt sich um eine Klumpenstichprobe ... 

23. Genauigkeit arithmetischer Mittel 

bisher: Schachtel → Ziehungen Summe der Ziehungen 

EW und SE 

Normalapproximation 

0 1 − Schachtel → Ziehungen Prozentsatz der „1“ 

EW und SE 

Normalapproximation 

Stichprobe aus 

0 1 − Schachtel 

(Ziehungen) 

jetzt: Stichprobe aus 

beliebiger 

Schachtel 

(Ziehungen) 

→ Rückschluß auf 

Grundgesamtheit 

(Schachtel) 

→ Rückschluß auf 

Grundgesamtheit 

Bsp.: Schachtel 1 2 3 4 5 6 7, daraus 25 Ziehungen 

Der (arithmetische) Mittelwert ist ... ± ... ? 

Prozentsatz der „1“ in der 

Grundgesamtheit, 

approximative 

Konfidenzintervalle dafür 

MW der Schachtel, 

approximative Konfidenz 

intervalle dafür 

MW = 4 also EW (für Summe aus 25 Zieh.) = 25 * 4 = 100 

SD = 2also SE (für die Summe aus 25 Zieh.) = * 2 = 10 

daher: Summe = 100 ± 10 

und somit: MW = * SE = 4 ± 0,4 

Erinnerung : Änderung von Mittelwert, SD und einer Liste, wenn jede Zahl 

mit derselben Konstanten multipliziert wird. 


Resultat : Beim Ziehen aus einem Schachtelmodell gilt : 

EW des Mittels der Ziehungen = MW der Schachtel 

SE des Mittels der Ziehungen = 

a) Normalapproximation 

entspricht derjenigen für die Summe! Der Faktor () spielt keine Rolle und fällt 

beim Umrechnen in Standardeinheiten heraus. 

b) Ziehen aus einer Schachtel 

1) oftmalige Wiederholung → Wk−Histogramm 

2) Summe einer großen Anzahl von Ziehungen 

Wk−Histogramm → Normalverteilung 

3) oftmalige Wiederholung einer Summe einer großen Anzahl von 

Ziehungen 

Daten−Histogramm → Normalverteilung 

Bsp.: 100 Ziehungen aus obiger Schachtel 

a) Summe ungefähr : 100 * 4 = 400 ± * 2 = 20 

Mittel ungefähr : 400 : 100 = 4 ± 20 : 100 = 0,2 

b) Wk (Mittel ≥ 4,2) = 

→ umrechnen in Standardeinheiten ⇒ 1 Standardeinheit 

⇒ Fläche ≈ 16 % 

Vergleich von 25 und 100 Ziehungen (=Effekt des Vervierfachens des 

Stichprobenumfangs): 

MW: bleibt unverändert 

SE: Division durch 2 (Grund : = ) 

Ziehen ohne Zurücklegen: 

c) Stichprobenmittel 

Seohne = Korrekturfaktor * Semit 

Bsp.: Durchschnittseinkommen von Familien einer Stadt (25.000 

Familien); einfache Zufallsstichprobe von 900 Familien 

MW = 32.400 DM und SE = 18.000 DM 

Schätzung : 32.400 DM ± ... DM ? 


SE für die Summe = * SD der Schachtel 

SD der Schachtel kann wieder aus der Stichprobe geschätzt 

werden (sog. Bootstrap− Methode): 

SD der Schachtel ≈ 18.000 DM 

SE der Summe ≈ * 18.000 DM ≈ 540.000 DM 

SE des Mittels = = 600 

⇒ 95%− Konfidenzintervall: 32.400 DM ± 600 DM 

ACHTUNG !!! Dies bedeutet nicht, daß ca. 95% der Familien ein 

Einkommen von 31.200 DM bis 33.600 DM haben. Sondern für 

ca. 95% der Stichproben würde ein so gebildetes Intervall den 

wahren Wert für das Durchschnittseinkommen einschließen. 

Die Normalapproximation darf i.a. benutzt werden, auch wenn die 

Daten selbst nicht der Normalverteilung folgen. 

Bsp.: Stichprobe vom Umfang 400 für das Bildungsniveau (siehe S. 

383) 

d) Verschiedene Standardfehler 

Für Schachtelmodelle sind zu unterscheiden : 

SE der Summe = * SD der Schachtel 

SE des Mittels = 

SE der Anzahl der „1“ = SE der Summe „1“ für 0 1− Schachtel 

SE des Prozentsatzes = * 100% 

beim Rückschluß von der Stichprobe auf die Population muß SD 

geschätzt werden. 

WARNUNG : All das gilt nur für einfache Zufallsauswahl !!!

Statistik I

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?