22.10.2013 Aufrufe

Statistik I

Statistik I

Statistik I

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Inhaltsverzeichnis:<br />

<strong>Statistik</strong> I<br />

Teil I: Versuchsplanung Seite 1<br />

Teil II: Deskriptive <strong>Statistik</strong> Seite 3<br />

Teil III: Korrelation und Regression Seite 10<br />

Teil IV: Wahrscheinlichkeitstheorie Seite 21<br />

Teil V: Variabilität zufälliger Prozesse Seite 30<br />

Teil VI: Stichprobenverfahren Seite 37<br />

Hinweise und Anmerkungen der Herausgeber:<br />

Dieses Skript basiert auf unseren Mitschriften der Vorlesung <strong>Statistik</strong> I vom WS 1996/97 und<br />

WS 1997/98. Es soll den uns nachfolgenden Hörern der Vorlesung das Abschreiben der<br />

immer wieder gleichen Folien ersparen, so daß man sich intensiv auf den Inhalt konzentrieren<br />

kann. An einigen Stellen fügt Herr Olbricht gerne einige Notizen ein, die sich jedoch immer<br />

wieder ändern. Es ist also immer noch notwendig, der Vorlesung zu folgen, um die aktuellen<br />

Hinweise und Erklärungshilfen zu erhalten.<br />

Die Seitenangaben, die immer wieder als Hinweise gegeben werden, beziehen sich auf das<br />

Buch von Freedman/ Pisani/ Purves/ Adhikari: Statistics, 2 nd Edition (W.W. Norton, 1991).<br />

Ergänzend zur Vorlesung wird von dem zuständigen Lehrstuhl jeweils ein Übungsskript<br />

herausgegeben. Von uns sei an dieser Stelle nur der Hinweis gegeben, diese Übungen ernst zu<br />

nehmen, weil die regelmäßige Übung und das eigenständige Lösen von Aufgaben − auch<br />

wenn man nicht immer ein oder das richtige Ergebnis finden sollte − doch sehr zur<br />

erfolgreichen Vorbereitung auf die Klausur beiträgt! Auch wenn es sich jetzt gerade etwas<br />

oberlehrerhaft angehört hat, aber so waren nun einmal unsere Erfahrungen mit der Vorlesung,<br />

den Übungen und der abschließenden für das Vordiplom zählenden Klausur !<br />

Nun möchten wir Euch nur noch viel Spaß und viel Erfolg wünschen !!!<br />

Stephanie Neuberg und Alexander Prell<br />

<strong>Statistik</strong> I − Seite 1


Teil I: Versuchsplanung<br />

1. Kontrollierte Experimente<br />

Wie gewinnt man „gesicherte Erkenntnisse“ ?<br />

→ Vergleich unter identischen Bedingungen<br />

Zuordnung zu Gruppen (Behandlungsgruppe − Kontrollgruppe):<br />

Kontrollierte Zuordnung durch den Experimentator oder<br />

Randomisierte Zuordnung, explizit „zufällig“, dies schließt bias, und<br />

somit vermengte (confounded) Effekte weitgehend aus.<br />

Bsp.: Polio − Impfstoff<br />

ist ein randomisierter, kontrollierter doppeltblinder Versuch<br />

2. Beobachtungsstudien<br />

doppelt − blind: weder Versuchsperson noch Auswerter kennen die<br />

Zugehörigkeit zu Kontroll− und Behandlungsgruppe<br />

(hier: Verwendung von Placebos)<br />

Manchmal liegt die Zuordnung nicht in der Hand des Experimentators, z. B.<br />

Raucher / Nichtraucher<br />

Ein vermengender Faktor kann manchmal durch Unterteilung in kleinere<br />

homogene Gruppen „kontrolliert“ werden.<br />

<strong>Statistik</strong> I − Seite 2


Teil II: Deskriptive <strong>Statistik</strong><br />

Ziel: Darstellung und Aufbereitung von Datenmaterial<br />

Einordnung:<br />

Daten Modell<br />

→ deskriptive <strong>Statistik</strong> → Wahrscheinlichkeitstheorie<br />

Schluß<br />

→ analytische <strong>Statistik</strong><br />

Daten: Untersuchungseinheiten<br />

Merkmale (Variablen)<br />

Merkmalsausprägungen („Daten“)<br />

Klassifikationen:<br />

a) Meßskalenniveau<br />

− nominal (m, w) ungeordnet<br />

− ordinal (1, ..., 6) geordnet<br />

− metrisch<br />

+ Intervallskala → Differenzen sinnvoll<br />

+ Ratio Skala → Intervallskala mit Nullpunkt, Differenzen<br />

und Verhältnisse sinnvoll<br />

b) Art des Merkmals<br />

− quantitativ („Zahl“)<br />

+ diskret<br />

+ stetig<br />

− qualitativ („Status, Eigenschaft“)<br />

+ geordnet<br />

+ ungeordnet<br />

c) Art der Messung<br />

− analog<br />

− digital<br />

⇒ alle Daten lassen sich numerisch kodieren, d. h. Daten sind ein Haufen von<br />

Zahlen.<br />

<strong>Statistik</strong> I − Seite 3


3. Histogramme<br />

Bsp.: mathematisches Seminar<br />

10 Teilnehmer mit folgenden Kontoständen in HDM<br />

2, 3, 3, 4, 5, 5, 5, 8, 9, 10<br />

VWL−Vorlesung<br />

271 Teilnehmer mit folgenden Kontoständen in HDM<br />

9, 9, 9, 9, 9, 10, 15, 200, 200, ...<br />

Gibt es „mehr“ 9 bei Mathe oder VWL<br />

→ Vergleiche standardisieren → Prozentwerte<br />

a) Stabdiagramm<br />

b) Säulendiagramm<br />

c) Histogramm<br />

− Histogramm stellt Prozentzahlen als Flächen dar<br />

− die verteilte Skala ist die „Dichteskala“:<br />

→ Prozentzahl der Fläche pro Einheit der horizontalen Skala<br />

− Höhe des Blocks ergibt sich durch Division:<br />

→ Höhe * Grundseite = Prozentzahl der Fälle in dem betr.<br />

Intervall<br />

− die Gesamtfläche ist 1 bzw. 100% !<br />

− Anwendung der Histogramme:<br />

Histogramme werden zur Darstellung von Daten und zum<br />

Vergleich von Populationen verwendet. Sie werden allerdings<br />

schichtweise verglichen.<br />

(siehe Beispiele im Buch: Zusammenhang zwischen Blutdruck<br />

und Pille, intelligente und dumme Raten)<br />

4. Arithmetisches Mittel und Standardabweichung<br />

Beschreibung von Daten durch:<br />

a) Lagemaße („typischer Wert“)<br />

b) Streuungsmaße („Abweichungen“)<br />

Dies ist aber wenig sinnvoll bei mehrgipfligen Histogrammen !<br />

a) Lagemaß: arithmetisches Mittel<br />

arithmetisches Mittel =<br />

Interpretation und Eigenschaften des arithmetischen Mittels:<br />

− balanciert das Histogramm aus<br />

− Schwerpunkt der Verteilung<br />

− hängt stark von extremen Werten ab (Hebelwirkung)<br />

− ungeeignet für stark „schiefe“ Verteilungen<br />

<strong>Statistik</strong> I − Seite 4


Median: − Zentralwert des Histogramms<br />

− jeweils 50% der Daten liegen links und rechts vom<br />

Median<br />

− unempfindlich gegen extreme Werte<br />

Modus: − Lage des Gipfels des Histogramms<br />

− häufigster Wert<br />

b) Streuungsmaß: Standardabweichung<br />

root mean square ( r.m.s.) =<br />

SD =<br />

Eigenschaften der SD:<br />

− selbe Einheit wie die Daten<br />

− mißt die Streuung der Daten um das Mittel<br />

− vielfach liegen<br />

68% der Datenwerte nicht weiter als 1 SD<br />

95% der Datenwerte nicht weiter als 2 SD<br />

vom arithmetischen Mittel entfernt<br />

5. Normalapproximation von Histogrammen<br />

mathematische Definition:<br />

f(x) =<br />

graphisch: Glockenkurve<br />

Eigenschaften:<br />

− symmetrisch um 0<br />

− Fläche unter der Kurve ist 1, bzw. 100%<br />

− Fläche zwischen −1 und 1 ist ≈ 68%<br />

− Fläche zwischen −2 und 2 ist ≈ 95%<br />

− Fläche zwischen −3 und 3 ist ≈ 99%<br />

− Fläche außerhalb [−4;4] ist verschwindend klein<br />

Verallgemeinerung:<br />

Es gibt eigentlich viele Glockenkurven, die sich nur durch die Lage des<br />

Scheitelpunktes und die Breite unterscheiden.<br />

Die Formel ist:<br />

g(x) =<br />

<strong>Statistik</strong> I − Seite 5


...<br />

Der obige Spezialfall (µ = 0, σ = 1) reicht aus, wenn Standardeinheiten<br />

benutzt werden.<br />

Standardeinheiten:<br />

− geben dasjenige Vielfache der Standardabweichungen an, um das im<br />

Wert über ( + ) oder unter ( − ) dem arithmetischen Mittel liegt<br />

− Beispiel: HANES− Daten: ave = 63,5, SD = 2,5<br />

Dann ist 68,5 = 63,5 + 2 * 2,5, also +2 in Standardeinheiten<br />

61,0 = 63,5 − 1 * 2,5, also −1 in Standardeinheiten<br />

Umgekehrt: −1,5 in Standardeinheiten entspricht 63,5 − 1,5 * 2,5 ≈<br />

59,75<br />

− Vorteil: man braucht nur eine Glockenkurve und nur eine Tabelle<br />

Flächenberechnung:<br />

prinzipiell: Integration<br />

aber: kein genereller Ausdruck für Integral möglich<br />

→ daher Verwendung von Tabellen<br />

ACHTUNG: unterschiedlicher Aufbau der Tabellen<br />

Normalapproximation von Histogrammen:<br />

Quantile:<br />

Verfahren: − Ersetze Histogramme durch die Normalverteilung<br />

(NV)<br />

− Berechne Flächenanteil durch NV<br />

Beispiel: MW = 69; SD = 3<br />

Gesucht: Prozentsatz zwischen 63 und 72 ?<br />

Bemerkung: − Falls Histogramm der NV− Kurve folgt, fassen ave und<br />

SD alle Informationen gut zusammen<br />

− gilt nicht immer !<br />

Problem: Wie faßt man eine „nichtnormale“ Verteilung zusammen?<br />

Beispiel: Einkommensverteilung<br />

1% Quantil: $ 1.300, d.h. 1% verdienen nicht mehr als<br />

... ...<br />

99% Quantil: $ 125.600, d.h. ...<br />

<strong>Statistik</strong> I − Seite 6


6. Meßfehler<br />

Definition: Das a % − Quantil ist der Wert, unter dem a % und über<br />

dem ( 100 − a ) % der Daten liegen.<br />

Spezialfälle: 25% − Quantil: „unteres Quartil“<br />

50% − Quantil: „Median“<br />

75% − Quantil: „oberes Quartil“<br />

Streuungsmaß: Quartilsabstand = oberes Quartil − unteres Quartil<br />

Deshalb halten wir fest:<br />

a) zufällige Fehler<br />

Ein a % − Quantil ist ein Wert, „unter“ (im Sinne von ≤) dem<br />

mindestens a % der Daten und „über“ (im Sinne von ≥) dem<br />

mindestens (100 − a) % der Daten liegen.<br />

Falls es mehrere solche Werte gibt, bilden diese ein Intervall.<br />

Das a % − Quantil ist der Intervallmittelpunkt.<br />

Wie gehen die Zufallsfehler in die Messung ein ?<br />

⇒ Meßwert = wahrer Wert + Zufallsfehler<br />

≈ ⏐<br />

Mittelwert beschrieben durch<br />

die Standardabweichung<br />

b) Ausreißer<br />

Definition: Ein Wert, der zu einem anderen Grundelement gehört<br />

aber: Wie wird das festgestellt ?<br />

Effekt: große Standardabweichung, verzerrte Werte<br />

c) systematische Fehler<br />

→ niemals Werte ohne Grund ausschließen, evtl. robuste<br />

Verfahren verwenden<br />

− stets derselbe Fehler<br />

− nicht aus Daten zu entnehmen, höchstens durch Vergleiche<br />

Meßwert = wahrer Wert + systematischer Fehler + Zufallsfehler<br />

Genauigkeit und Präzision:<br />

Genauigkeit bei systematischen Fehler<br />

Präzision bei zufälligem Fehler<br />

<strong>Statistik</strong> I − Seite 7


7. Hinweise zur Analyse, Darstellung und Präsentation von Daten und<br />

Ergebnissen<br />

a) Explorative Datenanalyse<br />

Stem − and − Leaf Displays:<br />

5 5 2 8 ...<br />

6 5 3 ...<br />

7 ...<br />

8 ...<br />

9 ...<br />

10 ...<br />

Bemerkungen:<br />

− ist den Histogrammen ähnlich<br />

− zeigt die vollen Daten<br />

− leichtes Ablesen von Median und Quantilen<br />

b) 5 − Number − Summaries<br />

Ziel: Gesamteindruck von den Daten<br />

Definition:<br />

Median<br />

unteres Quantil oberes Quantil<br />

Minimum Maximum<br />

Bemerkung:<br />

− mehrfaches Halbieren<br />

− häufig etwas anderes definiert mittels huiges (statt Quantilen),<br />

aber komplizierter<br />

− 7− number− summaries analog<br />

<strong>Statistik</strong> I − Seite 8


c) Boxplots<br />

Ziel: zeichnerische Umsetzung der 5− number− summaries<br />

⏐ ⏐ ⏐ ⏐ ⏐<br />

52 62 68,5 78 93<br />

= Q1 = Q 2 = Q 3<br />

1. Kasten (Box) aus Median (Q 2) und Quartilen (Q1, Q3)<br />

2. Ablesen des Quartilenabstandes (Q3 − Q1). Anlegen des 1,5−<br />

fachen Quartilenabstandes an Q1 bzw. Q3 definiert die<br />

„Normalbereiche“. Streiche den extremsten Datenpunkt<br />

innerhalb dieser Bereiche.<br />

Bemerkung:<br />

− auch vertikal möglich<br />

− zeigt: a) Zentralwert<br />

b) Streuung (durch Q3 − Q1)<br />

c) Symmetrie<br />

d) Ausreißer<br />

− vergleichende Boxplots<br />

⇒ mehrere nebeneinander (oder übereinander)<br />

<strong>Statistik</strong> I − Seite 9


Teil III: Korrelation und Regression<br />

8. Korrelation und Regression<br />

a) Streuungsdiagramm (scatter plot)<br />

→ graphische Darstellung der Beziehung zwischen Größe und Gewicht<br />

Aussage: Lage der Datenwolke<br />

Form der Datenwolke<br />

Assoziation / Neigung<br />

Ausreißer<br />

b) Korrelationskoeffizient<br />

→ Beschreibung der Datenwolke durch Kennzahlen<br />

− für die x− Werte: arithmetisches Mittel und SD<br />

− für die y− Werte: arithmetisches Mittel und SD<br />

→ steckt den Rahmen ab<br />

− Korrelationskoeffizient (r) ist ein relatives Maß (−1 bis +1) der<br />

Häufung um eine Gerade<br />

− schwer zu interpretieren !!!<br />

⇒ aber je näher an −1 oder +1, desto „stärker“ sind die<br />

Datenpunkte um eine Gerade gehäuft<br />

c) SD − Gerade (oder SD − Linie)<br />

Falls r = 1 (bzw. r = −1) wird eine exakte lineare Beziehung bestehen.<br />

Dann kann man (in SD− Einheiten) x und y schnell ineinander<br />

umrechnen (vgl. auch Resultate der Übungen).<br />

SDx<br />

SDy<br />

r = 1 r = −1<br />

Definition:<br />

durch den Punkt (Mittel von x , Mittel von y), mit der Steigung<br />

a) falls r > 0<br />

b) − falls r < 0<br />

SDx<br />

c) eines der obigen , falls r = 0<br />

SDy<br />

<strong>Statistik</strong> I − Seite 10


d) Berechnung des Korrelationskoeffizienten<br />

9. Mehr über Korrelation<br />

− x−und y−Werte in SD− Einheiten umrechnen<br />

− Mittel der Produkte bilden<br />

r = Mittel [( x in SD− Einheiten ) * ( y in SD− Einheiten )]<br />

Bemerkung:<br />

r > 0: wenn gleichsinnige Abweichungen<br />

r < 0: wenn gegensinnige Abweichungen<br />

vom Mittelwert vorherrschen<br />

ausgeschlossen:<br />

Falls SDx = 0 oder SDy = 0, so ist r nicht definiert. Es<br />

muß also wenigstens zwei verschiedene x− bzw. y−<br />

Werte geben.<br />

a) Eigenschaften des Korrelationskoeffizienten<br />

Der Korrelationskoeffizient basiert auf den in SD− Einheiten<br />

umgerechneten Werten. Daher bleibt er unverändert !, wenn man<br />

− die x−Werte (oder die y−Werte) mit der gleichen positiven<br />

Zahl multipliziert → Verzerrung<br />

− zu den x−Werten (oder y−Werten) die gleiche Zahl addiert<br />

→ Verschiebung<br />

− die Variablen x und y vertauscht (aber nicht nur einzelne<br />

Paare !!!)<br />

b) Aussehen der Streuungsdiagramme<br />

− kann durchaus verschieden sein, z. B. gespiegelt<br />

− kann insbesondere bei unterschiedlichen Standardabweichungen<br />

variieren<br />

→ SD´en „gleich“ denken, wie in Standardbeispiel S. 119 / 121<br />

c) Probleme beim Gebrauch des Korrelationskoeffizienten<br />

− kann durch Ausreißer verfälscht werden<br />

− zeigt nur lineare Assoziationen<br />

⇒ Deswegen nicht zu verwenden, falls folgende Situationen eintreten:<br />

+ + +<br />

+ + +<br />

+ + +<br />

+ + + +<br />

+ + +<br />

Ausreißer nichtlinearer<br />

Zusammenhang<br />

⇒ Deshalb ist ein Streuungsdiagramm immer hilfreich !!!<br />

<strong>Statistik</strong> I − Seite 11


d) „ökologische“ Korrelation<br />

→ Korrelationskoeffizient für Durchschnitte oder Raten, also<br />

zusammengefaßte Größen<br />

Dies unterdrückt einen Teil der Streuung und übertreibt i. a. die<br />

Assoziation (→ problematisch).<br />

Beispiel:<br />

A B<br />

C C<br />

B C B C<br />

A B<br />

A B<br />

A A<br />

vorher nachher<br />

e) Korrelation und Verursachung<br />

→ Assoziation Ø Kausalbeziehung<br />

(Dies folgt schon aus der Symmetrie !)<br />

Beispiele: Größe − Gewicht<br />

Anzahl Störche − Anzahl Geburten<br />

10. Regression<br />

Problemstellung: Welche lineare Beziehung besteht ?<br />

→ Die SD−Linie ist nicht notwendigerweise der beste<br />

Kandidat<br />

Bsp.: HANES− Daten für Größe und Gewicht<br />

Männer mit der Größe 73 = 70 + 3<br />

(MW) (SD)<br />

haben im Durchschnitt das Gewicht<br />

176 = 162 + 0,47 * 30<br />

(MW) (r) (SD)<br />

a) Regressionsgerade von y auf x<br />

− gibt zu jedem x den Durchschnittswert der zugehörigen y an<br />

− geht durch den Punkt (Mittel der x−Werte ; Mittel der y−Werte)<br />

− hat die Steigung<br />

b) Spezialfälle<br />

r = 0: kein linearer Zusammenhang, Kenntnis von x−Werten ist<br />

nutzlos<br />

r = 1: eine Gerade, nämlich die SD−Gerade<br />

r = −1: analog<br />

<strong>Statistik</strong> I − Seite 12


c) Kurve der arithmetischen Mittel<br />

Für jeden kleinen vertikalen Streifen um x bildet man den Durchschnitt<br />

der dazu gehörigen y−Werte. Dies liefert eine „vergröberte“<br />

Datenwolke bzw. Kurve von Durchschnitten (→ vgl. „ökologische<br />

Korrelation)<br />

Regressionsgerade:<br />

− ist geglättete Form dieser Kurve<br />

− sollte nicht zu sehr von der Kurve abweichen; bei deutlicher<br />

Nichtlinearität ist (lineare) Regression gefährlich<br />

d) Schätzungen für einige x− Werte<br />

− problemlos berechenbar mittels Regression<br />

− aber sehr bedenklich, wenn extrapoliert wird (über den Bereich der<br />

Herkunft der Daten hinaus)<br />

Bsp.: Schätzung der Quantilrängen<br />

e) Regressionsfehlschluß<br />

SAT, GPA jeweils „normal“<br />

Korrelationskoeffizient = 0,40<br />

Student Schlau liegt beim SAT beim 90% − Quantil<br />

Wo wird er beim GPA liegen ?<br />

→ Er liegt 1,3 SD über dem Mittel<br />

Wird also voraussichtlich 0,40 * 1,3 ≈ 0,5 SD´en über dem<br />

Mittel abschließen, d. h. bei ≈ 69%.<br />

Betrachte: wiederholtes Testen<br />

dann wird sehr oft: Spitzengruppe im Durchschnitt relativ schlechter<br />

Schlußlichtgruppe im Durchschnitt relativ besser<br />

Dies trifft zu bei (und liegt an):<br />

− „Zwetschgenform“ der Datenwolke<br />

− Regression des zweiten Resultats (y) auf das erste (x) sog.<br />

Regressionseffekt<br />

Bsp.: Größe von Vätern und Söhnen<br />

zur Plausibilität:<br />

beobachtetes Testergebnis = wahres Ergebnis + Zufallsfehler<br />

<strong>Statistik</strong> I − Seite 13


Annahme: wahres Ergebnis in der Bevölkerung normalverteilt mit<br />

Mittel = 100 und SD = 15;<br />

⇒ Zufallsfehler = ± 5<br />

beobachtet: 140<br />

kann sein: 135 + 5 oder 145 − 5<br />

135<br />

145<br />

aber es gibt mehr Leute mit ≈ 135 als wahrem Ergebnis<br />

⇒ Durchschnitt der „Gruppe 140“ wird bei Wiederholung niedriger<br />

liegen<br />

f) Regressionsfehlschluß<br />

Annahme, daß der Regressionseffekt eine „wirkliche“ Ursache hat.<br />

g) Die zwei Regressionen<br />

Symmetrie: Es gibt auch die Regressionsgerade von x auf y. Diese sagt<br />

x−Werte aus gewissen y−Werten hervor.<br />

Situation:<br />

Regression SD− Gerade<br />

von x auf y<br />

Datenwolke<br />

Regression<br />

von y auf x<br />

Statt vertikale, jetzt horizontale Streifen. Dies sind<br />

unterschiedliche Teilbereiche.<br />

<strong>Statistik</strong> I − Seite 14


11. Der r. m. s.− Fehler bei Regression<br />

→ Residuen und der r. m. s.− Fehler<br />

a) Definitionen<br />

Residuum<br />

= beobachteter Wert − Vorhersage<br />

= vertikaler Abstand zwischen Punkt und Regressionsgerade<br />

mit Vorzeichen<br />

Beobachteter<br />

Wert<br />

+<br />

r. m. s.− Fehler der Regressionsgeraden<br />

= r. m. s. der Residuen<br />

1rms<br />

Regressionsgerade<br />

von y auf x<br />

68% − 95% − Regel<br />

Für viele (nicht alle) Streuungsdiagramme gilt:<br />

∼ 68% der Punkte liegen innerhalb ± 1 r. m. s.− Fehler<br />

um die Regressionsgerade<br />

∼ 95% der Punkte liegen innerhalb ± 2 r. m. s.− Fehler<br />

um die Regressionsgerade<br />

Regressionsgerade<br />

<strong>Statistik</strong> I − Seite 15


) Zusammenhang mit Mittelwert und SD<br />

Mittel<br />

+ +<br />

X1<br />

+ +<br />

Dies ist gerade der Fall „r = 0“ (= unkorreliert).<br />

Die Regressionsgerade kann sich den Datenpunkten besser anpassen als<br />

eine „nur horizontale“ Gerade<br />

bzw.: Korrelation „hilft“ bei der Vorhersage<br />

also: r. m. s. der Regressionsgeraden wird ≤ SDy sein<br />

c) Berechnung des r. m. s.− Fehlers<br />

r. m. s.− Fehler der Regressionsgeraden von y auf x = * SDy<br />

(Einheit also wie y)<br />

Spezialfälle: r = ± 1 , dann = 0<br />

r = 0, dann = 1<br />

d) PLOTS der Residuen<br />

Verfahren:<br />

X2<br />

X3<br />

X1<br />

X2<br />

X3<br />

Regressions<br />

gerade von<br />

auf x<br />

<strong>Statistik</strong> I − Seite 16


Eigenschaften:<br />

a) Mittelwert ist 0<br />

b) Regressionsgerade (der Residuen auf x) ist die x− Achse<br />

Ziel: Überprüfung des Modells<br />

− alles o. k., dies erwartet man<br />

− nichtlinearer, (quadratischer) Anteil<br />

− Zeiteffekt (Neukalibrierung)<br />

− unterschiedliche Präzision, siehe oben<br />

<strong>Statistik</strong> I − Seite 17


f) Vertikale Streifen<br />

Bsp.: Größe von Vätern und Söhnen (siehe S. 179)<br />

Histogramme für die Größe der Söhne, deren Väter 64 bzw. 72<br />

inches groß sind.<br />

% per inch<br />

67<br />

71<br />

⇒ verschoben, aber ähnliche Form und gleiche SD´s<br />

allgemein heißt dies: Homoskedastizität<br />

Das Gegenteil wäre: Heteroskedastizität<br />

Dann: unterschiedliche Präzision der Vorhersagen, d. h. der r. m. s.−<br />

Fehler stellt nur einen Durchschnitt dar.<br />

(Bemerkung: man müßte gewichten.)<br />

g) Normalapproximation für vertikale Streifen<br />

Voraussetzung: „zwetschgenförmiges“ Diagramm, ⇒ dann:<br />

homoskedastisch etc.<br />

Insbesondere entspricht jeder vertikale Streifen einer Normalverteilung,<br />

etwa so:<br />

Verfahren:<br />

Man braucht lediglich: neuen Mittelwert<br />

neue Standardabweichung<br />

<strong>Statistik</strong> I − Seite 18


Bsp.: x = LSATscore y = first−year score<br />

zwetschgenförmiges Diagramm mit Mittel der x = 32,<br />

Mittel der y = 68,<br />

SDx = 6,<br />

SDy = 10 und<br />

r = 0,6<br />

12. Die Regressionsgerade<br />

a) Steigung und Achsenabschnitt<br />

b) Nutzen<br />

Wieviel Prozent der Studenten mit LSAT ≈ 35 hatten first− year<br />

scors über 75 ?<br />

neues Mittel: 35 = 32 + 0,5 * 6 , also 0,5 SE<br />

daher: 68 + 0,6 * 0,5 * 10 = 71<br />

neue SD: * 10 = 8<br />

Also wie gewohnt: = 0,5 SE; ergibt ≈ 31%<br />

Wir wissen schon: Die Regressionsgerade<br />

− geht durch den Punkt (Mittel von x, Mittel von y)<br />

− hat die Steigung<br />

Regressionsgleichung:<br />

y = ax + b mit a =<br />

b = ( Mittel von y ) − a * ( Mittel von x )<br />

= Vorhersagewert für x = 0<br />

(Achsenabschnitt)<br />

− Vereinfachung bei häufiger Anwendung<br />

− manchmal aber nicht immer) direkte Interpolationsmöglichkeit für a<br />

und b (Vorsicht bei Beobachtungsstudien)<br />

c) technische Anmerkung<br />

(lineare) Regression von y auf x:<br />

⇒ Auflösen nach y<br />

(lineare) Regression von x auf y:<br />

⇒ Auflösen nach x<br />

<strong>Statistik</strong> I − Seite 19


d) Methode der kleinsten Quadrate<br />

Ziel: Anpassung einer Gerade an Punkte<br />

Schätzung der Parameter<br />

Idee:<br />

zur Vorhersage von y aus x:<br />

Minimiere die Summe der quad. vert. Abstände, d. h.<br />

minimiere den r. m. s.− Fehler<br />

denke nach frage Mathematiker<br />

Lösung: Regressionsgerade von y auf x !<br />

Bsp.: Hooke´sches Gesetz<br />

Sprechweise: Geschätzt nach der Methode der kleinsten Quadrate<br />

(„KQ − Schätzer“)<br />

e) Sinn und Unsinn von Regression<br />

Bsp.: Fläche und Umfang von Rechtecken<br />

20 „typische Rechtecke“<br />

Regressionsgleichung: Fläche = a * Umfang + b<br />

− ergibt scheinbar ziemlich brauchbaren Zusammenhang<br />

Konsequenz:<br />

− stets kritisch prüfen<br />

− Situation beachten<br />

− Regression ist ein wichtiges, verallgemeinerungsfähiges<br />

Hilfsmittel, aber kein Allheilmittel !<br />

<strong>Statistik</strong> I − Seite 20


Teil IV: Wahrscheinlichkeitstheorie<br />

13. Wahrscheinlichkeit<br />

a) Zur „Semantik“ des Begriffs „Wahrscheinlichkeit“<br />

Verwendung:<br />

− in der Alltagssprache in sehr vielen Situationen,<br />

z. B. Wahrscheinlichkeit für „Regen“<br />

− Bedeutung nicht immer klar<br />

z. B. „Überlebenschance 90% bei Operationen“<br />

Historisch:<br />

besonders in der Theorie der Glücksspiele, aber auch in der<br />

„Stochastik“ = Kunst des vernünftigen Vermuten<br />

gemeinsame Eigenschaften:<br />

− falls ein Zufallsphänomen über lange Zeit unter den gleichen<br />

Bedingungen wiederholt wird, gibt die Wahrscheinlichkeit<br />

eines Ereignisses die relative Häufigkeit dieses Ergebnisses in<br />

der Zeit an<br />

− Wahrscheinlichkeiten werden in Prozent zwischen 0% und<br />

100% ausgedrückt (bzw. zwischen 0 und 1)<br />

− Summe der Wahrscheinlichkeiten für ein Ereignis und das<br />

Komplementärereignis (d. h. das Ereignis tritt nicht ein) ist<br />

100%<br />

Betrachtung auf lange Sicht:<br />

Bsp. 1: Urne 1 mit 3 roten und 2 blauen Kugeln sowie Urne 2 mit 30<br />

roten und 20 blauen Kugeln.<br />

Eine Kugel wird zufällig gezogen. Bei ROT Gewinn 1 DM.<br />

Welche Urne ist günstiger ?<br />

→ kein Unterschied, da es nur auf das Verhältnis ankommt.<br />

Dies ist jeweils (dies gilt nur, wenn das Verhältnis sich nicht<br />

ändert).<br />

Bsp. 2: Schachtel mit Zetteln 1 , 2 , 3. Wir ziehen zwei Zettel. Der<br />

erste ist 3. Dann zwei Varianten:<br />

a) Ziehen mit Zurücklegen<br />

b) Ziehen ohne Zurücklegen<br />

b) Bedingte Wahrscheinlichkeiten<br />

Bsp.: Zwei Karten ohne Zurücklegen zufällig ziehen (Kartenspiel mit<br />

52 Karten). Falls die zweite Karte Herz− Dame ist, Gewinn.<br />

a) Gewinnchance ?<br />

Jede der 52 Karten kann mit der gleichen Wahrscheinlichkeit<br />

die zweite sein ⇒ Gewinnchance<br />

<strong>Statistik</strong> I − Seite 21


) die erste Karte ist Herz− Dame<br />

⇒ Gewinnchance (bei zweiter Ziehung) = 0<br />

c) die erste Karte ist Kreuz− Sieben<br />

⇒ Gewinnchance =<br />

In b) und c) bedingte Wahrscheinlichkeit, da sie von Ausgang<br />

der ersten Ziehung abhängt.<br />

Sprechweise:<br />

− Wahrscheinlichkeit eines Ereignisses unter der Bedingung,<br />

daß ein anderes Ereignis eingetreten ist<br />

− Wahrscheinlichkeit für Ereignis A gegeben Ereignis B<br />

Schreibweise:<br />

P (A | B) heißt „bedingte Wahrscheinlichkeit von A bei<br />

gegebenen B“.<br />

Bsp.: einmaliges Ziehen aus 1, 2 (grün) und 3, 4 (rot)<br />

⇒ P (1 | rot) = 0, P (1 | grün) = und P (1) =<br />

c) Multiplikationsregel<br />

Bsp.: Wie oben (2 Karten aus 52)<br />

Wahrscheinlichkeit dafür, daß erste Karte Kreuz−Sieben und die<br />

zweite Karte Herz−Dame ist ?<br />

⇒ in der Fälle: erste Karte ist Kreuz−Sieben; in der Fälle:<br />

zweite Karte ist Herz− Dame.<br />

⇒ insgesamt: * =<br />

Multiplikationsregel:<br />

d) Unabhängigkeit<br />

Wk ( zwei Ereignisse treten gemeinsam ein )<br />

= Wk ( erstes Ereignis ) * bedingte Wk ( das zweite Ereignis<br />

tritt ein, gegeben das erste Ereignis )<br />

Definition:<br />

Zwei Ereignisse heißen unabhängig, falls Wahrscheinlichkeit für das<br />

Zweite nicht davon beeinflußt wird, ob das erste Ereignis eingetreten<br />

ist oder nicht.<br />

Oder präziser:<br />

Falls die bedingte Wahrscheinlichkeit (zweites Ereignis, gegeben erstes<br />

Ereignis) nicht vom Ausgang des ersten Ereignisses abhängt.<br />

<strong>Statistik</strong> I − Seite 22


Beispiele:<br />

a) Zweimaliger Wurf einer Münze: unabhängig<br />

b) Einmaliges Ziehen aus 1, 2 (grün) und 1, 2 (rot)<br />

Wk (rot) = + Wk (rot | 1) = Wk (rot | 2)<br />

Wk (grün) = + Wk (grün | 1) = Wk (grün | 2)<br />

Farbe und Wert sind unabhängig.<br />

c) Einmaliges Zeihen aus 1, 1 (grün) und 2, 2 (rot)<br />

Wert verrät die Farbe (wird umgekehrt); nicht unabhängig,<br />

also abhängig.<br />

e) Unabhängiges Ziehen mit bzw. ohne Zurücklegen<br />

→ Ziehen mit Zurücklegen in der Regel unabhängig<br />

Ziehen ohne Zurücklegen in der Regel abhängig<br />

(Beispiele siehe oben)<br />

f) Multiplikationsregel bei Unabhängigkeit<br />

Wk (zwei Ereignisse treten gemeinsam ein) =<br />

Wk (erstes Ereignis tritt ein) * Wk (zweites Ereignis tritt ein)<br />

Bsp.: in Teil b)<br />

Wk (1rot) = Wk (1) * Wk (rot) =<br />

⇒ erhebliche Vereinfachung−beim Ziehen mit Zurücklegen anwendbar<br />

g) Anwendbarkeit von Wahrscheinlichkeitstheorien; Überlegungen<br />

häufig identische Wiederholungen → i. d. R. unproblematisch<br />

Beispiele: Qualitätskontrolle, Medizin, Glücksspiele<br />

aber: Einzelfälle sehr problematisch<br />

14. Mehr über Wahrscheinlichkeit<br />

a) Vollständige Listen<br />

Für viele Zufallsvorgänge kann man sämtliche Resultate aufschreiben<br />

und als gleichwahrscheinlich ansehen (sog. LAPLACE − Experiment).<br />

<strong>Statistik</strong> I − Seite 23


Dann gilt für ein Ereignis:<br />

Wk(Ereignis) = relative Häufigkeit des Ereignisses<br />

=<br />

Bemerkung: etwas zirkulär<br />

Beispiele:<br />

b) Additionsregel<br />

a) einmaliges Würfeln<br />

Wahrscheinlichkeit für eine gerade Zahl ?<br />

günstige Fälle: 2, 4, 6<br />

mögliche Fälle: 1, 2, 3, 4, 5, 6<br />

also: Wk (gerade Zahl) =<br />

b) zweimal Würfeln<br />

Wk (Augensumme 4) =<br />

c) dreimal Würfeln<br />

Wk (Augensumme 9) =<br />

Wk (Augensumme 10) =<br />

genauer: mögliche Fälle: 216 (=6*6*6)<br />

günstige Fälle für 9: 25<br />

günstige Fälle für 10: 27<br />

(⇒ Betrachtung der günstigen Trippel)<br />

Definition:<br />

Zwei Ereignisse schließen sich gegenseitig aus, wenn sie nicht<br />

gleichzeitig eintreten können.<br />

Additionsregel:<br />

Falls sich die Ereignisse E1 und E2 gegenseitig ausschließen, so gibt<br />

Wk (wenigstens E1 oder E2) = Wk (E1) + Wk (E2)<br />

Beispiele:<br />

a) einmaliges Würfeln<br />

Wk (1 oder 2) = Wk (1) + Wk (2) =<br />

b) zweimaliges Würfeln<br />

Wk (wenigstens einmal die 6) =<br />

(beim 1. Wurf die 6 und beim 2. Wurf die 6 schließen sich<br />

nicht aus ⇒ Formel nicht anwendbar)<br />

direkte Lösung:<br />

<strong>Statistik</strong> I − Seite 24


c) Zur Berechnung von komplexen Wahrscheinlichkeiten<br />

Problem:<br />

n−maliges Würfeln<br />

Gesucht: Wk (wenigstens einmal die 6) = ?<br />

(Additionsregel nicht anwendbar (Prüfe n > 6)<br />

Lösung:<br />

Wk (wenigstens einmal die 6) = 1 − Wk (keinmal die 6) =<br />

= 1 − Wk (nicht im 1. Wurf) − ... − Wk (nicht im n− ten Wurf)<br />

=<br />

= 1 − () n<br />

bei n = 1:<br />

bei n = 2:<br />

d) Historische Beispiele<br />

vgl. Paradox des Chevalier de Méré<br />

Ist Gleichwahrscheinlichkeit realistisch ??<br />

e) Baumdiagramme<br />

Ziel: Veranschaulichung mehrstufiger Zufallsexperimente<br />

Bsp.: Zweimaliger Münzwurf<br />

*<br />

Allgemeiner:<br />

1/2<br />

1/2<br />

P (A1)<br />

P (A2)<br />

K<br />

Z<br />

1/2<br />

1/2<br />

1/2<br />

1/2<br />

P (B1 | A1)<br />

P (B2 | A1)<br />

K<br />

Z<br />

K<br />

Z<br />

Wk (KK) = 1/4<br />

Wk (KZ) = 1/4<br />

Wk (ZK) = 1/4<br />

Wk (ZZ) = 1/4<br />

Wk (wenigstens 1x K) = Wk (KK) + Wk (KZ) + Wk (ZK) =<br />

⇒ Multiplikationsregel und Additionsregel übertragen sich auf<br />

den Pfad<br />

*<br />

A1<br />

A2<br />

B1<br />

B2<br />

also: P (B1 | A1) =<br />

Manchmal ist es bequem, mit absoluten Zahlen zu rechnen:<br />

Bsp.: Geburtenkontrolle<br />

<strong>Statistik</strong> I − Seite 25


einfacher: Münzwurf, bei K Stopp, bei Z noch einmal und dann Stopp<br />

*<br />

1000<br />

Baumdiagramm: 0,99 pos<br />

0,0001<br />

0,9999<br />

1/2<br />

1/2<br />

K<br />

500<br />

Z<br />

500<br />

1/2<br />

1/2<br />

0,01<br />

0,02<br />

0,98<br />

K also: 750 K, 750 Z<br />

250<br />

Z<br />

250<br />

⇒ an Wahrscheinlichkeit (Jungen | Mädchen) ändert sich nichts,<br />

ich blende nur einen Teil aus<br />

f) Berechnung inverser Wahrscheinlichkeiten (Bayes − Theorem)<br />

Bsp.: Virusinfektion<br />

Bevölkerung: 100 Mio.<br />

Infiziert: 10.000<br />

Test: pos. neg.<br />

infiziert 99% 1%<br />

nicht inf. 2% 98%<br />

Ein zufällig ausgewählter Patient hat positives Resultat<br />

Bedeutung ? Wahrscheinlichkeit (infiziert | pos. Resultat)<br />

inf<br />

nicht inf<br />

neg<br />

pos<br />

neg<br />

Wk (infiziert | positiv) = ≈ 0,0049 ≈ 0,5%<br />

Wegen der Größe der nicht infizierten Gruppe kommen auch die<br />

meisten positiven Resultate aus dieser Gruppe.<br />

<strong>Statistik</strong> I − Seite 26


15. Binominalkoeffizienten<br />

a) mathematische Grundlagen<br />

n! = n * (n − 1) * ... * 1 Definiere: 0! = 1<br />

n! Möglichkeiten n verschiedene Objekte zuordnen:<br />

n Objekte , k und n −k seien gleich<br />

Wie viele Anordnungsmöglichkeiten gibt es ?<br />

( ):= Gesprochen: „ n über k“<br />

Der Binominalkoeffizient ( ):= gibt an, wie viele Möglichkeiten es<br />

gibt, n Objekte, von denen jeweils k bzw. (n − k) gleich sind, in einer<br />

Reihe anzuordnen. (Beachte Konvention: 0! = 1.)<br />

b) Binominalformel<br />

Situation:<br />

− ein Versuch wird n− mal identisch wiederholt<br />

− ein bestehendes Ereignis tritt jeweils mit Wahrscheinlichkeit p<br />

ein<br />

− die Versuche sind unabhängig<br />

Aussage:<br />

Dann ist die Wahrscheinlichkeit, daß das Ereignis genau k−mal<br />

eintritt, durch die<br />

Herleitung:<br />

Binominalformel<br />

* p k * (1 − p) n−k gegeben.<br />

Eintreten:= 1; Nicht Eintreten:= 0<br />

Dann: k− mal 1 und (n − k)− mal 0 anordnen. Die Wahrscheinlichkeit<br />

für (1, ... , 1, 0, ... , 0) ist p k * (1 − p) n−k und es gibt ()<br />

Anordnungen ⇒ () * p k * (1 − p) n−k<br />

Beispiele:<br />

a) zehnmaliger Münzwurf<br />

Wk (3x K) = () * () 3 * () 7 = * () 10 =<br />

b) zehnmaliges Würfeln<br />

Wahrscheinlichkeit (2x 6) = () * () 2 * () 8<br />

c) zweimal Ziehen ohne Zurücklegen aus Schachtel mit vier<br />

Zetteln<br />

Wk (1x 3) = ?<br />

⇒ nicht unabhängig, daher nicht anwendbar !!!<br />

<strong>Statistik</strong> I − Seite 27


d) viermaliges Münzwerfen<br />

Wk (mind. 1x K) = 1 − () * () 0 * () 4<br />

= 1 − () 4 =<br />

Teil V: Variabilität zufälliger Prozesse<br />

16. Das Gesetz der großen Zahlen<br />

Bsp.: Kerichs Münzwurf−Experiment<br />

Resultat:<br />

Anzahl der Würfe Anz. d. Köpfe Anz. Köpfe − * Anz.<br />

Würfe<br />

10 4 − 1<br />

100 44 − 6<br />

200 98 − 2<br />

... ... ...<br />

5000 2533 33<br />

... ... ...<br />

10000 5067 67<br />

Dies beweist nichts, illustriert aber folgendes:<br />

− die Anzahl von K schwankt um * Anzahl der Würfe; es gilt:<br />

Anzahl von K = * Anzahl der Würfe + Zufallsfehler<br />

− die Größe des Zufallsfehlers nimmt mit steigender Zahl der Würfe zu<br />

− bezogen auf die Anzahl der Würfe (d. h. ausgedrückt in % der<br />

Wurfanzahl) nimmt die Größe des Zufallsfehlers jedoch ab.<br />

− quantitativ ist der Zufallsfehler bei 100 ungefähr 5; bei 10.000<br />

ungefähr 50. Hundertmal mehr Würfe führen also zu einem um den<br />

Faktor = 10 vergrößerten Zufallsfehler.<br />

− Andersherum:<br />

Will man den relativen Fehler halbieren, muß man die Wurfanzahl<br />

vervierfachen !!!<br />

Ferner illustrieren Kerich´s Resultate:<br />

Es gibt keine „Kompensation“ durch das Gesetz der großen Zahlen. Auf<br />

eine lange Folge von Kopf muß keineswegs Zahl folgen.<br />

<strong>Statistik</strong> I − Seite 28


Zufallsprozesse und Schachtelmodelle<br />

− zufällige Prozesse treten in vielen Formen auf:<br />

Münzwurf, Würfeln, Geburt, „Stichprobe“, ...<br />

− einheitliche Beschreibung möglich durch:<br />

Schachtelmodelle und Ziehungen daraus<br />

...<br />

Man sieht:<br />

− „zufällig“ (d. h. jeder Zettel mit gleicher Wahrscheinlichkeit)<br />

− mit Zurücklegen<br />

⇒ relevante Größe ist die Summe der Ziehungen; deren<br />

Zufallsschwankung kann dann analysiert werden.<br />

Dazu nötige Angaben:<br />

− welche Zahlen treten in der Schachtel auf ?<br />

− wie oft kommen sie vor ?<br />

− wie oft wird gezogen ?<br />

b) Aufstellung eines Schachtelmodells<br />

Bsp.: Nevada−Roulette<br />

(38 Felder, davon 18 rot, 18 schwarz, 2 grün)<br />

1) 10 mal setzen von $1 auf rot<br />

Gewinnquote 1: 1<br />

⇒ also lauten die Zahlen auf dem Zettel: + 1 Gewinn<br />

⇒ insgesamt also: 18 x +1 und 20 x −1<br />

Es wird zehnmal gezogen.<br />

− 1 Verlust<br />

→ Nettogewinn = Summe der Ziehungen (in $)<br />

2) Fünfmaliges Setzen auf eine einzelne Zahl in neuem<br />

Schachtelmodell:<br />

1 x +35 und 37 x −1<br />

Es wird fünfmal gezogen.<br />

→ Nettogewinn = Summe der Ziehungen (in $)<br />

<strong>Statistik</strong> I − Seite 29


17. Erwartungswert und Standardfehler<br />

a) Erwartungswert<br />

Hintergrund: für Daten: für Zufallsprozeß:<br />

Bsp.: 100 Ziehungen aus 1 1 1 5<br />

→ 25 * 5 + 75 * 1 = 200<br />

Formel:<br />

b) Standardfehler<br />

Mittelwert Erwartungswert<br />

Standardabweichung Standardfehler<br />

Erwartungswert für eine Summe der Ziehungen mit<br />

Zurücklegen aus einer Schachtel = (Anzahl der Ziehungen) *<br />

(Mittelwert der Schachtel)<br />

[Mittelwert der Schachtel = arithm. Mittel der Werte in der<br />

Schachtel]<br />

Bsp.: 25x Ziehen mit Zurücklegen aus 0 2 3 4 6<br />

Erwartungswert der Summe: 25 * (0 + 2 + 3 + 4 + 6) = 75<br />

Schwankung ???<br />

Summe = Erwartungswert + Zufallsfehler<br />

Größenordnung des Zufallsfehlers ? → Standardfehler („SE“)<br />

Formel:<br />

Beim Ziehen mit Zurücklegen aus einem Schachtelmodell ist<br />

der Standardfehler für die Summe der Ziehungen gleich:<br />

* (SD der Schachtel)<br />

[SD der Schachtel = Standardabweichung der Werte in der<br />

Schachtel] → „Quadratwurzelregel“<br />

Hinweis: SE nimmt zu mit<br />

− der Anzahl der Ziehungen<br />

− der SD der Schachtel<br />

Bemerkung: Oft wird nicht zwischen SD und SE unterschieden<br />

Bsp.: siehe oben<br />

<strong>Statistik</strong> I − Seite 30


Mittelwert der Schachtel = 3<br />

SD der Schachtel =<br />

=<br />

SE für die Summe von 25 Ziehungen: * 2 = 10<br />

also: Summe = 75 + Zufallsfehler (SE = 10)<br />

Illustration: siehe Tabelle auf S. 267<br />

Hintergrund: SE wächst nur langsam mit der Anzahl der<br />

Ziehungen, weil Fehlerauslöschung<br />

(Kompensation) wirksam wird.<br />

c) Benutzung der Normalverteilung<br />

Bsp.: 25 Ziehungen aus 0 2 3 4 6<br />

Wie viele Werte (der Summe) liegen zwischen 50 und 100 ?<br />

Idee: Normalverteilung benutzen<br />

Voraussetzung: Anzahl der Ziehungen ist nicht „zu klein“<br />

Verfahren: Umrechnen auf SD−Einheiten<br />

Bsp.: Gewinnerwartung eines Casinos<br />

Benutzung der Normalverteilung ⇒ Fläche 99 %<br />

bei 10.000 Spielen, jeweils 1 DM auf rot<br />

Wk (Gewinn des Kasinos ≥ 250 DM) = ???<br />

Schachtel: 20 x +1 und 18 x −1; 10.000 Ziehungen<br />

Mittelwert der Schachtel ≈ 0,05 DM<br />

SD der Schachtel ≈ 1,00 DM<br />

also: Erwartungswert d. Summe ≈ 10.000 * 0,05 DM = 500 DM<br />

SE der Summe ≈ * 1,00 DM = 100 DM<br />

<strong>Statistik</strong> I − Seite 31


eine Vereinfachung:<br />

Situation: Schachtel mit genau zwei verschiedenen Arten von<br />

Zetteln<br />

SD der Schachtel =<br />

Bsp.: 1 1 1 5 ≈ 1,73<br />

Herleitung: Es reicht, Schachteln mit k Einsen und (n − k)<br />

Nullen zu betrachten (wegen<br />

Multiplikation und Addition mit<br />

Konstanten)<br />

Dann gilt:<br />

Mittel =<br />

SD = =<br />

= =<br />

d) Klassifikations− und Abzählprobleme<br />

Beispiel: 60x Würfeln<br />

a) Summe = ??? (Erwartungswert ± SE)<br />

Schachtel: 1 2 3 4 5 6, 60 Ziehungen<br />

Mittel der Schachtel: 3,5<br />

SD der Schachtel: 1,71<br />

Erwartungswert der Summe: 60 * 3,5 = 210<br />

SE der Summe: * 1,71 ≈ 13<br />

b) Anzahl der 6 = ??? (Erwartungswert ± SE)<br />

Dies kann wieder als „Summe“ von Ziehungen geschrieben werden,<br />

indem man die Schachtel modifiziert und die günstigen Ereignisse<br />

zählt.<br />

1 2 3 4 5 6<br />

↓ ↓ ↓ ↓ ↓ ↓<br />

0 0 0 0 0 1<br />

Betrachte 60 Ziehungen; Anzahl der 6 entspricht der Summe der<br />

grünen Zettel.<br />

Mittelwert der grünen Schachtel =<br />

SD der grünen Schachtel = ≈ 0,37<br />

<strong>Statistik</strong> I − Seite 32


also bei 60 Ziehungen:<br />

Anzahl der 6 = Summe der grünen Zettel<br />

Erwartungswert: 60 * = 10<br />

SE: * 0,37 ≈ 3<br />

e) Beziehung zum Gesetz der großen Zahl<br />

Quadratwurzelregel − Gesetz der großen Zahlen<br />

Bsp.: Anzahl der "K" bei n−Münzwürfen<br />

Schachtel: 0 1<br />

Mittelwert = , SE =<br />

Anzahl der Würfe Erwartungswert in % der Anzahl<br />

± SE der Würfe<br />

100 50 ± 5 50 % ± 5 %<br />

10000 5000 ± 50 50 % ± 0,5 %<br />

1000000 500000 ± 500 50 % ± 0,05 %<br />

18. Normalapproximation von Wahrscheinlichkeitshistogrammen<br />

a) Wahrscheinlichkeitshistogramme<br />

Bsp.: n−maliger Münzwurf, bzw. (Summe aus einmaligen) Ziehen aus<br />

0, 1; n−mal wiederholt<br />

Fazit: Das Wahrscheinlichkeitshistogramm repräsentiert<br />

Wahrscheinlichkeiten durch Flächen. Bei Betrachtung auf lange<br />

Sicht nähert sich das Daten−Histogramm immer mehr dem<br />

Wahrscheinlichkeits−Histogramm an.<br />

(vgl. auch Buch S. 287)<br />

b) Normalapproximation für Wahrscheinlichkeits−Histogramme<br />

Situation: Summe aus k−maligem Ziehen aus 0 1, n−mal wiederholt<br />

für n → ∞: Wahrscheinlichkeits−Histogramm<br />

für k → ∞: ???<br />

Fazit: Beim Ziehen aus einem Schachtelmodell nähert sich das<br />

Wahrscheinlichkeits−Histogramm für die Summe aus k<br />

Ziehungen mit wachsendem k stets der Normalverteilung an.<br />

Der Inhalt der Schachtel spielt keine entscheidende Rolle.<br />

<strong>Statistik</strong> I − Seite 33


Bsp.: 100−maliger Münzwurf<br />

1) Wk (45 (K ( 55) = ???<br />

2) Wk (45 < K < 55) = ???<br />

3) Wk (K = 50) = ???<br />

Summe aus 100−maligem Ziehen aus 0 1, angenähert<br />

normalverteilt mit Erwartungswert = 50 und<br />

SE = 5<br />

dann umrechnen auf Standardeinheiten<br />

zu 1): 45 ⇒ 44,5 entspricht − 1,1 Standardeinheiten<br />

55 ⇒ 55,5 entspricht + 1,1 Standardeinheiten<br />

⇒ Fläche ≈ 72,87 %<br />

zu 2): 45 ⇒ 45,5 entspricht − 0,9 Standardeinheiten<br />

55 ⇒ 54,5 entspricht + 0,9 Standardeinheiten<br />

⇒ Fläche ≈ 63,19 %<br />

zu 3): 50 ⇒ 49,5 entspricht − 0,1 Standardeinheiten<br />

50 ⇒ 50,5 entspricht + 0,1 Standardeinheiten<br />

Zusatzbemerkung:<br />

⇒ Fläche ≈ 7,97 %<br />

− k muß hinreichend groß sein (hängt vom Inhalt der Schachtel<br />

ab)<br />

− gilt nur für Summen, nicht für Produkte<br />

− entscheidende Größen<br />

a) Mittelwert der Schachtel<br />

b) SD der Schachtel ((0)<br />

c) Anzahl der Ziehungen<br />

→ Dies bestimmt Erwartungswert und SE.<br />

<strong>Statistik</strong> I − Seite 34


Teil VI : Stichprobenverfahren<br />

19. Stichprobenuntersuchung<br />

a) Grundbegriffe<br />

b) Probleme<br />

− Grundgesamtheit (Population)<br />

= Menge von Personen, Gegenständen oder Meßwerten, über<br />

die man etwas erfahren möchte (z. B. Wähler in Bayern)<br />

− Parameter<br />

= numerischer Kennwert einer Grundgesamtheit (z. B. Anteil<br />

der Wähler der Partei K); i. a. können Parameter nicht exakt<br />

bestimmt werden, sondern müssen geschätzt werden.<br />

− Stichprobe<br />

= Teil der Grundgesamtheit<br />

− Statistische Größe<br />

= Kennwert einer Stichprobe, kann (nach Ziehen) berechnet<br />

werden und zur Schätzung eines Parameters dienen.<br />

Grundgesamtheit Ziehen<br />

Stichprobe<br />

(Parameter) (stat. Größe)<br />

− Wie zählt man eine Stichprobe ?<br />

− Wie zieht man Rückschlüsse von der Stichprobe auf die<br />

Grundgesamtheit ?<br />

c) Umfrage des „Literary Digest“<br />

1936 : Roosevelt ↔ London<br />

Prognose : 43% zu 57%<br />

Resultat : 62% zu 38%<br />

Genauer :<br />

Rückschluß<br />

Prozentsatz Roosevelt<br />

Prognose Digest 43<br />

Prognose Gallup für die D. P. 44<br />

Prognose Gallup 56<br />

Wahlergebnis 62<br />

<strong>Statistik</strong> I − Seite 35


− Methode Digest<br />

10 Millionen Fragebögen per Post verschickt an Adressen aus<br />

Telefonbüchern, Automobilclubs mit dem Rücklauf von 2,4<br />

Millionen<br />

− Gallup : Zufallsstichprobe<br />

− 50.000 Wähler für die Prognose befragt<br />

− 3.000 Wähler für die Prognose der D. P. befragt<br />

− Problem bei Digest − Umfrage<br />

− Verzerrung durch ungeeignete Auswahl (selection bias)<br />

− Verzerrung durch Nichtbeantwortung (non − response bias)<br />

− Probleme bei Gallup<br />

Man sieht :<br />

− keine für die Prognose der D. P.<br />

− Nichtbeantwortung für die eigene Prognose<br />

(und natürlich das Auswahlproblem)<br />

große Stichproben sind nicht notwendigerweise „gut“ !!!<br />

und man sollte stets fragen :<br />

− Was ist die Grundgesamtheit, was die Parameter ?<br />

− Wie wurde Stichprobe ausgewählt ?<br />

− Wie hoch war die Antwortrate ?<br />

und auch noch :<br />

− Wann wurde gefragt ?<br />

− Was / Wie wurde gefragt ?<br />

− Wer war der Auftraggeber ?<br />

d) Beispiel : Präsidentschaftswahlen 1948 in den USA<br />

Resultate : Tabelle 2 auf Seite 309<br />

Erklärung : Es wurden Quotenstichproben verwendet, d. h. innerhalb<br />

bestimmter Vorgaben (z. B. Geschlechterverhältnis)<br />

suchen die Interviewer die Befragten „nach Gutdünken“<br />

aus.<br />

Aber : Dies kann einen systematischen Fehler verursachen. (In<br />

diesem Fall in Richtung der „Republikaner“); vgl.<br />

Tabelle 3 auf Seite 311<br />

⇒ nicht empfehlenswert !!!<br />

<strong>Statistik</strong> I − Seite 36


e) Wahrscheinlichkeitsmethoden<br />

Kennzeichen: Für jedes Individuum kann die Wahrscheinlichkeit<br />

berechnet werden, daß es für die Stichprobe ausgewählt<br />

wird.<br />

einfache Zufallsauswahl (simple random sampling):<br />

zufälliges Auswählen (mit gleichen<br />

Wahrscheinlichkeiten) „ohne Zurücklegen“ einfach, aber<br />

oft nicht praktikabel, da die Grundgesamtheit nicht<br />

erfaßt werden kann.<br />

mehrstufiges Verfahren (multistage cluster sampling):<br />

man wählt zunächst zufällig eine Stadt, Bezirk, usw.;<br />

siehe Bsp. Gallup, Seite 313).<br />

Klumpenverfahren:<br />

man wählt zunächst einen Bezirk, dann ein Haus, aber<br />

dann alle Bewohner des Hauses.<br />

geschichtete Stichproben:<br />

Grundgesamtheit wird zunächst in Schichten unterteilt,<br />

aus denen dann separat Stichproben gezogen werden.<br />

Bemerkung:<br />

− viele Variationen<br />

− Auswahlkriterien : Kosten und Zielsetzung der Untersuchung<br />

f) Güte der Wahrscheinlichkeitsmethoden<br />

Beispiel : Gallup Prognosen, Tabelle 4 auf S. 314<br />

Fazit : erstaunlich gut<br />

aber : auch gegenläufige Entwicklungen (mehr Antwortausfall,<br />

weniger Stabilität)<br />

− Gallup−Fragebogen<br />

→ S. 317 / 319<br />

− Telefonumfragen<br />

Vorteil : geringe Kosten<br />

Achtung : Telefonnummernvergabe beachten (Schema ?)<br />

→ sehr verbreitet<br />

Ausblick : auch hier gilt :<br />

Schätzung = Parameter + Bias + Zufallsfehler<br />

zum Bias (systematischer Fehler) vgl. oben und<br />

zum Zufallsfehler vgl. unten (Kapitel 20)<br />

<strong>Statistik</strong> I − Seite 37


20. Zufallsfehler bei Stichprobenverfahren<br />

Beispiel : Aus Daten von 6.672 Amerikanern [3.091 (= 46%) Männer und<br />

3.581 (= 54%) Frauen] sollen 100 ausgewählt werden.<br />

→ einfaches Zufallsmodell<br />

a) Wie sieht es dann mit der Anzahl der Männer unter diesen 100 aus ?<br />

bias : nicht zu erwarten<br />

Zufallsfehler ?<br />

SE ?<br />

Schachtelmodell :<br />

3.091 x 1 und 3.581 x 0, daraus 100 Ziehungen ohne<br />

Zurücklegen<br />

Wir betrachten aber zunächst den Fall :<br />

100 Ziehungen mit Zurücklegen<br />

⇒ MW = 0,46<br />

SD = ≈ 0,50<br />

EW = 100 * 0,46 = 46<br />

SE = * 0,5 = 5<br />

⇒ Man erwartet :<br />

46 ± 5 Männer oder als Prozentsatz 46% ± 5%<br />

Um den SE für einen Prozentsatz (in Prozentpunkten) zu<br />

bestimmen, rechnet man zunächst mit den absoluten Zahlen und<br />

dann auf % um !<br />

⇒ Was passiert bei 400 Ziehungen ?<br />

EW = 400 * 0,46 = 184<br />

SE = * 0,5 = 10<br />

⇒ Man erwartet 184 ± 10 Männer oder als Prozentsatz<br />

ausgedrückt : 46% ± 2,5%<br />

also : Multiplikation der Stichprobengröße mit 4 führt zur<br />

Division des SE durch = 2<br />

Hintergrund : Gesetz der großen Zahlen, Quadratwurzelregel<br />

Mit welcher Wahrscheinlichkeit ist der Anteil der Männer in der<br />

Stichprobe zwischen 41% und 51%<br />

⇒ NV− Tabelle ⇒ Fläche ≈ 95%<br />

<strong>Statistik</strong> I − Seite 38


) Korrekturfaktor<br />

− bisher mit Zurücklegen, aber eigentlich ohne Zurücklegen<br />

− Bsp.:1,25 Mill. Wähler in RP<br />

12,5 Mill. Wähler in NRW<br />

⇒ Annahme : Anteil der Partei X = 50%<br />

Stichprobe 2.500 Wähler für RP (1 von 500)<br />

→ Wie groß muß die Stichprobe für NRW sein, wenn die<br />

Genauigkeit gleich gut sein soll ?<br />

Antwort : 2.500 (1 von 5.000 !), denn :<br />

RP 625.000 x 1 und 625.000 x 0<br />

NRW 625.0000 x 1 und 625.0000 x 0<br />

Falls wir mit Zurücklegen ziehen, können wir auch 1 x 0 und 1 x 1<br />

betrachten, es ergibt sich jeweils das Gleiche.<br />

Beim Ziehen ohne Zurücklegen gibt es einen kleinen Unterschied, es<br />

gilt nämlich :<br />

Dabei ist der Korrekturfaktor :<br />

SEohne = Korrekturfaktor * SEmit<br />

Dieser Korrekturfaktor ist meist nahe bei 1.<br />

Ausnahme: Stichprobe ist Großteil der Grundgesamtheit.<br />

Bemerkung:<br />

− andere Prozentsätze der Parteien ändern das Bild der<br />

Schachtel kaum (SD bleibt ≈ 0,5)<br />

− intuitiv eigentlich klar<br />

21. Zur Genauigkeit von hochgerechneten Prozentsätzen<br />

a) Hintergrund<br />

bisher: Zufallsfehler beim Ziehen einer Stichprobe<br />

nun : Fehler beim Rückschluß auf die Population<br />

Bsp.: Wahl eines Bürgermeisters<br />

Kandidat „K“ möchte „sichergehen“<br />

100.000 Wähler → Stichprobe 2.500<br />

? % Stimmen für K ← 1.328 für K (≅ 53%)<br />

⇒ Schätzung : 53% ± Zufallsfehler<br />

<strong>Statistik</strong> I − Seite 39


) Schachtelmodell<br />

? x 1 und ? x 0 (in der Bedeutung 1 = für K , 0 = gegen K) mit<br />

insgesamt 100.000 Zetteln, aus denen 2.500 Ziehungen vorgenommen<br />

werden.<br />

Zur Berechnung von SE brauchen wir aber SD der Schachtel.<br />

also :<br />

SD =<br />

Ausweg : wir schätzen SD aus der Stichprobe<br />

SD = ≈ 0,5<br />

SE = * 0,5 = 25<br />

25 entspricht 1% von 2.500, also ⇒ Schätzung : 53% ± 1%<br />

Idee war: Verhältnisse in der Stichprobe auf die Schachtel<br />

übertragen. Dies ist in Ordnung, wenn die Stichprobe<br />

nicht allzu klein ist.<br />

Was kann man tun, wenn die Stichprobe zu klein ist ? → Dann kann<br />

man SD nicht mehr schätzen, aber abschätzen, d. h. man nimmt<br />

den „schlechtesten Fall“ an.<br />

Anteil der „0“ ⇒ SD =<br />

Wie groß kann SD im schlechtesten werden ?<br />

SD<br />

Sei p = Anteil der „1“, also ist 1 − p =<br />

p(1−p)<br />

¼ max. für p = ½<br />

1/2 1<br />

Also : Abschätzung SD ó 0,5 ist möglich<br />

Bemerkung : Obige Schätzungen gelten für einfache<br />

Zufallsstichproben, nicht ohne weiteres für kompliziertere<br />

Stichprobenverfahren.<br />

p<br />

<strong>Statistik</strong> I − Seite 40


c) Konfidenzintervalle<br />

Situation:<br />

Prozentsatz in = Prozentsatz in ± Zufallsfehler<br />

der Stichprobe der Population<br />

53 % = 52 % + 1 %<br />

= 51 % + 2 %<br />

= 55 % − 2 %<br />

= 40 % + 13 %<br />

= 83 % − 30 %<br />

Alle diese Situationen sind möglich, aber da SE ≈ 1% sind nicht<br />

alle Möglichkeiten in gleicher Weise „zu erwarten“<br />

Idee: Wir fassen die „am ehesten zu erwartenden“ Möglichkeiten in<br />

einem Intervall zusammen.<br />

Definition:<br />

Prozentsatz in der ± 1 SE : 68 % − Konfidenzintervall<br />

± 2 SE : 95% − Konfidenzintervall<br />

± 3 SE : 99% − Konfidenzintervall<br />

usw. ( → in Anlehnung an die Normalverteilung)<br />

Manchmal sagt man auch :<br />

− „Konfidenzintervall zum Niveau x %“<br />

− „x % − Vertrauensintervall“<br />

Bemerkung:<br />

nur approximativ zu sehen, da<br />

− SE geschätzt und<br />

− Normalverteilung benutzt wird<br />

d) Interpretation<br />

− „mit WK 95% liegt der wahre Prozentsatz für Kandidat K im<br />

Intervall [51%; 55 %]“; naheliegend, aber nicht ganz richtig, denn<br />

der „wahre“ Prozentsatz liegt fest, er ist keine Zufallsgröße.<br />

− zufällig, d. h. von der Stichprobe abhängig, sind die<br />

Intervallgrenzen!<br />

<strong>Statistik</strong> I − Seite 41


⇒ also sollte man sagen :<br />

„mit WK 95% überdeckt (enthält) das Intervall [51%; 55 %] den<br />

wahren Prozentsatz“<br />

und meinen: „95% aller derart gebildeten Intervalle leisten dies“<br />

⇒ somit: Aussage über die Qualität der Methode, nicht über den<br />

Einzelfall!!!<br />

− Bsp.: Abb. 1 auf Seite 352<br />

− Randnotiz: Falls man Wahrscheinlichkeit nicht nur als relative<br />

Häufigkeit auffaßt, ist eine andere Interpretation möglich.<br />

− WARNUNG:<br />

Die obigen Methoden gelten für einfache Zufallsstichproben.<br />

Für andere Verfahren erhält man i. a. deutlich schlechtere<br />

Ergebnisse.<br />

Bsp.: Gallup−Poll Resultate, S. 356<br />

22. Arbeitsmarktstatistik für die USA<br />

Hinweis : Details von Interesse, zeigt im wesentlichen :<br />

− Komplexität realer Untersuchungen<br />

− auftretende Schwierigkeiten<br />

a) Stichprobenplan des „current population survey“<br />

1973 Primary sampling limits (PSU)<br />

gruppiert in<br />

715 Schichten<br />

715 PSU werden mit Wahrscheinlichkeitsverfahren gewählt<br />

(i. w. proportional zur Bevölkerungszahl).<br />

"einige" Ultimate SU (USU) werden mit<br />

Wahrscheinlichkeitsverfahren gewählt (i.w. so, daß die<br />

Chance für jede Einzelperson gleich ist − und daß alle 51<br />

Staaten mit etwa gleicher Genauigkeit abgedeckt<br />

werden).<br />

Durchführung : ∼ 67.000 housing units<br />

∼ 53.000 können befragt werden<br />

∼ 115.000 Personen<br />

<strong>Statistik</strong> I − Seite 42


) Abgrenzungsprobleme<br />

Wer ist „arbeitslos“, „arbeitssuchend“, „beschäftigt“ usw. ?<br />

⇒ Aufschlüsselungsproblem : Kriterien ?<br />

Gewichtung : Ziel : Reduzierung des Zufallsfehlers<br />

Methode : i. w. „nachträgliche Schichtung“<br />

Berechnung der Standardfehler :<br />

Es handelt sich um eine Klumpenstichprobe ...<br />

23. Genauigkeit arithmetischer Mittel<br />

bisher: Schachtel → Ziehungen Summe der Ziehungen<br />

EW und SE<br />

Normalapproximation<br />

0 1 − Schachtel → Ziehungen Prozentsatz der „1“<br />

EW und SE<br />

Normalapproximation<br />

Stichprobe aus<br />

0 1 − Schachtel<br />

(Ziehungen)<br />

jetzt: Stichprobe aus<br />

beliebiger<br />

Schachtel<br />

(Ziehungen)<br />

→ Rückschluß auf<br />

Grundgesamtheit<br />

(Schachtel)<br />

→ Rückschluß auf<br />

Grundgesamtheit<br />

Bsp.: Schachtel 1 2 3 4 5 6 7, daraus 25 Ziehungen<br />

Der (arithmetische) Mittelwert ist ... ± ... ?<br />

Prozentsatz der „1“ in der<br />

Grundgesamtheit,<br />

approximative<br />

Konfidenzintervalle dafür<br />

MW der Schachtel,<br />

approximative Konfidenz<br />

intervalle dafür<br />

MW = 4 also EW (für Summe aus 25 Zieh.) = 25 * 4 = 100<br />

SD = 2also SE (für die Summe aus 25 Zieh.) = * 2 = 10<br />

daher: Summe = 100 ± 10<br />

und somit: MW = * SE = 4 ± 0,4<br />

Erinnerung : Änderung von Mittelwert, SD und einer Liste, wenn jede Zahl<br />

mit derselben Konstanten multipliziert wird.<br />

<strong>Statistik</strong> I − Seite 43


Resultat : Beim Ziehen aus einem Schachtelmodell gilt :<br />

EW des Mittels der Ziehungen = MW der Schachtel<br />

SE des Mittels der Ziehungen =<br />

a) Normalapproximation<br />

entspricht derjenigen für die Summe! Der Faktor () spielt keine Rolle und fällt<br />

beim Umrechnen in Standardeinheiten heraus.<br />

b) Ziehen aus einer Schachtel<br />

1) oftmalige Wiederholung → Wk−Histogramm<br />

2) Summe einer großen Anzahl von Ziehungen<br />

Wk−Histogramm → Normalverteilung<br />

3) oftmalige Wiederholung einer Summe einer großen Anzahl von<br />

Ziehungen<br />

Daten−Histogramm → Normalverteilung<br />

Bsp.: 100 Ziehungen aus obiger Schachtel<br />

a) Summe ungefähr : 100 * 4 = 400 ± * 2 = 20<br />

Mittel ungefähr : 400 : 100 = 4 ± 20 : 100 = 0,2<br />

b) Wk (Mittel ≥ 4,2) =<br />

→ umrechnen in Standardeinheiten ⇒ 1 Standardeinheit<br />

⇒ Fläche ≈ 16 %<br />

Vergleich von 25 und 100 Ziehungen (=Effekt des Vervierfachens des<br />

Stichprobenumfangs):<br />

MW: bleibt unverändert<br />

SE: Division durch 2 (Grund : = )<br />

Ziehen ohne Zurücklegen:<br />

c) Stichprobenmittel<br />

Seohne = Korrekturfaktor * Semit<br />

Bsp.: Durchschnittseinkommen von Familien einer Stadt (25.000<br />

Familien); einfache Zufallsstichprobe von 900 Familien<br />

MW = 32.400 DM und SE = 18.000 DM<br />

Schätzung : 32.400 DM ± ... DM ?<br />

<strong>Statistik</strong> I − Seite 44


SE für die Summe = * SD der Schachtel<br />

SD der Schachtel kann wieder aus der Stichprobe geschätzt<br />

werden (sog. Bootstrap− Methode):<br />

SD der Schachtel ≈ 18.000 DM<br />

SE der Summe ≈ * 18.000 DM ≈ 540.000 DM<br />

SE des Mittels = = 600<br />

⇒ 95%− Konfidenzintervall: 32.400 DM ± 600 DM<br />

ACHTUNG !!! Dies bedeutet nicht, daß ca. 95% der Familien ein<br />

Einkommen von 31.200 DM bis 33.600 DM haben. Sondern für<br />

ca. 95% der Stichproben würde ein so gebildetes Intervall den<br />

wahren Wert für das Durchschnittseinkommen einschließen.<br />

Die Normalapproximation darf i.a. benutzt werden, auch wenn die<br />

Daten selbst nicht der Normalverteilung folgen.<br />

Bsp.: Stichprobe vom Umfang 400 für das Bildungsniveau (siehe S.<br />

383)<br />

d) Verschiedene Standardfehler<br />

Für Schachtelmodelle sind zu unterscheiden :<br />

SE der Summe = * SD der Schachtel<br />

SE des Mittels =<br />

SE der Anzahl der „1“ = SE der Summe „1“ für 0 1− Schachtel<br />

SE des Prozentsatzes = * 100%<br />

beim Rückschluß von der Stichprobe auf die Population muß SD<br />

geschätzt werden.<br />

WARNUNG : All das gilt nur für einfache Zufallsauswahl !!!<br />

<strong>Statistik</strong> I − Seite 45

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!