03.11.2013 Aufrufe

Einführung in die Wahrscheinlichkeitsrechnung und Statistik

Einführung in die Wahrscheinlichkeitsrechnung und Statistik

Einführung in die Wahrscheinlichkeitsrechnung und Statistik

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Materialien zu Stochastik 1<br />

<strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong><br />

Wahrsche<strong>in</strong>lichkeitsrechnung <strong>und</strong><br />

<strong>Statistik</strong><br />

Dr. Christian Kredler<br />

WS 2003/04


Inhaltsverzeichnis<br />

Teil 1: Wahrsche<strong>in</strong>lichkeitsrechnung 1<br />

1 Gr<strong>und</strong>lagen der Wahrsche<strong>in</strong>lichkeitsrechnung 1<br />

1.1 Ereignisse, Wahrsche<strong>in</strong>lichkeit . . . . . . . . . . . . . . . . . . . . . . . 1<br />

1.2 Wahrsche<strong>in</strong>lichkeitsaxiome von Kolmogorov . . . . . . . . . . . . . . . 4<br />

1.3 Komb<strong>in</strong>atorik, Abzählen . . . . . . . . . . . . . . . . . . . . . . . . . . 7<br />

1.4 Unabhängigkeit, bed<strong>in</strong>gte Wahrsche<strong>in</strong>lichkeit . . . . . . . . . . . . . . . 10<br />

1.5 Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17<br />

1.5.1 Diskrete Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . 18<br />

1.5.2 Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . 21<br />

1.5.3 Stetige Zufallsvariable (ZV) . . . . . . . . . . . . . . . . . . . . 23<br />

1.5.4 Prozentpunkte <strong>und</strong> Quantilfunktion . . . . . . . . . . . . . . . . 29<br />

1.5.5 E<strong>in</strong>dimensionale Transformationen von ZV . . . . . . . . . . . . 32<br />

1.6 Erwartungswerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36<br />

1.6.1 Erwartungswert <strong>und</strong> Varianz . . . . . . . . . . . . . . . . . . . . 36<br />

1.6.2 Momente <strong>und</strong> Kumulanten . . . . . . . . . . . . . . . . . . . . . 42<br />

2 Mehrdimensionale Verteilungen 46<br />

2.1 Geme<strong>in</strong>same Verteilung von n Zufallsvariablen . . . . . . . . . . . . . . 46<br />

2.1.1 Diskrete n-dim. Zufallsvariable . . . . . . . . . . . . . . . . . . . 47<br />

2.1.2 Stetige n-dim. Zufallsvariable . . . . . . . . . . . . . . . . . . . 49<br />

2.1.3 Randverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . 51<br />

2.1.4 Erwartungswerte; n-dim. . . . . . . . . . . . . . . . . . . . . . . 54<br />

2.2 Unabhängige Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . 59<br />

2.3 Transformationen von n Zufallsvariablen . . . . . . . . . . . . . . . . . 63<br />

2.3.1 Transformationssatz für Dichten . . . . . . . . . . . . . . . . . . 63<br />

2.3.2 L<strong>in</strong>eare Transformationen . . . . . . . . . . . . . . . . . . . . . 64<br />

2.3.3 Summen, Quotienten . . . . . . . . . . . . . . . . . . . . . . . . 68<br />

2.3.4 M<strong>in</strong>imum, Maximum . . . . . . . . . . . . . . . . . . . . . . . . 70<br />

2.4 Bed<strong>in</strong>gte Verteilungen <strong>und</strong> Erwartungswerte . . . . . . . . . . . . . . . 72<br />

2.4.1 Bed<strong>in</strong>gung bzgl. Ereignis B . . . . . . . . . . . . . . . . . . . . 72<br />

2.4.2 Bed<strong>in</strong>gte Verteilungen . . . . . . . . . . . . . . . . . . . . . . . 74<br />

2.4.3 Bed<strong>in</strong>gte Erwartung . . . . . . . . . . . . . . . . . . . . . . . . 76<br />

2.5 Ordnungsstatistiken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79


INHALTSVERZEICHNIS<br />

3 Erzeugende Funktionen 82<br />

3.1 Nichtnegative, ganzzahlige Zufallsvariable . . . . . . . . . . . . . . . . . 82<br />

3.2 Momenterzeugende Funktion . . . . . . . . . . . . . . . . . . . . . . . . 87<br />

4 Gesetze der grossen Zahlen 92<br />

4.1 Ungleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92<br />

4.2 Gesetze der grossen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . 95<br />

4.3 Grenzwertsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97<br />

4.3.1 Zentraler Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . 97<br />

4.3.2 Approximation der B<strong>in</strong>omial- durch <strong>die</strong> Poisson-Verteilung . . . 99<br />

5 E<strong>in</strong>fache Irrfahrt (Random Walk) 101<br />

5.1 Def<strong>in</strong>ition, Rekurrenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101<br />

5.2 Stoppzeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106<br />

6 E<strong>in</strong>e Auswahl wichtiger Verteilungen 108<br />

6.1 E<strong>in</strong>ige diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . 109<br />

6.2 Beispiele stetiger Verteilungen . . . . . . . . . . . . . . . . . . . . . . . 112<br />

Teil 2: <strong>Statistik</strong> 119<br />

7 Deskriptive <strong>Statistik</strong> 120<br />

7.1 Gr<strong>und</strong>gesamtheit, Merkmale . . . . . . . . . . . . . . . . . . . . . . . . 121<br />

7.1.1 Klassifizierung von Merkmalen, Skalentypen . . . . . . . . . . . 122<br />

7.1.2 Messreihen, Stichproben . . . . . . . . . . . . . . . . . . . . . . 124<br />

7.2 Empirische Verteilung e<strong>in</strong>dim. diskreter Merkmale . . . . . . . . . . . . 125<br />

7.2.1 Tabellierung <strong>und</strong> grafische Darstellung . . . . . . . . . . . . . . 125<br />

7.2.2 Relative Summenhäufigkeit . . . . . . . . . . . . . . . . . . . . 126<br />

7.3 Empirische Verteilung e<strong>in</strong>dim. stetiger Merkmale . . . . . . . . . . . . 129<br />

7.4 Lageparameter, Lokationsmaße . . . . . . . . . . . . . . . . . . . . . . 132<br />

7.4.1 Modus (Modalwert) . . . . . . . . . . . . . . . . . . . . . . . . . 132<br />

7.4.2 Empirische Quantile, Quartile, Median . . . . . . . . . . . . . . 133<br />

7.4.3 Arithmetisches Mittel . . . . . . . . . . . . . . . . . . . . . . . . 135<br />

7.5 Streuungsparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135<br />

7.5.1 Spannweite, Variationsbreite . . . . . . . . . . . . . . . . . . . . 135<br />

7.5.2 Mittlere quadratische Abweichung, Standardabweichung . . . . 136<br />

7.5.3 Mittlere l<strong>in</strong>eare Streuung . . . . . . . . . . . . . . . . . . . . . . 137<br />

7.5.4 Interquartilsabstand, <strong>in</strong>ter quartile range (IQR) . . . . . . . . . 137<br />

7.5.5 Variationskoeffizient . . . . . . . . . . . . . . . . . . . . . . . . 138<br />

7.6 Schiefe <strong>und</strong> Exzess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139<br />

7.7 Mittelwerte, Streuungen für gruppierte Daten . . . . . . . . . . . . . . 140<br />

7.8 Aff<strong>in</strong>e Transformationen . . . . . . . . . . . . . . . . . . . . . . . . . . 141<br />

7.9 Empirische Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . 142<br />

7.9.1 Statistische Maßzahlen . . . . . . . . . . . . . . . . . . . . . . . 142<br />

7.9.2 KQ-Gerade, Bestimmtheitsmaß . . . . . . . . . . . . . . . . . . 144<br />

7.10 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154<br />

7.10.1 Grafiken <strong>und</strong> Ausdrucke von <strong>Statistik</strong>programmen . . . . . . . . 154


<strong>E<strong>in</strong>führung</strong><br />

7.10.2 E<strong>in</strong>ige Datenbeispiele . . . . . . . . . . . . . . . . . . . . . . . . 157<br />

8 Schätzfunktionen, ML-Pr<strong>in</strong>zip 158<br />

8.1 Erwartungstreue <strong>und</strong> Konsistenz . . . . . . . . . . . . . . . . . . . . . 159<br />

8.2 Schätzfunktionen m<strong>in</strong>imaler Varianz . . . . . . . . . . . . . . . . . . . 160<br />

8.3 Konstruktion von Schätzern . . . . . . . . . . . . . . . . . . . . . . . . 161<br />

8.3.1 Methode der Kle<strong>in</strong>sten Quadrate (KQ) . . . . . . . . . . . . . . 162<br />

8.3.2 Momentenmethode . . . . . . . . . . . . . . . . . . . . . . . . . 162<br />

8.3.3 Maximum-Likelihood (ML)-Methode . . . . . . . . . . . . . . . 162<br />

9 <strong>Statistik</strong> normalverteilter Daten 165<br />

9.1 Stichprobenverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . 165<br />

9.1.1 Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 165<br />

9.1.2 χ 2 -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 168<br />

9.1.3 Student- oder t-Verteilung . . . . . . . . . . . . . . . . . . . . . 169<br />

9.1.4 Stichprobenmittel <strong>und</strong> -varianz . . . . . . . . . . . . . . . . . . 170<br />

9.1.5 F-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170<br />

9.2 Konfidenz<strong>in</strong>tervalle, Tests . . . . . . . . . . . . . . . . . . . . . . . . . 172<br />

9.2.1 Konfidenz<strong>in</strong>tervalle . . . . . . . . . . . . . . . . . . . . . . . . . 172<br />

9.2.2 Tests, Konstruktion des kritischen Bereichs . . . . . . . . . . . . 173<br />

9.2.3 Fehler 2. Art . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176<br />

9.2.4 Zweiseitiger Test . . . . . . . . . . . . . . . . . . . . . . . . . . 178<br />

9.3 Konfidenz<strong>in</strong>tervalle <strong>und</strong> t-Test; σ unbekannt . . . . . . . . . . . . . . . 178<br />

9.3.1 Quantile der t-Verteilung . . . . . . . . . . . . . . . . . . . . . . 179<br />

9.3.2 Konfidenz<strong>in</strong>tervalle . . . . . . . . . . . . . . . . . . . . . . . . . 179<br />

9.3.3 Konstruktion von T -<strong>Statistik</strong>en, t-Tests . . . . . . . . . . . . . . 180<br />

9.3.4 t-Test verb<strong>und</strong>ener Stichproben; matched pairs . . . . . . . . . 181<br />

9.3.5 t-Test zum Vergleich von Mittelwerten . . . . . . . . . . . . . . 183<br />

9.4 Vergleich von Varianzen, F-Test . . . . . . . . . . . . . . . . . . . . . . 185<br />

9.5 Der p − W ert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187<br />

9.6 E<strong>in</strong>fache l<strong>in</strong>eare Regression . . . . . . . . . . . . . . . . . . . . . . . . . 189<br />

9.7 Multiple Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193<br />

10 Explorative Datenanalyse 196<br />

10.1 Kerndichte-Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197<br />

10.2 QQ-Plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201<br />

10.3 Box-Plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207<br />

11 Anhang, Tabellen, Approximationen 212<br />

11.1 Asymptotische Formeln . . . . . . . . . . . . . . . . . . . . . . . . . . . 212<br />

11.2 Rationale Bestapproximationen für Φ <strong>und</strong> Φ −1 . . . . . . . . . . . . . . 214<br />

11.3 Tabellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214<br />

11.4 Normal- bzw. Poissonapprox. der B<strong>in</strong>omialverteilung . . . . . . . . . . 219<br />

Literatur 220<br />

Index 222


<strong>E<strong>in</strong>führung</strong><br />

Die Vorlesung <strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> Wahrsche<strong>in</strong>lichkeitsrechnung <strong>und</strong> <strong>Statistik</strong><br />

(Stochastik 1) stellt den ersten Teil des viersemestrigen Zyklus mit Wahrsche<strong>in</strong>lichkeitstheorie<br />

(Stochastik 2), Stochastischen Prozessen (Stochastik 3) <strong>und</strong> der Mathematischen<br />

<strong>Statistik</strong> (Stochastik 4) an der TU München dar. In Stochastik 1 werden<br />

elementare Gr<strong>und</strong>lagen der Wahrsche<strong>in</strong>lichkeitsrechnung <strong>und</strong> der <strong>Statistik</strong> vermittelt.<br />

Bei der e<strong>in</strong>fachen Irrfahrt (random walk) kommen bereits erste Eigenschaften stochastischer<br />

Prozesse zur Sprache. Die Anwendung auf praxisrelevante Szenarien, <strong>in</strong> <strong>die</strong>sem<br />

Fall auf den Ru<strong>in</strong> des Spielers, wird stets im Auge behalten.<br />

Die Vorlesung ist für Diplom-Mathematiker, Techno-, F<strong>in</strong>anz- <strong>und</strong> Wirtschaftsmathematiker<br />

sowie Stu<strong>die</strong>rende des Lehramts Mathematik an Gymnasien konzipiert. Sie<br />

kann ab dem dritten Semester gehört werden, verwendet noch ke<strong>in</strong>e abstrakte Maßtheorie<br />

<strong>und</strong> bietet sich ebenso für Physiker <strong>und</strong> Ingenieure an.<br />

Der wahrsche<strong>in</strong>lichkeitstheoretische Teil (Kapitel 1 bis 6) ist also elementar gehalten, er<br />

orientiert sich an klassischen Lehrbüchern wie [Chung (1979)] <strong>und</strong> [Stirzaker (1994)].<br />

Schon aus Zeitgründen wird <strong>in</strong> der Vorlesung auf manche statistischen Aspekte nicht<br />

mit voller Ausführlichkeit e<strong>in</strong>gegangen werden können. Hier s<strong>in</strong>d <strong>die</strong>se Materialien<br />

als Ergänzung <strong>und</strong> Anregung zum Selbststudium gedacht. Die e<strong>in</strong>führenden statistischen<br />

Kapitel 7 bis 10 <strong>die</strong>nen aber <strong>in</strong> erster L<strong>in</strong>ie als Beiheft des vorlesungsbegleitenden<br />

<strong>Statistik</strong>-Praktikums. Dieses wird vorwiegend mit den Programmpaketen R <strong>und</strong><br />

S-Plus durchgeführt.<br />

E<strong>in</strong> Durcharbeiten <strong>die</strong>ser Materialien ersetzt nicht den Besuch der Vorlesung. Auf <strong>die</strong><br />

Erstellung e<strong>in</strong>es kompletten Skriptums wurde <strong>in</strong> Anbetracht vorhandener Lehrbücher<br />

(siehe oben) verzichtet. Im wahrsche<strong>in</strong>lichkeitstheoretischen Teil s<strong>in</strong>d Beweise fast durchwegs<br />

weggelassen. Statt dessen f<strong>in</strong>det man genaue Referenzen auf <strong>die</strong> Bücher von<br />

[Chung (1979)] <strong>und</strong> [Stirzaker (1994)].<br />

E<strong>in</strong> weiterer Zweck <strong>die</strong>ser Ausarbeitung ist <strong>die</strong> komplette Darstellung umfangreicher<br />

Rechnungen, <strong>die</strong> sich schlecht für e<strong>in</strong>e Darbietung an der Tafel eignen, aber dem Leser<br />

beim Durcharbeiten e<strong>in</strong>en gründlichen E<strong>in</strong>blick <strong>in</strong> wichtige Zusammenhänge vermitteln;<br />

zum Beispiel Integrationen bei der zweidimensionalen Normalverteilung.<br />

Nun zur Gliederung <strong>die</strong>ser Materialien (<strong>in</strong> der Vorlesung wird das Kapitel über deskriptive<br />

<strong>Statistik</strong> aus didaktischen Gründen an den Anfang gestellt):<br />

• Die sechs ersten Kapitel stellen wichtige Gr<strong>und</strong>lagen der Wahrsche<strong>in</strong>lichkeitsrechnung<br />

zusammen. E<strong>in</strong> Großteil der <strong>in</strong> der Vorlesung verwendeten grafischen<br />

i


ii<br />

<strong>E<strong>in</strong>führung</strong><br />

Darstellungen s<strong>in</strong>d hier bereits mit abgebildet, so dass Hörer<strong>in</strong>nen <strong>und</strong> Hörern<br />

e<strong>in</strong> mühsames Reproduzieren <strong>die</strong>ses Materials erspart bleibt.<br />

• Die Beschreibung <strong>und</strong> Klassifikation von Merkmalen sowie <strong>die</strong> Erläuterung e<strong>in</strong>facher<br />

Methoden der deskriptiven <strong>Statistik</strong> s<strong>in</strong>d Gegenstand des siebten Kapitels.<br />

Weitere Stichworte lauten hier Histogramme, empirische Verteilungsfunktion,<br />

empirische Momente <strong>und</strong> Quantile, sowie empirische Korrelation <strong>und</strong> Kle<strong>in</strong>ste-<br />

Quadrate-Gerade durch e<strong>in</strong>e Punktewolke.<br />

• Der propädeutischen Ausrichtung folgend werden im Anschluss Eigenschaften<br />

statistischer Schätzfunktionen diskutiert <strong>und</strong> u.a. das Maximum-Likelihood-Pr<strong>in</strong>zip<br />

als Verfahren zur Gew<strong>in</strong>nung von Punktschätzern dargestellt.<br />

• Wichtige Elemente der mathematischen <strong>Statistik</strong> normalverteilter Zufallsvariablen<br />

bis h<strong>in</strong> zur e<strong>in</strong>fachen l<strong>in</strong>earen Regression mit Gaußschen Fehlern s<strong>in</strong>d Gegenstand<br />

von Kapitel 9.<br />

• Das letzte Kapitel setzt beim Leser Fertigkeiten <strong>in</strong> Wahrsche<strong>in</strong>lichkeitsrechnung<br />

voraus <strong>und</strong> skizziert e<strong>in</strong>ige Standardmethoden der explorativen Datenanalyse,<br />

<strong>die</strong> <strong>in</strong> <strong>Statistik</strong>-Programmpaketen wie SAS, S-Plus oder SPSS angeboten werden.<br />

Dazu gehören u.a. nichtparametrische Kerndichteschätzer sowie Box- <strong>und</strong><br />

QQ-Plots zur Auswahl geeigneter Verteilungsmodelle. Die beiden letzten Kapitel<br />

liefern <strong>die</strong> theoretischen Gr<strong>und</strong>lagen für das <strong>Statistik</strong>-Praktikum am Rechner.<br />

• Schließlich folgen <strong>die</strong> wichtigsten Verteilungstafeln <strong>und</strong> e<strong>in</strong>ige Approximationsformeln,<br />

<strong>in</strong>sbesondere für Näherungen des Normalverteilungs<strong>in</strong>tegrals.<br />

• Im Literaturverzeichnis ist e<strong>in</strong>e knappe Auswahl e<strong>in</strong>führender Lehrbücher angegeben.<br />

Neben den oben bereits erwähnten Standardwerken stützt sich <strong>die</strong>se<br />

Ausarbeitung im statistischen Teil vorwiegend auf [Falk et al. (1995)].<br />

• Diese Materialien s<strong>in</strong>d <strong>in</strong> manchen Details umfangreicher als <strong>die</strong> <strong>E<strong>in</strong>führung</strong>svorlesung.<br />

So <strong>die</strong>nt e<strong>in</strong> ausführliches Stichwortverzeichnis dem schnellen Auff<strong>in</strong>den<br />

wichtiger Begriffe <strong>und</strong> weiterführender Referenzen. E<strong>in</strong> Anspruch auf Vollständigkeit<br />

wird nicht erhoben.<br />

Die Gliederung der Vorlesung Stochastik 1 weicht, wie schon erwähnt, zu Beg<strong>in</strong>n vom<br />

Aufbau <strong>die</strong>ser Materialien ab. Dies hat folgenden Gr<strong>und</strong>:<br />

1. Die Stu<strong>die</strong>renden sollen von Anfang an <strong>in</strong> <strong>die</strong> Lage versetzt werden, <strong>Statistik</strong>-<br />

Programmpakete zur Analyse e<strong>in</strong>facher Datensätze zu benützen <strong>und</strong> <strong>die</strong> ausgedruckten<br />

Maßzahlen <strong>und</strong> Grafiken zu <strong>in</strong>terpretieren. Deswegen befassen wir uns<br />

<strong>in</strong> den ersten Wochen – vor allem im vorlesungsbegleitenden Praktikum – kurz<br />

mit den deskriptiven Methoden, <strong>die</strong> im siebten Kapitel <strong>die</strong>ser Materialen zum<br />

weitgehenden Selbststudium ausführlicher <strong>und</strong> mit zahlreichen Beispielrechnungen<br />

dargestellt s<strong>in</strong>d.<br />

2. Erst danach folgt das Kernstück der Vorlesung. Ausbildungsziel ist es, mit den<br />

Stu<strong>die</strong>renden den Kalkül der elementaren Wahrsche<strong>in</strong>lichkeitsrechnung gründlich<br />

e<strong>in</strong>zuüben. Diskrete <strong>und</strong> stetige Wahrsche<strong>in</strong>lichkeitsräume sowie <strong>die</strong> Begriffe


<strong>E<strong>in</strong>führung</strong><br />

iii<br />

Zufallsexperiment, Ereignis, Wahrsche<strong>in</strong>lichkeit, Zufallsvariable, Dichte <strong>und</strong> Verteilungsfunktion<br />

werden e<strong>in</strong>geführt <strong>und</strong> illustriert. In den Übungen <strong>und</strong> Hausaufgaben<br />

s<strong>in</strong>d der Stoff <strong>und</strong> <strong>die</strong> nötigen Rechenfertigkeiten von den Stu<strong>die</strong>renden<br />

an weiteren Beispielen zu vertiefen. Vorkenntnisse aus der Kollegstufe s<strong>in</strong>d dabei<br />

hilfreich, aber ke<strong>in</strong>e Voraussetzung für das Verständnis. E<strong>in</strong> weiteres Ziel ist der<br />

sichere Umgang mit Erwartungswerten, Transformationen <strong>und</strong> bed<strong>in</strong>gten Verteilungen<br />

diskreter <strong>und</strong> stetiger Zufallsvariablen e<strong>in</strong>schließlich der Betrachtung von<br />

Ordnungsstatistiken. Es folgen Gesetze der großen Zahlen <strong>und</strong> e<strong>in</strong>e e<strong>in</strong>fache Version<br />

des Zentralen Grenzwertsatzes. Mit dem sog. Random Walk unternehmen<br />

wir erste Gehversuche im wichtigen Gebiet der Stochastischen Prozesse.<br />

3. Die wahrsche<strong>in</strong>lichkeitstheoretischen Gr<strong>und</strong>lagen aus dem Hauptteil erlauben<br />

e<strong>in</strong>en Ausbau der e<strong>in</strong>gangs behandelten empirischen Methoden <strong>in</strong> den Kapiteln<br />

über mathematische <strong>Statistik</strong>. Dort folgt <strong>die</strong> Vorlesung im wesentlichen dem Aufbau<br />

<strong>die</strong>ser Materialien.<br />

Herrn Dipl. Math. Mart<strong>in</strong> Sever<strong>in</strong> möchte ich für Verbesserungsvorschläge beim Erstellen<br />

<strong>die</strong>ser Materialien danken.<br />

Me<strong>in</strong> besonderer Dank gilt Frau Prof. Dr. Klüppelberg, <strong>die</strong> beim Konzeptentwurf mit<br />

wertvollen H<strong>in</strong>weisen zur Seite stand.


Kapitel 1<br />

Gr<strong>und</strong>lagen der<br />

Wahrsche<strong>in</strong>lichkeitsrechnung<br />

Die deskriptive <strong>Statistik</strong> (vgl. Kapitel 7) arbeitet mit anschaulichen Begriffen wie Population,<br />

Merkmal, (relative) Häufigkeit etc.<br />

In der axiomatisch fun<strong>die</strong>rten Wahrsche<strong>in</strong>lichkeitstheorie werden entsprechende abstrakte<br />

Formulierungen verwendet. Die Kenntnis e<strong>in</strong>iger Begriffe der beschreibenden<br />

<strong>Statistik</strong> ist zwar ke<strong>in</strong>e Voraussetzung zum Verständnis der folgenden Abschnitte, stellt<br />

sich aber erfahrungsgemäß <strong>in</strong> e<strong>in</strong>em ersten Stochastik-Kurs als hilfreich heraus.<br />

1.1 Ereignisse, Wahrsche<strong>in</strong>lichkeit<br />

Def. 1.1 (Zufallsexperiment, Ergebnismenge, sample space)<br />

Ω ≠ ∅ sei <strong>die</strong> Menge aller möglichen Ergebnisse e<strong>in</strong>es mathematischen Zufallsexperiments,<br />

<strong>die</strong> sog. Ergebnismenge. Man spricht auch vom Stichprobenraum<br />

(sample space).<br />

Beispiel 1.2 (Zufallsexperimente)<br />

1. Bernoulli-Experiment: Werfen e<strong>in</strong>er Münze<br />

Ω = {Kopf, W appen} oder Ω = {0, 1}<br />

2. Würfeln: Ω = {1, 2, 3, 4, 5, 6}<br />

3. Lotto 6 aus 49: Ω = { ω | ω = {j 1 , ..., j 6 } , j 1 , ..., j 6 ∈ {1, 2, 3, ..., 48, 49} }<br />

Da Mengen nur verschiedene Elemente enthalten, gilt |{j 1 , ..., j 6 }| = 6.<br />

4. Anzahl der Anrufe <strong>in</strong> e<strong>in</strong>er Telefonvermittlung pro Tag : Ω = N 0 := N ∪ {0}.<br />

5. Ω = { ω | ω = Matrikelnummer e<strong>in</strong>es TU − Studenten im WS 1997/98 }.<br />

6. Schuss auf e<strong>in</strong>e unendlich große Scheibe: Ω = R 2 .<br />

1


2 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG<br />

7. Verlauf der Körpertemperatur e<strong>in</strong>es Lebewesens:<br />

{ ω = (id, f) | id ∈ N , f ∈ C(R + ) }.<br />

Ergebnis des Experiments ist also <strong>die</strong> Identifikationsnummer id des Lebewesens<br />

<strong>und</strong> e<strong>in</strong>e (beschränkte) stetige Funktion auf der nichtnegativen reellen Achse. f(0)<br />

ist <strong>die</strong> Körpertemperatur bei der Geburt. Nach dem Tod T > 0 des Lebewesens<br />

könnte man etwa <strong>die</strong> Umgebungstemperatur zur Fortsetzung der Funktion f<br />

heranziehen.<br />

Das letzte Beispiel zeigt, dass auch Funktionen als Ergebnisse e<strong>in</strong>es Zufallsexperiments<br />

auftreten können. Ω kann also endlich, abzählbar oder sogar überabzählbar unendlich<br />

se<strong>in</strong>.<br />

Man <strong>in</strong>teressiert sich nun dafür, ob bei Durchführung des Zufallsexperiments bestimmte<br />

Ereignisse e<strong>in</strong>treten. Zum Beispiel, ob<br />

1. beim Wurf e<strong>in</strong>er Münze A = {Kopf} gefallen ist<br />

2. beim Würfeln e<strong>in</strong>e 5 oder 6, d. h. B = {5, 6} herauskam<br />

3. im Lotto 6 aus 49 ”sechs Richtige” angekreuzt wurden<br />

4. mehr als 1000 Anrufe pro Tag <strong>in</strong> der Telefonvermittlung, D = { n | n > 1000},<br />

auftraten<br />

5. K = { ω | Matrikelnummer ω beg<strong>in</strong>nt mit e<strong>in</strong>er 7 }<br />

6. e<strong>in</strong> Treffer im Ziel Z landete; z. B. mit<br />

Z = { ( x = r cos ϕ , y = r s<strong>in</strong> ϕ ) | 0 ≤ r < 5 ; 0 ≤ ϕ < 2π}<br />

7. <strong>die</strong> Körpertemperatur nie den Wert 40 o C überschritt.<br />

In jedem Fall handelt es sich bei Ereignissen um Teilmengen von Ω.<br />

Def. 1.3 (Ereignis, event)<br />

Gewisse A ⊂ Ω heißen Ereignis (event). A tritt e<strong>in</strong>, falls sich bei Versuchsdurchführung<br />

e<strong>in</strong> ω ∈ A ergibt.<br />

Mit A <strong>und</strong> B s<strong>in</strong>d auch Ā = Ac := Ω\A, A ∩ B, A ∪ B Ereignisse.<br />

Ω heißt sicheres Ereignis (tritt also immer e<strong>in</strong>)<br />

∅ heißt unmögliches Ereignis (kann nie e<strong>in</strong>treten)<br />

A c heißt Komplementärereignis<br />

A, B heißen unvere<strong>in</strong>bar oder disjunkt (disjo<strong>in</strong>t), falls A ∩ B = ∅<br />

{ω} heißt Elementarereignis (s<strong>in</strong>gleton).<br />

Vere<strong>in</strong>barung: Falls nichts anderes gesagt wird, verwenden wir ”⊂” im S<strong>in</strong>ne von ”⊆”.


1.1. EREIGNISSE, WAHRSCHEINLICHKEIT 3<br />

Bei abzählbarem Ω ist jede Teilmenge als Ereignis zugelassen. Um bei überabzählbarem<br />

Ω Widersprüche auszuschließen, beschränkt man sich auf sog. Ereignis−σ−Algebren.<br />

Dies s<strong>in</strong>d ausreichend umfangreiche Mengensysteme von Ereignissen, <strong>die</strong> Ω enthalten<br />

<strong>und</strong> bzgl. Komplementbildung <strong>und</strong> abzählbarer Vere<strong>in</strong>igung (<strong>und</strong> damit auch abzählbarem<br />

Durchschnitt) abgeschlossen s<strong>in</strong>d.<br />

Def. 1.4 (σ − Algebra F, σ − field, event space)<br />

E<strong>in</strong>e σ − Algebra F ist e<strong>in</strong> Mengensystem F ⊂ P(Ω) mit folgenden Eigenschaften<br />

(A1)<br />

(A2)<br />

Ω ∈ F<br />

mit A ∈ F folgt auch A c ∈ F<br />

(A3) falls A i ∈ F , i = 1, 2, ..., dann ist auch<br />

∞⋃<br />

A i ∈ F.<br />

i=1<br />

E<strong>in</strong>e genaue Diskussion der Eigenschaften von σ − Algebren erfolgt <strong>in</strong> weiterführenden<br />

Vorlesungen. Hier werden nur <strong>die</strong> wichtigsten Resultate zusammengestellt. Details<br />

entnehme man z. B. [Williams (1991)], ch. 1.<br />

Beispiel 1.5<br />

1. Die Potenzmenge P(Ω) ist <strong>die</strong> größte σ − Algebra auf Ω.<br />

2. {∅, Ω} ist <strong>die</strong> kle<strong>in</strong>ste σ − Algebra auf Ω.<br />

3. {∅, A, A c , Ω} ist <strong>die</strong> kle<strong>in</strong>ste σ−Algebra, <strong>die</strong> e<strong>in</strong>e nichtleere Menge A ≠ Ω enthält.<br />

Bemerkung 1.6<br />

1. Das Präfix σ− weist darauf h<strong>in</strong>, dass <strong>die</strong> Eigenschaft (A3) für abzählbar unendlich<br />

viele Mengen gilt.<br />

2. Natürlich gilt <strong>die</strong> Aussage (A3) auch für endliche Vere<strong>in</strong>igungen. Dazu beachtet<br />

man ∅ ∈ F (wegen (A1) <strong>und</strong> (A2)) <strong>und</strong> setzt A k := ∅, z. B. für k > n.<br />

3. Mit den de Morgan’schen Gesetzen<br />

( ) ⋃ c<br />

A i = ⋂ A c i <strong>und</strong><br />

i∈I<br />

i∈I<br />

( ) ⋂ c<br />

A i = ⋃ A c i ,<br />

i∈I<br />

i∈I<br />

<strong>die</strong> für beliebige Indexmengen I gelten, folgt aus (A2) <strong>und</strong> (A3):<br />

∞⋂<br />

falls A i ∈ F , i = 1, 2, ..., dann ist auch A i ∈ F.<br />

i=1


4 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG<br />

Satz 1.7 (Erzeugung von σ − Algebren, Durchschnittseigenschaft)<br />

1. Der Durchschnitt beliebig vieler σ − Algebren ist wieder e<strong>in</strong>e σ − Algebra.<br />

2. Zu jedem Mengensystem A ⊂ P(Ω) gibt es e<strong>in</strong>e e<strong>in</strong>deutig bestimmte kle<strong>in</strong>ste<br />

σ − Algebra F mit A ⊂ F, <strong>die</strong> von A erzeugte σ − Algebra F.<br />

Def. 1.8 (Borel - σ − Algebra)<br />

Die von den offenen Mengen <strong>in</strong> R erzeugte σ−Algebra heißt Borel - σ−Algebra.<br />

Satz 1.9 (Borel - σ − Algebra)<br />

1. B enthält u.a. alle reellen Intervalle.<br />

2. B wird auch von den Intervallen (−∞, x], x ∈ R, erzeugt.<br />

3. Zwar ist B ≠ P(R), dennoch erfordert <strong>die</strong> Konstruktion e<strong>in</strong>er Menge A ⊂ R<br />

<strong>und</strong> A /∈ B erhebliche Mühe.<br />

Es genügt für praktische Anwendungen, Wahrsche<strong>in</strong>lichkeiten auf σ − Algebren F,<br />

d. h. geeigneten Untersystemen der Potenzmenge von Ω zu def<strong>in</strong>ieren. Ab jetzt heißen<br />

nur noch solche Teilmengen C ⊂ Ω Ereignisse, für <strong>die</strong> C ∈ F gilt. Weiterh<strong>in</strong> seien von<br />

nun an generell A, A 1 , A 2 , . . . ∈ F <strong>und</strong> B, B 1 , B 2 , . . . ∈ F.<br />

1.2 Wahrsche<strong>in</strong>lichkeitsaxiome von Kolmogorov<br />

Def. 1.10 (Wahrsche<strong>in</strong>lichkeit)<br />

Die Wahrsche<strong>in</strong>lichkeit ist e<strong>in</strong>e Funktion P : F −→ R für Ereignisse<br />

A, A 1 , A 2 , . . . aus e<strong>in</strong>er σ − Algebra F auf Ω mit folgenden Eigenschaften<br />

(P1) P (A) ≥ 0 für alle A ∈ F<br />

(P2) P (Ω) = 1<br />

(P3)<br />

( ∞<br />

)<br />

⋃<br />

∞∑<br />

P A i = P (A i ), falls A i ∩ A j = ∅ für i ≠ j.<br />

i=1 i=1<br />

Man nennt P auch Wahrsche<strong>in</strong>lichkeitsmaß oder kurz W-Maß.


1.2. WAHRSCHEINLICHKEITSAXIOME VON KOLMOGOROV 5<br />

In der Wahrsche<strong>in</strong>lichkeitsrechnung wird stets davon ausgegangen, dass <strong>die</strong> Funktion<br />

P bekannt ist. Bei praxisrelevanten Problemen ist <strong>die</strong>se Annahme meist nicht erfüllt.<br />

Mit den Methoden der Mathematischen <strong>Statistik</strong> kann man aber Schätzungen für <strong>die</strong><br />

Wahrsche<strong>in</strong>lichkeiten P (A), jedenfalls für gewisse A ∈ F gew<strong>in</strong>nen.<br />

Def. 1.11 (Wahrsche<strong>in</strong>lichkeitsraum)<br />

Das Tripel (Ω, F, P ) nennt man Wahrsche<strong>in</strong>lichkeitsraum oder kurz W-<br />

Raum. Ω heißt diskret, falls es höchstens abzählbar unendlich viele Elemente<br />

hat.<br />

Beispiel 1.12 (Wahrsche<strong>in</strong>lichkeitsräume)<br />

1. Würfeln: Ω = { 1, 2, 3, 4, 5, 6 }, P {i} = 1 , i = 1, ..., 6<br />

6<br />

2. Münzwurf (Standardmodellierung):<br />

Ω = { 0, 1 }, P {1} = P (Kopf) = 1 2 , P {0} = P (W appen) = 1 2<br />

3. Münzwurf (Präzisierung):<br />

Beim Münzwurf ist auch <strong>die</strong> Situation denkbar, dass <strong>die</strong> Münze auf der Kante<br />

stehenbleibt. Die Menge aller möglichen Ergebnisse lautet dann ˜Ω = { 0, 1, 2 },<br />

wobei P {1} = 1, P {0} = 1 , P {2} = P (Kante) = 0.<br />

2 2<br />

Hierbei bedeutet das Ergebnis ”2”, dass <strong>die</strong> Münze weder auf Kopf noch auf<br />

Wappen fällt. Indem man <strong>die</strong> Wahrsche<strong>in</strong>lichkeit (Wkt) für das Ereignis {2} auf<br />

0 festlegt, werden im W-Raum ˜Ω alle wichtigen Aussagen genauso gelten wie <strong>in</strong><br />

dem erweiterten Ω mit dem zusätzlichen Ergebnis 2. Deswegen arbeitet man <strong>in</strong><br />

der Regel gleich mit Ω statt ˜Ω. Ähnliches gilt für viele andere W-Räume.<br />

Etwas unpräzise formuliert kann man vielleicht sagen, dass Ereignisse mit Wkt<br />

0 <strong>in</strong> diskreten W-Räumen praktisch nicht auftreten.<br />

4. In überabzählbaren W-Räumen, auf denen z. B. normalverteilte Merkmale modelliert<br />

werden, kann <strong>die</strong> Wkt für jedes Elementarereignis ω ∈ Ω gleich Null<br />

se<strong>in</strong>, was nur sche<strong>in</strong>bar e<strong>in</strong> Widerspruch zu dem vorher Gesagten ist. Auf <strong>die</strong>ses<br />

Paradox wird später nochmals e<strong>in</strong>gegangen.<br />

5. Würfeln bzw. Münzwurf s<strong>in</strong>d Beipiele sog. Laplace-W-Räume, vgl. Def. 1.16.


6 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG<br />

Satz 1.13 (Folgerungen)<br />

1. Setzt man A i := ∅ , i = n + 1, n + 2, ..., so gilt (P3) auch für endliche<br />

disjunkte Vere<strong>in</strong>igungen, d. h. für A 1 , . . . , A n ∈ F<br />

n⋃<br />

P ( A i ) =<br />

i=1<br />

n∑<br />

P (A i ) , falls A i ∩ A j = ∅ , i ≠ j .<br />

i=1<br />

2. Weiterh<strong>in</strong> folgt aus den drei Axiomen für A, B ∈ F<br />

0 ≤ P (A) ≤ 1 , P (∅) = 0<br />

P (A c ) = 1 − P (A)<br />

P (A\B) = P (A) − P (A ∩ B) .<br />

3. Besonders wichtig ist der Additionssatz<br />

P (A ∪ B) = P (A) + P (B) − P (A ∩ B) , (1.1)<br />

den man sich am besten <strong>in</strong> e<strong>in</strong>em Venn-Diagramm für beliebige Mengen<br />

A, B ∈ F verdeutlicht.<br />

Satz 1.14 (Ungleichungen, Boole’s <strong>in</strong>equalities)<br />

Über den Additionssatz folgt für A ⊂ B zunächst A ∩ B = A <strong>und</strong> somit<br />

P (B) = P (A) + P (B ∩ A c ) ≥ P (A) ; A, B ∈ F .<br />

Für beliebige A, B ∈ F gelten <strong>die</strong> Ungleichungen von Boole<br />

P (A) + P (B) ≥ P (A ∪ B)<br />

≥ max{P (A), P (B)}<br />

≥ P (A ∩ B)<br />

≥ P (A) + P (B) − 1 .<br />

Die Aussage des folgenden Satzes spielt bei vielen Beweisen e<strong>in</strong>e Rolle.


1.3. KOMBINATORIK, ABZÄHLEN 7<br />

Satz 1.15 (Folgen von Ereignissen)<br />

Seien A n+1 ⊂ A n ∈ F, n = 1, 2, ... <strong>und</strong><br />

Stetigkeitssatz<br />

lim P (A n) = 0 .<br />

n→∞<br />

∞⋂<br />

A n<br />

n=1<br />

= ∅, dann gilt folgender<br />

Def. 1.16 (Laplace-Raum; Abzählregel)<br />

S<strong>in</strong>d bei endlichem Ω alle Elementarereignisse gleichwahrsche<strong>in</strong>lich, d. h.<br />

P ({ω}) = 1 , für alle ω ∈ Ω ,<br />

|Ω|<br />

so spricht man von e<strong>in</strong>em Laplace-Wahrsche<strong>in</strong>lichkeitsraum oder e<strong>in</strong>fach<br />

von der Laplace-Annahme.<br />

Als σ−Algebra wählt man <strong>in</strong> <strong>die</strong>sem Fall F = P(Ω). Damit folgt aus dem Axiom<br />

(P3) für beliebige Ereignisse <strong>in</strong> Laplace-Räumen <strong>die</strong> sog. Abzählregel:<br />

P (A) =<br />

Anzahl der günstigen Fälle<br />

Anzahl der möglichen Ergebnisse = |A|<br />

|Ω| . (1.2)<br />

1.3 Komb<strong>in</strong>atorik, Abzählen<br />

Erste systematische Untersuchungen zu Fragen der Wahrsche<strong>in</strong>lichkeitstheorie wurden<br />

im 17. Jahrh<strong>und</strong>ert vor allem im Zusammenhang mit Glücksspielen durchgeführt (Bernoulli,<br />

Fermat, Laplace, Pascal, ... ). Unter anderem spielten damals Abzählaufgaben<br />

e<strong>in</strong>e wichtige Rolle. Nachdem <strong>die</strong>ser Aufgabentyp <strong>in</strong> der Kollegstufe ausführlich behandelt<br />

wird, sollen hier nur <strong>die</strong> allerwichtigsten Aspekte zur Sprache kommen. Ausführliche<br />

Darstellungen f<strong>in</strong>det man u.a. <strong>in</strong> [Chung (1979)], [Stirzaker (1994)], jeweils ch. 3<br />

(Count<strong>in</strong>g), [Isaac (1995)], ch. 2 (How to Count ...) oder [Henze (1997)].<br />

Viele Abzählaufgaben basieren auf<br />

Satz 1.17 (Multiplikationsregel der Komb<strong>in</strong>atorik)<br />

Es sei e<strong>in</strong>e mehrfache Auswahl zu treffen, wobei es m 1 Möglichkeiten für <strong>die</strong> erste<br />

Wahl, m 2 Möglichkeiten für <strong>die</strong> zweite Wahl, m 3 für <strong>die</strong> dritte usw. gibt. Können<br />

alle Möglichkeiten nach Belieben komb<strong>in</strong>iert werden, so lautet <strong>die</strong> Gesamtzahl<br />

aller möglichen Fälle<br />

m 1 · m 2 · m 3 · . . .


8 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG<br />

Wichtigste Bauste<strong>in</strong>e von Komb<strong>in</strong>atorikformeln s<strong>in</strong>d <strong>die</strong> Fakultät <strong>und</strong> B<strong>in</strong>omialkoeffizienten.<br />

Def. 1.18 (Permutationen)<br />

Für n ∈ N 0 gibt<br />

n! = n · (n − 1) · . . . · 1 , 0! = 1 ,<br />

<strong>die</strong> Anzahl der möglichen Permutationen (= Vertauschungen) von n verschiedenen<br />

Objekten an.<br />

Zum Beispiel gibt es für n Personen (n − 1)! Möglichkeiten im Kreis zu sitzen. Dabei<br />

s<strong>in</strong>d zwei Kreisanordnungen gleich, wenn jede Person <strong>in</strong> jeder Anordnung denselben<br />

Nachbarn hat.<br />

Satz 1.19 (Variationen mit Wiederholung)<br />

Nach der Multiplikationsregel 1.17 gibt es n k Möglichkeiten, aus e<strong>in</strong>er Menge von<br />

n Elementen k Elemente unter Beachtung der Reihenfolge mit Zurücklegen zu<br />

ziehen.<br />

Satz 1.20 (Komb<strong>in</strong>ationen ohne Wiederholung)<br />

Es gibt<br />

( n<br />

k)<br />

=<br />

n!<br />

k!(n − k)!<br />

n(n − 1) · . . . · (n − k + 1)<br />

= , n, k ∈ N 0 , k ≤ n<br />

1 · 2 · . . . · k<br />

k-elementige Teilmengen e<strong>in</strong>er Menge von n Elementen.<br />

Es folgen zwei Anwendungsbeispiele.<br />

Satz 1.21 (Ziehen mit Zurücklegen)<br />

In e<strong>in</strong>er Urne seien N verschiedene Kugeln. Davon seien M rot gefärbt <strong>und</strong><br />

der Rest weiß (0 < M < N). A m n sei das Ereignis, dass beim n-maligen (unabhängigen)<br />

Ziehen e<strong>in</strong>er Kugel mit Zurücklegen genau m rote Kugeln auftreten,<br />

0 ≤ m ≤ n. Nach der Abzählregel 1.16, der Multiplikationsregel 1.17 <strong>und</strong> Satz<br />

1.19 erhält man<br />

( ) n M<br />

P (A m m (N − M) n−m<br />

n ) =<br />

.<br />

m N n<br />

Die Gesamtzahl aller Möglichkeiten bei n Zügen mit Zurücklegen unter Beachtung der<br />

Reihenfolge (wir denken uns <strong>die</strong> Kugeln von 1 bis N nummeriert) ist N n . Seien <strong>die</strong>


1.3. KOMBINATORIK, ABZÄHLEN 9<br />

Nummern der roten Kugeln 1, . . . , M <strong>und</strong> <strong>die</strong> der weißen M + 1, . . . , N. Man erhält<br />

zum Beispiel genau m rote Kugeln, wenn zuerst m rote <strong>und</strong> danach n − m weiße<br />

Kugeln gezogen werden. Nach der Multiplikationsregel hat man dafür M m (N −M) n−m<br />

Möglichkeiten. Es s<strong>in</strong>d aber auch andere Farbreihenfolgen möglich. Man könnte etwa<br />

zunächst e<strong>in</strong>e rote, dann n−m weiße <strong>und</strong> zum Schluß <strong>die</strong> restlichen m−1 roten Kugeln<br />

ziehen. Markieren wir <strong>die</strong>jenigen m Stellen, an denen e<strong>in</strong>e rote Kugel gezogen wird mit<br />

1, <strong>und</strong> <strong>die</strong> anderen mit 0, so erhalten wir b<strong>in</strong>äre n-Tupel, <strong>die</strong> mit den m-elementigen<br />

Teilmengen e<strong>in</strong>er n-elementigen ) Menge identifiziert werden können. Davon gibt es e<strong>in</strong>e<br />

. Mit der Abzählregel erhält man <strong>die</strong> Formel von Satz 1.21.<br />

Anzahl von genau ( n<br />

m<br />

Ähnliche Überlegungen führen zur Herleitung der Wahrsche<strong>in</strong>lichlichkeitsfunktion der<br />

B<strong>in</strong>omialverteilung; siehe u.a. Formel (1.16).<br />

In der Fragestellung kommt es gar nicht darauf an, ob zuerst <strong>die</strong> roten oder andere<br />

Kugeln gezogen werden. Trotzdem dürfen wir entsprechende Formeln - mit Beachtung<br />

der Reihenfolge - benützen, wenn <strong>die</strong>s sowohl beim Abzählen der möglichen als auch<br />

der für A m n günstigen Fälle geschieht.<br />

Satz 1.22 (Ziehen ohne Zurücklegen)<br />

Wie vorher seien <strong>in</strong> e<strong>in</strong>er Urne N Kugeln, davon 0 < M < N rot gefärbt <strong>und</strong> der<br />

Rest weiß. Bn<br />

m sei das Ereignis, dass beim n-maligen (unabhängigen) Ziehen e<strong>in</strong>er<br />

Kugel ohne Zurücklegen genau m rote Kugeln auftreten, 0 ≤ m ≤ m<strong>in</strong>{M, n}.<br />

Wieder mit der Abzähl- <strong>und</strong> Multiplikationsregel sowie <strong>die</strong>smal mit Satz 1.20<br />

erhält man<br />

( )( )<br />

M N − M<br />

m<br />

P (B m n ) =<br />

n − m<br />

( ) . N<br />

n<br />

Hier kann man <strong>die</strong> Formeln über Komb<strong>in</strong>ationen ohne Wiederholung heranziehen. Dort<br />

kommt es ohneh<strong>in</strong> bei den Ergebnissen nicht auf <strong>die</strong> Reihenfolge der Elemente an.<br />

Als mögliche Ergebnisse beim Ziehen ohne Zurücklegen kann man etwa alle n-elementigen<br />

Teilmengen e<strong>in</strong>er N-elementigen Gr<strong>und</strong>menge (Kugeln mit Nummern 1, . . . , N)<br />

ansehen. Bei der Def<strong>in</strong>ition von Mengen spielt bekanntlich <strong>die</strong> Reihenfolge der Elemente<br />

<strong>in</strong> der Auflistung ke<strong>in</strong>e Rolle.<br />

Zum Abzählen der für Bn<br />

m günstigen Ergebnisse denken wir uns wieder <strong>die</strong> roten Kugeln<br />

als von 1, . . . , M durchnummeriert, <strong>die</strong> N − M weißen von M + 1, . . . , N. m<br />

rote Kugeln treten be<strong>in</strong> n-maligen Ziehen ohne Zurücklegen genau dann auf, wenn<br />

am Ende Kugeln mit genau m verschiedenen Nummern aus {1, . . . , M} <strong>und</strong> n − m<br />

verschiedenen Nummern aus {M +1, . . . , N} vorliegen. Gemäß Satz 1.20 ist <strong>die</strong> Anzahl<br />

<strong>die</strong>ser Ergebnisse ( M<br />

m<br />

)<br />

bzw.<br />

( N−M<br />

n−m<br />

)<br />

.


10 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG<br />

E<strong>in</strong> typisches Beispiel für ’Ziehen ohne Zurücklegen’ ist etwa e<strong>in</strong>e Ausspielung beim<br />

Lotto ”6 aus 49”:<br />

N = 49<br />

M = 6<br />

n = 6<br />

m<br />

Gesamtzahl der Kugeln <strong>in</strong> der Trommel<br />

von e<strong>in</strong>er Person P (am Freitag) angekreuzte Zahlen<br />

(<strong>in</strong> Gedanken rot gefärbt)<br />

am Samstagabend gezogene Zahlen<br />

’Richtige’ der Person P<br />

(Anzahl der gezogenen ’roten Kugeln’).<br />

1.4 Unabhängigkeit, bed<strong>in</strong>gte Wahrsche<strong>in</strong>lichkeit<br />

Def. 1.23 (Bed<strong>in</strong>gte Wahrsche<strong>in</strong>lichkeit, conditional probability)<br />

Seien A, B Ereignisse <strong>in</strong> F. Für P (B) ≠ 0 def<strong>in</strong>iert<br />

P (A|B) = P B (A) :=<br />

P (A ∩ B)<br />

P (B)<br />

(1.3)<br />

<strong>die</strong> Wahrsche<strong>in</strong>lichkeit von A unter der Bed<strong>in</strong>gung B. Die folgende Identität, <strong>in</strong><br />

der P (A|B) auf der rechten Seite vorkommt, ist für P (B) > 0 wohldef<strong>in</strong>iert. Um<br />

<strong>in</strong> Zukunft <strong>die</strong> Diskussion von Sonderfällen zu vermeiden, legen wir zusätzlich für<br />

B ∈ F <strong>und</strong> P (B) = 0 fest<br />

P (A ∩ B) = P (A|B) P (B) .<br />

Für e<strong>in</strong> fest gewähltes B mit P (B) > 0 <strong>und</strong> variables A ∈ F def<strong>in</strong>iert (1.3) sogar e<strong>in</strong>en<br />

neuen Wahrsche<strong>in</strong>lichkeitsraum.<br />

Satz 1.24 (Wahrsche<strong>in</strong>lichkeit unter der Bed<strong>in</strong>gung B)<br />

Für B ∈ F mit P (B) > 0, F B := { A B | A B := A ∩ B , A ∈ F } <strong>und</strong><br />

P B (A B ) := P (A|B) ist<br />

(B, F B , P B )<br />

e<strong>in</strong> Wahrsche<strong>in</strong>lichkeitsraum.<br />

Der nächste Satz ist e<strong>in</strong>e e<strong>in</strong>fache Folgerung der vorhergehenden Def<strong>in</strong>ition <strong>und</strong> doch<br />

von weitreichender Bedeutung bei späteren Überlegungen.


1.4. UNABHÄNGIGKEIT, BEDINGTE WAHRSCHEINLICHKEIT 11<br />

Satz 1.25 (Bed<strong>in</strong>gte Zerlegung, condition<strong>in</strong>g)<br />

Für Ereignisse A, B ∈ F mit 0 < P (B) < 1 gilt<br />

P (A) = P (A ∩ B) + P (A ∩ B c ) =<br />

= P (A|B) P (B) + P (A|B c ) P (B c ) . (1.4)<br />

Dies ist offensichtlich e<strong>in</strong> Spezialfall vom<br />

Satz 1.26 (von der totalen Wahrsche<strong>in</strong>lichkeit, total probability)<br />

Seien B 1 , B 2 , ... höchstens abzählbar viele, paarweise disjunkte Ereignisse <strong>in</strong> F<br />

<strong>und</strong> A ⊂ ∞ ⋃<br />

B i , A ∈ F, dann gilt<br />

i=1<br />

∞∑<br />

P (A) = P (B i ) P (A|B i ) . (1.5)<br />

i=1<br />

bzw. für endlich viele B i<br />

n∑<br />

P (A) = P (B i ) P (A|B i ) . (1.6)<br />

i=1<br />

Der folgende Satz ist e<strong>in</strong>e direkte Konsequenz. Er wird nur für endlich viele B i formuliert:<br />

Satz 1.27 (von Bayes)<br />

⋃<br />

Seien A, B 1 , ..., B n ∈ F, B 1 , ..., B n paarweise disjunkt, A ⊂ n B i <strong>und</strong> P (A) ≠ 0.<br />

Weiterh<strong>in</strong> seien <strong>die</strong> bed<strong>in</strong>gten Wahrsche<strong>in</strong>lichkeiten P (A|B i ) gegeben. Dann gilt<br />

i=1<br />

P (B j |A) = P (B j)P (A|B j )<br />

n∑<br />

P (B i )P (A|B i )<br />

i=1<br />

∀ j = 1, ..., n .<br />

Für P (B) > 0 kann folgende Situation e<strong>in</strong>treten:<br />

P (A) = P (A|B) =<br />

P (A ∩ B)<br />

P (B)<br />

.<br />

Dies motiviert <strong>die</strong> Def<strong>in</strong>ition


12 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG<br />

Def. 1.28 (Unabhängigkeit)<br />

1. Zwei Ereignisse A <strong>und</strong> B ∈ F heißen unabhängig (<strong>in</strong>dependent), falls<br />

P (A ∩ B) = P (A) P (B) .<br />

2. E<strong>in</strong>e (nicht unbed<strong>in</strong>gt abzählbare) Familie von Ereignissen A i ∈ F, i ∈ I,<br />

heißt (stochastisch) unabhängig, falls<br />

⎛<br />

P ⎝ ⋂<br />

j∈J<br />

A j<br />

⎞<br />

⎠ = ∏ j∈J<br />

für alle endlichen Indexmengen J ⊂ I.<br />

P (A j ) , (1.7)<br />

3. E<strong>in</strong>e Familie von Ereignissen A i ∈ F, i ∈ I, heißt paarweise unabhängig,<br />

falls<br />

P (A i ∩ A j ) = P (A i ) P (A j ) , für alle i ≠ j .<br />

Paarweise unabhängige Ereignisse s<strong>in</strong>d nicht notwendig (stochastisch) unabhängig.<br />

Folgerung 1.29<br />

Seien A, B ∈ F.<br />

1. Für alle A ∈ F s<strong>in</strong>d ∅ <strong>und</strong> A unabhängig.<br />

2. Für alle A ∈ F s<strong>in</strong>d Ω <strong>und</strong> A unabhängig.<br />

3. Für alle A ∈ F mit 0 < P (A) < 1 s<strong>in</strong>d A <strong>und</strong> A c nicht unabhängig.<br />

4. Falls A <strong>und</strong> B unabhängig, so auch<br />

A <strong>und</strong> B c sowie A c <strong>und</strong> B sowie A c <strong>und</strong> B c .<br />

5. Für P (B) > 0 s<strong>in</strong>d A <strong>und</strong> B genau dann unabhängig, falls P (A|B) = P (A).


1.4. UNABHÄNGIGKEIT, BEDINGTE WAHRSCHEINLICHKEIT 13<br />

Beispiel 1.30 (Ru<strong>in</strong> des Spielers, gambler’s ru<strong>in</strong>)<br />

Am Ende <strong>die</strong>ses Abschnitts soll zum ersten Mal e<strong>in</strong> Beispiel diskutiert werden, das uns<br />

<strong>in</strong> <strong>die</strong>ser <strong>E<strong>in</strong>führung</strong>svorlesung noch öfter begegnen wird. Es handelt sich um den<br />

”Ru<strong>in</strong> des Spielers”,<br />

vgl. etwa [Stirzaker (1994)], pp. 39 <strong>und</strong> 145.<br />

Sie betreten e<strong>in</strong> Spielkas<strong>in</strong>o mit e<strong>in</strong>em Kapital von k DM <strong>und</strong> setzen bei jedem Roulettespiel<br />

1 DM auf das Ereignis R, dass <strong>die</strong> Kugel auf ”Rot” fällt. Im Falle R erhalten<br />

Sie mit dem E<strong>in</strong>satz 2 DM zurück, andernfalls gehört Ihr E<strong>in</strong>satz von 1 DM der Spielbank.<br />

Wir wissen p = P (R) = 18/37 < 1/2. Sie legen von vornehere<strong>in</strong> e<strong>in</strong> Zielkapital<br />

von K ≥ k fest <strong>und</strong> beenden das Spiel, wenn Sie K DM besitzen oder wenn Sie alles<br />

verloren haben.<br />

Gesucht ist zunächst p k , <strong>die</strong> Wahrsche<strong>in</strong>lichkeit dafür, alles zu verlieren.<br />

Lösung analog [Chung (1979)], pp. 242-245.<br />

Nun sei allgeme<strong>in</strong> 0 < p < 1. Bezeichne A k das Ereignis Ru<strong>in</strong> bei Anfangskapital k.<br />

Falls das erste Spiel mit ”Rot” endet, so ist <strong>die</strong>s <strong>die</strong>selbe Situation als hätte man mit<br />

k+1 DM begonnen. Falls <strong>die</strong> Kugel ”nicht auf Rot” fällt (d. h. R c ), so hätte man gleich<br />

mit k −1 DM beg<strong>in</strong>nen können. Damit ist der Satz von der totalen Wahrsche<strong>in</strong>lichkeit<br />

bzgl. des Ereignisses R anwendbar <strong>und</strong> es gilt für 0 < k < K<br />

P (A k ) = P (R) P (A k |R) + P (R c ) P (A k |R c )<br />

= P (R) P (A k+1 ) + P (R c ) P (A k−1 )<br />

p k = p p k+1 + (1 − p) p k−1 . (1.8)<br />

Wir lösen nun <strong>die</strong> Differenzengleichung (1.8) unter den trivialen Anfangsbed<strong>in</strong>gungen<br />

p 0 = 1 <strong>und</strong> p K = 0 .<br />

In ke<strong>in</strong>em <strong>die</strong>ser beiden Fälle f<strong>in</strong>det e<strong>in</strong> Spiel statt: im ersten, weil ke<strong>in</strong> Kapital vorhanden<br />

ist; im zweiten, weil schon alles gewonnen ist. Seien jetzt allgeme<strong>in</strong> 0 < p < 1,<br />

r := (1 − p)/p <strong>und</strong> d k := p k − p k+1 . Mit p k = p p k + (1 − p) p k folgt aus (1.8) durch<br />

Umordnen<br />

p k − p k+1 = 1 − p<br />

p<br />

(p k−1 − p k ) =<br />

=⇒ d k = r d k−1 = r k d 0 .<br />

( ) k<br />

1 − p<br />

(1 − p 1 )<br />

Schrittweises Aufsummieren liefert mit der endlichen geometrischen Reihe<br />

p<br />

1 = p 0 − p K =<br />

=<br />

K−1 ∑<br />

k=0<br />

⎧<br />

⎪⎨<br />

⎪⎩<br />

(p k − p k+1 ) =<br />

K−1 ∑<br />

k=0<br />

d k =<br />

K−1 ∑<br />

k=0<br />

r k d 0<br />

K d 0 , falls p = 1 − p = 1 2<br />

1 − r K<br />

1 − r<br />

d 0 , falls p ≠ 1 − p ≠ 1 2 ,


14 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG<br />

<strong>und</strong> daher<br />

d 0 =<br />

⎧<br />

⎪⎨<br />

Wieder durch Summieren erhält man mit p K = 0<br />

⎪⎩<br />

1/K , falls p = 1 2<br />

1 − r<br />

1 − r , falls p ≠ 1 . (1.9)<br />

K 2<br />

p k = p k − p K =<br />

=<br />

K−1 ∑<br />

i=k<br />

⎧<br />

⎪⎨<br />

⎪⎩<br />

(p i − p i+1 ) =<br />

K−1 ∑<br />

i=k<br />

d i =<br />

K−1 ∑<br />

i=k<br />

(K − k) d 0 , falls p = 1 2<br />

r k − r K<br />

1 − r<br />

r i d 0 =<br />

d 0 , falls p ≠ 1 2 . (1.10)<br />

Zusammen ergeben (1.9) <strong>und</strong> (1.10) für<br />

p k =<br />

⎧<br />

⎪⎨<br />

⎪⎩<br />

0 ≤ k ≤ K<br />

K − k<br />

, falls p = 1 2<br />

K<br />

(1.11)<br />

r k − r K<br />

1 − r , falls p ≠ 1 . K 2<br />

Durch Vertauschen der Rollen von p <strong>und</strong> 1 − p, d. h. r → 1/r, sowie dem Übergang<br />

von k → K − k erhält man <strong>die</strong> Wahrsche<strong>in</strong>lichkeiten q k , nämlich dafür, dass <strong>die</strong> Spielstrategie<br />

mit dem angestrebten Gew<strong>in</strong>n K endet:<br />

q k =<br />

⎧<br />

⎪⎨<br />

⎪⎩<br />

k<br />

, falls p = 1 2<br />

K<br />

(1.12)<br />

1 − r k<br />

1 − r , falls p ≠ 1 . K 2<br />

Durch E<strong>in</strong>setzen verifiziert man<br />

<strong>und</strong> erhält sofort den wichtigen<br />

p k + q k = 1<br />

Satz 1.31 (Endliches Ende des Spiels)<br />

Das beschriebene Spiel endet mit Wahrsche<strong>in</strong>lichkeit 1 entweder im Ru<strong>in</strong> des<br />

Spielers oder mit dem Erreichen des Zielkapitals K.<br />

Diese Aussage ist alles andere als trivial <strong>und</strong> folgt nur wegen der separaten Herleitung<br />

der Wahrsche<strong>in</strong>lichkeiten q k . (Warum darf man nicht e<strong>in</strong>fach q k := 1−p k setzen?) Zwar<br />

ist es denkbar, dass der Spieler jeweils abwechsend e<strong>in</strong> Spiel gew<strong>in</strong>nt <strong>und</strong> verliert. In<br />

<strong>die</strong>sem Fall würde das Spiel für 2 ≤ k <strong>und</strong> K ≥ k + 2 nie enden. Man kann aber zeigen,


1.4. UNABHÄNGIGKEIT, BEDINGTE WAHRSCHEINLICHKEIT 15<br />

dass derart spezielle Folgen von Spielausgängen nur mit Wahrsche<strong>in</strong>lichkeit 0 auftreten.<br />

Ohne es zu bemerken, haben wir mit dem letzen Satz <strong>und</strong> der expliziten Angabe der<br />

p k <strong>und</strong> q k bereits <strong>die</strong> Analyse e<strong>in</strong>es wichtigen Stochastischen Prozesses e<strong>in</strong>geleitet. Es<br />

handelt sich um <strong>die</strong> e<strong>in</strong>fache Irrfahrt oder den (simple) Random Walk.<br />

Dabei bewegt man sich <strong>in</strong> diskreter Zeit t = 0, 1, 2, ... auf dem Gitter der ganzen Zahlen<br />

nach folgenden Regeln:<br />

1. Zum Zeitpunkt t bef<strong>in</strong>det sich der Prozeß im Zustand S t ∈ Z.<br />

2. Der Ausgangszustand S 0 = s 0 ∈ Z ist vorgegeben.<br />

3. Auf den Zustand S t kann entweder der Zustand S t+1 = S t + 1 oder der Zustand<br />

S t+1 = S t − 1 folgen.<br />

4. Für 0 < p < 1 gilt<br />

P (S t+1 = j + 1 | S t = j) = p <strong>und</strong> P (S t+1 = j − 1 | S t = j) = 1 − p .<br />

5. Weiterh<strong>in</strong> gelten noch Unabhängigkeitsannahmen, <strong>die</strong> an <strong>die</strong>ser Stelle noch nicht<br />

präzisiert werden können.<br />

Trägt man <strong>die</strong> Zustände S t über der Zeit ab, so könnte der Pfad e<strong>in</strong>es typischen<br />

Random Walks etwa folgendermaßen aussehen<br />

✻<br />

Zielkapital<br />

k<br />

<br />

S t<br />

1 2 3 9 10 11<br />

K<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

t<br />

0 Ru<strong>in</strong> des Spielers<br />

✲<br />

Bild 1: Random Walk


16 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG<br />

Der Zusammenhang zum Ru<strong>in</strong> des Spielers ergibt sich folgendermaßen<br />

1. Startkapital : k = s 0 ≥ 0<br />

2. p = P (Gew<strong>in</strong>n) = P (S t+1 = j + 1 | S t = j)<br />

3. S t = 0 ⇐⇒ Ru<strong>in</strong> des Spielers<br />

4. S t = K ⇐⇒ Spielende mit gewonnenem Zielkapital K.<br />

Für den Random Walk kann man ähnliche <strong>und</strong> e<strong>in</strong>e Reihe weiterer Fragen stellen wie<br />

beim Ru<strong>in</strong> des Spielers. Dies s<strong>in</strong>d u.a.<br />

1. Verläßt e<strong>in</strong> beliebiger Pfad des Random Walk e<strong>in</strong> vorgegebenes endliches Intervall<br />

[a, b], a < b; womöglich sogar mit Wahrsche<strong>in</strong>lichkeit 1?<br />

2. Trifft e<strong>in</strong> solcher Pfad e<strong>in</strong>en beliebig vorgegebenen Wert z ∈ Z; <strong>und</strong> wie oft?<br />

3. T k sei <strong>die</strong> Zeit, bei der das Kapital des Spielers (ausgehend von S 0 = k) zum<br />

ersten Mal e<strong>in</strong>en der Werte S Tk = 0 oder S Tk = K erreicht. Es ist u.a. zu klären,<br />

ob T k endlich ist.<br />

4. Was geschieht im Fall K → ∞, wenn <strong>die</strong> Bank unbeschränktes Kapital besitzt?<br />

Diesen <strong>und</strong> ähnlichen Fragen wenden wir uns im Kapitel 5 zu. Zuvor benötigen wir<br />

aber <strong>die</strong> <strong>E<strong>in</strong>führung</strong> weiterer wichtiger Begriffe der Wahrsche<strong>in</strong>lichkeitsrechnung, mit<br />

denen wir uns zunächst befassen.


1.5. ZUFALLSVARIABLE 17<br />

1.5 Zufallsvariable<br />

Die Festlegung von Wahrsche<strong>in</strong>lichkeiten für Ereignisse <strong>in</strong> den e<strong>in</strong>fachen Laplace-Räumen<br />

wurde bereits diskutiert. In komplexeren Modellen benötigt man neue Hilfsmittel,<br />

nämlich sog. Zufallsvariable (vgl. auch <strong>die</strong> Ausführungen über Merkmale im Kapitel<br />

’Empirische <strong>Statistik</strong>’).<br />

Oft ist man gar nicht an den Ergebnissen ω ∈ Ω selbst <strong>in</strong>teressiert, sondern an deren<br />

Merkmalen; z. B. an der ”Verteilung” von Größe oder Gewicht von Individuen ω <strong>in</strong> e<strong>in</strong>er<br />

Population Ω. Es zeigt sich, dass <strong>die</strong> Festlegung <strong>in</strong>teressierender Wahrsche<strong>in</strong>lichkeiten<br />

besonders e<strong>in</strong>fach für bestimmte Abbildungen erfolgen kann.<br />

Def. 1.32 (Zufallsvariable, ZV)<br />

Gegeben sei e<strong>in</strong> Wahrsche<strong>in</strong>lichkeitsraum (Ω, F, P ). E<strong>in</strong>e Abbildung<br />

X : Ω → R ,<br />

mit X −1 (B) ∈ F für alle Borelmengen B ∈ B (vgl. Def. 1.8) (1.13)<br />

heißt (e<strong>in</strong>dimensionale) Zufallsvariable oder auch Zufallsgröße (random variable).<br />

Die reelle Zahl x = X(ω), <strong>die</strong> sich bei Durchführung des Zufallsexperiments durch<br />

Auswerten von X ergibt, heißt Realisierung von X.<br />

Das Wahrsche<strong>in</strong>lichkeitsmaß P X auf (R, B) def<strong>in</strong>iert durch<br />

P X (B) := P (X −1 (B)) für alle Borelmengen B ∈ B (1.14)<br />

heißt Verteilung (distribution) von X.<br />

Bemerkung 1.33<br />

1. Für e<strong>in</strong>e ZV genügt es schon, wenn X −1 ( (−∞, x] ) ∈ F, für alle x ∈ R.<br />

2. Die Def<strong>in</strong>ition von ZV wird später verallgeme<strong>in</strong>ert, zunächst auf Zufallsvektoren<br />

X : (Ω, F) → (R n , B n ).<br />

3. Bei sog. Wartezeitproblemen kann <strong>die</strong> ZV X den Wert ∞ annehmen. In<br />

<strong>die</strong>sem <strong>E<strong>in</strong>führung</strong>skurs bleibt <strong>die</strong>ser Fall ausgeschlossen, solange nicht explizit<br />

darauf Bezug genommen wird.<br />

4. Falls Ω höchstens abzählbar ist, <strong>und</strong> falls F = P(Ω), so ist jede Abbildung<br />

X : Ω → R e<strong>in</strong>e Zufallsvariable.<br />

5. Für F = {∅, A, A c , Ω} s<strong>in</strong>d genau <strong>die</strong> Abbildungen<br />

{<br />

c , falls x ∈ A<br />

X(ω) =<br />

d , sonst ,<br />

mit c, d ∈ R Zufallsvariable.


18 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG<br />

6. Das letzte Beispiel demonstriert, wie e<strong>in</strong>schränkend <strong>die</strong> Forderung (1.13) im Spezialfall<br />

se<strong>in</strong> kann. In e<strong>in</strong>em Stochastik-<strong>E<strong>in</strong>führung</strong>skurs wollen wir aber <strong>die</strong>se<br />

abstrakte Messbarkeitseigenschaft nicht weiter verfolgen <strong>und</strong> fortan stets voraussetzen,<br />

dass <strong>die</strong> verwendeten ZV im S<strong>in</strong>ne von (1.13) wohldef<strong>in</strong>iert s<strong>in</strong>d.<br />

Bei höchstens abzählbarem Ω treten ohneh<strong>in</strong> ke<strong>in</strong>e Probleme auf, da für F = P(Ω)<br />

jede Abbildung messbar ist, <strong>und</strong> <strong>die</strong> Wahrsche<strong>in</strong>lichkeiten für <strong>die</strong> Elementarereignisse<br />

festgelegt werden können.<br />

1.5.1 Diskrete Zufallsvariable<br />

Für diskrete ZV nimmt X nur <strong>die</strong> Werte x i , i ∈ I an, wobei I höchstens abzählbar<br />

ist; z. B. I = {1, ..., n}, I = Z, I = N, I = N 0 usw. Häufig gilt: x i ∈ {0, 1, 2, . . .}.<br />

Def. 1.34 (Diskrete Verteilung)<br />

X sei e<strong>in</strong>e diskrete ZV, <strong>und</strong> <strong>die</strong> Indexmenge I höchstens abzählbar unendlich.<br />

p i = P (X = x i ) , i ∈ I (1.15)<br />

mit p i ≥ 0 , i ∈ I <strong>und</strong><br />

∑<br />

p i = 1<br />

i∈I<br />

legen <strong>die</strong> <strong>in</strong> (1.14) def<strong>in</strong>ierte Verteilung von X e<strong>in</strong>deutig fest.<br />

{<br />

pi , falls x = x<br />

f(x) = f X (x) = P (X = x) :=<br />

i , i ∈ I<br />

0 , sonst,<br />

heißt Wahrsche<strong>in</strong>lichkeitsfunktion (probability mass function, p.m.f.) von X.<br />

Auch umgekehrt bestimmt im diskreten Fall <strong>die</strong> Verteilung von X e<strong>in</strong>deutig <strong>die</strong> p i > 0.<br />

Deswegen spricht man gelegentlich bei den p i oder der Wahrsche<strong>in</strong>lichkeitsfunktion f X<br />

von (diskreter) Verteilung, obwohl <strong>die</strong>ser Begriff genau genommen für das Wahrsche<strong>in</strong>lichkeitsmaß<br />

von (1.14) reserviert ist.


1.5. ZUFALLSVARIABLE 19<br />

Vere<strong>in</strong>barung:<br />

1. An <strong>die</strong>ser Stelle sche<strong>in</strong>t das Subskript bei f X (x) noch überflüssig. Falls ke<strong>in</strong>e<br />

Verwechslungen zu befürchten s<strong>in</strong>d, wird es auch weggelassen. In späteren<br />

Abschnitten, z. B. bei der Transformation von ZV, ermöglicht jedoch der Gebrauch<br />

des Subskripts e<strong>in</strong>e verständlichere Darstellung.<br />

2. Je nach Sachlage werden wir e<strong>in</strong>mal <strong>die</strong> Schreibweise p i , i ∈ I gebrauchen, um<br />

an <strong>die</strong> diskreten Werte x i zu er<strong>in</strong>nern, <strong>und</strong> e<strong>in</strong> anderes Mal <strong>die</strong> Darstellung über<br />

<strong>die</strong> Wahrsche<strong>in</strong>lichkeitsfunktion f X , um eher den Bezug zur Zufallsvariablen<br />

X herauszuheben.<br />

3. Man gibt <strong>die</strong> Wahrsche<strong>in</strong>lichkeitsfunktion <strong>in</strong> der Regel nur für Argumente x<br />

mit f X (x) > 0 an.<br />

4. Im Zusammenhang mit diskreten ZV bedeutet <strong>die</strong> verkürzte Schreibweise ∑ i<br />

stets<br />

i∈I, ∑ n∑ ∑<br />

also z. B. oder ∞ etc.<br />

i=0<br />

i=0<br />

Beispiel 1.35 (diskrete Verteilungen)<br />

1. Würfeln:<br />

|Ω| = 6, X : Ω → {1, 2, . . . , 6}, P (X = i) = 1 , i = 1, ..., 6 .<br />

6<br />

2. Bernoullisches Experiment: Ω = A ∪ A c , X : Ω → {0, 1}.<br />

P (A) = P (X = 1) = p, P (A c ) = P (X = 0) = 1 − p, 0 < p < 1 .<br />

Das Ereignis A steht etwa für ”Gew<strong>in</strong>n” bei e<strong>in</strong>em Glücksspiel oder für ”Ausschuß”<br />

bei der Kontrolle e<strong>in</strong>er Lieferung.<br />

3. B<strong>in</strong>omialverteilung: B(n,p)<br />

n-maliges Durchführen unabhängiger Bernoulliexperimente. P (A) = p,<br />

X : Ω → {0, 1, 2 . . . , n}; X bezeichnet <strong>die</strong> Anzahl des Auftretens von A.<br />

p i = P (X = i) =<br />

( n<br />

i<br />

)<br />

p i (1 − p) n−i , i = 0, 1, . . . , n, 0 < p < 1 . (1.16)<br />

Beweis von ∑ p i = 1 über B<strong>in</strong>omische Formel.<br />

i<br />

Bedeutet A Ausschuß, so gibt X <strong>die</strong> zufällige Anzahl von nicht brauchbaren Teilen<br />

an, <strong>die</strong> <strong>in</strong> e<strong>in</strong>er Stichprobe vom Umfang n enthalten s<strong>in</strong>d.


20 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG<br />

0.3<br />

p i = ( )<br />

n<br />

i p i (1 − p) n−i ; p = 0.2 , n = 10<br />

0.2<br />

0.1<br />

0<br />

0 2 4 6 8 10<br />

x i<br />

Bild 2: Wahrsche<strong>in</strong>lichkeitsfunktion der B<strong>in</strong>omialverteilung B(10, 0.2)<br />

4. Poisson-Verteilung: P oi(λ)<br />

z. B. Anzahl der Telefonanrufe <strong>in</strong> e<strong>in</strong>er Vermittlung pro St<strong>und</strong>e.<br />

X : Ω → {0, 1, 2 . . .},<br />

p x = f(x) = e<br />

−λ λx<br />

, x = 0, 1, 2, . . . , λ > 0 , (1.17)<br />

x!<br />

(z. B. λ durchschnittliche Zahl von Anrufen).<br />

Beweis von ∑ x<br />

p x = 1 über Taylorreihe der Exponentialfunktion.<br />

0.2<br />

−λ<br />

λx<br />

p x = e<br />

x! ; λ = 5<br />

0.15<br />

0.1<br />

0.05<br />

0<br />

0 2 4 6 8 10 12 14 16<br />

x i<br />

Bild 3: Wahrsche<strong>in</strong>lichkeitsfunktion der Poisson-Verteilung P oi(5)


1.5. ZUFALLSVARIABLE 21<br />

5. Geometrische Verteilung:<br />

X sei <strong>die</strong> Anzahl der Fehlversuche bei (unabhängigen) Bernoulli-Experimenten,<br />

bis zum ersten Mal das Ereignis A = Erfolg, mit P (A) = p , 0 < p < 1 e<strong>in</strong>tritt,<br />

z. B. A = ”Rot” beim Roulette. Somit ist X : Ω → N 0 mit der Verteilung<br />

p i = P (X = i) = p (1 − p) i , i = 0, 1, 2, . . . . (1.18)<br />

Beweis von ∑ p i = 1 über <strong>die</strong> geometrische Reihe. X = 0 bedeutet, dass bereits<br />

i<br />

im 1. Versuch ”Erfolg” e<strong>in</strong>tritt.<br />

6. Wartezeitprobleme<br />

Hier betrachtet man u.a. ZV X : Ω → {0, 1, 2, ..., ∞} mit<br />

∞∑<br />

p i = ¯p < 1 <strong>und</strong> P (X = ∞) = 1 − ¯p > 0 . (1.19)<br />

i=0<br />

Auf Beispiele <strong>die</strong>ser Art wird der Vollständigkeit halber gelegentlich h<strong>in</strong>gewiesen.<br />

Falls jedoch nicht ausdrücklich ausgeschlossen, gelte hier stets ∑ p i = 1.<br />

i<br />

1.5.2 Verteilungsfunktion<br />

E<strong>in</strong>e Standardmethode zur Festlegung von Wahrsche<strong>in</strong>lichkeiten für beliebige Zufallsvariable<br />

benützt <strong>die</strong><br />

Def. 1.36 (Verteilungsfunktion, distribution function)<br />

Die Funktion F : R → R mit<br />

F (x) = F X (x) := P (X ≤ x) = P ({ ω | X(ω) ≤ x })<br />

heißt Verteilungsfunktion der ZV X.<br />

Folgerung 1.37<br />

1. F (x) ist also <strong>die</strong> Wahrsche<strong>in</strong>lichkeit, dass der Wert der ZV bei Versuchsdurchführung<br />

kle<strong>in</strong>er gleich x ausfällt.<br />

2. F ist wohldef<strong>in</strong>iert, da { ω | X(ω) ≤ x } ∈ F für alle x ∈ R.<br />

3. Da <strong>die</strong> Borelsche σ−Algebra B auch von den Intervallen (−∞, x], x ∈ R, erzeugt<br />

wird, legt <strong>die</strong> Funktion F <strong>die</strong> Verteilung von X gemäß (1.14) e<strong>in</strong>deutig fest.<br />

4. ¯F (x) := 1 − F (x) = P (X > x) wird auch ”tail probability” genannt.


22 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG<br />

5. Nach dem Additionssatz gilt für a < b<br />

P (a < X ≤ b) = F (b) − F (a) . (1.20)<br />

Man beachte den Unterschied zwischen a < X <strong>und</strong> a ≤ X bei diskreten ZV.<br />

Satz 1.38 (Eigenschaften)<br />

Für <strong>die</strong> Verteilungsfunktion F gilt<br />

1. F (x) ≤ F (y), falls x ≤ y (monoton nicht fallend)<br />

2. F (−∞) := lim F (x) = 0,<br />

x→−∞<br />

3. F ist rechtsseitig stetig.<br />

F (∞) := lim F (x) = 1<br />

x→∞<br />

Manche Autoren def<strong>in</strong>ieren F (x) := P (X < x). In <strong>die</strong>sem Fall ist F l<strong>in</strong>ksseitig stetig.<br />

Für diskrete ZV erhält man mit unserer Def<strong>in</strong>ition<br />

F (x) =<br />

∑<br />

i: x i ≤x<br />

p i =<br />

∑<br />

i: x i ≤x<br />

also e<strong>in</strong>e Treppenfunktion mit Sprüngen p i = P (X = x i ) <strong>in</strong> x i .<br />

f(x i ) , (1.21)<br />

✻F (x)<br />

1<br />

<br />

1 − p <br />

❞<br />

❞ ✲x<br />

0<br />

1<br />

Bild 4: Verteilungsfunktion für diskretes X: P (X = 0) = 1 − p , P (X = 1) = p<br />

Bei diskreten ZV gibt es e<strong>in</strong>en e<strong>in</strong>e<strong>in</strong>deutigen Zusammenhang zwischen den Wahrsche<strong>in</strong>lichkeiten<br />

p i = f X (x i ) > 0, i ∈ I <strong>und</strong> der Verteilungsfunktion F , wobei <strong>die</strong> p i<br />

anschaulicher zu <strong>in</strong>terpretieren s<strong>in</strong>d; vgl. etwa <strong>die</strong> Verwandtschaft zu relativen Häufigkeiten.<br />

Entsprechende Analogien gelten für e<strong>in</strong>e andere wichtige Klasse von Zufallsvariablen,<br />

<strong>die</strong> Werte <strong>in</strong> e<strong>in</strong>em ganzen Intervall annehmen können.


1.5. ZUFALLSVARIABLE 23<br />

1.5.3 Stetige Zufallsvariable (ZV)<br />

Beispiele stetiger ZV s<strong>in</strong>d u.a.<br />

- Körpergröße e<strong>in</strong>er Gr<strong>und</strong>gesamtheit Ω, X : Ω → (0, ∞).<br />

- Kontostand e<strong>in</strong>er Gruppe von K<strong>und</strong>en Ω, X : Ω → R.<br />

Def. 1.39 (Dichtefunktion, density)<br />

E<strong>in</strong>e Funktion f : R → R heißt Dichte, falls<br />

1. f(x) ≥ 0 für alle x ∈ R<br />

2.<br />

∫∞<br />

−∞<br />

f(x) dx = 1.<br />

Def. 1.40 (Stetige ZV)<br />

X : Ω → R sei e<strong>in</strong>e ZV. Man nennt X stetig, falls es e<strong>in</strong>e (<strong>in</strong>tegrierbare) Dichte<br />

f X gibt, so dass für alle x ∈ R<br />

F X (x) = P (X ≤ x) =<br />

∫ x<br />

−∞<br />

f X (t) dt .<br />

Vere<strong>in</strong>barung:<br />

1. Wir schreiben wieder F statt F X bzw. f statt f X , falls klar ist, zu welcher Zufallsvariablen<br />

F bzw. f gehören.<br />

2. Die Verteilungsfunktion F X , <strong>und</strong> damit <strong>die</strong> Verteilung von X gemäß (1.14), werden<br />

e<strong>in</strong>deutig durch e<strong>in</strong>e Dichte f X festgelegt. Wenn im folgenden von e<strong>in</strong>er<br />

(stetigen) Verteilung <strong>die</strong> Rede ist, so genügt es also zur Charakterisierung, e<strong>in</strong>e<br />

Dichte f X anzugeben.<br />

3. In <strong>die</strong>ser Vorlesung werden nur Dichten betrachtet, <strong>die</strong> stetig oder stückweise<br />

stetig s<strong>in</strong>d (also <strong>in</strong>sbesondere Regelfunktionen).<br />

Für <strong>die</strong>sen praktisch wichtigen Sonderfall folgt aus dem Hauptsatz der Differential<strong>und</strong><br />

Integralrechnung


24 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG<br />

Satz 1.41 (Beziehung Verteilungsfunktion - Dichte)<br />

Falls <strong>die</strong> stetige Verteilungsfunktion F e<strong>in</strong>er ZV X bis auf endlich viele Stellen<br />

stetig differenzierbar ist, so ist X stetig mit der Dichte<br />

f(x) = f X (x) = F X(x) ′ = F ′ (x) . (1.22)<br />

Die Festlegung von f an den Sprungstellen kann für f(x) ≥ 0 beliebig erfolgen.<br />

Folgerung 1.42<br />

1. Die Verteilungsfunktion e<strong>in</strong>er stetigen ZV ist stetig.<br />

2. Nach dem Additionssatz gilt für a < b<br />

P (a < X ≤ b) = F (b) − F (a) =<br />

∫b<br />

a<br />

f(t) dt = P (a ≤ X ≤ b) . (1.23)<br />

3. Für stetige ZV spielt also wegen<br />

P (X = a) = P (a ≤ X ≤ a) =<br />

∫ a<br />

a<br />

f(t) dt = 0<br />

<strong>die</strong> Festlegung der Dichte an e<strong>in</strong>zelnen Punkten ke<strong>in</strong>e Rolle.<br />

4. Bei stetigen ZV kann man <strong>die</strong> Verteilungsfunktion e<strong>in</strong>deutig aus e<strong>in</strong>er gegebenen<br />

Dichte gew<strong>in</strong>nen. Umgekehrt ist <strong>die</strong> Dichte e<strong>in</strong>er stetigen ZV bei gegebener Verteilungsfunktion<br />

F X punktweise nicht e<strong>in</strong>deutig festgelegt. Für Dichten f X <strong>und</strong><br />

˜f X von X gilt allerd<strong>in</strong>gs für alle −∞ ≤ a ≤ b ≤ ∞<br />

∫ b<br />

a<br />

f X (x) dx =<br />

∫ b<br />

a<br />

˜f X (x) dx .<br />

5. Die Analogie zwischen der hier def<strong>in</strong>ierten <strong>und</strong> der empirischen Dichte (Histogramm)<br />

<strong>in</strong> der beschreibenden <strong>Statistik</strong> ist offensichtlich.<br />

6. Wegen Axiom (P 3) von Def. 1.10 gilt für diskrete <strong>und</strong> stetige ZV sowie für beliebige<br />

Borelmengen B ⊂ R<br />

⎧<br />

∑<br />

⎪⎨ f X (x) , falls X diskret<br />

x∈B<br />

P (X ∈ B) = ∫<br />

(1.24)<br />

⎪⎩ f X (x) dx , falls X stetig ,<br />

x∈B<br />

wobei etwa für B = [a, b] ∪ [c, d] mit a < b < c < d<br />

zu lesen ist.<br />

∫<br />

x∈B<br />

f X (x) dx =<br />

∫b<br />

a<br />

f X (x) dx +<br />

∫d<br />

c<br />

f X (x) dx


1.5. ZUFALLSVARIABLE 25<br />

7. Trotz vieler formaler Ähnlichkeiten bestehen wesentliche Unterschiede zwischen<br />

der Wahrsche<strong>in</strong>lichkeitsfunktion diskreter <strong>und</strong> der Dichtefunktion stetiger ZV.<br />

Wir haben gesehen, dass <strong>die</strong> Aussage<br />

P (X = x) = f X (x)<br />

für diskrete ZV richtig <strong>und</strong> für stetige i. a. falsch ist.<br />

Häufige Wertebereiche für stetige ZV s<strong>in</strong>d u.a. <strong>die</strong> Intervalle [a, b], a < b, [0, ∞), R.<br />

Jeder Wert im entsprechenden Intervall ist möglich. Die Kuriosität, dass e<strong>in</strong> konkreter<br />

Wert x ∗ nur mit Wahrsche<strong>in</strong>lichkeit 0 auftritt, soll an e<strong>in</strong>em Beispiel erläutert werden.<br />

Für X = Körpergewicht würde <strong>die</strong>s etwa bedeuten<br />

P (X = 70) = 0, aber P (69.999 ≤ X ≤ 70.001) > 0 .<br />

Der Fall, dass jemand genau 70.0000... kg wiegt, tritt also nur mit Wahrsche<strong>in</strong>lichkeit<br />

0 auf. Für s<strong>in</strong>nvoll gewählte, nichtleere Intervalle erhält man dagegen <strong>in</strong> der Regel<br />

positive Wahrsche<strong>in</strong>lichkeiten.<br />

Def. 1.43 (Identisch verteilt, identically distributed)<br />

Zwei ZV X <strong>und</strong> Y heißen identisch verteilt (X ∼ Y ), falls <strong>die</strong> entsprechenden<br />

Verteilungen übere<strong>in</strong>stimmen, d. h.<br />

P (X −1 (B)) = P (Y −1 (B)) für alle Borelmengen B ∈ B<br />

oder äquivalent dazu, falls<br />

F X (z) = F Y (z) für alle z ∈ R .<br />

Vor der Diskussion e<strong>in</strong>iger Beispiele noch e<strong>in</strong>e weitere Def<strong>in</strong>ition:<br />

Def. 1.44 (Indikatorfunktion)<br />

A sei e<strong>in</strong>e nichtleere Teilmenge von Ω. 1 A : Ω → R mit<br />

1 A (x) :=<br />

heißt Indikatorfunktion von A.<br />

{<br />

1 , falls x ∈ A<br />

0 , sonst,<br />

Beispiel 1.45 (stetige Verteilungen)


26 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG<br />

1. Gleichverteilung (uniform distribution) U(a, b) <strong>in</strong> (a, b), a < b.<br />

Man spricht auch von der Rechteckverteilung. Diese hat <strong>die</strong> Dichte<br />

f(x) = 1<br />

b − a 1 (a,b)(x) =<br />

⎧<br />

⎨<br />

⎩<br />

1<br />

b − a , falls a < x < b<br />

0 , sonst,<br />

(1.25)<br />

✻f(x)<br />

1<br />

b − a<br />

a<br />

b<br />

x<br />

Bild 5: Dichte der Rechteckverteilung<br />

Die Verteilungsfunktion der Gleichverteilung <strong>in</strong> (a, b) lautet<br />

⎧<br />

⎪⎨<br />

F (x) =<br />

⎪⎩<br />

0 , falls x ≤ a<br />

x − a<br />

b − a , falls a < x < b<br />

1 , falls x ≥ b .<br />

Da es sich um e<strong>in</strong>e stetige Verteilung handelt, spielt es ke<strong>in</strong>e Rolle, ob das offene<br />

oder das abgeschlossene Intervall zwischen a <strong>und</strong> b betrachtet wird. Gemäß<br />

obiger Def<strong>in</strong>ition s<strong>in</strong>d dann <strong>die</strong> ZV X mit U(a, b) <strong>und</strong> Y mit U[a, b] (a <strong>und</strong> b<br />

e<strong>in</strong>geschlossen) identisch verteilt.<br />

2. Normal (Gauß)-Verteilung N(µ, σ 2 )<br />

Die Normalverteilung spielt e<strong>in</strong>e zentrale Rolle. Für µ ∈ R,<br />

Dichte<br />

σ 2 > 0 lautet <strong>die</strong><br />

f(x) = 1 √<br />

2π σ<br />

e −(x−µ)2 2σ 2 (1.26)<br />

N(0, 1) heißt Standardnormalverteilung <strong>und</strong> hat <strong>die</strong> spezielle Dichte<br />

ϕ(x) = 1 √<br />

2π<br />

e − x2<br />

2 .<br />

Die Verteilungsfunktion<br />

Φ(u) =<br />

∫u<br />

−∞<br />

ϕ(t) dt


1.5. ZUFALLSVARIABLE 27<br />

der Standardnormalverteilung N(0, 1) ist analytisch. E<strong>in</strong>e geschlossene Darstellung<br />

mit bekannten Standardfunktionen ist jedoch für Φ nicht möglich. Numerisch<br />

kann Φ genauso berechnet werden wie etwa <strong>die</strong> Exponentialfunktion oder<br />

andere wichtige Funktionen. Zum Ablesen von Quantilen (vgl. Abschnitt 1.5.4)<br />

verwendet man Tabellen von Φ, <strong>die</strong> <strong>in</strong> fast allen <strong>Statistik</strong>büchern zu f<strong>in</strong>den s<strong>in</strong>d,<br />

so auch im Anhang <strong>die</strong>ser Materialien.<br />

0.4/σ<br />

Gausche Glockenkurve<br />

0.3/σ<br />

0.2/σ<br />

0.1/σ<br />

µ − 3σ µ − 2σ µ − σ µ µ + σ µ + 2σ µ + 3σ<br />

Bild 6: Dichte der N(µ, σ 2 )-Verteilung<br />

1<br />

0.9<br />

0.8<br />

0.7<br />

0.6<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

0<br />

-4 -3 -2 -1 0 1 2 3 4<br />

Bild 7: Verteilungsfunktion Φ der Standardnormalverteilung N(0, 1)<br />

3. Exponentialverteilung ED(λ)<br />

Die Bezeichnung steht für ”exponential distribution”. Bei Lebensdauerverteilun-


28 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG<br />

gen nehmen <strong>die</strong> entsprechenden ZV nur nichtnegative Werte an. E<strong>in</strong> e<strong>in</strong>faches,<br />

aber wichtiges Beispiel ist <strong>die</strong> Exponentialverteilung mit Parameter λ > 0. Die<br />

Dichte ergibt sich zu<br />

f T (t) = λ e −λt 1 (0,∞) (t) =<br />

{<br />

λ e<br />

−λt<br />

, falls t > 0<br />

0 , sonst .<br />

(1.27)<br />

Ist etwa <strong>die</strong> Ausfallzeit T e<strong>in</strong>es Bauteils exponentialverteilt mit Parameter λ = 2,<br />

so bedeutet<br />

P (1 < T ≤ 2) =<br />

∫2<br />

1<br />

λ e −λt dt = −e −2 t ∣ ∣ ∣<br />

2<br />

1 = −e −4 + e −2 ≃ 0.135 − 0.018 = 0.117 ,<br />

dass das Bauteil mit e<strong>in</strong>er Wahrsche<strong>in</strong>lichkeit von 11.7% im zweiten Betriebsjahr<br />

ausfällt. Die Verteilungsfunktion der Exponentialverteilung lautet<br />

⎧<br />

⎨ 0 , falls t ≤ 0<br />

F T (t) = (1 − e −λt ) 1 (0,∞) (t) =<br />

⎩ 1 − e −λt , falls t > 0 .<br />

(1.28)<br />

Die tail probability ¯F (t) = e −λ t gibt <strong>die</strong> Wkt an, dass das Bauteil nicht vor dem<br />

Zeitpunkt t ausfällt (Überlebenswahrsche<strong>in</strong>lichkeit).<br />

E<strong>in</strong>e besondere Eigenschaft der Exponentialverteilung ist <strong>die</strong> sog. Gedächtnislosigkeit.<br />

Hat nämlich e<strong>in</strong> Bauteil das Alter t 0 erreicht, so gilt mit (1.3)<br />

P (T > t + t 0 | T > t 0 ) = P (T > t + t 0, T > t 0 )<br />

P (T > t 0 )<br />

= e−λ(t+t 0)<br />

e −λ t 0<br />

= e −λ t = P (T > t) .<br />

= P (T > t + t 0)<br />

P (T > t 0 )<br />

Damit ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit für das Bauteil, im Intervall (0, t) auszufallen genausogroß,<br />

wie <strong>die</strong>jenige, im Intervall (t 0 , t 0 +t) auszufallen, nachdem das Bauteil<br />

bereits das Alter t 0 erreicht hat.<br />

4. Gammaverteilung Γ(q, λ)<br />

Für z > 0 bezeichne<br />

Γ(z) :=<br />

<strong>die</strong> Gammafunktion. Es gelten <strong>die</strong> bekannten Identitäten<br />

∫∞<br />

0<br />

t z−1 e −t dt (1.29)<br />

Γ(z + 1) = z Γ(z) ; Γ( 1 2 ) = √ π ; Γ(n) = (n − 1)! , n ∈ N .<br />

Für <strong>die</strong> Parameter q > 0 <strong>und</strong> λ > 0 ist<br />

f Z (z) =<br />

λq<br />

Γ(q) zq−1 e −λz 1 (0,∞) (z) (1.30)<br />

<strong>die</strong> Dichte e<strong>in</strong>er Gamma-verteilten ZV. Spezialfälle <strong>die</strong>ser Verteilungsfamilie s<strong>in</strong>d<br />

u.a. <strong>die</strong> Exponentialverteilung ED(λ) = Γ(1, λ). Später <strong>in</strong> Bsp. 3.14 werden


1.5. ZUFALLSVARIABLE 29<br />

wir sehen, dass Summen von n sog. ”unabhängigen” ED(λ)−verteilten ZV e<strong>in</strong>e<br />

Erlangverteilung besitzen. Wegen Erlang(n, λ) = Γ(n, λ) handelt es sich auch<br />

hier um e<strong>in</strong> Element der Familie von Gammaverteilungen. E<strong>in</strong>e weitere spezielle<br />

Gammaverteilung ist <strong>die</strong> χ 2 -Verteilung, <strong>die</strong> bei Summen von Normalverteilungsquadraten<br />

e<strong>in</strong>e wichtige Rolle spielt; vgl. Kap. 6.<br />

Def. 1.46 (Bezeichnung)<br />

Anstelle von ” X ist normalverteilt mit den Parametern µ <strong>und</strong> σ 2 ” schreiben wir<br />

kurz<br />

X ∼ N(µ, σ 2 )<br />

oder entsprechend bei e<strong>in</strong>er (n, p)-b<strong>in</strong>omialverteilten Größe Y<br />

usw.<br />

Y ∼ B(n, p)<br />

1.5.4 Prozentpunkte <strong>und</strong> Quantilfunktion<br />

Zur Simulation e<strong>in</strong>er ZV mit beliebiger Verteilungsfunktion F <strong>und</strong> zur Def<strong>in</strong>ition von<br />

sog. Quantilen benötigt man e<strong>in</strong>e verallgeme<strong>in</strong>erte Inversion F ← von F .<br />

Def. 1.47 (Verallgeme<strong>in</strong>erte Inverse, Quantilfunktion)<br />

X sei e<strong>in</strong>e ZV mit Verteilungsfunktion F .<br />

F ← (p) := <strong>in</strong>f { x ∈ R | F (x) ≥ p } , p ∈ (0, 1) .<br />

heißt verallgeme<strong>in</strong>erte Inverse oder Quantilfunktion zu F .<br />

Bemerkung 1.48<br />

Für streng monotones F : R → (0, 1) gilt F ← = F −1 .<br />

Lemma 1.49 (Eigenschaften der Quantilfunktion)<br />

Für beliebige Verteilungsfunktionen gilt<br />

F ← (p) ≤ t ⇐⇒ p ≤ F (t) für alle t ∈ R <strong>und</strong> p ∈ (0, 1) .


30 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG<br />

Def. 1.50 (p-Quantil, Median, Quartil, IQR)<br />

X sei e<strong>in</strong>e ZV mit Verteilungsfunktion F , dann heißt für 0 < p < 1 <strong>die</strong> Zahl<br />

x p := F ← (p) = <strong>in</strong>f { x ∈ R | F (x) ≥ p }<br />

p-Quantil oder p-Prozentpunkt von X.<br />

Das wichtigste Quantil x 0.5 = Q 2 heißt Median oder 2. Quartil. Erstes bzw. drittes<br />

Quartil lauten Q 1 = x 0.25 bzw. Q 3 = x 0.75 .<br />

Den Abstand IQR := x 0.75 −x 0.25 nennt man Interquartilsabstand (<strong>in</strong>ter quartile<br />

range).<br />

Gelegentlich f<strong>in</strong>det man leicht abweichende Def<strong>in</strong>itionen von x p , <strong>die</strong> aber für streng<br />

monotones, stetiges F stets übere<strong>in</strong>stimmen. In <strong>die</strong>sem Fall gilt dann<br />

P (X ≤ x p ) = p , für 0 < p < 1 .<br />

Bemerkung 1.51 (Lageparameter)<br />

1. p-Quantile <strong>und</strong> <strong>in</strong>sbesondere der Median s<strong>in</strong>d Lageparameter der Verteilung<br />

von X.<br />

2. Weitere Lageparameter s<strong>in</strong>d der Mittelwert (Erwartungswert) µ, den wir <strong>in</strong> den<br />

folgenden Abschnitten näher behandeln <strong>und</strong> der Modus oder Modalwert x M .<br />

Bei sog. unimodalen (e<strong>in</strong>gipfeligen) Verteilungen bezeichnet x M das e<strong>in</strong>deutig<br />

bestimmte Maximum von f X .<br />

Beispiel 1.52 (Wichtige Quantile der Normalverteilung)<br />

Am häufigsten benötigt man <strong>die</strong> Quantile der Standardnormalverteilung Φ. Da deren<br />

Dichte e<strong>in</strong>e gerade Funktion ist, folgt<br />

Φ(−x) = 1 − Φ(x) für alle x ∈ R . (1.31)<br />

Damit kann <strong>die</strong> <strong>in</strong> den meisten <strong>Statistik</strong>büchern zu f<strong>in</strong>dende Tabellierung auf x ≥ 0<br />

beschränkt werden. Es folgen oft benützte Quantile der Normalverteilung.<br />

Tabelle 1: Quantile x p von N(0, 1)<br />

p<br />

Quantil x p<br />

0.5 0<br />

0.9 1.282<br />

0.95 1.645<br />

0.975 1.960<br />

0.99 2.326<br />

0.995 2.576


1.5. ZUFALLSVARIABLE 31<br />

Beispiel 1.53 (Median, Modus)<br />

1. Normalverteilung N(µ, σ 2 )<br />

2. Exponentialverteilung ED(λ)<br />

Median x 0.5 = µ , Modus x M = µ .<br />

Median x 0.5 = ln 2<br />

λ , Modus x M = 0 .


32 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG<br />

1.5.5 E<strong>in</strong>dimensionale Transformationen von ZV<br />

X sei e<strong>in</strong>e ZV mit Verteilungsfunktion F X <strong>und</strong> Wahrsche<strong>in</strong>lichkeitsfunktion bzw. Dichte<br />

f X .<br />

Def. 1.54 (B − B-messbar)<br />

E<strong>in</strong>e Funktion g : R → R heißt B − B-messbar oder e<strong>in</strong>fach messbar, falls<br />

g −1 (B) ∈ B für alle B ∈ B .<br />

Satz 1.55 (Messbare Funktionen)<br />

Messbar s<strong>in</strong>d u.a.<br />

1. stetige Funktionen; z. B. max{0, f}, m<strong>in</strong>{0, f} bei stetigem f<br />

2. stückweise stetige Funktionen; z. B. <strong>die</strong> Indikatorfunktion 1 A<br />

3. Verteilungsfunktionen <strong>und</strong> <strong>die</strong> Quantilfunktion aus Def. 1.47.<br />

Zufallsgeneratoren am Rechner erzeugen <strong>in</strong> fast allen Fällen (Pseudo-) Zufallszahlen,<br />

<strong>die</strong> <strong>in</strong> (0, 1) gleichverteilt s<strong>in</strong>d. Zur Simulation e<strong>in</strong>er ZV mit beliebiger Verteilungsfunktion<br />

F benötigt man <strong>die</strong> Quantilfunktion F ← von F aus Def. 1.47.<br />

Korollar 1.56 (Quantiltransformation)<br />

X sei e<strong>in</strong>e ZV mit Verteilungsfunktion F <strong>und</strong> Quantilfunktion F ← . Weiterh<strong>in</strong> sei<br />

U im Intervall (0, 1) gleichverteilt.<br />

1. Für beliebiges X hat <strong>die</strong> Zufallsvariable Y := F ← (U) <strong>die</strong> Verteilungsfunktion<br />

F , d. h.<br />

P (Y ≤ y) = P (F ← (U) ≤ y) = F (y) , y ∈ R .<br />

2. Für stetiges F ist Z := F (X) gleichverteilt <strong>in</strong> (0, 1), d. h.<br />

P (Z ≤ z) = P (F (X) ≤ z) = z , z ∈ (0, 1) .<br />

Es folgt <strong>die</strong> Diskussion wichtiger Spezialfälle.


1.5. ZUFALLSVARIABLE 33<br />

Satz 1.57 (Transformationssatz)<br />

X sei e<strong>in</strong>e ZV <strong>und</strong> g : R → R messbar, dann gilt:<br />

1. Y := g(X) ist e<strong>in</strong>e ZV.<br />

2. Falls g stetig <strong>und</strong> streng monoton wachsend, so lautet <strong>die</strong> Verteilungsfunktion<br />

F Y von Y := g(X)<br />

F Y (y) = F X [g −1 (y)] für y ∈ g(R) .<br />

Beispiel 1.58<br />

1. N(0, 1)<br />

Gemäß Bemerkung 1.48 <strong>und</strong> Korollar 1.56 Nr. 1 ist bei (0, 1)-gleichverteiltem U<br />

<strong>die</strong> Zufallsvariable X := Φ −1 (U) standardnormalverteilt. Zur numerischen Berechnung<br />

der Standardnormalverteilungsfunktion Φ bzw. von Φ −1 gibt es ausgezeichnete<br />

rationale Approximationen (siehe etwa [Kredler & Ritter (1995)]; Anhang).<br />

2. Exponentialverteilung ED(λ)<br />

F (x) = (1 − e −λx ) 1 (0,∞) (x) =⇒ F ← ln (1 − y)<br />

(y) = − 1 (0,1) (y) .<br />

λ<br />

3. Bernoulli-Verteilung B(1, p)<br />

⎧<br />

⎪⎨ 0 , falls x < 0<br />

F (x) = 1 − p , falls 0 ≤ x < 1<br />

⎪⎩<br />

1 , falls x ≥ 1,<br />

<strong>und</strong> somit<br />

F ← (y) =<br />

{<br />

0 , falls 0 < y ≤ 1 − p<br />

1 , falls 1 − p < y < 1 .<br />

4. Die ZV X habe <strong>die</strong> Verteilungsfunktion F X (x). Seien a ∈ R <strong>und</strong> b ≠ 0. Dann<br />

lautet <strong>die</strong> Verteilungsfunktion F Y von Y := a + b X<br />

⎧<br />

⎨<br />

F Y (y) =<br />

⎩<br />

( )<br />

F y−a<br />

X b<br />

1 − F X<br />

( y−a<br />

b<br />

, falls b > 0<br />

)<br />

, falls b < 0 ,<br />

<strong>und</strong> falls X stetig ist mit Dichte f X , so ist Y auch stetig mit Dichte<br />

f Y (y) = 1<br />

|b| f X<br />

( y − a<br />

b<br />

)<br />

. (1.32)


34 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG<br />

5. E<strong>in</strong>e parametrisierte Familie von Verteilungen heißt stabil bzgl. aff<strong>in</strong>en Transformationen,<br />

wenn mit F (x) auch F ([x − a]/b) für alle a <strong>und</strong> b ≠ 0 zu <strong>die</strong>ser Familie<br />

gehören. Wichtige Beispiele s<strong>in</strong>d <strong>die</strong> Familien N(µ, σ 2 ) der Normalverteilungen<br />

<strong>und</strong> der Gleichverteilungen U(c, d), c < d.<br />

X sei N(0, 1)-verteilt mit Dichte ϕ(x) = 1 √<br />

2π<br />

e −x2 /2 <strong>und</strong> Y := µ + σ X mit σ > 0.<br />

Dann ist Y ∼ N(µ, σ 2 ) mit Dichte<br />

f Y (y) = √ 1 e −(y−µ)2 2σ 2<br />

2π σ<br />

6. Für nichtnegative X <strong>und</strong> β > 0 betrachten wir Y := X β . Man erhält <strong>die</strong> Verteilungsfunktion<br />

<strong>und</strong> gegebenenfalls <strong>die</strong> Dichte<br />

F Y (y) = F X (y 1/β )<br />

f Y (y) = 1 β y 1−β<br />

β<br />

f X (y 1/β ) . (1.33)<br />

7. Besonders wichtig ist der Fall Y := X 2 , wobei X jetzt wieder beliebig se<strong>in</strong> kann.<br />

Es gilt für y ≥ 0<br />

F Y (y) = F X ( √ y) − F X (− √ y − 0) .<br />

Ist zusätzlich X stetig <strong>und</strong> symmetrisch zum Nullpunkt, d. h. F X (−x) = 1 −<br />

F X (x), dann gilt<br />

f Y (y) = 1 √ y<br />

f X ( √ y) , y > 0 .<br />

E<strong>in</strong>e Anwendung dazu ist X ∼ N(0, σ 2 ) mit f X (x) = 1 √<br />

2π σ<br />

e −x2 /(2σ 2) <strong>und</strong><br />

f X 2(y) = 1 √<br />

2π σ<br />

y − 1 2 e −y/(2σ2 ) .<br />

Damit ist X 2 ∼ Γ( 1 2 , 1<br />

2σ 2 )-verteilt. Man spricht auch von der χ 2 -Verteilung.<br />

8. Lognormalverteilung LogN(µ, σ 2 )<br />

E<strong>in</strong>e positive ZV X heißt LogN(µ, σ 2 )-verteilt oder logarithmisch normalverteilt,<br />

wenn Y := ln(X) N(µ, σ 2 )-verteilt ist. Damit lautet <strong>die</strong> Dichte von<br />

X<br />

(<br />

)<br />

1<br />

(ln x − µ)2<br />

f X (x) = √ exp − 1 2π σ x 2 σ 2 (0,∞) (x) . (1.34)<br />

Die Lognormalverteilung ist e<strong>in</strong>e e<strong>in</strong>seitige unsymmetrische Verteilung mit<br />

Median x 0.5 = e µ ,<br />

Modus x M = e µ−σ2<br />

<strong>und</strong> wird u.a. zur Modellierung von Lebensdauern herangezogen.


1.5. ZUFALLSVARIABLE 35<br />

0.35<br />

0.3<br />

0.25<br />

0.2<br />

LogN(µ, σ 2 )<br />

µ = 1 , σ = 0.5<br />

0.15<br />

0.1<br />

0.05<br />

0<br />

0 2 4 6 8 10 12<br />

Bild 8: Dichte der Lognormalverteilung LogN(µ, σ 2 )


36 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG<br />

1.6 Erwartungswerte<br />

Der abstrakte Mittelwert E(X) <strong>und</strong> <strong>die</strong> Varianz V ar(X) s<strong>in</strong>d so e<strong>in</strong>gerichtet, dass<br />

sie für endliches Ω mit den empirischen Mittelwert- bzw. Streuungsmaßen ¯x bzw.<br />

˜s 2 = 1 n<br />

∑ (xi −¯x) 2 zusammenfallen. Im allgeme<strong>in</strong>en kann Ω überabzählbar viele Elemente<br />

enthalten. Für stetige Zufallsvariable (ZV) muss <strong>die</strong>s sogar so se<strong>in</strong>. Wir beschränken<br />

uns hier auf diskrete <strong>und</strong> stetige ZV.<br />

1.6.1 Erwartungswert <strong>und</strong> Varianz<br />

Def. 1.59 (Erwartungswert (EW): E(X) = E X = µ)<br />

Den Erwartungswert (auch Mittelwert) e<strong>in</strong>er diskreten ZV X def<strong>in</strong>iert man<br />

als<br />

µ = E(X) = ∑ x i f X (x i ) = ∑ x i p i ,<br />

i<br />

i<br />

falls ∑ i<br />

|x i | f X (x i ) < ∞ existiert.<br />

Analog legt man den Erwartungswert e<strong>in</strong>er stetigen ZV X fest als<br />

µ = E(X) =<br />

falls wiederum <strong>die</strong> Existenz von ∞ ∫<br />

−∞<br />

∫∞<br />

−∞<br />

x f X (x) dx ,<br />

|x| f X (x) dx < ∞ gesichert ist.<br />

Bemerkung 1.60<br />

1. Man nennt µ = E(X) wie den Median oder Modus e<strong>in</strong>en Lageparameter.<br />

2. Gelegentlich schreibt man kurz E X statt E(X).<br />

3. Für beliebige nichtnegative ZV, d. h. P (X < 0) = 0, gilt<br />

E(X) =<br />

∫∞<br />

0<br />

¯F (x) dx =<br />

∫∞<br />

0<br />

[1 − F (x)] dx , (1.35)<br />

falls der Erwartungswert existiert (Beweis siehe weiterführende Vorlesung). Zum<br />

Beispiel erhält man für <strong>die</strong> Exponentialverteilung<br />

µ = E(X) =<br />

∫∞<br />

0<br />

¯F (x) dx =<br />

∫∞<br />

0<br />

e −λ x dx = 1 λ<br />

(<br />

−e<br />

−λ x ) ∞<br />

0 = 1 λ .


1.6. ERWARTUNGSWERTE 37<br />

4. Läßt man auch den Wert ∞ für den Erwartungswert zu, so hat jede nichtnegative<br />

ZV e<strong>in</strong>en Erwartungswert. Dies ist <strong>in</strong>sbesondere dann s<strong>in</strong>nvoll, wenn z. B.<br />

Wartezeiten mit P (X = ∞) > 0 betrachtet werden.<br />

5. Für beliebige ZV geht man dann über zur Zerlegung<br />

X = X + − X − := max{0, X} − max{0, −X} .<br />

Falls E(X + ) < ∞ oder E(X − ) < ∞, dann def<strong>in</strong>iert man<br />

E(X) := E(X + ) − E(X − ) . (1.36)<br />

Man hat auf jeden Fall <strong>in</strong> (1.36) den Term ∞ − ∞ zu vermeiden; vgl. (6.42).<br />

Def. 1.61 (Erwartungswert bzgl. e<strong>in</strong>er Funktion g(X))<br />

Für (messbare) Funktionen g def<strong>in</strong>iert man analog<br />

E[g(X)] = ∑ i<br />

g(x i ) f X (x i ) = ∑ i<br />

g(x i ) p i für diskretes X <strong>und</strong><br />

E[g(X)] =<br />

∫∞<br />

−∞<br />

g(x) f X (x) dx für stetiges X ,<br />

falls<br />

∑<br />

|g(x i )| f X (x i )<br />

i<br />

bzw.<br />

∫ ∞<br />

−∞<br />

|g(x)| f X (x) dx existieren.<br />

Aus <strong>die</strong>sen Def<strong>in</strong>itionen ergeben sich direkt e<strong>in</strong>e Reihe von Eigenschaften:<br />

Satz 1.62 (Rechenregeln für Erwartungswerte)<br />

1. Falls X ≥ 0, so gilt E(X) ≥ 0.<br />

2. Für Indikatorfunktionen X = 1 A bzgl. A ∈ F gilt E(1 A ) = P (A).<br />

3. L<strong>in</strong>earität: X, X 1 , ..., X n seien ZV bzgl. desselben Wahrsche<strong>in</strong>lichkeitsraums<br />

(Ω, F, P ) mit existierenden Erwartungswerten <strong>und</strong> a, b, a i ∈ R, i = 1, ..., n,<br />

dann gilt<br />

E(a) = a<br />

E(a + bX) = a + bE(X)<br />

E(a 1 X 1 + . . . + a n X n ) = a 1 E(X 1 ) + . . . + a n E(X n ) .


38 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG<br />

Def. 1.63 (Varianz σ 2 , Standardabweichung σ, Streuung)<br />

Die Varianz e<strong>in</strong>er ZV X wird festgelegt als mittlere quadratische Abweichung<br />

σ 2 = V ar(X) = D 2 (X) := E [ (X − µ) 2] , wobei µ = E(X) .<br />

σ = D(X) =<br />

√<br />

V ar(X)<br />

heißt Standardabweichung <strong>und</strong> hat stets <strong>die</strong>selbe Benennung wie X selbst.<br />

Konkret erhält man für diskretes X<br />

V ar(X) = ∑ i<br />

(x i − µ) 2 f X (x i ) = ∑ i<br />

(x i − µ) 2 p i<br />

<strong>und</strong> im stetigen Fall<br />

V ar(X) =<br />

∫ ∞<br />

−∞<br />

(x − µ) 2 f X (x)dx.<br />

Varianz <strong>und</strong> Standardabweichung s<strong>in</strong>d Streuungsparameter.<br />

Zur Berechnung der Varianz verwendet man häufig <strong>die</strong> Verschiebungsregel<br />

D 2 (X) = E(X 2 ) − µ 2 , (1.37)<br />

wobei E(X 2 ) = ∑ i<br />

x 2 i p i bzw. E(X 2 ) =<br />

∫ ∞<br />

−∞<br />

x 2 f X (x) dx.<br />

Satz 1.64 (Rechenregeln für Varianzen)<br />

X, X 1 , ..., X n seien ZV bzgl. desselben Wahrsche<strong>in</strong>lichkeitsraums (Ω, F, P ) mit<br />

existierenden Varianzen <strong>und</strong> a, b ∈ R.<br />

D 2 (X) ≥ 0<br />

D 2 (a) = 0 (1.38)<br />

D 2 (X + a) = D 2 (X)<br />

D 2 (bX) = b 2 D 2 (X)<br />

D 2 (a + bX) = b 2 D 2 (X) .<br />

In gewissem S<strong>in</strong>n gilt auch <strong>die</strong> ”Umkehrung” von (1.38):<br />

V ar(x) = D 2 (X) = 0 ⇐⇒ P (X = a) = 1 , mit a = E(X) . (1.39)


1.6. ERWARTUNGSWERTE 39<br />

Folgerung 1.65 (Standardisierung)<br />

Gegeben sei e<strong>in</strong>e ZV X, für <strong>die</strong> E(X) = µ <strong>und</strong> D 2 (X) = σ 2 > 0 existieren. Dann gilt<br />

für <strong>die</strong> standardisierte ZV<br />

U := X − µ<br />

σ<br />

⇒ E(U) = 0 , D 2 (U) = 1 . (1.40)<br />

Beispiel 1.66 (Diskrete ZV)<br />

1. Bernoulli-Variable B(1, p) , 0 < p < 1<br />

P (X = 1) = p, P (X = 0) = 1 − p ,<br />

E(X) = p, D 2 (x) = p(1 − p) .<br />

2. B<strong>in</strong>omialverteilung B(n, p) , 0 < p < 1<br />

( ) n<br />

p i = p i (1 − p) n−i ,<br />

i<br />

i = 0, 1, ..., n<br />

3. Poisson-Verteilung P oi(λ), λ > 0<br />

4. Geometrische Verteilung<br />

E(X) = np, D 2 (X) = np(1 − p) .<br />

p i = e −λ λ i /i! , i = 0, 1, 2, ...<br />

E(X) = λ, D 2 (X) = λ .<br />

p i = p(1 − p) i , 0 < p < 1 , i = 0, 1, ..., n<br />

E(X) = 1 − p<br />

p , D2 (X) = 1 − p<br />

p 2 .<br />

Beispiel 1.67 (Stetige ZV)<br />

1. Normalverteilung N(µ, σ 2 )<br />

f(x) = 1 √<br />

2π σ<br />

e −(x−µ)2 /(2σ 2 )<br />

E(X) = µ, D 2 (X) = σ 2


40 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG<br />

2. Gleich (Rechteck)-verteilung U(a, b)<br />

f(x) =<br />

3. Exponentialverteilung ED(λ)<br />

Die mittlere Lebensdauer ist also 1/λ.<br />

4. Gammaverteilung Γ(q, λ)<br />

1<br />

(b − a) 1 (a,b)(x) ; a < b ,<br />

E(X) = (a + b)/2, D 2 (X) = (b − a) 2 /12<br />

f Z (z) =<br />

f(x) = λe −λx 1 (0,∞) (x) ; λ > 0 ,<br />

E(X) = 1 λ , D2 (X) = 1 λ 2 .<br />

λq<br />

Γ(q) zq−1 e −λz 1 (0,∞) (x) ; q, λ > 0 ,<br />

E(Z) = q λ , D2 (Z) = q λ 2 (1.41)<br />

5. Cauchy-Verteilung<br />

Diese hat für a > 0 <strong>die</strong> Dichte<br />

f X (x) =<br />

E(X) <strong>und</strong> D 2 (X) existieren nicht.<br />

a<br />

π(a 2 + x 2 ) . (1.42)<br />

6. Pareto-Verteilung<br />

Diese spielt e<strong>in</strong>e Rolle <strong>in</strong> der Extremwerttheorie <strong>und</strong> wurde <strong>in</strong> der Vergangenheit<br />

auch zur Beschreibung ökonomisch-soziologischer Größen wie Verteilung von E<strong>in</strong>kommen<br />

<strong>und</strong> Vermögen etc. herangezogen. Sei c > 0 e<strong>in</strong> gewisser Schwellenwert,<br />

den <strong>die</strong> entsprechnde ZV X nicht erreichen oder unterschreiten kann. Für α > 0<br />

lauten dann Dichte bzw. Verteilungsfunktion e<strong>in</strong>er Pareto-verteilten ZV X<br />

) α<br />

1(c,∞) (x) . (1.43)<br />

f(x) = α c<br />

( c<br />

x<br />

Falls α > 1, so existiert E(X) =<br />

) α+1 ( c<br />

1(c,∞) (x) , F (x) = 1 −<br />

x<br />

α c<br />

α − 1 .<br />

Für α > 2 existiert auch <strong>die</strong> Varianz V ar(X) =<br />

α c 2<br />

(α − 1) 2 (α − 2) .<br />

7. Lognormalverteilung LogN(µ, σ 2 )<br />

Aus der zugehörigen Dichte (1.34) leitet man ab, dass lognormalverteilte ZV<br />

positiv s<strong>in</strong>d mit<br />

X<br />

E(X) = e µ+σ2 /2<br />

<strong>und</strong> V ar(X) = e 2 µ+σ2 ( e σ2 − 1 ) . (1.44)


1.6. ERWARTUNGSWERTE 41<br />

Die speziellen Eigenschaften von Verteilungsfunktionen (Monotonie, 0 ≤ F (x) ≤ 1)<br />

erlauben e<strong>in</strong>e e<strong>in</strong>heitliche Schreibweise von Erwartungswerten für diskrete ZV bzw.<br />

solche mit (stückweise) stetigen Dichten.<br />

Def. 1.68 (Riemann-Stieltjes-Integral)<br />

X sei e<strong>in</strong>e diskrete ZV oder besitze e<strong>in</strong>e Dichte, <strong>die</strong> bis auf endlich viele Stellen<br />

stetig ist; für <strong>die</strong> Funktion g existiere E [g(X)]. Dann def<strong>in</strong>iert man<br />

∫ ∞<br />

−∞<br />

⎧<br />

⎪⎨<br />

g(x) dF X (x) :=<br />

⎪⎩<br />

∑<br />

g(x i ) f X (x i ) , falls X diskret<br />

i<br />

∞∫<br />

g(x) f X (x) dx , falls X stetig .<br />

−∞<br />

(1.45)<br />

Bemerkung 1.69<br />

1. Kurz schreibt man wieder f = f X , F = F X <strong>und</strong><br />

∫ ∞<br />

−∞<br />

2. Unter den Voraussetzungen von Def. 1.68 gilt also:<br />

g(x) dF (x).<br />

1 =<br />

E(X) =<br />

V ar(X) =<br />

∫ ∞<br />

−∞<br />

∫∞<br />

−∞<br />

∫∞<br />

−∞<br />

dF (x)<br />

x dF (x) := µ<br />

(x − µ) 2 dF (x) .<br />

3. Für (stückweise) differenzierbares F mit F ′ = dF = f leuchtet <strong>die</strong> Schreibweise<br />

dx<br />

dF (x) = f(x) dx formal sofort e<strong>in</strong>, kann aber analog zum nachfolgenden diskreten<br />

Fall über den Mittelwertsatz der Differentialrechnung hergeleitet werden.<br />

4. Bei diskretem X nehmen wir an, dass <strong>die</strong> x i , i ∈ N, <strong>in</strong> e<strong>in</strong>em kompakten Intervall<br />

[a, b] liegen mit a < x 1 < x 2 < ... ≤ b. Für stets fe<strong>in</strong>er werdende Unterteilungen<br />

des Integrations<strong>in</strong>tervalls [a, b] mit<br />

a = a (n)<br />

0 < a (n)<br />

1 < a (n)<br />

2 < ... < a (n)<br />

n−1 < a n<br />

(n) = b<br />

lim<br />

n→∞<br />

existiert dann der Grenzwert<br />

∫ ∞<br />

−∞<br />

g(x) dF (x) := lim n→∞<br />

max { 0≤j≤n−1 |a(n) j+1 − a (n)<br />

j | } = 0<br />

n ∑<br />

j=1<br />

g ( a (n)<br />

j<br />

) [ ( ) (<br />

(n)<br />

(n)<br />

F a j − F a j−1<br />

)] ∑<br />

= g(x i ) p i ,<br />

i∈N


42 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG<br />

da F stückweise konstant ist <strong>und</strong> nur an den x i Sprünge der Höhe<br />

p i = F (x i ) − F (x i − 0)<br />

aufweist. Wegen der Eigenschaften der Verteilungsfunktion F ist e<strong>in</strong>e Ausdehnung<br />

des Intervalls [a, b] auf (−∞, ∞) nicht problematisch.<br />

5. Die Schreibweise ... dF (x) wird für beliebige ZV verwendet. Allerd<strong>in</strong>gs ist dann<br />

das allgeme<strong>in</strong>ere Lebesgue-Integral zugr<strong>und</strong>e zu legen. Auf E<strong>in</strong>zelheiten können<br />

wir hier nicht e<strong>in</strong>gehen. Details f<strong>in</strong>det man <strong>in</strong> den e<strong>in</strong>schlägigen Lehrbüchern.<br />

1.6.2 Momente <strong>und</strong> Kumulanten<br />

Bei spezieller Wahl der Funktion g erhält man weitere Momente der Verteilung der ZV<br />

X, sofern <strong>die</strong>se existieren.<br />

Def. 1.70 (Momente)<br />

Vorausgesetzt <strong>die</strong> entsprechenden Erwartungwerte existieren, def<strong>in</strong>iert man mit<br />

µ 1 = µ := E(X) für (<strong>die</strong> Ordnung) k = 1, 2, ...<br />

µ k = E [ X k] =<br />

E [ |X| k] =<br />

E [ (X − µ) k] =<br />

∫ ∞<br />

−∞<br />

∫ ∞<br />

−∞<br />

∫ ∞<br />

−∞<br />

x k dF (x)<br />

|x| k dF (x)<br />

k-tes (gewöhnliches) Moment<br />

k-tes absolutes Moment<br />

(x − µ) k dF (x) k-tes zentrales Moment (1.46)<br />

E [X(X − 1) · ... · (X − k + 1)] k-tes faktorielles Moment (1.47)


1.6. ERWARTUNGSWERTE 43<br />

Satz 1.71 (Existenz von Momenten)<br />

Man zeigt leicht, vgl. etwa [He<strong>in</strong>hold & Gaede (1979)], S. 105:<br />

[<br />

E<br />

(<br />

|X|<br />

k )] k+1<br />

≤<br />

[<br />

E<br />

(<br />

|X|<br />

k+1 )] k<br />

, (1.48)<br />

also z. B. für k = 1<br />

µ 2 ≤ [ E ( |X| 1)] 2<br />

≤<br />

[<br />

E<br />

(<br />

X<br />

2 )] 1<br />

= E(X 2 ) .<br />

Damit sichert <strong>die</strong> Existenz e<strong>in</strong>es (absoluten) Moments der Ordnung k <strong>die</strong> der<br />

niedereren Momente zur Ordnung 1, 2, ..., k − 1.<br />

Insbesondere sichert <strong>die</strong> Existenz e<strong>in</strong>es zweiten Moments von X, dass E(X) <strong>und</strong><br />

V ar(X) wohldef<strong>in</strong>iert s<strong>in</strong>d.<br />

Aus den oben def<strong>in</strong>ierten Momenten leitet man weitere Kenngrößen her, deren empirische<br />

Varianten neben Mittelwert <strong>und</strong> Varianz e<strong>in</strong>e wichtige Rolle <strong>in</strong> der explorativen<br />

Datenanalyse spielen.<br />

Def. 1.72 (Variationskoeffizient, Schiefe, Exzess)<br />

Vorausgesetzt <strong>die</strong> entsprechenden Momente existieren, so def<strong>in</strong>iert man mit<br />

µ := E(X), σ 2 := V ar(X) > 0<br />

CV := σ µ , µ ≠ 0<br />

Variationskoeffizient<br />

γ 3 := E [(X − µ)3 ]<br />

σ 3<br />

(coefficient of variation)<br />

Schiefe (skewness)<br />

δ 4 := E [(X − µ)4 ]<br />

σ 4 − 3 Exzess (kurtosis), Wölbung<br />

Bemerkung 1.73<br />

1. Schiefe <strong>und</strong> Exzess verschw<strong>in</strong>den bei der Normalverteilung.<br />

2. Bei symmetrischen Verteilungen verschw<strong>in</strong>det <strong>die</strong> Schiefe, falls <strong>die</strong>se existiert.<br />

3. Varianz, Schiefe <strong>und</strong> Exzess s<strong>in</strong>d <strong>in</strong>variant gegenüber Transformationen der Art<br />

X → (X + a) , a ∈ R .


44 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG<br />

Die letzte Eigenschaft wir auch von den sog. Semi<strong>in</strong>varianten oder Kumulanten ab<br />

der Ordnung 2 geteilt.<br />

Def. 1.74 (Kumulanten)<br />

Vorausgesetzt <strong>die</strong> entsprechenden Momente existieren, so lauten <strong>die</strong> vier ersten<br />

Kumulanten<br />

κ 1 := µ = E [ X 1]<br />

κ 2 := σ 2 = E [ (X − µ) 2]<br />

κ 3 := E [ (X − µ) 3]<br />

κ 4 := E [ (X − µ) 4] − 3σ 4<br />

Bemerkung 1.75<br />

1. Der Vorsatz ”Semi-” ist gerechtfertigt, da sich <strong>die</strong> erste Kumulante bei der Transformation<br />

X → (X + a) für a ≠ 0 ändert.<br />

2. Für <strong>die</strong> Normalverteilung verschw<strong>in</strong>den alle Kumulanten der Ordnung 3 <strong>und</strong><br />

höher. N(µ, σ 2 ) ist <strong>die</strong> e<strong>in</strong>zige Verteilung mit <strong>die</strong>ser Eigenschaft.<br />

3. E<strong>in</strong>e e<strong>in</strong>fache Darstellung der Kumulanten (falls <strong>die</strong>se existieren) liefert <strong>die</strong> Entwicklung<br />

von ln(M(s)), wobei M <strong>die</strong> momenterzeugende Funktion bezeichnet;<br />

vgl. Abschnitt 3.2.<br />

4. Die Zusammenhänge zwischen Varianz, Schiefe, Exzess <strong>und</strong> den Kumulanten lauten:<br />

σ 2 = κ 2 (Varianz)<br />

γ 3 = κ 3<br />

√<br />

κ 3 2<br />

δ 4 = κ 4<br />

κ 2 2<br />

(Schiefe)<br />

(Exzess)


1.6. ERWARTUNGSWERTE 45<br />

Beispiel 1.76 (Momente, Kumulanten)<br />

1. N(µ, σ 2 )<br />

Kumulanten: E(X) = κ 1 = µ ; V ar(X) = κ 2 = σ 2 ; κ k = 0 , sonst . (1.49)<br />

E [ (X − µ) k] =<br />

{<br />

0 , falls k ungerade<br />

1 · 3 · 5 · ... · (k − 1) σ k , sonst<br />

(1.50)<br />

2. P oi(λ) , λ > 0<br />

κ k = λ , für alle k = 1, 2, ... . (1.51)<br />

3. Γ(q, λ) , q > 0 , λ > 0<br />

<strong>in</strong>sbesondere gilt:<br />

E [ X k] =<br />

q(q + 1) · · · (q + k − 1)<br />

λ k , k = 1, 2, ... ; (1.52)<br />

E(X) = q λ <strong>und</strong> V ar(X) = q λ 2 ,<br />

<strong>und</strong> für den Spezialfall q = 1, <strong>die</strong> Exponentialverteilung:<br />

E(X) = 1 λ <strong>und</strong> V ar(X) = 1 λ 2 ,<br />

4. Gleichverteilung U(a, b) , a < b<br />

Hier gilt µ = E(X) = (a + b)/2 <strong>und</strong><br />

E [ ⎧<br />

(X − µ) k] ⎨<br />

=<br />

⎩<br />

1<br />

k+1<br />

0 , falls k ungerade<br />

) k<br />

, sonst .<br />

( b−a<br />

2<br />

(1.53)


Kapitel 2<br />

Mehrdimensionale Verteilungen<br />

E<strong>in</strong>e natürliche Erweiterung des bisherigen Begriffs der e<strong>in</strong>dimensionalen Zufallsvariablen<br />

(ZV) ergibt sich, wenn man mehrere Merkmale, wie z. B. Größe <strong>und</strong> Gewicht e<strong>in</strong>es<br />

Individuums ω ∈ Ω, gleichzeitig betrachtet.<br />

2.1 Geme<strong>in</strong>same Verteilung von n Zufallsvariablen<br />

Die Def<strong>in</strong>ition 1.32 läßt sich <strong>in</strong> kanonischer Weise auf den n-dimensionalen Fall übertragen.<br />

Zur Vermeidung von Namenskollisionen seien <strong>in</strong> <strong>die</strong>sem Abschnitt <strong>die</strong> Vektoren<br />

X = (X 1 , ..., X n ) T ∈ R n <strong>und</strong> x = (x 1 , ..., x n ) T ∈ R n fett bezeichnet; T bezeichnet<br />

Transposition.<br />

Def. 2.1 (n-dim. Zufallsvariable (ZV), Zufallsvektor)<br />

Gegeben sei e<strong>in</strong> Wahrsche<strong>in</strong>lichkeitsraum (Ω, F, P ). E<strong>in</strong>e Abbildung<br />

X : Ω → R n ,<br />

mit<br />

X −1 (B) ∈ F für alle n-dim. Borelmengen B ∈ B n<br />

heißt (n-dimensionale) Zufallsvariable oder auch Zufallsvektor. Der Vektor<br />

x = X(ω) ∈ R n , der sich bei Durchführung des Zufallsexperiments durch Auswerten<br />

von X ergibt, heißt Realisierung von X.<br />

Das Wahrsche<strong>in</strong>lichkeitsmaß P X auf (R n , B n ) def<strong>in</strong>iert durch<br />

P X (B) := P (X −1 (B))<br />

für alle Borelmengen B ∈ B n<br />

heißt Verteilung (distribution) von X = (X 1 , ..., X n ) T .<br />

Analog zum e<strong>in</strong>dimensionalen Fall wird <strong>die</strong> σ − Algebra B n wieder von den offenen<br />

Mengen des R n erzeugt. E<strong>in</strong> anderes Erzeugendensystem für B n s<strong>in</strong>d <strong>die</strong> l<strong>in</strong>ks unbeschränkten<br />

n-dim. Intervalle<br />

(−∞, x 1 ] × (−∞, x 2 ] × . . . × (−∞, x n ] , x i ∈ R , i = 1, . . . , n .<br />

46


2.1. GEMEINSAME VERTEILUNG VON N ZUFALLSVARIABLEN 47<br />

Deshalb kann auch hier <strong>die</strong> Verteilung durch e<strong>in</strong>e geeignete Funktion festgelegt werden.<br />

Def. 2.2 (n-dim. Verteilungsfunktion)<br />

Für Argumente x = (x 1 , ..., x n ) T ∈ R n heißt <strong>die</strong> Funktion F X1 ,...,X n<br />

: R n → R mit<br />

F X1 ,...,X n<br />

(x) = F X1 ,...,X n<br />

(x 1 , ..., x n ) := P (X ≤ x)<br />

:= P ({ ω | X 1 (ω) ≤ x 1 , ..., X n (ω) ≤ x n })<br />

Verteilungsfunktion des Zufallsvektors X. Falls Verwechslungen ausgeschlossen<br />

s<strong>in</strong>d, schreiben wir wieder kurz F bzw. F X statt F X1 ,...,X n<br />

.<br />

Folgerung 2.3<br />

1. F ist bzgl. jeder Variablen monoton wachsend <strong>und</strong> rechtsseitig stetig.<br />

2. F (x 1 , ..., −∞, ..., x n ) := lim<br />

x i →−∞ F (x 1, ..., x i , ..., x n ) = 0,<br />

i = 1, . . . , n<br />

3. F (∞, ..., ∞) := lim<br />

x 1 →∞ . . . lim x n→∞ F (x 1, . . . , x n ) = 1.<br />

4. Nach dem Additionssatz gilt für a 1 < b 1 , a 2 < b 2 <strong>und</strong> n = 2<br />

P (a 1 < X 1 ≤ b 1 , a 2 < X 2 ≤ b 2 ) = F (b 1 , b 2 ) − F (a 1 , b 2 ) − F (b 1 , a 2 ) + F (a 1 , a 2 ) .<br />

Weitere Details zu B n entnehme man Analysis-Lehrbüchern oder z. B. [Williams (1991)],<br />

ch. 1.<br />

Zweidimensionale Vektoren heißen bei uns <strong>in</strong> der Regel (Z, Y ) <strong>und</strong>, falls ke<strong>in</strong>e Verwechslung<br />

mit dem Zufallsvektor X zu befürchten ist, auch (X, Y ). Der E<strong>in</strong>fachheit<br />

halber wird hier meist (Z, Y ) statt (Z, Y ) T geschrieben.<br />

2.1.1 Diskrete n-dim. Zufallsvariable<br />

Wir beschränken uns hier zur Darstellung auf den Fall n = 2. Sei also (Z, Y ), wobei Z<br />

nur <strong>die</strong> Werte z i , i ∈ I <strong>und</strong> Y nur <strong>die</strong> Werte y j , j ∈ J annehme; I <strong>und</strong> J höchstens<br />

abzählbar.


48 KAPITEL 2. MEHRDIMENSIONALE VERTEILUNGEN<br />

Def. 2.4 (Diskrete 2-dim. Verteilung)<br />

(Z, Y ) sei e<strong>in</strong>e 2-dim. diskrete ZV, <strong>und</strong> <strong>die</strong> Indexmengen I, J höchstens abzählbar<br />

unendlich. Durch <strong>die</strong><br />

mit<br />

<strong>und</strong><br />

p ij ≥ 0, i ∈ I, j ∈ J<br />

∑<br />

p ij = 1<br />

i,j<br />

p ij := P (Z = z i , Y = y j ) , i ∈ I , j ∈ J<br />

wird <strong>die</strong> Verteilung von (Z, Y ) gemäß Def<strong>in</strong>ition 2.1 e<strong>in</strong>deutig festgelegt.<br />

⎧<br />

⎪⎨<br />

f Z,Y (z, y) = P (Z = z, Y = y) :=<br />

⎪⎩<br />

heißt Wahrsche<strong>in</strong>lichkeitsfunktion von (Z, Y ).<br />

p ij , falls z = z i ; i ∈ I<br />

<strong>und</strong> y = y j ; j ∈ J<br />

0 , sonst<br />

Vere<strong>in</strong>barung:<br />

1. Falls ke<strong>in</strong>e Verwechslungen zu befürchten s<strong>in</strong>d, wird wieder f statt f Z,Y geschrieben.<br />

2. Die verkürzte Schreibweise ∑ = ∑ steht für ∑<br />

i,j z,y<br />

i∈I<br />

∑<br />

.<br />

j∈J<br />

3. Wie schon im e<strong>in</strong>dimensionalen Fall gibt es e<strong>in</strong>e e<strong>in</strong>e<strong>in</strong>deutige Beziehung zwischen<br />

der Verteilung von (Z, Y ) <strong>und</strong> den p ij > 0. Deswegen genügt es stets, zur Charakterisierung<br />

der Verteilung <strong>die</strong> p ij bzw. <strong>die</strong> Wahrsche<strong>in</strong>lichkeitsfunktion f Z,Y<br />

anzugeben.<br />

Beispiel 2.5 (diskrete 2-dim. Verteilungen)<br />

1. Doppelter Münzwurf; jeweils mit Kopf (K) oder Wappen (W):<br />

Ω = {K, W } × {K, W }. Z sei <strong>die</strong> Anzahl von ”Kopf” <strong>und</strong> Y <strong>die</strong> Anzahl von<br />

”Wappen” beim zweimaligen Wurf der Münze.<br />

Wir erhalten mit P (K) = p, 0 < p < 1<br />

<strong>und</strong> p ij = 0 sonst. Damit gilt<br />

(Z, Y ) : Ω → {0, 1, 2} × {0, 1, 2} .<br />

p 02 = (1 − p) 2 , p 11 = 2 p (1 − p) , p 20 = p 2<br />

∑<br />

p ij = (1 − p) 2 + 2p(1 − p) + p 2 = 1 .<br />

i,j


2.1. GEMEINSAME VERTEILUNG VON N ZUFALLSVARIABLEN 49<br />

2. Zwei Würfel:<br />

Ω = {1, ..., 6} × {1, ..., 6}, Z : Ω → {1, 2, . . . , 6} , Y : Ω → {1, 2, . . . , 6} ,<br />

P (Z = i, Y = j) = 1 , i, j = 1, ..., 6 .<br />

36<br />

2.1.2 Stetige n-dim. Zufallsvariable<br />

Def. 2.6 (Stetige n-dim. Verteilung)<br />

Der Zufallsvektor X = (X 1 , ..., X n ) heißt stetig n-dim. verteilt, falls e<strong>in</strong>e<br />

nichtnegative, <strong>in</strong>tegrierbare Funktion f X1 ,...,X n<br />

: R n → R existiert mit<br />

F X1 ,...,X n<br />

(x) =<br />

∫x 1<br />

−∞<br />

...<br />

∫x n<br />

−∞<br />

f X1 ,...,X n<br />

(x) dx =<br />

∫x n<br />

−∞<br />

...<br />

∫x 1<br />

−∞<br />

f X1 ,...,X n<br />

(x 1 , ..., x n ) dx 1 ... dx n .<br />

An den Stetigkeitsstellen x von f X1 ,...,X n<br />

gilt:<br />

f X1 ,...,X n<br />

(x) = ∂n F X1 ,...,X n<br />

(x)<br />

∂x 1 ...∂x n<br />

. (2.1)<br />

Vere<strong>in</strong>barung:<br />

1. Je nach Sachlage verwenden wir <strong>die</strong> Bezeichnungen f X1 ,...,X n<br />

oder f.<br />

2. In den Beispielen <strong>die</strong>ses Kurses s<strong>in</strong>d <strong>die</strong> Dichten zum<strong>in</strong>dest stückweise stetig.<br />

3. Generell gelte für x = (x 1 , ..., x n ) T <strong>und</strong> <strong>in</strong>tegrierbares h : R n → R <strong>die</strong> Abkürzung<br />

∫<br />

∫ ∞<br />

h(x) dx :=<br />

R n −∞<br />

...<br />

∫ ∞<br />

−∞<br />

h(x 1 , ..., x n ) dx 1 ...dx n . (2.2)<br />

Folgerung 2.7 (n-dim. Dichte)<br />

f X1 ,...,X n<br />

: R n → R sei Dichte e<strong>in</strong>es n-dimensionalen Zufallsvektors (X 1 , ..., X n ),<br />

dann gilt mit x ∈ R n :<br />

1. f X1 ,...,X n<br />

≥ 0<br />

∫<br />

2. f X1 ,...,X n<br />

(x) dx = 1 .<br />

R n<br />

Auch hier gilt das gleiche wie für e<strong>in</strong>dimensionale ZV: Zur e<strong>in</strong>deutigen Festlegung der<br />

Verteilung von (Z, Y ) genügt <strong>die</strong> Angabe e<strong>in</strong>er Dichte f Z,Y .


50 KAPITEL 2. MEHRDIMENSIONALE VERTEILUNGEN<br />

Beispiel 2.8 Wie muss man <strong>in</strong> der folgenden Formel <strong>die</strong> Konstante c wählen, damit<br />

f e<strong>in</strong>e zweidimensionale Dichte ist?<br />

f(z, y) = c e −z−2 y 1 (0,∞)×(0,∞) (z, y)<br />

Def. 2.9 (n-dimensionale Normalverteilung N(µ, C))<br />

Seien µ ∈ R n <strong>und</strong> C = (c ij ) ∈ R n,n e<strong>in</strong>e positiv def<strong>in</strong>ite Matrix (damit ist C<br />

auch symmetrisch). X = (X 1 , . . . , X n ) T heißt n-dimensional normalverteilt,<br />

wenn es e<strong>in</strong>e Dichte der Form<br />

f(x) =<br />

1<br />

√(2π) n det(C) exp [ − 1 2 (x − µ)T C −1 (x − µ) ] (2.3)<br />

besitzt. Dabei bezeichnet det(C) <strong>die</strong> Determ<strong>in</strong>ante von C.<br />

Der Nachweis der Dichteeigenschaft von f erfordert <strong>die</strong> n-dim. Transformationsregel für<br />

Dichten <strong>und</strong> wird später <strong>in</strong> Bsp. 2.33 geführt. In <strong>die</strong>ser <strong>E<strong>in</strong>führung</strong>svorlesung werden<br />

wir uns fast auschließlich auf den wichtigen Spezialfall n = 2 beschränken. Dieser<br />

begegnet uns im folgenden noch mehrmals. Aus rechentechnischen Gründen gleichen<br />

wir uns der Notation von [Stirzaker (1994)] an. An <strong>die</strong> Stelle des n-dim. Zufallsvektors<br />

X tritt nun das Paar (Z, Y ) T <strong>und</strong> der Vektor µ wird zu (µ Z , µ Y ) T .<br />

Def. 2.10 (2-dimensionale Normalverteilung)<br />

Mit (µ Z , µ Y ) ∈ R 2 , σ > 0 , τ > 0 <strong>und</strong> −1 < ρ < 1 ist <strong>die</strong> sog. Kovarianzmatrix<br />

C :=<br />

( )<br />

σ<br />

2<br />

ρ σ τ<br />

ρ σ τ τ 2<br />

positiv def<strong>in</strong>it <strong>und</strong> det(C) = σ 2 τ 2 (1−ρ 2 ). Die Inverse C −1 ist explizit berechenbar<br />

<strong>und</strong> es gilt gemäß (2.3)<br />

f Z,Y (z, y) = (2.4)<br />

[<br />

(<br />

1<br />

2πστ √ 1 − ρ exp 1 (z − µZ ) 2<br />

−<br />

− 2ρ(z − µ Z)(y − µ Y )<br />

2 2(1 − ρ 2 ) σ 2 σ τ<br />

+ (y − µ Y ) 2<br />

τ 2 )]<br />

.<br />

Zur Bedeutung der Parameter siehe Bsp. 2.21. Um <strong>in</strong> Bsp. 2.13 (2) zu sehen, dass<br />

es sich bei f Z,Y wirklich um e<strong>in</strong>e Dichte handelt, benötigen wir noch den Begriff der<br />

Randverteilungen.<br />

Die Wahl µ Z = µ Y = 0 ist o.B.d.A. mit den Substitutionen Z −µ Z ↦→ ˜Z bzw. Y −µ Y ↦→<br />

Ỹ möglich <strong>und</strong> bee<strong>in</strong>flusst wegen dz = d˜z bzw. dy = dỹ evtl. Integrationen nicht<br />

wesentlich. In <strong>die</strong>sem Fall vere<strong>in</strong>facht sich <strong>die</strong> Dichte von Def. 2.10 zu<br />

[<br />

(<br />

1<br />

f Z,Y (z, y) =<br />

2πστ √ 1 − ρ exp 1 z<br />

2<br />

−<br />

2 2(1 − ρ 2 ) σ − 2ρ z y )]<br />

+ y2<br />

. (2.5)<br />

2 σ τ τ 2


2.1. GEMEINSAME VERTEILUNG VON N ZUFALLSVARIABLEN 51<br />

2.1.3 Randverteilungen<br />

Def. 2.11 (Randverteilung, marg<strong>in</strong>al distribution)<br />

Die Verteilungen der Komponenten X k e<strong>in</strong>es Zufallsvektors X = (X 1 , ..., X n ) T<br />

heißen Randverteilungen. Die entsprechenden Verteilungsfunktionen lauten<br />

F Xk (z) = P (X k ≤ z) = F X1 ,...,X n<br />

(∞, ..., ∞, z, ∞, ..., ∞) .<br />

↑ k-te Komponente.<br />

Zur Notation F X1 ,...,X n<br />

(∞, ...) vergleiche man <strong>die</strong> Vere<strong>in</strong>barung von Folgerung 2.3.<br />

Satz 2.12 (Diskrete <strong>und</strong> stetige Randverteilungen)<br />

Mit der Def<strong>in</strong>ition 2.11 erhält man beispielsweise für <strong>die</strong> zweidimensionale diskrete<br />

ZV (Z, Y ) <strong>die</strong> Randverteilungen (RV)<br />

f Z (z i ) = P (Z = z i ) = p i· = ∑ p ij = ∑<br />

j∈J y<br />

f Y (y j ) = P (Y = y j ) = p·j = ∑ p ij = ∑<br />

i∈I z<br />

f Z,Y (z i , y) (RV bzgl. Z)<br />

f Z,Y (z, y j ) (RV bzgl. Y ) .<br />

Im zweidimensionalen stetigen Fall gilt für <strong>die</strong> Randdichten von (Z, Y )<br />

f Z (z) =<br />

f Y (y) =<br />

∫ ∞<br />

−∞<br />

∫ ∞<br />

−∞<br />

f Z,Y (z, y) dy (Dichte für Z)<br />

f Z,Y (z, y) dz . (Dichte für Y ) .<br />

Analog geht man für mehr als zwei Variable vor.<br />

Beispiel 2.13<br />

1. Doppelter Münzwurf (siehe Beispiel 2.5)<br />

⎧<br />

⎪⎨ (1 − p) 2 , falls i = 0<br />

p i· = P (Z = i) = 2 p (1 − p) , falls i = 1<br />

⎪⎩<br />

p 2 , falls i = 2


52 KAPITEL 2. MEHRDIMENSIONALE VERTEILUNGEN<br />

<strong>und</strong><br />

⎧<br />

⎪⎨ p 2 , falls j = 0<br />

p·j = P (Y = j) = 2 p (1 − p) , falls j = 1<br />

⎪⎩<br />

(1 − p) 2 , falls j = 2<br />

Die Wahrsche<strong>in</strong>lichkeiten für <strong>die</strong> Randverteilung erhält man durch zeilen- bzw.<br />

spaltenweises Aufsummieren der Zellenwahrsche<strong>in</strong>lichkeiten. Das Resultat trägt<br />

man dann zum Beispiel am ”Rand” der folgenden diskreten Verteilungstabelle<br />

e<strong>in</strong>.<br />

Tabelle 2: Doppelter Münzwurf p ij = P (Z = i, Y = j)<br />

j<br />

i 0 1 2 p·j<br />

0 0 0 p 2 p 2<br />

1 0 2 p (1 − p) 0 2 p (1 − p)<br />

2 (1 − p) 2 0 0 (1 − p) 2<br />

p i· (1 − p) 2 2 p (1 − p) p 2 1<br />

2. Zweidimensionale Normalverteilung<br />

Nach Satz 2.12 <strong>und</strong> mit (2.5) (dort war o.B.d.A. E(Z) = 0 <strong>und</strong> E(Y ) = 0)<br />

gilt für <strong>die</strong> Randdichte von Z mit σ > 0, τ > 0 <strong>und</strong> −1 < ρ < 1 (siehe auch<br />

[Stirzaker (1994)], p. 269)<br />

f Z (z) =<br />

=<br />

=<br />

=<br />

=<br />

∫ ∞<br />

−∞<br />

f(z, y) dy =<br />

1<br />

2πστ √ 1 − ρ 2<br />

∫ ∞<br />

−∞<br />

∫∞<br />

y=−∞<br />

[<br />

1<br />

2πστ √ 1 − ρ exp 2<br />

[<br />

1<br />

exp −<br />

2(1 − ρ 2 )<br />

(<br />

1 z<br />

2<br />

−<br />

2(1 − ρ 2 )<br />

σ − 2ρzy<br />

2 στ<br />

+ y2<br />

τ 2 )]<br />

dy<br />

( {y<br />

τ − ρz } 2<br />

z 2<br />

+<br />

σ σ − ρ2 z 2 )]<br />

dy<br />

2 σ 2<br />

<strong>und</strong> weiter mit der Substitution u := y τ − ρz<br />

σ ,<br />

∫∞<br />

(<br />

) (<br />

1<br />

2πσ √ exp −<br />

u2<br />

· exp −<br />

1 − ρ 2<br />

2(1 − ρ 2 ) 2(1 − ρ 2 )<br />

u=−∞<br />

( )<br />

1<br />

−z<br />

2πσ √ 2 ∫∞<br />

(<br />

)<br />

1 − ρ exp exp −<br />

u2<br />

du<br />

2 2 σ 2 2(1 − ρ 2 )<br />

−∞<br />

}<br />

√<br />

{{ }<br />

2π(1−ρ 2 )<br />

dy<br />

du =<br />

τ<br />

1 z 2 ( )) 1 − ρ<br />

2<br />

du<br />

σ 2<br />

1<br />

√<br />

2π σ<br />

e −z2 /(2σ 2) . (2.6)<br />

Das ist <strong>die</strong> Dichte e<strong>in</strong>er N(0, σ 2 )-Verteilung. In völlig analoger Weise stellt sich<br />

f Y (y) als Dichte e<strong>in</strong>er N(0, τ 2 )-Verteilung heraus.


2.1. GEMEINSAME VERTEILUNG VON N ZUFALLSVARIABLEN 53<br />

Nun sehen wir auch sofort e<strong>in</strong>, dass f(z, y) e<strong>in</strong>e zweidimensionale Dichte ist, denn<br />

∫∞ ∫∞<br />

z=−∞ y=−∞<br />

f(z, y) dy dz =<br />

∫∞<br />

z=−∞<br />

f Z (z) dz =<br />

∫∞<br />

z=−∞<br />

1<br />

√<br />

2π σ<br />

e −z2 /(2σ 2) dz = 1 .<br />

Diese Aussage war im Anschluss an Def. 2.10 noch offen geblieben.


54 KAPITEL 2. MEHRDIMENSIONALE VERTEILUNGEN<br />

2.1.4 Erwartungswerte; n-dim.<br />

Es sei hier nochmals an <strong>die</strong> Vere<strong>in</strong>barung er<strong>in</strong>nert, dass X = (X 1 , ..., X n ) T ∈ R n <strong>und</strong><br />

x = (x 1 , ..., x n ) T ∈ R n mit der Indizierung x k , k = 1, .., n. Wir beg<strong>in</strong>nen mit dem<br />

zweidimensionalen Vektor (Z, Y ). Im diskreten Fall nehme Z <strong>die</strong> Werte z i , i ∈ I <strong>und</strong><br />

Y <strong>die</strong> Werte y j , j ∈ J an.<br />

Def. 2.14 (Erwartungswert von g(Z, Y ))<br />

(Z, Y ) sei e<strong>in</strong>e zweidimensionale ZV. f Z,Y bezeichne im diskreten Fall <strong>die</strong> Wahrsche<strong>in</strong>lichkeitsfunktion<br />

<strong>und</strong> im stetigen <strong>die</strong> Dichte von (Z, Y ). g : R 2 → R sei<br />

e<strong>in</strong>e (messbare) Funktion. Dann heißt<br />

E g(Z, Y ) :=<br />

:=<br />

∫<br />

g(z, y) dF Z,Y (z, y)<br />

R<br />

⎧<br />

2 ∑<br />

⎪⎨ g(z i , y j ) f Z,Y (z i , y j ) , (diskret)<br />

i,j<br />

∞∫ ∞∫<br />

⎪⎩ g(z, y) f Z,Y (z, y) dzdy , (stetig) .<br />

−∞ −∞<br />

der Erwartungswert (EW) von g(Z, Y ), falls<br />

∫<br />

R 2 |g(z, y)| dF Z,Y (z, y) < ∞.<br />

Bemerkung 2.15<br />

1. Die Def<strong>in</strong>itionen für n > 2 erfolgen analog.<br />

2. Für beliebiges n s<strong>in</strong>d verschiedene Schreibweisen <strong>in</strong> Gebrauch;<br />

z. B. für X = (X 1 , ..., X n ) T <strong>und</strong> x = (x 1 , ..., x n ) T<br />

∫<br />

R n ∫<br />

R n ∫<br />

g(x) dF X (x) := g(x 1 , ..., x n ) dF X1 ,...,X n<br />

(x 1 , ..., x n ) =<br />

R n<br />

g(x) dF (x)<br />

usw.<br />

3. Für diskrete ZV schreiben wir auch<br />

E g(Z, Y ) = ∑ i,j<br />

g(z i , y j ) p ij , (2.7)<br />

mit p ij = f Z,Y (z i , y j ), i ∈ I , j ∈ J.


2.1. GEMEINSAME VERTEILUNG VON N ZUFALLSVARIABLEN 55<br />

Satz 2.16 (EW, n-dim.)<br />

F X1 ,...,X n<br />

sei Verteilungsfunktion des n-dim. Zufallsvektors X = (X 1 , ..., X n ) T .<br />

Für k = 1, ..., n bezeichne F Xk <strong>die</strong> Randverteilungsfunktion der k-ten Komponente<br />

X k . f X1 ,...,X n<br />

<strong>und</strong> f Xk seien <strong>die</strong> entsprechenden Wahrsche<strong>in</strong>lichkeitsfunktionen<br />

bzw. Dichten, dann gilt mit x = (x 1 , ..., x n ) T für k = 1, ..., n falls alle EW existieren<br />

∫<br />

E(X k ) = x k dF X1 ,...,X n<br />

(x) =<br />

R n<br />

∫<br />

= x k f X1 ,...,X n<br />

(x) dx =<br />

R n<br />

∫∞<br />

−∞<br />

∫ ∞<br />

−∞<br />

x k dF Xk (x k )<br />

Bei diskreten zweidimensionalen ZV (Z, Y ) erhält man<br />

x k f Xk (x k ) dx k falls X stetig. (2.8)<br />

E(Z) = ∑ i,j<br />

z i f Z,Y (z i , y j ) = ∑ i,j<br />

z i p ij = ∑ i<br />

z i f Z (z i )<br />

<strong>und</strong><br />

E(Y ) = ∑ i,j<br />

y j f Z,Y (z i , y j ) = ∑ i,j<br />

y j p ij = ∑ j<br />

y j f Y (y j ) . (2.9)<br />

Entsprechende Aussagen gelten für alle Momente der Randverteilungen.<br />

Def. 2.17 (Kovarianzen, Kovarianzmatrix)<br />

Für X = (X 1 , ..., X n ) T mögen alle zweiten Momente<br />

existieren. Mit µ k := E(X k ) nennt man<br />

τ kl := E(X k X l ) , 1 ≤ k, l ≤ n ,<br />

σ kl := Cov(X k , X l ) := E [(X k − µ k )(X l − µ l )] , 1 ≤ k, l ≤ n ,<br />

<strong>die</strong> Kovarianzen von X k <strong>und</strong> X l .<br />

C := Cov(X) := (σ kl ) 1≤k,l≤n<br />

∈ R n,n<br />

heißt Kovarianzmatrix von X.<br />

X k <strong>und</strong> X l heißen unkorreliert, falls Cov(X k , X l ) = 0.<br />

Die Existenz aller zweiten Momente von X sichert also analog zu Satz (1.71),<br />

dass alle Erwartungswerte µ k , alle Varianzen σ kk <strong>und</strong> alle Kovarianzen σ kl der<br />

Komponenten X k , X l , 1 ≤ k, l ≤ n von X wohldef<strong>in</strong>iert s<strong>in</strong>d.


56 KAPITEL 2. MEHRDIMENSIONALE VERTEILUNGEN<br />

Folgerung 2.18 ((Ko-)Varianzen, Verschiebungsregel)<br />

1. Für k = l gilt<br />

σ 2 k := σ kk = Cov(X k , X k ) = E [(X k − µ k )(X k − µ k )] (2.10)<br />

= E [ (X k − µ k ) 2] = V ar(X k ) .<br />

2. Auch für Kovarianzen gibt es e<strong>in</strong>e Verschiebungsregel, nämlich<br />

σ kl = Cov(X k , X l ) = E [(X k − µ k )(X l − µ l )] = E (X k X l ) − µ k µ l . (2.11)<br />

Def. 2.19 (Korrelationskoeffizient)<br />

Für zwei ZV, z. B. (Z, Y ) = (X k , X l ), sollen alle zweiten Momente existieren.<br />

Ferner gelte σ 2 Z := V ar(Z) > 0 <strong>und</strong> σ 2 Y := V ar(Y ) > 0. Dann heißt<br />

ρ(Z, Y ) := Cov(Z, Y ) = Cov(Z, Y )<br />

σ Z σ Y D(Z) D(Y ) = Cov(Z, Y )<br />

√<br />

V ar(Z) V ar(Y )<br />

der Korrelationskoeffizient von Z <strong>und</strong> Y .<br />

Für unkorrelierte (Z, Y ) gilt offensichtlich ρ(Z, Y ) = 0. Tatsächlich ist der Korrelationskoeffizient<br />

e<strong>in</strong> Maß für den l<strong>in</strong>earen Zusammenhang zwischen Z <strong>und</strong> Y :<br />

Satz 2.20 (Korrelationskoeffizient)<br />

Falls alle zweiten Momente der ZV (Z, Y ) existieren <strong>und</strong> falls V ar(Z) > 0 <strong>und</strong><br />

V ar(Y ) > 0, so gilt:<br />

−1 ≤ ρ(Z, Y ) ≤ 1<br />

<strong>und</strong> ρ(Z, Y ) = ±1 genau dann, wenn<br />

P (Y = a + b Z) = P ({ ω | Y (ω) = a + b Z(ω)) } = 1<br />

für geeignete a ∈ R <strong>und</strong> b ≠ 0. Ferner gilt für |ρ(Z, Y )| = 1:<br />

ρ(Z, Y ) = 1 ⇐⇒ b > 0 <strong>und</strong> ρ(Z, Y ) = −1 ⇐⇒ b < 0 .


2.1. GEMEINSAME VERTEILUNG VON N ZUFALLSVARIABLEN 57<br />

Beispiel 2.21 (Zweidimensionale Normalverteilung)<br />

von (Z, Y ) bzgl. Def. 2.10 mit den Parametern µ := (µ z , µ y ) T ∈ R 2 sowie<br />

σ z > 0 , σ y > 0 <strong>und</strong> −1 < ρ < 1 <strong>und</strong> der positiv def<strong>in</strong>iten Kovarianzmatrix<br />

Dort gilt<br />

C := Cov(Z, Y ) =<br />

⎛<br />

⎜<br />

⎝<br />

σ 2 z<br />

ρ σ z σ y<br />

ρ σ z σ y<br />

σ 2 y<br />

⎞<br />

⎟<br />

⎠ .<br />

E(Z) = µ z<br />

E(Y ) = µ y<br />

V ar(Z) = σ 2 z<br />

V ar(Y ) = σy<br />

2<br />

ρ(Z, Y ) = ρ .<br />

Def. 2.22 (EW von Zufallsvektoren, -matrizen)<br />

Vorausgesetzt für k = 1, ..., n existieren <strong>die</strong> Erwartungswerte µ k<br />

setzt man für X = (X 1 , ..., X n ) T<br />

:= E(X k ), so<br />

E(X) := µ := (µ 1 , ..., µ n ) T .<br />

Analog (also auch elementweise) wird der Erwartungswert von Matrizen def<strong>in</strong>iert,<br />

deren Elemente ZV s<strong>in</strong>d.<br />

Satz 2.23 (EW von Zufallsvektoren)<br />

Für X = (X 1 , ..., X n ) T existiere µ = E(X), dann gilt für A ∈ R m,n , m ∈ N<br />

E(A X) = A E(X) = A µ . (2.12)


58 KAPITEL 2. MEHRDIMENSIONALE VERTEILUNGEN<br />

Satz 2.24 (Kovarianzen von Zufallsvektoren; Varianz von Summen)<br />

Vorausgesetzt alle zweiten Momente von X = (X 1 , ..., X n ) T<br />

mit µ = E(X), A ∈ R m,n , a = (a 1 , ..., a n ) T ∈ R n :<br />

existieren, dann gilt<br />

1. Die Kovarianzmatrix C ist positiv semidef<strong>in</strong>it.<br />

2.<br />

3.<br />

C = (σ kl ) = Cov(X) = E [ (X − µ)(X − µ) T ]<br />

= E [ X X T ] − E [ µ µ T ]<br />

Cov(A X) = A C A T (2.13)<br />

4.<br />

( n<br />

)<br />

V ar(a T ∑<br />

X) = V ar a i X i<br />

i=1<br />

= Cov(a T X) = a T C a = ∑ a k a l σ kl<br />

k,l<br />

=<br />

n∑ n∑<br />

a k a l Cov(X k , X l ) (2.14)<br />

k=1 l=1<br />

=<br />

n∑<br />

a 2 k V ar(X k ) + 2 ∑ a k a l Cov(X k , X l )<br />

k=1 k


2.2. UNABHÄNGIGE ZUFALLSVARIABLE 59<br />

2.2 Unabhängige Zufallsvariable<br />

Def. 2.25 (Unabhängigkeit)<br />

Die Komponenten X k e<strong>in</strong>es Zufallsvektors X = (X 1 , ..., X n ) T heißen genau dann<br />

unabhängig, wenn <strong>die</strong> geme<strong>in</strong>same Verteilungsfunktion <strong>in</strong> das Produkt der Randverteilungsfunktionen<br />

zerfällt, d. h.<br />

F X1 ,...,X n<br />

(x 1 , ..., x n ) = P (X 1 ≤ x 1 , X 2 ≤ x 2 , ..., X n ≤ x n )<br />

= P (X 1 ≤ x 1 ) · ... · P (X n ≤ x n ) (2.16)<br />

= F X1 (x 1 ) · ... · F Xn (x n ) .<br />

Für diskrete bzw. stetige ZV ist dazu äquivalent <strong>die</strong> Aussage dass <strong>die</strong> geme<strong>in</strong>same<br />

Wahrsche<strong>in</strong>lichkeitsfunktion bzw. Dichte <strong>in</strong> das Produkt der Randwahrsche<strong>in</strong>lichkeitsfunktionen<br />

bzw. der Randdichten zerfallen, d. h.<br />

f X1 ,...,X n<br />

= f X1 · ... · f Xn .<br />

Äquivalent zu Def. (2.16) ist folgende Charakterisierung:<br />

X 1 , ..., X n s<strong>in</strong>d genau dann unabhängig, wenn für beliebige Borelmengen B 1 , ..., B n ⊂ R<br />

gilt<br />

P (X 1 ∈ B 1 , ..., X n ∈ B n ) = P (X 1 ∈ B 1 ) · ... · P (X n ∈ B n ) . (2.17)<br />

Satz 2.26 (Unabhängigkeit, diskret)<br />

Beispielsweise gilt für unabhängige zweidimensionale diskrete ZV (Z, Y )<br />

für alle i, j.<br />

f Z,Y (z i , y j ) = P (Z = z i , Y = y j ) = p ij<br />

= p i· · p·j = P (Z = z i ) · P (Y = y j ) = f Z (z i ) · f Y (y j )<br />

Beispiel 2.27<br />

1. Zweimaliges Würfeln (siehe Beispiel 2.5): Im gewählten Modell gilt<br />

für 1 ≤ i, j ≤ 6.<br />

P (Z = i, Y = j) = 1 36 = 1 6 · 1<br />

6<br />

= P (Z = i)P (Y = j)


60 KAPITEL 2. MEHRDIMENSIONALE VERTEILUNGEN<br />

2. Unabhängige Münze <strong>und</strong> Würfel<br />

Im gewählten Modell gilt<br />

P (Z = i, Y = j) = 1 12 = 1 6 · 1<br />

2<br />

= P (Z = i)P (Y = j) , 1 ≤ i ≤ 6 , j = 0, 1 .<br />

Tabelle 3: Unabhängige Münze <strong>und</strong> Würfel p ij = P (Z = i, Y = j)<br />

j<br />

i 1 2 3 4 5 6 p·j<br />

0<br />

1<br />

12<br />

1<br />

12<br />

1<br />

12<br />

1<br />

12<br />

1<br />

12<br />

1<br />

12<br />

1<br />

2<br />

1<br />

1<br />

12<br />

1<br />

12<br />

1<br />

12<br />

1<br />

12<br />

1<br />

12<br />

1<br />

12<br />

1<br />

2<br />

p i·<br />

1<br />

6<br />

1<br />

6<br />

1<br />

6<br />

1<br />

6<br />

1<br />

6<br />

1<br />

1<br />

6<br />

3. Bei den beiden vorangegangenen Beispielen s<strong>in</strong>d <strong>die</strong> p ij <strong>die</strong> Produkte der Randwahrsche<strong>in</strong>lichkeiten<br />

p i· <strong>und</strong> p·j . Das trifft übrigens nicht auf das Beispiel 2.5 von<br />

der Summe Kopf / Wappen beim zweimaligen Münzwurf zu; vgl. auch Beispiel<br />

2.13.<br />

4. Zweidimensionale Gleichverteilung<br />

Die Komponenten der zweidimensionalen ZV mit der Dichte<br />

f Z,Y (z, y) = 1 (0,1)×(0,1) (z, y) = 1 (0,1) (z) · 1 (0,1) (y) = f Z (z) · f Y (y)<br />

s<strong>in</strong>d unabhängig <strong>und</strong> jeweils U(0, 1)-verteilt.<br />

5. 2-dim. <strong>und</strong> n-dim. Normalverteilung<br />

Z <strong>und</strong> Y s<strong>in</strong>d genau dann unabhängig, wenn ρ = 0 ist. In <strong>die</strong>sem Fall gilt mit<br />

den Bezeichnungen von Def. 2.10<br />

f Z,Y (z, y) = 1 [<br />

2πστ exp − (z − µ Z) 2<br />

− (y − µ Y ) 2 ]<br />

= f<br />

2 σ 2 2 τ 2 Z (z) · f Y (y) .<br />

Die Komponenten X k <strong>und</strong> X l e<strong>in</strong>es n-dim. normalverteilten Vektors X s<strong>in</strong>d genau<br />

dann unabhängig, wenn ρ (X k , X l ) = 0.<br />

Alle Komponenten e<strong>in</strong>es normalverteilten Vektors X s<strong>in</strong>d genau dann unabhängig,<br />

wenn Cov(X) = diag {V ar(X 1 ), . . . , V ar(X n )}.


2.2. UNABHÄNGIGE ZUFALLSVARIABLE 61<br />

Satz 2.28 (Unabhängig-unkorreliert; Unabhängigkeit von Funktionen)<br />

Seien Z <strong>und</strong> Y unabhängig mit existierenden 2. Momenten <strong>und</strong> µ Z = E(Z),<br />

µ Y = E(Y ) sowie g, h : R → R Borel-messbare Funktionen, z. B. (stückweise)<br />

stetig, dann gilt:<br />

1. g(Z) <strong>und</strong> h(Y ) s<strong>in</strong>d unabhängig.<br />

2. E[g(Z) · h(Y )] = E[g(Z)] · E[h(Y )] oder speziell<br />

3. E(Z Y ) = E(Z) E(Y ); <strong>in</strong>sbesondere s<strong>in</strong>d Z <strong>und</strong> Y unkorreliert, da<br />

E [(Z − µ Z ) (Y − µ Y )] = E(Z − µ Z ) E(Y − µ Y ) = 0.<br />

4. Die Umkehrung von 3. gilt nicht.<br />

5. Falls (Z, Y ) geme<strong>in</strong>sam (zweidimensional) normalverteilt s<strong>in</strong>d, dann folgt:<br />

(Z, Y ) unkorreliert ⇐⇒ Z <strong>und</strong> Y s<strong>in</strong>d unabhängig.<br />

Unkorreliertheit bedeutet, dass ke<strong>in</strong> l<strong>in</strong>earer Zusammenhang zwischen den ensprechenden<br />

ZV vorliegt. Dies ist i.a. e<strong>in</strong>e schwächere Bed<strong>in</strong>gung als Unabhängigkeit<br />

von ZV. Im Falle e<strong>in</strong>er geme<strong>in</strong>samen Normalverteilung der ZV s<strong>in</strong>d <strong>die</strong>se Begriffe äquivalent.<br />

Später werden wir für <strong>die</strong> Erwartungswerte unabhängiger ZV Z <strong>und</strong> Y häufig den<br />

Produktsatz<br />

E[g(Z) · h(Y )] = E g(Z) · E h(Y )<br />

benützen.<br />

Def. 2.29 (Unabhängig identisch verteilt, iid)<br />

Die ZV X 1 , ..., X n heißen unabhängig identisch verteilt wie X; man sagt auch<br />

X, X 1 , ..., X n s<strong>in</strong>d iid (<strong>in</strong>dependent identically distributed), genau dann, wenn <strong>die</strong><br />

X i unabhängig s<strong>in</strong>d <strong>und</strong><br />

F X = F Xi , i = 1, ..., n .<br />

iid-Variablen X 1 , ..., X n heißen auch mathematische Stichprobe.


62 KAPITEL 2. MEHRDIMENSIONALE VERTEILUNGEN<br />

Satz 2.30 (Stichprobenmittel ¯X)<br />

X 1 , ..., X n seien iid mit E(X i ) = µ <strong>und</strong> V ar(X i ) = D 2 (X i ) = σ 2 , i = 1, ..., n. Für<br />

das arithmetische Mittel<br />

¯X := 1 n∑<br />

X i<br />

n<br />

e<strong>in</strong>er solchen (mathematischen) Stichprobe gilt E( ¯X) = µ sowie<br />

V ar( ¯X) = D 2 ( ¯X) = σ2<br />

n<br />

i=1<br />

D( ¯X) = σ √ n<br />

(Standardabweichung) .<br />

N(0, 1/25)<br />

N(0, 1)<br />

-3 -2 -1 0 1 2 3<br />

Bild 9: Verteilung von ¯X für n = 1 <strong>und</strong> n = 25<br />

In der mathematischen <strong>Statistik</strong> geht man davon aus, dass <strong>die</strong> e<strong>in</strong>e Verteilung charakterisierenden<br />

Parameter, u.a. µ <strong>und</strong> σ 2 , unbekannt s<strong>in</strong>d <strong>und</strong> mithilfe von Stichprobenziehungen<br />

geschätzt werden müssen; siehe auch Kap. 8.3.3. ¯X ist <strong>die</strong> am häufigsten<br />

verwendete Schätzung für µ. Als Schätzfunktion für <strong>die</strong> i. a. unbekannte Varianz σ 2<br />

wählt man<br />

S 2 := 1 n∑<br />

(X i −<br />

n − 1<br />

¯X) 2 . (2.18)<br />

i=1<br />

Der Vorfaktor 1/(n − 1) ist nötig, um <strong>die</strong> sog. Erwartungstreue E[S 2 ] = σ 2 zu<br />

garantieren; vgl. z. B. [Lehn & Wegmann (1992)], S. 77 oder Bsp. 2.34. Dort wird u.a.<br />

auch nachgewiesen, dass für normalverteilte iid-Variable das Stichprobenmittel ¯X <strong>und</strong><br />

S 2 unabhängige ZV s<strong>in</strong>d.


2.3. TRANSFORMATIONEN VON N ZUFALLSVARIABLEN 63<br />

2.3 Transformationen von n Zufallsvariablen<br />

2.3.1 Transformationssatz für Dichten<br />

Die n-dimensionale Zufallsvariable X = (X 1 , . . . , X n ) T habe e<strong>in</strong>e Dichte f(x),<br />

x = (x 1 , . . . , x n ) T . Weiterh<strong>in</strong> seien B := { x ∈ R n | f(x) > 0 } <strong>und</strong> h : B → D,<br />

D ⊂ R n , differenzierbar <strong>und</strong> bijektiv. Dann ist Y := h(X) wieder e<strong>in</strong>e n-dim. ZV. Mit<br />

y = (y 1 , . . . , y n ) T sei <strong>die</strong> Umkehrabbildung<br />

x := h −1 (y) = (x 1 (y), . . . , x n (y)) T<br />

auf D (abgesehen von endlich vielen glatten Hyperflächen) stetig differenzierbar.<br />

⎛<br />

⎞<br />

∂x 1 ∂x 1<br />

(y) · · · (y)<br />

∂(x 1 , . . . , x n )<br />

∂(y 1 , . . . , y n ) = ∂(x ∂y<br />

1, . . . , x n )<br />

∂(y 1 , . . . , y n ) (y) := det 1 ∂y n .<br />

.<br />

⎜<br />

⎟<br />

⎝ ∂x n ∂x n ⎠<br />

(y) · · · (y)<br />

∂y 1 ∂y n<br />

sei <strong>die</strong> Funktionaldeterm<strong>in</strong>ante der Umkehrabbildung h −1 . Dann hat <strong>die</strong> ZV<br />

Y = (Y 1 , . . . , Y n ) T := h(X) wieder e<strong>in</strong>e Dichte g(y), <strong>die</strong> gegeben ist durch<br />

∂(x 1 , . . . , x n )<br />

g(y) = g(y 1 , . . . , y n ) = f (x 1 (y), . . . , x n (y))<br />

∣ ∂(y 1 , . . . , y n ) ∣ , (2.19)<br />

wobei | · | hier den Betrag e<strong>in</strong>er Determ<strong>in</strong>ante bezeichnet.<br />

(V, W ) seien stetig mit Dichte f V,W . Man betrachtet <strong>die</strong> Transformation<br />

X = x(V, W ) , Y = y(V, W ),<br />

zu der nach Voraussetzung <strong>die</strong> Umkehrtransformation<br />

V = v(X, Y ) , W = w(X, Y )<br />

mit auf D (abgesehen von endlich vielen glatten Kurven) stetig differenzierbaren v(·, ·)<br />

<strong>und</strong> w(·, ·) existiert. Dann gilt<br />

f X,Y [x, y] = f V,W [v(x, y), w(x, y)] |J(x, y)|, (2.20)<br />

wobei <strong>die</strong> Funktionaldeterm<strong>in</strong>ante hier speziell gegeben ist durch<br />

J(x, y) =<br />

∂(v, w)<br />

∂(x, y) = ∂v ∂w<br />

∂x ∂y − ∂v<br />

∂y<br />

Es folgen Beispiele <strong>und</strong> wichtige Anwendungen.<br />

∂w<br />

∂x .<br />

Beispiel 2.31 (Transformationsregel für Polarkoord<strong>in</strong>aten)<br />

Seien x = r cosϕ, y = r s<strong>in</strong>ϕ, r ≥ 0, 0 ≤ ϕ < 2π, f : R 2 −→ R, B ⊆ R 2 , dann<br />

gilt<br />

∫ ∫<br />

∫ ∫<br />

f(x, y) dx dy = f(r cosϕ, r s<strong>in</strong>ϕ) r dr dϕ, (2.21)<br />

B(x,y)<br />

B(r,ϕ)<br />

falls e<strong>in</strong>es der beiden Integrale existiert.


64 KAPITEL 2. MEHRDIMENSIONALE VERTEILUNGEN<br />

E<strong>in</strong>e wichtige Anwendung ist <strong>die</strong> Polar-Transformation zum Simulieren normalverteilter<br />

Zufallsvariablen nach Box-Mutter:<br />

Seien (S, T ) unabhängig gleichverteilt mit Dichte f S,T (s, t) = 1 (0,1)×(0,1) (s, t), dann s<strong>in</strong>d<br />

X := √ −2 ln S s<strong>in</strong>(2πT ) (2.22)<br />

Y := √ −2 ln S cos(2πT )<br />

unabhängig <strong>und</strong> jeweils N(0, 1)-verteilt. Die Umkehrtransformation lautet für<br />

(x, y) ∈ R 2 \{ (0, y) ∈ R 2 | y ≥ 0 }<br />

s = e −(x2 +y 2 )/2<br />

⎧<br />

1 ⎪⎨<br />

t =<br />

⎪⎩<br />

1<br />

2π<br />

y<br />

√x<br />

, falls x ≥ 0<br />

2 +y 2<br />

arccos<br />

2π<br />

(<br />

)<br />

2π − arccos √ y<br />

x 2 +y 2<br />

, falls x < 0 .<br />

Die Funktionaldeterm<strong>in</strong>ante erhält man elegant mit e<strong>in</strong>em kle<strong>in</strong>en Umweg über <strong>die</strong><br />

Relation<br />

<strong>und</strong><br />

∂(s, t)<br />

∂(x, y)<br />

= 1/∂(x,<br />

y)<br />

∂(s, t)<br />

∂(x, y)<br />

∂(s, t)<br />

⎛<br />

= det ⎜<br />

⎝<br />

− s<strong>in</strong>(2πt)<br />

s √ −2 ln s<br />

− cos(2πt)<br />

s √ −2 ln s<br />

2π √ −2 ln s cos(2πt)<br />

−2π √ −2 ln s s<strong>in</strong>(2πt)<br />

⎞<br />

⎟<br />

⎠<br />

= 2π s s<strong>in</strong>2 (2πt) + 2π s cos2 (2πt) = 2π s .<br />

Damit gilt<br />

∂(s, t)<br />

∂(x, y) = s<br />

2π = 1 +y 2 )/2<br />

2π e−(x2<br />

<strong>und</strong> man erhält mit dem Transformationssatz für Dichten<br />

∂(s, t)<br />

f X,Y (x, y) = f S,T [s(x, y), t(x, y)]<br />

∣∂(x, y) ∣ = 1 · 1 +y 2 )/2<br />

2π e−(x2 .<br />

2.3.2 L<strong>in</strong>eare Transformationen<br />

Wir betrachten nun e<strong>in</strong>e weitere wichtige Klasse l<strong>in</strong>earer Transformationen <strong>und</strong> folgen<br />

<strong>in</strong> der Darstellung [Stirzaker (1994)], pp. 287.


2.3. TRANSFORMATIONEN VON N ZUFALLSVARIABLEN 65<br />

Satz 2.32 (L<strong>in</strong>eare Transformation)<br />

Zur Matrix A = (a ij ) existiere <strong>die</strong> Inverse A −1 = (b ij ) = B. Weiterh<strong>in</strong> betrachten<br />

wir X = (X 1 , . . . , X n ) T , Y = (Y 1 , . . . , Y n ) T <strong>und</strong><br />

n∑<br />

n∑<br />

Y = A X , X = B Y bzw. für i = 1, . . . , n : Y i = a ij X j , X i = b ij Y j .<br />

j=1<br />

j=1<br />

Aus der geme<strong>in</strong>samen Dichte f X (x 1 , . . . , x n ) der (X 1 , .., X n ) kann dann wegen<br />

det(A) = 1/det(B) ≠ 0 <strong>die</strong> geme<strong>in</strong>same Dichte f Y (y 1 , . . . , y n ) von (Y 1 , . . . , Y n )<br />

berechnet werden. Es gilt gemäß Gleichung (2.19) mit y = (y 1 , . . . , y n ) T<br />

f Y (y 1 , . . . , y n ) =<br />

1<br />

|det(A)| f X(x 1 (y 1 , . . . , y n ), . . . , x n (y 1 , . . . , y n ))<br />

= |det(B)| f X (x 1 , . . . , x n ) =<br />

∣ det ( A −1) ∣ ∣ ∣ fX (A −1 y) .<br />

Für aff<strong>in</strong> l<strong>in</strong>eare Transformationen Y = A X + b mit det(A) ≠ 0 gilt entsprechend<br />

f Y (y) = ∣ ∣ ∣ det<br />

(<br />

A<br />

−1 ) ∣ ∣ ∣ fX<br />

(<br />

A −1 (y − b) ) . (2.23)<br />

Beispiel 2.33 (n-dimensionale Normalverteilung)<br />

Nun können wir zeigen, dass das bereits <strong>in</strong> (2.3) e<strong>in</strong>geführte<br />

f X (x) =<br />

1<br />

√(2π) n det(C) exp [ − 1 2 (x − µ)T C −1 (x − µ) ] (2.24)<br />

mit x ∈ R n <strong>und</strong> den Parametern µ ∈ R n sowie C ∈ R n,n , positiv def<strong>in</strong>it, e<strong>in</strong>e n-dim.<br />

Dichte ist.<br />

Da C per Def<strong>in</strong>ition auch symmetrisch ist, hat es nur reelle Eigenwerte λ i , <strong>die</strong> wir<br />

zu der Matrix Λ := diag{λ 1 , . . . , λ n } zusammenfassen. Wegen der positiven Def<strong>in</strong>itheit<br />

folgt λ i > 0, i = 1, . . . , n. Außerden gibt es e<strong>in</strong> System von n orthonormierten<br />

Eigenvektoren, <strong>die</strong> wir spaltenweise zu e<strong>in</strong>er Matrix U zusammenfassen. Dann lautet<br />

<strong>die</strong> Eigenwert-Eigenvektorzerlegung<br />

C = U Λ U T , U U T = U T U = I n = diag{1, . . . , 1} .<br />

Nun seien mit Λ 1/2 := diag{ √ λ 1 , . . . , √ λ n }<br />

C 1/2 := U Λ 1/2 U T ∈ R n,n sowie y := C −1/2 (x − µ) ∈ R n .<br />

√<br />

Wegen det(C) = λ 1 · λ 2 · . . . · λ n > 0 gilt det(C 1/2 ) = det(C) > 0 sowie det(C −1/2 ) =<br />

√<br />

1/ det(C). Nach Satz 2.32 lautet dann <strong>die</strong> Dichte von Y := C −1/2 (X − µ) ∈ R n mit


66 KAPITEL 2. MEHRDIMENSIONALE VERTEILUNGEN<br />

x − µ = C 1/2 y<br />

f Y (y 1 , . . . , y n ) =<br />

=<br />

=<br />

1<br />

|det(C −1/2 )| f X(µ + C 1/2 y)<br />

det(C 1/2 )<br />

√<br />

(2π) n det(C) exp [ − 1 2 yT C 1/2 C −1 C 1/2 y ]<br />

1<br />

(√ ) n e − 1 ∏<br />

2 yT y n 1 = √ e −y2 i /2 .<br />

2π 2π<br />

i=1<br />

Nun erhält man<br />

∫<br />

n∏<br />

∫∞<br />

1<br />

f Y (y 1 , . . . , y n ) d(y 1 , . . . , dy n ) = √ e −y2 i /2 dy i = 1 .<br />

R n i=1 2π<br />

−∞<br />

Damit s<strong>in</strong>d f Y<br />

<strong>und</strong> f X Dichten.<br />

Satz 2.34 (Orthogonale Transformation bei Normalverteilung)<br />

Seien (X 1 , . . . , X n ) N(0, 1)-iid Zufallsvariablen <strong>und</strong> A = (a ij ) e<strong>in</strong>e orthogonale<br />

Matrix mit det(A) = ±1 sowie A −1 = A T . Weiterh<strong>in</strong> gelte mit<br />

X = (X 1 , . . . , X n ) T <strong>und</strong> Y = (Y 1 , . . . , Y n ) T <strong>die</strong> Beziehung Y = A X, d. h.<br />

Dann gilt:<br />

n∑<br />

Y i = a ij X j , 1 ≤ i ≤ n . (2.25)<br />

j=1<br />

1. (Y 1 , . . . , Y n ) s<strong>in</strong>d unabhängige N(0, 1)-verteilte Zufallsvariablen.<br />

2. Das Stichprobenmittel ¯X =<br />

1<br />

n<br />

Stichprobenvarianz S 2 = 1<br />

n − 1<br />

n∑<br />

X i<br />

i=1<br />

<strong>und</strong> <strong>die</strong><br />

3. Für N(µ, σ 2 )-iid ZV (X 1 , . . . , X n ) gilt E (S 2 ) = σ 2 .<br />

n∑<br />

(X i − ¯X) 2 s<strong>in</strong>d unabhängig .<br />

i=1


2.3. TRANSFORMATIONEN VON N ZUFALLSVARIABLEN 67<br />

Beweis:<br />

1. Es gilt X = A T Y <strong>und</strong><br />

n∑<br />

n∑<br />

Xi 2 = X T X = Y T A A T Y = Y T Y =<br />

i=1<br />

i=1<br />

Y 2<br />

i .<br />

Die unabhängigen N(0, 1)-verteilten X i haben <strong>die</strong> Dichte (2π) −n/2 exp ( − 1 2<br />

∑ x<br />

2<br />

i<br />

)<br />

.<br />

Somit gilt für <strong>die</strong> Dichte von (Y 1 , . . . , Y n ) nach Satz 2.32<br />

f Y (y 1 , . . . , y n ) = 1<br />

(2π) n 2<br />

exp<br />

(<br />

− 1 2<br />

Deshalb s<strong>in</strong>d (Y 1 , . . . , Y n ) unabhängig N(0, 1)-verteilt.<br />

)<br />

n∑<br />

yi<br />

2 .<br />

i=1<br />

2. Nun sei A = (a ij ) orthogonal mit spezieller erster Zeile der Form a 1j = 1/ √ n,<br />

was<br />

n∑ 1<br />

Y 1 = √ X j = √ n ¯X<br />

n<br />

zur Folge hat. Weiterh<strong>in</strong> gilt<br />

j=1<br />

(n − 1) S 2 =<br />

=<br />

n∑<br />

Xi 2 − 2 ¯X<br />

n∑<br />

X i + n ¯X<br />

n∑<br />

2 = Xi 2 − n ¯X 2<br />

i=1<br />

i=1<br />

i=1<br />

n∑<br />

n∑<br />

Yi 2 − Y1 2 = Yi 2 . (2.26)<br />

i=1<br />

i=2<br />

S 2 ist unabhängig von ¯X, da Y 1 gemäß 1. unabhängig von (Y 2 , . . . , Y n ) ist.<br />

3. Ausgehend von N(µ, σ 2 )-iid ˜X i führt man zunächst e<strong>in</strong>e Translation der Form<br />

˜X i − µ → X i , i = 1, . . . , n durch. Dann s<strong>in</strong>d <strong>die</strong> X i iid <strong>und</strong> N(0, σ 2 ). Durch<br />

E<strong>in</strong>setzen gemäß 1. verifiziert man sofort, dass <strong>die</strong> orthogonale Transformation<br />

(2.25) N(0, σ 2 ) iid Y i liefert. Damit folgt gemäß 2. <strong>und</strong> (2.26)<br />

E [ (n − 1) S 2] = E<br />

[ n ∑<br />

i=2<br />

Y 2<br />

i<br />

]<br />

= (n − 1) σ 2 . ✷<br />

L<strong>in</strong>eare Transformationen normalverteilter ZV<br />

Aus Satz 2.32 folgt noch, dass allgeme<strong>in</strong>e l<strong>in</strong>eare Transformationen normalverteilter<br />

ZV wieder normalverteilt s<strong>in</strong>d:<br />

Seien X ∼ N(µ, C) <strong>und</strong> A ∈ R m,n , Rang(A) = m > 0 gegeben. Dann gilt<br />

Y := A X ∼ N ( A µ, A C A T ) . (2.27)<br />

Zum Beweis ergänze man A zu e<strong>in</strong>er nichts<strong>in</strong>gulären Matrix.


68 KAPITEL 2. MEHRDIMENSIONALE VERTEILUNGEN<br />

2.3.3 Summen, Quotienten<br />

Wir betrachten e<strong>in</strong>fache Funktionen von zwei ZV (X, Y ) mit Wahrsche<strong>in</strong>lichkeitsfunktion<br />

bzw. Dichte f = f X,Y . Für <strong>die</strong> Summe V := X + Y erhält man<br />

was im diskreten Fall<br />

F X+Y (v) = P (V ≤ v) = P (X + Y ≤ v) ,<br />

f V (v) = f X+Y (v) = P (X + Y = v) = P (X = v − Y ) = ∑ y<br />

f(v − y, y) = ∑ x<br />

f(x, v − x)<br />

nach sich zieht. Für stetige (X, Y ) lautet <strong>die</strong> Dichte<br />

f V (v) = f X+Y (v) =<br />

∫ ∞<br />

−∞<br />

f(x, v − x) dx =<br />

∫ ∞<br />

−∞<br />

f(v − y, y) dy .<br />

S<strong>in</strong>d X <strong>und</strong> Y zusätzlich unabhängig, so kann <strong>die</strong> Verteilung der Summe elegant mit<br />

den erzeugenden bzw. momenterzeugenden Funktionen von Kapitel 3 gewonnen werden.<br />

Der hier gewählte Ansatz führt auf sogenannte Faltungen (siehe auch Def. 3.6):<br />

f X+Y (v) = ∑ y<br />

f X (v − y)f Y (y) = ∑ x<br />

f X (x)f Y (v − x) (2.28)<br />

bzw. für Dichten<br />

f X+Y =<br />

∫ ∞<br />

f X (v − y)f Y (y) dy =<br />

∫ ∞<br />

−∞<br />

−∞<br />

f X (x)f Y (v − x) dx . (2.29)<br />

Häufig benötigt man <strong>die</strong> Dichte des Quotienten stetiger ZV. Diese lautet<br />

f X/Y (v) =<br />

∫∞<br />

f(x, x v) |x| dx =<br />

∫∞<br />

−∞<br />

−∞<br />

f(y v, y) |y| dy . (2.30)<br />

Beispiel 2.35 (Summen bei zweidimensionaler Normalverteilung)<br />

Gemäß (2.5) haben X <strong>und</strong> Y e<strong>in</strong>e zweidimensionale Normalverteilung mit E(X) =<br />

E(Y ) = 0 sowie D(X) = σ > 0 <strong>und</strong> D(Y ) = τ > 0, falls <strong>die</strong> geme<strong>in</strong>same Dichte mit<br />

−1 < ρ < 1 lautet<br />

[<br />

(<br />

1<br />

f(x, y) =<br />

2πστ √ 1 − ρ exp 1 x<br />

2<br />

−<br />

2 2(1 − ρ 2 ) σ − 2ρxy<br />

2 στ<br />

Gesucht ist <strong>die</strong> Dichte von a X + b Y für Konstanten a <strong>und</strong> b.<br />

+ y2<br />

τ 2 )]<br />

.<br />

Lösung (gemäß [Stirzaker (1994)], p. 269, 275):<br />

Zunächst zeigt Bsp. 2.13 (2), dass sich für a = 0 <strong>und</strong> b = 1 <strong>die</strong> Randdichte e<strong>in</strong>er


2.3. TRANSFORMATIONEN VON N ZUFALLSVARIABLEN 69<br />

N(0, τ 2 )-Verteilung ergibt. Analog erhält man für a = 1 <strong>und</strong> b = 0 e<strong>in</strong>e N(0, σ 2 )-<br />

Verteilung. Nun seien a ≠ 0 <strong>und</strong> b ≠ 0. Die geme<strong>in</strong>same Dichte von U = a X <strong>und</strong><br />

V = b Y lautet<br />

g(u, v) = 1 ( u<br />

|ab| f a , v )<br />

.<br />

b<br />

Die Dichte von Z = U + V = a X + b Y ist dann<br />

f Z (z) =<br />

∫ ∞<br />

−∞<br />

(<br />

1 u<br />

|ab| f a , z − u )<br />

du .<br />

b<br />

Neuordnung des Exponenten unter dem Integral liefert<br />

−1<br />

2(1 − ρ 2 )<br />

( u<br />

2<br />

wobei α = 1<br />

a 2 σ 2 +<br />

2ρu(z − u)<br />

− +<br />

a 2 σ2 abστ<br />

)<br />

(z − u)2<br />

=<br />

b 2 τ 2<br />

2ρ<br />

abστ + 1<br />

b 2 τ <strong>und</strong> β =<br />

2<br />

Setzt man u = β z/α im Integranden, so folgt<br />

∫∞<br />

−∞<br />

−α<br />

2(1 − ρ 2 )<br />

ρ<br />

abστ + 1<br />

b 2 τ . 2<br />

(<br />

)<br />

exp −<br />

αv2 dv =<br />

2(1 − ρ 2 )<br />

Nach e<strong>in</strong>igem Rechnen ergibt sich dann<br />

f Z (z) =<br />

⎡(<br />

⎣<br />

u − βz<br />

α<br />

√<br />

2π(1 − ρ 2 )<br />

.<br />

α<br />

( )<br />

1<br />

√ exp − z2<br />

2πξ<br />

2 2ξ 2<br />

mit ξ 2 = a 2 σ 2 + 2ρabστ + b 2 τ 2 . Somit gilt Z ∼ N(0, ξ 2 ).<br />

Dieses Ergebnis hätte man übrigens auch durch spezielle Wahl von<br />

A =<br />

(<br />

a b<br />

0 1<br />

)<br />

<strong>und</strong><br />

(<br />

Z<br />

W<br />

)<br />

= A<br />

(<br />

X<br />

Y<br />

)<br />

) ⎤<br />

2<br />

+ z2 1 − ρ 2<br />

⎦ ,<br />

α 2 a 2 b 2 σ 2 τ 2<br />

<strong>in</strong> Formel (2.27) erhalten, wobei <strong>die</strong> zweite Zeile der Matrix nicht e<strong>in</strong>deutig festgelegt,<br />

aber so wählen ist, dass A nichts<strong>in</strong>gulär ist.<br />

E<strong>in</strong>en <strong>in</strong>teressanten Spezialfall erhält man für ρ = 0. Mit dem obigen Ergebnis ist dann<br />

folgendes bewiesen:<br />

Seien X bzw. Y unabhängig N(0, σ 2 ) bzw. N(0, τ 2 )-verteilte Zufallsvariablen. Dann<br />

hat <strong>die</strong> Summe Z = a X + b Y e<strong>in</strong>e N(0, a 2 σ 2 + b 2 τ 2 )-Verteilung.<br />

Durch Anwenden der Transformationen X − µ → ˜X <strong>und</strong> Y − η → Ỹ folgt zunächst für<br />

unabhängige N(µ, σ 2 ) bzw. N(η, τ 2 )-verteilte X bzw. Y , dass <strong>die</strong> Summe<br />

Z := c + a X + b Y nach N(c + µ + η, a 2 σ 2 + b 2 τ 2 ) verteilt ist. Oder noch allgeme<strong>in</strong>er:


70 KAPITEL 2. MEHRDIMENSIONALE VERTEILUNGEN<br />

Satz: Summe von normalverteilten Zufallsvariablen<br />

S<strong>in</strong>d (X, Y ) geme<strong>in</strong>sam normalverteilt mit E(X) = µ , E(Y ) = η, V ar(X) =<br />

σ 2 > 0, V ar(Y ) = τ 2 > 0 <strong>und</strong> Korrelationskoeffizient −1 < ρ < 1. Für Koeffizienten<br />

a, b mit a 2 + b 2 > 0, ist Z := c + a X + b Y wieder normalverteilt mit<br />

E(Z) = c + a µ + b η <strong>und</strong> V ar(Z) = a 2 σ 2 + 2 a b ρ στ + b 2 τ 2 .<br />

Beispiel 2.36 (Summen <strong>und</strong> Quotienten von ZV)<br />

1. X ∼ B (n X , p) <strong>und</strong> Y ∼ B (n Y , p) unabhängig =⇒ X + Y ∼ B (n X + n Y , p).<br />

2. X ∼ P oi (λ X ), Y ∼ P oi (λ Y ) unabhängig =⇒ X + Y ∼ P oi (λ X + λ Y ).<br />

3. X ∼ N(µ X , σ 2 X), Y ∼ N(µ Y , σ 2 Y ) unabh. =⇒ X + Y ∼ N(µ X + µ Y , σ 2 X + σ 2 Y ).<br />

4. X ∼ Γ (q X , λ), Y ∼ Γ (q Y , λ) unabhängig =⇒ X + Y ∼ Γ (q X + q Y , λ).<br />

5. X <strong>und</strong> Y unabhängig N(0, 1) =⇒ Z := X/Y ist Cauchy-verteilt mit Dichte<br />

Siehe auch <strong>die</strong> Beispiele 3.9 <strong>und</strong> 3.14.<br />

2.3.4 M<strong>in</strong>imum, Maximum<br />

f X/Y (z) = 1 π<br />

1<br />

1 + z 2 .<br />

Satz 2.37 (M<strong>in</strong>imum <strong>und</strong> Maximum von ZV)<br />

X, X 1 , ..., X n seien iid-ZV mit Verteilungsfunktion F X <strong>und</strong> ¯F X (x) := 1 − F X (x)<br />

bezeichne wiederum <strong>die</strong> sog. tail probability. Dann lauten <strong>die</strong> Verteilungsfunktionen<br />

F Z von Z := max { X i } bzw. F Y von Y := m<strong>in</strong> { X i }<br />

i i<br />

oder<br />

F Z (z) = F max{Xi }(z) = [F X (z)] n (2.31)<br />

1 − F Y (y) = 1 − F m<strong>in</strong>{Xi } = [1 − F X (y)] n<br />

¯F Y (y) = ¯F m<strong>in</strong>{Xi }(z) = [ ¯FX (y) ] n<br />

. (2.32)<br />

Beweis:<br />

Wegen der Unabhängigkeit der X i gilt<br />

F max{Xi }(z) = P (max<br />

i<br />

{ X i } ≤ z)<br />

= P (X 1 ≤ z, ..., X n ≤ z)<br />

= P (X 1 ≤ z) · ... · P (X n ≤ z) = [F X (z)] n .<br />

¯F m<strong>in</strong>{Xi }(y) = P (m<strong>in</strong><br />

i<br />

{ X i } > y)<br />

= P (X 1 > y, ..., X n > y)<br />

= P (X 1 > y) · ... · P (X n > y) = [ ¯FX (y) ] n<br />

. ✷


2.3. TRANSFORMATIONEN VON N ZUFALLSVARIABLEN 71<br />

Beispiel 2.38 (Gleich- <strong>und</strong> Exponentialverteilung)<br />

X, X 1 , ..., X n seien iid-ZV mit Verteilungsfunktion F X .<br />

1. Gleichverteilung: X ∼ U(0, a), a > 0, Z := max<br />

i<br />

{ X i }<br />

Man hat für 0 < x < a <strong>die</strong> Darstellung F X (x) = x , woraus sich nach (2.31)<br />

( ) a z n<br />

F Z (z) = für 0 < z < a ableitet. Damit lautet <strong>die</strong> Dichte fZ von Z<br />

a<br />

f Z (z) = n zn−1<br />

a n 1 0,a (z) .<br />

2. Exponentialverteilung: X ∼ ED(λ), λ > 0, Y := m<strong>in</strong><br />

i<br />

{ X i }<br />

Es gilt ¯F X (x) = e −λ x für x > 0 <strong>und</strong> gemäß (2.32) ergibt sich<br />

¯F Y (y) = ( e −λ y) n<br />

1(0,∞) (y) = e −n λ y 1 (0,∞) (y) .<br />

Damit ist Y auch ED(n λ)-exponentialverteilt <strong>und</strong><br />

E(Y ) = 1<br />

n λ = E(X) .<br />

n


72 KAPITEL 2. MEHRDIMENSIONALE VERTEILUNGEN<br />

2.4 Bed<strong>in</strong>gte Verteilungen <strong>und</strong> Erwartungswerte<br />

Schon bei e<strong>in</strong>fachen komb<strong>in</strong>atorischen Aufgaben hat sich der Übergang zu bed<strong>in</strong>gten<br />

Wahrsche<strong>in</strong>lichkeiten als vorteilhaft erwiesen. In vielen Fragestellungen der Stochastik<br />

kommt man ohne das sog. Condition<strong>in</strong>g überhaupt nicht weiter. Deswegen<br />

soll hier der Kalkül der bed<strong>in</strong>gten Erwartung am Beispiel diskreter Zufallsvariabler<br />

(ZV) e<strong>in</strong>geführt werden. Der Vollständigkeit halber werden gelegentlich auch Formeln<br />

für Dichten mit angegeben. Wir folgen <strong>in</strong> der Darstellung grob dem Konzept von<br />

[Stirzaker (1994)], p.94 <strong>und</strong> p. 138.<br />

2.4.1 Bed<strong>in</strong>gung bzgl. Ereignis B<br />

Def. 2.39 (Bed<strong>in</strong>gte Verteilung bzgl. Ereignis B)<br />

X sei e<strong>in</strong>e diskrete ZV bzgl. (Ω, F, P ) <strong>und</strong> B ∈ F e<strong>in</strong> Ereignis mit P (B) > 0.<br />

Bezeichne weiterh<strong>in</strong> A x := { ω | X(ω) = x } für <strong>die</strong> höchstens abzählbar vielen<br />

Werte von X. Dann def<strong>in</strong>iert<br />

f(x|B) := P (A x |B) = P (A x ∩ B)<br />

P (B)<br />

(2.33)<br />

<strong>die</strong> Wahrsche<strong>in</strong>lichkeitsverteilung von X unter der Bed<strong>in</strong>gung B oder von X<br />

gegeben B.<br />

Wegen ⋃ x<br />

A x = Ω <strong>und</strong> A x ∩ A y = ∅, x ≠ y, ist f(x|B) wohldef<strong>in</strong>iert, denn<br />

∑<br />

P (A x |B) = ∑<br />

x<br />

x<br />

P (A x ∩ B)<br />

P (B)<br />

=<br />

P (Ω ∩ B)<br />

P (B)<br />

= 1 .<br />

Def. 2.40 (Bed<strong>in</strong>gter Erwartungswert bzgl. B)<br />

Falls ∑ x<br />

|x| f(x|B) < ∞, nennt man<br />

E(X|B) := ∑ x<br />

x f(x|B)<br />

den bed<strong>in</strong>gten Erwartungswert von X bzgl. B oder den Erwartungswert von<br />

X gegeben B.<br />

Es folgt e<strong>in</strong> für spätere Rechnungen äußerst nützlicher Satz:


2.4. BEDINGTE VERTEILUNGEN UND ERWARTUNGSWERTE 73<br />

Satz 2.41 (Konditionieren des Erwartungswertes bzgl. B)<br />

X sei e<strong>in</strong>e (diskrete) ZV mit Erwartungswert E(X) <strong>und</strong> B e<strong>in</strong> Ereignis, so dass<br />

P (B) P (B c ) > 0, dann gilt<br />

E(X) = E(X|B) P (B) + E(X|B c ) P (B c ) . (2.34)<br />

Für vollständige Ereignismengen (B i ) i=1,2,...<br />

der Form<br />

1. ⋃ i<br />

B i = Ω<br />

2. B i ∩ B j = ∅, i ≠ j<br />

3. P (B i ) > 0, i = 1, 2, . . .<br />

gilt sogar allgeme<strong>in</strong>er<br />

E(X) = ∑ i<br />

E(X|B i ) P (B i ) . (2.35)<br />

Schließlich sei noch erwähnt, dass für A ⊂ B gilt<br />

E(X | A ∩ B) = E(X|A) . (2.36)<br />

Diese Resultate legen e<strong>in</strong> Approximationspr<strong>in</strong>zip für X durch e<strong>in</strong>fachere ZV (mit kle<strong>in</strong>erem<br />

Wertebereich) nahe, bei dem der Erwartungswert <strong>in</strong>variant bleibt.<br />

Def. 2.42 (Bed<strong>in</strong>gte Erwartung bzgl. A, A c )<br />

X sei e<strong>in</strong>e (diskrete) ZV mit Erwartungswert E(X), A e<strong>in</strong> Ereignis mit<br />

0 < P (A) < 1 <strong>und</strong> A := { Ω, ∅, A, A c }. Dann nennt man <strong>die</strong> ZV Z : Ω → R<br />

mit<br />

{<br />

E(X|A) , falls ω ∈ A<br />

Z(ω) :=<br />

E(X|A c ) , falls ω ∈ A c<br />

<strong>die</strong> bed<strong>in</strong>gte Erwartung von X gegeben A bzw. von X unter der Bed<strong>in</strong>gung<br />

A. Man schreibt auch Z = E(X|A). In <strong>die</strong>sem Fall nimmt Z genau zwei<br />

Werte mit den Wahrsche<strong>in</strong>lichkeiten P (A) <strong>und</strong> 1 − P (A) an.<br />

Satz 2.43 (Invarianz des Erwartungswerts)<br />

Unter den Voraussetzungen von Def. 2.42 gilt mit Satz 2.41<br />

E[Z] = E [ E(X|A) ] = E(X|A) P (A) + E(X|A c ) P (A c ) = E(X) .


74 KAPITEL 2. MEHRDIMENSIONALE VERTEILUNGEN<br />

Die bed<strong>in</strong>gte Erwartung stellt also <strong>in</strong> der Regel e<strong>in</strong>e Vergröberung, <strong>und</strong> damit oft<br />

e<strong>in</strong>e leichter handhabbare, vere<strong>in</strong>fachte Version der ursprünglichen ZV dar, ohne den<br />

Erwartungswert zu verändern. Zur E<strong>in</strong>gewöhnung der abstrakten Begriffe zunächst e<strong>in</strong><br />

e<strong>in</strong>faches Beispiel.<br />

Beispiel 2.44 (Diskrete Gleichverteilung)<br />

X sei diskret gleichverteilt auf { 1, 2, ..., 11, 12 } <strong>und</strong> A = { 9, 10, 11, 12 }. Damit ist<br />

P (A) = 1/3, E(X) = 6.5 <strong>und</strong> f(x) = 1/12 für alle x. Man erhält weiter<br />

Dies ergibt<br />

{<br />

0 , falls 1 ≤ x ≤ 8<br />

f(x|A) = 1<br />

, falls 9 ≤ x ≤ 12 .<br />

4<br />

E(X|A) = 10.5 , <strong>und</strong> E(X|A c ) = 4.5<br />

<strong>und</strong> <strong>die</strong> bed<strong>in</strong>gte Erwartung Z bezüglich A := { Ω, ∅, A, A c }<br />

Z(ω) = E(X|A) =<br />

{<br />

10.5 , falls ω ∈ A<br />

4.5 , falls ω ∈ A c .<br />

Damit gilt<br />

E[Z] = E [ E(X|A) ] = E(X|A) P (A)+E(X|A c ) P (A c ) = 10.5·1<br />

3 +4.5·2<br />

3 = 13<br />

2 = E(X) .<br />

2.4.2 Bed<strong>in</strong>gte Verteilungen<br />

Def. 2.45 (Diskrete bed<strong>in</strong>gte Verteilung)<br />

f(x, y) = P (X = x, Y = y) sei <strong>die</strong> geme<strong>in</strong>same Wahrsche<strong>in</strong>lichkeitsfunktion von<br />

(X, Y ). Dann lautet <strong>die</strong> bed<strong>in</strong>gte Verteilung von X gegeben Y = y oder von X<br />

unter der Bed<strong>in</strong>gung Y<br />

f X|Y (x|y) =<br />

f(x, y)<br />

f Y (y) , für alle y mit f Y (y) > 0 .<br />

f Y ist <strong>die</strong> Randwahrsche<strong>in</strong>lichkeitsfunktion bzgl. Y .


2.4. BEDINGTE VERTEILUNGEN UND ERWARTUNGSWERTE 75<br />

Def. 2.46 (Stetige bed<strong>in</strong>gte Verteilung)<br />

f(x, y) sei <strong>die</strong> geme<strong>in</strong>same Dichte der zweidimensionalen, stetigen ZV (X, Y ).<br />

Mit<br />

f Y (y) =<br />

∫ ∞<br />

−∞<br />

f(x, y) dx<br />

wird <strong>die</strong> Randdichte von Y bezeichnet. Dann ist für alle y mit f Y (y) > 0<br />

f X|Y (x|y) =<br />

f(x, y)<br />

f Y (y)<br />

<strong>die</strong> Dichte von X unter der Bed<strong>in</strong>gung Y bzw. von X gegeben Y = y.<br />

Satz 2.47 (Bed<strong>in</strong>gte Verteilung)<br />

f X|Y<br />

sei e<strong>in</strong>e Wahrsche<strong>in</strong>lichkeitsfunktion bzw. e<strong>in</strong>e Dichte. Dann gilt<br />

1. f X|Y ≥ 0<br />

2. ∑ x<br />

f X|Y (x) = 1, falls X diskret<br />

∞∫<br />

−∞<br />

f X|Y (x) dx = 1, falls X stetig.<br />

Beispiel 2.48 (Bed<strong>in</strong>gte Normalverteilung)<br />

Wir betrachten wie schon <strong>in</strong> Def. 2.10 <strong>und</strong> den Beispielen 2.13, 2.21 <strong>und</strong> 2.35 <strong>die</strong><br />

zweidimensionale Normalverteilung von X <strong>und</strong> Y mit E(X) = µ x , E(Y ) = µ y sowie<br />

V ar(X) = σ 2 x > 0 <strong>und</strong> V ar(Y ) = σ 2 y > 0. Für den Korrelationskoeffizienten −1 < ρ < 1<br />

lautet dann <strong>die</strong> geme<strong>in</strong>same Dichte<br />

[<br />

(<br />

1<br />

f(x, y) = √<br />

2πσ x σ exp 1 (x − µx ) 2<br />

−<br />

y 1 − ρ<br />

2 2(1 − ρ 2 )<br />

σ 2 x<br />

− 2ρ(x − µ x)(y − µ y )<br />

+ (y − µ y) 2 )]<br />

.<br />

σ x σ y σy<br />

2<br />

Nach Bsp. 2.13 (2) hat Y e<strong>in</strong>e N(µ y , σ 2 y)-Dichte. Deshalb lautet <strong>die</strong> bed<strong>in</strong>gte Dichte<br />

von X bzgl. gegebenem Y = y<br />

f X|Y (x|y) =<br />

⎛<br />

f(x, y)<br />

f Y (y) = 1<br />

√<br />

σ x 2π (1 − ρ 2 ) exp 1<br />

⎝−<br />

2(1 − ρ 2 )<br />

( x − µx<br />

− ρ (y − µ ) ⎞ 2<br />

y)<br />

⎠ .<br />

σ x σ y<br />

Damit ist <strong>die</strong> bed<strong>in</strong>gte Dichte von X gegeben Y = y vom Typ e<strong>in</strong>er e<strong>in</strong>dimensionalen<br />

Normalverteilung<br />

N(µ x + ρ σ x<br />

σ y<br />

(y − µ y ), σ 2 x (1 − ρ 2 )).


76 KAPITEL 2. MEHRDIMENSIONALE VERTEILUNGEN<br />

Der Erwartungswert von X|Y = y bei bed<strong>in</strong>gten Normalverteilungen hängt also ab<br />

von den Standarabweichungen σ x , σ y , dem Korrelationskoefizienten ρ <strong>und</strong> den Erwartungswerten<br />

µ x <strong>und</strong> µ y . Nach <strong>die</strong>sen expliziten Rechnungen suchen wir wieder e<strong>in</strong>en<br />

abstrakten Zugang.<br />

2.4.3 Bed<strong>in</strong>gte Erwartung<br />

Def. 2.49 (Bed<strong>in</strong>gte Erwartung)<br />

f X|Y sei e<strong>in</strong>e bed<strong>in</strong>gte Wahrsche<strong>in</strong>lichkeitsfunktion bzw. bed<strong>in</strong>gte Dichte <strong>und</strong> F X|Y<br />

<strong>die</strong> zugehörige Verteilungsfunktion. Man setzt<br />

E(X|Y ) = E(X|Y = y) =<br />

∫ ∞<br />

−∞<br />

⎧<br />

⎪⎨<br />

xdF X|Y (x) =<br />

⎪⎩<br />

∑<br />

xf X|Y (x) , diskret<br />

x<br />

∞∫<br />

xf X|Y (x) dx , stetig.<br />

−∞<br />

Die bed<strong>in</strong>gte Erwartung Z := E(X|Y ) ist e<strong>in</strong>e Zufallsvariable Z : Ω → R<br />

mit dem Wertebereich W = { E(X|Y = y) | f Y (y) > 0 }. Im diskreten Fall kann<br />

also <strong>die</strong> bed<strong>in</strong>gte Erwartung höchstens so viele Werte annehmen wie Y selbst<br />

(abgesehen von e<strong>in</strong>er sog. Nullmenge N ⊂ Ω mit P (N) = 0).<br />

Satz 2.50 (Bed<strong>in</strong>gter Erwartungswert)<br />

Falls beide Seiten existieren, gilt<br />

E[ E(X|Y ) ] = E(X) .<br />

Obige Sätze können zum Beispiel zur elementaren Analyse der e<strong>in</strong>fachen Irrfahrt (random<br />

walk) herangezogen werden; vgl. [Stirzaker (1994)], pp. 145. Wir fahren zur Illustration<br />

mit e<strong>in</strong>em abstrakten Beispiel fort.<br />

Beispiel 2.51 (Der e<strong>in</strong>fachste Fall)<br />

Ω sei abzählbar, X : Ω → R e<strong>in</strong>e ZV mit Wahrsche<strong>in</strong>lichkeitsfunktion f(ω) = P ({ω})<br />

<strong>und</strong> existierendem Erwartungswert E(X) = ∑ X(ω) f(ω).<br />

ω<br />

Seien weiter A ⊂ Ω mit 0 < p := P (A) < 1, Y := 1 A <strong>die</strong> Indikatorfunktion von A<br />

sowie E A (X) = ∑ X(ω) f(ω) <strong>und</strong> E A c(X) = ∑<br />

X(ω) f(ω). Wir def<strong>in</strong>ieren<br />

ω∈A<br />

ω∈A c<br />

⎧<br />

1 ⎪⎨<br />

Z(ω) := E(X|Y )(ω) =<br />

E p A(X) , falls ω ∈ A<br />

⎪⎩ 1<br />

E 1−p A c(X) , falls ω ∈ Ac ,


2.4. BEDINGTE VERTEILUNGEN UND ERWARTUNGSWERTE 77<br />

das für y = 1 (falls ω ∈ A) bzw. y = 0 (falls ω ∈ A c ) zwei verschiedene Werte mit<br />

Wahrsche<strong>in</strong>lichkeit p bzw. 1 − p annimmt. Nun gilt<br />

E(Z) = E(X|Y ) = p · 1<br />

p E 1<br />

A(X) + (1 − p)<br />

1 − p E A c(X) = E A(X) + E A c(X)<br />

= ∑ X(ω) f(ω) + ∑<br />

X(ω) f(ω) = ∑ X(ω) f(ω) = E(X) .<br />

ω∈A<br />

ω∈A c ω<br />

Unter anderem verwendet man auch <strong>die</strong> Schreibweise<br />

E(X | Y = 1) = 1 p E A(X) bzw. E(X | Y = 0) = 1<br />

1 − p E A c(X) .<br />

Satz 2.52 (Eigenschaften bed<strong>in</strong>gter Erwartungen)<br />

Seien a <strong>und</strong> b Konstanten, g(·) e<strong>in</strong>e beliebige Funktion <strong>und</strong> X, Y <strong>und</strong> Z geme<strong>in</strong>sam<br />

verteilt. Dann gilt<br />

1. E(a | Y ) = a<br />

2. E(a X + b Z | Y ) = a E(X|Y ) + b E(Z|Y )<br />

3. E(X|Y ) ≥ 0, falls X ≥ 0<br />

4. E(X|Y ) = E(X), falls X <strong>und</strong> Y unabhängig s<strong>in</strong>d<br />

5. E(X g(Y ) | Y ) = g(Y ) E(X|Y )<br />

6. E[ X | Y ; g(Y ) ] = E(X|Y )<br />

7. E[ E(X|Y ; Z) | Y ] = E(X|Y ).<br />

f(x, y, z) <strong>die</strong> Randwahrsche<strong>in</strong>-<br />

Bezeichnet etwa im diskreten Fall f Y,Z (y, z) = ∑ x<br />

lichkeitsfunktion, so def<strong>in</strong>iert man<br />

E(X | Y ; Z) = ∑ x<br />

x f(x, y, z)<br />

f Y,Z (y, z) .<br />

Die Eigenschaft 7. ermöglicht es, Bed<strong>in</strong>gungen <strong>in</strong> beliebiger Ordnung h<strong>in</strong>tere<strong>in</strong>anderzuschalten.


78 KAPITEL 2. MEHRDIMENSIONALE VERTEILUNGEN<br />

Satz 2.53 (Projektionseigenschaft)<br />

Für jede (messbare) Funktion h(Y ) mit E [ h(Y ) 2 ] < ∞ gilt<br />

E [ (X − h(Y )) 2 ] ≥ E [ (X − E(X|Y )) 2 ] .<br />

Falls h(Y ) e<strong>in</strong>e Funktion von Y ist, so dass E(X − h(Y )) 2 = E(X − E(X|Y )) 2 ,<br />

dann gilt<br />

E [ (h(Y ) − E(X|Y )) 2 ] = 0.<br />

Weitere Details entnehme man z. B. [Stirzaker (1994)], pp. 144.<br />

L<strong>in</strong>eare Prognose<br />

Aus der Projektionseigenschaft von Satz 2.53 leitet man ab, dass <strong>die</strong> bed<strong>in</strong>gte Erwartung<br />

E(X|Y ) bei Kenntnis von Y <strong>die</strong> (unbekannte) ZV X m<strong>in</strong>destens ebenso gut<br />

approximiert, wie <strong>die</strong> l<strong>in</strong>eare Bestapproximation<br />

wobei<br />

<strong>und</strong><br />

h l<strong>in</strong> (Y ) := a ∗ + b ∗ Y , (2.37)<br />

E [ (X − a ∗ − b ∗ Y ) 2 ] ≤ E [ (X − a − b Y ) 2 ] für alle a, b ∈ R ,<br />

b ∗ = Cov(X, Y )<br />

V ar(Y )<br />

, a ∗ = E(X) − b E(Y ) . (2.38)<br />

Wie erwähnt, liefert <strong>die</strong> bed<strong>in</strong>gte Erwartung stets e<strong>in</strong>e optimale Approximation im S<strong>in</strong>ne<br />

von Satz 2.53. Im Falle e<strong>in</strong>er zweidimensionalen Normalverteilung von (X, Y ) stimmt<br />

<strong>die</strong> bed<strong>in</strong>gte Erwartung mit der l<strong>in</strong>earen Bestapproximation von (2.37)<br />

übere<strong>in</strong>; vgl. Beispiel 2.48.<br />

Die Resultate von (2.38) lassen sich elementar, etwa mit den Techniken zum Beweis<br />

von |ρ(X, Y )| ≤ 1, herleiten. Interessant ist der formale Zusammenhang zur empirischen<br />

Regression von Abschnitt 7.9. Dort s<strong>in</strong>d lediglich <strong>die</strong> Rollen von X <strong>und</strong> Y zu<br />

vertauschen <strong>und</strong> <strong>die</strong> hier vorkommenden theoretischen Größen durch <strong>die</strong> entsprechenden<br />

empirischen Schätzungen zu ersetzen.


2.5. ORDNUNGSSTATISTIKEN 79<br />

2.5 Ordnungsstatistiken<br />

In <strong>die</strong>sem Abschnitt seien X, X 1 , . . . , X n iid <strong>und</strong> stetig mit Dichte f <strong>und</strong> Verteilungsfunktion<br />

F . Die Notation ist an [Stirzaker (1994)], pp. 288 angelehnt.<br />

Die Ordnung der X 1 , . . . , X n <strong>in</strong> aufsteigender Reihenfolge ist e<strong>in</strong>e weitere <strong>in</strong>teressante<br />

Anwendung l<strong>in</strong>earer Transformationen von ZV, <strong>die</strong> bereits <strong>in</strong> Satz 2.32 <strong>und</strong> Bsp. 2.34<br />

e<strong>in</strong>mal behandelt wurden. Seien also<br />

Y 1 = m<strong>in</strong> { X 1 , . . . , X n }<br />

Y 2 = zweitkle<strong>in</strong>stes Element der X 1 , . . . , X n (2.39)<br />

. . . . . .<br />

Y n = max { X 1 , .. , X n } .<br />

Weiterh<strong>in</strong> verwenden wir <strong>die</strong> Bezeichnung Y k = X (k) , daneben ist auch Y k = X k:n<br />

gebräuchlich.<br />

Def. 2.54 (Ordnungsstatistiken)<br />

X 1 , . . . , X n seien identisch verteilt. Man nennt dann<br />

Y 1 , . . . , Y n = X (1) , . . . , X (n)<br />

= X 1:n , . . . , X n:n<br />

mit den Eigenschaften (2.39) <strong>die</strong> Ordnungsstatistiken von X 1 , . . . , X n .<br />

Die Y 1 , . . . , Y n s<strong>in</strong>d wohldef<strong>in</strong>iert, da bei stetigen ZV gleiche Werte<br />

X k (ω) = X j (ω), k ≠ j nur mit Wahrsche<strong>in</strong>lichkeit 0 auftreten.<br />

Die Transformation (2.39) ist l<strong>in</strong>ear, aber nicht e<strong>in</strong>e<strong>in</strong>deutig. Um das e<strong>in</strong>zusehen, nehmen<br />

wir y 1 < y 2 < . . . < y n an. Die Ergebnisse des Zufallsexperiments<br />

X 1 = y 1 , X 2 = y 2 , . . . , X n = y n <strong>und</strong> X 2 = y 1 , X 1 = y 2 , . . . , X n = y n<br />

ergeben <strong>die</strong> gleiche statistische Ordnung, nämlich<br />

X (1) = y 1 , X (2) = y 2 , . . . , X (n) = y n .<br />

Falls (π(1), . . . , π(n)) e<strong>in</strong>e der n! verschiedenen Permutationen der ersten n natürlichen<br />

Zahlen <strong>und</strong> R π das Gebiet x π(1) < . . . < x π(n) ist, dann ist <strong>die</strong> Transformation<br />

x (k) = x π(k) ,<br />

1 ≤ k ≤ n<br />

e<strong>in</strong>e<strong>in</strong>deutig <strong>und</strong> l<strong>in</strong>ear. In <strong>die</strong>sem Fall gilt mit A = (a ij ) <strong>und</strong><br />

{<br />

1 , falls i = π(j)<br />

a ij =<br />

0 , sonst,<br />

|det(A)| = 1. Man sieht, dass (X 1 , . . . , X n ) genau <strong>in</strong> e<strong>in</strong>em der n! Gebiete von R π liegt.


80 KAPITEL 2. MEHRDIMENSIONALE VERTEILUNGEN<br />

Damit haben <strong>die</strong> Ordnungsstatistiken für iid X 1 , . . . , X n mit Dichte f gemäß Satz 2.32<br />

e<strong>in</strong>e geme<strong>in</strong>same Dichte g der Form<br />

⎧<br />

⎪⎨ n!<br />

g(y 1 , . . . , y n ) =<br />

⎪⎩<br />

n∏<br />

f(y i ) , falls y 1 < y 2 < . . . < y n<br />

i=1<br />

0 , sonst .<br />

(2.40)<br />

Beispiel 2.55 (Randverteilungen, Gleichverteilung)<br />

1. Randverteilung der X (k)<br />

Die Dichten g (k) der Randverteilungen von X (k) lauten folgendermaßen<br />

g (k) (y) = k ( )<br />

n<br />

k f(y) [1 − F (y)] n−k [F (y)] k−1 , (2.41)<br />

wobei f bzw. F Dichte bzw. Verteilungsfunktion der iid X i bezeichnen. Das Ereignis<br />

X (k) ≤ y ereignet sich genau dann, wenn m<strong>in</strong>destens k der X j <strong>in</strong> (−∞, y]<br />

liegen. Die Wahrsche<strong>in</strong>lichkeit, dass <strong>die</strong>ses Ereignis für genau e<strong>in</strong>es der X j auftritt,<br />

( ) ergibt sich über <strong>die</strong> B<strong>in</strong>omialverteilung mit p := P (X ≤ y) = F (y) zu<br />

n<br />

j F (y) j [1 − F (y)] n−j . Dann gilt für m<strong>in</strong>destens k solche Ereignisse<br />

G (k) (y) = P ( X (k) ≤ y ) =<br />

n∑<br />

j=k<br />

( n<br />

j<br />

)<br />

F (y) j [1 − F (y)] n−j .<br />

Differenzieren liefert <strong>die</strong> Dichte<br />

g (k) (y) = f(y)<br />

n∑<br />

j=k<br />

j ( )<br />

n<br />

j F j−1 [1 − F ] n−j − (j + 1) ( )<br />

n<br />

j+1 F j [1 − F ] n−j−1<br />

= f(y) k ( )<br />

n<br />

k F (y) k−1 [1 − F (y)] n−k ,<br />

wobei sich <strong>die</strong> e<strong>in</strong>zelnen Summenglieder der Reihe nach wegheben, ( )<br />

n<br />

n+1 = 0 <strong>und</strong><br />

F k = [F (y)] k .<br />

2. Gleichverteilung<br />

Gemäß Korollar 1.56 ist bei stetigem X mit Verteilungsfunktion F <strong>die</strong> Zufallsvariable<br />

U := F (X) gleichverteilt <strong>in</strong> (0, 1). Die Transformation U = F (X)<br />

ermöglicht <strong>in</strong> manchen Bereichen e<strong>in</strong>en e<strong>in</strong>heitlichen Zugang, <strong>in</strong>dem zunächst<br />

<strong>die</strong> Aussagen für gleichverteilte ZV hergeleitet werden <strong>und</strong> danach e<strong>in</strong>e Rücktransformation<br />

für <strong>die</strong> ursprüngliche ZV erfolgt. Diese Vorgehensweise bietet sich<br />

<strong>in</strong>sbesondere bei Ordnungsstatistiken an.<br />

(X 1 , . . . , X n ) seien unabhängig <strong>und</strong> gleichverteilt <strong>in</strong> (0, a), a > 0. Dann lautet <strong>die</strong><br />

Dichte der Ordnungsstatistiken<br />

g(y 1 , . . . , y n ) = n!<br />

a n für y 1 < y 2 < . . . , y n . (2.42)


2.5. ORDNUNGSSTATISTIKEN 81<br />

O.B.d.A. setzen wir jetzt a = 1 (Übergang von X zu X/a). Für (0, 1)-gleichverteiltes<br />

X lauten Verteilungsfunktion F (x) = x für x ∈ (0, 1) <strong>und</strong> Dichte<br />

f(x) = 1 (0,1) (x). Gemäß (2.41) erhält man dann für <strong>die</strong> Ordnungsstatistiken <strong>die</strong><br />

Randdichten<br />

g (k) (y) = k ( )<br />

n<br />

k y k−1 (1 − y) n−k für y ∈ (0, 1) .<br />

Zur Berechnung der Erwartungswerte benötigen wir noch<br />

Lemma 2.56<br />

Für k = 0, 1, . . . , n gilt<br />

I k :=<br />

∫ 1<br />

0<br />

( n<br />

k)<br />

y k (1 − y) n−k dy = 1<br />

n + 1 .<br />

Beweis z. B. mit Induktion.<br />

Nun kann der Erwartungswert der k-ten Ordnungsstatistik angegeben werden<br />

E [ X (k)<br />

]<br />

=<br />

=<br />

∫1<br />

0<br />

∫ 1<br />

0<br />

y k ( )<br />

n<br />

k (1 − y) n−k y k−1 dy<br />

k ( )<br />

n<br />

k (1 − y) n−k y k dy = k I k = k<br />

n + 1 .<br />

Für (0, a)-gleichverteilte ZV erhält man entsprechend<br />

E [ X (k)<br />

]<br />

=<br />

k a<br />

n + 1 . (2.43)


Kapitel 3<br />

Erzeugende Funktionen<br />

Wir beschränken uns <strong>in</strong> <strong>die</strong>sem Abschnitt auf <strong>die</strong> praktisch besonders wichtigen Fälle<br />

stetiger Zufallsvariablen (ZV) <strong>und</strong> diskreter mit dem Wertebereich N 0 := { 0, 1, 2, ... }.<br />

Aus technischen Gründen werden nicht angenommene Werte mit Wahrsche<strong>in</strong>lichkeit 0<br />

belegt; also bei B(n, p)-verteiltem Y setzt man P (Y = m) = 0 für m = n + 1, n + 2, ....<br />

Generell seien <strong>die</strong> Komponenten X k des Zufallsvektors X = (X 1 , ..., X n ) T unabhängig.<br />

Die folgenden Transformationen s<strong>in</strong>d besonders hilfreich bei<br />

1. der Festlegung von Wahrsche<strong>in</strong>lichkeitsfunktionen für diskrete ZV mit nichtnegativen<br />

ganzzahligen Werten<br />

2. der e<strong>in</strong>fachen Berechnung von Momenten (differenzieren anstatt summieren <strong>und</strong><br />

<strong>in</strong>tegrieren); Momente spielen <strong>in</strong> vielen stochastischen Modellen e<strong>in</strong>e Rolle <strong>und</strong><br />

liefern e<strong>in</strong>fache Schätzmethoden für unbekannte Parameter<br />

3. der Berechnung von Grenzverteilungen<br />

4. der Lösung von Differenzen- <strong>und</strong> Differentialgleichungen im Zusammenhang mit<br />

stochastischen Prozessen; vgl. u.a. [Resnick (1994)]<br />

3.1 Nichtnegative, ganzzahlige Zufallsvariable<br />

Zunächst behandeln wir e<strong>in</strong>e elegante Methode zur kompakten Beschreibung von diskreten<br />

Wahrsche<strong>in</strong>lichkeitsgesetzen. Aus der Theorie der analytischen Funktionen ist<br />

der e<strong>in</strong>e<strong>in</strong>deutige Zusammenhang zwischen der Funktion <strong>und</strong> den Koeffizienten der entsprechenden<br />

Potenzreihe bekannt. Dies nützen wir hier aus. Sei zunächst (a i ) = (a i ) i∈N0<br />

e<strong>in</strong>e beliebige reelle Zahlenfolge. Später werden <strong>die</strong> a i durch Wahrsche<strong>in</strong>lichkeiten p i<br />

ersetzt. Falls nichts anderes gesagt wird, sei stets i ∈ N 0 .<br />

82


3.1. NICHTNEGATIVE, GANZZAHLIGE ZUFALLSVARIABLE 83<br />

Def. 3.1 (Erzeugende Funktion von (a i ))<br />

∞∑<br />

g a (s) := a i s i<br />

i=0<br />

heißt erzeugende Funktion (generat<strong>in</strong>g function) der Folge (a i ), falls es e<strong>in</strong><br />

s 0 > 0 gibt, so dass g a (|s|) < ∞ für alle |s| < s 0 .<br />

Bei diskreten Wahrsche<strong>in</strong>lichkeitsverteilungen ist der Konvergenzradius wegen<br />

∑<br />

pi = 1 m<strong>in</strong>destens gleich 1.<br />

Satz 3.2 (E<strong>in</strong>deutigkeit)<br />

Falls s 0 , s 1 existieren, so dass<br />

−∞ < g a (s) = g b (s) < ∞ für alle s 0 < s < s 1 ,<br />

so folgt aus dem Identitätssatz für Potenzreihen<br />

a i = b i für alle i ∈ N 0 .<br />

Erzeugende Funktionen s<strong>in</strong>d e<strong>in</strong> Standardhilfsmittel zum Lösen l<strong>in</strong>earer Differenzengleichungen;<br />

siehe u.a. [Stirzaker (1994)], pp. 58-60 oder [Resnick (1994)], pp. 7-17 and<br />

pp. 33.<br />

Wir wenden uns jetzt dem Spezialfall zu, dass <strong>die</strong> Folge der a i e<strong>in</strong>e diskrete Wahrsche<strong>in</strong>lichkeitsverteilung<br />

charakterisiert.<br />

Def. 3.3 (Erzeugende Funktion; generat<strong>in</strong>g function)<br />

Die diskrete Zufallsvariable Y nehme <strong>die</strong> Werte i = 0, 1, 2, ... mit Wahrsche<strong>in</strong>lichkeiten<br />

p i := P (Y = i) = f Y (i) = f(i) ≥ 0 an. Dann heißt<br />

G(s) = G Y (s) := E(s Y ) = ∑ i<br />

p i s i = ∑ i<br />

f(i) s i (3.1)<br />

erzeugende Funktion von Y .


84 KAPITEL 3. ERZEUGENDE FUNKTIONEN<br />

Satz 3.4 (Erzeugende Funktion)<br />

Unter den Voraussetzungen von Def<strong>in</strong>ition 3.3 gilt:<br />

1. Der Konvergenzradius von (3.1) ist m<strong>in</strong>destens 1, da G Y (1) = ∑ i<br />

p i ≤ 1.<br />

2. G Y bestimmt <strong>die</strong> Verteilung p i e<strong>in</strong>deutig; d. h. falls G Y = G Z , so s<strong>in</strong>d Y<br />

<strong>und</strong> Z identisch verteilt.<br />

3. G Y ist analytisch mit den m-ten Ableitungen<br />

4. In s = 1 gilt<br />

G (m)<br />

Y (s) =<br />

∞∑<br />

i=m<br />

G (m)<br />

Y (1) =<br />

falls <strong>die</strong> rechte Seite konvergiert.<br />

i!<br />

(i − m)! p i s i−m , |s| < 1 .<br />

∞∑<br />

i=m<br />

i!<br />

(i − m)! p i ,<br />

5. Falls auch ∞ als Erwartungswert zugelassen wird, so gilt<br />

G (m)<br />

Y (1) = E [Y (Y − 1) · ... · (Y − m + 1)] .<br />

Bei endlichen faktoriellen Momenten lassen sich <strong>die</strong> gewöhnlichen Momente<br />

e<strong>in</strong>fach berechnen, z. B. mit G = G Y<br />

usw.<br />

E(Y ) = G ′ (1)<br />

V ar(Y ) = G ′′ (1) + G ′ (1) − [G ′ (1)] 2<br />

Beispiel 3.5 (Erzeugende Funktionen)<br />

1. B<strong>in</strong>omialverteilung B(n, p), q := 1 − p:<br />

G(s) = (q + p s) n (3.2)<br />

2. Poisson-Verteilung P (λ):<br />

G(s) = e λ(s−1) (3.3)<br />

3. Geometrische Verteilung p i = p q i , i = 0, 1, 2, ...; q := 1 − p:<br />

G(s) =<br />

p<br />

1 − qs<br />

(3.4)<br />

Bevor wir uns Summen von unabhängigen diskreten Zufallsvariablen zuwenden, zunächst<br />

e<strong>in</strong>e formale Def<strong>in</strong>ition.


3.1. NICHTNEGATIVE, GANZZAHLIGE ZUFALLSVARIABLE 85<br />

Def. 3.6 (Faltung)<br />

a 0 , a 1 , a 2 , ... <strong>und</strong> b 0 , b 1 , b 2 , ... seien reelle Folgen. Die durch<br />

k∑<br />

c k = a i b k−i , k = 0, 1, 2, ... (3.5)<br />

i=0<br />

def<strong>in</strong>ierte Folge (c k ) heißt Faltung (convolution) der (a i ) <strong>und</strong> (b j ).<br />

Faltungen s<strong>in</strong>d u.a. kommutativ, denn für k = 0, 1, 2, ... gilt<br />

k∑<br />

c k = a i b k−i = ∑<br />

k∑<br />

a i b j = a k−j b j .<br />

i=0<br />

i+j=k j=0<br />

Faltungen s<strong>in</strong>d abstrakte Hilfsmittel zur Darstellung der Wahrsche<strong>in</strong>lichkeitsverteilungen<br />

von Summen unabhängiger ZV.<br />

Z bzw. Y , jeweils mit Wertebereich N 0 <strong>und</strong> Wahrsche<strong>in</strong>lichkeitsfunktionen f Z bzw.<br />

f Y seien unabhängig. Gesucht ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeitsfunktion f W <strong>und</strong> später <strong>die</strong><br />

erzeugende Funktion der Summe W := Z + Y . Es gilt<br />

c k := f W (k) = P (W = k) = P (Z + Y = k)<br />

=<br />

k∑<br />

P (Z = i) P (Y = k − i) vgl. (3.7)<br />

i=0<br />

=<br />

k∑<br />

k∑<br />

f Z (i) f Y (k − i) = a i b k−i , (3.6)<br />

i=0<br />

i=0<br />

wobei a i := f Z (i) <strong>und</strong> b j := f Y (j), i, j ∈ N 0 <strong>und</strong> wieder der Satz von der totalen<br />

Wahrsche<strong>in</strong>lichkeit angewendet wurde, nämlich:<br />

Unter der Bed<strong>in</strong>gung Z = i gilt Z + Y = k genau dann, wenn Y = k − i; also mit<br />

P (A) = P (A|B) für unabhängige A <strong>und</strong> B<br />

P (Z + Y = k) =<br />

=<br />

=<br />

∞∑<br />

P (Z = i) P (Z + Y = k | Z = i)<br />

i=0<br />

∞∑<br />

P (Z = i) P (Y = k − i | Z = i) (3.7)<br />

i=0<br />

k∑<br />

P (Z = i) P (Y = k − i) ;<br />

i=0<br />

für i > k gilt k − i < 0 <strong>und</strong> somit P (Y = k − i) = 0 .<br />

Beispiel 3.7 (Summe von Poisson-Variablen)<br />

In Spezialfällen läßt sich <strong>die</strong> Faltung direkt bestimmen. Seien Z ∼ P oi(λ) <strong>und</strong> Y ∼


86 KAPITEL 3. ERZEUGENDE FUNKTIONEN<br />

P oi(µ) unabhängig, dann ist W := Z + Y Poisson-verteilt mit Parameter λ + µ, denn<br />

k∑<br />

k∑<br />

f W (k) = c k = f Z (i) f Y (k − i) =<br />

i=0<br />

i=0<br />

= e −λ−µ 1 k∑<br />

k!<br />

i=0<br />

= e −(λ+µ) 1 ( )<br />

k∑ k<br />

k!<br />

i=0<br />

i<br />

λ i<br />

i!<br />

k!<br />

i! (k − i)! λi µ k−i<br />

e−λ<br />

µk−i<br />

(k − i)! e−µ<br />

λ i µ k−i −(λ+µ) (λ + µ)k<br />

= e .<br />

k!<br />

Diese eher mühsame Herleitung läßt sich elegant umgehen. Dazu beachte man, dass<br />

für <strong>die</strong> Multiplikation von g a , g b , g c , der erzeugenden Funktionen bzgl. (a i ), (b j ), (c k )<br />

mit der üblichen Umordnung von Doppelsummen <strong>und</strong> der Faltung (3.5) gilt<br />

( ∞<br />

) ⎛ ⎞<br />

∑<br />

∞∑<br />

∞∑ ∞∑<br />

g a (s) · g b (s) = a i s i ⎝ b j s j ⎠ = a i s i b j s j<br />

i=0<br />

j=0<br />

i=0 j=0<br />

∞∑ k∑<br />

∞∑<br />

= a i b k−i s k = c k s k<br />

k=0 i=0<br />

k=0<br />

= g c (s) .<br />

Dies ergibt den wichtigen<br />

Satz 3.8 (Summen unabhängiger ZV)<br />

(Z, Y ) bzw. (X 1 , ..., X n ) seien unabhängige diskrete ZV mit Wertebereich N 0 .<br />

Dann gilt für <strong>die</strong> erzeugenden Funktionen der Summen<br />

G Z+Y (s) = G Z (s) G Y (s)<br />

G X1 +...+X n<br />

(s) = G X1 (s) · ... · G Xn (s) .<br />

Beweis:<br />

In den vorangegangenen Überlegungen wurde <strong>die</strong> Aussage des Satzes konstruktiv hergeleitet.<br />

Formal kann der Beweis <strong>in</strong> e<strong>in</strong>er Zeile geführt werden. Da Z <strong>und</strong> Y unabhängig<br />

s<strong>in</strong>d, gilt <strong>die</strong>s auch für t Z <strong>und</strong> t Y ; also<br />

G Z+Y (s) = E [ s Z+Y ] = E [ s Z s Y ] = E [ s Z] E [ s Y ] = G Z (s) G Y (s) ,<br />

wobei <strong>die</strong> Multiplikationsregel für Erwartungswerte bei unabhängigen ZV benutzt wurde.<br />

Der Beweis im n-dim. Fall geht völlig analog.<br />

Beispiel 3.9<br />

1. B<strong>in</strong>omialverteilung<br />

Seien Z bzw. Y unabhängig B(n, p)− bzw. B(m, p)−verteilt, dann ist <strong>die</strong> Summe<br />

Z + Y wie B(n + m, p)−verteilt, denn mit n, m ∈ N, 0 < p < 1 <strong>und</strong> q := 1 − p<br />

gilt:<br />

G Z+Y (s) = G Z (s) · G Y (s) = (q + p s) n · (q + p s) m = (q + p s) n+m


3.2. MOMENTERZEUGENDE FUNKTION 87<br />

2. Poisson-Verteilung<br />

Für unabhängig P oi(λ Z )− bzw. P oi(λ Y )−verteilte ZV<br />

Z bzw. Y gilt<br />

G Z+Y (s) = G Z (s) · G Y (s) = e λ Z(s−1) · e λ Y (s−1) = e (λ Z+λ Y ) (s−1) .<br />

Am Beispiel der Poisson-Verteilung wird <strong>die</strong> Arbeitserleichterung bei Verwendung der<br />

erzeugenden Funktion im Vergleich zur direkten Berechnung der Faltung deutlich.<br />

3.2 Momenterzeugende Funktion<br />

Nun wird <strong>die</strong> Beschränkung auf ganzzahlige ZV fallengelassen. E<strong>in</strong> allgeme<strong>in</strong>er Zugang<br />

zur Charakterisierung der Verteilung e<strong>in</strong>er ZV Y führt über <strong>die</strong> charakteristische<br />

Funktion φ Y (s) := E [ e i s Y ] , i 2 = −1. Diese Fouriertransformierte existiert für beliebige<br />

ZV <strong>und</strong> wird <strong>in</strong> weiterführenden Vorlesungen näher untersucht.<br />

Hier behandeln wir e<strong>in</strong>e e<strong>in</strong>fachere, ähnliche Transformation, <strong>die</strong> für <strong>die</strong> meisten wichtigen<br />

ZV def<strong>in</strong>iert ist (leider nicht für alle!); vgl. auch [Stirzaker (1994)], pp. 239.<br />

Def. 3.10 (Momenterzeugende Funktion)<br />

Falls für <strong>die</strong> ZV Y mit VF F Y<br />

gilt: E(e s Y ) < ∞, für |s| < ɛ, ɛ > 0, so heißt<br />

M(s) = M Y (s) := E ( e s Y ) =<br />

momenterzeugende Funktion von Y .<br />

∫∞<br />

−∞<br />

e s y dF Y (y)<br />

E<strong>in</strong> endlicher Wert M Y (s) für s = t <strong>und</strong> für s = −t, t ≠ 0, sichert bereits <strong>die</strong> Existenz<br />

aller absoluten Momente E ( |Y | k) , k ∈ N. Denn das schnell wachsende e s y dom<strong>in</strong>iert<br />

für ausreichend großes y (s > 0) bzw. für genügend kle<strong>in</strong>es negatives y (s < 0) jede<br />

Potenzfunktion |y k |, k ∈ N. Umgekehrt kann man aus der Existenz aller Momente noch<br />

nicht auf <strong>die</strong> Existenz der momenterzeugenden Funktion schließen (vgl. Lognormalverteilung).<br />

Die Wahl des Namens für M Y<br />

wird durch folgenden Satz klar.


88 KAPITEL 3. ERZEUGENDE FUNKTIONEN<br />

Satz 3.11 (E<strong>in</strong>deutigkeit <strong>und</strong> Momente)<br />

Falls für <strong>die</strong> ZV Y <strong>die</strong> momenterzeugende Funktion M <strong>in</strong> e<strong>in</strong>er Umgebung der 0<br />

existiert, so gilt:<br />

1. Durch k-maliges Differenzieren erhält man <strong>die</strong> Momente von Y<br />

µ k = E [ Y k] = M (k) (0) = ∂k M(0)<br />

∂s k k = 0, 1, 2, ...<br />

2. M Y bestimmt <strong>die</strong> Verteilung von Y e<strong>in</strong>deutig <strong>und</strong> es gilt<br />

M Y (s) =<br />

∞∑<br />

k=0<br />

µ k<br />

s k<br />

k! .<br />

Satz 3.12 (Summen unabhängiger ZV)<br />

(Z, Y ) bzw. (X 1 , ..., X n ) seien unabhängige ZV mit existierenden momenterzeugenden<br />

Funktionen. Dann existieren <strong>die</strong>se Transformierten auch für <strong>die</strong> Summen<br />

<strong>und</strong> es gilt<br />

M Z+Y (s) = M Z (s) M Y (s)<br />

M X1 +...+X n<br />

(s) = M X1 (s) · ... · M Xn (s) .<br />

Der Beweis ist völlig analog zu dem für erzeugende Funktionen.<br />

Beispiel 3.13 (Momenterzeugende Funktion)<br />

1. Poisson-Verteilung: Y ∼ P oi(λ)<br />

M Y (s) = exp [λ (e s − 1)] (3.8)<br />

2. Normalverteilung: Z ∼ N(µ, σ 2 )<br />

M Z (s) = exp<br />

(µ s + 1 )<br />

2 σ2 s 2<br />

(3.9)<br />

3. Gleichverteilung: W ∼ U(0, a), a > 0<br />

M W (s) = ea s − 1<br />

a s<br />

(3.10)<br />

4. Gammaverteilung: Y ∼ Γ(q, λ), q > 0, λ > 0<br />

M Y (s) =<br />

( ) q<br />

λ<br />

, (3.11)<br />

λ − s


3.2. MOMENTERZEUGENDE FUNKTION 89<br />

woraus sich für den Spezialfall der Exponentialverteilung V ∼ ED(λ) = Γ(1, λ)<br />

ergibt.<br />

M V (s) =<br />

λ<br />

λ − s<br />

Die Herleitungen der genannten Formeln f<strong>in</strong>det man <strong>in</strong> [Stirzaker (1994)], p. 189 sowie<br />

pp. 239-240.<br />

Beispiel 3.14 (Summen unabhängiger ZV)<br />

1. Normalverteilung<br />

Seien Z bzw. Y unabhängig N(µ Z , σ 2 Z)− bzw. N(µ Y , σ 2 Y )−verteilt, dann ist <strong>die</strong><br />

Summe wegen<br />

M Z+Y (s) = M Z (s) · M Y (s)<br />

= exp<br />

(µ Z s + 1 )<br />

2 σ2 Z s 2 · exp<br />

(µ Y s + 1 )<br />

2 σ2 Y s 2<br />

= exp<br />

((µ Z + µ Y ) s + 1 )<br />

2 (σ2 Z + σY 2 ) s 2<br />

N(µ Z + µ Y , σ 2 Z + σ 2 Y )-verteilt.<br />

2. Gammaverteilung<br />

Die Summe Z + Y unabhängiger Γ(r, λ)- bzw. Γ(t, λ)-verteilter ZV<br />

ist Γ(r + t, λ)-verteilt, wobei r, t, λ > 0, denn<br />

Z bzw. Y<br />

M Z+Y (s) = M Z (s) · M Y (s) =<br />

( ) r ( ) t ( ) r+t<br />

λ λ λ<br />

· =<br />

.<br />

λ − s λ − s λ − s<br />

3. Erlangverteilung Erlang(n, λ)<br />

E<strong>in</strong> wichtiger Spezialfall der Gammaverteilung ergibt sich für <strong>die</strong> Summe von<br />

iid-exponentialverteilten ZV X 1 , . . . , X n<br />

n∑<br />

V = X i .<br />

i=1<br />

Man nennt V Erlang-verteilt. Die zugehörige momenterzeugende Funktion lautet<br />

M V (s) =<br />

Mit (1.30) hat V also e<strong>in</strong>e Dichte der Form<br />

f V (v) =<br />

( ) n<br />

λ<br />

.<br />

λ − s<br />

λn<br />

(n − 1)! vn−1 e −λ v 1 (0,∞) (v) . (3.12)


90 KAPITEL 3. ERZEUGENDE FUNKTIONEN<br />

Am Beispiel der Normalverteilung sieht man wieder <strong>die</strong> Vorteile des Zugangs über momenterzeugende<br />

Funktionen im Vergleich zur direkten Berechnung der Faltung gemäß<br />

Bsp. 2.35.<br />

Alle Formeln (3.8) bis (3.11) haben exponentielle Form <strong>und</strong> vere<strong>in</strong>fachen sich durch<br />

Logarithmieren. Diese neue erzeugende Funktion def<strong>in</strong>iert weitere charakteristische<br />

Größen der zugehörigen Verteilung; vgl. z. B. [Stirzaker (1994)], pp. 189.<br />

Def. 3.15 (Kumulantenfunktion)<br />

Falls <strong>die</strong> momenterzeugende Funktion der ZV Y existiert, so nennt man<br />

K(s) = K Y (s) := ln [ E ( e )] s Y<br />

Kumulantenfunktion oder Kumulanten erzeugende Funktion (generat<strong>in</strong>g function<br />

of the cumulants) von Y , wenn e<strong>in</strong>e Entwicklung der Form<br />

<strong>in</strong> e<strong>in</strong>er Umgebung der 0 existiert.<br />

K(s) =<br />

∞∑<br />

k=0<br />

κ k<br />

s k<br />

k!<br />

Der Name nimmt bereits folgende Aussage vorweg.<br />

Satz 3.16 (Kumulanten)<br />

Falls <strong>die</strong> Kumulantenfunktion K zur ZV Y existiert, so erhält man durch k-<br />

maliges Differenzieren <strong>die</strong> Kumulanten von Y :<br />

κ k = K (k) (0) k = 0, 1, 2, ...<br />

Zum Beweis beachtet man <strong>die</strong> Beziehung:<br />

M(s) = e K(s) ,<br />

wobei M <strong>die</strong> momenterzeugende Funktion bezeichnet. Differenzieren liefert<br />

M ′ (s) = e K(s) K ′ (s) = M(s) K ′ (s) = M K ′ ,<br />

M ′′ = M K ′′ + M ′ K ′ ,<br />

usf., woraus sich mit M(0) = 1, M ′ (0) = EY <strong>und</strong> M ′′ (0) = EY 2 <strong>die</strong> beiden ersten<br />

Kumulanten ergeben. Die höheren Kumulanten folgen gemäß Def. 1.74 analog. Zur<br />

Er<strong>in</strong>nerung:<br />

κ 1 = µ = E(Y ) , κ 2 = σ 2 = V ar(Y ) , κ 3 = E(Y − µ) 3 , κ 4 = E(Y − µ) 4 − 3 σ 4 , ...


3.2. MOMENTERZEUGENDE FUNKTION 91<br />

Beispiel 3.17 (Kumulantenfunktion)<br />

1. Poisson-Verteilung: Y ∼ P oi(λ)<br />

K Y (s) = λ (e s − 1) , κ k = λ , k = 1, 2, 3, ...<br />

2. Normalverteilung: Z ∼ N(µ, σ 2 )<br />

K Z (s) = µ s + 1 2 σ2 s 2<br />

κ 1 = µ , κ 2 = σ 2 , κ k = 0 , k = 3, 4, . . .<br />

Die Normalverteilung ist übrigens <strong>die</strong> e<strong>in</strong>zige Verteilung mit der Eigenschaft, dass alle<br />

Kumulanten ab der Ordnung 3 verschw<strong>in</strong>den.<br />

Als Vorbereitung auf den Zentralen Grenzwertsatz formulieren wir am Ende <strong>die</strong>ses<br />

Abschnitts noch zwei wichtige Aussagen für momenterzeugende Funktionen.<br />

Satz 3.18 (L<strong>in</strong>eare Transformation)<br />

Falls Y <strong>die</strong> momenterzeugende Funktion M Y besitzt, so existiert <strong>die</strong>se Transformation<br />

auch für Z := a + b Y , a, b ∈ R, <strong>und</strong> lautet<br />

M a+b Y = e a s M Y (b s) .<br />

Beweis:<br />

M a+b Y = E [ e s (a+b Y )] = E [ e s a e s b Y ] = E [e s a ] E [ e (s b) Y ] = e a s M Y (b s) .<br />

Weiterh<strong>in</strong> gilt e<strong>in</strong> wichtiges Stetigkeitsresultat für Folgen von Verteilungsfunktionen;<br />

siehe [Stirzaker (1994)], p. 241.<br />

Satz 3.19 (Momenterzeugende Funktionen für Folgen (F n ))<br />

(Y n ) sei e<strong>in</strong>e Folge von ZV mit Verteilungsfunktionen (F n ) <strong>und</strong> momenterzeugenden<br />

Funktionen (M n ), <strong>die</strong> für |s| < b, b > 0 existieren. Falls für e<strong>in</strong> 0 < a < b<br />

<strong>und</strong> für alle |t| ≤ a gilt<br />

lim M n(t) = M(t)<br />

n→∞<br />

<strong>und</strong> M momenterzeugende Funktion e<strong>in</strong>er ZV Y mit Verteilungsfunktion F ist,<br />

so folgt<br />

lim F n(x) = F (x)<br />

n→∞<br />

<strong>in</strong> allen Stetigkeitspunkten x von F .


Kapitel 4<br />

Gesetze der großen Zahlen<br />

Durch Probieren läßt sich feststellen, dass beim Wurf e<strong>in</strong>er symmetrischen Münze <strong>die</strong><br />

relativen Häufigkeiten für ”Kopf” gegen 1 konvergieren, wenn man das Experiment nur<br />

2<br />

oft genug wiederholt. Die Gesetze der großen Zahlen, von denen <strong>die</strong> e<strong>in</strong>fachsten<br />

hier hergeleitet werden, sichern unter sehr schwachen Bed<strong>in</strong>gungen <strong>die</strong> Konvergenz des<br />

Stichprobenmittels gegen den Erwartungswert. Das Verhalten der relativen Häufigkeiten<br />

beim wiederholten Münzwurf kann man als Spezialfall des sog. starken Gesetzes<br />

der großen Zahlen deuten.<br />

Es sei daran er<strong>in</strong>nert, dass <strong>die</strong> moderne Wahrsche<strong>in</strong>lichkeitstheorie auf den Axiomen<br />

von Kolmogorov basiert; vgl. Def. 1.10. Die Gesetze der großen Zahlen, <strong>und</strong> deren Übere<strong>in</strong>stimmung<br />

mit praktischen Experimenten, rechtfertigen den axiomatischen Zugang<br />

im nachh<strong>in</strong>e<strong>in</strong>. In früherer Zeit hatte man versucht, umgekehrt Wahrsche<strong>in</strong>lichkeiten als<br />

Grenzwerte von relativen Häufigkeiten zu def<strong>in</strong>ieren. Dies führte nicht zum gewünschten<br />

Ziel e<strong>in</strong>er widerspruchsfreien Theorie. Die axiomatische Fun<strong>die</strong>rung hat sich als<br />

überlegen erwiesen.<br />

4.1 Ungleichungen<br />

Da <strong>die</strong> exakte Berechnung von Wahrsche<strong>in</strong>lichkeiten nicht immer möglich ist, greift man<br />

oft auf Ungleichungen zurück. Hier sollen e<strong>in</strong>ige davon behandelt werden. Für e<strong>in</strong>e weitere<br />

Diskussion, z. B. der Ungleichung von Jensen, siehe z. B. [Stirzaker (1994)], pp. 98.<br />

92


4.1. UNGLEICHUNGEN 93<br />

Satz 4.1 (Basisungleichung)<br />

Falls h(x) e<strong>in</strong>e nicht-negative Funktion ist <strong>und</strong> E[h(X)] < ∞, dann gilt für alle a > 0<br />

P (h(X) ≥ a) ≤ E[h(X)]/a . (4.1)<br />

Beweis:<br />

Sei A := { ω | h[X(ω)] ≥ a } <strong>und</strong> 1 A <strong>die</strong> zugehörige Indikatorfunktion mit E(1 A ) =<br />

P (h(X) ≥ a). Nach <strong>die</strong>ser Konstruktion gilt h(X)−a 1 A ≥ 0 <strong>und</strong> E [h(X) − a 1 A ] ≥ 0,<br />

womit folgt:<br />

E h(X) ≥ a E(1 A ) = a P (h(X) ≥ a) .<br />

Satz 4.2 (Ungleichung von Markov)<br />

Aus der Basisungleichung ergibt sich mit h = | · | für beliebige Zufallsvariable (ZV) mit<br />

existierendem Erwartungswert <strong>und</strong> a > 0<br />

P (|X| ≥ a) ≤ E(|X|)/a . (4.2)<br />

✷<br />

Von noch größerer Bedeutung ist <strong>die</strong><br />

Satz 4.3 (Ungleichung von Tschebyschov, E(X) = 0)<br />

Falls E(X 2 ) existiert <strong>und</strong> E(X) = 0, so gilt für beliebige t > 0<br />

P (|X| ≥ t) ≤ E(X 2 )/t 2 . (4.3)<br />

Beweis:<br />

Wir verwenden hier <strong>die</strong> Riemann-Stieltjes-Notation. Zur Übung sollte <strong>die</strong>ser wichtige<br />

Beweis für diskrete bzw. stetige ZV wiederholt werden.<br />

E(X 2 ) =<br />

∫∞<br />

x 2 dF (x) =<br />

∫<br />

x 2 dF (x) +<br />

∫<br />

x 2 dF (x)<br />

−∞<br />

≥<br />

|x|


94 KAPITEL 4. GESETZE DER GROSSEN ZAHLEN<br />

Durch <strong>die</strong> Translation X − µ → ˜X erhält man <strong>die</strong> bekanntere Version<br />

Satz 4.4 (Ungleichung von Tschebyschov)<br />

Für beliebige Zufallsvariable mit E(X) = µ , V ar(X) = σ 2 gilt<br />

oder äquivalent dazu<br />

P (|X − µ| < tσ) ≥ 1 − 1 t 2 , ∀ t > 0 , (4.4)<br />

P (|X − µ| ≥ ɛ) ≤ σ2<br />

ɛ 2 , ∀ ɛ > 0 . (4.5)<br />

Diese Ungleichung gilt für beliebige ZV mit endlicher Varianz σ 2 <strong>und</strong> gibt e<strong>in</strong>e allgeme<strong>in</strong>e<br />

Schranke an, wie weit e<strong>in</strong>e ZV um ihren Mittelwert streut. Diese Schranken<br />

können bei speziellen Annahmen, z. B. Normalverteilung, enger gefaßt werden:<br />

Tschebyschov N(µ, σ 2 )<br />

t P (|X − µ| < tσ) ≥ 1 − 1/t 2 P (|X − µ| < tσ) = 2Φ(t) − 1<br />

1 0 0.6826<br />

2 0.7500 0.9546<br />

3 0.8889 0.9974<br />

4 0.9375 1 − 6 · 10 −5<br />

5 0.9600 1 − 7 · 10 −7<br />

Für den Namen Čebyšev des russischen Mathematikers s<strong>in</strong>d viele Transliterationen<br />

gebräuchlich. Bei Schreibweisen wie Tschebyscheff sollte man daran denken, dass im<br />

russischen Orig<strong>in</strong>al das letzte ’e’ wie e<strong>in</strong> ’o’ gesprochen wird.


4.2. GESETZE DER GROSSEN ZAHLEN 95<br />

4.2 Gesetze der großen Zahlen<br />

Häufig wendet man <strong>die</strong> Ungleichung von Tschebyschov mit X = ¯X an, wobei ¯X das<br />

arithmetische Mittel von X 1 , ..., X n ist.<br />

Satz 4.5 (Satz von Tschebyschov)<br />

X 1 , ..., X n seien paarweise unkorreliert mit E(X i ) = µ i <strong>und</strong> beschränkten Varianzen<br />

V ar(X i ) ≤ σ 2 , i = 1, . . . , n; ¯Xn = 1 n∑<br />

X i bezeichne das arithmetische<br />

n<br />

i=1<br />

Mittel. Dann gilt für beliebiges ɛ > 0 <strong>und</strong> 0 < η < 1<br />

P (| ¯X n − 1 n<br />

n∑<br />

i=1<br />

µ i | < ɛ) ≥ 1 − η , falls n ≥ σ2<br />

η ɛ 2 .<br />

Def. 4.6 (Stochastische Konvergenz)<br />

E<strong>in</strong>e Folge Y 1 , Y 2 , ... von ZV konvergiert stochastisch oder <strong>in</strong> Wahrsche<strong>in</strong>lichkeit<br />

gegen e<strong>in</strong>e Zufallsvariable Y (i. Z. Y n −→ Y ) genau dann, wenn für alle<br />

P<br />

ɛ > 0<br />

lim P (|Y n − Y | < ɛ) = 1 .<br />

n→∞<br />

Satz 4.7 (Schwaches Gesetz der großen Zahlen)<br />

1. X 1 , X 2 , ... seien paarweise unkorreliert mit E(X i ) = µ i <strong>und</strong> beschränkten<br />

Varianzen V ar(X i ) ≤ σ 2 , dann konvergieren <strong>die</strong> arithmetischen Mittel ¯Xn<br />

stochastisch gegen <strong>die</strong> arithmetischen Mittel ihrer Erwartungswerte, d. h.<br />

1<br />

n<br />

n∑<br />

X i<br />

i=1<br />

P<br />

−→<br />

1 n<br />

n∑<br />

µ i .<br />

i=1<br />

2. Die arithmetischen Mittel ¯Xn von iid-Variablen X 1 , X 2 , ... mit existierenden<br />

zweiten Momenten konvergieren stochastisch gegen den Mittelwert<br />

µ = E(X i ), i = 1, 2, ..., d. h.<br />

¯X n<br />

P<br />

−→ µ<br />

oder<br />

lim P (| ¯X n − µ| < ɛ) = 1 für alle ɛ > 0 .<br />

n→∞<br />

Wir haben bereits angesprochen, dass etwa beim Münzwurf <strong>die</strong> relativen Häufigkeiten<br />

”praktisch immer” gegen <strong>die</strong> gesuchten Wahrsche<strong>in</strong>lichkeiten konvergieren. Dies ist


96 KAPITEL 4. GESETZE DER GROSSEN ZAHLEN<br />

das sog. starke Gesetz der großen Zahlen. Dabei können <strong>die</strong> Voraussetzungen des<br />

folgenden Satzes noch abgeschwächt werden.<br />

Satz 4.8 (Starkes Gesetz der großen Zahlen)<br />

Die arithmetischen Mittel ¯Xn von iid-Variablen X 1 , X 2 , ... mit existierenden ersten<br />

Momenten konvergieren fast sicher (almost everywhere) oder stark oder mit Wahrsche<strong>in</strong>lichkeit<br />

1 gegen den Mittelwert µ = E(X i ), i = 1, 2, ..., d. h.<br />

(<br />

P<br />

lim<br />

n→∞<br />

)<br />

¯X n = µ<br />

¯X n<br />

f.s.<br />

−→ µ<br />

:= P<br />

oder<br />

(<br />

)<br />

{ ω | lim ¯Xn (ω) = µ } = 1 . (4.6)<br />

n→∞<br />

Ohne auf e<strong>in</strong>en Beweis e<strong>in</strong>gehen zu können, sei erwähnt, dass starke Konvergenz <strong>die</strong><br />

stochastische impliziert, d. h.<br />

Y n<br />

f.s.<br />

−→ Y =⇒ Y n<br />

P<br />

−→ Y .<br />

Die Aussage von (4.6) hat also <strong>die</strong> Konvergenz von Satz 4.7 zur Folge <strong>und</strong> ist somit<br />

stärker. Warum Satz 4.8 mit ger<strong>in</strong>geren Voraussetzungen auskommt, ist schnell gesagt:<br />

Das schwache Gesetz der großen Zahlen wurde <strong>in</strong> Satz 4.7 so formuliert, dass zum<br />

Beweis der Satz von Tschebyschov herangezogen werden kann. Die dortigen Voraussetzungen<br />

können aber noch gelockert werden.<br />

Das e<strong>in</strong>gangs beschriebene Phänomen der Konvergenz von relativen Häufigkeiten hat<br />

mit fast-sicherer Konvergenz zu tun. Es ist zwar e<strong>in</strong> Ereignis E fail denkbar, so dass<br />

z. B. beim wiederholten (symmetrischen) Münzwurf e<strong>in</strong>e Folge nicht gegen <strong>die</strong> Wahrsche<strong>in</strong>lichkeit<br />

1 2 konvergiert. Für <strong>die</strong>ses Ereignis gilt aber P (E fail) = 0.


4.3. GRENZWERTSÄTZE 97<br />

4.3 Grenzwertsätze<br />

Wir werden hier nur zwei der wichtigsten Grenzwertsätze erwähnen. Es gibt e<strong>in</strong>e Vielzahl<br />

von Verallgeme<strong>in</strong>erungen, <strong>die</strong> der weiterführenden Literatur zu entnehmen s<strong>in</strong>d.<br />

4.3.1 Zentraler Grenzwertsatz<br />

Nun wenden wir uns e<strong>in</strong>em weiteren Konvergenzbegriff zu.<br />

Def. 4.9 (Verteilungskonvergenz)<br />

E<strong>in</strong>e Folge Y 1 , Y 2 , ... von ZV konvergiert <strong>in</strong> Verteilung (<strong>in</strong> distribution) gegen<br />

d<br />

e<strong>in</strong>e Zufallsvariable Y (i. Z. Y n −→ Y ) genau dann, wenn <strong>die</strong> Verteilungsfunktionen<br />

F n der Y n gegen <strong>die</strong> Verteilungsfunktion F von Y konvergieren, <strong>und</strong> zwar <strong>in</strong><br />

<strong>in</strong> allen Stetigkeitspunkten von F .<br />

Verteilungskonvergenz wird auch schwache Konvergenz genannt, denn sie ist <strong>die</strong> schwächste<br />

der drei <strong>in</strong> <strong>die</strong>sem Kapitel def<strong>in</strong>ierten Konvergenzarten. Es gilt:<br />

Y n<br />

f.s.<br />

−→ Y =⇒ Y n<br />

P<br />

−→ Y =⇒ Y n<br />

d<br />

−→ Y .<br />

Satz 4.10 (Zentraler Grenzwertsatz für iid-Variable)<br />

X 1 , X 2 , ... seien iid-ZV mit E(X i ) = µ , V ar(X i ) = σ 2 < ∞ , i = 1, 2, ....<br />

n∑<br />

Dann gilt für S n := X i <strong>und</strong> ¯Xn := 1 n∑<br />

X i = S n / n sowie<br />

i=1<br />

n<br />

i=1<br />

U n := S n − n µ<br />

σ √ n = ¯X n − µ<br />

σ/ √ n :<br />

lim U n ∼ N(0, 1) , d.h. lim<br />

n→∞ n→∞<br />

P (U n ≤ u) = √ 1<br />

2π<br />

oder U n<br />

d<br />

−→ U, wobei U standardnormalverteilt ist.<br />

∫u<br />

−∞<br />

e −t2 /2 dt ,<br />

Bemerkung 4.11 (zum Zentralen Grenzwertsatz, ZGWS)<br />

1. Mit unseren Hilfsmitteln läßt sich der Beweis von Satz 4.10 gemäß<br />

[Stirzaker (1994)], pp. 294-295 führen. Besitzen zum Beispiel <strong>die</strong> iid-ZV X i e<strong>in</strong>e<br />

momenterzeugende Funktion M(s), so s<strong>in</strong>d etwa <strong>die</strong> behandelten Transformations-<br />

(vgl. 3.18) <strong>und</strong> Stetigkeitssätze (siehe 3.19) anzuwenden.<br />

2. Summen S n = ∑ X i von iid ZV mit E(X i ) = µ, V ar(X i ) = σ 2 , i = 1, . . . , n, s<strong>in</strong>d<br />

also für große n approximativ N( n µ , n σ 2 )-verteilt.


98 KAPITEL 4. GESETZE DER GROSSEN ZAHLEN<br />

3. Der Grenzwertsatz von de Moivre-Laplace für b<strong>in</strong>omialverteilte ZV ist e<strong>in</strong> Spezialfall<br />

des ZGWS 4.10. Der Beweis (<strong>in</strong> [Chung (1979)], pp. 210-216 f<strong>in</strong>det man<br />

e<strong>in</strong>e moderne Version) ist konstruktiv <strong>und</strong> beruht wesentlich auf der Stirl<strong>in</strong>gschen<br />

Formel. Momenterzeugende Funktionen werden dort nicht benötigt.<br />

4. Man sagt für n ≥ 50 ist U n “praktisch” standardnormalverteilt. Für unabhängige<br />

X i mit E(X i ) = µ i <strong>und</strong> V ar(X i ) = σi<br />

2 ≤ σ 2 , i = 1, 2, . . . gilt <strong>die</strong> Aussage des<br />

Satzes für<br />

/<br />

n∑<br />

√ √√ ∑ n<br />

U n := (X i − µ i ) σi 2 . (4.7)<br />

i=1<br />

i=1<br />

5. Der ZGWS kann unter weit allgeme<strong>in</strong>eren Voraussetzungen bewiesen werden.<br />

Die bisherigen Formulierungen sollen aber für <strong>die</strong>se <strong>E<strong>in</strong>führung</strong>sveranstaltung<br />

genügen.<br />

6. Wichtige Anwendungen s<strong>in</strong>d etwa Approximationen der B<strong>in</strong>omial- <strong>und</strong> Poisson-<br />

Verteilung.<br />

E<strong>in</strong>e b<strong>in</strong>omialverteilte ZV X kann als Summe von n unabhängig mit dem Parameter<br />

p Bernoulli-verteilten ZV Y 1 , . . . , Y n angesehen werden (vgl. Bsp. 3.9,<br />

1.). Für genügend großes n, etwa np ≥ 4 <strong>und</strong> n(1 − p) ≥ 4, gilt dann <strong>in</strong> guter<br />

Näherung<br />

P (X = j) = P (j − 1 2 < X ≤ j + 1 2 )<br />

≈<br />

⎛<br />

⎞<br />

j + 0.5 − np<br />

Φ ⎝ √<br />

⎠ − Φ<br />

np(1 − p)<br />

⎛<br />

⎝<br />

⎞<br />

j − 0.5 − np<br />

√<br />

⎠ , (4.8)<br />

np(1 − p)<br />

<strong>und</strong> Φ bezeichnet wieder <strong>die</strong> Verteilungsfunktion der Standardnormalverteilung.<br />

Analog dazu kann für n ∈ N <strong>und</strong> λ = n µ, µ > 0, gemäß 2. von Bsp. 3.9 e<strong>in</strong>e<br />

P oi(λ)-verteilte ZV X als unabhängige Summe von n mit Parameter µ Poissonverteilten<br />

Z 1 , . . . , Z n dargestellt werden. Für λ > 20 (also n oder µ genügend<br />

groß) gilt daher<br />

P (X = j) = P (j − 1 2 < X ≤ j + 1 2 )<br />

≈<br />

Φ<br />

( ) ( )<br />

j + 0.5 − λ j − 0.5 − λ<br />

√ − Φ √ . (4.9)<br />

λ λ<br />

7. Der zentrale Grenzwertsatz gestattet es, <strong>in</strong> vielen Fällen <strong>die</strong> betrachteten Zufallsvariablen<br />

als normalverteilt anzusehen. Dabei geht man davon aus, dass <strong>die</strong><br />

beobachtete Größe durch additive Überlagerung vieler nicht beobachteter E<strong>in</strong>flüsse<br />

entsteht.<br />

8. Trotzdem ist e<strong>in</strong>e Normalverteilungsannahme stets durch geeignete statistische<br />

Tests oder Methoden der explorativen Datenanalyse zu verifizieren; vgl. Kapitel<br />

10. Dort spielt u.a. das Lemma 10.2 von Glivenko-Cantelli e<strong>in</strong>e wichtige Rolle.<br />

Dieses besagt, dass <strong>die</strong> empirische Verteilungsfunktion F n von iid ZV X 1 , . . . , X n<br />

für n → ∞ fast sicher gegen <strong>die</strong> Verteilungsfunktion F der X i , i = 1, . . . , n,<br />

konvergiert. Damit gehört auch <strong>die</strong>se Aussage zu den Gesetzen der großen Zahlen.


4.3. GRENZWERTSÄTZE 99<br />

4.3.2 Approximation der B<strong>in</strong>omial- durch <strong>die</strong> Poisson-Verteilung<br />

Die Approximation der B<strong>in</strong>omial- durch <strong>die</strong> Normalverteilung ist umso genauer, je<br />

näher p bei 1 liegt <strong>und</strong> je größer n ist. Für sehr kle<strong>in</strong>e p <strong>und</strong> k, d.h.<br />

2<br />

p ≪ 1 2<br />

<strong>und</strong><br />

k ≪ n<br />

ist <strong>die</strong> folgende Näherung weitaus besser geeignet. Sie spielt auch bei asymptotischen<br />

theoretischen Betrachtungen e<strong>in</strong>e wichtige Rolle.<br />

Man betrachtet zunächst für λ > 0 <strong>die</strong> B(n; λ n )-verteilte ZV X n, n ∈ N , n > λ. Anders<br />

als bisher variiert jetzt der zweite Parameter p n := λ/n mit n. Sei w k,n := P (X n = k),<br />

dann gilt für k = 0, . . . , n<br />

w k,n =<br />

( k (<br />

n! λ<br />

1 −<br />

k! (n − k)! n) ) n−k<br />

n<br />

=<br />

(<br />

λk<br />

1 − λ ) n<br />

n (n − 1) · . . . · (n − k + 1)<br />

( )<br />

k! n<br />

k<br />

n k 1 −<br />

λ<br />

n<br />

(4.10)<br />

=<br />

(<br />

λk<br />

1 − λ ) n<br />

1 (1 − 1 k−1<br />

) · . . . · (1 − n n<br />

( )<br />

k! n<br />

k<br />

;<br />

1 −<br />

λ<br />

n<br />

<strong>und</strong> für festgehaltenes k wegen lim<br />

(1 − λ ) n<br />

= e −λ<br />

n→∞ n<br />

lim w k,n = λk<br />

n→∞ k! e−λ .<br />

Die Größen auf der rechten Seite entsprechen der Wahrsche<strong>in</strong>lichkeitsfunktion der<br />

Poisson-Verteilung; vgl. (1.17). Wir fassen zusammen<br />

Satz 4.12 (B<strong>in</strong>omial- <strong>und</strong> Poisson-Verteilung)<br />

Für λ > 0, n ∈ N, p n := λ/n <strong>und</strong> n → ∞ geht <strong>die</strong> B<strong>in</strong>omialverteilung B(n, p n )<br />

mit der Wahrsche<strong>in</strong>lichkeitsfunktion<br />

b x,n,pn := f B (x) =<br />

( n<br />

x)<br />

p x n (1 − p n ) n−x ,<br />

x = 0, 1, . . . , n<br />

über <strong>in</strong> <strong>die</strong> Poisson-Verteilung P oi(λ) mit der Wahrsche<strong>in</strong>lichkeitsfunktion<br />

v x,λ := f P (x) = λx<br />

x! e−λ , x ∈ N 0 .<br />

Die Approximationsgüte wächst für großes n. Der Herleitung entnimmt man aber auch,<br />

dass <strong>die</strong> Approximation von Satz 4.12 mit λ = n p ebenso für sehr kle<strong>in</strong>es, festgehaltenes


100 KAPITEL 4. GESETZE DER GROSSEN ZAHLEN<br />

p <strong>und</strong> kle<strong>in</strong>e k ausgezeichnet ist. Dies unterstreicht auch folgende Abschätzung, <strong>die</strong> wir<br />

ohne Beweis angeben. Für e<strong>in</strong>e beliebige Teilmenge A ⊂ N 0 sowie jedes 0 < p < 1 <strong>und</strong><br />

jedes n ∈ N gilt <strong>die</strong> Abschätzung<br />

∣ ∑<br />

b k,n,p − ∑ ∣∣∣∣∣<br />

v k,np ≤ p . (4.11)<br />

∣ k∈A k∈A<br />

Die beiden Beispiele <strong>in</strong> den Tabellen von Anhang 11.4 geben e<strong>in</strong>en E<strong>in</strong>druck von der<br />

Approximationsgüte der Normal- bzw. Poissonverteilung.<br />

Die numerische Approximation von B<strong>in</strong>omialwahrsche<strong>in</strong>lichkeiten durch den Poissonansatz<br />

hat im Computerzeitalter natürlich an Bedeutung verloren, da <strong>in</strong> den meisten<br />

Fällen e<strong>in</strong>e exakte Berechnung der b k,n,p durchgeführt werden kann, was früher mit<br />

Papier <strong>und</strong> Bleistift zum<strong>in</strong>dest e<strong>in</strong>e erhebliche Mühe bedeutet hätte.<br />

Weitere <strong>in</strong>teressante Eigenschaften der Poisson-Verteilung f<strong>in</strong>det man zum Beispiel <strong>in</strong><br />

[Chung (1979)], pp. 193, [Pfanzagl (1988)], S. 255-258 oder der Spezialliteratur über<br />

<strong>die</strong> Poissonverteilung.


Kapitel 5<br />

E<strong>in</strong>fache Irrfahrt (Random Walk)<br />

Bereits am Ende des Abschnitts 1 war im Beispiel vom Ru<strong>in</strong> des Spielers vom sog. Random<br />

Walk <strong>die</strong> Rede. Ausführliche Darstellungen hierzu f<strong>in</strong>det man etwa <strong>in</strong><br />

[Stirzaker (1994)], pp. 145 oder [Resnick (1994)], pp. 33. Dem Zweck <strong>die</strong>ser Materialen<br />

entsprechend, beschränken wir uns hier auf e<strong>in</strong>führende Betrachtungen.<br />

5.1 Def<strong>in</strong>ition, Rekurrenz<br />

Def. 5.1 (E<strong>in</strong>fache Irrfahrt; Random Walk)<br />

Seien X 1 , X 2 , . . . diskrete iid-Variablen, also gemäß Def. 2.29 unabhängig <strong>und</strong><br />

identisch verteilt, mit<br />

P (X i = 1) = p , P (X i = −1) = q := 1 − p , 0 < p < 1 , i = 1, 2, . . . ,<br />

<strong>und</strong> für gegebenes S 0 ∈ Z<br />

n∑<br />

S n := S 0 + X i , n = 1, 2, . . . . (5.1)<br />

i=1<br />

Dann nennt man (S n ; n ∈ N 0 ) e<strong>in</strong>fache Irrfahrt oder simple Random Walk<br />

(gelegentlich auch Bernoulli Walk).<br />

Im Falle p = q = 1 spricht man von e<strong>in</strong>em symmetrischen Random Walk.<br />

2<br />

(S n ; n ∈ N 0 ) ist e<strong>in</strong> stochastischer Prozeß mit Parameterraum N 0 <strong>und</strong> Zustandsraum<br />

Z. Man schreibt auch (S n ; n ≥ 0).<br />

Die Charakterisierung e<strong>in</strong>fach bzw. simple bezieht sich u.a. darauf, dass der Zustandsraum<br />

der S n e<strong>in</strong>dimensional <strong>und</strong> ganzzahlig ist. Man kann ähnliche Modelle auch <strong>in</strong><br />

allgeme<strong>in</strong>eren Zustandsräumen, u.a. <strong>in</strong> höheren Dimensionen betrachten. Wir lassen<br />

ab jetzt <strong>die</strong> Zusätze e<strong>in</strong>fach bzw. simple weg <strong>und</strong> sprechen <strong>in</strong> <strong>die</strong>sem Abschnitt nur<br />

noch vom Random Walk, me<strong>in</strong>en aber den Prozeß von Def. 5.1.<br />

101


102 KAPITEL 5. EINFACHE IRRFAHRT (RANDOM WALK)<br />

1. Gelegentlich wird der Parameterraum mit T bezeichnet. Dann <strong>in</strong>terpretiert man<br />

S t ∈ Z als den Ort, an dem sich z. B. e<strong>in</strong> Partikel zum diskreten Zeitpunkt<br />

t ∈ T = N 0 gerade bef<strong>in</strong>det.<br />

2. Wegen der Unabhängigkeit der X i gilt <strong>die</strong> sog. Markov-Eigenschaft:<br />

P (S n+1 = j|S n = i n , S n−1 = i n−1 , . . . , S 1 = i 1 , S 0 = i 0 ) = P (S n+1 = j|S n = i n ) ,<br />

d. h. <strong>die</strong> Kenntnis des Zustands S n liefert genauso viel Information für <strong>die</strong> Vorhersage<br />

des Zustands S n+1 wie <strong>die</strong> Kenntnis der gesamten Vorgeschichte des Prozesses<br />

(S j ; j = 0, 1, . . . , n).<br />

3. Auf den Zustand S n kann entweder der Zustand S n+1 = S n + 1 oder der Zustand<br />

S n+1 = S n − 1 folgen. Mit 0 < p < 1 gilt<br />

P (S n+1 = j + 1 | S n = j) = p <strong>und</strong> P (S n+1 = j − 1 | S n = j) = q = 1 − p .<br />

4. Der Ausgangszustand S 0 = k ∈ Z ist vorgegeben. Bei vielen Überlegungen kann<br />

man sich mit der Transformation ˜S n := S n − k auf den e<strong>in</strong>facheren Fall ˜S 0 = 0<br />

beschränken <strong>und</strong> so den formalen Aufwand für Beweise verr<strong>in</strong>gern.<br />

Wir wollen weitere Details der Vorlesung Stochastische Prozesse überlassen, bemerken<br />

aber an <strong>die</strong>ser Stelle:<br />

1. Die S n , n = 1, 2, . . . s<strong>in</strong>d Zufallsvariable über e<strong>in</strong>em Wahrsche<strong>in</strong>lichkeitsraum<br />

(Ω, F, P ), der sich als unendliches Produkt e<strong>in</strong>facherer Wahrsche<strong>in</strong>lichkeitsräume<br />

(Ω i , F i , P i ), i ∈ N 0 , ergibt (vgl. iid-Variable X i ).<br />

2. Bisher wurde <strong>die</strong> Folge von ZV S n : Ω → Z für n ∈ N 0 betrachtet. E<strong>in</strong>e andere<br />

Sichtweise ist S n : Ω × N 0 → Z. Hält man bei <strong>die</strong>sem Ansatz e<strong>in</strong> ω ∈ Ω fest, so<br />

liefert (S n (ω); n ∈ N 0 ) e<strong>in</strong>en Pfad des stochastischen Prozesses S n . Im Bild 10<br />

ist (n, S n (ω)) für e<strong>in</strong>en solchen Pfad geplottet.<br />

✻S n<br />

<br />

<br />

<br />

S 0<br />

0<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

1 2 3 4 5 6 7 8 9 10 11<br />

✲ n<br />

Bild 10: Random Walk


5.1. DEFINITION, REKURRENZ 103<br />

In fast jedem Lehrbuch f<strong>in</strong>det man e<strong>in</strong>e andere phantasievolle Illustration des Random<br />

Walk, z. B. der Betrunkene, der von e<strong>in</strong>er Seite e<strong>in</strong>er engen Gasse zur anderen torkelt<br />

etc.; siehe etwa [Chung (1979)], pp. 240. Wir lehnen uns bei Interpretationen <strong>in</strong> der<br />

Regel an das bereits e<strong>in</strong>geführte Beispiel 1.30 vom Ru<strong>in</strong> des Spielers an. Es gelten<br />

folgende Zusammenhänge:<br />

1. Startkapital : k = S 0 ≥ 0<br />

2. p = P (Gew<strong>in</strong>n) = P (S n+1 = j + 1 | S n = j)<br />

3. S n = 0 ⇐⇒ Ru<strong>in</strong> des Spielers; <strong>in</strong> Bild 10 nach n = 5 Spielen.<br />

4. S n = K <strong>und</strong> S j /∈ {0, K} , j < n ⇐⇒ Ende nach n Spielen mit gewonnenem<br />

Zielkapital K.<br />

Bemerkung 5.2 (Fragestellungen zum Random Walk)<br />

In Abschnitt 1 wurden e<strong>in</strong>ige Fragen angeschnitten. E<strong>in</strong>e davon war:<br />

Trifft e<strong>in</strong> Pfad des Random Walk e<strong>in</strong>en beliebig vorgegebenen Wert z ∈ Z; <strong>und</strong> wie<br />

oft? Die Antwort hierzu lautet (ohne Begründung):<br />

E<strong>in</strong> Pfad des symmetrischen Random Walk (p = q = 1 ) trifft, unabhängig vom Start<br />

2<br />

S 0 , jedes z ∈ Z mit Wahrsche<strong>in</strong>lichkeit (Wkt) 1, <strong>und</strong> zwar beliebig oft. Diese Aussage<br />

gilt für p ≠ q nicht mehr.<br />

Weitere Fragen waren:<br />

1. Verläßt e<strong>in</strong> beliebiger Pfad des Random Walk e<strong>in</strong> vorgegebenes endliches Intervall<br />

[a, b], a < b; womöglich sogar mit Wkt 1 ?<br />

2. Was geschieht im Fall K → ∞, wenn <strong>die</strong> Bank unbeschränktes Kapital besitzt?<br />

3. D sei <strong>die</strong> Spieldauer, also <strong>die</strong> Zeit, bei der das Kapital des Spielers (ausgehend<br />

von S 0 = k) zum ersten Mal e<strong>in</strong>en der Werte S D = 0 oder S D = K erreicht. Es<br />

ist u.a. zu klären, ob D endlich ist.<br />

Zur Beantwortung der Fragen ziehen wir zunächst <strong>die</strong> bereits vorliegenden Ergebnisse<br />

von Beispiel 1.30 heran. Dort erhielt man <strong>in</strong> (1.11) <strong>und</strong> (1.12) mit r := q/p für Startkapital<br />

S 0 = k ≥ 0 <strong>und</strong> Zielkapital K ≥ k, (das Spiel wird beendet, wenn zum ersten<br />

Mal S n = 0 oder S n = K)<br />

p k = P (∃ n ≥ 0 mit S n = 0 <strong>und</strong> S j < K , j < n | S 0 = k)<br />

=<br />

⎧<br />

⎪⎨<br />

⎪⎩<br />

K − k<br />

, falls p = 1 2<br />

K<br />

(5.2)<br />

r k − r K<br />

1 − r , falls p ≠ 1 . K 2


104 KAPITEL 5. EINFACHE IRRFAHRT (RANDOM WALK)<br />

<strong>und</strong><br />

q k = P (∃ n ≥ 0 mit S n = K <strong>und</strong> S j > 0 , 0 < j ≤ n | S 0 = k)<br />

=<br />

⎧<br />

⎪⎨<br />

⎪⎩<br />

k<br />

, falls p = 1 2<br />

K<br />

(5.3)<br />

1 − r k<br />

1 − r , falls p ≠ 1 . K 2<br />

p k gibt <strong>die</strong> Wahrsche<strong>in</strong>lichkeit an, dass S n = 0 vor dem Ereignis S n = K e<strong>in</strong>tritt;<br />

Analoges trifft für q k zu. Gemäß Satz 1.31 gilt<br />

p k + q k = 1 .<br />

Brechen wir den Pfad nicht bei Spielende ab, sondern setzen <strong>die</strong>sen unbeschränkt fort,<br />

so folgt daraus (mit geeigneten Translationen) <strong>die</strong> Beantwortung von Frage 1 <strong>und</strong><br />

Frage 3 <strong>in</strong> Bem. 5.2:<br />

Mit Wkt 1 verläßt e<strong>in</strong> Pfad des Random Walk jedes beliebige beschränkte Intervall<br />

[a, b], a < b. Damit ist <strong>die</strong> Spieldauer D mit Wkt 1 endlich.<br />

Die Antwort auf Frage 2 lautet mit (5.2): Wenn <strong>die</strong> Bank unbeschränktes Kapital<br />

besitzt, so ist <strong>die</strong> Wkt p R für E<strong>in</strong>tritt des Ru<strong>in</strong>s<br />

⎧<br />

⎪⎨<br />

p R =<br />

⎪⎩<br />

1 , falls p ≤ 1 2<br />

r k = ( (5.4)<br />

)<br />

1−p k<br />

, falls p > 1 . p<br />

2<br />

Für p > 1 <strong>und</strong> genügend großes Startkapital k besteht also durchaus e<strong>in</strong>e reelle Chance,<br />

Gew<strong>in</strong>n zu<br />

2<br />

machen.<br />

Wir wollen Gleichung (5.2) für K → ∞ näher untersuchen <strong>und</strong> stellen e<strong>in</strong>e weitere<br />

Frage, nämlich nach der sog. Rückkehr zur 0 (recurrence). Die Wahl S 0 = 0 erfolgt<br />

nur aus formalen Gründen. Die Überlegungen ändern sich bei beliebigem S 0 ∈ Z nicht.<br />

Wir folgen <strong>in</strong> der Darstellung [Isaac (1995)], pp. 192. Zunächst seien p = q = 1 2 , also<br />

r = 1. Aus dem Satz von der totalen Wkt ergibt sich wegen der Unabhängigkeit der<br />

X i<br />

P (S n = 0 für e<strong>in</strong> n > 0 | S 0 = 0) = (5.5)<br />

1<br />

P (S 2 n = 0 für e<strong>in</strong> n > 1 | S 1 = −1) + 1 P (S 2 n = 0 für e<strong>in</strong> n > 1 | S 1 = 1) .<br />

Nun betrachtet man<br />

P (S n = 0 für e<strong>in</strong> n > 1 | S 1 = 1) = P (S n = 0 für e<strong>in</strong> n > 0 | S 0 = 1) , (5.6)


5.1. DEFINITION, REKURRENZ 105<br />

also <strong>die</strong> Wkt je 0 zu erreichen, wenn man <strong>in</strong> 1 startet. Nun nützen wir das Resultat<br />

(5.2) vom Ru<strong>in</strong> des Spielers zunächst für endliches K > 0 <strong>und</strong> erhalten <strong>in</strong> <strong>die</strong>sem<br />

symmetrischen Fall mit Startkapital k = 1 <strong>und</strong> p 1 = 1 − 1/K<br />

P (S n = 0 vor E<strong>in</strong>tritt von S n = K | S 0 = 1) =<br />

P (Ru<strong>in</strong> des Spielers vor E<strong>in</strong>tritt von S n = K | S 0 = 1) = 1 − 1 K . (5.7)<br />

Für K → ∞ strebt <strong>die</strong> rechte Seite 1 − 1/K von (5.7) gegen 1 <strong>und</strong> <strong>die</strong> l<strong>in</strong>ke Seite<br />

konvergiert gegen <strong>die</strong> gesuchte Wkt von (5.6), <strong>die</strong> somit gleich 1 se<strong>in</strong> muss. Aus Symmetriegründen<br />

folgt <strong>die</strong>selbe Aussage, wenn S 0 = 1 durch S 0 = −1 ersetzt wird. Gemäß<br />

(5.5) kehrt damit der symmetrische Random Walk ausgehend von S 0 = 0 mit Wkt 1<br />

zu 0 zurück.<br />

Bei der Untersuchung des allgeme<strong>in</strong>en Falls p ≠ q erhalten wir analog zu (5.5)<br />

P (S n = 0 für e<strong>in</strong> n > 0 | S 0 = 0) = (5.8)<br />

q P (S n = 0 für e<strong>in</strong> n > 1 | S 1 = −1) + p P (S n = 0 für e<strong>in</strong> n > 1 | S 1 = 1) .<br />

Sei A K das Ereignis S n = 0 vor E<strong>in</strong>tritt von S n = K. Für p ≠ q gilt entsprechend (5.6)<br />

gemäß (5.3) mit r = q/p ≠ 1 <strong>und</strong> k = 1<br />

P (S n = 0 für e<strong>in</strong> n > 0 | S 0 = 1) =<br />

lim P (A K | S 0 = 1) = lim p 1 = lim<br />

K→∞ K→∞ K→∞<br />

⎧<br />

⎨<br />

=<br />

⎩<br />

r − r K<br />

1 − r K<br />

q<br />

p , falls p > q<br />

1 , falls p < q .<br />

(5.9)<br />

Bei e<strong>in</strong>er Drift des Random Walk nach rechts (p > q) gibt es also e<strong>in</strong>e positive Wkt<br />

1 − q/p, nie wieder zur 0 zurückzukehren.<br />

Für p < q liegt e<strong>in</strong>e L<strong>in</strong>ks-Drift des Random Walk vor. Da <strong>die</strong> Rückkehrwahrsche<strong>in</strong>lichkeit<br />

(von S 0 = 1 aus) schon im symmetrischen Fall p = q = 1 gleich 1 war, muss <strong>die</strong>s<br />

2<br />

natürlich erst recht für p < q gelten. Für <strong>die</strong> Rückkehrwahrsche<strong>in</strong>lichkeit ausgehend von<br />

S 0 = −1 ist <strong>die</strong> Formel (5.3) heranzuziehen. Weiterh<strong>in</strong> muss noch <strong>die</strong> iid-Eigenschaft<br />

der X i berücksichtigt werden. Sei B K das Ereignis S n = K vor E<strong>in</strong>tritt von S n = 0.<br />

P (S n = 0 für e<strong>in</strong> n > 0 | S 0 = −1) =<br />

lim P (B K | S 0 = K − 1) = lim q 1 − r K−1<br />

K−1 = lim<br />

K→∞ K→∞ K→∞ 1 − r<br />

⎧<br />

K<br />

⎪⎨ 1<br />

= r = p , falls p < q<br />

q<br />

⎪⎩ 1 , falls p > q .<br />

(5.10)<br />

Nun s<strong>in</strong>d alle Formeln wieder zusammenzusetzen <strong>und</strong> man erhält mit (5.8)


106 KAPITEL 5. EINFACHE IRRFAHRT (RANDOM WALK)<br />

Satz 5.3 (Rückkehr zur 0, recurrence)<br />

Bei der e<strong>in</strong>fachen Irrfahrt (Random Walk) von Def. 5.1 gilt mit q = 1 − p<br />

⎧<br />

⎪⎨ 1 , falls p = q = 1 2<br />

P (S n = 0 für e<strong>in</strong> n > 0 | S 0 = 0) = 2 p , falls p < q<br />

⎪⎩<br />

2 q , falls p > q .<br />

(5.11)<br />

Im Fall p ≠ q gibt es also e<strong>in</strong>e positive Wkt 1 − 2 m<strong>in</strong> { p, q }, nicht mehr zur 0<br />

zurückzukehren.<br />

5.2 Stoppzeiten<br />

Zum Random Walk gibt es e<strong>in</strong>e Reihe weiterer, <strong>in</strong>teressanter Fragestellungen, <strong>die</strong> elementar,<br />

wie wir das bisher getan haben, oder mit modernen stochastischen Methoden<br />

angegangen werden können. Wir wollen hier an drei Beispielen nur <strong>die</strong> Problemstellung<br />

skizzieren <strong>und</strong> für e<strong>in</strong>e genaue Untersuchung auf <strong>die</strong> Vorlesung Stochastische Prozesse<br />

oder entsprechende Lehrbücher h<strong>in</strong>weisen.<br />

1. Spieldauer; duration of the game<br />

Man betrachtet den Random Walk mit dem Startkapital S 0 = k ∈ N 0 <strong>und</strong><br />

def<strong>in</strong>iert für e<strong>in</strong> festgelegtes Zielkapital K ≥ k<br />

D := m<strong>in</strong>{ n ∈ N 0 : S n = 0 oder S n = K } . (5.12)<br />

Man spricht beim Random Walk auch von der ersten Passierzeit (passage time)<br />

durch (0, K).<br />

2. Rekurrenzzeit, Übergangszeit<br />

In ähnlicher Weise def<strong>in</strong>iert man <strong>die</strong> Rekurrenz- oder Rückkehrzeit (recurrence<br />

time)<br />

T 00 := m<strong>in</strong>{ n ≥ 2 : S n = 0 , für S 0 = 0 } (5.13)<br />

oder für beliebiges z ∈ Z <strong>die</strong> Übergangszeit (hitt<strong>in</strong>g time)<br />

T 0z := m<strong>in</strong>{ n ≥ 0 : S n = z , für S 0 = 0 } . (5.14)<br />

Die Spieldauer D beim Ru<strong>in</strong> des Spielers ist gemäß Satz 1.31 mit Wkt 1 endlich. Damit<br />

ist D e<strong>in</strong>e ZV im bisher verwendeten S<strong>in</strong>n.<br />

T 00 ist nur im symmetrischen Fall p = q = 1 mit Wkt 1 endlich <strong>und</strong> bei T 2<br />

0z hängt<br />

<strong>die</strong> Endlichkeit vom Vorzeichen von z sowie dem Drift des Random Walk ab. E<strong>in</strong>e<br />

Herleitung der Wahrsche<strong>in</strong>lichkeitsverteilungen von T 00 bzw. T 0z f<strong>in</strong>det man z. B. <strong>in</strong><br />

[Stirzaker (1994)], pp. 146 mit elementaren Methoden oder <strong>in</strong> [Resnick (1994)], pp. 33


5.2. STOPPZEITEN 107<br />

über erzeugende Funktionen. Weiterh<strong>in</strong> ist e<strong>in</strong> Zugang über Markovketten oder Mart<strong>in</strong>gale<br />

möglich, <strong>die</strong> <strong>in</strong> weiterführenden Stochastikvorlesungen ausführlich besprochen<br />

werden.<br />

Wir wollen wenigstens e<strong>in</strong> wichtiges Resultat zu Übergangszeiten referieren; vgl. z. B.<br />

[Stirzaker (1994)], pp. 146:<br />

Wegen der iid-Eigenschaft der X i gilt<br />

T 02 = T 01 + T 12 ,<br />

wobei T 01 <strong>und</strong> T 12 <strong>die</strong>selbe Verteilung haben <strong>und</strong> unabhängig s<strong>in</strong>d (T 12 ist analog zu<br />

T 0z def<strong>in</strong>iert). Damit kann man sich auf <strong>die</strong> Analyse des Spezialfalls T 01 beschränken.<br />

Hier gilt u.a.<br />

⎧<br />

⎪⎨ 1<br />

, falls p > q<br />

E (T 01 ) = p − q<br />

(5.15)<br />

⎪⎩ ∞ , sonst .<br />

Dabei ist <strong>in</strong>teressant, dass für p = q = 1 2 gilt: P (T 01 < ∞) = 1 aber E (T 01 ) = ∞.<br />

D, T 00 <strong>und</strong> T 0z s<strong>in</strong>d spezielle Stoppzeiten (auch Stopzeiten). Bei <strong>die</strong>sem wichtigen<br />

Typ von ZV (hier werden also auch Werte wie ∞ als Ergebnis zugelassen) kann zu<br />

jeder Zeit (hier n ∈ N 0 ) des stochastischen Prozesses (hier S n ) festgestellt werden, ob<br />

das Stoppkriterium schon e<strong>in</strong>getreten ist oder nicht. Die praktische Relevanz <strong>die</strong>ser<br />

wichtigen Eigenschaft sei abschließend an e<strong>in</strong>em Beispiel demonstriert:<br />

E<strong>in</strong> Devisenspekulant hat zu e<strong>in</strong>em gewissen Zeitpunkt t = 0 den Betrag von A US $<br />

aufgekauft <strong>und</strong> möchte <strong>die</strong>se zur Zeit T opt bei e<strong>in</strong>em maximalen Kurs abstoßen.<br />

T opt ist ke<strong>in</strong>e Stoppzeit, da am 1.12.1997 nicht entschieden werden kann, ob das Stoppkriterium<br />

schon e<strong>in</strong>getreten ist oder erst <strong>in</strong> der Zukunft e<strong>in</strong>treten wird.<br />

Dagegen ist das E<strong>in</strong>treten des Zeitpunkts t > 0, zu dem der US $ zum ersten Mal<br />

e<strong>in</strong>en Kurs von 2 DM erreicht, feststellbar. Das entsprechend def<strong>in</strong>ierte T 2.00 ist e<strong>in</strong>e<br />

Stoppzeit, <strong>die</strong> auch den Wert ∞ annehmen kann, wenn nämlich der Kurs des US $ nie<br />

mehr über 2 DM klettert.


Kapitel 6<br />

E<strong>in</strong>e Auswahl wichtiger<br />

Verteilungen<br />

Dieses Kapitel <strong>die</strong>nt dem schnellen Auff<strong>in</strong>den e<strong>in</strong>iger Charakteristika wichtiger Verteilungen.<br />

Teilweise f<strong>in</strong>det man <strong>die</strong> an <strong>die</strong>ser Stelle zusammengefaßten Ergebnisse verstreut<br />

über <strong>die</strong> vorangegangen Abschnitte, andere werden hier erstmals aufgeführt.<br />

Dies trifft etwa zu auf <strong>die</strong> Mult<strong>in</strong>omial- oder <strong>die</strong> Weibull-Verteilung. Die Stichprobenverteilungen<br />

zur statistischen Analyse von normalverteilten iid-Zufallsvariablen (ZV)<br />

wie <strong>die</strong> χ 2 -, Student- <strong>und</strong> Fisher-Verteilung werden <strong>in</strong> Kapitel 9 behandelt.<br />

f bezeichnet jeweils <strong>die</strong> Wahrsche<strong>in</strong>lichkeitsfunktion bzw. Dichte der betrachteten ZV<br />

X, F deren Verteilungfunktion sowie ¯F <strong>die</strong> tail probability, <strong>die</strong> oft als Überlebenswahrsche<strong>in</strong>lichkeit<br />

<strong>in</strong>terpretiert werden kann. Neben Erwartungswert <strong>und</strong> Varianz s<strong>in</strong>d ggf.<br />

auch Momente, Kumulanten, (moment-) erzeugende Funktion <strong>und</strong> Besonderheiten der<br />

zugr<strong>und</strong>eliegenden Verteilung angegeben.<br />

Übersichten von Verteilungen mit weiteren Details f<strong>in</strong>det man etwa im Lexikon der Stochastik<br />

von [Müller (1975)] oder <strong>in</strong> den drei Büchern von Johnson <strong>und</strong> Kotz über diskrete<br />

sowie univariate <strong>und</strong> multivariate stetige Verteilungen; zum Beispiel<br />

[Johnson & Kotz (1970)].<br />

108


6.1. EINIGE DISKRETE VERTEILUNGEN 109<br />

6.1 E<strong>in</strong>ige diskrete Verteilungen<br />

B<strong>in</strong>omialverteilung: B(n, p)<br />

( n<br />

f(x) = p<br />

x)<br />

(1 − p) n−x , x = 0, 1, . . . , n, 0 < p < 1 (6.1)<br />

E(X) = np, V ar(X) = np(1 − p) (6.2)<br />

G(s) = E ( s X) = (1 − p + p s) n (erzeugende Funktion) (6.3)<br />

Besonderheiten:<br />

1. Approximation durch <strong>die</strong> Normalverteilung siehe Abschnitt 4.3.1<br />

2. Approximation durch <strong>die</strong> Poisson-Verteilung siehe Abschnitt 4.3.2<br />

Poisson-Verteilung: P oi(λ)<br />

−λ λx<br />

f(x) = e , x = 0, 1, 2, . . . , λ > 0 (6.4)<br />

x!<br />

E(X) = λ, V ar(X) = λ (6.5)<br />

G(s) = E ( s X) = e λ(s−1) (erzeugende Funktion) (6.6)<br />

M(s) = E ( e s X) = exp [λ (e s − 1)] (momenterzeugende Funktion) (6.7)<br />

Besonderheiten:<br />

K(s) = λ (e s − 1) (Kumulantenfunktion) (6.8)<br />

κ k = λ , k = 1, 2, 3, ... (Kumulanten) (6.9)<br />

1. Approximation durch <strong>die</strong> Normalverteilung siehe Abschnitt 4.3.1<br />

2. Grenzverteilung der B<strong>in</strong>omialverteilung siehe Abschnitt 4.3.2


110 KAPITEL 6. EINE AUSWAHL WICHTIGER VERTEILUNGEN<br />

Geometrische Verteilung<br />

f(x) = p (1 − p) x , x = 0, 1, 2, . . . (6.10)<br />

E(X) = 1 − p<br />

p , V ar(X) = 1 − p<br />

(6.11)<br />

p 2<br />

G(s) = E ( s X) p<br />

=<br />

(erzeugende Funktion) (6.12)<br />

1 − (1 − p) s<br />

Negative B<strong>in</strong>omialverteilung NB(v, p)<br />

( ) −v<br />

f(x) = (−p) x (1 − p) v , x = 0, 1, . . . 0 < p < 1 v > 0 (6.13)<br />

x<br />

E(X) =<br />

p v<br />

1 − p , V ar(X) = p v<br />

(6.14)<br />

(1 − p) 2<br />

Besonderheiten:<br />

1. Für v ∈ N 0 ergibt e<strong>in</strong>e negativ b<strong>in</strong>omialverteilte ZV X <strong>die</strong> Anzahl der Fehlversuche<br />

vor dem v-ten Erfolg bei unabhängigen Bernoulli-Versuchen.<br />

2. Auch hier ist <strong>die</strong> Poisson-Verteilung e<strong>in</strong>e Grenzverteilung; siehe etwa<br />

[Müller (1975)].<br />

Hypergeometrische Verteilung: H(n, N, M)<br />

Diese spielt e<strong>in</strong>e wichtige Rolle <strong>in</strong> der Stichprobentheorie. In e<strong>in</strong>er Urne seien N Kugeln,<br />

davon 0 < M < N rot gefärbt <strong>und</strong> der Rest weiß. X sei <strong>die</strong> Anzahl der roten Kugeln<br />

beim n-maligen (unabhängigen) Ziehen e<strong>in</strong>er Kugel ohne Zurücklegen. Gemäß Satz<br />

1.22 gilt<br />

( )( )<br />

M N − M<br />

x<br />

P (X = x) =<br />

n − x<br />

( ) , 0 ≤ x ≤ m<strong>in</strong>{M, n} . (6.15)<br />

N<br />

n<br />

Besonderheiten:<br />

E(X) = n M N ,<br />

V ar(X) = n M N<br />

(<br />

1 − M ) N − n<br />

N N − 1<br />

(6.16)<br />

1. Wichtige Stichprobenverteilung.<br />

2. Für M → ∞ <strong>und</strong> N → ∞, so dass lim M N<br />

B<strong>in</strong>omialverteilung.<br />

= p, ergibt sich <strong>in</strong> der Grenze <strong>die</strong>


6.1. EINIGE DISKRETE VERTEILUNGEN 111<br />

Mult<strong>in</strong>omialverteilung M(n, π)<br />

Seien k ∈ N, A 1 , . . . , A k disjunkte Ereignisse <strong>und</strong><br />

⎛ ⎞<br />

k⋃<br />

A k+1 := Ω \ ⎝ A j<br />

⎠ (6.17)<br />

mit<br />

j=1<br />

P (A j ) = π j > 0 , j = 1, . . . , k + 1 .<br />

Wir setzen π := (π 1 , . . . , π k ) T ∈ R k <strong>und</strong> erhalten wegen (6.17)<br />

k∑<br />

π k+1 = 1 − π j . (6.18)<br />

j=1<br />

Bei n unabhängigen Versuchsdurchführungen trete X 1 mal das Ereignis A 1 , X 2 mal<br />

das Ereignis A 2 , ... <strong>und</strong> X k+1 mal das Ereignis A k+1 auf. Dann gilt wieder wegen (6.17)<br />

Für x j ∈ N 0 , j = 1, . . . , k + 1 <strong>und</strong><br />

k+1 ∑<br />

X j = n oder<br />

k∑<br />

X k+1 = n − X j . (6.19)<br />

j=1<br />

j=1<br />

k+1 ∑<br />

j=1<br />

x j = n lautet <strong>die</strong> Wahrsche<strong>in</strong>lichkeitsfunktion<br />

der k-dimensionalen ZV X := (X 1 , . . . , X k ) T mit x := (x 1 , . . . , x k ) T<br />

f M (x) = P (X 1 = x 1 , . . . , X k = x k )<br />

n!<br />

=<br />

x 1 ! · . . . · x k ! · x k+1 ! πx 1<br />

1 · . . . · π x k<br />

k · πx k+1<br />

k+1 . (6.20)<br />

Wegen der Nebenbed<strong>in</strong>gungen (6.18), (6.19) <strong>und</strong> x k+1 = n − ∑ k<br />

j=1 x j genügt es, X<br />

als e<strong>in</strong>e k-dimensionale ZV zu betrachten. Wir haben übrigens für k = 1 <strong>die</strong>se Vorgehensweise<br />

bei der B<strong>in</strong>omialverteilung ganz selbstverständlich angewendet. Dort galt<br />

für 0 < p < 1 mit<br />

π = (π 1 ) T = π 1 := p , π 2 := 1 − p ,<br />

x = (x 1 ) T = x 1 = x , x 2 := n − x 1 , 0 ≤ x 1 , x 2 ≤ n<br />

für <strong>die</strong> Wahrsche<strong>in</strong>lichkeitsfunktion<br />

(<br />

n!<br />

f(x 1 , x 2 ) =<br />

x 1 ! · x 2 ! πx 1<br />

1 · π x 2 n<br />

2 = p<br />

x)<br />

x (1 − p) n−x = f B (x) .<br />

Die Mult<strong>in</strong>omialverteilung ist e<strong>in</strong>e k-dimensionale diskrete Verteilung mit<br />

<strong>und</strong><br />

Cov(X i , X j ) =<br />

E(X j ) = n π j (6.21)<br />

{<br />

n πi (1 − π i ) , falls i = j<br />

−n π i π j , sonst ,<br />

Zur Herleitung siehe etwa [Chung (1979)], section 6.4.<br />

1 ≤ i, j ≤ k . (6.22)<br />

Die Mult<strong>in</strong>omialverteilung bildet wie <strong>die</strong> Poisson-, Normal- <strong>und</strong> Gammaverteilung e<strong>in</strong>e<br />

sog. Exponentialfamilie. Diese Eigenschaft spielt <strong>in</strong> der Mathematischen <strong>Statistik</strong> bei<br />

der Konstruktion von optimalen Schätzfunktionen <strong>und</strong> Tests e<strong>in</strong>e wesentliche Rolle;<br />

vgl. etwa [Witt<strong>in</strong>g (1985)].


112 KAPITEL 6. EINE AUSWAHL WICHTIGER VERTEILUNGEN<br />

6.2 Beispiele stetiger Verteilungen<br />

Normal (Gauß)-Verteilung N(µ, σ 2 )<br />

f(x) = √ 1 (<br />

)<br />

(x − µ)2<br />

exp − , 2πσ 2σ 2 µ ∈ R , σ 2 > 0 (6.23)<br />

N(0, 1) heißt Standardnormalverteilung <strong>und</strong> hat <strong>die</strong> spezielle Dichte<br />

Die Verteilungsfunktion<br />

ϕ(x) = 1 √<br />

2π<br />

e −x2 /2 .<br />

Φ(u) =<br />

∫u<br />

−∞<br />

ϕ(t) dt<br />

der Standardnormalverteilung N(0, 1) ist analytisch. E<strong>in</strong>e geschlossene Darstellung mit<br />

bekannten Standardfunktionen ist jedoch für Φ nicht möglich. Allerd<strong>in</strong>gs gibt es ausgezeichnete<br />

numerische Approximationen. Zum Ablesen von Quantilen (vgl. Abschnitt<br />

1.5.4) verwendet man Tabellen von Φ, <strong>die</strong> <strong>in</strong> den meisten <strong>Statistik</strong>-<strong>E<strong>in</strong>führung</strong>sbüchern<br />

zu f<strong>in</strong>den s<strong>in</strong>d.<br />

Nun sei X wieder N(µ, σ 2 )<br />

E(X) = µ, V ar(X) = σ 2 (6.24)<br />

M(s) = E ( e s X) = exp ( µ s + 1 2 σ2 s 2) (momenterzeugende Funktion) (6.25)<br />

Besonderheiten:<br />

1. Zentrale Momente:<br />

E [ (X − µ) k] =<br />

{<br />

0 , falls k ungerade<br />

1 · 3 · 5 · ... · (k − 1) σ k , sonst<br />

(6.26)<br />

2. γ 3 := E [(X − µ) 3 ] /σ 3 = 0 (Schiefe, skewness)<br />

3. δ 4 := E [(X − µ) 4 ] /σ 4 − 3 = 0 (Exzess, Wölbung, kurtosis).<br />

4. Alle Kumulanten ab der Ordnung 3 verschw<strong>in</strong>den.<br />

5. Summen normalverteilter ZV s<strong>in</strong>d wieder normalverteilt. Speziell gilt für unabhängige<br />

X ∼ N(µ x , σ 2 x) <strong>und</strong> Y ∼ N(µ y , σ 2 y)<br />

X + Y ∼ N(µ x + µ y , σ 2 x + σ 2 y) .


6.2. BEISPIELE STETIGER VERTEILUNGEN 113<br />

Gleichverteilung (uniform distribution) U(a, b) <strong>in</strong> (a, b), a < b<br />

Man spricht auch von der Rechteckverteilung. Es spielt ke<strong>in</strong>e Rolle, ob das offene oder<br />

das abgeschlossene Intervall zwischen a <strong>und</strong> b betrachtet wird, weil hier e<strong>in</strong>e stetige ZV<br />

X vorliegt, für <strong>die</strong> P (X = a) = P (X = b) = 0 gilt.<br />

f(x) = 1<br />

b − a 1 (a,b)(x) =<br />

⎧<br />

⎨<br />

⎩<br />

1<br />

b − a , falls a < x < b<br />

0 , sonst,<br />

(6.27)<br />

E(X) = (a + b)/2, V ar(X) = (b − a) 2 /12 (6.28)<br />

Die Gleichverteilung hat folgende zentralen Momente<br />

E [ ⎧<br />

(X − µ) k] ⎨<br />

=<br />

⎩<br />

1<br />

k+1<br />

0 , falls k ungerade<br />

) k<br />

, sonst .<br />

( b−a<br />

2<br />

Besonderheiten für den Spezialfall X ∼ U(0, c), c > 0:<br />

1. Die momenterzeugende Funktion lautet<br />

(6.29)<br />

M(s) = ec s − 1<br />

c s<br />

(6.30)<br />

2. Für den M<strong>in</strong>imum-Varianz-Schätzer ĉ von c siehe Kapitel 8.<br />

Exponentialverteilung ED(λ)<br />

f(x) = λ e −λx 1 (0,∞) (x) (6.31)<br />

F (x) = (1 − e −λx ) 1 (0,∞) (x) (6.32)<br />

¯F (x) = e −λx Überlebenswahrsche<strong>in</strong>lichkeit für x > 0 (6.33)<br />

E(X) = 1 λ , V ar(X) = 1 λ 2 (6.34)<br />

Besonderheiten:<br />

M(s) = E ( e s X) =<br />

λ<br />

λ − s<br />

(momenterzeugende Funktion) (6.35)<br />

1. Lebensdauerverteilung<br />

2. Gedächtnislosigkeit; vgl. Bsp. 1.45:<br />

P (X > x + t 0 | X > t 0 ) = P (X > x) .<br />

3. Das M<strong>in</strong>imum von n iid ED(λ)-verteilten ZV ist wieder exponentialverteilt <strong>und</strong><br />

zwar mit Parameter n λ; d. h. der Erwartungswert des M<strong>in</strong>imums ist e<strong>in</strong> n-tel<br />

des ursprünglichen Erwartungswerts e<strong>in</strong>er der iid-Variablen.


114 KAPITEL 6. EINE AUSWAHL WICHTIGER VERTEILUNGEN<br />

2<br />

1.8<br />

1.6<br />

1.4<br />

1.2<br />

1<br />

0.8<br />

Γ(1, 2) = ED(2)<br />

0.6<br />

0.4<br />

0.2<br />

Γ(1, 0.5) = ED(0.5)<br />

0<br />

0 1 2 3 4 5 6 7 8<br />

Bild 11: Dichten von Exponentialverteilungen<br />

0.5<br />

0.45<br />

0.4<br />

0.35<br />

0.3<br />

0.25<br />

Γ(0.5, 0.5)<br />

0.2<br />

0.15<br />

0.1<br />

0.05<br />

Γ(3, 0.5)<br />

0<br />

0 2 4 6 8 10 12 14<br />

Bild 12: Dichten von Gammaverteilungen mit λ = 0.5


6.2. BEISPIELE STETIGER VERTEILUNGEN 115<br />

Gammaverteilung Γ(q, λ), q > 0 <strong>und</strong> λ > 0<br />

Für z > 0 bezeichne<br />

Γ(z) :=<br />

∫ ∞<br />

0<br />

t z−1 e −t dt (6.36)<br />

<strong>die</strong> Gammafunktion mit Γ(z + 1) = z Γ(z) ; Γ( 1 2 ) = √ π ; Γ(n) = (n − 1)! , n ∈ N.<br />

Die Dichte der Gammaverteilung lautet<br />

f(x) =<br />

λq<br />

Γ(q) xq−1 e −λx 1 (0,∞) (x) . (6.37)<br />

Damit erhält man<br />

E(X) = q λ , V ar(X) = q λ 2 (6.38)<br />

M(s) = E ( e s X) =<br />

Besonderheiten:<br />

( ) q<br />

λ<br />

(momenterzeugende Funktion) (6.39)<br />

λ − s<br />

1. Momente:<br />

E [ X k] =<br />

2. Spezialfälle <strong>die</strong>ser Verteilungsfamilie s<strong>in</strong>d u.a.<br />

q(q + 1) · · · (q + k − 1)<br />

λ k , k = 1, 2, ... (6.40)<br />

• Exponentialverteilung ED(λ) = Γ(1, λ)<br />

• χ 2 n = Γ ( n<br />

, ) 1<br />

2 2 Summe von n Quadraten von unabhängigen N(0, 1)-verteilten<br />

ZV; siehe Kapitel 9.<br />

3. Die Summe X + Y unabhängiger Γ(q, λ)- bzw. Γ(r, λ)-verteilter ZV X bzw. Y<br />

ist Γ(q + r, λ)-verteilt, wobei q, r, λ > 0.<br />

4. Die Summe V von n unabhängigen ED(λ)-verteilten ZV ist Erlang(n, λ) =<br />

Γ(n, λ)-verteilt; siehe Bsp. 3.14. Die Dichte der Erlangverteilung lautet<br />

f(v) =<br />

λn<br />

(n − 1)! vn−1 e −λ v 1 (0,∞) (v) . (6.41)


116 KAPITEL 6. EINE AUSWAHL WICHTIGER VERTEILUNGEN<br />

Cauchy-Verteilung<br />

Besonderheiten:<br />

f(x) =<br />

a<br />

π(a 2 + x 2 ) , a > 0 (6.42)<br />

1. E(X) <strong>und</strong> V ar(X) existieren nicht.<br />

2. Der Quotient zweier unabhängig N(0, 1)verteilter ZV ist Cauchy-verteilt mit Parameter<br />

a = 1. Damit ist <strong>die</strong> Cauchy-Verteilung (a = 1) e<strong>in</strong>e Studentverteilung<br />

(siehe Kapitel 9) mit Freiheitsgrad 1.<br />

Pareto-Verteilung<br />

Seien c > 0 e<strong>in</strong> gewisser Schwellenwert, den <strong>die</strong> entsprechnde ZV X nicht erreichen<br />

oder unterschreiten kann <strong>und</strong> α > 0<br />

f(x) = α c<br />

( c<br />

x<br />

) α+1<br />

1(c,∞) (x) (6.43)<br />

V ar(X) =<br />

( ) c α<br />

F (x) = 1 − 1(c,∞) (x) . (6.44)<br />

x<br />

E(X) =<br />

α c , für α > 1 (6.45)<br />

α − 1<br />

α c 2<br />

, für α > 2 (6.46)<br />

(α − 1) 2 (α − 2)<br />

Logistische Verteilung<br />

Für µ ∈ R, σ > 0 <strong>und</strong> y(x) := (x − µ)/σ lauten Verteilungsfunktion, Erwartungswert<br />

<strong>und</strong> Varianz<br />

F (x) =<br />

1<br />

1 + e −πy(x)/√ 3 , E(X) = µ, V ar(X) = σ2 . (6.47)


6.2. BEISPIELE STETIGER VERTEILUNGEN 117<br />

Lognormalverteilung LogN(µ, σ 2 )<br />

E<strong>in</strong>e positive ZV X heißt logarithmisch normalverteilt, wenn ln(X) normalverteilt<br />

ist mit Mittelwert µ <strong>und</strong> Varianz σ 2 .<br />

f(x) =<br />

(<br />

)<br />

1<br />

(ln x − µ)2<br />

√ exp − 1 2π σ x 2 σ 2 (0,∞) (x) (6.48)<br />

Besonderheiten:<br />

E(X) = e µ+σ2 /2 , V ar(X) = e 2 µ+σ2 ( e σ2 − 1 ) (6.49)<br />

1. Median: x 0.5 = e µ<br />

2. Modus: x M = e µ−σ2<br />

3. Die Lognormalverteilung ist e<strong>in</strong>e e<strong>in</strong>seitige unsymmetrische Verteilung <strong>und</strong> wird<br />

u.a. zur Modellierung von Lebensdauern herangezogen.<br />

0.35<br />

0.3<br />

0.25<br />

0.2<br />

LogN(µ, σ 2 )<br />

µ = 1 , σ = 0.5<br />

0.15<br />

0.1<br />

0.05<br />

0<br />

0 2 4 6 8 10 12<br />

Bild 13: Dichte der Lognormalverteilung LogN(µ, σ 2 )


118 KAPITEL 6. EINE AUSWAHL WICHTIGER VERTEILUNGEN<br />

Weibull-Verteilung W (r, λ)<br />

f(x) = λ rx r−1 exp (−λ x r ) 1 (0,∞) (x) , r > 0 , λ > 0 (6.50)<br />

F (x) = 1 − e −λ xr , ¯F (x) = e<br />

−λ x r , x > 0 (6.51)<br />

E(X) = λ −1/r Γ ( 1<br />

r + 1) V ar(X) = λ −2/r [ Γ ( 2<br />

r + 1) − Γ 2 ( 1<br />

r + 1)] (6.52)<br />

Besonderheiten:<br />

1. Median: x 0.5 =<br />

2. Modus: x M =<br />

( ln 2<br />

λ<br />

3. Lebensdauerverteilung<br />

) 1/r<br />

( ) r − 1 1/r<br />

für r ≥ 1<br />

r λ<br />

4. E<strong>in</strong>e der drei Grenzverteilungen für Extremwerte (bei geeigneter Parametrisierung)<br />

5. Die Exponentialverteilung ED(λ) = W (1, λ) ist e<strong>in</strong>e spezielle Weibull-Verteilung.


6.2. BEISPIELE STETIGER VERTEILUNGEN 119<br />

n-dimensionale Normalverteilung N(µ, C)<br />

Für X = (X 1 , . . . , X n ) T , µ = (µ 1 , . . . , µ n ) T ∈ R n , e<strong>in</strong>e positiv def<strong>in</strong>ite, <strong>und</strong> damit<br />

symmetrische Matrix C = (c ij ) ∈ R n,n lautet <strong>die</strong> Dichte der n-dimensionalen Normalverteilung<br />

f(x) =<br />

1<br />

√(2π) n det(C) exp [ − 1 2 (x − µ)T C −1 (x − µ) ] , x ∈ R n . (6.53)<br />

Die Parameter s<strong>in</strong>d der Erwartungswert <strong>und</strong> <strong>die</strong> Kovarianzmatrix des Vektors X<br />

E(X) = µ , Cov(X) = C . (6.54)<br />

Im wichtigen Spezialfall n = 2 erhält man <strong>die</strong> bivariate Normalverteilung, vgl. auch<br />

<strong>die</strong> Kapitel 1 bis 2.<br />

Sei (Z, Y ) T e<strong>in</strong> geme<strong>in</strong>sam normalverteilter zweidimensionaler Zufallsvektor mit<br />

E(Z) = µ Z , E(Y ) = µ Y , V ar(Z) = σ 2 > 0, V ar(Y ) = τ 2 > 0 <strong>und</strong> Cov(Z, Y ) = ρ σ τ<br />

mit dem Korrelationskoeffizienten −1 < ρ < 1. In <strong>die</strong>sem Fall kann <strong>die</strong> Dichte (6.53)<br />

geschrieben werden als<br />

f Z,Y (z, y) =<br />

[<br />

(<br />

1<br />

2πστ √ 1 − ρ exp 1 (z − µz ) 2<br />

−<br />

2 2(1 − ρ 2 )<br />

− 2ρ (z − µ z) (y − µ y )<br />

σ 2 σ τ<br />

(6.55)<br />

+ (y − µ y) 2 )]<br />

.<br />

τ 2


Kapitel 7<br />

Deskriptive <strong>Statistik</strong><br />

Was ist <strong>Statistik</strong>?<br />

Im Rahmen der Mathematik versteht man unter dem Begriff <strong>Statistik</strong> vor allem zweierlei,<br />

nämlich:<br />

1. E<strong>in</strong>e wissenschaftliche Diszipl<strong>in</strong>, <strong>die</strong> sich u.a. mit dem Studium gesetzmäßiger<br />

Massenersche<strong>in</strong>ungen befaßt (ke<strong>in</strong>e Aussagen für den E<strong>in</strong>zelfall; vgl. etwa Sterbetafeln<br />

bei Lebensversicherungen).<br />

2. Die Bezeichnung von sog. Schätzfunktionen, z. B. ¯X für <strong>die</strong> übliche Durchschnittsbildung<br />

beim arithmetischen Mittel.<br />

Für e<strong>in</strong>e weitere Präzisierung siehe <strong>die</strong> E<strong>in</strong>leitung zu Kapitel 8.<br />

<strong>Statistik</strong>en (im landläufigen S<strong>in</strong>n) nennt man anschauliche, meist komprimierte Darstellungen<br />

von quantifizierbaren Vorgängen aller Art (z. B. <strong>in</strong> Tabellen oder Schaubildern),<br />

<strong>die</strong> sich über e<strong>in</strong>en gewissen Zeitraum erstrecken oder <strong>die</strong> sonst wegen e<strong>in</strong>er<br />

Fülle unübersichtlichen Datenmaterials e<strong>in</strong>er direkten Interpretation nicht zugänglich<br />

s<strong>in</strong>d; z. B.<br />

B<strong>und</strong>esligatabelle, Arbeitslosenstatistik, Statistisches Jahrbuch, Volkszählung, Bevölkerungsstatistik,<br />

Inventur, Mietspiegel, Umsatz- <strong>und</strong> Wirtschaftsstatistik, E<strong>in</strong>gänge von<br />

Forderungen an Versicherungen, Soziologische Befragungen <strong>und</strong> Auswertungen etc.<br />

E<strong>in</strong>e nicht ganz fe<strong>in</strong>fühlige, aber treffende Charakterisierung von <strong>Statistik</strong> wird Gérard<br />

Calot zugeschrieben (vgl. [Becker (1993)], S. 40)<br />

”Wenn e<strong>in</strong> Mensch stirbt, ist’s e<strong>in</strong> Malheur,<br />

bei 100 Toten e<strong>in</strong>e Katastrophe,<br />

bei 1000 Toten e<strong>in</strong>e <strong>Statistik</strong>. ”<br />

Zu e<strong>in</strong>er statistischen Auswertung gehören u.a.:<br />

Planung der gesamten Untersuchung, Festlegung e<strong>in</strong>es Stichprobenauswahlverfahrens,<br />

Datenerfassung, -co<strong>die</strong>rung <strong>und</strong> -verarbeitung, mathematische Analyse mit e<strong>in</strong>em geeignet<br />

gewählten Modell, Datenpräsentation <strong>und</strong> Interpretation der Ergebnisse.<br />

120


7.1. GRUNDGESAMTHEIT, MERKMALE 121<br />

In angewandten Gebieten wie den Natur-, Ingenieur- oder Wirtschaftswissenschaften<br />

muss man sich gelegentlich auf e<strong>in</strong>e anschauliche Darstellung von Versuchs- <strong>und</strong> Untersuchungsergebnissen<br />

beschränken, weil den Adressaten der Präsentation möglicherweise<br />

wahrsche<strong>in</strong>lichkeitstheoretische Gr<strong>und</strong>lagen fehlen. Um <strong>die</strong> <strong>in</strong>terdiszipl<strong>in</strong>äre Zusammenarbeit<br />

zu fördern, beg<strong>in</strong>nen auch wir damit, Möglichkeiten der grafischen Darstellung<br />

von Daten <strong>und</strong> deren Charakterisierung mit geeigneten Maßzahlen aufzuzeigen.<br />

Man spricht von deskriptiver oder auch beschreibender bzw. empirischer <strong>Statistik</strong>.<br />

Auf Elemente der sog. <strong>in</strong>duktiven oder schließenden <strong>Statistik</strong> wird am Ende<br />

<strong>die</strong>ser Vorlesung e<strong>in</strong>gegangen. Dort kommen u.a. Eigenschaften von Schätzfunktionen<br />

<strong>und</strong> <strong>die</strong> statistische Analyse normalverteilter Daten kurz zur Sprache.<br />

Die deskriptive <strong>Statistik</strong> ist das B<strong>in</strong>deglied von e<strong>in</strong>er eher anschaulich orientierten<br />

Datenanalyse h<strong>in</strong> zur abstrakten Wahrsche<strong>in</strong>lichkeitstheorie. Die Zusammenhänge zwischen<br />

Gr<strong>und</strong>gesamtheit <strong>und</strong> Ergebnismenge, Merkmal <strong>und</strong> Zufallsvariable, Summenhäufigkeitsfunktion<br />

<strong>und</strong> Verteilungsfunktion sowie vielen statistischen Maßzahlen <strong>und</strong> entsprechenden<br />

Kenngrößen von Verteilungen s<strong>in</strong>d offensichtlich.<br />

7.1 Gr<strong>und</strong>gesamtheit, Merkmale<br />

Def. 7.1 (Gr<strong>und</strong>gesamtheit, Population Ω)<br />

E<strong>in</strong>e statistische Untersuchung bezieht sich stets auf e<strong>in</strong>e klar festgelegte Gr<strong>und</strong>gesamtheit<br />

oder Population Ω, <strong>die</strong> Menge aller denkbaren Beobachtungse<strong>in</strong>heiten.<br />

In der mathematischen Term<strong>in</strong>ologie ist Ω also e<strong>in</strong>e nichtleere Menge. Die<br />

Elemente ω ∈ Ω nennt man auch Merkmalsträger.<br />

Beispiel 7.2 (Gr<strong>und</strong>gesamtheiten)<br />

1. Ω 1 := { ω | ω ist Student an der TU München im W<strong>in</strong>tersemester 1997/98 }.<br />

Ω 1 kann mit der Datei aller Matrikelnummern identifiziert werden.<br />

2. Ω 2 := { ω | ω ist Klient der Versicherung V am 1.11.1997 }.<br />

Ω 2 ist <strong>die</strong> Datei der K<strong>und</strong>ennummern.<br />

3. Ω 3 := { ω | ω ist Mietwohnung <strong>in</strong> der Stadt M am 1.1.1998 }.<br />

4. Ω 4 := { ω | ω ist Bürger der BRD am 1.12.1997 }.<br />

E<strong>in</strong>e Schwierigkeit bei statistischen Untersuchungen bzgl. Ω 3 <strong>und</strong> Ω 4 ist, dass es wohl<br />

ke<strong>in</strong>e Datei gibt, <strong>die</strong> alle zu untersuchenden Objekte enthält.


122 KAPITEL 7. DESKRIPTIVE STATISTIK<br />

Def. 7.3 (Merkmal)<br />

Gegenstand statistischer Erhebungen ist <strong>in</strong> der Regel nicht <strong>die</strong> Gr<strong>und</strong>gesamtheit<br />

Ω selbst, sondern Eigenschaften ihrer Elemente. Unter e<strong>in</strong>em Merkmal versteht<br />

man e<strong>in</strong>e Abbildung<br />

X : Ω → IR , (7.1)<br />

<strong>die</strong> jedem Merkmalsträger ω ∈ Ω e<strong>in</strong>e Zahl x = X(ω) zuordnet.<br />

X(Ω) := { x ∈ IR | x = X(ω) } (7.2)<br />

nennt man <strong>die</strong> Menge der Merkmalsausprägungen.<br />

Zufallsvariable s<strong>in</strong>d nach <strong>die</strong>ser Def<strong>in</strong>ition spezielle Merkmale. In vielen Büchern werden<br />

<strong>die</strong> Begriffe Merkmal <strong>und</strong> Zufallsvariable synonym verwendet.<br />

7.1.1 Klassifizierung von Merkmalen, Skalentypen<br />

Def. 7.4 (diskret, stetig, qualitativ, quantitativ)<br />

Falls<br />

X(Ω) = {a 1 , ..., a j , ...} , (7.3)<br />

nennen wir X diskret. Merkmale, <strong>die</strong> alle Werte e<strong>in</strong>es Intervalls I ⊆ R annehmen<br />

können, d. h.<br />

X(Ω) = [a, b], [0, ∞), R usw. , (7.4)<br />

heißen stetig.<br />

Weiterh<strong>in</strong> wird zwischen qualitativen <strong>und</strong> quantitativen Merkmalen unterschieden.<br />

Alle stetigen Merkmale s<strong>in</strong>d quantitativ.<br />

Beispiele:<br />

Diskrete qualitative Merkmale s<strong>in</strong>d etwa Geschlecht, Religionszugehörigkeit <strong>und</strong> Prädikat<br />

beim Diplomabschluß (mit Auszeichnung, sehr gut, gut, befriedigend, bestanden).<br />

Zählvariable wie <strong>die</strong> Anzahl der K<strong>und</strong>en vor e<strong>in</strong>em Bankschalter s<strong>in</strong>d diskrete quantitative<br />

Merkmale.<br />

Stetige Merkmale s<strong>in</strong>d z. B. Körpergröße, Auftragsvolumen, Nettomiete/qm, E<strong>in</strong>kommen<br />

etc.<br />

Vor allen <strong>in</strong> den Wirtschafts- <strong>und</strong> Sozialwissenschaften ist folgende weitere Klassifizierung<br />

üblich:


7.1. GRUNDGESAMTHEIT, MERKMALE 123<br />

Def. 7.5 (Skalentypen: nom<strong>in</strong>al, ord<strong>in</strong>al, metrisch (kard<strong>in</strong>al))<br />

Mit metrisch oder kard<strong>in</strong>al werden solche Merkmale bezeichnet, <strong>die</strong> auf e<strong>in</strong>er<br />

Intervallskala Int ⊆ R gemessen werden. Zu e<strong>in</strong>er solchen Skala gehört u.a.<br />

e<strong>in</strong>e Normierung der Abstände durch e<strong>in</strong>e festgelegt E<strong>in</strong>heit. Stetige Merkmale<br />

<strong>und</strong> diskrete Zählvariable s<strong>in</strong>d metrisch.<br />

Die nächst e<strong>in</strong>fachere Stufe s<strong>in</strong>d ord<strong>in</strong>ale Merkmale, bei denen zwar noch e<strong>in</strong>e<br />

Rangfolge der Merkmalsausprägungen vorliegt, <strong>die</strong> Abstände dazwischen aber<br />

nicht mehr s<strong>in</strong>nvoll quantifiziert werden können, z. B. Noten oder Bewertungen<br />

wie (e<strong>in</strong>fach, normal, gehoben, sehr gut), etwa für <strong>die</strong> Ausstattung von Wohnungen.<br />

Überhaupt ke<strong>in</strong>e Struktur liegt bei sog. nom<strong>in</strong>alen Merkmalen wie Geschlecht,<br />

Religionszugehörigkeit, Wahlverhalten etc. vor.<br />

Ord<strong>in</strong>ale <strong>und</strong> nom<strong>in</strong>ale Merkmale s<strong>in</strong>d diskret.<br />

Die Berechnung vieler statistischer Kenngrößen ist nur für metrische (quantitative)<br />

Merkmale s<strong>in</strong>nvoll.<br />

Bei ord<strong>in</strong>alen Merkmalen s<strong>in</strong>d immerh<strong>in</strong> noch Rangstatistiken von Interesse, während<br />

im nom<strong>in</strong>alen Fall nur <strong>die</strong> Angabe relativer Häufigkeiten für <strong>die</strong> verschiedenen Merkmalsausprägungen<br />

erfolgen kann.<br />

Beispiel 7.6 (Merkmale)<br />

1. X 1 : Ω 1 → {0 = männlich, 1 = weiblich }, Geschlecht (nom<strong>in</strong>al).<br />

2. X 2 : Ω 1 → { mit Auszeichnung = 0, sehr gut = 1, gut = 2, befriedigend =<br />

3, bestanden = 4 }, Prädikat im Diplom-Zeugnis an der TUM (ord<strong>in</strong>al).<br />

3. X 3 : Ω 2 → N 0 , K<strong>in</strong>derzahl (diskrete Zählvariable, metrisch)<br />

4. X 4 : Ω 2 → [0, ∞), Auftragsvolumen des K<strong>und</strong>en im Abrechnungsmonat Oktober<br />

1997 (stetig)<br />

5. X 5 : Ω 3 → (0, ∞), Nettomiete/qm am 1.1.1997 (stetig)<br />

Im ersten Stochastikkurs sei es erlaubt, dem Hörer den Unterschied zwischen der Abbildung<br />

X (Merkmal, Zufallsvariable) <strong>und</strong> deren Realisierung x = X(ω) an e<strong>in</strong>em<br />

weiteren konstruierten Beispiel aufzuzeigen. Vielleicht trägt <strong>die</strong> Tatsache, dass das zu<br />

beschreibende Vorgehen vom Gesetzgeber ausdrücklich verboten wurde, dazu bei, dass<br />

sich der darzustellende Sachverhalt besser e<strong>in</strong>prägt.


124 KAPITEL 7. DESKRIPTIVE STATISTIK<br />

Beispiel 7.7 (Datenbank)<br />

Gäbe es also e<strong>in</strong>e b<strong>und</strong>esdeutsche Datenbank, <strong>in</strong> der für jeden Bürger über e<strong>in</strong>e Personenkennzahl<br />

(wir nennen sie ω) alle Informationen abrufbar wären, z. B. auch Geschlecht,<br />

Schulabschluß, Beruf, K<strong>in</strong>derzahl, Wahlverhalten, E<strong>in</strong>künfte, Nebentätigkeiten,<br />

usw., so ließen sich <strong>in</strong>teressante statistische Untersuchungen über <strong>die</strong> B<strong>und</strong>esbürger<br />

folgendermaßen vere<strong>in</strong>fachen:<br />

1. Lege das zu untersuchende Merkmal X fest; etwa Religionszugehörigkeit als e<strong>in</strong>e<br />

gewisse Spalte im jeweiligen Personen-Datensatz.<br />

2. Wähle aus der Datenbank (das ist Ω) e<strong>in</strong>e Person ω aus. Durch Auswerten der<br />

Position für Religionszugehörigkeit erhält man mit x := X(ω) das Merkmal X<br />

im jeweiligen Datensatz ω. Die Realisierung x ∈ R ist e<strong>in</strong>e Zahl im Gegensatz zu<br />

der Abbildung X : Ω → R.<br />

3. Aus zwei vorhandenen Merkmalen wie X = E<strong>in</strong>künfte <strong>und</strong> Y = Nebentätigkeiten<br />

läßt sich e<strong>in</strong> neues Merkmal Z := X + Y Gesamte<strong>in</strong>künfte konstruieren, <strong>in</strong>dem<br />

jeder Datensatz um e<strong>in</strong>e Spalte erweitert wird. Dort ist dann jeweils Z(ω) :=<br />

X(ω) + Y (ω) für alle ω ∈ Ω neu e<strong>in</strong>zutragen, wobei X(ω) <strong>und</strong> Y (ω) bereits<br />

vorhanden s<strong>in</strong>d.<br />

4. Sei g : R → R e<strong>in</strong>e geeignet gewählte Funktion. Dann ist durch W := g(U)<br />

e<strong>in</strong> neues Merkmal def<strong>in</strong>iert; z. B. U E<strong>in</strong>kommen <strong>in</strong> DM <strong>und</strong> W E<strong>in</strong>kommen<br />

umgerechnet <strong>in</strong> US $.<br />

5. S<strong>in</strong>d also Häufigkeiten, Mittelwerte, Maxima etc. für X, Y, U <strong>in</strong> den genannten<br />

Beispielen bekannt, so können <strong>die</strong> entsprechenden Werte auch für <strong>die</strong> transformierten<br />

Größen Z <strong>und</strong> W leicht angegeben werden.<br />

7.1.2 Messreihen, Stichproben<br />

Bei der Gew<strong>in</strong>nung statistischen Datenmaterials s<strong>in</strong>d generell sog. Vollerhebungen<br />

wünschenswert. Dagegen sprechen meist Datenschutzvorschriften oder Kostengründe.<br />

Beispielsweise läßt sich e<strong>in</strong>e Volkszählung nicht jedes Jahr durchführen. Auf der anderen<br />

Seite verbieten auch praktische Überlegungen e<strong>in</strong>e vollständige Ausschöpfung der<br />

Gr<strong>und</strong>gesamtheit: z. B. beim Prüfen der Lebensdauer von Glühbirnen. Deswegen s<strong>in</strong>d<br />

<strong>in</strong> den meisten statistischen Untersuchungen sog. Teilerhebungen oder Stichproben<br />

notwendig. Bei der Datenerfassung hat man hier e<strong>in</strong>e Reihe von Regeln zu beachten.


7.2. EMPIRISCHE VERTEILUNG EINDIM. DISKRETER MERKMALE 125<br />

Def. 7.8 (Empirische Stichprobe, Messreihe)<br />

Gegeben sei e<strong>in</strong>e Population (Gr<strong>und</strong>gesamtheit) Ω, e<strong>in</strong> Merkmal X : Ω → IR <strong>und</strong><br />

e<strong>in</strong>e Teilmenge {ω 1 , ω 2 , .., ω n } ⊂ Ω.<br />

Dann heißt<br />

x 1 , x 2 , ..., x n := X(ω 1 ), X(ω 2 ), ..., X(ω n ) (7.5)<br />

empirische Stichprobe oder Messreihe oder Urliste oder nur ’<strong>die</strong> Daten’.<br />

Die x i s<strong>in</strong>d <strong>in</strong> der Regel ungeordnet. Im Gegensatz zu Mengen können <strong>die</strong> Stichprobene<strong>in</strong>tragungen<br />

x i <strong>und</strong> x j , i ≠ j durchaus gleich se<strong>in</strong>.<br />

E<strong>in</strong>e Stichprobe wird genannt:<br />

1. zufällig, wenn jedes Element aus der Gr<strong>und</strong>gesamtheit <strong>die</strong> gleiche Chance<br />

hat, <strong>in</strong> <strong>die</strong> Auswertung der Stichprobe bzgl. X zu gelangen<br />

2. repräsentativ, wenn <strong>die</strong> der Stichprobe zugr<strong>und</strong>eliegenden ausgewählten<br />

Elemente alle Aspekte der Gr<strong>und</strong>gesamtheit bzgl. des Merkmals X repräsentieren<br />

(z. B. das ganze Parteienspektrum bei e<strong>in</strong>er Wahlprognose).<br />

Natürlich können <strong>die</strong> Daten x 1 , x 2 , ..., x n auch Realisierungen von iid-Variablen<br />

X 1 , X 2 , ..., X n se<strong>in</strong> (iid = <strong>in</strong>dependent identically distributed); vgl. Def. 2.29. Die folgenden<br />

Überlegungen setzen <strong>die</strong>s jedoch nicht voraus.<br />

7.2 Empirische Verteilung e<strong>in</strong>dim. diskreter Merkmale<br />

Hier sollen für verschiedene Merkmalstypen (relative) Häufigkeiten tabellarisch <strong>und</strong><br />

grafisch dargestellt werden. Es liege e<strong>in</strong>e empirische Stichprobe x 1 , x 2 , ..., x n bzgl. des<br />

Merkmals X <strong>in</strong> Ω vor. Für diskrete Merkmale aller Skalentypen gibt es e<strong>in</strong>e Reihe<br />

grafischer Darstellungsmöglichkeiten, <strong>die</strong> auch <strong>in</strong> vielen kommerziellen Programmen<br />

angewählt werden können. Die relative Summenhäufigkeitsfunktion ist bereits auf ord<strong>in</strong>ale<br />

<strong>und</strong> metrische Merkmale e<strong>in</strong>geschränkt. Statistische Maßzahlen wie Mittelwert<br />

<strong>und</strong> Varianz s<strong>in</strong>d nur für metrische Merkmale erklärt.<br />

7.2.1 Tabellierung <strong>und</strong> grafische Darstellung<br />

Zunächst soll e<strong>in</strong> nom<strong>in</strong>ales Merkmal untersucht werden.


126 KAPITEL 7. DESKRIPTIVE STATISTIK<br />

Beispiel 7.9 (B<strong>und</strong>estagswahl 1994)<br />

Wir legen n = 50 Mio. abgegebene gültige Stimmen zugr<strong>und</strong>e. Dann entspricht etwa<br />

das Säulendiagramm von Bild 14 folgender Häufigkeitstabelle<br />

Tabelle 4: Absolute <strong>und</strong> relative Häufigkeiten<br />

Partei CDU/CSU SPD Grüne FDP PDS sonstige<br />

absolute Hfkt. <strong>in</strong> Mio. 20.75 18.20 3.65 3.45 2.20 1.75<br />

relative Häufigkeit 41.5% 36.4% 7.3% 6.9% 4.4% 3.5%<br />

Für nom<strong>in</strong>ale Merkmale werden <strong>in</strong> der Regel nur absolute <strong>und</strong> relative Häufigkeiten<br />

angegeben. E<strong>in</strong>e grafische Darstellung erfolgt über verschiedenartige Diagramme.<br />

41.5%<br />

36.4%<br />

CDU/CSU<br />

7.3% 6.9% 4.4%<br />

SPD Grüne FDP PDS<br />

3.5%<br />

sonstige<br />

Bild 14: Säulendiagramm: Ergebnisse der B<strong>und</strong>estagswahl 1994<br />

Daneben gibt es auch noch räumliche Säulendiagramme, Stabdiagramme, Kreissektorendiagramme,<br />

’Torten’-Diagramme, Balkendiagramme (waagrechte Säulen) <strong>und</strong> sog.<br />

Pictogramme, z. B. mit kle<strong>in</strong>en Autos für <strong>die</strong> Anzahl von Pkw-Zulassungen usw.<br />

7.2.2 Relative Summenhäufigkeit<br />

Wir wenden uns jetzt ord<strong>in</strong>alen <strong>und</strong> metrischen Merkmalen zu mit den Merkmalsausprägungen<br />

a 1 < a 2 < ... < a j < ... < a m .


7.2. EMPIRISCHE VERTEILUNG EINDIM. DISKRETER MERKMALE 127<br />

Beispiel 7.10 (K<strong>und</strong>en am Schalter)<br />

Über mehrere Wochen standen an verschiedenen Tagen jeweils bei der Kfz-Zulassungsstelle<br />

München um 12 Uhr (Ende der ffnungszeit) an geöffneten Schaltern folgende<br />

Anzahlen von Personen <strong>in</strong> der Schlange:<br />

Tabelle 5: Schalterk<strong>und</strong>en<br />

Anzahl Personen a j = j 0 1 2 3 4 5 6 7 8 9 10<br />

Häufigkeit n j 0 0 0 5 10 15 20 50 100 25 25<br />

5<br />

rel. Häufigkeit r j = n j /n 0 0 0<br />

250<br />

j∑<br />

5<br />

kumulierte rel. Hfkt. H j := r k 0 0 0<br />

250<br />

k=1<br />

E<strong>in</strong>er übersichtlichen Darstellung wegen unterdrücken wir <strong>die</strong> Ausprägung a 0 . Das<br />

ändert nichts an den folgenden Berechnungen, da a 0 = 0 nicht als Stichprobenwert<br />

auftritt. Sodann setzen wir (wie schon <strong>in</strong> der Tabelle angegeben)<br />

a 1 := 1 , a 2 := 2 , ... , a 9 := 9 , a 10 = a m := 10.<br />

10<br />

250<br />

15<br />

250<br />

15<br />

250<br />

30<br />

250<br />

20<br />

250<br />

50<br />

250<br />

50<br />

250<br />

100<br />

250<br />

100<br />

250<br />

200<br />

250<br />

25<br />

250<br />

225<br />

250<br />

25<br />

250<br />

250<br />

250<br />

Satz 7.11 (Regeln für absolute, relative <strong>und</strong> kumulierte Häufigkeiten)<br />

Mit den absoluten Häufigkeiten 0 ≤ n j ≤ n, ∑ n j = n gilt für <strong>die</strong> relativen<br />

Häufigkeiten<br />

0 ≤ r j = n j<br />

n ≤ 1 ,<br />

m ∑<br />

j=1<br />

Daraus folgt für <strong>die</strong> kumulierten (relativen) Häufigkeiten<br />

r j = 1 . (7.6)<br />

0 ≤ H 1 = r 1 ≤ H 2 = r 1 + r 2 ≤ ... ≤ H m = 1 . (7.7)<br />

H 6 = 50 = 0.2 im Beispiel oben besagt, dass <strong>in</strong> 20% der Fälle sechs oder weniger<br />

250<br />

K<strong>und</strong>en um 12 Uhr anstanden.<br />

Dies motiviert folgende Festlegung


128 KAPITEL 7. DESKRIPTIVE STATISTIK<br />

Def. 7.12 (Empirische Verteilungsfunktion)<br />

Die Funktion F n : R → R,<br />

F n (x) := { | x i , i = 1, ..., n : x i ≤ x | }<br />

n<br />

= 1 n<br />

n∑<br />

1 (−∞,x] (x i ) , (7.8)<br />

i=1<br />

heißt empirische Verteilungsfunktion oder auch relative Summenhäufigkeitsfunktion.<br />

1 A bezeichnet <strong>die</strong> Indikatorfunktion der Menge A, also 1 A (x) = 1,<br />

falls x ∈ A <strong>und</strong> 1 A (x) = 0, sonst (siehe auch Def. 1.44).<br />

Es gilt<br />

⎧<br />

⎪⎨ 0 , falls x < a 1<br />

F n (x) = H j = r 1 + ... + r j , falls a j ≤ x < a j+1<br />

⎪⎩<br />

1 , falls x ≥ a m .<br />

(7.9)<br />

1<br />

0.9<br />

0.8<br />

F n (x)<br />

✻<br />

❞<br />

<br />

❞<br />

0.4<br />

❞<br />

0.2<br />

❞<br />

❞<br />

❞<br />

❞ ❞ ❞ ❞ ❞<br />

1 2 3 4 5<br />

6<br />

7<br />

8<br />

9<br />

10<br />

K<strong>und</strong>en ✲<br />

Bild 15: Empirische Verteilungsfunktion: K<strong>und</strong>en


7.3. EMPIRISCHE VERTEILUNG EINDIM. STETIGER MERKMALE 129<br />

Satz 7.13 (Eigenschaften)<br />

Die empirische Verteilungsfunktion ist für ord<strong>in</strong>ale <strong>und</strong> metrische Merkmale def<strong>in</strong>iert.<br />

Für sie gilt<br />

1. F n ist monoton nicht fallend<br />

2. lim<br />

x→−∞ F n(x) = 0,<br />

x→∞<br />

lim F n (x) = 1<br />

3. F n ist e<strong>in</strong>e rechtsseitig stetige Treppenfunktion.<br />

7.3 Empirische Verteilung e<strong>in</strong>dim. stetiger Merkmale<br />

E<strong>in</strong> Merkmal X : Ω → IR heißt stetig, falls X(ω) alle Werte aus e<strong>in</strong>em Intervall, z. B.<br />

[a, b] = {x | a ≤ x ≤ b}, a < b<br />

- oder wie <strong>in</strong> Gleichung (7.4) beschrieben - annehmen kann. x 1 , . . . , x n sei wieder e<strong>in</strong>e<br />

empirische Stichprobe (Urliste).<br />

Beispiel 7.14 (Körpergewichte von Schülern e<strong>in</strong>er 8. Klasse)<br />

Tabelle 6: Urliste Körpergewichte<br />

57.8 61.3 60.1 60.0 63.7 60.5 64.8 62.2<br />

58.1 65.9 61.1 63.2 56.2 64.4 61.9<br />

59.7 60.2 61.3 65.6 63.2 58.7 62.8<br />

Ziel: Die gesammelte Information möglichst kurz <strong>und</strong> übersichtlich darstellen. Die<br />

Rolle der diskreten Merkmalsausprägungen übernehmen nun disjunkte Klassen, <strong>die</strong><br />

alle Stichprobenwerte überdecken.<br />

Regeln zur Klassenbildung<br />

1. x m<strong>in</strong> = m<strong>in</strong> {x i }, x max = max {x i } :<br />

bestimme Zahlen a 0 (< x m<strong>in</strong> ) < a 1 < . . . < a m (≥ x max )<br />

<strong>und</strong> setze I j = (a j−1 , a j ] = {x | a j−1 < x ≤ a j }, j = 1, . . . , m.<br />

a 0 heißt Reduktionslage, v = x max − x m<strong>in</strong> bezeichnet <strong>die</strong> Variationsbreite.


130 KAPITEL 7. DESKRIPTIVE STATISTIK<br />

2. a j (falls möglich) durch praktische Überlegungen im Zusammenhang mit der<br />

Problemstellung wählen.<br />

3. m ≈ √ n (im Zweifel ungerade), 5 ≤ m ≤ 25 (Faustregel);<br />

4. i. a. Klassenbreiten w j = a j − a j−1 = w = const.<br />

a j möglichst ”e<strong>in</strong>fache Zahlen“.<br />

5. Manchmal bietet sich e<strong>in</strong> logarithmischer Maßstab oder e<strong>in</strong>e andere geeignete<br />

Transformation an.<br />

6. Die Klassene<strong>in</strong>teilung ist nicht e<strong>in</strong>deutig vorgeschrieben.<br />

7. Alle Größen <strong>die</strong>ses Abschnitts hängen von der gewählten Klassene<strong>in</strong>teilung<br />

I := I 1 , ..., I m ab.<br />

Im Beispiel gilt x m<strong>in</strong> = 56.2 <strong>und</strong> x max = 65.9.<br />

Histogramm <strong>und</strong> empirische Verteilungsfunktion<br />

✻<br />

7<br />

h(x)<br />

✻<br />

7/44<br />

n j<br />

4/44<br />

5<br />

5/44<br />

4<br />

2<br />

2/44<br />

56 58 60 62 64 66<br />

Bild 16: Histogramm für <strong>die</strong> oben gewählte Klassene<strong>in</strong>teilung<br />

E<strong>in</strong> Histogramm veranschaulicht <strong>die</strong> Dichte der Daten. Bei geeigneter Skalierung (im<br />

Bild <strong>die</strong> rechte Ord<strong>in</strong>ate) ist das Histogramm der Graph der empirischen Dichtefunktion<br />

h(x) = h I (x) :=<br />

n∑<br />

j=1<br />

n j<br />

nw j<br />

1 Ij (x) =<br />

⎧<br />

⎨<br />

⎩<br />

n j<br />

nw j<br />

, x ∈ I j<br />

0 , sonst<br />

(7.10)


7.3. EMPIRISCHE VERTEILUNG EINDIM. STETIGER MERKMALE 131<br />

n j /n<br />

w j<br />

Rel. Häufigkeit der Klasse I j<br />

Klassenbreite<br />

Satz 7.15 (Empirische Dichtefunktion, Histogramm)<br />

Es gilt<br />

1. h ≥ 0<br />

2.<br />

∞∫<br />

−∞<br />

h(x)dx = 1.<br />

Tabelle 7: Häufigkeiten<br />

(a j−1 , a j ] (a 0 , a 1 ] (a 1 , a 2 ] (a 2 , a 3 ] (a 3 , a 4 ] (a 4 , a 5 ]<br />

Klasse (56,58] (58,60] (60,62] (62,64] (64,66]<br />

n j 2 4 7 5 4<br />

n j /n 2/22 4/22 7/22 5/22 4/22<br />

kumul.rel.Hfkt. 2/22 6/22 13/22 18/22 22/22<br />

Bei stetigen Merkmalen wird oft <strong>die</strong> <strong>in</strong>tegrale empirische Verteilungsfunktion H I (x)<br />

bzgl. der gewählten Klassene<strong>in</strong>teilung herangezogen. Man def<strong>in</strong>iert:<br />

H I (x) :=<br />

∫x<br />

−∞<br />

Daraus ergeben sich Nichtnegativität bzw. Monotonie<br />

h(t)dt . (7.11)<br />

0 ≤ H I (x) ≤ 1 , H I (x) ≤ H I (y) , falls x ≤ y . (7.12)<br />

✻<br />

1<br />

H I (x)<br />

✇<br />

18/22<br />

✇<br />

13/22<br />

✇<br />

α = 0, 4<br />

✲<br />

6/22<br />

2/22<br />

✇<br />

✇<br />

✇<br />

❄<br />

56 58 60 x 0.4 62 64 66<br />

✲ x


132 KAPITEL 7. DESKRIPTIVE STATISTIK<br />

Bild 17: Stetige empirische Verteilungsfunktion bzgl. Klassene<strong>in</strong>teilung<br />

An den Klassenenden a j gilt H I (a j ) = (n 1 + n 2 + . . . + n j )/n .<br />

Damit stimmt H I dort mit der unabhängig von der Klassene<strong>in</strong>teilung def<strong>in</strong>ierten, stückweise<br />

konstanten relativen Summenhäufigkeitsfunktion<br />

F n (x) = 1 n<br />

übere<strong>in</strong>; vgl. Abschnitt 7.2.2. Weiterh<strong>in</strong> gilt<br />

lim F n(x) = lim H I(x) = 0 ,<br />

x→−∞ x→−∞<br />

n∑<br />

1 (−∞,x] (x i ) , x ∈ R ,<br />

i=1<br />

x→∞<br />

lim F n (x) = x→∞<br />

lim H I (x) = 1 , (7.13)<br />

<strong>und</strong> beide Funktionen s<strong>in</strong>d monoton wachsend. Bei diskreten Merkmalen verwendet<br />

man nur H(x), das höchstens an den Merkmalsausprägungen a j Sprünge aufweist.<br />

Näherungen für empirische α-Quantile (Prozentpunkte), vgl. Abschnitt 7.4.2, können<br />

grafisch aus Bild 17 bestimmt werden, <strong>in</strong>dem man <strong>die</strong> Gerade y = α mit dem Graphen<br />

von H I schneidet. x α ist <strong>die</strong> x-Koord<strong>in</strong>ate des Schnittpunkts.<br />

Stichproben werden häufig durch Parameter, d. h. statistische Maßzahlen, charakterisiert.<br />

Wir erläutern <strong>die</strong> wichtigsten Lage- <strong>und</strong> Streuungsparameter.<br />

Fast alle der zu behandelnden Größen haben ihre Entsprechung als Kenngrößen von<br />

Verteilungen. Zur Unterscheidung verwenden wir <strong>in</strong> den folgenden Abschnitten jeweils<br />

bei der Def<strong>in</strong>ition e<strong>in</strong>er Maßzahl Bezeichnungen wie empirisches Quantil oder empirische<br />

Varianz etc. Da <strong>in</strong> <strong>die</strong>sem Kapitel aber ke<strong>in</strong>e Verwechslungen mit den theoretischen<br />

Kenngrößen der Verteilungen, etwa von Def. 1.50, 1.59, 1.63 usw. zu befürchten s<strong>in</strong>d,<br />

wird der Zusatz empirisch <strong>in</strong> der Folge meist wieder weggelassen.<br />

7.4 Lageparameter, Lokationsmaße<br />

Diese beschreiben <strong>die</strong> “Lage” der Stichprobe auf der Zahlengeraden.<br />

7.4.1 Modus (Modalwert)<br />

Def. 7.16 (Modus, Modalwert)<br />

Der Modus oder Modalwert x Modus ist <strong>die</strong> am häufigsten auftretende Merkmalsausprägung.<br />

Er wird hauptsächlich für nom<strong>in</strong>ale Merkmale verwendet, ist<br />

aber auch für alle anderen (diskreten) Merkmalstypen s<strong>in</strong>nvoll. Bei stetigen Merkmalen<br />

hängt <strong>die</strong> Angabe des Modalwerts von der Form der Dichteschätzung ab<br />

(vgl. Klassene<strong>in</strong>teilung, Kerndichteschätzer).


7.4. LAGEPARAMETER, LOKATIONSMASSE 133<br />

Beispiel 7.17 (Modalwerte)<br />

1. Beim Wahlverhalten von Beispiel 7.9 wäre der Modus (Modalwert) x Modus = a 1 ,<br />

dem “CDU/CSU” zugeordneten Wert.<br />

2. Bei stetigen Merkmalen nimmt man als Modalwert <strong>die</strong> Mitte der Klasse mit den<br />

größten Häufigkeiten. Also <strong>in</strong> Beispiel 7.14<br />

x Modus = 61 = a 2 + a 3<br />

2<br />

Ab jetzt betrachten wir nur mehr ord<strong>in</strong>ale oder metrische Merkmale. x 1:n , ..., x n:n bezeichne<br />

<strong>die</strong> geordnete Messreihe; also x 1:1 ≤ x 1:2 ≤ ... ≤ x n:n . Gelegentlich schreibt<br />

man für <strong>die</strong> geordnete Stichprobe auch x (1) , ..., x (n) .<br />

Weiterh<strong>in</strong> sei [y] <strong>die</strong> größte ganze Zahl kle<strong>in</strong>er oder gleich y ∈ R.<br />

.<br />

7.4.2 Empirische Quantile, Quartile, Median<br />

Def. 7.18 (Quantile)<br />

Seien 0 < α < 1, 1 ≤ q ≤ n − 1 <strong>und</strong> 0 ≤ r < 1, so dass<br />

n · α = q + r , q = [n · α] .<br />

Für ord<strong>in</strong>ale <strong>und</strong> metrische Merkmale ist das sog. α-Quantil x α def<strong>in</strong>iert als e<strong>in</strong>e<br />

Zahl, für <strong>die</strong> m<strong>in</strong>destens α·100% der Daten kle<strong>in</strong>er oder gleich x α <strong>und</strong> m<strong>in</strong>destens<br />

(1−α)·100% der Daten größer oder gleich x α s<strong>in</strong>d, wobei x α selbst gegebenenfalls<br />

mitgezählt wird. E<strong>in</strong>e stets e<strong>in</strong>deutige Festlegung erreicht man durch<br />

⎧<br />

⎪⎨<br />

x α :=<br />

⎪⎩<br />

x (q+1) , falls r > 0<br />

x (q) + x (q+1)<br />

2<br />

, falls r = 0 .<br />

(7.14)<br />

Der Vollständigkeit halber wird noch x 0.0 := x (1) = x m<strong>in</strong> <strong>und</strong> x 1.0 := x (n) = x max<br />

festgelegt.<br />

Beispielsweise erhält man für x 1 , ..., x n = 1, 2, 3, ..., 19, 20 mit n = 20<br />

x 0.0 = 1 , x 0.25 = 5.5 , x 0.5 = 10.5 , x 0.75 = 15.5 , x 1.0 = 20 ,<br />

oder für x 1 , ..., x n = 1, 2, 3, ..., 12, 13 mit n = 13<br />

Q 0 := x 0.0 = 1 , Q 1 := x 0.25 = 4 , Q 2 := x 0.5 = 7 , Q 3 := x 0.75 = 10 , Q 4 := x 1.0 = 13 .<br />

Die speziellen Quantile Q 0 , Q 1 , Q 2 , Q 3 , Q 4 heißen empirische Quartile. Unter <strong>die</strong>sen<br />

nennt man Q 1 erstes bzw. Q 3 drittes Quartil. Von besonderem Interesse ist der Median<br />

Q 2 .


134 KAPITEL 7. DESKRIPTIVE STATISTIK<br />

Median (Zentralwert)<br />

Def. 7.19 (Median)<br />

Für ord<strong>in</strong>ale <strong>und</strong> metrische Merkmale ist der empirische Median oder Zentralwert<br />

def<strong>in</strong>iert als<br />

⎧<br />

⎪⎨<br />

med(x 1 , ..., x n ) := x 0.5 :=<br />

⎪⎩<br />

x (<br />

n+1<br />

2 )<br />

x (n/2) + x (n/2+1)<br />

2<br />

, falls n ungerade<br />

, falls n gerade .<br />

(7.15)<br />

M<strong>in</strong>destens 50% der Stichprobenwerte liegen also l<strong>in</strong>ks <strong>und</strong> m<strong>in</strong>destens 50% rechts<br />

des Medians (den Median selbst ggf. mit e<strong>in</strong>gerechnet).<br />

Beispiel 7.20 (Median)<br />

Bei den Körpergewichten von Beispiel 7.14 ergibt sich<br />

x 0.5 = (x (11) + x (12) )/2 = (61.1 + 61.3)/2 = 61.2 .<br />

med(x 1 , ..., x n ) ist e<strong>in</strong> sehr robustes Lokationsmaß. Robuste statistische Kenngrößen<br />

s<strong>in</strong>d wenig anfällig gegen Datenausreißer. Man muss <strong>die</strong> Hälfte der Daten gegen ∞<br />

oder −∞ verschieben, um den Median selbst gegen ±∞ wandern zu lassen. Zur quantitativen<br />

Untersuchung <strong>die</strong>ses Phänomens def<strong>in</strong>iert man den sog.<br />

Def. 7.21 (Breakdownpo<strong>in</strong>t ɛ)<br />

Es gilt<br />

⎧<br />

⎪⎨<br />

ɛ (med(x 1 , ..., x n )) =<br />

⎪⎩<br />

k + 1<br />

n<br />

k<br />

n<br />

= 1 2 + 1<br />

2n , n = 2k + 1<br />

= 1 2<br />

, n = 2k<br />

n→∞<br />

−→ 1 2 . (7.16)


7.5. STREUUNGSPARAMETER 135<br />

7.4.3 Arithmetisches Mittel<br />

Def. 7.22 (Arithmetisches Mittel)<br />

Falls nichts anderes gesagt ist, bezeichnet man mit Mittelwert das arithmetische<br />

Mittel (mean) oder den Durchschnitt<br />

¯x = ¯x n := 1 n<br />

n∑<br />

x i . (7.17)<br />

i=1<br />

¯x ist s<strong>in</strong>nvoll für beliebige metrische Merkmale.<br />

¯x ist im Gegensatz zum empirischen Median sehr anfällig gegen sog. Datenausreißer.<br />

Mit dem Breakdownpo<strong>in</strong>t ɛ (¯x) = 1/n genügt das Abdriften e<strong>in</strong>es e<strong>in</strong>zigen Datenpunktes,<br />

um ¯x gegen ±∞ streben zu lassen.<br />

7.5 Streuungsparameter<br />

Diese geben Auskunft, ob <strong>die</strong> Stichprobenwerte eng um den Mittelwert konzentriert<br />

s<strong>in</strong>d oder weit “streuen”. In der Regel werden Streuungsparameter nur für metrische<br />

Merkmale angegeben. Formal s<strong>in</strong>d sie zwar auch für ord<strong>in</strong>ale Merkmale def<strong>in</strong>iert,<br />

hängen aber von der dort nicht e<strong>in</strong>deutig festgelegten Ko<strong>die</strong>rung der Merkmalsausprägungen<br />

ab.<br />

7.5.1 Spannweite, Variationsbreite<br />

Def. 7.23 (Spannweite, Variationsbreite)<br />

Für ord<strong>in</strong>ale <strong>und</strong> metrische Merkmale nennt man <strong>die</strong> Ausdehnung der Stichprobenwerte<br />

v = x (n) − x (1) = x max − x m<strong>in</strong> (7.18)<br />

Spannweite oder Variationsbreite (range).<br />

Beispiel 7.24 (Variationsbreite)<br />

Körpergewichte von Beispiel 7.14:<br />

v = x max − x m<strong>in</strong> = 65.9 − 56.2 = 9.7 .


136 KAPITEL 7. DESKRIPTIVE STATISTIK<br />

7.5.2 Mittlere quadratische Abweichung, Standardabweichung<br />

Def. 7.25 (Empirische Varianz, Standardabweichung)<br />

Das am meisten verwendete Streuungsmaß ist <strong>die</strong> mittlere quadratische Abweichung<br />

s 2 = s 2 x = 1 n∑<br />

(x i − ¯x) 2 . (7.19)<br />

n − 1<br />

s 2 heißt auch empirische Varianz (variance). s 2 x ist zunächst e<strong>in</strong>e abstrakte<br />

Größe. Anschaulicher ist <strong>die</strong> empirische Standardabweichung (standard deviation)<br />

√<br />

s = s x = s 2 x ≥ 0 . (7.20)<br />

s hat im Gegensatz zu s 2 <strong>die</strong>selbe Benennung wie ¯x; also [m] oder [sec] etc.<br />

Wie bei ¯x s<strong>in</strong>d <strong>die</strong> Breakdownpo<strong>in</strong>ts ɛ(s 2 ) = ɛ(s) = 1/n.<br />

i=1<br />

Die Darstellung ∑ (x i − ¯x) 2 /(n − 1) eignet sich besser zur numerisch stabilen Berechnung<br />

von s 2 . Zu Übungszwecken mit e<strong>in</strong>fachen Daten ist immer noch <strong>die</strong> sog.<br />

Verschiebungsregel<br />

s 2 = 1 ( n<br />

)<br />

∑<br />

x 2 i − n ¯x 2 (7.21)<br />

n − 1<br />

i=1<br />

<strong>in</strong> Gebrauch. Die Gleichheit gilt natürlich bei exakter Rechnung. Durch Auslöschung<br />

entstehen aber bei endlicher Arithmetik durch Anwendung von (7.21) unakzeptabel<br />

große R<strong>und</strong>ungsfehler. Es lassen sich leicht Beispiele konstruieren, bei denen <strong>die</strong> Verschiebungsregel<br />

mit dreistelliger Rechnung negative Varianzen liefert.<br />

Beispiel 7.26<br />

Sei x 1 , ..., x n = 6, 4, 7, 3, 7, also n = 5 <strong>und</strong> ¯x = 5.4.<br />

s 2 1<br />

n∑<br />

= (x i − ¯x) 2 = 3.3<br />

n − 1<br />

i=1<br />

s = 1.817 (Standardabweichung) (7.22)<br />

Aus numerischen Gründen sollte stets mit der im Beispiel verwendeten Formel gerechnet<br />

werden.<br />

Bemerkung 7.27 (Bedeutung der Standardabweichung)<br />

Bei normalverteilten Daten liegen ca. 95% der Daten im Intervall [¯x − 2s, ¯x + 2s].<br />

¯x <strong>und</strong> s 2 hängen eng zusammen. Es gilt nämlich<br />

s 2 = 1 n∑<br />

(x i − ¯x) 2 ≤ 1 n∑<br />

(x i − λ) 2<br />

n − 1<br />

n − 1<br />

∀ λ ∈ R . (7.23)<br />

i=1<br />

i=1


7.5. STREUUNGSPARAMETER 137<br />

Gelegentlich arbeitet man auch mit<br />

˜s 2 = 1 n∑<br />

(x i − ¯x) 2 = 1 n∑<br />

x 2 i − ¯x 2 . (7.24)<br />

n<br />

i=1<br />

n<br />

i=1<br />

Die Wahl von s ist jedoch besser, da für iid-Variable X, X 1 , ..., X n mit V ar(X) = σ 2<br />

gemäß Beispiel 2.34 mit ¯X = 1 n∑<br />

X i gilt:<br />

n<br />

E<br />

i=1<br />

( 1<br />

n − 1<br />

)<br />

n∑<br />

(X i − ¯X) 2 = σ 2 . (7.25)<br />

i=1<br />

7.5.3 Mittlere l<strong>in</strong>eare Streuung<br />

E<strong>in</strong> ähnlicher Zusammenhang wie für ¯x <strong>und</strong> s 2<br />

folgenden Streuungsmaß.<br />

besteht zwischen dem Median <strong>und</strong><br />

Def. 7.28 (Mittlere l<strong>in</strong>eare Streuung)<br />

x 0.5 bezeichne den Median. Dann nennt man für ord<strong>in</strong>ale <strong>und</strong> metrische Merkmale<br />

s L = 1 n<br />

<strong>die</strong> mittlere l<strong>in</strong>eare Streuung.<br />

n∑<br />

|x i − x 0.5 | (7.26)<br />

i=1<br />

Die l<strong>in</strong>eare Streuung ist nicht so anfällig gegen extreme Datenausreißer wie s 2 oder <strong>die</strong><br />

Standardabweichung s.<br />

Bemerkung 7.29 (Optimalität des Medians)<br />

s L = 1 n∑<br />

|x i − x 0.5 | ≤ 1 n∑<br />

|x i − λ| ∀ λ ∈ R . (7.27)<br />

n<br />

i=1<br />

n<br />

i=1<br />

7.5.4 Interquartilsabstand, <strong>in</strong>ter quartile range (IQR)<br />

Noch robuster als <strong>die</strong> mittlere l<strong>in</strong>eare Streuung ist e<strong>in</strong> Streuungsmaß, das durch den<br />

Abstand zwischen dem ersten Quartil Q 1 <strong>und</strong> dem dritten Q 3 (vgl. Def. 7.18) erklärt<br />

ist.<br />

Def. 7.30 (Empirischer Interquartilsabstand, IQR)<br />

E<strong>in</strong> weiteres Maß für <strong>die</strong> Streuung der Daten ist<br />

IQR = Q 3 − Q 1 . (7.28)


138 KAPITEL 7. DESKRIPTIVE STATISTIK<br />

Beispiel 7.31 (Ausreißer)<br />

Wir betrachten x 1 , ..., x n = 1, 7, 9, 11, 13, 20, 79 mit n = 7. Es gilt<br />

Q 1 = 7 , Q 2 = x 0.5 = 11 , Q 3 = 20 , IQR = 13 , s L = 13.57 (mittlere l<strong>in</strong>eare Streuung)<br />

¯x = 20 , s 2 = 608.86 , s = 24.68<br />

v = x max − x m<strong>in</strong> = 78 .<br />

Läßt man <strong>die</strong> jeweils kle<strong>in</strong>ste <strong>und</strong> größte Beobachtung als mögliche Ausreißer weg<br />

(gestutztes oder getrimmtes Mittel), so ergibt sich<br />

¯x 2..6 = 12 ,<br />

s 2 2..6 = 1 6∑<br />

(x i − ¯x 2..6 ) 2 = 20 , s 2..6 = 4.47 ,<br />

5<br />

i=2<br />

s 2..6<br />

L = 1 5<br />

6∑<br />

|x i − x 0.5 | = 3.4 ,<br />

i=2<br />

IQR 2..6 = Q 2..6<br />

3 − Q 2..6<br />

1 = 13 − 9 = 4 .<br />

Arithmetisches Mittel <strong>und</strong> s 2 s<strong>in</strong>d also sehr anfällig gegen extreme Beobachtungen (im<br />

Beispiel x 7 = 79). Hätten wir <strong>die</strong>sen Wert zufällig nicht erhoben, so ergäbe sich e<strong>in</strong><br />

Mittelwert von 1 6<br />

∑ 6i=1<br />

x i = 10.17.<br />

E<strong>in</strong>e annähernd gleich realistische Beschreibung der mittleren Lage liefern aber sowohl<br />

Median als auch das gestutzte Mittel (ohne kle<strong>in</strong>sten <strong>und</strong> größten Stichprobenwert)<br />

bereits aus der ursprünglichen Stichprobe mit der Beobachtung x 7 = 79.<br />

Man sollte also zunächst ¯x, Median, gestutzte Mittel sowie <strong>die</strong> Standardabweichung s<br />

<strong>und</strong> <strong>die</strong> l<strong>in</strong>eare Streuung s L berechnen. Stimmen <strong>die</strong>se Werte e<strong>in</strong>igermaßen übere<strong>in</strong>, so<br />

kann man bedenkenlos mit ¯x <strong>und</strong> s bzw. s 2 weiterarbeiten. Andernfalls ist e<strong>in</strong>e evtl.<br />

E<strong>in</strong>gabedatei auf Tippfehler bzw. <strong>die</strong> Stichprobe auf sog. Ausreißer zu überprüfen.<br />

7.5.5 Variationskoeffizient<br />

Die folgende Größe <strong>die</strong>nt dem Vergleich der Streuung zweier verschiedener Gr<strong>und</strong>gesamtheiten.<br />

Def. 7.32 (Variationskoeffizient, coefficient of variation, CV )<br />

Der empirische Variationskoeffizient<br />

ist e<strong>in</strong>e dimensionslose Größe.<br />

CV := s x<br />

¯x<br />

, ¯x ≠ 0 , (7.29)<br />

Beispielsweise seien für <strong>die</strong> monatlichen E<strong>in</strong>kommen im Jahre 1990 von Studenten e<strong>in</strong>er<br />

bestimmten Bevölkerungsschicht bekannt:


7.6. SCHIEFE UND EXZESS 139<br />

BRD ¯x = 720 DM s x = 180 DM CV x = 180<br />

720 = 0.25<br />

USA ȳ = 480 $ s y = 160 $ CV y = 160<br />

480 = 0.33<br />

Die Studentene<strong>in</strong>kommen streuen also <strong>in</strong> den USA mehr als <strong>in</strong> der BRD.<br />

7.6 Schiefe <strong>und</strong> Exzess<br />

Hierbei handelt es sich um sog. höhere Momente. s bezeichne <strong>die</strong> oben def<strong>in</strong>ierte Standardabweichung.<br />

Def. 7.33 (Schiefe, skewness)<br />

1<br />

n∑<br />

(x i − ¯x) 3<br />

n<br />

i=1<br />

b 3 =<br />

(7.30)<br />

s 3<br />

heißt empirische Schiefe. Im Falle b 3 < 0 spricht man von l<strong>in</strong>ksschiefen <strong>und</strong><br />

für b 3 > 0 von rechtsschiefen Daten.<br />

Bemerkung 7.34 (Interpretation)<br />

1. Die Schiefe ist e<strong>in</strong> standardisiertes Maß für <strong>die</strong> Symmetrie der Stichprobenwerte<br />

zum Mittelwert.<br />

2. Für normalverteilte Daten ist b 3 ungefähr gleich Null.<br />

Def. 7.35 (Exzess, kurtosis)<br />

heißt empirischer Exzess.<br />

b 4 =<br />

1<br />

n<br />

n∑<br />

i=1<br />

(x i − ¯x) 4<br />

s 4 − 3 (7.31)<br />

Bemerkung 7.36 (Interpretation)<br />

1. Für normalverteilte Daten ist b 4 ungefähr gleich Null.<br />

2. Der Exzess kann u.a. als e<strong>in</strong> standardisiertes Maß für <strong>die</strong> Abweichung der Stichprobenwerte<br />

von normalverteilten Daten betrachtet werden.<br />

3. b 4 ist e<strong>in</strong>e äußerst sensitive Größe <strong>und</strong> darf niemals alle<strong>in</strong> zur Bewertung der<br />

Normalität von Daten herangezogen werden.


140 KAPITEL 7. DESKRIPTIVE STATISTIK<br />

7.7 Mittelwerte, Streuungen für gruppierte Daten<br />

Dieser Abschnitt enthält eher triviale Umformungen. Die Resultate s<strong>in</strong>d trotzdem bemerkenswert,<br />

weil hier <strong>die</strong> Motivation für <strong>die</strong> Festlegung von Erwartungswerten bei<br />

diskreten Zufallsvariablen zu f<strong>in</strong>den ist.<br />

Nehmen wir an im Beispiel 7.10 der K<strong>und</strong>en am Schalter der Kfz-Zulassungsstelle<br />

wären nicht <strong>die</strong> Rohdaten, sondern nur <strong>die</strong> relativen Häufigkeiten bekannt. Also<br />

Tabelle 8: Schalterk<strong>und</strong>en<br />

Anzahl Personen a j = j 0 1 2 3 4 5 6 7 8 9 10<br />

rel. Häufigkeit r j = n j /n 0 0 0<br />

5<br />

250<br />

10<br />

250<br />

15<br />

250<br />

20<br />

250<br />

Wie viele Personen standen durchschnittlich <strong>in</strong> der Schlange?<br />

Wird wieder <strong>die</strong> Ausprägung a 0 unterdrückt <strong>und</strong><br />

50<br />

250<br />

a 1 := 1 , a 2 := 2 , ... , a 9 := 9 , a 10 = a m := 10<br />

gesetzt, dann kann das arithmetische Mittel direkt aus den relativen Häufigkeiten<br />

r j = n j<br />

berechnet werden:<br />

n<br />

⎛<br />

⎞<br />

¯x = 1 n∑<br />

x i = 1 ⎜<br />

⎟<br />

m∑ n j<br />

m∑<br />

⎝a 1 + ... + a 1 +... + a<br />

n<br />

i=1<br />

n } {{ }<br />

m + ... + a<br />

} {{ m ⎠ =<br />

}<br />

j=1<br />

n · a j = r j · a j = 7.5 .<br />

j=1<br />

n 1 Mal<br />

n m Mal<br />

100<br />

250<br />

25<br />

250<br />

25<br />

250<br />

Satz 7.37 (Mittelwerte <strong>und</strong> Streuungen für gruppierte Daten)<br />

Das Merkmal X sei metrisch. Für e<strong>in</strong>e empirische Stichprobe x 1 , ..., x n mit den<br />

Merkmalsausprägungen a 1 < ... < a m <strong>und</strong> den absoluten Häufigkeiten n 1 , ..., n m<br />

(gruppierte Daten) gilt<br />

¯x = 1 n<br />

n∑ m∑<br />

x i =<br />

i=1 j=1<br />

n j<br />

n · a j =<br />

m∑<br />

r j · a j . (7.32)<br />

j=1<br />

Analog erhält man für <strong>die</strong> (leicht modifizierte) empirische Varianz<br />

˜s 2 := 1 n<br />

n∑<br />

m∑<br />

(x i − ¯x) 2 =<br />

i=1<br />

j=1<br />

n j<br />

n (a j − ¯x) 2 =<br />

m∑<br />

r j · (a j − ¯x) 2 . (7.33)<br />

j=1<br />

Für <strong>die</strong> Schalterk<strong>und</strong>en ergibt sich ˜s 2 = 2.45 mit der Standardabweichung ˜s = 1.57.<br />

Ersetzt man <strong>die</strong> relativen Häufigkeiten durch Wahrsche<strong>in</strong>lichkeiten, so kommt man zu<br />

den bekannten Erwartungswertformeln für diskrete Zufallsvariable, wenn<br />

˜s 2 = 1 ∑ (xi − ¯x) 2 anstelle von s 2 = 1 ∑ (xi − ¯x) 2 verwendet wird.<br />

n<br />

n−1


7.8. AFFINE TRANSFORMATIONEN 141<br />

7.8 Aff<strong>in</strong>e Transformationen<br />

Es bleibt noch <strong>die</strong> Auswirkung l<strong>in</strong>earer Transformationen der x i auf <strong>die</strong> angegebenen<br />

statistischen Kenngrößen zu untersuchen.<br />

Satz 7.38 (Transformationen)<br />

Für <strong>die</strong> empirische Stichprobe x 1 , ..., x n bezeichne x 0.5 den Median, ¯x das arithmetische<br />

Mittel, s x <strong>die</strong> Standardabweichung <strong>und</strong> s (x)<br />

L <strong>die</strong> l<strong>in</strong>eare Streuung. Ferner<br />

seien d ≠ 0, c beliebig. Durch e<strong>in</strong>e aff<strong>in</strong>e Transformation<br />

y i := c + d · x i (7.34)<br />

entsteht e<strong>in</strong>e neue empirische Stichprobe y 1 , ..., y n . Für <strong>die</strong>se lauten <strong>die</strong> entsprechend<br />

mit ’y’ bezeichneten Größen<br />

ȳ = c + d · ¯x (7.35)<br />

y 0.5 = c + d · x 0.5 (7.36)<br />

s 2 y = d 2 s 2 x (7.37)<br />

s y = |d|s x (7.38)<br />

s (y)<br />

L = |d|s (x)<br />

L . (7.39)<br />

Beispiel 7.39 (Transformation: Celsius nach Fahrenheit)<br />

Die mittleren Temperaturen e<strong>in</strong>er Tropenregion seien <strong>in</strong> der Stichprobe x 1 , . . . , x n <strong>in</strong><br />

◦ C (Celsius) erhoben mit ¯x = 27 ◦ <strong>und</strong> s x = 3 ◦ C. Die entsprechenden Größen sollen <strong>in</strong><br />

◦ F (Fahrenheit) umgerechnet werden. Mit der Festlegung<br />

lautet <strong>die</strong> Transformation<br />

Also<br />

0 ◦ C = 33 1 3 ◦ F <strong>und</strong> 36 ◦ C = 100 ◦ F (7.40)<br />

y i := 33 1 3 + 100<br />

54 · x i . (7.41)<br />

ȳ = 33 1 + 100<br />

3<br />

54 ¯x = 33 1 + 100<br />

3<br />

54 · 27 = 83 1 F<br />

3<br />

s y = |d| s x = 100<br />

54 · 3 = 100<br />

18 = 5.56◦ F .


142 KAPITEL 7. DESKRIPTIVE STATISTIK<br />

7.9 Empirische Regression<br />

Man untersucht den Zusammenhang mehrerer Merkmale; z. B.<br />

Y X 1 X 2 ... X p<br />

Umsatz Werbung Vertreterbesuche ... Preis<br />

Nettomiete Wohnfläche Baualter ... Ausstattung<br />

Oft möchte man das Y –Merkmal aus den (leichter zu ermittelnden oder besser kontrollierbaren)<br />

X –Merkmalen vorhersagen. Wir beschränken uns hier auf den Fall p = 1,<br />

<strong>die</strong> e<strong>in</strong>fache l<strong>in</strong>eare Regression.<br />

7.9.1 Statistische Maßzahlen<br />

X <strong>und</strong> Y seien Merkmale auf der Gr<strong>und</strong>gesamtheit Ω <strong>und</strong> (x 1 , y 1 ), . . . , (x n , y n ) e<strong>in</strong>e<br />

Stichprobe. Zunächst veranschaulicht man sich den Zusammenhang grafisch <strong>in</strong> e<strong>in</strong>er<br />

Punktewolke (Streudiagramm, Scatterplot). E<strong>in</strong>e der ersten Regressionsanalysen<br />

wurde von F. Galton (1886) durchgeführt; vgl. Bild 18.<br />

200<br />

Y : Größe der Söhne<br />

<br />

195<br />

<br />

<br />

190<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

185<br />

<br />

<br />

<br />

<br />

<br />

<br />

180<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

175<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

170<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

165 <br />

<br />

<br />

<br />

<br />

<br />

X : (mittlere Größe der Eltern) ·1.08<br />

160<br />

160 165 170 175 180 185 190 195<br />

Bild 18: Galton (1886): Größe der Söhne <strong>und</strong> mittlere Größe der Eltern<br />

Als statistische Maßzahlen gehen <strong>in</strong> <strong>die</strong> folgenden Berechnungen e<strong>in</strong>:<br />

– <strong>die</strong> Mittelwerte ¯x, ȳ<br />

– <strong>die</strong> emp. Kovarianz<br />

s xy = 1<br />

n − 1<br />

n∑<br />

(x i − ¯x)(y i − ȳ) = 1 (<br />

∑ n<br />

i=1<br />

n − 1<br />

x i y i − n ¯x ȳ<br />

i=1<br />

)<br />

(7.42)<br />

– <strong>die</strong> emp. Varianzen (Streuungen)<br />

s 2 x = s xx = 1 n∑<br />

(x i − ¯x) 2 = 1 ( n<br />

)<br />

∑<br />

x 2 i − n ¯x 2 . (7.43)<br />

n − 1<br />

i=1<br />

n − 1<br />

i=1


7.9. EMPIRISCHE REGRESSION 143<br />

E<strong>in</strong>e analoge Formel gilt für s 2 y = s yy .<br />

E<strong>in</strong> Maß für den l<strong>in</strong>earen Zusammenhang der Merkmale X mit Daten x i <strong>und</strong> Y<br />

mit Daten y i ist der empirische Korrelationskoeffizient<br />

r xy = s xy<br />

(7.44)<br />

s x s y<br />

n∑<br />

n∑<br />

(x i − ¯x)(y i − ȳ)<br />

x i y i − n ¯x ȳ<br />

i=1<br />

i=1<br />

=<br />

( ∑ n<br />

) (<br />

∑ n<br />

) =<br />

( n<br />

) (<br />

∑<br />

n<br />

) .<br />

√ (x i − ¯x) 2 (y i − ȳ) 2 √ x 2 ∑<br />

i − n ¯x 2 yi 2 − n ȳ 2<br />

i=1<br />

i=1<br />

i=1<br />

i=1<br />

Für alle Datensätze mit nichtkonstanten x i bzw. y i folgt<br />

−1 ≤ r xy ≤ 1 . (7.45)<br />

Es stellt sich heraus, dass r xy = ±1 genau dann gilt, wenn alle Punkte exakt auf e<strong>in</strong>er<br />

Geraden liegen. Bis hierher waren <strong>die</strong> den Daten zugr<strong>und</strong>eliegenden Merkmale X <strong>und</strong><br />

Y völlig gleichberechtigt.


144 KAPITEL 7. DESKRIPTIVE STATISTIK<br />

7.9.2 KQ-Gerade, Bestimmtheitsmaß<br />

In der Praxis ist e<strong>in</strong>es der Merkmale (hier X) oft leichter zu beobachten oder zu kontrollieren<br />

als das andere. Beispielsweise variiert der Dollarkurs Y abhängig vom zeitlichen<br />

Verlauf X. Numeriert man <strong>die</strong> Tage e<strong>in</strong>es Jahres etwa von 1 bis 365 durch <strong>und</strong> ist der<br />

Kurs Y am Tag X = 267 bekannt, so kann der ”Wert” der Zeit am darauffolgenden<br />

Tag zweifelsfrei mit X = 268 festgelegt werden.<br />

Wir besprechen nun e<strong>in</strong>e häufig angewendete Prognosemethode für das schwerer zu<br />

vorhersagende Merkmal Y ; im Beispiel Dollarkurs.<br />

Diese sog. ”Regressionsmethode” beruht auf e<strong>in</strong>em l<strong>in</strong>earen Ansatz der Form<br />

Y = α + β X + E ,<br />

wobei E e<strong>in</strong> nichtbeobachtbarer Fehler ist. Die unbekannten Parameter α <strong>und</strong> β schätzt<br />

man nach der Methode der kle<strong>in</strong>sten Quadrate (KQ-Methode). Die Schätzungen<br />

a bzw. b der Parameter α bzw. β gew<strong>in</strong>nen wir, <strong>in</strong>dem e<strong>in</strong>e Gerade<br />

y = a + b x<br />

<strong>in</strong> gewissem S<strong>in</strong>ne optimal durch <strong>die</strong> Punktewolke der (x i , y i ) i=1,...,n gelegt wird.<br />

Wählt man e<strong>in</strong>en Achsenabschnitt a <strong>und</strong> e<strong>in</strong>e Steigung b für <strong>die</strong> Gerade, dann<br />

liegt mit ŷ i := a+b x i der Punkt (x i , ŷ i ) genau auf der Geraden, <strong>und</strong> zwar vertikal<br />

über x i ; vgl. nachfolgendes Bild 19.<br />

y i − ŷ i = y i − (a + b x i ) = y i − a − b x i , i = 1, . . . , n (7.46)<br />

s<strong>in</strong>d also <strong>die</strong> parallel zur y-Achse gemessenen Abstände der Datenpunkte<br />

(x i , y i ) zur Geraden y = a + b x über den Werten x i .<br />

Mit den gelegentlich verwendeten Bezeichnungen Y = β 0 +β 1 X +E für den l<strong>in</strong>earen<br />

Ansatz <strong>und</strong> y = b 0 + b 1 x für <strong>die</strong> KQ-Gerade will man andeuten, dass <strong>die</strong> e<strong>in</strong>fache<br />

l<strong>in</strong>eare Regression als Spezialfall der sog. Multiplen Regression<br />

Y = β 0 + β 1 X 1 + β 2 X 2 + . . . + β p X p + E<br />

mit mehreren erklärenden Variablen X 1 , ..., X p angesehen werden kann.


7.9. EMPIRISCHE REGRESSION 145<br />

6<br />

5<br />

4<br />

y<br />

❝<br />

y 1 − a − bx 1<br />

❝<br />

3<br />

❝<br />

(x 2 , y 2 )<br />

y = a + b · x<br />

2<br />

❝<br />

1<br />

(x 5 , y 5 )<br />

❝<br />

x 1 x<br />

0 1 2 3 4 5 6 7<br />

Bild 19: (x, y)-Punkte <strong>und</strong> Gerade y = a + b x<br />

Als Maß für e<strong>in</strong>e Anpassung der Geraden an <strong>die</strong> Datenpunkte wird <strong>die</strong> Summe der<br />

oben def<strong>in</strong>ierten Abstandsquadrate herangezogen. Diese Quadratsumme ist für e<strong>in</strong>e<br />

optimale Anpassung zu m<strong>in</strong>imieren, d. h. Achsenabschnitt a <strong>und</strong> Steigung b s<strong>in</strong>d so<br />

zu wählen, dass <strong>die</strong> Fehlerquadratsumme<br />

möglichst kle<strong>in</strong> wird.<br />

n∑<br />

n∑<br />

Q(a, b) = [y i − (a + b x i )] 2 = [y i − ŷ i ] 2<br />

i=1<br />

i=1<br />

Satz 7.40 (KQ-Schätzungen)<br />

Die optimalen KQ-Schätzungen berechnen sich zu<br />

ˆβ = b = s xy<br />

s 2 x<br />

=<br />

n∑<br />

(x i − ¯x)(y i − ȳ)<br />

i=1<br />

=<br />

n∑<br />

(x i − ¯x) 2<br />

i=1<br />

n∑<br />

x i y i − n ¯x ȳ<br />

i=1<br />

(7.47)<br />

n∑<br />

x 2 i − n ¯x 2<br />

i=1<br />

<strong>und</strong><br />

ˆα = a = ȳ − b ¯x . (7.48)<br />

a <strong>und</strong> b s<strong>in</strong>d e<strong>in</strong>deutig bestimmt, wenn wenigstens zwei verschiedene Werte x i<br />

vorliegen.<br />

y = a + b x (7.49)<br />

heißt empirische Regressionsgerade oder KQ-Gerade.


146 KAPITEL 7. DESKRIPTIVE STATISTIK<br />

Beweis von Satz 7.40:<br />

Sei e i (a, b) := y i − a − b x i . An e<strong>in</strong>em M<strong>in</strong>imum der Residuensumme<br />

n∑<br />

n∑<br />

Q = Q(a, b) := [y i − (a + b x i )] 2 = [e i (a, b)] 2<br />

i=1<br />

i=1<br />

muss der Gra<strong>die</strong>nt verschw<strong>in</strong>den, d. h.<br />

∂Q<br />

∂a<br />

∂Q<br />

∂b<br />

= ∑ i<br />

= ∑ i<br />

2e i<br />

∂e i<br />

∂a = ∑ i<br />

2e i<br />

∂e i<br />

∂b = ∑ i<br />

2e i (−1) = 0 =⇒ 1 n<br />

∑<br />

ei = 0 (7.50)<br />

2e i (−x i ) = 0 =⇒ 1 n<br />

∑<br />

xi e i = 0 . (7.51)<br />

(7.50) impliziert<br />

1<br />

n<br />

∑<br />

(y i − a − b x i ) = 0 ⇐⇒ ȳ − a − b ¯x = 0 ⇐⇒ a = ȳ − b ¯x .<br />

i<br />

Weiter ergeben (7.51) <strong>und</strong> (7.42) mit s 2 x > 0 (da <strong>die</strong> x i nichtkonstant)<br />

∑<br />

(y i − a − b x i ) x i = 0 ⇐⇒ ∑<br />

i<br />

i<br />

⇐⇒<br />

∑ i<br />

x i y i − a ∑ x i − b ∑ x 2 i = 0<br />

i<br />

i<br />

x i y i − n ¯x a − b ∑ x 2 i = 0<br />

i<br />

⇐⇒<br />

∑ i<br />

x i y i − n ¯x (ȳ − b ¯x) − b ∑ i<br />

x 2 i = 0<br />

⇐⇒<br />

∑ i<br />

x i y i − n ¯x ȳ − b ( ∑ i<br />

x 2 i − n ¯x 2 ) =<br />

⇐⇒<br />

= (n − 1) ( s xy − b sx) 2 = 0<br />

b = s ∑<br />

xy xi y i − n ¯x ȳ<br />

=<br />

s 2 ∑ .<br />

x x<br />

2<br />

i − n ¯x 2<br />

Die Hessematrix von Q ist konstant (bzgl. a, b) <strong>und</strong> lautet<br />

⎛<br />

∇ 2 Q = ⎜<br />

⎝<br />

∂ 2 Q<br />

∂a 2<br />

∂ 2 Q<br />

∂b ∂a<br />

∂ 2 ⎞ ⎛<br />

Q<br />

∂a ∂b<br />

∂ 2 ⎟<br />

Q ⎠ = 2 ⎜<br />

⎝<br />

∂b 2<br />

Diese Matrix ist unter den gegebenen Voraussetzungen<br />

⎞<br />

∑<br />

n xi<br />

∑ ∑<br />

⎟<br />

xi x<br />

2 ⎠ . (7.52)<br />

i<br />

x i nichtkonstant ⇐⇒ s 2 x > 0 ⇐⇒ n ∑ x 2 i − ( ∑<br />

xi<br />

) 2<br />

> 0<br />

positiv def<strong>in</strong>it (warum?). Damit s<strong>in</strong>d a <strong>und</strong> b globale M<strong>in</strong>imierer von Q.<br />

✷<br />

Als weitere Bezeichnung sei noch <strong>die</strong> empirische Streuung des Fehlers e<strong>in</strong>geführt:<br />

s 2 e :=<br />

Q(a, b)<br />

n − 1 = 1<br />

n − 1<br />

n∑<br />

(y i − ŷ i ) 2 = 1 n∑<br />

(y i − (a + b x i )) 2 . (7.53)<br />

i=1<br />

n − 1<br />

i=1


7.9. EMPIRISCHE REGRESSION 147<br />

Satz 7.41 (Bestimmtheitsmaß)<br />

Das sog. Bestimmtheitsmaß lautet im l<strong>in</strong>earen Fall<br />

wobei jetzt 0 ≤ R 2 ≤ 1 .<br />

R 2 = r 2 xy = s2 xy<br />

s 2 xs 2 y<br />

= 1 − s2 e<br />

, (7.54)<br />

s 2 y<br />

Lemma 7.42<br />

Beweis des Lemmas:<br />

Mit a = ȳ − b ¯x gilt<br />

s 2 e = 1<br />

n − 1 Q(a, b) = s2 y − b 2 s 2 x = s 2 y (1 − r 2 xy) = 1<br />

n − 1<br />

n∑<br />

e 2 i . (7.55)<br />

i=1<br />

Q(a, b) =<br />

n∑<br />

(y i − (a + b x i )) 2<br />

i=1<br />

=<br />

n∑<br />

(y i − (ȳ − b ¯x) − b x i ) 2<br />

i=1<br />

=<br />

n∑<br />

(y i − ȳ − b (x i − ¯x)) 2<br />

i=1<br />

=<br />

n∑ [<br />

(yi − ȳ) 2 − 2 b (y i − ȳ)(x i − ¯x) + b 2 (x i − ¯x) 2]<br />

i=1<br />

=<br />

n∑<br />

(y i − ȳ) 2 − 2 b<br />

n∑<br />

(y i − ȳ)(x i − ¯x) + b 2 ∑ n (x i − ¯x) 2<br />

i=1<br />

i=1<br />

i=1<br />

= (n − 1) ( )<br />

s 2 y − 2 b s xy + b 2 s 2 x<br />

(<br />

)<br />

= (n − 1) s 2 y − 2 s2 xy<br />

+ s2 xy<br />

s 2<br />

s 2 x s 2 xs 2 x<br />

x<br />

(<br />

)<br />

= (n − 1) s 2 y −<br />

s2 xy<br />

s 2<br />

s 2 xs 2 x = (n − 1) ( )<br />

s 2 y − b 2 s 2 x<br />

x<br />

( )<br />

= (n − 1) s 2 y 1 − s2 xy<br />

= (n − 1) s 2<br />

s 2 xs 2 y (1 − rxy) 2 .<br />

y<br />

Beweis von Satz 7.41:<br />

✷<br />

Da (a, b) globale M<strong>in</strong>imierer von Q s<strong>in</strong>d, folgt<br />

0 ≤ 1<br />

n − 1 Q(a, b) = s2 e ≤ 1<br />

n − 1 Q(ȳ, 0) = s2 y .


148 KAPITEL 7. DESKRIPTIVE STATISTIK<br />

1. Fall:<br />

y i = const = ȳ =⇒ s 2 y = 0 = Q(ȳ, 0) .<br />

2. Fall:<br />

a = ȳ , b = 0 , r xy<br />

nicht def<strong>in</strong>iert.<br />

y i ≠ const ⇐⇒ s 2 y > 0<br />

=⇒ 0 ≤ s2 e<br />

s 2 y<br />

≤ s2 y<br />

s 2 y<br />

= 1<br />

⇐⇒ 0 ≤ s2 y<br />

(1 − r<br />

s<br />

xy) 2 ≤ 1<br />

2<br />

y<br />

⇐⇒ 0 ≤ 1 − rxy 2 ≤ 1<br />

⇐⇒ 0 ≤ r 2 xy ≤ 1<br />

Zur Interpretation <strong>die</strong>ser Größen zunächst e<strong>in</strong> Beispiel:<br />

⇐⇒ −1 ≤ r xy ≤ 1 . (7.56)<br />

Beschreiben <strong>die</strong> x i diskrete Zeitpunkte wie Jahre, Halbjahre, Quartale oder Monate, so<br />

spricht man von Zeitreihen. Das Y -Merkmal kann dann für Aktienkurse, Umsatzentwicklungen,<br />

Arbeitslosenzahlen etc. stehen. Für Zeitreihen wird <strong>die</strong> KQ-Gerade auch<br />

Trendgerade genannt. In den folgenden Daten schlägt sich e<strong>in</strong>e Halbjahres-Saison<br />

(zum Beispiel W<strong>in</strong>ter/Sommer) nieder:<br />

Tabelle 9:<br />

Beispiel Zeitreihe<br />

i x i y i x i y i x 2 i y 2 i Saison <strong>und</strong> Jahr<br />

1 1 2 2 1 4 W<strong>in</strong>ter 1993/94<br />

2 2 4 8 4 16 Sommer 1994<br />

3 3 5 15 9 25 W<strong>in</strong>ter 1994/95<br />

4 4 7 28 16 49 Sommer 1995<br />

5 5 8 40 25 64 W<strong>in</strong>ter 1995/96<br />

6 6 10 60 36 100 Sommer 1996<br />

∑ 21 36 153 91 258<br />

Man erhält<br />

¯x = 7 2 = 3.5 , ȳ = 6 ,<br />

6∑<br />

x i y i − 6 ¯x ȳ = 153 − 6 7 6 = 153 − 126 = 27 ,<br />

i=1<br />

2


7.9. EMPIRISCHE REGRESSION 149<br />

6∑<br />

x 2 i − 6 ¯x 2 = 91 − 6<br />

i=1<br />

( 7<br />

2<br />

) 2<br />

= 91 − 6 49<br />

4 = 182<br />

2 − 147<br />

2 = 35<br />

2 = 17.5 ,<br />

6∑<br />

yi 2 − 6 ȳ 2 = 258 − 6 · 6 2 = 258 − 216 = 42 .<br />

i=1<br />

<strong>und</strong> <strong>die</strong> Regressionsgerade y = a + b x mit<br />

b =<br />

6∑<br />

x i y i − 6 ¯x ȳ<br />

i=1<br />

= 27<br />

6∑<br />

35/2 = 54 = 1.543<br />

35<br />

x 2 i − 6¯x 2 (7.57)<br />

i=1<br />

a = ȳ − b ¯x = 6 − 54 7<br />

35 2 = 6 − 27 30 − 27<br />

= = 3 = 0.6 .<br />

5 5 5<br />

(7.58)<br />

Als Bestimmtheitsmaß R 2 ergibt sich<br />

R 2 =<br />

( 6∑<br />

x i y i − 6 ¯x ȳ<br />

i=1<br />

6∑<br />

6∑<br />

( x 2 i − 6 ¯x 2 ) ( yi 2 − 6 ȳ 2 )<br />

i=1<br />

i=1<br />

= 272 729 · 2<br />

= · 42 35 · 42 = 1458<br />

1470<br />

35<br />

2<br />

= 0.9918 (7.59)<br />

) 2<br />

r 2 xy = R 2 = 0.9918 =⇒ r xy = 0.9959 .<br />

Obwohl nicht alle Datenpunkte exakt auf e<strong>in</strong>er Geraden liegen, wird doch e<strong>in</strong> ausgesprochen<br />

hoher Korrelationskoeffizient sehr nahe bei 1 erreicht. In anderen Anwendungen<br />

ist man schon mit r xy ≃ 0.9 zufrieden.<br />

14<br />

12<br />

Y : Umsatz <strong>in</strong> Tausend DM<br />

Prognosen fr 1997:<br />

•<br />

•<br />

10<br />

<br />

8<br />

<br />

<br />

6<br />

4<br />

<br />

<br />

2<br />

<br />

0<br />

1993/94 1994/95 1995/96 1996/97 Saison<br />

0 2 4 6 8 x<br />

Bild 20: Zeitreihe aus W<strong>in</strong>ter- <strong>und</strong> Sommersaison mit Prognosen


150 KAPITEL 7. DESKRIPTIVE STATISTIK<br />

Die Prognosen s<strong>in</strong>d berechnet nach der Formel ŷ(x) = a + b x. Dem W<strong>in</strong>ter 1996/97<br />

wird dabei der Wert x = 7 <strong>und</strong> dem Sommer 1997 x = 8 zugeordnet:<br />

Saison x−Wert Prognose<br />

W<strong>in</strong>ter 1996/97 7 ŷ(7) = 0.6 + 1.543 · 7 = 11.401<br />

Sommer 1997 8 ŷ(8) = 0.6 + 1.543 · 8 = 12.944<br />

Auf nachträgliche Saison-Korrekturen der Prognosen (im W<strong>in</strong>ter nach unten <strong>und</strong> im<br />

Sommer nach oben) können wir <strong>in</strong> <strong>die</strong>sem Rahmen nicht näher e<strong>in</strong>gehen.<br />

In Computerprogrammen sollten zunächst ¯x <strong>und</strong> ȳ <strong>und</strong> danach aus numerischen Gründen<br />

<strong>die</strong> Steigung b unbed<strong>in</strong>gt nach der Formel<br />

b =<br />

n∑<br />

(x i − ¯x)(y i − ȳ)<br />

i=1<br />

(7.60)<br />

n∑<br />

(x i − ¯x) 2<br />

i=1<br />

erzeugt werden. Für manuelle Rechnungen <strong>in</strong> Übungs- <strong>und</strong> Klausuraufgaben wird dagegen<br />

gerne das oben dargestellte Schema mit Verschiebungsregeln benützt. Dieses<br />

ist für <strong>die</strong> Handrechnung <strong>in</strong>sbesondere von Vorteil, wenn ¯x oder ȳ ke<strong>in</strong>e ganzen Zahlen<br />

s<strong>in</strong>d. Bei größeren Datenmengen wird man sowieso Rechner benützen.<br />

Über <strong>die</strong> Regressionsgerade s<strong>in</strong>d also Prognosen der Art<br />

ŷ(x) = a + b x (7.61)<br />

möglich. Bei Zeitreihen wird x <strong>in</strong> der Regel e<strong>in</strong> zukünftiger Zeitpunkt se<strong>in</strong>. ŷ(x) liegt<br />

immer genau auf der Trendgeraden.<br />

Bestimmtheitsmaß <strong>und</strong> empirischer Korrelationskoeffizient messen <strong>die</strong> l<strong>in</strong>eare Abhängigkeit<br />

der Merkmale X <strong>und</strong> Y <strong>und</strong> s<strong>in</strong>d folgendermaßen zu <strong>in</strong>terpretieren<br />

R 2 = rxy 2 = 1 : alle Datenpunkte liegen exakt auf der Regressionsgeraden<br />

r xy > 0 : positive Steigung der emp. Regressionsgeraden, d. h. b > 0<br />

r xy < 0 : negative Steigung der emp. Regressionsgeraden, d. h. b < 0<br />

r xy = 0 : Regressionsgerade horizontal, d. h. b = 0 ;<br />

: ke<strong>in</strong> l<strong>in</strong>earer Zusammenhang zwischen X <strong>und</strong> Y !<br />

Von e<strong>in</strong>em ausreichend “guten” l<strong>in</strong>earen Zusammenhang kann man allenfalls bei<br />

R 2 = r 2 xy > 1 2<br />

bzw. |r xy | > 0.7<br />

ausgehen, denn dann wird <strong>die</strong> ursprüngliche Varianz s 2 y durch den Regressionsansatz <strong>in</strong><br />

s 2 e zum<strong>in</strong>dest auf <strong>die</strong> Hälfte reduziert. Nichtl<strong>in</strong>eare Abhängigkeiten, z. B. Y = X 2 ,<br />

werden von der l<strong>in</strong>earen Regressionsanalyse bzw. vom empirischen Korrelationskoeffizienten<br />

nicht erfaßt.


7.9. EMPIRISCHE REGRESSION 151<br />

Vorsicht mit Korrelationen!<br />

Tabelle 10: E<strong>in</strong> Beispiel mit r xy = 0.957<br />

Jahr Autozulassungen Hühner<br />

x (<strong>in</strong> Tausend) y (<strong>in</strong> Tausend)<br />

1942 1.847 53.502<br />

1943 1.544 46.371<br />

1944 1.599 50.242<br />

1945 2.599 56.666<br />

1946 3.113 61.723<br />

1947 3.521 64.880<br />

1948 3.734 79.219<br />

1949 4.113 89.152<br />

1950 4.414 90.798<br />

1951 4.625 90.067<br />

Bei der Interpretation von Korrelationen darf nie der sachlogische H<strong>in</strong>tergr<strong>und</strong> unberücksichtigt<br />

bleiben. Bei obigem Beispiel führen <strong>die</strong> hohen Korrelationen<br />

Komb<strong>in</strong>ation<br />

r xy<br />

Jahr/Autozulassungen: r xy = 0.971<br />

Jahr/Hühner: r xy = 0.950<br />

zu der hohen positiven ”Sche<strong>in</strong>korrelation” von Autozulassungen/Hühner von<br />

r xy = 0.957, was beim Betrachter e<strong>in</strong> Schmunzeln hervorruft:<br />

Man stellt sich eher auf e<strong>in</strong>e fallende Anzahl von Hühnern bei steigendem Autoverkehr<br />

e<strong>in</strong>, da zu erwarten ist, dass das e<strong>in</strong>e oder andere (freilaufende) Tier versehentlich<br />

überfahren wird.<br />

Nichtl<strong>in</strong>eare Zusammenhänge <strong>und</strong> Transformationen<br />

Die unbekannten Parameter, etwa a, b, c, <strong>in</strong> allgeme<strong>in</strong>en nichtl<strong>in</strong>earen Beziehungen<br />

der Form<br />

Y = a + b e cX + E<br />

müssen mit iterativen Methoden geschätzt werden; vgl. u.a. Seber & Wild (1989).<br />

E<strong>in</strong>e Reihe wichtiger Ansätze läßt sich aber durch Transformationen auf den bereits<br />

besprochenen Fall zurückführen. Wichtig ist dabei, dass am Ende <strong>die</strong> zu schätzenden<br />

Parameter nur l<strong>in</strong>ear <strong>in</strong> <strong>die</strong> Beziehung e<strong>in</strong>gehen. Wir geben e<strong>in</strong>ige Beispiele an, wobei<br />

<strong>die</strong> ebenfalls zu transformierende Fehlervariable weggelassen wird:<br />

Y = a + b X 2 → Y = a + b ˜X , ˜X = X 2<br />

Y = a e bX →<br />

Ỹ = ã + b X, Ỹ = ln(Y ) , ã = ln(a) .


152 KAPITEL 7. DESKRIPTIVE STATISTIK<br />

E<strong>in</strong>e weitere Transformation soll am folgenden Beispiel erläutert werden. Gemäß<br />

[Kredler & Ritter (1995)], Abschnitt 1.4.5 erhöht der E<strong>in</strong>satz von X Mengene<strong>in</strong>heiten<br />

e<strong>in</strong>es biologischen Schädl<strong>in</strong>gsbekämpfungsmittels den Ertrag e<strong>in</strong>er Beerensorte um<br />

Y Mengene<strong>in</strong>heiten. Da sich der Ertrag nicht beliebig erhöhen läßt, sondern wohl e<strong>in</strong>e<br />

Sättigung zu erwarten ist, scheidet e<strong>in</strong> l<strong>in</strong>earer Ansatz aus. E<strong>in</strong>e e<strong>in</strong>fache Modellierung<br />

könnte lauten<br />

Y = a + b<br />

1<br />

1 + X ,<br />

was sich mit ˜X = 1/(1 + X) <strong>in</strong> der bekannten Form Y = a + b ˜X schreiben läßt. Die<br />

Versuchsreihen auf vergleichbaren Feldern ergaben<br />

Tabelle 11: Nichtl<strong>in</strong>eare Transformation<br />

i 1 2 3 4 5<br />

Schädl<strong>in</strong>gsbekämpfungsmittel x i 0 1 3 6 11<br />

Transformation ˜x i = 1/(1 + x i ) 1 0.5 0.25 0.1428 0.0833<br />

Ertrag y i 1 3 4 5 6<br />

Man erhält bei e<strong>in</strong>em Bestimmtheitsmaß (für das l<strong>in</strong>eare Modell bzgl. Y <strong>und</strong> ˜X) von<br />

R 2 = 0.9448 <strong>die</strong> Koeffizienten a = 5.7767 <strong>und</strong> b = − 5.0020 sowie <strong>die</strong> Regressionsfunktion<br />

y = a + b ˜x = 5.7767 − 5.0020<br />

1 + x = y(x) ,<br />

wobei der mittlere Ertrag ohne Schädl<strong>in</strong>gsbekämpfungsmittel auf y(0) = 0.7747 <strong>und</strong> bei<br />

beliebig hohem E<strong>in</strong>satz auf y(∞) = 5.7767 geschätzt wird. Die Fehlerquadratsumme<br />

beträgt 0.817. Diese läßt sich auf 0.2 drücken, wenn man e<strong>in</strong>en zusätzlichen Parameter<br />

c e<strong>in</strong>führt:<br />

Y = a + b<br />

1<br />

c + X .<br />

In <strong>die</strong>sem für c nichtl<strong>in</strong>earen Modell lauten <strong>die</strong> optimalen Parameter a = 6.966,<br />

b = −15.615, c = 2.663. Wie auch <strong>die</strong> Graphen im folgenden Bild zeigen, war <strong>die</strong> Fixierung<br />

der 1 im Nenner nicht unbed<strong>in</strong>gt günstig. Insbesondere liegt <strong>die</strong> Sättigungsgrenze<br />

im zweiten Modell erst bei 6.966, was angesichts der Daten realistischer ersche<strong>in</strong>t.


7.9. EMPIRISCHE REGRESSION 153<br />

7<br />

6<br />

5<br />

Y : Ertrag<br />

Asymptote zum Modell<br />

mit a = 5.7767<br />

y c=2.663 (x)<br />

<br />

y(x)<br />

<br />

4<br />

<br />

3<br />

<br />

2<br />

1<br />

0<br />

<br />

X : Schädl<strong>in</strong>gsbekämpfungsmittel<br />

0 2 4 6 8 10 12<br />

Bild 21: Transformation auf l<strong>in</strong>eares Modell


154 KAPITEL 7. DESKRIPTIVE STATISTIK<br />

7.10 Beispiele<br />

E<strong>in</strong> wichtiges Ziel der zugr<strong>und</strong>eliegenden Vorlesung ist es, <strong>die</strong> Hörer zum Umgang<br />

mit dem Rechner anzuleiten <strong>und</strong> Daten am Rechner zu analysieren. Hier folgen e<strong>in</strong>ige<br />

Grafiken <strong>und</strong> Ausdrucke von kommerziellen Programmen <strong>und</strong> H<strong>in</strong>weise auf weitere<br />

Beispieldaten.<br />

7.10.1 Grafiken <strong>und</strong> Ausdrucke von <strong>Statistik</strong>programmen<br />

E<strong>in</strong>e statistische Datenanalyse kann mit speziellen Programmsysteme wie SAS, SPSS<br />

oder S-Plus, um nur e<strong>in</strong>ige zu nennen, wesentlich effektiver <strong>und</strong> oft auch e<strong>in</strong>facher<br />

durchgeführt werden als etwa mit Excel. Um dem Leser aber e<strong>in</strong>e schnelle E<strong>in</strong>stiegsmöglichkeit<br />

für statistische Berechnungen am Computer zu bieten, wird hier auch auf das<br />

verbreitete Excel zurückgegriffen. Sicherlich gibt es noch viele weitere Programme, <strong>die</strong><br />

e<strong>in</strong>em ähnlichen Zweck <strong>die</strong>nen können.<br />

Grafiken <strong>in</strong> Excel<br />

E<strong>in</strong>en Excel-Ausdruck für <strong>die</strong> Daten von Tabelle 9 erhält man etwa mit den Kommandos<br />

wie Diagramm (Icon <strong>in</strong> Funktionsleiste), Punkt (XY), Diagramm (<strong>in</strong> Menüzeile),<br />

Trendgerade h<strong>in</strong>zufügen, Formel <strong>in</strong> Diagramm darstellen etc.<br />

Zur Berechnung wichtiger Populationskenngrößen wie Mittelwert, Varianz, Quartilen<br />

etc. benütze man <strong>die</strong> vorgesehenen Excel <strong>Statistik</strong>-Funktionen mit gleichen oder<br />

ähnlichen Namen.<br />

Für häufig vorkommende Fragestellungen gibt es außerdem Sammlungen von Excel-<br />

Macros. Dazu wählt man Extras <strong>und</strong> dort den Untermenüpunkt Analyse-Funktionen,<br />

der beim ersten Be<strong>die</strong>nen mit dem sog, Add-In-Manager... aktiviert werden<br />

muss.<br />

Als <strong>Statistik</strong>-Macros s<strong>in</strong>d für unsere Zwecke etwa Populationskenngrößen (z.B. Mittelewert,<br />

Median, Quartile, IQR) <strong>und</strong> Histogramm <strong>in</strong>teressant.<br />

Stichprobe mit 100 normalverteilten Beobachtungen<br />

Bei der SAS-Grafik (Box-Plot + Histogramm) <strong>und</strong> dem Ausdruck mit Populationskenngrößen<br />

handelt es sich um e<strong>in</strong>e Simulation von 100 unabhängigen standardnormalverteilten<br />

Zufallszahlen. Der Abschnitt 10.3 befaßt sich genauer mit sog. Box-Plots. Im<br />

Unterschied zu e<strong>in</strong>em dort diskutierten ähnlichen Beispiel liegt hier ke<strong>in</strong>e der Beobachtungen<br />

außerhalb der Nadeln. Man beachte:<br />

1. Die empirische Schiefe = Skewness = 0.0668 stimmt schon fast mit dem Sollwert<br />

0 übere<strong>in</strong>. Histogramm <strong>und</strong> Box-Plot zeigen ebenfalls e<strong>in</strong>e h<strong>in</strong>reichende Symmetrie<br />

der Daten an.<br />

2. Der empirische Exzess = Kurtosis = −0.4146 mißt <strong>in</strong> etwa, wie nah <strong>die</strong> Daten<br />

um den Mittelwert konzentriert s<strong>in</strong>d. Bei exakt normalverteilten Beobachtungen


7.10. BEISPIELE 155<br />

ist der Idealwert 0. Das Beispiel zeigt, dass beim empirischen Exzess Abweichungen<br />

ungefähr im Bereich [−0.5; 0.5] akzeptiert werden müssen.


156 KAPITEL 7. DESKRIPTIVE STATISTIK<br />

Sonnendaten; garantiert nicht normalverteilt<br />

Zum Abschluß sei noch e<strong>in</strong> Beispiel aus dem Unterverzeichnis SASHELP mit n = 126<br />

Quartalen aus den Jahren 1960 bis Mitte 1991 mit dem Exportüberschuss e<strong>in</strong>es großen<br />

Landes <strong>in</strong> Mrd. $ angegeben. Negative Werte zeigen an, dass mehr Güter importiert<br />

als <strong>in</strong>s Ausland verkauft wurden.<br />

Zum Vergleich mit dem vorherigen Beispiel (Normalverteilung) s<strong>in</strong>d auffallend:<br />

• Der empirische Median liegt nicht <strong>in</strong> der Mitte der Box.<br />

• E<strong>in</strong>e große Anzahl von Datenpunkten ist ”l<strong>in</strong>ks” der Box-Plot-Nadelspitze<br />

• Skewness = −1.4920 ≪ 0, Kurtosis = +1.2653 ≫ 0.<br />

Der Ausdruck wurde wieder mit SAS erstellt.


7.10. BEISPIELE 157<br />

7.10.2 E<strong>in</strong>ige Datenbeispiele<br />

Die folgenden Daten s<strong>in</strong>d im Netz verfügbar <strong>und</strong> werden neben anderen Datensätzen<br />

im <strong>Statistik</strong>-Praktikum zu <strong>die</strong>ser Vorlesung analysiert.<br />

n = Anzahl der Beobachtungen (Datenzeilen)<br />

p = Anzahl der Variablen (Datenspalten)<br />

Datei.sd2 n p Kurzbeschreibung<br />

huhnauto 10 3 Hühner = 10612444 + 5487 · Jahr; ρ = 0.95<br />

Hühner = 23494 + 14.39 · Auto; ρ = 0.96<br />

Auto = -722108 + 372.6 · Jahr; ρ = 0.97<br />

kornstoy 30 2 Korndurchmesser <strong>und</strong> Druckfestigkeit aus Stoyan (1993)<br />

gewicht 22 1 Gewichte von Schülern: ¯x = 61.55, s x = 2.53, x 0.5 = 61.3<br />

<strong>in</strong>dian 27 2 Höchstgeschw<strong>in</strong>digkeit im Indianapolis-Rennen; ρ = 0.99<br />

v = 61.13 + 2.715 · Jahr<br />

groegew 40 1 Gewicht = -96.15 + 0.96 · Größe; ρ = 0.735<br />

outpkost 10 2 Kosten = 1000 + 24 · Output; ρ = 0.946<br />

mendele 7 2 Löslichkeit/100g H 2 O von Natriumnitrat bzgl.<br />

Temperatur <strong>in</strong> 0 C des Wassers nach Mendelejew<br />

Löslichkeit = 66.95 + 1.036 · Temperatur; ρ = 0.99<br />

normal 100 1 standardnormalverteilte Daten (simuliert)<br />

umsatz 23 1 ¯x = 226.0, s = 91.31, Q 1 = 154.9, Q 3 = 285.4<br />

zeitreih 12 2 Quartalsdaten: T rend = 0.6288 + 0.4065 · Monat<br />

eufirm 94 1 Auszug aus gnp: ¯x = 115.95, s = 289.20<br />

gnp 94 8 aus SASHELP


Kapitel 8<br />

Schätzfunktionen, ML-Pr<strong>in</strong>zip<br />

Die Wahrsche<strong>in</strong>lichkeitstheorie setzt stets e<strong>in</strong>en Wahrsche<strong>in</strong>lichkeitsraum (Ω, F, P ) als<br />

gegeben voraus. Damit s<strong>in</strong>d Verteilungen, Erwartungswerte etc. im Pr<strong>in</strong>zip bekannt,<br />

auch wenn sich gewisse Herleitungen als schwierig oder gar nicht realisierbar erweisen.<br />

Im Gegensatz dazu betrachtet <strong>die</strong> mathematische <strong>Statistik</strong> das <strong>in</strong> der Praxis häufiger<br />

vorliegende Problem, Aussagen über <strong>die</strong> unbekannte Verteilungsstruktur bzw. gewisse<br />

Kenngrößen von Zufallsvariablen (ZV) aus der Beobachtung von Stichproben zu gew<strong>in</strong>nen.<br />

Ohne Zusatzannahmen ist <strong>die</strong>se Aufgabe nur <strong>in</strong> trivialen Fällen zu lösen. Meist setzt<br />

man voraus, dass F e<strong>in</strong>er bestimmten Funktionenfamilie angehört, <strong>die</strong> nur noch von wenigen<br />

(<strong>in</strong> unserem Fall meist e<strong>in</strong> bis zwei) Parametern abhängt. Während <strong>die</strong> optimale<br />

Schätzung <strong>die</strong>ser unbekannten Parameter für e<strong>in</strong>en Großteil der wichtigen Fälle gelöst<br />

ist, muss <strong>die</strong> Wahl der Verteilungsfamilie (etwa Normal-, Exponential-, Gleich- oder<br />

sonstige Verteilung) vom <strong>Statistik</strong>er bei jeder Anwendung neu vorgenommen werden.<br />

Als Hilfsmittel können u.a. <strong>die</strong>nen<br />

1. Verteilungstests oder grafische Methoden wie QQ-Plots; siehe Abschnitt 10.2<br />

2. Ergebnisse gleichartiger Untersuchungen aus der Vergangenheit<br />

3. Theoretische Überlegungen: Man kann etwa <strong>die</strong> ZV X = Körpergröße als l<strong>in</strong>earadditive<br />

Überlagerung vieler (teilweise nicht beobachtbarer) ZV wie Größe des<br />

Vaters, mittlerer Sauerstoffgehalt der Luft während der Schwangerschaft, mittlerer<br />

Eiweißgehalt der Ernährung <strong>in</strong> den ersten zehn Lebensjahren usw. ansehen.<br />

Aus dem zentralen Grenzwertsatz folgt dann, dass X als approximativ normalverteilt<br />

angesehen werden kann.<br />

Sei also e<strong>in</strong>e geeignete parametrisierte Verteilungsfamilie festgelegt. Wir diskutieren<br />

nun kurz <strong>die</strong> Eigenschaften von Schätzfunktionen für <strong>die</strong> noch zu bestimmenden unbekannten<br />

Parameter. Die Information zur Schätzung gew<strong>in</strong>nt man durch unabhängige<br />

Wiederholung des Zufallsexperiments für X.<br />

θ = (θ 1 , . . . , θ m ) T seien unbekannte, zu schätzende Parameter; z. B. θ = (µ, σ 2 ) T bei<br />

der Normalverteilung. X, X 1 , . . . , X n seien iid, d. h. X 1 , . . . , X n s<strong>in</strong>d unabhängig <strong>und</strong><br />

jedes X i , i = 1, . . . , n, hat <strong>die</strong>selbe Verteilungsfunktion (VF) F (x; θ) = F X (x; θ) wie<br />

158


8.1. ERWARTUNGSTREUE UND KONSISTENZ 159<br />

X. Man nennt <strong>in</strong> <strong>die</strong>sem Fall X 1 , . . . , X n auch mathematische Stichprobe; vgl. Def.<br />

2.29.<br />

Im Gegensatz zu früheren Kapiteln wird jetzt <strong>die</strong> Abhängigkeit der VF (<strong>und</strong> später der<br />

Wahrsche<strong>in</strong>lichkeitsfunktion bzw. Dichte) von den unbekannten Parametern θ ∈ R m<br />

durch <strong>die</strong> Schreibweise F (x; θ) hervorgehoben.<br />

Zur Schätzung ˆθ für θ ∈ Θ ⊂ R m benötigt man e<strong>in</strong>e Borel-messbare Funktion<br />

T : R n → Θ , T (X 1 , . . . , X n ) = ˆθ ∈ Θ ,<br />

mit gewissen zusätzlichen Eigenschaften, z. B. Erwartungstreue <strong>und</strong> Konsistenz, <strong>die</strong><br />

im Anschluss genauer erklärt s<strong>in</strong>d. E<strong>in</strong> weiteres Gütekriterium ist <strong>die</strong> m<strong>in</strong>imale Varianz<br />

e<strong>in</strong>er Schätzfunktion. T wird auch e<strong>in</strong>fach <strong>Statistik</strong> oder Schätzer (estimator)<br />

genannt. T ist selbst e<strong>in</strong>e ZV, deren Verteilung u.a. vom Parameter θ bestimmt ist.<br />

8.1 Erwartungstreue <strong>und</strong> Konsistenz<br />

Def. 8.1 (Erwartungstreu, unverzerrt; unbiased)<br />

E<strong>in</strong>e Schätzfunktion T : R n → R m heißt erwartungstreu oder unverzerrt<br />

(unbiased), falls<br />

E [T (X 1 , . . . , X n )] = θ .<br />

Die Abweichung E [T (X 1 , . . . , X n )] − θ heißt Bias des Schätzers T .<br />

Beispiel 8.2 (Erwartungstreue Schätzer)<br />

1. Seien X 1 , . . . , X n iid mit E(X i ) = µ, dann ist<br />

e<strong>in</strong> erwartungstreuer Schätzer für µ.<br />

T (X 1 , . . . , X n ) = ¯X = 1 n<br />

n∑<br />

X i<br />

i=1<br />

2. Seien X 1 , . . . , X n iid mit E(X i ) = µ <strong>und</strong> V ar(X i ) = σ 2 . E<strong>in</strong>e erwartungstreue<br />

Schätzfunktion für σ 2 lautet gemäß Bsp. 2.34<br />

T (X 1 , . . . , X n ) = S 2 = 1<br />

n − 1<br />

n∑ (<br />

Xi − ¯X ) 2<br />

.<br />

Die Begriffe Schätzer, <strong>Statistik</strong> <strong>und</strong> Schätzfunktion bzw. erwartungstreu <strong>und</strong> unverzerrt<br />

werden abwechselnd verwendet, um alle Bezeichnungen e<strong>in</strong>zuüben.<br />

Zur Diskussion e<strong>in</strong>er weiteren Eigenschaft von Schätzern schreiben wir im nächsten<br />

Abschnitt T n für T , um <strong>die</strong> Abhängigkeit vom Stichprobenumfang n anzudeuten. E<strong>in</strong>er<br />

i=1


160 KAPITEL 8. SCHÄTZFUNKTIONEN, ML-PRINZIP<br />

e<strong>in</strong>fachen Darstellung wegen beschränken wir uns hier außerdem auf e<strong>in</strong>dimensionale<br />

<strong>Statistik</strong>en T n <strong>und</strong> Parameter θ. Der Übergang zum mehrdimensionalen Fall läßt sich<br />

leicht vollziehen.<br />

Def. 8.3 (Konsistenz)<br />

E<strong>in</strong> Schätzer T n : R n → R heißt konsistent (consistent) für θ, falls<br />

lim P (|T n(X 1 , . . . , X n ) − θ| ≤ ɛ) = 1 , ∀ ɛ > 0 .<br />

n→∞<br />

Mit den Bezeichnungen von Def. 4.6 bedeutet Konsistenz, dass T n stochastisch<br />

gegen θ konvergiert, i.Z.<br />

P<br />

T n (X 1 , . . . , X n ) −→ θ .<br />

Beispiel 8.4 (Konsistenz <strong>und</strong> Erwartungstreue)<br />

1. Für iid X 1 , . . . , X n mit E(X i ) = µ <strong>und</strong> V ar(X i ) = σ 2 ist<br />

T n (X 1 , . . . , X n ) = ¯X n = 1 n∑<br />

X i<br />

n<br />

i=1<br />

nach dem Satz von Tschebyschov 4.5 e<strong>in</strong> konsistenter Schätzer für µ.<br />

2. Nun seien <strong>die</strong> X 1 , . . . , X n iid N(µ, σ 2 ). Damit gilt für <strong>die</strong> folgenden drei σ 2 -<br />

Schätzer<br />

˜S n 2 := 1 n∑<br />

(X i −<br />

n<br />

¯X n ) 2 ist konsistent, aber nicht unverzerrt,<br />

i=1<br />

Sn 2 1<br />

n∑<br />

:= (X i −<br />

n − 1<br />

¯X n ) 2 ist konsistent <strong>und</strong> unverzerrt,<br />

i=1<br />

Ŝn 2 := 1 n∑<br />

(X i − µ) 2 ist konsistent <strong>und</strong> unverzerrt.<br />

n<br />

i=1<br />

8.2 Schätzfunktionen m<strong>in</strong>imaler Varianz<br />

T heißt MV(M<strong>in</strong>imum-Varianz)- oder wirksamste Schätzfunktion, wenn T unter<br />

allen erwartungstreuen Schätzfunktionen für θ m<strong>in</strong>imale Varianz besitzt (wir schreiben<br />

hier wieder T statt T n <strong>und</strong> ¯X statt ¯X n ).


8.3. KONSTRUKTION VON SCHÄTZERN 161<br />

Beispiel 8.5 (MV-Schätzer)<br />

Für <strong>die</strong> Parameter der meisten hier behandelten Verteilungen können wirksamste<br />

Schätzer angegeben werden.<br />

1. B<strong>in</strong>omialverteilung: ¯X ist MV-Schätzer für p<br />

2. Poissonverteilung: ¯X ist MV-Schätzer für λ<br />

3. Normalverteilung: ¯X ist MV-Schätzer für µ, S 2 ist MV-Schätzer für σ 2<br />

4. Exponentialverteilung: ¯X ist MV-Schätzer für 1/λ<br />

5. Gleichverteilung <strong>in</strong> [0, b]: ˆb = n + 1<br />

n<br />

max<br />

i<br />

{X i } ist MV-Schätzer für b.<br />

¯X ist l<strong>in</strong>ear <strong>in</strong> den X i . Damit ist ¯X <strong>in</strong> den genannten Beispielen auch e<strong>in</strong> sog. BLUE-<br />

Schätzer (Best L<strong>in</strong>ear Unbiased Estimator). Die Eigenschaft ”best” bedeutet wieder,<br />

dass BLUE-Schätzer unter allen l<strong>in</strong>earen, erwartungstreuen Schätzern m<strong>in</strong>imale Varianz<br />

haben. BLUE-Schätzer spielen auch bei l<strong>in</strong>earen Regressionsmodellen e<strong>in</strong>e wichtige<br />

Rolle.<br />

Zum Nachweis der BLUE-Eigenschaft von ¯X für iid X 1 , . . . , X n mit E(X i ) = µ,<br />

V ar(X i ) = σ 2 , i = 1, . . . , n, macht man den Ansatz e<strong>in</strong>er allgeme<strong>in</strong>en l<strong>in</strong>earen Schätzfunktion<br />

n∑<br />

T (X 1 , . . . , X n ) = a i X i , a i ∈ R , i = 1, . . . , n . (8.1)<br />

Die Erwartungstreue wird dann durch <strong>die</strong> Nebenbed<strong>in</strong>gung<br />

gesichert. Die M<strong>in</strong>imierung von<br />

i=1<br />

n∑<br />

a i = 1 (8.2)<br />

i=1<br />

( n<br />

)<br />

∑<br />

n∑<br />

V ar(T ) = V ar a i X i = a 2 i V ar(X i ) = σ 2<br />

i=1<br />

i=1<br />

n ∑<br />

i=1<br />

a 2 i (8.3)<br />

unter der Nebenbed<strong>in</strong>gung (8.2) liefert als optimale Lösung<br />

a i = 1 n , i = 1, . . . , n .<br />

8.3 Konstruktion von Schätzern<br />

Von vielen denkbaren Schätzmethoden seien drei wichtige kurz erwähnt.


162 KAPITEL 8. SCHÄTZFUNKTIONEN, ML-PRINZIP<br />

8.3.1 Methode der Kle<strong>in</strong>sten Quadrate (KQ)<br />

Dieses Pr<strong>in</strong>zip haben wir bereits im Kapitel 7 über empirische <strong>Statistik</strong> kennengelernt.<br />

Zum Beispiel ist ¯X u.a. KQ-Schätzer, da<br />

n∑ [<br />

Xi − ¯X ] 2 ∑ n<br />

≤ [X i − c] 2 , für alle c ∈ R . (8.4)<br />

i=1<br />

i=1<br />

In analoger Weise wurden auch <strong>die</strong> KQ-Schätzungen für Achsenabschnitt <strong>und</strong> Steigung<br />

der Regressionsgerade <strong>in</strong> Abschnitt 7.9 e<strong>in</strong>geführt.<br />

8.3.2 Momentenmethode<br />

Seien X, X 1 , . . . , X n iid mit existierendem absolutem k-ten Moment E [ |X k | ] . Dann<br />

s<strong>in</strong>d gemäß Satz 1.71 auch <strong>die</strong> Momente µ j = E [X j ], j = 1, . . . , k, erklärt. Als<br />

Schätzungen für <strong>die</strong> µ j bietet sich etwa<br />

an.<br />

ˆµ j = 1 n<br />

n∑<br />

X j i , j = 1, . . . , k (8.5)<br />

i=1<br />

8.3.3 Maximum-Likelihood (ML)-Methode<br />

Die wohl am häufigsten angewendete Technik zur Konstruktion von Schätzfunktionen<br />

ist <strong>die</strong> sog. ML- oder Maximum-Likelihood-Methode. Bei normalverteilten X i ist<br />

<strong>die</strong>se äquivalent mit der Methode der kle<strong>in</strong>sten Quadrate.<br />

Die iid-Variablen X, X 1 , . . . , X n seien diskret oder stetig mit Wahrsche<strong>in</strong>lichkeitsfunktion<br />

bzw. Dichte f(x; θ) = f X (x; θ) (Schätzfunktion T <strong>und</strong> der unbekannte Parameter<br />

θ s<strong>in</strong>d jetzt wieder m-dimensional). Wegen der Unabhängigkeit der X i lautet <strong>die</strong> geme<strong>in</strong>same<br />

Dichte von (X 1 , . . . , X n )<br />

n∏<br />

l(x 1 , . . . , x n ; θ) = f(x i ; θ) . (8.6)<br />

i=1<br />

Bei gegebenen Stichprobenrealisierungen x 1 , . . . , x n hängt l nur noch vom Parameter<br />

θ ∈ R m ab. Man nennt l <strong>in</strong> <strong>die</strong>sem Fall Likelihoodfunktion. Nach der ML-Methode<br />

wählt man nun <strong>die</strong> Schätzungen ˆθ ML für den unbekannten Parameter θ, so dass das<br />

E<strong>in</strong>treten der beobachteten Stichprobe maximale Wahrsche<strong>in</strong>lichkeit (im Englischen<br />

verwendet man hier den Begriff Likelihood im Unterschied zu probability) besitzt. Also<br />

l(x 1 , . . . , x n ; ˆθ ML ) ≥ l(x 1 , . . . , x n ; ˜θ) , für alle ˜θ ∈ R m . (8.7)<br />

Alle nachfolgenden Beispiele zeigen, dass der Übergang zur sog. Log-Likelihoodfunktion<br />

n∑<br />

L(x 1 , . . . , x n ; θ) = ln [f(x i ; θ)] (8.8)<br />

große Erleichterungen bei der Berechnung von ˆθ ML br<strong>in</strong>gt. Da ln(·) streng monoton<br />

ist, stimmen <strong>die</strong> Maximalstellen von l <strong>und</strong> L übere<strong>in</strong>. Generell gilt:<br />

i=1


8.3. KONSTRUKTION VON SCHÄTZERN 163<br />

Def. 8.6 (ML-Schätzer)<br />

Besitzen <strong>die</strong> iid-Variablen X, X 1 , . . . , X n e<strong>in</strong>e Wahrsche<strong>in</strong>lichkeitsfunktion bzw.<br />

Dichte f(x; θ) = f X (x; θ), so heißt jede Maximalstelle<br />

ˆθ ML = argmax{ L(X 1 , . . . , X n ; ˜θ); ˜θ ∈ R m } = argmax{ l(X 1 , . . . , X n ; ˜θ); ˜θ ∈ R m }<br />

ML- oder Maximum-Likelihood-Schätzer für θ. ˆθ ML muss nicht immer existieren;<br />

außerdem hat L gelegentlich mehrere Maximalstellen.<br />

Gemäß <strong>die</strong>ser Def<strong>in</strong>ition ist der ML-Schätzer e<strong>in</strong>e Zufallsvariable. Bei der praktischen<br />

Berechnung bestimmt man zunächst e<strong>in</strong>e Formel T ML bzw. e<strong>in</strong>e Berechnungsvorschrift<br />

durch Nullsetzen der partiellen Ableitungen nach θ i bzw. über e<strong>in</strong>en numerischen Optimierungsalgorithmus,<br />

wobei <strong>die</strong> beobachteten Realisierungen x 1 , . . . , x n als feste Konstanten<br />

angesehen werden. Im Beispiel der Exponentialverteilung erhält man<br />

n∏<br />

l(x 1 , . . . , x n ; θ) = λ e −λ x i<br />

1 (0,∞) (x i ) , θ = λ > 0 . (8.9)<br />

i=1<br />

Wegen x i > 0, i = 1, . . . , n können <strong>die</strong> Indikatorfunktionen weggelassen werden. Damit<br />

lautet <strong>die</strong> Loglikelihoodfunktion<br />

n∑<br />

L(x 1 , . . . , x n ; θ) = (ln(λ) − λ x i ) = n ln(λ) − λ<br />

i=1<br />

n∑<br />

x i . (8.10)<br />

i=1<br />

Nullsetzen der Ableitung nach λ liefert λ = T ML (x 1 , . . . , x n ) = 1/¯x. Mit <strong>die</strong>ser Vorschrift<br />

lautet der ML-Schätzer als Zufallsvariable<br />

ˆλ = T ML (X 1 , . . . , X n ) = 1/ ¯X . (8.11)<br />

Beispiel 8.7 (ML-Schätzer)<br />

1. B<strong>in</strong>omialverteilung B(n, p): ¯X ist ML-Schätzer für p<br />

2. Poissonverteilung P oi(λ): ¯X ist ML-Schätzer für λ<br />

3. Gleichverteilung <strong>in</strong> (0, b): ˆb ML = max<br />

i<br />

{ X i } ist ML-Schätzer für b.<br />

4. Normalverteilung N(µ, σ 2 ): ¯X ist ML-Schätzer für µ<br />

SML 2 := 1 n∑ (<br />

Xi −<br />

n<br />

¯X ) 2<br />

ist ML-Schätzer für σ 2 .<br />

i=1<br />

Vergleicht man <strong>die</strong> Beispiele 8.5 <strong>und</strong> 8.7, so s<strong>in</strong>d <strong>die</strong> MV-Schätzer entweder <strong>die</strong> ML-<br />

Schätzer selbst oder man erhält sie, im Falle von S 2 bzw. ˆb, durch Multiplikation der<br />

entsprechenden ML-Schätzer S 2 ML bzw. ˆb ML mit e<strong>in</strong>er Normierungskonstanten, so dass


164 KAPITEL 8. SCHÄTZFUNKTIONEN, ML-PRINZIP<br />

der neue Schätzer erwartungstreu ist.<br />

Gemäß Satz 2.34 gilt E [ SML 2 ] = n − 1<br />

n<br />

σ2 . Erwartungstreue erhält man durch Wahl<br />

e<strong>in</strong>es Schätzers<br />

T = S 2 =<br />

n<br />

n − 1 S2 ML .<br />

Analog geht man bei der Schätzung für b im Falle der Gleich- oder Rechteckverteilung<br />

vor. Nach Satz 2.43 über <strong>die</strong> Erwartungswerte der Ordnungsstatistiken gilt nämlich<br />

E [ˆbML ]<br />

= E [ max { Xi } ] = E [X n:n ] =<br />

n<br />

n + 1 .<br />

Dieses Normierungsverfahren liefert <strong>in</strong> e<strong>in</strong>igen Fällen MV-Schätzer. Der Beweis m<strong>in</strong>imaler<br />

Varianz muss jedoch jeweils im E<strong>in</strong>zelfall geführt werden.


Kapitel 9<br />

<strong>Statistik</strong> normalverteilter Daten<br />

9.1 Stichprobenverteilungen<br />

9.1.1 Normalverteilung<br />

Die Dichte der Normal- oder Gauß-Verteilung N(µ, σ 2 ) lautet<br />

N(0, 1) heißt Standardnormalverteilung.<br />

Gr<strong>und</strong>legende Eigenschaften<br />

f(x ; µ, σ 2 ) = 1 √<br />

2π σ<br />

e −(x−µ)2 2σ 2 (9.1)<br />

1. U ∼ N(0, 1) =⇒ X := µ + σ U ∼ N(µ, σ 2 ). Durch <strong>die</strong> Standardisierung<br />

U := X − µ<br />

σ<br />

kann e<strong>in</strong>e N(µ, σ 2 )-verteilte ZV X <strong>in</strong> e<strong>in</strong>e N(0, 1)-verteilte ZV U transformiert<br />

werden.<br />

2. Für <strong>die</strong> Standardnormalverteilungsfunktion<br />

Φ(u) = P (U ≤ u) =<br />

∫u<br />

−∞<br />

1<br />

√<br />

2π<br />

e − t2<br />

2 dt<br />

gibt es ausgezeichnete numerische Approximationen (siehe etwa Abschnitt 11.2<br />

im Anhang). Wegen der Symmetrie der Gaußschen Glockenkurve ϕ gilt<br />

Φ(−u) = 1 − Φ(u) <strong>und</strong> u 1−p = −u p ,<br />

so dass Φ nur für u ≥ 0 tabelliert werden muss.<br />

3. Zum Ablesen der (e<strong>in</strong>seitigen) Quantile u p mit<br />

Φ(u p ) = p , 0 < p < 1<br />

165


166 KAPITEL 9. STATISTIK NORMALVERTEILTER DATEN<br />

im Lehr- <strong>und</strong> Übungsbetrieb verwendet man Tabellen (vgl. Abschnitt 11.3 im<br />

Anhang) von Φ, <strong>die</strong> auch <strong>in</strong> den meisten <strong>Statistik</strong>büchern zu f<strong>in</strong>den s<strong>in</strong>d.<br />

4. E(X) = µ, V ar(X) = σ 2<br />

5. Alle Kumulanten (Semi<strong>in</strong>varianten) ab der Ordnung 3 verschw<strong>in</strong>den, also u.a.<br />

Schiefe <strong>und</strong> Exzess.<br />

6. L<strong>in</strong>earkomb<strong>in</strong>ationen geme<strong>in</strong>sam normalverteilter ZV s<strong>in</strong>d wieder normalverteilt.<br />

Dies gilt auch, falls <strong>die</strong> ZV korreliert s<strong>in</strong>d. Speziell für unabhängige X ∼ N(µ x , σ 2 x)<br />

<strong>und</strong> Y ∼ N(µ y , σ 2 y) folgt<br />

a + b X + c Y ∼ N(a + b µ x + c µ y , b 2 σ 2 x + c 2 σ 2 y) .<br />

7. Schätzung der unbekannten Parameter µ <strong>und</strong> σ 2<br />

Seien x 1 , . . . , x n Realisierungen e<strong>in</strong>er Stichprobe unabhängiger N(µ, σ 2 )-verteilter<br />

Zufallsvariablen, dann s<strong>in</strong>d<br />

ˆµ = ¯x =<br />

ˆσ 2 = s 2 =<br />

1<br />

n<br />

1<br />

n − 1<br />

n∑<br />

x i <strong>und</strong> (9.2)<br />

i=1<br />

n∑<br />

(x i − ¯x) 2 (9.3)<br />

i=1<br />

optimale (im S<strong>in</strong>ne m<strong>in</strong>imaler Varianz) Schätzungen für <strong>die</strong> unbekannten Parameter<br />

µ <strong>und</strong> σ 2 .<br />

Quantile der Standardnormalverteilung<br />

Mit u p , Φ(u p ) = p , 0 < p < 1, bezeichnet man <strong>die</strong> (e<strong>in</strong>seitigen) Quantile. Daneben<br />

benötigt man symmetrische Quantile der Form<br />

λ p = u (1+p)/2 , mit P (−λ p ≤ U ≤ λ p ) = p . (9.4)<br />

Gebräuchlich s<strong>in</strong>d auch <strong>die</strong> Bezeichnungen<br />

u p = u 1−α , λ p = λ 1−α = u 1−α/2 , mit α = 1 − p .


9.1. STICHPROBENVERTEILUNGEN 167<br />

0.45<br />

0.4<br />

0.35<br />

0.3<br />

0.25<br />

0.2<br />

•••• •••••• ••••••••••••••••••••••••••••••••••••••••••••••••••••••<br />

0.15<br />

1 − p<br />

0.1<br />

2<br />

<br />

<br />

0.05<br />

••••••••• • •••••••••••••••••••••••••••••••••••••••••••••••••••••• • ••••••••<br />

• • • <br />

✠<br />

0<br />

•<br />

-4 -3 0 λ P % 3 4<br />

−λ P %<br />

p = P%<br />

Bild 22: Symmetrische Quantile λ p<br />

Es folgen oft benützte Quantile der Normalverteilung:<br />

Tabelle 12: N(µ, σ 2 ), symmetrische Quantile λ P %<br />

Fläche symmetrisches Intervall symmetrisches Quantil<br />

P % [µ − σ · λ P % ; µ + σ · λ P % ] λ P %<br />

50% [µ − 0.6745 σ ; µ + 0.6745 σ] 0.6745<br />

68.26% [µ − σ ; µ + σ] 1<br />

95% [µ − 1.96 σ ; µ + 1.96 σ] 1.96<br />

95.46% [µ − 2 σ ; µ + 2 σ] 2<br />

99% [µ − 2.576 σ ; µ + 2.576 σ] 2.576<br />

99.73% [µ − 3 σ ; µ + 3 σ] 3<br />

Gemäß obiger Tabelle müssen ca. 95% normalverteilter Daten im sog. 2 σ -Intervall<br />

<strong>und</strong> über 99% im 3 σ -Intervall liegen.


168 KAPITEL 9. STATISTIK NORMALVERTEILTER DATEN<br />

9.1.2 χ 2 -Verteilung<br />

Die Verteilung der Summe der Quadrate von ν unabhängigen N(0, 1)-verteilten Zufallsvariablen<br />

U 1 , ..., U ν nennt man χ 2 -verteilt mit ν Freiheitsgraden, d.h.<br />

ν∑<br />

χ 2 ν = Ui 2 .<br />

i=1<br />

Die χ 2 -Verteilungen s<strong>in</strong>d spezielle Gammaverteilungen. Es gilt<br />

( ν<br />

χ 2 ν = Γ<br />

2 2)<br />

, 1 .<br />

Damit lautet <strong>die</strong> Diche der χ 2 -Verteilung mit ν Freiheitsgraden<br />

f χ<br />

2 ν<br />

(z) =<br />

1<br />

2 ν/2 Γ( ν 2 ) zν/2−1 e −z/2 1 (0,∞) (z). (9.5)<br />

Gemäß Beispiel 1.58, Nr. 7, ist U1 2 ∼ Γ ( 1<br />

, ) 1<br />

2 2 . Mit der momenterzeugenden Funktion<br />

der Gammaverteilung aus den Beispielen 3.13 <strong>und</strong> 3.14 folgt <strong>die</strong> Behauptung für<br />

unabhängige U 1 , . . . , U ν . χ 2 -verteilte Zufallsvariable können ke<strong>in</strong>e negativen Werte annehmen.<br />

Die Masse der χ 2 -Verteilung konzentriert sich um deren Erwartungswert<br />

E(χ 2 ν) = ν, so dass für <strong>die</strong> häufig verwendeten 95%-Quantile ν < χ 2 ν;0.95 gilt (<strong>und</strong> zwar<br />

für alle ν ∈ N) sowie weiterh<strong>in</strong><br />

E(χ 2 ν) = ν<br />

V ar(χ 2 ν) = 2ν<br />

Modus(χ 2 ν) = ν − 2 , ν ≥ 2<br />

Modus(χ 2 1) existiert nicht .<br />

0.12<br />

0.1<br />

Dichte der χ 2 8-Verteilung<br />

0.08<br />

mit ν = 8 Freiheitsgraden<br />

0.06<br />

0.04<br />

p = 90%<br />

0.02<br />

1 − p<br />

0<br />

0 5 10 χ 2 8;0.9 20 25 30<br />

Bild 23: χ 2 -Verteilung


9.1. STICHPROBENVERTEILUNGEN 169<br />

9.1.3 Student- oder t-Verteilung<br />

Seien U ∼ N(0, 1) <strong>und</strong> χ 2 ν unabhängig. Dann heißt<br />

T ν :=<br />

√<br />

U<br />

χ 2 ν/ν<br />

t− oder Student-verteilt mit ν Freiheitsgraden. Die zugehörige Dichte lautet<br />

)<br />

f Tν (t) = √ 1 Γ ( ν+1<br />

2 )<br />

ν π<br />

Γ ( ν<br />

2<br />

(<br />

1 +<br />

t 2 ν<br />

1<br />

) (ν+1)/2<br />

; t ∈ R . (9.6)<br />

Zur Herleitung der Dichte (vgl. etwa [He<strong>in</strong>hold & Gaede (1979)], S. 235) benützt man<br />

<strong>die</strong> Transformationsregel für Quotienten aus (2.30) <strong>und</strong> (9.5). Für ν = 1 s<strong>in</strong>d Zähler<br />

<strong>und</strong> Nenner unabhängig standardnormalverteilt, so dass man <strong>in</strong> <strong>die</strong>sem Fall <strong>die</strong> Cauchy-<br />

Verteilung mit der Dichte<br />

f T1 (t) = 1 1<br />

π 1 + t 2<br />

erhält. Analog zur Normalverteilung gilt für <strong>die</strong> Quantile der Student-Verteilung<br />

P (T ν ≤ t ν;p ) = p <strong>und</strong> P (|T ν | ≤ γ ν;p ) = p ,<br />

wobei<br />

t ν;1−p = −t ν;p <strong>und</strong> γ ν;p = t ν;(1+p)/2 .<br />

0.45<br />

0.4<br />

N(0, 1)<br />

0.35<br />

0.3<br />

0.25<br />

0.2<br />

0.15<br />

0.1<br />

0.05<br />

Studentdichte<br />

3 Freiheitsgrade<br />

t 3<br />

0<br />

-4 -3 -2 -1 0 1 2 3 4<br />

Bild 24: t- <strong>und</strong> Standardnormalverteilung<br />

Für wachsenden Freiheitsgrad ν → ∞ konvergiert <strong>die</strong> t-Verteilung mit ihren breiteren<br />

Enden gegen <strong>die</strong> Standardnormalverteilung, d.h.<br />

lim<br />

ν→∞ t ν;p = u p <strong>und</strong> lim ν→∞<br />

γ ν;p = λ p .


170 KAPITEL 9. STATISTIK NORMALVERTEILTER DATEN<br />

9.1.4 Stichprobenmittel <strong>und</strong> -varianz<br />

Seien X 1 , X 2 , . . . , X n iid N(µ, σ 2 )-verteilt. Gemäß Satz 2.34 über orthogonale Transformationen<br />

normalverteilter ZV gilt:<br />

1. das Stichprobenmittel ¯X =<br />

1<br />

n<br />

Stichprobenvarianz S 2 = 1<br />

n − 1<br />

n∑<br />

X i<br />

i=1<br />

<strong>und</strong> <strong>die</strong><br />

n∑<br />

(X i − ¯X) 2 s<strong>in</strong>d unabhängig .<br />

i=1<br />

2. Beide Schätzer s<strong>in</strong>d erwartungstreu, d.h. E( ¯X) = µ <strong>und</strong> E (S 2 ) = σ 2<br />

3. ¯X ∼ N(µ, σ 2 /n)<br />

4. (n − 1) S 2 /σ 2 = 1 ∑ n (X<br />

σ 2 i − ¯X) 2 ∼ χ 2 n−1<br />

5.<br />

¯X − µ<br />

σ/ √ n<br />

i=1<br />

/ √<br />

(n − 1) S2 /σ 2<br />

n − 1<br />

=<br />

√ n<br />

( ¯X − µ<br />

)<br />

S<br />

∼ t n−1 .<br />

Beim Vergleich der Streuungen <strong>in</strong> verschiedenen Gruppen benötigt man noch e<strong>in</strong>e<br />

weitere wichtige Verteilung:<br />

9.1.5 F-Verteilung<br />

X 2 sei e<strong>in</strong>e χ 2 -verteilte Zufallsgröße vom Freiheitsgrad m <strong>und</strong> Y 2 e<strong>in</strong>e davon unabhängige<br />

χ 2 -verteilte Zufallsgröße mit dem Freiheitsgrad n. Dann heißt <strong>die</strong> Verteilung der<br />

Zufallsgröße<br />

F m,n = X2 /m<br />

(9.7)<br />

Y 2 /n<br />

F-Verteilung mit dem Zählerfreiheitsgrad m <strong>und</strong> dem Nennerfreiheitsgrad n . Die Formel<br />

für <strong>die</strong> zugehörige Dichte entnehme man z.B. [Falk et al. (1995)], Satz 2.1.10. E<strong>in</strong>e<br />

Herleitung der Dichte, wieder über <strong>die</strong> Formel (2.30), f<strong>in</strong>det man etwa <strong>in</strong><br />

[He<strong>in</strong>hold & Gaede (1979)], S. 247-248. Dort wird auch auf den Seiten 255-258 der<br />

enge Zusammenhang zur Betaverteilung hergestellt.<br />

E(F m,n ) =<br />

n<br />

, für n > 2.<br />

n − 2<br />

V ar(F m,n ) = 2n2 (m + n − 2)<br />

, für n > 4.<br />

m(n − 2) 2 (n − 4)<br />

Modus(F m,n ) =<br />

n (m − 2)<br />

, für n > 1 <strong>und</strong> m > 2 .<br />

m (n + 2)


9.1. STICHPROBENVERTEILUNGEN 171<br />

Die Def<strong>in</strong>ition der p-Quantile, 0 < p < 1, lautet<br />

Außerdem gilt 1/F m,n = F n,m <strong>und</strong> somit<br />

woraus man<br />

P<br />

P (F m,n ≤ F m,n;p ) = p .<br />

( )<br />

(<br />

1<br />

≥ F n,m;1−p = p oder P F m,n ≤<br />

F m,n<br />

F m,n;p =<br />

)<br />

1<br />

= p ,<br />

F n,m;1−p<br />

1<br />

F n,m;1−p<br />

(9.8)<br />

erhält. Diese Formel ermöglicht es, aus den p-Quantilen <strong>die</strong> dazu komplementären<br />

(1 − p) - Quantile zu berechnen.<br />

0.8<br />

0.7<br />

0.6<br />

0.5<br />

0.4<br />

0.3<br />

F 4,∞<br />

F 4,8<br />

F 4,2<br />

0.2<br />

0.1<br />

0<br />

0 0.5 1 1.5 2 2.5 3 3.5<br />

Bild 25: Dichten von F 4,2 , F 4,8 <strong>und</strong> F 4,∞<br />

Zusammenhang mit der t -Verteilung<br />

γ n;1−α = t n;1−α/2 =<br />

√<br />

F 1,n;1−α , 0 < α < 1<br />

oder<br />

t n;p =<br />

√<br />

F 1,n;2p−1 ,<br />

1<br />

2 < p < 1 .<br />

Tabellen der Normal-, χ 2 -, t- <strong>und</strong> F -Verteilung f<strong>in</strong>det man im Anhang, Abschnitt 11.3.


172 KAPITEL 9. STATISTIK NORMALVERTEILTER DATEN<br />

9.2 Konfidenz<strong>in</strong>tervalle, Tests (σ 2 bekannt)<br />

Seien X 1 , X 2 , . . . , X n iid N(µ, σ 2 ). Mit ¯X = 1 n∑<br />

X i ist U = ¯X − µ<br />

n<br />

i=1<br />

σ/ √ ∼ N(0, 1) . u p<br />

n<br />

bezeichne <strong>die</strong> e<strong>in</strong>seitigen <strong>und</strong> λ p = u (1+p)/2 <strong>die</strong> zweiseitigen p-Quantile der Standardnormalverteilung.<br />

Die folgenden Aussagen beruhen auf<br />

P<br />

( )<br />

| ¯X − µ|<br />

σ/ √ n ≤ λ p = P (|U| ≤ λ p ) = P (−λ p ≤ U ≤ λ p ) = p = P % (9.9)<br />

oder entsprechenden e<strong>in</strong>seitigen Ansätzen der Form P (U ≥ −u p ) bzw. P (U ≤ u p ).<br />

Tabellen für <strong>die</strong> Quantile der Standardnormalverteilung, der χ 2 -, der t- <strong>und</strong> der F -<br />

Verteilung f<strong>in</strong>det man im Anhang sowie <strong>in</strong> den gängigen <strong>Statistik</strong>-Lehrbüchern.<br />

9.2.1 Konfidenz<strong>in</strong>tervalle<br />

Aus dem Ansatz von (9.9) lassen sich sog. Konfidenz- oder Vertrauens<strong>in</strong>tervalle<br />

ableiten; man sagt auch Vertrauensbereiche oder Bereichsschätzungen für den<br />

unbekannten Erwartungswert µ.<br />

Def. 9.1 (Konfidenz<strong>in</strong>tervall)<br />

Mit den symmetrischen Quantilen λ p von (9.4) <strong>und</strong> v σ := λ p σ/ √ n def<strong>in</strong>iert man<br />

das (zufällige) Konfidenz<strong>in</strong>tervall<br />

Für <strong>die</strong>ses <strong>und</strong> 0 < p < 1 gilt<br />

KI n,p,σ := [ ¯X − v σ , ¯X + vσ ] ⊂ R . (9.10)<br />

P (KI n,p,σ enthält µ) = P ( ¯X − vσ ≤ µ ≤ ¯X + v σ<br />

)<br />

= p . (9.11)<br />

KI n,p,σ (ω) = [¯x − v σ , ¯x + v σ ] ⊂ R (9.12)<br />

heißt Realisierung des Vertrauens- oder Konfidenz<strong>in</strong>tervalls.<br />

Entsprechend kann man e<strong>in</strong>seitige Konfidenz<strong>in</strong>tervalle, <strong>die</strong> nach oben oder unten unbeschränkt<br />

s<strong>in</strong>d, def<strong>in</strong>ieren.


9.2. KONFIDENZINTERVALLE, TESTS 173<br />

Satz 9.2 (Notwendiger Stichprobenumfang)<br />

Oft ist man daran <strong>in</strong>teressiert, dass das Konfidenz<strong>in</strong>tervall höchstens e<strong>in</strong>e Länge<br />

von l > 0 hat. Für 0 < p < 1 muss dann gelten<br />

2 v σ = 2 σ √ n<br />

λ p ≤ l.<br />

Dies kann durch e<strong>in</strong>en Stichprobenumfang von n ≥ 4 σ2 λ 2 p<br />

l 2<br />

erreicht werden.<br />

Beispiel 9.3 (Porosität von Sandste<strong>in</strong>)<br />

Die Porosität X, d.h. der prozentuale Anteil des Porenraums e<strong>in</strong>es Geste<strong>in</strong>s am Gesamtvolumen,<br />

sei N(µ, σ 2 )-verteilt, σ 2 = 9. n = 57 Brocken wurden zufällig aus e<strong>in</strong>er<br />

Geste<strong>in</strong>sschicht herausgegriffen. Die Stichprobenrealisierung des Mittelwerts lieferte<br />

¯x = 23.35[%]; vgl. [Kredler & Ritter (1995)].<br />

Mit λ 0.95 = 1.96 <strong>und</strong> v σ = σ · λ p / √ n = 3 · 1.96/ √ 57 = 0.78 ergibt sich <strong>die</strong> Realisierung<br />

des 95%-Konfidenz<strong>in</strong>tervalls für µ zu<br />

[¯x − v σ , ¯x + v σ ] = [22.57, 24.13] .<br />

Mit e<strong>in</strong>er Sicherheit von 95% enthält also das berechnete Intervall den unbekannten<br />

Parameter µ .<br />

Um <strong>die</strong> Länge des Konfidenz<strong>in</strong>tervalls auf l = 2 v σ = 1 zu verkle<strong>in</strong>ern, muss dann<br />

also n ≥ 139 gewählt werden.<br />

n ≥ 4 σ2 λ 2 p<br />

l 2 = 4 · 9 · 1.962<br />

1 2 = 138.3 ,<br />

9.2.2 Tests für µ bei bekanntem σ<br />

Das pr<strong>in</strong>zipielle Vorgehen bei e<strong>in</strong>em statistischen Test wird zunächst am e<strong>in</strong>fachen Beispiel<br />

normalverteilter Daten mit bekannter Varianz erläutert. Dem praktisch wichtigen<br />

Fall mit unbekanntem σ 2 ist der folgende Abschnitt gewidmet.<br />

In vielen Fällen möchte man e<strong>in</strong>e statistische Entscheidung nach dem Ausfall e<strong>in</strong>er<br />

Stichprobe X = (X 1 , ..., X n ) treffen. E<strong>in</strong> Betonwerk produziere etwa zwei Sorten<br />

von Beton mit den mittleren Druckfestigkeiten von µ 0 = 30 [N/mm 2 ] bzw. µ 1 =<br />

20 [N/mm 2 ]. Wir nehmen an, dass <strong>die</strong> Belastung X i bis zum Bruch von Probewürfeln<br />

(z.B. von 20 cm Kantenlänge) aus e<strong>in</strong>er Lieferung als normalverteilt mit Varianz<br />

σ 2 = 81 [N 2 /mm 4 ] angesehen werden kann. x = (x 1 , ..., x n ) sei <strong>die</strong> Realisierung e<strong>in</strong>er<br />

Stichprobe X. Für den Unterbau e<strong>in</strong>er vielbefahrenen Autobahnstrecke benötigt


174 KAPITEL 9. STATISTIK NORMALVERTEILTER DATEN<br />

man unbed<strong>in</strong>gt <strong>die</strong> bessere Betonsorte. Wir wissen, dass ¯X = 1 n<br />

∑<br />

Xi e<strong>in</strong> erwartungstreuer<br />

Schätzer mit m<strong>in</strong>imaler Varianz für µ ist. Falls also <strong>die</strong> Realisierung ¯x von ¯X<br />

kle<strong>in</strong>er ist als µ 1 bzw. größer als µ 0 , so wird man annehmen, dass <strong>die</strong> Sorte mit der<br />

ger<strong>in</strong>geren bzw. mit der größeren Druckfestigkeit geliefert wurde. Schwieriger wird <strong>die</strong><br />

Entscheidung schon, wenn etwa ¯x = 26 gemessen wurde. E<strong>in</strong> Instrumentarium für<br />

derartige Entscheidungen liefert <strong>die</strong> statistische Testtheorie.<br />

Aufgr<strong>und</strong> des Ausfalls (Realisierung) x = (x 1 , ..., x n ) e<strong>in</strong>er Stichprobe X = (X 1 , ..., X n )<br />

soll e<strong>in</strong>e Entscheidung (decision) d(x) getroffen werden zwischen e<strong>in</strong>er Hypothese H 0<br />

(auch Nullhypothese) <strong>und</strong> e<strong>in</strong>er Alternative H 1 (auch Gegenhypothese). Wir beschränken<br />

uns zunächst auf den Fall, dass Hypothese <strong>und</strong> Alternative den unbekannten<br />

Parameter µ e<strong>in</strong>er Normalverteilung betreffen <strong>und</strong> werden hier <strong>die</strong> beiden ersten der<br />

folgenden Beispiele erläutern<br />

H 0 : µ = µ 0 , H 1 : µ = µ 1<br />

H 0 : µ = µ 0 , H 1 : µ ≠ µ 0<br />

H 0 : µ = µ 0 , H 1 : µ > µ 0<br />

H 0 : µ = µ 0 , H 1 : µ < µ 0 .<br />

Abstrakt gesehen s<strong>in</strong>d <strong>die</strong> Hypothese H 0 <strong>und</strong> <strong>die</strong> Alternative H 1 disjunkte Teilmengen<br />

des Parameterraums Θ = R für den unbekannten Parameter θ = µ.<br />

Alle Tests s<strong>in</strong>d festgelegt durch e<strong>in</strong>en kritischen Bereich K <strong>und</strong> e<strong>in</strong> Signifikanzniveau<br />

0 < α < 1 , z.B. α = 0.1 , α = 0.05 , α = 0.01. P % = p = 1 − α nennt<br />

man Sicherheitswahrsche<strong>in</strong>lichkeit. Bei der folgenden Def<strong>in</strong>ition beschränken wir<br />

uns auf den parametrischen, e<strong>in</strong>dimensionalen Fall.<br />

Def. 9.4 (Parametrischer, statistischer Test)<br />

X = (X 1 , ..., X n ) sei e<strong>in</strong>e iid-Stichprobe mit Realisierung x = (x 1 , ..., x n ). Die<br />

Verteilungsfunktion F jedes der X i , i = 1, . . . , n, hänge (u.a.) von e<strong>in</strong>em unbekannten<br />

Parameter θ ∈ Θ ab. Die Hypothese H 0 <strong>und</strong> <strong>die</strong> Alternative H 1 seien<br />

disjunkte Teilmengen von Θ.<br />

E<strong>in</strong> statistischer Test zum Signifikanzniveau 0 < α < 1 ist e<strong>in</strong>e Entscheidungsfunktion<br />

d vom Stichprobenraum (hier R n ) nach {H 0 , H 1 } , so dass<br />

d(x) =<br />

{<br />

H1 , falls x ∈ K<br />

H 0 , sonst ,<br />

wobei der kritische Bereich K als Teilmenge des Stichprobenraumes so festgelegt<br />

ist, dass<br />

P ( d(X) = H 1 | θ ∈ H 0 ) = P ( X ∈ K | θ ∈ H 0 ) ≤ α . (9.13)


9.2. KONFIDENZINTERVALLE, TESTS 175<br />

Offenbar s<strong>in</strong>d zwei Arten von Fehlentscheidungen möglich<br />

d(x) = H 1 , aber H 0 ist richtig Fehler 1. Art P (F ehler 1.Art) = α<br />

d(x) = H 0 , aber H 1 ist richtig Fehler 2. Art P (F ehler 2.Art) = β<br />

Während <strong>die</strong> Wahrsche<strong>in</strong>lichkeit für den Fehler 1. Art durch <strong>die</strong> Wahl e<strong>in</strong>es kle<strong>in</strong>en α,<br />

z.B. α = 0.05 kontrolliert wird, ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit für den Fehler 2. Art bereits<br />

<strong>in</strong> den e<strong>in</strong>fachsten Fällen nur sehr mühsam zu ermitteln; vgl. Beispiel unten.<br />

Konstruktion des kritischen Bereichs K<br />

Wir demonstrieren <strong>die</strong> Festlegung des kritischen Bereichs am Beispiel<br />

H 0 : µ = µ 0 , H 1 : µ = µ 1 (µ 1 < µ 0 ).<br />

Def<strong>in</strong>ition 9.4 legt den kritischen Bereich K nicht e<strong>in</strong>deutig fest. Für spezielle Verteilungen,<br />

u.a. <strong>die</strong> Normalverteilung, läßt sich der - h<strong>in</strong>sichtlich e<strong>in</strong>es gleichmäßig kle<strong>in</strong>en<br />

Fehlers 2. Art - optimale kritische Bereich K e<strong>in</strong>fach beschreiben. Für <strong>die</strong> hier zu<br />

untersuchende Alternative gilt K = { x ∈ R n | ¯x < c }. Unter der Hypothese H 0 ist<br />

standardnormalverteilt, wobei<br />

U = ¯X − µ 0<br />

σ/ √ n<br />

α = Φ(u α ) = Φ(−u 1−α ) = P (U ≤ −u 1−α )<br />

( ) (<br />

¯X − µ0<br />

= P<br />

σ/ √ n ≤ −u 1−α = P ¯X ≤ µ 0 − √ σ )<br />

u 1−α . n<br />

Also<br />

K = { x ∈ R n | ¯x < µ 0 − σ √ n<br />

u 1−α },<br />

was man übrigens auch bei Wahl der Alternative µ < µ 0 erhalten hätte. Die Komplementärmenge<br />

¯K = { x ∈ R n | ¯x ≥ µ 0 − σ √ n<br />

u 1−α } heißt Annahmebereich.<br />

Der kritische Bereich hängt also nur über <strong>die</strong> Funktion ¯X von X 1 , . . . , X n ab. In <strong>die</strong>sem<br />

Fall nennt man <strong>die</strong> Schätzfunktion ¯X (für µ) e<strong>in</strong>e Teststatistik.<br />

Seien im Beispiel n = 9 Betonwürfel mit ¯x = 26 abgedrückt worden <strong>und</strong> α = 0.05. Es<br />

ergibt sich σ = 9 , u 1−α = u 0.95 = 1.64 <strong>und</strong><br />

K = { x ∈ R n | ¯x < c } mit c = 30 − 9 √<br />

9<br />

1.64 = 25.08 .<br />

Da ¯x = 26 ≥ 25.08 = c, ist <strong>die</strong> Hypothese H 0 beizubehalten. In analoger Weise erhält<br />

man den kritischen Bereich K = { x ∈ R n | ¯x > c } für e<strong>in</strong>punktige Alternativen<br />

µ 1 > µ 0 bzw. für H 1 : µ > µ 0 .


176 KAPITEL 9. STATISTIK NORMALVERTEILTER DATEN<br />

9.2.3 Fehler 2. Art<br />

Bisher wurde von der Alternative nur <strong>die</strong> Tatsache µ 1 < µ 0 benützt. Der genaue Wert<br />

von µ 1 geht <strong>in</strong> den Fehler 2. Art e<strong>in</strong>. Unter H 1 ist<br />

U = ¯X − µ 1<br />

σ/ √ n<br />

standardnormalverteilt. Wurde H 0 nicht abgelehnt, so gilt<br />

β = β(µ 1 ) = P (F ehler 2. Art) = P ( d(X) = H 0 | H 1 )<br />

( ¯X<br />

= P ( ¯X − µ1<br />

≥ c | H 1 ) = P<br />

σ/ √ n ≥ c − µ )<br />

1<br />

σ/ √ n ∣ H 1<br />

( ) ( c − µ1<br />

= 1 − Φ<br />

σ/ √ µ0 − u 1−α σ/ √ )<br />

n − µ 1<br />

= 1 − Φ<br />

n<br />

σ/ √ n<br />

( ) (<br />

µ0 − µ 1<br />

= 1 − Φ<br />

σ/ √ n − u 1−α = Φ u 1−α − µ )<br />

0 − µ 1<br />

σ/ √ .<br />

n<br />

Im Beispiel ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit, dass wir uns fälschlicherweise für H 0 entschieden<br />

haben<br />

(<br />

)<br />

30 − 20<br />

P (F ehler 2. Art) = Φ 1.64 −<br />

9/ √ = Φ(−1.69) = 1−Φ(1.69) = 0.0455 = 4.55% .<br />

9<br />

H 1<br />

H 0<br />

Fehler 1. Art<br />

α<br />

µ 1 µ 0<br />

kritischer Bereich K ←− | −→ Annahmebereich


9.2. KONFIDENZINTERVALLE, TESTS 177<br />

H 1 H 0<br />

β<br />

Fehler 2. Art<br />

µ 1 µ 0<br />

Bild 26: Fehler 1. <strong>und</strong> 2. Art


178 KAPITEL 9. STATISTIK NORMALVERTEILTER DATEN<br />

9.2.4 Zweiseitiger Test<br />

Beim Test<br />

H 0 : µ = µ 0 , H 1 : µ ≠ µ 0<br />

ist H 0 beim Niveau α abzulehnen, falls ¯x “zu stark” von µ 0 nach oben bzw. nach unten<br />

abweicht. Das liefert den kritischen Bereich<br />

{<br />

K = x ∈ R ∣ }<br />

n |¯x − µ 0 |<br />

∣<br />

σ/ √ n > λ 1−α<br />

(9.14)<br />

{ ∣<br />

= x ∈ R n ∣ ¯x < µ0 − √ σ λ 1−α oder ¯x > µ 0 + σ }<br />

√ λ 1−α .<br />

n n<br />

µ 0 − λ P %<br />

σ √n<br />

P % = 1 − α<br />

µ 0 µ 0 + λ P %<br />

σ √n<br />

α<br />

2<br />

<br />

<br />

<br />

✠<br />

• • ••••••••• • • •••••••••••••••••••••••••••••••••••••••••••••••••••••• •••• •••••• ••••••••••••••••••••••••••••••••••••••••••••••••••••••<br />

• • •••••••• •<br />

•<br />

Bild 27: Zweiseitiger Test<br />

Wiederum wird der Nullhypothese durch <strong>die</strong> Wahl e<strong>in</strong>es kle<strong>in</strong>en α aus [0.01, 0.1] e<strong>in</strong>e<br />

große Chance e<strong>in</strong>geräumt, nicht abgelehnt zu werden. Falls aber ¯x <strong>in</strong> e<strong>in</strong>en der nur mit<br />

α/2 Wahrsche<strong>in</strong>lichkeit auftretenden Außenbereiche fällt, so argumentiert man: “Wir<br />

werden doch bei der Stichprobe nicht gerade e<strong>in</strong>e extrem seltene Beobachtung gezogen<br />

haben. Vielmehr liegt <strong>die</strong> Vermutung nahe, dass <strong>die</strong> Nullhypothese µ = µ 0 verletzt<br />

ist.”<br />

Aus didaktischen Gründen wurde zunächst σ 2 als bekannt vorausgesetzt. Damit waren<br />

auch kompliziertere Berechnungen wie <strong>die</strong> für Wahrsche<strong>in</strong>lichkeiten bzgl. des Fehlers<br />

2. Art explizit <strong>und</strong> elementar durchführbar. Nun wollen wir den realistischen Fall betrachten,<br />

dass neben dem Mittelwert µ auch <strong>die</strong> Varianz σ 2 aus den Daten x 1 , . . . , x n<br />

zu schätzen ist.<br />

9.3 Konfidenz<strong>in</strong>tervalle <strong>und</strong> t-Test; σ unbekannt<br />

X 1 , X 2 , . . . , X n seien wieder iid N(µ, σ 2 ). Gemäß Abschnitt 9.1.4 s<strong>in</strong>d<br />

¯X = 1 n∑<br />

X i bzw. S 2 = 1 n∑<br />

(X i −<br />

n<br />

n − 1<br />

¯X) 2 ,<br />

i=1<br />

i=1


9.3. KONFIDENZINTERVALLE UND T-TEST; σ UNBEKANNT 179<br />

unabhängig <strong>und</strong> normal- bzw. χ 2 n−1-verteilt. Weiterh<strong>in</strong> ist<br />

T = ¯X − µ<br />

S/ √ n<br />

t n−1 − oder Student-verteilt mit n-1 Freiheitsgraden .<br />

9.3.1 Quantile der t-Verteilung<br />

u p <strong>und</strong> λ p seien wieder das p-Quantil bzw. das symmetrische p-Quantil der Standardnormalverteilung.<br />

Analog def<strong>in</strong>iert man über<br />

P (T ≤ t ν;p ) = p<br />

das p-Quantil t ν;p der t-Verteilung mit ν Freiheitsgraden. γ ν;p bezeichne das symmetrische<br />

p-Quantil der t-Verteilung. Also γ ν;p = t ν;(1+p)/2 .<br />

Gemäß Abschnitt 9.1.3 konvergiert für wachsenden Freiheitsgrad ν → ∞ <strong>die</strong> t-Verteilung<br />

mit ihren breiteren Enden gegen <strong>die</strong> Standardnormalverteilung, d.h.<br />

lim t ν;p = u p <strong>und</strong> lim γ ν;p = λ p .<br />

ν→∞ ν→∞<br />

Wir gehen nun analog zu den vorhergehenden Abschnitten bei bekanntem σ 2 vor. Die<br />

folgenden Aussagen beruhen auf<br />

P (|T | ≤ γ ν;p ) = p = P % .<br />

9.3.2 Konfidenz<strong>in</strong>tervalle für µ<br />

P ( ¯X − v ≤ µ ≤ ¯X + v) = P % ,<br />

v = γ n−1;p<br />

S √n , falls σ 2 unbekannt .<br />

Um das Konfidenz<strong>in</strong>tervall [¯x − v, ¯x + v] auf e<strong>in</strong>e gewünschte Länge l zu reduzieren,<br />

kann der notwendige Stichprobenumfang n neu für e<strong>in</strong>e ”Ergänzungsstichprobe”<br />

näherungsweise folgendermaßen berechnet werden<br />

n neu + n ≥ 4s2 γ 2 n−1;p<br />

l 2 ,<br />

wobei s 2 <strong>die</strong> empirische Varianz der bereits vorliegenden Stichprobe vom Umfang n<br />

ist, <strong>und</strong> p = P % <strong>die</strong> gewählte Sicherheitswahrsche<strong>in</strong>lichkeit darstellt. Im Beispiel<br />

9.3 (Sandste<strong>in</strong>porosität) ergibt sich für n = 57 mit der Stichprobenrealisierung s 2 =<br />

∑ (xi − ¯x) 2 = 9 bei e<strong>in</strong>er Sicherheitswahrsche<strong>in</strong>lichkeit von 95%<br />

1<br />

n−1<br />

s<br />

v = γ n−1;p √ = 2.00 · 3/ √ 57 = 0.795<br />

n


180 KAPITEL 9. STATISTIK NORMALVERTEILTER DATEN<br />

<strong>und</strong> <strong>die</strong> Realisierung des 95%-Vertrauens<strong>in</strong>tervalls für µ:<br />

[22.56 , 24.15] ,<br />

<strong>die</strong> etwas breiter ausfällt als bei bekanntem σ 2 .<br />

Der notwendige Stichprobenumfang e<strong>in</strong>er Ergänzungsstichprobe errechnet sich wiederum<br />

für l = 1 aus<br />

n neu + n ≥ 4s2 γn−1;p<br />

2 = 4 · 9 · 4.00 = 144 .<br />

l 2 1 2<br />

Bei unbekanntem σ 2 müssen also n neu = 87 zusätzliche Stichprobenziehungen erfolgen.<br />

Insgesamt hat man 5 Elemente mehr zu ziehen (dort waren nur 139 notwendig) als<br />

unter gleichen Voraussetzungen bei bekanntem σ 2 .<br />

9.3.3 Konstruktion von T -<strong>Statistik</strong>en, t-Tests<br />

Bevor wir uns den wichtigen t-Tests zuwenden, soll nochmals der hier gewählte Ansatz<br />

unter e<strong>in</strong>em anderen Blickw<strong>in</strong>kel, der sich weith<strong>in</strong> verallgeme<strong>in</strong>ern läßt, betrachtet<br />

werden.<br />

Gegeben:<br />

Y 1 , . . . , Y n ∼ N(µ, σ 2 ), unabhängig<br />

Ȳ = 1 n∑<br />

Y i , E(Ȳ n<br />

) = µ, D(Ȳ ) = σ/√ n (Standardabweichung)<br />

i=1<br />

Nicht zugänglich: U = Ȳ − µ<br />

σ/ √ n , da σ2 unbekannt<br />

Ersatz: T = Ȳ − µ<br />

S/ √ n , wobei S2 = 1<br />

n − 1<br />

Abstraktion: Ȳ = ˆµ (Schätzer für µ); Ȳ normalverteilt<br />

n∑<br />

(Y i − Ȳ )2 Schätzer für σ 2<br />

i=1<br />

S 2ˆµ = S 2 /n = Schätzer für Varianz von Ȳ = ˆµ; S2ˆµ ∼ χ 2 -verteilt<br />

T = Ȳ − µ<br />

S/ √ n<br />

= ˆµ − µ<br />

Sˆµ<br />

=<br />

Schätzer - (unbekannter Parameter)<br />

Schätzung für Standardabweichung des Schätzers<br />

T ∼ t n−1 , d.h. T ist Student-verteilt mit n−1 Freiheitsgraden. Bei Verallgeme<strong>in</strong>erungen<br />

ist darauf zu achten, dass der Schätzer (hier Ȳ ) <strong>und</strong> der Schätzer für <strong>die</strong> Standardabweichung<br />

des Schätzers (hier S/ √ n) unabhängig s<strong>in</strong>d.<br />

Merke:<br />

Freiheitsgrade = n - (für S 2 benötigte Parameter; z.B. ¯X für µ)


9.3. KONFIDENZINTERVALLE UND T-TEST; σ UNBEKANNT 181<br />

Wir behandeln stets Nullhypothesen der Art<br />

H 0 : µ = µ 0 ,<br />

mit normalverteilten, erwartungstreuen Schätzern ˆµ. Falls <strong>die</strong> Hypothese H 0 richtig ist,<br />

lautet <strong>die</strong> Prüfgröße mit den Bezeichnungen des Abschnitts vorher<br />

T = ˆµ − µ 0<br />

Sˆµ<br />

.<br />

Je nach Alternative ist <strong>die</strong> Hypothese H 0 beim Signifikanzniveau α abzulehnen, falls<br />

für <strong>die</strong> Stichprobenrealisierung t von T gilt<br />

Alternative<br />

H 1 : µ ≠ µ 0<br />

H 1 : µ < µ 0<br />

H 1 : µ > µ 0<br />

Testvorschrift<br />

|t| > γ n−1;1−α = t n−1;1−α/2<br />

t < t n−1;α<br />

t > t n−1;1−α<br />

Die Anzahl der Freiheitsgrade ist im e<strong>in</strong>fachsten Fall ν = n − 1.<br />

Redeweisen:<br />

Man sagt, der unbekannte Parameter µ sei für α = 0.05 signifikant <strong>und</strong> für α = 0.01<br />

hochsignifikant von µ 0 verschieden, falls <strong>die</strong> Hypothese H 0 abgelehnt wird.<br />

Merke:<br />

Der t-Test ist robust gegen kle<strong>in</strong>e Abweichungen von der Normalverteilungsannahme.<br />

9.3.4 t-Test verb<strong>und</strong>ener Stichproben; matched pairs<br />

Beim sog. E<strong>in</strong>stichproben t-Test (Student’s Test) geht es um <strong>die</strong> Wirkung W e<strong>in</strong>es<br />

E<strong>in</strong>flusses, beispielsweise e<strong>in</strong>es neuen Medikaments, auf n Probanden. Dabei wird bei<br />

jedem der n Individuen e<strong>in</strong>e gewisse Kenngröße X vor dem E<strong>in</strong>treten von W gemessen<br />

(z.B. Cholester<strong>in</strong>gehalt vor E<strong>in</strong>nahme des neuen Medikaments W ). Nach dem E<strong>in</strong>fluss<br />

W (z.B. E<strong>in</strong>nahme des Medikaments W ) wird <strong>die</strong> Kenngröße ˜X bei demselben Individuum<br />

nochmals erhoben (z.B. Cholester<strong>in</strong>gehalt nach E<strong>in</strong>nahme von W ). Man erhält<br />

e<strong>in</strong>e Folge von matched pairs<br />

D =<br />

[( ) ( )]<br />

X1 Xn<br />

, . . . , ,<br />

˜X 1<br />

˜X n<br />

z.B. X i Gewicht Patient i vor Diätkur; ˜Xi Gewicht Patient i nach Diätkur. Zwar s<strong>in</strong>d<br />

˜X i <strong>und</strong> X i nicht unabhängig. Man kann aber <strong>in</strong> vielen Fällen davon ausgehen, dass<br />

<strong>die</strong> Unabhängigkeitsannahme für <strong>die</strong> Differenzen Y i = X i − ˜X i zutrifft. Falls <strong>die</strong> Y i<br />

zusätzlich N(µ, σ 2 )-verteilt s<strong>in</strong>d, dann lautet <strong>die</strong> Testgröße oder Teststatistik


182 KAPITEL 9. STATISTIK NORMALVERTEILTER DATEN<br />

T = Ȳ − µ<br />

S Ȳ<br />

∼ t n−1 ,<br />

T ist also t-verteilt mit n − 1 Freiheitsgraden.<br />

S 2 Ȳ = S2<br />

n = 1<br />

n (n − 1)<br />

n∑ (<br />

Yi − Ȳ ) 2<br />

.<br />

i=1<br />

Beispiel 9.5 (Diätkur; matched pairs)<br />

Neun Erwachsene testen e<strong>in</strong>e neue Diätkur. Ihr Gewicht <strong>in</strong> Pf<strong>und</strong> betrug:<br />

Tabelle 13: Diätkur; verb<strong>und</strong>ene Stichproben<br />

1 2 3 4 5 6 7 8 9<br />

vorher: 132 139 126 114 122 132 142 119 126<br />

nachher: 124 141 118 116 114 132 137 122 121<br />

Differenz y i 8 -2 8 -2 8 0 5 -3 5<br />

Es werde angenommen, dass <strong>die</strong> Gewichte der e<strong>in</strong>zelnen Personen vorher <strong>und</strong> nachher<br />

normalverteilte, verb<strong>und</strong>ene Stichproben s<strong>in</strong>d, d.h. <strong>die</strong> Differenzen Y i s<strong>in</strong>d iid N(µ, σ 2 ).<br />

Beim Niveau α = 0.05 ist <strong>die</strong> Nullhypothese, dass <strong>die</strong> Diät das erwartete Gewicht der<br />

e<strong>in</strong>zelnen Personen nicht ändert, gegen <strong>die</strong> Alternative zu testen, dass das erwartete<br />

Gewicht verr<strong>in</strong>gert wird.<br />

n = 9 , α = 0.05 , p = 1 − α = 0.95 , t 8;0.95 = 1.86 , γ 8;0.95 = t 8;0.975 = 2.31<br />

ȳ = 3 , s 2 = 1 ∑<br />

(yi − ȳ) 2 = 22.25 , s = 4.717 .<br />

9 − 1<br />

Die Realisierung der Teststatistik T für <strong>die</strong> Hypothese H 0 : µ = µ 0 = 0 lautet<br />

Durchführung der Tests:<br />

t 0 = ȳ − µ 0<br />

s/ √ n = 3 − 0<br />

4.717/ √ 9 = 1.908 .<br />

Hypothese Alternative Testvorschrift Ergebnis<br />

H 0 : µ = 0 H 1 : µ ≠ 0 |t 0 | = 1.908 ≤ 2.31 = γ n−1;p H 0 beibehalten<br />

H 0 : µ = 0 H 1 : µ > 0 t 0 = 1.908 > 1.86 = t n−1;p H 0 ablehnen<br />

Während <strong>die</strong> Signifikanz der Daten für e<strong>in</strong>e Ablehnung der zweiseitigen Alternative<br />

µ ≠ 0 nicht ausreicht, kann <strong>die</strong> e<strong>in</strong>seitige Gegenhypothese µ > 0 beim Niveau α = 0.05<br />

abgelehnt werden. Im zweiten Fall liegt also e<strong>in</strong>e signifikante Gewichtsabnahme durch<br />

<strong>die</strong> Diätkur vor.


9.3. KONFIDENZINTERVALLE UND T-TEST; σ UNBEKANNT 183<br />

9.3.5 t-Test zum Vergleich von Mittelwerten<br />

Das folgende Vorgehen wird auch Zweistichproben t-Test genannt, da es sich wie<br />

bei Abschnitt 9.4 um den Vergleich zweier unabhängiger Stichproben handelt. Man<br />

betrachtet<br />

X 1 , . . . , X n iid N(µ x , σx) 2 (Gruppe 1)<br />

Y 1 , . . . , Y m iid N(µ y , σy) 2 (Gruppe 2) ,<br />

wobei X 1 , . . . , X n ; Y 1 , . . . , Y m als unabhängig vorausgesetzt werden. Damit s<strong>in</strong>d auch<br />

<strong>die</strong> abgeleiteten Größen<br />

¯X <strong>und</strong><br />

n∑<br />

(X i − ¯X) 2 sowie Ȳ <strong>und</strong><br />

i=1<br />

m∑<br />

(Y j − Ȳ )2 (9.15)<br />

j=1<br />

unabhängig. Unter der Annahme<br />

σ 2 x = σ 2 y = σ 2 (homogene Varianzen) (9.16)<br />

kann <strong>die</strong> geme<strong>in</strong>same (“pooled”) Varianzschätzung<br />

S 2 =<br />

verwendet werden. Der Fall<br />

wird mit der Transformation<br />

⎡<br />

1<br />

⎣<br />

n + m − 2<br />

⎤<br />

n∑<br />

(X i − ¯X)<br />

m∑<br />

2 + (Y j − Ȳ )2 ⎦<br />

i=1<br />

j=1<br />

σ 2 x = k 2 σ 2 y = k 2 σ 2 , k ≠ 0 (heterogene Varianzen) (9.17)<br />

˜X := 1 X , Ỹ := Y (9.18)<br />

k<br />

auf <strong>die</strong> Situation homogener Varianzen von (9.16) zurückgeführt. Auch beim Ansatz<br />

(9.17) ist noch der unbekannte Faktor k zu berücksichtigen. Bei dessen Wahl kann<br />

z.B. der F-Test von Abschnitt 9.4 hilfreich se<strong>in</strong>. E<strong>in</strong>en weiteren Zugang liefert der sog.<br />

Behrens-Fisher-Ansatz; vgl. etwa [Falk et al. (1995)], S. 63.<br />

Mit der Voraussetzung homogener Varianz von (9.16) ist<br />

T = ¯X − Ȳ − (µ x − µ y )<br />

S √ 1<br />

n + 1 m<br />

= ˆµ x − ˆµ y − (µ x − µ y )<br />

Sˆµx−ˆµ y<br />

(9.19)<br />

t n+m−2 -verteilt. Wegen (9.15) s<strong>in</strong>d nämlich ¯X, Ȳ <strong>und</strong> S2 unabhängig. Weiterh<strong>in</strong> s<strong>in</strong>d<br />

nach dem Additionstheorem der Normalverteilung unter der Hypothese (9.20)<br />

( ¯X − µx<br />

)<br />

−<br />

(Ȳ<br />

− µy<br />

)<br />

∼ N<br />

(<br />

0 ,<br />

( 1<br />

n + 1 m)<br />

σ<br />

2 )<br />

<strong>und</strong> nach dem Additionstheorem der χ 2 -Verteilung<br />

⎡<br />

⎤<br />

1<br />

n∑<br />

⎣ (X<br />

σ 2 i − ¯X)<br />

m∑<br />

2 + (Y j − Ȳ )2 ⎦ ∼ χ 2 n+m−2 .<br />

i=1<br />

j=1


184 KAPITEL 9. STATISTIK NORMALVERTEILTER DATEN<br />

Wiederum bestätigt sich hier <strong>die</strong> Faustregel:<br />

Freiheitsgrade = Anz. Beobachtungen (n + m) - Anz. geschätzte Parameter (µ x , µ y ).<br />

σ 2 geht nicht <strong>in</strong> <strong>die</strong> χ 2 -Größe e<strong>in</strong>, zählt also nicht.<br />

Unter der zusätzlichen Hypothese<br />

H 0 : µ x = µ y (9.20)<br />

ist <strong>die</strong> Prüfgröße<br />

t n+m−2 -verteilt.<br />

T 0 =<br />

¯X − Ȳ<br />

S √ 1<br />

n + 1 m<br />

Beispiel 9.6 (Druckfestigkeit von zwei Betonsorten )<br />

Gemäß [He<strong>in</strong>hold & Gaede (1979)], S. 243) seien <strong>die</strong> Druckfestigkeiten <strong>in</strong> [N/mm 2 ]<br />

von zwei Betonsorten N(µ x , σ 2 ) bzw. N(µ y , σ 2 )-verteilt. Zwei unabhängige Stichproben<br />

X 1 , ..., X n der Sorte 1 <strong>und</strong> Y 1 , ..., Y m der Sorte 2 ergaben folgende Realisierungen<br />

Tabelle 14: Vergleich von Betonsorten<br />

x i 14.2 14.7 13.9 14.3 13.7 13.7 14.2 14.5 14.0 14.3 i=1,...,n = 10<br />

y j 14.7 15.2 15.0 14.9 15.4 14.6 15.0 15.2 – – j=1,...,m = 8<br />

Für den Test der Hypothese µ x = µ y gegen <strong>die</strong> Alternative µ x ≠ µ y ergibt sich<br />

¯x = 14.15 , ȳ = 15 ;<br />

<strong>und</strong> unter der Annahme homogener Varianzen<br />

s 2 =<br />

1<br />

10 + 8 − 2<br />

⎡<br />

⎤<br />

n∑<br />

m∑<br />

⎣ (x i − ¯x) 2 + (y j − ȳ) 2 ⎦ = 0.09156 , s = 0.3026 ,<br />

i=1<br />

j=1<br />

erhält man<br />

|t 0 | =<br />

|¯x − ȳ|<br />

s √ 1<br />

n + 1 m<br />

=<br />

|14.15 − 15|<br />

0.3026 √ 1<br />

10 + 1 8<br />

= 5.922 .<br />

Da 5.922 > γ 16;0.99 = 2.921, ist <strong>die</strong> Hypothese µ x = µ y sogar beim Signifikanzniveau<br />

α = 0.01 abzulehnen. Die Mittelwerte der beiden Betonsorten s<strong>in</strong>d also hochsignifikant<br />

verschieden.


9.4. VERGLEICH VON VARIANZEN, F-TEST 185<br />

9.4 Vergleich von Varianzen, F-Test<br />

Beim Beispiel (9.6) wurde <strong>die</strong> Annahme homogener Varianz (9.16) <strong>in</strong> den beiden zu<br />

untersuchenden Gruppen nicht anhand der Daten verifiziert. E<strong>in</strong>e Möglichkeit dazu<br />

bietet der Vergleich von Varianzen mit der F-Verteilung von Abschnitt 9.1.5. Analog<br />

zu Abschnitt 9.3.5 seien X 1 , . . . , X n bzw. Y 1 , . . . , Y m unabhängig <strong>und</strong> N(µ x , σ 2 x) bzw.<br />

N(µ y , σ 2 y)-verteilt. Damit s<strong>in</strong>d<br />

n − 1<br />

σ 2 x<br />

S 2 x = 1 σ 2 x<br />

n∑<br />

(X i − ¯X) 2<br />

i=1<br />

bzw.<br />

m − 1<br />

σ 2 y<br />

S 2 y = 1 σ 2 y<br />

m∑<br />

(Y j − Ȳ )2<br />

j=1<br />

χ 2 n−1- bzw. χ 2 m−1-verteilt <strong>und</strong> unabhängig. Also ist gemäß der Def<strong>in</strong>ition von (9.7)<br />

Mit der Hyptothese<br />

F := S2 x / σ 2 x<br />

S 2 y / σ 2 y<br />

=<br />

∑ ni=1<br />

(X i − ¯X) 2 /(n − 1)/σ 2 x<br />

∑ mj=1<br />

(Y j − Ȳ )2 /(m − 1)/σ 2 y<br />

∼ F n−1,m−1 . (9.21)<br />

gilt<br />

F 0 := S2 x<br />

S 2 y<br />

=<br />

˜H 0 : σ x = σ y ⇐⇒ σ2 x<br />

σ 2 y<br />

= 1 (9.22)<br />

∑ ni=1<br />

(X i − ¯X) 2 /(n − 1)<br />

∑ mj=1<br />

(Y j − Ȳ )2 /(m − 1) ∼ F n−1,m−1 . (9.23)<br />

F 0 ist also wie F von (9.21) F-verteilt mit Zählerfreiheitsgrad n − 1 <strong>und</strong> Nennerfreiheitsgrad<br />

m − 1. F n−1,m−1;p bezeichne das e<strong>in</strong>seitige p-Quantil der entsprechenden F-<br />

Verteilung. Damit gilt für 0 < α < 1<br />

P<br />

(<br />

F n−1,m−1;α/2 ≤ S2 x<br />

S 2 y<br />

≤ F n−1,m−1;1−α/2<br />

)<br />

= 1 − α . (9.24)<br />

Wählt man als kritischen Bereich das Komplement des Intervalls von (9.24), dann ist <strong>die</strong><br />

Hypothese ˜H 0 beim Niveau α abzulehnen, falls für <strong>die</strong> entsprechenden Realisierungen<br />

s 2 x bzw. s 2 y von S 2 x bzw. S 2 y gilt:<br />

s 2 x<br />

s 2 y<br />

< F n−1,m−1;α/2 oder<br />

s 2 x<br />

s 2 y<br />

> F n−1,m−1;1−α/2 .<br />

Beispiel 9.7 (Betonsorten; Fortsetzung)<br />

Wir greifen <strong>die</strong> Untersuchung der Druckfestigkeit zweier Betonsorten wieder auf; siehe<br />

auch [He<strong>in</strong>hold & Gaede (1979)], S. 252. Mit den Daten von Beispiel 9.6 gilt n = 10


186 KAPITEL 9. STATISTIK NORMALVERTEILTER DATEN<br />

<strong>und</strong> m = 8. Bei e<strong>in</strong>em Niveau α = 0.05, d.h. p = 0.95 <strong>und</strong> (1 + p)/2 = 0.975 liest man<br />

<strong>in</strong> den F-Tabellen zu den Freiheitsgraden 9 = n − 1 <strong>und</strong> 7 = m − 1 ab:<br />

F 9,7;0.975 = 4.82 , F 9,7;0.025 =<br />

1<br />

= 1<br />

F 7,9;0.975 4.20 = 0.238 ,<br />

wobei für 0 < p < 1/2 <strong>die</strong> Umrechnungsformel (9.8) benutzt wurde. Ferner erhält man<br />

aus den Daten für S 2 x bw. S 2 y <strong>die</strong> Realisierungen<br />

s 2 x = 1<br />

n − 1<br />

n∑<br />

(x i − ¯x) 2 = 10.72 bzw. s 2 y = 1 m∑<br />

(y j − ȳ) 2 = 7.14 .<br />

i=1<br />

m − 1<br />

j=1<br />

Die Hypothese ˜H 0 kann also beibehalten werden, da<br />

F 9,7;0.025 = 0.238 ≤ s2 x<br />

s 2 y<br />

= 1.50 ≤ 4.82 = F 9,7;0.975 .<br />

Die Annahme homogener Varianz für den vergleichenden Zweistichprobentest von Beispiel<br />

9.6 war also gerechtfertigt.<br />

Wäre <strong>die</strong> Hypothese ˜H 0 verworfen worden, so kann das symmetrische (1−α) -Konfidenz<strong>in</strong>tervall<br />

Anhaltspunkte für <strong>die</strong> Wahl des Faktors k von (9.17) liefern. Aus (9.21) ergibt<br />

sich für p = 1 − α<br />

P<br />

( S<br />

2<br />

y<br />

S 2 x<br />

F n−1,m−1;(1−p)/2 ≤ σ2 y<br />

σ 2 x<br />

S 2 )<br />

y<br />

≤ F n−1,m−1;(1+p)/2 = p . (9.25)<br />

Sx<br />

2<br />

Beim Beispiel 9.7 lauten <strong>die</strong> Grenzen der Realisierungen <strong>die</strong>ses Vertrauens<strong>in</strong>tervalls für<br />

p = 0.95<br />

s 2 y<br />

s 2 x<br />

F 9,7;0.025 = 7.14<br />

10.72 · 0.238 = 0.16 <strong>und</strong> s 2 y<br />

F<br />

s 2 9,7;0.975 = 7.14 · 4.82 = 3.21 .<br />

x<br />

10.72<br />

Diese Zahlen belegen, wie breit Konfidenz<strong>in</strong>tervalle für Quotienten von Varianzen se<strong>in</strong><br />

können, wenn nur wenige Daten vorliegen.<br />

In den gängigen <strong>Statistik</strong>-Programmpaketen werden weitere Tests zum Vergleich von<br />

Mittelwerten angeboten. So verwendet etwa SAS den Behrens-Fisher-Ansatz; vgl. etwa<br />

[Falk et al. (1995)], S. 63 oder <strong>die</strong> nicht mehr F -verteilte Quotientenstatistik<br />

F ′ := max { S2 X, S 2 Y }<br />

m<strong>in</strong> { S 2 X, S 2 Y } ; (9.26)<br />

siehe etwa [Falk et al. (1995)], S. 64. In obigem Beispiel erhielte man als Realisierung<br />

von F ′ den Wert f ′ 0 = 10.72<br />

7.14 = 1.501.<br />

Für weitere Aspekte, wie <strong>die</strong> varianzstabilisierende Wurzel- oder Logarithmustransformation,<br />

muss ebenso auf <strong>die</strong> weiterführende Literatur verwiesen werden (siehe etwa


9.5. DER P − W ERT 187<br />

[Falk et al. (1995)], S. 67) wie für den <strong>in</strong> der Praxis äußerst nützlichen Wilcoxon-Test<br />

zum Mittelwertvergleich. Dort wird ke<strong>in</strong>e Normalverteilung der Daten verlangt; vgl.<br />

[Falk et al. (1995)], S. 70-77.<br />

E<strong>in</strong>e Frage soll am Ende <strong>die</strong>ses Abschnitts nochmals aufgegriffen werden, <strong>die</strong> mit der<br />

Festlegung des Signifikanzniveaus bei den diskutierten Tests zusammenhängt:<br />

9.5 Der p − W ert<br />

Manchem Leser, der sich zum ersten Mal mit statistischen Tests befaßt, wird <strong>die</strong> Festlegung<br />

des Sigifikanzniveaus α willkürlich ersche<strong>in</strong>en. Er kann höchstens e<strong>in</strong>sehen, dass<br />

α < 10% s<strong>in</strong>nvoll ist. Tatsächlich belegen <strong>die</strong> Daten von Beispiel 9.5, dass <strong>die</strong> Wahl<br />

des Sigifikanzniveaus nicht ganz unproblematisch ist. Deshalb wird <strong>in</strong> den wichtigsten<br />

<strong>Statistik</strong>-Programmpaketen zu e<strong>in</strong>er Teststatistik der sog. p − W ert angegeben.<br />

Def. 9.8 (p-Wert (p-value), Überschreitungswahrsche<strong>in</strong>lichkeit)<br />

Gegeben sei e<strong>in</strong> Test mit kritischem Bereich K α , der nur über e<strong>in</strong>e Teststatistik<br />

T = T (X 1 , . . . , X n ) von der Stichprobe X 1 , . . . , X n abhängt. t 0 sei <strong>die</strong> Realisierung<br />

von T unter der Hypothese H 0 . Dann nennt man<br />

den p − W ert (p − value) von t 0 . Falls<br />

p t0 := <strong>in</strong>f<br />

α { t 0 ∈ K α } (9.27)<br />

K α ′ ⊂ K α für α ′ ≤ α (9.28)<br />

ist der p-Wert jenes Signifikanzniveau, bei dem <strong>die</strong> Nullhypothese gerade noch<br />

abgelehnt wird.<br />

Die Hypothese H 0 ist also beim Niveau α abzulehnen, falls<br />

p t0 < α. (9.29)<br />

T ist dabei e<strong>in</strong>e beliebige Teststatistik. H 0 werde abgelehnt, falls t 0 ∈ K α . Für wachsendes<br />

α bläht sich K α immer mehr auf, während es bei kle<strong>in</strong>er werdendem α immer<br />

mehr schrumpft. Anstatt sich den Kopf zu zerbrechen, ob man α = 0.05 oder α = 0.01<br />

von vornehere<strong>in</strong> festlegen soll, kann man auch erst <strong>die</strong> Realisierung t 0 aus den Daten<br />

bestimmen <strong>und</strong> sehen, ob <strong>die</strong> Hypothese nicht beim Niveau 0.05 beibehalten oder beim<br />

Niveau 0.01 abgelehnt wird. Bei kritischen Bereichen, <strong>die</strong> <strong>die</strong> Bed<strong>in</strong>gung (9.28) erfüllen,<br />

ändert sich dann <strong>in</strong> <strong>die</strong>sen Fällen <strong>die</strong> Entscheidung für 0.01 ≤ α ≤ 0.05 nicht.<br />

Nun soll der p−W ert an zwei Beispielen erläutert werden. Bei der Diätkur von Beispiel<br />

9.5 galt t 0 = 1.908. Man erhält für <strong>die</strong> zweiseitige bzw. e<strong>in</strong>seitige Alternative:


188 KAPITEL 9. STATISTIK NORMALVERTEILTER DATEN<br />

Alternative kritischer Bereich p − W ert : p t0 := <strong>in</strong>f<br />

α { t 0 ∈ K α }<br />

H 1 : µ ≠ 0 |t| > γ n−1;1−α p t0 = P (|T | > |t 0 |) = 9.28%, da γ 8;0.9072 = 1.908<br />

H 1 : µ > 0 t > t n−1;1−α p t0 = P (T > t 0 ) = 4.64%, da t 8;0.9536 = 1.908<br />

Legt man das übliche Signifikanzniveau von α = 0.05 zugr<strong>und</strong>e, so sieht man an dem<br />

p − W ert von p 1.908 = 4.64% bei der e<strong>in</strong>seitigen Alternative, dass bereits bei e<strong>in</strong>em<br />

Niveau von α = 4.5% <strong>die</strong> Hypothese nicht abgelehnt worden wäre.<br />

Dagegen liefert <strong>die</strong> Realisierung der T-<strong>Statistik</strong> beim Mittelwertvergleich des Beispiels<br />

9.6 mit den Betonsorten bei 16 Freiheitsgraden e<strong>in</strong>en p − W ert von<br />

p 5.922 = P (|T | > 5.922) = 0.002% , (9.30)<br />

was z.B. bedeutet, dass <strong>die</strong> dort vorliegende Hypothese bei den beobachteten Daten<br />

sogar bei dem extrem kle<strong>in</strong>en Signifikanzniveau 0.01% abzulehnen wäre. Weitere Details<br />

zum p−W ert entnehme man etwa [Falk et al. (1995)], S. 66 <strong>und</strong> [Fahrmeir et al. (1997)],<br />

S. 408.<br />

In Programmpaketen wie SAS wird übrigens der jeweilige p − W ert durch Bezeichnungen<br />

wie ” P > |T | ” ausgewiesen.


9.6. EINFACHE LINEARE REGRESSION 189<br />

9.6 E<strong>in</strong>fache l<strong>in</strong>eare Regression<br />

E i , i = 1, . . . , n, seien iid N(0, σ 2 ) Zufallsvariable (ZV) <strong>und</strong> x 1 , . . . , x n bekannte Zahlen<br />

(z.B. Meßstellen). Zu unbekannten Parametern α <strong>und</strong> β (auch Regressionskoeffizienten)<br />

beobachtet man Realisierungen der ZV<br />

Y i = α + β x i + E i , i = 1, . . . , n.<br />

Aus den Voraussetzungen folgt für i = 1, . . . , n: Y i ∼ N( α+β x i , σ 2 ) <strong>und</strong> unabhängig.<br />

Wie <strong>in</strong> der empirischen Regression def<strong>in</strong>iert man<br />

Man beachte jedoch, dass jetzt<br />

¯x = 1 n∑<br />

x i , ˜s 2 x = 1 n<br />

i=1<br />

n<br />

n∑<br />

(x i − ¯x) 2 .<br />

i=1<br />

Ȳ = 1 n∑<br />

Y i , ˜S2<br />

n<br />

Y = 1 n∑<br />

i −<br />

i=1<br />

n<br />

i=1(Y Ȳ )2 <strong>und</strong> ˜S xy = 1 n<br />

Zufallsvariable s<strong>in</strong>d.<br />

n∑<br />

(Y i − Ȳ )(x i − ¯x)<br />

i=1<br />

Schätzungen <strong>und</strong> deren Verteilung<br />

Mit ˜s 2 x > 0 (d.h. nicht alle x i identisch) erhält man folgende Schätzungen für <strong>die</strong><br />

unbekannten Parameter<br />

wobei<br />

S 2 :=<br />

ˆβ = B = ˜S xy<br />

˜s 2 x<br />

=<br />

∑ (Yi − Ȳ )(x i − ¯x)<br />

∑ (xi − ¯x) 2 ,<br />

ˆα = A = Ȳ − B ¯x ,<br />

n<br />

n − 2 ( ˜S Y 2 − B 2˜s 2 x) = 1<br />

n − 2<br />

Ŷ i = A + Bx i , i = 1, . . . , n.<br />

n∑<br />

(Y i − Ŷi) 2 ,<br />

i=1<br />

y i , a <strong>und</strong> b seien <strong>die</strong> Realisierungen von Y i , i = 1, . . . , n, A <strong>und</strong> B. Damit ergeben sich<br />

gerade <strong>die</strong> Ergebnisse der empirischen Regression. Weiterh<strong>in</strong> sei<br />

s 2 := 1<br />

n − 2<br />

n∑<br />

(y i − a − bx i ) 2 , s = √ s 2 .<br />

i=1<br />

Analog zum Beweis der Unabhängigkeit des Stichprobenmittels <strong>und</strong> der Stichprobenvarianz<br />

zeigt man, dass <strong>die</strong> Schätzfunktionen Ȳ , B <strong>und</strong> S2 unabhängig s<strong>in</strong>d. Damit<br />

ist auch A = Ȳ − B ¯x von S2 unabhängig. Ferner s<strong>in</strong>d A bzw. B normalverteilt mit<br />

Erwartungswerten α bzw. β. (n − 2) S 2 /σ 2 ist χ 2 -verteilt mit n − 2 Freiheitsgraden.<br />

Für <strong>die</strong> Schätzer A <strong>und</strong> B lauten <strong>die</strong> Varianzen<br />

D 2 (B) = V ar(B) = σ2<br />

n˜s 2 x<br />

=<br />

σ 2<br />

∑ (xi − ¯x) 2


190 KAPITEL 9. STATISTIK NORMALVERTEILTER DATEN<br />

D 2 (A) = V ar(A) = D 2 (B)(¯x 2 + ˜s 2 x) = σ 2 ∑ x<br />

2<br />

i /n<br />

∑ (xi − ¯x) 2 .<br />

Mit S 2 anstelle des unbekannten σ 2 erhält man Varianzschätzungen für A <strong>und</strong> B<br />

Damit s<strong>in</strong>d<br />

ˆσ 2 B = ˆD 2 (B) =<br />

S 2<br />

∑<br />

∑ <strong>und</strong> ˆσ 2<br />

(xi − ¯x) 2 A = ˆD x 2 (A) = S 2 2<br />

i /n<br />

∑ (xi − ¯x) . 2<br />

T A = A − α<br />

ˆσ A<br />

<strong>und</strong> T = T B = B − β<br />

ˆσ B<br />

t-verteilt mit n − 2 Freiheitsgraden (zur Berechnung von S 2 benötigt man <strong>die</strong> Schätzer<br />

für <strong>die</strong> unbekannten Parameter α <strong>und</strong> β).<br />

Signifikanztest <strong>und</strong> Vertrauens<strong>in</strong>tervalle<br />

Der folgende Signifikanz-Test wird häufig für den Spezialfall β 0 = 0 angewendet<br />

H 0 : β = β 0 H 1 : β ≠ β 0<br />

1 − p bezeichne das Testniveau. H 0 ist mit e<strong>in</strong>er Sicherheitswahrsche<strong>in</strong>lichkeit von<br />

p = P % abzulehnen, falls für <strong>die</strong> Realisierung t 0 der Testgröße<br />

unter der Nullhypothese gilt<br />

T 0 = B − β 0<br />

ˆσ B<br />

|t 0 | =<br />

|b − β 0 |<br />

√ ∑(xi<br />

s/ − ¯x) > γ 2 n−2;P %.<br />

Kann H 0 : β 0 = 0, etwa beim Signifikanzniveau 1 − p = 0.05 nicht abgelehnt werden,<br />

so ist der e<strong>in</strong>fachere Ansatz<br />

E(Y i ) = α<br />

(ohne x i ) eher gerechtfertigt als<br />

E(Y i ) = α + βx i .<br />

Obige Verteilungen von A , B <strong>und</strong> S 2 liefern folgende P%-Vertrauens- oder Konfidenz<strong>in</strong>tervalle<br />

für <strong>die</strong> Regressionskoeffizienten α <strong>und</strong> β :<br />

P (A − d A ≤ α ≤ A + d A ) = P %,<br />

∑ d A = γ n−2;P % S√<br />

x<br />

2<br />

i /n<br />

∑ (xi − ¯x) 2<br />

P (B − d B ≤ β ≤ B + d B ) = P %, d B = γ n−2;P % S/√ ∑(xi<br />

− ¯x) 2 .


9.6. EINFACHE LINEARE REGRESSION 191<br />

Mit ähnlichen Überlegungen wie bei den Regressionskoeffizienten (siehe etwa<br />

[He<strong>in</strong>hold & Gaede (1979)], § 21 oder [Fahrmeir et al. (1996)], Kapitel 4.) erhält man<br />

zwei weitere wichtige Konfidenz<strong>in</strong>tervalle:<br />

Prognose<strong>in</strong>tervall:<br />

Für festgelegtes x 0 sei Y (x 0 ) e<strong>in</strong>e neue ZV, unabhängig von Y 1 , . . . , Y n , mit<br />

E [Y (x 0 )] = α + βx 0 . Ŷ (x 0) = A + Bx 0 bezeichne <strong>die</strong> Prognose für Y (x 0 ). Mit<br />

d(x 0 ) = γ n−2;P % S √ 1 + 1 n + (x 0 − ¯x) 2<br />

∑ (xi − ¯x) . 2<br />

erhält man<br />

P (Ŷ (x 0) − d(x 0 ) ≤ Y (x 0 ) ≤ Ŷ (x 0) + d(x 0 ) ) = P %<br />

e<strong>in</strong> P %-Konfidenz<strong>in</strong>tervall für e<strong>in</strong>e neue Beobachtung Y (x 0 ) an der Stelle x 0 . Ŷ (x 0) =<br />

A+Bx 0 ist e<strong>in</strong> erwartungstreuer Schätzer für Y (x 0 ). Die Prognose wird umso ungenauer,<br />

je weiter x 0 von ¯x entfernt ist; siehe Bild 28. Das relativ weite Konfidenz<strong>in</strong>tervall für<br />

<strong>die</strong> Prognose darf nicht verwechselt werden mit dem engeren für den Erwartungswert.<br />

Vertrauens<strong>in</strong>tervall für den Erwartungswert η(x) = α + βx , x bekannt:<br />

Sei<br />

c(x) = γ n−2;P % S √ 1 n + (x − ¯x)2<br />

∑ (xi − ¯x) , 2<br />

dann gilt<br />

P (Ŷ (x) − c(x) ≤ η(x) ≤ Ŷ (x) + c(x)) = P %.<br />

Die Konfidenz<strong>in</strong>tervalle für Erwartungswert <strong>und</strong> Prognose unterscheiden sich formal<br />

nur im Term √ 1 + ... <strong>und</strong> s<strong>in</strong>d - grob gesprochen - folgendermaßen zu <strong>in</strong>terpretieren:<br />

1. Erwartungswert: Würde man das dem l<strong>in</strong>earen Modell zugr<strong>und</strong>eliegende Zufallsexperiment<br />

1000 mal mit jeweils e<strong>in</strong>er genügenden Zahl von Datenpunkten durchführen,<br />

so lägen bei e<strong>in</strong>em Konfidenzniveau p = 0.95 ca. 950 der berechneten Regressionsgeraden<br />

im engeren der beiden Konfidenz<strong>in</strong>tervalle.<br />

2. Prognose: Wiederum für p = 0.95 liegen ca. 95% der Ergebnisse Y (x (j)<br />

0 ) des gleichen<br />

Zufallsexperiments an 1000 neuen Meßpunkten x (j)<br />

0 , j = 1, ..., 1000, im breiteren<br />

Prognose<strong>in</strong>tervall.<br />

Beispiel 9.9 (Korngröße <strong>und</strong> Druckfestigkeit)<br />

vgl. [Stoyan (1993)]; Abschnitt 1.3.<br />

Tabelle 15: Y Druckfestigkeit [N/mm 2 ], x Korndurchmesser [mm], n = 30<br />

x i 3.5 2.4 1.8 3.2 2.4 3.5 3.0 3.5 4.0 1.8 2.9 3.5 2.4 2.9 3.3<br />

y i 23.2 38.5 42.0 32.1 41.2 25.8 41.0 33.9 22.7 43.3 34.8 33.1 42.6 32.7 24.0<br />

x i 2.6 2.6 1.6 3.0 1.5 3.0 2.4 3.9 2.3 2.1 2.7 2.6 4.0 2.9 1.1<br />

y i 31.5 34.2 47.9 34.4 49.2 34.4 36.6 28.5 40.6 42.1 37.1 33.0 21.8 37.4 52.1


192 KAPITEL 9. STATISTIK NORMALVERTEILTER DATEN<br />

55<br />

50<br />

45<br />

40<br />

35<br />

30<br />

25<br />

20<br />

Y : Druckfestigkeit<br />

<br />

<br />

obere 95%-Prognosegrenze<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

untere 95%-Prognosegrenze <br />

<br />

<br />

x : Korndurchmesser <br />

1 1.5 2 2.5 3 3.5 4<br />

Bild 28: Regressionsgerade y = a + bx mit 95%-Prognose<strong>in</strong>tervall<br />

Aus den Daten erhält man zunächst <strong>die</strong> Hilfgrößen<br />

¯x = 2.747 ,<br />

ȳ = 35.723 ,<br />

∑<br />

(xi − ¯x) 2 = 16.054 ,<br />

∑<br />

(yi − ȳ) 2 = 1750.43 ,<br />

n = 30<br />

<strong>und</strong><br />

∑<br />

(xi − ¯x)(y i − ȳ) = −151.69 .<br />

Daraus ergeben sich folgende Schätzungen für <strong>die</strong> Regressionskoeffizienten<br />

b = −151.69<br />

16.054<br />

Als Restvarianz erhält man dann<br />

s 2 = 1<br />

n − 2<br />

= −9.45 , a = 35.723 − (−9.45)2.747 = 61.68 .<br />

n∑<br />

(y i − a − bx i ) 2 = 11.327 , s = 3.366 .<br />

i=1<br />

Bestimmtheitsmaß R 2 <strong>und</strong> Korrelationskoeffizient r lauten hier<br />

R 2 =<br />

(−151.69)2<br />

16.054 · 1750.43<br />

= 0.819 , r = −0.905 .<br />

Die Hypothese H 0 : β = 0 ist beim Niveau 0.05 abzulehnen, da<br />

|t 0 | =<br />

| − 9.45|<br />

3.366/ √ 16.054 = 11.25 > 2.048 = γ 28;0.95 = t 28;0.975 .<br />

Der p − W ert p t0 (vgl. Abschnitt 9.5) zu t 0 = −11.25, also jenes Signifikanzniveau, bei<br />

dem H 0 gerade noch abgelehnt würde, lautet p t0 = p −11.25 = 0.000%; ist also praktisch<br />

gleich Null.


9.7. MULTIPLE REGRESSION 193<br />

95%-Konfidenz<strong>in</strong>tervalle:<br />

Mit dem symmetrischen Quantil γ 28;0.95 = 2.048 erhält man<br />

d B = 2.048 √ 3.366<br />

√<br />

= 1.72 , d A = 1.72 16.054/30 + 2.747 2 = 4.89 ,<br />

16.054<br />

wobei <strong>die</strong> Identität ∑ x 2 i /n = ∑ (x i − ¯x) 2 /n + ¯x 2 benutzt wurde. Somit lauten <strong>die</strong><br />

Realisierungen der 95%-Vertauens<strong>in</strong>tervalle<br />

56.78 ≤ a ≤ 66.57 , − 11.17 ≤ b ≤ −7.73 .<br />

x<br />

Tabelle 16: Prognosen <strong>und</strong> 95%-Konfidenz<strong>in</strong>tervalle für drei x-Werte<br />

Prognose ŷ(x)<br />

(x − ¯x) 2<br />

∑ (xi − ¯x) 2 c(x) = γs √ 1<br />

n + ∑ ... d(x) = γs √ 1 + 1 n + ∑ ...<br />

1.1 51.28 0.169 3.10 7.56<br />

¯x ȳ = 35.72 0 1.26 7.01<br />

4 23.88 0.098 2.50 7.33<br />

Tabelle 17: Realisierungen der 95%-Prognose<strong>in</strong>tervalle<br />

x ŷ(x) Erwartungswert η(x) Prognose y(x)<br />

1.1 51.28 [48.18,54.38] [43.72,58.84]<br />

¯x = 2.747 ȳ = 35.72 [34.46,36.98] [28.71,42.73]<br />

4 23.88 [21.38,26.38] [16.55,31.21]<br />

Das Schaubild zeigt <strong>die</strong> sog. Regressionstrompete für das 95%-Prognose<strong>in</strong>tervall.<br />

Die Prognose ist also bei ¯x am genauesten <strong>und</strong> wird umso unschärfer, je weiter man<br />

sich von ¯x entfernt. Übrigens liegt (¯x, ȳ) stets auf der Regressionsgeraden.<br />

9.7 Multiple Regression<br />

Hier setzt man<br />

an, wobei<br />

E(Y i ) = x T i β , i = 1, . . . , n ,<br />

x i = (x i1 , . . . , x ip ) T , p ≤ n ,


194 KAPITEL 9. STATISTIK NORMALVERTEILTER DATEN<br />

nicht zufallsabhängige, bekannte Vektoren s<strong>in</strong>d, <strong>die</strong> sog. Regressor-Variablen.<br />

β = (β i , . . . , β p ) T<br />

ist e<strong>in</strong> unbekannter Parametervektor.<br />

X =<br />

⎡<br />

⎢<br />

⎣<br />

x T 1<br />

.<br />

x T n<br />

⎤<br />

⎥<br />

⎦<br />

heißt Daten- oder Design-Matrix.<br />

Die erste Spalte von X wird meist als (1, . . . , 1) T gewählt <strong>und</strong> repräsentiert im Ansatz<br />

e<strong>in</strong> konstantes Glied (z.B. α <strong>in</strong> der e<strong>in</strong>fachen l<strong>in</strong>earen Regression). Mit<br />

x i = (1, x i ) T<br />

<strong>und</strong> β = (a, β) T<br />

ist <strong>die</strong> e<strong>in</strong>fache l<strong>in</strong>eare Regression e<strong>in</strong> Spezialfall der multiplen Regression.<br />

Seien weiterh<strong>in</strong><br />

Y = (Y 1 , . . . , Y n ) T <strong>und</strong> E = (E 1 , . . . , E n ) T ,<br />

dann erhält man <strong>in</strong> Matrixschreibweise<br />

Y = X β + E , E(E) = 0 , Cov(E) = σ 2 I.<br />

Die Schätzungen ˆβ bzw. S 2 für <strong>die</strong> unbekannten Parameter β <strong>und</strong> σ 2 erhält man aus<br />

den sog. Normalgleichungen<br />

<strong>und</strong><br />

S 2 =<br />

Bei Maximalrang, also Rang(X) = p, gilt<br />

X T X ˆβ = X T Y<br />

1<br />

n − Rang(X) ||Y − X ˆβ|| 2 2.<br />

ˆβ = (X T X) −1 X T Y<br />

<strong>und</strong><br />

Cov(ˆβ) = σ 2 ( X T X ) −1<br />

=: σ 2 C .<br />

Falls E ∼ N n (0, σ 2 I)-verteilt ist, gilt:<br />

1. ˆβ <strong>und</strong> S 2 s<strong>in</strong>d unabhängig<br />

2.<br />

(n − p) S 2<br />

σ 2 ist χ 2 n−p-verteilt<br />

3. ˆβ ist Np<br />

(β, σ 2 ( X T X ) −1 ) -verteilt.


9.7. MULTIPLE REGRESSION 195<br />

Daraus lassen sich analog zur e<strong>in</strong>fachen l<strong>in</strong>earen Regression Konfidenz<strong>in</strong>tervalle für <strong>die</strong><br />

β i <strong>und</strong> für Prognosen ableiten. Wir gehen hier nur noch e<strong>in</strong> auf den Signifikanz-Test<br />

H 0 ist abzulehnen, falls<br />

H 0 : β i = 0, H 1 : β i ≠ 0.<br />

| ˆβ i |<br />

√<br />

cii S > γ n−p;P %,<br />

wobei c ii das i -te Diagonalelement von C = (X T X) −1 <strong>und</strong> γ n−p;P % das symmetrische<br />

P %-Quantil der t-Verteilung mit n − p Freiheitsgraden bezeichnet.<br />

Bemerkungen:<br />

1. Falls mehrere Regressor-Variablen (man sagt auch: E<strong>in</strong>flussgrößen oder Regressoren)<br />

vorliegen, läßt sich der oben genannte Signifikanz-Test zur sog. Variablenauswahl<br />

heranziehen. Wird nämlich H 0 für e<strong>in</strong> β i abgelehnt, so übt <strong>die</strong>se<br />

Variable (statistisch gesehen) ke<strong>in</strong>en E<strong>in</strong>fluss auf den Erwartungswert von Y aus<br />

<strong>und</strong> kann im Ansatz weggelassen werden. Das fortgesetzte Aufnehmen <strong>und</strong> Weglassen<br />

von Regressorvariablen nennt man Schrittweise Regression. Für Details<br />

sei auf <strong>die</strong> weiterführende Literatur verwiesen, z.B. [Fahrmeir et al. (1996)], Kapitel<br />

4 oder [Seber (1977)].<br />

2. Die Berechnungen zur multiplen Regression werden normalerweise mit Standardstatistikpaketen<br />

wie SPSS, SAS, S-Plus etc. durchgeführt.<br />

3. Wie schon erwähnt, kann <strong>die</strong> e<strong>in</strong>fache l<strong>in</strong>eare Regression als Spezialfall der multiplen<br />

Regression mit p = 2 angesehen werden.<br />

Für e<strong>in</strong>e e<strong>in</strong>gehende Diskussion weiterer statistischer Fragestellungen sei auf Lehrbücher<br />

wie [Sachs (1984)], [Witt<strong>in</strong>g (1985)] <strong>und</strong> [Fahrmeir et al. (1996)] h<strong>in</strong>gewiesen.


Kapitel 10<br />

Explorative Datenanalyse<br />

Die Darstellung folgt <strong>in</strong> wichtigen Teilen [Falk et al. (1995)]. E<strong>in</strong>e leicht verständliche<br />

<strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> Datenanalyse f<strong>in</strong>det man auch <strong>in</strong> [Fahrmeir et al. (1997)].<br />

E<strong>in</strong>e wesentliche Gr<strong>und</strong>lage der explorativen Datenanalyse ist <strong>die</strong> Tatsache, dass sich<br />

e<strong>in</strong>e unbekannte Verteilungsfunktion durch Realisierung entsprechend vieler zugehöriger<br />

iid-Zufallsvariablen beliebig genau approximieren läßt.<br />

Def. 10.1 (Empirische Verteilungsfunktion)<br />

X 1 , . . . , X n ∈ R sei e<strong>in</strong>e Stichprobe. Dann heißt<br />

F n (t) = | {X i, i = 1, . . . , n : X i ≤ t} |<br />

n<br />

= 1 n<br />

n∑<br />

1 (−∞,t] (X i ), t ∈ R,<br />

i=1<br />

empirische Verteilungsfunktion. Je nach Sachlage werden wir obigen Zugang<br />

mit den Zufallsvariablen (ZV) X i oder <strong>die</strong> der Def<strong>in</strong>ition 7.12 entsprechende<br />

Schreibweise von F n bzgl. der Realisierungen x 1 , . . . , x n wählen. 1 A (·) bezeichnet<br />

<strong>die</strong> Indikatorfunktion e<strong>in</strong>er Menge A, vgl. Def. 1.44.<br />

Lemma 10.2 (von Glivenko-Cantelli)<br />

Für iid-Variablen X 1 , . . . , X n mit Verteilungsfunktion F gilt<br />

wobei F n (t) =<br />

P<br />

(<br />

lim sup |F n (t) − F (t)| = 0<br />

n→∞<br />

t∈R<br />

)<br />

= 1 , d. h.<br />

lim sup |F n (t) − F (t)| = 0 fast sicher (f.s.) ,<br />

n→∞<br />

t∈R<br />

n∑<br />

1 (−∞,t] (X i )/n.<br />

i=1<br />

Das Glivenko-Cantelli-Lemma wird oft Hauptsatz der <strong>Statistik</strong> genannt.<br />

196


10.1. KERNDICHTE-SCHÄTZER 197<br />

Beweis: siehe etwa [Chung (1974)], Theorem 5.5.1.<br />

10.1 Kerndichte-Schätzer<br />

S<strong>in</strong>d <strong>die</strong> X i stetig <strong>und</strong> ist F differenzierbar, so lautet <strong>die</strong> Dichte f = F ′ (wir nehmen<br />

wieder an, dass f stückweise stetig ist). Wir erhalten somit f.s.<br />

F n (t + h) − F n (t)<br />

h<br />

n→∞<br />

−→<br />

F (t + h) − F (t)<br />

h<br />

h→0<br />

−→<br />

F ′ (t) = f(t)<br />

für t ∈ R <strong>und</strong> h > 0. Wenn n also groß genug ist <strong>und</strong> h kle<strong>in</strong>, so wird gelten:<br />

F n (t + h) − F n (t)<br />

h<br />

∼ f(t) ,<br />

wobei das Symbol ”∼” hier soviel wie asymptotisch gleich bedeutet. Mit den Bezeichnungen<br />

von Abschnitt 7.3 <strong>und</strong> t = a j−1 , h = a j − a j−1 , folgt daher für x ∈ I j<br />

F n (t + h) − F n (t)<br />

h<br />

= F n(a j ) − F n (a j−1 )<br />

a j − a j−1<br />

= n j<br />

n<br />

1<br />

a j − a j−1<br />

= f n (x) ∼ f(t) .<br />

Die empirische Dichte f n ist also e<strong>in</strong> Schätzer für <strong>die</strong> zugr<strong>und</strong>eliegende Dichte f(·).<br />

Def. 10.3 (Kern)<br />

Es sei K : R → [0, 1] e<strong>in</strong>e Verteilungsfunktion, der sogenannte Kern. Setze für<br />

h > 0 <strong>und</strong> t ∈ R<br />

ˆF n (t) =<br />

∫∞<br />

−∞<br />

( ) t − x<br />

K dF n (x) = 1 h<br />

n<br />

n∑<br />

( ) t − Xi<br />

K .<br />

i=1<br />

h<br />

Der Schätzer ˆF n (t) ist <strong>die</strong> Faltung von K(·/h) <strong>und</strong> der empirischen Verteilungsfunktion<br />

F n <strong>und</strong> heißt Kern-Schätzer von F , der Verteilungsfunktion von iid-ZV<br />

X, X 1 , . . . , X n . Der Parameter h heißt Bandbreite (bandwidth) oder Fensterbreite.<br />

Je nachdem, ob <strong>die</strong> Schätzfunktion (Schätzer) ˆF n oder <strong>die</strong> reelle Funktion F n (t) betrachtet<br />

wird, ist jeweils <strong>die</strong> ZV X i oder deren Realisierung x i , i = 1, . . . , n, e<strong>in</strong>zusetzen.<br />

Da K e<strong>in</strong>e Verteilungsfunktion ist, gilt x→∞<br />

lim K(x) = 1 <strong>und</strong> lim K(x) = 0.<br />

x→−∞<br />

Damit ist ˆF n auch e<strong>in</strong>e Verteilungsfunktion, <strong>die</strong> bei e<strong>in</strong>er kle<strong>in</strong>en Fensterbreite h <strong>in</strong> der<br />

Nähe der empirischen Verteilungsfunktion liegt, denn<br />

ˆF n (t) = 1 n<br />

n∑<br />

( ) t − Xi<br />

K<br />

i=1<br />

h<br />

h→0<br />

−→<br />

F n (t)


198 KAPITEL 10. EXPLORATIVE DATENANALYSE<br />

für alle t /∈ {X 1 , . . . , X n }, d. h. ˆF n (t) ist wiederum e<strong>in</strong> Schätzer für F (t). Für differenzierbares<br />

K mit K ′ = k folgt:<br />

ˆF ′ n(t) = 1<br />

nh<br />

n∑<br />

( ) t − Xi<br />

k = 1 ∫∞ ( ) t − x<br />

k dF n (x) =:<br />

i=1<br />

h h h<br />

ˆf n (t) ,<br />

−∞<br />

wobei <strong>die</strong> Differentiation so durchzuführen ist als würde x i anstelle der X i verwendet.<br />

Def. 10.4 (Kern-Dichteschätzer)<br />

Sei F <strong>die</strong> Verteilungsfunktion von stetigen iid ZV X, X 1 , . . . , X n mit Dichte f<br />

∞∫<br />

<strong>und</strong> k : R −→ R e<strong>in</strong>e nichtnegative Funktion mit k(x) dx = 1, der Kern. Die<br />

Abbildung<br />

ˆf n (t) = 1<br />

nh<br />

−∞<br />

n∑<br />

( ) t − Xi<br />

k = 1 ∫ ∞ ( ) t − x<br />

k dF n (x) , t ∈ R , h > 0 ,<br />

i=1<br />

h h h<br />

−∞<br />

heißt univariater Kern-Dichteschätzer für f(t) mit Fensterbreite oder Bandbreite<br />

h.<br />

Die Verwandtschaft mit der Histogramm-Dichte von Abschnitt 7.3 zeigt sich bei der<br />

speziellen Wahl k(x) = 1 1 2 [−1,1)(x)<br />

ˆf n (t) = 1<br />

nh<br />

=<br />

n∑<br />

( ) t − Xi<br />

k<br />

i=1<br />

h<br />

= F n(t + h) − F n (t − h)<br />

2h<br />

Anzahl der Beobachtungen im Intervall (t − h, t + h]<br />

n · Länge von (t − h, t + h]<br />

.<br />

(10.1)<br />

Wichtige Beispiele für Kerndichteschätzer s<strong>in</strong>d:<br />

1. Epanechnikov-Kern<br />

Dieser populäre Kern ist def<strong>in</strong>iert als<br />

⎧ ( )<br />

3 ⎪⎨<br />

k E (x) = 4 √ 1 − x2<br />

, falls |x| ≤ √ 5<br />

5 5<br />

⎪⎩ 0 , sonst.<br />

(10.2)<br />

Unter allen Kernen k, <strong>die</strong> außerhalb des Intervalls [− √ 5, √ 5] den Wert 0 annehmen<br />

<strong>und</strong> für <strong>die</strong> gilt<br />

m<strong>in</strong>imiert er ∫ k 2 (x)dx.<br />

∫<br />

∫<br />

k(x) dx = 1,<br />

x 2 k(x) dx = 1 ,


10.1. KERNDICHTE-SCHÄTZER 199<br />

2. Rechtecks-Kern<br />

⎧<br />

⎪⎨<br />

k u (x) :=<br />

⎪⎩<br />

1<br />

2<br />

, falls |x| ≤ 1<br />

0 , falls |x| > 1 .<br />

3. Dreiecks-Kern<br />

k ∆ (x) :=<br />

{<br />

1 − |x| , falls |x| ≤ 1<br />

0 , falls |x| > 1 .<br />

4. Normalverteilungs (Gauß)-Kern<br />

k ϕ (x) := 1 √<br />

2π<br />

e −x2 /2<br />

Für e<strong>in</strong>e ausführlichere Darstellung siehe z.B. [Falk et al. (1995)].<br />

Kerndichteschätzer s<strong>in</strong>d sehr sensitiv gegenüber der Wahl der Bandbreite h. Dies steht<br />

<strong>in</strong> direkter Analogie zum E<strong>in</strong>fluss der Intervallbreiten bei Histogrammen. Das folgende<br />

Bild zeigt Kerndichteschätzer desselben Typs angewendet auf Jahresm<strong>in</strong>ima der<br />

W<strong>in</strong>tertemperaturen <strong>in</strong> der Oberpfalz bzgl. der Jahre 1946 bis 1997. Man beachte <strong>die</strong><br />

unterschiedliche Skalierung der Ord<strong>in</strong>atenachse.<br />

Bild 29: Kerndichteschätzer mit Bandbreite h = 0.5 (l<strong>in</strong>ks) <strong>und</strong> h = 0.125.<br />

Für e<strong>in</strong>e Diskussion optimaler Bandbreiten muss auf <strong>die</strong> Spezialliteratur verwiesen werden.<br />

<strong>Statistik</strong>pakete wie SAS bieten e<strong>in</strong>e <strong>in</strong>teraktive Wahl der Bandbreite an, was für<br />

den Benutzer <strong>in</strong> vielen Fällen ausreicht.<br />

Das sog. nichtparametrische Modell der Kerndichteschätzer läßt sich <strong>in</strong> der Regel sehr<br />

gut an gegebene Daten anpassen. Dieses Verfahren eignet sich aber beispielsweise nicht,


200 KAPITEL 10. EXPLORATIVE DATENANALYSE<br />

um Extremwerte zu schätzen. Denn alle genannten Kerndichteschätzer haben kompakten<br />

Träger. Über <strong>die</strong>sen beschränkten ”Tellerrand” können sie nicht h<strong>in</strong>aussehen, was<br />

aber bei der Behandlung von Extremwerten unerläßlich ist. Interessant ist etwa <strong>die</strong> Berechnung<br />

der Wahrsche<strong>in</strong>lichkeit dafür, dass <strong>die</strong> Jahresextremtemperatur unter −40 ◦<br />

Celsius s<strong>in</strong>kt. Gemäß obigen Grafiken verschw<strong>in</strong>det <strong>die</strong> Kerndichteschätzung ”l<strong>in</strong>ks”<br />

von −37 ◦ , womit <strong>die</strong> gesuchte Wahrsche<strong>in</strong>lichkeit 0 ist.<br />

Die übliche Alternative zu Kerndichteschätzern ist <strong>die</strong> historisch ältere - <strong>und</strong> nach wie<br />

vor häufig angewendete - Methode der parametrischen Dichteschätzverfahren. Dort ist<br />

e<strong>in</strong> gewisser Verteilungstyp a priori festzulegen (z.B. Normal-, Exponentialverteilung<br />

etc.). Dann s<strong>in</strong>d nur noch <strong>die</strong> unbekannten Parameter (z.B. µ, σ 2 oder λ) <strong>die</strong>ser Verteilung<br />

zu schätzen; etwa mit der ML-Methode.


10.2. QQ-PLOTS 201<br />

10.2 QQ-Plots<br />

Wie schon <strong>in</strong> dem vorangegangenen Abschnitt unterscheiden wir hier nicht zwischen<br />

den Zufallsvariablen X 1 , . . . , X n <strong>und</strong> deren Realisierungen x 1 , . . . , x n . Der besseren<br />

Übersicht halber seien e<strong>in</strong>ige Resultate aus dem Abschnitt 1.5.4 hier nochmals zusammengestellt.<br />

Notation <strong>und</strong> Darstellung folgen weitgehend<br />

[Falk et al. (1995)].<br />

Def. 10.5 (Verallgeme<strong>in</strong>erte Inverse, Quantilfunktion)<br />

F ← (q) := <strong>in</strong>f { x ∈ R : F (x) ≥ q } , q ∈ (0, 1) .<br />

heißt verallgeme<strong>in</strong>erte Inverse oder Quantilfunktion zu F .<br />

Lemma 10.6 (Eigenschaften der Quantilfunktion)<br />

1. Für beliebige Verteilungsfunktionen gilt<br />

F ← (q) ≤ t ⇐⇒ q ≤ F (t) für alle t ∈ R <strong>und</strong> q ∈ (0, 1) .<br />

2. Für streng monotones F : R → (0, 1) erhält man F ← = F −1 .<br />

Korollar 10.7 (Quantiltransformation)<br />

X sei e<strong>in</strong>e ZV mit Verteilungsfunktion F <strong>und</strong> U sei (0, 1)-gleichverteilt.<br />

1. Für beliebiges X hat <strong>die</strong> Zufallsvariable Y := F ← (U) <strong>die</strong> Verteilungsfunktion<br />

F , d. h.<br />

P (Y ≤ y) = P (F ← (U) ≤ y) = F (y) , y ∈ R .<br />

2. Für stetiges F ist Z := F (X) gleichverteilt <strong>in</strong> (0, 1), d. h.<br />

P (Z ≤ z) = P (F (X) ≤ z) = z , z ∈ (0, 1) .<br />

Wegen <strong>die</strong>ser Transformation kann man bei der Untersuchung e<strong>in</strong>er Zufallsvariablen X<br />

mit Verteilungsfunktion F von der Darstellung<br />

ausgehen, wobei U ∼ U(0, 1).<br />

X = F ← (U)


202 KAPITEL 10. EXPLORATIVE DATENANALYSE<br />

Lemma 10.8 (Normierung)<br />

Es sei Y e<strong>in</strong>e Zufallsvariable mit der Verteilungsfunktion G; σ > 0, µ ∈ R. Weiter sei<br />

F e<strong>in</strong>e Verteilungsfunktion zu X := µ + σY , d. h. F (t) = G((t − µ)/σ), t ∈ R. Dann<br />

gilt für q ∈ (0, 1):<br />

F ← (q) = µ + σ G ← (q) .<br />

Lemma 10.9<br />

Für auf (0, 1) gleichverteilte <strong>und</strong> unabhängige Zufallsvariablen U 1 , . . . , U n<br />

Wahrsche<strong>in</strong>lichkeit 1<br />

gilt mit<br />

max |U k:n − k/n| ≤ sup |F n (t) − t| ,<br />

1≤k≤n t∈[0,1]<br />

wobei F n <strong>die</strong> empirische Verteilungsfunktion zu U 1 , . . . , U n ist <strong>und</strong> U 1:n < U 2:n <<br />

. . . < U n:n <strong>die</strong> <strong>in</strong> Abschnitt 2.54 e<strong>in</strong>geführten Ordnungsstatistiken bezeichnen. Wegen<br />

der Stetigkeit der Gleichverteilung folgt P (U k:n = U k+1:n ) = 0.<br />

Korollar 10.10<br />

In Analogie zum starken Gesetz der großen Zahlen (vgl. Satz 4.8 <strong>und</strong> wegen Formel<br />

(2.43) gilt für <strong>die</strong> Ordnungsstatistiken U k:n , k = 1, . . . , n, mit Wahrsche<strong>in</strong>lichkeit 1<br />

max |U k:n −<br />

k<br />

1≤k≤n n + 1 |<br />

n→∞<br />

−→ 0 .<br />

Die Beweise entnehme man [Falk et al. (1995)], S. 31 ff.<br />

Korollar 10.11<br />

Die Zufallsvariablen X 1 , . . . , X n seien iid mit der Verteilungsfunktion F <strong>und</strong> es sei F ←<br />

stetig auf (a, b) ⊂ (0, 1). Dann gilt für <strong>die</strong> Ordnungsstatistiken X k:n mit Wahrsche<strong>in</strong>lichkeit<br />

1<br />

max |X k:n − F ← k<br />

(<br />

k 1 ≤k≤k 2 n + 1 )|<br />

n→∞<br />

−→ 0 ,<br />

falls k 1 = k 1 (n) ≤ k 2 = k 2 (n) Zahlenfolgen s<strong>in</strong>d, welche <strong>die</strong> Bed<strong>in</strong>gung<br />

erfüllen.<br />

a < lim<br />

n∈N<br />

<strong>in</strong>f k 1<br />

n ≤ lim<br />

n∈N sup k 2<br />

n < b


10.2. QQ-PLOTS 203<br />

Beweis:<br />

Die Funktion F ← ist gleichmäßig stetig auf [a + ɛ, b − ɛ], falls ɛ > 0 h<strong>in</strong>reichend kle<strong>in</strong><br />

ist. Setzen wir X k:n = F ← (U k:n ), so folgt <strong>die</strong> Behauptung aus dem vorherigen Korollar.<br />

Quantil-Plots (QQ-Plots)<br />

Wir nehmen im folgenden an, dass <strong>die</strong> Zufallsvariablen X 1 , . . . , X n iid s<strong>in</strong>d mit identischer<br />

Verteilungsfunktion F der Form<br />

( ) t − µ<br />

F (t) = G , t ∈ R .<br />

σ<br />

Dann gilt gemäß den Korollaren 10.7 <strong>und</strong> 10.10 sowie mit Lemma 10.8<br />

X i:n = F ← (U i:n ) = µ + σ G ← (U i:n ) , i = 1, . . . , n .<br />

Plotten wir nun X k:n gegen G ← (k/(n+1)), d. h. tragen wir <strong>in</strong> e<strong>in</strong>em Koord<strong>in</strong>atensystem<br />

<strong>die</strong> Punkte ( ( ) )<br />

k<br />

G ← , X k:n , k = 1, . . . , n ,<br />

n + 1<br />

ab, so erhalten wir e<strong>in</strong>en Quantile-Quantile Plot oder QQ-Plot. Man beachte noch,<br />

dass <strong>die</strong> der Größe nach geordneten X k:n entlang der senkrechten Ord<strong>in</strong>aten-Achse<br />

aufgetragen werden. Aufgr<strong>und</strong> des obigen Korollars 10.10 wird im Fall e<strong>in</strong>er stetigen<br />

Quantilfunktion G ← : (0, 1) → R <strong>die</strong> Approximation<br />

gelten, so dass <strong>die</strong> Punkte<br />

( ) k<br />

X k:n ∼ F ← n + 1<br />

( ) k<br />

= µ + σ G ← n + 1<br />

(G ← (k/(n + 1)), X k:n ) ∼ (G ← (k/(n + 1)), µ + σ G ← (k/(n + 1)))<br />

<strong>in</strong> etwa auf der Geraden s = µ + σ t ≃ ¯X n + S n t , t ∈ R liegen werden. Dabei bezeichnet<br />

S n = s n (X 1 , . . . , X n ) <strong>die</strong> Standardabweichung zu X 1 , . . . , X n <strong>und</strong> ¯X n deren<br />

arithmetisches Mittel.<br />

Wir wollen nun untersuchen, ob <strong>die</strong> Gewichts-Daten von Beispiel 7.14 <strong>in</strong> etwa normalverteilt<br />

s<strong>in</strong>d. Bild 30 zeigt den QQ-Plot bzgl. G = Φ, wobei Φ wieder <strong>die</strong> Standardnormalverteilungsfunktion<br />

bezeichnet. Die geplotteten Punkte liegen <strong>in</strong> etwa auf e<strong>in</strong>er<br />

Geraden. Der QQ-Plot spricht also nicht gegen e<strong>in</strong>e Normalverteilungsannahme. Achsenabschnitt<br />

(beim Abszissenwert 0) <strong>und</strong> Steigung der KQ-Geraden durch <strong>die</strong> Daten<br />

( ( ) )<br />

k<br />

Φ −1 , X k:n<br />

n + 1<br />

k=1,...,n<br />

stimmen sehr gut mit den Schätzungen ¯x = 61.49 <strong>und</strong> s = 2.58 für Mittelwert <strong>und</strong><br />

Standardabweichung übere<strong>in</strong>. Bei der Standardnormalverteilung gilt gemäß Punkt 2.


204 KAPITEL 10. EXPLORATIVE DATENANALYSE<br />

von Lemma 10.6: Φ ← = Φ −1 .<br />

Bild 30: QQ-Plot der Daten von Beispiel 7.14 für G = Φ<br />

Die folgenden Grafiken zeigen, dass QQ-Plots bei der Festlegung des korrekten Verteilungsmodells<br />

e<strong>in</strong> mächtigeres Hilfsmittel s<strong>in</strong>d als der optische E<strong>in</strong>druck, den Histogramme<br />

vermitteln. Bild 31 stellt das Histogramm <strong>und</strong> den QQ-Plot für 100 simulierte<br />

standardnormalverteilte Daten dar.


10.2. QQ-PLOTS 205<br />

Bild 31: QQ-Plot 100 standarnormalverteilter Daten gegen Quantile von G = Φ<br />

Das Histogramm der 1000 t-verteilten Daten (mit Freiheitsgrad 4) des folgenden Bildes<br />

32 wirkt optisch symmetrischer <strong>und</strong> legt eher e<strong>in</strong>e Verwandtschft mit der Gaußschen<br />

Glockenkurve nahe als das Histogramm der immerh<strong>in</strong> 100 normalverteilten Daten von<br />

Bild 31. Beim QQ-Plot zeigt sich aber an den Enden jene typische Abweichung der<br />

Daten nach unten (l<strong>in</strong>kes Ende) bzw. nach oben (rechtes Ende) von der angepaßten<br />

KQ-Geraden, das für Verteilungen mit heavy tails charakteristisch ist. Die Masse solcher<br />

Verteilungen ist (bei geeigneter Standardisierung) ”nicht so eng” um den Mittelwert<br />

konzentriert wie etwa <strong>die</strong> Masse der Standardnormalverteilung.


206 KAPITEL 10. EXPLORATIVE DATENANALYSE<br />

Bild 32: QQ-Plot 1000 t 4 -verteilter Daten gegen Quantile von G = Φ


10.3. BOX-PLOTS 207<br />

10.3 Box-Plots<br />

Hier stellen wir e<strong>in</strong> anschauliches Instrument zu e<strong>in</strong>er ersten Datenbegutachtung vor.<br />

Folgende Fragen s<strong>in</strong>d <strong>in</strong>teressant:<br />

1. Ist <strong>die</strong> empirische Verteilung der Daten symmetrisch ?<br />

2. Spricht etwas dagegen, dass <strong>die</strong> beobachteten Daten unabhängige Realisierungen<br />

e<strong>in</strong>er normalverteilten Zufallsvariablen (ZV) s<strong>in</strong>d ?<br />

3. Wie eng (bezogen auf <strong>die</strong> Standardabweichung) streuen <strong>die</strong> Beobachtungen um<br />

den Mittelwert ?<br />

4. Gibt es Ausreißer, d. h. Beobachtungen, <strong>die</strong> ”sehr weit” vom Mittelwert entfernt<br />

liegen ?<br />

Wir wollen nun <strong>die</strong>se Fragen e<strong>in</strong>er quantifizierbaren Untersuchung zugänglich machen.<br />

Als Referenz <strong>die</strong>nt (wie könnte es anders se<strong>in</strong>) <strong>die</strong> Normalverteilung mit Mittelwert<br />

µ ∈ R, Varianz σ 2 > 0 <strong>und</strong> der Dichte<br />

f(x ; µ, σ 2 ) = √ 1 e −(x−µ)2 2σ 2<br />

2π σ<br />

Die Dichte der N(0, 1)-Standardnormalverteilung bezeichnen wir wieder mit ϕ <strong>und</strong> <strong>die</strong><br />

zugehörige Verteilungsfunktion mit Φ.<br />

Für e<strong>in</strong>e beliebige Zufallsvariable X mit Verteilungsfunktion F bezeichne gemäß Def.<br />

1.50<br />

x p := <strong>in</strong>f { x ∈ R | F (x) ≥ p } , p ∈ (0, 1) (10.3)<br />

das p-Quantil. Q 1 = x 0.25 bzw. Q 3 = x 0.75 heißen erstes bzw. drittes Quartil<br />

<strong>und</strong> Q 2 = x 0.5 Median. Demenstprechend lautet dann der Interquartilsabstand<br />

IQR = Q 3 − Q 1 .<br />

Quantile <strong>und</strong> Quartile der Standardnormalverteilung<br />

Nun sei u p speziell das p-Quantil für <strong>die</strong> Standarnormalverteilung mit<br />

Φ(u p ) = p , 0 < p < 1 .<br />

Aus den N(0, 1)-Tabellen des Anhangs 11.3 entnimmt man Q 3 = u 0.75 ≃ 0.675.<br />

Der genaue Wert lautet u 0.75 = 0.6745. Weiterh<strong>in</strong> gilt hier aus Symmetriegründen<br />

Φ(−u) = 1 − Φ(u), <strong>und</strong> daher u 1−p = −u p . Also Q 1 = −0.6745, Q 2 = 0 <strong>und</strong><br />

IQR = 2 τ = 1.349, was τ = 0.6745 zur Folge hat.


208 KAPITEL 10. EXPLORATIVE DATENANALYSE<br />

50%<br />

Q 1<br />

µ − 0.6745σ µ Q 3<br />

µ + 0.6745σ<br />

Bild 33: Quartile der N(µ, σ 2 ) -Verteilung<br />

Man beachte, dass <strong>die</strong> Normalverteilung stärker um den Mittelwert konzentriert ist als<br />

viele andere Verteilungen. Dies drückt sich dar<strong>in</strong> aus, dass der Semiquartilsabstand τ<br />

e<strong>in</strong>en kle<strong>in</strong>eren Bruchteil der Standardabweichung ausmacht als beispielsweise bei der<br />

Gleichverteilung.<br />

Tabelle 18: Vergleich τ <strong>und</strong> σ<br />

Verteilung τ σ<br />

Normalverteilung 0.675 σ 1.483 τ<br />

Gleichverteilung 0.865 σ 1.156 τ<br />

Der Übersichtlichkeit halber seien hier nochmals wichtige symmetrische p-Quantile<br />

λ p := u (1+p)/2 der Standardnormalverteilung zusammengestellt; vgl. auch Tabelle 12<br />

Tabelle 19: N(µ, σ 2 ) , symmetrische Quantile λ P %<br />

Fläche symmetrisches Intervall symmetrisches Quantil<br />

P % [µ − σ · λ P % ; µ + σ · λ P % ] λ P %<br />

50% [µ − 0.6745 σ ; µ + 0.6745 σ] 0.6745<br />

68.26% [µ − σ ; µ + σ] 1<br />

95.46% [µ − 2 σ ; µ + 2 σ] 2<br />

99% [µ − 2.576 σ ; µ + 2.576 σ] 2.576<br />

99.31% [µ − 4 τ ; µ + 4 τ] 2.698<br />

99.73% [µ − 3 σ ; µ + 3 σ] 3


10.3. BOX-PLOTS 209<br />

Das Intervall [µ − 4 τ ; µ + 4 τ] kann wegen Q 1 = µ − τ <strong>und</strong> Q 3 = µ + τ auch <strong>in</strong> der<br />

Form<br />

[Q 1 − 3 τ ; Q 3 + 3 τ] = [Q 1 − 1.5 IQR ; Q 3 + 1.5 IQR] (10.4)<br />

dargestellt werden. Gemäß obiger Tabelle müssen über 99% normalverteilter Daten <strong>in</strong><br />

<strong>die</strong>sem Intervall liegen. Ist <strong>die</strong>s nicht der Fall, so muss von e<strong>in</strong>er Abweichung der Daten<br />

von der Normalverteilung ausgegangen werden. E<strong>in</strong>e e<strong>in</strong>fache grafische Darstellung<br />

<strong>die</strong>ses Zusammenhangs s<strong>in</strong>d sog. Box-Plots.<br />

Q 1<br />

Median Q 3<br />

3 τ = 1.5 IQR<br />

3 τ = 1.5 IQR<br />

✛<br />

99.3%<br />

bei Normalverteilung<br />

✲<br />

Bild 34: Idealer Box-Plot für N(µ, σ 2 )<br />

Bei ideal normalverteilten Daten wird der Median (dicker senkrechter Balken) genau<br />

<strong>in</strong> der Mitte der Box (l<strong>in</strong>kes Ende Q 1 , rechtes Ende Q 3 ) liegen. Die Nadeln (whiskers)<br />

l<strong>in</strong>ks <strong>und</strong> rechts der Box s<strong>in</strong>d höchstens 3 τ = 1.5 IQR lang. Falls der kle<strong>in</strong>ste Datenpunkt<br />

x m<strong>in</strong> <strong>in</strong>nerhalb der Spanne Q 1 − 3 τ liegt, so endet <strong>die</strong> l<strong>in</strong>ke Nadel bereits bei<br />

x m<strong>in</strong> ; analog rechts bei x max .<br />

In der Praxis s<strong>in</strong>d <strong>die</strong> <strong>in</strong> Def. 1.50 erklärten Werte Q 1 , Q 2 <strong>und</strong> Q 3 sowie IQR = Q 3 −Q 1<br />

normalerweise nicht bekannt. Deswegen ersetzt man <strong>die</strong>se Größen durch ihre empirischen<br />

Analoga von Def. 7.18. Für <strong>die</strong> folgenden Überlegungen s<strong>in</strong>d also immer <strong>die</strong><br />

empirischen Quartile oder <strong>die</strong> davon abgeleiteten Größen τ bzw. IQR heranzuziehen.<br />

Der Box-Plot ist so e<strong>in</strong>gerichtet, dass bei normalverteilten Daten nur sehr selten Werte<br />

l<strong>in</strong>ks <strong>und</strong> rechts außerhalb der Nadeln liegen. Natürlich ist <strong>die</strong>ser Fall auch bei exakt<br />

normalverteilten Daten nicht ganz ausgeschlossen.


210 KAPITEL 10. EXPLORATIVE DATENANALYSE<br />

e<strong>in</strong>er von 100 simulierten Punkten liegt auerhalb des ”Nadelbereichs”<br />

Q 1<br />

Median Q 3<br />

❄<br />

✉<br />

3 τ = 1.5 IQR<br />

3 τ = 1.5 IQR<br />

✛<br />

99.3%<br />

bei Normalverteilung<br />

✲<br />

Bild 35: Box-Plot für 100 N(µ, σ 2 ) -Zufallszahlen<br />

Bild 35 zeigt den Box-Plot von 100 simulierten normalverteilten Daten. E<strong>in</strong>er <strong>die</strong>ser<br />

Werte liegt außerhalb des Nadelbereichs, der damit 99% der Daten überdeckt. Übrigens<br />

kommt <strong>die</strong> theoretisch vorliegende Symmetrie auch grafisch im Box-Plot schön<br />

zum Ausdruck.<br />

Die bereits <strong>in</strong> Beispiel 7.14 untersuchten Körpergewichte<br />

Tabelle 20: Urliste Körpergewichte<br />

57.8 61.3 60.1 60.0 63.7 60.5 64.8 62.2 58.1 65.9 61.1<br />

63.2 56.2 64.4 61.9 59.7 60.2 61.3 65.6 63.2 58.7 62.8<br />

mit Q 0 = 56.2 = x m<strong>in</strong> ; Q 1 = 60; Q 2 = 61.3 = Median; Q 3 = 63.2;<br />

Q 4 = 65.9 = x max ; τ = (Q 3 − Q 1 )/2 = 1.6;<br />

Q 1 − 3 τ = 60 − 4.8 = 55.2 < x m<strong>in</strong> = 56.2<br />

Q 3 + 3 τ = 63.2 − 4.8 = 68 > x max = 65.9<br />

liefern folgende Grafik:


10.3. BOX-PLOTS 211<br />

alle 22 Datenpunkte liegen <strong>in</strong>nerhalb des Nadelbereichs<br />

Q 1 Median Q 3<br />

Q 4<br />

Q 0<br />

max. 3 τ max. 3 τ x max<br />

x m<strong>in</strong><br />

56 58 60 62 64 66<br />

Bild 36: Box-Plot für das Beispiel Körpergewichte<br />

Da x max näher bei Q 3 liegt als x m<strong>in</strong> bei Q 1 , ist <strong>die</strong> rechte Nadel kürzer als <strong>die</strong> l<strong>in</strong>ke.<br />

Bewertung e<strong>in</strong>es Box-Plots. S<strong>in</strong>d <strong>die</strong> Daten normalverteilt?<br />

1. E<strong>in</strong> Box-Plot kann nur Anhaltspunkte <strong>und</strong> Indizien für oder gegen <strong>die</strong> Normalverteilungsannahme<br />

liefern. In der Regel s<strong>in</strong>d Verteilungstests zur Prüfung der Normalverteilungshypothese<br />

durchzuführen. Außerdem sollten QQ-Plots (vgl. Abschnitt<br />

10.2) <strong>und</strong> Größen wie Schiefe <strong>und</strong> Exzess zur Beurteilung der Daten mit<br />

herangezogen werden. Falls Normalverteilung vorliegt, dürfen <strong>die</strong> empirischen<br />

Werte für Schiefe <strong>und</strong> Exzess nicht zu weit von 0 abweichen.<br />

2. Für e<strong>in</strong>e Normalverteilung der Daten von Bild 36 spricht, dass ke<strong>in</strong> Wert weit<br />

l<strong>in</strong>ks oder rechts außerhalb der Nadelspitzen liegt.<br />

3. Eher gegen <strong>die</strong> Normalverteilungsannahme spricht, dass weder der Median symmetrisch<br />

<strong>in</strong> der Box liegt noch <strong>die</strong> Nadeln l<strong>in</strong>ks <strong>und</strong> rechts e<strong>in</strong>igermaßen gleichlang<br />

s<strong>in</strong>d.<br />

Für weitere Details sei auf Lehrbücher wie [Falk et al. (1995)] <strong>und</strong> [Fahrmeir et al. (1997)]<br />

h<strong>in</strong>gewiesen.


Kapitel 11<br />

Anhang, Tabellen,<br />

Approximationen<br />

11.1 Asymptotische Formeln<br />

Zur Berechnung der Verteilungsfunktionen bzw. der Quantile der Normal-, χ 2 -, t- bzw.<br />

F -Verteilung liegen <strong>in</strong> den wichtigen <strong>Statistik</strong>programmpaketen Rout<strong>in</strong>en vor. Trotzdem<br />

wollen wir hier noch e<strong>in</strong>ige Näherungs- bzw. asymptotische Formeln angeben, <strong>die</strong><br />

gelegentlich nützlich s<strong>in</strong>d.<br />

1. Reihendarstellung der Standardnormalverteilungsfunktion Φ<br />

Durch gliedweise Integration der Reihe der Standarnormalverteilungsdichte erhält<br />

man:<br />

Φ(u) = 1 2 + √ 1 ∑ ∞ (−1) k u 2k+1<br />

(11.1)<br />

2π 2 · 4 · 6 · . . . · 2k · (2k + 1)<br />

k=0<br />

Für numerische Zwecke eignet sich <strong>die</strong> folgende Darstellung, <strong>die</strong> man durch partielle<br />

Integration gew<strong>in</strong>nt, besser:<br />

Φ(u) = 1 2 + 1 √<br />

2π<br />

e −u2 /2<br />

∞∑<br />

k=0<br />

u 2k+1<br />

1 · 3 · 5 · . . . · (2k + 1)<br />

(11.2)<br />

2. Asymptotische Approximationen der χ 2 -Verteilung<br />

χ 2 ν;p ≃ 1 2 (√ 2ν − 1 + u p ) 2 für Freiheitsgrade ν > 100<br />

χ 2 ν;p ≃ ν(1 − e + u p<br />

√ e) 3 , e = 2<br />

9ν<br />

für Freiheitsgrade ν > 50.<br />

Für ν = 85 <strong>und</strong> p = 0.95 gilt also mit u 0.95 = 1.645<br />

212


11.1. ASYMPTOTISCHE FORMELN 213<br />

Tabelle 21: Approximation der χ 2 -Quantile<br />

χ 2 85;0.95 Formel Art der Berechnung<br />

107.521 ——— exakt<br />

107.5 (101.9 + 113.1)/2 aus Tabelle <strong>in</strong>terpoliert<br />

107.24 0.5( √ 2 · 85 − 1 + 1.645) 2 grobe Formel (1)<br />

107.52 85 · (1 − 0.002641 + 1.645 · √0.002641) 3 genauere Formel (2)<br />

3. Asymptotik der t -Verteilung<br />

e = 2/(9 · 85) = 0.002641<br />

t ν;p ≃ u p + u p<br />

4ν (u2 p + 1) + 1<br />

96ν 2 (5u5 p + 16u 3 p + 3u p ) = t appr<br />

ν;0.95 .<br />

Mit <strong>die</strong>ser Näherung erhalten wir beispielsweise für p = 0.95 <strong>und</strong> u 0.95 = 1.645<br />

Tabelle 22: t-Approximation<br />

ν<br />

t appr<br />

ν;0.95<br />

t exakt<br />

ν;0.95<br />

15 1.75275 1.75305<br />

65 1.66863 1.66864<br />

85 1.66298 1.66298<br />

4. Asymptotik der F -Verteilung<br />

Zur näherungsweisen Berechnung der Quantile können folgende Grenzeigenschaften<br />

der Verteilungsfunktionen herangezogen werden<br />

lim F m,n(x) = χ 2 n→∞ m(mx) ,<br />

lim F m,n(x) = 1 − χ 2 m→∞ n( n x ) .<br />

S<strong>in</strong>d g m bzw. g n <strong>die</strong> Dichten von χ 2 m - bzw. χ 2 n-verteilten Zufallsvariablen, so<br />

bedeutet <strong>die</strong>s für <strong>die</strong> Dichten<br />

lim f m,n(x) = mg m (mx) ,<br />

n→∞<br />

lim f m,n(x) = n m→∞ x g n( n 2 x ) .


214 KAPITEL 11. ANHANG, TABELLEN, APPROXIMATIONEN<br />

11.2 Rationale Bestapproximationen für Φ <strong>und</strong> Φ −1<br />

Die Standardnormalverteilungsfunktion <strong>und</strong> deren Quantile können beliebig genau approximiert<br />

werden. Wir begnügen uns hier mit ca. 6 Stellen. E<strong>in</strong>e für <strong>die</strong> Praxis ausreichende<br />

Näherung ˜Φ(u) von<br />

für u ≥ 0 erhält man mit<br />

Φ(u) := 1 √<br />

2π<br />

∫ u<br />

−∞<br />

e − t2<br />

2 dt<br />

Ψ(u) := e −u2 a 0 + a 1 u + a 2 u 2<br />

b 0 + b 1 u + b 2 u 2 + u 3 ,<br />

wobei<br />

a 0 = 2.6938, a 1 = 1.9273, a 2 = 0.56656,<br />

b 0 = 2.6938, b 1 = 4.9678, b 2 = 3.4710, (b 3 = 1),<br />

<strong>und</strong><br />

˜Φ(u) = 1 − 1 2 Ψ( u √<br />

2<br />

) .<br />

Für negative Argumente nützt man <strong>die</strong> Identität: Φ(−u) = 1 − Φ(u). Übrigens gilt:<br />

| ˜Φ(u) − Φ(u) | ≤ 5.5 · 10 −6 für alle u ≥ 0 .<br />

Bei der Berechnung der Umkehrfunktion Φ −1 (p) sucht man für p ∈ (0, 1) e<strong>in</strong> u ∈ R, so<br />

dass Φ(u) = p. Für p ≤ 0.5 erhält man e<strong>in</strong>e Näherung ũ für u durch:<br />

ũ(p) := a 0 + a 1 t + a 2 t 2<br />

1 + b 1 t + b 2 t 2 + b 3 t 3 − t , wobei t = √<br />

−2 ln(p) <strong>und</strong><br />

a 0 = 2.515517, a 1 = 0.802853, a 2 = 0.010328,<br />

b 1 = 1.432788, b 2 = 0.189269, b 3 = 0.001308.<br />

Für Argumente 0.5 < p < 1 nutzt man wiederum Φ(−u) = 1 − Φ(u) <strong>und</strong> erhält jetzt<br />

Φ −1 (p) = −Φ −1 (1 − p) <strong>und</strong> <strong>die</strong> Fehlerabschätzung:<br />

| ũ(p) − Φ −1 (p) | ≤ 4.5 · 10 −4 für alle p ∈ (0, 1) .<br />

Algorithmen für genauere Approximationen f<strong>in</strong>det man <strong>in</strong>:<br />

Abramowitz, M. and Stegun, I.A. (eds.): Handbook of Mathematical Functions. Dover<br />

Publications, New York 1965.<br />

Hart J.F. (ed.): Computer Approximations, 2nd edition. Krieger Publ. Comp., Hunt<strong>in</strong>gton<br />

1978.<br />

11.3 Tabellen<br />

Es folgen Tabellen für <strong>die</strong> Standardnormalverteilung <strong>und</strong> für Stichprobenverteilungen,<br />

<strong>die</strong> aus der Normalverteilung abgeleitet s<strong>in</strong>d.


11.3. TABELLEN 215<br />

u .00 .01 .02 .03 .04 .05 .06 .07 .08 .09<br />

0.0 .50000 .50399 .50798 .51197 .51595 .51994 .52392 .52790 .53188 .53586<br />

0.1 .53983 .54380 .54776 .55172 .55567 .55962 .56356 .56749 .57142 .57534<br />

0.2 .57926 .58317 .58706 .59095 .59483 .59871 .60257 .60642 .61026 .61409<br />

0.3 .61791 .62172 .62552 .62930 .63307 .63683 .64058 .64431 .64803 .65173<br />

0.4 .65542 .65910 .66276 .66640 .67003 .67364 .67724 .68082 .68439 .68793<br />

0.5 .69146 .69497 .69847 .70194 .70540 .70884 .71226 .71566 .71904 .72240<br />

0.6 .72575 .72907 .73237 .73565 .73891 .74215 .74537 .74857 .75175 .75490<br />

0.7 .75804 .76115 .76424 .76730 .77035 .77337 .77637 .77935 .78230 .78524<br />

0.8 .78814 .79103 .79389 .79673 .79954 .80234 .80510 .80785 .81057 .81327<br />

0.9 .81594 .81859 .82121 .82381 .82639 .82894 .83147 .83398 .83646 .83891<br />

1.0 .84134 .84375 .84613 .84849 .85083 .85314 .85543 .85769 .85993 .86214<br />

1.1 .86433 .86650 .86864 .87076 .87286 .87493 .87697 .87900 .88100 .88298<br />

1.2 .88493 .88686 .88877 .89065 .89251 .89435 .89616 .89796 .89973 .90147<br />

1.3 .90320 .90490 .90658 .90824 .90988 .91149 .91309 .91466 .91621 .91773<br />

1.4 .91924 .92073 .92220 .92364 .92507 .92647 .92785 .92922 .93056 .93189<br />

1.5 .93319 .93448 .93574 .93699 .93822 .93943 .94062 .94179 .94295 .94408<br />

1.6 .94520 .94630 .94738 .94845 .94950 .95053 .95154 .95254 .95352 .95449<br />

1.7 .95543 .95637 .95728 .95818 .95907 .95994 .96080 .96164 .96246 .96327<br />

1.8 .96407 .96485 .96562 .96637 .96711 .96784 .96856 .96926 .96994 .97062<br />

1.9 .97128 .97193 .97257 .97320 .97381 .97441 .97500 .97558 .97615 .97670<br />

2.0 .97725 .97778 .97831 .97882 .97932 .97982 .98030 .98077 .98124 .98169<br />

2.1 .98213 .98257 .98300 .98341 .98382 .98422 .98461 .98500 .98537 .98574<br />

2.2 .98610 .98645 .98679 .98713 .98745 .98777 .98809 .98840 .98870 .98899<br />

2.3 .98928 .98955 .98983 .99010 .99036 .99061 .99086 .99111 .99134 .99157<br />

2.4 .99180 .99202 .99224 .99245 .99266 .99286 .99305 .99324 .99343 .99361<br />

2.5 .99379 .99396 .99413 .99430 .99446 .99461 .99477 .99491 .99506 .99520<br />

2.6 .99534 .99547 .99560 .99573 .99585 .99598 .99609 .99621 .99632 .99643<br />

2.7 .99653 .99664 .99674 .99683 .99693 .99702 .99711 .99720 .99728 .99736<br />

2.8 .99744 .99752 .99760 .99767 .99774 .99781 .99788 .99795 .99801 .99807<br />

2.9 .99813 .99819 .99825 .99830 .99836 .99841 .99846 .99851 .99856 .99860<br />

3.0 .99865 .99869 .99874 .99878 .99882 .99886 .99889 .99893 .99896 .99900<br />

3.1 .99903 .99906 .99909 .99913 .99916 .99918 .99921 .99924 .99926 .99929<br />

3.2 .99931 .99934 .99936 .99938 .99940 .99942 .99944 .99946 .99948 .99950<br />

3.3 .99952 .99953 .99955 .99957 .99958 .99960 .99961 .99962 .99964 .99965<br />

3.4 .99966 .99967 .99969 .99970 .99971 .99972 .99973 .99974 .99975 .99976<br />

3.5 .99977 .99977 .99978 .99979 .99980 .99981 .99981 .99982 .99983 .99983<br />

3.6 .99984 .99985 .99985 .99986 .99986 .99987 .99987 .99988 .99988 .99989<br />

3.7 .99989 .99990 .99990 .99990 .99991 .99991 .99991 .99992 .99992 .99992<br />

3.8 .99993 .99993 .99993 .99994 .99994 .99994 .99994 .99994 .99995 .99995<br />

3.9 .99995 .99995 .99996 .99996 .99996 .99996 .99996 .99996 .99996 .99997<br />

Normalverteillung


216 KAPITEL 11. ANHANG, TABELLEN, APPROXIMATIONEN<br />

p<br />

ν 0.005 0.01 0.025 0.05 0.10 0.20 0.50 0.80 0.90 0.95 0.975 0.99 0.995<br />

1 .0 4 393 .0 3 157 .0 3 982 .0 2 393 .01579 .06418 .4549 1.642 2.706 3.841 5.024 6.635 7.879<br />

2 .01003 .02010 .05064 .1026 .2107 .4463 1.386 3.219 4.605 5.991 7.378 9.210 10.60<br />

3 .07172 .1148 .2158 .3518 .5844 1.005 2.366 4.642 6.251 7.815 9.348 11.34 12.84<br />

4 .2070 .2971 .4844 .7107 1.064 1.649 3.357 5.989 7.779 9.488 11.14 13.28 14.86<br />

5 .4117 .5543 .8312 1.145 1.610 2.343 4.351 7.289 9.236 11.07 12.83 15.09 16.75<br />

6 .6757 .8721 1.237 1.635 2.204 3.070 5.348 8.558 10.64 12.59 14.45 16.81 18.55<br />

7 .9893 1.239 1.690 2.167 2.833 3.822 6.346 9.803 12.02 14.07 16.01 18.48 20.28<br />

8 1.344 1.646 2.180 2.733 3.490 4.594 7.344 11.03 13.36 15.51 17.53 20.09 21.95<br />

9 1.735 2.088 2.700 3.325 4.168 5.380 8.343 12.24 14.68 16.92 19.02 21.67 23.59<br />

10 2.156 2.558 3.247 3.940 4.865 6.179 9.342 13.44 15.99 18.31 20.48 23.21 25.19<br />

11 2.603 3.053 3.816 4.575 5.578 6.989 10.34 14.63 17.28 19.68 21.92 24.72 26.76<br />

12 3.074 3.571 4.404 5.226 6.304 7.807 11.34 15.81 18.55 21.03 23.34 26.22 28.30<br />

13 3.565 4.107 5.009 5.892 7.042 8.634 12.34 16.98 19.81 22.36 24.74 27.69 29.82<br />

14 4.075 4.660 5.629 6.571 7.790 9.467 13.34 18.15 21.06 23.68 26.12 29.14 31.32<br />

15 4.601 5.229 6.262 7.261 8.547 10.31 14.34 19.31 22.31 25.00 27.49 30.58 32.80<br />

16 5.142 5.812 6.908 7.962 9.312 11.15 15.34 20.47 23.54 26.30 28.85 32.00 34.27<br />

17 5.697 6.408 7.564 8.672 10.09 12.00 16.34 21.61 24.77 27.59 30.19 33.41 35.72<br />

18 6.265 7.015 8.231 9.390 10.86 12.86 17.34 22.76 25.99 28.87 31.53 34.81 37.16<br />

19 6.844 7.633 8.907 10.12 11.65 13.72 18.34 23.90 27.20 30.14 32.85 36.19 38.58<br />

20 7.434 8.260 9.591 10.85 12.44 14.58 19.34 25.04 28.41 31.41 34.17 37.57 40.00<br />

21 8.034 8.897 10.28 11.59 13.24 15.44 20.34 26.17 29.62 32.67 35.48 38.93 41.40<br />

22 8.643 9.542 10.98 12.34 14.04 16.31 21.34 27.30 30.81 33.92 36.78 40.29 42.80<br />

23 9.260 10.20 11.69 13.09 14.85 17.19 22.34 28.43 32.01 35.17 38.08 41.64 44.18<br />

24 9.886 10.86 12.40 13.85 15.66 18.06 23.34 29.55 33.20 36.42 39.36 42.98 45.56<br />

25 10.52 11.52 13.12 14.61 16.47 18.94 24.34 30.68 34.38 37.65 40.65 44.31 46.93<br />

26 11.16 12.20 13.84 15.38 17.29 19.82 25.34 31.79 35.56 38.89 41.92 45.64 48.29<br />

27 11.81 12.88 14.57 16.15 18.11 20.70 26.34 32.91 36.74 40.11 43.19 46.96 49.64<br />

28 12.46 13.56 15.31 16.93 18.94 21.59 27.34 34.03 37.92 41.34 44.46 48.28 50.99<br />

29 13.12 14.26 16.05 17.71 19.77 22.48 28.34 35.14 39.09 42.56 45.72 49.59 52.34<br />

30 13.79 14.95 16.79 18.49 20.60 23.36 29.34 36.25 40.26 43.77 46.98 50.89 53.67<br />

31 14.46 15.66 17.54 19.28 21.43 24.26 30.34 37.36 41.42 44.99 48.23 52.19 55.00<br />

32 15.13 16.36 18.29 20.07 22.27 25.15 31.34 38.47 42.58 46.19 49.48 53.49 56.33<br />

33 15.82 17.07 19.05 20.87 23.11 26.04 32.34 39.57 43.75 47.40 50.73 54.78 57.65<br />

34 16.50 17.79 19.81 21.66 23.95 26.94 33.34 40.68 44.90 48.60 51.97 56.06 58.96<br />

35 17.19 18.51 20.57 22.47 24.80 27.84 34.34 41.78 46.06 49.80 53.20 57.34 60.27<br />

36 17.89 19.23 21.34 23.27 25.64 28.73 35.34 42.88 47.21 51.00 54.44 58.62 61.58<br />

37 18.59 19.96 22.11 24.07 26.49 29.64 36.34 43.98 48.36 52.19 55.67 59.89 62.88<br />

38 19.29 20.69 22.88 24.88 27.34 30.54 37.34 45.08 49.51 53.38 56.90 61.16 64.18<br />

39 20.00 21.43 23.65 25.70 28.20 31.44 38.34 46.17 50.66 54.57 58.12 62.43 65.48<br />

40 20.71 22.16 24.43 26.51 29.05 32.34 39.34 47.27 51.81 55.76 59.34 63.69 66.77<br />

41 21.42 22.91 25.21 27.33 29.91 33.25 40.34 48.36 52.95 56.94 60.56 64.95 68.05<br />

42 22.14 23.65 26.00 28.14 30.77 34.16 41.34 49.46 54.09 58.12 61.78 66.21 69.34<br />

43 22.86 24.40 26.79 28.96 31.63 35.07 42.34 50.55 55.23 59.30 62.99 67.46 70.62<br />

44 23.58 25.15 27.57 29.79 32.49 35.97 43.34 51.64 56.37 60.48 64.20 68.71 71.89<br />

45 24.31 25.90 28.37 30.61 33.35 36.88 44.34 52.73 57.51 61.66 65.41 69.96 73.17<br />

46 25.04 26.66 29.16 31.44 34.22 37.80 45.34 53.82 58.64 62.83 66.62 71.20 74.44<br />

47 25.77 27.42 29.96 32.27 35.08 38.71 46.34 54.91 59.77 64.00 67.82 72.44 75.70<br />

48 26.51 28.18 30.75 33.10 35.95 39.62 47.34 55.99 60.91 65.17 69.02 73.68 76.97<br />

49 27.25 28.94 31.55 33.93 36.82 40.53 48.33 57.08 62.04 66.34 70.22 74.92 78.23<br />

50 27.99 29.71 32.36 34.76 37.69 41.45 49.33 58.16 63.17 67.50 71.42 76.15 79.49<br />

60 35.53 37.48 40.48 43.19 46.46 50.64 59.33 68.97 74.40 79.08 83.30 88.38 91.95<br />

70 43.28 45.44 48.76 51.74 55.33 59.90 69.33 79.71 85.53 90.53 95.02 100.4 104.2<br />

80 51.17 53.54 57.15 60.39 64.28 69.21 79.33 90.41 96.58 101.9 106.6 112.3 116.3<br />

90 59.20 61.75 65.65 69.13 73.29 78.56 89.33 101.1 107.6 113.1 118.1 124.1 128.3<br />

100 67.33 70.06 74.22 77.93 82.36 87.95 99.33 111.7 118.5 124.3 129.6 135.8 140.2<br />

Ablesebeispiele: P {χ 2 ν ≤ 4.404} = 0.025 = 2.5% ν = 12; .0 4 3927 = .00003927<br />

Asymptotische Formel: χ 2 ν;p ≃ 1 2 (√ 2ν − 1 + u p ) 2 für Freiheitsgrade ν > 100.<br />

χ 2 -Verteilung


11.3. TABELLEN 217<br />

p<br />

ν 0.90 0.95 0.975 0.99 0.995 0.999 0.9995<br />

1 3.078 6.314 12.71 31.82 63.66 318.3 636.6<br />

2 1.886 2.920 4.303 6.965 9.925 22.33 31.60<br />

3 1.638 2.353 3.182 4.541 5.841 10.21 12.92<br />

4 1.533 2.132 2.776 3.747 4.604 7.173 8.610<br />

5 1.476 2.015 2.571 3.365 4.032 5.893 6.869<br />

6 1.440 1.943 2.447 3.143 3.708 5.208 5.959<br />

7 1.415 1.895 2.365 2.998 3.499 4.785 5.408<br />

8 1.397 1.859 2.306 2.896 3.355 4.500 5.041<br />

9 1.383 1.833 2.262 2.821 3.250 4.296 4.781<br />

10 1.372 1.812 2.228 2.764 3.169 4.143 4.587<br />

11 1.363 1.796 2.201 2.718 3.106 4.024 4.437<br />

12 1.356 1.782 2.179 2.681 3.054 3.929 4.318<br />

13 1.350 1.771 2.160 2.650 3.012 3.852 4.221<br />

14 1.345 1.761 2.145 2.624 2.977 3.787 4.140<br />

15 1.341 1.753 2.131 2.602 2.947 3.732 4.073<br />

16 1.337 1.746 2.120 2.583 2.921 3.686 4.015<br />

17 1.333 1.740 2.110 2.567 2.898 3.645 3.965<br />

18 1.330 1.734 2.101 2.552 2.878 3.610 3.922<br />

19 1.328 1.729 2.093 2.539 2.861 3.579 3.883<br />

20 1.325 1.725 2.086 2.528 2.845 3.551 3.849<br />

21 1.323 1.721 2.080 2.518 2.831 3.527 3.819<br />

22 1.321 1.717 2.074 2.508 2.819 3.505 3.792<br />

23 1.319 1.714 2.069 2.500 2.807 3.485 3.768<br />

24 1.318 1.711 2.064 2.492 2.797 3.466 3.745<br />

25 1.316 1.708 2.059 2.485 2.787 3.450 3.725<br />

26 1.315 1.706 2.055 2.479 2.779 3.435 3.707<br />

27 1.314 1.703 2.052 2.473 2.771 3.421 3.689<br />

28 1.313 1.701 2.048 2.467 2.763 3.408 3.674<br />

29 1.311 1.699 2.045 2.462 2.756 3.396 3.659<br />

30 1.310 1.697 2.042 2.457 2.750 3.385 3.646<br />

40 1.303 1.684 2.021 2.423 2.704 3.307 3.551<br />

50 1.299 1.676 2.009 2.403 2.678 3.261 3.496<br />

60 1.296 1.671 2.000 2.390 2.660 3.231 3.460<br />

80 1.292 1.664 1.990 2.374 2.639 3.195 3.416<br />

100 1.290 1.660 1.984 2.364 2.626 3.174 3.390<br />

120 1.289 1.658 1.980 2.358 2.617 3.159 3.373<br />

200 1.286 1.653 1.972 2.345 2.601 3.131 3.340<br />

500 1.283 1.648 1.965 2.334 2.586 3.106 3.310<br />

∞ 1.282 1.645 1.960 2.326 2.576 3.090 3.291<br />

t-Verteilung


218 KAPITEL 11. ANHANG, TABELLEN, APPROXIMATIONEN<br />

f 1<br />

f 2 1 2 3 4 5 6 7 8 9 10 15 20 30 40 50 100 200 500 ∞<br />

1 161 200 216 225 230 234 237 239 241 242 246 248 250 251 252 253 254 254 254<br />

2 18.5 19.0 19.2 19.2 19.3 19.3 19.4 19.4 19.4 19.4 19.4 19.4 19.5 19.5 19.5 19.5 19.5 19.5 19.5<br />

2 18.5 19.0 19.2 19.2 19.3 19.3 19.4 19.4 19.4 19.4 19.4 19.4 19.5 19.5 19.5 19.5 19.5 19.5 19.5<br />

3 10.1 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 8.70 8.66 8.62 8.59 8.58 8.55 8.54 8.53 8.53<br />

4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5.86 5.80 5.75 5.72 5.70 5.66 5.65 5.64 5.63<br />

5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.62 4.56 4.50 4.46 4.44 4.41 4.39 4.37 4.36<br />

6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 3.94 3.87 3.81 3.77 3.75 3.71 3.69 3.68 3.67<br />

7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.51 3.44 3.38 3.34 3.32 3.27 3.25 3.24 3.23<br />

8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35 3.22 3.15 3.08 3.04 3.02 2.97 2.95 2.94 2.93<br />

9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 3.01 2.94 2.86 2.83 2.80 2.76 2.73 2.72 2.71<br />

10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.85 2.77 2.70 2.66 2.64 2.59 2.56 2.55 2.54<br />

11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.85 2.72 2.65 2.57 2.53 2.51 2.46 2.43 2.42 2.40<br />

12 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75 2.62 2.54 2.47 2.43 2.40 2.35 2.32 2.31 2.30<br />

13 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 2.67 2.53 2.46 2.38 2.34 2.31 2.26 2.23 2.22 2.21<br />

14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60 2.46 2.39 2.31 2.27 2.24 2.19 2.16 2.14 2.13<br />

15 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54 2.40 2.33 2.25 2.20 2.18 2.12 2.10 2.08 2.07<br />

16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49 2.35 2.28 2.19 2.15 2.12 2.07 2.04 2.02 2.01<br />

17 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49 2.45 2.31 2.23 2.15 2.10 2.08 2.02 1.99 1.97 1.96<br />

18 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41 2.27 2.19 2.11 2.06 2.04 1.98 1.95 1.93 1.92<br />

19 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42 2.38 2.23 2.16 2.07 2.03 2.00 1.94 1.91 1.89 1.88<br />

20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35 2.20 2.12 2.04 1.99 1.97 1.91 1.88 1.86 1.84<br />

25 4.24 3.39 2.99 2.76 2.60 2.49 2.40 2.34 2.28 2.24 2.09 2.01 1.92 1.87 1.84 1.78 1.75 1.73 1.71<br />

30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.16 2.01 1.93 1.84 1.79 1.76 1.70 1.66 1.64 1.62<br />

40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08 1.92 1.84 1.74 1.69 1.66 1.59 1.55 1.53 1.51<br />

50 4.03 3.18 2.79 2.56 2.40 2.29 2.20 2.13 2.07 2.03 1.87 1.78 1.69 1.63 1.60 1.52 1.48 1.46 1.44<br />

60 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04 1.99 1.84 1.75 1.65 1.59 1.56 1.48 1.44 1.41 1.39<br />

70 3.98 3.13 2.74 2.50 2.35 2.23 2.14 2.07 2.02 1.97 1.81 1.72 1.62 1.57 1.53 1.45 1.40 1.37 1.35<br />

80 3.96 3.11 2.72 2.49 2.33 2.21 2.13 2.06 2.00 1.95 1.79 1.70 1.60 1.54 1.51 1.43 1.38 1.35 1.32<br />

90 3.95 3.10 2.71 2.47 2.32 2.20 2.11 2.04 1.99 1.94 1.78 1.69 1.59 1.53 1.49 1.41 1.36 1.33 1.30<br />

100 3.94 3.09 2.70 2.46 2.31 2.19 2.10 2.03 1.97 1.93 1.77 1.68 1.57 1.52 1.48 1.39 1.34 1.31 1.28<br />

150 3.90 3.06 2.66 2.43 2.27 2.16 2.07 2.00 1.94 1.89 1.73 1.64 1.54 1.48 1.44 1.34 1.29 1.25 1.22<br />

200 3.89 3.04 2.65 2.42 2.26 2.14 2.06 1.98 1.93 1.88 1.72 1.62 1.52 1.46 1.41 1.32 1.26 1.22 1.19<br />

300 3.87 3.03 2.63 2.40 2.24 2.13 2.04 1.97 1.91 1.86 1.70 1.61 1.50 1.43 1.39 1.30 1.23 1.19 1.15<br />

500 3.86 3.01 2.62 2.39 2.23 2.12 2.03 1.96 1.90 1.85 1.69 1.59 1.48 1.42 1.38 1.28 1.21 1.16 1.11<br />

∞ 3.84 3.00 2.60 2.37 2.21 2.10 2.01 1.94 1.88 1.83 1.67 1.57 1.46 1.39 1.35 1.24 1.17 1.11 1.00<br />

95%-Quantile der F-Verteilung<br />

f 1 = m, f 2 = n


11.4. NORMAL- BZW. POISSONAPPROX. DER BINOMIALVERTEILUNG 219<br />

11.4 Approximation der B<strong>in</strong>omial- durch <strong>die</strong><br />

Normal- bzw. Poissonverteilung<br />

Seien n ∈ N, 0 < p < 1 <strong>und</strong> λ = n p <strong>und</strong> weiterh<strong>in</strong><br />

( n<br />

k)<br />

b k,n,p :=<br />

p x (1 − p) n−k , k = 0, 1, . . . , n ,<br />

v k,λ := λk<br />

k! e−λ , k ∈ N 0 ,<br />

⎛<br />

⎞ ⎛<br />

⎞<br />

NV k,n,p = Φ ⎝ k √<br />

+ 0.5 − n p ⎠ − Φ ⎝ k √<br />

− 0.5 − n p ⎠ , Φ(u) = √ 1<br />

n p (1 − p) n p (1 − p)<br />

2π<br />

∫u<br />

−∞<br />

e −t2 /2 dt .<br />

Die Approximationsgüte sowohl der Normal- als auch der Poissonverteilung wächst für<br />

großes n. Die Approximationsgüte der Normalverteilung ist für p ≈ 1/2 am genauesten,<br />

während <strong>die</strong> Poissonapproximation für kle<strong>in</strong>es p <strong>und</strong> kle<strong>in</strong>es k <strong>die</strong> besseren Ergebnisse<br />

liefert. Dies wird durch folgende Abschätzung motiviert:<br />

Für e<strong>in</strong>e beliebige Teilmenge A ⊂ N 0 sowie jedes 0 < p < 1 <strong>und</strong> jedes n ∈ N gilt<br />

∣ ∑<br />

b k,n,p − ∑ ∣∣∣∣∣<br />

v k,np ≤ p .<br />

∣ k∈A k∈A<br />

Vergleich der B<strong>in</strong>omialwahrsche<strong>in</strong>lichkeiten b k,n,p mit der Normalverteilungsapproximation<br />

NV k,n,p bzw. der Näherung v k,np durch <strong>die</strong> Poissonverteilung.<br />

n = 12, p = 0.4, λ = n p = 4.8<br />

B<strong>in</strong>omial Normal Poisson<br />

k b k,n,p NV k,n,p |b k,n,p − NV k,n,p | v k,np |b k,n,p − v k,np |<br />

0 0.0022 0.0047 0.0026 0.0082 0.0061<br />

1 0.0174 0.0203 0.0029 0.0395 0.0221<br />

2 0.0639 0.0617 0.0021 0.0948 0.0310<br />

3 0.1419 0.1342 0.0077 0.1517 0.0098<br />

4 0.2128 0.2080 0.0048 0.1820 0.0308<br />

5 0.2270 0.2302 0.0031 0.1747 0.0523<br />

6 0.1766 0.1818 0.0052 0.1398 0.0368<br />

n = 50, p = 0.01, λ = n p = 0.5<br />

B<strong>in</strong>omial Normal Poisson<br />

k b k,n,p NV k,n,p |b k,n,p − NV k,n,p | v k,np |b k,n,p − v k,np |<br />

0 0.6050 0.4224 0.1826 0.6065 0.0015<br />

1 0.3056 0.4224 0.1168 0.3033 0.0023<br />

2 0.0756 0.0754 0.0002 0.0758 0.0002<br />

3 0.0122 0.0022 0.0100 0.0126 0.0004<br />

4 0.0015 0.0000 0.0014 0.0016 0.0001<br />

5 0.0001 0.0000 0.0001 0.0001 0.0000


Literaturverzeichnis<br />

[Becker (1993)] B.: <strong>Statistik</strong>. Oldenbourg, München.<br />

[Chatterjee et al. (1995)] Chatterjee S., Handcock M.S. and Simonoff J.S.: A Casebook<br />

for a First Course <strong>in</strong> Statistics and Data Analysis. Wiley, New York.<br />

[Chung (1979)] K.L.: Elementary Probability Theory with Stochastic Processes, 3rd<br />

Edition. Spr<strong>in</strong>ger, New York.<br />

[Chung (1974)] K.L.: A Course <strong>in</strong> Probability Theory, 2nd ed. Academic Press, New<br />

York.<br />

[Dufner et al. (1992)] Dufner J., Jensen U. <strong>und</strong> Schumacher E.: <strong>Statistik</strong> mit SAS.<br />

Teubner, Stuttgart.<br />

[Embrechts & Klüppelberg & Mikosch (1997)] Embrechts P., Klüppelberg C. and Mikosch<br />

T.: Modell<strong>in</strong>g Extremal Events for Insurance and F<strong>in</strong>ance. Spr<strong>in</strong>ger, Berl<strong>in</strong>.<br />

[Fahrmeir et al. (1997)] Fahrmeir L., Künstler R., Pigeot I. <strong>und</strong> Tutz G.: <strong>Statistik</strong>. Der<br />

Weg zur Datenanalyse. Spr<strong>in</strong>ger, Berl<strong>in</strong>.<br />

[Falk et al. (1995)] Falk M., Becker R. <strong>und</strong> Mahrohn F.: Angewandte <strong>Statistik</strong> mit<br />

SAS. Spr<strong>in</strong>ger, Berl<strong>in</strong>.<br />

[Fahrmeir et al. (1996)] Fahrmeir. L, Hamerle A. <strong>und</strong> Tutz G. (Hrsg.): Multivariate<br />

statistische Verfahren, 2., erweiterte Auflage. De Gruyter, Berl<strong>in</strong>.<br />

[Hartung (1982)] J.: <strong>Statistik</strong>. Lehr- <strong>und</strong> Handbuch der angewandten <strong>Statistik</strong>. Oldenbourg,<br />

München.<br />

[He<strong>in</strong>hold & Gaede (1979)] He<strong>in</strong>hold, J. <strong>und</strong> Gaede, K.-W.: Ingenieur-<strong>Statistik</strong>, 2.<br />

Auflage. Oldenbourg, München.<br />

[Henze (1997)] N.: Stochastik für E<strong>in</strong>steiger. Vieweg, Braunschweig.<br />

[Isaac (1995)] R.: The Pleasures of Probability. Spr<strong>in</strong>ger, New York.<br />

[Johnson & Kotz (1970)] Johnson, N.L and Kotz, S.: Cont<strong>in</strong>uous Univariate Distributions.<br />

Wiley, Boston.<br />

[Kredler & Ritter (1995)] Kredler Ch. <strong>und</strong> Ritter K.: <strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Statistik</strong>.<br />

Schriftenreihe des Inst. f. Angewandte Mathematik <strong>und</strong> <strong>Statistik</strong> Nr. 4, TU<br />

München.<br />

220


LITERATURVERZEICHNIS 221<br />

[Krengel (1988)] U.: <strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> Wahrsche<strong>in</strong>lichkeitstheorie <strong>und</strong> <strong>Statistik</strong>, Vieweg,<br />

Braunschweig.<br />

[Lehn & Wegmann (1992)] Lehn, J. <strong>und</strong> Wegmann, H.: <strong>E<strong>in</strong>führung</strong> <strong>in</strong> <strong>die</strong> <strong>Statistik</strong>, 2.<br />

Auflage. Teubner, Stuttgart.<br />

[Müller (1975)] P.H. (Hrsg.): Lexikon der Stochastik, 2. Auflage. Akademie Verlag,<br />

Berl<strong>in</strong>.<br />

[Pfanzagl (1988)] J.: Elementare Wahrsche<strong>in</strong>lichkeitsrechnung. De Gruyter, Berl<strong>in</strong>.<br />

[Resnick (1994)] S.: Adventures <strong>in</strong> Stochastic Processes, 2nd Edition. Birkhäuser, Boston.<br />

[Ross (1972)] S.M.: Introduction to Probability Models. Academic Press, New York.<br />

[Sachs (1984)] L.: Angewandte <strong>Statistik</strong>. Spr<strong>in</strong>ger, Berl<strong>in</strong>.<br />

[Seber (1977)] G.A.F.: L<strong>in</strong>ear Regression Analysis. Wiley, New York.<br />

[Stirzaker (1994)] D.: Elementary Probability. Cambridge University Press, Cambridge.<br />

[Stoyan (1993)] D.: Stochastik für Ingenieure <strong>und</strong> Naturwissenschaftler. Akademie Verlag,<br />

Berl<strong>in</strong>.<br />

[Williams (1991)] D.: Probability with Mart<strong>in</strong>gales. Cambridge University Press. Cambridge.<br />

[Witt<strong>in</strong>g (1985)] H.: Mathematische <strong>Statistik</strong> 1. Teubner, Stuttgart.


Index<br />

1 A , 25<br />

A c , 2<br />

B(n, p), 109, 110<br />

CV , 138<br />

Cov(X, Y ), 55<br />

D 2 (X), 38<br />

E(X), 36, 55<br />

ED(λ), 27, 113<br />

F (−∞), 22<br />

F (∞), 22<br />

F X1 ,...,X n<br />

, 47<br />

H(n, N, M), 110<br />

IQR, 137, 154<br />

empirisch, 137<br />

M(n, π), 111<br />

P oi(λ), 20, 109<br />

Q 0 , Q 1 , . . ., 154–156<br />

Q 1 , Q 3 , 30, 154, 207<br />

empirisch, 133<br />

Q 2 , 30, 133, 154, 207<br />

S 2 , 62, 66, 159<br />

T n , 160<br />

V ar(X), 38<br />

W (r, λ), 118<br />

X (k) , 79<br />

X k:n , 79<br />

¯F , 21, 27, 113<br />

N 0 , 1<br />

Φ, 98<br />

¯X n , 62, 66, 159, 160<br />

P, 3<br />

det(C), 119<br />

ɛ, 134<br />

ŷ i , 145<br />

∞, 123, 131<br />

det(C), 50<br />

µ, 26, 36, 207<br />

ρ(X, Y ), 56<br />

σ, 37, 207<br />

σ 2 , 37, 207<br />

∼, 25, 29<br />

τ, 207<br />

T , 46<br />

dF (x) , 41<br />

n!, 8<br />

s, s x , 136<br />

s 2 , 136<br />

s L , 137<br />

x T , 50, 119<br />

x p , 30<br />

x (1) , 133<br />

x (n) , 133<br />

x 0.5 , 134<br />

x 1:n , 133<br />

x α , 133<br />

( x n:n ) , 133<br />

n<br />

k , 8<br />

F, 3<br />

E(X | Y ), 76<br />

d<br />

Y n −→ Y , 97<br />

P<br />

−→ Y , 95<br />

f.s.<br />

−→ Y , 96<br />

Y n<br />

Y n<br />

Φ, 27, 214<br />

Approximation, 214<br />

Tabelle, 215<br />

Φ −1 , 214<br />

χ 2 -Verteilung, 168, 216<br />

Tabelle, 216<br />

σ-Algebra, 3<br />

σ-field, 3<br />

ϕ, 27<br />

f X, Y 74<br />

Übergangszeit, 106<br />

Überlebenswahrsche<strong>in</strong>lichkeit, 21, 27, 113<br />

Überschreitungswahrsche<strong>in</strong>lichkeit, 187<br />

λ p , 166<br />

τ , 208–210<br />

222


INDEX 223<br />

¯X n , 170<br />

IQR<br />

empirisch , 154<br />

IQR , 209, 210<br />

S 2 , 170<br />

u p , 165, 166<br />

a.e. (almost everywhere), 96<br />

Abhängigkeit<br />

l<strong>in</strong>eare, 150<br />

absolute Häufigkeit, 126<br />

absolute Momente, 42<br />

Abstandsquadrate, 145<br />

Abweichung<br />

mittlere l<strong>in</strong>eare, 137<br />

mittlere quadratische, 38, 136<br />

Achsenabschnitt, 144<br />

Additionssatz, 6<br />

Algebra<br />

σ−, 4<br />

Borel–σ−, 4<br />

Alternative, 174<br />

Annahmebereich, 175<br />

arithmetic mean, 135<br />

arithmetisches Mittel, 135, 136<br />

Ausreißer, 134, 135, 137, 207<br />

Axiome von Kolmogorov, 4<br />

Balkendiagramm, 126<br />

Bandbreite, 197<br />

bandwidth, 197<br />

Bayes, 11<br />

bed<strong>in</strong>gte Erwartung, 73, 76, 77<br />

L 2 -Approximation, 78<br />

Projektionseigenschaft, 78<br />

bed<strong>in</strong>gte Normalverteilung, 75<br />

bed<strong>in</strong>gte Verteilung, 74<br />

bed<strong>in</strong>gte Wahrsche<strong>in</strong>lichkeit, 10<br />

bed<strong>in</strong>gter Erwartungswert, 72<br />

Beispiele<br />

diskreter ZV, 39, 109<br />

stetiger ZV, 39, 112<br />

Bereichsschätzung, 172<br />

Bernoulli, 7<br />

Bernoulli Walk, 101<br />

Bernoulli-Variable, 39<br />

Bernoullisches Experiment, 19<br />

Bestimmtheitsmaß, 147<br />

Betaverteilung, 170<br />

Beton, 184, 185<br />

Bias, 159<br />

B<strong>in</strong>omialkoeffizient, 8<br />

B<strong>in</strong>omialverteilung, 19, 39, 98, 99, 109,<br />

219<br />

Approx.d.Normalvert., 98<br />

Approx.d.Poisson-Vert., 99<br />

erzeugende Funktion, 84, 109<br />

EW, Varianz, 39, 109<br />

ML-Schätzer, 163<br />

MV-Schätzer, 161<br />

Summe von ZV, 70, 86<br />

bivariate Normalverteilung, 119<br />

BLUE-Schätzer, 161<br />

Boole’s <strong>in</strong>equalities, 6<br />

Borel–σ–Algebra, 4<br />

Box-Plot, 155, 156, 209, 210<br />

Breakdownpo<strong>in</strong>t, 134<br />

Cauchy-Verteilung, 39, 40, 70, 169<br />

charakteristische Funktion, 87<br />

coefficient of variation, 43, 138<br />

conditional probability, 10<br />

condition<strong>in</strong>g, 11<br />

consistent, 160<br />

convolution, 85<br />

cumulants, 44, 91<br />

Daten, 125, 178<br />

gruppiert, 140<br />

Daten-Matrix, 194<br />

Datenbank, 124<br />

de Moivre-Laplace, 97<br />

de Morgan, 3<br />

density, 23<br />

Design-Matrix, 194<br />

Determ<strong>in</strong>ante, 50, 119<br />

Diätkur, 182<br />

Diagramm<br />

Balken-, 126<br />

Kreissektoren-, 126<br />

räumliches Säulen-, 126<br />

Säulen-, 126<br />

Streu-, 142<br />

Torten-, 126


224 INDEX<br />

Dichte, 23<br />

der Cauchyverteilung, 116<br />

der Erlangverteilung, 115<br />

der Exponentialverteilung, 27, 113<br />

der Gammaverteilung, 28, 115<br />

der Logistischen Verteilung, 116<br />

der Lognormalverteilung, 34, 117<br />

der Normalverteilung, 112, 119, 165,<br />

207<br />

der Pareto-Verteilung, 116<br />

der Rechteckverteilung, 26, 113<br />

der Standardnormalverteilung, 27<br />

der Weibull-Verteilung, 118<br />

empirisch, 131<br />

n-dim., 49<br />

Transformationssatz, 63<br />

Wahrsche<strong>in</strong>lichkeits-, 23<br />

Dichtefunktion, 23<br />

empirisch, 130<br />

disjunkt, 2<br />

diskret, 18, 47<br />

Merkmal, 122, 125<br />

diskrete Gleichverteilung, 74<br />

distribution, 17, 18, 46, 48<br />

distribution function, 21<br />

n-dim., 47<br />

Dreiecks-Kern, 199<br />

Drift, 105<br />

Druckfestigkeit, 184, 185<br />

duration of the game, 106<br />

Durchschnitt, 135<br />

Eigenwert-Eigenvektorzerlegung, 65<br />

e<strong>in</strong>fache Irrfahrt, 15, 101<br />

E<strong>in</strong>flussgröße, 195<br />

E<strong>in</strong>stichproben t-Test, 181<br />

Element, 121<br />

Elementarereignis, 2<br />

empirisch<br />

Exzess, 139<br />

IQR, 137<br />

Median, 134<br />

Quantil, 133<br />

Quartil, 133<br />

Schiefe, 139<br />

empirische<br />

Dichtefunktion, 130, 131<br />

Kovarianz, 142<br />

Regression, 142<br />

Regressionsgerade, 145<br />

Stichprobe, 125<br />

Varianz, 136, 142<br />

Verteilungsfunktion, 128, 132<br />

Epanechnikov-Kern, 198<br />

Ereignis, 2<br />

Elementar-, 2<br />

sicheres, 2<br />

unabhängiges, 12<br />

Ergebnis, 1<br />

Ergebnismenge, 1<br />

Erlangverteilung, 89, 115<br />

Summe von ZV, 89, 115<br />

erwartungstreu, 159<br />

Erwartungswert, 36, 37<br />

bed<strong>in</strong>gt bzgl. B, 72<br />

e<strong>in</strong>er diskreten ZV, 36<br />

e<strong>in</strong>er stetigen ZV, 36<br />

n-dim., 54<br />

Vektor, 57<br />

erzeugende Funktion, 83, 84<br />

Summen, 86<br />

estimator, 159<br />

consistent, 160<br />

unbiased, 159<br />

event space, 3<br />

EW, 36<br />

n-dim., 54, 55<br />

Excel, 154<br />

Analyse-Funktionen, 154<br />

Extras, 154<br />

Histogramm, 154<br />

Mittelwerte, 154<br />

Populationskenngrößen, 154<br />

Streudiagramm, 154<br />

Exponentialfamilie, 111<br />

Exponentialverteilung, 27, 40, 89, 113<br />

EW, Varianz, 39, 113<br />

Kumulanten, 45<br />

ML-Schätzer, 163<br />

momenterzeugende Fkt, 88, 113<br />

MV-Schätzer, 161<br />

Summe von ZV, 70, 89, 113<br />

Exzess, 43, 139, 154–156


INDEX 225<br />

F-Test<br />

Zweistichproben, 185, 186<br />

F-Verteilung, 218<br />

Tabelle, 218<br />

f.s. (fast sicher), 96, 98, 196<br />

Faltung, 68, 85<br />

fast sichere Konvergenz, 96<br />

Fehler 1. Art, 175<br />

Fehler 2. Art, 175, 176<br />

Fehlerquadratsumme, 145<br />

Fermat, 7<br />

Fisher-Verteilung, 170<br />

Fouriertransformierte, 87<br />

Freiheitsgrad, 179, 180<br />

function<br />

distribution, 21, 47<br />

Funktion<br />

Gamma-, 28, 115<br />

Wahrsche<strong>in</strong>lichkeits-, 18, 48<br />

Galton, 142<br />

gambler’s ru<strong>in</strong>, 13<br />

Gammafunktion, 28, 115<br />

Gammaverteilung, 40, 89, 115<br />

EW, Varianz, 39, 115<br />

Kumulanten, 45<br />

Momente, 45, 115<br />

momenterzeugende Fkt, 88, 115<br />

Summe von ZV, 70, 89, 115<br />

Gauß<br />

Dichte, 207<br />

Glockenkurve, 207<br />

Verteilung, 207<br />

Gaußsche Glockenkurve, 27<br />

Gaußverteilung, 26, 112, 165<br />

Gegenhypothese, 174<br />

generat<strong>in</strong>g function, 83, 84, 86<br />

moments, 87<br />

of the cumulants, 90<br />

Geometrische Verteilung, 21, 39, 110<br />

EW, Varianz, 110<br />

erzeugende Funktion, 84, 110<br />

Gesetz der großen Zahlen, 92<br />

schwach, 95<br />

stark, 96<br />

gestutztes Mittel, 138<br />

getrimmtes Mittel, 138<br />

Gleichverteilung, 26, 40, 113<br />

diskret, 74<br />

EW, Varianz, 39, 113<br />

Kumulanten, 45<br />

ML-Schätzer, 163<br />

momenterzeugende Fkt, 88, 113<br />

MV-Schätzer, 161<br />

zentrale Momente, 45, 113<br />

Glivenko-Cantelli, 98, 196<br />

Gr<strong>und</strong>gesamtheit, 121<br />

Gr<strong>und</strong>problem der <strong>Statistik</strong>, 158<br />

gruppierte Daten<br />

Mittelwert <strong>und</strong> Streuung, 140<br />

Häufigkeit<br />

absolut, 126, 127<br />

kumuliert, 126, 127<br />

Rechenregeln, 127<br />

relativ, 126, 127<br />

relative Summen-, 126<br />

Hauptsatz der Differential- <strong>und</strong> Integralrechnung,<br />

23<br />

heavy tails, 205<br />

Histogramm, 130, 131<br />

hitt<strong>in</strong>g time, 106<br />

hochsignifikant, 184<br />

von µ 0 verschieden, 181<br />

Hypergeometrische Verteilung, 110<br />

EW, Varianz, 110<br />

Hypothese, 174<br />

identically distributed, 25<br />

identisch verteilt, 25<br />

iid, 61, 101, 125, 158<br />

Indikatorfunktion, 25, 128<br />

<strong>in</strong>ter quartile range, 30, 137<br />

Interquartilsabstand, 137<br />

Intervallskala, 123<br />

IQR, 30, 154, 207<br />

Irrfahrt<br />

e<strong>in</strong>fach, 101<br />

kard<strong>in</strong>al, 123<br />

Kern, 197<br />

Dreieck, 199<br />

Epanechnikov, 198<br />

Normalverteilungs, 199


226 INDEX<br />

Rechteck, 199<br />

Kerndichteschätzer, 197, 198<br />

Kernschätzer, 197<br />

Klassenbildung<br />

Regeln zur, 129<br />

Klassenbreite, 130<br />

Kle<strong>in</strong>st-Quadrat-Methode, 144, 162<br />

Kolmogorov, 4<br />

Komb<strong>in</strong>ationen<br />

ohne Wiederholung, 8<br />

Konfidenz<strong>in</strong>tervall, 178<br />

α <strong>und</strong> β; e<strong>in</strong>f. l<strong>in</strong>. Regr., 190<br />

95%-, 193<br />

EW; e<strong>in</strong>f. l<strong>in</strong>. Regr., 191<br />

für µ , 172, 179<br />

Prognose; e<strong>in</strong>f. l<strong>in</strong>. Regr., 191<br />

Realisierung, 172<br />

Konfidenzniveau, 191<br />

konsistent, 160<br />

Konvergenz<br />

fast sicher, 96<br />

<strong>in</strong> Verteilung, 97<br />

<strong>in</strong> Wahrsche<strong>in</strong>lichkeit, 95, 160<br />

mit Wkt 1, 96<br />

schwach, 97<br />

stark, 96<br />

stochastisch, 95, 160<br />

Korrelationskoeffizient, 56<br />

empirischer, 143<br />

Kovarianz, 55<br />

empirische, 142<br />

Vektor, 58<br />

Kovarianzmatrix, 50, 55, 57, 58<br />

KQ<br />

-Gerade, 144<br />

-Methode, 144, 162<br />

-Schätzung, 145<br />

Kreissektorendiagramm, 126<br />

kritischer Bereich, 174, 175<br />

bei zweiseitigem Test, 178<br />

Konstruktion, 175<br />

Kumulanten, 44<br />

Normalverteilung, 91, 112<br />

Poisson-Verteilung, 91, 109<br />

Kumulantenfunktion, 90<br />

kurtosis, 43, 139, 154–156<br />

Lageparameter, 30, 36, 132<br />

Laplace, 7<br />

Laplace-Annahme, 7<br />

Laplace-Raum, 7<br />

Lebensdauer, 27, 40, 113<br />

Lemma<br />

Glivenko-Cantelli, 98, 196<br />

Likelihoodfunktion, 162<br />

L<strong>in</strong>eare Prognose, 78<br />

L 2 -Approximation, 78<br />

2-dim. Normalverteilung, 78<br />

l<strong>in</strong>eare Regression, 142<br />

l<strong>in</strong>eare Transformation, 65<br />

Log-Likelihoodfunktion, 162<br />

logarithmischer Maßstab, 130<br />

Logarithmustransformation, 187<br />

Logistische Verteilung, 116<br />

Lognormalverteilung, 34, 40, 117<br />

EW, Varianz, 39, 117<br />

Lokationsmaße, 132<br />

marg<strong>in</strong>al distribution, 51<br />

Massenersche<strong>in</strong>ungen, 120<br />

matched pairs, 181<br />

mathematische Stichprobe, 159<br />

Maximum<br />

von gleichverteilten ZV, 71<br />

von ZV (allgeme<strong>in</strong>), 70<br />

Maximum-Likelihood-Methode, 162<br />

Maßzahl<br />

statistische, 132<br />

mean<br />

arithmetic, 135<br />

Median, 30, 134, 154–156, 209, 210<br />

empirisch, 134<br />

Menge, 121<br />

Merkmal, 1, 122<br />

Ausprägung, 121<br />

diskret, 122, 123, 125<br />

kard<strong>in</strong>al, 123<br />

metrisch, 123, 126, 132, 134–137, 140<br />

nom<strong>in</strong>al, 123, 125, 132<br />

ord<strong>in</strong>al, 123, 126, 132, 134, 135, 137<br />

qualitativ, 122<br />

quantitativ, 122<br />

Spannweite, 135<br />

stetig, 122, 129


INDEX 227<br />

Variationsbreite, 135<br />

messbar, 32<br />

Messreihe, 125<br />

Methode<br />

der kle<strong>in</strong>sten Quadrate, 144, 162<br />

KQ, 144, 162<br />

Maximum-Likelihood, 162<br />

ML, 162<br />

Momenten-, 162<br />

metrisch, 123, 126, 132, 134–137, 140<br />

M<strong>in</strong>imum<br />

von exponentialverteilten ZV, 71<br />

von ZV (allgeme<strong>in</strong>), 70<br />

Mittel, 62, 142<br />

arithmetisch, 135, 136<br />

gestutzt, 138<br />

getrimmt, 138<br />

gruppierte Daten, 140<br />

Median, 134, 136<br />

Modalwert, 132<br />

Modus, 132<br />

mittlere l<strong>in</strong>eare Streuung, 137<br />

ML-Methode, 162<br />

ML-Schätzer<br />

B<strong>in</strong>omialverteilung, 163<br />

Exponentialverteilung, 163<br />

Gleichverteilung, 163<br />

Normalverteilung, 163<br />

Poisson-Verteilung, 163<br />

Modalwert, 30, 132<br />

Modus, 30, 132<br />

moment generat<strong>in</strong>g function, 87, 88<br />

Momente, 42<br />

absolut, 42<br />

Existenz, 43<br />

zentrale, 42<br />

Momentenmethode, 162<br />

momenterzeugende Funktion, 87<br />

Summen, 88<br />

Monotonie, 131<br />

Mult<strong>in</strong>omialverteilung, 111<br />

EW, Kovarianz, 111<br />

Multiplikationsregel d.Komb<strong>in</strong>atorik, 7<br />

MV-Schätzer, 161<br />

B<strong>in</strong>omialverteilung, 161<br />

Exponentialverteilung, 161<br />

Gleichverteilung, 161<br />

Normalverteilung, 161<br />

Poisson-Verteilung, 161<br />

Nadeln <strong>in</strong> Box-Plot, 209<br />

negative B<strong>in</strong>omialverteilung, 110<br />

EW, Varianz, 110<br />

nichtl<strong>in</strong>earer Zusammenhang, 151<br />

nom<strong>in</strong>al, 123, 125, 132<br />

Normalgleichungen, 194<br />

Normalverteilung, 26, 39, 89, 112, 165,<br />

207<br />

σ, 207<br />

2-dim., 50, 57<br />

bed<strong>in</strong>gt, 75<br />

EW, Varianz, 39, 112<br />

Exzess, 43<br />

IQR, 207, 208<br />

Kumulanten, 44, 45, 91, 112, 165<br />

logarithmische, 34, 40, 117<br />

ML-Schätzer, 163<br />

momenterzeugende Fkt, 88, 112<br />

MV-Schätzer für µ, 161<br />

MV-Schätzer für σ 2 , 161<br />

n-dim., 50, 119<br />

Quantil, 112, 165–167, 207, 208<br />

Quartil, 207<br />

Schiefe, 43<br />

Standard-, 26, 98, 112<br />

Summe von ZV, 69, 70, 89, 112, 165<br />

Tabelle, 215<br />

zentrale Momente, 45, 112<br />

zweidim., 119<br />

Normalverteilungs-Kern, 199<br />

Nullhypothese, 174<br />

Nullmenge, 76<br />

order statistics, 79<br />

ord<strong>in</strong>al, 123, 126, 132, 134, 135, 137<br />

Ordnungsstatistiken, 79<br />

Dichte, 80<br />

Gleichverteilung, 80<br />

Randverteilung, 80<br />

p-Quantil, 30<br />

der t-Verteilung, 179<br />

p-value, 187


228 INDEX<br />

p-Wert, 187<br />

Parameter<br />

Lage, 36<br />

Streuung, 38<br />

Parameterraum, 101<br />

Pareto-Verteilung, 40, 116<br />

EW, Varianz, 39, 116<br />

Pascal, 7<br />

passage time, 106<br />

Passierzeit, 106<br />

Permutation, 8<br />

Pfad, 15, 101<br />

Pictogramm, 126<br />

Poisson-Verteilung, 20, 39, 99, 109, 219<br />

Approx.d.Normalvert., 98<br />

erzeugende Funktion, 84, 109<br />

EW, Varianz, 39, 109<br />

Kumulanten, 45, 91, 109<br />

ML-Schätzer, 163<br />

momenterzeugende Fkt, 88, 89, 109<br />

MV-Schätzer, 161<br />

Summe von ZV, 70, 85, 86<br />

Polarkoord<strong>in</strong>aten, 63<br />

Population, 1, 121<br />

Porosität von Sandste<strong>in</strong>, 173, 179<br />

positiv def<strong>in</strong>it, 50, 65, 119<br />

probability<br />

conditional, 10<br />

total, 11<br />

probability mass function, 18<br />

2-dim., 48<br />

Prognose, 144, 150<br />

l<strong>in</strong>ear, 78<br />

Prognose<strong>in</strong>tervall, 191<br />

Programme<br />

<strong>Statistik</strong>, 154<br />

Prozentpunkt, 29, 132<br />

Punktewolke, 142<br />

QQ-Plot, 158, 203<br />

Quantil, 27, 29<br />

Approximation von u p , 214<br />

der χ 2 -Verteilung, 216<br />

der F-Verteilung, 218<br />

der t-Verteilung, 179, 217<br />

empirisch, 132, 133<br />

Normalverteilung, 30, 166, 167, 207,<br />

208<br />

symmetrisch, 166, 167, 208<br />

quantile, 29<br />

quantile-quantile plot, 203<br />

Quantilfunktion, 29, 201<br />

Quartil, 30, 154–156, 207, 208<br />

empirisch, 133<br />

Normalverteilung, 207<br />

Rückkehr zur 0, 106<br />

Rückkehrzeit, 106<br />

random variable, 17<br />

random vector, 46<br />

Random Walk, 15, 101, 102<br />

simple, 101<br />

symmetrisch, 101<br />

Randverteilung, 51, 59<br />

diskret, 51<br />

stetig, 51<br />

range, 135<br />

Realisierung, 17, 46<br />

e<strong>in</strong>es Vertrauens<strong>in</strong>tervalls, 172<br />

Rechenregeln<br />

für Erwartungswerte, 37<br />

für Streuungen, 38<br />

Rechtecks-Kern, 199<br />

Rechteckverteilung, 26, 40, 113<br />

IQR, 208<br />

recurrence, 106<br />

recurrence time, 106<br />

Reduktionslage, 129<br />

Regelfunktion, 23<br />

Regeln<br />

zur Klassenbildung, 129<br />

Regression<br />

e<strong>in</strong>fach l<strong>in</strong>ear, 189<br />

e<strong>in</strong>fach l<strong>in</strong>ear emp., 142<br />

empirisch, 142<br />

multiple, 193<br />

nichtl<strong>in</strong>ear, 151<br />

schrittweise, 195<br />

Regressionsgerade<br />

empirische, 145<br />

Regressionskoeffizient, 189<br />

Regressionstrompete, 193<br />

Regressor, 195


INDEX 229<br />

-Variable, 194<br />

Rekurrenzzeit, 106<br />

relative<br />

Häufigkeit, 126, 127<br />

Summenhäufigkeit, 126<br />

Summenhäufigkeitsfunktion, 127<br />

Riemann-Stieltjes-Integral, 41<br />

robust, 134, 137<br />

Ru<strong>in</strong> des Spielers, 13, 101, 103, 105<br />

Spieldauer, 106<br />

S-Plus, 154<br />

Säulendiagramm, 126<br />

raumlich, 126<br />

Saison, 148<br />

sample space, 1<br />

SAS, 154–156, 188<br />

Satz<br />

der totalen Wkt., 11<br />

Glivenko-Cantelli, 98, 196<br />

von Bayes, 11<br />

von Tschebyschov, 95<br />

Zentraler Grenzwert-, 97<br />

Scatterplot, 142<br />

Schädl<strong>in</strong>gsbekämpfungsmittel, 152<br />

Schätzer, 159, 197<br />

erwartungstreu, 159<br />

konsistent, 160<br />

m<strong>in</strong>imaler Varianz, 161<br />

MV, 161<br />

unverzerrter, 159<br />

Schätzfunktion, 158, 159, 175, 197<br />

Konstruktion, 161<br />

m<strong>in</strong>imaler Varianz, 160<br />

MV-, 160<br />

wirksamste, 160<br />

Schätzung, 189<br />

Schiefe (skewness), 43, 139, 154–156<br />

schwache Konvergenz, 97<br />

schwaches Gesetz der großen Zahlen, 95<br />

Semiquartilsabstand, 155, 156, 208<br />

Sicherheitswahrsche<strong>in</strong>lichkeit, 174<br />

signifikant<br />

von µ 0 verschieden, 181<br />

Signifikanz-Test, 190, 195<br />

Signifikanzniveau, 174<br />

s<strong>in</strong>gleton, 2<br />

Skala<br />

Intervall-, 123<br />

nom<strong>in</strong>al, 123<br />

ord<strong>in</strong>al, 123<br />

skewness, 43, 139, 154–156<br />

Spektralzerlegung, 65<br />

Spieldauer, 103, 106<br />

SPSS, 154<br />

standard deviation, 136<br />

Standardabweichung, 38, 62, 155, 156<br />

empirisch, 136<br />

gruppierte Daten, 140<br />

Standardisierung, 39<br />

Standardnormalverteilung, 26, 27, 98, 112,<br />

165<br />

Approximation, 214<br />

Tabelle, 215<br />

starke Konvergenz, 96<br />

starkes Gesetz der großen Zahlen, 96<br />

<strong>Statistik</strong>, 120, 158, 159<br />

beschreibend, 121<br />

Datenerfassung, 120<br />

Datenprasentation, 120<br />

Datenverarbeitung, 120<br />

Def<strong>in</strong>ition, 120, 158, 159<br />

deskriptiv, 120, 121<br />

empirisch, 121<br />

grafische Darstellung, 120<br />

<strong>in</strong>duktiv, 121<br />

Massenersche<strong>in</strong>ung, 120<br />

Merkmalsausprägung, 121<br />

schließend, 121<br />

<strong>Statistik</strong>-Programme, 154<br />

Steigung, 144<br />

Sterbetafel, 120<br />

stetig, 49<br />

Merkmal, 122, 123, 129<br />

Stetigkeitssatz, 7<br />

Stichprobe, 125, 129, 196<br />

empirisch, 196<br />

geordnet, 133<br />

iid, 61, 196<br />

mathematisch, 61, 159<br />

Ziehen mit Zurücklegen, 8<br />

Ziehen ohne Zurücklegen, 9, 110<br />

Stichprobenmittel, 62, 170


230 INDEX<br />

Stichprobenraum, 1<br />

Stichprobenumfang, 159<br />

bei Normalverteilung, 173<br />

bei t-Verteilung, 179<br />

notwendiger, 173<br />

Stichprobenvarianz, 170<br />

stochastische Konvergenz, 95, 160<br />

stochastischer Prozeß, 101<br />

Stoppzeit, 107<br />

Streudiagramm, 142<br />

Streuung, 38<br />

des Fehlers, 146<br />

empirisch, 142<br />

gruppierte Daten, 140<br />

mittlere l<strong>in</strong>eare, 137<br />

mittlere quadratische, 136<br />

Streuungsparameter, 38, 132<br />

Student’s t-Test, 181<br />

Student-Verteilung, 169, 179<br />

Summe von Zufallsvariablen, 68, 85, 88<br />

Summenhäufigkeit, 126<br />

Summenhäufigkeitsfunktion<br />

empirisch, 132<br />

symmetrisch, 50, 65, 119<br />

t-Test, 181<br />

σ 2 unbekannt, 178<br />

verb<strong>und</strong>ener Stichproben, 181<br />

zum Vergleich von Mittelwerten, 183<br />

Zweistichproben, 183, 186<br />

t-Verteilung, 169, 179<br />

Tabelle, 217<br />

Tafel<br />

der χ 2 -Verteilung, 216<br />

der F-Verteilung, 218<br />

der Standardnormalverteilung, 215<br />

der t-Verteilung, 217<br />

tail probability, 21, 27, 28, 113<br />

Teilerhebung, 124<br />

Test<br />

σ 2 bekannt, 174<br />

e<strong>in</strong>seitiger, 174<br />

Signifikanz-, 190, 195<br />

<strong>Statistik</strong>, 175, 181, 182, 187<br />

statistischer, 174<br />

Wilcoxon, 187<br />

zweiseitiger, 178<br />

Tests<br />

für µ, σ 2 bekannt, 173<br />

Teststatistik, 175, 181, 182, 187<br />

Tortendiagramm, 126<br />

total probability, 11<br />

totale Wahrsche<strong>in</strong>lichkeit, 11<br />

Transformation, 151<br />

l<strong>in</strong>ear, 32, 65<br />

Logarithmus, 187<br />

Maximum, 32<br />

M<strong>in</strong>imum, 32<br />

quadratisch, 32<br />

varianzstabilisierend, 187<br />

Wurzel, 187<br />

Transformationsregel für Polarkoord<strong>in</strong>aten,<br />

63<br />

Transformationssatz für Dichten, 63<br />

Transposition, 50, 119<br />

Trendgerade, 148<br />

Tschebyscheff, 94<br />

Tschebyschov<br />

Satz von, 95<br />

Ungleichung, 94<br />

unabhängig, 12<br />

Funktionen von ZV, 61<br />

unkorreliert, 61<br />

ZV, 59<br />

unabhängig identisch verteilt, 61, 101<br />

Unabhängigkeit, 10<br />

von ZV, 59<br />

unbiased, 159<br />

Ungleichung<br />

-en von Boole, 6<br />

Basis, 93<br />

Jensen, 92<br />

Markov, 93<br />

Tschebyschov, 93, 94<br />

uniform distribution, 26, 113<br />

unkorreliert, 55<br />

unabhängig, 61<br />

unvere<strong>in</strong>bar, 2<br />

unverzerrt, 159<br />

Urliste, 125, 129<br />

Variable<br />

Regressor-, 194


INDEX 231<br />

Zufalls-, 17<br />

Variablenauswahl, 195<br />

variance, 136<br />

Varianz, 38, 62<br />

e<strong>in</strong>er diskreten ZV, 38<br />

empirisch, 136, 142<br />

gruppierte Daten, 140<br />

Summe, 58<br />

Varianzschätzung<br />

geme<strong>in</strong>same, 183<br />

varianzstabilisierend, 187<br />

Variationen mit Wiederholung, 8<br />

Variationsbreite, 129, 135<br />

Variationskoeffizient, 43, 138<br />

verallgeme<strong>in</strong>erte Inverse, 29, 201<br />

Verschiebungsregel, 38, 56, 136, 150<br />

Verteilung, 17, 18, 46, 48, 49<br />

χ 2 , 29, 115<br />

χ 2 -, 216<br />

χ 2 , 168<br />

F − , 170<br />

t− , 169<br />

bed<strong>in</strong>gt bzgl. B, 72<br />

aff<strong>in</strong>e Trafo, 33<br />

bed<strong>in</strong>gt, 74<br />

bed<strong>in</strong>gt bzgl. B, 72<br />

Beta-, 170<br />

B<strong>in</strong>omial-, 19, 39, 98, 99, 109, 219<br />

Cauchy-, 70, 169<br />

e<strong>in</strong>gipfelig, 30<br />

Erlang-, 29, 89, 115<br />

Exponential-, 27, 40, 89, 113<br />

F-, 218<br />

Fisher-, 170<br />

Gamma-, 40, 89, 115<br />

Gauß-, 26, 112, 165, 207<br />

geometrisch, 21, 39, 110<br />

Gleich-, 26, 40, 113<br />

hypergeometrisch, 110<br />

Lebensdauer, 27, 113<br />

logistisch, 116<br />

Lognormal-, 34, 117<br />

Mult<strong>in</strong>omial-, 111<br />

negative B<strong>in</strong>omial-, 110<br />

Normal-, 26, 39, 89, 91, 112, 165,<br />

207<br />

Pareto, 40, 116<br />

Poisson-, 20, 39, 91, 98, 99, 109, 219<br />

Rechteck-, 26, 40, 113<br />

stabil, 33<br />

stetig, 112<br />

Student-, 169, 179<br />

t-, 179, 217<br />

unimodal, 30<br />

Weibull-, 118<br />

Verteilungsfunktion, 21<br />

der Gleichverteilung, 26<br />

empirisch, 128, 131, 132, 196<br />

Exponentialverteilung, 28, 113<br />

Standardnormalverteilung, 27<br />

Verteilungskonvergenz, 97<br />

Vertrauensbereich, 172<br />

Vertrauens<strong>in</strong>tervall<br />

α <strong>und</strong> β; e<strong>in</strong>f. l<strong>in</strong>. Regr., 190<br />

EW; e<strong>in</strong>f. l<strong>in</strong>. Regr., 191<br />

für µ , 172, 179<br />

Prognose; e<strong>in</strong>f. l<strong>in</strong>. Regr., 191<br />

Realisierung, 172<br />

VF, 158<br />

Vollerhebung, 124<br />

Vorhersage, 144<br />

W-Maß, 4<br />

W-Raum, 5<br />

Würfeln, 19, 49<br />

Wahrsche<strong>in</strong>lichkeit, 4<br />

bed<strong>in</strong>gte, 10<br />

total, 11<br />

Wahrsche<strong>in</strong>lichkeitsfunktion, 18, 48<br />

2-dim., 48<br />

B<strong>in</strong>omialverteilung, 20<br />

Poisson-Verteilung, 20<br />

Wahrsche<strong>in</strong>lichkeitsmaß, 4<br />

Wahrsche<strong>in</strong>lichkeitsraum, 5<br />

diskret, 5<br />

Walk<br />

Bernoulli, 101<br />

Random, 101<br />

Weibull-Verteilung, 118<br />

EW, Varianz, 118<br />

whiskers, 209<br />

Wilcoxon-Test, 187<br />

Wurzeltransformation, 187


232 INDEX<br />

Zeitreihe, 148<br />

Quartal, 156<br />

zentrale Momente, 42<br />

Zentraler Grenzwertsatz, 97, 158<br />

Zentralwert, 134<br />

Ziehen<br />

mit Zurücklegen, 8<br />

ohne Zurücklegen, 9, 110<br />

Zufallsexperiment, 1<br />

Zufallsgröße, 17<br />

Zufallsvariable, 17<br />

diskret, n-dim., 47<br />

diskrete, 18<br />

Maximum, 70<br />

M<strong>in</strong>imum, 70<br />

n-dim., 46<br />

Produkt, 68<br />

Quotient, 68<br />

stetig, n-dim., 49<br />

stetige, 23<br />

Summe, 68, 85, 86, 88, 89<br />

Transformation, 32, 63<br />

Zufallsvektor, 46<br />

Zustandsraum, 101<br />

ZV, 17<br />

n-dim., 46<br />

Zweistichproben<br />

F-Test, 185, 186<br />

t-Test, 183, 186<br />

Wilcoxon-Test, 187

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!