13.07.2015 Aufrufe

Stochastik I - Statistik - Universität Würzburg

Stochastik I - Statistik - Universität Würzburg

Stochastik I - Statistik - Universität Würzburg

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

1 Das Kolmogoroffsche Axiomensystem[A. N. Kolmogoroff (1933)] Seit Euklid werden bei einem rein geometrischen Aufbauder Geometrie die Grundbegriffe ”Punkt“ und ”Gerade“ nicht explizit definiert, sondernaxiomatisch eingeführt.1. Man vermittelt zunächst bewusst eine vage Vorstellung von dem, was mit denGrundbegriffen gemeint ist, um die Theorie später anwenden zu können ( ”Ein Punktist, was keinen Teil hat“, ”Eine Gerade ist eine Linie, die gleich liegt mit denPunkten auf ihr selbst“ (Euklid)). Die vage Vorstellung wird dann im Verlauf derBeschäftigung mit der Theorie zwangsläufig immer präziser.2. Man beschreibt mittels ”Axiomen“, welche Beziehungen zwischen den Grundbegriffenbestehen.Analog gehen wir nun bei der Axiomatisierung der <strong>Stochastik</strong> vor. Im ersten Axiomfordern wir die Existenz von Wahrscheinlichkeiten.


Axiom 1’ wird nun abgeschwächt, indem P nicht mehr auf der gesamten PotenzmengeP(Ω) = {A : A ⊂ Ω} definiert wird.Axiom 1 Ist Ω die Menge der möglichen Ergebnisse eines Experimentes, so isteinigen (nicht notwendig allen) Teilmengen von Ω, Ereignisse genannt, eine reelle ZahlP (A) ≥ 0 zugeordnet, Wahrscheinlichkeit von A genannt, die den Grad der Sicherheitangibt, mit dem A eintritt.ˆ Ω ist ein Ereignis.ˆ Das Komplement A c = Ω\A eines Ereignisses A ist ein Ereignis.ˆ Der Durchschnitt von zwei Ereignissen ist ein Ereignis.ˆ Die Vereinigung von abzählbar vielen disjunkten Ereignissen ist ein Ereignis.Definition 1.1 Ω sei eine nichtleere Menge. Dann heißt A ⊂ P(Ω) (= Potenzmengevon Ω) σ–Algebra über Ω:⇔3


1. Ω ∈ A,2. A ∈ A ⇒ A c ∈ A,3. A, B ∈ A ⇒ A ∩ B ∈ A4. A i ∈ A, i ∈ N, A i ∩ A j = ∅ für i ≠ j ⇒ ⋃ i∈N A i ∈ A.Definition 1.2 (Ω, A) heißt messbarer Raum :⇔ A ist σ–Algebra über nichtleererMenge Ω.Definition 1.3 (Ω, A) sei messbarer Raum. Eine Funktion P : A → R + = [0, ∞),die die Axiome 2 und 3 erfüllt, heißt Wahrscheinlichkeitsmaß. Das Tripel (Ω, A, P )heißt in diesem Fall Wahrscheinlichkeitsraum.4


2 Erste Folgerungen aus dem AxiomensystemSatz 2.1 (Ω, A) messbarer Raum, A n ∈ A, n ∈ N. Dann gilt:(i) ⋃ n∈N A n ∈ A,(ii) ⋂ n∈N A n ∈ A,(iii)lim supn∈NA n := {ω ∈ Ω : ω liegt in ∞ vielen A n }=∞⋂⋃m=1 n≥mA n ∈ A,5


Beweis:(i)∅ = ∅ ∪ ∅ ∪ . . .⇒ P (∅) = P (∅) + P (∅) + . . .⇒ P (∅) = 0.(ii) Wegen P (∅) = 0 gilt:P (A 1 ∪ . . . ∪ A n ) = P (A 1 ∪ . . . ∪ A n ∪ ∅ ∪ . . .)= P (A 1 ) + . . . + P (A n ) + 0 + . . .(v)Ω = A ∪ A c ⇒ 1 = P (Ω) = P (A) + P (A c )⇒ P (A c ) = 1 − P (A).8


(iii) Folgt unmittelbar aus (v):0 ≤ P (A) = 1 − P (A c )} {{ }≥0≤ 1.(iv)B = A ∪ (B\A) = A ∪ (B ∩ A c )⇒ (ii) P (B) = P (A) + P (B\A) ≥ P (A).✷Im folgenden sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, A 1 , . . . , A n ∈ A. |M|bezeichnet die Anzahl der Elemente einer Menge M (Mächtigkeit von M).9


Satz 2.4 (Allgemeiner Additionssatz)mitP (A 1 ∪ . . . ∪ A n ) =S k :=∑=∑∅≠T ⊂{1,...,n}n∑(−1) k−1 S kk=11≤i 1


Im Fall n = 3 ergibt sichP (A 1 ∪ A 2 ∪ A 3 )= P (A 1 ) + P (A 2 ) + P (A 3 )−P (A 1 ∩ A 2 ) − P (A 1 ∩ A 3 ) − P (A 2 ∩ A 3 )+P (A 1 ∩ A 2 ∩ A 3 ).Beweis: Mittels vollständiger Induktion; ”+” bedeutet Vereinigung disjunkter Mengen.11


Der Fall n = 2:A 1 ∪ A 2 = A 1 + (A 2 \A 1 ),A 2 = (A 2 ∩ A 1 ) + (A 2 \A 1 )⇒ P (A 1 ∪ A 2 ) = P (A 1 ) + P (A 2 \A 1 ),P (A 2 ) = P (A 2 ∩ A 1 ) + P (A 2 \A 1 )⇒ P (A 1 ∪ A 2 ) − P (A 1 ) = P (A 2 ) − P (A 2 ∩ A 1 )⇒ Behauptung für den Fall n = 2.12


Der Induktionsschritt n → n + 1:P ((A 1 ∪ . . . ∪ A n ) ∪ A n+1 )= P ((A 1 ∪ . . . ∪ A n )) + P (A n+1 )−P ((A 1 ∩ A n+1 ) ∪ (A 2 ∩ A n+1 ) ∪ . . .∪(A n ∩ A n+1 ))( )∑⋂= (−1) |T |−1 P A i + P (A n+1 )i∈T==∅≠T ⊂{1,...,n}−∑∅≠T ⊂{1,...,n}∑(−1) |T |−1 P∅≠T ⊂{1,...,n+1}, n+1∉T+∑(−1) |T |−1 PT ⊂{1,...,n+1}, n+1∈T, T ∩{1,...,n}≠∅∑(−1)|T |−1 P13( ⋂i∈TA i ∩ A n+1)( ⋂Ai)( ⋂i∈TA i)(−1) |T |−1 P.+ P (A n+1 )( ⋂i∈TA i)


Satz 2.5 Sei B k das Ereignis, dass genau k der Ereignisse A 1 , . . . , A n eintreten, d.h.ω ∈ B k ⇔ ω ∈ A i für genau k der Indizes i = 1, . . . , n. Dann gilt:∑( ) ( )|U|⋂P (B k ) =(−1) |U|−k P A ikU⊂{1,...,n}, |U|≥ki∈Un∑( ) m= (−1) m−k S m ,km=kS m wie in Satz 2.4, S 0 := 1.Bemerkung B 0 = (A 1 ∪. . .∪A n ) c ⇒ P (B 0 ) = 1−P (∪ 1≤i≤n A i ) = 2.4∑ nm=0 (−1)m S m .✷14


Beweis:B k =∑S⊂{1,...,n}, |S|=k(( ⋂i∈SA i)∩( )) ⋂,i∈S c A c i15


(disjunkte Zerlegung von B k ). Es folgt:P (B k )(( ) (∑ ⋂ ⋂=P A i ∩i∈SS⊂{1,...,n}, |S|=k∑=S⊂{1,...,n}, |S|=k= 2.4∑S⊂{1,...,n}, |S|=k+ ∑i∈S c A c i)){ (( ) c ( ))}⋂ ⋃1 − P A i ∪ A ii∈Si∈S{ [ (( ) c c ) ⋂A ii∈S1 − P)A i( ⋂(−1) |T |−1 P∅≠T ⊂S c i∈T⎛ ⎛⎛⎞−P ⎝ ⋃ ⎝⎝ ⋂ c ⎞⎞⎤⎫⎬A j⎠ ∩ A i⎠⎠⎦16⎭i∈S c j∈S


=∑S⊂{1,...,n}, |S|=k⎡{P( ⋂i∈SA i)⎛∑− ⎢ (−1) |T |−1 ⋂P ⎜ A i ⎟⎣⎝ ⎠∅≠T ⊂S c i∈T} {{ }⎛=C⎞⎤⎫⎛ ⎞−∑(−1) |T |−1 P⎝ ⋂ c⎜ A j⎠ ∩ ⋂ ⎪⎬A i⎟⎥;∅≠T ⊂S c ⎝ j∈Si∈T ⎠⎦} {{ } } {{ } ⎪⎭=D c =Cwegen P (C) − P (D c ∩ C) = P (C ∩ D) folgt⎞17


===∑S⊂{1,...,n}, |S|=k{P( ⋂i∈SA i)⎛⎞⎫−∑⎛ ⎞(−1) |T |−1 P⎝ ⋂ ( )⋂ ⎪⎬A⎜ j⎠ ∩ A i ⎟∅̸=T ⊂S c ⎝ j∈Si∈T ⎠} {{ }= ⋂ ⎪⎭i∈S∪T A i( )∑ ∑⋂(−1) |T | P A iS⊂{1,...,n}, |S|=k T ⊂S c i∈S∪T( )∑ ∑⋂(−1) |U|−k P A i .i∈US⊂{1,...,n}, |S|=k U⊃S, U⊂{1,...,n}18


Der Summand (−1) |U|−k P ( ⋂i∈U A i)tritt hierbei so oft auf, wie es k–elementigeTeilmengen S von U gibt, also ( )|U|k –mal. Hieraus folgt der erste Teil der Behauptungsowien∑( )( )m ∑ ⋂= (−1) m−kP A iki∈Um=k.U⊂{1,...,n}, |U|=m} {{ }=S mSatz 2.6 Sei C k das Ereignis, dass mindestens k der Ereignisse A 1 , . . . , A n eintreten.Dann gilt:n∑( ) m − 1P (C k ) =(−1) m−k S m .k − 1m=k✷19


Beweis:P (C k ) =n∑P (B j )j=k= 2.5n∑=j=kn∑m=j⎛n∑⎝m=k( mj)(−1) m−j S mm∑j=k( mj)(−1) m−j ⎞⎠ S m .20


Für die innere Summe folgt aus der Beziehung ( ) (nk = n−1) (k + n−1( ( ) ( )m m m− + − . . .m)m −(1)m − 2m+(−1) m−k( ) (k) ( )m − 1 m − 1 m − 1= + −m m − 1 m − 1} {{ } } {{ }(=0)=0( )m − 1m − 1− + . . . + (−1) m−km − 2k} {{ }(=0) m − 1+(−1) m−k (k −)1m − 1= (−1) m−k .k − 1 21k−1):


✷Bemerkung Der Allgemeine Additionssatz 2.4 ist in 2.6 enthalten (k = 1).Bemerkung Zur Geschichte der <strong>Stochastik</strong>: Briefwechsel (1654) zwischen P. Fermatund B. Pascal (u.a. wg. Chevalier de Méré); inzwischen stürmische Entwicklung (A.N.Kolmogoroff (1933)−→ . . .)3 Grundlagen der KombinatorikDefinition 3.1 Ein Wahrscheinlichkeitsraum (Ω, A, P ) heißt Laplace–Experiment :⇔|Ω| < ∞ und alle einelementigen Teilmengen von Ω sind Ereignisse mit der gleichenWahrscheinlichkeit.22


Satz 3.2 (Ω, A, P ) Laplace–Experiment, A ⊂ Ω. Dann gilt:P (A) = |A||Ω|Anzahl der für A günstigen Ausgänge= .Anzahl aller möglichen AusgängeSatz 3.3 (Additionsprinzip der Kombinatorik) Für disjunkte endliche Mengen A 1 , A 2gilt:|A 1 + A 2 | = |A 1 | + |A 2 |.Korollar Für disjunkte endliche Mengen A 1 , . . . , A k gilt:|A 1 ∪ . . . ∪ A k | = |A 1 | + . . . + |A k |.23


Satz 3.4 (Multiplikationssatz der Kombinatorik) A 1 sei eine Menge der Mächtigkeitn 1 ∈ Z + = N ∪ {0}, B 2 eine beliebige Menge und n 2 ∈ Z + . Jedem a 1 ∈ A 1 seigenau eine n 2 –elementige Teilmenge B(a 1 ) ⊂ B 2 zugeordnet, und es seiDann gilt: |A 2 | = n 1 n 2 .A 2 := {(a 1 , a 2 ) : a 1 ∈ A 1 , a 2 ∈ B(a 1 )}.Beweis: Folgt aus 3.3.✷Korollar 3.5 |A 1 | = n 1 ∈ Z + , B 1 , . . . , B n seien beliebige Mengen und n 2 , . . . , n k ∈Z + . Für i = 1, . . . , k − 1 sei jedem i–Tupel (a 1 , . . . , a i ) ∈ A i eine n i+1 –elementigeTeilmenge B(a 1 , . . . , a i ) ⊂ B i+1 zugeordnet, und es seiA i+1 := {(a 1 , . . . , a i , a i+1 ) : (a 1 , . . . , a i ) ∈ A i ,a i+1 ∈ B(a 1 , . . . , a i )},24


(Definition durch Induktion (Rekursion)). Dann gilt:|A k | = n 1 n 2 . . . n k .Korollar |A 1 × A 2 × . . . × A k | = n 1 n 2 · · · n k , falls |A i | = n i , i = 1, . . . , k.Obiges Korollar ergibt speziell für A i = A, i = 1, . . . , k: | A } × .{{ . . × A}| = |A k | =k mal|A| k .Die Menge A k aller k–Tupel von Elementen aus A heißt geordnete Probe zu A vomUmfang k mit Wiederholung.Satz 3.6 Es gibt n k geordnete Proben zu einer n–elementigen Menge vom Umfang kmit Wiederholung.Beispiel A, B endliche Mengen, B A := Menge aller Abbildungen von A nach B.Dann: ∣ ∣ BA ∣ ∣ = |B| |A| .25


Korollar 3.7 Eine n–elementige Teilmenge besitzt 2 n verschiedene Teilmengen.Beweis: A sei eine n–elementige Menge, dann: |{0, 1} A | = 2 |A| ; |Menge aller Abbildungenvon A → {0, 1}| = |P(A)|.✷Ein k–Tupel (a 1 , . . . , a k ) ∈ A k mit a i ≠ a j für j ≠ i heißt geordnete Probe aus Avom Umfang k ohne Wiederholung.Satz 3.8 Zu einer n–elementigen Menge gibt es (n) k := n(n − 1) · · · (n − k + 1)geordnete Proben vom Umfang k ≥ 1 ohne Wiederholung.Beweis: Für eine geordnete Probe (a 1 , . . . , a k ) vom Umfang k ohne Wiederholunggilt: a 1 ∈ A, a 2 ∈ A\{a 1 }, a 3 ∈ A\{a 1 , a 2 }, . . . , a k ∈ A\{a 1 , . . . , a k−1 }. Aus demMultiplikationsprinzip, genauer 3.5, folgt nun die Behauptung.✷26


Speziell für k = n erhalten wirSatz 3.9 n verschiedene Elemente können auf (n) n = n! verschiedene Arten angeordnetwerden, d.h. es existieren n! Permutationen einer n–elementigen Menge.Eine ungeordnete Probe vom Umfang k mit bzw. ohne Wiederholung erhalten wir,indem wir geordnete Proben, die sich nur in der Reihenfolge unterscheiden, identifizieren.Die ungeordneten Proben vom Umfang k ohne Wiederholung sind demnacheinfach die k–elementigen Teilmengen von A.Satz 3.10 Eine n–elementige Menge besitzt( n=k)(n) k=k!verschiedene k–elementige Teilmengen.n!k!(n − k)!27


Beweis: Eine geordnete Probe vom Umfang k ohne Wiederholung besteht aus einerk–elementigen Teilmenge und einer Anordnung. Es gibt k! verschiedene Möglichkeitender Anordnung (3.9), also (3.8):Hieraus folgt die Behauptung.(n) k = Anzahl der k–elementigen Teilmengen × k!.Korollar 3.11 (i) Es gibt n k Möglichkeiten, k unterscheidbare Kugeln auf n unterscheidbareUrnen zu verteilen.(ii) Es gibt (n) k Möglichkeiten, k unterscheidbare Kugeln so auf n unterscheidbareUrnen zu verteilen, dass keine Urne mehr als eine Kugel enthält.(iii) Es gibt ( nk)Möglichkeiten, k ununterscheidbare Kugeln so auf n unterscheidbareUrnen zu verteilen, dass keine Urne mehr als eine Kugel enthält.✷28


Satz 3.12 Es gibt ()kk!:=k 1 , k 2 , . . . , k n k 1 !k 2 ! · · · k n !Möglichkeiten, k unterscheidbare Kugeln so auf n unterscheidbare Urnen zu verteilen,dass genau k i Kugeln in die Urne Nummer i kommen (k i ≥ 0, i = 1, . . . , n; k 1 + k 2 +. . . + k n = k).Beweis: Es gibt( ) kMöglichkeiten der k 1 Kugeln für Urne 1(k 1) k − k1Möglichkeiten der k 2 Kugeln für Urne 2k 2. . .29


( )k − k1 − . . . − k n−2k n−1Ausmultiplikation liefert nun:Möglichkeiten( )(insgesamt)k k − k1=· · ·k 1 k 2==Möglichkeiten der k n−1Kugeln für Urne n − 1.( )k − k1 − . . . − k n−2k n−1k!k 1 !(k − k 1 )! × (k − k 1 )!k 2 !(k − k 1 − k 2 )! × . . .× (k − k 1 − . . . − k n−2 )!k n−1 !(k − k 1 − . . . − k n−1 )!k!k 1 ! · · · k n ! .30✷


Bemerkung Die Größen ( ) (kk 1 ,...,k n heißen Polynomialkoeffizienten. Wegen nk)=(k,n−k)verallgemeinern sie die Binomialkoeffizientennk).( nKorollar 3.13(a 1 + . . . + a n ) k∑=k 1 ≥0,...,k n ≥0, k 1 +...+k n =k( )ka k 11k 1 , . . . , k ak 22 · · · ak nn .nKorollar 3.14 (i)n∑( nk)k=0= 2 n .31


(ii)(iii)r∑( )( )n mk r − kk=0n∑( ) 2 n=kk=0=( ) m + n.r( 2nn).Beweis:(i) Zerlegung der Potenzmenge einer n–elementigen Menge gemäß Mächtigkeit derTeilmenge; 3.7 ⇒ Behauptung.(ii) ( )m+nr = Anzahl der r–elementigen Teilmengen von {1, . . . , n, n + 1, . . . , m + n}.Die Anzahl der Möglichkeiten, hierbei k Elemente aus {1, . . . , n} und somit r − kaus {n + 1, . . . , n + m} auszuwählen, ist ( )(n mk r−k).32


(iii) Folgt mit m = r = n aus (ii) wegen ( n 2 (k)=n)( n)k n−k .✷4 Vermischte AufgabenAufgabe 4.1 Aus einer Schulklasse mit 20 Schülern wird eine Woche lang (5 Tage)jeden Morgen ein Schüler zufällig ausgewählt. Wie groß ist die Wahrscheinlichkeit, dassmindestens 1 Schüler mehrmals ausgewählt wird?


Lösung: Laplace–Experiment mit Ω = {1, . . . , 20} 5 , |Ω| = 20 5 ; ungünstige Fälle:alle geordneten Proben vom Umfang 5 ohne Wiederholung, d.h. (20) 5 . Also:gesuchte Wahrscheinlichkeit= 205 − (20) 520 5= 1 −20 × 19 × . . . × 1620 5 = 0, 4186.✷Aufgabe 4.2 Sack mit N Nüssen, darunter S schlechte Nüsse. Gezogen wird eineStichprobe vom Umfang n. Wie groß ist die Wahrscheinlichkeit p(s), dass in der Stichprobegenau s schlechte Nüsse sind, s = 0, 1, . . . , n?34


Lösung: {1, . . . , S} = . Menge der schlechten Nüsse von {1, . . . , N}. Laplace–Experimentmit Ω = {A ⊂ {1, . . . , N} : |A| = n}, |Ω| = ( Nn). Dann:p(s)|A ∈ Ω mit |A ∩ {1, . . . , S}| = s|= ( Nn)=( S N−S)s)(n−s( Nn)=: H N,S,n (s).H N,S,n heißt Hypergeometrische Verteilung zu den Parametern N, S, n (Qualitätskontrolle).✷Aufgabe 4.3 Skatspiel: 32 Karten, 3 Spieler, je 10 Karten; ”Skat“ mit 2 Karten. Es35


gibt vier Buben.(i) Spieler A habe 2 Buben. Wie groß ist die Wahrscheinlichkeit, dass die Spieler Bund C jeweils 1 Buben besitzen?Lösung: Es gibt ( 2210,10,2)mögliche Verteilungen der 22 Karten, die A nicht besitzt,auf B,C und den Skat. Diese sind gleich wahrscheinlich. Die Anzahl der günstigenMöglichkeiten beträgt ( ) (209,9,2 × 21,1,0). Also beträgt die gesuchte Wahrscheinlichkeit( 20) (9,9,2 × 2)1,1,0( 22) = 100231 . 10,10,2✷(ii) Gesucht: Wahrscheinlichkeit, dass einer der beiden Spieler beide Buben besitzt.36


Lösung:2 × ( 208,10,2( 2210,10,2) (×2)2,0,0) = 90231 . ✷(iii) Gesucht: Wahrscheinlichkeit, dass beide Buben im Skat liegen.Lösung: ( 20) (10,10,0 × 2)0,0,2( 22) = 1231 . 10,10,2✷(iv) Gesucht: Wahrscheinlichkeit, dass genau 1 Bube im Skat liegt:Lösung:2 × ( ) (209,10,1 × 2)1,0,1) = 40231 .( 2210,10,237


(v) Bilderschecks in Warenprodukten: k Warenpackungen (Cornflakes). In jeder Packungist genau 1 von n möglichen Sammelmarken (etwa n = 11 Fußballspieler).Annahme: Laplace–Experiment, es gibt n k Möglichkeiten der Verteilung. Gesucht:Wahrscheinlichkeit p m , dass wenigstens m Sammelmarken fehlen.Lösung: Ω = Menge aller möglichen Verteilungen von k unterscheidbaren Kugeln( . = Packungen) auf n unterscheidbare Urnen ( . = Sammelmarken). |Ω| = n k .A i := Menge aller Verteilungen, bei denen die i–te Urne leer ist.Für 1 ≤ i 1 < . . . < i r ≤ n gilt:✷)P(A i1 ∩ . . . ∩ A ir =(n − r)kn k .38


Es folgt mit der Bezeichnung von 2.4∑S r =und damit aus 2.6=r=m1≤i 1


5 Bedingte Wahrscheinlichkeiten(Ω, A, P ) sei Wahrscheinlichkeitsraum, B ∈ A mit P (B) > 0.Es sei bekannt, dass das Ereignis B eingetreten ist.Neues Experiment: Ergebnismenge Ω ′ = B.Heuristisch: Wahrscheinlichkeit, dass A eintritt, wenn bereits bekannt ist, dass Beingetreten ist, ist P (A ∩ B)/P (B).Definition 5.1 (Ω, A, P ) sei Wahrscheinlichkeitsraum, A ∈ A und B ∈ A mitP (B) > 0. Dann heißtP (A|B) := P B (A) :=P (A ∩ B)P (B)bedingte Wahrscheinlichkeit von A unter (der Bedingung) B.40


Beispiel 5.2 Für die beiden ersten Kinder einer Familie seien die 4 GeschlechtskombinationenJ − J, M − M, J − M und M − J gleich wahrscheinlich. Von einerFamilie sei bekannt, dass wenigstens eines der Kinder ein Junge ist. Wie groß ist dieWahrscheinlichkeit, dass diese Familie sogar zwei Jungen hat?41


Lösung: A 1 : . = 1. Kind ist ein Junge, A 2 : . = 2. Kind ist ein Junge. Damit:P (A 1 ∩ A 2 |A 1 ∪ A 2 )= P ((A 1 ∩ A 2 ) ⋂ (A 1 ∪ A 2 ))P (A 1 ∪ A 2 )= P (A 1 ∩ A 2 )P (A 1 ∪ A 2 )P (A 1 ∩ A 2 )==P (A 1 ) + P (A 2 ) − P (A 1 ∩ A 2 )1412 + 1 2 − 1 4= 1 3 . ✷42


Satz 5.3 (Ω, A, P ) sei Wahrscheinlichkeitsraum, B ∈ A mit P (B) > 0. Die bedingteWahrscheinlichkeit P B : A → R + ist eine Wahrscheinlichkeit, d.h. P B erfüllt dieAxiome 1,2,3.Beweis: Trivial, Axiome nachprüfen.✷Satz 5.4 A 1 , . . . , A n Ereignisse mit P (A 1 ∩ . . . ∩ A n−1 ) > 0. Dann:P (A 1 ∩ . . . ∩ A n )= P (A 1 )P (A 2 |A 1 )P (A 3 |A 1 ∩ A 2 ) × . . .×P (A n |A 1 ∩ . . . ∩ A n−1 ).Beweis: n = 2 : P (A 1 ∩ A 2 ) = P (A 1 )P (A 2 |A 1 );43


n → n + 1 :P (A 1 ∩ . . . ∩ A n+1 )= P (A 1 ∩ . . . ∩ A n )P (A n+1 |A 1 ∩ . . . ∩ A n )= Ind. V. P (A 1 )P (A 2 |A 1 ) × · · ·×P (A n+1 |A 1 ∩ . . . ∩ A n ).Beispiel 5.5 16 weiße, 16 schwarze Schachfiguren liegen im Kasten. 3 Figuren werdenzufällig ohne Zurücklegen gezogen. Wie groß ist die Wahrscheinlichkeit, dass alle 3Figuren schwarz sind?✷44


Lösung: A i sei das Ereignis, dass die i–te Figur schwarz ist. Dann:P (A 1 ∩ A 2 ∩ A 3 )= P (A 1 )P (A 2 |A 1 )P (A( 3 |A 1 ∩ A 2 )= 1632 × 1531 × 14( 16))3= (3032) .3✷Satz 5.6 (Totale Wahrscheinlichkeit) (Ω, A, P ) Wahrscheinlichkeitsraum, B 1 , . . . , B nseien disjunkte Ereignisse mit ∑ ni=1 B i = Ω, P (B i ) > 0, i = 1, . . . , n. Dann:n∑P (A) = P (B i )P (A|B i ), A ∈ A.i=145


Beweis:P (A) = P (Ω(∩ A)n∑)= P (B i ∩ A)i=1==n∑P (B i ∩ A)i=1n∑P (B i )P (A|B i )i=1✷Beispiel 5.7 (Zweistufiges Experiment) In Urne 1 liegen 2 weiße und 8 schwarzeKugeln, in Urne 2 liegen 4 weiße und 6 schwarze Kugeln.46


Zunächst wird gewürfelt. Bei einer 5 oder 6 erfolgt eine Ziehung aus Urne 1, beieiner 1-4 wird aus Urne 2 gezogen.Wie groß ist die Wahrscheinlichkeit, eine weiße Kugel zu ziehen?Lösung: A = . eine weiße Kugel wird gezogen,.B 1 = 5 oder 6 beim Würfeln,. = 1–4 beim Würfeln. Dann:B 2P (A) = P (B 1 )P (A|B 1 ) + P (B 2 )P (A|B 2 )= 1 3 × 1 5 + 2 3 × 2 5 = 1 3 . ✷Satz 5.8 (Bayessche Formel) Zusätzlich zu den Voraussetzungen von Satz 5.6 gel-47


te P (A) > 0. Dann gilt:P (B i |A) =P (B i )P (A|B i )∑ nj=1 P (B j)P (A|B j ) .Beweis:P (B i |A) = P (A ∩ B i)P (A)P (B i )P (A|B i )= ∑ nj=1 P (B j)P (A|B j ) .Beispiel 5.9 (Fortsetzung von Beispiel 5.7) A . = Ziehen einer weißen Kugel, P (A) =1/3.✷48


Wie groß ist die Wahrscheinlichkeit von B i , i = 1, 2, wenn bekannt ist, dass eineweiße Kugel gezogen wurde, d.h. wie groß ist die Wahrscheinlichkeit, dass eine weisseKugel aus Urne i stammt?Lösung:P (B 1 |A) ==P (B 1 )P (A|B 1 )P (B 1 )P (A|B 1 ) + P (B 2 )P (A|B 2 )1/3 × 1/51/3 × 1/5 + 2/3 × 2/5 = 1 5⇒ P (B 2 |A) = 4 5 .P (B i |A) heißt a posteriori Wahrscheinlichkeit von B i , P (B i ) heißt a priori Wahrscheinlichkeitvon B i .✷49


Beispiel 5.10 (Überprüfung, ob radikal) R : . = Kandidat ist radikal,B : . = Kandidat wird für radikal erklärt.Eine Überprüfung ergebe mit der Wahrscheinlichkeit 0,95 ein richtiges Ergebnis, d.h.P (B|R) = 0, 95; P (B c |R c ) = 0, 95.Es sei P (R) = 0, 005.Wie groß ist die Wahrscheinlichkeit, das ein als radikal erklärter Kandidat tatsächlichradikal ist?50


Lösung: Gesucht:P (R ∩ B)P (R|B) =P (B)P (R)P (B|R)=P (R)P (B|R) + P (R c )P (B|R c )5/1000 × 95/100=5/1000 × 95/100 + 995/1000 × 5/100= 951090 (!). ✷Beispiel 5.11 (Brustkrebs-Screening durch Mammographie) 11 Aus: Christian Hesse (2010). Warum Mathematik glücklich macht. C.H. Beck, München, S. 199ff.51


Die Wahrscheinlichkeit, dass eine 50jährige Frau Brustkrebs hat, ist bei etwa 0,8%anzusiedeln.Die Wahrscheinlichkeit, dass das Mammogramm einer Patientin positiv ist, wenn sieBrustkrebs hat, liegt bei etwa 90% (sog. Sensitivität des Untersuchungsverfahrens).Die Wahrscheinlichkeit, dass ein durchgeführtes Mammogramm positiv ist, wenn diePatientin keinen Brustkrebs hat, liegt bei etwa 7% (sog. Falsch-Positiv-Rate).Angenommen, eine 50-jährige Frau unterzieht sich einer Mammographie und derBefund ist positiv. Wie wahrscheinlich ist es, dass die Frau tatsächlich Brustkrebs hat?Lösung: B : . = Brustkrebserkrankung, M : . = Mammogramm ist positiv. Dann:P (B) = 890, P (M | B) =1000 100 , P (M | Bc ) = 7100 .52


Gesucht:P (B | M) ==P (B)P (M | B)P (B)P (| B) + P (B c )P (M | B c )8 901000 1008 901000 100 + 992 71000 100= 7207664≈ 9100 (!). ✷Beispiel 5.12 (Laplacescher Folgesatz) In einer Urne liegen N Kugeln, W weißeund N − W schwarze. W sei unbekannt; alle N + 1 möglichen Mischungsverhältnissebesitzen die gleiche Wahrscheinlichkeit 1/(N + 1).53


Es werden nacheinander n + 1 Kugeln ohne Zurücklegen gezogen.Wie groß ist die Wahrscheinlichkeit, dass die n + 1-te Kugel weiß ist, wenn die erstenn Kugeln weiß gewesen sind?Lösung: A i : . = nur weiße Kugeln unter den ersten i Ziehungen.Offenbar gilt A 1 ⊃ A 2 ⊃ . . . und gesucht istP (A n+1 |A n ) = P (A n+1 ∩ A n )P (A n )= P (A n+1)P (A n ) .54


Wir erhalten:Behauptung:P (A n ) ====N∑P {W = w}P (A n |{W = w})w=0( N∑w)1N + 1 × n( Nw=0n)1N∑( w(N + 1) ( )Nn)n w=n( N+1)1N + 1 × n+1( Nn)= 1n + 1 .55


N∑( w=n)w=n( ) N + 1.n + 1Denn: ( N+1n+1)ist die Anzahl der Möglichkeiten, aus der Menge {1, 2, . . . , N + 1} einen+1–elementige Teilmenge auszuwählen. Dabei gibt es ( wn)Möglichkeiten, die Auswahlso zu treffen, dass w + 1 das größte der ausgewählten Elemente ist, w = n, . . . , N.Insgesamt erhalten wir somit:unabhängig von N!P (A n+1 |A n ) = n + 1n + 2✷56


6 UnabhängigkeitGegeben ist ein Würfel, A := {2, 4, 6}, B := {5, 6}, P (A) = 1/2.P (A|B) =P (A ∩ B)P (B)= 1/62/6 = 1 2 = P (A),d.h. die zusätzliche Information des Eintretens von B hat in diesem speziellen Fallkeinen Einfluss auf die Wahrscheinlichkeit des Eintretens von A.Definition 6.1 A, B Ereignisse mit P (B) > 0; dann:A unabhängig von B :⇔ P (A) = P (A|B).57


Satz 6.2 A, B Ereignisse mit P (A) > 0 und P (B) > 0; dann:Beweis:A unabhängig von B⇔ B unabhängig von A⇔ P (A ∩ B) = P (A)P (B).A unabhängig von B⇔ P (A) = P (A ∩ B)/P (B)⇔ P (B) = P (A ∩ B)/P (A)⇔ P (A ∩ B) = P (A)P (B).✷58


Definition 6.3 A, B beliebige Ereignisse, dann:A, B unabhängig :⇔ P (A ∩ B) = P (A)P (B).Satz 6.4 A, B unabhängig, dann gilt:ˆ A c , B sind unabhängig,ˆ A, B c sind unabhängig,ˆ A c , B c sind unabhängig.Beweis:P (A c ∩ B) = P (B) − P (A ∩ B)= P (B) − P (A)P (B)= P (B)(1 − P (A))= P (B)P (A c ).59


✷Satz 6.5 A, B seien unabhängig; A, C seien unabhängig; B ∩ C = ∅. Dann gilt:A, B ∪ C sind unabhängig.Beweis:P (A ∩ (B ∪ C)) = P ((A ∩ B) + (A ∩ C))= P (A ∩ B) + P (A ∩ C)= P (A)P (B) + P (A)P (C)= P (A)P (B ∪ C).Bemerkung A, B, C paarweise unabhängig ⇏ P (A∩B ∩C) = P (A)P (B)P (C).Gegenbeispiele: Siehe Übungen.✷60


Definition 6.6 Ω ≠ ∅; A ⊂ P(Ω) ist Algebra über Ω :⇔(i) Ω ∈ A,(ii) A ∈ A ⇒ A c ∈ A,(iii) A, B ∈ A ⇒ A ∪ B ∈ A.Definition 6.7 ∅ ≠ S ⊂ P(Ω). Dann:⋂α(S) :=DP(Ω)⊃D⊃S, D Algebra=: kleinste Algebra, die S enthält,⋂σ(S) :=DP(Ω)⊃D⊃S, D σ–Algebra=: kleinste σ–Algebra, die S enthält.61


Beachte: Der beliebige Durchschnitt von (σ–) Algebren ist wieder eine (σ–) Algebra;P(Ω) ist eine (σ–) Algebra mit P(Ω) ≠ ∅.Satz 6.8 ∅ ̸= S ⊂ P(Ω). Dann: α(S) = Menge aller endlichen, disjunkten Vereinigungenvon endlichen Durchschnitten von Mengen aus S oder deren Komplemente,d.h.Beweis:S 1 := {S ⊂ Ω : S ∈ S oder S c ∈ S},S 2 := {S 1 ∩ . . . ∩ S n : n ∈ N, S i ∈ S 1 , i = 1, . . . , n}S 3 := {T 1 ∪ . . . ∪ T n : T j ∈ S 2 , j = 1, . . . , n,paarweise disjunkt, n ∈ N}⇒ α(S) = S 3 .62


1. S 3 ⊂ α(S) (trivial, da eine Algebra ∩–stabil, ∪–stabil und Komplement–stabil ist).2. S 3 ≠ ∅, da S 3 ⊃ S 2 ⊃ S 1 ⊃ S ≠ ∅.3. T ∈ S 2 ⇒ T c ∈ S 3 .(Denn: T = S 1 ∩ . . . ∩ S n ∈ S 2 mit S i ∈ S 1 ⇒4. T 1 , T 2 ∈ S 2 ⇒ T 1 ∩ T 2 ∈ S 2 (trivial).T c = S c 1 ∪ . . . ∪ S c n= S c 1 ∪ (S c 2\S c 1) ∪ S c 3\(S c 1 ∪ S c 2) ∪ . . .∪S c n\(S c 1 ∪ . . . ∪ S c n−1)= S c 1 + (S c 2 ∩ S 1 ) + (S c 3 ∩ S 1 ∩ S 2 ) + . . .+(S c n ∩ S 1 ∩ . . . ∩ S n−1 ) ∈ S 3 .5. U 1 , U 2 ∈ S 3 ⇒ U 1 = T 11 +. . .+T 1n1 mit disjunkten T 1j ∈ S 2 , U 2 = T 21 +. . .+T 2n263


mit disjunkten T 2j ∈ S 2⇒ U 1 ∩ U 2 =⋃ i,j( T 1i ∩ T} {{ 2j )}∈S 2 wegen 4.} {{ }disjunkte Vereinigung∈ S 3 .6. U ∈ S 3 ⇒ U = T 1 + . . . + T n , T i ∈ S 2 , i = 1, . . . , n, disjunkt ⇒ U c =T c 1 ∩ . . . ∩ T c n ∈ S 3 wegen 3. und 5. (T c j ∈ S 3 wegen 3.).Wegen 2., 5. und 6. ist S 3 eine Algebra. Hieraus und aus 1. folgt, dass S 3 = α(S).✷Definition 6.9 A 1 , . . . , A n seien beliebige Ereignisse, dann:A 1 , . . . , A n (global) unabhängig:⇔ A i , B unabhängig für 1 ≤ i ≤ nund B ∈ α({A j : j ≠ i}).64


Satz 6.10 A 1 , . . . , A n sind unabhängig ⇔P (A i1 ∩ . . . ∩ A ik ) = P (A i1 ) · · · P (A ik ) (1)für 2 ≤ k ≤ n, 1 ≤ i 1 < . . . < i k ≤ n.Beweis:” ⇒“ A i2 ∩ . . . ∩ A ik ∈ α({A j : j ≠ i 1 })⇒ A i1 , A i2 ∩ . . . ∩ A ik unabhängig⇒ P (A i1 ∩ . . . ∩ A ik ) = P (A i1 )P (A i2 ∩ . . . ∩ A ik )u.s.w. (Induktion)” ⇐“ Es genügt zu zeigen: A 1 ist unabhängig von jedem Ereignis aus α({A 2 , . . . , A n }).65


In (1) beliebige der A ij durch A c i jersetzbar (z.B. P (A i1 ∩ A c i 2∩ . . . ∩ A ik ) =P (A i1 )P (A c i 2) · · · P (A ik ), siehe 6.4) ⇒P (A 1 ∩ A (c)i 2∩ . . . ∩ A (c)i k)= P (A 1 )P (A (c)i 2) · · · P (A (c)i k)mit A (c)i j= A ij oder A c i j,d.h. A 1 unabhängig von allen Ereignissen aus S 2 (A 2 , . . . , A n )⇒ 6.5 A 1 unabhängig von allen Ereignissen aus S 3 (A 2 , . . . , A n ) = 6.8 α({A 2 , . . . , A n }).✷66


Definition 6.11 A i , i ∈ I, beliebige Ereignisse, dann:Bemerkung 6.12 (i)A i , i ∈ I, unabhängig:⇔ A i , G unabhängig für beliebigesi ∈ I und G ∈ α({A j : j ∈ I, j ≠ i}).A i , i ∈ I, unabhängig⇔ A i , i ∈ I 0 unabhängigfür alle endlichen Teilmengen I 0 von I.(ii) A 1 , A 2 , . . . sei eine Folge von Ereignissen, dann:A 1 , A 2 , . . . unabhängig⇔ A 1 , . . . , A n unabhängig für alle n ∈ N.67


Beweis:(i)⇒“ trivial.”” ⇐“ Nach Satz 6.8 existiert zu jedem G ∈ α({A j : j ≠ i}) ein I 0 ⊂ I mit |I 0 | < ∞und G ∈ α({A j : j ∈ I 0 }).Definition 6.13 (i) G i , i ∈ I, unabhängige Algebren von Ereignissen:⇔ G i ist Ereignis–Algebra, ( i ∈ I, und für jedes i ∈ I ist jedes G ∈ G i unabhängig⋃ )von allen H ∈ αj≠i G j .(ii) A i , i ∈ I, unabhängige σ–Algebren von Ereignissen✷68


:⇔ A i ist σ–Algebra von Ereignissen, ( i ∈ I, und für jedes i ∈ I ist jedes A ∈ A ⋃ )iunabhängig von allen B ∈ σj≠i A j .Satz 6.14 A i , i ∈ I unabhängig ⇒ α({A i }), i ∈ I, unabhängige Algebren.Beweis:d.h.α({A i }) = {A i , A c i, ∅, Ω},⎛⎞α({A j : j ∈ I, j ≠ i}) = α ⎝ ⋃ α({A j }) ⎠ .j≠i∅ und Ω sind von allen Ereignissen unabhängig.✷69


Satz 6.15 (Borel–Cantelli Lemma) A 1 , A 2 , . . . seien Ereignisse;A := {ω ∈ Ω : ω ∈ A n für unendlich viele n ∈ N}= ⋂ ⋃A m .n∈N m≥nDann gilt:(i) P (A) = 0, falls ∑ n∈N P (A n) < ∞.(ii) P (A) = 1, falls ∑ n∈N P (A n) = ∞ und A 1 , A 2 , . . . unabhängig.Beweis: Es gilt (siehe Übungen):70


” (i)“ P (A) = P( ⋂wobeiP( ⋃m≥nA m)n∈N= limn∈NPals Rest einer konvergenten Reihe.⋃m≥nA m} {{ }absteigende Folge( ) ⋃A mm≥n= lim≤ s. Üb.71k∈NP,)( k⋃m=nA m)∑P (A m ) → n∈N 0m≥n


” (ii)“ P (A c ) = P( ⋃n∈N⋂m≥nA c m} {{ }aufsteigende Folge( ⋂ )= lim P A c mn∈N= limn∈NP(= limn∈N(= limn∈Nm≥n( ⋂N≥nlim P (N∈NlimN∈N⋂n≤m≤NA c m))} {{ }absteigende Folge⋂A}{{}c mn≤m≤Nunabhängig72≤exp∏(1 − P (A m ))} {{ }n≤m≤N ≤exp(−P (A m ))} ( {{ ) }− ∑ Nm=n P (A m )))→ N∈N 0),


denn 1 − x ≤ exp(−x) wegen Taylor–Entwicklung:exp(−x) = 1 − x + exp(−ϑx) x2} {{ 2}≥0≥ 1 − x.✷Satz 6.16 (Fortsetzungssatz) G sei Algebra über Ω, Q ein σ–additiver, normierterInhalt auf G (d.h. Q : G → [0, ∞) mit Q(Ω) = 1 und Q( ⋃ n∈N G n) = ∑ n∈N Q(G n)für disjunkte G n ∈ G, n ∈ N mit ⋃ n∈N G n ∈ G).Dann gilt: Es existiert genau ein Wahrscheinlichkeitsmaß P auf A := σ(G) mitP/G = Q/G.Beweis: Siehe Maßtheorie. (Etwa Satz 4.9 im Maßtheorie-Skript (\ ∼falk\downloads\).✷73


Satz 6.17 G 1 , G 2 seien unabhängige Ereignis–Algebren. Dann sind A 1 := σ(G 1 ),A 2 := σ(G 2 ) unabhängige σ–Algebren.Beweis: Zu zeigen:∀A 1 ∈ A 1 , ∀A 2 ∈ A 2 :P (A 1 ∩ A 2 ) = P (A 1 )P (A 2 ).Sei G 1 ∈ G 1 gegeben.1. Fall: P (G 1 ) = 0. Dann gilt:für alle A ∈ A 2 .0 = P (G } 1{{ ∩ A } 2 )⊂G 1= P (G 1 )P (A 2 ) = 074


2. Fall: P (G 1 ) > 0. SetzeQ(A 2 ) := P (G 1 ∩ A 2 )P (G 1 )für A 2 ∈ A 2 .Dann gilt1.∀G 2 ∈ G 2 : Q(G 2 ) = P (G 2 )wegen der Unabhängigkeit von G 1 , G 2 .2. Q ist Wahrscheinlichkeitsmaß auf A 2 ; denn:(a) Q(Ω) = 1.75


(b) A 1 2, A 2 2, . . . sei Folge disjunkter Mengen aus A 2 , dann:( ) ∑Q A n 2 = P ( G 1 ∩ ∑ )n∈N An 2P (G 1 )n∈N= P ( ∑n∈N (G 1 ∩ A n 2) )=∑P (G 1 )n∈N P (G 1 ∩ A n 2)P (G 1 )= ∑ n∈NQ (A n 2) .Aus 1. und 2. folgt mittels des Fortsetzungssatzes 6.16, dass Q(A 2 ) = P (A 2 ) für alleA 2 ∈ A 2 , d.h.P (G 1 ∩ A 2 ) = P (G 1 )P (A 2 ) für alle A 2 ∈ A 2 .Analog schließt man: G 1 ∈ G 1 durch A 1 ∈ A 1 ersetzbar.✷76


Satz 6.18 G i , i ∈ I, seien beliebige Algebren von Ereignissen zum Wahrscheinlichkeitsraum(Ω, A, P ). Dann sind äquivalent:(i) G i , i ∈ I, sind unabhängig.(ii) A i := σ(G i ), i ∈ I, sind unabhängig.(iii) Für je endlich viele verschiedene i 1 , . . . , i k ∈ I und G i1 ∈ G i1 , . . . , G ik ∈ G ik gilt:Beweis:P ( G i1 ∩ . . . ∩ G ik)= P (Gi1 ) · · · P ( G ik).(ii)⇒(i)“ Trivial.” ( ⋃ )” (i)⇒(iii)“ G i 1ist unabhängig von allen Ereignissen aus αj≠i 1G j , speziell von77


G i2 ∩ . . . ∩ G ik , d.h.mittels Induktion.P ( G i1 ∩ ( G i2 ∩ . . . ∩ G ik))= . . . = P (G i1 ) · · · P ( G ik)” (iii)⇒(ii)“ Zu zeigen ist: A i 0∈ A i0 ist unabhängig von allen A ∈ σ( ⋃j≠i 0A j).78


( ⋃ )Sei G i0 ∈ G i0 und H ∈ αj≠i 0G j⇒ 6.8 H ∈ α({G i1 , . . . , G ir }) für geeigneteG i1 ∈ G i1 , . . . , G ir ∈ G ir⇒ 6.10 G i0 und H sind unabhängig, d.h.⎛ ⎞G i0 und α ⎝ ⋃ G j⎠ sind unabhängigj≠i 0⎛ ⎛ ⎞⎞⇒ 6.17 A i0 = σ(G i0 ), σ ⎝α ⎝ ⋃ G j⎠⎠ unabhängig .j≠i 079


Die Behauptung folgt nun aus den Gleichungen:⎛ ⎛ ⎞⎞⎝ ⋃ G j⎠⎠ ( = σj≠i 0Zum zweiten ”=“:σ ⎝α⎛ ⎞⎝ ⋃ G j⎠ )j≠i 0⎛⎜ ⋃⎟= σ ⎝ σ(G j )} {{ }⎠ .j≠i 0=A j⎞” ⊂“: Trivial. 80


” ⊃“: Für i ≠ i 0 gilt:⋃G j ⊃ G ij≠i 0⎛ ⎞⇒ σ ⎝ ⋃ G j⎠ ⊃ σ(G i )j≠i 0⇒ σ⇒ σ⎛ ⎞⎝ ⋃ G j⎠ ⊃ ⋃ σ(G i )j≠i 0 i≠i 0⎛ ⎞ ⎛ ⎞⎝ ⋃ G j⎠ ⊃ σ ⎝ ⋃ σ(G i ) ⎠} {{ }j≠i 0 i≠i 0 =A i✷81


Gegeben seien zwei Zufallsexperimente, die durchgeführt werden, ohne dass sie sichgegenseitig beeinflussen. Gesucht ist ein Wahrscheinlichkeitsraum (Ω, A, P ) zur mathematischenBeschreibung des Zufallsexperimentes, welches darin besteht, dass diebeiden Experimente ohne wechselseitige Beeinflussung — also unabhängig — durchgeführtwerden.Die einzelnen Experimente werden durch (Ω 1 , A 1 , P 1 ), (Ω 2 , A 2 , P 2 ) beschrieben. Naheliegend:Ω := Ω 1 × Ω 2 := {(ω 1 , ω 2 ) : ω 1 ∈ Ω 1 , ω 2 ∈ Ω 2 }.Jedes A 1 ∈ A 1 kann identifiziert werden mit A 1 × Ω 2 ,jedes A 2 ∈ A 2 kann identifiziert werden mit Ω 1 × A 2 ,d.h. Forderung:A 1 × Ω 2 , Ω 1 × A 2 sind Ereignisse⇒ (A 1 × Ω 2 ) ∩ (Ω 1 × A 2 ) = A 1 × A 2 Ereignis.82


Daher:Ferner soll die ForderungA := σ ({A 1 × A 2 : A 1 ∈ A 1 , A 2 ∈ A 2 }) .P 1 (A 1 ) = P (A 1 × Ω 2 ), P 2 (A 2 ) = P (Ω 1 × A 2 )erfüllt sein.Zur Unabhängigkeit: A 1 ×Ω 2 und Ω 1 ×A 2 sollen stets unabhängig sein für A 1 ∈ A 1 ,A 2 ∈ A 2 , d.h. es soll geltenP (A 1 × A 2 ) = P ((A 1 × Ω 2 ) ∩ (Ω 1 × A 2 ))= P (A 1 × Ω 2 )P (Ω 1 × A 2 )= P 1 (A 1 )P 2 (A 2 ).83


Satz 6.19 (Ω 1 , A 1 , P 1 ), . . . , (Ω n , A n , P n ) seien Wahrscheinlichkeitsräume. SetzeundΩ := Ω 1 × . . . × Ω n:= {(ω 1 , . . . , ω n ) : ω i ∈ Ω i , 1 ≤ i ≤ n}A := σ({A 1 × . . . × A n : A i ∈ A i , 1 ≤ i ≤ n}.Dann gilt: Es existiert genau ein Wahrscheinlichkeitsmaß auf (Ω, A) mitP (A 1 × . . . × A n ) = P 1 (A 1 ) · · · P n (A n ).Beweisskizze: Definiere P auf Mengensystem Z := {A 1 ×. . .×A n : A i ∈ A i , 1 ≤i ≤ n} durchn∏P (A 1 × . . . × A n ) := P (A i ).i=184


Dann Fortsetzung von P (zu einem (eindeutig bestimmten) σ–additiven Inhalt) aufα(Z). Die Behauptung folgt dann aus dem Fortsetzungssatz 6.16.✷Definition 6.20 (Ω, A, P ) ist unabhängiges Produkt der Wahrscheinlichkeitsräume(Ω 1 , A 1 , P 1 ), . . . , (Ω n , A n , P n ) :⇔ (Ω, A, P ) wird definiert gemäß 6.19.Schreibweise: Ω = Ω 1 × . . . × Ω n , A = A 1 ⊗ . . . ⊗ A n , P = P 1 × . . . × P n . Im Fall(Ω 1 , A 1 , P 1 ) = . . . = (Ω n , A n , P n ) = (Ω, A, P ),d.h. unabhängige n–fache Wiederholung von (Ω, A, P ), schreiben wir kurz (Ω n , A n , P n ).85


7 Zufallsvariablen(Ω, A, P ) zufälliges Experiment, f : Ω → Ω ′ eine Abbildung. Es sei ω ein Ergebnis;häufig interessiert weniger der exakte Ausgang ω sondern nur der Wert f(ω). Beispielsweiseinteressiert beim Schuss auf eine Zielscheibe weniger die genaue Lage desEinschusses sondern der Abstand zum Mittelpunkt.Daher wird man vor allem Ereignisse der Gestaltf −1 (A ′ ) := {ω ∈ Ω : f(ω) ∈ A ′ }betrachten, wobei A ′ die im Bildraum von f interessierenden Ereignisse durchläuft.Satz 7.1 (Ω, A, P ) sei Wahrscheinlichkeitsraum und f : Ω → Ω ′ eine Abbildung.SetzeA ′ := {A ′ ⊂ Ω ′ : f −1 (A ′ ) ∈ A}undP ′ (A ′ ) := P (f −1 (A ′ )) für alle A ′ ∈ A ′ .86


Dann ist (Ω ′ , A ′ , P ′ ) ein Wahrscheinlichkeitsraum.Beweis:1. f −1 (Ω ′ ) = Ω ∈ A, d.h. Ω ′ ∈ A ′ .2. Sei A ′ ∈ A ′ ⇒ f −1 (A ′ ) =: A ∈ A⇒ f −1 (Ω ′ \A ′ ) = A c ∈ A⇒ A ′c = Ω ′ \A ′ ∈ A ′ .87


3. Sei A ′ n ∈ A ′ , n ∈ N⇒ f −1 (A( ′ n) ∈ A,)n ∈ N⋃⇒ f −1 A ′ n = ⋃ f −1 (A ′ n) ∈ An∈N n∈N⇒ ⋃ A ′ n ∈ A ′ .n∈NAlso ist A ′ eine σ–Algebra. Ferner ist P ′ ein Wahrscheinlichkeitsmaß auf (Ω ′ , A ′ ):1. P ′ (Ω ′ ) = P (f −1 (Ω ′ )) = P (Ω) = 1.88


2. Für paarweise disjunkte A ′ n, n ∈ N, gilt:( ) ( ( ))∑ ∑P ′ A ′ n = P f −1 A ′ nn∈N n∈N( )∑= P f −1 (A ′ n)n∈N= ∑ P ( f −1 (A ′ n) )n∈N= ∑ P ′ (A ′ n) .n∈NBemerkung 7.2 A ′ heißt finale σ–Algebra bezüglich f; P ′ heißt das durch P und fauf A ′ induzierte Wahrscheinlichkeitsmaß oder Bildmaß von P unter f.89✷


Definition 7.3 (Ω, A, P ) sei ein Wahrscheinlichkeitsraum, (Ω ′ , A ′ ) ein messbarer Raum,dann: f : Ω → Ω ′ heißt A, A ′ –messbar oder Zufallsgröße, falls f −1 (A ′ ) ⊂ A, d.h.falls für alle A ′ ∈ A ′ gilt:f −1 (A ′ ) ∈ A,(d.h. A ′ ist sub–σ–Algebra der finalen σ–Algebra.) Schreibweise:f : (Ω, A) → (Ω ′ , A ′ ).Satz 7.4 f : (Ω, A) → (Ω ′ , A ′ ). Dann:f −1 (A ′ ) := {f −1 (A ′ ) : A ′ ∈ A ′ } ist sub–σ–Algebra von A.(= zu f gehörende Vergröberung von A, durch f bestimmte Ereignisse von A).Beweis:90


1. Ω = f −1 (Ω ′ ).2. A ∈ f −1 (A ′ )⇒ ∃A ′ ∈ A ′ : A = f −1 (A ′ )⇒ A c = f −1 (A ′c ) ∈ f −1 (A ′ ).3. A n ∈ f −1 (A ′ ), n ∈ N⇒ ∃A ′ n ∈ A ′ : A n = f −1 (A ′ n), n ∈ N⇒ ⋃ A n = ⋃ f −1 (A ′ n)n∈N n∈N)= f −1 ( ⋃n∈NA ′ n∈ f −1 (A ′ ).✷91


Satz 7.5 (Ω, A), (Ω ′ , A ′ ) messbare Räume, S ⊂ P(Ω ′ ) mit σ(S) = A ′ . Dann gilt:Beweis:⇒“ Trivial.”f : Ω → Ω ′ ist A, A ′ –messbar⇔ f −1 (S) ∈ A für alle S ∈ S.” ⇐“ Setze F := {F ∈ P(Ω ′ ) : f −1 (F ) ∈ A}.F ist (die finale) σ–Algebra mit F ⊃ S ⇒F ⊃ σ(S) = A ′ .✷92


Satz 7.6 (Ω, A), (Ω ′ , A ′ ), (Ω ′′ , A ′′ ) messbare Räume, f : (Ω, A) → (Ω ′ , A ′ ),g :(Ω ′ , A ′ ) → (Ω ′′ , A ′′ ). Dann gilt:g ◦ f : Ω → Ω ′′ ist A, A ′′ –messbar.Beweis: Sei A ′′ ∈ A ′′ , dann:(g ◦ f) −1 (A ′′ ) = f −1 (g −1 (A ′′ )} {{ }∈A ′ ) ∈ A.✷Definition 7.7 I n sei die Menge aller n–dimensionalen Intervalle im R n .B n := σ(I n ) ⊂ P(R n )ist das System der n–dimensionalen Borelmengen bzw. die Borel–σ–Algebra des R n .93


Bemerkung 7.8 SetzeI 0 n := {(a, b] : {x = (x 1 , . . . , x n ) ∈ R n :a i < x i ≤ b i , i = 1 . . . , n} füra = (a 1 , . . . , a n ), b = (b 1 , . . . , b n ) ∈ R n }.dann gilt:Denn z.B.:B n = σ(I 0 n).(a − 1 m , b ][a, b] = ⋂ m∈Nmit a − 1/m = (a 1 − 1/m, . . . , a n − 1/m);(a, b) = ⋃ (a, b − 1 ]mm∈N94


u.s.w.⇒ B n ⊃ σ(I 0 n) ⊃ I n⇒ B n ⊃ σ(I 0 n) ⊃ σ(I n ) = B n⇒ σ(I 0 n) = B n .Satz 7.9 B n enthält alle (bezüglich der euklidischen Topologie des R n ) offenen undabgeschlossenen Mengen des R n .Beweis: I Q n := Menge aller n–dimensionalen Intervalle in I n mit rationalen Endpunk-95


ten. I Q nist abzählbar (denn Q 2n ist abzählbar).G ⊂ R n sei offen⋃⇒ G =I ∈ B n (als abzählb. Vereinigung);I⊂G, I∈I Q nF ⊂ R n abgeschlossen⇒ F c offen und damit in B n⇒ F ∈ B n .✷Satz 7.10 B n = B ⊗ · · · ⊗ B } {{ }n–mal= B n .Beweis: n = 2; B ⊗ B = σ({B 1 × B 2 : B 1 , B 2 ∈ B}.96


1. B 2 ⊂ B ⊗ B, da I 2 ⊂ B ⊗ B.2. Zu zeigen: B ⊗ B ⊂ B 2 .Es genügt zu zeigen, dass B 1 × B 2 ∈ B 2 , falls B 1 , B 2 ∈ B.(a) Setze für I ∈ IB I := {B ⊂ R : B × I ∈ B 2 };B I ist eine σ–Algebra(!) mit I ⊂ B I , d.h. B ⊂ B I .Also gilt B 1 × I ∈ B 2 , falls B 1 ∈ B, I ∈ I.(b) Setze für B ∈ BB B := {A ⊂ R : B × A ∈ B 2 };B B ist eine σ–Algebra(!) mit I ⊂ B B nach (a), d.h. B ⊂ B B .Also gilt B 1 × B 2 ∈ B 2 , falls B 1 , B 2 ∈ B.Analog schließt man damit von n auf n + 1.97


✷Definition 7.11 (Ω, A, P ) Wahrscheinlichkeitsraum;f : Ω → R ist Zufallsvariable:⇔ f ist A, B–messbar.Satz 7.12 (Ω, A, P ) Wahrscheinlichkeitsraum, f : Ω → R beliebig. Dann sind äquivalent:1. f ist Zufallsvariable, d.h. f −1 (B) ∈ A für alle B ∈ B.2. {f ≤ y} := {ω ∈ Ω : f(ω) ≤ y} ∈ A für alle y ∈ R.3. {f < y} := {ω ∈ Ω : f(ω) < y} ∈ A für alle y ∈ R.4. {f ∈ I} := {ω ∈ Ω : f(ω) ∈ I} ∈ A für alle Intervalle I in R.98


5. {f ∈ G} := {ω ∈ Ω : f(ω) ∈ G} ∈ A für alle G ∈ G := Menge der offenenTeilmengen von R.6. {f ∈ F } := {ω ∈ Ω : f(ω) ∈ F } ∈ A für alle F ∈ F := Menge derabgeschlossenen Teilmengen von R.Beweis: Folgt aus 7.5 (s. 7.8 und 7.9), daErzeuger der σ–Algebra B sind.{(−∞, y] : y ∈ R}, {(−∞, y) : y ∈ R}, I 1 , G, F✷Beispiel 7.13 Beispiele für Zufallsvariablen:1.f ∈ {0, 1} Ω ist Zufallsvariable⇔ ∀y ∈ R : {ω ∈ Ω : f(ω) ≤ y} ∈ A99


wobeiDabei ist{ω ∈⎧Ω : f(ω) ≤ y}⎨ Ω, falls y ≥ 1,=∅, falls y < 0,⎩{ω ∈ Ω : f(ω) = 0}, falls 0 ≤ y < 1.⇔ f = 1 A für ein geeignetes A ∈ A.1 A (ω) =die Indikatorfunktion der Menge A.{ 1, falls ω ∈ A,0 sonst,∈ A2. Falls A = {∅, Ω}, so sind nur konstante Funktionen Zufallsvariablen.3. Falls A = P(Ω), so sind alle f : Ω → R Zufallsvariablen.100


Definition 7.14 (Ω, A, P ) Wahrscheinlichkeitsraum; dann:f : Ω → R n ist n–dimensionaler Zufallsvektor:⇔ f ist A, B n –messbar.Satz 7.15f = (f 1 , . . . , f n ) : Ω → R n ist n–dim. Zufallsvektor⇔ f i : Ω → R ist Zufallsvariable, i = 1, . . . , n.Beweis:⇒“ Sei B ∈ B, dann:”i−te Stelle{}}{fi −1 (B) = f −1 (R } × · · · × {{ B × · · · × R}) ∈ A.∈B n101


” ⇐“ 1. f −1 (B 1 × · · · × B n ) = ⋂fi −1 (B i )} {{ }1≤i≤n ∈Afalls B i ∈ B, i = 1, . . . , n.2. {B ⊂ R n : f −1 (B) ∈ A} ist (finale) σ–Algebra (7.1).Aus 1. und 2. folgt, dassd.h. f ist Zufallsvektor.∈ A,{B ⊂ R n : f −1 (B) ∈ A} ⊃ B ⊗ · · · ⊗ B = 7.10 B n ,✷Definition 7.16g : R n → R ist Bairesche Funktion:⇔ g ist B n , B–messbar.102


Satz 7.17 f i : Ω → R sei Zufallsvariable, i = 1, . . . , n, g : R n → R BairescheFunktion. Dann ist g ◦ (f 1 , . . . , f n ) Zufallsvariable.Beweis: Folgt aus 7.15 und 7.6.✷Satz 7.18 g : R n → R stetig ⇒ g ist Bairesche Funktion.Beweis: g stetig ⇒ ∀ offenen Teilmengen O von R: g −1 (O) ist offen im R n , d.h.g −1 (O) ∈ B n . Nach Satz 7.5 gilt damit g −1 (B) ∈ B n für alle B ∈ B, da die offenenMengen B erzeugen (7.9).✷103


Satz 7.19 f 1 , f 2 seien Zufallsvariablen, a ∈ R. Dann gilt:sind wieder Zufallsvariablen.af 1 ,f 1 + f 2 ,f 1 f 2 ,f 1 /f 2 (falls f 2 (ω) ≠ 0 für alle ω ∈ Ω),f 1 ∨ f 2 := max(f 1 , f 2 ),f 1 ∧ f 2 := min(f 1 , f 2 )Beweis: R ∋ x ↦→ ax, R 2 ∋ (x 1 , x 2 ) ↦→ x 1 +x 2 ∈ R u.s.w. sind stetige Abbildungenvon R → R bzw. R → R 2 , d.h. Satz 7.17 und 7.18 anwendbar.✷Bemerkung Der Raum der Zufallsvariablen über (Ω, A, P ) ist ein linearer Raum.104


Satz 7.20 f 1 , f 2 , . . . seien Zufallsvariablen.1. f n (ω), n ∈ N, sei für jedes ω ∈ Ω nach oben beschränkt⇒ sup f n ist Zufallsvariable.n∈N((sup n∈N f n )(ω) = sup n∈N (f n (ω))).2. f n (ω), n ∈ N, sei für jedes ω ∈ Ω nach unten beschränkt⇒ infn∈N f n ist Zufallsvariable.3. f n (ω), n ∈ N, sei für jedes ω ∈ Ω beschränkt⇒ lim infn∈Nf n, lim supn∈N4. f n (ω), n ∈ N, sei für jedes ω ∈ Ω konvergentf n sind Zufallsvariablen.⇒ limn∈Nf n ist Zufallsvariable.105


Beweis:1. ∀y ∈ R : {ω ∈ Ω : sup n∈N f n (ω) ≤ y} = ⋂ n∈N {ω ∈ Ω : f n(ω) ≤ y} ∈ A.2. {ω ∈ Ω : inf n∈N f n (ω) < y} = ⋃ n∈N {ω ∈ Ω : f n(ω) < y} ∈ A.3. lim sup n∈N f n (ω) = inf m∈N(supn≥m f n (ω) ) , lim inf n∈N f n (ω) = sup m∈N (inf n≥m f n (ω)),d.h. die Behauptung folgt aus 1. und 2.4. lim n∈N f n = lim sup n∈N f n = lim inf n∈N f n , d.h. 3. anwendbar.Definition 7.21 f i , i ∈ I, sei eine Familie zufälliger Größen auf einem Wahrscheinlichkeitsraum(Ω, A, P ), wobei f i : (Ω, A) → (Ω i , A i ), i ∈ I.Die Familie f i , i ∈ I, heißt unabhängig :⇔ die Familie A(f i ) = fi−1 (A i ), i ∈ I, derzugehörigen Vergröberungen ist unabhängig.✷106


Bemerkung 7.22 f i , i ∈ I, unabhängig ⇔ f i , i ∈ I 0 , unabhängig für alle endlichenTeilmengen I 0 von I (s. 6.18).Satz 7.23f i : (Ω, A) → (Ω ′ i, A ′ i), i = 1, . . . , n unabhängig⇔ P ({f 1 ∈ A ′ 1, . . . , f n ∈ A ′ n}= P ({f 1 ∈ A ′ 1}) · · · P ({f n ∈ A ′ n})für beliebige A ′ i ∈ A ′ i, i = 1, . . . , n.107


Beweis:f 1 , . . . , f n unabhängig⇔ A(f 1 ), . . . , A(f n ) unabhängig⇔ 6.18 für beliebige A ′ i ∈ A ′ i, i = 1, . . . , n, sind dieEreignisse {f 1 ∈ A ′ 1}, . . . , {f n ∈ A ′ n}unabhängig.Satz 7.24 f i : (Ω, A) → (Ω ′ i , A′ i ), i ∈ I, unabhängig, g i : (Ω ′ i , A′ i ) → (Ω′′ i , A′′ i ), i ∈I.Dann sind g i ◦ f i : (Ω, A) → (Ω ′′ ), i ∈ I, unabhängig.Beweis:i , A′′ i108✷


1. Nach Satz 7.6 ist g i ◦ f i A, A i –messbar, i ∈ I.2. Für endliches I 0 ⊂ I und A ′′i ∈ A′′ i , i ∈ I 0, gilt:P {g i ◦ f i ∈ A ′′i , i ∈ I 0 }= P {f i ∈ gi −1 (A ′′i ), i ∈ I} {{ } 0 }∈A ′ i= ∏ P {f i ∈ gi −1 (A ′′i )} (da f i unabhängig)i∈I 0= ∏ i∈I 0P {g i ◦ f i ∈ A ′′i }.Definition 7.25 f 1 , f 2 , . . . seien Zufallsgrößen auf (Ω, A, P ). C ∈ A heißt terminales✷109


Ereignis bzgl. f 1 , f 2 , . . . :⇔C ∈ σ( ⋃m≥nA(f m ))für alle n ∈ N.⋂n∈N σ ( ⋃m≥n A(f m) ) heißt die zu f 1 , f 2 , . . . gehörende terminale σ–Algebra.Beispiel 7.261. {ω ∈ Ω : f n (ω) > 0 unendlich oft},2. {ω ∈ Ω : f n (ω), n ∈ N, ist konvergent},3. { ω ∈ Ω : 1 ∑ nn i=1 f n(ω), n ∈ N, ist konvergent }sind terminale Ereignisse.110


Satz 7.27 (Kolmogoroffsches 0–1–Gesetz) C sei terminales Ereignis zur Folgeunabhängiger Zufallsvariablen f 1 , f 2 , . . . ⇒ P (C) = 0 oder 1;Bemerkung 7.28 Vergleiche Borel–Cantelli Lemma: A 1 , A 2 , . . . unabhängige Ereignisse⇒ 1 A1 , 1 A2 , . . . unabhängige Zufallsvariablen;{}lim supn∈NA n =ω ∈ Ω : ∑ n∈N1 An (ω) = ∞ist terminales Ereignis zu 1 A1 , 1 A2 , . . . mit( ) { ∑ 0, fallsP lim sup A n =n∈N P (A n) < ∞,n∈N1, falls ∑ n∈N P (A n) = ∞.Beweis: Annahme: P (C) > 0. Wir zeigen: P (C) = 1.111


Für A ∈ A(f n , n ∈ N) := σ ( ⋃n∈N A(f n) ) definieren wirP ∗ (A) := P (A|C) =⇒ P ∗ ist Wahrscheinlichkeitsmaß mitP (A ∩ C)P (C)P ∗ (A) = P (A) für alle A ∈ A 0 := ⋃ n∈NA(f m : m ≤ n),mitA(f m : m ≤ n) := σ( ) ⋃A(f m ) ,m≤ndenn für A ∈ A 0 gilt: A, C sind unabhängig.A 0 ist eine Algebra(!) mit A(f n , n ∈ N) = σ(A 0 ).112


Fortsetzungssatz 6.16 ⇒ P ∗ = P auf A(f n , n ∈ N), d.h.P ∗ P (A ∩ C)(A) = = P (A)P (C)für alle A ∈ A(f n , n ∈ N)⇒ P (A ∩ C) = P (A)P (C)insbesondere für A = C (C ∈ A(f n , n ∈ N))⇒ P (C) = P (C) 2⇒ P (C) = 1.✷


8 IntegrationstheorieEs sei f eine Zufallsvariable, die nur die Werte a 1 , . . . , a m annimmt, p i := P {f = a i },i = 1, . . . , m.Bei N–facher unabhängiger Wiederholung des Experimentes seien α 1 , . . . , α N (∈{a 1 , . . . , a m }) die beobachteten Werte von f. Die Erfahrung zeigt, dass sich das arithmetischeMittel1N∑α iNi=1offenbar gegen einen gewissen Wert stabilisiert. Was ist das für eine Zahl?Dazu anschaulich: H i (Häufigkeit) bezeichne die Anzahl des Eintretens von a i unterden N Durchführungen des Experimentes, i = 1, . . . , m. Nach der Erfahrung wirdgelten:H iN ≈ p i, d.h. H i ≈ p i N.114


Damit:α 1 + · · · + α NN= H 1a 1 + · · · + H m a mNm∑ H i=N a ii=1m∑≈ a i p i .i=1Dies wird der zu erwartende, d.h. der Erwartungswert des arithmetischen Mittels sein.Den Begriff des Erwartungswertes werden wir in diesem Kapitel untersuchen.Definition 8.1115


1. e einfache Funktion :⇔m∑e = α i 1 Aii=1mit geeignetem m ∈ N, α i ≥ 0, A i ∈ A, i = 1, . . . , m.2. E := Menge der einfachen Funktionen.Bemerkung 8.21. E = Menge aller nicht–negativen Zufallsvariablen über (Ω, A, P ), die nur endlichviele Werte annehmen.2. e 1 , e 2 ∈ E, α ∈ R +⇒ αe 1 , e 1 + e 2 , e 1 e 2 , e 1 ∨ e 2 , e 1 ∧ e 2 ∈ E.3. e ∈ E ⇒ e = ∑ 1≤i≤m α i1 Ai116


mit disjunkten A i ∈ A und ⋃ 1≤i≤m A i = Ω.Satz 8.3 Es geltee = ∑α i 1 Ai = ∑β j 1 Bj ∈ E1≤i≤m1≤j≤nmit disjunkten A i ∈ A, i = 1, . . . , m, und disjunkten B j ∈ A, j = 1, . . . , n. Dannfolgt:∑α i P (A i ) = ∑β j P (B j ).1≤i≤m1≤j≤n117


Beweis: O.B.d.A. annehmbar, dass ⋃ 1≤i≤m A i = ⋃ 1≤j≤m B j = Ω.1 Ai = ∑1 Ai ∩B j; 1 Bj = ∑⇒ e ==e =1≤j≤n∑1≤i≤m∑α i 1 Ai1≤i≤m;1≤j≤n∑1≤j≤n;1≤i≤mα i 1 Ai ∩B j;β j 1 Bj ∩A i1≤i≤n⇒ ∀i, j mit A i ∩ B j ≠ ∅ : α i = β j⇒ ∑α i P (A i )1≤i≤m==∑α i P (A i ∩ B j )1≤i≤m;1≤j≤n∑1181≤i≤m;1≤j≤n= ∑ β j P (B j ).β j P (B j ∩ A i )1 Ai ∩B j


Definition 8.4 Für e = ∑ 1≤i≤m α i1 Ai ∈ E mit disjunkten A i und α i ≥ 0 definierenwir∫ ∫e dP := e dP := ∑α i P (A i ),das Integral von e über Ω.Ω1≤i≤m✷Satz 8.5 Für e, e 1 , e 2 ∈ E gilt:1. ∫∫αe dP = αe dP, α ≥ 0,2. ∫e 1 + e 2 dP =∫e 1 dP +∫e 2 dP,119


3. e = ∑ 1≤i≤m α i1 Ai mit α i ≥ 0 und beliebigen A i , d.h. nicht notwendig disjunktenA i ⇒∫e dP = ∑α i P (A i ),4.e 1 ≤ e 2 ⇒∫1≤i≤me 1 dP ≤∫e 2 dP.Beweis:” 1.“ e = ∑ 1≤i≤m α i1 Ai mit disjunkten A i ⇒ αe = ∑ 1≤i≤m (αα i)1 Ai ⇒ Behauptung.” 2.“ e 1 = ∑ i α i1 Ai mit disjunkten A i , e 2 = ∑ j β j1 Bj mit disjunkten B j . O.b.d.A.120


gelte ⋃ i A i = ⋃ j B j = Ω;e 1 = ∑ i,jα i 1 Ai ∩B j,e 2 = ∑ i,jβ j 1 Ai ∩B j⇒ e 1 + e 2 = ∑ i,j(α i + β j )1 Ai ∩B jmit A i ∩ B j , (i, j), disjunkt121


∫⇒ e 1 + e 2 dP∑= Def. (α i + β j )P (A i ∩ B j )i,j= ∑ α i P (A i ∩ B j ) + ∑ β j P (A i ∩ B j )i,ji,j∫ ∫= e 1 dP + e 2 dP.” 3.“ Folgt aus 1. und 2.: ∫ ∑iα i 1 Ai dP = ∑ iα i∫1 Ai dP.122


” 4.“ Nach Beweisteil 2. besitzen e 1 und e 2 die Darstellungene 1 = ∑α i 1 Ai , e 2 = ∑β i 1 Ai1≤i≤m1≤i≤mmit disjunkten A i ≠ ∅⇒ ∫α i ≤ β i , 1 ≤ i ≤ m,⇒ e 1 dP = ∑ α i P (A i )i≤ ∑ ∫i=β i P (A i )e 2 dP.✷123


Satz 8.6 Zu jeder Zufallsvariablen f ≥ 0 existieren e n ∈ E, n ∈ N, mite 1 ≤ e 2 ≤ . . . und f = limn∈Ne n .Beweis: Setzee n :=mit A n,i := {i/2 n ≤ f < (i + 1)/2 n }.∑0≤i


Wähle a ∈ [0, 1) und setze K n := {ae ≤ e n }, n ∈ N.K n ∈ A, da ae − e n A, B–messbar,e1 Kn = ∑ 1≤i≤m α i1 Ai ∩K n∈ E,K n ↑ Ω, also A i ∩ K n ↑ A i und damitlim n∈N P (A i ∩ K n ) = P (A i ), i = 1, . . . , m, ⇒∫a e dP = a ∑α i P (A i )1≤i≤m= a limn∈N∫= limn∈N∫≤ limn∈N∑1≤i≤mae1 Kn} {{ }≤e ne n dP.α i P (A i ∩ K n )dP125


Für a ↑ 1 folgt nun die Behauptung.✷Korollar 8.8 e 1 ≤ e 2 ≤ . . . , e ′ 1 ≤ e ′ 2 ≤ . . . ∈ E mit lim n∈N e n = lim n∈N e ′ n (≤ ∞).Dann gilt:∫∫lim e n dP = lim e ′ n dP.n∈Nn∈NDefinition 8.9 Für eine Zufallsvariable f ≥ 0 setzen wir∫∫f dP := lim e n dPn∈N(Integral von f über (Ω, A, P )), fallsf = limn∈Ne n , e 1 ≤ e 2 ≤ . . . ∈ E.126


Satz 8.10 Für nicht negative Zufallsvariablen f, f 1 , f 2 gilt:1. ∫∫αf dP = α f dP, α ≥ 0,2. ∫f 1 + f 2 dP =∫f 1 dP +∫f 2 dP,3.f 1 ≤ f 2 ⇒∫f 1 dP ≤∫f 2 dP.Beweis: Nach Satz 8.6 existieren Folgen einfacher Funktionen e 1 ≤ e 2 ≤ . . . , e ′ 1 ≤e ′ 2 ≤ . . ., ẽ 1 ≤ ẽ 2 . . . mit lim n∈N e n = f, lim n∈N e ′ n = f 1 , lim n∈N ẽ n = f 2 .127


” 1.“ αe n ∈ E, n ∈ N, αe 1 ≤ αe 2 ≤ . . . , lim n∈N αe n = αf. Damit:∫∫αf dP = Def. lim αe n dPn∈N∫= 8.5 lim α e n dPn∈N= α lim e n dP∫= Def. α f dP.n∈N∫128


” 2.“ e′ n + ẽ n ∈ E, n ∈ N, e ′ 1 + ẽ 1 ≤ e ′ 2 + ẽ 2 ≤ · · · , lim n∈N (e ′ n + ẽ n ) = f 1 + f 2 . Damit:∫∫f 1 + f 2 dP = Def. lim e ′ n + ẽ n dPn∈N(∫ ∫ )= 8.5 lim e ′ n dP + ẽ n dPn∈N∫ ∫= f 1 dP + f 2 dP.129


” 3.“ e ′ n ≤ lim ẽ n (= f 2 )∫n∈N∫⇒ 8.7 e ′ n dP ≤ lim ẽ n dPn∈N∫= Def. f 2 dP∫∫⇒ Def. f 1 dP = lim e ′ n dPn∈N∫≤ f 2 dP.✷130


Satz 8.11 f, f 1 , f 2 , . . . seien nicht negative Zufallsvariablen mit f 1 ≤ f 2 ≤ · · · undlim n∈N f n = f. Dann gilt:∫∫f dP = lim f n dP.n∈NBeweis: Zu f n existiert eine monoton wachsende Folge e n,m , m ∈ N, in E mitalso:lim e n,m = f n ,m∈Ne 1,1 ≤ e 1,2 ≤ · · · ↑ f 1e 2,1.≤ e 2,2.≤ · · · ↑ f 2.e n,1 ≤ e n,2 ≤ · · · ↑ f n. . .↑ f.131


Setze e n := max(e 1,n , . . . , e n,n ). Dann gilt:1.e n ∈ E (8.2,3.), e 1 ≤ e 2 ≤ · · ·2.e n ≤ max(f 1 , . . . , f n ) = f n ≤ f.132


3.∀m ≤ n : e n ≥ e m,n⇒ lim e n n∈N≥ lim⇒ lim e n n∈N≥ f⇒ 2. lim e n = f∫ n∈N∫⇒ f dP = Def. limn∈N∫≤ 2. lim∫n∈N∫f dP ≥ 8.10⇒∫n∈Ne m,n∫f dP = limn∈N133f n dP= f me n dPf n dP ;f n dP.


✷Definition 8.12 f sei beliebige Zufallsvariable.1. f + := max(f, 0) ist der Positivteil von f,f − := max(−f, 0) ist der Negativteil von f; f = f + − f − .2. f ist integrierbar :⇔ ∫ f + dP < ∞ und ∫ f − dP < ∞.3. L := Menge aller integrierbaren Funktionen (auf (Ω, A, P )).4. f ist quasiintegrierbar :⇔ ∫ f + dP < ∞ oder ∫ f − dP < ∞.5. ∫ f dP := ∫ f + dP − ∫ f − dP , falls f quasiintegrierbar ist.Satz 8.13 f, f 1 , f 2 beliebige Zufallsvariablen. Dann:1. f ∈ L, α ∈ R ⇒ αf ∈ L und ∫ αf dP = α ∫ f dP .134


2. f 1 , f 2 ∈ L ⇒ f 1 + f 2 ∈ L und ∫ f 1 + f 2 dP = ∫ f 1 dP + ∫ f 2 dP.3. f 1 ≤ f 2 , f 1 , f 2 ∈ L ⇒ ∫ f 1 dP ≤ ∫ f 2 dP.4. f ∈ L ⇔ |f| ∈ L und es gilt in diesem Fall | ∫ f dP | ≤ ∫ |f| dP.5. g A, B–messbar mit f 1 ≤ g ≤ f 2 , f 1 , f 2 ∈ L ⇒ g ∈ L.Beweis: Mittels 8.10.✷Satz 8.14 (v. d. monotonen Konvergenz)1. f n ∈ L, n ∈ N, f n ↑ f < ∞ ⇒ f ist quasiintegrierbar und ∫ f n dP ↑ ∫ f dP .2. f n ∈ L, n ∈ N, f n ↓ f > −∞ ⇒ f ist quasiintegrierbar und ∫ f n dP ↓ ∫ f dP .Beweis: Genügt 1. zu beweisen (Übergang zu −f n , −f). O.E. sei f n ≥ 0 (sonstÜbergang zu f ′ n := f n − f 1 ). Dann folgt die Behauptung aber aus 8.11.✷135


Satz 8.15 (Lemma von Fatou)1. f n ∈ L, n ∈ N, f n ≤ h, h ∈ L, lim sup n∈N f n > −∞ ⇒ lim sup n∈N f n istquasiintegrierbar und∫ ∫lim sup f n dP ≥ lim sup f n dP.n∈Nn∈N2. f n ∈ L, n ∈ N, f n ≥ g, g ∈ L, lim inf n∈N f n < ∞ ⇒ lim inf n∈N f n ist quasiintegrierbarund ∫∫lim inf f n dP ≤ lim inf f n dP.n∈Nn∈NBeweis: Genügt 1. zu beweisen (Übergang zu −f n ). Es gilt:( )lim sup f n = lim sup f m .n∈N n∈N m≥n136


sup m≥n f m ∈ L, da f n ≤ sup m≥n f m ≤ h (8.13);sup m≥n f m ↓ lim sup n∈N f n ⇒ 8.14 lim sup n∈N f n ist quasiintegrierbar und∫∫sup f m dP ↓ lim sup f n dPm≥nn∈N∫( ∫ )⇒ lim sup f n dP = lim sup f m dPn∈Nn∈N m≥n(∫ )≤ lim sup f m dPn∈N m≥n∫= lim sup f n dP.n∈N✷Satz 8.16 (v. d. dominierten Konvergenz) f n , n ∈ N, Zufallsvariablen mit lim n∈N f n137


f, |f n | ≤ g, g ∈ L. Dann gilt:∫f n , f ∈ L und limn∈Nf n dP =∫f dP.Beweis: 8.13⇒ f n , f ∈ L. Das Lemma von Fatou liefert:∫ ∫lim sup f n dP ≤ lim sup f n dPn∈N∫n∈N= f dP∫= lim inf f n dPn∈N∫≤ lim inf f n dP.n∈N✷138


Satz 8.17 (Transformationssatz für Integrale) (Ω, A, P ) Wahrscheinlichkeitsraum,(Ω ′ , A ′ ) messbarer Raum, T : (Ω, A) → (Ω ′ , A ′ ).P ′ := P ∗ T sei das durch P und T auf A ′ induzierte Wahrscheinlichkeitsmaß(Bildmaß), d.h.P ′ (A ′ ) = P (T −1 (A ′ )), A ′ ∈ A ′ ,s. Satz 7.1.f ′ : Ω ′ → R sei Zufallsvariable. Dann:und in diesem Fall gilt:Beweis:f ′ ∈ L(Ω ′ , A ′ , P ′ ) ⇔ f ′ ◦ T ∈ L(Ω, A, P )∫Ω ′ f ′ dP ′ =∫Ωf ′ ◦ T dP.139


1. Sei e ′ ∈ E(Ω ′ , A ′ ), d.h. e ′ = ∑ 1≤i≤m α i1 A′imit α i ≥ 0, A ′ i ∈ A′ ,⇒ e := e ′ ◦ T =∑)α i(1 A′i◦ T1≤i≤m= ∑1≤i≤mα i 1 Ai ∈ E(Ω, A)140


mit A i := T −1 (A ′ i ) und ∫Ω ′ e ′ dP ′ =∑1≤i≤m= ∑1≤i≤m= ∑=1≤i≤m∫Ωe dP.α i P ′ (A ′ i)α i P (T −1 (A ′ i))α i P (A i )2. Sei f ′ : Ω ′ → R + Zufallsvariable. Dann existieren e ′ n ∈ E(Ω ′ , A ′ ) mit e ′ n ↑ f ′⇒ e n := e ′ n ◦ T ↑ f ′ ◦ T , e n ∈ E(Ω, A).141


Somit gilt nach 1.:∫∫f ′ dP ′ = Def. lim e ′Ω ′ n∈N Ω ′ n dP ′= 1. lim e n dPn∈N∫∫Ω= Def. f ′ ◦ T dP.3. Für beliebiges f mittels Zerlegung f = f + − f − .Ω✷Definition 8.181. Es sei A ∈ A, f Zufallsvariable und f1 A quasiintegrierbar. Dann:∫ ∫∫f dP := f(ω) P (dω) := f1 A dP.AA142


2. f sei quasiintegrierbar. Die Abbildungheißt unbestimmtes Integral von f.A ∋ A ↦→∫Af dP∫ Bemerkung Es seien A, B ∈ A, A ∩ B = ∅ und f quasiintegrierbar. Dann giltA∪B f dP = ∫ A f dP = ∫ B f dP .Satz 8.19 f ≥ 0 sei Zufallsvariable mit ∫ f dP = 1. Dann:∫Q : A → R mit Q(A) := f dPist ein Wahrscheinlichkeitsmaß auf A.Beweis:143A


1. Q(A) ≥ 0 offensichtlich,2. Q(Ω) = 1 trivial.144


145


3. A n ∈ A, n ∈ N, seien paarweise disjunkt. Dann:( ) ⋃A nn∈NQ=∫= Def.∫==∫∫⋃n∈N A nΩΩΩ= mon. Konv. limf dPf1 ⋃ n∈N A n dP∑f1 An dPn∈Nlimn∈Nn∈N∫Ω146= limn∈N( n∑i=1n∑f1 Ai dPi=1n∑∫i=1n∑ ∫Ωf1 Ai)f1 Ai dPdP


Definition 8.20 f ≥ 0 sei Zufallsvariable mit ∫ f dP = 1. Q sei definiert wie in 8.19.Dann heißt f Dichte (genauer: eine Dichte) von Q bezüglich P . Symbolisch:Q = fP, f = dQ , dQ = f dP.dPSatz 8.21 f 1 sei P –Dichte von Q, f 2 ≥ 0 sei Zufallsvariable. Dann:f 2 ist P –Dichte von Q ⇔ P ({f 1 ≠ f 2 }) = 0.✷Lemma 8.22 f sei Zufallsvariable, A ∈ A mit P (A) = 0 ⇒ ∫ A|f| dP = 0.147


Beweis: Es gilt |f1 A | = |f|1 A . Es existieren e n ∈ E, n ∈ N, mit e n ↑ |f|∫⇒ e n 1 A ∈ E mit e n 1 A ↑ |f|1 A ;|f|1 A dP = Def. limn∈N∫= limn∈NAe n 1 A dP∑α i P (A i ∩ A)} {{ }=01≤i≤mwobei e n = ∑ 1≤i≤m α i1 Ai , 1 Ai 1 A = 1 Ai ∩A,∫ ∫⇒ 8.13 | f dP | ≤Beweis:[von 8.21]A|f| dP = 0.= 0,✷148


” ⇐“ Sei A ∈ A; Q(A) ==∫∫∫= 8.22∫=∫=∫=f 1 1 A dPf 1 1 A∩{f1 =f 2 } dP +f 1 1 A∩{f1 =f 2 } dPf 2 1 A∩{f1 =f 2 } dPf 2 1 A∩{f1 =f 2 } dP +f 2 1 A dP.∫∫f 1 1 A∩{f1 ≠f 2 } dPf 2 1 A∩{f1 ≠f 2 } dP149


⇒“ Aus den Voraussetzungen folgt:” ∫∀A ∈ A : f 1 dP =⇒ ∀A ∈ A :=Speziell fürA∫∫∫AAAf 2 dP∫f 1 dP −Af 2 dPf 1 − f 2 dP = 0.A + n := {f 1 − f 2 > 1/n}, A − n := {f 1 − f 2 < −1/n}150


gilt also:d.h. P (A + n ) = 0;0 =∫≥ 8.13∫0 =A + nA + nf 1 − f 2 dP1n dP= 1 n P (A+ n ),∫≤ 8.13∫A − nA − nf 1 − f 2 dP− 1 n dP= − 1 n P (A− n ),151


d.h. P (A − n ) = 0. Es folgt:P {f 1 ≠ f 2 } = P( ⋃(A + n ∪ A − n )n∈N)≤ ∑ n∈NP (A + n ∪ A − n ) = 0.✷Satz 8.23 f sei P –Dichte von Q, g sei Zufallsvariable. Dann gilt:g ist Q–integrierbar ⇔ gf ist P –integrierbar und in diesem Fall gilt:∫ ∫g dQ = gf dP.Beweis:152


1. Es sei e = ∑ 1≤i≤m α i1 Ai ∈ E∫⇒e dQ =====m∑α i Q(A i )i=1m∑α i f dP∫A ii=1m∑∫α i f1 Ai dPi=1∫ m∑f α i 1 Ai dP∫i=1fe dP.153


2. g ≥ 0 sei Zufallsvariable ⇒ g = lim n∈N e n mit geeigneten e 1 ≤ e 2 ≤ . . . ∈ E∫∫⇒ g dQ = Def. lim e n dQn∈N∫= 1. lim e n f dPn∈N= 8.14∫3. Allgemeiner Fall mittels Zerlegung g = g + − g − .=∫lim (e nf) dPn∈Nfg dP.Satz 8.24 (Fubini) (Ω, A, P ) sei das Produkt der beiden Wahrscheinlichkeitsräume(Ω i , A i , P i ), i = 1, 2, d.h.154✷


ˆ Ω = Ω 1 × Ω 2 ,ˆ A = σ({A 1 × A 2 : A 1 ∈ A 1 , A 2 ∈ A 2 },ˆ P = P 1 × P 2 .f : Ω → R sei integrierbar bzgl. P . Dann gilt:1.2.f(ω 1 , ·) : Ω 2 ∋ ω 2 ↦→ f(ω 1 , ω 2 ) ∈ Rist für P 1 –fast alle ω 1 ∈ Ω 1 P 2 –integrierbar, d.h. es existiert N 1 ∈ A 1 , P 1 (N 1 ) = 0und ∀ω 1 ∈ N c 1 ist f(ω 1 , ·) eine P 2 –integrierbare Funktion.f(·, ω 2 ) : Ω 1 ∋ ω 1 ↦→ f(ω 1 , ω 2 ) ∈ Rist für P 2 –fast alle ω 2 ∈ Ω 2 P 1 –integrierbar, d.h. es existiert N 2 ∈ A 2 , P 2 (N 2 ) = 0und ∀ω 2 ∈ N c 2 ist f(·, ω 2 ) eine P 1 –integrierbare Funktion.155


3. Die gemäß 1. bzw. 2. bis auf Nullmengen definierten Funktionen∫ω 1 ↦→ f(ω 1 , ·) dP 2Ω 2und∫ω 2 ↦→ f(·, ω 2 ) dP 1Ω 1sind P 1 – bzw. P 2 –integrierbar und es gilt:∫ ∫f dP = f d(P 1 × P 2 )ΩΩ 1 ×Ω 2)= f(ω 1 , ·) dP 2 P 1 (dω 1 )∫Ω 1(∫Ω 2)= f(·, ω 2 ) dP 1 P 2 (dω 2 ).∫Ω 2(∫Ω 1156


Beweis: Siehe Maßtheorie.✷Bemerkung Die bisher entwickelte Integrationstheorie ist auch für beliebige σ–finiteMaße µ anstelle eines Wahrscheinlichkeitsmaßes P gültig.µ : A → [0, ∞] ist Maß :⇔1. µ ( ⋃n∈N A ) ∑n =n∈N µ(A n) für disjunkte A n ∈ A,2. µ(∅) = 0.µ : A → [0, ∞] ist σ–finites Maß :⇔ µ ist Maß und es existieren A n ∈ A, n ∈ N,mit ⋃ n∈N A n = Ω und µ(A n ) < ∞, n ∈ N.Definition 8.25 Definiere λ 0 n : In 0 := {(a, b] = × n i=1 (a i, b i ] : a, b ∈ R n } → [0, ∞]durchλ 0 n((a, b]) := ∏(b i − a i ).1≤i≤n157


λ 0 n ist σ–additiv auf I 0 n und kann eindeutig zu einem (σ–finiten) Maß auf B n fortgesetztwerden. Dieses Maß ist das Lebesgue–Maß, i.Z. λ n , vgl. 7.8.Satz 8.26 Es gilt:λ n = λ n 1,wobei λ n 1 das n–fache Produkt von λ 1 bezeichnet.Beweis: Klar, daλ n ((a, b]) = λ 0 n((a, b])= ∏(b i − a i )1≤i≤n= ∏1≤i≤n= λ n 1((a, b]).λ 1 ((a i , b i ])158


✷Definition 8.27 Es sei f ∈ L(R n , B n , λ n ). Wir setzen:∫∫f(x) dx := f(x 1 , . . . , x n ) dx 1 · · · dx n :=∫f dλ n .Bemerkung 8.28 Setze (Ω, A, P ) := ((0, 1], B ∩ (0, 1], λ 1 /(0, 1]), f n := n1 (0,1/n] ,n ∈ N. Dann gilt:f n (ω) → n→N 0, ω ∈ Ω,aber∫f n dλ 1 = nλ 1 ((0, 1/n]) = 1 ≠∫0 dλ 1 = 0.Die Monotonie– bzw. Beschränktheitsvoraussetzungen in den Integrationssätzen sindalso wesentlich.159


9 Verteilungen und ihre CharakterisierungenDefinition 9.1 (Ω, A, P ) sei Wahrscheinlichkeitsraum, (Ω ′ , A ′ ) messbarer Raum, f :(Ω, A, P ) → (Ω ′ , A ′ ).Das Wahrscheinlichkeitsmaß P ∗ f : A ′ → [0, 1], definiert durchheißt Verteilung von f, (s. 7.1).(P ∗ f)(A) := P (f −1 (A)), A ∈ A ′ ,Bemerkung Jedes Wahrscheinlichkeitsmaß P ′ auf einem beliebigen messbaren Raum(Ω ′ , A ′ ) kann als Verteilung einer geeigneten Zufallsgröße aufgefasst werden: Setze(Ω, A, P ) := (Ω ′ , A ′ , P ′ ), f(ω) := ω, ω ∈ Ω.160


Definition 9.2 f sei Zufallsvariable über (Ω, A, P ), d.h. f : (Ω, A) → (R, B). DefiniereF : R → [0, 1] durchF (x) := P ({f ≤ x})= P ({ω ∈ Ω : f(ω) ≤ x})= (P ∗ f)((−∞, x]), x ∈ R.F heißt Verteilungsfunktion von f bzw. von P ∗ f.Beispiel 9.31. f sei das Ergebnis beim Würfeln, d.h. P ({i}) = 1/6, i = 1, . . . , 6. Dann gilt:⎧⎨ 0 für x < 1,F (x) = i/6 für i ≤ x < i + 1, i = 1, . . . , 5,⎩1 für x ≥ 6.161


2. f sei gleichverteilt auf (0, 1), d.h. P ({f ∈ B} = λ 1 (B) für B ∈ B ∩ (0, 1). Danngilt:F (x) = P ({f ≤ x})= P ({f ∈ (−∞, x]})= P ({f ∈ (0, x]})= λ 1 ((0, x]) = x für 0 ≤ x ≤ 1.Bemerkung 9.4 Die Verteilungsfunktion F (x) = (P ∗ f)((−∞, x]) einer Zufallsvariablenf hängt offenbar nur von der Verteilung P ∗f von f ab, nicht von den konkretenWerten von f.Satz 9.5 F sei Verteilungsfunktion der Verteilung Q := P ∗ f. Dann gilt:1. F ist monoton wachsend.162


2. F ist rechtsseitig stetig.3. lim x→∞ F (x) = 1, lim x→−∞ F (x) = 0.Beweis:” 1.“ x < y⇒ (−∞, x] ⊂ (−∞, y]⇒ F (x) = Q((−∞, x]) ≤ Q((−∞, y]) = F (y).163


” 2.“ (−∞, x] = ⋂ n∈N (−∞, x n], falls x n ↓ x. Damit:F (x) = Q((−∞,(x]))⋂= Q (−∞, x n ]n∈N= lim Q((−∞, x n ])n∈N= lim F (x n ).n∈N” 3.“ x n ↑ ∞⇒ R = ⋃ n∈N(−∞, x n ]⇒ 1 = Q(R) = limn∈NQ((−∞, x n ]) = limn∈NF (x n );164


x n ↓ −∞⇒ ∅ = ⋂ n∈N(−∞, x n ]⇒ 0 = Q(∅) = limn∈NQ((−∞, x n ]) = limn∈NF (x n ).Satz 9.6 Eine Verteilung Q ist durch ihre Verteilungsfunktion F eindeutig bestimmt.Das bedeutet: Sind Q 1 , Q 2 Wahrscheinlichkeitsmaße auf (R, B) mit Q 1 ≠ Q 2 , soexistiert x ∈ R mitF Q1 (x) = Q 1 ((−∞, x]) ≠ Q 2 ((−∞, x]) = F Q2 (x).✷Beweis:1. Es gilt:Q((x, y]) = F (y) − F (x) für x < y.165


2.denn (x, y − 1/n] ↑ (x, y).Q((x, y)) = limn∈NQ((x, y − 1/n])= limn∈N(F (y − 1/n) − F (x)),3. Jede offene Menge in R ist Vereinigung von abzählbar vielen disjunkten offenenIntervallen⇒ 2. Q(G) ist für offene Mengen G durch F bestimmt⇒ Q(B) ist für beliebiges B ∈ B bestimmt (Maßtheorie, Fortsetzungssatz).Satz 9.7 F : R → [0, 1] sei eine Funktion, die 1.–3. von Satz 9.5 erfülle. Dannist F die Verteilungsfunktion einer geeigneten Zufallsvariablen f, d.h. es existiert ein166✷


Wahrscheinlichkeitsraum (Ω, A, P ) und eine Zufallsvariable f auf (Ω, A, P ) mit F (x)= (P ∗ f)((−∞, x]), x ∈ R.Beweis: Setze Ω := (0, 1), A := B ∩ (0, 1), P := λ 1 /Ω,f(ω) := inf{x ∈ R : F (x) ≥ ω}= min{x ∈ R : F (x) ≥ ω} wegen der rechtsseitigen Stetigkeit von F . Dann gilt:1. f ist Zufallsvariable, denn: f ist monoton wachsend, d.h. f(ω 1 ) ≤ f(ω 2 ), ω 1 ≤ ω 2 ,und damit ist {f ≤ x} ein Intervall (in Ω), x ∈ R, also in B ∩ Ω.2.ω ≤ F (y) ⇔ f(ω) ≤ y, y ∈ R,167


⇒ {ω ∈ Ω : ω ≤ F (y)} = {ω ∈ Ω : f(ω) ≤ y}⇒ P ({f ≤ y}) = λ 1 ({ω ∈ Ω : ω ≤ F (y)})= λ 1 ((0, F (y)])= F (y), y ∈ R.Definition 9.8 F : R → [0, 1] ist Verteilungsfunktion :⇔ F erfüllt 1.–3. von Satz9.5.✷Definition 9.9 F sei Verteilungsfunktion; dann heißtF −1 (y) := inf{x ∈ R : F (x) ≥ y}, y ∈ (0, 1),verallgemeinerte Inverse von F oder Quantilfunktion.168


Satz 9.10 f sei eine auf (0, 1) gleichverteile Zufallsvariable und F eine beliebige Verteilungsfunktion.Dann besitzt die Zufallsvariabledie Verteilungsfunktion F .g := F −1 ◦ fBeweis: Siehe Übungen.✷Definition 9.11 f = (f 1 , . . . , f n ) sei n–dimensionaler Zufallsvektor, dann: F : R n →[0, 1] mitF (y 1 , . . . , y n ) := P ({f 1 ≤ y 1 , . . . , f n ≤ y n })ist die (n–dimensionale) Verteilungsfunktion oder gemeinsame Verteilungsfunktion vonf 1 , . . . , f n .Bemerkung169


n = 1:P ({f ∈ (x, y]}) = F (y) − F (x), x < y.n = 2: Es sei x = (x 1 , x 2 ), y = (y 1 , y 2 ), x i < y i , i = 1, 2. Dann:P ({(f 1 , f 2 ) ∈ (x, y])}= F (y 1 , y 2 ) − F (y 1 , x 2 ) − F (x 1 , y 2 ) + F (x 1 , x 2 ).Diese Gleichungen lassen sich auf beliebige Dimensionen erweitern.Satz 9.12 Die Zufallsvariablen f 1 , . . . , f n sind genau dann unabhängig, wenn für ihregemeinsame Verteilungsfunktion F gilt:F (y 1 , . . . , y n ) = F 1 (y 1 ) · · · F n (y n )für (y 1 , . . . , y n ) ∈ R n , wobei F i die Verteilungsfunktion zu f i ist, i = 1, . . . , n.Beweis:170


” ⇒“ ( )⋂F (y 1 , . . . , y n ) = P {f i ≤ y i }= ∏1≤i≤n= ∏1≤i≤n1≤i≤nP ({f i ≤ y i })F i (y i ).” ⇐“ Es gilt für y = (y 1, . . . , y n ) ∈ R n :( )⋂F (y) = P {f i ≤ y i }1≤i≤n= ∏1≤i≤nP ({f i ≤ y i }),171


d.h.(P ∗ (f 1 , . . . , f n ))((−∞, y])= ((P ∗ f 1 ) × · · · × (P ∗ f n ))((−∞, y])⇒ (P ∗ (f 1 , . . . , f n ))(B)= ((P ∗ f 1 ) × · · · × (P ∗ f n ))(B)für B ∈ B n (s. Maßtheorie)⇒ (P ∗ (f 1 , . . . , f n ))(B 1 × · · · × B n )= ((P ∗ f 1 ) × · · · × (P ∗ f n ))(B 1 × · · · × B n )für B i ∈ B, i = 1 . . . , n,⇒ P ({f i ∈ B i , i = 1, . . . , n})n∏= P ({f i ∈ B i })i=1172


für B i ∈ B, i = 1, . . . , n, d.h. f 1 , . . . , f n sind unabhängig (s. 7.23).Definition 9.13 Eine Zufallsvariable f ist diskret verteilt :⇔ Es existiert eine abzählbareMenge B = {b 1 , b 2 , . . .} ⊂ R mit P ({f ∈ B}) = 1.Beispiele 9.14 Im folgenden sei f eine Zufallsvariable.1. f besitzt Bernoulli–Verteilung mit Parameter p ∈ [0, 1], i.Z. B(1, p),:⇔ P ({f = 1}) = p, P ({f = 0}) = 1 − p.2. f besitzt Binomialverteilung mit den Parametern n ∈ N, p ∈ [0, 1], i.Z. B(n, p),:⇔ P ({f = k}) =(B(n, p)({k})n= pk)k (1 − p) n−k , k = 0, 1, . . . , n.✷173


3. f besitzt Poisson–Verteilung mit dem Parameter λ > 0, i.Z. P λ ,:⇔ P ({f = k}) = P λ ({k})= e −λλk , k = 0, 1, . . .k!4. f besitzt geometrische Verteilung zum Parameter p ∈ [0, 1]:⇔ P ({f = k}) = p(1 − p) k−1 , k = 1, 2, . . .Bemerkung 9.15 f 1 , f 2 , . . . seien unabhängige, zum Parameter p ∈ [0, 1] Bernoulli–verteilte Zufallsvariablen. Dann gilt:1. f 1 + · · · + f n ist B(n, p)–verteilt.2. f := inf{m ∈ N : f m = 1} ist geometrisch verteilt zum Parameter p.174


Beweis: Siehe Übungen.✷Definition 9.161. Eine Verteilung Q auf B heißt absolutstetig :⇔ Q besitzt eine Dichte bzgl. λ 1 , d.h.es existiert eine Borel–messbare Funktion h : R → [0, ∞) mit∫Q(B) = h dλ 1 , B ∈ B.2. Eine Zufallsvariable f heißt absolutstetig :⇔ P ∗ f ist absolutstetig.BSatz 9.17 f sei eine absolutstetige Zufallsvariable mit Dichte h und VerteilungsfunktionF . Dann gilt:h(x) = F ′ ∂F (x)(x) =∂x ,falls h an der Stelle x stetig ist.175


Beweis: Es gilt:Offenbar gilt:F (x + ε) − F (x)εP ({f ∈ (x, x + ε]})=∫ ε(x,x+ε]h(y) dy=∫ ε(x,x+ε]h(y) − h(x) dy=ε=: I + II.+II = h(x) λ 1((x, x + ε])ε∫(x,x+ε]h(x) dyε= h(x),176


sowie∫(x,x+ε]|h(y) − h(x)| dy|I| ≤∫ ε(x,x+ε]≤sup z∈(x,x+ε] |h(z) − h(x)| dyε= sup |h(z) − h(x)| → ε→0 0,z∈(x,x+ε]wegen der Stetigkeit von h in x. Hieraus folgt die Behauptung.✷Definition 9.18 Q a,b ist die Gleichverteilung auf (a, b) ⊂ R, −∞ < a < b < ∞ :⇔Q a,b besitzt die Dichteh a,b (x) := 1b − a 1 (a,b)(x), x ∈ R.177


Beispiel 9.19 f sei die Lebensdauer eines nicht alternden Objektes. Dabei bedeutetkeine Alterung:Es gilt also für t, s, ≥ 0:P ({f > s + t|f > s}) = P ({f > t}), t, s ≥ 0.P ({f > s + t}) = P ({f > s})P ({f > t}),⇒ für G(y) := P ({f > y}) gilt:G(s + t) = G(s)G(t)⇒ ∃λ ≥ 0 : G(y) = exp(−λy)(als einzige nicht identisch verschwindende monoton fallende Lösung obiger Funktio-178


nalgleichung 2 )⇒ F (y) := P ({f ≤ y})= 1 − G(y)= 1 − exp(−λy), y ≥ 0.Definition 9.20 Eine Zufallsvariable f ist exponentialverteilt zum Parameter λ > 0:⇔ P ∗ f besitzt die Dichte{ 0, x < 0,h(x) :=λ exp(−λx), x ≥ 0.Offenbar gilt dann: F (x) = 1 − exp(−λx), x ≥ 0.2 S. 133 in Krengel, U. (2002). Einführung in die Wahrscheinlichkeitstheorie u. <strong>Statistik</strong>, 6. Auflage. Vieweg, Braunschweig.179


Definition 9.21 Der Zufallvektor f = (f 1 , . . . , f n ) ist absolutstetig mit der Dichte h:⇔∫P ({f ∈ B}) = h dλ n∫B= h(x 1 , . . . , x n ) dx 1 · · · dx n , B ∈ B n .BSatz 9.22 h : R n → [0, ∞) sei integrierbar bzgl. λ n und es gelte für den Zufallsvektorf:P ({f∫≤ y})∫= · · ·(−∞,y 1 ](−∞,y n ]h(x 1 , . . . , x n ) dx 1 · · · dx nfür y = (y 1 , . . . , y n ) ∈ R n . Dann ist h eine Dichte von f.180


Beweisskizze: Aus der Voraussetzung folgt nach dem Satz von Fubini für jedesy ∈ R n :∫P ({f ∈ (−∞, y]}) = h dλ n(−∞,y]und hieraus (Maßtheorie, Fortsetzungssatz) für jedes B ∈ B n :∫P ({f ∈ B}) = h dλ nSatz 9.23 f 1 , . . . , f n seien Zufallsvariablen mit Dichten h 1 , . . . , h n . Dann gilt:f 1 , . . . , f n sind unabhängig ⇔ f = (f 1 , . . . , f n ) besitzt die DichteBeweis:h(x 1 , . . . , x n ) = h 1 (x 1 ) · · · h n (x n ), (x 1 , . . . , x n ) ∈ R n .181B✷


” ⇒“ Für y = (y 1, . . . , y n ) ∈ R n gilt:P ({f ∈ (−∞, y]})= P ({f i ≤ y i , i = 1, . . . , n})n∏= P ({f i ≤ y i })===i=1∫n∏∫i=1∫(−∞,y 1 ](−∞,y 1 ]h i (x i ) dx i∫· · · h 1 (x 1 ) · · · h n (x n ) dx n · · · dx 1(−∞,y n ]∫· · · h(x 1 , . . . , x n ) dx n · · · dx 1(−∞,y i ](−∞,y n ]⇒ Behauptung aus 9.22.182


” ⇐“ Für y = (y 1, . . . , y n ) ∈ R n gilt auf Grund des Satzes von Fubini:P ({f∫∈ (−∞, y]})= h dλ n(−∞,y]∫ ∫= · · · h(x 1 , . . . , x n ) dx 1 · · · dx n(−∞,y 1 ] (−∞,y n ]∫ ∫= · · · h 1 (x 1 ) · · · h n (x n ) dx 1 · · · dx n==(−∞,y 1 ]n∏∫i=1(−∞,y i ](−∞,y n ]h i (x i ) dx in∏P ({f i ≤ y i })i=1⇒ Behauptung aus 9.12.183


Beispiel 9.24 (Buffonsches Nadelproblem) Eine Nadel der Länge 1 wird zufälligauf ein Raster aus Parallelen mit dem einheitlichen Abstand 1 geworfen. Wie groß istdie Wahrscheinlichkeit, dass die Nadel eine der Geraden schneidet?Lösung: Annahmen:1. Der Winkel ϕ zwischen der Geraden und der Nadel ist auf (0, π) gleichverteilt.2. Der Abstand d des Nadelmittelpunktes zur nächsten Geraden ist auf (0, 1/2) gleichverteilt.3. ϕ und d sind unabhängig.Dann gilt nach 9.23h(x 1 , x 2 ) ={ 2π für 0 < x 1 < π, 0 < x 2 < 1 2 ,0 sonst184✷


ist gemeinsame Dichte des Zufallsvektors (ϕ, d).Ferner sei A das Ereignis, dass die Nadel eine der Geraden schneidet, d.h.A ={ω ∈ Ω : d(ω) ≤ 1 }2 sin ϕ(ω) .MitA ′ ={(x 1 , x 2 ) ∈ (0, π) ×(0, 1 )2: x 2 ≤ 1 }2 sin(x 1)185


folgt aus dem Satz von Fubini:P (A) = P∫({(ϕ, d) ∈ A ′ }= h dλ 2∫A ′ 2={(x 1 ,x 2 )∈(0,π)×(0, 2) 1 :x 2 ≤ 1 2 sin(x 1)} π dx 1dx 2∫ ( ∫ )2=(0,π) (0,2 1 sin(x 1)) π dx 2 dx 1∫ π= 1 π0sin(x 1 ) dx 1= 2 π . ✷186


Satz 9.25 f sei eine absolutstetige Zufallsvariable mit stetiger Dichte h, I ⊂ RIntervall mit P ({f ∈ I}) = 1.g : I → R sei differenzierbar mit g ′ (x) > 0 für alle x ∈ I oder g ′ (x) < 0 für allex ∈ I. Dann gilt:g ◦ f ist absolutstetig mit der Dichte˜h(y) = h(g −1 (y))|(g −1 ) ′ (y)|für alle y mitund ˜h(y) = 0 sonst.infx∈Ig(x) < y < supx∈Ig(x)Beweis: g ist auf I streng monoton und differenzierbar ⇒ g −1 ist definiert (auf g(I))und differenzierbar (mit (g −1 ) ′ (y) = 1/g ′ (g −1 (y))).187


1. ∀x ∈ I gelte g ′ (x) > 0, d.h. g ist monoton wachsend2. g ′ < 0 analog.⇒ F g◦f (y) = P ({g ◦ f ≤ y})= P ({f ≤ g −1 (y)})= F f (g −1 (y))⇒ F ′ g◦f(y) = h(g −1 (y))(g −1 ) ′ (y).Bemerkung 9.26 Im obigen Satz kann die Stetigkeit von h ersatzlos gestrichen werden.3✷3 S. 148 in Krengel, U. (2002). Einführung in die Wahrscheinlichkeitstheorie u. <strong>Statistik</strong>, 6. Auflage. Vieweg, Braunschweig.188


Beispiel 9.27 Ein Teilchen trete mit einem Winkel ϕ zur x–Achse aus dem Nullpunktaus, wobei ϕ auf (−π/2, π/2) gleichverteilt sei. Im Abstand λ vom Nullpunkt sei einSchirm aufgestellt, auf den das Teilchen trifft. Die Koordinaten dieses Punktes seien(λ, g) wobei g zufällig ist. Man bestimmt eine Dichte der Zufallsvariablen g.Lösung: ϕ besitzt die Dichteh(y) = 1 π 1 (− π 2 ,π 2) (y),da ϕ auf (−π/2, π/2) gleichverteilt ist.Ferner gilt:g = λ tan(ϕ),wobei λ tan(x) streng monoton ist im Intervall (−π/2, π/2).189


Nach 9.25, 9.26 besitzt g die Dichteh g (y) = 1 ∂( ( y)) ∣ π ∣ arctan ∣∣∂y λ= 1 1π 1 + y2 λ= 1 πλλ 2 1λ 2 + y 2, y ∈ R. ✷Definition 9.28 Die Verteilung auf R mit der Dichteh λ (y) := 1 πheißt Cauchy–Verteilung mit Parameter λ > 0.λλ 2 + y2, y ∈ R,190


Satz 9.29 Ist eine Verteilungsfunktion F auf (R, B) überall differenzierbar, so ist F ′eine Dichte von F. 410 MomenteDefinition 10.1 Es sei f ∈ L(Ω, A, P ). Dann heißt∫E(f) := f dPErwartungswert von f (Mittelwert von P ∗ f).Bemerkung 10.2 Es gilt∫E(f) =Ωf dP = 8.17∫4 Natanson, I.P. (1975). Theorie der Funktionen einer Veränderlichen, 4. Auflage. Deutsch, Zürich.Rx (P ∗ f)(dx),191


d.h. E(f) hängt nur von der Verteilung P ∗ f von f ab. Man schreibt daher auchhäufig∫x F (dx) := E(f),wobei F (x) := P ({f ≤ x}), x ∈ R (s. 9.6 bzw. 9.2).Bemerkung 10.3 f, g seien Zufallsvariablen, α ∈ R, dann:1. E(αf) = αE(f), E(f + g) = E(f) + E(g), falls f, g ∈ L(Ω, A, P ).2. E(f) existiert ⇔ E(|f|) existiert, und in diesem Fall gilt: |E(f)| ≤ E(|f|).3. Falls E(f) existiert und |g| ≤ |f| ⇒ E(g) existiert.Beweis: 8.13.✷192


Satz 10.4 f sei eine diskret verteilte Zufallsvariable mit P ({f ∈ B}) = 1 für eineabzählbare Teilmenge B von R. ϕ : R → R sei beliebig, g := ϕ ◦ f; dann:falls diese Summe absolut konvergiert.E(g) = ∑ x∈Bϕ(x)P ({f = x}),Beweis: S. Übungen.✷Satz 10.5 f sei absolutstetige Zufallsvariable mit Dichte h, ϕ : R → R sei BairescheFunktion. Dann gilt für g := ϕ ◦ f:∫E(g) = ϕ(x)h(x) dxfalls ∫ |ϕh| dλ 1 < ∞.R193


Beweis:h = d(P ∗ f)/dλ 1 .E(g) =∫= 8.17∫= 8.23∫ΩRRϕ ◦ f dPϕ d(P ∗ f)ϕ(x)h(x) dx,✷Definition 10.6 f sei Zufallsvariable, n ∈ Z + . Dann heißt, falls existent:n–tes Moment von f,µ n := E(f n )194


speziellµ := µ 1 = E(f);m n := E((f − µ) n )n–tes zentriertes Moment von f,speziellm 2 := V (f) := var(f) =: σ 2 (f)Varianz von f;E(|f| n ) := n–tes absolutes Moment;195


σ(f) := √ σ 2 (f)= √ E((f − µ) 2 ) = E((f − µ) 2 ) 1/2Standardabweichung oder Streuung von f.Satz 10.7 E(f n ) existiere ⇒ E(f m ) existiert, 0 ≤ m ≤ n.Beweis: Es gilt:|f(ω)| m ≤{ |f(ω)| n , falls |f(ω)| ≥ 11, falls |f(ω)| ≤ 1E(g) ≤ 1 + E(|f| n ) < ∞ ⇒ 8.13 Behauptung.=: g(ω);✷196


Satz 10.8 m 1 = 0, σ 2 = µ 2 − µ 2 1 (= E(f 2 ) − E(f) 2 ), m 3 = µ 3 − 3µµ 2 + 2µ 3 .Beweis:m 1 = E(f − µ) = E(f) − E(µ) = µ − µ = 0;σ 2 = E((f − µ) 2 )= E(f 2 − 2fµ + µ 2 )= E(f 2 ) − 2µE(f) + µ 2= µ 2 − 2µ 2 + µ 2= µ 2 − µ 2 ;197


m 3 = E((f − µ) 3 )= E(f 3 ) − E(3f 2 µ) + E(3fµ 2 ) − µ 3= µ 3 − 3µµ 2 + 3µ 3 − µ 3= µ 3 − 3µµ 2 + 2µ 3 .✷Satz 10.9 (Markoffsche Ungleichung) f sei Zufallsvariable, ε > 0. Dann gilt:P ({|f| ≥ ε}) ≤ E(|f|) .ε198


Beweis: Es gilt:E(|f|) =≥≥∫∫∫Ω|f(ω)| dP{ω∈Ω: |f(ω)|≥ε}{ω∈Ω: |f(ω)|≥ε}= εP ({|f| ≥ ε}).|f(ω)| P (dω)ε P (dω)Korollar 10.10 (Tschebyscheffsche Ungleichung) Für f ∈ L(Ω, A, P ) und ε >0 gilt:P ({|f − µ| ≥ ε}) ≤ σ2 (f)ε 2 .199✷


Beweis: Es gilt:P ({|f − µ| ≥ ε}) = P ({(f − µ) 2 ≥ ε 2 }) ≤ 10.9σ 2 (f)ε 2 .✷Satz 10.11 (Schwarzsche Ungleichung) f, g seien Zufallsvariablen mit E(f 2 )


2. Für alle x ∈ R gilt:ϕ(x) := E((xf − g) 2 )= x 2 E(f 2 ) − 2xE(fg) + E(g 2 ) ≥ 0⇒ die quadratische Gleichung ϕ(x) = 0 besitzt höchstens eine Lösung⇒ die Diskriminante dieser quadratischen Gleichung kann nicht positiv sein, d.h.es gilt:( ) 2 E(fg)− E(g2 )E(f 2 ) E(f 2 ) ≤ 0⇒ Behauptung.✷201


Satz 10.12 f 1 , . . . , f n seien unabhängige Zufallsvariablen, f i ∈ L(Ω, A, P ), i =1, . . . , n. Dann ist ∏ 1≤i≤n f i ∈ L(Ω, A, P ) und es gilt:( n∏)n∏E f i = E(f i ).i=1 i=1202


Beweis: O.E. sei n = 2. Dann gilt:E(|f 1 f 2 |)=∫Ω|f 1 f 2 | dP= 8.17 |xy| (P ∗ (f 1 , f 2 ))(d(x, y))∫R ∫2= |xy| ((P ∗ f 1 ) × (P ∗ f 2 ))(d(x, y))∫ R2 (∫)= Fubini |x||y| (P ∗ f 1 )(dx) (P ∗ f 2 )(dy)∫RR ∫= |x| (P ∗ f 1 )(dx) |y| (P ∗ f 2 )(dy)R= 8.17 E(|f 1 |)E(|f 2 |).R203✷


Definition 10.13 f, g seien quadratintegrierbare Zufallsvariablen.cov(f, g) := E ((f − E(f))(g − E(g)))= E(fg) − E(f)E(g)ist die Kovarianz von f und g.Ist zusätzlich σ 2 (f) > 0, σ 2 (g) > 0, so heißtϱ(f, g) :=cov(f, g)σ(f)σ(g)∈ [0, 1]Korrelationskoeffizient von f und g.f und g heißen positiv bzw. un– bzw. negativ korreliert, fallsϱ(f, g) > 0 bzw. = 0 bzw. < 0.Bemerkung ϱ(f, g) > 0 (< 0) bedeutet anschaulich, dass f − E(f) und g − E(g)die Tendenz besitzen, das selbe (unterschiedliche) Vorzeichen zu haben.204


Ferner kann ϱ(f, g) als Maß für den Grad der ”linearen Abhängigkeit“ zwischen fund g angesehen werden (s. folgenden Satz).Satz 10.14 f, g seien Zufallsvariablen mit 0 < σ 2 (f), σ 2 (g) < ∞. Dann gilt:1. Falls f, g unabhängig sind ⇒ ϱ(f, g) = 0.2. Falls ϱ(f, g) ∈ {−1, 1} ⇒ ∃a, b ∈ R :P ({g = af + b}) = 1.3. Die mittlere quadratische Abweichung E((f−(af+b)) 2 ) der linearen Approximationvon g durch af + b ist genau dann minimal, wenna ∗ cov(f, g)= und b ∗ = E(g) − a ∗ E(f).σ 2 (f)In diesem Fall gilt:E((g − (a ∗ f + b ∗ )) 2 ) = ( 1 − ϱ(f, g) 2) σ 2 (g).205


Beweis:1.“ Folgt aus 10.12.”” 3.“ Es gilt: E((g − af − b) 2 )= a 2 E(f 2 ) + b 2 + 2abE(f)−2aE(fg) − 2bE(g) + E(g 2 )=: p(a, b), a, b ∈ R.p ist ein Polynom zweiten Grades in den Variablen a, b und besitzt genau ein Minimumfüra ∗ cov(f, g)=σ 2 (f) , b∗ = E(g) − a ∗ E(f)(elementar mittels partieller Ableitungen).206


” 2.“ Im Fall ϱ(f, g) ∈ {−1, 1} folgt aus 3. E((g − (a∗ f + b ∗ )) 2 ) = 0, d.h.P ({|g − (a ∗ f + b ∗ )| ≠ 0}) = 0,d.h.(s. Übungen).P ({g = a ∗ f + b ∗ }) = 1Bemerkung a ∗ = cov(f, g)/σ 2 (f) ist ein geeignetes Mittel zur Vorhersage von gaus f, sog. Regression von f auf g, da nach 10.14, 3.,ĝ := E(g) + a ∗ (f − E(f))die beste lineare Approximation von g durch f darstellt.a ∗ heißt (einfacher) Regressionskoeffizient von g auf f und die Geradem(t) := a ∗ (t − E(f)) + E(g)207✷


heißt Regressionsgerade von g auf f. Der Fehlerg − ĝ = g − m(f)bei dieser Approximation heißt Residuum.Falls E(g) = E(f) = 0 und var(f) = var(g) = 1, so folgt a ∗ = cov(f, g) =ϱ(f, g) ∈ [−1, 1] und damitĝ = a ∗ f ⇒ |ĝ| = ϱ(f, g)||f| ≤ |f|,daher die Bezeichnung ”Regression“ (Rückschritt).Satz 10.15 f 1 , . . . , f n seien quadratintegrierbare, unkorrelierte Zufallsvariablen (alsocov(f i , f j ) = 0, i ≠ j. Dann gilt:σ 2 (f 1 + · · · + f n ) = σ 2 (f 1 ) + · · · + σ 2 (f n ).208


Beweis:σ 2 (f 1 + · · · + f n )= E(((f 1 + · · · + f n ) − E(f 1 + · · · + f n )) 2)= E(((f 1 − E(f 1 )) + · · · + (f n − E(f n ))) 2)⎛⎞= E ⎝ ∑(f i − E(f i ))(f j − E(f j )) ⎠= ∑==1≤i,j≤n1≤i,j≤ncov(f i , f j )n∑cov(f i , f i )i=1n∑σ 2 (f i ).i=1209


Korollar 10.16 f 1 , . . . , f n seien unabhängige, quadratintegrierbare Zufallsvariablen.Dann gilt:σ 2 (f 1 + · · · + f n ) = σ 2 (f 1 ) + · · · + σ 2 (f n ).✷11 Gesetze der großen ZahlenBemerkung f, f 1 , f 2 , . . . seien Zufallsvariablen über (Ω, A, P ), dann gilt {lim n∈N f n =f} ∈ A, denn:{lim f n = f} = ⋂ ⋃ ⋂{|f n − f| < 1/k} ∈ A.n∈Nk∈N m∈N n≥m210


Definition 11.1(f n konvergiert P –fast sicher gegen f).f n → n∈N ({f P –f.s.}):⇔ P lim f n = fn∈N= 1,Satz 11.2 (f.s. Eindeutigkeit des Grenzwertes) Es gelte f n → n∈N f P –f.s.,f n → n∈N ˜f P –f.s. ⇒ P ({f = ˜f}) = 1, d.h. f = ˜f P –f.s.211


Beweis:{ } { }{f = ˜f} ⊃ lim f n = f ∩ lim f n = ˜fn∈N n∈N({ })⇒ P ({f ≠ ˜f}) ≤ P lim f n ≠ fn∈N({ })+P lim f n ≠ ˜f = 0.n∈N✷Satz 11.3 f i,n → n∈N f i P –f.s., i = 1, . . . , k, g : R k → R stetig⇒ g(f 1,n , . . . , f k,n ) → n∈N g(f 1 , . . . , f k ) P –f.s.212


Beweis: Nach Voraussetzung existieren P –Nullmengen N 1 , . . . , N k ∈ A mit f i,n (ω) → n∈Nf i (ω) für alle ω ∈ N c i , i = 1, . . . , k. Für alle ω ∈ (N 1 ∪ · · · ∪ N k ) c gilt also(f 1,n (ω), . . . , f k,n (ω)) → n∈N (f 1 (ω), . . . , f k (ω))und damitg (f 1,n (ω), . . . , f k,n (ω)) → n∈N g (f 1 (ω), . . . , f k (ω)) .Da P ((N 1 ∪ · · · ∪ N k ) c ) = 1, folgt die Behauptung.Beispiel 11.4 f n → n∈N f P –f.s., g n → n∈N g P –f.s. ⇒ f n + g n → n∈N f + g P –f.s.Definition 11.5Pf n → f:⇔ ∀ε > 0 : lim P ({|f n − f| > ε}) = 0,n∈N(f n konvergiert in Wahrscheinlichkeit gegen f).213✷


Satz 11.6 (f.s. Eindeutigkeit des Grenzwertes) f nP→ f, fnP→ ˜f ⇒ f = ˜f P –f.s.Beweis: Es gilt für n ∈ N und ε > 0und damit{|f − ˜f| > ε} ⊂ {|f n − f| > ε/2} ∪ {|f n − ˜f| > ε/2}P ({|f − ˜f| > ε})≤ P ({|f n − f| > ε/2}) + P ({|f n − ˜f| > ε/2})⇒ P ({|f − ˜f| > ε}) = 0 für beliebiges ε > 0( )⋃⇒ P ({f ≠ ˜f}) = P {|f − ˜f| > 1/k}k∈N≤ ∑ k∈NP ({|f − ˜f| > 1/k}) = 0.214


✷Satz 11.7 f n → n∈N f P –f.s. ⇒ f nP→ f.Beweis: O.b.d.A. sei f ≡ 0 (betrachte sonst ˜f n := f n − f). Mit{ }K := lim f n = 0 = ⋂ ⋃{}sup |f n | ≤ 1/k ∈ An∈N n≥mk∈N m∈N215


gilt:f n → 0 P –f.s.⇔ P (K⎛c ) = 0⇔ P⋃⎜⎝⎛⋂⇔ P ⎜⎝⇔ limm∈NPk∈N m∈Nm∈N⎞⋂{}sup |f n | > 1/k= 0n≥m⎟} {{ } ⎠↑ in k⎞{}sup |f n | > 1/k ⎟ = 0 für alle k ∈ Nn≥m⎠} {{ }↓ in m})|f n | > 1/k = 0({supn≥m216⇒ lim P ({|f m | > 1/k} = 0 für alle k ∈ Nm∈N⇒ Behauptung.


✷Die Umkehrung von Satz 11.7 ist i.a. nicht richtig, wie folgendes Beispiel zeigt.Beispiel 11.8 Setze (Ω, A, P ) := ([0, 1), B ∩ [0, 1), λ/B ∩ [0, 1)), f 1 := 1 [0,1) , f 2 :=1 [0,1/2) , f 3 := 1 [1/2,1) , f 4 := 1 [0,1/3) , f 5 := 1 [1/3,2/3) , . . . Offenbar gilt P ({|f n | > ε}) → n∈N0, ε > 0, aber f n (ω) konvergiert für kein ω ∈ Ω gegen 0.Satz 11.9 (Schw. Gesetz der großen Zahlen I) f 1 , . . . , f n seien identisch verteilte,quadratintegrierbare und unkorrelierte Zufallsvariablen, d.h. cov(f i , f j ) = 0 füri ≠ j. Dann gilt mit µ := E(f 1 ), σ 2 := σ 2 (f 1 ) für ε > 0:({∣ })∣∣∣∣1n∑P f i − µn ∣ ≥ ε ≤σ2nε 2i=1217→ 0, falls n → ∞.


Beweis: Aus der Tschebyscheff–Ungleichung folgt:({∣ })∣∣∣∣1n∑P f i − µn ∣ ≥ ε({∣i=1})∣∣∣∣ n∑= P (f i − µ)∣ ≥ nε i=1( n∑)1≤n 2 ε 2var (f i − µ)i=1nσ 2= 10.15n 2 ε 2.✷Korollar 11.10 (Schw. G. d. großen Zahlen II) f n , n ∈ N, sei eine Folge un-218


abhängiger, identisch verteilter und quadratintegrierbarer Zufallsvariablen. Dann gilt:1n∑Pf i → E(f1 ).nWie wir am Ende dieses Kapitels sehen werden, gilt sogar:1n∑f i → n∈N E(f 1 ) P –f.s.ni=1i=1Dies ist das Starke Gesetz der großen Zahlen. Die Gesetze der großen Zahlen deckensich völlig mit unserer Anschauung und unserer Erfahrung. Es wird im mathematischenModell die Erfahrungstatsache bestätigt, dass bei einer großen Anzahl n vonunabhängigen Wiederholungen des gleichen Experimentes die relative Häufigkeith n (A) = 1 n∑1 A (f i )n219i=1


des Eintretens eines Ereignisses A in der Nähe der Wahrscheinlichkeit p := P ({f 1 ∈A}) liegt:f 1 , f 2 , . . . seien unabhängig und identisch verteilt. Dann sind 1 A (f 1 ), 1 A (f 2 ), . . . unabhängigund identisch verteilt mit E(1 A (f 1 )) = P ({f 1 ∈ A}) = p sowie σ 2 (1 A (f 1 )) =p(1 − p) und es giltP ({|h n({∣(A) − p| ≥ ε})})∣∣∣∣1n∑= P (1 A (f i ) − p)n∣ ≥ εp(1 − p)≤nε 2≤ 14nε → 2 n∈N 0,unabhängig von p. Beachte, dass p(1 − p) ≤ 1/4 für p ∈ [0, 1].i=1220


Satz 11.11 (Kolmogoroffsche Ungleichung) Für unabhängige Zufallsvariablen f 1 , . . . ,mit E(f i ) = 0, i = 1, . . . , k, und ε > 0 gilt:({∣ })j∑ ∣∣∣∣P maxf1≤j≤k ∣ i ≥ ε ≤ 1 k∑σ 2 (fε 2i ).i=1Beweis: O.E. sei σ 2 (f i ) < ∞, i = 1, . . . , k. Setze S j := ∑ ji=1 f i für j = 1, . . . , kundA j := {|S 1 | < ε, . . . , |S j−1 | < ε, |S j | ≥ ε}.Die Ereignisse A 1 , . . . , A k sind disjunkt, und für jedes j sind die Zufallsvariablen 1 Aj S jund S k − S j unabhängig, da die erste nur von f 1 , . . . , f j und die zweite nur voni=1221


f j+1 , . . . , f k abhängt. Es folgt:k∑σ 2 (f j )j=1= 10.16 σ 2 (S k ) = E(Sk)2k∑≥ E(1 Aj Sk)2=≥ 10.12=≥j=1k∑E(1 Aj (S j + (S k − S j )) 2 )j=1⎛⎞k∑⎝E(1 Aj Sj 2 ) + 2E(1 Aj S j ) E(S k − S j ) ⎠} {{ }= 0k∑∫Sj 2 dP222A jk∑ε 2 P (A j )j=1j=1j=1


Satz 11.12 f n , n ∈ N, seien unabhängige, quadratintegrierbare Zufallsvariablen. Fallsdie Reihen ∑ n∈N E(f n) und ∑ n∈N σ2 (f n ) eigentlich konvergent sind, so existiert eineZufallsvariable S mitn∑S n := f i → n∈N S P –f.s.Beweis:i=11. O.E. sei E(f n ) = 0, n ∈ N (sonst Übergang zu ∑ ni=1 f i = ∑ n∑ i=1 (f i − E(f i )) +ni=1 E(f i)).✷223


224


2. Für ε > 0 und m ∈ N gilt;({})P sup |S n − S m | > εn>m⎛⎞⋃{}= P ⎜ max⎝|S n − S m | > ε ⎟m εmm225σ 2 (f n )


Nach Voraussetzung gilt lim m∈N∑n>m σ2 (f n ) = 0, also({})P inf sup |S n − S m | > εm∈N n>m( ⋂{} )≤ P sup |S n − S m | > εn>mm∈N({})≤ lim inf P sup |S n − S m | > εm∈N n>m= 0.226


Das Cauchy–Konvergenzkriterium für reelle Zahlenfolgen ergibt nun:P ({S n({, n ∈ N, ist eigentlich konvergent})= P ∀r ∈ N ∃m ∈ N : sup |S n − S m | < 1 })n>m(r⋂{= P inf sup |S n − S m | < 1 } )m∈N n>mrr∈N( ⋃{= 1 − P inf sup |S n − S m | ≥ 1 } )m∈N n>mrr∈N= 1.✷227


Korollar 11.13 (St. G. d. gr. Z. v. Kolmogoroff) Für jede Folge f n , n ∈ N, unabhängigerZufallsvariablen mit ∑ n∈N σ2 (f n )/n 2 < ∞ gilt:1n∑(f i − E(f i )) → n∈N 0 P –f.s.ni=1Beweis: O.E. gelte E(f n ) = 0, n ∈ N. Nach 11.12 existiert eine Zufallsvariable Tmitn∑ f iT n :=i → n∈N T P –f.s.i=1228


Beachte: var(f i /i) = var(f i )/i 2 . Damit folgt (T 0 := 0):1n∑f ini=1= 1 n∑i(T i − T i−1 )n(i=1n∑)1n∑= iT i − (i + 1)T i + (n + 1)T nni=1 i=1= n + 1nT n − 1 n∑T in→ n∈N T − T = 0i=1P –f.s.✷229


Korollar 11.14 f n , n ∈ N, seien unabhängige, identisch verteilte Zufallsvariablen.Falls dann E(f1 2 ) < ∞, so gilt:1n∑f i → n∈N E(f 1 ) P –f.s.ni=1Beweis: Es gilt∑ σ 2 (f n )= σ 2 (fn 21 ) ∑ 1n < ∞. 2 n∈Nn∈NDamit folgt die Behauptung aus 11.13. Beachte:( )1n∑1n∑(f i − E(f i )) = f i − E(f 1 ).nni=1i=1✷230


Satz∑11.15 f n , n ∈ N, und f n, ′ n ∈ N, seien Folgen von Zufallsvariablen mitn∈N P ({f n ≠ f n}) ′ < ∞; f sei eine Zufallsvariable. Dann gilt:1n∑f i → n∈N f P –f.s.ni=1⇔ 1 n∑f i ′ → n∈N f P –f.s.ni=1Beweis: Nach dem Lemma von Borel–Cantelli gilt mit A n := {f n ≠ f ′ n}:P (N 1 ) := P ({f n ≠ f n ′ für unendlich viele n ∈ N})= P (lim sup A n ) = 0.n∈N231


Gilt nun n −1 ∑ ni=1 f i → n∈N f P –f.s., so existiert N 2 ∈ A mit P (N 2 ) = 0 und1n∑f i (ω) → n∈N f(ω) für alle ω ∈ N cn2.i=1Damit gilt für alle ω ∈ N1 c ∩ N2:c1n∑lim f ′ 1n∈N ni(ω) = limn∈N ni=1Da P (N c 1 ∩ N c 2) = 1, folgt die Behauptung.n∑f i (ω) = f(ω).i=1✷Satz 11.16 (St. G. d. gr. Z. von Khinchine) f n , n ∈ N, sei eine Folge unabhängiger,identisch verteilter Zufallsvariablen.232


1. Falls f 1 integrierbar ist, so ist E(f n ) = E(f 1 ) =: µ ∈ R und es gilt:1n∑f i → n∈N µ P –f.s.ni=12. Falls es ein c ∈ R gibt mit der Eigenschaft:1n∑f i → n∈N cni=1so ist f 1 integrierbar, und es gilt c = E(f 1 ).Beweis:P –f.s.,” 1.“ Die durch f ′ n(ω) :={fn (ω), falls |f n (ω)| ≤ n0 sonst= f n (ω)1 [−n,n] (f n (ω)), n ∈ N,233


definierten Zufallsvariablen sind unabhängig, und es gilt∑ σ 2 (f n)′n 2n∈N= ∑ n∈N≤ ∑ n∈N≤ ∑ n∈NE(f ′2n ) − E(f ′ n) 2E(f ′2n )n 21n 2n 2n∑k 2 P ({k − 1 < |f 1 | ≤ k})k=1⎛= ∑ kP ({k − 1 < |f 1 | ≤ k}) ⎝k ∑k∈N n≥k⎞1⎠ ,n 2234


wobei∑n≥k1n 2≤ 2 ∑ n≥k= 2 ∑ n≥k1n(n + 1)( 1n − 1 )n + 1= 2 k ,d.h. insgesamt∑n∈Nσ 2 (f ′ n)n 2≤ 2 ∑ kP ({k − 1 < |f 1 | ≤ k})k∈N≤ 2(E(|f 1 |) + 1) < ∞,s. Übungen.235


Anwendung von 11.13 liefert:1n∑(f i ′ − E(f ′ni)) → n∈N 0 P –f.s.i=1Nach dem Satz von der dominierten Konvergenz gilt ferner:E(f n) ′ = E(f n 1 [−n,n] (f n ))= E(f 1 1 [−n,n] (f 1 ))→ n∈N E(f 1 ) = µ,also auch n −1 ∑ ni=1 E(f ′ i ) → n∈N µ und somit n −1 ∑ ni=1 f ′ i → n∈N µ P –f.s. Zu-236


sammen mit∑P ({f n ≠ f n}) ′ = ∑ P ({|f n | > n})n∈N n∈N= ∑ P ({|f 1 | > n})n∈N< ∞,(da f 1 integrierbar ist, s. Übungen) folgt die Behauptung 1. aus 11.15.” 2.“ Mit S n := ∑ ni=1 f i gilt:S nn → n∈N c P –f.s.⇒ f nn = S nn − n − 1 S n−1n n − 1 → n∈N 0 P –f.s.⇒ P –f.s.:f n∣ n ∣ > 1 für höchstens endl. viele n ∈ N,237


d.h. in diesem Fall existiert n 0 ∈ N so, dass |f n /n| ≤ 1 für alle n ≥ n 0 . Also giltmit A n := {|f n /n| > 1}: ( )P lim sup A n = 0.n∈NDa f n , n ∈ N, eine Folge unabhängiger Zufallsvariablen ist, sind die A n , n ∈ N,unabhängige Ereignisse, und somit folgt aus dem Lemma von Borel–Cantelli:∞ > ∑ n∈NP (A n ) = ∑ n∈NP ({|f 1 | > n})und damit, dass f 1 integrierbar ist (s. Übungen).Korollar 11.17 Bei einer Folge unabhängiger Wiederholungen f 1 , f 2 , . . . eines Experimenteskonvergiert die relative Häufigkeit h n (A) = n −1 ∑ ni=1 1 A(f i ) des Eintritts einesEreignisses A fast sicher gegen die Wahrscheinlichkeit P ({f 1 ∈ A}).238✷


Beispiel 11.18 f n , n ∈ N, seien unabhängige, identisch verteilte Zufallsvariablenmit der Verteilungsfunktion F . Dann gilt für die empirische Verteilungsfunktion oderStichproben-Verteilungsfunktion zur Stichprobe f 1 , . . . , f n :F n (t) := 1 n∑1 (−∞,t] (f i ) → n∈N F (t) P –f.s., t ∈ R.ni=1Beweis: Setze ˜f n := 1 (−∞,t] (f n ), n ∈ N. Dann sind ˜f n , n ∈ N, unabhängig undidentisch verteilt mitE( ˜f n ) = E ( 1 (−∞,t] (f 1 ) ) = P ({f 1 ≤ t}) = F (t).Damit folgt aus 11.16:F n (t) = 1 nn∑˜f i → n∈N E( ˜f 1 ) = F (t)P –f.s.i=1239


Es gilt sogar die folgende Verschärfung der vorausgegangenen Aussage, die einenHauptsatz der <strong>Stochastik</strong> darstellt.Satz 11.19 (Glivenko–Cantelli) f n , n ∈ N, seien unabhängige und identisch verteilteZufallsvariablen mit Verteilungsfunktion F . Dann gilt:supt∈R|F n (t) − F (t)| → n∈N 0 P –f.s.,d.h. die empirische Verteilungsfunktion konvergiert mit Wahrscheinlichkeit 1 gleichmäßigüber R gegen die zugrunde liegende Verteilungsfunktion.Beweis: Die A–Messbarkeit von sup t∈R |F n (t) − F (t)| folgt aus der rechtsseitigenStetigkeit von Verteilungsfunktionen:supt∈R|F n (t) − F (t)| = supt∈Q240|F n (t) − F (t)|.✷


Setze nun t j,k := F −1 (j/k), j = 1, . . . , k − 1, k ∈ N. Dann folgt:sowieF n (t j,k − 0) = 1 nF n (t j,k ) → n∈N F (t j,k )P –f.s.,n∑1 (−∞,tj,k )(f i ) → n∈N F (t j,k − 0) P –f.s.,wobei F (t j,k − 0) = lim ε↓0 F (t j,k − ε) = P ({f 1 < t j,k }).Damit gilt (mit F (t j,k + 0) := F (t j,k )):i=1sup |F n (t j,k ± 0) − F (t j,k ± 0)| → n∈N 0 P –f.s.j=1,...,k−1Sei nun t j,k < t < t j+1,k . Dann gilt:F (t j,k ) ≤ F (t) ≤ F (t j+1,k − 0),F n (t j,k ) ≤ F n (t) ≤ F n (t j+1,k − 0)241


sowieEs folgt:0 ≤ F (t j+1,k − 0)} {{ }≤ j+1k− F (t j,k )} {{ }≥ j k≤ 1 k .F n (t) − F (t) ≤ F n (t j+1,k − 0) − F (t j,k )≤ F n (t j+1,k − 0) − F (t j+1,k − 0) + 1 kundF n (t) − F (t) ≥ F n (t j,k ) − F (t j+1,k − 0)≥ F n (t j,k ) − F (t j,k ) − 1 k .242


Insgesamt erhalten wir:Ferner gilt:supt∈R≤|F n (t) − F (t)|sup |F n (t j,k ± 0) − F (t j,k ± 0)| + 11≤j≤kk+ supt


sowielim supn∈N≤ lim supn∈N≤ lim supn∈N⎛sup |F n (t) − F (t)|t>t k−1,k(sup |F n (t) − 1| +t>t k−1,ksup |1 − F (t)|t>t k−1,k(1 − F n (t k−1,k ) + 1 − F (t k−1,k ))⎞⎜⎟= 2 ⎝1 − F (t k−1,k )} {{ }⎠≥ k−1k} {{ }≤ 1 kP –f.s.Da k ∈ N beliebig war, folgt insgesamt die Behauptung.)✷244


Beispiel 11.20 f n , n ∈ N, sei eine Folge unabhängiger, identisch verteilter und quadratintegrierbarerZufallsvariablen. Dann gilt für das Stichprobenmittel:ˆµ n := 1 n∑f i → n∈N E(f 1 ) P –f.s.nsowie für die Stichprobenvarianz:ˆσ 2 n := 1 n= 1 ni=1n∑(f i − ˆµ n ) 2i=1n∑fi 2 −i=1(1n) 2 n∑f ii=1→ n∈N E(f 2 1 ) − E(f 1 ) 2 = σ 2 (f 1 ) P –f.s.Ist ferner (f n , g n ), n ∈ N, eine Folge unabhängiger, identisch verteilter Zufallsvekto-245


en und f 1 , g 1 quadratintegrierbar mit 0 < σ 2 (f 1 ), σ 2 (g 1 ), so gilt für die Stichprobenkovarianz( ) ( )ĉov n := 1 n∑ 1n∑ 1n∑f i g i − f i g inn ni=1i=1→ n∈N E(f 1 g 1 ) − E(f 1 )E(g 1 )= cov(f 1 , g 1 ).P –f.s.i=1246


Damit gilt auch für den Stichprobenkorrelationskoeffizientenˆϱ n :=ĉov nˆσ( n (f)ˆσ n (g)1∑ nn i=1 f ) (ig i − 1n= √ ( 1∑ nn i=1 (f i − ˆµ n ) 2) ( 1ncov(f 1 , g 1 )→ n∈Nσ(f 1 )σ(g 1 )= ϱ(f 1 , g 1 )P –f.s.∑ ni=1 f ) ( 1i n∑ ni=1 g i)∑ ni=1 (g i − ˆν n ) 2)wobei ˆν n := n −1 ∑ ni=1 g i das Stichprobenmittel von g 1 , . . . , g n ist.247


Somit gilt für den (einfachen) Stichprobenregressionskoeffizientenâ n :==ĉov n(ˆσ n(f 2 1 )1∑ nn i=1 f ) (ig i − 1n1n→ n∈Ncov(f 1 , g 1 )σ 2 (f 1 )∑ ni=1 f ) ( 1i n∑ ni=1 f i 2 − ( ∑1 nn i=1 f ) 2iP –f.s.∑ ni=1 g i)Die oben aufgeführten Schätzer konvergieren also mit Wahrscheinlichkeit 1 gegenden jeweils zu schätzenden Wert, d.h. sie sind sog. (stark) konsistente Schätzerfolgen.248


Ferner können wir mit obigen Schätzern nahe liegend eine Schätzung der Regressionsgeradenvon g 1 auf f 1 definieren:ˆm n (t) := â n (t − ˆµ n ) + ˆν n=: â n t + ˆb n→ n∈N a ∗ (t − E(f 1 )) + E(g 1 ) P –f.s., t ∈ R.Die Gerade ˆm n (t) erhält man auch, wenn eine Gerade at + b so gewählt wird, dassdie Summe der vertikalen Abstände der Datenpunkte (f i , g i ), i = 1, . . . , n, von derGeraden minimal wird, d.h. 5n∑i=1(g i − â n f i − ˆb n ) 2 = mina,bn∑(g i − af i − b) 2 .Dies ist die Methode der kleinsten Quadrate, die auf Gauss zurück geht und zunächstvorwiegend in der (Fehler–) Ausgleichsrechnung Verwendung fand.5 S. etwa Abschnitt 13.4 in Krengel, U. (2002). Einführung in die Wahrscheinlichkeitstheorie und <strong>Statistik</strong>, 6. Auflage. Vieweg, Braunschweig.i=1249


Bemerkung 11.21 Es gilt:= E⎛E(ˆσ n) 2 ⎜= E ⎝ 1 n⎛⎛⎛n∑⎝f i − 1 ni=1⎜⎝⎝f 1 − 1 nn∑j=1n∑j=1f j⎞⎠2 ⎞ ⎟ ⎠= n − 1n σ2 (f 1 ),d.h. ˆσ n 2 ist kein erwartungstreuer Schätzer, wohl aber⎛˜σ n 2 :=nn − 1ˆσ2 n = 1 n∑⎝f i − 1 n − 1 n250i=1f j⎞⎠2 ⎞ ⎟ ⎠n∑j=1⎞2f j⎠ .


Beispiel 11.22 (Die Monte–Carlo Methode) Gesetze der großen Zahlen könnenauch zur approximativen Berechnung von Integralen eingesetzt werden:Problem: g : [0, 1] → R sei eine (λ 1 –) integrierbare Funktion; bestimme ∫ [0,1] g(x) λ 1(dx).Dies ist häufig praktisch kaum möglich. Verschaffen wir uns nun eine Stichprobef 1 , . . . , f n unabhängiger und auf dem Intervall [0, 1] gleichverteilter Zufallsvariablen(d.h. P ∗ f i = P ∗ f 1 = λ 1 /[0, 1]), so gilt:1nn∑g(f i ) → n∈N E(g(f 1 ))i=1= 8.17∫[0,1]P –f.s.g(x) λ 1 (dx).Sind also x 1 , . . . , x n beobachtete Werte von f 1 , . . . , f n , d.h. x i = f i (ω), i = 1, . . . , n,251


so gilt:g(x 1 ) + · · · + g(x n )n≈∫[0,1]g(x) dx.x 1 , . . . , x n heißen auch Zufallszahlen. Zufallszahlen werden in der Praxis üblicherweisevom Computer nach gewissen Algorithmen erzeugt. Da diese somit aber nicht wirklich“ ”zufällig sind, spricht man in diesem Fall von Pseudozufallszahlen. Sie sollten sich wie6echte“ Zufallszahlen verhalten, tun das aber nicht immer. . .”6 S. Bemerkung (3.43) in Georgii, H.-O. (2002). <strong>Stochastik</strong>. De Gruyter, Berlin.252


12 Der Zentrale Grenzwertsatzf n , n ∈ N, sei eine Folge unabhängiger, identisch verteilter und quadratintegrierbarerZufallsvariablen. Setze µ := E(f 1 ). Wir hatten in Kapitel 11 gesehen, dass1n∑f i → n∈N µ P –f.s.nbzw.P({∣ ∣∣∣∣1ni=1})n∑f i − µ∣ ≥ ε → n∈N 0i=1für alle ε > 0. Wir können nun fragen: Falls wir das feste ε durch eine Folge ε n > 0,n ∈ N, mit ε n → n∈N 0 ersetzen, wie schnell darf dann ε n gegen 0 konvergieren, so253


dassP({∣ ∣∣∣∣1n})n∑f i − µ∣ ≥ ε n → n∈N c ∈ (0, 1)?i=1Wir werden sehen, dass dies für ε n ∼ 1/ √ n der Fall ist; genauer wird für t > 0 gelten:({∣ }) ∣∣∣∣1n∑P f i − µn ∣ ≥ √ σt → n∈N 2(1 − Φ(t)),nwobeii=1Φ(t) := 1 √2π∫ t−∞exp(− x2und σ 2 := σ 2 (f 1 ). Dies wird eine unmittelbare Folgerung aus dem Zentralen Grenzwertsatzsein, den wir in diesem Abschnitt beweisen werden.2)dx254


Satz 12.1 f, g seien unabhängige Zufallsvariablen mit Verteilungsfunktion F bzw. G.Dann besitzt f + g die Verteilungsfunktion∫(F ∗ G)(t) = G(t − s) (P ∗ f)(ds)( ∫)= G(t − s) F (ds)=∫F (t − s) (P ∗ g)(ds)( ∫)= F (t − s) G(ds) .F ∗ G heißt Faltung von F und G.255


Beweis: Es gilt:(F ∗ G)(t)= P∫({f + g ≤ t})= 1 (−∞,t] (f + g) dPΩ= 8.17 1 (−∞,t] (r + s) (P ∗ (f, g))(d(r, s))∫∫R 2= 1 (−∞,t] (r + s) ((P ∗ f) × (P ∗ g))(d(r, s))∫ R2 ∫= Fubini 1 (−∞,t] (r + s)(P ∗ g)(ds)(P ∗ f)(dr)∫R∫R= 1 (−∞,t−r] (s)(P ∗ g)(ds)(P ∗ f)(dr)∫RR= G(t − r) (P ∗ f)(dr).R256


Satz 12.2 f, g seien unabhängige Zufallsvariablen mit Dichte h 1 bzw. h 2 . Dann besitztf + g die Dichte∫∫(h 1 ∗ h 2 )(t) := h 1 (t − s)h 2 (s) ds = h 2 (t − s)h 1 (s) ds.RR✷257


Beweis: F bzw. G sei die Verteilungsfunktion von f bzw. g. Nach 12.1 besitzt f + gdie Verteilungsfunktion(F ∗ G)(t)∫=∫= 8.23=∫= Subst.∫= Fubini∫= Def.∫RRRG(t − s) F (ds)G(t − s)h 1 (s) ds(∫)h 2 (r) dr h 1 (s) ds(−∞,t−s](∫)h 2 (r − s) dr h 1 (s) ds(−∞,t](∫)h 2 (r − s)h 1 (s) ds dr(−∞,t](−∞,t]R(h 1 ∗ h 2 )(r) dr.258


Nach dem Maßerweiterungssatz 6.16, 6.19, 9.6 folgt hieraus die Behauptung.✷Definition 12.3 Das Wahrscheinlichkeitsmaß auf B 1 mit der Dichte 7ϕ(x) := √ 1)exp(− x2, x ∈ R,2π 2heißt Standardnormalverteilung, i.Z. N(0, 1). Die Verteilungsfunktion von N(0, 1) bezeichnenwir mit Φ, d.h. Φ(x) = ∫ (−∞,x]ϕ(y) dy.Bemerkung 12.4 Die Zufallsvariable f sei nach N(0, 1) verteilt. Dann gilt:1. E(f) = 0,2. σ 2 (f) = 1.7 S. etwa Satz 19.1. in Bandelow, C. (1989). Einführung in die Wahrscheinlichkeitstheorie. BI, Mannheim.259


Beweis:1.“ S. Übungen (beachte, dass ϕ(x) = ϕ(−x), x ∈ R.”260


” 2.“ Es gilt: ∫ ∞x 2 ϕ(x) dx−∞=∫1 ∞√2π−∞= part. Int.1√2π[x== 1.∫ ∞−∞(x x exp(− exp− 1 √2π∫ ∞ϕ(x) dx−∞1(− x2(− x22))2))] ∞−∞(− exp(− x22dx))dx261✷


Satz 12.5 Die Zufallsvariable f sei N(0, 1)–verteilt; σ > 0, µ ∈ R. Dann besitzt dieZufallsvariable g := σf + µ die Dichteϕ (µ,σ 2 )(x) := 1 ( ) x − µσ ϕ σ)1 (x − µ)2= √ exp(− , x ∈ R.2πσ 2σ 2Die zugehörige Verteilung heißt Normalverteilung mit Mittelwert µ und Varianz σ 2 ,i.Z. N(µ, σ 2 ),(denn E(g) = E(σf + µ) = µ, σ 2 (g) = E((g − µ) 2 ) = E((σf) 2 ) = σ 2 E(f 2 ) = σ 2 ).Beweis: S. Übungen.✷262


Satz 12.6 (Faltungsth. der Normalverteilung) f 1 , . . . , f n seien unabhängige Zufallsvariablenmit P ∗ f i = N(µ i , σi 2 ), i = 1, . . . , n. Dann gilt:P ∗ (f 1 + · · · + f n ) = N(µ 1 + · · · + µ n , σ 2 1 + · · · + σ 2 n).Beweis: Offenbar genügt es, den Fall n = 2 zu betrachten. Zunächst gilt für x, a, b ∈R und σ 2 , τ 2 > 0:mit(x − a) 2 (x − b)2+σ 2 τ 2(x − c)2 (a − b)2= + (2)ϱ 2 σ 2 + τ 2c := aτ 2 + bσ 2σ 2 + τ 2 , ϱ2 := σ2 τ 2σ 2 + τ 2.263


Ferner besitzt f 1 + f 2 nach 12.2 die Dichte∫ ∞h(y) = ϕ (µ1 ,σ 2)(y − x)ϕ 1(µ 2 ,σ2 2 )(x) dx−∞∫1 ∞=exp(− (y − x − µ 1) 2 )2πσ 1 σ 2 −∞2σ12× exp(− (x − µ 2) 2 )2σ22 dx∫1 ∞)(x − c)2= (2) exp(−2πσ 1 σ 2 −∞ 2ϱ 2× exp(− (y − µ 1 − µ 2 ) 2 )2(σ1 2 + σ2 2 ) dx= const exp(− (y − µ 1 − µ 2 ) 2 )2(σ1 2 + σ2 2 )= ϕ (µ1 +µ 2 ,σ1 2+σ2)(y).2264


Definition 12.7 f, f n , n ∈ N, seien Zufallsvariablen über (Ω, A, P ) mit VerteilungsfunktionenF, F n , n ∈ N.f n , n ∈ N, heißt in Verteilung oder schwach konvergent gegen f, fallsfür alle Stetigkeitsstellen von F , d.h.F n (t) → n∈N F (t)P ({f n ≤ t}) → n∈N P ({f ≤ t}),falls F (t) = P ({f ≤ t}) in t stetig ist, i.Z.✷f n → D f(in distribution).265


Beispiel 12.8 Es gelte P ∗ f n = δ 1/n , n ∈ N, wobei δ x0 das Dirac–Maß (Ein–Punkt–Maß) im Punkt x 0 bezeichne, d.h. δ x0 (B) = 1 B (x 0 ) = 1, falls x 0 ∈ B, und 0 sonst,B ∈ B. Offenbar gilt:{ 1, t ≥ 1/nF n (t) =0, t < 1/n.Dann gilt:f n → D fmit Verteilungsfunktiondenn offenbar giltF (t) = 1 [0,∞) (t) = F δ0 ,F n (t) → n∈N F (t), t ≠ 0, aber 0 = F n (0), F (0) = 1.Die Verteilungskonvergenz einer Folge f n , n ∈ N, ist eine Aussage über die Verteilungenvon f n . Sie ist daher von anderem Charakter als die fast sichere Konvergenz266


oder die Konvergenz in Wahrscheinlichkeit, da sich Zufallsvariablen mit identischerVerteilung beliebig unterscheiden können.Tatsächlich ist sie die schwächste der drei Konvergenzarten, was die Bezeichnungschwache Konvergenz“ rechtfertigt.”Satz 12.9 f nP→ f ⇒ fn → D f.Beweis: ∀ε > 0 ∃n 0 ∈ N ∀n ≥ n 0 : P ({|f − f n | > ε}) < ε. Wegengilt für alle n ≥ n 0also{f ≤ x − ε} ⊂ {f n ≤ x} ∪ {|f n − f| > ε},{f n ≤ x} ⊂ {f ≤ x + ε} ∪ {|f n − f| > ε}F f (x − ε) ≤ F fn (x) + ε, F fn (x) ≤ F f (x + ε) + ε,F f (x − ε) − ε ≤ F fn (x) ≤ F f (x + ε) + ε,267


d.h. F fn (x) → n∈N F f (x) für alle Stetigkeitsstellen von F f .✷Beispiel 12.10 Setze Ω := {−1, 1}, A := P(Ω), P (A) := |A|/2, A ⊂ Ω, f n (ω) :=ω(−1) n , n ∈ N, f(ω) := ω. Dann gilt:1. f n → D f (denn P ∗ f n = P ∗ f für alle n ∈ N),P2. f n ̸→ f (denn P ({|f n − f| > 1}) = 1 für alle ungeraden n).Definition 12.11 Setze K ∞ := Menge der beliebig oft differenzierbaren Funktionenψ : R → R mit ψ(x) = 0 für alle |x| hinreichend groß.Satz 12.12 Für Zufallsvariablen f, f n , n ∈ N, gilt:f n → D f⇔ E(ψ(f n )) → n∈N E(ψ(f)) für alle ψ ∈ K ∞ .268


Beweis:” ⇒“ Sei ψ ∈ K∞ . Wähle a, b so, dassmit{x ∈ R : ψ(x) ≠ 0} ⊂ I := (a, b]a, b ∉ U := {x ∈ R : x Unstetigkeitsstelle von F f }.U ist abzählbar (s. Übungen), also ist U c dicht in R. Daher und wegen dergleichmäßigen Stetigkeit von ψ auf [a, b] existiert zu ε > 0 eine Treppenfunktione = ∑ mi=1 a iI (ti−1 ,t i ] mit a = t 0 < t 1 < · · · < t m = b, t i ∉ U, i = 0, 1, . . . , m,so dass|ψ(x) − e(x)| < ε.Somit gilt:supx∈I|E(ψ(f n )) − E(e(f n ))| ≤ E(|ψ(f n ) − e(f n )|) ≤ ε269


und ebensoFür e gilt nun:|E(ψ(f)) − E(e(f))| ≤ E(|ψ(f) − e(f)|) ≤ ε.m∑E(e(f n )) = a i P ({f n ∈ (t i−1 , t i ]})=i=1i=1∑ m→ n∈Nm∑a i (F fn (t i ) − F fn (t i−1 ))i=1= E(e(f)).a i (F f (t i ) − F f (t i−1 ))270


Wir erhalten also insgesamt:lim sup |E(ψ(f n )) − E(ψ(f))|n∈N= lim sup |E(ψ(f n )) − E(e(f n ))n∈N+E(e(f n )) − E(e(f)) + E(e(f)) − E(ψ(f))|≤ 2ε.Hieraus folgt die Behauptung.” ⇐“ Ist I ein beschränktes Intervall, dessen Randpunkte a, b Stetigkeitsstellen von F fsind, so existieren ein abgeschlossenes Intervall A und ein offenes Intervall O mitA ⊂ (a, b) ⊂ I ⊂ [a, b] ⊂ Ound(P ∗ f)(O\A) < ε.271


Ferner existieren 8 ψ, ξ ∈ K ∞ mitDamit folgt:8 S. etwa 7.23 (f) in Walter, W. (1991). Analysis 2, 3. Auflage. Springer, Berlin.1 A ≤ ψ ≤ 1 I ≤ ξ ≤ 1 O .(P ∗ f n )(A) = E(1 A (f n ))≤ E(ψ(f n ))≤ (P ∗ f n )(I)≤ E(ξ(f n ))≤ (P ∗ f n )(O)272


sowie(P ∗ f)(A) = E(1 A (f))≤ E(ψ(f))≤ (P ∗ f)(I)≤ E(ξ(f))≤ (P ∗ f)(O).Es folgt aus (P ∗ f)(O) − (P ∗ f)(A) < ε:lim supn∈NDa ε > 0 beliebig war, folgt:|(P ∗ f n )(I) − (P ∗ f)(I)| < ε.(P ∗ f n )(I) → n∈N (P ∗ f)(I).Sei nun x eine Stetigkeitsstelle der Verteilungsfunktion F f von P ∗ f. Ferner seien273


x = x 1 > x 2 > . . . Stetigkeitsstellen von F f mit(−∞, x] =k∈N(x ⋃ k+1 , x k ].Dann gilt mit Q n := P ∗ f, Q := P ∗ f n und I k := (x k+1 , x k ]:Q n ((−∞, x]) = ∑ Q n (I k )k∈N≥ ∑ Q n (I k )k≤Kfür ein beliebiges K ∈ N und damitlim infn∈NQ n((−∞, x]) ≥ ∑ k≤KQ(I k ),274


d.h.lim infn∈NQ n((−∞, x]) ≥ ∑ k∈NQ(I k ) = Q((−∞, x]).Andererseits folgt mit diesen Argumentenund somit insgesamtlim supn∈N= lim supn∈NQ n ((−∞, x])= 1 − lim infn∈N≤ 1 − Q((x, ∞))= Q((−∞, x])Q n (1 − (x, ∞))Q n((x, ∞))lim Q n((−∞, x]) = Q((−∞, x]).n∈N275


Lemma 12.13 f 1 , f 2 , f 3 seien Zufallsvariablen, f 3 sei von f 1 und von f 2 unabhängig.Dann gilt für alle stetigen und beschränkten Funktionen ψ : R → R:(∣∣∣∣E (ψ(f 1 + f 3 ) − ψ(f 2 + f 3 )))∣≤ sup |E(ψ(f 1 + q) − ψ(f 2 + q))|.q∈Q✷276


Beweis: Es gilt:(∣∣∣∣E (ψ(f 1 + f 3 ) − ψ(f 2 + f 3 )))∣∣∫∣∣∣ ()= Fubini E (ψ(f 1 + x) − ψ(f 2 + x)) (P ∗ f 3 )(dx)∣∫ ∣ ∣∣ ∣∣≤ E((ψ(f 1 + x) − ψ(f 2 + x)))∣(P ∗ f 3 )(dx)≤ sup |E(ψ(f 1 + x) − ψ(f 2 + x))|x∈R= sup |E(ψ(f 1 + q) − ψ(f 2 + q))|.q∈Q✷Satz 12.14 (Zentraler Grenzwertsatz) f n , n ∈ N, sei eine Folge unabhängiger,identisch verteilter und quadratintegrierbarer Zufallsvariablen. Dann gilt mit µ :=277


E(f 1 ), σ 2 := σ 2 (f 1 ) für t ∈ R:({1n∑P √ nBeweis:(i=1f i − µσ≤ t→ n∈N Φ(t) := 1 √2π∫ t⇔ 1 √ nn∑i=1f i − µσ−∞})exp(− x22)dx→ D f, P ∗ f = N(0, 1).1. O.E. sei µ = 0, σ 2 = 1, sonst Übergang zu ˜f n := (f n − µ)/σ, n ∈ N.2. f ∗ n, n ∈ N, sei eine Folge unabhängiger, N(0, 1)–verteilter Zufallsvariablen. Für)278


diese Folge gilt bereits nach 12.6P ∗( f∗1 + · · · + f ∗ n√ n)= N(0, 1),d.h.P({1n∑√ ni=1f ∗ i≤ t})= Φ(t), t ∈ R, n ∈ N,und damitE(ψ(Tn)) ∗ = E(ψ(f)) für alle ψ ∈ K ∞ ,wobeiTn ∗ := f 1 ∗ + · · · + fn∗ √ nund f eine nach N(0, 1)–verteilte Zufallsvariable ist.Zu zeigen ist nun nach 12.12 mit T n := (f 1 + · · · + f n )/ √ n:E(ψ(T n )) → n∈N E(ψ(f)) für alle ψ ∈ K ∞ ,279


d.h.E(ψ(T n ) − ψ(T ∗ n)) → n∈N 0 für alle ψ ∈ K ∞ .3. Da die Behauptung lediglich die Verteilung der f i , i ∈ N, betrifft, können wirannehmen, dass die f i und die f ∗ i auf demselben Wahrscheinlichkeitsraum (Ω, A, P )definiert sind und sämtlich voneinander unabhängig sind.Taylor–Entwicklung liefert nun für x, u ∈ R und ψ ∈ K ∞ψ(x + u)= ψ(u) + ψ ′ (u)x + ψ ′′ (u + ϑ x,u x) x22= ψ(u) + ψ ′ (u)x + ψ ′′ (u) x22 + r(x, u)x2 ,wobei 0 < ϑ x,u < 1 und r(x, u) := (ψ ′′ (u + ϑ x,u x) − ψ ′′ (u))/2.Da die Funktion ψ ′′ stetig ist und ψ ′′ (x) = 0 für |x| hinreichend groß (d.h. ψ ′′besitzt einen kompakten Träger), ist ψ ′′ beschränkt und gleichmäßig stetig, d.h. es280


gilt4. Es gilt:supx,u|r(x, u)| < ∞ und supu|r(x, u)| → x→0 0.ψ(T n )(− ψ(Tn)∗ ) (f1 + · · · + f n f∗= ψ √ − ψ 1 + · · · + f ∗ )n√ n nn∑( (f1 + · · · + f i + fi+1 ∗ = ψ+ · · · + f n∗ )√ n=i=1n∑i=1− ψ(ψ(f1 + · · · + f i−1 + fi ∗ + · · · + fn∗ ))√ n( ) ( ))fif∗√ + U i − ψ √ i+ U i ,n n281


wobeiU i := f 1 + · · · + f i−1 + fi+1 ∗ + · · · + f n∗ √ nvon f i / √ n und fi ∗/√ n unabhängig ist, i = 1, . . . , n. Nach 12.13 gilt daher|E(ψ(T n ) − ψ(Tn))|∗n∑( ) ( ))∣ ≤∣(ψ E fif∗√ + U i − ψ i ∣∣∣√ + U ii=1 n n n∑( ) ( ≤ sup∣(ψ E fif∗√ + q − ψ i ∣∣∣√ + q))∣i=1q∈Q n n ( ) ( = n sup∣(ψ E f1f∗√ + q − ψ 1 ∣∣∣√ + q))∣.q∈Q n n282


Nach 3. giltψ( )f1√ + q n= ψ(q) + ψ ′ (q) f 1√ + ψ ′′ (q) f 2 (1n 2n + r f1 f2√ , q)1n n ,( ) f∗ψ √ 1+ q n= ψ(q) + ψ ′ (q) f 1∗ √ + ψ ′′ (q) f ∗2 ( )1 f∗n 2n + r √ 1 f∗21, q n n .283


Wegen E(f 1 ) = E(f ∗ 1 ) = 0 und E(f 2 1 ) = E(f ∗21 ) = 1 folgt damit:|E(ψ(T n ) − ψ(T n))|∗ ( ( ≤ n supf2∣ E 1q∈Q n r f1(( )∣)≤ E f1 2 sup∣ r f1 ∣∣∣√ , qq∈Q n(( +E f1 ∗2 supf∗∣ r 1q∈Q→ n∈N 0)√ , q − f 1∗2n)∣)∣∣∣√ , q nnach 3. und dem Satz von der dominierten Konvergenz.( f∗n r √ 1 ∣∣∣, q))∣n✷284


Dieselben Argumente wie beim Beweis des Satzes von Glivenko–Cantelli führen zuder folgenden Verschärfung des obigen Satzes.Korollar 12.15 Unter den Voraussetzungen von 12.14 gilt:({})∣ P 1n∑ f√ i − µ≤ t − Φ(t)n σ∣ → n∈N 0.supt∈Ri=1Korollar 12.16 (Satz von Moivre–Laplace) Die Zufallsvariablen f i , i ∈ N, seienunabhängig und B(1, p)–verteilt mit p ∈ (0, 1). Dann gilt mit S n := ∑ ni=1 f i für−∞ ≤ t 1 ≤ t 2 ≤ ∞ :({})P t 1 ≤S n − np√ ≤ t 2np(1 − p)→ n∈N1√2π∫ t2t 1285exp(− x22)dx,


zw.maxk 1 ,k 2 ∈{0,...,n}→ n∈N 0.∣−B(n, p)({k 1 , k 1 + 1, . . . , k 2 })1√2πk 2 −np√np(1−p)∫k 1 −np√np(1−p)exp(− x22)dx∣Beweis: Es gilt E(f i ) = p, σ 2 (f i ) = p − p 2 = p(1 − p). Die erste Behauptung folgtnun unmittelbar aus dem Zentralen Grenzwertsatz.286


Ferner gilt mit t 1 = (k 1 − np)/( √ np(1 − p), t 2 = (k 2 − np)/( √ np(1 − p):({})P t 1 ≤S n − np√ ≤ t 2np(1 − p)= P ({k 1 ≤ S n ≤ k 2 })= B(n, p)({k 1 , k 1 + 1, . . . , k 2 }),s. Übungen. Die zweite Behauptung folgt damit aus 12.15.Es ist also nach dem Satz von Moivre–Laplace möglich, die WahrscheinlichkeitB(n, p)({k 1 , k 1 + 1, . . . , k 2 }), deren exakte Berechnung auf die Summation unhandlicherAusdrücke ( nk)p k (1 − p) n−k hinausläuft, näherungsweise mittels der VerteilungsfunktionΦ zu berechnen, wenn n groß ist.Beispiel 12.17 (Macht entschloss. Minderheit) An einer Stichwahl zwischen denbeiden Kandidaten A und B nehmen 1 Million Wähler teil. 2000 Wähler unterwer-287✷


fen sich der Parteidisziplin und stimmen geschlossen für Kandidat A. Die übrigen998000 Wähler sind mehr oder weniger unentschlossen und treffen ihre Entscheidungunabhängig voneinander durch Werfen einer (fairen) Münze. Wie groß ist die Wahrscheinlichkeitp A für einen Sieg von A?Lösung: A siegt genau dann, wenn er mehr als 498000 der Stimmen der 998000 unentschlossenenWähler erhält. Die Anzahl f der A–Stimmen dieser Wähler ist B(998000, 1/2)288


verteilt. Es folgt:p A = P ({f⎛⎧> 498000})⎪⎨⎜ f − 998000 1 2= P ⎝ √⎪⎩ 998000 1 12 2⎛⎧⎪⎨⎜ f − 998000 1 2≈ P ⎝ √⎪⎩ 998000 1 12 2≈ 1 − Φ(−2, 002)= Φ(2, 002)≈ 0, 977.⎫⎞> 498000 − ⎪⎬9980001 2 ⎟√⎠998000 1 1 ⎪⎭2 2⎫⎞⎪⎬⎟> −2, 002 ⎠⎪⎭289


(Zum Vergleich: Abschätzung mittels der Tschebyscheff–Ungleichung ergibt:⎛⎧⎫⎞⎪⎨⎜ f − 998000 1 ⎪⎬2⎟1 − p A ≈ P ⎝ √ ≤ −2, 002 ⎠⎪⎩ 998000 1 1 ⎪⎭2 2⎛⎧⎫⎞⎪⎨⎜f − 998000 1 ⎪⎬2⎟≤ P ⎝√≥ 2, 002 ⎠⎪⎩∣ 998000 1 12 2 ∣⎪⎭1≤2, 002 2≈ 1 4⇒ p A≥∼34 .) 290


✷Beispiel 12.18 Es gilt:limn∈N(exp(−n)n∑i=0)n ii!= 1 2 .Beweis: f 1 , f 2 seien unabhängige, Poisson–verteilte Zufallsvariablen zu den Parameternλ 1 bzw. λ 2 > 0, d.h. es gilt für i = 1, 2:P ({f i = k}) = exp(−λ i ) λk i, k = 0, 1, . . .k!291


Dann ist f 1 + f 2 Poisson–verteilt zum Parameter λ 1 + λ 2 :P ({f 1 + f 2 = k})∞∑= P ({f 1 + f 2 = k, f 1 = i})==i=0k∑P ({f 2 = k − i, f 1 = i})i=0k∑P ({f 2 = k − i})P ({f 1 = i})i=0k∑ λ k−i2= exp(−λ 2 )(k − i)! exp(−λ 1) λi 1i!i=0= exp(−(λ 1 + λ 2 )) 1 k∑( kλk! i)i 1λ k−i2292i=0= exp(−(λ 1 + λ 2 )) (λ 1 + λ 2 ) k, k = 0, 1, . . .k!


Ferner gilt E(f 1 ) = λ 1 , σ 2 (f 1 ) = λ 1 .Es sei nun f i , i ∈ N, eine Folge unabhängiger, identisch zum Parameter 1 Poisson–verteilter Zufallsvariablen. Dann gilt nach dem Zentralen Grenzwertsatz:({})1n∑P √ (f i − 1) ≤ 0 → n∈N Φ(0) = 1 n 2 .Andererseits gilt:i=1P({})1n∑√ (f i − 1) ≤ 0n= P({ n∑i=1i=1f i ≤ n})= exp(−n)n∑i=0n ii! ,293


da ∑ ni=0 f i Poisson–verteilt ist zum Parameter n.✷Der folgende Satz macht eine Aussage über die Konvergenzgeschwindigkeit beimZentralen Grenzwertsatz.Satz 12.19 (Berry–Esseen) Es seien f 1 , f 2 , . . . unabhängige und identisch verteilteZufallsvariablen. Ist 0 < σ 2 :=Var(f 1 ) < ∞, γ := E(|f 1 − µ| 3 ) < ∞ mit µ := E(f 1 ),so gilt:supx∈R({∣ P 1n∑√ n≤ 0, 8 γ σ 3 1√ n.i=1f i − µσ≤ x})− Φ(x)∣Beweis: S. Gänssler, P. und Stute, W. (1977).294✷


Eine weitere direkte Anwendung des Zentralen Grenzwertsatzes führt zu sog. Konfidenzinte(Vertrauensintervallen). Der einfachste Fall ist der folgende: Angenommen, f n , n ∈ N,ist eine Folge unabhängiger, identisch verteilter und quadratintegrierbarer Zufallsvariablenmit bekannter Varianz σ 2 , aber unbekanntem Mittelwert µ, der geschätzt werdensoll.Mit dem arithmetischen Mittel ˆµ n := n −1 ∑ ni=1 f i erhalten wir eine Punktschätzungfür µ. Allerdings wird ˆµ n um den wahren Wert µ (zufällig) schwanken. Es erscheintdaher vernünftig, zusätzlich zur Punktschätzung ˆµ n ein IntervallI n := [ˆµ n − c, ˆµ n + c](mit dem Mittelpunkt ˆµ n ) anzugeben, von dem man weiß, dass es den unbekanntenMittelwert µ mit hoher Wahrscheinlichkeit enthält. Dies ist eine Bereichsschätzung vonµ.Problem: Wie soll c > 0 gewählt werden?295


Einerseits natürlich möglichst klein, um eine gute (Bereichs–)Schätzung für µ zuerhalten.Andererseits darf c nicht zu klein gewählt werden, da I n den Wert µ mit hoherWahrscheinlichkeit enthalten soll.Eine Lösung dieses Zielkonfliktes bietet der Zentrale Grenzwertsatz wie folgt: Wirwissen, dass für t ≥ 0 gilt:P({−t ≤ 1 √ nn∑i=1→ n∈N Φ(t) − Φ(−t)= 2Φ(t) − 1,f i − µσ≤ t})296


wobeiWählen wir alsoP({= P= P−t ≤ 1 √ nn∑f i − µσ≤ t})({i=1ˆµ n − √ tσ ≤ µ ≤ ˆµ n + tσ })√({ [ n nµ ∈ ˆµ n − √ tσ , ˆµ n + tσ ]})√ .n nc := c n := tσ √ n(→ n∈N 0!),so erhalten wirP ({µ ∈ I n }) → n∈N 2Φ(t) − 1.Dabei wählen wir nun t > 0 so, dass 2Φ(t) − 1 gleich der (hohen) vorgegebenenWahrscheinlichkeit sein soll, sagen wir 1 − α, mit der µ in I n liegen soll. Ein typischer297


Wert wäre 1 − α = 0, 95.Es soll also gelten:(2Φ(t) − 1 = 1 − α ⇔ t = Φ −1 1 − α ),2d.h. t =(1 − α/2)–Quantil der Standardnormalverteilung, i.Z. u α/2 . Damit erhaltenwir({ [P µ ∈ ˆµ n − u α/2σ√ , ˆµ n + u ]})α/2σ√ → n∈N 1 − αn nundI n (α) :=[ˆµ n − u α/2σ√ , ˆµ n + u ]α/2σ√ n nheißt Konfidenzintervall (für µ) zum (asymptotischen) Niveau 1 − α.Beachte, dass, wenn P ∗ f i = N(µ, σ 2 ), d.h. f i selbst normalverteilt, i = 1, 2, . . . ,aus dem Faltungstheorem der Normalverteilung 12.6 sofort folgt:P (µ ∈ I n (α)) = 1 − α.298


Literatur[1] Georgii, H.–G. (2002). <strong>Stochastik</strong>. Einführung in die Wahrscheinlichkeitstheorie und<strong>Statistik</strong>. De Gruyter, Berlin.[2] Gänssler, P. und Stute, W. (1977). Wahrscheinlichkeitstheorie. Springer, Heidelberg.[3] Krengel, U. (2002). Einführung in die Wahrscheinlichkeitstheorie und <strong>Statistik</strong>. 6.Auflage. Vieweg, Braunschweig.[4] Walter, W. (1991). Analysis 2. 3. Auflage. Springer, Heidelberg.299

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!