Sandsynlighedsregning
Sandsynlighedsregning
Sandsynlighedsregning
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
<strong>Sandsynlighedsregning</strong><br />
Mogens Bladt<br />
www2.imm.dtu.dk/courses/02405<br />
21. September, 2007<br />
Mogens Bladt www2.imm.dtu.dk/courses/02405<br />
<strong>Sandsynlighedsregning</strong>
Lidt om binomialkoefficienter<br />
n størrelsen af en mængde/population.<br />
Vi ønsker at udtage en sub–population af størrelse r.<br />
To sub–populationer er forskellige hvis en af populationerne<br />
indeholder et element forskellig fra elementerne i den anden.<br />
På hvor mange måder kan udtage en sub–population af<br />
størrelse r?<br />
En sub–population på størrelse r kan arrangeres på<br />
r! = r(r − 1)(r − 2) · · · 2 · 1 måder.<br />
Vi kan udtage r elementer af de n på<br />
(n) r = n(n − 1) · · · (n − r + 1) måder.<br />
Hvis x er antallet af måder vi kan udtage en sub–population<br />
af størrelse r på, så er x · r! = (n) r . D.v.s<br />
( n<br />
x =<br />
r<br />
)<br />
= (n) r<br />
r!<br />
=<br />
n!<br />
r!(n − r)! .<br />
Mogens Bladt www2.imm.dtu.dk/courses/02405<br />
<strong>Sandsynlighedsregning</strong>
Lidt om binomialkoefficienter<br />
( ) ( )<br />
n n<br />
= .<br />
r n − r<br />
At udvælge r elementer kan gøres på lige så mange måder<br />
som at fravælge n − r.<br />
( ) ( ) ( )<br />
n n n + 1<br />
+ = .<br />
r − 1 r r<br />
Udvælg et element, i, fra populationen af størrelse n + 1. Hvis<br />
vi udvælger r elementer af n + 1 så er i enten med eller ikke.<br />
Hvis den er med skal vi blot vælge r − 1 andre; hvis den ikke<br />
er med skal vi vælge r af de n tilbageværende.<br />
( ) ( ) ( )<br />
n n n<br />
+ + ... + = 2<br />
0 1<br />
n<br />
n<br />
Vi kan del populationen n i to dele på det antal måder som er<br />
angivet på h.s. højresiden er at vi til hvert element beslutter<br />
om dette skal være i den ene eller den anden mængde.<br />
Mogens Bladt www2.imm.dtu.dk/courses/02405<br />
<strong>Sandsynlighedsregning</strong>
Lidt om binomialkoefficienter<br />
Binomialkoefficienter forekommer naturligt på følgende måde:<br />
n∑<br />
( )<br />
(a + b) n n<br />
= a i b n−i .<br />
i<br />
i=0<br />
(a + b) 2 = a 2 + 2ab + b 2 .<br />
(a + b) 3 = a 3 + 3a 2 b + 3ab 2 + b 3<br />
Hvis nu a og b = 1 − a er sandsynligheder, så står der, at<br />
n∑<br />
( ) n<br />
1 = a i b n−i .<br />
i<br />
i=0<br />
( ) n<br />
D.v.s. med p i = p<br />
i<br />
i (1 − p) n−i har vi en følge der<br />
opfylder, at<br />
p i ≥ 0, ∑ p i = 1 og p i ≤ 1<br />
i<br />
Mogens Bladt www2.imm.dtu.dk/courses/02405<br />
<strong>Sandsynlighedsregning</strong>
Fordelinger<br />
Hvis p i ∈ [0, 1] og ∑ i p i = 1 så kaldes {p i } en fordeling.<br />
Hvis p 0 = p, p 1 = 1 − p kaldes fordelingen en Bernoulli<br />
fordeling.<br />
( ) n<br />
Hvis p i = p<br />
i<br />
i (1 − p) n−i , i = 0, 1, ..., n kaldes<br />
fordelingen en Binomial fordeling. Vi skriver også<br />
p i = b(i; n, p) for at specificere n, p.<br />
Hvis p i = p i−1 (1 − p), i = 0, 1, 2, ... kaldes fordelingen for en<br />
geometrisk fordeling.<br />
Hvis p i = λi<br />
i! e−λ , i = 0, 1, ... kaldes fordelingen for en Poisson<br />
fordeling.<br />
Mogens Bladt www2.imm.dtu.dk/courses/02405<br />
<strong>Sandsynlighedsregning</strong>
Binomialfordelingen<br />
Hvad er sandsynligheden for at slå 2 plat i 3 kast med en<br />
terning?<br />
Udfaldsrummet er<br />
Ω = {(a, b, c)|a ∈ {p, k}, b ∈ {p, k}, c ∈ {p, k}}.<br />
D.v.s. der er 2 · 2 · 2 = 8 muligheder. Disse er<br />
ω 1 = (p, p, p)<br />
ω 2 = (p, p, k)<br />
ω 3 = (p, k, p)<br />
ω 4 = (p, k, k)<br />
ω 5 = (k, p, p)<br />
ω 6 = (k, p, k)<br />
ω 7 = (k, k, p)<br />
ω 8 = (k, k, k)<br />
Mogens Bladt www2.imm.dtu.dk/courses/02405<br />
<strong>Sandsynlighedsregning</strong>
Binomialfordelingen<br />
Der er 3 af disse ω’er der har 2 plat. D.v.s. Sandsynligheden<br />
er 3/8.<br />
Dette kunne vi også have regnet ud på følgende måde:<br />
p =sandsynligheden<br />
( )<br />
for plat (succes). Vi kan udtage 2 platter<br />
3<br />
i 3 kast på = 3!<br />
2 (3−2)!2!<br />
= 3 måder. Dvs.<br />
sandsynligheden for 2 plat er lig med<br />
p 2 = b(2; 3, 1 2 ) = ( 3<br />
2<br />
) ( 1 2 (<br />
1 −<br />
2) 1 ) 3−2<br />
= 3 · 1<br />
2 4 · 1<br />
2 = 3 8 .<br />
Mogens Bladt www2.imm.dtu.dk/courses/02405<br />
<strong>Sandsynlighedsregning</strong>
Binomialfordelingen<br />
r bolde fyldes på en tilfældig måde i n kasser. Hvad er<br />
sandsynligheden p k for at k bolde findes i en speciel kasse<br />
(den første f.eks.)?<br />
Sandsynligheden for at en bold havner i den specielle kasse er<br />
1/n (succes), sandsynligheden for at den havner udenfor er<br />
1 − 1/n (fiasko).<br />
Derfor er p k = b(k; r, 1/n), så<br />
( r<br />
p k =<br />
k<br />
) ( 1<br />
n<br />
) k (<br />
1 − 1 n<br />
) r−k<br />
.<br />
Mogens Bladt www2.imm.dtu.dk/courses/02405<br />
<strong>Sandsynlighedsregning</strong>
Hypergeometrisk fordeling<br />
Antag, at en kasse med n = n 1 + n 2 bold indeholder n 1 røde<br />
og n 2 sorte bolde.<br />
r elementer udtages tilfældigt.<br />
Lad q k = hp(k; r, n1, n2) være sandsynligheden for, at<br />
stikprøven indeholder præcis k røde elementer.<br />
Så er<br />
q k =<br />
(<br />
n1<br />
k<br />
) ( )<br />
n2<br />
r − k<br />
( ) . n<br />
r<br />
Mogens Bladt www2.imm.dtu.dk/courses/02405<br />
<strong>Sandsynlighedsregning</strong>
Hjortene<br />
Antallet af hjorte er n = n 1 + n 2 .<br />
De “røde” bolde er nu de mærkede dyr, n 1 = 100.<br />
170 dyr blev skudt, dette er stikprøven på størrelse r = 170.<br />
Heraf var de k = 25 dyr mærkede.<br />
Vi ønsker at estimere n (eller n 2 ) som er den eneste<br />
ubekendte.<br />
Mogens Bladt www2.imm.dtu.dk/courses/02405<br />
<strong>Sandsynlighedsregning</strong>
Hjortene<br />
Sandsynligheden for at stikpøven indeholder 25 mærkede dyr<br />
er<br />
( ) ( 100 n − 100<br />
)<br />
q 25 =<br />
25 170 − 25<br />
( ) n<br />
.<br />
170<br />
Vi estimerer nu n ved at finde den værdi som maximerer q 25<br />
(maximum likelihood estimation).<br />
I hjorte–eksemplet er n = 680.<br />
Mogens Bladt www2.imm.dtu.dk/courses/02405<br />
<strong>Sandsynlighedsregning</strong>
DeMoivre–Laplace grænseværdisætning.<br />
Lad A α,β være hændelsen, at antal successer i et binomial<br />
experiment ligger mellem α og β, hvor α < β.<br />
Hvis α og β er heltallige har vi, at<br />
IP(A α,β ) = b(α; n, p)+b(α+1; n, p)+...+b(β−1; n, p)+b(β; n, p).<br />
Lad Φ(x) være følgende funktion<br />
Så gælder, at<br />
Φ(x) =<br />
∫ x<br />
−∞<br />
1<br />
√<br />
2π<br />
e − t2 2 dt..<br />
IP(A α,β ) ≈ Φ( β − np + 1 2<br />
√ ) − Φ( α − np − 1 2<br />
√ ).<br />
np(1 − p) np(1 − p)<br />
Tallene 1 2<br />
i ovenstående formler kaldes<br />
“kontinuitetskorrektioner”.<br />
Mogens Bladt www2.imm.dtu.dk/courses/02405<br />
<strong>Sandsynlighedsregning</strong>
DeMoivre–Laplace grænseværdisætning.<br />
Grænseværdisætningen siger løst sagt, at en binomialfordeling<br />
kan approximeres med en normal fordeling der har samme<br />
middelværdi og varians som binomialfordelingen.<br />
Hvad er sandsynligheden for at slå plat mellem 190 og 210<br />
gange i 400 kast med en mønt?<br />
Den præcise sandsynlighed er<br />
∑210<br />
i=190<br />
b(i; 400, 1 2 ) = .7062918818.<br />
Med normalapproximationen fås<br />
⎛<br />
⎞ ⎛<br />
1<br />
210 − 400 ·<br />
Φ ⎝ 2 + 1 1<br />
2<br />
190 − 400 ·<br />
√<br />
⎠−Φ ⎝ √<br />
400 · 1<br />
2 · 1<br />
2<br />
400 · 1<br />
2 · 1<br />
2<br />
2 − 1 2<br />
⎞<br />
⎠ . = .7062818872.<br />
Mogens Bladt www2.imm.dtu.dk/courses/02405<br />
<strong>Sandsynlighedsregning</strong>
Vedrørende normalfordelingen<br />
f (x) = 1 √<br />
2π<br />
e −x2 /2 kaldes for tætheden af standard normal<br />
fordelingen.<br />
Dette er en situation med udfaldsrum Ω = (−∞, ∞).<br />
Hvis A ⊂ Ω så er<br />
∫<br />
IP(A) =<br />
Specielt, hvis A = [a, b], så er<br />
IP(A) =<br />
A<br />
∫ b<br />
a<br />
f (x)dx.<br />
f (x)dx.<br />
Standard normal fordelingen er symmetrisk omkring 0.<br />
Bemærk, at ∫ ∞<br />
−∞<br />
f (x)dx = 1.<br />
Mogens Bladt www2.imm.dtu.dk/courses/02405<br />
<strong>Sandsynlighedsregning</strong>
Vedrørende normalfordelingen<br />
Foretager vi et variabel skift y = x + µ (eller x = y − µ) så er<br />
∫ ∞<br />
−∞<br />
1<br />
√<br />
2π<br />
e −(y−µ)2 /2 dy = 1.<br />
1 √<br />
2π<br />
e −(y−µ)2 /2 er symmetrisk omkring µ.<br />
Fortager vi endnu et variabel skift, x = y−µ<br />
σ<br />
, så er<br />
f (y; µ, σ) = 1 √<br />
2πσ<br />
e −(y−µ)2 /(2σ 2 )<br />
stadig symmetrisk omkring µ, og<br />
∫ ∞<br />
−∞<br />
f (y; µ, σ) = 1.<br />
f (x; µ, σ) kaldes for tætheden for normalfordelingen med<br />
middelværdi µ og standardafvigelse σ, og det skrives N(µ, σ 2 ).<br />
Mogens Bladt www2.imm.dtu.dk/courses/02405<br />
<strong>Sandsynlighedsregning</strong>
Vedrørende normalfordelingen<br />
Ved symmetri,<br />
Φ(−x) =<br />
=<br />
∫ −x<br />
−∞<br />
∫ ∞<br />
x<br />
= 1 −<br />
1<br />
√<br />
2π<br />
e −s2 /2 ds<br />
1<br />
√<br />
2π<br />
e −s2 /2 ds<br />
∫ x<br />
−∞<br />
= 1 − Φ(x)<br />
Definér, Φ(a, b) = Φ(b) − Φ(a).<br />
1<br />
√<br />
2π<br />
e −s2 /2 ds<br />
Så er Φ(a, b) sandsynligheden for hændelsen (a, b)<br />
(intervallet).<br />
Mogens Bladt www2.imm.dtu.dk/courses/02405<br />
<strong>Sandsynlighedsregning</strong>
Vedrørende normalfordelingen<br />
så er<br />
Φ(−x, x) = Φ(x) − Φ(−x)<br />
= Φ(x) − (1 − Φ(x))<br />
= 2Φ(x) − 1<br />
Den centrale grænseværdisætning siger løst sagt, at<br />
gennemsnittet af et stort antal uafhængige målinger er ca.<br />
normalfordelt.<br />
Dette har betydning i forhold til konfidensintervaller.<br />
Mogens Bladt www2.imm.dtu.dk/courses/02405<br />
<strong>Sandsynlighedsregning</strong>
Vedrørende normalfordelingen<br />
Lad os betragte 400 kast med mønt<br />
210 landede på krone. Er mønten fair?<br />
Hvor meget kan antal krone fluktuere omkring sin<br />
middelværdi på 200?<br />
Find c således, at<br />
IP(antal krone ligger mellem 200 − c og 200 + c) = 0.95.<br />
Vi finder numerisk, at c = 19, 1 ≈ 19.<br />
D.v.s. med 95 % sandsynlighed ligger antal krone i et område<br />
på 200 ± 19 ved 400 kast med en ægte mønt. Da 210, vores<br />
resultat, ligger i dette interval er der ingen grund til at betivle<br />
ægtheden af vores mønt.<br />
Mogens Bladt www2.imm.dtu.dk/courses/02405<br />
<strong>Sandsynlighedsregning</strong>