(Microsoft PowerPoint - Pr\346sentation1) - Aarhus Universitet
AARHUS
UNIVERSITET
Maja Tarp
AARHUS UNIVERSITET
HVEM ER JEG
Maja Tarp, 24 år
• Folkeskole i Ulsted i Nordjylland
• Student år 2005 fra Dronninglund
Gymnasium
• Efter gymnasiet:
• Militæret
• Australien
• Startede på matematik på Aarhus
Universitet i 2007
• Sommeren 2010:
BSc i matematik
• Nu:
Stud.cand.scient i statistik
STUDIERNES OPBYGNING
Her er jeg
HVORDAN SER EN UGE UD
JOBMULIGHEDER
Private erhvervsliv – et hav af
muligheder:
• Handel
• Banker
• Konsulent- og rådgivningsvirksomhed
• Medicinalindustri
• Sundhed
Forskning:
• Universiteter
• Interesseorganisationer
• Private virksomheder
Undervisning:
• Gymnasier
• Handelsskoler
• Seminarer
Ikke Gallup!
Hvorfor statistik
• Kan ”forudsige” fremtiden
• Kan bruges som beslutningsgrundlag:
• Politik
• Aktiekurser
• Medicinske forsøg
• Risikovurdering
• Spilteori
Statistik og virkeligheden
• I perioden 1960-1970 faldt antallet af fødsler samtidig
med at antallet af storkepar i Danmark faldt.
• Drukneulykker og issalg hænger sammen: Når der
sælges mange is, er der mange der drukner!
• Bør der investeres mere i rynkecreme Der er en
overdødelighed blandt folk med rynker!
Normalfordeling
Normalfordeling
• Måske den vigtigste fordeling
overhovedet.
• Har toppunkt i sin middelværdi, og
er symmetrisk fordelt her
omkring.
• Model for hvordan et stort antal
statistiske elementer fordeler sig
omkring deres middelværdi.
Eksempler
• Højde, vægt
• Kvalitetstest
• Blodtryksændring
• IQ
En normalfordelt observation
Vi vil nu betragte en normalfordelt stokastisk variabel:
X
~ N(
µ ; σ )
Hvor µ er middelværdien og σ er standardafvigelsen. Gælder der:
X
~ N(0;1)
siges X at være standardnormalfordelt.
En normalfordelt observation
Vi betragter altså
X
~ N(
µ ; σ )
x
Vi beregner ofte som er det bedste gæt på den sande værdi af .
µ
2
Og som er det bedste gæt man kan komme på den sande værdi af
.
s
σ
Normalfordelingen, grafisk
• Den normerede normalfordeling, dvs.
X
~ N(0;1)
• Grafen viser tæthedsfunktionen.
• Areal = 1
Normalfordelingen, grafisk
• En tilsvarende graf kan laves for enhver
normalfordeling
X
• Samme form som før, blot anden
placering.
• Arealet stadig 1.
~ N(
µ ; σ )
Fordelingsfunktionen
Lad X være en standardnormalfordelt stokastisk variabel.
Fordelingsfunktionen Φ(x) angiver sandsynligheden for, at X er mindre
end et tal x, dvs
Φ(x) = Sandsynlighed for X≤x
Dvs. at Φ(x) er en voksende funktion, med værdier mellem 0 og 1.
Eksempler: Fordelingsfunktionen
Vi betragter
X
~ N(30;4)
altså hvor middelværdien er 30 og spredningen 4.
Bestem fordelingsfunktinen. Dvs.
find sandsynligheden for at ≤ x
To metoder: Antag x=33.
• Bestem sandsynligheden som arealet
under grafen for tæthedsfunktionen fra
- til 33.
∞
• Bestem fordelingsfunktionens værdi i 33.
Eksempel: Fluer og gift
16 fluer udsættes for nervegift, der måles hvor lang tid der går, før
fluerne besvimer.
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
Flue nummer i
1.86
4.9
140
1.32
4.1
58
1.01
3.8
46
0.78
3.8
43
0.58
3.5
34
0.40
3.2
24
0.24
3.2
24
0.08
3.0
20
-0.08
2.5
12
-0.24
2.3
10
-0.40
2.2
9
-0.58
2.2
9
-0.78
1.9
7
-1.01
1.6
5
-1.32
1.6
5
-1.86
1.1
3
Φ^(-1) ((i-0.5)/16)
Ln(tid)
Tid
N(0,1)-fraktil
-2 -1 0 1 2
0 20 40 60 80 100 120 140
tid
Hvis vores målinger er normalfordelte forventer vi at kunne indtegne dem
som en ret linje i fraktilplottet. Dette er ikke tilfældet, men målingerne ser ud
til at de kunne være logaritme fordelt. Derfor tages logaritmen til tiden og vi
indtegner igen.
N(0,1)-fraktil
-2 -1 0 1 2
1 2 3 4 5
Målingerne ligger om en pæn ret linje, hvorfor vi kan antage, at logaritmen til
tiden er normalfordelt. Dvs. vi betragter modellen:
X
lntid
~ N(
µ ; σ )
Vi beregner efterfølgende skøn for standardafvigelsen og middelværdien vha.
formlerne:
S
x
=
=
USS
s
=
n
∑
i=
1
1
S
n
=
x
i
=
n
∑
i=
1
= (1.1 + 1.6 + ... + 4.9) =
1
16
x
2
i
44.9
= 1.1
1
( USS −
n −1
=
2
2.81
+ 1.6
S
n
2
)
=
2
+ ... + 4.9
1
15
44.9
2
(142.6 −
= 142.6
44.9
16
2
)
= 1.05
En lille gåde…
4 mexicanere har stjålet en ged, og er derfor blevet dømt til døden, og
skal skydes. De får dog en chance for at redde deres liv. De er hver
blevet udstyret med en mexicaner hat, og der er 2 hvide og 2 sorte
hatte. De skal nu blot besvare følgende spørgsmål:
Hvilken farve hat har du selv på
Hvilke(n) af de 4 mexicanere kan fortælle
hvilken farve hat han selv har på
Gåden…
Situationer:
1.
2.
3.
Eksempel: Læseevner
Der betragtes to 3. klasser. Den ene klasse modtager ekstra
læsetræning, mens den anden klasse er en kontrolklasse med
almindelig læseundervisning. Efter 8 uger får eleverne en læsetest.
Klasse
Træning
Testresultat
24 43 71 58 43 49 61 44 67 49 53 56 59 52 62 54
57 33 46 43 57
Kontrol
42 43 55 26 62 37 33 41 19 54 20 85 46 10 17 60
53 42 37 42 55 28 48
Fraktilplots viser at målinger i hver klasse kan beskrives med en
normalfordeling, dvs:
X
træning
~
N
( µ
træning
; σ
træning
)
.
X
kontrol
~
N
( µ
kontrol
; σ
kontrol
)
Vi ønsker nu at finde estimater for middelværdi og standardafvigelse i hver
af de to klasser.
Først beregnes:
46123
48
...
43
42
58069
57
...
43
24
955
48)
...
43
(42
1081
57)
...
43
(24
2
2
2
1
2
2
2
2
1
2
1
1
=
+
+
+
=
=
=
+
+
+
=
=
=
+
+
+
=
=
=
+
+
+
=
=
∑
∑
∑
∑
=
=
=
=
n
i
i
kontrol
n
i
i
træning
n
i
i
kontrol
n
i
i
træning
x
USS
x
USS
x
S
x
S
46123
955
23
Kontrol
58069
1081
21
Træning
USS
S
n
Klasse
17.1
)
23
955
(46123
22
1
)
(
1
1
11.0
)
21
1081
(58069
20
1
)
(
1
1
41.5
955
23
1
1
51.5
1081
21
1
1
2
2
2
2
=
−
=
−
−
=
=
−
=
−
−
=
=
=
=
=
=
=
n
S
USS
n
s
n
S
USS
n
s
S
n
x
S
n
x
kontrol
træning
kontrol
træning
Vi ønsker nu at teste hypotesen
H
:σ = σ
træning
kontrol
altså et test for samme standardafvigelse i de to klasser.
Dette gøres ved teststørrelsen:
F
=
s
s
2
træning
2
kontrol
=
11.0
17.1
2
2
=
0.41 ~
F(
f
1
,
f
2
)
=
F(21−1,23−1)
=
F(20,22)
P
obs
( x)
=
2(1 −
F
F ( f
, )(
)) 2(1
(20,22)(0.41))
1 f
F = − F
=
2
F
0.057
Da p-værdien er større end 5 % accepterer vi hypotesen, dvs vi har modellen:
X
X
træning
kontrol
~
~
N(
µ
N(
µ
træning
kontrol
; σ )
; σ )
Den fælles standardafvigelse kan estimeres ved:
s
=
f
træning
s
f
2
træning
træning
+
+
f
f
kontrol
kontrol
s
2
kontrol
=
20
⋅110
2
20
+ 22 ⋅17.1
+ 22
2
=
14.6
Vi ønsker nu at teste hypotesen
H : µ = µ
træning
kontrol
altså et test for samme middelværdi i de to klasser. Dvs. et test for om den
ekstra læsetræning har en effekt.
Dette gøres ved teststørrelsen:
0.027
(2.27))
2(1
) ))
(
(
2(1
)
(
(42)
2)
(
)
(
~
2.27
)
23
1
21
1
(
14.6
41.5
51.5
)
1
1
(
)
(
(42)
)
(
2
2
=
−
=
−
=
=
−
+
=
=
+
−
=
+
−
=
t
f
t
obs
kontrol
træning
kontrol
træning
kontrol
træning
F
x
t
F
x
P
t
n
n
t
f
t
n
n
s
x
x
x
t
Da p-værdien er mindre end 5 % forkaster vi hypotesen om ens
middelværdier. Dvs den ekstra læsetræning har en effekt.
Da vi kun lige nøjagtig fik accept af hypotesen om ens standardafvigelser,
ønsker vi også at teste hypotesen om ens middelværdier i modellen med
forskellige standardafvigelser:
X
X
træning
kontrol
~
~
N(
µ
N(
µ
træning
kontrol
; σ
; σ
træning
kontrol
)
)
37.9
1)
/(23
)
23
17.1
(
1)
/(21
)
21
110
(
)
23
17.1
21
110
(
1)
/(
)
(
1)
/(
)
(
)
(
~
)
~
(
2.31 ~
23
17.1
21
110
41.5
51.5
)
(
:
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
=
−
+
−
+
=
−
+
−
+
=
=
+
−
=
+
−
=
=
kontrol
kontrol
kontrol
træning
træning
træning
kontrol
kontrol
træning
træning
kontrol
kontrol
træning
træning
kontrol
træning
kontrol
træning
n
n
s
n
n
s
n
s
n
s
f
f
t
n
s
n
s
x
x
x
t
H µ
µ
Dvs. vi tester hypotesen:
P
obs
( x)
= 2(1 − F ~ ( t(
x)
)) = 2(1 − F
(37.9)
(2.31)) =
t ( f )
t
0.026
Dvs. vi også får forkastelse af hypotesen om ens middelværdier i denne
model.
Konklusionen bliver altså i dette tilfælde det samme, men vi bemærker at
idet vi får to forskellige testværdier, kunne vi godt have fået accept i den
ene model frem for den anden.
Eksempel: Allergiske reaktioner
Der betragtes 50 personer med pollenallergi. 23 behandles med en
modgift man vil teste effekten af, mens de resterende 27 får et
medikament, man ved ikke har nogen effekt (placebo). Vi betragter
modellen:
X
mod gift
~ N(
µ
mod gift;
σ
mod gift
)
X
placebo
~
N(
µ
placebo
; σ
placebo
)
Det oplyses at:
Gruppe
n
x
s
Modgift
23
19.5
27.3
Placebo
27
5.4
17.2
Vi vil først teste hypotesen om ens standardafvigelse:
H
: σ
F =
~ F(
P
obs
s
s
1
( x)
= 2(1 −
mod gift
2
mod gift
f
2
placebo
,
f
=
F
2
= σ
=
27.3
17.1
= 2.54
) = F(23
−1,27
−1)
=
2(1 − F
F (22,26)
placebo
2
2
F ( f
1
, f
2
)
( F))
(2.54)) = 0.024
F(22,26)
Dvs vi får forkastelse af hypotesen om ens standardafvigelse.
Havde vi fået accept af hypotesen om ens standardafvigelser ville vi et 95%
konfidensinterval for forskellen mellem middelværdierne være:
2 1 1
2 1 1
x
1
− x2
− s ( + ) t0.975(
f ) ≤ µ
1
− µ
2
≤ x1
− x2
+ s ( + ) t0.
975(
f )
n n
n n
1
2
Når standardafvigelserne ikke er ens bliver konfidensintervallet i stedet:
1
2
x
mod gift
2
2
smod
gift
s
placebo
− x
t (
~
placebo − +
0.975
f ) ≤ µ
mod gift
− µ
n n
mod gift
placebo
placebo
≤
x
mod gift
−
x
placebo
+
s
n
2
mod gift
mod gift
+
s
n
2
placebo
placebo
t
0.975
(
~ f )
35.8
1)
/(27
)
27
17.1
(
1)
/(23
)
23
27.3
(
)
27
17.1
23
27.3
(
1)
/(
)
(
1)
/(
)
(
)
(
~
2
2
2
2
2
2
2
2
2
mod
2
mod
2
mod
2
2
mod
2
mod
=
−
+
−
+
=
−
+
−
+
=
placebo
placebo
placebo
gift
gift
gift
placebo
placebo
gift
gift
n
n
s
n
n
s
n
s
n
s
f
Vi bestemmer først:
Hvormed et 95% konfidensinterval for forskellen mellem middelværdierne
er givet ved:
27.3 −17.1−
27.3
23
2
17.1
+
27
2
2.03 ≤ µ
mod gift
− µ
placebo
≤
27.3−17.1−
27.3
23
2
17.1
+
27
2
2.03
⇒
0.77
≤ µ
mod gift
− µ
placebo
≤ 27.5
Vi bemærker, at 0 ikke ligger i konfidensintervallet.
Vi ønsker til slut at teste om de to middelværdier kan antages at være ens:
H : µ = µ
mod gift
xmod
gift − x
t(
x)
=
2
smod
gift
s
+
nmod
gift
n
~ t(
~ f ) = t(35.8)
P
obs
( x)
= 2(1 − F
placebo
t(
~ f )
placebo
2
placebo
placebo
( t(
x) ))
=
=
19.5 − 5.4
= 2.14
2 2
27.3 17.1
+
23 27
2(1 − F (2.14)) = 0.038
t(35.8)
Det vil sige vi forkaster hypotesen. Det er i overensstemmelse med 0 ikke
er i konfidensintervallet fra før og betyder behandlingen har en effekt.
Hvorfor er det godt
at kunne
sin statistik
TV-quiz
Antag, at du medvirker i et tv-program, og du får givet
muligheden for at vælge mellem tre døre:
Bag en af dørene er der en bil;
bag de to andre en ged.
Du vælger en dør, lad os sige nr. 1, og tv-værten,
som ved, hvad der er bag dørene, åbner en anden dør,
lad os sige nr. 3, bag hvilken der befinder sig en ged.
Han spørger dig nu:
"Vil du hellere vælge dør nr. 2"
Er det nu en fordel af vælge om
Sandsynligheden for at man vælger døren med bilen ved det første valg er
1/3, hvilket også vil være chancen for at vinde bilen, hvis man holder fast
på sit første valg.
På den anden side er sandsynligheden for at vælge en dør, som skjuler en
ged 2/3, og en spiller, som oprindeligt har valgt en ged, vinder bilen ved at
vælge om.
Vi har altså 3 mulige udfald
1.
2.
3.
I to ud af tre tilfælde kan det betale sig at skifte dør, og i et ud af tre
tilfælde kan det ikke betale sig.
Ens chance for at vinde fordobles altså ved at vælge om, når spilstyreren
tilbyder det.
Løsningen ville være anderledes, hvis tv-værten ikke vidste, hvad der var
gemt bag de forskellige døre, eller hvis tv-værten havde muligheden for
ikke at tilbyde spilleren at vælge om.
Er mænd klogere end kvinder
Professor i psykologi ved Aarhus Universitet, Helmuth Nyborg påstod at
have opdaget mænd gennemsnitligt er 27 % klogere end kvinder.
Senere opdagede han en regnefejl, så forskellen kun var 5 %...
Men kan dette resultat være rigtigt
Problemer med Nyborgs resultat:
- Lille datamateriale (52 personer)
- Hvordan er disse udvalgt
- Hvordan måles intelligensen
- Statistisk metode
Nyborg modellerede hvert køns intelligens ved en normalfordeling.
Han anvendte et test, der ikke gav mulighed for kvinder kunne være
klogere end mænd.
Havde han i stedet anvendt et ganske almindeligt t-test for at
middelværdien var den samme i de to grupper (de to køn), ville han have
fået accept.
Men der er flere problemer…
Nyborg hævdede:
”for hver kvinde med en IQ på over 145 vil der være 122 mænd”
Er Nyborgs 52 testpersoner repræsentative (og ellers giver undersøgelsen
ingen mening!) må de fleste ligge nær middelværdien.
Et så lille datasæt kan derfor ikke sige noget om hvordan fordelingen er i de
mere ekstreme tilfælde.
”Statistiker på prøve”
• Ansat ved Klinisk Epidemiologisk Afdeling (KEA)
• Undersøge patient-populationers prognose
• Adgang til:
• CPR-registret
• Receptdatabase
• Operationsdatabase
• Cancerregister
• Fødsels- og dødsregister
”Statistiker på prøve”
• Immunforsvarets rolle i forbindelse med brystkræft-recidiv
• Herpes Zoster og kræft
•Spørgsmål og kommentarer
•Tak for i dag