(Microsoft PowerPoint - Pr\346sentation1) - Aarhus Universitet

math.au.dk

(Microsoft PowerPoint - Pr\346sentation1) - Aarhus Universitet

AARHUS

UNIVERSITET

Maja Tarp

AARHUS UNIVERSITET


HVEM ER JEG

Maja Tarp, 24 år

• Folkeskole i Ulsted i Nordjylland

• Student år 2005 fra Dronninglund

Gymnasium

• Efter gymnasiet:

• Militæret

• Australien

• Startede på matematik på Aarhus

Universitet i 2007

• Sommeren 2010:

BSc i matematik

• Nu:

Stud.cand.scient i statistik


STUDIERNES OPBYGNING

Her er jeg


HVORDAN SER EN UGE UD


JOBMULIGHEDER

Private erhvervsliv – et hav af

muligheder:

• Handel

• Banker

• Konsulent- og rådgivningsvirksomhed

• Medicinalindustri

• Sundhed

Forskning:

Universiteter

• Interesseorganisationer

• Private virksomheder

Undervisning:

• Gymnasier

• Handelsskoler

• Seminarer

Ikke Gallup!


Hvorfor statistik

• Kan ”forudsige” fremtiden

• Kan bruges som beslutningsgrundlag:

• Politik

• Aktiekurser

• Medicinske forsøg

• Risikovurdering

• Spilteori


Statistik og virkeligheden

• I perioden 1960-1970 faldt antallet af fødsler samtidig

med at antallet af storkepar i Danmark faldt.

• Drukneulykker og issalg hænger sammen: Når der

sælges mange is, er der mange der drukner!

• Bør der investeres mere i rynkecreme Der er en

overdødelighed blandt folk med rynker!


Normalfordeling


Normalfordeling

• Måske den vigtigste fordeling

overhovedet.

• Har toppunkt i sin middelværdi, og

er symmetrisk fordelt her

omkring.

• Model for hvordan et stort antal

statistiske elementer fordeler sig

omkring deres middelværdi.


Eksempler

• Højde, vægt

• Kvalitetstest

• Blodtryksændring

• IQ


En normalfordelt observation

Vi vil nu betragte en normalfordelt stokastisk variabel:

X

~ N(

µ ; σ )

Hvor µ er middelværdien og σ er standardafvigelsen. Gælder der:

X

~ N(0;1)

siges X at være standardnormalfordelt.


En normalfordelt observation

Vi betragter altså

X

~ N(

µ ; σ )

x

Vi beregner ofte som er det bedste gæt på den sande værdi af .

µ

2

Og som er det bedste gæt man kan komme på den sande værdi af

.

s

σ


Normalfordelingen, grafisk

• Den normerede normalfordeling, dvs.

X

~ N(0;1)

• Grafen viser tæthedsfunktionen.

• Areal = 1


Normalfordelingen, grafisk

• En tilsvarende graf kan laves for enhver

normalfordeling

X

• Samme form som før, blot anden

placering.

• Arealet stadig 1.

~ N(

µ ; σ )


Fordelingsfunktionen

Lad X være en standardnormalfordelt stokastisk variabel.

Fordelingsfunktionen Φ(x) angiver sandsynligheden for, at X er mindre

end et tal x, dvs

Φ(x) = Sandsynlighed for X≤x

Dvs. at Φ(x) er en voksende funktion, med værdier mellem 0 og 1.


Eksempler: Fordelingsfunktionen

Vi betragter

X

~ N(30;4)

altså hvor middelværdien er 30 og spredningen 4.

Bestem fordelingsfunktinen. Dvs.

find sandsynligheden for at ≤ x

To metoder: Antag x=33.

• Bestem sandsynligheden som arealet

under grafen for tæthedsfunktionen fra

- til 33.


• Bestem fordelingsfunktionens værdi i 33.


Eksempel: Fluer og gift

16 fluer udsættes for nervegift, der måles hvor lang tid der går, før

fluerne besvimer.


16

15

14

13

12

11

10

9

8

7

6

5

4

3

2

1

Flue nummer i

1.86

4.9

140

1.32

4.1

58

1.01

3.8

46

0.78

3.8

43

0.58

3.5

34

0.40

3.2

24

0.24

3.2

24

0.08

3.0

20

-0.08

2.5

12

-0.24

2.3

10

-0.40

2.2

9

-0.58

2.2

9

-0.78

1.9

7

-1.01

1.6

5

-1.32

1.6

5

-1.86

1.1

3

Φ^(-1) ((i-0.5)/16)

Ln(tid)

Tid


N(0,1)-fraktil

-2 -1 0 1 2

0 20 40 60 80 100 120 140

tid

Hvis vores målinger er normalfordelte forventer vi at kunne indtegne dem

som en ret linje i fraktilplottet. Dette er ikke tilfældet, men målingerne ser ud

til at de kunne være logaritme fordelt. Derfor tages logaritmen til tiden og vi

indtegner igen.


N(0,1)-fraktil

-2 -1 0 1 2

1 2 3 4 5

Målingerne ligger om en pæn ret linje, hvorfor vi kan antage, at logaritmen til

tiden er normalfordelt. Dvs. vi betragter modellen:

X

lntid

~ N(

µ ; σ )


Vi beregner efterfølgende skøn for standardafvigelsen og middelværdien vha.

formlerne:

S

x

=

=

USS

s

=

n


i=

1

1

S

n

=

x

i

=

n


i=

1

= (1.1 + 1.6 + ... + 4.9) =

1

16

x

2

i

44.9

= 1.1

1

( USS −

n −1

=

2

2.81

+ 1.6

S

n

2

)

=

2

+ ... + 4.9

1

15

44.9

2

(142.6 −

= 142.6

44.9

16

2

)

= 1.05


En lille gåde…

4 mexicanere har stjålet en ged, og er derfor blevet dømt til døden, og

skal skydes. De får dog en chance for at redde deres liv. De er hver

blevet udstyret med en mexicaner hat, og der er 2 hvide og 2 sorte

hatte. De skal nu blot besvare følgende spørgsmål:

Hvilken farve hat har du selv på

Hvilke(n) af de 4 mexicanere kan fortælle

hvilken farve hat han selv har på


Gåden…

Situationer:

1.

2.

3.


Eksempel: Læseevner

Der betragtes to 3. klasser. Den ene klasse modtager ekstra

læsetræning, mens den anden klasse er en kontrolklasse med

almindelig læseundervisning. Efter 8 uger får eleverne en læsetest.

Klasse

Træning

Testresultat

24 43 71 58 43 49 61 44 67 49 53 56 59 52 62 54

57 33 46 43 57

Kontrol

42 43 55 26 62 37 33 41 19 54 20 85 46 10 17 60

53 42 37 42 55 28 48


Fraktilplots viser at målinger i hver klasse kan beskrives med en

normalfordeling, dvs:

X

træning

~

N

( µ

træning

; σ

træning

)

.

X

kontrol

~

N

( µ

kontrol

; σ

kontrol

)

Vi ønsker nu at finde estimater for middelværdi og standardafvigelse i hver

af de to klasser.


Først beregnes:

46123

48

...

43

42

58069

57

...

43

24

955

48)

...

43

(42

1081

57)

...

43

(24

2

2

2

1

2

2

2

2

1

2

1

1

=

+

+

+

=

=

=

+

+

+

=

=

=

+

+

+

=

=

=

+

+

+

=

=





=

=

=

=

n

i

i

kontrol

n

i

i

træning

n

i

i

kontrol

n

i

i

træning

x

USS

x

USS

x

S

x

S


46123

955

23

Kontrol

58069

1081

21

Træning

USS

S

n

Klasse

17.1

)

23

955

(46123

22

1

)

(

1

1

11.0

)

21

1081

(58069

20

1

)

(

1

1

41.5

955

23

1

1

51.5

1081

21

1

1

2

2

2

2

=


=



=

=


=



=

=

=

=

=

=

=

n

S

USS

n

s

n

S

USS

n

s

S

n

x

S

n

x

kontrol

træning

kontrol

træning


Vi ønsker nu at teste hypotesen

H

:σ = σ

træning

kontrol

altså et test for samme standardafvigelse i de to klasser.

Dette gøres ved teststørrelsen:

F

=

s

s

2

træning

2

kontrol

=

11.0

17.1

2

2

=

0.41 ~

F(

f

1

,

f

2

)

=

F(21−1,23−1)

=

F(20,22)

P

obs

( x)

=

2(1 −

F

F ( f

, )(

)) 2(1

(20,22)(0.41))

1 f

F = − F

=

2

F

0.057


Da p-værdien er større end 5 % accepterer vi hypotesen, dvs vi har modellen:

X

X

træning

kontrol

~

~

N(

µ

N(

µ

træning

kontrol

; σ )

; σ )

Den fælles standardafvigelse kan estimeres ved:

s

=

f

træning

s

f

2

træning

træning

+

+

f

f

kontrol

kontrol

s

2

kontrol

=

20

⋅110

2

20

+ 22 ⋅17.1

+ 22

2

=

14.6


Vi ønsker nu at teste hypotesen

H : µ = µ

træning

kontrol

altså et test for samme middelværdi i de to klasser. Dvs. et test for om den

ekstra læsetræning har en effekt.


Dette gøres ved teststørrelsen:

0.027

(2.27))

2(1

) ))

(

(

2(1

)

(

(42)

2)

(

)

(

~

2.27

)

23

1

21

1

(

14.6

41.5

51.5

)

1

1

(

)

(

(42)

)

(

2

2

=


=


=

=


+

=

=

+


=

+


=

t

f

t

obs

kontrol

træning

kontrol

træning

kontrol

træning

F

x

t

F

x

P

t

n

n

t

f

t

n

n

s

x

x

x

t


Da p-værdien er mindre end 5 % forkaster vi hypotesen om ens

middelværdier. Dvs den ekstra læsetræning har en effekt.

Da vi kun lige nøjagtig fik accept af hypotesen om ens standardafvigelser,

ønsker vi også at teste hypotesen om ens middelværdier i modellen med

forskellige standardafvigelser:

X

X

træning

kontrol

~

~

N(

µ

N(

µ

træning

kontrol

; σ

; σ

træning

kontrol

)

)


37.9

1)

/(23

)

23

17.1

(

1)

/(21

)

21

110

(

)

23

17.1

21

110

(

1)

/(

)

(

1)

/(

)

(

)

(

~

)

~

(

2.31 ~

23

17.1

21

110

41.5

51.5

)

(

:

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

=


+


+

=


+


+

=

=

+


=

+


=

=

kontrol

kontrol

kontrol

træning

træning

træning

kontrol

kontrol

træning

træning

kontrol

kontrol

træning

træning

kontrol

træning

kontrol

træning

n

n

s

n

n

s

n

s

n

s

f

f

t

n

s

n

s

x

x

x

t

H µ

µ

Dvs. vi tester hypotesen:


P

obs

( x)

= 2(1 − F ~ ( t(

x)

)) = 2(1 − F

(37.9)

(2.31)) =

t ( f )

t

0.026

Dvs. vi også får forkastelse af hypotesen om ens middelværdier i denne

model.

Konklusionen bliver altså i dette tilfælde det samme, men vi bemærker at

idet vi får to forskellige testværdier, kunne vi godt have fået accept i den

ene model frem for den anden.


Eksempel: Allergiske reaktioner

Der betragtes 50 personer med pollenallergi. 23 behandles med en

modgift man vil teste effekten af, mens de resterende 27 får et

medikament, man ved ikke har nogen effekt (placebo). Vi betragter

modellen:

X

mod gift

~ N(

µ

mod gift;

σ

mod gift

)

X

placebo

~

N(

µ

placebo

; σ

placebo

)

Det oplyses at:

Gruppe

n

x

s

Modgift

23

19.5

27.3

Placebo

27

5.4

17.2


Vi vil først teste hypotesen om ens standardafvigelse:

H

: σ

F =

~ F(

P

obs

s

s

1

( x)

= 2(1 −

mod gift

2

mod gift

f

2

placebo

,

f

=

F

2

= σ

=

27.3

17.1

= 2.54

) = F(23

−1,27

−1)

=

2(1 − F

F (22,26)

placebo

2

2

F ( f

1

, f

2

)

( F))

(2.54)) = 0.024

F(22,26)

Dvs vi får forkastelse af hypotesen om ens standardafvigelse.


Havde vi fået accept af hypotesen om ens standardafvigelser ville vi et 95%

konfidensinterval for forskellen mellem middelværdierne være:

2 1 1

2 1 1

x

1

− x2

− s ( + ) t0.975(

f ) ≤ µ

1

− µ

2

≤ x1

− x2

+ s ( + ) t0.

975(

f )

n n

n n

1

2

Når standardafvigelserne ikke er ens bliver konfidensintervallet i stedet:

1

2

x

mod gift

2

2

smod

gift

s

placebo

− x

t (

~

placebo − +

0.975

f ) ≤ µ

mod gift

− µ

n n

mod gift

placebo

placebo


x

mod gift


x

placebo

+

s

n

2

mod gift

mod gift

+

s

n

2

placebo

placebo

t

0.975

(

~ f )


35.8

1)

/(27

)

27

17.1

(

1)

/(23

)

23

27.3

(

)

27

17.1

23

27.3

(

1)

/(

)

(

1)

/(

)

(

)

(

~

2

2

2

2

2

2

2

2

2

mod

2

mod

2

mod

2

2

mod

2

mod

=


+


+

=


+


+

=

placebo

placebo

placebo

gift

gift

gift

placebo

placebo

gift

gift

n

n

s

n

n

s

n

s

n

s

f

Vi bestemmer først:


Hvormed et 95% konfidensinterval for forskellen mellem middelværdierne

er givet ved:

27.3 −17.1−

27.3

23

2

17.1

+

27

2

2.03 ≤ µ

mod gift

− µ

placebo


27.3−17.1−

27.3

23

2

17.1

+

27

2

2.03


0.77

≤ µ

mod gift

− µ

placebo

≤ 27.5

Vi bemærker, at 0 ikke ligger i konfidensintervallet.


Vi ønsker til slut at teste om de to middelværdier kan antages at være ens:

H : µ = µ

mod gift

xmod

gift − x

t(

x)

=

2

smod

gift

s

+

nmod

gift

n

~ t(

~ f ) = t(35.8)

P

obs

( x)

= 2(1 − F

placebo

t(

~ f )

placebo

2

placebo

placebo

( t(

x) ))

=

=

19.5 − 5.4

= 2.14

2 2

27.3 17.1

+

23 27

2(1 − F (2.14)) = 0.038

t(35.8)

Det vil sige vi forkaster hypotesen. Det er i overensstemmelse med 0 ikke

er i konfidensintervallet fra før og betyder behandlingen har en effekt.


Hvorfor er det godt

at kunne

sin statistik


TV-quiz

Antag, at du medvirker i et tv-program, og du får givet

muligheden for at vælge mellem tre døre:

Bag en af dørene er der en bil;

bag de to andre en ged.

Du vælger en dør, lad os sige nr. 1, og tv-værten,

som ved, hvad der er bag dørene, åbner en anden dør,

lad os sige nr. 3, bag hvilken der befinder sig en ged.

Han spørger dig nu:

"Vil du hellere vælge dør nr. 2"

Er det nu en fordel af vælge om


Sandsynligheden for at man vælger døren med bilen ved det første valg er

1/3, hvilket også vil være chancen for at vinde bilen, hvis man holder fast

på sit første valg.

På den anden side er sandsynligheden for at vælge en dør, som skjuler en

ged 2/3, og en spiller, som oprindeligt har valgt en ged, vinder bilen ved at

vælge om.


Vi har altså 3 mulige udfald

1.

2.

3.


I to ud af tre tilfælde kan det betale sig at skifte dør, og i et ud af tre

tilfælde kan det ikke betale sig.

Ens chance for at vinde fordobles altså ved at vælge om, når spilstyreren

tilbyder det.

Løsningen ville være anderledes, hvis tv-værten ikke vidste, hvad der var

gemt bag de forskellige døre, eller hvis tv-værten havde muligheden for

ikke at tilbyde spilleren at vælge om.


Er mænd klogere end kvinder


Professor i psykologi ved Aarhus Universitet, Helmuth Nyborg påstod at

have opdaget mænd gennemsnitligt er 27 % klogere end kvinder.

Senere opdagede han en regnefejl, så forskellen kun var 5 %...

Men kan dette resultat være rigtigt


Problemer med Nyborgs resultat:

- Lille datamateriale (52 personer)

- Hvordan er disse udvalgt

- Hvordan måles intelligensen

- Statistisk metode


Nyborg modellerede hvert køns intelligens ved en normalfordeling.

Han anvendte et test, der ikke gav mulighed for kvinder kunne være

klogere end mænd.

Havde han i stedet anvendt et ganske almindeligt t-test for at

middelværdien var den samme i de to grupper (de to køn), ville han have

fået accept.

Men der er flere problemer…


Nyborg hævdede:

”for hver kvinde med en IQ på over 145 vil der være 122 mænd”

Er Nyborgs 52 testpersoner repræsentative (og ellers giver undersøgelsen

ingen mening!) må de fleste ligge nær middelværdien.

Et så lille datasæt kan derfor ikke sige noget om hvordan fordelingen er i de

mere ekstreme tilfælde.


”Statistiker på prøve”

• Ansat ved Klinisk Epidemiologisk Afdeling (KEA)

• Undersøge patient-populationers prognose

• Adgang til:

• CPR-registret

• Receptdatabase

• Operationsdatabase

• Cancerregister

• Fødsels- og dødsregister


”Statistiker på prøve”

• Immunforsvarets rolle i forbindelse med brystkræft-recidiv

• Herpes Zoster og kræft


•Spørgsmål og kommentarer

•Tak for i dag

More magazines by this user
Similar magazines