Noter til E6 - dirac

dirac.ruc.dk

Noter til E6 - dirac

16 Den statistiske model

Man delte 20 nogenlunde ens marsvin op i to grupper, hvoraf den ene fik

appelsinsaft, og den anden fik en tilsvarende mængde »kunstigt« C-vitamin.

Efter seks ugers behandling målte man længden af fortændernes odontoblaster

(det tandbensdannende væv). Man fik da disse resultater (i hver gruppe er

observationerne ordnet efter størrelse):

appelsinsaft: 8.2 9.4 9.6 9.7 10.0 14.5 15.2 16.1 17.6 21.5

kunstigt C-vitamin: 4.2 5.2 5.8 6.4 7.0 7.3 10.1 11.2 11.3 11.5

Man kan fastslå at der må være tale om en art tostikprøveproblem. Karakteren

af observationerne gør at det ikke er urimeligt at forsøge sig med en normalfordelingsmodel

af en slags, og det er alt i alt nærliggende at sige at der er tale

om et »tostikprøveproblem med normalfordelte observationer«. Vi vil analysere

observationerne ved brug af denne model, mere nøjagtigt vil vi undersøge

om odontoblasternes middelvækst er den samme i de to grupper.

⊲ [Eksemplet fortsætter som eksempel 3.6 side 28.]

Simpel lineær regression

Regressionsanalyse, der er en stor underafdeling inden for statistik, handler

om at modellere middelværdistrukturen for (det som modellen opfatter

som) de stokastiske variable ved hjælp af et større eller mindre antal

kvantitative variable. Her ser vi på det simpleste tilfælde.

Der foreligger et antal sammenhørende værdier (x i , y i ), i = 1, 2, . . . , n,

hvor y i ’erne opfattes som observerede værdier af stokastiske variable

Y 1 , Y 2 , . . . , Y n , og x i ’erne er såkaldte baggrundsvariable eller forklarende

variable. Det er en væsentlig pointe at x’erne ifølge modellen er ikke-stokastiske.

Den simple lineære regressionsmodel går ud på at Y i ’erne er indbyrdes

uafhængige normalfordelte stokastiske variable med samme varians σ 2 og

med en middelværdistruktur af formen E Y i = α + βx i , eller sagt mere

præcist: der findes konstanter α og β således at E Y i = α + βx i for

alle i. Modellen indeholder således tre ukendte parametre, α, β og σ 2 .

Modelfunktionen er

n∏

(

f(y, α, β, σ 2 1

) = √ exp − 1 (y i − (α + βx i )) 2 )

i=1 2πσ

2 2 σ 2

(

= (2πσ 2 ) −n/2 exp − 1

n

)


2σ 2 (y i − (α + βx i )) 2

hvor y = (y 1 , y 2 , . . . , y n ) ∈ R n , α, β ∈ R og σ 2 > 0. Log-likelihoodfunktionen

er

⊲ [Fortsættes side 28.]

ln L(α, β, σ 2 ) = − n 2 ln σ2 − 1

2σ 2

n ∑

i=1

i=1

(y i − (α + βx i )) 2 . (2.5)

More magazines by this user
Similar magazines