Noter til E6 - dirac

dirac.ruc.dk

Noter til E6 - dirac

7.6 Regressionsanalyse 99

Regressionsanalyse går ud på at finde en statistisk model hvormed man

kan beskrive en y-variabel ved hjælp af en kendt simpel funktion af nogle

baggrundsvariable og nogle parametre. Parametrene er de samme for alle

observationssæt, hvorimod baggrundsvariablene typisk ikke er det.

Man må naturligvis ikke forvente at den statistiske model leverer

en perfekt beskrivelse, et perfekt fit, dels fordi den model man måtte

finde frem til, næppe er fuldstændig rigtig, dels fordi en af pointerne

med statistiske modeller netop er at de kun beskriver hovedtrækkene i

datamaterialet og ser stort på de finere detaljer. Der vil derfor være en

vis forskel mellem den observerede værdi y og den såkaldt fittede værdi

ŷ, dvs. den værdi som man ifølge regressionsmodellen skulle få med de

givne værdier af baggrundsvariablene. Denne forskel kaldes residualet og

betegnes ofte e. Vi har så opspaltningen

y = ŷ + e

observeret værdi = fittet værdi + residual.

Residualerne er det som modellen ikke beskriver, og derfor er det

naturligt at man (eller rettere modellen) anser dem for tilfældige, dvs.

for at være tilfældige tal fra en vis sandsynlighedsfordeling.

To væsentlige forudsætninger for at kunne benytte regressionsanalyse

er

1. at det ikke er x-erne, men kun y-erne og residualerne, der er behæftede

med tilfældig variation (»usikkerhed«),

2. at de enkelte målinger er stokastisk uafhængige af hinanden, hvilket

vil sige at de tilfældigheder der indvirker på én bestemt y-værdi

(efter at man har taget højde for baggrundsvariablene), ikke har

nogen sammenhæng med de tilfældigheder der spiller ind på de

øvrige y-værdier.

Det simpleste eksempel på regressionsanalyse er det hvor der kun er én

enkelt baggrundsvariabel, som vi så kan betegne x. Opgaven bliver da

at beskrive y-værdierne ved hjælp af en kendt simpel funktion af x. Det

simpleste ikke-trivielle bud på en sådan funktion må vel være en funktion

af typen y = α + xβ hvor α og β er to parametre, dvs. man formoder at

y er en affin funktion af x. Derved får man den såkaldte simple lineære

regressionsmodel, jf. side 16.

En lidt mere avanceret model er den multiple lineære regressionsmodel

hvor man har p forklarende variable x 1 , x 2 , . . . , x p og søger at beskrive

p∑

y-værdierne med en funktion af formen y = x j β j .

Formulering af modellen

For at regressionsmodellen kan blive til en genuin statistisk model, skal

man specificere den sandsynlighedsfordeling som skal beskrive y-ernes

j=1

More magazines by this user
Similar magazines