26.10.2014 Views

Noter til E6 - dirac

Noter til E6 - dirac

Noter til E6 - dirac

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

7.6 Regressionsanalyse 99<br />

Regressionsanalyse går ud på at finde en statistisk model hvormed man<br />

kan beskrive en y-variabel ved hjælp af en kendt simpel funktion af nogle<br />

baggrundsvariable og nogle parametre. Parametrene er de samme for alle<br />

observationssæt, hvorimod baggrundsvariablene typisk ikke er det.<br />

Man må naturligvis ikke forvente at den statistiske model leverer<br />

en perfekt beskrivelse, et perfekt fit, dels fordi den model man måtte<br />

finde frem <strong>til</strong>, næppe er fuldstændig rigtig, dels fordi en af pointerne<br />

med statistiske modeller netop er at de kun beskriver hovedtrækkene i<br />

datamaterialet og ser stort på de finere detaljer. Der vil derfor være en<br />

vis forskel mellem den observerede værdi y og den såkaldt fittede værdi<br />

ŷ, dvs. den værdi som man ifølge regressionsmodellen skulle få med de<br />

givne værdier af baggrundsvariablene. Denne forskel kaldes residualet og<br />

betegnes ofte e. Vi har så opspaltningen<br />

y = ŷ + e<br />

observeret værdi = fittet værdi + residual.<br />

Residualerne er det som modellen ikke beskriver, og derfor er det<br />

naturligt at man (eller rettere modellen) anser dem for <strong>til</strong>fældige, dvs.<br />

for at være <strong>til</strong>fældige tal fra en vis sandsynlighedsfordeling.<br />

To væsentlige forudsætninger for at kunne benytte regressionsanalyse<br />

er<br />

1. at det ikke er x-erne, men kun y-erne og residualerne, der er behæftede<br />

med <strong>til</strong>fældig variation (»usikkerhed«),<br />

2. at de enkelte målinger er stokastisk uafhængige af hinanden, hvilket<br />

vil sige at de <strong>til</strong>fældigheder der indvirker på én bestemt y-værdi<br />

(efter at man har taget højde for baggrundsvariablene), ikke har<br />

nogen sammenhæng med de <strong>til</strong>fældigheder der spiller ind på de<br />

øvrige y-værdier.<br />

Det simpleste eksempel på regressionsanalyse er det hvor der kun er én<br />

enkelt baggrundsvariabel, som vi så kan betegne x. Opgaven bliver da<br />

at beskrive y-værdierne ved hjælp af en kendt simpel funktion af x. Det<br />

simpleste ikke-trivielle bud på en sådan funktion må vel være en funktion<br />

af typen y = α + xβ hvor α og β er to parametre, dvs. man formoder at<br />

y er en affin funktion af x. Derved får man den såkaldte simple lineære<br />

regressionsmodel, jf. side 16.<br />

En lidt mere avanceret model er den multiple lineære regressionsmodel<br />

hvor man har p forklarende variable x 1 , x 2 , . . . , x p og søger at beskrive<br />

p∑<br />

y-værdierne med en funktion af formen y = x j β j .<br />

Formulering af modellen<br />

For at regressionsmodellen kan blive <strong>til</strong> en genuin statistisk model, skal<br />

man specificere den sandsynlighedsfordeling som skal beskrive y-ernes<br />

j=1

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!