Noter til E6 - dirac
Noter til E6 - dirac
Noter til E6 - dirac
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
7.6 Regressionsanalyse 99<br />
Regressionsanalyse går ud på at finde en statistisk model hvormed man<br />
kan beskrive en y-variabel ved hjælp af en kendt simpel funktion af nogle<br />
baggrundsvariable og nogle parametre. Parametrene er de samme for alle<br />
observationssæt, hvorimod baggrundsvariablene typisk ikke er det.<br />
Man må naturligvis ikke forvente at den statistiske model leverer<br />
en perfekt beskrivelse, et perfekt fit, dels fordi den model man måtte<br />
finde frem <strong>til</strong>, næppe er fuldstændig rigtig, dels fordi en af pointerne<br />
med statistiske modeller netop er at de kun beskriver hovedtrækkene i<br />
datamaterialet og ser stort på de finere detaljer. Der vil derfor være en<br />
vis forskel mellem den observerede værdi y og den såkaldt fittede værdi<br />
ŷ, dvs. den værdi som man ifølge regressionsmodellen skulle få med de<br />
givne værdier af baggrundsvariablene. Denne forskel kaldes residualet og<br />
betegnes ofte e. Vi har så opspaltningen<br />
y = ŷ + e<br />
observeret værdi = fittet værdi + residual.<br />
Residualerne er det som modellen ikke beskriver, og derfor er det<br />
naturligt at man (eller rettere modellen) anser dem for <strong>til</strong>fældige, dvs.<br />
for at være <strong>til</strong>fældige tal fra en vis sandsynlighedsfordeling.<br />
To væsentlige forudsætninger for at kunne benytte regressionsanalyse<br />
er<br />
1. at det ikke er x-erne, men kun y-erne og residualerne, der er behæftede<br />
med <strong>til</strong>fældig variation (»usikkerhed«),<br />
2. at de enkelte målinger er stokastisk uafhængige af hinanden, hvilket<br />
vil sige at de <strong>til</strong>fældigheder der indvirker på én bestemt y-værdi<br />
(efter at man har taget højde for baggrundsvariablene), ikke har<br />
nogen sammenhæng med de <strong>til</strong>fældigheder der spiller ind på de<br />
øvrige y-værdier.<br />
Det simpleste eksempel på regressionsanalyse er det hvor der kun er én<br />
enkelt baggrundsvariabel, som vi så kan betegne x. Opgaven bliver da<br />
at beskrive y-værdierne ved hjælp af en kendt simpel funktion af x. Det<br />
simpleste ikke-trivielle bud på en sådan funktion må vel være en funktion<br />
af typen y = α + xβ hvor α og β er to parametre, dvs. man formoder at<br />
y er en affin funktion af x. Derved får man den såkaldte simple lineære<br />
regressionsmodel, jf. side 16.<br />
En lidt mere avanceret model er den multiple lineære regressionsmodel<br />
hvor man har p forklarende variable x 1 , x 2 , . . . , x p og søger at beskrive<br />
p∑<br />
y-værdierne med en funktion af formen y = x j β j .<br />
Formulering af modellen<br />
For at regressionsmodellen kan blive <strong>til</strong> en genuin statistisk model, skal<br />
man specificere den sandsynlighedsfordeling som skal beskrive y-ernes<br />
j=1