Overheads 5
Overheads 5
Overheads 5
Transform your PDFs into Flipbooks and boost your revenue!
Leverage SEO-optimized Flipbooks, powerful backlinks, and multimedia content to professionally showcase your products and significantly increase your reach.
Ved Henrik Lolle<br />
Ved Henrik Lolle<br />
Ved Henrik Lolle<br />
Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />
Multipel lineær regression<br />
+ intro til logistisk regression<br />
Plan & Miljø, forår 2009<br />
Onsdag den 13. maj<br />
Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />
Denne gang<br />
Lineær regression med dummyvariabler (Generel Linear<br />
Model)<br />
Ekstra forudsætning i multipel regression (i forhold til<br />
forudsætningerne i simpel lineær regression)<br />
Interaktionsled<br />
Additive indeks<br />
Logistisk regression<br />
Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />
Uafhængige variabler på nominelt eller ordinalt<br />
niveau samt ikke lineære effekter<br />
Ikke mindst når man foretager lineær regression på surveydata, vil der<br />
forekomme uafhængige variabler, der ikke er målt på interval- eller<br />
forholdstalsniveau.<br />
Disse variabler opfylder altså ikke umiddelbart forudsætningerne for<br />
lineær regression.<br />
I nogle situationer vil man kunne forsvare at inddrage ordinalskalerede<br />
variabler i den form, de har, men det er ikke nogen universel løsning.<br />
Selvom en uafhængig variabel er målt på interval-/rationiveau, vil der ofte<br />
være tale om en ikke-lineære effekt.<br />
Løsningen på disse problemer kan imidlertid også gå ud på at lave såkaldt<br />
dummy-transformation af den diskrete uafhængige variabel.<br />
1<br />
2<br />
3<br />
1
Ved Henrik Lolle<br />
Ved Henrik Lolle<br />
Ved Henrik Lolle<br />
Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />
Eksempel 1A: Faders uddannelses effekt på<br />
respondentens selvplacering.<br />
I første omgang udføres både den bivariate og den kontrollerede<br />
analyse uden transformation, dvs. med de oprindelige<br />
ordinalskalerede uafhængige variabler:<br />
Model<br />
1<br />
(Constant)<br />
faderudd<br />
Unstandardized<br />
Coefficients<br />
Coefficients a<br />
a. Dependent Variable: nya46 Selvplacering<br />
Model<br />
1<br />
(Constant)<br />
faderudd<br />
egenudd<br />
Standardized<br />
Coefficients<br />
B Std. Error Beta<br />
t Sig.<br />
5,421 ,088 61,331 ,000<br />
,336 ,052 ,159 6,414 ,000<br />
Unstandardized<br />
Coefficients<br />
Coefficients a<br />
a. Dependent Variable: nya46 Selvplacering<br />
Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />
Standardized<br />
Coefficients<br />
B Std. Error Beta<br />
t Sig.<br />
4,609 ,126 36,622 ,000<br />
,097 ,058 ,046 1,664 ,096<br />
,532 ,058 ,250 9,106 ,000<br />
Eksempel 1B: Transformation af diskret<br />
variabel til en serie af dummy-variabler<br />
Oprindelig<br />
variabel<br />
Nye<br />
dummyvariabler<br />
Faders skoleuddannelse<br />
(1 = lav) (2 = mellem)<br />
(3 = høj)<br />
Lav<br />
Mellem<br />
Høj<br />
Konklusionen<br />
harmonerer med<br />
den tidligere viste<br />
Gamma-analyse.<br />
Effekten fra faders<br />
uddannelse er<br />
mestendels en<br />
indirekte effekt<br />
gennem egen<br />
uddannelse.<br />
Nogle vil mene, at der er for stor risiko for, at modellen vil blive estimeret<br />
Nedenfor forkert, ses hvis et man eksempel bryder på de dummy-transformation formelle forudsætninger af om faders intervalskalerede<br />
uddannelse i<br />
tre<br />
variabler.<br />
kategorier. Der inddrages altid et antal dummy-variabler i den statistiske<br />
model Et andet på antallet alternativ af kategorier er dummy-transformation.<br />
minus én – her således to dummy-variabler.<br />
Nedenfor ses et eksempel på dummy-transformation af faders uddannelse<br />
i tre kategorier. Der inddrages altid et antal dummy-variabler i den<br />
statistiske model på antallet af kategorier minus én – her således to<br />
dummy-variabler.<br />
Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />
Eksempel 1C: ”Bivariat” effekt efter dummytransformation<br />
Model<br />
1<br />
(Constant)<br />
f_uddan2<br />
f_uddan3<br />
Unstandardized<br />
Coefficients<br />
Coefficients a<br />
a. Dependent Variable: nya46 Selvplacering<br />
Regressionsligningen:<br />
Standardized<br />
Coefficients<br />
B Std. Error Beta<br />
t Sig.<br />
5,740 ,049 118,119 ,000<br />
,443 ,093 ,121 4,763 ,000<br />
,615 ,112 ,139 5,479 ,000<br />
( f_uddan2)<br />
0,<br />
( f_uddan3)<br />
Selvplacering = 5 , 74 + 0,<br />
443 + 615<br />
Estimering af forventet værdi af selvplacering, hvor faders<br />
uddannelse er ”høj”:<br />
( 0)<br />
+ 0,<br />
615(<br />
1)<br />
= 5,<br />
74 + 0,<br />
615 6,<br />
319<br />
Selvplacering<br />
= 5 , 74 + 0,<br />
443<br />
=<br />
1<br />
0<br />
0<br />
2<br />
1<br />
0<br />
3<br />
0<br />
1<br />
4<br />
5<br />
6<br />
2
Ved Henrik Lolle<br />
Ved Henrik Lolle<br />
Ved Henrik Lolle<br />
Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />
Eksempel 1D: ”Bivariat” plus kontrol for egen<br />
uddannelse<br />
Model<br />
1<br />
(Constant)<br />
f_uddan2<br />
f_uddan3<br />
Unstandardized<br />
Coefficients<br />
Coefficients a<br />
a. Dependent Variable: nya46 Selvplacering<br />
Model<br />
1<br />
(Constant)<br />
f_uddan2<br />
f_uddan3<br />
e_uddan2<br />
e_uddan3<br />
Standardized<br />
Coefficients<br />
B Std. Error Beta<br />
t Sig.<br />
5,740 ,049 118,119 ,000<br />
,443 ,093 ,121 4,763 ,000<br />
,615 ,112 ,139 5,479 ,000<br />
Unstandardized<br />
Coefficients<br />
Coefficients a<br />
Standardized<br />
Coefficients<br />
B Std. Error Beta<br />
t Sig.<br />
5,251 ,089 58,788 ,000<br />
,151 ,098 ,041 1,543 ,123<br />
,163 ,123 ,037 1,330 ,184<br />
,494 ,109 ,158 4,535 ,000<br />
1,048 ,119 ,330 8,775 ,000<br />
a. Dependent Variable: nya46 Selvplacering<br />
Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />
”Bivariat”<br />
(kun faders<br />
uddannelse)<br />
Kontrolleret<br />
(inkl. egen<br />
uddannelse)<br />
Konklusionen er i<br />
dette tilfælde i<br />
substansen den<br />
samme.<br />
Eksempel 1E: Dummy-rekodning i syntax<br />
Den letteste måde at lave dummy-variabler på (den<br />
oprindelige variabel hedder her ”f_uddan” og kan antage<br />
værdierne 1, 2 og 3):<br />
Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />
Opgave 1<br />
Datafilen ”Hovedstadsomraadet …” benyttes.<br />
I en af de tidligere lektioner så vi på effekten fra alder på personlig<br />
indkomst. Her sås der en effekt, der kunne se ud til at passe udmærket til<br />
en kvadratisk effekt, hvor man kunne inddrage både aldersvariablen og<br />
aldersvariablen i anden potens.<br />
Prøv nu at transformere aldersvariablen (alder) til en serie dummyvariabler,<br />
f.eks. efter opskriften på forrige slide. Transformer evt. først<br />
aldersvariablen om til en kategori-variabel med funktionen ”recode into<br />
new variables”. Brug følgende aldersklasser: (-29)(30-39)(40-49)(50-<br />
59)(60-69)(70+).<br />
Foretag derefter en lineær regression med effekten fra disse dummyvariabler<br />
på personlig indkomst.<br />
7<br />
8<br />
9<br />
3
Ved Henrik Lolle<br />
Ved Henrik Lolle<br />
Ved Henrik Lolle<br />
Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />
Multikollinearitet<br />
I den multiple lineære regression kommer der endnu en forudsætning til: der må<br />
ikke være for stor korrelation mellem de uafhængige variabler i modellen.<br />
Når denne situation opstår, er det vanskeligt at estimere de enkelte variablers<br />
effekter, fordi de er vanskelige at skille fra hinanden.<br />
Et tegn på alvorlig multikollinearitet er, at R 2 er forholdsvis høj, mens de enkelte<br />
variablers effektestimater er statistisk insignifikante.<br />
Mere formelle mål for graden af multikollinearitet er VIF (Variance Inflation Factor)<br />
og Tolerance.<br />
Det er ligegyldigt, hvilket mål der benyttes af disse to. Tolerance måler 1 minus R 2<br />
for de enkelte uafhængige variable, når disse på skift prædikeres af de resterende<br />
uafhængige variabler. Tolerance kan altså antage værdier mellem 0 og 1.<br />
Kan en uafhængig variabel således bestemmes næsten fuldstændigt af de øvrige<br />
uafhængige variabler, fås en meget lille Tolerance.<br />
Ofte sættes den nedre grænse for, hvor lille en Tolerance man vil tillade ved 0,2.<br />
Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />
Tolerance og VIF i SPSS<br />
Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />
Eksempel 2A: Model uden alvorlig<br />
multikollinearitet<br />
Model<br />
1<br />
(Constant)<br />
loktaet<br />
persindt2<br />
erhvakt<br />
erhvrejs<br />
a. Dependent Variable: bilhverd<br />
Coefficients a<br />
Klik på ”Statistics” og<br />
markér i ”Colinearity<br />
diagnostics”<br />
Unstandardized Standardized<br />
Coefficients Coefficients<br />
Collinearity Statistics<br />
B Std. Error Beta<br />
t Sig. Tolerance VIF<br />
75,866 8,287 9,155 ,000<br />
-,598 ,059 -,225 -10,108 ,000 ,996 1,004<br />
,141 ,018 ,190 7,647 ,000 ,799 1,252<br />
28,683 9,055 ,076 3,168 ,002 ,850 1,177<br />
95,825 9,619 ,237 9,962 ,000 ,871 1,148<br />
Store Tolerance-værdier de enkelte uafhængige<br />
variabler bestemmes ikke særlig godt af de øvrige<br />
uafhængige variabler. Der er masser af tolerance<br />
tilbage så at sige.<br />
10<br />
11<br />
12<br />
4
Ved Henrik Lolle<br />
Ved Henrik Lolle<br />
Ved Henrik Lolle<br />
Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />
Eksempel 2B: Model med alvorlig<br />
multikollinearitet<br />
Model<br />
1<br />
(Constant)<br />
loktaet<br />
persindt2<br />
erhvakt<br />
erhvrejs<br />
inbhalok<br />
arbhalok<br />
a. Dependent Variable: bilhverd<br />
Coefficients a<br />
Unstandardized Standardized<br />
Coefficients Coefficients<br />
Collinearity Statistics<br />
B Std. Error Beta<br />
t Sig. Tolerance VIF<br />
73,997 8,556 8,649 ,000<br />
-2,822 1,014 -1,061 -2,782 ,005 ,003 295,630<br />
,143 ,018 ,193 7,766 ,000 ,796 1,256<br />
28,586 9,047 ,076 3,160 ,002 ,850 1,177<br />
95,511 9,617 ,236 9,931 ,000 ,870 1,150<br />
2,115 1,017 ,429 2,079 ,038 ,012 86,735<br />
2,382 1,061 ,449 2,245 ,025 ,012 81,478<br />
Meget lave Tolerance-værdier de enkelte<br />
uafhængige variabler bestemmes næsten fuldstændigt<br />
af de øvrige uafhængige variabler.<br />
Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />
Interaktion<br />
Hvis styrken af en variabels effekt afhænger af værdien på en anden<br />
uafhængig variabel, siges der at være interaktion mellem disse to variabler.<br />
Én måde at tage højde for dette i en lineær regressionsmodel, er at<br />
inddrage et såkaldt interaktionsled, som er lig med produktet af de to<br />
interagerende variabler.<br />
Dette er intuitivt lettest at forstå, hvis i hvert fald den ene af de to<br />
variabler er en dummy-variabel, f.eks. køn (kvinde = 0; mand = 1).<br />
Hypotetisk eksempel, hvor uddannelse og køn påvirker holdningen H, men<br />
hvor uddannelseseffektens størrelse afhænger af kønnet:<br />
E<br />
E<br />
E<br />
( H)<br />
= kons + b1(<br />
udd ) + b2<br />
( køn)<br />
+ b3(<br />
køn×<br />
udd )<br />
( H Kvinder ) = kons + b1(<br />
udd ) + b2(<br />
0)<br />
+ b3(<br />
0×<br />
udd ) = kons + b1(<br />
udd )<br />
( H Mænd ) = kons + b1(<br />
udd)<br />
+ b2<br />
( 1)<br />
+ b3(<br />
1×<br />
udd ) = kons + ( b1<br />
+ b3<br />
)( udd ) + b2<br />
Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />
Grafisk eksemplificering af interaktion<br />
Holdning<br />
Uden interaktion Med interaktion<br />
Effekten fra uddannelse bliver<br />
her tvunget til at være ens for<br />
mænd og kvinder!<br />
Mænd<br />
Kvinder<br />
Uddannelse<br />
Holdning<br />
Mænd<br />
Kvinder<br />
Uddannelse<br />
13<br />
14<br />
15<br />
5
Ved Henrik Lolle<br />
Ved Henrik Lolle<br />
Ved Henrik Lolle<br />
Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />
Eksempel 3A: Model uden interaktionsled, kun<br />
såkaldte hovedeffekter<br />
Model<br />
1<br />
(Constant)<br />
koen Køn<br />
alder2<br />
skoleaar<br />
persindt2<br />
a. Dependent Variable: miljhold<br />
Unstandardized<br />
Coefficients<br />
Coefficients a<br />
Standardized<br />
Coefficients<br />
B Std. Error Beta<br />
t Sig.<br />
-1,8346 ,565 -3,245 ,001<br />
,9995 ,258 ,096 3,879 ,000<br />
-,6093 ,259 -,059 -2,356 ,019<br />
,2434 ,035 ,182 6,935 ,000<br />
-,0052 ,001 -,223 -8,539 ,000<br />
Jeg vil nu indføje et nyt led for en interaktion mellem alder2 og persindt2 på<br />
følgende facon (alder2 er en dummyvariabel for, om respondenten er 50+ årig):<br />
Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />
Eksempel 3B: Model med interaktionsled<br />
Model<br />
1<br />
(Constant)<br />
koen Køn<br />
alder2<br />
skoleaar<br />
persindt2<br />
ia_ald.pi<br />
a. Dependent Variable: miljhold<br />
Unstandardized<br />
Coefficients<br />
Coefficients a<br />
Standardized<br />
Coefficients<br />
B Std. Error Beta<br />
t Sig.<br />
-1,3011 ,619 -2,100 ,036<br />
,9700 ,258 ,094 3,763 ,000<br />
-1,3453 ,436 -,130 -3,087 ,002<br />
,2333 ,035 ,174 6,589 ,000<br />
-,0063 ,001 -,275 -7,654 ,000<br />
,0023 ,001 ,101 2,097 ,036<br />
Interaktionsledet er lige netop signifikant på 0,05 niveau. Det er imidlertid tvivlsomt, om<br />
man ville vælge at medtage det i en præsentation.<br />
Effekter fra personlig indkomst (persindt2):<br />
Unge (alder2 = 0): -0.0063(persindt2)<br />
Ældre (alder2 = 1): -0.0063(persindt2) + 0.0023(persindt2) = -0.0040(persindt2)<br />
Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />
Lidt teknik vedr. interaktionsled (ej pensum!)<br />
Vær opmærksom på, at et interaktionsled ofte korrelerer<br />
forholdsvis stærkt med de variabler, det er dannet ud fra,<br />
hvilket kan give lave tolerance-værdier.<br />
Dette er imidlertid at regne som et rent teknisk problem, og<br />
det kan løses ved at centrere de to variabler omkring deres<br />
respektive gennemsnit inden beregningen af interaktionsledet.<br />
En sådan centrering giver også en intuitivt lettere tolkning af<br />
hovedeffekten, som nu er effekten fra pågældende variabel<br />
ved gennemsnitsværdien af moderator-variablen. Centrerer<br />
man ikke, viser hovedeffekten effekten ved værdien 0 for<br />
moderator-variablen.<br />
16<br />
17<br />
18<br />
6
Ved Henrik Lolle<br />
Ved Henrik Lolle<br />
Ved Henrik Lolle<br />
Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />
Opgave 2: Additive indeks<br />
Lav et additivt indeks for respondenternes holdning til kollektiv transport, baseret<br />
på svarene på nedenstående spørgsmål (med variabelnavnene transp4 og<br />
transp6). I datamaterialet er værdierne på variablerne kodet sådan, at ”helt enig”<br />
har værdien 1, og ”helt uenig” har værdien 5.<br />
Indekset skal beregnes som en simpel sum, men overvej forinden dennne<br />
operation, om der bør foretages rekodning af en af variablerne. Hint: store værdier<br />
i det beregnede indeks skal indikere positiv holdning til kollektiv transport.<br />
Foretag til slut en lineær regressionsanalyse med indekset som afhængig variabel og<br />
med køn (koen), alder (som dummy-variabler) og uddannelse (skoleaar) som de<br />
uafhængige. Tolk til slut resultaterne.<br />
Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />
Når den afhængige variabel er en dummy<br />
For få årtier siden benyttedes også ofte dummy-variabler som afhængig<br />
variabel i lineær regression, en såkaldt lineær sandsynlighedsmodel. En<br />
prædikeret værdi på 0,3 ville f.eks. betyde en prædikeret sandsynlighed for<br />
værdien 1 på den dummy-afhængige variabel på 0,3.<br />
I en lineær sandsynlighedsmodel vil der ske brud på de formelle<br />
forudsætninger.<br />
• Der vil være brud på forudsætningen om normalfordelte fejlled, hvilket<br />
som oftest ikke er væsentligt.<br />
• Der vil endvidere være brud på forudsætningen om homoskedasticitet,<br />
hvilket er mere væsentligt, men ikke noget uoverstigeligt problem.<br />
• Der vil imidlertid også som oftest være brud på forudsætningen om<br />
linearitet, hvilket bl.a. giver sig udslag i, at der prædikeres<br />
sandsynligheder på over 1 og under 0. Og i denne situation kan<br />
problemet med forkert funktionel form ikke løses ved hjælp af simpel<br />
transformation af enkelte variabler i modellen.<br />
Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />
Eksempel 4A: Lineær sandsynlighedsmodel<br />
19<br />
20<br />
21<br />
7
Ved Henrik Lolle<br />
Ved Henrik Lolle<br />
Ved Henrik Lolle<br />
Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />
Eksempel 4B: Logistisk regression<br />
Analyze Regression Binary Logistic:<br />
Step<br />
1 a<br />
persindt3<br />
Constant<br />
Variables in the Equation<br />
B S.E. Wald df Sig. Exp(B)<br />
,541 ,047 132,727 1 ,000 1,717<br />
-,316 ,120 6,919 1 ,009 ,729<br />
a. Variable(s) entered on step 1: persindt3.<br />
Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />
Eksempel 4C: Tolkning af estimater<br />
Step<br />
1 a<br />
persindt3<br />
Constant<br />
Z = −0,<br />
316 + 0.<br />
541<br />
Variables in the Equation<br />
B S.E. Wald df Sig. Exp(B)<br />
,541 ,047 132,727 1 ,000 1,717<br />
-,316 ,120 6,919 1 ,009 ,729<br />
a. Variable(s) entered on step 1: persindt3.<br />
Funktionen (som er lineær på højresiden):<br />
( persindt3)<br />
⎛ p ⎞<br />
hvor Z,<br />
som også kaldes for " logit" , er lig med ln⎜<br />
⎟<br />
⎝1<br />
− p ⎠<br />
Sandsynligheden, p, for at respondenten er bilejer kan estimeres som:<br />
1<br />
=<br />
1+<br />
e<br />
p −Z<br />
Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />
Eksempel 4D: Omregning til sandsynligheder<br />
Trin 1: Beregn logit’en ud fra den logistiske model i SPSS<br />
Trin 2: Beregn den estimerede sandsynlighed<br />
Ved multipel logistisk<br />
regression kan sandsynlighederne<br />
f.eks.<br />
estimeres ved gennemsnitsværdierne<br />
for de<br />
øvrige uafhængige<br />
variabler, ligesom ved<br />
lineær regression.<br />
22<br />
23<br />
24<br />
8
Ved Henrik Lolle<br />
Ved Henrik Lolle<br />
Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />
Eksempel 4E: Grafisk fremstilling af effekt<br />
Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />
Tak Tak for for for ttålmodigheden!<br />
t lmodigheden!<br />
25<br />
26<br />
9