14.07.2013 Views

Overheads 5

Overheads 5

Overheads 5

SHOW MORE
SHOW LESS

Transform your PDFs into Flipbooks and boost your revenue!

Leverage SEO-optimized Flipbooks, powerful backlinks, and multimedia content to professionally showcase your products and significantly increase your reach.

Ved Henrik Lolle<br />

Ved Henrik Lolle<br />

Ved Henrik Lolle<br />

Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />

Multipel lineær regression<br />

+ intro til logistisk regression<br />

Plan & Miljø, forår 2009<br />

Onsdag den 13. maj<br />

Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />

Denne gang<br />

Lineær regression med dummyvariabler (Generel Linear<br />

Model)<br />

Ekstra forudsætning i multipel regression (i forhold til<br />

forudsætningerne i simpel lineær regression)<br />

Interaktionsled<br />

Additive indeks<br />

Logistisk regression<br />

Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />

Uafhængige variabler på nominelt eller ordinalt<br />

niveau samt ikke lineære effekter<br />

Ikke mindst når man foretager lineær regression på surveydata, vil der<br />

forekomme uafhængige variabler, der ikke er målt på interval- eller<br />

forholdstalsniveau.<br />

Disse variabler opfylder altså ikke umiddelbart forudsætningerne for<br />

lineær regression.<br />

I nogle situationer vil man kunne forsvare at inddrage ordinalskalerede<br />

variabler i den form, de har, men det er ikke nogen universel løsning.<br />

Selvom en uafhængig variabel er målt på interval-/rationiveau, vil der ofte<br />

være tale om en ikke-lineære effekt.<br />

Løsningen på disse problemer kan imidlertid også gå ud på at lave såkaldt<br />

dummy-transformation af den diskrete uafhængige variabel.<br />

1<br />

2<br />

3<br />

1


Ved Henrik Lolle<br />

Ved Henrik Lolle<br />

Ved Henrik Lolle<br />

Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />

Eksempel 1A: Faders uddannelses effekt på<br />

respondentens selvplacering.<br />

I første omgang udføres både den bivariate og den kontrollerede<br />

analyse uden transformation, dvs. med de oprindelige<br />

ordinalskalerede uafhængige variabler:<br />

Model<br />

1<br />

(Constant)<br />

faderudd<br />

Unstandardized<br />

Coefficients<br />

Coefficients a<br />

a. Dependent Variable: nya46 Selvplacering<br />

Model<br />

1<br />

(Constant)<br />

faderudd<br />

egenudd<br />

Standardized<br />

Coefficients<br />

B Std. Error Beta<br />

t Sig.<br />

5,421 ,088 61,331 ,000<br />

,336 ,052 ,159 6,414 ,000<br />

Unstandardized<br />

Coefficients<br />

Coefficients a<br />

a. Dependent Variable: nya46 Selvplacering<br />

Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />

Standardized<br />

Coefficients<br />

B Std. Error Beta<br />

t Sig.<br />

4,609 ,126 36,622 ,000<br />

,097 ,058 ,046 1,664 ,096<br />

,532 ,058 ,250 9,106 ,000<br />

Eksempel 1B: Transformation af diskret<br />

variabel til en serie af dummy-variabler<br />

Oprindelig<br />

variabel<br />

Nye<br />

dummyvariabler<br />

Faders skoleuddannelse<br />

(1 = lav) (2 = mellem)<br />

(3 = høj)<br />

Lav<br />

Mellem<br />

Høj<br />

Konklusionen<br />

harmonerer med<br />

den tidligere viste<br />

Gamma-analyse.<br />

Effekten fra faders<br />

uddannelse er<br />

mestendels en<br />

indirekte effekt<br />

gennem egen<br />

uddannelse.<br />

Nogle vil mene, at der er for stor risiko for, at modellen vil blive estimeret<br />

Nedenfor forkert, ses hvis et man eksempel bryder på de dummy-transformation formelle forudsætninger af om faders intervalskalerede<br />

uddannelse i<br />

tre<br />

variabler.<br />

kategorier. Der inddrages altid et antal dummy-variabler i den statistiske<br />

model Et andet på antallet alternativ af kategorier er dummy-transformation.<br />

minus én – her således to dummy-variabler.<br />

Nedenfor ses et eksempel på dummy-transformation af faders uddannelse<br />

i tre kategorier. Der inddrages altid et antal dummy-variabler i den<br />

statistiske model på antallet af kategorier minus én – her således to<br />

dummy-variabler.<br />

Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />

Eksempel 1C: ”Bivariat” effekt efter dummytransformation<br />

Model<br />

1<br />

(Constant)<br />

f_uddan2<br />

f_uddan3<br />

Unstandardized<br />

Coefficients<br />

Coefficients a<br />

a. Dependent Variable: nya46 Selvplacering<br />

Regressionsligningen:<br />

Standardized<br />

Coefficients<br />

B Std. Error Beta<br />

t Sig.<br />

5,740 ,049 118,119 ,000<br />

,443 ,093 ,121 4,763 ,000<br />

,615 ,112 ,139 5,479 ,000<br />

( f_uddan2)<br />

0,<br />

( f_uddan3)<br />

Selvplacering = 5 , 74 + 0,<br />

443 + 615<br />

Estimering af forventet værdi af selvplacering, hvor faders<br />

uddannelse er ”høj”:<br />

( 0)<br />

+ 0,<br />

615(<br />

1)<br />

= 5,<br />

74 + 0,<br />

615 6,<br />

319<br />

Selvplacering<br />

= 5 , 74 + 0,<br />

443<br />

=<br />

1<br />

0<br />

0<br />

2<br />

1<br />

0<br />

3<br />

0<br />

1<br />

4<br />

5<br />

6<br />

2


Ved Henrik Lolle<br />

Ved Henrik Lolle<br />

Ved Henrik Lolle<br />

Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />

Eksempel 1D: ”Bivariat” plus kontrol for egen<br />

uddannelse<br />

Model<br />

1<br />

(Constant)<br />

f_uddan2<br />

f_uddan3<br />

Unstandardized<br />

Coefficients<br />

Coefficients a<br />

a. Dependent Variable: nya46 Selvplacering<br />

Model<br />

1<br />

(Constant)<br />

f_uddan2<br />

f_uddan3<br />

e_uddan2<br />

e_uddan3<br />

Standardized<br />

Coefficients<br />

B Std. Error Beta<br />

t Sig.<br />

5,740 ,049 118,119 ,000<br />

,443 ,093 ,121 4,763 ,000<br />

,615 ,112 ,139 5,479 ,000<br />

Unstandardized<br />

Coefficients<br />

Coefficients a<br />

Standardized<br />

Coefficients<br />

B Std. Error Beta<br />

t Sig.<br />

5,251 ,089 58,788 ,000<br />

,151 ,098 ,041 1,543 ,123<br />

,163 ,123 ,037 1,330 ,184<br />

,494 ,109 ,158 4,535 ,000<br />

1,048 ,119 ,330 8,775 ,000<br />

a. Dependent Variable: nya46 Selvplacering<br />

Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />

”Bivariat”<br />

(kun faders<br />

uddannelse)<br />

Kontrolleret<br />

(inkl. egen<br />

uddannelse)<br />

Konklusionen er i<br />

dette tilfælde i<br />

substansen den<br />

samme.<br />

Eksempel 1E: Dummy-rekodning i syntax<br />

Den letteste måde at lave dummy-variabler på (den<br />

oprindelige variabel hedder her ”f_uddan” og kan antage<br />

værdierne 1, 2 og 3):<br />

Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />

Opgave 1<br />

Datafilen ”Hovedstadsomraadet …” benyttes.<br />

I en af de tidligere lektioner så vi på effekten fra alder på personlig<br />

indkomst. Her sås der en effekt, der kunne se ud til at passe udmærket til<br />

en kvadratisk effekt, hvor man kunne inddrage både aldersvariablen og<br />

aldersvariablen i anden potens.<br />

Prøv nu at transformere aldersvariablen (alder) til en serie dummyvariabler,<br />

f.eks. efter opskriften på forrige slide. Transformer evt. først<br />

aldersvariablen om til en kategori-variabel med funktionen ”recode into<br />

new variables”. Brug følgende aldersklasser: (-29)(30-39)(40-49)(50-<br />

59)(60-69)(70+).<br />

Foretag derefter en lineær regression med effekten fra disse dummyvariabler<br />

på personlig indkomst.<br />

7<br />

8<br />

9<br />

3


Ved Henrik Lolle<br />

Ved Henrik Lolle<br />

Ved Henrik Lolle<br />

Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />

Multikollinearitet<br />

I den multiple lineære regression kommer der endnu en forudsætning til: der må<br />

ikke være for stor korrelation mellem de uafhængige variabler i modellen.<br />

Når denne situation opstår, er det vanskeligt at estimere de enkelte variablers<br />

effekter, fordi de er vanskelige at skille fra hinanden.<br />

Et tegn på alvorlig multikollinearitet er, at R 2 er forholdsvis høj, mens de enkelte<br />

variablers effektestimater er statistisk insignifikante.<br />

Mere formelle mål for graden af multikollinearitet er VIF (Variance Inflation Factor)<br />

og Tolerance.<br />

Det er ligegyldigt, hvilket mål der benyttes af disse to. Tolerance måler 1 minus R 2<br />

for de enkelte uafhængige variable, når disse på skift prædikeres af de resterende<br />

uafhængige variabler. Tolerance kan altså antage værdier mellem 0 og 1.<br />

Kan en uafhængig variabel således bestemmes næsten fuldstændigt af de øvrige<br />

uafhængige variabler, fås en meget lille Tolerance.<br />

Ofte sættes den nedre grænse for, hvor lille en Tolerance man vil tillade ved 0,2.<br />

Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />

Tolerance og VIF i SPSS<br />

Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />

Eksempel 2A: Model uden alvorlig<br />

multikollinearitet<br />

Model<br />

1<br />

(Constant)<br />

loktaet<br />

persindt2<br />

erhvakt<br />

erhvrejs<br />

a. Dependent Variable: bilhverd<br />

Coefficients a<br />

Klik på ”Statistics” og<br />

markér i ”Colinearity<br />

diagnostics”<br />

Unstandardized Standardized<br />

Coefficients Coefficients<br />

Collinearity Statistics<br />

B Std. Error Beta<br />

t Sig. Tolerance VIF<br />

75,866 8,287 9,155 ,000<br />

-,598 ,059 -,225 -10,108 ,000 ,996 1,004<br />

,141 ,018 ,190 7,647 ,000 ,799 1,252<br />

28,683 9,055 ,076 3,168 ,002 ,850 1,177<br />

95,825 9,619 ,237 9,962 ,000 ,871 1,148<br />

Store Tolerance-værdier de enkelte uafhængige<br />

variabler bestemmes ikke særlig godt af de øvrige<br />

uafhængige variabler. Der er masser af tolerance<br />

tilbage så at sige.<br />

10<br />

11<br />

12<br />

4


Ved Henrik Lolle<br />

Ved Henrik Lolle<br />

Ved Henrik Lolle<br />

Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />

Eksempel 2B: Model med alvorlig<br />

multikollinearitet<br />

Model<br />

1<br />

(Constant)<br />

loktaet<br />

persindt2<br />

erhvakt<br />

erhvrejs<br />

inbhalok<br />

arbhalok<br />

a. Dependent Variable: bilhverd<br />

Coefficients a<br />

Unstandardized Standardized<br />

Coefficients Coefficients<br />

Collinearity Statistics<br />

B Std. Error Beta<br />

t Sig. Tolerance VIF<br />

73,997 8,556 8,649 ,000<br />

-2,822 1,014 -1,061 -2,782 ,005 ,003 295,630<br />

,143 ,018 ,193 7,766 ,000 ,796 1,256<br />

28,586 9,047 ,076 3,160 ,002 ,850 1,177<br />

95,511 9,617 ,236 9,931 ,000 ,870 1,150<br />

2,115 1,017 ,429 2,079 ,038 ,012 86,735<br />

2,382 1,061 ,449 2,245 ,025 ,012 81,478<br />

Meget lave Tolerance-værdier de enkelte<br />

uafhængige variabler bestemmes næsten fuldstændigt<br />

af de øvrige uafhængige variabler.<br />

Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />

Interaktion<br />

Hvis styrken af en variabels effekt afhænger af værdien på en anden<br />

uafhængig variabel, siges der at være interaktion mellem disse to variabler.<br />

Én måde at tage højde for dette i en lineær regressionsmodel, er at<br />

inddrage et såkaldt interaktionsled, som er lig med produktet af de to<br />

interagerende variabler.<br />

Dette er intuitivt lettest at forstå, hvis i hvert fald den ene af de to<br />

variabler er en dummy-variabel, f.eks. køn (kvinde = 0; mand = 1).<br />

Hypotetisk eksempel, hvor uddannelse og køn påvirker holdningen H, men<br />

hvor uddannelseseffektens størrelse afhænger af kønnet:<br />

E<br />

E<br />

E<br />

( H)<br />

= kons + b1(<br />

udd ) + b2<br />

( køn)<br />

+ b3(<br />

køn×<br />

udd )<br />

( H Kvinder ) = kons + b1(<br />

udd ) + b2(<br />

0)<br />

+ b3(<br />

0×<br />

udd ) = kons + b1(<br />

udd )<br />

( H Mænd ) = kons + b1(<br />

udd)<br />

+ b2<br />

( 1)<br />

+ b3(<br />

1×<br />

udd ) = kons + ( b1<br />

+ b3<br />

)( udd ) + b2<br />

Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />

Grafisk eksemplificering af interaktion<br />

Holdning<br />

Uden interaktion Med interaktion<br />

Effekten fra uddannelse bliver<br />

her tvunget til at være ens for<br />

mænd og kvinder!<br />

Mænd<br />

Kvinder<br />

Uddannelse<br />

Holdning<br />

Mænd<br />

Kvinder<br />

Uddannelse<br />

13<br />

14<br />

15<br />

5


Ved Henrik Lolle<br />

Ved Henrik Lolle<br />

Ved Henrik Lolle<br />

Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />

Eksempel 3A: Model uden interaktionsled, kun<br />

såkaldte hovedeffekter<br />

Model<br />

1<br />

(Constant)<br />

koen Køn<br />

alder2<br />

skoleaar<br />

persindt2<br />

a. Dependent Variable: miljhold<br />

Unstandardized<br />

Coefficients<br />

Coefficients a<br />

Standardized<br />

Coefficients<br />

B Std. Error Beta<br />

t Sig.<br />

-1,8346 ,565 -3,245 ,001<br />

,9995 ,258 ,096 3,879 ,000<br />

-,6093 ,259 -,059 -2,356 ,019<br />

,2434 ,035 ,182 6,935 ,000<br />

-,0052 ,001 -,223 -8,539 ,000<br />

Jeg vil nu indføje et nyt led for en interaktion mellem alder2 og persindt2 på<br />

følgende facon (alder2 er en dummyvariabel for, om respondenten er 50+ årig):<br />

Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />

Eksempel 3B: Model med interaktionsled<br />

Model<br />

1<br />

(Constant)<br />

koen Køn<br />

alder2<br />

skoleaar<br />

persindt2<br />

ia_ald.pi<br />

a. Dependent Variable: miljhold<br />

Unstandardized<br />

Coefficients<br />

Coefficients a<br />

Standardized<br />

Coefficients<br />

B Std. Error Beta<br />

t Sig.<br />

-1,3011 ,619 -2,100 ,036<br />

,9700 ,258 ,094 3,763 ,000<br />

-1,3453 ,436 -,130 -3,087 ,002<br />

,2333 ,035 ,174 6,589 ,000<br />

-,0063 ,001 -,275 -7,654 ,000<br />

,0023 ,001 ,101 2,097 ,036<br />

Interaktionsledet er lige netop signifikant på 0,05 niveau. Det er imidlertid tvivlsomt, om<br />

man ville vælge at medtage det i en præsentation.<br />

Effekter fra personlig indkomst (persindt2):<br />

Unge (alder2 = 0): -0.0063(persindt2)<br />

Ældre (alder2 = 1): -0.0063(persindt2) + 0.0023(persindt2) = -0.0040(persindt2)<br />

Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />

Lidt teknik vedr. interaktionsled (ej pensum!)<br />

Vær opmærksom på, at et interaktionsled ofte korrelerer<br />

forholdsvis stærkt med de variabler, det er dannet ud fra,<br />

hvilket kan give lave tolerance-værdier.<br />

Dette er imidlertid at regne som et rent teknisk problem, og<br />

det kan løses ved at centrere de to variabler omkring deres<br />

respektive gennemsnit inden beregningen af interaktionsledet.<br />

En sådan centrering giver også en intuitivt lettere tolkning af<br />

hovedeffekten, som nu er effekten fra pågældende variabel<br />

ved gennemsnitsværdien af moderator-variablen. Centrerer<br />

man ikke, viser hovedeffekten effekten ved værdien 0 for<br />

moderator-variablen.<br />

16<br />

17<br />

18<br />

6


Ved Henrik Lolle<br />

Ved Henrik Lolle<br />

Ved Henrik Lolle<br />

Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />

Opgave 2: Additive indeks<br />

Lav et additivt indeks for respondenternes holdning til kollektiv transport, baseret<br />

på svarene på nedenstående spørgsmål (med variabelnavnene transp4 og<br />

transp6). I datamaterialet er værdierne på variablerne kodet sådan, at ”helt enig”<br />

har værdien 1, og ”helt uenig” har værdien 5.<br />

Indekset skal beregnes som en simpel sum, men overvej forinden dennne<br />

operation, om der bør foretages rekodning af en af variablerne. Hint: store værdier<br />

i det beregnede indeks skal indikere positiv holdning til kollektiv transport.<br />

Foretag til slut en lineær regressionsanalyse med indekset som afhængig variabel og<br />

med køn (koen), alder (som dummy-variabler) og uddannelse (skoleaar) som de<br />

uafhængige. Tolk til slut resultaterne.<br />

Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />

Når den afhængige variabel er en dummy<br />

For få årtier siden benyttedes også ofte dummy-variabler som afhængig<br />

variabel i lineær regression, en såkaldt lineær sandsynlighedsmodel. En<br />

prædikeret værdi på 0,3 ville f.eks. betyde en prædikeret sandsynlighed for<br />

værdien 1 på den dummy-afhængige variabel på 0,3.<br />

I en lineær sandsynlighedsmodel vil der ske brud på de formelle<br />

forudsætninger.<br />

• Der vil være brud på forudsætningen om normalfordelte fejlled, hvilket<br />

som oftest ikke er væsentligt.<br />

• Der vil endvidere være brud på forudsætningen om homoskedasticitet,<br />

hvilket er mere væsentligt, men ikke noget uoverstigeligt problem.<br />

• Der vil imidlertid også som oftest være brud på forudsætningen om<br />

linearitet, hvilket bl.a. giver sig udslag i, at der prædikeres<br />

sandsynligheder på over 1 og under 0. Og i denne situation kan<br />

problemet med forkert funktionel form ikke løses ved hjælp af simpel<br />

transformation af enkelte variabler i modellen.<br />

Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />

Eksempel 4A: Lineær sandsynlighedsmodel<br />

19<br />

20<br />

21<br />

7


Ved Henrik Lolle<br />

Ved Henrik Lolle<br />

Ved Henrik Lolle<br />

Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />

Eksempel 4B: Logistisk regression<br />

Analyze Regression Binary Logistic:<br />

Step<br />

1 a<br />

persindt3<br />

Constant<br />

Variables in the Equation<br />

B S.E. Wald df Sig. Exp(B)<br />

,541 ,047 132,727 1 ,000 1,717<br />

-,316 ,120 6,919 1 ,009 ,729<br />

a. Variable(s) entered on step 1: persindt3.<br />

Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />

Eksempel 4C: Tolkning af estimater<br />

Step<br />

1 a<br />

persindt3<br />

Constant<br />

Z = −0,<br />

316 + 0.<br />

541<br />

Variables in the Equation<br />

B S.E. Wald df Sig. Exp(B)<br />

,541 ,047 132,727 1 ,000 1,717<br />

-,316 ,120 6,919 1 ,009 ,729<br />

a. Variable(s) entered on step 1: persindt3.<br />

Funktionen (som er lineær på højresiden):<br />

( persindt3)<br />

⎛ p ⎞<br />

hvor Z,<br />

som også kaldes for " logit" , er lig med ln⎜<br />

⎟<br />

⎝1<br />

− p ⎠<br />

Sandsynligheden, p, for at respondenten er bilejer kan estimeres som:<br />

1<br />

=<br />

1+<br />

e<br />

p −Z<br />

Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />

Eksempel 4D: Omregning til sandsynligheder<br />

Trin 1: Beregn logit’en ud fra den logistiske model i SPSS<br />

Trin 2: Beregn den estimerede sandsynlighed<br />

Ved multipel logistisk<br />

regression kan sandsynlighederne<br />

f.eks.<br />

estimeres ved gennemsnitsværdierne<br />

for de<br />

øvrige uafhængige<br />

variabler, ligesom ved<br />

lineær regression.<br />

22<br />

23<br />

24<br />

8


Ved Henrik Lolle<br />

Ved Henrik Lolle<br />

Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />

Eksempel 4E: Grafisk fremstilling af effekt<br />

Plan & Miljø, Milj , Forår For r 2009 – Statistik 1, lektion 5<br />

Tak Tak for for for ttålmodigheden!<br />

t lmodigheden!<br />

25<br />

26<br />

9

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!