25.06.2015 Views

Logistisk regresjon 2 - SIFO

Logistisk regresjon 2 - SIFO

Logistisk regresjon 2 - SIFO

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Logistisk</strong> <strong>regresjon</strong> 2<br />

SPSS Utskrift: Trivariat <strong>regresjon</strong><br />

Variables in the Equation<br />

B S.E. Wald df Sig. Exp(B)<br />

Step KJONN -1,536 ,113 184,516 1 ,000 ,215<br />

1 a UTDAAR ,184 ,018 109,956 1 ,000 1,202<br />

Constant -1,469 ,083 315,117 1 ,000 ,230<br />

a. Variable(s) entered on step 1: KJONN, UTDAAR.<br />

Fortolkning av koeffisienter:<br />

Kvinner har mindre sannsynlighet enn menn til å jobbe mer enn 40 timer<br />

Utdanning er positivt relatert til arbeidstid, slik at sannsynligheten for å jobbe mer enn<br />

40 time pr uke øker med økende antall år med utdanning<br />

Fortolkning av oddsratio [exp (B)]:<br />

Kvinners sjanse (odds) for å jobbe mer enn 40 timer er 21.5 % av den tilsvarende<br />

oddsen for menn. Alternativt: Kvinners sjanse (odds) for å jobbe mer enn 40 timer er<br />

(1-.215)*100 = 78.5% lavere enn den tilsvarende oddsen for menn<br />

For hvert år med utdanning øker oddsen for å jobbe mer enn 40 timer med (oddsratio<br />

- 1)*100 = 20.2 %<br />

Alternativt: for hvert år med utdanning øker oddsen for høy arbeidstid med faktor<br />

1.202. Altså, oddsen på ethvert nivå av utdanning er 1.202 ganger så høy som den<br />

tilsvarende oddsen på nivået under. Vi har m.a.o. å gjøre med en multiplikativ,<br />

kurvelineær sammenheng mellom utdanning or arbeidstid å gjøre<br />

Sannsynligheter:<br />

Sannsynligheter i tilknytning til kontinuerlige variable kan ofte med fordel fremstilles<br />

grafisk


Grafisk framstilling 1<br />

I dialogboksen for logistisk <strong>regresjon</strong>: velg save Predicted Values Probabilities<br />

SPSS lagrer nå de sannsynlighetene som modellen predikerer som en egen variabel<br />

pre_1 eventuelt pre_n hvis man har lagret slike variable tidligere i SPSS.<br />

Denne kan nå plottes mot utdanning, og framstilles med kurver for menn og kvinner<br />

(Har modellen flere variable, eller ingen dummyvariable, blir det mer komplisert. I så<br />

fall må prediksjonene gjøres i regneark og fremstilles grafisk der)


Grafisk framstilling 2<br />

Velg Graph line Multiple:<br />

Velg pre_1 som Variable, kontinuerlig uavhengig variabel som Category Axis, og den<br />

dikotome uavhengige variabelen som Define Lines By. I vårt eksempel får vi denne<br />

grafen:<br />

,8<br />

,7<br />

,6<br />

,5<br />

Mean Predicted probability<br />

,4<br />

,3<br />

,2<br />

,1<br />

0,0<br />

,00<br />

1,00<br />

3,00<br />

5,00<br />

7,00<br />

9,00<br />

Kjønn<br />

Mann<br />

Kvinne<br />

12,00<br />

Utdanning i år utover grunnskolenivå


Signifikanstest av koeffisienter<br />

Variables in the Equation<br />

B S.E. Wald df Sig. Exp(B)<br />

Step KJONN -1,536 ,113 184,516 1 ,000 ,215<br />

1 a UTDAAR ,184 ,018 109,956 1 ,000 1,202<br />

Constant -1,469 ,083 315,117 1 ,000 ,230<br />

a. Variable(s) entered on step 1: KJONN, UTDAAR.<br />

Også i logistisk <strong>regresjon</strong> får vi estimert standardfeil til koeffisientene<br />

I logistisk <strong>regresjon</strong> er det korrekt å bruke z-verdier som kritiske verdier i<br />

hypotesetesting.<br />

z<br />

B<br />

SE b<br />

Testobservatoren er tilnærmet normalfordelt når utvalget er stort og effekten av<br />

variabelen i populasjonen er null slik som antatt under H 0<br />

WALD<br />

z<br />

2<br />

B<br />

SE b<br />

2<br />

Denne testobservatoren er X 2 -fordelt med df=1 når utvalget er stort og effekten av<br />

variabelen i populasjonen er null slik som antatt under H 0 . WALD er et alternativ til z<br />

ved to-halet hypotesetesting. Kritisk verdi er 3.84<br />

Tester basert på z og WALD gir samme konklusjon<br />

Ved små utvalg er ingen av disse testene pålitelige. Da har vi kun Likelihood Ratio<br />

testen å holde oss til


Modelltest: Log Likelihood<br />

Iteration History a,b,c,d<br />

Iteration<br />

Step 1<br />

1 2<br />

3<br />

4<br />

a. Method: Enter<br />

-2 Log<br />

Coefficients<br />

likelihood Constant KJONN UTDAAR<br />

2834,350 -1,177 -,806 ,119<br />

2739,661 -1,421 -1,330 ,172<br />

2734,327 -1,467 -1,518 ,183<br />

2734,293 -1,469 -1,536 ,184<br />

b. Constant is included in the model.<br />

c. Initial -2 Log Likelihood: 3101,241<br />

d. Estimation terminated at iteration number 4 because<br />

log-likelihood decreased by less than ,010 percent.<br />

I logistisk <strong>regresjon</strong> er estimeringsmetoden Maximum likelihood estimering av<br />

maksimal sannsynlighet. Gitt det settet av uavhengige variable vi velger ut til<br />

analysen, går beregningsmetoden ut på å finne de koeffisienter som gjør det mest<br />

sannsynlig å få de observerte y-veridiene 0 - 1. Dette skjer ved hjelp av en såkalt<br />

likelihood funksjon: gjennom prøving og feiling såkalt iterasjoner er målet å<br />

komme fram til de koeffisienter som maksimerer logaritmen til denne funksjonen: log<br />

likelihood. Av tekniske grunner opererer man med et mål hvor Log Likelihood<br />

multipliseres med -2 den såkalte -2LL<br />

-2LL tilsvarer SSE i OLS-basert <strong>regresjon</strong>. Det er altså et mål på feilterm/<br />

residualledd.<br />

En god modell er m.a.o. en modell med lav -2LL verdi<br />

I første iterasjon estimeres en -2LL for en modell uten variable. I eksempelet ovenfor<br />

er denne startverdien beregnet til 3101.241.<br />

I de neste iterasjonene estimeres -2LL for den fulle modellen. Som vi ser er den<br />

beste tilpasningen 2734.293 med tilhørende konstantledd og koeffisienter for<br />

kjønn og utdanning<br />

Reduksjonen i log likelihood er (3101.241 -2734.293) = 366.947<br />

Dette danner utgangspunkt for ulike tester av modellen


Pseudo R 2<br />

I tråd med OLS-basert <strong>regresjon</strong> virker følgende mål fra Hosmer & Lameshow intuitivt<br />

fornuftig:<br />

PseudoR<br />

2<br />

HL<br />

1<br />

2LL<br />

2LL<br />

full mod ell<br />

redusert mod ell<br />

For den trivariate modellen får vi:<br />

2<br />

PseudoR<br />

HL<br />

1<br />

2734.293<br />

3101.241<br />

1<br />

.88<br />

. 12<br />

Fortolkning av Pseudo R 2 : proporsjonal reduksjon i -2LL-statistikken<br />

I SPSS fins to andre varianter av Pseudo R 2 :<br />

Model Summary<br />

Step<br />

1<br />

-2 Log Cox & Snell Nagelkerke<br />

likelihood R Square R Square<br />

2734,293 ,111 ,176<br />

Problemer med Pseudo R 2 :<br />

Kan ikke fortolkes som forklart varians


Likelihood Ratio testen 1 (LR-test)<br />

Iteration History a,b,c,d<br />

Iteration<br />

Step 1<br />

1 2<br />

3<br />

4<br />

a. Method: Enter<br />

-2 Log<br />

Coefficients<br />

likelihood Constant KJONN UTDAAR<br />

2834,350 -1,177 -,806 ,119<br />

2739,661 -1,421 -1,330 ,172<br />

2734,327 -1,467 -1,518 ,183<br />

2734,293 -1,469 -1,536 ,184<br />

b. Constant is included in the model.<br />

c. Initial -2 Log Likelihood: 3101,241<br />

d. Estimation terminated at iteration number 4 because<br />

log-likelihood decreased by less than ,010 percent.<br />

Omnibus Tests of Model Coefficients<br />

Step 1<br />

Step<br />

Block<br />

Model<br />

Chi-square df Sig.<br />

366,947 2 ,000<br />

366,947 2 ,000<br />

366,947 2 ,000<br />

Denne testen tester hele modellen opp mot en modell med ingen variable<br />

H 0 : ingen av variablene i modellen har effekt<br />

Testobservator: (-2LL 0 ) (-2LL 1 ) ~ X 2 -fordelt med df= antall variable i den fulle<br />

modellen<br />

Testen i SPSS-utskriften tester den trivariate analysen med kjønn og utdanning som<br />

uavhengige variable opp mot en modell med ingen variable.<br />

I modellen med ingen variable er -2LL = 3101.241<br />

I den trivariate analysen er -2LL = 2734.293<br />

Differansen er 366.947<br />

Df = 2 siden forskjellen på de to modellene er 2 variable<br />

Kritisk verdi: 5.991<br />

Konklusjon: Modellen gir et signifikant forklaringsbidrag i forhold til en modell uten de<br />

to variablene


Likelihood Ratio testen 2 (LR-Test)<br />

Modell 1 (Block 1) Modell 2 (Block 2)<br />

Uavh variable: Kjønn<br />

Iteration History<br />

-2 Log Coefficients<br />

likelihood<br />

Iteration Constant KJONN<br />

Step 1 1 2924,337 -,803 -,882<br />

2 2849,860 -,850 -1,422<br />

3 2846,124 -,851 -1,593<br />

4 2846,106 -,851 -1,606<br />

a Method: Enter<br />

b Constant is included in the model.<br />

c Initial -2 Log Likelihood: 3101,241<br />

d Estimation terminated at iteration number 4<br />

because log-likelihood decreased by less than<br />

,010 percent.<br />

Uavh. Variable: kjønn, utdanning<br />

Iteration History<br />

-2 Log Coefficients<br />

likelihood<br />

Iteration<br />

Constant KJONNUTDAAR<br />

Step 1 12834,350 -1,177 -,806 ,119<br />

22739,661 -1,421 -1,330 ,172<br />

32734,327 -1,467 -1,518 ,183<br />

42734,293 -1,469 -1,536 ,184<br />

a Method: Enter<br />

b Constant is included in the model.<br />

c Initial -2 Log Likelihood: 2846,106<br />

d Estimation terminated at iteration number 4<br />

because log-likelihood decreased by less than<br />

,010 percent.<br />

Omnibus Tests of Model Coefficients<br />

Chisquare<br />

df Sig.<br />

Step 1 Step 255,135 1 ,000<br />

Block 255,135 1 ,000<br />

Model 255,135 1 ,000<br />

Omnibus Tests of Model Coefficients<br />

Chisquare<br />

df Sig.<br />

Step 1 Step 111,812 1 ,000<br />

Block 111,812 1 ,000<br />

Model 366,947 2 ,000<br />

Denne testen tester den trivariate modellen (kjønn, utdanning) opp mot den bivariate<br />

modellen (bare kjønn som uavhengig variabel).<br />

H 0 : Den nye variabelen vi har inkludert representerer ingen forbedring i forhold til vår<br />

tidligere modell med færre variable.<br />

I modellen med kun én uavhengig variabel er -2LL = 2846.106<br />

I den trivariate analysen er -2LL = 2734.293<br />

Differansen er 111.812<br />

Df = 1 siden forskjellen på de to modellene er 1 variabel<br />

Kritisk verdi: 3.84<br />

Konklusjon: Den fulle modellen gir et signifikant forklaringsbidrag i forhold til en<br />

modell med bare én uavhengig


Hosmer & Lameshow Goodness of Fit Test<br />

Test fra den trivariate modellen:<br />

Hosmer and Lemeshow Test<br />

Step<br />

1<br />

Chi-square df Sig.<br />

7,855 6 ,249<br />

Step<br />

1<br />

1<br />

2<br />

3<br />

4<br />

5<br />

6<br />

7<br />

8<br />

Contingency Table for Hosmer and Lemeshow Test<br />

Arbeidstidskategorier =<br />

,00 Normal (= 41)<br />

Observed Expected Observed Expected Total<br />

265 258,212 6 12,788 271<br />

482 485,121 32 28,879 514<br />

256 258,744 25 22,256 281<br />

298 297,855 44 44,145 342<br />

236 235,305 54 54,695 290<br />

266 277,311 88 76,689 354<br />

450 437,988 163 175,012 613<br />

246 248,451 205 202,549 451<br />

Selv om vi har fått signifikante resultater betyr ikke det at vi har en god modell. En<br />

modell kan treffe godt i noen områder av dataene og dårlig i andre deler. Framfor alt<br />

forutsetter logistisk <strong>regresjon</strong> at sammenhengene mellom avhengig og uavhengige<br />

variable kan beskrives med en logistisk s-kurve. Dette tilsvarer forutsetningen om<br />

linearitet i OLS-<strong>regresjon</strong>.<br />

Hosmer & Lameshow-testen går ut på å undersøke akkurat dette: hvorvidt det er et<br />

akseptabelt eller for stort avvik mellom predikerte utfall og observerte verdier. Hvis<br />

avviket er for stort har vi en dårlig modell, dvs. en analyse som ikke oppfyller nevnte<br />

forutsetning.<br />

I tabellen ovenfor er materialet delt inn i 8 grupper. I hver av dem sammenliknes<br />

observerte og predikerte utfall på avhengig variabel. Generelt ser vi at modellen<br />

predikerer bedre for Y=0 enn Y=1. Likevel ser avvikene ut til å være beskjedne.<br />

H & L gir oss en kjikvadrattest på avvikene:<br />

H 0 : Avvikene mellom observerte og predikerte utfall skyldes tilfeldigheter<br />

H 1 : Det er et systematisk avvik mellom observerte og predikerte utfall<br />

I denne testen ønsker vi egentlig et ikke-signifikant resultat, for i så fall har vi støtte<br />

for modellen vår. Den aktuelle testen viser at gitt at H 0 er sann er det 24.9 % sjanse<br />

for å få et kjikvadrat på 7.855 eller høyere. H 0 kan m.a.o. ikke forkastes.


This document was created with Win2PDF available at http://www.daneprairie.com.<br />

The unregistered version of Win2PDF is for evaluation or non-commercial use only.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!