Logistisk regresjon 2 - SIFO

Logistisk regresjon 2 

SPSS Utskrift: Trivariat regresjon 

Variables in the Equation 

B S.E. Wald df Sig. Exp(B) 

Step KJONN -1,536 ,113 184,516 1 ,000 ,215 

1 a UTDAAR ,184 ,018 109,956 1 ,000 1,202 

Constant -1,469 ,083 315,117 1 ,000 ,230 

a. Variable(s) entered on step 1: KJONN, UTDAAR. 

Fortolkning av koeffisienter: 

Kvinner har mindre sannsynlighet enn menn til å jobbe mer enn 40 timer 

Utdanning er positivt relatert til arbeidstid, slik at sannsynligheten for å jobbe mer enn 

40 time pr uke øker med økende antall år med utdanning 

Fortolkning av oddsratio [exp (B)]: 

Kvinners sjanse (odds) for å jobbe mer enn 40 timer er 21.5 % av den tilsvarende 

oddsen for menn. Alternativt: Kvinners sjanse (odds) for å jobbe mer enn 40 timer er 

(1-.215)*100 = 78.5% lavere enn den tilsvarende oddsen for menn 

For hvert år med utdanning øker oddsen for å jobbe mer enn 40 timer med (oddsratio 

- 1)*100 = 20.2 % 

Alternativt: for hvert år med utdanning øker oddsen for høy arbeidstid med faktor 

1.202. Altså, oddsen på ethvert nivå av utdanning er 1.202 ganger så høy som den 

tilsvarende oddsen på nivået under. Vi har m.a.o. å gjøre med en multiplikativ, 

kurvelineær sammenheng mellom utdanning or arbeidstid å gjøre 

Sannsynligheter: 

Sannsynligheter i tilknytning til kontinuerlige variable kan ofte med fordel fremstilles 

grafisk

Grafisk framstilling 1 

I dialogboksen for logistisk regresjon: velg save Predicted Values Probabilities 

SPSS lagrer nå de sannsynlighetene som modellen predikerer som en egen variabel 

pre_1 eventuelt pre_n hvis man har lagret slike variable tidligere i SPSS. 

Denne kan nå plottes mot utdanning, og framstilles med kurver for menn og kvinner 

(Har modellen flere variable, eller ingen dummyvariable, blir det mer komplisert. I så 

fall må prediksjonene gjøres i regneark og fremstilles grafisk der)

Grafisk framstilling 2 

Velg Graph line Multiple: 

Velg pre_1 som Variable, kontinuerlig uavhengig variabel som Category Axis, og den 

dikotome uavhengige variabelen som Define Lines By. I vårt eksempel får vi denne 

grafen: 

,8 

,7 

,6 

,5 

Mean Predicted probability 

,4 

,3 

,2 

,1 

0,0 

,00 

1,00 

3,00 

5,00 

7,00 

9,00 

Kjønn 

Mann 

Kvinne 

12,00 

Utdanning i år utover grunnskolenivå

Signifikanstest av koeffisienter 

Variables in the Equation 

B S.E. Wald df Sig. Exp(B) 

Step KJONN -1,536 ,113 184,516 1 ,000 ,215 

1 a UTDAAR ,184 ,018 109,956 1 ,000 1,202 

Constant -1,469 ,083 315,117 1 ,000 ,230 

a. Variable(s) entered on step 1: KJONN, UTDAAR. 

Også i logistisk regresjon får vi estimert standardfeil til koeffisientene 

I logistisk regresjon er det korrekt å bruke z-verdier som kritiske verdier i 

hypotesetesting. 

z 

B 

SE b 

Testobservatoren er tilnærmet normalfordelt når utvalget er stort og effekten av 

variabelen i populasjonen er null slik som antatt under H 0 

WALD 

z 

2 

B 

SE b 

2 

Denne testobservatoren er X 2 -fordelt med df=1 når utvalget er stort og effekten av 

variabelen i populasjonen er null slik som antatt under H 0 . WALD er et alternativ til z 

ved to-halet hypotesetesting. Kritisk verdi er 3.84 

Tester basert på z og WALD gir samme konklusjon 

Ved små utvalg er ingen av disse testene pålitelige. Da har vi kun Likelihood Ratio 

testen å holde oss til

Modelltest: Log Likelihood 

Iteration History a,b,c,d 

Iteration 

Step 1 

1 2 

3 

4 

a. Method: Enter 

-2 Log 

Coefficients 

likelihood Constant KJONN UTDAAR 

2834,350 -1,177 -,806 ,119 

2739,661 -1,421 -1,330 ,172 

2734,327 -1,467 -1,518 ,183 

2734,293 -1,469 -1,536 ,184 

b. Constant is included in the model. 

c. Initial -2 Log Likelihood: 3101,241 

d. Estimation terminated at iteration number 4 because 

log-likelihood decreased by less than ,010 percent. 

I logistisk regresjon er estimeringsmetoden Maximum likelihood estimering av 

maksimal sannsynlighet. Gitt det settet av uavhengige variable vi velger ut til 

analysen, går beregningsmetoden ut på å finne de koeffisienter som gjør det mest 

sannsynlig å få de observerte y-veridiene 0 - 1. Dette skjer ved hjelp av en såkalt 

likelihood funksjon: gjennom prøving og feiling såkalt iterasjoner er målet å 

komme fram til de koeffisienter som maksimerer logaritmen til denne funksjonen: log 

likelihood. Av tekniske grunner opererer man med et mål hvor Log Likelihood 

multipliseres med -2 den såkalte -2LL 

-2LL tilsvarer SSE i OLS-basert regresjon. Det er altså et mål på feilterm/ 

residualledd. 

En god modell er m.a.o. en modell med lav -2LL verdi 

I første iterasjon estimeres en -2LL for en modell uten variable. I eksempelet ovenfor 

er denne startverdien beregnet til 3101.241. 

I de neste iterasjonene estimeres -2LL for den fulle modellen. Som vi ser er den 

beste tilpasningen 2734.293 med tilhørende konstantledd og koeffisienter for 

kjønn og utdanning 

Reduksjonen i log likelihood er (3101.241 -2734.293) = 366.947 

Dette danner utgangspunkt for ulike tester av modellen

Pseudo R 2 

I tråd med OLS-basert regresjon virker følgende mål fra Hosmer & Lameshow intuitivt 

fornuftig: 

PseudoR 

2 

HL 

1 

2LL 

2LL 

full mod ell 

redusert mod ell 

For den trivariate modellen får vi: 

2 

PseudoR 

HL 

1 

2734.293 

3101.241 

1 

.88 

. 12 

Fortolkning av Pseudo R 2 : proporsjonal reduksjon i -2LL-statistikken 

I SPSS fins to andre varianter av Pseudo R 2 : 

Model Summary 

Step 

1 

-2 Log Cox & Snell Nagelkerke 

likelihood R Square R Square 

2734,293 ,111 ,176 

Problemer med Pseudo R 2 : 

Kan ikke fortolkes som forklart varians

Likelihood Ratio testen 1 (LR-test) 

Iteration History a,b,c,d 

Iteration 

Step 1 

1 2 

3 

4 

a. Method: Enter 

-2 Log 

Coefficients 

likelihood Constant KJONN UTDAAR 

2834,350 -1,177 -,806 ,119 

2739,661 -1,421 -1,330 ,172 

2734,327 -1,467 -1,518 ,183 

2734,293 -1,469 -1,536 ,184 

b. Constant is included in the model. 

c. Initial -2 Log Likelihood: 3101,241 

d. Estimation terminated at iteration number 4 because 

log-likelihood decreased by less than ,010 percent. 

Omnibus Tests of Model Coefficients 

Step 1 

Step 

Block 

Model 

Chi-square df Sig. 

366,947 2 ,000 

366,947 2 ,000 

366,947 2 ,000 

Denne testen tester hele modellen opp mot en modell med ingen variable 

H 0 : ingen av variablene i modellen har effekt 

Testobservator: (-2LL 0 ) (-2LL 1 ) ~ X 2 -fordelt med df= antall variable i den fulle 

modellen 

Testen i SPSS-utskriften tester den trivariate analysen med kjønn og utdanning som 

uavhengige variable opp mot en modell med ingen variable. 

I modellen med ingen variable er -2LL = 3101.241 

I den trivariate analysen er -2LL = 2734.293 

Differansen er 366.947 

Df = 2 siden forskjellen på de to modellene er 2 variable 

Kritisk verdi: 5.991 

Konklusjon: Modellen gir et signifikant forklaringsbidrag i forhold til en modell uten de 

to variablene

Likelihood Ratio testen 2 (LR-Test) 

Modell 1 (Block 1) Modell 2 (Block 2) 

Uavh variable: Kjønn 

Iteration History 

-2 Log Coefficients 

likelihood 

Iteration Constant KJONN 

Step 1 1 2924,337 -,803 -,882 

2 2849,860 -,850 -1,422 

3 2846,124 -,851 -1,593 

4 2846,106 -,851 -1,606 

a Method: Enter 

b Constant is included in the model. 

c Initial -2 Log Likelihood: 3101,241 

d Estimation terminated at iteration number 4 

because log-likelihood decreased by less than 

,010 percent. 

Uavh. Variable: kjønn, utdanning 

Iteration History 

-2 Log Coefficients 

likelihood 

Iteration 

Constant KJONNUTDAAR 

Step 1 12834,350 -1,177 -,806 ,119 

22739,661 -1,421 -1,330 ,172 

32734,327 -1,467 -1,518 ,183 

42734,293 -1,469 -1,536 ,184 

a Method: Enter 

b Constant is included in the model. 

c Initial -2 Log Likelihood: 2846,106 

d Estimation terminated at iteration number 4 

because log-likelihood decreased by less than 

,010 percent. 


Chisquare 

df Sig. 

Step 1 Step 255,135 1 ,000 

Block 255,135 1 ,000 

Model 255,135 1 ,000 


Chisquare 

df Sig. 

Step 1 Step 111,812 1 ,000 

Block 111,812 1 ,000 

Model 366,947 2 ,000 

Denne testen tester den trivariate modellen (kjønn, utdanning) opp mot den bivariate 

modellen (bare kjønn som uavhengig variabel). 

H 0 : Den nye variabelen vi har inkludert representerer ingen forbedring i forhold til vår 

tidligere modell med færre variable. 

I modellen med kun én uavhengig variabel er -2LL = 2846.106 

I den trivariate analysen er -2LL = 2734.293 

Differansen er 111.812 

Df = 1 siden forskjellen på de to modellene er 1 variabel 

Kritisk verdi: 3.84 

Konklusjon: Den fulle modellen gir et signifikant forklaringsbidrag i forhold til en 

modell med bare én uavhengig

Hosmer & Lameshow Goodness of Fit Test 

Test fra den trivariate modellen: 

Hosmer and Lemeshow Test 

Step 

1 

Chi-square df Sig. 

7,855 6 ,249 

Step 

1 

1 

2 

3 

4 

5 

6 

7 

8 

Contingency Table for Hosmer and Lemeshow Test 

Arbeidstidskategorier = 

,00 Normal (= 41) 

Observed Expected Observed Expected Total 

265 258,212 6 12,788 271 

482 485,121 32 28,879 514 

256 258,744 25 22,256 281 

298 297,855 44 44,145 342 

236 235,305 54 54,695 290 

266 277,311 88 76,689 354 

450 437,988 163 175,012 613 

246 248,451 205 202,549 451 

Selv om vi har fått signifikante resultater betyr ikke det at vi har en god modell. En 

modell kan treffe godt i noen områder av dataene og dårlig i andre deler. Framfor alt 

forutsetter logistisk regresjon at sammenhengene mellom avhengig og uavhengige 

variable kan beskrives med en logistisk s-kurve. Dette tilsvarer forutsetningen om 

linearitet i OLS-regresjon. 

Hosmer & Lameshow-testen går ut på å undersøke akkurat dette: hvorvidt det er et 

akseptabelt eller for stort avvik mellom predikerte utfall og observerte verdier. Hvis 

avviket er for stort har vi en dårlig modell, dvs. en analyse som ikke oppfyller nevnte 

forutsetning. 

I tabellen ovenfor er materialet delt inn i 8 grupper. I hver av dem sammenliknes 

observerte og predikerte utfall på avhengig variabel. Generelt ser vi at modellen 

predikerer bedre for Y=0 enn Y=1. Likevel ser avvikene ut til å være beskjedne. 

H & L gir oss en kjikvadrattest på avvikene: 

H 0 : Avvikene mellom observerte og predikerte utfall skyldes tilfeldigheter 

H 1 : Det er et systematisk avvik mellom observerte og predikerte utfall 

I denne testen ønsker vi egentlig et ikke-signifikant resultat, for i så fall har vi støtte 

for modellen vår. Den aktuelle testen viser at gitt at H 0 er sann er det 24.9 % sjanse 

for å få et kjikvadrat på 7.855 eller høyere. H 0 kan m.a.o. ikke forkastes.

This document was created with Win2PDF available at http://www.daneprairie.com. 

The unregistered version of Win2PDF is for evaluation or non-commercial use only.

Logistisk regresjon 2 - SIFO

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?