11.07.2015 Views

Logistisk regresjon 2 - Sifo

Logistisk regresjon 2 - Sifo

Logistisk regresjon 2 - Sifo

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Logistisk</strong> <strong>regresjon</strong> 2SPSS – Utskrift: Trivariat <strong>regresjon</strong>Variables in the EquationB S.E. Wald df Sig. Exp(B)Step KJONN -1,536 ,113 184,516 1 ,000 ,2151 a UTDAAR ,184 ,018 109,956 1 ,000 1,202Constant -1,469 ,083 315,117 1 ,000 ,230a. Variable(s) entered on step 1: KJONN, UTDAAR.Fortolkning av koeffisienter:Kvinner har mindre sannsynlighet enn menn til å jobbe mer enn 40 timerUtdanning er positivt relatert til arbeidstid, slik at sannsynligheten for å jobbe mer enn40 time pr uke øker med økende antall år med utdanningFortolkning av oddsratio [exp (B)]:Kvinners sjanse (odds) for å jobbe mer enn 40 timer er 21.5 % av den tilsvarendeoddsen for menn. Alternativt: Kvinners sjanse (odds) for å jobbe mer enn 40 timer er(1-.215)*100 = 78.5% lavere enn den tilsvarende oddsen for mennFor hvert år med utdanning øker oddsen for å jobbe mer enn 40 timer med (oddsratio- 1)*100 = 20.2 %Alternativt: for hvert år med utdanning øker oddsen for høy arbeidstid med faktor1.202. Altså, oddsen på ethvert nivå av utdanning er 1.202 ganger så høy som dentilsvarende oddsen på nivået under. Vi har m.a.o. å gjøre med en multiplikativ,kurvelineær sammenheng mellom utdanning or arbeidstid å gjøreSannsynligheter:Sannsynligheter i tilknytning til kontinuerlige variable kan ofte med fordel fremstillesgrafisk


Grafisk framstilling 1I dialogboksen for logistisk <strong>regresjon</strong>: velg save Predicted Values ProbabilitiesSPSS lagrer nå de sannsynlighetene som modellen predikerer som en egen variabelpre_1 — eventuelt pre_n hvis man har lagret slike variable tidligere i SPSS.Denne kan nå plottes mot utdanning, og framstilles med kurver for menn og kvinner(Har modellen flere variable, eller ingen dummyvariable, blir det mer komplisert. I såfall må prediksjonene gjøres i regneark og fremstilles grafisk der)


Grafisk framstilling 2Velg Graph line Multiple:Velg pre_1 som Variable, kontinuerlig uavhengig variabel som Category Axis, og dendikotome uavhengige variabelen som Define Lines By. I vårt eksempel får vi dennegrafen:,8,7,6,5Mean Predicted probability,4,3,2,10,0,001,003,005,007,009,00KjønnMannKvinne12,00Utdanning i år utover grunnskolenivå


Signifikanstest av koeffisienterVariables in the EquationB S.E. Wald df Sig. Exp(B)Step KJONN -1,536 ,113 184,516 1 ,000 ,2151 a UTDAAR ,184 ,018 109,956 1 ,000 1,202Constant -1,469 ,083 315,117 1 ,000 ,230a. Variable(s) entered on step 1: KJONN, UTDAAR.Også i logistisk <strong>regresjon</strong> får vi estimert standardfeil til koeffisienteneI logistisk <strong>regresjon</strong> er det korrekt å bruke z-verdier som kritiske verdier ihypotesetesting.z BSE bTestobservatoren er tilnærmet normalfordelt når utvalget er stort og effekten avvariabelen i populasjonen er null slik som antatt under H 0WALD z2 B SE b 2Denne testobservatoren er X 2 -fordelt med df=1 når utvalget er stort og effekten avvariabelen i populasjonen er null slik som antatt under H 0 . WALD er et alternativ til zved to-halet hypotesetesting. Kritisk verdi er 3.84Tester basert på z og WALD gir samme konklusjonVed små utvalg er ingen av disse testene pålitelige. Da har vi kun Likelihood Ratiotesten å holde oss til


Modelltest: Log LikelihoodIteration History a,b,c,dIterationStep 11 234a. Method: Enter-2 LogCoefficientslikelihood Constant KJONN UTDAAR2834,350 -1,177 -,806 ,1192739,661 -1,421 -1,330 ,1722734,327 -1,467 -1,518 ,1832734,293 -1,469 -1,536 ,184b. Constant is included in the model.c. Initial -2 Log Likelihood: 3101,241d. Estimation terminated at iteration number 4 becauselog-likelihood decreased by less than ,010 percent.I logistisk <strong>regresjon</strong> er estimeringsmetoden Maximum likelihood — estimering avmaksimal sannsynlighet. Gitt det settet av uavhengige variable vi velger ut tilanalysen, går beregningsmetoden ut på å finne de koeffisienter som gjør det mestsannsynlig å få de observerte y-veridiene 0 - 1. Dette skjer ved hjelp av en såkaltlikelihood funksjon: gjennom prøving og feiling — såkalt iterasjoner — er målet åkomme fram til de koeffisienter som maksimerer logaritmen til denne funksjonen: loglikelihood. Av tekniske grunner opererer man med et mål hvor Log Likelihoodmultipliseres med -2 — den såkalte -2LL-2LL tilsvarer SSE i OLS-basert <strong>regresjon</strong>. Det er altså et mål på feilterm/residualledd.En god modell er m.a.o. en modell med lav -2LL verdiI første iterasjon estimeres en -2LL for en modell uten variable. I eksempelet ovenforer denne startverdien beregnet til 3101.241.I de neste iterasjonene estimeres -2LL for den fulle modellen. Som vi ser er denbeste tilpasningen 2734.293 — med tilhørende konstantledd og koeffisienter forkjønn og utdanningReduksjonen i log likelihood er (3101.241 -2734.293) = 366.947Dette danner utgangspunkt for ulike tester av modellen


Pseudo R 2I tråd med OLS-basert <strong>regresjon</strong> virker følgende mål fra Hosmer & Lameshow intuitivtfornuftig:PseudoR2HL 2LL 1 2LLfull mod ellredusert mod ellFor den trivariate modellen får vi:2PseudoR HL 2734.293 1 3101.2411 .88 . 12Fortolkning av Pseudo R 2 : proporsjonal reduksjon i -2LL-statistikkenI SPSS fins to andre varianter av Pseudo R 2 :Model SummaryStep1-2 Log Cox & Snell Nagelkerkelikelihood R Square R Square2734,293 ,111 ,176Problemer med Pseudo R 2 : Kan ikke fortolkes som forklart varians


Likelihood Ratio testen 1 (LR-test)Iteration History a,b,c,dIterationStep 11 234a. Method: Enter-2 LogCoefficientslikelihood Constant KJONN UTDAAR2834,350 -1,177 -,806 ,1192739,661 -1,421 -1,330 ,1722734,327 -1,467 -1,518 ,1832734,293 -1,469 -1,536 ,184b. Constant is included in the model.c. Initial -2 Log Likelihood: 3101,241d. Estimation terminated at iteration number 4 becauselog-likelihood decreased by less than ,010 percent.Omnibus Tests of Model CoefficientsStep 1StepBlockModelChi-square df Sig.366,947 2 ,000366,947 2 ,000366,947 2 ,000Denne testen tester hele modellen opp mot en modell med ingen variableH 0 : ingen av variablene i modellen har effektTestobservator: (-2LL 0 ) – (-2LL 1 )~ X 2 -fordelt med df= antall variable i den fullemodellenTesten i SPSS-utskriften tester den trivariate analysen med kjønn og utdanning somuavhengige variable opp mot en modell med ingen variable.I modellen med ingen variable er -2LL = 3101.241I den trivariate analysen er -2LL = 2734.293Differansen er 366.947Df = 2 siden forskjellen på de to modellene er 2 variableKritisk verdi: 5.991Konklusjon: Modellen gir et signifikant forklaringsbidrag i forhold til en modell uten deto variablene


Likelihood Ratio testen 2 (LR-Test)Modell 1 (Block 1) Modell 2 (Block 2)Uavh variable: KjønnIteration History-2 Log CoefficientslikelihoodIteration Constant KJONNStep 1 1 2924,337 -,803 -,8822 2849,860 -,850 -1,4223 2846,124 -,851 -1,5934 2846,106 -,851 -1,606a Method: Enterb Constant is included in the model.c Initial -2 Log Likelihood: 3101,241d Estimation terminated at iteration number 4because log-likelihood decreased by less than,010 percent.Uavh. Variable: kjønn, utdanningIteration History-2 Log CoefficientslikelihoodIterationConstant KJONNUTDAARStep 1 12834,350 -1,177 -,806 ,11922739,661 -1,421 -1,330 ,17232734,327 -1,467 -1,518 ,18342734,293 -1,469 -1,536 ,184a Method: Enterb Constant is included in the model.c Initial -2 Log Likelihood: 2846,106d Estimation terminated at iteration number 4because log-likelihood decreased by less than,010 percent.Omnibus Tests of Model CoefficientsChisquaredf Sig.Step 1 Step 255,135 1 ,000Block 255,135 1 ,000Model 255,135 1 ,000Omnibus Tests of Model CoefficientsChisquaredf Sig.Step 1 Step 111,812 1 ,000Block 111,812 1 ,000Model 366,947 2 ,000Denne testen tester den trivariate modellen (kjønn, utdanning) opp mot den bivariatemodellen (bare kjønn som uavhengig variabel).H 0 : Den nye variabelen vi har inkludert representerer ingen forbedring i forhold til vårtidligere modell med færre variable.I modellen med kun én uavhengig variabel er -2LL = 2846.106I den trivariate analysen er -2LL = 2734.293Differansen er 111.812Df = 1 siden forskjellen på de to modellene er 1 variabelKritisk verdi: 3.84Konklusjon: Den fulle modellen gir et signifikant forklaringsbidrag i forhold til enmodell med bare én uavhengig


Hosmer & Lameshow Goodness of Fit TestTest fra den trivariate modellen:Hosmer and Lemeshow TestStep1Chi-square df Sig.7,855 6 ,249Step112345678Contingency Table for Hosmer and Lemeshow TestArbeidstidskategorier =,00 Normal (= 41)Observed Expected Observed Expected Total265 258,212 6 12,788 271482 485,121 32 28,879 514256 258,744 25 22,256 281298 297,855 44 44,145 342236 235,305 54 54,695 290266 277,311 88 76,689 354450 437,988 163 175,012 613246 248,451 205 202,549 451Selv om vi har fått signifikante resultater betyr ikke det at vi har en god modell. Enmodell kan treffe godt i noen områder av dataene og dårlig i andre deler. Framfor altforutsetter logistisk <strong>regresjon</strong> at sammenhengene mellom avhengig og uavhengigevariable kan beskrives med en logistisk s-kurve. Dette tilsvarer forutsetningen omlinearitet i OLS-<strong>regresjon</strong>.Hosmer & Lameshow-testen går ut på å undersøke akkurat dette: hvorvidt det er etakseptabelt eller for stort avvik mellom predikerte utfall og observerte verdier. Hvisavviket er for stort har vi en dårlig modell, dvs. en analyse som ikke oppfyller nevnteforutsetning.I tabellen ovenfor er materialet delt inn i 8 grupper. I hver av dem sammenliknesobserverte og predikerte utfall på avhengig variabel. Generelt ser vi at modellenpredikerer bedre for Y=0 enn Y=1. Likevel ser avvikene ut til å være beskjedne.H & L gir oss en kjikvadrattest på avvikene:H 0 : Avvikene mellom observerte og predikerte utfall skyldes tilfeldigheterH 1 : Det er et systematisk avvik mellom observerte og predikerte utfallI denne testen ønsker vi egentlig et ikke-signifikant resultat, for i så fall har vi støttefor modellen vår. Den aktuelle testen viser at gitt at H 0 er sann er det 24.9 % sjansefor å få et kjikvadrat på 7.855 eller høyere. H 0 kan m.a.o. ikke forkastes.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!