You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
<strong>Logistisk</strong> <strong>regresjon</strong> 2<br />
SPSS Utskrift: Trivariat <strong>regresjon</strong><br />
Variables in the Equation<br />
B S.E. Wald df Sig. Exp(B)<br />
Step KJONN -1,536 ,113 184,516 1 ,000 ,215<br />
1 a UTDAAR ,184 ,018 109,956 1 ,000 1,202<br />
Constant -1,469 ,083 315,117 1 ,000 ,230<br />
a. Variable(s) entered on step 1: KJONN, UTDAAR.<br />
Fortolkning av koeffisienter:<br />
Kvinner har mindre sannsynlighet enn menn til å jobbe mer enn 40 timer<br />
Utdanning er positivt relatert til arbeidstid, slik at sannsynligheten for å jobbe mer enn<br />
40 time pr uke øker med økende antall år med utdanning<br />
Fortolkning av oddsratio [exp (B)]:<br />
Kvinners sjanse (odds) for å jobbe mer enn 40 timer er 21.5 % av den tilsvarende<br />
oddsen for menn. Alternativt: Kvinners sjanse (odds) for å jobbe mer enn 40 timer er<br />
(1-.215)*100 = 78.5% lavere enn den tilsvarende oddsen for menn<br />
For hvert år med utdanning øker oddsen for å jobbe mer enn 40 timer med (oddsratio<br />
- 1)*100 = 20.2 %<br />
Alternativt: for hvert år med utdanning øker oddsen for høy arbeidstid med faktor<br />
1.202. Altså, oddsen på ethvert nivå av utdanning er 1.202 ganger så høy som den<br />
tilsvarende oddsen på nivået under. Vi har m.a.o. å gjøre med en multiplikativ,<br />
kurvelineær sammenheng mellom utdanning or arbeidstid å gjøre<br />
Sannsynligheter:<br />
Sannsynligheter i tilknytning til kontinuerlige variable kan ofte med fordel fremstilles<br />
grafisk
Grafisk framstilling 1<br />
I dialogboksen for logistisk <strong>regresjon</strong>: velg save Predicted Values Probabilities<br />
SPSS lagrer nå de sannsynlighetene som modellen predikerer som en egen variabel<br />
pre_1 eventuelt pre_n hvis man har lagret slike variable tidligere i SPSS.<br />
Denne kan nå plottes mot utdanning, og framstilles med kurver for menn og kvinner<br />
(Har modellen flere variable, eller ingen dummyvariable, blir det mer komplisert. I så<br />
fall må prediksjonene gjøres i regneark og fremstilles grafisk der)
Grafisk framstilling 2<br />
Velg Graph line Multiple:<br />
Velg pre_1 som Variable, kontinuerlig uavhengig variabel som Category Axis, og den<br />
dikotome uavhengige variabelen som Define Lines By. I vårt eksempel får vi denne<br />
grafen:<br />
,8<br />
,7<br />
,6<br />
,5<br />
Mean Predicted probability<br />
,4<br />
,3<br />
,2<br />
,1<br />
0,0<br />
,00<br />
1,00<br />
3,00<br />
5,00<br />
7,00<br />
9,00<br />
Kjønn<br />
Mann<br />
Kvinne<br />
12,00<br />
Utdanning i år utover grunnskolenivå
Signifikanstest av koeffisienter<br />
Variables in the Equation<br />
B S.E. Wald df Sig. Exp(B)<br />
Step KJONN -1,536 ,113 184,516 1 ,000 ,215<br />
1 a UTDAAR ,184 ,018 109,956 1 ,000 1,202<br />
Constant -1,469 ,083 315,117 1 ,000 ,230<br />
a. Variable(s) entered on step 1: KJONN, UTDAAR.<br />
Også i logistisk <strong>regresjon</strong> får vi estimert standardfeil til koeffisientene<br />
I logistisk <strong>regresjon</strong> er det korrekt å bruke z-verdier som kritiske verdier i<br />
hypotesetesting.<br />
z<br />
B<br />
SE b<br />
Testobservatoren er tilnærmet normalfordelt når utvalget er stort og effekten av<br />
variabelen i populasjonen er null slik som antatt under H 0<br />
WALD<br />
z<br />
2<br />
B<br />
SE b<br />
2<br />
Denne testobservatoren er X 2 -fordelt med df=1 når utvalget er stort og effekten av<br />
variabelen i populasjonen er null slik som antatt under H 0 . WALD er et alternativ til z<br />
ved to-halet hypotesetesting. Kritisk verdi er 3.84<br />
Tester basert på z og WALD gir samme konklusjon<br />
Ved små utvalg er ingen av disse testene pålitelige. Da har vi kun Likelihood Ratio<br />
testen å holde oss til
Modelltest: Log Likelihood<br />
Iteration History a,b,c,d<br />
Iteration<br />
Step 1<br />
1 2<br />
3<br />
4<br />
a. Method: Enter<br />
-2 Log<br />
Coefficients<br />
likelihood Constant KJONN UTDAAR<br />
2834,350 -1,177 -,806 ,119<br />
2739,661 -1,421 -1,330 ,172<br />
2734,327 -1,467 -1,518 ,183<br />
2734,293 -1,469 -1,536 ,184<br />
b. Constant is included in the model.<br />
c. Initial -2 Log Likelihood: 3101,241<br />
d. Estimation terminated at iteration number 4 because<br />
log-likelihood decreased by less than ,010 percent.<br />
I logistisk <strong>regresjon</strong> er estimeringsmetoden Maximum likelihood estimering av<br />
maksimal sannsynlighet. Gitt det settet av uavhengige variable vi velger ut til<br />
analysen, går beregningsmetoden ut på å finne de koeffisienter som gjør det mest<br />
sannsynlig å få de observerte y-veridiene 0 - 1. Dette skjer ved hjelp av en såkalt<br />
likelihood funksjon: gjennom prøving og feiling såkalt iterasjoner er målet å<br />
komme fram til de koeffisienter som maksimerer logaritmen til denne funksjonen: log<br />
likelihood. Av tekniske grunner opererer man med et mål hvor Log Likelihood<br />
multipliseres med -2 den såkalte -2LL<br />
-2LL tilsvarer SSE i OLS-basert <strong>regresjon</strong>. Det er altså et mål på feilterm/<br />
residualledd.<br />
En god modell er m.a.o. en modell med lav -2LL verdi<br />
I første iterasjon estimeres en -2LL for en modell uten variable. I eksempelet ovenfor<br />
er denne startverdien beregnet til 3101.241.<br />
I de neste iterasjonene estimeres -2LL for den fulle modellen. Som vi ser er den<br />
beste tilpasningen 2734.293 med tilhørende konstantledd og koeffisienter for<br />
kjønn og utdanning<br />
Reduksjonen i log likelihood er (3101.241 -2734.293) = 366.947<br />
Dette danner utgangspunkt for ulike tester av modellen
Pseudo R 2<br />
I tråd med OLS-basert <strong>regresjon</strong> virker følgende mål fra Hosmer & Lameshow intuitivt<br />
fornuftig:<br />
PseudoR<br />
2<br />
HL<br />
1<br />
2LL<br />
2LL<br />
full mod ell<br />
redusert mod ell<br />
For den trivariate modellen får vi:<br />
2<br />
PseudoR<br />
HL<br />
1<br />
2734.293<br />
3101.241<br />
1<br />
.88<br />
. 12<br />
Fortolkning av Pseudo R 2 : proporsjonal reduksjon i -2LL-statistikken<br />
I SPSS fins to andre varianter av Pseudo R 2 :<br />
Model Summary<br />
Step<br />
1<br />
-2 Log Cox & Snell Nagelkerke<br />
likelihood R Square R Square<br />
2734,293 ,111 ,176<br />
Problemer med Pseudo R 2 :<br />
Kan ikke fortolkes som forklart varians
Likelihood Ratio testen 1 (LR-test)<br />
Iteration History a,b,c,d<br />
Iteration<br />
Step 1<br />
1 2<br />
3<br />
4<br />
a. Method: Enter<br />
-2 Log<br />
Coefficients<br />
likelihood Constant KJONN UTDAAR<br />
2834,350 -1,177 -,806 ,119<br />
2739,661 -1,421 -1,330 ,172<br />
2734,327 -1,467 -1,518 ,183<br />
2734,293 -1,469 -1,536 ,184<br />
b. Constant is included in the model.<br />
c. Initial -2 Log Likelihood: 3101,241<br />
d. Estimation terminated at iteration number 4 because<br />
log-likelihood decreased by less than ,010 percent.<br />
Omnibus Tests of Model Coefficients<br />
Step 1<br />
Step<br />
Block<br />
Model<br />
Chi-square df Sig.<br />
366,947 2 ,000<br />
366,947 2 ,000<br />
366,947 2 ,000<br />
Denne testen tester hele modellen opp mot en modell med ingen variable<br />
H 0 : ingen av variablene i modellen har effekt<br />
Testobservator: (-2LL 0 ) (-2LL 1 ) ~ X 2 -fordelt med df= antall variable i den fulle<br />
modellen<br />
Testen i SPSS-utskriften tester den trivariate analysen med kjønn og utdanning som<br />
uavhengige variable opp mot en modell med ingen variable.<br />
I modellen med ingen variable er -2LL = 3101.241<br />
I den trivariate analysen er -2LL = 2734.293<br />
Differansen er 366.947<br />
Df = 2 siden forskjellen på de to modellene er 2 variable<br />
Kritisk verdi: 5.991<br />
Konklusjon: Modellen gir et signifikant forklaringsbidrag i forhold til en modell uten de<br />
to variablene
Likelihood Ratio testen 2 (LR-Test)<br />
Modell 1 (Block 1) Modell 2 (Block 2)<br />
Uavh variable: Kjønn<br />
Iteration History<br />
-2 Log Coefficients<br />
likelihood<br />
Iteration Constant KJONN<br />
Step 1 1 2924,337 -,803 -,882<br />
2 2849,860 -,850 -1,422<br />
3 2846,124 -,851 -1,593<br />
4 2846,106 -,851 -1,606<br />
a Method: Enter<br />
b Constant is included in the model.<br />
c Initial -2 Log Likelihood: 3101,241<br />
d Estimation terminated at iteration number 4<br />
because log-likelihood decreased by less than<br />
,010 percent.<br />
Uavh. Variable: kjønn, utdanning<br />
Iteration History<br />
-2 Log Coefficients<br />
likelihood<br />
Iteration<br />
Constant KJONNUTDAAR<br />
Step 1 12834,350 -1,177 -,806 ,119<br />
22739,661 -1,421 -1,330 ,172<br />
32734,327 -1,467 -1,518 ,183<br />
42734,293 -1,469 -1,536 ,184<br />
a Method: Enter<br />
b Constant is included in the model.<br />
c Initial -2 Log Likelihood: 2846,106<br />
d Estimation terminated at iteration number 4<br />
because log-likelihood decreased by less than<br />
,010 percent.<br />
Omnibus Tests of Model Coefficients<br />
Chisquare<br />
df Sig.<br />
Step 1 Step 255,135 1 ,000<br />
Block 255,135 1 ,000<br />
Model 255,135 1 ,000<br />
Omnibus Tests of Model Coefficients<br />
Chisquare<br />
df Sig.<br />
Step 1 Step 111,812 1 ,000<br />
Block 111,812 1 ,000<br />
Model 366,947 2 ,000<br />
Denne testen tester den trivariate modellen (kjønn, utdanning) opp mot den bivariate<br />
modellen (bare kjønn som uavhengig variabel).<br />
H 0 : Den nye variabelen vi har inkludert representerer ingen forbedring i forhold til vår<br />
tidligere modell med færre variable.<br />
I modellen med kun én uavhengig variabel er -2LL = 2846.106<br />
I den trivariate analysen er -2LL = 2734.293<br />
Differansen er 111.812<br />
Df = 1 siden forskjellen på de to modellene er 1 variabel<br />
Kritisk verdi: 3.84<br />
Konklusjon: Den fulle modellen gir et signifikant forklaringsbidrag i forhold til en<br />
modell med bare én uavhengig
Hosmer & Lameshow Goodness of Fit Test<br />
Test fra den trivariate modellen:<br />
Hosmer and Lemeshow Test<br />
Step<br />
1<br />
Chi-square df Sig.<br />
7,855 6 ,249<br />
Step<br />
1<br />
1<br />
2<br />
3<br />
4<br />
5<br />
6<br />
7<br />
8<br />
Contingency Table for Hosmer and Lemeshow Test<br />
Arbeidstidskategorier =<br />
,00 Normal (= 41)<br />
Observed Expected Observed Expected Total<br />
265 258,212 6 12,788 271<br />
482 485,121 32 28,879 514<br />
256 258,744 25 22,256 281<br />
298 297,855 44 44,145 342<br />
236 235,305 54 54,695 290<br />
266 277,311 88 76,689 354<br />
450 437,988 163 175,012 613<br />
246 248,451 205 202,549 451<br />
Selv om vi har fått signifikante resultater betyr ikke det at vi har en god modell. En<br />
modell kan treffe godt i noen områder av dataene og dårlig i andre deler. Framfor alt<br />
forutsetter logistisk <strong>regresjon</strong> at sammenhengene mellom avhengig og uavhengige<br />
variable kan beskrives med en logistisk s-kurve. Dette tilsvarer forutsetningen om<br />
linearitet i OLS-<strong>regresjon</strong>.<br />
Hosmer & Lameshow-testen går ut på å undersøke akkurat dette: hvorvidt det er et<br />
akseptabelt eller for stort avvik mellom predikerte utfall og observerte verdier. Hvis<br />
avviket er for stort har vi en dårlig modell, dvs. en analyse som ikke oppfyller nevnte<br />
forutsetning.<br />
I tabellen ovenfor er materialet delt inn i 8 grupper. I hver av dem sammenliknes<br />
observerte og predikerte utfall på avhengig variabel. Generelt ser vi at modellen<br />
predikerer bedre for Y=0 enn Y=1. Likevel ser avvikene ut til å være beskjedne.<br />
H & L gir oss en kjikvadrattest på avvikene:<br />
H 0 : Avvikene mellom observerte og predikerte utfall skyldes tilfeldigheter<br />
H 1 : Det er et systematisk avvik mellom observerte og predikerte utfall<br />
I denne testen ønsker vi egentlig et ikke-signifikant resultat, for i så fall har vi støtte<br />
for modellen vår. Den aktuelle testen viser at gitt at H 0 er sann er det 24.9 % sjanse<br />
for å få et kjikvadrat på 7.855 eller høyere. H 0 kan m.a.o. ikke forkastes.
This document was created with Win2PDF available at http://www.daneprairie.com.<br />
The unregistered version of Win2PDF is for evaluation or non-commercial use only.