Logistisk regression 4.pdf
Logistisk regression 4.pdf
Logistisk regression 4.pdf
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Fordeling af intelligensprøveresultatNormalfordelt: 95 % konfidensområde 20,92 - 52,683
Den logistiske <strong>regression</strong>smodelP(Arbejdsløs | Intelligens) =e1 + eα+βxα+βxDvs.P(Arbejdsløs | Intelligens) =e1 + e−0.004 −0.024x−0.004 −0.024x4
Tolkning af modellenEt trin op ad intelligensskalaen:Risikoen på odds skalaen reduceres med faktoren 0.996Risikoen på logit skalaen reduceres med 0.004 point5
Sandsynlighed for arbejdsløshed som funktion af intelligensBemærk, at kurven krummer lidt6
Logit-værdi for arbejdsløshed som funktion af intelligensEn ret linie.Effekten af intelligens målt på logitskalaen er lineær.7
Er det en troværdig beskrivelse af effekten?Hvis effekten på logitskalaen er en kontinuert funktion, f(x), afintelligensen kan man altid skrive den som en potensrækkef(x) = α + β 1 x + β 2 x 2 + β 3 x 3 + … + β n x n + ….Den logistiske <strong>regression</strong>smodel antager, at β 2 = β 3 = β 4 = … = 0Det behøver naturligvis ikke at være rigtigt8
Kontrol af linearitet i logistiske <strong>regression</strong>smodellerBeregn nye variable, X 2 = X 2 , X 3 = X 3 , …, etc.,og inkluder dem i den logistiske <strong>regression</strong>smodelP(Arbejdsløs | Intelligens) =e1 + e2 31x 2x 3xα+β +β +β2 31x 2x 3xα+β +β +β9
AnalysenSignifikant effekt af både 2. og 3. gradsledetEffekten er altså ikke lineær10
Estimerede sandsynligheder11
Effekt målt på logitskalaen12
Modeller med interaktionerDet hierarkiske princip for interaktioner i<strong>regression</strong>smodellerHvis en model indeholder interaktionen mellem et vist antalvariable, skal den også indeholde interaktionsparametresvarende til hver delmængde af disse variable inklusiv parametrefor hovedvirkningen for disse variable.13
En model med interaktion mellem tre variable, A, Bog C skal indeholde følgende parametre:1) Trefaktor-interaktionerne, β abc .2) Samtlige tofaktor-interaktioner, β ab , β ac og β bc .3) Alle hovedvirkninger, β a , β b og β c .4) Konstantleddet, α.14
Et eksempel :Hvilke faktorer har betydning om man bliverarbejdsløs?Potentielle faktorer:1) K = Køn2) U = Uddannelse opdelt i fem kategorier,LVU, MVU, KVU, Erhvervsrettet,Restgruppen3) F = Familiesocialgruppe under opvækst4) O = Opvækstområde (urbanisering)opdelt i fire kategorier, København,Provinsby, Mindre by og Landkommune5) I = Intelligens målt i syvende klasse.15
5.010.015.020.025.030.035.040.045.050.055.060.0Antal rigtigeFordeling af intelligensprøveresultat i syvende klasse17
Valg og prioritering af variable.1) De primære variable er de uafhængige variable, som er afsærlig faglig interesse. Sammenhængene mellem de primærevariable og den afhængige variabel er de primære sammenhænge.2) De sekundære variable er variable, hvis eneste funktion erat optræde som kontrolvariable. Sammenhængene mellemden afhængige variabel og de sekundære variable omtalessom sekundære sammenhænge..18
Unødvendige kontrolvariableEn sekundær variabel, Z, er uden betydning som kontrolvariabeli en logistisk <strong>regression</strong>sanalyse, hvissamtlige parametre med reference til Z er lig med nulSådanne variable bør derfor ekskluderes.19
Overordnet analysestrategi1) Modellens primære struktur drejer sig om alt det, der hardirekte reference til de faglige problemer, der skal belyses.2) Modellens sekundære struktur er alt det ved modellen, derikke henviser til disse problemer. Den sekundære strukturkan på denne måde omfatte alt fra modelegenskaber, derkan motiveres ud fra den teoretiske referenceramme, overhelt åbne spørgsmål, til antagelser, der er motiveret af ønsketom at komme til at arbejde med enkle modeller, der idet mindste fungerer i praksis.20
To analysefaser:Indledende modelkonstruktionAnalyse af primære problemstillinger21
1) Indledende modelkonstruktion- Definition af startmodel. Startmodellen bør indeholde heleden primære modelstruktur og så meget af den sekundærestruktur, som det i praksis er muligt at arbejde med.- Modelsøgning. Trinvis søgning efter en model med en mereenkel sekundær struktur.- Modelkontrol. Kontrol af, at der ikke er åbenlyse tegn på atmodellen er udtryk for overforenkling.22
2) Analyse af primære problemstillinger.- Test af primære hypoteser. Bemærk, at disse test kan resulterei at nogle af de primære variable skal fjernes fra modellen.- Modelkontrol.- Estimation og tolkning af primære parametre. I praksis skerdette sammen med beregningerne af teststørrelserne for deprimære hypoteser. De har dog først interesse, hvis modelkontrollenhar vist, at der ikke ser ud til at være problemermed modellen.23
Modelnotation og model formler forhierarkiske modellerEn modelformel=en række additive model-led, der angiver,hvilke uafhængige variable, der indgår i modellen,og hvilke interaktioner, der er mellemeffekten af disse variable. Interaktioner angivessom ’produkter’ af variable ved hjælp afoperatoren ’*’.A+B*C=eP(Y=1|A=a,B=b,C=c) =1 +A+B+C=P(Y=1|A=a,B=b,C=c) =α + β a+ β b+ β c+β bcee1 +a b c bcα + β a+ β b+ β c+β bcea b c bcα + β a+ β b+β ca b cα + β a+ β b+β ca b c25
ModeluniversetModel Model Kommentarnr.1 A*B*C Trefaktor interaktion – den mest kompliceredemodel.2 A*B+A*C+B*CIngen trefaktor, men samtlige tofaktor interaktioner.3 A*B+A*C Ingen interaktion mellem B og C.4 A*B+B*C Ingen interaktion mellem A og C.5 A*C+B*C Ingen interaktion mellem A og B.6 A*B+C Alle variable har betydning. Kun interaktionmellem A og B.7 A*C+B Alle variable har betydning. Kun interaktionmellem A og C.8 A+B*C Alle variable har betydning. Kun interaktionmellem B og C.9 A*B C er uden betydning. Interaktion mellem A ogB.10 A*C B er uden betydning. Interaktion mellem A ogC.11 B*C A er uden betydning. Interaktion mellem B ogC.12 A+B+C Alle variable har betydning. Ingen interaktioner.13 A+B C er uden betydning. Ingen interaktion.14 A+C B er uden betydning. Ingen interaktion.15 B+C A er uden betydning. Ingen interaktion.16 A A er den eneste variabel, der har betydning.17 B ditto18 C ditto19 - Hverken A, B eller C har betydning.En model, M 0 , siges at være indlejret i en andenmodel, M 1 , hvis M 1 dels indeholder alle de parametre,som M 0 indeholder og dels indeholder nogleparametre, der ikke indgår i M 0 .26
Indlejringer af modeller i model-universetdefineret ved tre variable, A, B og C.Model nr. Model Indlejret * i1 A*B*C -2 A*B+A*C+B*C 13 A*B+A*C 1,24 A*B+B*C 1,25 A*C+B*C 1,26 A*B+C 1,2,3,47 A*C+B 1,2,3,58 A+B*C 1,2,4,59 A*B 1-4,610 A*C 1-3,5,711 B*C 1-2,4-5,812 A+B+C 1-5,6-813 A+B 1-8,9,1214 A+C 1-8,10,1215 B+C 1-8,11,1216 A 1-10,12,13,1417 B 1-9,11,12,13,1518 C 1-8,10-12,14,1519 - 1-15,16-1827
ModelsøgningMættetmodelStartmodelSandmodeltommodel28
A*B*CA*B+A*C+B*CA*B+A*C A*B+B*C A*C+B*CA*B+C A*C+B A+B*CA*B A*C B*CA+B+CA+B A+C B+CA B C-29
EliminationafFørste trin af modelsøgning med modellenK*U+K*F+K*O+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 2 +I 3som startmodelny model Χ 2 df pK*U K*F+K*O+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 2 +I 3 6.99 4 0.136K*F K*U+K*O+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 2 +I 3 1.30 4 0.862K*O K*U+K*F+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 2 +I 3 2.99 3 0.394K*I K*U+K*F+K*O+U*F+U*O+U*I+F*O+F*I+O*I+I 2 +I 3 0.96 1 0.324U*F K*U+K*F+K*O+K*I+U*O+U*I+F*O+F*I+O*I+I 2 +I 3 11.62 16 0.769U*O K*U+K*F+K*O+K*I+U*F+U*I+F*O+F*I+O*I+I 2 +I 3 11.87 12 0.456U*I K*U+K*F+K*O+K*I+U*F+U*O+F*O+F*I+O*I+I 2 +I 3 11.63 4 0.020F*O K*U+K*F+K*O+K*I+U*F+U*O+U*I+F*I+O*I+I 2 +I 3 19.27 12 0.082F*I K*U+K*F+K*O+K*I+U*F+U*O+U*I+F*O+O*I+I 2 +I 3 9.70 4 0.046O*I K*U+K*F+K*O+K*I+U*F+U*O+U*I+F*O+F*I+I 2 +I 3 1.80 3 0.616I 2 K*U+K*F+K*O+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 3 5.46 1 0.020I 3 K*U+K*F+K*O+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 2 5.70 1 0.01731
Andet trin af modelsøgning. Den aktuelle model erK*U+K*O+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 2 +I 3 .Eliminationny model LR df pafK*U K*O+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 2 +I 3 6.99 4 0.136K*O K*U+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 2 +I 3 3.30 3 0.349K*I K*U+K*O+U*F+U*O+U*I+F*O+F*I+O*I+I 2 +I 3 0.88 1 0.350U*F K*U+K*O+K*I+U*O+U*I+F*O+F*I+O*I+I 2 +I 3 11.97 16 0.746U*O K*U+K*O+K*I+U*F+U*I+F*O+F*I+O*I+I 2 +I 3 11.81 12 0.461U*I K*U+K*O+K*I+U*F+U*O+F*O+F*I+O*I+I 2 +I 3 11.39 4 0.023F*O K*U+K*O+K*I+U*F+U*O+U*I+F*I+O*I+I 2 +I 3 19.48 12 0.078F*I K*U+K*O+K*I+U*F+U*O+U*I+F*O+O*I+I 2 +I 3 9.68 4 0.046O*I K*U+K*O+K*I+U*F+U*O+U*I+F*O+F*I+I 2 +I 3 1.80 3 0.616I 2 K*U+K*O+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 3 5.48 1 0.019I 3 K*U+K*O+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 2 5.73 1 0.01732
Oversigt over interaktioner og hovedvirkninger, der blev elimineretfra modellen for arbejdsløshed blandt 32-årige.Trin model-led LR df p1 K*F 1.30 4 0.8622 F*U 11.97 16 0.7463 O*I 2.14 3 0.5444 U*O 10.31 12 0.5895 K*O 2.21 3 0.5306 K*I 1.89 1 0.1697 K*U 7.45 4 0.1148 F*O 18.88 12 0.0929 F*I 7.95 4 0.09410 F 3.37 4 0.498Slutmodellen: K+O+U*I+I 2 +I 333
Forløbet af modelsøgningenOversigt over beregnede signifikanssandsynlighederTrinLed 1 2 3 4 5 6 7 8 9 10 11 12K*U .136 .137 .112 .102 .102 .106 .114 *K*F .862 *K*O .394 .349 .389 .369 .530 *K*I .324 .350 .297 .255 .226 .169 *U*F .769 .746 *U*O .456 .461 .603 .589 *U*I .020 .023 .023 .016 .011 .013 .021 .020 .017 .029 .040 **F*O .082 .078 .093 .101 .083 .100 .084 .092 *F*I .046 .046 .028 .026 .028 .036 .039 .045 .094 *O*I .616 .616 .544 *I 2 .020 .019 .024 .031 .035 .036 .028 .032 .032 .021 .010 .022I 3 .017 .017 .019 .024 .027 .028 .020 .025 .026 .015 .008 .012O + .018 .021 .016 .012K + .000 .000 .000 .000 .000F + .498 *U .00034
Modelsøgningen slutter med en model, hvor1) effekten af intelligens ikke kan beskrives ved en logitlineærmodel,2) der optræder én interaktion – mellem uddannelse og intelligens,3) effekten af familiesocialgruppe helt er elimineret.35
Estimater af parametre i to modeller. β 1 , β 2og β 3 er parametrene for henholdsvis I (intelligens),I 2 og I 3modelinteraktion inkluderet interaktion ekskluderetparameter estimat stand.fejl estimat stand.fejlα -1.9411 1.9384 -3.3053 1.4103Kønβ mand 0 - 0 -β kvinde +0.4501 0.0955 +0.4662 0.0948Opv.områdeβ kbh 0 - 0 -β provinsby +0.3985 0.1319 +0.4070 0.1314β mindre by +0.2066 0.1891 +0.2098 0.1884β land +0.1536 0.1339 +0.1591 0.1331Uddannelseβ LVU 0 - 0 -β MVU -4.1301 1.5141 -0.5795 0.2265β KVU -3.9455 1.4500 -0.3142 0.2240β Erhv.udd -2.1715 1.3288 -0.0062 0.1964β restgruppe -0.9936 1.3769 +0.7562 0.2111Intelligensβ 1 +0.2542 0.1346 +0.2380 0.1255β 2 -0.0099 0.0039 -0.0083 0.0037β 3 0.0000981 0.0000372 +0.0000865 0.0000349InteraktionUdd*intel.β LVU,Int 0 - - -β MVU,int +0.0819 0.0346 - -β KVU,Int +0.0862 0.0338 - -β Erhv,Int +0.0484 0.0309 - -β Rest,Int +0.0361 0.0327 - -37
4,0Samlet effekt af uddannelse og intelligens3,53,02,52,01,5UddannelseRestgruppeErhvervsfagliguddannelseKVUMVU1,0102030405060LVUAntal rigtigeSamlet effekt af intelligens og uddannelse beregnetaf en model uden interaktion mellemde to variable.38
0,0Samlet effekt af uddannelse og intelligens-,5-1,0-1,5-2,0-2,5-3,0-3,5UddannelseRestgruppeErhvervsfagliguddannelseKVUMVU-4,0102030405060LVUAntal rigtigeSamlet effekt af intelligens og uddannelse beregnetaf en model med interaktion mellem de to variable.39