11.07.2015 Views

Logistisk regression 4.pdf

Logistisk regression 4.pdf

Logistisk regression 4.pdf

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Fordeling af intelligensprøveresultatNormalfordelt: 95 % konfidensområde 20,92 - 52,683


Den logistiske <strong>regression</strong>smodelP(Arbejdsløs | Intelligens) =e1 + eα+βxα+βxDvs.P(Arbejdsløs | Intelligens) =e1 + e−0.004 −0.024x−0.004 −0.024x4


Tolkning af modellenEt trin op ad intelligensskalaen:Risikoen på odds skalaen reduceres med faktoren 0.996Risikoen på logit skalaen reduceres med 0.004 point5


Sandsynlighed for arbejdsløshed som funktion af intelligensBemærk, at kurven krummer lidt6


Logit-værdi for arbejdsløshed som funktion af intelligensEn ret linie.Effekten af intelligens målt på logitskalaen er lineær.7


Er det en troværdig beskrivelse af effekten?Hvis effekten på logitskalaen er en kontinuert funktion, f(x), afintelligensen kan man altid skrive den som en potensrækkef(x) = α + β 1 x + β 2 x 2 + β 3 x 3 + … + β n x n + ….Den logistiske <strong>regression</strong>smodel antager, at β 2 = β 3 = β 4 = … = 0Det behøver naturligvis ikke at være rigtigt8


Kontrol af linearitet i logistiske <strong>regression</strong>smodellerBeregn nye variable, X 2 = X 2 , X 3 = X 3 , …, etc.,og inkluder dem i den logistiske <strong>regression</strong>smodelP(Arbejdsløs | Intelligens) =e1 + e2 31x 2x 3xα+β +β +β2 31x 2x 3xα+β +β +β9


AnalysenSignifikant effekt af både 2. og 3. gradsledetEffekten er altså ikke lineær10


Estimerede sandsynligheder11


Effekt målt på logitskalaen12


Modeller med interaktionerDet hierarkiske princip for interaktioner i<strong>regression</strong>smodellerHvis en model indeholder interaktionen mellem et vist antalvariable, skal den også indeholde interaktionsparametresvarende til hver delmængde af disse variable inklusiv parametrefor hovedvirkningen for disse variable.13


En model med interaktion mellem tre variable, A, Bog C skal indeholde følgende parametre:1) Trefaktor-interaktionerne, β abc .2) Samtlige tofaktor-interaktioner, β ab , β ac og β bc .3) Alle hovedvirkninger, β a , β b og β c .4) Konstantleddet, α.14


Et eksempel :Hvilke faktorer har betydning om man bliverarbejdsløs?Potentielle faktorer:1) K = Køn2) U = Uddannelse opdelt i fem kategorier,LVU, MVU, KVU, Erhvervsrettet,Restgruppen3) F = Familiesocialgruppe under opvækst4) O = Opvækstområde (urbanisering)opdelt i fire kategorier, København,Provinsby, Mindre by og Landkommune5) I = Intelligens målt i syvende klasse.15


5.010.015.020.025.030.035.040.045.050.055.060.0Antal rigtigeFordeling af intelligensprøveresultat i syvende klasse17


Valg og prioritering af variable.1) De primære variable er de uafhængige variable, som er afsærlig faglig interesse. Sammenhængene mellem de primærevariable og den afhængige variabel er de primære sammenhænge.2) De sekundære variable er variable, hvis eneste funktion erat optræde som kontrolvariable. Sammenhængene mellemden afhængige variabel og de sekundære variable omtalessom sekundære sammenhænge..18


Unødvendige kontrolvariableEn sekundær variabel, Z, er uden betydning som kontrolvariabeli en logistisk <strong>regression</strong>sanalyse, hvissamtlige parametre med reference til Z er lig med nulSådanne variable bør derfor ekskluderes.19


Overordnet analysestrategi1) Modellens primære struktur drejer sig om alt det, der hardirekte reference til de faglige problemer, der skal belyses.2) Modellens sekundære struktur er alt det ved modellen, derikke henviser til disse problemer. Den sekundære strukturkan på denne måde omfatte alt fra modelegenskaber, derkan motiveres ud fra den teoretiske referenceramme, overhelt åbne spørgsmål, til antagelser, der er motiveret af ønsketom at komme til at arbejde med enkle modeller, der idet mindste fungerer i praksis.20


To analysefaser:Indledende modelkonstruktionAnalyse af primære problemstillinger21


1) Indledende modelkonstruktion- Definition af startmodel. Startmodellen bør indeholde heleden primære modelstruktur og så meget af den sekundærestruktur, som det i praksis er muligt at arbejde med.- Modelsøgning. Trinvis søgning efter en model med en mereenkel sekundær struktur.- Modelkontrol. Kontrol af, at der ikke er åbenlyse tegn på atmodellen er udtryk for overforenkling.22


2) Analyse af primære problemstillinger.- Test af primære hypoteser. Bemærk, at disse test kan resulterei at nogle af de primære variable skal fjernes fra modellen.- Modelkontrol.- Estimation og tolkning af primære parametre. I praksis skerdette sammen med beregningerne af teststørrelserne for deprimære hypoteser. De har dog først interesse, hvis modelkontrollenhar vist, at der ikke ser ud til at være problemermed modellen.23


Modelnotation og model formler forhierarkiske modellerEn modelformel=en række additive model-led, der angiver,hvilke uafhængige variable, der indgår i modellen,og hvilke interaktioner, der er mellemeffekten af disse variable. Interaktioner angivessom ’produkter’ af variable ved hjælp afoperatoren ’*’.A+B*C=eP(Y=1|A=a,B=b,C=c) =1 +A+B+C=P(Y=1|A=a,B=b,C=c) =α + β a+ β b+ β c+β bcee1 +a b c bcα + β a+ β b+ β c+β bcea b c bcα + β a+ β b+β ca b cα + β a+ β b+β ca b c25


ModeluniversetModel Model Kommentarnr.1 A*B*C Trefaktor interaktion – den mest kompliceredemodel.2 A*B+A*C+B*CIngen trefaktor, men samtlige tofaktor interaktioner.3 A*B+A*C Ingen interaktion mellem B og C.4 A*B+B*C Ingen interaktion mellem A og C.5 A*C+B*C Ingen interaktion mellem A og B.6 A*B+C Alle variable har betydning. Kun interaktionmellem A og B.7 A*C+B Alle variable har betydning. Kun interaktionmellem A og C.8 A+B*C Alle variable har betydning. Kun interaktionmellem B og C.9 A*B C er uden betydning. Interaktion mellem A ogB.10 A*C B er uden betydning. Interaktion mellem A ogC.11 B*C A er uden betydning. Interaktion mellem B ogC.12 A+B+C Alle variable har betydning. Ingen interaktioner.13 A+B C er uden betydning. Ingen interaktion.14 A+C B er uden betydning. Ingen interaktion.15 B+C A er uden betydning. Ingen interaktion.16 A A er den eneste variabel, der har betydning.17 B ditto18 C ditto19 - Hverken A, B eller C har betydning.En model, M 0 , siges at være indlejret i en andenmodel, M 1 , hvis M 1 dels indeholder alle de parametre,som M 0 indeholder og dels indeholder nogleparametre, der ikke indgår i M 0 .26


Indlejringer af modeller i model-universetdefineret ved tre variable, A, B og C.Model nr. Model Indlejret * i1 A*B*C -2 A*B+A*C+B*C 13 A*B+A*C 1,24 A*B+B*C 1,25 A*C+B*C 1,26 A*B+C 1,2,3,47 A*C+B 1,2,3,58 A+B*C 1,2,4,59 A*B 1-4,610 A*C 1-3,5,711 B*C 1-2,4-5,812 A+B+C 1-5,6-813 A+B 1-8,9,1214 A+C 1-8,10,1215 B+C 1-8,11,1216 A 1-10,12,13,1417 B 1-9,11,12,13,1518 C 1-8,10-12,14,1519 - 1-15,16-1827


ModelsøgningMættetmodelStartmodelSandmodeltommodel28


A*B*CA*B+A*C+B*CA*B+A*C A*B+B*C A*C+B*CA*B+C A*C+B A+B*CA*B A*C B*CA+B+CA+B A+C B+CA B C-29


EliminationafFørste trin af modelsøgning med modellenK*U+K*F+K*O+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 2 +I 3som startmodelny model Χ 2 df pK*U K*F+K*O+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 2 +I 3 6.99 4 0.136K*F K*U+K*O+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 2 +I 3 1.30 4 0.862K*O K*U+K*F+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 2 +I 3 2.99 3 0.394K*I K*U+K*F+K*O+U*F+U*O+U*I+F*O+F*I+O*I+I 2 +I 3 0.96 1 0.324U*F K*U+K*F+K*O+K*I+U*O+U*I+F*O+F*I+O*I+I 2 +I 3 11.62 16 0.769U*O K*U+K*F+K*O+K*I+U*F+U*I+F*O+F*I+O*I+I 2 +I 3 11.87 12 0.456U*I K*U+K*F+K*O+K*I+U*F+U*O+F*O+F*I+O*I+I 2 +I 3 11.63 4 0.020F*O K*U+K*F+K*O+K*I+U*F+U*O+U*I+F*I+O*I+I 2 +I 3 19.27 12 0.082F*I K*U+K*F+K*O+K*I+U*F+U*O+U*I+F*O+O*I+I 2 +I 3 9.70 4 0.046O*I K*U+K*F+K*O+K*I+U*F+U*O+U*I+F*O+F*I+I 2 +I 3 1.80 3 0.616I 2 K*U+K*F+K*O+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 3 5.46 1 0.020I 3 K*U+K*F+K*O+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 2 5.70 1 0.01731


Andet trin af modelsøgning. Den aktuelle model erK*U+K*O+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 2 +I 3 .Eliminationny model LR df pafK*U K*O+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 2 +I 3 6.99 4 0.136K*O K*U+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 2 +I 3 3.30 3 0.349K*I K*U+K*O+U*F+U*O+U*I+F*O+F*I+O*I+I 2 +I 3 0.88 1 0.350U*F K*U+K*O+K*I+U*O+U*I+F*O+F*I+O*I+I 2 +I 3 11.97 16 0.746U*O K*U+K*O+K*I+U*F+U*I+F*O+F*I+O*I+I 2 +I 3 11.81 12 0.461U*I K*U+K*O+K*I+U*F+U*O+F*O+F*I+O*I+I 2 +I 3 11.39 4 0.023F*O K*U+K*O+K*I+U*F+U*O+U*I+F*I+O*I+I 2 +I 3 19.48 12 0.078F*I K*U+K*O+K*I+U*F+U*O+U*I+F*O+O*I+I 2 +I 3 9.68 4 0.046O*I K*U+K*O+K*I+U*F+U*O+U*I+F*O+F*I+I 2 +I 3 1.80 3 0.616I 2 K*U+K*O+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 3 5.48 1 0.019I 3 K*U+K*O+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 2 5.73 1 0.01732


Oversigt over interaktioner og hovedvirkninger, der blev elimineretfra modellen for arbejdsløshed blandt 32-årige.Trin model-led LR df p1 K*F 1.30 4 0.8622 F*U 11.97 16 0.7463 O*I 2.14 3 0.5444 U*O 10.31 12 0.5895 K*O 2.21 3 0.5306 K*I 1.89 1 0.1697 K*U 7.45 4 0.1148 F*O 18.88 12 0.0929 F*I 7.95 4 0.09410 F 3.37 4 0.498Slutmodellen: K+O+U*I+I 2 +I 333


Forløbet af modelsøgningenOversigt over beregnede signifikanssandsynlighederTrinLed 1 2 3 4 5 6 7 8 9 10 11 12K*U .136 .137 .112 .102 .102 .106 .114 *K*F .862 *K*O .394 .349 .389 .369 .530 *K*I .324 .350 .297 .255 .226 .169 *U*F .769 .746 *U*O .456 .461 .603 .589 *U*I .020 .023 .023 .016 .011 .013 .021 .020 .017 .029 .040 **F*O .082 .078 .093 .101 .083 .100 .084 .092 *F*I .046 .046 .028 .026 .028 .036 .039 .045 .094 *O*I .616 .616 .544 *I 2 .020 .019 .024 .031 .035 .036 .028 .032 .032 .021 .010 .022I 3 .017 .017 .019 .024 .027 .028 .020 .025 .026 .015 .008 .012O + .018 .021 .016 .012K + .000 .000 .000 .000 .000F + .498 *U .00034


Modelsøgningen slutter med en model, hvor1) effekten af intelligens ikke kan beskrives ved en logitlineærmodel,2) der optræder én interaktion – mellem uddannelse og intelligens,3) effekten af familiesocialgruppe helt er elimineret.35


Estimater af parametre i to modeller. β 1 , β 2og β 3 er parametrene for henholdsvis I (intelligens),I 2 og I 3modelinteraktion inkluderet interaktion ekskluderetparameter estimat stand.fejl estimat stand.fejlα -1.9411 1.9384 -3.3053 1.4103Kønβ mand 0 - 0 -β kvinde +0.4501 0.0955 +0.4662 0.0948Opv.områdeβ kbh 0 - 0 -β provinsby +0.3985 0.1319 +0.4070 0.1314β mindre by +0.2066 0.1891 +0.2098 0.1884β land +0.1536 0.1339 +0.1591 0.1331Uddannelseβ LVU 0 - 0 -β MVU -4.1301 1.5141 -0.5795 0.2265β KVU -3.9455 1.4500 -0.3142 0.2240β Erhv.udd -2.1715 1.3288 -0.0062 0.1964β restgruppe -0.9936 1.3769 +0.7562 0.2111Intelligensβ 1 +0.2542 0.1346 +0.2380 0.1255β 2 -0.0099 0.0039 -0.0083 0.0037β 3 0.0000981 0.0000372 +0.0000865 0.0000349InteraktionUdd*intel.β LVU,Int 0 - - -β MVU,int +0.0819 0.0346 - -β KVU,Int +0.0862 0.0338 - -β Erhv,Int +0.0484 0.0309 - -β Rest,Int +0.0361 0.0327 - -37


4,0Samlet effekt af uddannelse og intelligens3,53,02,52,01,5UddannelseRestgruppeErhvervsfagliguddannelseKVUMVU1,0102030405060LVUAntal rigtigeSamlet effekt af intelligens og uddannelse beregnetaf en model uden interaktion mellemde to variable.38


0,0Samlet effekt af uddannelse og intelligens-,5-1,0-1,5-2,0-2,5-3,0-3,5UddannelseRestgruppeErhvervsfagliguddannelseKVUMVU-4,0102030405060LVUAntal rigtigeSamlet effekt af intelligens og uddannelse beregnetaf en model med interaktion mellem de to variable.39

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!