11.07.2015 Views

Analyse med uavhengige variabler på nominal- /ordinalnivå - SIFO

Analyse med uavhengige variabler på nominal- /ordinalnivå - SIFO

Analyse med uavhengige variabler på nominal- /ordinalnivå - SIFO

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Analyse</strong> <strong>med</strong> <strong>uavhengige</strong> <strong>variabler</strong> på <strong>nominal</strong>-/ordinalnivåHvordan bruke <strong>variabler</strong> på <strong>nominal</strong>nivå (eventuelt ordinalnivå) som har flereenn to verdier i en regresjonsanalyse?Svar: omkoder til dummy<strong>variabler</strong>Eks. Sosial status som har fem verdier:1arbeiderufaglært2arbeiderfaglærtOpprinnelig variabelsostatus3funksjonærlaveste4funksjonærmidd.5funksjonærhøyesteNye <strong>variabler</strong>:arb 1 0 0 0 0farb 0 1 0 0 0funklav 0 0 1 0 0funkmid 0 0 0 1 0funkhoy 0 0 0 0 1Vi kan imidlertid ikke ta <strong>med</strong> alle disse dummyvariablene i en regresjonsmodell fordi vi dafår perfekt kollinearitet.Vi må kutte ut en av variablene. Denne blir referansekategorien som estimatene på de andrevariablene tolkes i forhold til.Christian Poppe, <strong>SIFO</strong> 1


Eksempel:ValidMissingTotalUfaglært arbeiderFaglært arbeiderFunksjonærer lavtkompetansenivåFunksjonærer middelskomptansenivåFunksjonærer høytkomptansenivåTotalSystem MissingTotalSOSTATUSValid CumulativeFrequency Percent Percent Percent446 13,8 14,8 14,8368 11,4 12,2 26,9498 15,4 16,5 43,41223 37,8 40,5 83,9486 15,0 16,1 100,03021 93,3 100,0218 6,7218 6,73239 100,0RECODEsostatus(1=1) (SYSMIS=SYSMIS)(ELSE=0) INTO arb .RECODEsostatus(2=1) (SYSMIS=SYSMIS)(ELSE=0) INTO farb .RECODEsostatus(3=1) (SYSMIS=SYSMIS)(ELSE=0) INTO funklav.RECODEsostatus(4=1) (SYSMIS=SYSMIS) (ELSE=0) INTO funkmid.RECODEsostatus(5=1) (SYSMIS=SYSMIS) (ELSE=0) INTO funkhoy.EXECUTE.Christian Poppe, <strong>SIFO</strong> 2


Arbeidstid som funksjon av utdanning, kjønnog sosial statusModel1Variables Entered/Removed bVariables VariablesEntered Removed MethodFUNKHOY, KJONN,FARB,FUNKLAV,, EnterUTDAAR,FUNKMID aa. All requested variables entered.b. Dependent Variable: ARBTIDModel1Model SummaryStd. ErrorAdjusted of theR R Square R Square Estimate,490 a ,240 ,238 8,2205a. Predictors: (Constant), FUNKHOY, KJONN, FARB,FUNKLAV, UTDAAR, FUNKMIDModel1RegressionResidualTotalANOVA bSum ofMeanSquares df Square F Sig.62646,753 6 10441,125 154,507 ,000 a198609,1 2939 67,577261255,8 2945a. Predictors: (Constant), FUNKHOY, KJONN, FARB, FUNKLAV, UTDAAR, FUNKMIDb. Dependent Variable: ARBTIDModel1(Constant)UTDAARKJONNFARBFUNKLAVFUNKMIDFUNKHOYa. Dependent Variable: ARBTIDCoefficients aUnstandardizedCoefficientsStandardizedCoefficientsB Std. Error Beta t Sig.37,498 ,417 89,830 ,000,285 ,072 ,078 3,948 ,000-6,982 ,344 -,369 -20,318 ,000,965 ,592 ,034 1,631 ,103-1,794 ,575 -,071 -3,118 ,0023,038 ,497 ,158 6,116 ,0003,787 ,637 ,147 5,948 ,000Christian Poppe, <strong>SIFO</strong> 3


Regresjonsresultater: TabelloppsettTabell 1. Arbeidstidens lengde. Multippel regresjon. 19XX. Ustandardiserteregresjonskoeffisienter. 1Variabel Modell I Modell II Modell IIIUtdanning 2 0,85 *** 0,66 *** 0,29 ***Kjønn 3 - 7,92 *** - 6,98 ***Sosial status: 4Faglært arbeider 0,97Lav funksjonær -1,79 **Middels funksj. 3,04 ***Høyeste funksj. 3,79 ***Konstant 34,19 *** 38,37 *** 37,5 ***Justert R 2 ,06 ,21 ,24N 2946 2946 29461 Signifikanstester: * p < 0.05; ** p < 0.01; *** p < 0.001.2 Variabeldefinisjon.3 Variabeldefinisjon.4 Variabeldefinisjon.Christian Poppe, <strong>SIFO</strong> 4


«Firevariat» modell :Kjønn- 6,98ArbeidstidYrkesstatus0,29UtdanningChristian Poppe, <strong>SIFO</strong> 5


Hypotesetest ved hjelp av t-ratio (t-test)Testobservator:bB1tSEnk1b1Vi tar utgangspunkt i den store modellen (modell 3):H 0 : Effekten av utdanning er nullUnder H 0 er B = 0. Vi får derfor:b0b11tSEn k 1bSE 1b1Fra SPSS-utskriften ser vi at SE b1 = 0.072t 0 .285 3.9580.072Kritisk verdi for 5%-nivå: 1.961%-nivå: 2.580.1%-nivå: 3.29Dersom fordelingen i utvalget kommer fra en populasjon hvor det ikke er noen sammenhengmellom utdanning og arbeidstid, er det svært usannsynlig — faktisk mindre enn 1/1000 sjanse— for å få en t-verdi på 3.29 eller høyere. Vi har en observert t-verdi på 3.958. Følgeligforkaster vi H 0 . Det er mindre enn 1/1000 sjanse for å begå type-l-feil.Christian Poppe, <strong>SIFO</strong> 6


Hypotesetest ved hjelp av estimeringVi tester utdanningseffekten <strong>med</strong> utgangspunkt i den store modellen (modell 3):Her er b 1 = .285 og SE b1 = .07295%KIbb1.96(SE )1 1b1H 0 : Effekten av utdanning er nullDenne hypotesen kan testes på to måter:1. Konfidensintervall rundt null:95%KI b01.96(0.072)0.141Den observerte b 1 ligger ikke i dette intervallet. Vi forkaster H 02. Konfidensintervall rundt b 1 :0.285 + 1.96(0.072) = 0.4250.285 + 1.96(0.072) = 0.145Intervallet inneholder ikke null. Vi forkaster derfor H 0Vi får selvsagt samme konklusjon i begge testeneDessuten får vi - igjen like selvsagt –samme konklusjon som i t-testenChristian Poppe, <strong>SIFO</strong> 7


F-test: Test av en hel modellAnova-tabell (variansanalysetabell) i multippel regresjon:Kilde Kvadratsummer df Gj.sn. kv.sum Estimat på:Regresjon (SSR) 2SSR YˆYkSSRkForklart variansSSE Y ˆ YResidual (SSE) 2n-k-1SSEN k 1Uforklart varians:se2SST Y Yn-1Total (SST) 2SSTN 1Varians i YAnova-tabell for modell III:ANOVA bModel1RegressionResidualTotalSum ofMeanSquares df Square F Sig.62646,753 6 10441,125 154,507 ,000 a198609,1 2939 67,577261255,8 2945a. Predictors: (Constant), FUNKHOY, KJONN, FARB, FUNKLAV, UTDAAR, FUNKMIDb. Dependent Variable: ARBTIDFra statistisk teori vet vi at under H 0 — hvor regresjonsmodellen altså forklarer ingenting —gjelder følgende:SSRkSSEN k1F, df(k,N k1)N = ant. obs; k = antall <strong>uavhengige</strong> variableHvis vi fra en populasjon hvor H 0 gjelder trekker et representativt utvalg et meget stort antallganger, og hver gang gjennomfører en bestemt regresjonsanalyse hvor vi til slutt regner utforholdet mellom forklart og uforklart varians, får vi en tallrekke som er F-fordelt. Når N erstor vil gjennomsnittet i en slik fordeling være 1.Christian Poppe, <strong>SIFO</strong> 8


F-test for modell IIIH 0 : b 1 = b 2 = b 3 = b 4 = b 5 = b 6 = 0 H alt : Minst én koeffisient er ulik nullFra statistisk teori vet vi at:.. hvis H o er sann og ingenting er forklart vilSSR = SSEk N k 12=seSSR.. under H 0 er:kF, df (k,N k1)SSEN k1Vi får:62646,86198609,1294661154,5I vår analyse er df = 6, 2939Kritisk verdi for p

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!