07.08.2013 Views

Logistisk Regression Kapitel 15

Logistisk Regression Kapitel 15

Logistisk Regression Kapitel 15

SHOW MORE
SHOW LESS

Transform your PDFs into Flipbooks and boost your revenue!

Leverage SEO-optimized Flipbooks, powerful backlinks, and multimedia content to professionally showcase your products and significantly increase your reach.

<strong>Logistisk</strong> <strong>Regression</strong><br />

<strong>Kapitel</strong> <strong>15</strong><br />

Slides: http://www.socsci.aau.dk/~sgb<br />

1


Denne lektion og næste lektion<br />

Denne gang:<br />

Repetition af regression<br />

Simpel logistisk regression – herunder<br />

kvantitativ og binær forklarende variabel.<br />

Næste gang:<br />

Multipel logistisk regression<br />

Multinominal regression<br />

<strong>Logistisk</strong> regression for ordinal respons<br />

2


<strong>Logistisk</strong>e modeller<br />

<strong>Logistisk</strong> Model<br />

Respons variabel<br />

Simpel Binær (dikotom)<br />

nominal skaleret<br />

Multipel Binær(dikotom) nominal<br />

skaleret<br />

’Forklarende’ variabel ’Forklarende’ variable<br />

Interval skaleret<br />

Nominal<br />

Interval og /eller<br />

nominalskaleret<br />

Multinominal Nominal skaleret Interval og /eller<br />

nominalskaleret<br />

(Kumulativ) Ordinal skaleret Interval og /eller<br />

nominalskaleret<br />

3


Denne gang<br />

Repetition af lineær regression<br />

Den lineære sandsynlighedsmodel<br />

<strong>Logistisk</strong> regression<br />

Kontinuert afhængig variabel<br />

Binær afhængig variabel<br />

Fortolkning af parametre<br />

Estimation<br />

Test<br />

4


Repetition af simpel regression<br />

Den forventede værdi af Y,<br />

E(Y), er en lineær funktion af X:<br />

E(Y) = α + βX<br />

Hvis β >0, er forholdet mellem<br />

X og Y positivt, dvs., når X<br />

stiger, så stiger Y også.<br />

Hvis β < 0, er forholdet mellem<br />

X og Y negativt, dvs., når X<br />

stiger, så falder Y.<br />

Hvis β =0, er der ikke noget<br />

lineært forhold mellem X og Y.<br />

5


Binære respons variable<br />

For eksempel:<br />

Misbrug (ja=0, nej=1), med forklarende variable<br />

uddannelseslængde, andre i familien med misbrug, køn,<br />

traumatisk hændelse osv.<br />

Lykkefølelse (ja=1, nej=0), med forklarende variable<br />

civilstatus, antal børn, indkomst, helbred, misbrug osv.<br />

Tro på Gud (ja=1, nej=0), med forklarende variable køn,<br />

alder, antal børn osv.<br />

6


7<br />

Den lineære sandsynlighedsmodel<br />

1.<br />

end<br />

større<br />

og<br />

0<br />

end<br />

mindre<br />

heder<br />

sandsynlig<br />

give<br />

Kan<br />

ens.<br />

er<br />

ikke<br />

rne<br />

varianse<br />

og<br />

elt<br />

normalford<br />

er<br />

ikke<br />

y<br />

da<br />

model,<br />

s<br />

regression<br />

lineær<br />

for<br />

elserne<br />

modelantag<br />

ikke<br />

Opfylder<br />

model:<br />

denne<br />

med<br />

problemer<br />

del<br />

en<br />

er<br />

Der<br />

:<br />

som<br />

givet<br />

er<br />

model<br />

heds<br />

sandsynlig<br />

lineære<br />

Den<br />

succes.<br />

for<br />

heden<br />

sandsynlig<br />

også<br />

således<br />

er<br />

er.<br />

succes'<br />

af<br />

andelen<br />

være<br />

E(y)<br />

Lad<br />

1.<br />

og<br />

0<br />

er<br />

antage,<br />

kan<br />

y<br />

værdier<br />

De<br />

•<br />

•<br />

=<br />

=<br />

+<br />

=<br />

∑<br />

x<br />

n<br />

y<br />

β<br />

α<br />

π<br />

π<br />

π


Eksempel: Tro på Gud - ud fra alder<br />

Unstandardized<br />

Coefficients<br />

Coefficients a<br />

Standardized<br />

Coefficients<br />

Model<br />

B Std. Error Beta<br />

t Sig.<br />

1 (Constant)<br />

,413 ,042 9,805 ,000<br />

beregnetalder<br />

udfra fødselsår<br />

,006 ,001 ,225 7,005 ,000<br />

a.<br />

Dependent Variable: TroPåGud<br />

8


9<br />

<strong>Logistisk</strong> regressions model<br />

(Y binær, X kontinuert)<br />

( )<br />

( )<br />

( )<br />

fiasko.<br />

for<br />

heden<br />

sandsynlig<br />

til<br />

forhold<br />

i<br />

succes<br />

for<br />

heden<br />

sandsynlig<br />

altså<br />

,<br />

)<br />

0<br />

(<br />

)<br />

1<br />

(<br />

)<br />

1<br />

(<br />

1<br />

)<br />

1<br />

(<br />

1<br />

:<br />

Bemærk<br />

r).<br />

lommeregne<br />

jeres<br />

på<br />

(ln<br />

logaritme<br />

naturlige<br />

den<br />

er<br />

log<br />

og<br />

ene<br />

odds'<br />

er<br />

1<br />

hvor<br />

,<br />

1<br />

log<br />

)<br />

(<br />

log<br />

:<br />

model<br />

s<br />

regression<br />

logistiske<br />

den<br />

på<br />

ser vi<br />

stedet<br />

I<br />

=<br />

=<br />

=<br />

=<br />

−<br />

=<br />

=<br />

−<br />

−<br />

⋅<br />

+<br />

=<br />

⎟<br />

⎠<br />

⎞<br />

⎜<br />

⎝<br />

⎛<br />

−<br />

=<br />

y<br />

P<br />

y<br />

P<br />

y<br />

P<br />

y<br />

P<br />

x<br />

it<br />

π<br />

π<br />

π<br />

π<br />

β<br />

α<br />

π<br />

π<br />

π


Tro på Gud – ud fra alder<br />

Estimatet for β<br />

Variables in the Equation<br />

Step<br />

1<br />

bald<br />

Constant<br />

,031<br />

-,562<br />

,005<br />

,209<br />

44,526<br />

7,242<br />

1<br />

1<br />

,000<br />

,007<br />

1,031<br />

,570<br />

a<br />

B S.E. Wald df Sig. Exp(B)<br />

a. Variable(s) entered on step 1: bald.<br />

Estimatet for α<br />

12


Predekterede sandsynligheder<br />

13


”Hele kurven” se også side 577 i bogen<br />

Sandsynlighed for Ja i pct.<br />

100<br />

90<br />

80<br />

70<br />

60<br />

50<br />

40<br />

30<br />

20<br />

10<br />

0<br />

0 1 2 3 4 5 6 7 8 9 10<br />

Uafhængig variabel<br />

14


Logit, odds og sandsynlighed<br />

Bemærk det er logit funktionen der har den lineære additive struktur – som er<br />

nem at fortolke for stigningen på en enhed:<br />

⎛ π ⎞<br />

log it( π ) = log⎜<br />

⎟ = α + β ⋅ x<br />

⎝ ( 1 − π ) ⎠<br />

Selve odds’en har en multiplikativ struktur, der også er nem at fortolke for<br />

stigningen på en enhed:<br />

Odds =<br />

π<br />

( 1 − π )<br />

= exp<br />

( ) ( ) x<br />

a β⋅x<br />

a β<br />

α + β ⋅ x = e . e = e . e<br />

selve sandsynligheden er derimod ikke så let at fortolke mht., til ændringen på<br />

en enhed:<br />

Odds exp<br />

π = =<br />

1+<br />

Odds 1+<br />

exp<br />

( α + β ⋅ x)<br />

( α + β ⋅ x)<br />

<strong>15</strong>


Fortolkning af parametre<br />

Variables in the Equation<br />

Step<br />

1<br />

bald<br />

Constant<br />

,031<br />

-,562<br />

,005<br />

,209<br />

44,526<br />

7,242<br />

1<br />

1<br />

,000<br />

,007<br />

1,031<br />

,570<br />

a<br />

B S.E. Wald df Sig. Exp(B)<br />

a.<br />

Variable(s) entered on step 1: bald.<br />

Når alderen stiger med 1 år, så:<br />

• stiger logit(π) med 0,031<br />

• odds’ene bliver 1,031 gange større<br />

• stigningen i sandsynligheden ikke umiddelbart så nem<br />

at angive, men kan selvfølgelig beregnes for givet x<br />

16


Hvilke værdier antager de<br />

•π<br />

antager værdier<br />

mellem 0 og1<br />

• odds<br />

• logit<br />

antager værdier<br />

antager værdier<br />

• For π = ½, er odds<br />

lig<br />

mellem 0 og ∞<br />

mellem - ∞<br />

med1<br />

og<br />

•π<br />

- værdier over ½ har positive logits<br />

•π<br />

- værdier under ½ har negative logits<br />

• For β > 0 stiger π når x stiger<br />

• For β < 0 falder π når x stiger<br />

og<br />

logit<br />

∞<br />

lig<br />

med<br />

0<br />

17


Maksimum Likelihood Estimation (MLE)<br />

Parametrene i logistisk regression bestemmes vha.<br />

Maksimum Likelihood Estimation (MLE).<br />

Ved denne estimations teknik estimeres parametrene til<br />

de værdier, der passer bedst med de observerede data.<br />

Dvs. sandsynligheden for parameterværdierne givet de<br />

observerede data, er størst mulig.<br />

Til dette bruges likelihood funktionen, som giver<br />

sandsynligheden for parametrene givet data og det er<br />

altså denne likelihood funktion, der maksimeres – deraf<br />

navnet ;-)<br />

18


19<br />

Test – Wald teststørrelsen<br />

smodel.<br />

regression<br />

lineære<br />

den<br />

i<br />

testet<br />

-<br />

t<br />

svarer til<br />

Testet<br />

d.<br />

frihedsgra<br />

1<br />

med<br />

fordelt<br />

elsen<br />

teststørr<br />

er<br />

H<br />

Under<br />

estimatet.<br />

på<br />

n<br />

spredninge<br />

og<br />

estimatet<br />

mellem<br />

forhold<br />

kvadrerede<br />

det<br />

altså<br />

,<br />

ˆ<br />

elsen<br />

teststørr<br />

ved<br />

0<br />

:<br />

H<br />

0<br />

:<br />

H<br />

hypotesen<br />

testes<br />

,<br />

)<br />

logit(<br />

modellen<br />

I<br />

2<br />

0<br />

2<br />

a<br />

0<br />

−<br />

⎟<br />

⎟<br />

⎠<br />

⎞<br />

⎜<br />

⎜<br />

⎝<br />

⎛<br />

=<br />

≠<br />

=<br />

+<br />

=<br />

χ<br />

σ<br />

β<br />

β<br />

β<br />

α<br />

π<br />

Wald<br />

b<br />

Wald<br />

x<br />

b


20<br />

Test – Likelihood-ratio test<br />

d.<br />

frihedsgra<br />

1<br />

med<br />

fordelt<br />

er<br />

H<br />

under<br />

der<br />

log<br />

2<br />

log<br />

2<br />

log<br />

2<br />

:<br />

som<br />

givet<br />

er<br />

elsen<br />

teststørr<br />

Selve<br />

0.<br />

når<br />

altså<br />

hypotese,<br />

e<br />

alternativ<br />

den<br />

under<br />

data<br />

for<br />

heden<br />

sandsynlig<br />

angiver<br />

L<br />

og<br />

0,<br />

når<br />

altså<br />

hypotesen,<br />

nul<br />

under<br />

data<br />

for<br />

heden<br />

sandsynlig<br />

angiver<br />

L<br />

hypotese.<br />

e<br />

alternativ<br />

den<br />

under<br />

modellen<br />

og<br />

en<br />

nulhypotes<br />

under<br />

modellen<br />

nemlig<br />

modeller,<br />

er to<br />

sammenlign<br />

test<br />

Denne<br />

2<br />

0<br />

1<br />

0<br />

0<br />

1<br />

1<br />

0<br />

−<br />

⎟<br />

⎟<br />

⎠<br />

⎞<br />

⎜<br />

⎜<br />

⎝<br />

⎛<br />

−<br />

=<br />

−<br />

≠<br />

=<br />

χ<br />

β<br />

β<br />

L<br />

L<br />

L<br />

L


Test i eksemplet<br />

Step 1<br />

Omnibus Tests of Model Coefficients<br />

Step<br />

Block<br />

Model<br />

Chi-square df Sig.<br />

49,208 1 ,000<br />

49,208 1 ,000<br />

49,208 1 ,000<br />

Likelihood-ratio teststørrelsen<br />

Variables in the Equation<br />

Step<br />

1<br />

bald<br />

Constant<br />

,031<br />

-,562<br />

,005<br />

,209<br />

44,526<br />

7,242<br />

1<br />

1<br />

,000<br />

,007<br />

1,031<br />

,570<br />

a<br />

B S.E. Wald df Sig. Exp(B)<br />

a. Variable(s) entered on step 1: bald.<br />

Wald test-størrelserne<br />

p-værdien<br />

p-værdierne<br />

21


Relation til kontingenstabeller<br />

(Y binær, X binær)<br />

Hvad nu hvis x er en<br />

kvalitativ variabel?<br />

Så svarer den logistiske<br />

regression til analysen<br />

i kontingenstabeller.<br />

Køn<br />

Total<br />

Pearson Chi-Square<br />

Mand<br />

Kvinde<br />

Continuity Correction a<br />

Likelihood Ratio<br />

Fisher's Exact Test<br />

Linear-by-Linear<br />

Association<br />

Køn * Tror på - Gud Crosstabulation<br />

Count<br />

% within Køn<br />

Count<br />

% within Køn<br />

Count<br />

% within Køn<br />

Chi-Square Tests<br />

Tror på - Gud<br />

27,707b Value df<br />

Asymp. Sig.<br />

(2-sided)<br />

1 ,000<br />

26,963 1 ,000<br />

27,889 1 ,000<br />

27,677 1 ,000<br />

Ja Nej Total<br />

274 177 451<br />

60,8% 39,2% 100,0%<br />

361 109 470<br />

76,8% 23,2% 100,0%<br />

635 286 921<br />

68,9% 31,1% 100,0%<br />

Exact Sig.<br />

(2-sided)<br />

,000 ,000<br />

N of Valid Cases<br />

921<br />

a. Computed only for a 2x2 table<br />

b. 0 cells (,0%) have expected count less than 5. The minimum expected count is<br />

140,05.<br />

Exact Sig.<br />

(1-sided)<br />

22


SPSS<br />

23


Relation til kontingenstabeller<br />

Variables in the Equation<br />

Step<br />

1<br />

Køn(1)<br />

Constant<br />

-,761<br />

1,198<br />

,146<br />

,109<br />

27,229<br />

120,063<br />

1<br />

1<br />

,000<br />

,000<br />

,467<br />

3,312<br />

a<br />

B S.E. Wald df Sig. Exp(B)<br />

a. Variable(s) entered on step 1: Køn.<br />

logit( ˆ π ) = ˆ α + ˆ βx<br />

= 1,<br />

198 − 0,<br />

761x<br />

Udtrykt i odds :<br />

ˆ π<br />

=<br />

1-<br />

ˆ π<br />

ˆ α ˆ βx<br />

x<br />

e e = 3,<br />

312×<br />

0,<br />

467<br />

24


Logit’s<br />

logit for at tro på Gud, når man er mand :<br />

logit( ˆ π ) =<br />

1,<br />

198<br />

logit for at tro på Gud, når man er kvinde :<br />

logit( ˆ π ) =<br />

1,<br />

198<br />

Variables in the Equation<br />

Step<br />

1<br />

Køn(1)<br />

Constant<br />

-,761<br />

1,198<br />

,146<br />

,109<br />

27,229<br />

120,063<br />

1<br />

1<br />

,000<br />

,000<br />

,467<br />

3,312<br />

a<br />

B S.E. Wald df Sig. Exp(B)<br />

a.<br />

Variable(s) entered on step 1: Køn.<br />

− 0,<br />

761×<br />

1 =<br />

− 0,<br />

761×<br />

0 =<br />

0,<br />

437<br />

1,<br />

198<br />

Køn<br />

Dependent Variable Encoding<br />

Original Value<br />

Nej<br />

Ja<br />

Internal Value<br />

0<br />

Categorical Variables Codings<br />

Mand<br />

Kvinde<br />

Frequency (1)<br />

451 1,000<br />

1<br />

Parameter<br />

coding<br />

470 ,000<br />

25


Odds’ene<br />

Udtrykt i odds :<br />

ˆ π<br />

=<br />

1-<br />

ˆ π<br />

Køn<br />

Dependent Variable Encoding<br />

Original Value<br />

Nej<br />

Ja<br />

ˆ α ˆ βx<br />

x<br />

e e = 3,<br />

312×<br />

0,<br />

467<br />

Categorical Variables Codings<br />

Mand<br />

Kvinde<br />

Internal Value<br />

0<br />

Parameter<br />

coding<br />

Frequency (1)<br />

451 1,000<br />

1<br />

470 ,000<br />

”Kvinde” er her ”referencekategorien”.<br />

Meget mere om<br />

det næste gang!!<br />

Odds for at tro på Gud, når man er mand :<br />

ˆ π<br />

1<br />

= 3,<br />

312×<br />

0,<br />

467 = 1,<br />

546<br />

1-<br />

ˆ π<br />

Odds for at tro på Gud, når man er kvinde :<br />

ˆ π<br />

=<br />

1-<br />

ˆ π<br />

3,<br />

312<br />

Oddsratio :<br />

×<br />

Odds mand<br />

=<br />

Odds kvinde<br />

Dvs. odds'ene<br />

0,<br />

467<br />

1,546<br />

3,312<br />

gange så stor som odds'ene<br />

Gud, når man er kvinde.<br />

0<br />

=<br />

=<br />

3,<br />

312<br />

0,<br />

467<br />

= e<br />

for at tro på Gud er 0,467<br />

β<br />

for at tro på<br />

26


ˆ α<br />

e<br />

ˆ π =<br />

1+<br />

e<br />

ˆ α<br />

e<br />

ˆ π =<br />

1+<br />

e<br />

1-<br />

ˆ π = 1−<br />

Sandsynlighederne<br />

Sandsynligheden<br />

for at tro på Gud, når man er mand :<br />

+ ˆ βx<br />

ˆ α + ˆ βx<br />

Sandsynligheden<br />

for ikke at tro på Gud, når man er mand :<br />

1-<br />

ˆ π = 1-<br />

0,608 =<br />

Sandsynligheden<br />

for at tro på Gud, når man er kvinde :<br />

+ ˆ βx<br />

ˆ α + ˆ βx<br />

=<br />

Sandsynligheden<br />

for ikke at tro på Gud, når man er kvinde :<br />

0,<br />

768<br />

1,<br />

546<br />

1+<br />

1,<br />

546<br />

0,<br />

392<br />

3,<br />

321<br />

= =<br />

1+<br />

3,<br />

312<br />

=<br />

0,<br />

232<br />

=<br />

0,<br />

608<br />

0,<br />

768<br />

Køn<br />

Total<br />

Mand<br />

Kvinde<br />

Køn * Tror på - Gud Crosstabulation<br />

Count<br />

% within Køn<br />

Count<br />

% within Køn<br />

Count<br />

% within Køn<br />

Tror på - Gud<br />

Ja Nej Total<br />

274 177 451<br />

60,8% 39,2% 100,0%<br />

361 109 470<br />

76,8% 23,2% 100,0%<br />

635 286 921<br />

68,9% 31,1% 100,0%<br />

27


Eksemplet<br />

Wald teststørrelsen:<br />

Variables in the Equation<br />

Step<br />

1<br />

Køn(1)<br />

Constant<br />

-,761<br />

1,198<br />

,146<br />

,109<br />

27,229<br />

120,063<br />

1<br />

1<br />

,000<br />

,000<br />

,467<br />

3,312<br />

a<br />

B S.E. Wald df Sig. Exp(B)<br />

a. Variable(s) entered on step 1: Køn.<br />

Likelihood-ratio teststørrelsen:<br />

Step 1<br />

Omnibus Tests of Model Coefficients<br />

Step<br />

Block<br />

Model<br />

Chi-square df Sig.<br />

27,889 1 ,000<br />

27,889 1 ,000<br />

27,889 1 ,000<br />

28

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!