Logistisk Regression Kapitel 15
Logistisk Regression Kapitel 15
Logistisk Regression Kapitel 15
Transform your PDFs into Flipbooks and boost your revenue!
Leverage SEO-optimized Flipbooks, powerful backlinks, and multimedia content to professionally showcase your products and significantly increase your reach.
<strong>Logistisk</strong> <strong>Regression</strong><br />
<strong>Kapitel</strong> <strong>15</strong><br />
Slides: http://www.socsci.aau.dk/~sgb<br />
1
Denne lektion og næste lektion<br />
Denne gang:<br />
Repetition af regression<br />
Simpel logistisk regression – herunder<br />
kvantitativ og binær forklarende variabel.<br />
Næste gang:<br />
Multipel logistisk regression<br />
Multinominal regression<br />
<strong>Logistisk</strong> regression for ordinal respons<br />
2
<strong>Logistisk</strong>e modeller<br />
<strong>Logistisk</strong> Model<br />
Respons variabel<br />
Simpel Binær (dikotom)<br />
nominal skaleret<br />
Multipel Binær(dikotom) nominal<br />
skaleret<br />
’Forklarende’ variabel ’Forklarende’ variable<br />
Interval skaleret<br />
Nominal<br />
Interval og /eller<br />
nominalskaleret<br />
Multinominal Nominal skaleret Interval og /eller<br />
nominalskaleret<br />
(Kumulativ) Ordinal skaleret Interval og /eller<br />
nominalskaleret<br />
3
Denne gang<br />
Repetition af lineær regression<br />
Den lineære sandsynlighedsmodel<br />
<strong>Logistisk</strong> regression<br />
Kontinuert afhængig variabel<br />
Binær afhængig variabel<br />
Fortolkning af parametre<br />
Estimation<br />
Test<br />
4
Repetition af simpel regression<br />
Den forventede værdi af Y,<br />
E(Y), er en lineær funktion af X:<br />
E(Y) = α + βX<br />
Hvis β >0, er forholdet mellem<br />
X og Y positivt, dvs., når X<br />
stiger, så stiger Y også.<br />
Hvis β < 0, er forholdet mellem<br />
X og Y negativt, dvs., når X<br />
stiger, så falder Y.<br />
Hvis β =0, er der ikke noget<br />
lineært forhold mellem X og Y.<br />
5
Binære respons variable<br />
For eksempel:<br />
Misbrug (ja=0, nej=1), med forklarende variable<br />
uddannelseslængde, andre i familien med misbrug, køn,<br />
traumatisk hændelse osv.<br />
Lykkefølelse (ja=1, nej=0), med forklarende variable<br />
civilstatus, antal børn, indkomst, helbred, misbrug osv.<br />
Tro på Gud (ja=1, nej=0), med forklarende variable køn,<br />
alder, antal børn osv.<br />
6
7<br />
Den lineære sandsynlighedsmodel<br />
1.<br />
end<br />
større<br />
og<br />
0<br />
end<br />
mindre<br />
heder<br />
sandsynlig<br />
give<br />
Kan<br />
ens.<br />
er<br />
ikke<br />
rne<br />
varianse<br />
og<br />
elt<br />
normalford<br />
er<br />
ikke<br />
y<br />
da<br />
model,<br />
s<br />
regression<br />
lineær<br />
for<br />
elserne<br />
modelantag<br />
ikke<br />
Opfylder<br />
model:<br />
denne<br />
med<br />
problemer<br />
del<br />
en<br />
er<br />
Der<br />
:<br />
som<br />
givet<br />
er<br />
model<br />
heds<br />
sandsynlig<br />
lineære<br />
Den<br />
succes.<br />
for<br />
heden<br />
sandsynlig<br />
også<br />
således<br />
er<br />
er.<br />
succes'<br />
af<br />
andelen<br />
være<br />
E(y)<br />
Lad<br />
1.<br />
og<br />
0<br />
er<br />
antage,<br />
kan<br />
y<br />
værdier<br />
De<br />
•<br />
•<br />
=<br />
=<br />
+<br />
=<br />
∑<br />
x<br />
n<br />
y<br />
β<br />
α<br />
π<br />
π<br />
π
Eksempel: Tro på Gud - ud fra alder<br />
Unstandardized<br />
Coefficients<br />
Coefficients a<br />
Standardized<br />
Coefficients<br />
Model<br />
B Std. Error Beta<br />
t Sig.<br />
1 (Constant)<br />
,413 ,042 9,805 ,000<br />
beregnetalder<br />
udfra fødselsår<br />
,006 ,001 ,225 7,005 ,000<br />
a.<br />
Dependent Variable: TroPåGud<br />
8
9<br />
<strong>Logistisk</strong> regressions model<br />
(Y binær, X kontinuert)<br />
( )<br />
( )<br />
( )<br />
fiasko.<br />
for<br />
heden<br />
sandsynlig<br />
til<br />
forhold<br />
i<br />
succes<br />
for<br />
heden<br />
sandsynlig<br />
altså<br />
,<br />
)<br />
0<br />
(<br />
)<br />
1<br />
(<br />
)<br />
1<br />
(<br />
1<br />
)<br />
1<br />
(<br />
1<br />
:<br />
Bemærk<br />
r).<br />
lommeregne<br />
jeres<br />
på<br />
(ln<br />
logaritme<br />
naturlige<br />
den<br />
er<br />
log<br />
og<br />
ene<br />
odds'<br />
er<br />
1<br />
hvor<br />
,<br />
1<br />
log<br />
)<br />
(<br />
log<br />
:<br />
model<br />
s<br />
regression<br />
logistiske<br />
den<br />
på<br />
ser vi<br />
stedet<br />
I<br />
=<br />
=<br />
=<br />
=<br />
−<br />
=<br />
=<br />
−<br />
−<br />
⋅<br />
+<br />
=<br />
⎟<br />
⎠<br />
⎞<br />
⎜<br />
⎝<br />
⎛<br />
−<br />
=<br />
y<br />
P<br />
y<br />
P<br />
y<br />
P<br />
y<br />
P<br />
x<br />
it<br />
π<br />
π<br />
π<br />
π<br />
β<br />
α<br />
π<br />
π<br />
π
Tro på Gud – ud fra alder<br />
Estimatet for β<br />
Variables in the Equation<br />
Step<br />
1<br />
bald<br />
Constant<br />
,031<br />
-,562<br />
,005<br />
,209<br />
44,526<br />
7,242<br />
1<br />
1<br />
,000<br />
,007<br />
1,031<br />
,570<br />
a<br />
B S.E. Wald df Sig. Exp(B)<br />
a. Variable(s) entered on step 1: bald.<br />
Estimatet for α<br />
12
Predekterede sandsynligheder<br />
13
”Hele kurven” se også side 577 i bogen<br />
Sandsynlighed for Ja i pct.<br />
100<br />
90<br />
80<br />
70<br />
60<br />
50<br />
40<br />
30<br />
20<br />
10<br />
0<br />
0 1 2 3 4 5 6 7 8 9 10<br />
Uafhængig variabel<br />
14
Logit, odds og sandsynlighed<br />
Bemærk det er logit funktionen der har den lineære additive struktur – som er<br />
nem at fortolke for stigningen på en enhed:<br />
⎛ π ⎞<br />
log it( π ) = log⎜<br />
⎟ = α + β ⋅ x<br />
⎝ ( 1 − π ) ⎠<br />
Selve odds’en har en multiplikativ struktur, der også er nem at fortolke for<br />
stigningen på en enhed:<br />
Odds =<br />
π<br />
( 1 − π )<br />
= exp<br />
( ) ( ) x<br />
a β⋅x<br />
a β<br />
α + β ⋅ x = e . e = e . e<br />
selve sandsynligheden er derimod ikke så let at fortolke mht., til ændringen på<br />
en enhed:<br />
Odds exp<br />
π = =<br />
1+<br />
Odds 1+<br />
exp<br />
( α + β ⋅ x)<br />
( α + β ⋅ x)<br />
<strong>15</strong>
Fortolkning af parametre<br />
Variables in the Equation<br />
Step<br />
1<br />
bald<br />
Constant<br />
,031<br />
-,562<br />
,005<br />
,209<br />
44,526<br />
7,242<br />
1<br />
1<br />
,000<br />
,007<br />
1,031<br />
,570<br />
a<br />
B S.E. Wald df Sig. Exp(B)<br />
a.<br />
Variable(s) entered on step 1: bald.<br />
Når alderen stiger med 1 år, så:<br />
• stiger logit(π) med 0,031<br />
• odds’ene bliver 1,031 gange større<br />
• stigningen i sandsynligheden ikke umiddelbart så nem<br />
at angive, men kan selvfølgelig beregnes for givet x<br />
16
Hvilke værdier antager de<br />
•π<br />
antager værdier<br />
mellem 0 og1<br />
• odds<br />
• logit<br />
antager værdier<br />
antager værdier<br />
• For π = ½, er odds<br />
lig<br />
mellem 0 og ∞<br />
mellem - ∞<br />
med1<br />
og<br />
•π<br />
- værdier over ½ har positive logits<br />
•π<br />
- værdier under ½ har negative logits<br />
• For β > 0 stiger π når x stiger<br />
• For β < 0 falder π når x stiger<br />
og<br />
logit<br />
∞<br />
lig<br />
med<br />
0<br />
17
Maksimum Likelihood Estimation (MLE)<br />
Parametrene i logistisk regression bestemmes vha.<br />
Maksimum Likelihood Estimation (MLE).<br />
Ved denne estimations teknik estimeres parametrene til<br />
de værdier, der passer bedst med de observerede data.<br />
Dvs. sandsynligheden for parameterværdierne givet de<br />
observerede data, er størst mulig.<br />
Til dette bruges likelihood funktionen, som giver<br />
sandsynligheden for parametrene givet data og det er<br />
altså denne likelihood funktion, der maksimeres – deraf<br />
navnet ;-)<br />
18
19<br />
Test – Wald teststørrelsen<br />
smodel.<br />
regression<br />
lineære<br />
den<br />
i<br />
testet<br />
-<br />
t<br />
svarer til<br />
Testet<br />
d.<br />
frihedsgra<br />
1<br />
med<br />
fordelt<br />
elsen<br />
teststørr<br />
er<br />
H<br />
Under<br />
estimatet.<br />
på<br />
n<br />
spredninge<br />
og<br />
estimatet<br />
mellem<br />
forhold<br />
kvadrerede<br />
det<br />
altså<br />
,<br />
ˆ<br />
elsen<br />
teststørr<br />
ved<br />
0<br />
:<br />
H<br />
0<br />
:<br />
H<br />
hypotesen<br />
testes<br />
,<br />
)<br />
logit(<br />
modellen<br />
I<br />
2<br />
0<br />
2<br />
a<br />
0<br />
−<br />
⎟<br />
⎟<br />
⎠<br />
⎞<br />
⎜<br />
⎜<br />
⎝<br />
⎛<br />
=<br />
≠<br />
=<br />
+<br />
=<br />
χ<br />
σ<br />
β<br />
β<br />
β<br />
α<br />
π<br />
Wald<br />
b<br />
Wald<br />
x<br />
b
20<br />
Test – Likelihood-ratio test<br />
d.<br />
frihedsgra<br />
1<br />
med<br />
fordelt<br />
er<br />
H<br />
under<br />
der<br />
log<br />
2<br />
log<br />
2<br />
log<br />
2<br />
:<br />
som<br />
givet<br />
er<br />
elsen<br />
teststørr<br />
Selve<br />
0.<br />
når<br />
altså<br />
hypotese,<br />
e<br />
alternativ<br />
den<br />
under<br />
data<br />
for<br />
heden<br />
sandsynlig<br />
angiver<br />
L<br />
og<br />
0,<br />
når<br />
altså<br />
hypotesen,<br />
nul<br />
under<br />
data<br />
for<br />
heden<br />
sandsynlig<br />
angiver<br />
L<br />
hypotese.<br />
e<br />
alternativ<br />
den<br />
under<br />
modellen<br />
og<br />
en<br />
nulhypotes<br />
under<br />
modellen<br />
nemlig<br />
modeller,<br />
er to<br />
sammenlign<br />
test<br />
Denne<br />
2<br />
0<br />
1<br />
0<br />
0<br />
1<br />
1<br />
0<br />
−<br />
⎟<br />
⎟<br />
⎠<br />
⎞<br />
⎜<br />
⎜<br />
⎝<br />
⎛<br />
−<br />
=<br />
−<br />
≠<br />
=<br />
χ<br />
β<br />
β<br />
L<br />
L<br />
L<br />
L
Test i eksemplet<br />
Step 1<br />
Omnibus Tests of Model Coefficients<br />
Step<br />
Block<br />
Model<br />
Chi-square df Sig.<br />
49,208 1 ,000<br />
49,208 1 ,000<br />
49,208 1 ,000<br />
Likelihood-ratio teststørrelsen<br />
Variables in the Equation<br />
Step<br />
1<br />
bald<br />
Constant<br />
,031<br />
-,562<br />
,005<br />
,209<br />
44,526<br />
7,242<br />
1<br />
1<br />
,000<br />
,007<br />
1,031<br />
,570<br />
a<br />
B S.E. Wald df Sig. Exp(B)<br />
a. Variable(s) entered on step 1: bald.<br />
Wald test-størrelserne<br />
p-værdien<br />
p-værdierne<br />
21
Relation til kontingenstabeller<br />
(Y binær, X binær)<br />
Hvad nu hvis x er en<br />
kvalitativ variabel?<br />
Så svarer den logistiske<br />
regression til analysen<br />
i kontingenstabeller.<br />
Køn<br />
Total<br />
Pearson Chi-Square<br />
Mand<br />
Kvinde<br />
Continuity Correction a<br />
Likelihood Ratio<br />
Fisher's Exact Test<br />
Linear-by-Linear<br />
Association<br />
Køn * Tror på - Gud Crosstabulation<br />
Count<br />
% within Køn<br />
Count<br />
% within Køn<br />
Count<br />
% within Køn<br />
Chi-Square Tests<br />
Tror på - Gud<br />
27,707b Value df<br />
Asymp. Sig.<br />
(2-sided)<br />
1 ,000<br />
26,963 1 ,000<br />
27,889 1 ,000<br />
27,677 1 ,000<br />
Ja Nej Total<br />
274 177 451<br />
60,8% 39,2% 100,0%<br />
361 109 470<br />
76,8% 23,2% 100,0%<br />
635 286 921<br />
68,9% 31,1% 100,0%<br />
Exact Sig.<br />
(2-sided)<br />
,000 ,000<br />
N of Valid Cases<br />
921<br />
a. Computed only for a 2x2 table<br />
b. 0 cells (,0%) have expected count less than 5. The minimum expected count is<br />
140,05.<br />
Exact Sig.<br />
(1-sided)<br />
22
SPSS<br />
23
Relation til kontingenstabeller<br />
Variables in the Equation<br />
Step<br />
1<br />
Køn(1)<br />
Constant<br />
-,761<br />
1,198<br />
,146<br />
,109<br />
27,229<br />
120,063<br />
1<br />
1<br />
,000<br />
,000<br />
,467<br />
3,312<br />
a<br />
B S.E. Wald df Sig. Exp(B)<br />
a. Variable(s) entered on step 1: Køn.<br />
logit( ˆ π ) = ˆ α + ˆ βx<br />
= 1,<br />
198 − 0,<br />
761x<br />
Udtrykt i odds :<br />
ˆ π<br />
=<br />
1-<br />
ˆ π<br />
ˆ α ˆ βx<br />
x<br />
e e = 3,<br />
312×<br />
0,<br />
467<br />
24
Logit’s<br />
logit for at tro på Gud, når man er mand :<br />
logit( ˆ π ) =<br />
1,<br />
198<br />
logit for at tro på Gud, når man er kvinde :<br />
logit( ˆ π ) =<br />
1,<br />
198<br />
Variables in the Equation<br />
Step<br />
1<br />
Køn(1)<br />
Constant<br />
-,761<br />
1,198<br />
,146<br />
,109<br />
27,229<br />
120,063<br />
1<br />
1<br />
,000<br />
,000<br />
,467<br />
3,312<br />
a<br />
B S.E. Wald df Sig. Exp(B)<br />
a.<br />
Variable(s) entered on step 1: Køn.<br />
− 0,<br />
761×<br />
1 =<br />
− 0,<br />
761×<br />
0 =<br />
0,<br />
437<br />
1,<br />
198<br />
Køn<br />
Dependent Variable Encoding<br />
Original Value<br />
Nej<br />
Ja<br />
Internal Value<br />
0<br />
Categorical Variables Codings<br />
Mand<br />
Kvinde<br />
Frequency (1)<br />
451 1,000<br />
1<br />
Parameter<br />
coding<br />
470 ,000<br />
25
Odds’ene<br />
Udtrykt i odds :<br />
ˆ π<br />
=<br />
1-<br />
ˆ π<br />
Køn<br />
Dependent Variable Encoding<br />
Original Value<br />
Nej<br />
Ja<br />
ˆ α ˆ βx<br />
x<br />
e e = 3,<br />
312×<br />
0,<br />
467<br />
Categorical Variables Codings<br />
Mand<br />
Kvinde<br />
Internal Value<br />
0<br />
Parameter<br />
coding<br />
Frequency (1)<br />
451 1,000<br />
1<br />
470 ,000<br />
”Kvinde” er her ”referencekategorien”.<br />
Meget mere om<br />
det næste gang!!<br />
Odds for at tro på Gud, når man er mand :<br />
ˆ π<br />
1<br />
= 3,<br />
312×<br />
0,<br />
467 = 1,<br />
546<br />
1-<br />
ˆ π<br />
Odds for at tro på Gud, når man er kvinde :<br />
ˆ π<br />
=<br />
1-<br />
ˆ π<br />
3,<br />
312<br />
Oddsratio :<br />
×<br />
Odds mand<br />
=<br />
Odds kvinde<br />
Dvs. odds'ene<br />
0,<br />
467<br />
1,546<br />
3,312<br />
gange så stor som odds'ene<br />
Gud, når man er kvinde.<br />
0<br />
=<br />
=<br />
3,<br />
312<br />
0,<br />
467<br />
= e<br />
for at tro på Gud er 0,467<br />
β<br />
for at tro på<br />
26
ˆ α<br />
e<br />
ˆ π =<br />
1+<br />
e<br />
ˆ α<br />
e<br />
ˆ π =<br />
1+<br />
e<br />
1-<br />
ˆ π = 1−<br />
Sandsynlighederne<br />
Sandsynligheden<br />
for at tro på Gud, når man er mand :<br />
+ ˆ βx<br />
ˆ α + ˆ βx<br />
Sandsynligheden<br />
for ikke at tro på Gud, når man er mand :<br />
1-<br />
ˆ π = 1-<br />
0,608 =<br />
Sandsynligheden<br />
for at tro på Gud, når man er kvinde :<br />
+ ˆ βx<br />
ˆ α + ˆ βx<br />
=<br />
Sandsynligheden<br />
for ikke at tro på Gud, når man er kvinde :<br />
0,<br />
768<br />
1,<br />
546<br />
1+<br />
1,<br />
546<br />
0,<br />
392<br />
3,<br />
321<br />
= =<br />
1+<br />
3,<br />
312<br />
=<br />
0,<br />
232<br />
=<br />
0,<br />
608<br />
0,<br />
768<br />
Køn<br />
Total<br />
Mand<br />
Kvinde<br />
Køn * Tror på - Gud Crosstabulation<br />
Count<br />
% within Køn<br />
Count<br />
% within Køn<br />
Count<br />
% within Køn<br />
Tror på - Gud<br />
Ja Nej Total<br />
274 177 451<br />
60,8% 39,2% 100,0%<br />
361 109 470<br />
76,8% 23,2% 100,0%<br />
635 286 921<br />
68,9% 31,1% 100,0%<br />
27
Eksemplet<br />
Wald teststørrelsen:<br />
Variables in the Equation<br />
Step<br />
1<br />
Køn(1)<br />
Constant<br />
-,761<br />
1,198<br />
,146<br />
,109<br />
27,229<br />
120,063<br />
1<br />
1<br />
,000<br />
,000<br />
,467<br />
3,312<br />
a<br />
B S.E. Wald df Sig. Exp(B)<br />
a. Variable(s) entered on step 1: Køn.<br />
Likelihood-ratio teststørrelsen:<br />
Step 1<br />
Omnibus Tests of Model Coefficients<br />
Step<br />
Block<br />
Model<br />
Chi-square df Sig.<br />
27,889 1 ,000<br />
27,889 1 ,000<br />
27,889 1 ,000<br />
28