Econometria1-Transp-tema5-2
Econometria1-Transp-tema5-2
Econometria1-Transp-tema5-2
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Regresión con variable dependiente binaria<br />
(SW Capítulo 9)<br />
Hasta ahora hemos considerado que la variable dependiente<br />
(Y) es continua:<br />
• puntuaciones en los tests en las escuelas<br />
• tasa de mortalidad en accidentes de tráfico<br />
Pero podemos estar interesados en entender el efecto de X<br />
sobre una variable binaria Y:<br />
• Y = ir a la universidad o no<br />
• Y = ser fumador o no<br />
• Y = conceder una hipoteca o no<br />
9-1
Ejemplo: Denegación de una hipoteca y raza<br />
Datos: The Boston Fed HMDA<br />
• Solicitudes individuales de hipoteca para familias<br />
unipersonales en 1990 en el área de Boston<br />
• 2380 observaciones, recogidas bajo Home Mortgage<br />
Disclosure Act (HMDA)<br />
Variables<br />
• Variable dependiente:<br />
oConcesión o denegación de la hipoteca<br />
• Variables independientes:<br />
oRenta, riqueza, situación laboral<br />
oOtros préstamos, características de la casa<br />
oRaza del solicitante<br />
9-2
El modelo de probabilidad lineal<br />
(SW Sección 9.1)<br />
Un punto de partida natural es el modelo de regresión lineal<br />
con un único regresor:<br />
Yi = β0 + β1Xi + ui<br />
Pero:<br />
• ¿Qué significa β1 cuando Y es binaria? ¿Es β1 = Y ∆<br />
∆ X<br />
?<br />
• ¿Qué significa la recta β0 + β1X cuando Y es binaria?<br />
• ¿Qué significa el valor estimado Y ˆ cuando Y es binaria?<br />
Por ejemplo, ¿qué significa Y ˆ = 0.26?<br />
9-3
El modelo de probabilidad lineal (cont.)<br />
Yi = β0 + β1Xi + ui<br />
Recordemos la hipótesis #1: E(ui|Xi) = 0, por tanto:<br />
E(Yi|Xi) = E(β0 + β1Xi + ui|Xi) = β0 + β1Xi<br />
Cuando Y es binaria,<br />
E(Y) = 1×Pr(Y=1) + 0×Pr(Y=0) = Pr(Y=1)<br />
así que se tiene,<br />
E(Y|X) = Pr(Y=1|X)<br />
9-4
El modelo de probabilidad lineal (cont.)<br />
Cuando Y es binaria, el modelo de regresión lineal<br />
Yi = β0 + β1Xi + ui<br />
recibe el nombre de modelo de probabilidad lineal.<br />
• El valor estimado es una probabilidad:<br />
oE(Y|X=x) = Pr(Y=1|X=x) = prob. de Y = 1 dado x<br />
oY ˆ = la probabilidad estimada de que Yi = 1, dado X<br />
• β1 = cambio en la probabilidad de que Y = 1 para un ∆x dado:<br />
Pr( Y = 1| X = x+∆x) − Pr( Y = 1| X = x)<br />
β1 =<br />
∆x<br />
Ejemplo: modelo de probabilidad lineal, datosHMDA<br />
9-5
Denegación de hipotecas vs. ratio préstamos a pagar/renta<br />
(P/I ratio) en el conjunto de datos HMDA (subconjunto de<br />
dichos datos)<br />
9-6
9-7
Modelo de probabilidad lineal: datos HMDA<br />
deneg = -.080 + .604 P/I ratio (n = 2380)<br />
(.032) (.098)<br />
• ¿Cuál es el valor estimado para P/I ratio = .3?<br />
Pr(deneg=1 | P/I ratio=.3) = -.080 + .604×.3 = .151<br />
• Calculando “efectos:” increm. de P/I ratio de .3 a .4:<br />
Pr(deneg=1 | P/I ratio=.4) = -.080 + .604×.4 = .212<br />
El efecto sobre la probabilidad de denegación de la<br />
hipoteca de un incremento en el P/I ratio de .3 to .4 es que<br />
se incrementa dicha probabilidad en .061, es decir, en 6.1<br />
puntos porcentuales.<br />
9-8
Incluyamos ahora la variable negro como un regresor (negro<br />
vale 1 para individuos de raza negra):<br />
deneg = -.091 + .559 P/I ratio + .177 black<br />
(.032) (.098) (.025)<br />
Probabilidad estimada de denegación de la hipoteca:<br />
• para un solicitante negro con P/I ratio = .3:<br />
Pr(deneg=1) = -.091 + .559×.3 + .177×1 = .254<br />
• para un solicitante blanco con P/I ratio = .3:<br />
Pr(deneg=1) = -.091 + .559×.3 + .177×0 = .077<br />
• diferencia = .177 = 17.7 puntos porcentuales<br />
• El coeficiente de negro es significativo al 5%<br />
• Todavía habrá muchas variables omitidas (sesgo)…<br />
9-9
El modelo de probabilidad lineal: Resumen<br />
• Modeliza la probabilidad como una función lineal de X<br />
• Ventajas:<br />
oEstimación e interpretación sencillas<br />
oLa inferencia es la misma que en el modelo de regresión<br />
múltiple (necesitamos errores estándar robustos a<br />
heterocedasticidad)<br />
• Desventajas:<br />
o¿Tiene sentido que la probabilidad sea lineal en X?<br />
oLas probabilidades estimadas pueden ser 1!<br />
• Este problema puede resolverse utilizando un modelo de<br />
probabilidad no lineal: regresión probit y logit<br />
9-10
Probit and Logit Regression<br />
(SW Section 9.2)<br />
El problema con el modelo de probabilidad lineal es que<br />
modeliza la probabilidad de Y=1 con una función lineal:<br />
Pr(Y = 1|X) = β0 + β1X<br />
Sin embargo, queremos que:<br />
• 0 ≤ Pr(Y = 1|X) ≤ 1 para todo X<br />
• Pr(Y = 1|X) creciente en X (para β1>0)<br />
Esto requiere una forma functional no lineal para la<br />
probabilidad. ¿Qué tal una curva en forma de “S”…?<br />
9-11
El modelo probit satisface estas condiciones:<br />
• 0 ≤ Pr(Y = 1|X) ≤ 1 para todo X<br />
• Pr(Y = 1|X) es creciente en X (para β1>0)<br />
9-12
La regresión probit modeliza la probabilidad de que Y=1<br />
usando la función de distribución de la normal estándar,<br />
evaluada en z = β0 + β1X:<br />
Pr(Y = 1|X) = Φ(β0 + β1X)<br />
• Φ es la función de distribución normal.<br />
• z = β0 + β1X es el “valor z” ó “índice z” del modelo<br />
probit<br />
Ejemplo: Supongamos que β0 = -2, β1= 3, X = .4, por tanto:<br />
Pr(Y = 1|X=.4) = Φ(-2 + 3×.4) = Φ(-0.8)<br />
Pr(Y = 1|X=.4) = área bajo la densidad de la normal estándar<br />
que queda a la izquierda de z = -.8, que es…<br />
9-13
Pr(Z ≤ -0.8) = .2119<br />
9-14
Regresión probit (cont.)<br />
¿Por qué usar la distribución de probabilidad acumulada de la<br />
normal?<br />
• La curva “en forma de S” nos da lo que queremos:<br />
o 0 ≤ Pr(Y = 1|X) ≤ 1 para todo X<br />
o Pr(Y = 1|X) creciente en X (para β1>0)<br />
• Es fácil de usar – las probabilidades están tabuladas en las<br />
tablas de la normal<br />
• Tiene una interpretación relativamente directa:<br />
o valor z = β0 + β1X<br />
ˆ ˆ β X es el valor z estimado, dado X<br />
o β 0 + 1<br />
oβ1 es el cambio en el valor z para un cambio unitario en X<br />
9-15
Ejemplo de STATA: datos HMDA<br />
. probit deny p_irat, r;<br />
Iteration 0: log likelihood = -872.0853 We’ll discuss this later<br />
Iteration 1: log likelihood = -835.6633<br />
Iteration 2: log likelihood = -831.80534<br />
Iteration 3: log likelihood = -831.79234<br />
Probit estimates Number of obs = 2380<br />
Wald chi2(1) = 40.68<br />
Prob > chi2 = 0.0000<br />
Log likelihood = -831.79234 Pseudo R2 = 0.0462<br />
------------------------------------------------------------------------------<br />
| Robust<br />
deny | Coef. Std. Err. z P>|z| [95% Conf. Interval]<br />
-------------+---------------------------------------------------------------p_irat<br />
| 2.967908 .4653114 6.38 0.000 2.055914 3.879901<br />
_cons | -2.194159 .1649721 -13.30 0.000 -2.517499 -1.87082<br />
------------------------------------------------------------------------------<br />
Pr(deneg=1 | P/I ratio) = Φ(-2.19 + 2.97×P/I ratio)<br />
(.16) (.47)<br />
9-16
Ejemplo de STATA: datos HMDA (cont.)<br />
Pr(deneg=1 | P/I ratio) = Φ(-2.19 + 2.97 × P/I ratio)<br />
(.16) (.47)<br />
• Coeficiente positivo: ¿tiene sentido?<br />
• Los errores estándar tienen la interpretación habitual<br />
• Probabilidades estimadas:<br />
Pr(deneg=1 | P/I ratio=0.3) = Φ(-2.19 + 2.97 × .3)<br />
= Φ(-1.30) = .097<br />
• Efecto del cambio en P/I ratio de .3 a .4:<br />
Pr(deneg=1 | P/I ratio=0.4) = Φ(-2.19+2.97×.4) = .159<br />
La probabilidad estimada de no concesión de hipoteca se<br />
incrementa, pasando de .097 a .159<br />
9-17
Regresión probit con varios regresores<br />
Pr(Y = 1|X1, X2) = Φ(β0 + β1X1 + β2X2)<br />
• Φ es la función de distribución normal acumulada.<br />
• z = β0 + β1X1 + β2X2 es el “valor z” ó “índice z” del modelo<br />
probit<br />
• β1 es el efecto en el “valor z” de un cambio unitario en X1,<br />
manteniendo constante X2<br />
9-18
Ejemplo de STATA: datos HMDA<br />
. probit deny p_irat black, r;<br />
Iteration 0: log likelihood = -872.0853<br />
Iteration 1: log likelihood = -800.88504<br />
Iteration 2: log likelihood = -797.1478<br />
Iteration 3: log likelihood = -797.13604<br />
Probit estimates Number of obs = 2380<br />
Wald chi2(2) = 118.18<br />
Prob > chi2 = 0.0000<br />
Log likelihood = -797.13604 Pseudo R2 = 0.0859<br />
------------------------------------------------------------------------------<br />
| Robust<br />
deny | Coef. Std. Err. z P>|z| [95% Conf. Interval]<br />
-------------+---------------------------------------------------------------p_irat<br />
| 2.741637 .4441633 6.17 0.000 1.871092 3.612181<br />
black | .7081579 .0831877 8.51 0.000 .545113 .8712028<br />
_cons | -2.258738 .1588168 -14.22 0.000 -2.570013 -1.947463<br />
------------------------------------------------------------------------------<br />
Veremos después los detalles de la estimación…<br />
9-19
Ejemplo de STATA: probabilidades probit estimadas<br />
. probit deny p_irat black, r;<br />
Probit estimates Number of obs = 2380<br />
Wald chi2(2) = 118.18<br />
Prob > chi2 = 0.0000<br />
Log likelihood = -797.13604 Pseudo R2 = 0.0859<br />
------------------------------------------------------------------------------<br />
| Robust<br />
deny | Coef. Std. Err. z P>|z| [95% Conf. Interval]<br />
-------------+---------------------------------------------------------------p_irat<br />
| 2.741637 .4441633 6.17 0.000 1.871092 3.612181<br />
black | .7081579 .0831877 8.51 0.000 .545113 .8712028<br />
_cons | -2.258738 .1588168 -14.22 0.000 -2.570013 -1.947463<br />
------------------------------------------------------------------------------<br />
. sca z1 = _b[_cons]+_b[p_irat]*.3+_b[black]*0;<br />
. display "Pred prob, p_irat=.3, white: "normprob(z1);<br />
Pred prob, p_irat=.3, white: .07546603<br />
NOTE<br />
_b[_cons] is the estimated intercept (-2.258738)<br />
_b[p_irat] is the coefficient on p_irat (2.741637)<br />
sca creates a new scalar which is the result of a calculation<br />
display prints the indicated information to the screen<br />
9-20
Ejemplo de STATA: datos HMDA (cont.)<br />
Pr(deneg=1 | P/I, negro) =<br />
=Φ(-2.26 + 2.74×P/I ratio + .71×black)<br />
(.16) (.44) (.08)<br />
• ¿El coeficiente de negro es estadísticamente significativo?<br />
• Valor estimado de la raza para P/I ratio = .3:<br />
Pr(deneg=1 | .3, 1) = Φ(-2.26+2.74×.3+.71×1) = .233<br />
Pr(deneg=1 | .3, 0) = Φ(-2.26+2.74×.3+.71×0) = .075<br />
• Diferencia en las probabilidad de no concesión de la<br />
hipoteca = .158 (15.8 puntos porcentuales)<br />
• Todavía habrá muchas variables omitidas (sesgos)…<br />
9-21
Regresión logit<br />
La regresión logit modeliza la probabilidad de Y=1 como la<br />
función de distribución acumulada de la logística estándar,<br />
evaluada en z = β0 + β1X:<br />
Pr(Y = 1|X) = F(β0 + β1X)<br />
F es la función de distribución logística:<br />
F(β0 + β1X) =<br />
1+<br />
e<br />
1<br />
− ( β + β X )<br />
0 1<br />
9-22
Regresión logit (cont.)<br />
donde F(β0 + β1X) =<br />
Pr(Y = 1|X) = F(β0 + β1X)<br />
1+<br />
e<br />
1<br />
− ( β + β X )<br />
0 1<br />
Ejemplo: β0 = -3, β1= 2, X = .4,<br />
por tanto, β0 + β1X = -3 + 2×.4 = -2.2<br />
Pr(Y = 1|X=.4) = 1/(1+e –(–2.2) ) = .0998<br />
¿Por qué complicarse con el logit si tenemos el probit?<br />
• Históricamente, ha tenido ventajas computacionales<br />
• En la práctica, es muy similar al probit<br />
.<br />
9-23
Ejemplo de STATA: datos HMDA<br />
. logit deny p_irat black, r;<br />
Iteration 0: log likelihood = -872.0853 Later…<br />
Iteration 1: log likelihood = -806.3571<br />
Iteration 2: log likelihood = -795.74477<br />
Iteration 3: log likelihood = -795.69521<br />
Iteration 4: log likelihood = -795.69521<br />
Logit estimates Number of obs = 2380<br />
Wald chi2(2) = 117.75<br />
Prob > chi2 = 0.0000<br />
Log likelihood = -795.69521 Pseudo R2 = 0.0876<br />
------------------------------------------------------------------------------<br />
| Robust<br />
deny | Coef. Std. Err. z P>|z| [95% Conf. Interval]<br />
-------------+---------------------------------------------------------------p_irat<br />
| 5.370362 .9633435 5.57 0.000 3.482244 7.258481<br />
black | 1.272782 .1460986 8.71 0.000 .9864339 1.55913<br />
_cons | -4.125558 .345825 -11.93 0.000 -4.803362 -3.447753<br />
------------------------------------------------------------------------------<br />
. dis "Pred prob, p_irat=.3, white: "<br />
> 1/(1+exp(-(_b[_cons]+_b[p_irat]*.3+_b[black]*0)));<br />
Pred prob, p_irat=.3, white: .07485143<br />
NOTE: the probit predicted probability is .07546603<br />
9-24
Las probabilidades estimadas de los modelos probit y logit<br />
son habitualmente muy parecidas.<br />
9-25
Estimación e Inferencia en Modelos Probit (y Logit) (SW<br />
Sección 9.3)<br />
Modelo probit:<br />
Pr(Y = 1|X) = Φ(β0 + β1X)<br />
• Estimación e inferencia<br />
o¿Cómo estimar β0 y β1?<br />
o¿Cuál es la distribución muestral de los estimadores?<br />
o¿Por qué podemos utilizar los métodos de inferencia<br />
habituales?<br />
• Veamos primero mínimos cuadrados no lineales (más fácil de<br />
explicar)<br />
• Después veamos estimación por máxima verosimilitud (es lo que<br />
se hace en la práctica en estos modelos)<br />
9-26
Estimación probit por mínimos cuadrados no lineales<br />
Recordemos MCO:<br />
n<br />
∑<br />
min [ Y − ( b + b X )]<br />
b0, b1 i 0 1 i<br />
i=<br />
1<br />
• El resultado son los estimadores MCO 0<br />
ˆ<br />
2<br />
ˆ β<br />
β y 1<br />
En el probit, tenemos una función de regresión diferente, el<br />
modelo probit no lineal. Entonces, podríamos estimar β0 y β1 por<br />
mínimos cuadrados no lineales:<br />
n<br />
∑<br />
min [ Y −Φ ( b + b X )]<br />
b0, b1 i 0 1 i<br />
i=<br />
1<br />
La solución de este problema lleva al estimador de mínimos<br />
cuadrados no lineales de los coeficientes probit.<br />
2<br />
9-27
Mínimos cuadrados no lineales (cont.)<br />
n<br />
∑<br />
min [ Y −Φ ( b + b X )]<br />
b0, b1 i 0 1 i<br />
i=<br />
1<br />
¿Cómo resolver este problema de minimización?<br />
• No tenemos una solución explícita.<br />
• Debe resolverse numéricamente usando un ordenador, es decir, por<br />
un método de “prueba y error”, probando con un conjunto de valores<br />
para (b0,b1), luego probando otro, y otro...<br />
• Una idea mejor: usar algoritmos específicos de minimización<br />
• En la práctica, no se utiliza mínimos cuadrados no lineales porque<br />
no es eficiente; un estimador con una varianza menor es...<br />
2<br />
9-28
Estimación probit por máxima veosimilitud<br />
La función de verosimilitud es la densidad condicional de<br />
Y1,…,Yn dados X1,…,Xn, entendida como función de los<br />
parámetros desconocidos β0 y β1.<br />
• El estimador de máxima verosimilitud (EMV ó MLE en<br />
inglés) es el valor de (β0, β1) que maximiza la función de<br />
verosimilitud.<br />
• El EMV (MLE) es el valor de (β0, β1) que mejor describe la<br />
distribución de los datos.<br />
• En muestras grandes, el EMV (MLE) es:<br />
oconsistente<br />
ose distribuye como una normal<br />
oeficiente (es el estimador de menor varianza)<br />
9-29
Caso especial: EMV (MLE) probit sin X<br />
⎧1<br />
Y= ⎨<br />
(distribución Bernoulli)<br />
⎩0<br />
Datos: Y1,…,Yn, i.i.d.<br />
La obtención de la verosimilitud empieza con la densidad de<br />
Y1:<br />
Pr(Y1 = 1) = p y Pr(Y1 = 0) = 1–p<br />
Por tanto,<br />
con<br />
con<br />
probabilid<br />
probabilid<br />
ad<br />
ad<br />
p<br />
1−<br />
p<br />
y1 1 y1<br />
Pr(Y1 = y1) = p (1 p) −<br />
− (comprobar para y1=0, 1)<br />
9-30
Densidad conjunta de (Y1,Y2):<br />
Dado que Y1 y Y2 son independientes,<br />
Pr(Y1 = y1,Y2 = y2) = Pr(Y1 = y1) × Pr(Y2 = y2)<br />
y1 1 y1<br />
= [ p (1 p) −<br />
y2 1 y2<br />
− ]× [ p (1 p) −<br />
− ]<br />
Densidad conjunta de (Y1,..,Yn):<br />
Pr(Y1 = y1,Y2 = y2,…,Yn = yn)<br />
y1 1 y1<br />
= [ p (1 p) −<br />
y2 1 y2<br />
− ]× [ p (1 p) −<br />
yn 1 yn<br />
− ]×…× [ p (1 p) −<br />
− ]<br />
=<br />
n<br />
y<br />
i 1 p<br />
∑ = (1 − p)<br />
−∑<br />
(<br />
n<br />
) n yi<br />
i i=<br />
1<br />
La verosimilitud es la densidad conjunta, entendida como<br />
función de los parámetros desconocidos, que están en p:<br />
9-31
f(p;Y1,…,Yn) =<br />
n<br />
Y<br />
i 1 p<br />
∑ = (1 − p)<br />
−∑<br />
(<br />
n<br />
) n Yi<br />
i i=<br />
1<br />
El EMV (MLE) maximiza la verosimilitud. Se suele trabajar con<br />
el logaritmo de la verosimilitud, ln[f(p;Y1,…,Yn)]:<br />
ln[f(p;Y1,…,Yn)] = ( ∑<br />
n<br />
) ( ∑<br />
n<br />
)<br />
i i<br />
dln f( p; Y1,..., Yn)<br />
dp<br />
Y ln( p) + n− Y ln(1 − p)<br />
i= 1 i=<br />
1<br />
1 ⎛ −1<br />
⎞<br />
+ −<br />
p<br />
⎜<br />
1−<br />
p<br />
⎟<br />
⎝ ⎠<br />
= (<br />
n<br />
) (<br />
n<br />
Y )<br />
i n Yi<br />
∑ ∑ = 0<br />
i= 1 i=<br />
1<br />
Resolviendo para p se obtiene el EMV (MLE); es decir, ˆ MLE<br />
p ,<br />
satisface,<br />
9-32
ó<br />
1 ⎛ −1<br />
⎞<br />
+ − MLE MLE<br />
pˆ ⎜<br />
1−<br />
pˆ<br />
⎟<br />
⎝ ⎠<br />
(<br />
n<br />
) (<br />
n<br />
Y )<br />
1 i n Y<br />
i= i=<br />
1 i<br />
∑ ∑ = 0<br />
1 1<br />
pˆ 1−<br />
pˆ<br />
( ∑<br />
n<br />
) (<br />
n<br />
Y )<br />
i 1 i = n−∑ Y<br />
= i=<br />
1 i<br />
MLE MLE<br />
ó (dividiendo por n y reordenando términos),<br />
ó<br />
Y pˆ<br />
=<br />
1−Y 1−<br />
pˆ<br />
MLE<br />
MLE<br />
ˆ MLE<br />
p = Y = proporción de 1’s<br />
9-33
El estimador EMV (MLE) en el caso “sin X” (distribución<br />
Bernoulli):<br />
ˆ MLE<br />
p = Y = proporción de 1’s<br />
• Para Yi i.i.d. Bernoulli, el EMV (MLE) es el estimador “natural”<br />
de p, la proporción de 1’s, que es Y<br />
• Ya conocemos los aspectos básicos de la inferencia:<br />
oPara n grande, la distribución muestral de ˆ MLE<br />
p = Y es una<br />
distribución normal<br />
oPor tanto, la inferencia es “la habitual”: contrastes de<br />
hipótesis mediante el estadístico t, intervalos de confianza<br />
basados en ±1.96SE<br />
• Nota de STATA: para destacar que se requiere n grande, la salida de<br />
STATA se refiere al estadístico z en lugar de al estadístico t ;<br />
estadístico chi-cuadrado (= q×F) en lugar de estadístico F.<br />
9-34
La verosimilitud probit con un regresor X<br />
Su obtención empieza con la densidad de Y1, dado X1:<br />
Pr(Y1 = 1|X1) = Φ(β0 + β1X1)<br />
Pr(Y1 = 0|X1) = 1–Φ(β0 + β1X1)<br />
Por tanto,<br />
y1 1−<br />
y1<br />
Pr(Y1 = y1|X1) = Φ ( β + β X ) [1 −Φ ( β + β X )]<br />
0 1 1 0 1 1<br />
La función de verosimilitud probit es la densidad conjunta de<br />
Y1,…,Yn dados X1,…,Xn, entendida como función de β0, β1:<br />
f(β0,β1; Y1,…,Yn|X1,…,Xn)<br />
Y1 1−Y1<br />
= { Φ ( β + β X ) [1 −Φ ( β + β X )] }×<br />
0 1 1 0 1 1<br />
Yn 1−Yn<br />
…×{ Φ ( β + β X ) [1 −Φ ( β + β X )] }<br />
0 1 n 0 1 n<br />
9-35
La función de verosimilitud probit:<br />
f(β0,β1; Y1,…,Yn|X1,…,Xn)<br />
Y1 1−Y1<br />
= { Φ ( β + β X ) [1 −Φ ( β + β X )] }×<br />
0 1 1 0 1 1<br />
Yn 1−Yn<br />
…×{ Φ ( β + β X ) [1 −Φ ( β + β X )] }<br />
0 1 n 0 1 n<br />
• No se puede obtener el máximo de forma explícita<br />
• Hay que maximizar utilizando métodos numéricos<br />
• Como en el caso “sin X”, en muestras grandes:<br />
o ˆ<br />
0<br />
MLE<br />
β , ˆ MLE<br />
β 1 son consistentes<br />
ˆ MLE<br />
β siguen distribución normal<br />
o ˆ<br />
0<br />
MLE<br />
β , 1<br />
oLos errores estándar puede computarse<br />
oContrastes e intervalos de confianza: los usuales<br />
Para varios X’s, ver SW Apéndice. 9.2<br />
9-36
La verosimilitud logit con un X<br />
• La única diferencia entre el probit y el logit es la forma<br />
functional que se utiliza para la probabilidad: en el logit, Φ<br />
se reemplaza por la distrbución logística.<br />
• Por lo demás, la verosimilitud es similar; ver los detalles<br />
en SW Apéndice. 9.2<br />
• Al igual que en el probit,<br />
o ˆ<br />
0<br />
MLE<br />
β , ˆ MLE<br />
β 1 son consistentes<br />
ˆ MLE<br />
β tienen distribución normal<br />
o ˆ<br />
0<br />
MLE<br />
β , 1<br />
oSus errores estándar pueden computarse<br />
oContrastes e intervalos de confianza: los usuales<br />
9-37
Medidas de bondad de ajuste<br />
R 2 y<br />
medidas de ajuste en este contexto son:<br />
2<br />
R no tienen sentido en este contexto (por qué?). Dos<br />
1. La proporción de predicciones correctas = proporción de<br />
Y’s para las que la probabilidad estimada es >50% (si<br />
Yi=1) ó es
Distribución del EMV (MLE) para n grande (no está en SW)<br />
• La calcularemos para el caso especial “sin X”, para el que p es el<br />
único parámetro desconocido. Pasos a seguir:<br />
1. Obtener el log de la verosimilitud (“Λ(p)”) (hecho).<br />
2. Encontrar el EMV (MLE) igualando a cero la derivada del<br />
log-verosimilitud; esto requiere resolver una ecuación no<br />
lineal<br />
3. Para n grande, ˆ MLE<br />
p estará cerca del verdadero p (p true ), así<br />
que la ecuación no lineal puede aproximarse (localmente) por<br />
una ecuación lineal (expansión de Taylor alrededor de p true ).<br />
4. Dicha ecuación puede resolverse para ˆ MLE<br />
p – p true .<br />
5. Por la LGN y el TCL, para n grande, n ( ˆ MLE<br />
p – p true ) sigue<br />
distribución normal.<br />
9-39
1. Obtener el log de la verosimilitud:<br />
Recuerda que: la densidad para la observación #1 es:<br />
y1 1 y1<br />
Pr(Y1 = y1) = p (1 p) −<br />
−<br />
Por tanto,<br />
(densidad)<br />
Y1 1 Y1<br />
f(p;Y1) = p (1 p) −<br />
−<br />
La verosimilitud para Y1,…,Yn es,<br />
(verosimilitud)<br />
f(p;Y1,…,Yn) = f(p;Y1) ×…× f(p;Yn)<br />
por tanto el log de la verosimilitud es,<br />
Λ(p) = lnf(p;Y1,…,Yn)<br />
= ln[f(p;Y1) ×…× f(p;Yn)]<br />
=<br />
n<br />
∑<br />
i=<br />
1<br />
ln f ( pY ; )<br />
i<br />
9-40
2. Igualar a cero la derivada de Λ(p) para obtener el EMV<br />
(MLE):<br />
∂L(<br />
p)<br />
∂p<br />
pˆ<br />
MLE<br />
=<br />
n ∂ln<br />
f( p; Yi)<br />
∑ = 0<br />
∂p<br />
MLE<br />
i= 1 pˆ<br />
3. Utilizar una expansión de Taylor alrededor de p true para<br />
aproximar la ecuación no lineal como una ecuación lineal de<br />
ˆ MLE<br />
p :<br />
0 =<br />
∂L(<br />
p)<br />
∂p<br />
pˆ<br />
MLE<br />
≈<br />
∂L(<br />
p)<br />
∂p<br />
true<br />
p<br />
+<br />
∂<br />
L(<br />
p)<br />
2<br />
∂p<br />
2<br />
true<br />
p<br />
( ˆ MLE<br />
p – p true )<br />
9-41
4. Resolver esta aproximación lineal para ( ˆ MLE<br />
p – p true ):<br />
∂L(<br />
p)<br />
∂p<br />
Por tanto,<br />
ó<br />
∂<br />
2<br />
true<br />
p<br />
L(<br />
p)<br />
2<br />
∂p<br />
+<br />
∂<br />
true<br />
p<br />
L(<br />
p)<br />
2<br />
∂p<br />
2<br />
true<br />
p<br />
( ˆ MLE<br />
p – p true ) ≈ –<br />
( ˆ MLE<br />
p – p true ) ≈ 0<br />
∂L(<br />
p)<br />
∂p<br />
( ˆ MLE<br />
p – p true ⎡ 2<br />
∂ L ( p)<br />
⎤ ∂L(<br />
p)<br />
) ≈ – ⎢ 2 ⎥<br />
⎢ ∂p<br />
true ⎣ p ⎥⎦<br />
∂p<br />
−1<br />
true<br />
p<br />
true<br />
p<br />
9-42
5. Sustituir y aplicar la LGN y el TCL.<br />
∂L(<br />
p)<br />
∂p<br />
∂<br />
L(<br />
p)<br />
2<br />
∂p<br />
2<br />
Por tanto,<br />
Λ(p) =<br />
true<br />
p<br />
true<br />
p<br />
=<br />
n<br />
∑<br />
i=<br />
1<br />
=<br />
n<br />
∑<br />
ln f ( pY ; )<br />
∂ln<br />
f( p; Yi)<br />
∂p<br />
i= 1<br />
p<br />
∂<br />
i<br />
ln f( p; Y )<br />
true<br />
n 2<br />
i<br />
i= 1<br />
2<br />
∂p<br />
p<br />
∑<br />
( ˆ MLE<br />
p – p true ⎡ 2<br />
∂ L ( p)<br />
⎤ ∂L(<br />
p)<br />
) ≈ – ⎢ 2 ⎥<br />
⎢ ∂p<br />
true ⎣ p ⎥⎦<br />
∂p<br />
=<br />
−1<br />
∑<br />
⎣ ⎝ ⎠⎦<br />
true<br />
true<br />
p<br />
−1<br />
⎡ n ⎛ 2<br />
ln f( p; Yi)<br />
⎞⎤<br />
n<br />
∂<br />
∂ln<br />
f( p; Yi)<br />
⎢ ⎜−⎥ 2 ⎟<br />
⎢ ⎜ i= 1 ∂p<br />
⎟ true<br />
p ⎥ i= 1 ∂p<br />
p<br />
⎛ ⎞<br />
∑<br />
⎜ ⎟<br />
⎜ ⎟ true<br />
⎝ ⎠<br />
9-43
Multiplicar ambos miembros por n :<br />
n ( ˆ MLE<br />
p – p true ) ≈<br />
⎡ n 2<br />
1 ⎛ ∂ ln f( p; Yi)<br />
⎞⎤<br />
⎢ ∑⎜−2⎟⎥<br />
⎢n ⎜ i= 1 ∂p<br />
⎟ true<br />
⎣ ⎝ p ⎠⎥⎦<br />
−1<br />
⎡ n 1 ⎛∂ln f( p; Yi)<br />
⎞⎤<br />
⎢ ∑ ⎜ ⎟⎥<br />
⎢ n ⎜ i= 1 ∂p<br />
⎟ true<br />
⎣ ⎝ p ⎠⎥⎦<br />
Dado que Yi es i.i.d., los terminus i-ésimos en los sumandos<br />
también son i.i.d. Entonces, si esos términos tienen<br />
suficientes momentos (en concreto 2), bajo condiciones<br />
generales (no sólo bajo distribución Bernoulli):<br />
9-44
⎛ ⎞<br />
n 2<br />
1 ∂ ln f( p; Yi)<br />
∑ ⎜−2⎟ n ⎜ i= 1 ∂p<br />
⎟ true<br />
p<br />
p<br />
⎝ ⎠<br />
1 ⎛∂ln f( p; Y ) ⎞<br />
n<br />
∑<br />
i<br />
⎜ ⎟<br />
⎜ i 1 ∂p<br />
⎟ true<br />
p<br />
d<br />
n =<br />
⎝ ⎠<br />
Poniendo todo junto,<br />
n ( ˆ MLE<br />
p – p true ) ≈<br />
⎡ n 2<br />
1 ⎛ ∂ ln f( p; Yi)<br />
⎞⎤<br />
⎢ ∑⎜−2⎟⎥<br />
⎢n ⎜ i= 1 ∂p<br />
⎟ true<br />
⎣ ⎝ p ⎠⎥⎦<br />
→ a ( constante) (LDGN)<br />
→ N(0, σ ) (TCL) (¿Por qué?)<br />
2<br />
ln f<br />
−1<br />
⎡ n 1 ⎛∂ln f( p; Yi)<br />
⎞⎤<br />
⎢ ∑<br />
⎜ ⎟⎥<br />
⎢ n ⎜ i= 1 ∂p<br />
⎟ true<br />
⎣ ⎝ p ⎠⎥⎦<br />
9-45
⎛ ∂<br />
⎞<br />
n 2<br />
1 ln f( p; Yi)<br />
∑ ⎜−2⎟ n ⎜ i= 1 ∂p<br />
⎟ true<br />
p<br />
p<br />
⎝ ⎠<br />
1 ⎛∂ln f( p; Y ) ⎞<br />
n<br />
∑<br />
i<br />
⎜ ⎟<br />
⎜ i 1 ∂p<br />
⎟ true<br />
p<br />
d<br />
n =<br />
Por tanto,<br />
⎝ ⎠<br />
n ( ˆ MLE<br />
p – p true ) d<br />
→ N(0,<br />
→ a (constante) (LDGN)<br />
→ N(0, σ ) (TCL) (¿Por qué?)<br />
2<br />
ln f<br />
2<br />
ln f<br />
σ /a 2 )<br />
Desarrollo de los detalles para el caso probit/sin X<br />
(Bernoulli):<br />
9-46
Recuerda que:<br />
Por tanto,<br />
y<br />
y<br />
∂<br />
2<br />
∂<br />
f(p;Yi) =<br />
p (1 p) −<br />
−<br />
Y 1 Y<br />
i i<br />
ln f(p;Yi) = Yilnp + (1–Yi)ln(1–p)<br />
ln f ( pY , i )<br />
∂p<br />
ln f ( pY , i )<br />
2<br />
∂p<br />
=<br />
Yi 1−<br />
Yi<br />
− =<br />
p 1−<br />
p<br />
Y 1−<br />
Y<br />
p (1 − p)<br />
i i<br />
= − − 2 2<br />
Yi−p p(1 − p)<br />
⎛ Y 1−<br />
Y ⎞<br />
⎜<br />
p (1 − p)<br />
⎟<br />
⎝ ⎠<br />
i i<br />
= − + 2 2<br />
9-47
Denominador:<br />
2<br />
∂ ln f ( pY , i )<br />
2<br />
∂p<br />
Por tanto,<br />
⎛ ∂<br />
⎞<br />
⎛ Y 1−<br />
Y ⎞<br />
⎜<br />
p (1 − p)<br />
⎟<br />
⎝ ⎠<br />
i i<br />
= − + 2 2<br />
n 2<br />
n<br />
1 ln f( p; Yi)<br />
1 Y<br />
∑ i 1−Yi<br />
⎜−2⎟ = + 2 2<br />
n ⎜ i= 1 ∂p<br />
⎟ true n p<br />
i=<br />
1 p (1 − p)<br />
⎝ ⎠<br />
= + 2 2<br />
p<br />
→ 2 2<br />
= 1 1<br />
⎛ ⎞<br />
∑ ⎜ ⎟<br />
⎝ ⎠<br />
Y 1−<br />
Y<br />
p (1 − p)<br />
p 1−<br />
p<br />
+ (LGN)<br />
p (1 − p)<br />
1<br />
+ =<br />
p 1−<br />
p p(1 −<br />
p)<br />
9-48
Numerador:<br />
so<br />
∂<br />
ln f ( pY , i )<br />
∂p<br />
=<br />
Yi−p p(1 − p)<br />
n 1 ⎛∂ln f( p; Yi)<br />
⎞<br />
∑ ⎜ ⎟ =<br />
n ⎜ i= 1 ∂p<br />
⎟ true<br />
⎝ p ⎠<br />
=<br />
1<br />
i<br />
n<br />
∑<br />
n =<br />
⎛ 1 ⎞ 1<br />
n<br />
⎜<br />
p(1 p) ⎟<br />
⎝ − ⎠ n i=<br />
1<br />
∑<br />
d<br />
2<br />
σY<br />
→ N(0,<br />
[ p(1 − p)]<br />
1<br />
Yi−p p(1 − p)<br />
2<br />
)<br />
( Y − p)<br />
i<br />
9-49
Poniendo todo junto:<br />
n ( ˆ MLE<br />
p – p true ) ≈<br />
⎡ n 2<br />
1 ⎛ ∂ ln f( p; Yi)<br />
⎞⎤<br />
⎢ ∑⎜−2⎟⎥<br />
⎢n ⎜ i= 1 ∂p<br />
⎟ true<br />
⎣ ⎝ p ⎠⎥⎦<br />
donde<br />
⎛ ∂<br />
⎞<br />
n 2<br />
1 ln f( p; Yi)<br />
∑ ⎜−2⎟ n ⎜ i= 1 ∂p<br />
⎟ true<br />
p<br />
p<br />
⎝ ⎠<br />
1 ⎛∂ln f( p; Y ) ⎞<br />
n<br />
∑<br />
i<br />
⎜ ⎟<br />
⎜ i 1 ∂p<br />
⎟ true<br />
p<br />
d<br />
n = ⎝ ⎠<br />
De donde,<br />
−1<br />
⎡ n 1 ⎛∂ln f( p; Yi)<br />
⎞⎤<br />
⎢ ∑ ⎜ ⎟⎥<br />
⎢ n ⎜ i= 1 ∂p<br />
⎟ true<br />
⎣ ⎝ p ⎠⎥⎦<br />
→<br />
n ( ˆ MLE<br />
p – p true ) d<br />
→ N(0,<br />
1<br />
p(1 − p)<br />
2<br />
σY<br />
→ N(0,<br />
[ p(1 − p)]<br />
σ )<br />
2<br />
Y<br />
2<br />
)<br />
9-50
Resumen: EMV (MLE) probit , caso “sin X”<br />
El EMV (MLE): ˆ MLE<br />
p = Y<br />
Trabajando sobre la teoría de la distribución del EMV (MLE),<br />
llegamos a que:<br />
n ( ˆ MLE<br />
p – p true ) d<br />
→ N(0,<br />
σ )<br />
Pero dado que p true = Pr(Y = 1) = E(Y) = µY, tenemos que:<br />
n (Y – µY) d<br />
→ N(0, σ )<br />
Un resultado visto en las primeras clases de Econometría!<br />
2<br />
Y<br />
2<br />
Y<br />
9-51
La derivación del EMV (MLE) utiliza de forma general:<br />
n ( ˆ MLE<br />
p – p true ) d<br />
→ N(0,<br />
2<br />
σ ln f /a 2 ))<br />
• Los errores estándar se obtienen encontrando expresiones para<br />
2<br />
σ ln f /a 2<br />
• Extensión a varios parámetros (β0, β1) mediante cálculo matricial<br />
• Dado que la distribución es normal para n grande, la inferencia<br />
se lleva a cabo de la forma habitual, opr ejemplo, el intervalo de<br />
confianza al 95% es MLE ± 1.96SE.<br />
• La expresión de arriba utiliza errores estándar “robustos”. Se<br />
puede simplificar al caso de errores estándar no robustos si<br />
∂ln f ( pY ; ) / ∂ pes<br />
homocedástico.<br />
i<br />
9-52
Resumen: distribution del EMV (MLE)<br />
• El EMV (MLE) sigue distribución normal para n grande<br />
• Hemos trabajado este resultado en detalle para el modelo probit<br />
“sin X” (distribución Bernoulli)<br />
• Para n grande, los intervalos de confianza y los contrastes de<br />
hipótesis se construyen de la forma usual.<br />
• Si el modelo está correctamente especificado, el EMV (MLE) es<br />
eficiente, es dicer, tiene menor varianza que cualquier otro<br />
estimador (esto no lo hemos desarrollado).<br />
• Estos métodos se extiende a otros modelos con variables<br />
dependientes discretas, por ejemplo, datos de recuento<br />
(# delitos/día) – ver SW Apéndice. 9.2.<br />
9-53
Aplicación a los datos de Boston HMDA<br />
(SW Sección 9.4)<br />
• Las hipotecas son una parte esencial en la compra de una<br />
casa.<br />
• ¿Hay diferencias en el acceso a una hipoteca en función de<br />
la raza?<br />
• Si dos individuos, uno blanco y otro negro, que en lo<br />
demás son iguales, solicitan una hipoteca, ¿hay diferencias<br />
en la probabilidad de que la hipoteca sea denegada?<br />
9-54
El conjunto de datos HMDA<br />
• Datos sobre características individuales, características de la<br />
casa y concesión o denegación del préstamo<br />
• El proceso de solicitud de hipoteca en Boston 1990-1991:<br />
oIr a una entidad financiera<br />
oRellenar una solicitud (información personal y económica)<br />
oEntrevista con el agente del banco<br />
• El banco decide en función de la ley (sin prestar atención a la<br />
raza). Presumiblemente, el banco quiere otorgar préstamos<br />
beneficios para él y el agente quiere evitar potenciales<br />
problemas por falta de pago.<br />
9-55
La decisión del banco:<br />
• El banco utiliza información sobre variables financieras:<br />
oratioP/I<br />
o ratio gastos de la casa/renta del individuo<br />
o ratio cuantía del préstamo/valor de la casa<br />
o historial crediticio personal<br />
• La regla de decisión no es lineal:<br />
oRatio préstamo/valor > 80%<br />
oRatio préstamo/valor > 95%<br />
oPuntuación en otros créditos (en función de retrasos en el<br />
pago, etc)<br />
9-56
Especificaciones para la regresión<br />
Pr(deneg=1|negro, otras X’s) = …<br />
• modelo de probabilidad lineal<br />
• probit, logit<br />
Principal problema en todas las especificaciones: potencial<br />
sesgo de omisión de variables. Todas esas variables: (i)<br />
entran en la función de decisión del banco, (ii) están o<br />
podrían estar correlacionadas con la raza:<br />
• riqueza, tipo de trabajo<br />
• historial crediticio<br />
• estatus familiar<br />
Variables en los datos HMDA …<br />
9-57
9-58
9-59
9-60
9-61
9-62
Resumen de los resultados empíricos<br />
• Los coeficientes de las variables financieras tienen sentido.<br />
• Negro (black) es estadísticamente significativa en todas las<br />
especificaciones<br />
• Las interacción de la raza con variables financieras no son<br />
significativas.<br />
• La inclusión de otros regresores reduce sensiblemente el efecto<br />
de la reza sobre la probabilidad de denegación del préstamo.<br />
• MPL, probit, logit: estimaciones similares del efecto de la raza<br />
sobre la probabilidad de denegación del préstamo.<br />
• Los efectos estimados son bastante grandes.<br />
9-63
Amenazas a la validez interna y externa<br />
• Validez interna<br />
1. sesgo de variables omitidas<br />
• ¿qué información adicional obtiene el banco en la<br />
entrevista personal?<br />
2. forma funcional incorrecta (no…)<br />
3. errores de medidad (originalmente, sí; ahora, no…)<br />
4. selección<br />
• muestra aleatoria de solicitudes de préstamos<br />
• definir la población de solicitantes de préstamos<br />
5. causalidad simultánea (no)<br />
• Validez externa<br />
Análisis para Boston 1990-91. ¿Qué pasaría hoy?<br />
9-64
Resumen<br />
(SW Sección 9.5)<br />
• Si Yi es binaria, entonces E(Y| X) = Pr(Y=1|X)<br />
• Tres modelos:<br />
omodelo de probabilidad lineal (regresión lineal múltiple)<br />
oprobit (distribución normal estándar)<br />
ologit (distribución logística estándar)<br />
• MPL, probit, logit producen probabilidades estimadas<br />
• El efecto de ∆X es el cambio en la probabilidad<br />
condicionada de Y=1. Para los modelos logit y probit, esto<br />
depende del valor inicial de X<br />
• Probit y logit se estiman por máxima verosimilitud<br />
9-65
oLos coeficientes siguen distribución normal para n<br />
grande.<br />
oLos contrastes de hipótesis e intervalos de confianza para<br />
n grande son los habituales.<br />
9-66