Econometria1-Transp-tema5-2

Regresión con variable dependiente binaria 

(SW Capítulo 9) 

Hasta ahora hemos considerado que la variable dependiente 

(Y) es continua: 

• puntuaciones en los tests en las escuelas 

• tasa de mortalidad en accidentes de tráfico 

Pero podemos estar interesados en entender el efecto de X 

sobre una variable binaria Y: 

• Y = ir a la universidad o no 

• Y = ser fumador o no 

• Y = conceder una hipoteca o no 

9-1

Ejemplo: Denegación de una hipoteca y raza 

Datos: The Boston Fed HMDA 

• Solicitudes individuales de hipoteca para familias 

unipersonales en 1990 en el área de Boston 

• 2380 observaciones, recogidas bajo Home Mortgage 

Disclosure Act (HMDA) 

Variables 

• Variable dependiente: 

oConcesión o denegación de la hipoteca 

• Variables independientes: 

oRenta, riqueza, situación laboral 

oOtros préstamos, características de la casa 

oRaza del solicitante 

9-2

El modelo de probabilidad lineal 

(SW Sección 9.1) 

Un punto de partida natural es el modelo de regresión lineal 

con un único regresor: 

Yi = β0 + β1Xi + ui 

Pero: 

• ¿Qué significa β1 cuando Y es binaria? ¿Es β1 = Y ∆ 

∆ X 

? 

• ¿Qué significa la recta β0 + β1X cuando Y es binaria? 

• ¿Qué significa el valor estimado Y ˆ cuando Y es binaria? 

Por ejemplo, ¿qué significa Y ˆ = 0.26? 

9-3

El modelo de probabilidad lineal (cont.) 


Recordemos la hipótesis #1: E(ui|Xi) = 0, por tanto: 

E(Yi|Xi) = E(β0 + β1Xi + ui|Xi) = β0 + β1Xi 

Cuando Y es binaria, 

E(Y) = 1×Pr(Y=1) + 0×Pr(Y=0) = Pr(Y=1) 

así que se tiene, 

E(Y|X) = Pr(Y=1|X) 

9-4

El modelo de probabilidad lineal (cont.) 

Cuando Y es binaria, el modelo de regresión lineal 


recibe el nombre de modelo de probabilidad lineal. 

• El valor estimado es una probabilidad: 

oE(Y|X=x) = Pr(Y=1|X=x) = prob. de Y = 1 dado x 

oY ˆ = la probabilidad estimada de que Yi = 1, dado X 

• β1 = cambio en la probabilidad de que Y = 1 para un ∆x dado: 

Pr( Y = 1| X = x+∆x) − Pr( Y = 1| X = x) 

β1 = 

∆x 

Ejemplo: modelo de probabilidad lineal, datosHMDA 

9-5

Denegación de hipotecas vs. ratio préstamos a pagar/renta 

(P/I ratio) en el conjunto de datos HMDA (subconjunto de 

dichos datos) 

9-6

9-7

Modelo de probabilidad lineal: datos HMDA 

deneg = -.080 + .604 P/I ratio (n = 2380) 

(.032) (.098) 

• ¿Cuál es el valor estimado para P/I ratio = .3? 

Pr(deneg=1 | P/I ratio=.3) = -.080 + .604×.3 = .151 

• Calculando “efectos:” increm. de P/I ratio de .3 a .4: 

Pr(deneg=1 | P/I ratio=.4) = -.080 + .604×.4 = .212 

El efecto sobre la probabilidad de denegación de la 

hipoteca de un incremento en el P/I ratio de .3 to .4 es que 

se incrementa dicha probabilidad en .061, es decir, en 6.1 

puntos porcentuales. 

9-8

Incluyamos ahora la variable negro como un regresor (negro 

vale 1 para individuos de raza negra): 

deneg = -.091 + .559 P/I ratio + .177 black 

(.032) (.098) (.025) 

Probabilidad estimada de denegación de la hipoteca: 

• para un solicitante negro con P/I ratio = .3: 

Pr(deneg=1) = -.091 + .559×.3 + .177×1 = .254 

• para un solicitante blanco con P/I ratio = .3: 

Pr(deneg=1) = -.091 + .559×.3 + .177×0 = .077 

• diferencia = .177 = 17.7 puntos porcentuales 

• El coeficiente de negro es significativo al 5% 

• Todavía habrá muchas variables omitidas (sesgo)… 

9-9

El modelo de probabilidad lineal: Resumen 

• Modeliza la probabilidad como una función lineal de X 

• Ventajas: 

oEstimación e interpretación sencillas 

oLa inferencia es la misma que en el modelo de regresión 

múltiple (necesitamos errores estándar robustos a 

heterocedasticidad) 

• Desventajas: 

o¿Tiene sentido que la probabilidad sea lineal en X? 

oLas probabilidades estimadas pueden ser 1! 

• Este problema puede resolverse utilizando un modelo de 

probabilidad no lineal: regresión probit y logit 

9-10

Probit and Logit Regression 

(SW Section 9.2) 

El problema con el modelo de probabilidad lineal es que 

modeliza la probabilidad de Y=1 con una función lineal: 

Pr(Y = 1|X) = β0 + β1X 

Sin embargo, queremos que: 

• 0 ≤ Pr(Y = 1|X) ≤ 1 para todo X 

• Pr(Y = 1|X) creciente en X (para β1>0) 

Esto requiere una forma functional no lineal para la 

probabilidad. ¿Qué tal una curva en forma de “S”…? 

9-11

El modelo probit satisface estas condiciones: 

• 0 ≤ Pr(Y = 1|X) ≤ 1 para todo X 

• Pr(Y = 1|X) es creciente en X (para β1>0) 

9-12

La regresión probit modeliza la probabilidad de que Y=1 

usando la función de distribución de la normal estándar, 

evaluada en z = β0 + β1X: 

Pr(Y = 1|X) = Φ(β0 + β1X) 

• Φ es la función de distribución normal. 

• z = β0 + β1X es el “valor z” ó “índice z” del modelo 

probit 

Ejemplo: Supongamos que β0 = -2, β1= 3, X = .4, por tanto: 

Pr(Y = 1|X=.4) = Φ(-2 + 3×.4) = Φ(-0.8) 

Pr(Y = 1|X=.4) = área bajo la densidad de la normal estándar 

que queda a la izquierda de z = -.8, que es… 

9-13

Pr(Z ≤ -0.8) = .2119 

9-14

Regresión probit (cont.) 

¿Por qué usar la distribución de probabilidad acumulada de la 

normal? 

• La curva “en forma de S” nos da lo que queremos: 

o 0 ≤ Pr(Y = 1|X) ≤ 1 para todo X 

o Pr(Y = 1|X) creciente en X (para β1>0) 

• Es fácil de usar – las probabilidades están tabuladas en las 

tablas de la normal 

• Tiene una interpretación relativamente directa: 

o valor z = β0 + β1X 

ˆ ˆ β X es el valor z estimado, dado X 

o β 0 + 1 

oβ1 es el cambio en el valor z para un cambio unitario en X 

9-15

Ejemplo de STATA: datos HMDA 

. probit deny p_irat, r; 

Iteration 0: log likelihood = -872.0853 We’ll discuss this later 

Iteration 1: log likelihood = -835.6633 



Probit estimates Number of obs = 2380 

Wald chi2(1) = 40.68 

Prob > chi2 = 0.0000 

Log likelihood = -831.79234 Pseudo R2 = 0.0462 

------------------------------------------------------------------------------ 

| Robust 

deny | Coef. Std. Err. z P>|z| [95% Conf. Interval] 

-------------+---------------------------------------------------------------p_irat 

| 2.967908 .4653114 6.38 0.000 2.055914 3.879901 

_cons | -2.194159 .1649721 -13.30 0.000 -2.517499 -1.87082 

------------------------------------------------------------------------------ 

Pr(deneg=1 | P/I ratio) = Φ(-2.19 + 2.97×P/I ratio) 

(.16) (.47) 

9-16

Ejemplo de STATA: datos HMDA (cont.) 

Pr(deneg=1 | P/I ratio) = Φ(-2.19 + 2.97 × P/I ratio) 

(.16) (.47) 

• Coeficiente positivo: ¿tiene sentido? 

• Los errores estándar tienen la interpretación habitual 

• Probabilidades estimadas: 

Pr(deneg=1 | P/I ratio=0.3) = Φ(-2.19 + 2.97 × .3) 

= Φ(-1.30) = .097 

• Efecto del cambio en P/I ratio de .3 a .4: 

Pr(deneg=1 | P/I ratio=0.4) = Φ(-2.19+2.97×.4) = .159 

La probabilidad estimada de no concesión de hipoteca se 

incrementa, pasando de .097 a .159 

9-17

Regresión probit con varios regresores 

Pr(Y = 1|X1, X2) = Φ(β0 + β1X1 + β2X2) 

• Φ es la función de distribución normal acumulada. 

• z = β0 + β1X1 + β2X2 es el “valor z” ó “índice z” del modelo 

probit 

• β1 es el efecto en el “valor z” de un cambio unitario en X1, 

manteniendo constante X2 

9-18


. probit deny p_irat black, r; 






Wald chi2(2) = 118.18 

Prob > chi2 = 0.0000 


------------------------------------------------------------------------------ 

| Robust 


-------------+---------------------------------------------------------------p_irat 

| 2.741637 .4441633 6.17 0.000 1.871092 3.612181 

black | .7081579 .0831877 8.51 0.000 .545113 .8712028 

_cons | -2.258738 .1588168 -14.22 0.000 -2.570013 -1.947463 

------------------------------------------------------------------------------ 

Veremos después los detalles de la estimación… 

9-19

Ejemplo de STATA: probabilidades probit estimadas 

. probit deny p_irat black, r; 


Wald chi2(2) = 118.18 

Prob > chi2 = 0.0000 


------------------------------------------------------------------------------ 

| Robust 


-------------+---------------------------------------------------------------p_irat 

| 2.741637 .4441633 6.17 0.000 1.871092 3.612181 

black | .7081579 .0831877 8.51 0.000 .545113 .8712028 

_cons | -2.258738 .1588168 -14.22 0.000 -2.570013 -1.947463 

------------------------------------------------------------------------------ 

. sca z1 = _b[_cons]+_b[p_irat]*.3+_b[black]*0; 

. display "Pred prob, p_irat=.3, white: "normprob(z1); 

Pred prob, p_irat=.3, white: .07546603 

NOTE 

_b[_cons] is the estimated intercept (-2.258738) 

_b[p_irat] is the coefficient on p_irat (2.741637) 

sca creates a new scalar which is the result of a calculation 

display prints the indicated information to the screen 

9-20

Ejemplo de STATA: datos HMDA (cont.) 

Pr(deneg=1 | P/I, negro) = 

=Φ(-2.26 + 2.74×P/I ratio + .71×black) 

(.16) (.44) (.08) 

• ¿El coeficiente de negro es estadísticamente significativo? 

• Valor estimado de la raza para P/I ratio = .3: 

Pr(deneg=1 | .3, 1) = Φ(-2.26+2.74×.3+.71×1) = .233 

Pr(deneg=1 | .3, 0) = Φ(-2.26+2.74×.3+.71×0) = .075 

• Diferencia en las probabilidad de no concesión de la 

hipoteca = .158 (15.8 puntos porcentuales) 

• Todavía habrá muchas variables omitidas (sesgos)… 

9-21

Regresión logit 

La regresión logit modeliza la probabilidad de Y=1 como la 

función de distribución acumulada de la logística estándar, 

evaluada en z = β0 + β1X: 

Pr(Y = 1|X) = F(β0 + β1X) 

F es la función de distribución logística: 

F(β0 + β1X) = 

1+ 

e 

1 

− ( β + β X ) 

0 1 

9-22

Regresión logit (cont.) 

donde F(β0 + β1X) = 

Pr(Y = 1|X) = F(β0 + β1X) 

1+ 

e 

1 

− ( β + β X ) 

0 1 

Ejemplo: β0 = -3, β1= 2, X = .4, 

por tanto, β0 + β1X = -3 + 2×.4 = -2.2 

Pr(Y = 1|X=.4) = 1/(1+e –(–2.2) ) = .0998 

¿Por qué complicarse con el logit si tenemos el probit? 

• Históricamente, ha tenido ventajas computacionales 

• En la práctica, es muy similar al probit 

. 

9-23


. logit deny p_irat black, r; 

Iteration 0: log likelihood = -872.0853 Later… 





Logit estimates Number of obs = 2380 

Wald chi2(2) = 117.75 

Prob > chi2 = 0.0000 


------------------------------------------------------------------------------ 

| Robust 


-------------+---------------------------------------------------------------p_irat 

| 5.370362 .9633435 5.57 0.000 3.482244 7.258481 

black | 1.272782 .1460986 8.71 0.000 .9864339 1.55913 

_cons | -4.125558 .345825 -11.93 0.000 -4.803362 -3.447753 

------------------------------------------------------------------------------ 

. dis "Pred prob, p_irat=.3, white: " 

> 1/(1+exp(-(_b[_cons]+_b[p_irat]*.3+_b[black]*0))); 

Pred prob, p_irat=.3, white: .07485143 

NOTE: the probit predicted probability is .07546603 

9-24

Las probabilidades estimadas de los modelos probit y logit 

son habitualmente muy parecidas. 

9-25

Estimación e Inferencia en Modelos Probit (y Logit) (SW 

Sección 9.3) 

Modelo probit: 

Pr(Y = 1|X) = Φ(β0 + β1X) 

• Estimación e inferencia 

o¿Cómo estimar β0 y β1? 

o¿Cuál es la distribución muestral de los estimadores? 

o¿Por qué podemos utilizar los métodos de inferencia 

habituales? 

• Veamos primero mínimos cuadrados no lineales (más fácil de 

explicar) 

• Después veamos estimación por máxima verosimilitud (es lo que 

se hace en la práctica en estos modelos) 

9-26

Estimación probit por mínimos cuadrados no lineales 

Recordemos MCO: 

n 

∑ 

min [ Y − ( b + b X )] 

b0, b1 i 0 1 i 

i= 

1 

• El resultado son los estimadores MCO 0 

ˆ 

2 

ˆ β 

β y 1 

En el probit, tenemos una función de regresión diferente, el 

modelo probit no lineal. Entonces, podríamos estimar β0 y β1 por 

mínimos cuadrados no lineales: 

n 

∑ 

min [ Y −Φ ( b + b X )] 

b0, b1 i 0 1 i 

i= 

1 

La solución de este problema lleva al estimador de mínimos 

cuadrados no lineales de los coeficientes probit. 

2 

9-27

Mínimos cuadrados no lineales (cont.) 

n 

∑ 

min [ Y −Φ ( b + b X )] 

b0, b1 i 0 1 i 

i= 

1 

¿Cómo resolver este problema de minimización? 

• No tenemos una solución explícita. 

• Debe resolverse numéricamente usando un ordenador, es decir, por 

un método de “prueba y error”, probando con un conjunto de valores 

para (b0,b1), luego probando otro, y otro... 

• Una idea mejor: usar algoritmos específicos de minimización 

• En la práctica, no se utiliza mínimos cuadrados no lineales porque 

no es eficiente; un estimador con una varianza menor es... 

2 

9-28

Estimación probit por máxima veosimilitud 

La función de verosimilitud es la densidad condicional de 

Y1,…,Yn dados X1,…,Xn, entendida como función de los 

parámetros desconocidos β0 y β1. 

• El estimador de máxima verosimilitud (EMV ó MLE en 

inglés) es el valor de (β0, β1) que maximiza la función de 

verosimilitud. 

• El EMV (MLE) es el valor de (β0, β1) que mejor describe la 

distribución de los datos. 

• En muestras grandes, el EMV (MLE) es: 

oconsistente 

ose distribuye como una normal 

oeficiente (es el estimador de menor varianza) 

9-29

Caso especial: EMV (MLE) probit sin X 

⎧1 

Y= ⎨ 

(distribución Bernoulli) 

⎩0 

Datos: Y1,…,Yn, i.i.d. 

La obtención de la verosimilitud empieza con la densidad de 

Y1: 

Pr(Y1 = 1) = p y Pr(Y1 = 0) = 1–p 

Por tanto, 

con 

con 

probabilid 

probabilid 

ad 

ad 

p 

1− 

p 

y1 1 y1 

Pr(Y1 = y1) = p (1 p) − 

− (comprobar para y1=0, 1) 

9-30

Densidad conjunta de (Y1,Y2): 

Dado que Y1 y Y2 son independientes, 

Pr(Y1 = y1,Y2 = y2) = Pr(Y1 = y1) × Pr(Y2 = y2) 

y1 1 y1 

= [ p (1 p) − 

y2 1 y2 

− ]× [ p (1 p) − 

− ] 

Densidad conjunta de (Y1,..,Yn): 

Pr(Y1 = y1,Y2 = y2,…,Yn = yn) 

y1 1 y1 

= [ p (1 p) − 

y2 1 y2 

− ]× [ p (1 p) − 

yn 1 yn 

− ]×…× [ p (1 p) − 

− ] 

= 

n 

y 

i 1 p 

∑ = (1 − p) 

−∑ 

( 

n 

) n yi 

i i= 

1 

La verosimilitud es la densidad conjunta, entendida como 

función de los parámetros desconocidos, que están en p: 

9-31

f(p;Y1,…,Yn) = 

n 

Y 

i 1 p 

∑ = (1 − p) 

−∑ 

( 

n 

) n Yi 

i i= 

1 

El EMV (MLE) maximiza la verosimilitud. Se suele trabajar con 

el logaritmo de la verosimilitud, ln[f(p;Y1,…,Yn)]: 

ln[f(p;Y1,…,Yn)] = ( ∑ 

n 

) ( ∑ 

n 

) 

i i 

dln f( p; Y1,..., Yn) 

dp 

Y ln( p) + n− Y ln(1 − p) 

i= 1 i= 

1 

1 ⎛ −1 

⎞ 

+ − 

p 

⎜ 

1− 

p 

⎟ 

⎝ ⎠ 

= ( 

n 

) ( 

n 

Y ) 

i n Yi 

∑ ∑ = 0 

i= 1 i= 

1 

Resolviendo para p se obtiene el EMV (MLE); es decir, ˆ MLE 

p , 

satisface, 

9-32

ó 

1 ⎛ −1 

⎞ 

+ − MLE MLE 

pˆ ⎜ 

1− 

pˆ 

⎟ 

⎝ ⎠ 

( 

n 

) ( 

n 

Y ) 

1 i n Y 

i= i= 

1 i 

∑ ∑ = 0 

1 1 

pˆ 1− 

pˆ 

( ∑ 

n 

) ( 

n 

Y ) 

i 1 i = n−∑ Y 

= i= 

1 i 

MLE MLE 

ó (dividiendo por n y reordenando términos), 

ó 

Y pˆ 

= 

1−Y 1− 

pˆ 

MLE 

MLE 

ˆ MLE 

p = Y = proporción de 1’s 

9-33

El estimador EMV (MLE) en el caso “sin X” (distribución 

Bernoulli): 

ˆ MLE 

p = Y = proporción de 1’s 

• Para Yi i.i.d. Bernoulli, el EMV (MLE) es el estimador “natural” 

de p, la proporción de 1’s, que es Y 

• Ya conocemos los aspectos básicos de la inferencia: 

oPara n grande, la distribución muestral de ˆ MLE 

p = Y es una 

distribución normal 

oPor tanto, la inferencia es “la habitual”: contrastes de 

hipótesis mediante el estadístico t, intervalos de confianza 

basados en ±1.96SE 

• Nota de STATA: para destacar que se requiere n grande, la salida de 

STATA se refiere al estadístico z en lugar de al estadístico t ; 

estadístico chi-cuadrado (= q×F) en lugar de estadístico F. 

9-34

La verosimilitud probit con un regresor X 

Su obtención empieza con la densidad de Y1, dado X1: 

Pr(Y1 = 1|X1) = Φ(β0 + β1X1) 

Pr(Y1 = 0|X1) = 1–Φ(β0 + β1X1) 

Por tanto, 

y1 1− 

y1 

Pr(Y1 = y1|X1) = Φ ( β + β X ) [1 −Φ ( β + β X )] 

0 1 1 0 1 1 

La función de verosimilitud probit es la densidad conjunta de 

Y1,…,Yn dados X1,…,Xn, entendida como función de β0, β1: 

f(β0,β1; Y1,…,Yn|X1,…,Xn) 

Y1 1−Y1 

= { Φ ( β + β X ) [1 −Φ ( β + β X )] }× 

0 1 1 0 1 1 

Yn 1−Yn 

…×{ Φ ( β + β X ) [1 −Φ ( β + β X )] } 

0 1 n 0 1 n 

9-35

La función de verosimilitud probit: 

f(β0,β1; Y1,…,Yn|X1,…,Xn) 

Y1 1−Y1 

= { Φ ( β + β X ) [1 −Φ ( β + β X )] }× 

0 1 1 0 1 1 

Yn 1−Yn 

…×{ Φ ( β + β X ) [1 −Φ ( β + β X )] } 

0 1 n 0 1 n 

• No se puede obtener el máximo de forma explícita 

• Hay que maximizar utilizando métodos numéricos 

• Como en el caso “sin X”, en muestras grandes: 

o ˆ 

0 

MLE 

β , ˆ MLE 

β 1 son consistentes 

ˆ MLE 

β siguen distribución normal 

o ˆ 

0 

MLE 

β , 1 

oLos errores estándar puede computarse 

oContrastes e intervalos de confianza: los usuales 

Para varios X’s, ver SW Apéndice. 9.2 

9-36

La verosimilitud logit con un X 

• La única diferencia entre el probit y el logit es la forma 

functional que se utiliza para la probabilidad: en el logit, Φ 

se reemplaza por la distrbución logística. 

• Por lo demás, la verosimilitud es similar; ver los detalles 

en SW Apéndice. 9.2 

• Al igual que en el probit, 

o ˆ 

0 

MLE 

β , ˆ MLE 

β 1 son consistentes 

ˆ MLE 

β tienen distribución normal 

o ˆ 

0 

MLE 

β , 1 

oSus errores estándar pueden computarse 

oContrastes e intervalos de confianza: los usuales 

9-37

Medidas de bondad de ajuste 

R 2 y 

medidas de ajuste en este contexto son: 

2 

R no tienen sentido en este contexto (por qué?). Dos 

1. La proporción de predicciones correctas = proporción de 

Y’s para las que la probabilidad estimada es >50% (si 

Yi=1) ó es

Distribución del EMV (MLE) para n grande (no está en SW) 

• La calcularemos para el caso especial “sin X”, para el que p es el 

único parámetro desconocido. Pasos a seguir: 

1. Obtener el log de la verosimilitud (“Λ(p)”) (hecho). 

2. Encontrar el EMV (MLE) igualando a cero la derivada del 

log-verosimilitud; esto requiere resolver una ecuación no 

lineal 

3. Para n grande, ˆ MLE 

p estará cerca del verdadero p (p true ), así 

que la ecuación no lineal puede aproximarse (localmente) por 

una ecuación lineal (expansión de Taylor alrededor de p true ). 

4. Dicha ecuación puede resolverse para ˆ MLE 

p – p true . 

5. Por la LGN y el TCL, para n grande, n ( ˆ MLE 

p – p true ) sigue 

distribución normal. 

9-39

1. Obtener el log de la verosimilitud: 

Recuerda que: la densidad para la observación #1 es: 

y1 1 y1 

Pr(Y1 = y1) = p (1 p) − 

− 

Por tanto, 

(densidad) 

Y1 1 Y1 

f(p;Y1) = p (1 p) − 

− 

La verosimilitud para Y1,…,Yn es, 

(verosimilitud) 

f(p;Y1,…,Yn) = f(p;Y1) ×…× f(p;Yn) 

por tanto el log de la verosimilitud es, 

Λ(p) = lnf(p;Y1,…,Yn) 

= ln[f(p;Y1) ×…× f(p;Yn)] 

= 

n 

∑ 

i= 

1 

ln f ( pY ; ) 

i 

9-40

2. Igualar a cero la derivada de Λ(p) para obtener el EMV 

(MLE): 

∂L( 

p) 

∂p 

pˆ 

MLE 

= 

n ∂ln 

f( p; Yi) 

∑ = 0 

∂p 

MLE 

i= 1 pˆ 

3. Utilizar una expansión de Taylor alrededor de p true para 

aproximar la ecuación no lineal como una ecuación lineal de 

ˆ MLE 

p : 

0 = 

∂L( 

p) 

∂p 

pˆ 

MLE 

≈ 

∂L( 

p) 

∂p 

true 

p 

+ 

∂ 

L( 

p) 

2 

∂p 

2 

true 

p 

( ˆ MLE 

p – p true ) 

9-41

4. Resolver esta aproximación lineal para ( ˆ MLE 

p – p true ): 

∂L( 

p) 

∂p 

Por tanto, 

ó 

∂ 

2 

true 

p 

L( 

p) 

2 

∂p 

+ 

∂ 

true 

p 

L( 

p) 

2 

∂p 

2 

true 

p 

( ˆ MLE 

p – p true ) ≈ – 

( ˆ MLE 

p – p true ) ≈ 0 

∂L( 

p) 

∂p 

( ˆ MLE 

p – p true ⎡ 2 

∂ L ( p) 

⎤ ∂L( 

p) 

) ≈ – ⎢ 2 ⎥ 

⎢ ∂p 

true ⎣ p ⎥⎦ 

∂p 

−1 

true 

p 

true 

p 

9-42

5. Sustituir y aplicar la LGN y el TCL. 

∂L( 

p) 

∂p 

∂ 

L( 

p) 

2 

∂p 

2 

Por tanto, 

Λ(p) = 

true 

p 

true 

p 

= 

n 

∑ 

i= 

1 

= 

n 

∑ 

ln f ( pY ; ) 

∂ln 

f( p; Yi) 

∂p 

i= 1 

p 

∂ 

i 

ln f( p; Y ) 

true 

n 2 

i 

i= 1 

2 

∂p 

p 

∑ 

( ˆ MLE 

p – p true ⎡ 2 

∂ L ( p) 

⎤ ∂L( 

p) 

) ≈ – ⎢ 2 ⎥ 

⎢ ∂p 

true ⎣ p ⎥⎦ 

∂p 

= 

−1 

∑ 

⎣ ⎝ ⎠⎦ 

true 

true 

p 

−1 

⎡ n ⎛ 2 

ln f( p; Yi) 

⎞⎤ 

n 

∂ 

∂ln 

f( p; Yi) 

⎢ ⎜−⎥ 2 ⎟ 

⎢ ⎜ i= 1 ∂p 

⎟ true 

p ⎥ i= 1 ∂p 

p 

⎛ ⎞ 

∑ 

⎜ ⎟ 

⎜ ⎟ true 

⎝ ⎠ 

9-43

Multiplicar ambos miembros por n : 

n ( ˆ MLE 

p – p true ) ≈ 

⎡ n 2 

1 ⎛ ∂ ln f( p; Yi) 

⎞⎤ 

⎢ ∑⎜−2⎟⎥ 

⎢n ⎜ i= 1 ∂p 

⎟ true 

⎣ ⎝ p ⎠⎥⎦ 

−1 

⎡ n 1 ⎛∂ln f( p; Yi) 

⎞⎤ 

⎢ ∑ ⎜ ⎟⎥ 

⎢ n ⎜ i= 1 ∂p 

⎟ true 

⎣ ⎝ p ⎠⎥⎦ 

Dado que Yi es i.i.d., los terminus i-ésimos en los sumandos 

también son i.i.d. Entonces, si esos términos tienen 

suficientes momentos (en concreto 2), bajo condiciones 

generales (no sólo bajo distribución Bernoulli): 

9-44

⎛ ⎞ 

n 2 

1 ∂ ln f( p; Yi) 

∑ ⎜−2⎟ n ⎜ i= 1 ∂p 

⎟ true 

p 

p 

⎝ ⎠ 

1 ⎛∂ln f( p; Y ) ⎞ 

n 

∑ 

i 

⎜ ⎟ 

⎜ i 1 ∂p 

⎟ true 

p 

d 

n = 

⎝ ⎠ 

Poniendo todo junto, 

n ( ˆ MLE 


⎡ n 2 

1 ⎛ ∂ ln f( p; Yi) 

⎞⎤ 

⎢ ∑⎜−2⎟⎥ 

⎢n ⎜ i= 1 ∂p 

⎟ true 

⎣ ⎝ p ⎠⎥⎦ 

→ a ( constante) (LDGN) 

→ N(0, σ ) (TCL) (¿Por qué?) 

2 

ln f 

−1 

⎡ n 1 ⎛∂ln f( p; Yi) 

⎞⎤ 

⎢ ∑ 

⎜ ⎟⎥ 

⎢ n ⎜ i= 1 ∂p 

⎟ true 

⎣ ⎝ p ⎠⎥⎦ 

9-45

⎛ ∂ 

⎞ 

n 2 

1 ln f( p; Yi) 

∑ ⎜−2⎟ n ⎜ i= 1 ∂p 

⎟ true 

p 

p 

⎝ ⎠ 

1 ⎛∂ln f( p; Y ) ⎞ 

n 

∑ 

i 

⎜ ⎟ 

⎜ i 1 ∂p 

⎟ true 

p 

d 

n = 

Por tanto, 

⎝ ⎠ 

n ( ˆ MLE 

p – p true ) d 

→ N(0, 

→ a (constante) (LDGN) 

→ N(0, σ ) (TCL) (¿Por qué?) 

2 

ln f 

2 

ln f 

σ /a 2 ) 

Desarrollo de los detalles para el caso probit/sin X 

(Bernoulli): 

9-46

Recuerda que: 

Por tanto, 

y 

y 

∂ 

2 

∂ 

f(p;Yi) = 

p (1 p) − 

− 

Y 1 Y 

i i 

ln f(p;Yi) = Yilnp + (1–Yi)ln(1–p) 

ln f ( pY , i ) 

∂p 

ln f ( pY , i ) 

2 

∂p 

= 

Yi 1− 

Yi 

− = 

p 1− 

p 

Y 1− 

Y 

p (1 − p) 

i i 

= − − 2 2 

Yi−p p(1 − p) 

⎛ Y 1− 

Y ⎞ 

⎜ 

p (1 − p) 

⎟ 

⎝ ⎠ 

i i 

= − + 2 2 

9-47

Denominador: 

2 

∂ ln f ( pY , i ) 

2 

∂p 

Por tanto, 

⎛ ∂ 

⎞ 

⎛ Y 1− 

Y ⎞ 

⎜ 

p (1 − p) 

⎟ 

⎝ ⎠ 

i i 

= − + 2 2 

n 2 

n 


1 Y 

∑ i 1−Yi 

⎜−2⎟ = + 2 2 

n ⎜ i= 1 ∂p 

⎟ true n p 

i= 

1 p (1 − p) 

⎝ ⎠ 

= + 2 2 

p 

→ 2 2 

= 1 1 

⎛ ⎞ 

∑ ⎜ ⎟ 

⎝ ⎠ 

Y 1− 

Y 

p (1 − p) 

p 1− 

p 

+ (LGN) 

p (1 − p) 

1 

+ = 

p 1− 

p p(1 − 

p) 

9-48

Numerador: 

so 

∂ 

ln f ( pY , i ) 

∂p 

= 

Yi−p p(1 − p) 

n 1 ⎛∂ln f( p; Yi) 

⎞ 

∑ ⎜ ⎟ = 

n ⎜ i= 1 ∂p 

⎟ true 

⎝ p ⎠ 

= 

1 

i 

n 

∑ 

n = 

⎛ 1 ⎞ 1 

n 

⎜ 

p(1 p) ⎟ 

⎝ − ⎠ n i= 

1 

∑ 

d 

2 

σY 

→ N(0, 

[ p(1 − p)] 

1 

Yi−p p(1 − p) 

2 

) 

( Y − p) 

i 

9-49

Poniendo todo junto: 

n ( ˆ MLE 


⎡ n 2 

1 ⎛ ∂ ln f( p; Yi) 

⎞⎤ 

⎢ ∑⎜−2⎟⎥ 

⎢n ⎜ i= 1 ∂p 

⎟ true 

⎣ ⎝ p ⎠⎥⎦ 

donde 

⎛ ∂ 

⎞ 

n 2 


∑ ⎜−2⎟ n ⎜ i= 1 ∂p 

⎟ true 

p 

p 

⎝ ⎠ 

1 ⎛∂ln f( p; Y ) ⎞ 

n 

∑ 

i 

⎜ ⎟ 

⎜ i 1 ∂p 

⎟ true 

p 

d 

n = ⎝ ⎠ 

De donde, 

−1 

⎡ n 1 ⎛∂ln f( p; Yi) 

⎞⎤ 

⎢ ∑ ⎜ ⎟⎥ 

⎢ n ⎜ i= 1 ∂p 

⎟ true 

⎣ ⎝ p ⎠⎥⎦ 

→ 

n ( ˆ MLE 


→ N(0, 

1 

p(1 − p) 

2 

σY 

→ N(0, 

[ p(1 − p)] 

σ ) 

2 

Y 

2 

) 

9-50

Resumen: EMV (MLE) probit , caso “sin X” 

El EMV (MLE): ˆ MLE 

p = Y 

Trabajando sobre la teoría de la distribución del EMV (MLE), 

llegamos a que: 

n ( ˆ MLE 


→ N(0, 

σ ) 

Pero dado que p true = Pr(Y = 1) = E(Y) = µY, tenemos que: 

n (Y – µY) d 

→ N(0, σ ) 

Un resultado visto en las primeras clases de Econometría! 

2 

Y 

2 

Y 

9-51

La derivación del EMV (MLE) utiliza de forma general: 

n ( ˆ MLE 


→ N(0, 

2 

σ ln f /a 2 )) 

• Los errores estándar se obtienen encontrando expresiones para 

2 

σ ln f /a 2 

• Extensión a varios parámetros (β0, β1) mediante cálculo matricial 

• Dado que la distribución es normal para n grande, la inferencia 

se lleva a cabo de la forma habitual, opr ejemplo, el intervalo de 

confianza al 95% es MLE ± 1.96SE. 

• La expresión de arriba utiliza errores estándar “robustos”. Se 

puede simplificar al caso de errores estándar no robustos si 

∂ln f ( pY ; ) / ∂ pes 

homocedástico. 

i 

9-52

Resumen: distribution del EMV (MLE) 

• El EMV (MLE) sigue distribución normal para n grande 

• Hemos trabajado este resultado en detalle para el modelo probit 

“sin X” (distribución Bernoulli) 

• Para n grande, los intervalos de confianza y los contrastes de 

hipótesis se construyen de la forma usual. 

• Si el modelo está correctamente especificado, el EMV (MLE) es 

eficiente, es dicer, tiene menor varianza que cualquier otro 

estimador (esto no lo hemos desarrollado). 

• Estos métodos se extiende a otros modelos con variables 

dependientes discretas, por ejemplo, datos de recuento 

(# delitos/día) – ver SW Apéndice. 9.2. 

9-53

Aplicación a los datos de Boston HMDA 


• Las hipotecas son una parte esencial en la compra de una 

casa. 

• ¿Hay diferencias en el acceso a una hipoteca en función de 

la raza? 

• Si dos individuos, uno blanco y otro negro, que en lo 

demás son iguales, solicitan una hipoteca, ¿hay diferencias 

en la probabilidad de que la hipoteca sea denegada? 

9-54

El conjunto de datos HMDA 

• Datos sobre características individuales, características de la 

casa y concesión o denegación del préstamo 

• El proceso de solicitud de hipoteca en Boston 1990-1991: 

oIr a una entidad financiera 

oRellenar una solicitud (información personal y económica) 

oEntrevista con el agente del banco 

• El banco decide en función de la ley (sin prestar atención a la 

raza). Presumiblemente, el banco quiere otorgar préstamos 

beneficios para él y el agente quiere evitar potenciales 

problemas por falta de pago. 

9-55

La decisión del banco: 

• El banco utiliza información sobre variables financieras: 

oratioP/I 

o ratio gastos de la casa/renta del individuo 

o ratio cuantía del préstamo/valor de la casa 

o historial crediticio personal 

• La regla de decisión no es lineal: 

oRatio préstamo/valor > 80% 

oRatio préstamo/valor > 95% 

oPuntuación en otros créditos (en función de retrasos en el 

pago, etc) 

9-56

Especificaciones para la regresión 

Pr(deneg=1|negro, otras X’s) = … 

• modelo de probabilidad lineal 

• probit, logit 

Principal problema en todas las especificaciones: potencial 

sesgo de omisión de variables. Todas esas variables: (i) 

entran en la función de decisión del banco, (ii) están o 

podrían estar correlacionadas con la raza: 

• riqueza, tipo de trabajo 

• historial crediticio 

• estatus familiar 

Variables en los datos HMDA … 

9-57

9-58

9-59

9-60

9-61

9-62

Resumen de los resultados empíricos 

• Los coeficientes de las variables financieras tienen sentido. 

• Negro (black) es estadísticamente significativa en todas las 

especificaciones 

• Las interacción de la raza con variables financieras no son 

significativas. 

• La inclusión de otros regresores reduce sensiblemente el efecto 

de la reza sobre la probabilidad de denegación del préstamo. 

• MPL, probit, logit: estimaciones similares del efecto de la raza 

sobre la probabilidad de denegación del préstamo. 

• Los efectos estimados son bastante grandes. 

9-63

Amenazas a la validez interna y externa 

• Validez interna 

1. sesgo de variables omitidas 

• ¿qué información adicional obtiene el banco en la 

entrevista personal? 

2. forma funcional incorrecta (no…) 

3. errores de medidad (originalmente, sí; ahora, no…) 

4. selección 

• muestra aleatoria de solicitudes de préstamos 

• definir la población de solicitantes de préstamos 

5. causalidad simultánea (no) 

• Validez externa 

Análisis para Boston 1990-91. ¿Qué pasaría hoy? 

9-64

Resumen 


• Si Yi es binaria, entonces E(Y| X) = Pr(Y=1|X) 

• Tres modelos: 

omodelo de probabilidad lineal (regresión lineal múltiple) 

oprobit (distribución normal estándar) 

ologit (distribución logística estándar) 

• MPL, probit, logit producen probabilidades estimadas 

• El efecto de ∆X es el cambio en la probabilidad 

condicionada de Y=1. Para los modelos logit y probit, esto 

depende del valor inicial de X 

• Probit y logit se estiman por máxima verosimilitud 

9-65

oLos coeficientes siguen distribución normal para n 

grande. 

oLos contrastes de hipótesis e intervalos de confianza para 

n grande son los habituales. 

9-66

Econometria1-Transp-tema5-2

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?