Descargar PDF Curso 02 - Instituto de EconomÃa y Finanzas
Descargar PDF Curso 02 - Instituto de EconomÃa y Finanzas
Descargar PDF Curso 02 - Instituto de EconomÃa y Finanzas
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Introducción a la estadística bayesiana, aplicaciones y<br />
métodos<br />
Parte 2<br />
Ana Paula Palacios y Peter Diko<br />
Universidad Carlos III <strong>de</strong> Madrid<br />
22 <strong>de</strong> Marzo <strong>de</strong> 2011<br />
<strong>Instituto</strong> <strong>de</strong> Economía y <strong>Finanzas</strong><br />
Facultad <strong>de</strong> Ciencias Económicas<br />
U.N.C.<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 1 / 42
Programa<br />
1 Muestreo Monte Carlo<br />
2 Mo<strong>de</strong>lo Lineal<br />
3 WinBUGS<br />
4 Mo<strong>de</strong>los Jerárquicos<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 2 / 42
Programa<br />
Monte Carlo<br />
1 Muestreo Monte Carlo<br />
2 Mo<strong>de</strong>lo Lineal<br />
3 WinBUGS<br />
4 Mo<strong>de</strong>los Jerárquicos<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 3 / 42
Problema<br />
Monte Carlo<br />
El análisis bayesiano proporciona la distribución para θ, el parámetro <strong>de</strong><br />
interés<br />
f (θ|x) ∝ f (x|θ)f (θ)<br />
Tenemos interés en cuantías relacionadas con la distribución a posteriori:<br />
media,moda, mediana, cuantiles en general, intervalos <strong>de</strong> credibilidad.<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 4 / 42
Monte Carlo<br />
Problema<br />
El análisis bayesiano proporciona la distribución para θ, el parámetro <strong>de</strong><br />
interés<br />
f (θ|x) ∝ f (x|θ)f (θ)<br />
Tenemos interés en cuantías relacionadas con la distribución a posteriori:<br />
media,moda, mediana, cuantiles en general, intervalos <strong>de</strong> credibilidad.<br />
Complicaciones<br />
i<strong>de</strong>ntificar la constante <strong>de</strong> normalización <strong>de</strong> la a posteriori<br />
la distribución a posteriori pue<strong>de</strong> no ser tratable anaĺıticamente<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 4 / 42
Monte Carlo<br />
Solución<br />
Alternativa al tratamiento anaĺıtico<br />
construir una muestra θ 1 , θ 2 , . . . , θ n <strong>de</strong> la distribución a posteriori.<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 5 / 42
Monte Carlo<br />
Solución<br />
Alternativa al tratamiento anaĺıtico<br />
construir una muestra θ 1 , θ 2 , . . . , θ n <strong>de</strong> la distribución a posteriori.<br />
calcular la cuantía <strong>de</strong> interés muestral<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 5 / 42
Solución<br />
Monte Carlo<br />
Alternativa al tratamiento anaĺıtico<br />
construir una muestra θ 1 , θ 2 , . . . , θ n <strong>de</strong> la distribución a posteriori.<br />
calcular la cuantía <strong>de</strong> interés muestral<br />
por la Ley <strong>de</strong> los Gran<strong>de</strong>s Números la distribución empírica converge<br />
a la verda<strong>de</strong>ra<br />
∫<br />
∫<br />
Θ<br />
θf (θ|x)dθ ≈ 1 n<br />
Θ(θ − µ) 2 f (θ|x)dθ ≈ 1 n<br />
n∑<br />
i=1<br />
θ i<br />
n∑<br />
(θ i − µ) 2<br />
i=1<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 5 / 42
Monte Carlo<br />
Media a posteriori para beta(1498, 1519)<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 6 / 42
Monte Carlo<br />
Muestreo por inversión <strong>de</strong> F<br />
Enfoque para distribuciones univariantes.<br />
Necesitamos conocer la función <strong>de</strong> distribución F (x).<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 7 / 42
Monte Carlo<br />
Muestreo por inversión <strong>de</strong> F<br />
Enfoque para distribuciones univariantes.<br />
Necesitamos conocer la función <strong>de</strong> distribución F (x).<br />
Algoritmo<br />
1 Generamos un valor u <strong>de</strong> la distribución uniforme U(0, 1).<br />
2 La cuantía z = F −1 (u) es una observación aleatoria <strong>de</strong> F (x).<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 7 / 42
Monte Carlo<br />
Muestreo por inversión <strong>de</strong> F<br />
Enfoque para distribuciones univariantes.<br />
Necesitamos conocer la función <strong>de</strong> distribución F (x).<br />
Algoritmo<br />
1 Generamos un valor u <strong>de</strong> la distribución uniforme U(0, 1).<br />
2 La cuantía z = F −1 (u) es una observación aleatoria <strong>de</strong> F (x).<br />
Comprobaremos que Z = F −1 (U), don<strong>de</strong> U es uniforme (0, 1) tiene<br />
distribución F (x)<br />
P{Z ≤ x} = P{F −1 (U) ≤ x} = P{U ≤ F (x)} = F (x)<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 7 / 42
Rejection sampling<br />
Monte Carlo<br />
La clave es encontrar una distribución g(x) fácil <strong>de</strong> muestrear que cumpla<br />
para un m fijo<br />
en todo el soporte <strong>de</strong> f (x).<br />
f (x) ≤ m · g(x)<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 8 / 42
Rejection sampling<br />
Monte Carlo<br />
La clave es encontrar una distribución g(x) fácil <strong>de</strong> muestrear que cumpla<br />
para un m fijo<br />
en todo el soporte <strong>de</strong> f (x).<br />
Algoritmo<br />
f (x) ≤ m · g(x)<br />
1 Generamos un valor z <strong>de</strong> una distribución g(x).<br />
2 Calculamos el ratio R = f (z)<br />
m·g(z) .<br />
3 Generamos un valor u <strong>de</strong> una uniforme (0, 1). Acceptamos z como<br />
observación aleatoria <strong>de</strong> f (x) si u < R.<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 8 / 42
Monte Carlo<br />
Rejection sampling<br />
Ventajas<br />
No necesitamos conocer la constante <strong>de</strong> normalizazión. ∝ f (x)<br />
Válido para el caso multidimensional.<br />
Fácil <strong>de</strong> implementar.<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 9 / 42
Monte Carlo<br />
Rejection sampling<br />
Ventajas<br />
No necesitamos conocer la constante <strong>de</strong> normalizazión. ∝ f (x)<br />
Válido para el caso multidimensional.<br />
Fácil <strong>de</strong> implementar.<br />
Desventajas<br />
Encontrar la <strong>de</strong>nsidad g(x) pue<strong>de</strong> ser difícil.<br />
Si la g(x) no es buena, el algoritmo pue<strong>de</strong> ser ineficiente. Alta<br />
proporción <strong>de</strong> rechazos.<br />
Problemas en alta dimensión.<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 9 / 42
Monte Carlo<br />
Algoritmos MCMC<br />
Solución para casos <strong>de</strong> <strong>de</strong>nsida<strong>de</strong>s complejas y <strong>de</strong> alta dimensión.<br />
Particionamos la <strong>de</strong>nsidad a muestrear en <strong>de</strong>nsida<strong>de</strong>s multivariantes o<br />
univariantes más manejables.<br />
muestreo <strong>de</strong> una o varias dimensiones <strong>de</strong> la a posteriori<br />
exploración <strong>de</strong> todo el soporte <strong>de</strong> la distribución paso por paso<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 10 / 42
Monte Carlo<br />
Muestreo <strong>de</strong> Gibbs<br />
En estadística Bayesiana <strong>de</strong>s<strong>de</strong> Gelfand and Smith (1990).<br />
Conocido en física antes <strong>de</strong> 1990.<br />
Algoritmo apropiado en casos cuando<br />
el muestreo <strong>de</strong> la distribución conjunta no es posible<br />
conocemos las distribuciones condicionadas para cada dimensión (o<br />
bloques <strong>de</strong> dimensiones)<br />
f (θ 1 , θ 2 )<br />
f (θ 1 |θ 2 ), f (θ 2 |θ 1 )<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 11 / 42
Muestreo <strong>de</strong> Gibbs<br />
Monte Carlo<br />
Algoritmo<br />
1 Empezamos con unos valores iniciales <strong>de</strong> θ 0 1 , θ0 2 . j = 1<br />
2 Generamos una observación θ j 1<br />
<strong>de</strong> la distribución condicionada<br />
f (θ 1 |θ j−1<br />
2<br />
).<br />
3 Generamos una observación θ j 2<br />
<strong>de</strong> la distribución condicionada<br />
f (θ 2 |θ j 1 ).<br />
4 Siguiente paso j := j + 1 y volvemos al paso 2.<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 12 / 42
Muestreo <strong>de</strong> Gibbs<br />
Monte Carlo<br />
Algoritmo<br />
1 Empezamos con unos valores iniciales <strong>de</strong> θ 0 1 , θ0 2 . j = 1<br />
2 Generamos una observación θ j 1<br />
<strong>de</strong> la distribución condicionada<br />
f (θ 1 |θ j−1<br />
2<br />
).<br />
3 Generamos una observación θ j 2<br />
<strong>de</strong> la distribución condicionada<br />
f (θ 2 |θ j 1 ).<br />
4 Siguiente paso j := j + 1 y volvemos al paso 2.<br />
Obtenemos una ca<strong>de</strong>na <strong>de</strong> Markov (θ 0 1 , θ0 2 ), (θ1 1 , θ1 2 ), . . . , (θn 1 , θn 2 ) con<br />
distribución estacionaria f (θ 1 , θ 2 ).<br />
Decartando las primeras observaciones generadas, nos quedamos con la<br />
muestra aleatoria <strong>de</strong> la distribución a posteriori conjunta.<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 12 / 42
Muestreo <strong>de</strong> Gibbs<br />
Monte Carlo<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 13 / 42
Muestreo <strong>de</strong> Gibbs<br />
Monte Carlo<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 14 / 42
Monte Carlo<br />
Algoritmo <strong>de</strong> Metropolis-Hastings<br />
Algoritmo basado en Metropolis et al. (1958) para explicar movimiento <strong>de</strong><br />
partículas. Generalizado por Hastings (1970)<br />
proporciona muestra <strong>de</strong>l parámetro θ conjunto<br />
no necesitamos conocer la constante <strong>de</strong> normalización<br />
contiene paso <strong>de</strong> aceptación-rechazo<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 15 / 42
Monte Carlo<br />
Algoritmo <strong>de</strong> Metropolis-Hastings<br />
Algoritmo basado en Metropolis et al. (1958) para explicar movimiento <strong>de</strong><br />
partículas. Generalizado por Hastings (1970)<br />
proporciona muestra <strong>de</strong>l parámetro θ conjunto<br />
no necesitamos conocer la constante <strong>de</strong> normalización<br />
contiene paso <strong>de</strong> aceptación-rechazo<br />
Los candidatos se generan a partir <strong>de</strong> una distribución conveniente<br />
g(θ|θ j−1 ). Aceptación <strong>de</strong>l candidato se evalúa a base <strong>de</strong>l ratio<br />
R = f (θC )g(θ j−1 |θ C )<br />
f (θ j−1 )g(θ C |θ j−1 )<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 15 / 42
Monte Carlo<br />
Algoritmo <strong>de</strong> Metropolis-Hastings<br />
Algoritmo<br />
1 Empezamos con un valor inicial θ 0 , j = 1.<br />
2 Generamos un candidato θ C <strong>de</strong> la distribución g(θ|θ j−1 ).<br />
3 Calculamos el ratio<br />
R = f (θC )g(θ j−1 |θ C )<br />
f (θ j−1 )g(θ C |θ j−1 )<br />
4 Generamos u <strong>de</strong> una distribución uniforme (0, 1). Si u < R<br />
aceptamos el candidato θ j := θ C , en caso contrario θ j := θ j−1<br />
5 Siguiente paso j := j + 1 y volvemos al paso 2.<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 16 / 42
Monte Carlo<br />
Algoritmo <strong>de</strong> Metropolis-Hastings<br />
Obtenemos una ca<strong>de</strong>na <strong>de</strong> Markov θ 0 , θ 1 , . . . , θ n con distribución<br />
estacionaria f (θ) pero<br />
Mala elección <strong>de</strong>l punto inicial pue<strong>de</strong> complicar las cosas.<br />
Ratio <strong>de</strong> rechazos alto causará observaciones repetidas, mucha<br />
correlación <strong>de</strong> la ca<strong>de</strong>na y convergencia lenta.<br />
Ratio <strong>de</strong> rechazos bajo pue<strong>de</strong> significar exploración lenta <strong>de</strong>l espacio<br />
paramétrico.<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 17 / 42
Monte Carlo<br />
Algoritmo <strong>de</strong> Metropolis-Hastings<br />
Obtenemos una ca<strong>de</strong>na <strong>de</strong> Markov θ 0 , θ 1 , . . . , θ n con distribución<br />
estacionaria f (θ) pero<br />
Mala elección <strong>de</strong>l punto inicial pue<strong>de</strong> complicar las cosas.<br />
Ratio <strong>de</strong> rechazos alto causará observaciones repetidas, mucha<br />
correlación <strong>de</strong> la ca<strong>de</strong>na y convergencia lenta.<br />
Ratio <strong>de</strong> rechazos bajo pue<strong>de</strong> significar exploración lenta <strong>de</strong>l espacio<br />
paramétrico.<br />
Un ejemplo <strong>de</strong> la distribución <strong>de</strong> propuesta g(θ|θ j−1 )<br />
θ C ∼ N(θ j−1 , C)<br />
don<strong>de</strong> C pue<strong>de</strong> adaptarse según el ratio <strong>de</strong> aceptación.<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 17 / 42
Monte Carlo<br />
Otros enfoques<br />
Metropolis-within-Gibbs<br />
En caso <strong>de</strong> distribución conjunta muy compleja f (θ) la distribución se<br />
particiona f (θ 1 |θ 2 ), f (θ 2 |θ 1 ) para aplicar el algoritmo <strong>de</strong> Gibbs.<br />
Cada paso <strong>de</strong>l algoritmo <strong>de</strong> Gibbs requiere generar observaciones <strong>de</strong><br />
las condicionadas f (θ 1 |θ 2 ), f (θ 2 |θ 1 ) para lo que se emplea el<br />
algoritmo MH.<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 18 / 42
Monte Carlo<br />
Otros enfoques<br />
Metropolis-within-Gibbs<br />
En caso <strong>de</strong> distribución conjunta muy compleja f (θ) la distribución se<br />
particiona f (θ 1 |θ 2 ), f (θ 2 |θ 1 ) para aplicar el algoritmo <strong>de</strong> Gibbs.<br />
Cada paso <strong>de</strong>l algoritmo <strong>de</strong> Gibbs requiere generar observaciones <strong>de</strong><br />
las condicionadas f (θ 1 |θ 2 ), f (θ 2 |θ 1 ) para lo que se emplea el<br />
algoritmo MH.<br />
Slice sampling<br />
f (θ) ∝ h(θ)<br />
U|θ ∼ uniforme(0, h(θ))<br />
Se aplica muestreo <strong>de</strong> Gibbs a las condicionadas U|θ, θ|U para obtener la<br />
muestra <strong>de</strong> la distribución conjunta f (θ, U) y <strong>de</strong> ahí f (θ).<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 18 / 42
Monte Carlo<br />
Diagnóstico <strong>de</strong> convergencia<br />
Diagnóstico <strong>de</strong> Gelman y Rubin<br />
repetimos el algoritmo MCMC m veces con puntos iniciales dispersos<br />
obtenemos 2N observaciones <strong>de</strong> cada ca<strong>de</strong>na<br />
basándonos en las últimas N observaciones calculamos<br />
B<br />
N<br />
varianza entre las m medias<br />
W la media <strong>de</strong> las varianzas <strong>de</strong>ntro <strong>de</strong> las m ca<strong>de</strong>nas<br />
aproximamos la <strong>de</strong>nsidad a posteriori con la distribución t y<br />
<strong>de</strong>nominamos df sus grados <strong>de</strong> libertad<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 19 / 42
Monte Carlo<br />
Diagnóstico <strong>de</strong> convergencia<br />
Diagnóstico <strong>de</strong> Gelman y Rubin<br />
repetimos el algoritmo MCMC m veces con puntos iniciales dispersos<br />
obtenemos 2N observaciones <strong>de</strong> cada ca<strong>de</strong>na<br />
basándonos en las últimas N observaciones calculamos<br />
B<br />
N<br />
varianza entre las m medias<br />
W la media <strong>de</strong> las varianzas <strong>de</strong>ntro <strong>de</strong> las m ca<strong>de</strong>nas<br />
aproximamos la <strong>de</strong>nsidad a posteriori con la distribución t y<br />
<strong>de</strong>nominamos df sus grados <strong>de</strong> libertad<br />
El factor <strong>de</strong> reducción<br />
√ (N − 1<br />
√ˆR =<br />
N + m + 1 B<br />
mN W<br />
) df<br />
df − 2<br />
<strong>de</strong>termina la posibilidad <strong>de</strong> reducir la variabilidad <strong>de</strong> la distribución a<br />
posteriori al aumentar la muestra N → ∞.<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 19 / 42
Programa<br />
Mo<strong>de</strong>lo Lineal<br />
1 Muestreo Monte Carlo<br />
2 Mo<strong>de</strong>lo Lineal<br />
3 WinBUGS<br />
4 Mo<strong>de</strong>los Jerárquicos<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 20 / 42
Mo<strong>de</strong>lo Lineal<br />
Mo<strong>de</strong>lo <strong>de</strong> regresión lineal<br />
Especificación matricial<br />
Y = X β + e,<br />
e ∼ N(0, σ 2 eI n ),<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 21 / 42
Mo<strong>de</strong>lo Lineal<br />
Mo<strong>de</strong>lo <strong>de</strong> regresión lineal<br />
Especificación matricial<br />
función <strong>de</strong> verosimilitud<br />
Y = X β + e,<br />
L(β, σ 2 e; X , Y ) = (2πσ 2 e) −n/2 exp<br />
e ∼ N(0, σ 2 eI n ),<br />
{<br />
− 1<br />
}<br />
2σe<br />
2 (Y − X β) T (Y − X β) .<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 21 / 42
Mo<strong>de</strong>lo Lineal<br />
Mo<strong>de</strong>lo <strong>de</strong> regresión lineal<br />
Especificación matricial<br />
función <strong>de</strong> verosimilitud<br />
Y = X β + e,<br />
L(β, σ 2 e; X , Y ) = (2πσ 2 e) −n/2 exp<br />
Estimadores <strong>de</strong> máxima verosimilitud:<br />
e ∼ N(0, σ 2 eI n ),<br />
{<br />
− 1<br />
}<br />
2σe<br />
2 (Y − X β) T (Y − X β) .<br />
ˆβ = (X T X ) −1 (X T Y ),<br />
ˆσ 2 e = 1 n eT e,<br />
ACOV ( ˆβ) = ˆσ e(X 2 T X ) −1 ,<br />
( ) 2ˆσ<br />
SE(ˆσ e) 2 2 1/2<br />
= e<br />
n<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 21 / 42
Mo<strong>de</strong>lo Lineal<br />
Mo<strong>de</strong>lo <strong>de</strong> regresión lineal - algoritmo MH<br />
Especificación bayesiana<br />
y i ∼ N(X T<br />
i β, σ 2 e)<br />
con verosimilitud igual al caso clásico.<br />
A priori β ∝ 1 y σe 2 ∝ 1/σe 2 resulta en a posteriori<br />
{<br />
f (β, σe|X 2 , Y ) ∝ (σe) 2 −(n/2+1) exp − 1<br />
}<br />
2σe<br />
2 (Y − X β) T (Y − X β) .<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 22 / 42
Mo<strong>de</strong>lo Lineal<br />
Mo<strong>de</strong>lo <strong>de</strong> regresión lineal - algoritmo MH<br />
Especificación bayesiana<br />
y i ∼ N(X T<br />
i β, σ 2 e)<br />
con verosimilitud igual al caso clásico.<br />
A priori β ∝ 1 y σe 2 ∝ 1/σe 2 resulta en a posteriori<br />
{<br />
f (β, σe|X 2 , Y ) ∝ (σe) 2 −(n/2+1) exp − 1<br />
}<br />
2σe<br />
2 (Y − X β) T (Y − X β) .<br />
Se pue<strong>de</strong> aplicar el algoritmo MH directamente sobre el parámetro (β, σ 2 e).<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 22 / 42
Mo<strong>de</strong>lo Lineal<br />
Mo<strong>de</strong>lo <strong>de</strong> regresión lineal - muestreo <strong>de</strong> Gibbs<br />
La distribución condicional <strong>de</strong> σ 2 e|β<br />
{ }<br />
f (σe|β, 2 X , Y ) ∝ (σe) 2 (n/2)+1 exp − eT e<br />
2σe<br />
2<br />
es una gamma inversa con a = n/2 y b = e T e/2.<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 23 / 42
Mo<strong>de</strong>lo Lineal<br />
Mo<strong>de</strong>lo <strong>de</strong> regresión lineal - muestreo <strong>de</strong> Gibbs<br />
La distribución condicional <strong>de</strong> σ 2 e|β<br />
{ }<br />
f (σe|β, 2 X , Y ) ∝ (σe) 2 (n/2)+1 exp − eT e<br />
2σe<br />
2<br />
es una gamma inversa con a = n/2 y b = e T e/2.<br />
La distribución condicional <strong>de</strong> β|σe 2 es proporcional a<br />
{<br />
exp − 1<br />
}<br />
2σe<br />
2 (Y − X β) T (Y − X β)<br />
y <strong>de</strong>spués <strong>de</strong> una manipulación matricial se pue<strong>de</strong> expresar como<br />
{<br />
}<br />
1<br />
exp −<br />
2σe(X 2 T X ) −1 [βT β − 2β T (X T X ) −1 (X T Y )]<br />
completando el cuadrado en β se i<strong>de</strong>ntifica con una normal.<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 23 / 42
Mo<strong>de</strong>lo Lineal<br />
Mo<strong>de</strong>lo <strong>de</strong> regresión lineal - muestreo <strong>de</strong> Gibbs<br />
El muestreo <strong>de</strong> Gibbs se aplica a las condicionadas<br />
f (σ 2 e|β, X , Y ) ∼ IG(n/2, e T e/2)<br />
f (β|σ 2 e, X , Y ) ∼ N((X T X ) −1 (X T Y ), σ 2 e(X T X ) −1 )<br />
<strong>de</strong> forma eficiente dado que las distribuciones son <strong>de</strong> familias fácilmente<br />
muestreables.<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 24 / 42
Programa<br />
WinBUGS<br />
1 Muestreo Monte Carlo<br />
2 Mo<strong>de</strong>lo Lineal<br />
3 WinBUGS<br />
4 Mo<strong>de</strong>los Jerárquicos<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 25 / 42
WinBUGS<br />
WinBUGS<br />
WinBUGS es un software estadístico <strong>de</strong>sarrollado para implementar<br />
análisis bayesiano y que utiliza métodos MCMC para generar muestras <strong>de</strong><br />
la distribución a posteriori.<br />
http://www.mrc-bsu.cam.ac.uk/bugs/winbugs/contents.shtml<br />
No olvi<strong>de</strong>n instalar la clave <strong>de</strong> inmortalidad!!<br />
Se pue<strong>de</strong> ejecutar WinBUGS <strong>de</strong>s<strong>de</strong> otros softwares como R, Matlab y<br />
Excel.<br />
Fácil <strong>de</strong> usar y flexible, capaz <strong>de</strong> <strong>de</strong>scribir mo<strong>de</strong>los altamente<br />
complejos.<br />
Sólo hay que especificar el mo<strong>de</strong>lo y los datos.<br />
MCMC: Metropolis-within-Gibbs −→ Rejection sampling −→ Slice<br />
sampling.<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 26 / 42
WinBUGS<br />
Procedimiento<br />
1 Especificar el mo<strong>de</strong>lo<br />
2 Cargar los datos<br />
3 Compilar el mo<strong>de</strong>lo y los datos<br />
4 Inicialización: aleatoria o arbitraria<br />
5 Ejecución <strong>de</strong> las simulaciones y monitoreo <strong>de</strong> los parámetros<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 27 / 42
WinBUGS<br />
WinBUGS<br />
Instalación<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 28 / 42
WinBUGS<br />
WinBUGS<br />
Instalación<br />
Menú ayuda: manual y ejemplos.<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 28 / 42
WinBUGS<br />
WinBUGS<br />
Instalación<br />
Menú ayuda: manual y ejemplos.<br />
Estructura <strong>de</strong>l código:<br />
mo<strong>de</strong>l{ ...}<br />
parámetros: constantes, nodos estocásticos y componentes lógicos.<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 28 / 42
WinBUGS<br />
WinBUGS<br />
Instalación<br />
Menú ayuda: manual y ejemplos.<br />
Estructura <strong>de</strong>l código:<br />
mo<strong>de</strong>l{ ...}<br />
parámetros: constantes, nodos estocásticos y componentes lógicos.<br />
Ejemplo:<br />
x ∼ N(µ, σ 2 ) −→ x ∼ dnorm(mu, tau)<br />
y = x + z 3 + 1 w<br />
−→ y
WinBUGS<br />
WinBUGS: Ejemplo <strong>de</strong> mo<strong>de</strong>lo lineal<br />
Consi<strong>de</strong>re la siguiente tabla <strong>de</strong> datos provenientes <strong>de</strong> la OECD para 18<br />
países. Se observan dos variables: una medida <strong>de</strong> la protección <strong>de</strong>l empleo<br />
y una medida <strong>de</strong>l cambio en la productividad total entre los 80 y los 90.<br />
The economist, 23/09/2000<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 29 / 42
WinBUGS<br />
WinBUGS: Ejemplo <strong>de</strong> mo<strong>de</strong>lo lineal<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 30 / 42
WinBUGS<br />
Establecimiento <strong>de</strong>l mo<strong>de</strong>lo:<br />
for (i in 1:N){<br />
y[i] ∼ dnorm(mu[i],tau)<br />
mu[i]
WinBUGS<br />
Establecimiento <strong>de</strong>l mo<strong>de</strong>lo:<br />
for (i in 1:N){<br />
y[i] ∼ dnorm(mu[i],tau)<br />
mu[i]
WinBUGS<br />
Establecimiento <strong>de</strong>l mo<strong>de</strong>lo:<br />
for (i in 1:N){<br />
y[i] ∼ dnorm(mu[i],tau)<br />
mu[i]
WinBUGS<br />
Establecimiento <strong>de</strong>l mo<strong>de</strong>lo:<br />
for (i in 1:N){<br />
y[i] ∼ dnorm(mu[i],tau)<br />
mu[i]
WinBUGS<br />
WinBUGS: ajuste <strong>de</strong> un mo<strong>de</strong>lo<br />
Chequear la sintaxis <strong>de</strong>l mo<strong>de</strong>lo: Mo<strong>de</strong>l → Specification tool →<br />
check mo<strong>de</strong>l<br />
Cargar los datos: selecciono la lista <strong>de</strong> datos y → load data<br />
Compilo el mo<strong>de</strong>lo: selecciono el # <strong>de</strong> ca<strong>de</strong>nas a simular y → compile<br />
Inicialización <strong>de</strong>l mo<strong>de</strong>lo: selecciono la lista con los valores iniciales y<br />
→ load inits y/o → gen inits<br />
Burn-in: Mo<strong>de</strong>l → Update → updates → # burn-in<br />
Monitoreo parámetros: Inference → Sample → no<strong>de</strong>= nombre <strong>de</strong>l<br />
parámetro → set<br />
Monitoreo DIC: Inference → DIC → set<br />
Simulaciones: Mo<strong>de</strong>l → Update → updates → # iteraciones<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 32 / 42
WinBUGS<br />
WinBUGS: A posteriori y convergencia<br />
Resumen <strong>de</strong> la distribución a posteriori: <strong>de</strong>nsity y stats <strong>de</strong>l<br />
Sample Monitor Tool.<br />
Evaluación <strong>de</strong> convergencia:<br />
Las ca<strong>de</strong>nas <strong>de</strong>ben estabilizarse y superponerse.<br />
Los cuantiles <strong>de</strong>ben estabilizarse<br />
Las autocorrelaciones no <strong>de</strong>ben ser altas.<br />
Test Gelman y Rubin cercano a 1.<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 33 / 42
Programa<br />
Mo<strong>de</strong>los Jerárquicos<br />
1 Muestreo Monte Carlo<br />
2 Mo<strong>de</strong>lo Lineal<br />
3 WinBUGS<br />
4 Mo<strong>de</strong>los Jerárquicos<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 34 / 42
Mo<strong>de</strong>los Jerárquicos<br />
Mo<strong>de</strong>los jerárquicos<br />
Muchas veces en las ciencias sociales los datos poseen una compleja<br />
estructura, agregados en diferentes niveles.<br />
Pacientes agrupados en hospitales. Hay hospitales con mayor tasa <strong>de</strong><br />
mortalidad<br />
Estudiantes agrupados en cursos, y cursos en escuelas. Hay un efecto<br />
aula en el rendimiento escolar <strong>de</strong> los alumnos Y escuela<br />
Sucesivas mediciones en pacientes. Hay diferencias entre<br />
tratamientos Hay heterogeneidad entre los pacientes en su respuesta<br />
a los tratamientos<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 35 / 42
Mo<strong>de</strong>los Jerárquicos<br />
Mo<strong>de</strong>los jerárquicos<br />
En general, cuando poseemos datos jerárquicos nuestro objetivo es hacer<br />
inferencia sobre un mo<strong>de</strong>lo con K parámetros, θ 1 , θ 2 , . . . , θ K , siendo K la<br />
cantidad <strong>de</strong> unida<strong>de</strong>s (escuelas, hospitales, etc.) que están relacionadas<br />
por la estructura <strong>de</strong>l problema.<br />
Tres enfoques posibles:<br />
Único parámetro: los datos se agrupan todos juntos y se ignoran las<br />
unida<strong>de</strong>s individuales. Se asume que cada dato proviene <strong>de</strong> una<br />
misma distribución. Y ik ∼ N(µ, σ 2 ) con i = 1, . . . , n K y k = 1, . . . , K.<br />
Parámetros in<strong>de</strong>pendientes: al asumirse in<strong>de</strong>pen<strong>de</strong>ncia cada unidad<br />
pue<strong>de</strong> analizarse por separado. Se asume que los grupos pertencen a<br />
poblaciones diferentes. Y ik ∼ N(µ k , σ 2 ) Problema: la incertidumbre a<br />
posteriori pue<strong>de</strong> ser gran<strong>de</strong>.<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 36 / 42
Mo<strong>de</strong>los jerárquicos<br />
Mo<strong>de</strong>los Jerárquicos<br />
Parámetros intercambiables: cada grupo tiene sus propios<br />
parámetros, pero estos no son in<strong>de</strong>pendientes sino que provienen una<br />
distribución común. Y ik ∼ N(µ k , σ 2 ) con µ k ∼ N(µ, w 2 ) Ventaja:<br />
produce estimaciones más precisas (borrow strength)<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 37 / 42
Mo<strong>de</strong>los Jerárquicos<br />
Mo<strong>de</strong>los jerárquicos<br />
Importante: cada parámetro <strong>de</strong> un grupo específico apren<strong>de</strong> <strong>de</strong> sus<br />
correspondientes parámetros <strong>de</strong> los otros grupos con similares<br />
características. Es <strong>de</strong>cir, que hay un <strong>de</strong>splazamiento <strong>de</strong> los valores <strong>de</strong> los<br />
parámetros hacia la media poblacional.<br />
Ejemplo: Presión arterial<br />
Individuo 1 2 3 4 5 . . . 20<br />
1 medición 108 91 93 104 99 . . . 100<br />
2 medición 98 94 96 99 97 . . . 101<br />
Ahora supongamos que tenemos algunos faltantes, entre ellos la segunda<br />
medición <strong>de</strong>l primer individuo. Ajustamos los 3 mo<strong>de</strong>los posibles y vemos<br />
la estimación resultante <strong>de</strong> dicho dato.<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 38 / 42
Mo<strong>de</strong>los Jerárquicos<br />
Mo<strong>de</strong>los jerárquicos<br />
Importante: cada parámetro <strong>de</strong> un grupo específico apren<strong>de</strong> <strong>de</strong> sus<br />
correspondientes parámetros <strong>de</strong> los otros grupos con similares<br />
características. Es <strong>de</strong>cir, que hay un <strong>de</strong>splazamiento <strong>de</strong> los valores <strong>de</strong> los<br />
parámetros hacia la media poblacional.<br />
Ejemplo: Presión arterial<br />
Individuo 1 2 3 4 5 . . . 20<br />
1 medición 108 91 93 104 99 . . . 100<br />
2 medición 98 94 96 99 97 . . . 101<br />
Ahora supongamos que tenemos algunos faltantes, entre ellos la segunda<br />
medición <strong>de</strong>l primer individuo. Ajustamos los 3 mo<strong>de</strong>los posibles y vemos<br />
la estimación resultante <strong>de</strong> dicho dato.<br />
Parámetros iguales: 96.7<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 38 / 42
Mo<strong>de</strong>los Jerárquicos<br />
Mo<strong>de</strong>los jerárquicos<br />
Importante: cada parámetro <strong>de</strong> un grupo específico apren<strong>de</strong> <strong>de</strong> sus<br />
correspondientes parámetros <strong>de</strong> los otros grupos con similares<br />
características. Es <strong>de</strong>cir, que hay un <strong>de</strong>splazamiento <strong>de</strong> los valores <strong>de</strong> los<br />
parámetros hacia la media poblacional.<br />
Ejemplo: Presión arterial<br />
Individuo 1 2 3 4 5 . . . 20<br />
1 medición 108 91 93 104 99 . . . 100<br />
2 medición 98 94 96 99 97 . . . 101<br />
Ahora supongamos que tenemos algunos faltantes, entre ellos la segunda<br />
medición <strong>de</strong>l primer individuo. Ajustamos los 3 mo<strong>de</strong>los posibles y vemos<br />
la estimación resultante <strong>de</strong> dicho dato.<br />
Parámetros iguales: 96.7 Parámetros in<strong>de</strong>pendientes: 107.7<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 38 / 42
Mo<strong>de</strong>los Jerárquicos<br />
Mo<strong>de</strong>los jerárquicos<br />
Importante: cada parámetro <strong>de</strong> un grupo específico apren<strong>de</strong> <strong>de</strong> sus<br />
correspondientes parámetros <strong>de</strong> los otros grupos con similares<br />
características. Es <strong>de</strong>cir, que hay un <strong>de</strong>splazamiento <strong>de</strong> los valores <strong>de</strong> los<br />
parámetros hacia la media poblacional.<br />
Ejemplo: Presión arterial<br />
Individuo 1 2 3 4 5 . . . 20<br />
1 medición 108 91 93 104 99 . . . 100<br />
2 medición 98 94 96 99 97 . . . 101<br />
Ahora supongamos que tenemos algunos faltantes, entre ellos la segunda<br />
medición <strong>de</strong>l primer individuo. Ajustamos los 3 mo<strong>de</strong>los posibles y vemos<br />
la estimación resultante <strong>de</strong> dicho dato.<br />
Parámetros iguales: 96.7 Parámetros in<strong>de</strong>pendientes: 107.7 Mo<strong>de</strong>lo<br />
jerárquico: 97.4<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 38 / 42
Mo<strong>de</strong>los Jerárquicos<br />
Ejemplo: Mo<strong>de</strong>los jerárquicos<br />
Tenemos los resultados <strong>de</strong> cierto examen <strong>de</strong> 1978 alumnos <strong>de</strong> 38 escuelas.<br />
El número medio <strong>de</strong> alumnos por escuela es <strong>de</strong> 48, y el rango va <strong>de</strong> 1 a<br />
198 (Goldstein et al. (1993)).<br />
Analice los siguientes resultados:<br />
En una escuela con 3 datos, la nota promedio fue 63.<br />
En una escuela con 100 datos la nota promedio fue 65.<br />
En una escuela con un sólo dato la nota promedio fue 69.<br />
Cuál es la mejor escuela<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 39 / 42
Mo<strong>de</strong>los Jerárquicos<br />
Ejemplo: Mo<strong>de</strong>los jerárquicos<br />
mo<strong>de</strong>l{<br />
for( i in 1 : N ) {<br />
Y[i] ∼ dnorm(mu[i],y.tau)<br />
mu[i]
Referencias I<br />
Mo<strong>de</strong>los Jerárquicos<br />
Congdon p. (2001). Bayesian Statistical Mo<strong>de</strong>lling. West Sussex: Wiley<br />
Gelman A., Carlin J.B., Stern H.S., and Rubin D.B. (2004). Bayesian<br />
Data Analysis, 2nd edition. New York: Chapman & Hall<br />
Gill J. (20<strong>02</strong>). Bayesian Methods. A Social and Behavioral Sciences<br />
Approach. New York: Chapman & Hall<br />
Lynch S.M. (2007). Introduction to Applied Bayesian Statistics and<br />
Estimation for Social Scientists. NJ: Springer<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 41 / 42
Referencias II<br />
Mo<strong>de</strong>los Jerárquicos<br />
Ntzoufras I. (2009) Bayesian mo<strong>de</strong>ling using winbugs. NJ: Wiley<br />
Pole A., West M., Harrison J. (1994). Applied Bayesian Forecasting and<br />
Time Series Analysis. New York: Chapman & Hall<br />
Rachev S.T., Hsu J.S.J., Bagasheva B.S., and Fabozzi F.J. (2008).<br />
Bayesian Methods in Finance. NJ: Wiley<br />
Robert C., and Casella G. (2004) Monte Carlo Statistical methods. NJ:<br />
Springer<br />
(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 42 / 42