20.01.2015 Views

Descargar PDF Curso 02 - Instituto de Economía y Finanzas

Descargar PDF Curso 02 - Instituto de Economía y Finanzas

Descargar PDF Curso 02 - Instituto de Economía y Finanzas

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Introducción a la estadística bayesiana, aplicaciones y<br />

métodos<br />

Parte 2<br />

Ana Paula Palacios y Peter Diko<br />

Universidad Carlos III <strong>de</strong> Madrid<br />

22 <strong>de</strong> Marzo <strong>de</strong> 2011<br />

<strong>Instituto</strong> <strong>de</strong> Economía y <strong>Finanzas</strong><br />

Facultad <strong>de</strong> Ciencias Económicas<br />

U.N.C.<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 1 / 42


Programa<br />

1 Muestreo Monte Carlo<br />

2 Mo<strong>de</strong>lo Lineal<br />

3 WinBUGS<br />

4 Mo<strong>de</strong>los Jerárquicos<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 2 / 42


Programa<br />

Monte Carlo<br />

1 Muestreo Monte Carlo<br />

2 Mo<strong>de</strong>lo Lineal<br />

3 WinBUGS<br />

4 Mo<strong>de</strong>los Jerárquicos<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 3 / 42


Problema<br />

Monte Carlo<br />

El análisis bayesiano proporciona la distribución para θ, el parámetro <strong>de</strong><br />

interés<br />

f (θ|x) ∝ f (x|θ)f (θ)<br />

Tenemos interés en cuantías relacionadas con la distribución a posteriori:<br />

media,moda, mediana, cuantiles en general, intervalos <strong>de</strong> credibilidad.<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 4 / 42


Monte Carlo<br />

Problema<br />

El análisis bayesiano proporciona la distribución para θ, el parámetro <strong>de</strong><br />

interés<br />

f (θ|x) ∝ f (x|θ)f (θ)<br />

Tenemos interés en cuantías relacionadas con la distribución a posteriori:<br />

media,moda, mediana, cuantiles en general, intervalos <strong>de</strong> credibilidad.<br />

Complicaciones<br />

i<strong>de</strong>ntificar la constante <strong>de</strong> normalización <strong>de</strong> la a posteriori<br />

la distribución a posteriori pue<strong>de</strong> no ser tratable anaĺıticamente<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 4 / 42


Monte Carlo<br />

Solución<br />

Alternativa al tratamiento anaĺıtico<br />

construir una muestra θ 1 , θ 2 , . . . , θ n <strong>de</strong> la distribución a posteriori.<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 5 / 42


Monte Carlo<br />

Solución<br />

Alternativa al tratamiento anaĺıtico<br />

construir una muestra θ 1 , θ 2 , . . . , θ n <strong>de</strong> la distribución a posteriori.<br />

calcular la cuantía <strong>de</strong> interés muestral<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 5 / 42


Solución<br />

Monte Carlo<br />

Alternativa al tratamiento anaĺıtico<br />

construir una muestra θ 1 , θ 2 , . . . , θ n <strong>de</strong> la distribución a posteriori.<br />

calcular la cuantía <strong>de</strong> interés muestral<br />

por la Ley <strong>de</strong> los Gran<strong>de</strong>s Números la distribución empírica converge<br />

a la verda<strong>de</strong>ra<br />

∫<br />

∫<br />

Θ<br />

θf (θ|x)dθ ≈ 1 n<br />

Θ(θ − µ) 2 f (θ|x)dθ ≈ 1 n<br />

n∑<br />

i=1<br />

θ i<br />

n∑<br />

(θ i − µ) 2<br />

i=1<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 5 / 42


Monte Carlo<br />

Media a posteriori para beta(1498, 1519)<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 6 / 42


Monte Carlo<br />

Muestreo por inversión <strong>de</strong> F<br />

Enfoque para distribuciones univariantes.<br />

Necesitamos conocer la función <strong>de</strong> distribución F (x).<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 7 / 42


Monte Carlo<br />

Muestreo por inversión <strong>de</strong> F<br />

Enfoque para distribuciones univariantes.<br />

Necesitamos conocer la función <strong>de</strong> distribución F (x).<br />

Algoritmo<br />

1 Generamos un valor u <strong>de</strong> la distribución uniforme U(0, 1).<br />

2 La cuantía z = F −1 (u) es una observación aleatoria <strong>de</strong> F (x).<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 7 / 42


Monte Carlo<br />

Muestreo por inversión <strong>de</strong> F<br />

Enfoque para distribuciones univariantes.<br />

Necesitamos conocer la función <strong>de</strong> distribución F (x).<br />

Algoritmo<br />

1 Generamos un valor u <strong>de</strong> la distribución uniforme U(0, 1).<br />

2 La cuantía z = F −1 (u) es una observación aleatoria <strong>de</strong> F (x).<br />

Comprobaremos que Z = F −1 (U), don<strong>de</strong> U es uniforme (0, 1) tiene<br />

distribución F (x)<br />

P{Z ≤ x} = P{F −1 (U) ≤ x} = P{U ≤ F (x)} = F (x)<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 7 / 42


Rejection sampling<br />

Monte Carlo<br />

La clave es encontrar una distribución g(x) fácil <strong>de</strong> muestrear que cumpla<br />

para un m fijo<br />

en todo el soporte <strong>de</strong> f (x).<br />

f (x) ≤ m · g(x)<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 8 / 42


Rejection sampling<br />

Monte Carlo<br />

La clave es encontrar una distribución g(x) fácil <strong>de</strong> muestrear que cumpla<br />

para un m fijo<br />

en todo el soporte <strong>de</strong> f (x).<br />

Algoritmo<br />

f (x) ≤ m · g(x)<br />

1 Generamos un valor z <strong>de</strong> una distribución g(x).<br />

2 Calculamos el ratio R = f (z)<br />

m·g(z) .<br />

3 Generamos un valor u <strong>de</strong> una uniforme (0, 1). Acceptamos z como<br />

observación aleatoria <strong>de</strong> f (x) si u < R.<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 8 / 42


Monte Carlo<br />

Rejection sampling<br />

Ventajas<br />

No necesitamos conocer la constante <strong>de</strong> normalizazión. ∝ f (x)<br />

Válido para el caso multidimensional.<br />

Fácil <strong>de</strong> implementar.<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 9 / 42


Monte Carlo<br />

Rejection sampling<br />

Ventajas<br />

No necesitamos conocer la constante <strong>de</strong> normalizazión. ∝ f (x)<br />

Válido para el caso multidimensional.<br />

Fácil <strong>de</strong> implementar.<br />

Desventajas<br />

Encontrar la <strong>de</strong>nsidad g(x) pue<strong>de</strong> ser difícil.<br />

Si la g(x) no es buena, el algoritmo pue<strong>de</strong> ser ineficiente. Alta<br />

proporción <strong>de</strong> rechazos.<br />

Problemas en alta dimensión.<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 9 / 42


Monte Carlo<br />

Algoritmos MCMC<br />

Solución para casos <strong>de</strong> <strong>de</strong>nsida<strong>de</strong>s complejas y <strong>de</strong> alta dimensión.<br />

Particionamos la <strong>de</strong>nsidad a muestrear en <strong>de</strong>nsida<strong>de</strong>s multivariantes o<br />

univariantes más manejables.<br />

muestreo <strong>de</strong> una o varias dimensiones <strong>de</strong> la a posteriori<br />

exploración <strong>de</strong> todo el soporte <strong>de</strong> la distribución paso por paso<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 10 / 42


Monte Carlo<br />

Muestreo <strong>de</strong> Gibbs<br />

En estadística Bayesiana <strong>de</strong>s<strong>de</strong> Gelfand and Smith (1990).<br />

Conocido en física antes <strong>de</strong> 1990.<br />

Algoritmo apropiado en casos cuando<br />

el muestreo <strong>de</strong> la distribución conjunta no es posible<br />

conocemos las distribuciones condicionadas para cada dimensión (o<br />

bloques <strong>de</strong> dimensiones)<br />

f (θ 1 , θ 2 )<br />

f (θ 1 |θ 2 ), f (θ 2 |θ 1 )<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 11 / 42


Muestreo <strong>de</strong> Gibbs<br />

Monte Carlo<br />

Algoritmo<br />

1 Empezamos con unos valores iniciales <strong>de</strong> θ 0 1 , θ0 2 . j = 1<br />

2 Generamos una observación θ j 1<br />

<strong>de</strong> la distribución condicionada<br />

f (θ 1 |θ j−1<br />

2<br />

).<br />

3 Generamos una observación θ j 2<br />

<strong>de</strong> la distribución condicionada<br />

f (θ 2 |θ j 1 ).<br />

4 Siguiente paso j := j + 1 y volvemos al paso 2.<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 12 / 42


Muestreo <strong>de</strong> Gibbs<br />

Monte Carlo<br />

Algoritmo<br />

1 Empezamos con unos valores iniciales <strong>de</strong> θ 0 1 , θ0 2 . j = 1<br />

2 Generamos una observación θ j 1<br />

<strong>de</strong> la distribución condicionada<br />

f (θ 1 |θ j−1<br />

2<br />

).<br />

3 Generamos una observación θ j 2<br />

<strong>de</strong> la distribución condicionada<br />

f (θ 2 |θ j 1 ).<br />

4 Siguiente paso j := j + 1 y volvemos al paso 2.<br />

Obtenemos una ca<strong>de</strong>na <strong>de</strong> Markov (θ 0 1 , θ0 2 ), (θ1 1 , θ1 2 ), . . . , (θn 1 , θn 2 ) con<br />

distribución estacionaria f (θ 1 , θ 2 ).<br />

Decartando las primeras observaciones generadas, nos quedamos con la<br />

muestra aleatoria <strong>de</strong> la distribución a posteriori conjunta.<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 12 / 42


Muestreo <strong>de</strong> Gibbs<br />

Monte Carlo<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 13 / 42


Muestreo <strong>de</strong> Gibbs<br />

Monte Carlo<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 14 / 42


Monte Carlo<br />

Algoritmo <strong>de</strong> Metropolis-Hastings<br />

Algoritmo basado en Metropolis et al. (1958) para explicar movimiento <strong>de</strong><br />

partículas. Generalizado por Hastings (1970)<br />

proporciona muestra <strong>de</strong>l parámetro θ conjunto<br />

no necesitamos conocer la constante <strong>de</strong> normalización<br />

contiene paso <strong>de</strong> aceptación-rechazo<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 15 / 42


Monte Carlo<br />

Algoritmo <strong>de</strong> Metropolis-Hastings<br />

Algoritmo basado en Metropolis et al. (1958) para explicar movimiento <strong>de</strong><br />

partículas. Generalizado por Hastings (1970)<br />

proporciona muestra <strong>de</strong>l parámetro θ conjunto<br />

no necesitamos conocer la constante <strong>de</strong> normalización<br />

contiene paso <strong>de</strong> aceptación-rechazo<br />

Los candidatos se generan a partir <strong>de</strong> una distribución conveniente<br />

g(θ|θ j−1 ). Aceptación <strong>de</strong>l candidato se evalúa a base <strong>de</strong>l ratio<br />

R = f (θC )g(θ j−1 |θ C )<br />

f (θ j−1 )g(θ C |θ j−1 )<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 15 / 42


Monte Carlo<br />

Algoritmo <strong>de</strong> Metropolis-Hastings<br />

Algoritmo<br />

1 Empezamos con un valor inicial θ 0 , j = 1.<br />

2 Generamos un candidato θ C <strong>de</strong> la distribución g(θ|θ j−1 ).<br />

3 Calculamos el ratio<br />

R = f (θC )g(θ j−1 |θ C )<br />

f (θ j−1 )g(θ C |θ j−1 )<br />

4 Generamos u <strong>de</strong> una distribución uniforme (0, 1). Si u < R<br />

aceptamos el candidato θ j := θ C , en caso contrario θ j := θ j−1<br />

5 Siguiente paso j := j + 1 y volvemos al paso 2.<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 16 / 42


Monte Carlo<br />

Algoritmo <strong>de</strong> Metropolis-Hastings<br />

Obtenemos una ca<strong>de</strong>na <strong>de</strong> Markov θ 0 , θ 1 , . . . , θ n con distribución<br />

estacionaria f (θ) pero<br />

Mala elección <strong>de</strong>l punto inicial pue<strong>de</strong> complicar las cosas.<br />

Ratio <strong>de</strong> rechazos alto causará observaciones repetidas, mucha<br />

correlación <strong>de</strong> la ca<strong>de</strong>na y convergencia lenta.<br />

Ratio <strong>de</strong> rechazos bajo pue<strong>de</strong> significar exploración lenta <strong>de</strong>l espacio<br />

paramétrico.<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 17 / 42


Monte Carlo<br />

Algoritmo <strong>de</strong> Metropolis-Hastings<br />

Obtenemos una ca<strong>de</strong>na <strong>de</strong> Markov θ 0 , θ 1 , . . . , θ n con distribución<br />

estacionaria f (θ) pero<br />

Mala elección <strong>de</strong>l punto inicial pue<strong>de</strong> complicar las cosas.<br />

Ratio <strong>de</strong> rechazos alto causará observaciones repetidas, mucha<br />

correlación <strong>de</strong> la ca<strong>de</strong>na y convergencia lenta.<br />

Ratio <strong>de</strong> rechazos bajo pue<strong>de</strong> significar exploración lenta <strong>de</strong>l espacio<br />

paramétrico.<br />

Un ejemplo <strong>de</strong> la distribución <strong>de</strong> propuesta g(θ|θ j−1 )<br />

θ C ∼ N(θ j−1 , C)<br />

don<strong>de</strong> C pue<strong>de</strong> adaptarse según el ratio <strong>de</strong> aceptación.<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 17 / 42


Monte Carlo<br />

Otros enfoques<br />

Metropolis-within-Gibbs<br />

En caso <strong>de</strong> distribución conjunta muy compleja f (θ) la distribución se<br />

particiona f (θ 1 |θ 2 ), f (θ 2 |θ 1 ) para aplicar el algoritmo <strong>de</strong> Gibbs.<br />

Cada paso <strong>de</strong>l algoritmo <strong>de</strong> Gibbs requiere generar observaciones <strong>de</strong><br />

las condicionadas f (θ 1 |θ 2 ), f (θ 2 |θ 1 ) para lo que se emplea el<br />

algoritmo MH.<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 18 / 42


Monte Carlo<br />

Otros enfoques<br />

Metropolis-within-Gibbs<br />

En caso <strong>de</strong> distribución conjunta muy compleja f (θ) la distribución se<br />

particiona f (θ 1 |θ 2 ), f (θ 2 |θ 1 ) para aplicar el algoritmo <strong>de</strong> Gibbs.<br />

Cada paso <strong>de</strong>l algoritmo <strong>de</strong> Gibbs requiere generar observaciones <strong>de</strong><br />

las condicionadas f (θ 1 |θ 2 ), f (θ 2 |θ 1 ) para lo que se emplea el<br />

algoritmo MH.<br />

Slice sampling<br />

f (θ) ∝ h(θ)<br />

U|θ ∼ uniforme(0, h(θ))<br />

Se aplica muestreo <strong>de</strong> Gibbs a las condicionadas U|θ, θ|U para obtener la<br />

muestra <strong>de</strong> la distribución conjunta f (θ, U) y <strong>de</strong> ahí f (θ).<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 18 / 42


Monte Carlo<br />

Diagnóstico <strong>de</strong> convergencia<br />

Diagnóstico <strong>de</strong> Gelman y Rubin<br />

repetimos el algoritmo MCMC m veces con puntos iniciales dispersos<br />

obtenemos 2N observaciones <strong>de</strong> cada ca<strong>de</strong>na<br />

basándonos en las últimas N observaciones calculamos<br />

B<br />

N<br />

varianza entre las m medias<br />

W la media <strong>de</strong> las varianzas <strong>de</strong>ntro <strong>de</strong> las m ca<strong>de</strong>nas<br />

aproximamos la <strong>de</strong>nsidad a posteriori con la distribución t y<br />

<strong>de</strong>nominamos df sus grados <strong>de</strong> libertad<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 19 / 42


Monte Carlo<br />

Diagnóstico <strong>de</strong> convergencia<br />

Diagnóstico <strong>de</strong> Gelman y Rubin<br />

repetimos el algoritmo MCMC m veces con puntos iniciales dispersos<br />

obtenemos 2N observaciones <strong>de</strong> cada ca<strong>de</strong>na<br />

basándonos en las últimas N observaciones calculamos<br />

B<br />

N<br />

varianza entre las m medias<br />

W la media <strong>de</strong> las varianzas <strong>de</strong>ntro <strong>de</strong> las m ca<strong>de</strong>nas<br />

aproximamos la <strong>de</strong>nsidad a posteriori con la distribución t y<br />

<strong>de</strong>nominamos df sus grados <strong>de</strong> libertad<br />

El factor <strong>de</strong> reducción<br />

√ (N − 1<br />

√ˆR =<br />

N + m + 1 B<br />

mN W<br />

) df<br />

df − 2<br />

<strong>de</strong>termina la posibilidad <strong>de</strong> reducir la variabilidad <strong>de</strong> la distribución a<br />

posteriori al aumentar la muestra N → ∞.<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 19 / 42


Programa<br />

Mo<strong>de</strong>lo Lineal<br />

1 Muestreo Monte Carlo<br />

2 Mo<strong>de</strong>lo Lineal<br />

3 WinBUGS<br />

4 Mo<strong>de</strong>los Jerárquicos<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 20 / 42


Mo<strong>de</strong>lo Lineal<br />

Mo<strong>de</strong>lo <strong>de</strong> regresión lineal<br />

Especificación matricial<br />

Y = X β + e,<br />

e ∼ N(0, σ 2 eI n ),<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 21 / 42


Mo<strong>de</strong>lo Lineal<br />

Mo<strong>de</strong>lo <strong>de</strong> regresión lineal<br />

Especificación matricial<br />

función <strong>de</strong> verosimilitud<br />

Y = X β + e,<br />

L(β, σ 2 e; X , Y ) = (2πσ 2 e) −n/2 exp<br />

e ∼ N(0, σ 2 eI n ),<br />

{<br />

− 1<br />

}<br />

2σe<br />

2 (Y − X β) T (Y − X β) .<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 21 / 42


Mo<strong>de</strong>lo Lineal<br />

Mo<strong>de</strong>lo <strong>de</strong> regresión lineal<br />

Especificación matricial<br />

función <strong>de</strong> verosimilitud<br />

Y = X β + e,<br />

L(β, σ 2 e; X , Y ) = (2πσ 2 e) −n/2 exp<br />

Estimadores <strong>de</strong> máxima verosimilitud:<br />

e ∼ N(0, σ 2 eI n ),<br />

{<br />

− 1<br />

}<br />

2σe<br />

2 (Y − X β) T (Y − X β) .<br />

ˆβ = (X T X ) −1 (X T Y ),<br />

ˆσ 2 e = 1 n eT e,<br />

ACOV ( ˆβ) = ˆσ e(X 2 T X ) −1 ,<br />

( ) 2ˆσ<br />

SE(ˆσ e) 2 2 1/2<br />

= e<br />

n<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 21 / 42


Mo<strong>de</strong>lo Lineal<br />

Mo<strong>de</strong>lo <strong>de</strong> regresión lineal - algoritmo MH<br />

Especificación bayesiana<br />

y i ∼ N(X T<br />

i β, σ 2 e)<br />

con verosimilitud igual al caso clásico.<br />

A priori β ∝ 1 y σe 2 ∝ 1/σe 2 resulta en a posteriori<br />

{<br />

f (β, σe|X 2 , Y ) ∝ (σe) 2 −(n/2+1) exp − 1<br />

}<br />

2σe<br />

2 (Y − X β) T (Y − X β) .<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 22 / 42


Mo<strong>de</strong>lo Lineal<br />

Mo<strong>de</strong>lo <strong>de</strong> regresión lineal - algoritmo MH<br />

Especificación bayesiana<br />

y i ∼ N(X T<br />

i β, σ 2 e)<br />

con verosimilitud igual al caso clásico.<br />

A priori β ∝ 1 y σe 2 ∝ 1/σe 2 resulta en a posteriori<br />

{<br />

f (β, σe|X 2 , Y ) ∝ (σe) 2 −(n/2+1) exp − 1<br />

}<br />

2σe<br />

2 (Y − X β) T (Y − X β) .<br />

Se pue<strong>de</strong> aplicar el algoritmo MH directamente sobre el parámetro (β, σ 2 e).<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 22 / 42


Mo<strong>de</strong>lo Lineal<br />

Mo<strong>de</strong>lo <strong>de</strong> regresión lineal - muestreo <strong>de</strong> Gibbs<br />

La distribución condicional <strong>de</strong> σ 2 e|β<br />

{ }<br />

f (σe|β, 2 X , Y ) ∝ (σe) 2 (n/2)+1 exp − eT e<br />

2σe<br />

2<br />

es una gamma inversa con a = n/2 y b = e T e/2.<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 23 / 42


Mo<strong>de</strong>lo Lineal<br />

Mo<strong>de</strong>lo <strong>de</strong> regresión lineal - muestreo <strong>de</strong> Gibbs<br />

La distribución condicional <strong>de</strong> σ 2 e|β<br />

{ }<br />

f (σe|β, 2 X , Y ) ∝ (σe) 2 (n/2)+1 exp − eT e<br />

2σe<br />

2<br />

es una gamma inversa con a = n/2 y b = e T e/2.<br />

La distribución condicional <strong>de</strong> β|σe 2 es proporcional a<br />

{<br />

exp − 1<br />

}<br />

2σe<br />

2 (Y − X β) T (Y − X β)<br />

y <strong>de</strong>spués <strong>de</strong> una manipulación matricial se pue<strong>de</strong> expresar como<br />

{<br />

}<br />

1<br />

exp −<br />

2σe(X 2 T X ) −1 [βT β − 2β T (X T X ) −1 (X T Y )]<br />

completando el cuadrado en β se i<strong>de</strong>ntifica con una normal.<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 23 / 42


Mo<strong>de</strong>lo Lineal<br />

Mo<strong>de</strong>lo <strong>de</strong> regresión lineal - muestreo <strong>de</strong> Gibbs<br />

El muestreo <strong>de</strong> Gibbs se aplica a las condicionadas<br />

f (σ 2 e|β, X , Y ) ∼ IG(n/2, e T e/2)<br />

f (β|σ 2 e, X , Y ) ∼ N((X T X ) −1 (X T Y ), σ 2 e(X T X ) −1 )<br />

<strong>de</strong> forma eficiente dado que las distribuciones son <strong>de</strong> familias fácilmente<br />

muestreables.<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 24 / 42


Programa<br />

WinBUGS<br />

1 Muestreo Monte Carlo<br />

2 Mo<strong>de</strong>lo Lineal<br />

3 WinBUGS<br />

4 Mo<strong>de</strong>los Jerárquicos<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 25 / 42


WinBUGS<br />

WinBUGS<br />

WinBUGS es un software estadístico <strong>de</strong>sarrollado para implementar<br />

análisis bayesiano y que utiliza métodos MCMC para generar muestras <strong>de</strong><br />

la distribución a posteriori.<br />

http://www.mrc-bsu.cam.ac.uk/bugs/winbugs/contents.shtml<br />

No olvi<strong>de</strong>n instalar la clave <strong>de</strong> inmortalidad!!<br />

Se pue<strong>de</strong> ejecutar WinBUGS <strong>de</strong>s<strong>de</strong> otros softwares como R, Matlab y<br />

Excel.<br />

Fácil <strong>de</strong> usar y flexible, capaz <strong>de</strong> <strong>de</strong>scribir mo<strong>de</strong>los altamente<br />

complejos.<br />

Sólo hay que especificar el mo<strong>de</strong>lo y los datos.<br />

MCMC: Metropolis-within-Gibbs −→ Rejection sampling −→ Slice<br />

sampling.<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 26 / 42


WinBUGS<br />

Procedimiento<br />

1 Especificar el mo<strong>de</strong>lo<br />

2 Cargar los datos<br />

3 Compilar el mo<strong>de</strong>lo y los datos<br />

4 Inicialización: aleatoria o arbitraria<br />

5 Ejecución <strong>de</strong> las simulaciones y monitoreo <strong>de</strong> los parámetros<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 27 / 42


WinBUGS<br />

WinBUGS<br />

Instalación<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 28 / 42


WinBUGS<br />

WinBUGS<br />

Instalación<br />

Menú ayuda: manual y ejemplos.<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 28 / 42


WinBUGS<br />

WinBUGS<br />

Instalación<br />

Menú ayuda: manual y ejemplos.<br />

Estructura <strong>de</strong>l código:<br />

mo<strong>de</strong>l{ ...}<br />

parámetros: constantes, nodos estocásticos y componentes lógicos.<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 28 / 42


WinBUGS<br />

WinBUGS<br />

Instalación<br />

Menú ayuda: manual y ejemplos.<br />

Estructura <strong>de</strong>l código:<br />

mo<strong>de</strong>l{ ...}<br />

parámetros: constantes, nodos estocásticos y componentes lógicos.<br />

Ejemplo:<br />

x ∼ N(µ, σ 2 ) −→ x ∼ dnorm(mu, tau)<br />

y = x + z 3 + 1 w<br />

−→ y


WinBUGS<br />

WinBUGS: Ejemplo <strong>de</strong> mo<strong>de</strong>lo lineal<br />

Consi<strong>de</strong>re la siguiente tabla <strong>de</strong> datos provenientes <strong>de</strong> la OECD para 18<br />

países. Se observan dos variables: una medida <strong>de</strong> la protección <strong>de</strong>l empleo<br />

y una medida <strong>de</strong>l cambio en la productividad total entre los 80 y los 90.<br />

The economist, 23/09/2000<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 29 / 42


WinBUGS<br />

WinBUGS: Ejemplo <strong>de</strong> mo<strong>de</strong>lo lineal<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 30 / 42


WinBUGS<br />

Establecimiento <strong>de</strong>l mo<strong>de</strong>lo:<br />

for (i in 1:N){<br />

y[i] ∼ dnorm(mu[i],tau)<br />

mu[i]


WinBUGS<br />

Establecimiento <strong>de</strong>l mo<strong>de</strong>lo:<br />

for (i in 1:N){<br />

y[i] ∼ dnorm(mu[i],tau)<br />

mu[i]


WinBUGS<br />

Establecimiento <strong>de</strong>l mo<strong>de</strong>lo:<br />

for (i in 1:N){<br />

y[i] ∼ dnorm(mu[i],tau)<br />

mu[i]


WinBUGS<br />

Establecimiento <strong>de</strong>l mo<strong>de</strong>lo:<br />

for (i in 1:N){<br />

y[i] ∼ dnorm(mu[i],tau)<br />

mu[i]


WinBUGS<br />

WinBUGS: ajuste <strong>de</strong> un mo<strong>de</strong>lo<br />

Chequear la sintaxis <strong>de</strong>l mo<strong>de</strong>lo: Mo<strong>de</strong>l → Specification tool →<br />

check mo<strong>de</strong>l<br />

Cargar los datos: selecciono la lista <strong>de</strong> datos y → load data<br />

Compilo el mo<strong>de</strong>lo: selecciono el # <strong>de</strong> ca<strong>de</strong>nas a simular y → compile<br />

Inicialización <strong>de</strong>l mo<strong>de</strong>lo: selecciono la lista con los valores iniciales y<br />

→ load inits y/o → gen inits<br />

Burn-in: Mo<strong>de</strong>l → Update → updates → # burn-in<br />

Monitoreo parámetros: Inference → Sample → no<strong>de</strong>= nombre <strong>de</strong>l<br />

parámetro → set<br />

Monitoreo DIC: Inference → DIC → set<br />

Simulaciones: Mo<strong>de</strong>l → Update → updates → # iteraciones<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 32 / 42


WinBUGS<br />

WinBUGS: A posteriori y convergencia<br />

Resumen <strong>de</strong> la distribución a posteriori: <strong>de</strong>nsity y stats <strong>de</strong>l<br />

Sample Monitor Tool.<br />

Evaluación <strong>de</strong> convergencia:<br />

Las ca<strong>de</strong>nas <strong>de</strong>ben estabilizarse y superponerse.<br />

Los cuantiles <strong>de</strong>ben estabilizarse<br />

Las autocorrelaciones no <strong>de</strong>ben ser altas.<br />

Test Gelman y Rubin cercano a 1.<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 33 / 42


Programa<br />

Mo<strong>de</strong>los Jerárquicos<br />

1 Muestreo Monte Carlo<br />

2 Mo<strong>de</strong>lo Lineal<br />

3 WinBUGS<br />

4 Mo<strong>de</strong>los Jerárquicos<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 34 / 42


Mo<strong>de</strong>los Jerárquicos<br />

Mo<strong>de</strong>los jerárquicos<br />

Muchas veces en las ciencias sociales los datos poseen una compleja<br />

estructura, agregados en diferentes niveles.<br />

Pacientes agrupados en hospitales. Hay hospitales con mayor tasa <strong>de</strong><br />

mortalidad<br />

Estudiantes agrupados en cursos, y cursos en escuelas. Hay un efecto<br />

aula en el rendimiento escolar <strong>de</strong> los alumnos Y escuela<br />

Sucesivas mediciones en pacientes. Hay diferencias entre<br />

tratamientos Hay heterogeneidad entre los pacientes en su respuesta<br />

a los tratamientos<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 35 / 42


Mo<strong>de</strong>los Jerárquicos<br />

Mo<strong>de</strong>los jerárquicos<br />

En general, cuando poseemos datos jerárquicos nuestro objetivo es hacer<br />

inferencia sobre un mo<strong>de</strong>lo con K parámetros, θ 1 , θ 2 , . . . , θ K , siendo K la<br />

cantidad <strong>de</strong> unida<strong>de</strong>s (escuelas, hospitales, etc.) que están relacionadas<br />

por la estructura <strong>de</strong>l problema.<br />

Tres enfoques posibles:<br />

Único parámetro: los datos se agrupan todos juntos y se ignoran las<br />

unida<strong>de</strong>s individuales. Se asume que cada dato proviene <strong>de</strong> una<br />

misma distribución. Y ik ∼ N(µ, σ 2 ) con i = 1, . . . , n K y k = 1, . . . , K.<br />

Parámetros in<strong>de</strong>pendientes: al asumirse in<strong>de</strong>pen<strong>de</strong>ncia cada unidad<br />

pue<strong>de</strong> analizarse por separado. Se asume que los grupos pertencen a<br />

poblaciones diferentes. Y ik ∼ N(µ k , σ 2 ) Problema: la incertidumbre a<br />

posteriori pue<strong>de</strong> ser gran<strong>de</strong>.<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 36 / 42


Mo<strong>de</strong>los jerárquicos<br />

Mo<strong>de</strong>los Jerárquicos<br />

Parámetros intercambiables: cada grupo tiene sus propios<br />

parámetros, pero estos no son in<strong>de</strong>pendientes sino que provienen una<br />

distribución común. Y ik ∼ N(µ k , σ 2 ) con µ k ∼ N(µ, w 2 ) Ventaja:<br />

produce estimaciones más precisas (borrow strength)<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 37 / 42


Mo<strong>de</strong>los Jerárquicos<br />

Mo<strong>de</strong>los jerárquicos<br />

Importante: cada parámetro <strong>de</strong> un grupo específico apren<strong>de</strong> <strong>de</strong> sus<br />

correspondientes parámetros <strong>de</strong> los otros grupos con similares<br />

características. Es <strong>de</strong>cir, que hay un <strong>de</strong>splazamiento <strong>de</strong> los valores <strong>de</strong> los<br />

parámetros hacia la media poblacional.<br />

Ejemplo: Presión arterial<br />

Individuo 1 2 3 4 5 . . . 20<br />

1 medición 108 91 93 104 99 . . . 100<br />

2 medición 98 94 96 99 97 . . . 101<br />

Ahora supongamos que tenemos algunos faltantes, entre ellos la segunda<br />

medición <strong>de</strong>l primer individuo. Ajustamos los 3 mo<strong>de</strong>los posibles y vemos<br />

la estimación resultante <strong>de</strong> dicho dato.<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 38 / 42


Mo<strong>de</strong>los Jerárquicos<br />

Mo<strong>de</strong>los jerárquicos<br />

Importante: cada parámetro <strong>de</strong> un grupo específico apren<strong>de</strong> <strong>de</strong> sus<br />

correspondientes parámetros <strong>de</strong> los otros grupos con similares<br />

características. Es <strong>de</strong>cir, que hay un <strong>de</strong>splazamiento <strong>de</strong> los valores <strong>de</strong> los<br />

parámetros hacia la media poblacional.<br />

Ejemplo: Presión arterial<br />

Individuo 1 2 3 4 5 . . . 20<br />

1 medición 108 91 93 104 99 . . . 100<br />

2 medición 98 94 96 99 97 . . . 101<br />

Ahora supongamos que tenemos algunos faltantes, entre ellos la segunda<br />

medición <strong>de</strong>l primer individuo. Ajustamos los 3 mo<strong>de</strong>los posibles y vemos<br />

la estimación resultante <strong>de</strong> dicho dato.<br />

Parámetros iguales: 96.7<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 38 / 42


Mo<strong>de</strong>los Jerárquicos<br />

Mo<strong>de</strong>los jerárquicos<br />

Importante: cada parámetro <strong>de</strong> un grupo específico apren<strong>de</strong> <strong>de</strong> sus<br />

correspondientes parámetros <strong>de</strong> los otros grupos con similares<br />

características. Es <strong>de</strong>cir, que hay un <strong>de</strong>splazamiento <strong>de</strong> los valores <strong>de</strong> los<br />

parámetros hacia la media poblacional.<br />

Ejemplo: Presión arterial<br />

Individuo 1 2 3 4 5 . . . 20<br />

1 medición 108 91 93 104 99 . . . 100<br />

2 medición 98 94 96 99 97 . . . 101<br />

Ahora supongamos que tenemos algunos faltantes, entre ellos la segunda<br />

medición <strong>de</strong>l primer individuo. Ajustamos los 3 mo<strong>de</strong>los posibles y vemos<br />

la estimación resultante <strong>de</strong> dicho dato.<br />

Parámetros iguales: 96.7 Parámetros in<strong>de</strong>pendientes: 107.7<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 38 / 42


Mo<strong>de</strong>los Jerárquicos<br />

Mo<strong>de</strong>los jerárquicos<br />

Importante: cada parámetro <strong>de</strong> un grupo específico apren<strong>de</strong> <strong>de</strong> sus<br />

correspondientes parámetros <strong>de</strong> los otros grupos con similares<br />

características. Es <strong>de</strong>cir, que hay un <strong>de</strong>splazamiento <strong>de</strong> los valores <strong>de</strong> los<br />

parámetros hacia la media poblacional.<br />

Ejemplo: Presión arterial<br />

Individuo 1 2 3 4 5 . . . 20<br />

1 medición 108 91 93 104 99 . . . 100<br />

2 medición 98 94 96 99 97 . . . 101<br />

Ahora supongamos que tenemos algunos faltantes, entre ellos la segunda<br />

medición <strong>de</strong>l primer individuo. Ajustamos los 3 mo<strong>de</strong>los posibles y vemos<br />

la estimación resultante <strong>de</strong> dicho dato.<br />

Parámetros iguales: 96.7 Parámetros in<strong>de</strong>pendientes: 107.7 Mo<strong>de</strong>lo<br />

jerárquico: 97.4<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 38 / 42


Mo<strong>de</strong>los Jerárquicos<br />

Ejemplo: Mo<strong>de</strong>los jerárquicos<br />

Tenemos los resultados <strong>de</strong> cierto examen <strong>de</strong> 1978 alumnos <strong>de</strong> 38 escuelas.<br />

El número medio <strong>de</strong> alumnos por escuela es <strong>de</strong> 48, y el rango va <strong>de</strong> 1 a<br />

198 (Goldstein et al. (1993)).<br />

Analice los siguientes resultados:<br />

En una escuela con 3 datos, la nota promedio fue 63.<br />

En una escuela con 100 datos la nota promedio fue 65.<br />

En una escuela con un sólo dato la nota promedio fue 69.<br />

Cuál es la mejor escuela<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 39 / 42


Mo<strong>de</strong>los Jerárquicos<br />

Ejemplo: Mo<strong>de</strong>los jerárquicos<br />

mo<strong>de</strong>l{<br />

for( i in 1 : N ) {<br />

Y[i] ∼ dnorm(mu[i],y.tau)<br />

mu[i]


Referencias I<br />

Mo<strong>de</strong>los Jerárquicos<br />

Congdon p. (2001). Bayesian Statistical Mo<strong>de</strong>lling. West Sussex: Wiley<br />

Gelman A., Carlin J.B., Stern H.S., and Rubin D.B. (2004). Bayesian<br />

Data Analysis, 2nd edition. New York: Chapman & Hall<br />

Gill J. (20<strong>02</strong>). Bayesian Methods. A Social and Behavioral Sciences<br />

Approach. New York: Chapman & Hall<br />

Lynch S.M. (2007). Introduction to Applied Bayesian Statistics and<br />

Estimation for Social Scientists. NJ: Springer<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 41 / 42


Referencias II<br />

Mo<strong>de</strong>los Jerárquicos<br />

Ntzoufras I. (2009) Bayesian mo<strong>de</strong>ling using winbugs. NJ: Wiley<br />

Pole A., West M., Harrison J. (1994). Applied Bayesian Forecasting and<br />

Time Series Analysis. New York: Chapman & Hall<br />

Rachev S.T., Hsu J.S.J., Bagasheva B.S., and Fabozzi F.J. (2008).<br />

Bayesian Methods in Finance. NJ: Wiley<br />

Robert C., and Casella G. (2004) Monte Carlo Statistical methods. NJ:<br />

Springer<br />

(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 22-03-11 42 / 42

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!