Descargar PDF Curso 02 - Instituto de EconomÃa y Finanzas

Introducción a la estadística bayesiana, aplicaciones y 

métodos 

Parte 2 

Ana Paula Palacios y Peter Diko 

Universidad Carlos III de Madrid 

22 de Marzo de 2011 

Instituto de Economía y Finanzas 

Facultad de Ciencias Económicas 

U.N.C. 

(Univ. Carlos III de Madrid) Estadística bayesiana 22-03-11 1 / 42

Programa 

1 Muestreo Monte Carlo 

2 Modelo Lineal 

3 WinBUGS 

4 Modelos Jerárquicos 


Programa 

Monte Carlo 



3 WinBUGS 



Problema 

Monte Carlo 

El análisis bayesiano proporciona la distribución para θ, el parámetro de 

interés 

f (θ|x) ∝ f (x|θ)f (θ) 

Tenemos interés en cuantías relacionadas con la distribución a posteriori: 

media,moda, mediana, cuantiles en general, intervalos de credibilidad. 


Monte Carlo 

Problema 

El análisis bayesiano proporciona la distribución para θ, el parámetro de 

interés 

f (θ|x) ∝ f (x|θ)f (θ) 

Tenemos interés en cuantías relacionadas con la distribución a posteriori: 

media,moda, mediana, cuantiles en general, intervalos de credibilidad. 

Complicaciones 

identificar la constante de normalización de la a posteriori 

la distribución a posteriori puede no ser tratable anaĺıticamente 


Monte Carlo 

Solución 

Alternativa al tratamiento anaĺıtico 

construir una muestra θ 1 , θ 2 , . . . , θ n de la distribución a posteriori. 


Monte Carlo 

Solución 



calcular la cuantía de interés muestral 


Solución 

Monte Carlo 



calcular la cuantía de interés muestral 

por la Ley de los Grandes Números la distribución empírica converge 

a la verdadera 

∫ 

∫ 

Θ 

θf (θ|x)dθ ≈ 1 n 

Θ(θ − µ) 2 f (θ|x)dθ ≈ 1 n 

n∑ 

i=1 

θ i 

n∑ 

(θ i − µ) 2 

i=1 


Monte Carlo 

Media a posteriori para beta(1498, 1519) 


Monte Carlo 

Muestreo por inversión de F 

Enfoque para distribuciones univariantes. 

Necesitamos conocer la función de distribución F (x). 


Monte Carlo 




Algoritmo 

1 Generamos un valor u de la distribución uniforme U(0, 1). 

2 La cuantía z = F −1 (u) es una observación aleatoria de F (x). 


Monte Carlo 




Algoritmo 

1 Generamos un valor u de la distribución uniforme U(0, 1). 

2 La cuantía z = F −1 (u) es una observación aleatoria de F (x). 

Comprobaremos que Z = F −1 (U), donde U es uniforme (0, 1) tiene 

distribución F (x) 

P{Z ≤ x} = P{F −1 (U) ≤ x} = P{U ≤ F (x)} = F (x) 


Rejection sampling 

Monte Carlo 

La clave es encontrar una distribución g(x) fácil de muestrear que cumpla 

para un m fijo 

en todo el soporte de f (x). 

f (x) ≤ m · g(x) 



Monte Carlo 

La clave es encontrar una distribución g(x) fácil de muestrear que cumpla 

para un m fijo 

en todo el soporte de f (x). 

Algoritmo 

f (x) ≤ m · g(x) 

1 Generamos un valor z de una distribución g(x). 

2 Calculamos el ratio R = f (z) 

m·g(z) . 

3 Generamos un valor u de una uniforme (0, 1). Acceptamos z como 

observación aleatoria de f (x) si u < R. 


Monte Carlo 


Ventajas 

No necesitamos conocer la constante de normalizazión. ∝ f (x) 

Válido para el caso multidimensional. 

Fácil de implementar. 


Monte Carlo 


Ventajas 

No necesitamos conocer la constante de normalizazión. ∝ f (x) 

Válido para el caso multidimensional. 

Fácil de implementar. 

Desventajas 

Encontrar la densidad g(x) puede ser difícil. 

Si la g(x) no es buena, el algoritmo puede ser ineficiente. Alta 

proporción de rechazos. 

Problemas en alta dimensión. 


Monte Carlo 

Algoritmos MCMC 

Solución para casos de densidades complejas y de alta dimensión. 

Particionamos la densidad a muestrear en densidades multivariantes o 

univariantes más manejables. 

muestreo de una o varias dimensiones de la a posteriori 

exploración de todo el soporte de la distribución paso por paso 


Monte Carlo 

Muestreo de Gibbs 

En estadística Bayesiana desde Gelfand and Smith (1990). 

Conocido en física antes de 1990. 

Algoritmo apropiado en casos cuando 

el muestreo de la distribución conjunta no es posible 

conocemos las distribuciones condicionadas para cada dimensión (o 

bloques de dimensiones) 

f (θ 1 , θ 2 ) 

f (θ 1 |θ 2 ), f (θ 2 |θ 1 ) 



Monte Carlo 

Algoritmo 

1 Empezamos con unos valores iniciales de θ 0 1 , θ0 2 . j = 1 

2 Generamos una observación θ j 1 

de la distribución condicionada 

f (θ 1 |θ j−1 

2 

). 



f (θ 2 |θ j 1 ). 

4 Siguiente paso j := j + 1 y volvemos al paso 2. 



Monte Carlo 

Algoritmo 

1 Empezamos con unos valores iniciales de θ 0 1 , θ0 2 . j = 1 



f (θ 1 |θ j−1 

2 

). 



f (θ 2 |θ j 1 ). 


Obtenemos una cadena de Markov (θ 0 1 , θ0 2 ), (θ1 1 , θ1 2 ), . . . , (θn 1 , θn 2 ) con 

distribución estacionaria f (θ 1 , θ 2 ). 

Decartando las primeras observaciones generadas, nos quedamos con la 

muestra aleatoria de la distribución a posteriori conjunta. 



Monte Carlo 



Monte Carlo 


Monte Carlo 

Algoritmo de Metropolis-Hastings 

Algoritmo basado en Metropolis et al. (1958) para explicar movimiento de 

partículas. Generalizado por Hastings (1970) 

proporciona muestra del parámetro θ conjunto 

no necesitamos conocer la constante de normalización 

contiene paso de aceptación-rechazo 


Monte Carlo 


Algoritmo basado en Metropolis et al. (1958) para explicar movimiento de 

partículas. Generalizado por Hastings (1970) 

proporciona muestra del parámetro θ conjunto 

no necesitamos conocer la constante de normalización 

contiene paso de aceptación-rechazo 

Los candidatos se generan a partir de una distribución conveniente 

g(θ|θ j−1 ). Aceptación del candidato se evalúa a base del ratio 

R = f (θC )g(θ j−1 |θ C ) 

f (θ j−1 )g(θ C |θ j−1 ) 


Monte Carlo 


Algoritmo 

1 Empezamos con un valor inicial θ 0 , j = 1. 

2 Generamos un candidato θ C de la distribución g(θ|θ j−1 ). 

3 Calculamos el ratio 

R = f (θC )g(θ j−1 |θ C ) 

f (θ j−1 )g(θ C |θ j−1 ) 

4 Generamos u de una distribución uniforme (0, 1). Si u < R 

aceptamos el candidato θ j := θ C , en caso contrario θ j := θ j−1 



Monte Carlo 


Obtenemos una cadena de Markov θ 0 , θ 1 , . . . , θ n con distribución 

estacionaria f (θ) pero 

Mala elección del punto inicial puede complicar las cosas. 

Ratio de rechazos alto causará observaciones repetidas, mucha 

correlación de la cadena y convergencia lenta. 

Ratio de rechazos bajo puede significar exploración lenta del espacio 

paramétrico. 


Monte Carlo 


Obtenemos una cadena de Markov θ 0 , θ 1 , . . . , θ n con distribución 

estacionaria f (θ) pero 

Mala elección del punto inicial puede complicar las cosas. 

Ratio de rechazos alto causará observaciones repetidas, mucha 

correlación de la cadena y convergencia lenta. 

Ratio de rechazos bajo puede significar exploración lenta del espacio 

paramétrico. 

Un ejemplo de la distribución de propuesta g(θ|θ j−1 ) 

θ C ∼ N(θ j−1 , C) 

donde C puede adaptarse según el ratio de aceptación. 


Monte Carlo 

Otros enfoques 

Metropolis-within-Gibbs 

En caso de distribución conjunta muy compleja f (θ) la distribución se 

particiona f (θ 1 |θ 2 ), f (θ 2 |θ 1 ) para aplicar el algoritmo de Gibbs. 

Cada paso del algoritmo de Gibbs requiere generar observaciones de 

las condicionadas f (θ 1 |θ 2 ), f (θ 2 |θ 1 ) para lo que se emplea el 

algoritmo MH. 


Monte Carlo 

Otros enfoques 

Metropolis-within-Gibbs 

En caso de distribución conjunta muy compleja f (θ) la distribución se 

particiona f (θ 1 |θ 2 ), f (θ 2 |θ 1 ) para aplicar el algoritmo de Gibbs. 

Cada paso del algoritmo de Gibbs requiere generar observaciones de 

las condicionadas f (θ 1 |θ 2 ), f (θ 2 |θ 1 ) para lo que se emplea el 

algoritmo MH. 

Slice sampling 

f (θ) ∝ h(θ) 

U|θ ∼ uniforme(0, h(θ)) 

Se aplica muestreo de Gibbs a las condicionadas U|θ, θ|U para obtener la 

muestra de la distribución conjunta f (θ, U) y de ahí f (θ). 


Monte Carlo 

Diagnóstico de convergencia 

Diagnóstico de Gelman y Rubin 

repetimos el algoritmo MCMC m veces con puntos iniciales dispersos 

obtenemos 2N observaciones de cada cadena 

basándonos en las últimas N observaciones calculamos 

B 

N 

varianza entre las m medias 

W la media de las varianzas dentro de las m cadenas 

aproximamos la densidad a posteriori con la distribución t y 

denominamos df sus grados de libertad 


Monte Carlo 

Diagnóstico de convergencia 

Diagnóstico de Gelman y Rubin 

repetimos el algoritmo MCMC m veces con puntos iniciales dispersos 

obtenemos 2N observaciones de cada cadena 

basándonos en las últimas N observaciones calculamos 

B 

N 

varianza entre las m medias 

W la media de las varianzas dentro de las m cadenas 

aproximamos la densidad a posteriori con la distribución t y 

denominamos df sus grados de libertad 

El factor de reducción 

√ (N − 1 

√ˆR = 

N + m + 1 B 

mN W 

) df 

df − 2 

determina la posibilidad de reducir la variabilidad de la distribución a 

posteriori al aumentar la muestra N → ∞. 


Programa 

Modelo Lineal 



3 WinBUGS 




Modelo de regresión lineal 

Especificación matricial 

Y = X β + e, 

e ∼ N(0, σ 2 eI n ), 





función de verosimilitud 

Y = X β + e, 

L(β, σ 2 e; X , Y ) = (2πσ 2 e) −n/2 exp 

e ∼ N(0, σ 2 eI n ), 

{ 

− 1 

} 

2σe 

2 (Y − X β) T (Y − X β) . 





función de verosimilitud 

Y = X β + e, 

L(β, σ 2 e; X , Y ) = (2πσ 2 e) −n/2 exp 

Estimadores de máxima verosimilitud: 

e ∼ N(0, σ 2 eI n ), 

{ 

− 1 

} 

2σe 

2 (Y − X β) T (Y − X β) . 

ˆβ = (X T X ) −1 (X T Y ), 

ˆσ 2 e = 1 n eT e, 

ACOV ( ˆβ) = ˆσ e(X 2 T X ) −1 , 

( ) 2ˆσ 

SE(ˆσ e) 2 2 1/2 

= e 

n 



Modelo de regresión lineal - algoritmo MH 

Especificación bayesiana 

y i ∼ N(X T 

i β, σ 2 e) 

con verosimilitud igual al caso clásico. 

A priori β ∝ 1 y σe 2 ∝ 1/σe 2 resulta en a posteriori 

{ 

f (β, σe|X 2 , Y ) ∝ (σe) 2 −(n/2+1) exp − 1 

} 

2σe 

2 (Y − X β) T (Y − X β) . 



Modelo de regresión lineal - algoritmo MH 

Especificación bayesiana 

y i ∼ N(X T 

i β, σ 2 e) 

con verosimilitud igual al caso clásico. 

A priori β ∝ 1 y σe 2 ∝ 1/σe 2 resulta en a posteriori 

{ 

f (β, σe|X 2 , Y ) ∝ (σe) 2 −(n/2+1) exp − 1 

} 

2σe 

2 (Y − X β) T (Y − X β) . 

Se puede aplicar el algoritmo MH directamente sobre el parámetro (β, σ 2 e). 



Modelo de regresión lineal - muestreo de Gibbs 

La distribución condicional de σ 2 e|β 

{ } 

f (σe|β, 2 X , Y ) ∝ (σe) 2 (n/2)+1 exp − eT e 

2σe 

2 

es una gamma inversa con a = n/2 y b = e T e/2. 




La distribución condicional de σ 2 e|β 

{ } 

f (σe|β, 2 X , Y ) ∝ (σe) 2 (n/2)+1 exp − eT e 

2σe 

2 

es una gamma inversa con a = n/2 y b = e T e/2. 

La distribución condicional de β|σe 2 es proporcional a 

{ 

exp − 1 

} 

2σe 

2 (Y − X β) T (Y − X β) 

y después de una manipulación matricial se puede expresar como 

{ 

} 

1 

exp − 

2σe(X 2 T X ) −1 [βT β − 2β T (X T X ) −1 (X T Y )] 

completando el cuadrado en β se identifica con una normal. 




El muestreo de Gibbs se aplica a las condicionadas 

f (σ 2 e|β, X , Y ) ∼ IG(n/2, e T e/2) 

f (β|σ 2 e, X , Y ) ∼ N((X T X ) −1 (X T Y ), σ 2 e(X T X ) −1 ) 

de forma eficiente dado que las distribuciones son de familias fácilmente 

muestreables. 


Programa 

WinBUGS 



3 WinBUGS 



WinBUGS 

WinBUGS 

WinBUGS es un software estadístico desarrollado para implementar 

análisis bayesiano y que utiliza métodos MCMC para generar muestras de 

la distribución a posteriori. 

http://www.mrc-bsu.cam.ac.uk/bugs/winbugs/contents.shtml 

No olviden instalar la clave de inmortalidad!! 

Se puede ejecutar WinBUGS desde otros softwares como R, Matlab y 

Excel. 

Fácil de usar y flexible, capaz de describir modelos altamente 

complejos. 

Sólo hay que especificar el modelo y los datos. 

MCMC: Metropolis-within-Gibbs −→ Rejection sampling −→ Slice 

sampling. 


WinBUGS 

Procedimiento 

1 Especificar el modelo 

2 Cargar los datos 

3 Compilar el modelo y los datos 

4 Inicialización: aleatoria o arbitraria 

5 Ejecución de las simulaciones y monitoreo de los parámetros 


WinBUGS 

WinBUGS 

Instalación 


WinBUGS 

WinBUGS 

Instalación 

Menú ayuda: manual y ejemplos. 


WinBUGS 

WinBUGS 

Instalación 


Estructura del código: 

model{ ...} 

parámetros: constantes, nodos estocásticos y componentes lógicos. 


WinBUGS 

WinBUGS 

Instalación 


Estructura del código: 

model{ ...} 

parámetros: constantes, nodos estocásticos y componentes lógicos. 

Ejemplo: 

x ∼ N(µ, σ 2 ) −→ x ∼ dnorm(mu, tau) 

y = x + z 3 + 1 w 

−→ y

WinBUGS 

WinBUGS: Ejemplo de modelo lineal 

Considere la siguiente tabla de datos provenientes de la OECD para 18 

países. Se observan dos variables: una medida de la protección del empleo 

y una medida del cambio en la productividad total entre los 80 y los 90. 

The economist, 23/09/2000 


WinBUGS 

WinBUGS: Ejemplo de modelo lineal 


WinBUGS 

Establecimiento del modelo: 

for (i in 1:N){ 

y[i] ∼ dnorm(mu[i],tau) 

mu[i]

WinBUGS 




mu[i]

WinBUGS 




mu[i]

WinBUGS 




mu[i]

WinBUGS 

WinBUGS: ajuste de un modelo 

Chequear la sintaxis del modelo: Model → Specification tool → 

check model 

Cargar los datos: selecciono la lista de datos y → load data 

Compilo el modelo: selecciono el # de cadenas a simular y → compile 

Inicialización del modelo: selecciono la lista con los valores iniciales y 

→ load inits y/o → gen inits 

Burn-in: Model → Update → updates → # burn-in 

Monitoreo parámetros: Inference → Sample → node= nombre del 

parámetro → set 

Monitoreo DIC: Inference → DIC → set 

Simulaciones: Model → Update → updates → # iteraciones 


WinBUGS 

WinBUGS: A posteriori y convergencia 

Resumen de la distribución a posteriori: density y stats del 

Sample Monitor Tool. 

Evaluación de convergencia: 

Las cadenas deben estabilizarse y superponerse. 

Los cuantiles deben estabilizarse 

Las autocorrelaciones no deben ser altas. 

Test Gelman y Rubin cercano a 1. 


Programa 

Modelos Jerárquicos 



3 WinBUGS 




Modelos jerárquicos 

Muchas veces en las ciencias sociales los datos poseen una compleja 

estructura, agregados en diferentes niveles. 

Pacientes agrupados en hospitales. Hay hospitales con mayor tasa de 

mortalidad 

Estudiantes agrupados en cursos, y cursos en escuelas. Hay un efecto 

aula en el rendimiento escolar de los alumnos Y escuela 

Sucesivas mediciones en pacientes. Hay diferencias entre 

tratamientos Hay heterogeneidad entre los pacientes en su respuesta 

a los tratamientos 




En general, cuando poseemos datos jerárquicos nuestro objetivo es hacer 

inferencia sobre un modelo con K parámetros, θ 1 , θ 2 , . . . , θ K , siendo K la 

cantidad de unidades (escuelas, hospitales, etc.) que están relacionadas 

por la estructura del problema. 

Tres enfoques posibles: 

Único parámetro: los datos se agrupan todos juntos y se ignoran las 

unidades individuales. Se asume que cada dato proviene de una 

misma distribución. Y ik ∼ N(µ, σ 2 ) con i = 1, . . . , n K y k = 1, . . . , K. 

Parámetros independientes: al asumirse independencia cada unidad 

puede analizarse por separado. Se asume que los grupos pertencen a 

poblaciones diferentes. Y ik ∼ N(µ k , σ 2 ) Problema: la incertidumbre a 

posteriori puede ser grande. 




Parámetros intercambiables: cada grupo tiene sus propios 

parámetros, pero estos no son independientes sino que provienen una 

distribución común. Y ik ∼ N(µ k , σ 2 ) con µ k ∼ N(µ, w 2 ) Ventaja: 

produce estimaciones más precisas (borrow strength) 




Importante: cada parámetro de un grupo específico aprende de sus 

correspondientes parámetros de los otros grupos con similares 

características. Es decir, que hay un desplazamiento de los valores de los 

parámetros hacia la media poblacional. 

Ejemplo: Presión arterial 

Individuo 1 2 3 4 5 . . . 20 

1 medición 108 91 93 104 99 . . . 100 

2 medición 98 94 96 99 97 . . . 101 

Ahora supongamos que tenemos algunos faltantes, entre ellos la segunda 

medición del primer individuo. Ajustamos los 3 modelos posibles y vemos 

la estimación resultante de dicho dato. 









Individuo 1 2 3 4 5 . . . 20 

1 medición 108 91 93 104 99 . . . 100 

2 medición 98 94 96 99 97 . . . 101 




Parámetros iguales: 96.7 









Individuo 1 2 3 4 5 . . . 20 

1 medición 108 91 93 104 99 . . . 100 

2 medición 98 94 96 99 97 . . . 101 




Parámetros iguales: 96.7 Parámetros independientes: 107.7 









Individuo 1 2 3 4 5 . . . 20 

1 medición 108 91 93 104 99 . . . 100 

2 medición 98 94 96 99 97 . . . 101 




Parámetros iguales: 96.7 Parámetros independientes: 107.7 Modelo 

jerárquico: 97.4 



Ejemplo: Modelos jerárquicos 

Tenemos los resultados de cierto examen de 1978 alumnos de 38 escuelas. 

El número medio de alumnos por escuela es de 48, y el rango va de 1 a 

198 (Goldstein et al. (1993)). 

Analice los siguientes resultados: 

En una escuela con 3 datos, la nota promedio fue 63. 

En una escuela con 100 datos la nota promedio fue 65. 

En una escuela con un sólo dato la nota promedio fue 69. 

Cuál es la mejor escuela 



Ejemplo: Modelos jerárquicos 

model{ 

for( i in 1 : N ) { 

Y[i] ∼ dnorm(mu[i],y.tau) 

mu[i]

Referencias I 


Congdon p. (2001). Bayesian Statistical Modelling. West Sussex: Wiley 

Gelman A., Carlin J.B., Stern H.S., and Rubin D.B. (2004). Bayesian 

Data Analysis, 2nd edition. New York: Chapman & Hall 

Gill J. (2002). Bayesian Methods. A Social and Behavioral Sciences 

Approach. New York: Chapman & Hall 

Lynch S.M. (2007). Introduction to Applied Bayesian Statistics and 

Estimation for Social Scientists. NJ: Springer 


Referencias II 


Ntzoufras I. (2009) Bayesian modeling using winbugs. NJ: Wiley 

Pole A., West M., Harrison J. (1994). Applied Bayesian Forecasting and 

Time Series Analysis. New York: Chapman & Hall 

Rachev S.T., Hsu J.S.J., Bagasheva B.S., and Fabozzi F.J. (2008). 

Bayesian Methods in Finance. NJ: Wiley 

Robert C., and Casella G. (2004) Monte Carlo Statistical methods. NJ: 

Springer

Descargar PDF Curso 02 - Instituto de EconomÃ­a y Finanzas

Create successful ePaper yourself

Delete template?

Save as template?

Descargar PDF Curso 02 - Instituto de EconomÃa y Finanzas