11.07.2015 Views

Descargar PDF Curso 01 - Instituto de Economía y Finanzas

Descargar PDF Curso 01 - Instituto de Economía y Finanzas

Descargar PDF Curso 01 - Instituto de Economía y Finanzas

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Programa1 Introducción al pensamiento bayesiano2 Inferencia bayesiana3 Ventajas <strong>de</strong>l enfoque bayesiano(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 2 / 40


ProgramaPensamiento bayesiano1 Introducción al pensamiento bayesiano2 Inferencia bayesiana3 Ventajas <strong>de</strong>l enfoque bayesiano(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 3 / 40


Inferencia estadísticaPensamiento bayesianoProcedimiento estadístico:Formular la pregunta <strong>de</strong> investigación(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 4 / 40


Pensamiento bayesianoInferencia estadísticaProcedimiento estadístico:Formular la pregunta <strong>de</strong> investigaciónRecolectar datos(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 4 / 40


Pensamiento bayesianoInferencia estadísticaProcedimiento estadístico:Formular la pregunta <strong>de</strong> investigaciónRecolectar datosConstruir un mo<strong>de</strong>lo probabiĺıstico(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 4 / 40


Pensamiento bayesianoInferencia estadísticaProcedimiento estadístico:Formular la pregunta <strong>de</strong> investigaciónRecolectar datosConstruir un mo<strong>de</strong>lo probabiĺısticoEstimar el mo<strong>de</strong>lo(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 4 / 40


Pensamiento bayesianoInferencia estadísticaProcedimiento estadístico:ObjetivoFormular la pregunta <strong>de</strong> investigaciónRecolectar datosConstruir un mo<strong>de</strong>lo probabiĺısticoEstimar el mo<strong>de</strong>loResumir los resultados y concluirContestar nuestras preguntas <strong>de</strong> investigación y sacar conlusiones a partir<strong>de</strong> los datos observados.(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 4 / 40


Pensamiento bayesianoInferencia estadísticaEnfoques:Clásico: parámetros fijosBayesiano: parámetros variables(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 5 / 40


Pensamiento bayesianoInferencia estadísticaEnfoques:Clásico: parámetros fijosBayesiano: parámetros variablesObjetivo <strong>de</strong>l cursoBrindar una <strong>de</strong>tallada introducción a la estadística bayesianacomparándola con el enfoque clásico y focalizándonos en las etapas <strong>de</strong>mo<strong>de</strong>lización, estimación e interpretación <strong>de</strong> los resultados.(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 5 / 40


EjemploPensamiento bayesianoTras una noche <strong>de</strong> fiesta, una mujer sospecha que pue<strong>de</strong> estarembarazada. Para estar segura <strong>de</strong> su estado compra un test <strong>de</strong>l cual seconoce que tiene una eficacia <strong>de</strong>l 90% en <strong>de</strong>tectar embarazos. La mujer serealiza el test y obtiene un resultado positivo. Pregunta: Cuál es laprobabilidad <strong>de</strong> que dicha mujer esté embarazada?(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 6 / 40


EjemploPensamiento bayesianoTras una noche <strong>de</strong> fiesta, una mujer sospecha que pue<strong>de</strong> estarembarazada. Para estar segura <strong>de</strong> su estado compra un test <strong>de</strong>l cual seconoce que tiene una eficacia <strong>de</strong>l 90% en <strong>de</strong>tectar embarazos. La mujer serealiza el test y obtiene un resultado positivo. Pregunta: Cuál es laprobabilidad <strong>de</strong> que dicha mujer esté embarazada?P(emb|+) ==P(emb y +)P(+)P(+|emb)P(emb)P(+|emb)P(emb) + P(+|no − emb)P(no − emb)(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 6 / 40


EjemploPensamiento bayesianoAdicionalmente supongamos que el test da falsos positivos el 50% <strong>de</strong> lasveces y que, sin ninguna información adicional, la probabilidad <strong>de</strong>concepción luego <strong>de</strong> mantener una relación sexual es <strong>de</strong>l 15%.(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 7 / 40


EjemploPensamiento bayesianoAdicionalmente supongamos que el test da falsos positivos el 50% <strong>de</strong> lasveces y que, sin ninguna información adicional, la probabilidad <strong>de</strong>concepción luego <strong>de</strong> mantener una relación sexual es <strong>de</strong>l 15%.P(+|emb)P(emb)P(emb|+) =P(+|emb)P(emb) + P(+|no − emb)P(no − emb)0.90 × 0.15=0.90 × 0.15 + 0.50 × 0.85= 0.241(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 7 / 40


EjemploPensamiento bayesianoSupongamos que la mujer para confirmar su estado se realiza un nuevotest <strong>de</strong> embarazo y obtiene nuevamente un resultado positivo. Con estainformacíon adicional cómo cambian nuestras conclusiones? Cuál es laprobabilidad <strong>de</strong> que la mujer esté embarazada?(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 8 / 40


EjemploPensamiento bayesianoSupongamos que la mujer para confirmar su estado se realiza un nuevotest <strong>de</strong> embarazo y obtiene nuevamente un resultado positivo. Con estainformacíon adicional cómo cambian nuestras conclusiones? Cuál es laprobabilidad <strong>de</strong> que la mujer esté embarazada?P(+|emb)P(emb)P(emb|+) =P(+|emb)P(emb) + P(+|no − emb)P(no − emb)0.90 × 0.241=0.90 × 0.241 + 0.50 × 0.759= 0.364(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 8 / 40


EjemploPensamiento bayesianoSupongamos que la mujer para confirmar su estado se realiza un nuevotest <strong>de</strong> embarazo y obtiene nuevamente un resultado positivo. Con estainformacíon adicional cómo cambian nuestras conclusiones? Cuál es laprobabilidad <strong>de</strong> que la mujer esté embarazada?P(+|emb)P(emb)P(emb|+) =P(+|emb)P(emb) + P(+|no − emb)P(no − emb)0.90 × 0.241=0.90 × 0.241 + 0.50 × 0.759= 0.364Si sucesivamente repetimos el test obteniendo resultados positivos, laprobabilidad <strong>de</strong> embarazo sería: test 3 = 0.507, test 4 =0.649, test 5 =0.769, test 6 = 0.857, test 7 = 0.915, test 8 = 0.951, test 9 = 0.972, test10 = 0.984.(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 8 / 40


Pensamiento bayesianoEnfoque bayesianoProbabilidad a priori: 0.15Observación <strong>de</strong> datos: resultado positivo en el testProbabilidad a posteriori: 0.241Actualización <strong>de</strong> las probabilida<strong>de</strong>s al disponer <strong>de</strong> nueva información:0.364(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 9 / 40


Pensamiento bayesianoTeorema <strong>de</strong> Bayes para distribucionesLos parámetros <strong>de</strong>l mo<strong>de</strong>lo son variables.Probabilidad como incertidumbre.(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 10 / 40


Pensamiento bayesianoTeorema <strong>de</strong> Bayes para distribucionesLos parámetros <strong>de</strong>l mo<strong>de</strong>lo son variables.Probabilidad como incertidumbre.Teorema <strong>de</strong> Bayes aplicado a distribuciones:f (datos|θ)f (θ)f (θ|datos) =f (datos)f (datos|θ)f (θ)= ∫f (datos|θ)f (θ)dθ(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 10 / 40


Pensamiento bayesianoTeorema <strong>de</strong> Bayes para distribucionesLos parámetros <strong>de</strong>l mo<strong>de</strong>lo son variables.Probabilidad como incertidumbre.Teorema <strong>de</strong> Bayes aplicado a distribuciones:f (datos|θ)f (θ)f (θ|datos) =f (datos)f (datos|θ)f (θ)= ∫f (datos|θ)f (θ)dθProporcionalidad:f (θ|datos) ∝ f (datos|θ)f (θ)Posteriori ∝ Verosimilitud × Priori(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 10 / 40


Pensamiento bayesianoEvolución <strong>de</strong>l pensamiento estadístico(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 11 / 40


ProgramaInferencia bayesiana1 Introducción al pensamiento bayesiano2 Inferencia bayesiana3 Ventajas <strong>de</strong>l enfoque bayesiano(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 12 / 40


Un ejemplo electoralInferencia bayesianaSon las elecciones presi<strong>de</strong>nciales <strong>de</strong> EEUU <strong>de</strong>l año 2004 con George W.Bush y John F. Kerry como sus principales candidatos. Una consultorarealiza una encuesta en el estado <strong>de</strong> Ohio y obtiene que 556 personas <strong>de</strong>los consultados elige a J. Kerry y 511 a G. Bush.Quién ganará las elecciones?(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 13 / 40


Ejemplo electoralInferencia bayesianaDefinimos a la variable X como intención <strong>de</strong> voto.Tenemos 556 + 511 = 1067 observaciones <strong>de</strong> X .encuestado respuesta X1 Kerry 12 Bush 03 Bush 0.. .1067 Kerry 1X ∼ Bernoulli(p)X ={ 1 p0 1 − pdatos = (x 1 , x 2 , . . . , x 1067 ) = xfunción <strong>de</strong> verosimilitudf (x|p) =1067∏i=1f (x i |p) = p 556 (1 − p) 511 = L(p; x)(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 14 / 40


Máxima verosimilitudInferencia bayesianaFunción <strong>de</strong> verosimilitud: L(p; x) = p 556 (1 − p) 511Estimador máximo verosímil: EMV = 5561067√= 0.5210.521×0.479Error estándar:1067= 0.<strong>01</strong>5Intervalo <strong>de</strong> confianza: IC 95% = [0.492; 0.550]Contraste <strong>de</strong> hipótesis: H 0 : p < 0.5t =(0.521 − 0.5)0.<strong>01</strong>5= 1.4(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 15 / 40


Estimación bayesianaInferencia bayesiana1 Establecer un mo<strong>de</strong>lo probabiĺıstico completo: una distribución <strong>de</strong>probabilidad conjunta para todas las cantida<strong>de</strong>s <strong>de</strong>l problema,observables y no obervables.Función <strong>de</strong> verosimilitud: f (x|p)Distribución a priori: f (p)(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 16 / 40


Estimación bayesianaInferencia bayesiana1 Establecer un mo<strong>de</strong>lo probabiĺıstico completo: una distribución <strong>de</strong>probabilidad conjunta para todas las cantida<strong>de</strong>s <strong>de</strong>l problema,observables y no obervables.Función <strong>de</strong> verosimilitud: f (x|p)Distribución a priori: f (p)2 Condicionar a los datos: obtener la distribución a posteriori, es <strong>de</strong>cir,la distribución condicionada <strong>de</strong> los parámetros <strong>de</strong>l mo<strong>de</strong>lo, dados losdatos.Teorema <strong>de</strong> Bayes: f (p|x) ∝ f (x|p)f (p)(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 16 / 40


Inferencia bayesianaEstimación bayesiana1 Establecer un mo<strong>de</strong>lo probabiĺıstico completo: una distribución <strong>de</strong>probabilidad conjunta para todas las cantida<strong>de</strong>s <strong>de</strong>l problema,observables y no obervables.Función <strong>de</strong> verosimilitud: f (x|p)Distribución a priori: f (p)2 Condicionar a los datos: obtener la distribución a posteriori, es <strong>de</strong>cir,la distribución condicionada <strong>de</strong> los parámetros <strong>de</strong>l mo<strong>de</strong>lo, dados losdatos.Teorema <strong>de</strong> Bayes: f (p|x) ∝ f (x|p)f (p)3 Resumir la distribución a posteriori y evaluar el ajuste <strong>de</strong>l mo<strong>de</strong>lo.(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 16 / 40


Distribución a prioriInferencia bayesianaCómo construimos la distribución a priori?1 Distribución a priori informativa-Estudios empíricos previos-Conocimiento <strong>de</strong>l investigador:Por intervalosEstimación <strong>de</strong> momentos y supuesto <strong>de</strong> simetríaReparametrización <strong>de</strong> distribuciones. Ej.: beta(m · τ, (1 − m) · τ)(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 17 / 40


Distribución a prioriInferencia bayesianaCómo construimos la distribución a priori?1 Distribución a priori informativa-Estudios empíricos previos-Conocimiento <strong>de</strong>l investigador:Por intervalosEstimación <strong>de</strong> momentos y supuesto <strong>de</strong> simetríaReparametrización <strong>de</strong> distribuciones. Ej.: beta(m · τ, (1 − m) · τ)2 Distribución a priori no-informativaImpropias: U(−∞, ∞) o U(0, ∞)Jeffrey’s prior: p(θ) ∝ |I (θ)| 0.5Distribuciones poco informativas: θ ∼ N(µ, 10000),σ 2 ∼ G(0.0<strong>01</strong>, 0.0<strong>01</strong>)(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 17 / 40


Inferencia bayesianaDistribución beta como a prioriFunción <strong>de</strong> <strong>de</strong>nsidad 0 ≤ p ≤ 1; α, β > 0f (p) =Γ(α + β)Γ(α)Γ(β) pα−1 (1 − p) β−1∝ p α−1 (1 − p) β−1EstadísticosE(p) =αα + βmoda(p) = α − 1α + β − 2αβvar(p) =(α + β) 2 (α + β + 1)(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 18 / 40


Inferencia bayesianaDistribución beta como a priori(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 19 / 40


Inferencia bayesianaDistribución beta como a posterioriA posteriori: f (p|x) ∝ f (x|p)f (p)función <strong>de</strong> verosimilitud: f (x|p) = p n 1(1 − p) n 2distribución a priori: f (p) = Γ(α+β)Γ(α)Γ(β) pα−1 (1 − p) β−1distribución a posteriori:f (p|x) ∝ p n 1(1 − p) n2 · p α−1 (1 − p) β−1= p n 1+α−1 (1 − p) n 2+β−1(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 20 / 40


Inferencia bayesianaDistribución beta como a posterioriA posteriori: f (p|x) ∝ f (x|p)f (p)función <strong>de</strong> verosimilitud: f (x|p) = p n 1(1 − p) n 2distribución a priori: f (p) = Γ(α+β)Γ(α)Γ(β) pα−1 (1 − p) β−1distribución a posteriori:f (p|x) ∝ p n 1(1 − p) n2 · p α−1 (1 − p) β−1= p n 1+α−1 (1 − p) n 2+β−1f (p|x) ∼ beta(n 1 + α, n 2 + β)Distribuciones Bernoulli y beta son conjugadas - la distribución aposteriori es <strong>de</strong> la misma familia paramétrica que a priori.(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 20 / 40


Ejemplo electoralInferencia bayesianaEncuestas en 2004 <strong>de</strong> CNN/USAToday/Gallup:fecha n % Kerry ≈ n K % Bush ≈ n B17-20 Oct 706 49% 346 48% 33925-28 Sep 664 47% 312 49% 3254-7 Sep 661 43% 284 52% 344TOTAL 2031 942 1008(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 21 / 40


Inferencia bayesianaEjemplo electoralEncuestas en 2004 <strong>de</strong> CNN/USAToday/Gallup:fecha n % Kerry ≈ n K % Bush ≈ n B17-20 Oct 706 49% 346 48% 33925-28 Sep 664 47% 312 49% 3254-7 Sep 661 43% 284 52% 344TOTAL 2031 942 1008f (p) ∝ p 942−1 (1 − p) 1008−1f (p|x) ∝ p 556 (1 − p) 511 p 942−1 (1 − p) 1008−1 = p 1498−1 (1 − p) 1519−1f (p|x) ∼ beta(1498, 1519)(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 21 / 40


Inferencia bayesianaDesplazamiento <strong>de</strong> la distribución a priori(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 22 / 40


Distribución a posterioriInferencia bayesianaCómo se obtiene la distribución a posteriori?AnaĺıticamenteDistribuciones conjugadasMétodos numéricosMarkov Chain Monte Carlo(MCMC):Gibbs SamplingMetropolis-HastingsVerosimilitudBernoulliBinomialMultinomialBinomial NegativaPoissonExponencialGamma(χ 2 )Normal µNormal σ 2Pareto αPareto βA priori conjugadaBetaBetaDirichletBetaGammaGammaGammaNormalGamma InversaGammaPareto(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 23 / 40


Estimación puntualInferencia bayesianaProblema <strong>de</strong> <strong>de</strong>cisión → selección <strong>de</strong> criterio.Elegimos ˆθ como estimador <strong>de</strong> θ tal que minimice la función <strong>de</strong> pérdidaL(θ, ˆθ)Sin embargo, θ es <strong>de</strong>sconocido, tan solo tenemos su distribución aposteriori f (θ|x).(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 24 / 40


Estimación puntualInferencia bayesianaProblema <strong>de</strong> <strong>de</strong>cisión → selección <strong>de</strong> criterio.Elegimos ˆθ como estimador <strong>de</strong> θ tal que minimice la función <strong>de</strong> pérdidaL(θ, ˆθ)Sin embargo, θ es <strong>de</strong>sconocido, tan solo tenemos su distribución aposteriori f (θ|x).Minimizaremos la pérdida esperada a posteriori∫minˆθE[L(θ, ˆθ)|x] = minˆθEl estimador bayesiano será el argumentoΘˆθ = arg min E[L(θ, ˆθ)|x]ˆθL(θ, ˆθ)f (θ|x)dθ(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 24 / 40


Inferencia bayesianaEjemplos <strong>de</strong> la función <strong>de</strong> pérdidaPérdida cuadráticaL(θ, ˆθ) = (θ − ˆθ) 2(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 25 / 40


Inferencia bayesianaEjemplos <strong>de</strong> la función <strong>de</strong> pérdidaPérdida cuadráticaL(θ, ˆθ) = (θ − ˆθ) 2el estimador bayesiano es la media a posterioriE(θ|x) =∫ ∞−∞θ · f (θ|x)dθ.(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 25 / 40


Inferencia bayesianaEjemplos <strong>de</strong> la función <strong>de</strong> pérdidaPérdida cuadráticaL(θ, ˆθ) = (θ − ˆθ) 2el estimador bayesiano es la media a posterioriE(θ|x) =Pérdida <strong>de</strong> error absoluto∫ ∞−∞θ · f (θ|x)dθ.L(θ, ˆθ) = |θ − ˆθ|(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 25 / 40


Inferencia bayesianaEjemplos <strong>de</strong> la función <strong>de</strong> pérdidaPérdida cuadráticaL(θ, ˆθ) = (θ − ˆθ) 2el estimador bayesiano es la media a posterioriE(θ|x) =Pérdida <strong>de</strong> error absoluto∫ ∞−∞θ · f (θ|x)dθ.L(θ, ˆθ) = |θ − ˆθ|el estimador bayesiano es la mediana a posterioriˆθ :∫ ˆθ−∞f (θ|x)dθ = 0.5.(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 25 / 40


Inferencia bayesianaEjemplos <strong>de</strong> la función <strong>de</strong> pérdidaError absoluto asimétricoL r,s (θ, ˆθ) ={ s · (θ − ˆθ) si θ > ˆθr · (ˆθ − θ) si θ ≤ ˆθ(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 26 / 40


Inferencia bayesianaEjemplos <strong>de</strong> la función <strong>de</strong> pérdidaError absoluto asimétricoL r,s (θ, ˆθ) =el estimador bayesiano es el cuantilˆθ :∫ ˆθ−∞{ s · (θ − ˆθ) si θ > ˆθr · (ˆθ − θ) si θ ≤ ˆθsr+s a posteriorif (θ|x)dθ =sr + s .(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 26 / 40


Inferencia bayesianaEstimador MAPUna alternativa a la función <strong>de</strong> pérdida es el estimador <strong>de</strong>l máximo aposteriori (MAP)ˆθ = arg maxθf (θ|x) = arg max f (x|θ)f (θ)θque correspon<strong>de</strong> a la moda a posteriori <strong>de</strong> f (θ|x).(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 27 / 40


Inferencia bayesianaEstimador MAPUna alternativa a la función <strong>de</strong> pérdida es el estimador <strong>de</strong>l máximo aposteriori (MAP)ˆθ = arg maxθf (θ|x) = arg max f (x|θ)f (θ)θque correspon<strong>de</strong> a la moda a posteriori <strong>de</strong> f (θ|x).El estimador MAP es una generalización <strong>de</strong>l estimador clásico <strong>de</strong> máximaverosimilitud.Si suponemos la distribución a priori no informativa f (θ) ∝ 1, el estimadorMAP coinci<strong>de</strong> con el estimador <strong>de</strong> máxima verosimilitud clásico.ˆθ = arg max f (x|θ)θ(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 27 / 40


Inferencia bayesianaEstimación por intervalosIntervalo <strong>de</strong> credibilidad∫ qL−∞f (θ|x)dθ = α/2∫∞q Uf (θ|x)dθ = 1 − α/2Pr(q L < θ < q U |x) = 1 − α(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 28 / 40


Inferencia bayesianaEstimación por intervalosIntervalo HPD (highest posterior <strong>de</strong>nsity):Sea R una región <strong>de</strong> contenido 1 − α, es <strong>de</strong>cir Pr(θ ∈ R) = 1 − α.R se llama región <strong>de</strong> máxima <strong>de</strong>nsidad a posteriori si para cualquierθ 1 ∈ R y θ 2 /∈ R se cumple f (θ 1 |x) ≥ f (θ 2 |x).(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 29 / 40


Ejemplo electoralInferencia bayesianaf (p|x) ∼ beta(1498, 1519)Media=0.497Moda=0.496Mediana=0.497Intervalo <strong>de</strong> credibilidadPr{p ∈ [0.479, 0.514]} = 95%Clave: Cuál es la probabilidad <strong>de</strong> ganar las elecciones?(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 30 / 40


Ejemplo electoralInferencia bayesianaf (p|x) ∼ beta(1498, 1519)Media=0.497Moda=0.496Mediana=0.497Intervalo <strong>de</strong> credibilidadPr{p ∈ [0.479, 0.514]} = 95%Clave: Cuál es la probabilidad <strong>de</strong> ganar las elecciones?Pr(p > 0.5) = 0.351(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 30 / 40


Inferencia bayesianaMo<strong>de</strong>lo normal-normal con σ 2 conocidoLa distribución normal es una <strong>de</strong> las más utilizadas.función <strong>de</strong> verosimilitud f (x|µ, σ 2 ) ∼ N(µ, σ 2 )f (x|µ) ∝n∏i=1{1√ exp − (x i − µ) 2 }2πσ 2 2σ 2a priori - N(m, τ 2 )f (µ) ={ }1√ exp (µ − m)2−2πτ 2 2τ 2a posteriorif (µ|x) ∝{∑1√σ 2 τ exp (µ − nm)2 i=1− 2 2τ 2 −(x i − µ) 2 }2σ 2(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 31 / 40


Inferencia bayesianaMo<strong>de</strong>lo normal-normal con σ 2 conocidoEl exponentese pue<strong>de</strong> transformar en∑(µ − nm)2 i=1−2τ 2 −(x i − µ) 22σ 2− µ2 − 2µ σ2 m+nτ 2¯xnτ 2 +σ 2σ 2 τ 2nτ 2 +σ 2y completando los cuadrados obtenemos la distribución a posteriori para elparámetro µ( σ 2 m + τ 2 n¯x σ 2 τ 2 )f (µ|x) ∼ Nnτ 2 + σ 2 ,nτ 2 + σ 2(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 32 / 40


Inferencia bayesianaMo<strong>de</strong>lo normal generalizadofunción <strong>de</strong> verosimilitud f (x|µ, σ 2 ) ∼ N(µ, σ 2 )f (x|µ, σ 2 ) ∝n∏i=1{1√ exp − (x i − µ) 2 }2πσ 2 2σ 2ahora los dos parámetros µ, σ 2 son <strong>de</strong>sconocidos.Distribución a priori f (µ, σ 2 ) = f (µ) · f (σ 2 ) asumiendo in<strong>de</strong>pen<strong>de</strong>ncia.Introducimos distribuciones a priori no informativasf (µ) ∝ 1f (log(σ 2 )) ∝ 1 → f (σ 2 ) ∝ 1 σ 2estas distribuciones son el caso ĺımite <strong>de</strong> µ ∼ N(m, τ 2 ), σ 2 ∼ IG(a, b)f (σ 2 ) ∝ (σ 2 ) −(a+1) e b/(σ2 )(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 33 / 40


Inferencia bayesianaMo<strong>de</strong>lo normal generalizadoLa <strong>de</strong>nsidad a posteriorif (µ, σ 2 |x) ∝se pue<strong>de</strong> expresar en formaSuponiendo σ 2 fijof (µ|σ 2 , x) ∝ exp{ ∑1(σ 2 ) n/2+1 exp (xi − µ) 2 }−2σ 2f (µ, σ 2 |x) = f (µ|σ 2 , x)f (σ 2 |x).{}}− nµ2 − 2n¯xµ(µ − ¯x)22σ 2 ∝ exp{−2σ 2 /n(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 34 / 40


Inferencia bayesianaMo<strong>de</strong>lo normal generalizadoLa <strong>de</strong>nsidad a posteriori se pue<strong>de</strong> factorizar comof (µ, σ 2 |x) ∝ 1 σ exp {−<strong>de</strong> dón<strong>de</strong> po<strong>de</strong>mos i<strong>de</strong>ntificar}(µ − ¯x)22σ 2 ×/nf (σ 2 |x) ∼ IG( n − 12{∑1x2(σ 2 ) (n+1)/2 exp i− n¯x 2 }2σ 2 .(n − 1)var(x), )2El muestreo <strong>de</strong> la distribución conjunta se pue<strong>de</strong> realizar en dos pasos:1 generar σ 2 <strong>de</strong> la distribución f (σ 2 |x)2 generar µ correspondiente <strong>de</strong> la distribución f (µ|σ 2 , x)(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 35 / 40


Inferencia bayesianaDistribución predictiva a posterioriPara la predicción se emplea la distribución predictiva a posteriori∫f (y|x) = f (y|θ) · f (θ|x)dθΘEs el valor esperado <strong>de</strong>l mo<strong>de</strong>lo especificado, pon<strong>de</strong>rando los posiblesvalores <strong>de</strong>l parámetro por su <strong>de</strong>nsidad a posteriori.La distribución predictiva a posteriori es la alternativa correcta al ”plug-in”f (y|x) = f (y|ˆθ)(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 36 / 40


Inferencia bayesianaComparación <strong>de</strong> mo<strong>de</strong>losDIC: Este indicador evalúa tanto el ajuste <strong>de</strong>l mo<strong>de</strong>lo como la complejidad<strong>de</strong>l mismo. Evalúa el po<strong>de</strong>r explicativo <strong>de</strong>l mo<strong>de</strong>lo. Menores valores <strong>de</strong>lDIC indican mejor ajuste <strong>de</strong>l mo<strong>de</strong>lo.siendo D el estadístico <strong>de</strong> <strong>de</strong>svíoDIC = ¯D + p D= 2 ¯D − D(¯θ)D(θ) = −2 log f (x|θ)(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 37 / 40


Inferencia bayesianaComparación <strong>de</strong> mo<strong>de</strong>losDIC: Este indicador evalúa tanto el ajuste <strong>de</strong>l mo<strong>de</strong>lo como la complejidad<strong>de</strong>l mismo. Evalúa el po<strong>de</strong>r explicativo <strong>de</strong>l mo<strong>de</strong>lo. Menores valores <strong>de</strong>lDIC indican mejor ajuste <strong>de</strong>l mo<strong>de</strong>lo.siendo D el estadístico <strong>de</strong> <strong>de</strong>svíoDIC = ¯D + p D= 2 ¯D − D(¯θ)D(θ) = −2 log f (x|θ)PPLC: Este indicador también penaliza por complejidad <strong>de</strong>l mo<strong>de</strong>lo.Evalúa el po<strong>de</strong>r predictivo <strong>de</strong>l mo<strong>de</strong>lo.PPLP =k n∑n∑(µ i − x i ) 2 + σi2 k + 1i=1siendo µ i = E(x repi|x) y σi 2 = Var(x repi|x) y k es el peso que le damos alprimer término <strong>de</strong>l indicador.(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 37 / 40i=1


ProgramaVentajas <strong>de</strong>l enfoque bayesiano1 Introducción al pensamiento bayesiano2 Inferencia bayesiana3 Ventajas <strong>de</strong>l enfoque bayesiano(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 38 / 40


Ventajas <strong>de</strong>l enfoque bayesianoDiferencias entre clásicos y bayesianosFigure: FrecuentistasFigure: Bayesianos(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 39 / 40


Ventajas <strong>de</strong>l enfoque bayesianoDiferencias entre clásicos y bayesianosFrecuentistasParámetro fijoDatos variables (repetición)Probabilidad como frecuencia ĺımiteNo incluye información previaIntervalos <strong>de</strong> confianzaContraste <strong>de</strong> hipótesisBayesianosParámetro variableDatos fijos (observados)Probabilidad como incertidumbreInclusión <strong>de</strong> información previaIntervalos <strong>de</strong> credibilidadDistribución a posteriori <strong>de</strong>lparámetro(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 39 / 40


Ventajas <strong>de</strong>l enfoque bayesianoVentajas <strong>de</strong>l enfoque bayesianoProvee una completa caracterización <strong>de</strong>l parámetro a través <strong>de</strong> unafunción <strong>de</strong> distribución.(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 40 / 40


Ventajas <strong>de</strong>l enfoque bayesianoVentajas <strong>de</strong>l enfoque bayesianoProvee una completa caracterización <strong>de</strong>l parámetro a través <strong>de</strong> unafunción <strong>de</strong> distribución.Provee un modo sistemático y expĺıcito <strong>de</strong> incorporar conocimientosprevios.(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 40 / 40


Ventajas <strong>de</strong>l enfoque bayesianoVentajas <strong>de</strong>l enfoque bayesianoProvee una completa caracterización <strong>de</strong>l parámetro a través <strong>de</strong> unafunción <strong>de</strong> distribución.Provee un modo sistemático y expĺıcito <strong>de</strong> incorporar conocimientosprevios.Formaliza el proceso <strong>de</strong> aprendizaje a partir <strong>de</strong> los datos al actualizarlos resultados probabiĺısticos a medida que se conoce nuevainformación.(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 40 / 40


Ventajas <strong>de</strong>l enfoque bayesianoVentajas <strong>de</strong>l enfoque bayesianoProvee una completa caracterización <strong>de</strong>l parámetro a través <strong>de</strong> unafunción <strong>de</strong> distribución.Provee un modo sistemático y expĺıcito <strong>de</strong> incorporar conocimientosprevios.Formaliza el proceso <strong>de</strong> aprendizaje a partir <strong>de</strong> los datos al actualizarlos resultados probabiĺısticos a medida que se conoce nuevainformación.Mejora la precisión <strong>de</strong> la estimación al incluir información extra yacumular conocimiento.(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 40 / 40


Ventajas <strong>de</strong>l enfoque bayesianoVentajas <strong>de</strong>l enfoque bayesianoProvee una completa caracterización <strong>de</strong>l parámetro a través <strong>de</strong> unafunción <strong>de</strong> distribución.Provee un modo sistemático y expĺıcito <strong>de</strong> incorporar conocimientosprevios.Formaliza el proceso <strong>de</strong> aprendizaje a partir <strong>de</strong> los datos al actualizarlos resultados probabiĺısticos a medida que se conoce nuevainformación.Mejora la precisión <strong>de</strong> la estimación al incluir información extra yacumular conocimiento.Mejora la estimación en casos <strong>de</strong> datos espaciados y datos faltantes através <strong>de</strong> borrowing strength.(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 40 / 40


Ventajas <strong>de</strong>l enfoque bayesianoVentajas <strong>de</strong>l enfoque bayesianoProvee una completa caracterización <strong>de</strong>l parámetro a través <strong>de</strong> unafunción <strong>de</strong> distribución.Provee un modo sistemático y expĺıcito <strong>de</strong> incorporar conocimientosprevios.Formaliza el proceso <strong>de</strong> aprendizaje a partir <strong>de</strong> los datos al actualizarlos resultados probabiĺısticos a medida que se conoce nuevainformación.Mejora la precisión <strong>de</strong> la estimación al incluir información extra yacumular conocimiento.Mejora la estimación en casos <strong>de</strong> datos espaciados y datos faltantes através <strong>de</strong> borrowing strength.No asume infinitas muestras ni normalidad.(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 40 / 40


Ventajas <strong>de</strong>l enfoque bayesianoVentajas <strong>de</strong>l enfoque bayesianoProvee una completa caracterización <strong>de</strong>l parámetro a través <strong>de</strong> unafunción <strong>de</strong> distribución.Provee un modo sistemático y expĺıcito <strong>de</strong> incorporar conocimientosprevios.Formaliza el proceso <strong>de</strong> aprendizaje a partir <strong>de</strong> los datos al actualizarlos resultados probabiĺısticos a medida que se conoce nuevainformación.Mejora la precisión <strong>de</strong> la estimación al incluir información extra yacumular conocimiento.Mejora la estimación en casos <strong>de</strong> datos espaciados y datos faltantes através <strong>de</strong> borrowing strength.No asume infinitas muestras ni normalidad.Interpretación más directa que los intervalos <strong>de</strong> confianza, contrastes<strong>de</strong> hipótesis y p-valor.(Univ. Carlos III <strong>de</strong> Madrid) Estadística bayesiana 21-03-11 40 / 40

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!