17.04.2015 Views

Regla de Bayes - Edu-esta.org

Regla de Bayes - Edu-esta.org

Regla de Bayes - Edu-esta.org

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Regla</strong> <strong>de</strong> <strong>Bayes</strong><br />

Pedro J. Rodríguez Esquerdo<br />

Instituto <strong>de</strong> Estadística y Sistemas Computadorizados <strong>de</strong> Información<br />

Facultad <strong>de</strong> Administración <strong>de</strong> Empresas<br />

y<br />

Departamento <strong>de</strong> Matemáticas<br />

Facultad <strong>de</strong> Ciencias Naturales<br />

Recinto <strong>de</strong> Río Piedras<br />

Universidad <strong>de</strong> Puerto Rico<br />

1. Ejemplos <strong>de</strong> Probabilidad condicional<br />

El Teorema o <strong>Regla</strong> <strong>de</strong> <strong>Bayes</strong> ofrece un método para invertir el evento que condiciona a otro evento al<br />

calcular una probabilidad condicional: si A y B son eventos y se conocen P(A | B), P( B ), P(A | B c ), entonces la<br />

regla permite calcular P( B | A ). La necesidad <strong>de</strong> calcular este último valor a partir <strong>de</strong> la información disponible<br />

es imprescindible para enten<strong>de</strong>r las consecuencias <strong>de</strong> algunas <strong>de</strong> nuestras <strong>de</strong>cisiones.<br />

Ejemplo 1<br />

Una fábrica <strong>de</strong> botellas cuenta con dos máquinas para producir 10,000 botellas al día. La máquina A produce<br />

6,500 botellas diarias <strong>de</strong> las cuales 2% son <strong>de</strong>fectuosas. La máquina B produce 3,500 botellas cada día <strong>de</strong> las<br />

cuales 1% son <strong>de</strong>fectuosas. El inspector <strong>de</strong> calidad <strong>de</strong> la compañía selecciona una botella al azar y encuentra<br />

que está <strong>de</strong>fectuosa. ¿Cuál es la probabilidad <strong>de</strong> que la botella haya sido producida por la máquina A?<br />

Para visualizar mejor los datos, se representan en un diagrama <strong>de</strong> árbol. Denote por A el evento <strong>de</strong> que<br />

la botella seleccionada haya sido producida por la máquina A y por B el evento <strong>de</strong> que haya sido producida por<br />

la máquina B. El evento <strong>de</strong> que la botella seleccionada sea <strong>de</strong>fectuosa se <strong>de</strong>nota por D, mientras que su<br />

complemento D c representa una botella que no es <strong>de</strong>fectuosa.<br />

Comienzo Máquina Botella Resultados<br />

0.02 D AD<br />

0.65 A<br />

fabricar botella 0.98 D c AD c<br />

0.35 B<br />

0.01 D BD<br />

0.99 D c BD c<br />

La probabilidad <strong>de</strong> que una botella cualquiera haya sido producida por la máquina A es 0.65, pues <strong>de</strong> las<br />

10,000 producidas, 6,500 son producidas por A. Interesa calcular P( A | D ), la cual no se pue<strong>de</strong> obtener <strong>de</strong><br />

forma directa <strong>de</strong> los datos o <strong>de</strong>l árbol que los representa. Para esto se recurre directamente a la <strong>de</strong>finición <strong>de</strong><br />

probabilidad condicional: P( A | D) = P( A D ) / P( D ).


Teorema <strong>de</strong> <strong>Bayes</strong> p. 2<br />

Las cantida<strong>de</strong>s P( A D ) y P( A ) se pue<strong>de</strong>n obtener <strong>de</strong>l árbol. Para que una botella seleccionada al azar<br />

sea una botella <strong>de</strong>fectuosa producida por la máquina A, se selecciona primero la máquina A y <strong>de</strong> las botellas<br />

producidas allí se selecciona una <strong>de</strong>fectuosa. La expresión P( A D ) = P( A ) P( D | A ) equivale a hacer una<br />

travesía en el árbol <strong>de</strong>s<strong>de</strong> su raíz o comienzo, hasta la hoja final don<strong>de</strong> se obtiene el resultado A D. Así<br />

P( A D ) = 0.65 0.02.<br />

Para encontrar P( D ) es necesario darse cuenta <strong>de</strong> que<br />

una botella <strong>de</strong>fectuosa pue<strong>de</strong> ser producida por la máquina A o<br />

por la B. Al examinar las hojas <strong>de</strong>l árbol, se encuentran dos<br />

lugares don<strong>de</strong> se obtiene una botella <strong>de</strong>fectuosa: A D o B D.<br />

Esto equivale a hacer una travesía por uno <strong>de</strong> dos caminos en el<br />

árbol. Estos caminos son mutuamente excluyentes, pues si se<br />

camina por uno no pue<strong>de</strong> caminarse por el otro. Según se<br />

muestra en la Figura 1, el evento D = ( A D ) ( B D ) y su<br />

probabilidad es entonces calculada<br />

P( D ) = P( A D) + P( B D ).<br />

AD c<br />

Máquina A<br />

AD BD<br />

BD c<br />

Defectuosas<br />

Máquina B<br />

Figura 1 Partición <strong>de</strong> la producción <strong>de</strong> botellas.<br />

El primero <strong>de</strong> estos términos P( A D ) ya fue<br />

calculado. El segundo, P( B D ), se obtiene <strong>de</strong> forma similar, P( B D ) = P( B )P( D | B ). Juntando estos<br />

resultados, P( D ) = P( A ) P( D | A ) + P( B ) P( D | B ). Finalmente se calcula la probabilidad <strong>de</strong>seada:<br />

6,500<br />

.02<br />

P(A) P( D | A)<br />

10,000<br />

.013<br />

P ( A | D)<br />

<br />

<br />

<br />

.788<br />

P( D | A)P(A) P(D| B)P(B) 6,500 3,500 .013 .0035<br />

.02<br />

.01<br />

10,000<br />

10,000<br />

<br />

Por lo tanto, una vez se sabe que una botella seleccionada al azar está <strong>de</strong>fectuosa, la probabilidad <strong>de</strong><br />

que haya sido producida por la máquina A es .788. Dicho <strong>de</strong> otra manera, <strong>de</strong> todas las botellas <strong>de</strong>fectuosas<br />

produdidas, aproximadamente el 79% son producidas por la máquina A. ▪<br />

Pregunta 1<br />

¿Cómo se pue<strong>de</strong> explicar que la máquina A produzca el 79% <strong>de</strong> las botellas <strong>de</strong>fectuosas?<br />

Este hecho se <strong>de</strong>be a dos factores. El primero es que la máquina A produce casi el doble <strong>de</strong> botellas que<br />

la máquina B. Aún si la tasa <strong>de</strong> botellas <strong>de</strong>fectuosas fuera la misma para ambas máquinas, por el mero hecho <strong>de</strong><br />

producir un mayor número <strong>de</strong> botellas, la máquina A produciría casi el doble <strong>de</strong> <strong>de</strong>fectuosas <strong>de</strong> la máquina B. El<br />

segundo factor es que la tasa <strong>de</strong> producción <strong>de</strong> <strong>de</strong>fectuosas <strong>de</strong> la máquina A es el doble <strong>de</strong> la correspondiente<br />

<strong>de</strong> la máquina B. En este caso, aún si ambas máquinas produjeran la misma cantidad <strong>de</strong> botelllas, las producidas<br />

por la máquina A contendrían el doble <strong>de</strong> botellas <strong>de</strong>fectuosas que las que vienen <strong>de</strong> la máquina B. ▪<br />

Ejemplo 2<br />

El gobierno aprobó una ley para hacer obligatorio que los cerca <strong>de</strong> 200,000 empleados públicos se<br />

sometan a una prueba para <strong>de</strong>tectar si son usuarios <strong>de</strong> drogas. Se estima que el 1% <strong>de</strong> los empleados públicos<br />

<strong>de</strong>l país son usuarios <strong>de</strong> drogas. La prueba que se ofrece muestra un resultado positivo en el 98% <strong>de</strong> los casos en<br />

que se le administra a una persona que usa drogas, es <strong>de</strong>cir, <strong>de</strong>tecta el 98% <strong>de</strong> los usuarios <strong>de</strong> drogas. De<br />

manera similar, si la persona no usa droga alguna, la prueba arroja un resultado negativo en el 99% <strong>de</strong> los casos.<br />

© 2012 Pedro J. Rodríguez Esquerdo


Teorema <strong>de</strong> <strong>Bayes</strong> p. 3<br />

Se selecciona un empleado al azar, se le administra la prueba y se obtiene un resultado positivo. ¿Cuál es la<br />

probabilidad <strong>de</strong> que la persona sea un usuario <strong>de</strong> drogas?<br />

Se representan los datos mediante un diagrama <strong>de</strong> árbol. Denote por U el evento <strong>de</strong> que la persona sea<br />

un usuario <strong>de</strong> drogas, por Pos el evento <strong>de</strong> que la prueba resulte positiva y por Neg el evento <strong>de</strong> que la prueba<br />

resulte negativa. En el lenguaje <strong>de</strong> la epi<strong>de</strong>miología, al por ciento <strong>de</strong> personas <strong>de</strong> la población <strong>de</strong> interés que<br />

poseen la característica <strong>de</strong>seada, en este caso usuarios <strong>de</strong> drogas, se le llama la prevalencia. En este ejemplo la<br />

prevalencia <strong>de</strong>l uso <strong>de</strong> drogas es <strong>de</strong>l 1%.<br />

A la capacidad <strong>de</strong> una prueba para <strong>de</strong>tectar aquellas personas que poseen la característica <strong>de</strong> interés se<br />

le llama la sensitividad <strong>de</strong> la prueba. La sensitividad <strong>de</strong>scribe el por ciento <strong>de</strong> personas cuyo resultado <strong>de</strong> la<br />

prueba sería positivo <strong>de</strong> entre aquellas que poseen la característica <strong>de</strong>seada, en este caso, usan drogas. La<br />

sensitividad <strong>de</strong> <strong>esta</strong> prueba para la <strong>de</strong>tección <strong>de</strong> usuarios <strong>de</strong> drogas es 98%.<br />

Otra medida es la especificidad. Esta indica el por ciento <strong>de</strong> personas cuyo resultado <strong>de</strong> la prueba sería<br />

negativo <strong>de</strong> entre aquellas que no poseen la característica <strong>de</strong>seada, en este caso, que no usan drogas. La<br />

especificidad <strong>de</strong> <strong>esta</strong> prueba para la <strong>de</strong>tección <strong>de</strong> usuarios <strong>de</strong> drogas es 99%.<br />

Así, la prevalencia indica que al seleccionar una persona al azar <strong>de</strong> entre los 200,000 empleados<br />

públicos, P( U ) = 0.01. La sensitividad <strong>de</strong> la prueba dice que P( Pos | U ) = 0.98 y <strong>de</strong> la misma manera la<br />

especificidad se traduce a P( Neg | U c ) = 0.99. 1<br />

Comienzo ¿Usa Drogas? Resultado <strong>de</strong> la Resultados<br />

prueba<br />

0.98 Pos UPos<br />

U<br />

0.01 0.02 Neg UNeg<br />

U c<br />

0.99 0.01 Pos U c Pos<br />

0.99 Neg U c Neg<br />

La pregunta que interesa cont<strong>esta</strong>r es: ¿cuánto es P( U | Pos)? Al<br />

igual que antes la cont<strong>esta</strong>ción a <strong>esta</strong> pregunta no se pue<strong>de</strong> obtener <strong>de</strong><br />

forma directa <strong>de</strong> los datos o <strong>de</strong>l árbol que los representa. Por lo tanto se<br />

recurre nuevamente a la <strong>de</strong>finición <strong>de</strong> probabilidad condicional:<br />

P( U | Pos ) = P( U Pos ) / P( Pos ).<br />

Pos<br />

Del árbol se obtienen las cantida<strong>de</strong>s P( U Pos ) y P( Pos ).<br />

Siguiendo el mismo proceso <strong>de</strong> antes, P( U Pos ) = P( U ) P( Pos | U ), lo<br />

que equivale a caminar por el árbol <strong>de</strong>s<strong>de</strong> la raíz hasta la hoja para obtener<br />

el resultado U Pos. Así P( U Pos ) = 0.01 0.98.<br />

U c<br />

U<br />

Figura 2 Partición <strong>de</strong> las personas<br />

1 Estas dos últimas probabilida<strong>de</strong>s no se pue<strong>de</strong>n sumar, ya que son valores obtenidos bajo condiciones distintas, la base <strong>de</strong><br />

comparación no es la misma. En el primer caso se compara la cantidad <strong>de</strong> resultados positivos <strong>de</strong>l total <strong>de</strong> usuarios <strong>de</strong><br />

drogas mientras que el segundo compara la cantidad <strong>de</strong> resultados negativos al total <strong>de</strong> personas que no usan drogas.<br />

© 2012 Pedro J. Rodríguez Esquerdo


Teorema <strong>de</strong> <strong>Bayes</strong> p. 4<br />

Para encontrar P( Pos ), se consi<strong>de</strong>ra que la prueba pue<strong>de</strong> arrojar un resultado positivo cuando la<br />

persona es un usuario <strong>de</strong> drogas o en el caso en que no lo sea. Por <strong>esta</strong> razón hay dos caminos mutuamente<br />

excluyentes en el árbol don<strong>de</strong> se obtiene un resultado positivo. Según se muestra también en la Figura 2, el<br />

evento Pos = ( U Pos ) ( U c Pos ) y su probabilidad es P( Pos )= P( U Pos ) + P( U c Pos ). El término<br />

P( U Pos ) ya había sido calculado, el segundo se obtiene <strong>de</strong> forma similar. Obtenemos entonces que<br />

P( U c Pos ) = P( U c ) P( Pos | U c ). Uniendo estos resultados tenemos que<br />

P( Pos ) = P( U ) P( Pos | U) + P( U c ) P( Pos | U c ). La probabilidad <strong>de</strong>seada es<br />

P(U) P( Pos| U)<br />

P ( U | Pos)<br />

<br />

<br />

c<br />

c<br />

P(U) P( Pos| U) P(U ) P(Pos| U )<br />

.01.98<br />

.01.98<br />

.99.01<br />

.0098<br />

<br />

.497<br />

.0098 .0099<br />

La cont<strong>esta</strong>ción a la pregunta es P( U | Pos) = 0.497, es <strong>de</strong>cir, la probabilidad <strong>de</strong> que una persona<br />

seleccionada al azar entre los 200,000 empleados sea un usuario <strong>de</strong> drogas si la prueba da positivo, es 0.497.▪<br />

Pregunta 2<br />

De la población a la que se administra la prueba, ¿cuántos resultados positivos se esperaría observar? ¿cuántos<br />

falsos positivos habría? Explica las razones por la cuáles una prueba con sensitividad y especificidad tan altas,<br />

resulta que más <strong>de</strong> la mitad <strong>de</strong> los resultados positivos correspon<strong>de</strong>n a personas que no son usuarios.<br />

Esta última pregunta se pue<strong>de</strong> cont<strong>esta</strong>r examinando cuidadosamente el numerador y el <strong>de</strong>nominador<br />

<strong>de</strong> P( U | Pos ). Si no se cuenta con una prueba <strong>de</strong> mejor sensitividad y especificidad que ésta, ¿qué es posible<br />

hacer, si no se pue<strong>de</strong> cambiar P(Pos | U) ni P(Neg | U c )? Ante <strong>esta</strong> limitación tecnológica, sólo es posible<br />

trabajar con P( U ). Este valor sólo pue<strong>de</strong> cambiar si al modificar la población <strong>de</strong> la cual se seleccionan las<br />

personas a quienes se administrará la prueba. ▪<br />

Pregunta 3<br />

Discuta los costos asociados a ofrecer pruebas <strong>de</strong> drogas a 200,000 personas para <strong>de</strong>tectar a 2,000 usuarios.<br />

¿Hay costos no económicos? ¿Existe un plan para ayudar a las personas que son usuarios <strong>de</strong> drogas y a los que<br />

reciben un falso positivo? ¿Ofrecen <strong>esta</strong>s pruebas una solución al problema social <strong>de</strong>l uso <strong>de</strong> drogas? Suponga<br />

que P( U ) = 0 .25, encuentre P(U | Pos). ¿Cómo se lograría ese aumento en P( U ) en la realidad?<br />

Ejemplo 3<br />

Consi<strong>de</strong>re una caja con 5 canicas, dos <strong>de</strong> ellas son rojas y las otras tres son azules. Se selecciona una canica al<br />

azar, sin mirarla se guarda en el bolsillo. Luego se selecciona otra canica al azar. Esta segunda canica resulta ser<br />

<strong>de</strong> color rojo. ¿Cuál es la probabilidad <strong>de</strong> que la primera canica haya sido también roja?<br />

En la sección anterior se resolvió una situación similar<br />

imaginando que antes <strong>de</strong> seleccionar la primera canica, se ha<br />

mirado <strong>de</strong>ntro <strong>de</strong> la caja y removido la canica que se observará<br />

en la segunda selección, reservando la segunda canica. La<br />

primera canica sólo pue<strong>de</strong> ser seleccionada <strong>de</strong> entre las r<strong>esta</strong>ntes<br />

4 canicas, <strong>de</strong> las cuales 1 <strong>de</strong> ellas es roja. Por <strong>esta</strong> razón la<br />

probabilidad <strong>de</strong>seada es 1/4.<br />

R 2<br />

R 1<br />

Es <strong>de</strong> interés encontrar un método formal para cont<strong>esta</strong>r<br />

<strong>esta</strong>s preguntas. Denote el evento <strong>de</strong> que la primera canica<br />

© 2012 Pedro J. Rodríguez Esquerdo<br />

B 1<br />

Figura 3 Partición <strong>de</strong>l color <strong>de</strong> la segunda<br />

canica según el color <strong>de</strong> la primera canica.


Teorema <strong>de</strong> <strong>Bayes</strong> p. 5<br />

seleccionada es roja por R 1 y el evento <strong>de</strong> que la segunda sea roja por R 2 . Entonces la probabilidad buscada es<br />

P( R 1 | R 2 ).<br />

1/4<br />

2/5<br />

3/4<br />

3/5<br />

2/4<br />

2/4<br />

Figura 4. Diagrama <strong>de</strong> árbol que ilustra el experimento <strong>de</strong> seleccionar dos canicas <strong>de</strong> una caja<br />

La <strong>de</strong>finición <strong>de</strong> probabilidad condicional permite escribir P( R 1 | R 2 ) = P( R 1 R 2 ) / P( R 2 ). Para<br />

encontrar el numerador se usa nuevamente la <strong>de</strong>finición <strong>de</strong> probabilidad condicional,<br />

P( R 1 R 2 ) = P( R 2 | R 1 )P( R 1 ). Ahora se calcula el <strong>de</strong>nominador, P( R 2 ) <strong>de</strong>scomponiendo el evento R 2 en dos<br />

eventos disyuntos, tal como en la Figura 4: R 2 = (B 1 R 2 ) (R 1 R 2 ). De <strong>esta</strong> manera se obtiene la probabilidad<br />

P( R 2 ) = P( B 1 R 2 ) + P ( R 1 R 2 ).<br />

Usando nuevamente la <strong>de</strong>finición <strong>de</strong> probabilidad condicional P( B 1 R 2 ) = P( R 2 | B 1 )P( B 1 ). Por lo<br />

tanto, el <strong>de</strong>nominador es P(R 2 ) = P(R 2 | R 1 )P(R 1 ) + P(R 2 | B 1 )P(B 1 ). El resultado <strong>de</strong>seado es igual que antes:<br />

1 2<br />

<br />

P(<br />

R2<br />

| R1<br />

) P(<br />

R1<br />

)<br />

4 5 1<br />

P ( R1 | R2<br />

) <br />

<br />

. ▪<br />

P(<br />

R | ) ( ) ( | ) ( ) 1 2 2 3<br />

2<br />

R1<br />

P R1<br />

P R2<br />

B1<br />

P B1<br />

4<br />

<br />

4 5 4 5 <br />

Ejemplo 4<br />

En el 1991 los contribuyentes <strong>de</strong> Puerto Rico sometieron un total <strong>de</strong> 1,320,600 planillas <strong>de</strong> contribución<br />

sobre ingresos al Departamento <strong>de</strong> Hacienda. Los datos se <strong>de</strong>sglosan en la siguiente tabla por nivel <strong>de</strong> ingreso y<br />

si la planilla se somete conjunta o por separado.<br />

Nivel <strong>de</strong> ingreso Planillas conjuntas rendidas Planillas separadas rendidas Total<br />

(miles)<br />

(miles)<br />

menos <strong>de</strong> 20,000 457.5 565.7 1,023.2<br />

20,000 a 30,000 88.7 84.9 173.6<br />

30,000 a 50,000 55.3 33.2 88.5<br />

50,000 o más 20.1 15.2 35.3<br />

Total 621.6 699.0 1,320.6<br />

Fuente: Reforma Contributiva en Puerto Rico 1994. Estudio Técnico. Editorial UPR.<br />

Tabla 1. Desglose <strong>de</strong> contribuyentes en Puerto Rico en el año 1991<br />

© 2012 Pedro J. Rodríguez Esquerdo


Teorema <strong>de</strong> <strong>Bayes</strong> p. 6<br />

Pregunta 4<br />

El Secretario <strong>de</strong> Hacienda selecciona una planilla al azar.¿Cuál es la probabilidad <strong>de</strong> que la planilla haya sido<br />

sometida en forma conjunta si el nivel <strong>de</strong> ingreso en ella era menor <strong>de</strong> $20,000? ¿Cuál es la probabilidad <strong>de</strong> que<br />

el nivel <strong>de</strong> ingreso en ella era menor <strong>de</strong> $20,000 si la la planilla fue sometida en forma conjunta?<br />

Para cont<strong>esta</strong>r la primera pregunta, se examina la primera fila <strong>de</strong> la Tabla 1, don<strong>de</strong> todas las planillas<br />

sometidas, 1,023,000, reflejan un ingreso menor <strong>de</strong> $20,000. De esas, 457,500 fueron sometidas en forma<br />

conjunta, así la probabilidad <strong>de</strong>seada es: 475.5 / 1,023.0 = 0.46.<br />

Para cont<strong>esta</strong>r la segunda pregunta se examina en vez la columna correspondiente a las planillas que se<br />

sometieron en forma conjunta. El total que se indica al final <strong>de</strong> esa columna será la base <strong>de</strong> comparación. Se<br />

sometieron 621,600 planillas conjuntas <strong>de</strong> las cuales 457,500 correspon<strong>de</strong>n a planillas que a<strong>de</strong>más indicaron un<br />

ingreso menor <strong>de</strong> $20,000. Por lo tanto la probabilidad buscada es 475.5 / 621.6 = 0.76.<br />

Si se usara como base <strong>de</strong> comparación los resultados obtenidos para <strong>de</strong>scribir la población <strong>de</strong> planillas<br />

recibidas, <strong>de</strong> las planillas que reflejaron un ingreso menor <strong>de</strong> $20,000, el 46% correspondían a planillas<br />

sometidas en forma conjunta. En el otro caso, <strong>de</strong> todas las planillas sometidas en forma conjunta, el 76%<br />

correspon<strong>de</strong> a planillas que reflejan un ingreso menor <strong>de</strong> $20,000. Estos dos porcentajes no son iguales ni<br />

significan lo mismo pues reflejan bases <strong>de</strong> comparación distintas.<br />

En una tabla es muy fácil calcular probabilida<strong>de</strong>s condicionales. En este caso, aunque en la práctica no se<br />

usaría el método <strong>de</strong> análisis que ofrece la regla <strong>de</strong> <strong>Bayes</strong>, es ejemplo que sigue ilustra su uso, con el fin <strong>de</strong><br />

presentar una forma <strong>org</strong>anizada <strong>de</strong> resolver estos problemas.<br />

Denote por C el evento <strong>de</strong> que la planilla se somete en forma conjunta, por S el evento <strong>de</strong> que la planilla<br />

se somete por separado y por I el ingreso reflejado en la planilla. De la <strong>de</strong>finición <strong>de</strong> probabilidad condicional,<br />

P( C | I<br />

<br />

P<br />

P( C { I $20,000})<br />

P( C { I $20,000})<br />

$20,000) <br />

<br />

<br />

P {C { I $20,000}} {S{ I $20,000}}<br />

P({ I $20,000}) <br />

P<br />

C { I $20,000} <br />

C { I $20,000}) P(S{ I $20,000} .<br />

Se usa nuevamente la <strong>de</strong>finición <strong>de</strong> probabilidad condicional para reescribir el <strong>de</strong>nominador:<br />

P( C { I < $20,000 } ) = P ( I < $20,000 | C) P( C ) y P( S { I < $20,000 } ) = P( I < $20,000 | S) P( S ). Así,<br />

P( C | I<br />

Pregunta 5<br />

$20,000) <br />

P( I<br />

P(<br />

I $20,000 | C)<br />

P(<br />

C)<br />

.<br />

$20,000 | C)P(C) P( I $20,000 | S) P(<br />

S)<br />

Representa estos datos usando un diagrama <strong>de</strong> Venn.<br />

<br />

© 2012 Pedro J. Rodríguez Esquerdo


Teorema <strong>de</strong> <strong>Bayes</strong> p. 7<br />

2. Probabilidad total y la regla <strong>de</strong> <strong>Bayes</strong><br />

Los ejemplos anteriores permiten el <strong>de</strong>scubrimiento, formulación y <strong>de</strong>sarrollo <strong>de</strong> resultados formales<br />

para calcular <strong>esta</strong>s probabilida<strong>de</strong>s condicionales, cuando su valor no se pue<strong>de</strong> obtener directamente <strong>de</strong> los<br />

datos. En esos ejemplos, primero se usó la <strong>de</strong>finición <strong>de</strong> probabilidad condicional para expresarla en términos<br />

<strong>de</strong> otros eventos cuyas probabilida<strong>de</strong>s son conocidas. Como segundo paso, se <strong>de</strong>scompuso el evento <strong>de</strong>seado,<br />

sin condición alguna, en la unión <strong>de</strong> eventos disyuntos cuyas probabilida<strong>de</strong>s son conocidas y finalmente se<br />

calculó la probabilidad <strong>de</strong>seada.<br />

Teorema 1 (Fórmula <strong>de</strong> la probabilidad total)<br />

Sea S un espacio muestral, P una medida <strong>de</strong> probabilidad en S y<br />

B un evento en S. Sea A 1 , A 2 , …, A n una partición <strong>de</strong> S, es <strong>de</strong>cir,<br />

eventos disyuntos tal que<br />

n<br />

<br />

P( B)<br />

P(<br />

A ) P(<br />

B | ) .<br />

i1<br />

i<br />

A i<br />

S<br />

<br />

n<br />

A i<br />

i1<br />

, entonces<br />

Prueba.<br />

Ya que A 1 , A 2 , …, A n es una partición <strong>de</strong> S, sique que el evento B<br />

se pue<strong>de</strong> rescribir B = B S = B ( n<br />

A i<br />

i 1<br />

) = n<br />

i 1<br />

( B <br />

se usa el hecho <strong>de</strong> que los eventos B A i , i = 1, …, n son<br />

disyuntos y la <strong>de</strong>finición <strong>de</strong> probabilidad condicional para<br />

calcular la probabilidad <strong>de</strong> B:<br />

P(B) =<br />

P(<br />

n<br />

n<br />

n<br />

( B Ai<br />

)) P(<br />

B Ai<br />

) <br />

i1 i1<br />

i1<br />

i<br />

A i<br />

) . Ahora<br />

P(<br />

A ) P(<br />

B | A ) .▪<br />

i<br />

A A 3<br />

2 A 4 A 5<br />

B<br />

A 1<br />

A 6<br />

Figura 5 Partición <strong>de</strong>l evento B<br />

La Figura 5 arriba muestra la partición <strong>de</strong> B. En este ejemplo, cada término B A i i = 1, 2, 3, 4, 5, 6<br />

correspon<strong>de</strong> a cada uno <strong>de</strong> los "pedacitos" en que fue dividido B. La intersección <strong>de</strong>l evento A 6 con el evento B<br />

es vacía, por lo cual P( B A 6 ) = 0. Para calcular la probabilidad <strong>de</strong> cada pedacito, se usa la <strong>de</strong>finición <strong>de</strong><br />

probabilidad condicional, así P( B A i ) = P( B | A i )P( A i ), i = 1, 2, 3, 4, 5, 6.<br />

Imagine que la Figura 5 representa un tablero <strong>de</strong> dardos y que la probabilidad <strong>de</strong> que el dardo caiga en<br />

una <strong>de</strong>terminada región <strong>de</strong>l tablero es igual a su área. Se lanza el dardo y se conoce que cayó en la región<br />

marcada por B, entonces, ¿cuál es la probabilidad <strong>de</strong> que haya caido en A 2 ? Para cont<strong>esta</strong>r <strong>esta</strong> pregunta es<br />

necesario usar la regla <strong>de</strong> <strong>Bayes</strong>.<br />

Teorema 2 (<strong>Regla</strong> <strong>de</strong> <strong>Bayes</strong>)<br />

Sea S un espacio muestral, P una medida <strong>de</strong> probabilidad en S y B un evento en S. Sea A 1 , A 2 , …, A n una partición<br />

<strong>de</strong> S. Entonces para cada i = 1, 2, 3, ..., n<br />

P ( A<br />

i<br />

| B)<br />

<br />

n<br />

<br />

P(<br />

Ai<br />

) P(<br />

B | Ai<br />

)<br />

.<br />

P(<br />

A ) P(<br />

B | A )<br />

j 1<br />

j<br />

j<br />

© 2012 Pedro J. Rodríguez Esquerdo


Teorema <strong>de</strong> <strong>Bayes</strong> p. 8<br />

Prueba.<br />

De la <strong>de</strong>finición <strong>de</strong> probabilidad condicional<br />

P(<br />

A<br />

i<br />

| B)<br />

<br />

P(<br />

B Ai<br />

)<br />

. Para calcular el numerador se usa<br />

P(<br />

B)<br />

nuevamente la <strong>de</strong>finición, <strong>esta</strong> vez condicionando por A i , P B A ) P(<br />

B | A ) P(<br />

A ). El <strong>de</strong>nominador se<br />

obtiene aplicando la Fórmula <strong>de</strong> probabilidad total, para obtener<br />

P(<br />

A<br />

i<br />

| B)<br />

<br />

Pregunta 6<br />

P(<br />

B Ai<br />

)<br />

P(<br />

B)<br />

P(<br />

Ai<br />

) P(<br />

B | Ai<br />

)<br />

<br />

<br />

P(<br />

B)<br />

n<br />

<br />

(<br />

i<br />

i i<br />

P(<br />

Ai<br />

) P(<br />

B | Ai<br />

)<br />

. ▪<br />

P(<br />

A ) P(<br />

B | A )<br />

j 1<br />

Expresa los problemas presentados en los ejemplos 1,2, 3 y 4 en términos <strong>de</strong> la regla <strong>de</strong> <strong>Bayes</strong>. Indica a qué<br />

correspon<strong>de</strong>n la partición y el evento B.<br />

j<br />

j<br />

3. Problemas y ejercicios<br />

1. Una fábrica tiene tres máquinas para producir bombillas. La máquina A produce el 35% <strong>de</strong>l total <strong>de</strong> bombillas,<br />

la máquina B produce el 50% y la máquina C produce el 15% <strong>de</strong> las bombillas. Sin embargo, las máquinas no son<br />

perfectas, la máquina A daña el 10% <strong>de</strong> las bombillas que produce. La máquina B daña el 5% y la máquina C daña<br />

el 20%.<br />

a. Representa estos datos en un diagrama <strong>de</strong> árbol.<br />

b. La fábrica produce 10,000 bombillas sin <strong>de</strong>fectos en un día. ¿Cuántas <strong>de</strong> éstas correspon<strong>de</strong>n a la<br />

máquina A? ¿Cuántas daña en un día?<br />

c. Si seleccionamos una bombilla <strong>de</strong> la máquina C, ¿cuál es la probabilidad <strong>de</strong> que esté <strong>de</strong>fectuosa?<br />

d. Luego <strong>de</strong> fabricadas, pero antes <strong>de</strong> probarlas, las bombillas se colocan juntas en un salón. Si se<br />

selecciona una bombilla al azar, ¿cuál es la probabilidad <strong>de</strong> que esté <strong>de</strong>fectuosa?<br />

e. Si se comprueba que una bombilla está <strong>de</strong>fectuosa, ¿cuál es la probabilidad <strong>de</strong> que provenga <strong>de</strong> la<br />

máquina B?<br />

2. Una muestra <strong>de</strong> 400 adultos varones con angina <strong>de</strong> pecho son clasificados por peso y <strong>esta</strong>tura como sigue:<br />

Peso (libras)<br />

Edad (años) 130-149 150-169 170-189 190 o más<br />

30-39 10 20 20 40<br />

40-49 10 15 50 70<br />

50-59 5 15 50 40<br />

60-69 5 10 15 25<br />

Un individuo se selecciona al azar <strong>de</strong> entre los 400 participantes. Encuentra la probabilidad <strong>de</strong> que:<br />

a. tiene entre 40-49 años <strong>de</strong> edad<br />

b. está en el intervalo <strong>de</strong> 40-49 años y pesa 170-189 libras<br />

c. está en el intervalo 40-49 años ó entre 60-69 años<br />

d. está en el intervalo 30-39 o 50-59 años y pesa 150-169 libras<br />

e. pesa menos <strong>de</strong> 170 libras<br />

f. pesa menos <strong>de</strong> 190 libras y es mayor <strong>de</strong> 49 años<br />

g. pesa menos <strong>de</strong> 170 libras dado que es menor <strong>de</strong> 50 años<br />

h. ¿Son los eventos {tiene 60-69 años} , {pesa 130-149 libras} in<strong>de</strong>pendientes? Explica.<br />

i. ¿Son los eventos {tiene 50-59 años} , {pesa 130-149 libras} mutuamente excluyentes? Explica.<br />

© 2012 Pedro J. Rodríguez Esquerdo


Teorema <strong>de</strong> <strong>Bayes</strong> p. 9<br />

3. Un estudio neurológico sobre la relación entre la presión sanguínea alta y la inci<strong>de</strong>ncia <strong>de</strong> <strong>de</strong>rrame cerebral<br />

encontró que:<br />

a. para personas mayores <strong>de</strong> 70 años, el 10% tendrá un <strong>de</strong>rrame <strong>de</strong>ntro <strong>de</strong> los próximos cinco años<br />

b. <strong>de</strong> todos los pacientes <strong>de</strong> 70 años o más que han tenido un <strong>de</strong>rrame, el 40% tenía presión alta<br />

c. para personas <strong>de</strong> 70 años o mas que no ha sufrido <strong>de</strong> <strong>de</strong>rrame, el 20% tiene presión alta.<br />

d. Un paciente <strong>de</strong> 74 años visita a su médico y éste le encuentra con la presión alta. ¿Cuál es la<br />

probabilidad <strong>de</strong> que sufra un <strong>de</strong>rrame cerebral en los próximos cinco años?<br />

© 2012 Pedro J. Rodríguez Esquerdo

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!