Regla de Bayes - Edu-esta.org
Regla de Bayes - Edu-esta.org
Regla de Bayes - Edu-esta.org
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
<strong>Regla</strong> <strong>de</strong> <strong>Bayes</strong><br />
Pedro J. Rodríguez Esquerdo<br />
Instituto <strong>de</strong> Estadística y Sistemas Computadorizados <strong>de</strong> Información<br />
Facultad <strong>de</strong> Administración <strong>de</strong> Empresas<br />
y<br />
Departamento <strong>de</strong> Matemáticas<br />
Facultad <strong>de</strong> Ciencias Naturales<br />
Recinto <strong>de</strong> Río Piedras<br />
Universidad <strong>de</strong> Puerto Rico<br />
1. Ejemplos <strong>de</strong> Probabilidad condicional<br />
El Teorema o <strong>Regla</strong> <strong>de</strong> <strong>Bayes</strong> ofrece un método para invertir el evento que condiciona a otro evento al<br />
calcular una probabilidad condicional: si A y B son eventos y se conocen P(A | B), P( B ), P(A | B c ), entonces la<br />
regla permite calcular P( B | A ). La necesidad <strong>de</strong> calcular este último valor a partir <strong>de</strong> la información disponible<br />
es imprescindible para enten<strong>de</strong>r las consecuencias <strong>de</strong> algunas <strong>de</strong> nuestras <strong>de</strong>cisiones.<br />
Ejemplo 1<br />
Una fábrica <strong>de</strong> botellas cuenta con dos máquinas para producir 10,000 botellas al día. La máquina A produce<br />
6,500 botellas diarias <strong>de</strong> las cuales 2% son <strong>de</strong>fectuosas. La máquina B produce 3,500 botellas cada día <strong>de</strong> las<br />
cuales 1% son <strong>de</strong>fectuosas. El inspector <strong>de</strong> calidad <strong>de</strong> la compañía selecciona una botella al azar y encuentra<br />
que está <strong>de</strong>fectuosa. ¿Cuál es la probabilidad <strong>de</strong> que la botella haya sido producida por la máquina A?<br />
Para visualizar mejor los datos, se representan en un diagrama <strong>de</strong> árbol. Denote por A el evento <strong>de</strong> que<br />
la botella seleccionada haya sido producida por la máquina A y por B el evento <strong>de</strong> que haya sido producida por<br />
la máquina B. El evento <strong>de</strong> que la botella seleccionada sea <strong>de</strong>fectuosa se <strong>de</strong>nota por D, mientras que su<br />
complemento D c representa una botella que no es <strong>de</strong>fectuosa.<br />
Comienzo Máquina Botella Resultados<br />
0.02 D AD<br />
0.65 A<br />
fabricar botella 0.98 D c AD c<br />
0.35 B<br />
0.01 D BD<br />
0.99 D c BD c<br />
La probabilidad <strong>de</strong> que una botella cualquiera haya sido producida por la máquina A es 0.65, pues <strong>de</strong> las<br />
10,000 producidas, 6,500 son producidas por A. Interesa calcular P( A | D ), la cual no se pue<strong>de</strong> obtener <strong>de</strong><br />
forma directa <strong>de</strong> los datos o <strong>de</strong>l árbol que los representa. Para esto se recurre directamente a la <strong>de</strong>finición <strong>de</strong><br />
probabilidad condicional: P( A | D) = P( A D ) / P( D ).
Teorema <strong>de</strong> <strong>Bayes</strong> p. 2<br />
Las cantida<strong>de</strong>s P( A D ) y P( A ) se pue<strong>de</strong>n obtener <strong>de</strong>l árbol. Para que una botella seleccionada al azar<br />
sea una botella <strong>de</strong>fectuosa producida por la máquina A, se selecciona primero la máquina A y <strong>de</strong> las botellas<br />
producidas allí se selecciona una <strong>de</strong>fectuosa. La expresión P( A D ) = P( A ) P( D | A ) equivale a hacer una<br />
travesía en el árbol <strong>de</strong>s<strong>de</strong> su raíz o comienzo, hasta la hoja final don<strong>de</strong> se obtiene el resultado A D. Así<br />
P( A D ) = 0.65 0.02.<br />
Para encontrar P( D ) es necesario darse cuenta <strong>de</strong> que<br />
una botella <strong>de</strong>fectuosa pue<strong>de</strong> ser producida por la máquina A o<br />
por la B. Al examinar las hojas <strong>de</strong>l árbol, se encuentran dos<br />
lugares don<strong>de</strong> se obtiene una botella <strong>de</strong>fectuosa: A D o B D.<br />
Esto equivale a hacer una travesía por uno <strong>de</strong> dos caminos en el<br />
árbol. Estos caminos son mutuamente excluyentes, pues si se<br />
camina por uno no pue<strong>de</strong> caminarse por el otro. Según se<br />
muestra en la Figura 1, el evento D = ( A D ) ( B D ) y su<br />
probabilidad es entonces calculada<br />
P( D ) = P( A D) + P( B D ).<br />
AD c<br />
Máquina A<br />
AD BD<br />
BD c<br />
Defectuosas<br />
Máquina B<br />
Figura 1 Partición <strong>de</strong> la producción <strong>de</strong> botellas.<br />
El primero <strong>de</strong> estos términos P( A D ) ya fue<br />
calculado. El segundo, P( B D ), se obtiene <strong>de</strong> forma similar, P( B D ) = P( B )P( D | B ). Juntando estos<br />
resultados, P( D ) = P( A ) P( D | A ) + P( B ) P( D | B ). Finalmente se calcula la probabilidad <strong>de</strong>seada:<br />
6,500<br />
.02<br />
P(A) P( D | A)<br />
10,000<br />
.013<br />
P ( A | D)<br />
<br />
<br />
<br />
.788<br />
P( D | A)P(A) P(D| B)P(B) 6,500 3,500 .013 .0035<br />
.02<br />
.01<br />
10,000<br />
10,000<br />
<br />
Por lo tanto, una vez se sabe que una botella seleccionada al azar está <strong>de</strong>fectuosa, la probabilidad <strong>de</strong><br />
que haya sido producida por la máquina A es .788. Dicho <strong>de</strong> otra manera, <strong>de</strong> todas las botellas <strong>de</strong>fectuosas<br />
produdidas, aproximadamente el 79% son producidas por la máquina A. ▪<br />
Pregunta 1<br />
¿Cómo se pue<strong>de</strong> explicar que la máquina A produzca el 79% <strong>de</strong> las botellas <strong>de</strong>fectuosas?<br />
Este hecho se <strong>de</strong>be a dos factores. El primero es que la máquina A produce casi el doble <strong>de</strong> botellas que<br />
la máquina B. Aún si la tasa <strong>de</strong> botellas <strong>de</strong>fectuosas fuera la misma para ambas máquinas, por el mero hecho <strong>de</strong><br />
producir un mayor número <strong>de</strong> botellas, la máquina A produciría casi el doble <strong>de</strong> <strong>de</strong>fectuosas <strong>de</strong> la máquina B. El<br />
segundo factor es que la tasa <strong>de</strong> producción <strong>de</strong> <strong>de</strong>fectuosas <strong>de</strong> la máquina A es el doble <strong>de</strong> la correspondiente<br />
<strong>de</strong> la máquina B. En este caso, aún si ambas máquinas produjeran la misma cantidad <strong>de</strong> botelllas, las producidas<br />
por la máquina A contendrían el doble <strong>de</strong> botellas <strong>de</strong>fectuosas que las que vienen <strong>de</strong> la máquina B. ▪<br />
Ejemplo 2<br />
El gobierno aprobó una ley para hacer obligatorio que los cerca <strong>de</strong> 200,000 empleados públicos se<br />
sometan a una prueba para <strong>de</strong>tectar si son usuarios <strong>de</strong> drogas. Se estima que el 1% <strong>de</strong> los empleados públicos<br />
<strong>de</strong>l país son usuarios <strong>de</strong> drogas. La prueba que se ofrece muestra un resultado positivo en el 98% <strong>de</strong> los casos en<br />
que se le administra a una persona que usa drogas, es <strong>de</strong>cir, <strong>de</strong>tecta el 98% <strong>de</strong> los usuarios <strong>de</strong> drogas. De<br />
manera similar, si la persona no usa droga alguna, la prueba arroja un resultado negativo en el 99% <strong>de</strong> los casos.<br />
© 2012 Pedro J. Rodríguez Esquerdo
Teorema <strong>de</strong> <strong>Bayes</strong> p. 3<br />
Se selecciona un empleado al azar, se le administra la prueba y se obtiene un resultado positivo. ¿Cuál es la<br />
probabilidad <strong>de</strong> que la persona sea un usuario <strong>de</strong> drogas?<br />
Se representan los datos mediante un diagrama <strong>de</strong> árbol. Denote por U el evento <strong>de</strong> que la persona sea<br />
un usuario <strong>de</strong> drogas, por Pos el evento <strong>de</strong> que la prueba resulte positiva y por Neg el evento <strong>de</strong> que la prueba<br />
resulte negativa. En el lenguaje <strong>de</strong> la epi<strong>de</strong>miología, al por ciento <strong>de</strong> personas <strong>de</strong> la población <strong>de</strong> interés que<br />
poseen la característica <strong>de</strong>seada, en este caso usuarios <strong>de</strong> drogas, se le llama la prevalencia. En este ejemplo la<br />
prevalencia <strong>de</strong>l uso <strong>de</strong> drogas es <strong>de</strong>l 1%.<br />
A la capacidad <strong>de</strong> una prueba para <strong>de</strong>tectar aquellas personas que poseen la característica <strong>de</strong> interés se<br />
le llama la sensitividad <strong>de</strong> la prueba. La sensitividad <strong>de</strong>scribe el por ciento <strong>de</strong> personas cuyo resultado <strong>de</strong> la<br />
prueba sería positivo <strong>de</strong> entre aquellas que poseen la característica <strong>de</strong>seada, en este caso, usan drogas. La<br />
sensitividad <strong>de</strong> <strong>esta</strong> prueba para la <strong>de</strong>tección <strong>de</strong> usuarios <strong>de</strong> drogas es 98%.<br />
Otra medida es la especificidad. Esta indica el por ciento <strong>de</strong> personas cuyo resultado <strong>de</strong> la prueba sería<br />
negativo <strong>de</strong> entre aquellas que no poseen la característica <strong>de</strong>seada, en este caso, que no usan drogas. La<br />
especificidad <strong>de</strong> <strong>esta</strong> prueba para la <strong>de</strong>tección <strong>de</strong> usuarios <strong>de</strong> drogas es 99%.<br />
Así, la prevalencia indica que al seleccionar una persona al azar <strong>de</strong> entre los 200,000 empleados<br />
públicos, P( U ) = 0.01. La sensitividad <strong>de</strong> la prueba dice que P( Pos | U ) = 0.98 y <strong>de</strong> la misma manera la<br />
especificidad se traduce a P( Neg | U c ) = 0.99. 1<br />
Comienzo ¿Usa Drogas? Resultado <strong>de</strong> la Resultados<br />
prueba<br />
0.98 Pos UPos<br />
U<br />
0.01 0.02 Neg UNeg<br />
U c<br />
0.99 0.01 Pos U c Pos<br />
0.99 Neg U c Neg<br />
La pregunta que interesa cont<strong>esta</strong>r es: ¿cuánto es P( U | Pos)? Al<br />
igual que antes la cont<strong>esta</strong>ción a <strong>esta</strong> pregunta no se pue<strong>de</strong> obtener <strong>de</strong><br />
forma directa <strong>de</strong> los datos o <strong>de</strong>l árbol que los representa. Por lo tanto se<br />
recurre nuevamente a la <strong>de</strong>finición <strong>de</strong> probabilidad condicional:<br />
P( U | Pos ) = P( U Pos ) / P( Pos ).<br />
Pos<br />
Del árbol se obtienen las cantida<strong>de</strong>s P( U Pos ) y P( Pos ).<br />
Siguiendo el mismo proceso <strong>de</strong> antes, P( U Pos ) = P( U ) P( Pos | U ), lo<br />
que equivale a caminar por el árbol <strong>de</strong>s<strong>de</strong> la raíz hasta la hoja para obtener<br />
el resultado U Pos. Así P( U Pos ) = 0.01 0.98.<br />
U c<br />
U<br />
Figura 2 Partición <strong>de</strong> las personas<br />
1 Estas dos últimas probabilida<strong>de</strong>s no se pue<strong>de</strong>n sumar, ya que son valores obtenidos bajo condiciones distintas, la base <strong>de</strong><br />
comparación no es la misma. En el primer caso se compara la cantidad <strong>de</strong> resultados positivos <strong>de</strong>l total <strong>de</strong> usuarios <strong>de</strong><br />
drogas mientras que el segundo compara la cantidad <strong>de</strong> resultados negativos al total <strong>de</strong> personas que no usan drogas.<br />
© 2012 Pedro J. Rodríguez Esquerdo
Teorema <strong>de</strong> <strong>Bayes</strong> p. 4<br />
Para encontrar P( Pos ), se consi<strong>de</strong>ra que la prueba pue<strong>de</strong> arrojar un resultado positivo cuando la<br />
persona es un usuario <strong>de</strong> drogas o en el caso en que no lo sea. Por <strong>esta</strong> razón hay dos caminos mutuamente<br />
excluyentes en el árbol don<strong>de</strong> se obtiene un resultado positivo. Según se muestra también en la Figura 2, el<br />
evento Pos = ( U Pos ) ( U c Pos ) y su probabilidad es P( Pos )= P( U Pos ) + P( U c Pos ). El término<br />
P( U Pos ) ya había sido calculado, el segundo se obtiene <strong>de</strong> forma similar. Obtenemos entonces que<br />
P( U c Pos ) = P( U c ) P( Pos | U c ). Uniendo estos resultados tenemos que<br />
P( Pos ) = P( U ) P( Pos | U) + P( U c ) P( Pos | U c ). La probabilidad <strong>de</strong>seada es<br />
P(U) P( Pos| U)<br />
P ( U | Pos)<br />
<br />
<br />
c<br />
c<br />
P(U) P( Pos| U) P(U ) P(Pos| U )<br />
.01.98<br />
.01.98<br />
.99.01<br />
.0098<br />
<br />
.497<br />
.0098 .0099<br />
La cont<strong>esta</strong>ción a la pregunta es P( U | Pos) = 0.497, es <strong>de</strong>cir, la probabilidad <strong>de</strong> que una persona<br />
seleccionada al azar entre los 200,000 empleados sea un usuario <strong>de</strong> drogas si la prueba da positivo, es 0.497.▪<br />
Pregunta 2<br />
De la población a la que se administra la prueba, ¿cuántos resultados positivos se esperaría observar? ¿cuántos<br />
falsos positivos habría? Explica las razones por la cuáles una prueba con sensitividad y especificidad tan altas,<br />
resulta que más <strong>de</strong> la mitad <strong>de</strong> los resultados positivos correspon<strong>de</strong>n a personas que no son usuarios.<br />
Esta última pregunta se pue<strong>de</strong> cont<strong>esta</strong>r examinando cuidadosamente el numerador y el <strong>de</strong>nominador<br />
<strong>de</strong> P( U | Pos ). Si no se cuenta con una prueba <strong>de</strong> mejor sensitividad y especificidad que ésta, ¿qué es posible<br />
hacer, si no se pue<strong>de</strong> cambiar P(Pos | U) ni P(Neg | U c )? Ante <strong>esta</strong> limitación tecnológica, sólo es posible<br />
trabajar con P( U ). Este valor sólo pue<strong>de</strong> cambiar si al modificar la población <strong>de</strong> la cual se seleccionan las<br />
personas a quienes se administrará la prueba. ▪<br />
Pregunta 3<br />
Discuta los costos asociados a ofrecer pruebas <strong>de</strong> drogas a 200,000 personas para <strong>de</strong>tectar a 2,000 usuarios.<br />
¿Hay costos no económicos? ¿Existe un plan para ayudar a las personas que son usuarios <strong>de</strong> drogas y a los que<br />
reciben un falso positivo? ¿Ofrecen <strong>esta</strong>s pruebas una solución al problema social <strong>de</strong>l uso <strong>de</strong> drogas? Suponga<br />
que P( U ) = 0 .25, encuentre P(U | Pos). ¿Cómo se lograría ese aumento en P( U ) en la realidad?<br />
Ejemplo 3<br />
Consi<strong>de</strong>re una caja con 5 canicas, dos <strong>de</strong> ellas son rojas y las otras tres son azules. Se selecciona una canica al<br />
azar, sin mirarla se guarda en el bolsillo. Luego se selecciona otra canica al azar. Esta segunda canica resulta ser<br />
<strong>de</strong> color rojo. ¿Cuál es la probabilidad <strong>de</strong> que la primera canica haya sido también roja?<br />
En la sección anterior se resolvió una situación similar<br />
imaginando que antes <strong>de</strong> seleccionar la primera canica, se ha<br />
mirado <strong>de</strong>ntro <strong>de</strong> la caja y removido la canica que se observará<br />
en la segunda selección, reservando la segunda canica. La<br />
primera canica sólo pue<strong>de</strong> ser seleccionada <strong>de</strong> entre las r<strong>esta</strong>ntes<br />
4 canicas, <strong>de</strong> las cuales 1 <strong>de</strong> ellas es roja. Por <strong>esta</strong> razón la<br />
probabilidad <strong>de</strong>seada es 1/4.<br />
R 2<br />
R 1<br />
Es <strong>de</strong> interés encontrar un método formal para cont<strong>esta</strong>r<br />
<strong>esta</strong>s preguntas. Denote el evento <strong>de</strong> que la primera canica<br />
© 2012 Pedro J. Rodríguez Esquerdo<br />
B 1<br />
Figura 3 Partición <strong>de</strong>l color <strong>de</strong> la segunda<br />
canica según el color <strong>de</strong> la primera canica.
Teorema <strong>de</strong> <strong>Bayes</strong> p. 5<br />
seleccionada es roja por R 1 y el evento <strong>de</strong> que la segunda sea roja por R 2 . Entonces la probabilidad buscada es<br />
P( R 1 | R 2 ).<br />
1/4<br />
2/5<br />
3/4<br />
3/5<br />
2/4<br />
2/4<br />
Figura 4. Diagrama <strong>de</strong> árbol que ilustra el experimento <strong>de</strong> seleccionar dos canicas <strong>de</strong> una caja<br />
La <strong>de</strong>finición <strong>de</strong> probabilidad condicional permite escribir P( R 1 | R 2 ) = P( R 1 R 2 ) / P( R 2 ). Para<br />
encontrar el numerador se usa nuevamente la <strong>de</strong>finición <strong>de</strong> probabilidad condicional,<br />
P( R 1 R 2 ) = P( R 2 | R 1 )P( R 1 ). Ahora se calcula el <strong>de</strong>nominador, P( R 2 ) <strong>de</strong>scomponiendo el evento R 2 en dos<br />
eventos disyuntos, tal como en la Figura 4: R 2 = (B 1 R 2 ) (R 1 R 2 ). De <strong>esta</strong> manera se obtiene la probabilidad<br />
P( R 2 ) = P( B 1 R 2 ) + P ( R 1 R 2 ).<br />
Usando nuevamente la <strong>de</strong>finición <strong>de</strong> probabilidad condicional P( B 1 R 2 ) = P( R 2 | B 1 )P( B 1 ). Por lo<br />
tanto, el <strong>de</strong>nominador es P(R 2 ) = P(R 2 | R 1 )P(R 1 ) + P(R 2 | B 1 )P(B 1 ). El resultado <strong>de</strong>seado es igual que antes:<br />
1 2<br />
<br />
P(<br />
R2<br />
| R1<br />
) P(<br />
R1<br />
)<br />
4 5 1<br />
P ( R1 | R2<br />
) <br />
<br />
. ▪<br />
P(<br />
R | ) ( ) ( | ) ( ) 1 2 2 3<br />
2<br />
R1<br />
P R1<br />
P R2<br />
B1<br />
P B1<br />
4<br />
<br />
4 5 4 5 <br />
Ejemplo 4<br />
En el 1991 los contribuyentes <strong>de</strong> Puerto Rico sometieron un total <strong>de</strong> 1,320,600 planillas <strong>de</strong> contribución<br />
sobre ingresos al Departamento <strong>de</strong> Hacienda. Los datos se <strong>de</strong>sglosan en la siguiente tabla por nivel <strong>de</strong> ingreso y<br />
si la planilla se somete conjunta o por separado.<br />
Nivel <strong>de</strong> ingreso Planillas conjuntas rendidas Planillas separadas rendidas Total<br />
(miles)<br />
(miles)<br />
menos <strong>de</strong> 20,000 457.5 565.7 1,023.2<br />
20,000 a 30,000 88.7 84.9 173.6<br />
30,000 a 50,000 55.3 33.2 88.5<br />
50,000 o más 20.1 15.2 35.3<br />
Total 621.6 699.0 1,320.6<br />
Fuente: Reforma Contributiva en Puerto Rico 1994. Estudio Técnico. Editorial UPR.<br />
Tabla 1. Desglose <strong>de</strong> contribuyentes en Puerto Rico en el año 1991<br />
© 2012 Pedro J. Rodríguez Esquerdo
Teorema <strong>de</strong> <strong>Bayes</strong> p. 6<br />
Pregunta 4<br />
El Secretario <strong>de</strong> Hacienda selecciona una planilla al azar.¿Cuál es la probabilidad <strong>de</strong> que la planilla haya sido<br />
sometida en forma conjunta si el nivel <strong>de</strong> ingreso en ella era menor <strong>de</strong> $20,000? ¿Cuál es la probabilidad <strong>de</strong> que<br />
el nivel <strong>de</strong> ingreso en ella era menor <strong>de</strong> $20,000 si la la planilla fue sometida en forma conjunta?<br />
Para cont<strong>esta</strong>r la primera pregunta, se examina la primera fila <strong>de</strong> la Tabla 1, don<strong>de</strong> todas las planillas<br />
sometidas, 1,023,000, reflejan un ingreso menor <strong>de</strong> $20,000. De esas, 457,500 fueron sometidas en forma<br />
conjunta, así la probabilidad <strong>de</strong>seada es: 475.5 / 1,023.0 = 0.46.<br />
Para cont<strong>esta</strong>r la segunda pregunta se examina en vez la columna correspondiente a las planillas que se<br />
sometieron en forma conjunta. El total que se indica al final <strong>de</strong> esa columna será la base <strong>de</strong> comparación. Se<br />
sometieron 621,600 planillas conjuntas <strong>de</strong> las cuales 457,500 correspon<strong>de</strong>n a planillas que a<strong>de</strong>más indicaron un<br />
ingreso menor <strong>de</strong> $20,000. Por lo tanto la probabilidad buscada es 475.5 / 621.6 = 0.76.<br />
Si se usara como base <strong>de</strong> comparación los resultados obtenidos para <strong>de</strong>scribir la población <strong>de</strong> planillas<br />
recibidas, <strong>de</strong> las planillas que reflejaron un ingreso menor <strong>de</strong> $20,000, el 46% correspondían a planillas<br />
sometidas en forma conjunta. En el otro caso, <strong>de</strong> todas las planillas sometidas en forma conjunta, el 76%<br />
correspon<strong>de</strong> a planillas que reflejan un ingreso menor <strong>de</strong> $20,000. Estos dos porcentajes no son iguales ni<br />
significan lo mismo pues reflejan bases <strong>de</strong> comparación distintas.<br />
En una tabla es muy fácil calcular probabilida<strong>de</strong>s condicionales. En este caso, aunque en la práctica no se<br />
usaría el método <strong>de</strong> análisis que ofrece la regla <strong>de</strong> <strong>Bayes</strong>, es ejemplo que sigue ilustra su uso, con el fin <strong>de</strong><br />
presentar una forma <strong>org</strong>anizada <strong>de</strong> resolver estos problemas.<br />
Denote por C el evento <strong>de</strong> que la planilla se somete en forma conjunta, por S el evento <strong>de</strong> que la planilla<br />
se somete por separado y por I el ingreso reflejado en la planilla. De la <strong>de</strong>finición <strong>de</strong> probabilidad condicional,<br />
P( C | I<br />
<br />
P<br />
P( C { I $20,000})<br />
P( C { I $20,000})<br />
$20,000) <br />
<br />
<br />
P {C { I $20,000}} {S{ I $20,000}}<br />
P({ I $20,000}) <br />
P<br />
C { I $20,000} <br />
C { I $20,000}) P(S{ I $20,000} .<br />
Se usa nuevamente la <strong>de</strong>finición <strong>de</strong> probabilidad condicional para reescribir el <strong>de</strong>nominador:<br />
P( C { I < $20,000 } ) = P ( I < $20,000 | C) P( C ) y P( S { I < $20,000 } ) = P( I < $20,000 | S) P( S ). Así,<br />
P( C | I<br />
Pregunta 5<br />
$20,000) <br />
P( I<br />
P(<br />
I $20,000 | C)<br />
P(<br />
C)<br />
.<br />
$20,000 | C)P(C) P( I $20,000 | S) P(<br />
S)<br />
Representa estos datos usando un diagrama <strong>de</strong> Venn.<br />
<br />
© 2012 Pedro J. Rodríguez Esquerdo
Teorema <strong>de</strong> <strong>Bayes</strong> p. 7<br />
2. Probabilidad total y la regla <strong>de</strong> <strong>Bayes</strong><br />
Los ejemplos anteriores permiten el <strong>de</strong>scubrimiento, formulación y <strong>de</strong>sarrollo <strong>de</strong> resultados formales<br />
para calcular <strong>esta</strong>s probabilida<strong>de</strong>s condicionales, cuando su valor no se pue<strong>de</strong> obtener directamente <strong>de</strong> los<br />
datos. En esos ejemplos, primero se usó la <strong>de</strong>finición <strong>de</strong> probabilidad condicional para expresarla en términos<br />
<strong>de</strong> otros eventos cuyas probabilida<strong>de</strong>s son conocidas. Como segundo paso, se <strong>de</strong>scompuso el evento <strong>de</strong>seado,<br />
sin condición alguna, en la unión <strong>de</strong> eventos disyuntos cuyas probabilida<strong>de</strong>s son conocidas y finalmente se<br />
calculó la probabilidad <strong>de</strong>seada.<br />
Teorema 1 (Fórmula <strong>de</strong> la probabilidad total)<br />
Sea S un espacio muestral, P una medida <strong>de</strong> probabilidad en S y<br />
B un evento en S. Sea A 1 , A 2 , …, A n una partición <strong>de</strong> S, es <strong>de</strong>cir,<br />
eventos disyuntos tal que<br />
n<br />
<br />
P( B)<br />
P(<br />
A ) P(<br />
B | ) .<br />
i1<br />
i<br />
A i<br />
S<br />
<br />
n<br />
A i<br />
i1<br />
, entonces<br />
Prueba.<br />
Ya que A 1 , A 2 , …, A n es una partición <strong>de</strong> S, sique que el evento B<br />
se pue<strong>de</strong> rescribir B = B S = B ( n<br />
A i<br />
i 1<br />
) = n<br />
i 1<br />
( B <br />
se usa el hecho <strong>de</strong> que los eventos B A i , i = 1, …, n son<br />
disyuntos y la <strong>de</strong>finición <strong>de</strong> probabilidad condicional para<br />
calcular la probabilidad <strong>de</strong> B:<br />
P(B) =<br />
P(<br />
n<br />
n<br />
n<br />
( B Ai<br />
)) P(<br />
B Ai<br />
) <br />
i1 i1<br />
i1<br />
i<br />
A i<br />
) . Ahora<br />
P(<br />
A ) P(<br />
B | A ) .▪<br />
i<br />
A A 3<br />
2 A 4 A 5<br />
B<br />
A 1<br />
A 6<br />
Figura 5 Partición <strong>de</strong>l evento B<br />
La Figura 5 arriba muestra la partición <strong>de</strong> B. En este ejemplo, cada término B A i i = 1, 2, 3, 4, 5, 6<br />
correspon<strong>de</strong> a cada uno <strong>de</strong> los "pedacitos" en que fue dividido B. La intersección <strong>de</strong>l evento A 6 con el evento B<br />
es vacía, por lo cual P( B A 6 ) = 0. Para calcular la probabilidad <strong>de</strong> cada pedacito, se usa la <strong>de</strong>finición <strong>de</strong><br />
probabilidad condicional, así P( B A i ) = P( B | A i )P( A i ), i = 1, 2, 3, 4, 5, 6.<br />
Imagine que la Figura 5 representa un tablero <strong>de</strong> dardos y que la probabilidad <strong>de</strong> que el dardo caiga en<br />
una <strong>de</strong>terminada región <strong>de</strong>l tablero es igual a su área. Se lanza el dardo y se conoce que cayó en la región<br />
marcada por B, entonces, ¿cuál es la probabilidad <strong>de</strong> que haya caido en A 2 ? Para cont<strong>esta</strong>r <strong>esta</strong> pregunta es<br />
necesario usar la regla <strong>de</strong> <strong>Bayes</strong>.<br />
Teorema 2 (<strong>Regla</strong> <strong>de</strong> <strong>Bayes</strong>)<br />
Sea S un espacio muestral, P una medida <strong>de</strong> probabilidad en S y B un evento en S. Sea A 1 , A 2 , …, A n una partición<br />
<strong>de</strong> S. Entonces para cada i = 1, 2, 3, ..., n<br />
P ( A<br />
i<br />
| B)<br />
<br />
n<br />
<br />
P(<br />
Ai<br />
) P(<br />
B | Ai<br />
)<br />
.<br />
P(<br />
A ) P(<br />
B | A )<br />
j 1<br />
j<br />
j<br />
© 2012 Pedro J. Rodríguez Esquerdo
Teorema <strong>de</strong> <strong>Bayes</strong> p. 8<br />
Prueba.<br />
De la <strong>de</strong>finición <strong>de</strong> probabilidad condicional<br />
P(<br />
A<br />
i<br />
| B)<br />
<br />
P(<br />
B Ai<br />
)<br />
. Para calcular el numerador se usa<br />
P(<br />
B)<br />
nuevamente la <strong>de</strong>finición, <strong>esta</strong> vez condicionando por A i , P B A ) P(<br />
B | A ) P(<br />
A ). El <strong>de</strong>nominador se<br />
obtiene aplicando la Fórmula <strong>de</strong> probabilidad total, para obtener<br />
P(<br />
A<br />
i<br />
| B)<br />
<br />
Pregunta 6<br />
P(<br />
B Ai<br />
)<br />
P(<br />
B)<br />
P(<br />
Ai<br />
) P(<br />
B | Ai<br />
)<br />
<br />
<br />
P(<br />
B)<br />
n<br />
<br />
(<br />
i<br />
i i<br />
P(<br />
Ai<br />
) P(<br />
B | Ai<br />
)<br />
. ▪<br />
P(<br />
A ) P(<br />
B | A )<br />
j 1<br />
Expresa los problemas presentados en los ejemplos 1,2, 3 y 4 en términos <strong>de</strong> la regla <strong>de</strong> <strong>Bayes</strong>. Indica a qué<br />
correspon<strong>de</strong>n la partición y el evento B.<br />
j<br />
j<br />
3. Problemas y ejercicios<br />
1. Una fábrica tiene tres máquinas para producir bombillas. La máquina A produce el 35% <strong>de</strong>l total <strong>de</strong> bombillas,<br />
la máquina B produce el 50% y la máquina C produce el 15% <strong>de</strong> las bombillas. Sin embargo, las máquinas no son<br />
perfectas, la máquina A daña el 10% <strong>de</strong> las bombillas que produce. La máquina B daña el 5% y la máquina C daña<br />
el 20%.<br />
a. Representa estos datos en un diagrama <strong>de</strong> árbol.<br />
b. La fábrica produce 10,000 bombillas sin <strong>de</strong>fectos en un día. ¿Cuántas <strong>de</strong> éstas correspon<strong>de</strong>n a la<br />
máquina A? ¿Cuántas daña en un día?<br />
c. Si seleccionamos una bombilla <strong>de</strong> la máquina C, ¿cuál es la probabilidad <strong>de</strong> que esté <strong>de</strong>fectuosa?<br />
d. Luego <strong>de</strong> fabricadas, pero antes <strong>de</strong> probarlas, las bombillas se colocan juntas en un salón. Si se<br />
selecciona una bombilla al azar, ¿cuál es la probabilidad <strong>de</strong> que esté <strong>de</strong>fectuosa?<br />
e. Si se comprueba que una bombilla está <strong>de</strong>fectuosa, ¿cuál es la probabilidad <strong>de</strong> que provenga <strong>de</strong> la<br />
máquina B?<br />
2. Una muestra <strong>de</strong> 400 adultos varones con angina <strong>de</strong> pecho son clasificados por peso y <strong>esta</strong>tura como sigue:<br />
Peso (libras)<br />
Edad (años) 130-149 150-169 170-189 190 o más<br />
30-39 10 20 20 40<br />
40-49 10 15 50 70<br />
50-59 5 15 50 40<br />
60-69 5 10 15 25<br />
Un individuo se selecciona al azar <strong>de</strong> entre los 400 participantes. Encuentra la probabilidad <strong>de</strong> que:<br />
a. tiene entre 40-49 años <strong>de</strong> edad<br />
b. está en el intervalo <strong>de</strong> 40-49 años y pesa 170-189 libras<br />
c. está en el intervalo 40-49 años ó entre 60-69 años<br />
d. está en el intervalo 30-39 o 50-59 años y pesa 150-169 libras<br />
e. pesa menos <strong>de</strong> 170 libras<br />
f. pesa menos <strong>de</strong> 190 libras y es mayor <strong>de</strong> 49 años<br />
g. pesa menos <strong>de</strong> 170 libras dado que es menor <strong>de</strong> 50 años<br />
h. ¿Son los eventos {tiene 60-69 años} , {pesa 130-149 libras} in<strong>de</strong>pendientes? Explica.<br />
i. ¿Son los eventos {tiene 50-59 años} , {pesa 130-149 libras} mutuamente excluyentes? Explica.<br />
© 2012 Pedro J. Rodríguez Esquerdo
Teorema <strong>de</strong> <strong>Bayes</strong> p. 9<br />
3. Un estudio neurológico sobre la relación entre la presión sanguínea alta y la inci<strong>de</strong>ncia <strong>de</strong> <strong>de</strong>rrame cerebral<br />
encontró que:<br />
a. para personas mayores <strong>de</strong> 70 años, el 10% tendrá un <strong>de</strong>rrame <strong>de</strong>ntro <strong>de</strong> los próximos cinco años<br />
b. <strong>de</strong> todos los pacientes <strong>de</strong> 70 años o más que han tenido un <strong>de</strong>rrame, el 40% tenía presión alta<br />
c. para personas <strong>de</strong> 70 años o mas que no ha sufrido <strong>de</strong> <strong>de</strong>rrame, el 20% tiene presión alta.<br />
d. Un paciente <strong>de</strong> 74 años visita a su médico y éste le encuentra con la presión alta. ¿Cuál es la<br />
probabilidad <strong>de</strong> que sufra un <strong>de</strong>rrame cerebral en los próximos cinco años?<br />
© 2012 Pedro J. Rodríguez Esquerdo