Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Resumen de clases: Contrastes de hipótesis<br />
1 Contraste de hipótesis.<br />
Una hipótesis estadística es una a…rmación que se hace sobre una o más características de<br />
una población (decir que la vida media son tantos años, que un determinado pienso produce<br />
aumento de peso... ).<br />
Los <strong>contrastes</strong> pueden ser de tipo paramétrico o no paramétrico, según se re…eran o no<br />
a parámetros de una población.<br />
Una hipótesis paramétrica es una a…rmación sobre una o más características (parámetros)<br />
de una población. Le llamaremos hipótesis nula H0.<br />
Si la hipótesis especi…ca un único valor para el parámetro le llamaremos hipótesis simple.<br />
Ejemplo: = 5<br />
Si se especi…can varios valores para el parámetro le llamaremos hipótesis compuesta. Ejem-<br />
plo: 5<br />
Ejemplos de una hipótesis no paramétrica:<br />
- H0 : X sigue una distribución normal<br />
- H0 : Un dado está "cargado" en un número (la variable X="resultado" no sigue una<br />
distribución uniforme entre 1 y 6)<br />
La realización de un contraste implica la existencia de dos hipótesis:<br />
- Hipótesis nula H0, que se asume como correcta.<br />
- Hipótesis alternativa H1; la que pretendemos contrastar frente a la hipótesis nula.<br />
La hipótesis nula es la que el investigador asume como correcta. La aceptación de H0 no<br />
implica que ésta haya sido probada al 100 por 100, sino que los datos no han proporcionado<br />
evidencia su…ciente como para refutarla. Es decir, se trabaja con el principio de "todo hombre<br />
1
es inocente mientras no se demuestre lo contrario". Esto es, la hipótesis nula es cierta mientras<br />
no se pruebe lo contrario. Salvo que los datos demuestren su falsedad, la mantendremos y, en<br />
este sentido, la consideraremos neutra pero nunca totalmente probada.<br />
En general, para contrastar una hipótesis, lo que se hace es seleccionar una muestra de la<br />
población, y ver si los resultados son coherentes con esa a…rmación.<br />
Procedimiento para realizar un contraste de hipótesis paramétrico.<br />
H0 : = cte:<br />
H1 : 6= cte:<br />
Se elige una muestra aleatoria simple de la población (x1:x2; :::; xn) y se estima por medio<br />
de algun estimador ^ : Se elige alguna medida de discrepancia d (o estadístico del con-<br />
traste) entre y ^ : Esta medida de discrepancia ha de ser una variable aleatoria con distribución<br />
conocida, para saber si la discrepancia es grande o no:<br />
Ejemplo: Si suponemos que la media = 5, calculamos x y vemos si son muy diferentes<br />
calculando d = d( ; x):<br />
Si d es “pequeña”, no hay razones para sospechar que H0 sea falsa, y se acepta H0:<br />
Si d es “grande”admite dos interpretaciones:<br />
a) H0 es cierta, pero el azar ha producido una muestra poco representativa.<br />
b) La hipótesis H0 realmente no es cierta.<br />
Para ayudarnos a tomar una decisión sobre el caso a) hay que calcular el Nivel crítico<br />
o p valor: es la probabilidad de tener un valor del estadístico igual o mayor al<br />
observado cuando H0 es cierta.<br />
Cuando estamos realizando un contraste puede suceder<br />
contraste.<br />
REALIDAD<br />
H0<br />
RECHAZO H0 Error tipo I Decisión correcta<br />
H1<br />
H1 Decisión correcta Error tipo II<br />
=P(rechazar H0 siendo cierta)=P(Error tipo I) se llama nivel de signi…cación del<br />
=P(aceptar H0 siendo falsa)=P(Error tipo II).<br />
1- = P (rechazar H0 siendo falsa) se llama Potencia del contraste (Mide la probabilidad de<br />
acertar).<br />
2
Se debería minimizar la probabilidad de ambos errores, pero ocurre que al disminuir la<br />
probabilidad de uno aumenta la del otro, y viceversa.<br />
Ejemplos:<br />
* En un hospital, ante la sospecha de un virus en un enfermo<br />
H0 : enfermo frente a H1 : no enfermo<br />
P(Error tipo I)=P(rechazar H0 siendo cierta)=P(admitir que no esta enfermo, estándolo)<br />
P(Error tipo II)=P(aceptar H0 siendo falsa)=P(admitir que está enfermo, no estándolo)<br />
El Error tipo I es más importante que el Error tipo II en este caso.<br />
Como disminuir el Error de tipo I: ingresar a la mínima sospecha-> aumenta Error tipo II<br />
Como disminuir el Error de tipo II: no ingresar a nadie salvo que esté casi muerto-> aumenta<br />
error tipo I<br />
* En un juicio<br />
H0 : inocente frente a H1 : culpable<br />
En la práctica, se plantea el contraste de manera que el error más importante<br />
sea el de tipo I.<br />
Etapas básicas a seguir cuando se realiza un contraste de hipótesis.<br />
1.-) Especi…car las hipótesis nula y alternativa.<br />
2.-) Elegir un estadístico de contraste apropiado d.<br />
3.-) Tomar la muestra (x1:x2; :::; xn) y evaluar el estadístico de contraste bajo H0, es decir<br />
^d = d(x1:x2; :::; xn; H0):<br />
4.-) Concluir si la diferencia ^ d es estadísticamente signi…cativa (se rechaza H0 o no), según<br />
el p-valor del estadístico ^ d. Para ello podemos …jar un nivel de con…anza 1 determinado y<br />
tomar una decisión en base al mismo.<br />
Ejemplo 1<br />
Se realiza una serie de ocho análisis de sangre sobre un determinado paciente a lo largo de<br />
varios días. La variable considerada es X = nivel total de proteínas. X 2 N( ; )<br />
El promedio total de proteínas en sangre en un adulto sano es de 0 = 7.25 g/dl. A la vista<br />
de los siguientes datos,<br />
7.23 7.25 7.28 7.29 7.32 7.26 7.27 7.24<br />
¿podemos a…rmar, con un nivel de signi…cación = 0.2 que el paciente tiene un nivel medio<br />
de proteínas diferente al normal?<br />
1.-) Se trata de contrastar H0 : 0 = 7:25 frente a H1 : 0 6= 7:25<br />
3
2.-) El estadístico del contraste es<br />
d = x 0<br />
^s<br />
p n<br />
d es una variable aleatoria que sigue una distribución t de Student con n 1 grados de<br />
libertad cuando H0 es cierta, y<br />
x = x1 + ::: + xn<br />
n<br />
(media muestral); ^s =<br />
s Pn<br />
i=1 (xi x) 2<br />
n 1<br />
3.-) En esta muestra particular, x = 7:2675; ^s = 0:029:<br />
^d =<br />
7:2675 7:25<br />
0:029<br />
p 8<br />
= 1:7068<br />
(cuasi-desviación típica muestral)<br />
4.-) Calculamos el p-valor: es la probabilidad de obtener una discrepancia mayor o igual<br />
que ^ d cuando H0 es cierta (Ejemplo Figura 1).<br />
Figura 1: p-valor (probabilidad de valores más grandes que 1.706 ó más pequeños que -1.706).<br />
En el SPSS haríamos el contraste mediante: Analizar/Comparar medias/Prueba T para una<br />
muestra e introducimos como Valor de prueba 7,25 (ahora con COMA) (Figura 2).<br />
El resultado que nos interesa es:<br />
Sig. (bilateral)=0,133 (esto es el p-valor).<br />
4
Figura 2: Cuadro de diálogo para la prueba T de una muestra<br />
En este caso concreto, se preguntaba ¿podemos a…rmar, con un nivel de signi…cación = 0:2<br />
que el paciente tiene un nivel medio de proteínas diferente al normal? Como el p-valor=0.133<br />
es menor que 0.2, rechazaríamos H0:<br />
Ejemplo 2<br />
Una marca de arroz vende al por mayor sacos de media 10 kilos. Se selecciona una muestra<br />
de 7 sacos y se pesan: 9.8, 10.2, 10.4, 9.8, 10.2, 10.2, 8.6. ¿Es cierta la a…rmación del fabricante?<br />
Una opción sería la siguiente: Calculamos un intervalo de con…anza al 95% para la media de<br />
los sacos (suponemos que el peso sigue una distribución normal). Hemos visto que el Intervalo<br />
de con…anza para la media es<br />
En este caso, x = 9:88; ^s = 0:609.<br />
x t =2;n 1<br />
^s<br />
^s<br />
p ; x + t =2;n 1 p<br />
n n<br />
Con…anza (1 ) t =2;n 1 Intervalo Longitud (b-a)<br />
0:9 (90%) 0:1 1: 943 2 (9:43; 10:33) 0:9<br />
0:95 (95%) 0:05 2: 446 9 (9:32; 10:44) 1:12<br />
0:99 (99%) 0:01 3: 707 4 (9:03; 10:73) 1:7<br />
Si planteamos el contraste H0 : = 10 frente a H1 : 6= 10; debido a que dicho valor<br />
aparece en los intervalos de con…anza, aceptariamos H0:<br />
5
Ahora bien, si, por ejemplo, la empresa dijera que los sacos tienen peso medio 11 kilos, no<br />
lo aceptariamos en ningún caso.<br />
Si dijeran que los sacos tienen peso medio 10.5 kilos?<br />
H0 : = 10:5 frente a H1 : 6= 10:5<br />
Calculamos el estadístico del contraste para esta muestra:<br />
^d = x 0<br />
^s<br />
p n<br />
= 9:88 10:5<br />
0:609<br />
p 7<br />
= j 2:6935j = 2:6935:<br />
En el SPSS haríamos el contraste mediante: Analizar/Comparar medias/Prueba T para una<br />
muestra e introducimos como Valor de prueba 10,5<br />
El resultado que nos interesa es: Sig. (bilateral)=0,037 (esto es el p-valor)<br />
Hasta ahora hemos estado realizando <strong>contrastes</strong> bilaterales:<br />
H0 : = 0 frente a H1 : 6= 0<br />
También podemos realizar <strong>contrastes</strong> unilaterales:<br />
H0 : = 0 frente a H1 : < 0 o H0 : = 0 frente a H1 : > 0<br />
ó<br />
H0 : 0 frente a H1 : < 0 o H0 : 0 frente a H1 : > 0<br />
Se resuelven de la misma forma, pero con la siguiente regla.<br />
Caso a) H0 : = 0 (o 0) frente a H1 : < 0<br />
Realizar el contraste y mirar el valor de T que proporciona el SPSS.<br />
Si T < 0 entonces el p-valor = (sig.bilateral)/2<br />
Si T > 0 entonces el p-valor = 1- ((sig.bilateral)/2)<br />
Caso b) H0 : = 0 (o 0) frente a H1 : > 0<br />
Realizar el contraste y mirar el valor de T que proporciona el SPSS.<br />
Si T > 0 entonces el p-valor = (sig.bilateral)/2<br />
Si T < 0 entonces el p-valor = 1- ((sig.bilateral)/2)<br />
En muchas ocasiones, los problemas de test o contraste de hipótesis se plantean para un<br />
nivel o con…anza 1 determinado de antemano. Entonces lo único que hay que hacer es<br />
calcular el p-valor y se acepta o rechaza según:<br />
Si p-valor > aceptamos H0<br />
Si p-valor rechazamos H0<br />
6
Recordemos que = P (Error tipo I) =P(rechazar H0 siendo cierta). Con la regla anterior,<br />
nosotros …jamos el mayor valor para la probabilidad del error tipo I que estamos dispuestos a<br />
admitir, es decir estamos dispuestos a rechazar la <strong>hipotesis</strong> nula siendo cierto con un máximo<br />
de probabilidad de equivocarnos igual a :<br />
Ejemplo:<br />
Se realiza un experimento orientado a comprobar la efectividad de un nuevo tipo de tratamiento<br />
para el dolor de piernas, a través de una máquina de dar calambres, comprada en “Timo a dis-<br />
tancia TV”. Se seleccionaron 12 pensionistas, y el grado de dolor, según la escala de Dolores<br />
(nueva ministra de Sanidad) fue de la forma 0.6, 0.8, -1.1, 3.4, 5.6, 0.8, 1.2, 1.5, -0.2, 3.2, 2.7,<br />
1.6 (positivo mejora, negativo empeora) Veri…car si a la seguridad social le interesa comprar la<br />
nueva máquina.<br />
Si la máquina fuera buena, el nivel medio aumentaria: la variable X ="grado de la mejoría"<br />
2 N( ; ) sería tal que > 0:<br />
Entonces tenemos que contrastar H0 : = 0 ( 0) frente a H1 : > 0<br />
De la muestra obtenemos n = 12; x = 1:675; ^sn 1 = 1:80712<br />
El valor del estadístico<br />
d = x o<br />
^Sn 1= p n 2 tn 1<br />
^d = x o<br />
^Sn 1= p n<br />
= 1:67 0<br />
1:8<br />
p 12<br />
= 3:211<br />
El p valor es 0.008 (bilateral). Como nos situamos en el Caso b), comprobamos si ^ d /(T<br />
en el SPSS) es mayor que cero (en efecto, es 3.211). Luego el p-valor es 0.008/2=0.004. En<br />
consecuencia, se rechazaría la hipótesis nula (se aceptaría la hipótesis alternativa). Diriamos<br />
que, con esta muestra aceptaríamos que el grado medio aumenta.<br />
1.1 Caso de dos muestras: relacionadas (apareadas) e independi-<br />
entes.<br />
Supongamos ahora que tenemos 2 variables X e Y<br />
X 2 N( X; X); Y 2 N( Y ; Y ):<br />
Nos interesa hacer estimaciones o inferencias (o <strong>contrastes</strong>) sobre X Y :<br />
Ejemplos: Diferencia entre estaturas (pesos, notas, cocientes intelectuales, nivel de osteo-<br />
porosis) medias en 2 grupos.<br />
7
De la variable X se escogerá una muestra (x1; x2; : : : ; xn) y de Y otra muestra (y1; y2; : : : ; ym).<br />
1.-) Si X e Y son dependientes, se llaman muestras apareadas. En este caso tendremos que<br />
n = m; simplemente se consideraría la variable D = Y X o X Y y se trabaja como hemos<br />
visto para el caso de una muestra.<br />
Ejemplo: Para estudiar el efecto del ejercicio físico sobre el nivel de triglicérido, se ha<br />
realizado el siguiente experimento con 11 individuos: previo al ejercicio, se tomaron muestras<br />
de sangre para determinar el nivel de triglicérido por 100 mililitros de sangre, de cada sujeto.<br />
Después los individuos fueron sometidos a un programa de sexo agotador. Al …nal del periodo<br />
de ejercicios, se tomaron nuevamente muestras de sangre y se obtuvo una segunda lectura del<br />
nivel de triglicérido. De este modo, se dispone de dos conjuntos de observaciones del nivel de<br />
triglicérido por 100 mililitros de sangre de los sujetos: (suponer normalidad)<br />
Sujeto 1 2 3 4 5 6 7 8 9 10 11<br />
Previo 68 77 94 73 37 131 77 24 99 629 116<br />
Posterior 95 90 86 58 47 121 136 65 131 630 104<br />
¿Hay pruebas su…cientes para a…rmar que el sexo duro produce cambios en el nivel de<br />
triglicérido?.<br />
X = "nivel previo", Y ="nivel posterior". X e Y son dependientes porque corresponden a<br />
medidas en los mismos individuos.<br />
Se contrasta H0 : X = Y (ó X Y = 0) frente a H1 : X 6= Y :<br />
En este caso las muestras son dependientes (muestras relacionadas o pareadas). Hay que<br />
calcular las diferencias entre los datos de una muestra y la otra: D = (D1 = x1 y1; :::; Dn =<br />
xn yn):<br />
Contrastamos H0 : D = 0 frente a H1 : D 6= 0:<br />
1. El estadístico es<br />
^d = D D<br />
^Sn 1= p n<br />
Tenemos que D = 12:54; ^ Sn 1 = 24:46 y o = 0 bajo H0:<br />
^w = 12:54<br />
24:46<br />
p 11<br />
= j 1: 7003j = 1:7003:<br />
8
3).<br />
En SPSS vamos a Analizar/Comparar Medias/Prueba T para muestras relacionadas ( Figura<br />
Figura 3: Cuadro de diálogo del SPSS para la prueba de muestras relacionadas o apareadas<br />
El p-valor (sig.bilateral)= 0:12; con lo que, en principio (con los niveles habituales), no<br />
rechazamos la hipótesis nula, luego con esta muestra no podemos decir que el sexo agotador<br />
afecte al nivel de triglicérido.<br />
2.-) Si X e Y son independientes, hay que diferenciar si las varianzas (o desviaciones<br />
típicas) de las variables son iguales o no. En cualquier caso, el SPSS hace todo en un mismo<br />
cuadro de diálogo.<br />
Analizar/Comparar Medias/Prueba T para muestras independientes.<br />
La diferencia con los análisis anteriores es que debemos meter las 2 muestras que tengamos<br />
en una misma variable, e indicar la pertenencia a X o Y en otra variable.<br />
Ejemplo.<br />
Una compañía contrata 10 inmigrantes subsaharianos y otros tantos supersaharianos. Las<br />
duraciones de vida (en minutos) observadas tras un trabajo sin paga ni descanso han sido:<br />
A: 1614, 1094, 1293, 1643, 1466, 1270, 1340, 1380, 1028, 1497.<br />
B: 1383, 1138, 1092, 1143, 1027, 1061, 1627, 1021, 1711, 1065.<br />
Calcular un intervalo de con…anza para la diferencia de medias, y decidir si pueden consid-<br />
erarse iguales.<br />
X = "duración de vida en inmigrantes subsharianos (A)", Y = "duración de vida en<br />
inmigrantes supersaharianos (B)"<br />
9
1. Queremos calcular un intervalo de con…anza para X Y y luego contrastar H0 : X =<br />
Y (ó X Y = 0) frente a H1 : X 6= Y (ó X Y 6= 0):<br />
Grupo A: n = 10; x = 1362:5; ^ Sn 1 = 202:46:<br />
Grupo B: m = 10; y = 1221:7; ^ Sm 1 = 260:87:<br />
1.-) Si se suponen varianzas o desviaciones típicas iguales, el intervalo de con…anza para<br />
X Y es<br />
=<br />
0<br />
@(x y) tn+m 2; =2<br />
(x y) tn+m 2; =2 ^ ST<br />
r !<br />
1 1<br />
+ =<br />
n m<br />
s<br />
(n 1) ^ S 2 n 1 + (m 1) ^ S 2 m 1<br />
n + m 2<br />
r<br />
1<br />
1 1<br />
+ A<br />
n m<br />
2.-) Si no se pueden considerar las varianzas iguales, el intervalo tiene la fórmula<br />
0<br />
s<br />
1<br />
siendo el entero más próximo a<br />
@(x y) tn+m 2 ; =2<br />
^S 2 n 1<br />
(m 1) ^ S2 n 1 (n 1) n ^ S2 m 1<br />
m<br />
(m 1)<br />
^S 2 n 1<br />
n<br />
2<br />
+ (n 1)<br />
n + ^ S2 m 1<br />
m<br />
En el SPSS crearíamos 2 variables. Una por ejemplo "datos", con los datos numéricos, y<br />
otra al lado (por ejemplo "tipo", con formato cadena) indicando "a" o "b". Luego vamos<br />
a Analizar/Comparar Medias/Prueba T para muestras independientes (Figura 4):<br />
En la primera línea de los resultados (Figura 5)., el programa realiza el contraste: H0 :<br />
X = Y frente a H1 : X 6= Y :<br />
Como el p-valor (Sig.) es 0.373, se aceptaría que las varianzas son iguales.<br />
Entonces, el intervalo de con…anza que elegiríamos sería el de dicha línea ( 80:93; 352:33).<br />
Para contrastar ahora H0 : X = Y (o X Y = 0) frente a H1 : X 6= Y el p-valor que<br />
se obtiene es Sig.(bilateral) =.205. Para los niveles habituales se aceptaría que las medias<br />
son iguales.<br />
10<br />
2<br />
^S 2 m 1<br />
m<br />
2<br />
A ;
Figura 4: Cuadro de diálogo del SPSS para la prueba de muestras independientes<br />
Figura 5: Resultado del SPSS para la prueba de muestras independientes<br />
11