Contraste de Hipótesis - E.T.S.I.T.G.C.
Contraste de Hipótesis - E.T.S.I.T.G.C.
Contraste de Hipótesis - E.T.S.I.T.G.C.
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
2. CONTRASTE DE HIPÓTESIS<br />
<strong>Contraste</strong> <strong>de</strong> hipótesis<br />
2.1. Introducción<br />
2.2. <strong>Contraste</strong> <strong>de</strong> una hipótesis estadística<br />
2.3. Test unilateral y bilateral<br />
2.4. Test relacionados con una sola media (varianza conocida)<br />
2.5. Relación con la estimación <strong>de</strong>l intervalo <strong>de</strong> confianza<br />
2.6. Test sobre una sola media (varianza <strong>de</strong>sconocida)<br />
2.7. Test sobre dos medias<br />
2.7.1. Varianzas conocidas<br />
2.7.2. Varianzas <strong>de</strong>sconocidas<br />
2.8. Pruebas relacionadas con varianzas<br />
2.9. Test <strong>de</strong> Bondad <strong>de</strong> ajuste. Aplicaciones<br />
Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />
1
2.1. INTRODUCCIÓN<br />
<strong>Contraste</strong> <strong>de</strong> hipótesis<br />
2. CONTRASTE DE HIPOTESIS<br />
No siempre los problemas a los que se enfrenta el científico o el ingeniero, se<br />
refieren sólo a la estimación <strong>de</strong> un parámetro <strong>de</strong> la población, sino por el contrario,<br />
la formulación <strong>de</strong> un procedimiento <strong>de</strong> <strong>de</strong>cisión basado en datos, que pue<strong>de</strong><br />
producir una conclusión acerca <strong>de</strong> algún sistema científico. Se postula o conjetura<br />
algo acerca <strong>de</strong> un sistema. La conjetura se pue<strong>de</strong> exponer como una hipótesis<br />
estadística. Los procedimientos que conducen a la aceptación o rechazo <strong>de</strong><br />
hipótesis estadísticas, compren<strong>de</strong>n un área muy importante <strong>de</strong> la inferencia<br />
estadística.<br />
Una hipótesis estadística es una afirmación o conjetura acerca <strong>de</strong> una o<br />
más poblaciones. Es importante remarcar que las hipótesis son proposiciones sobre<br />
la población en estudio, nunca sobre la muestra.<br />
Contrastar una hipótesis estadísticamente es tomar una <strong>de</strong>cisión sobre si<br />
cierta propiedad <strong>de</strong> una población es compatible con lo observado en una muestra<br />
<strong>de</strong> dicha población.<br />
La técnica <strong>de</strong>l contraste <strong>de</strong> hipótesis constituye una parte <strong>de</strong> la Inferencia<br />
Estadística que consiste en utilizar la información muestral para examinar la vali<strong>de</strong>z<br />
<strong>de</strong> afirmaciones realizadas sobre una característica poblacional.<br />
Nunca se sabe con absoluta certeza la verdad o falsedad <strong>de</strong> una hipótesis<br />
estadística, a no ser que se examine la población entera. Como esto no es práctico,<br />
se elige una muestra aleatoria <strong>de</strong> la población que se estudia, y se utilizan los datos<br />
que contiene dicha muestra para proporcionar evi<strong>de</strong>ncias que confirmen o no la<br />
hipótesis.<br />
La evi<strong>de</strong>ncia <strong>de</strong> la muestra que es inconsistente con la hipótesis planteada,<br />
lleva al rechazo <strong>de</strong> la misma; mientras que la evi<strong>de</strong>ncia que apoya a la hipótesis,<br />
conduce a su aceptación.<br />
Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />
2
<strong>Contraste</strong> <strong>de</strong> hipótesis<br />
Des<strong>de</strong> luego el diseño <strong>de</strong> un procedimiento <strong>de</strong> <strong>de</strong>cisión, <strong>de</strong>be llevarse a cabo<br />
con la i<strong>de</strong>a <strong>de</strong> probabilidad <strong>de</strong> una conclusión equivocada. Es <strong>de</strong>cir, la<br />
aceptación <strong>de</strong> una hipótesis implica tan sólo que los datos <strong>de</strong> la muestra no<br />
proporcionan evi<strong>de</strong>ncia suficiente para rechazarla. El rechazo <strong>de</strong> la hipótesis implica<br />
que la evi<strong>de</strong>ncia <strong>de</strong> la muestra la refuta.<br />
Existen dos tipos <strong>de</strong> contrastes:<br />
<strong>Contraste</strong>s paramétricos si la hipótesis concierne a parámetros<br />
poblacionales tales como la media o la varianza.<br />
<strong>Contraste</strong>s no paramétricos son los que afectan a cualida<strong>de</strong>s <strong>de</strong> la<br />
distribución, tales como la bondad o <strong>de</strong> ajuste, homogeneidad <strong>de</strong> poblaciones,<br />
in<strong>de</strong>pen<strong>de</strong>ncia.<br />
2.2. CONTRASTE DE UNA HIPÓTESIS ESTADÍSTICA<br />
La estructura <strong>de</strong> la prueba <strong>de</strong> hipótesis (test <strong>de</strong> hipótesis) se formulará<br />
utilizando el término hipótesis nula.<br />
Llamamos hipótesis nula, H 0 , a la hipótesis que vamos a contrastar, H 0<br />
representa la hipótesis que mantendremos mientras los datos no nos indiquen su<br />
falsedad.<br />
El rechazo <strong>de</strong> Ho da como resultado la aceptación <strong>de</strong> una hipótesis<br />
alternativa, que se representa por H1.<br />
rechaza.<br />
Llamamos hipótesis alternativa, H 1, a la hipótesis que se aceptará si H 0 se<br />
Una hipótesis nula referente a un parámetro <strong>de</strong> la población, siempre será<br />
establecida en forma tal que especifique un valor exacto <strong>de</strong>l parámetro; la hipótesis<br />
alternativa admite la posibilidad <strong>de</strong> varios valores.<br />
Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />
3
<strong>Contraste</strong> <strong>de</strong> hipótesis<br />
Las fases en un contraste <strong>de</strong> hipótesis son:<br />
1) Definir la hipótesis a contrastar que llamaremos H 0 .<br />
2) Definir una medida <strong>de</strong> discrepancia D que mida la diferencia entre los valores<br />
observados y los esperados (<strong>de</strong> acuerdo con H 0 ).<br />
3) Calcular D. Si la discrepancia D es muy gran<strong>de</strong>, rechazaremos H 0 ; en caso<br />
contrario, aceptamos H 0 .<br />
Por tanto para realizar un contraste necesitamos una medida <strong>de</strong> discrepancia,<br />
y una ley para juzgar cuando las discrepancias son <strong>de</strong>masiado gran<strong>de</strong>s.<br />
Al probar cualquier hipótesis estadística, se presentan cuatro posibles<br />
situaciones que <strong>de</strong>terminan si la <strong>de</strong>cisión es correcta o equivocada:<br />
La hipótesis nula, es verda<strong>de</strong>ra o falsa y se acepta o se rechaza. No se<br />
comete error alguno si es verda<strong>de</strong>ra y se acepta, o si es falsa y se rechaza. Sin<br />
embargo, se cometerá error si es verda<strong>de</strong>ra y se rechaza o si es falsa y se acepta.<br />
REALIDAD<br />
Decimos que se comete un error <strong>de</strong> tipo I cuando H 0 es verda<strong>de</strong>ra pero se<br />
rechaza, se comete un error <strong>de</strong> tipo II cuando H 0 es falsa pero se acepta.<br />
Para <strong>de</strong>finir qué valores <strong>de</strong> las discrepancias son gran<strong>de</strong>s fijamos un valor <br />
que <strong>de</strong>nominaremos nivel <strong>de</strong> significación. El valor es la probabilidad <strong>de</strong> cometer<br />
un error <strong>de</strong> tipo I, y <strong>de</strong>termina un valor d c <strong>de</strong> forma que: P<br />
DECISIÓN<br />
Se Acepta Se Rechaza<br />
H 0 Es Verda<strong>de</strong>ra Decisión correcta Error <strong>de</strong> tipo I<br />
H 0 Es Falsa Error <strong>de</strong> tipo II Decisión correcta<br />
( D dc) <br />
Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />
4
<strong>Contraste</strong> <strong>de</strong> hipótesis<br />
P(error tipo I)=P(rechazar H 0 / H 0 es cierta)<br />
La probabilidad <strong>de</strong> cometer error tipo II, representado por , es imposible<br />
calcularla a no ser que tenga una hipótesis alternativa específica:<br />
P(error tipo II)=P(aceptar H 0 / H 0 es falsa)<br />
Al conjunto <strong>de</strong> reglas que lleva a aceptar o no una cierta hipótesis, es lo que<br />
se llama "un test o contraste <strong>de</strong> hipótesis".<br />
La potencia <strong>de</strong>l contraste es la probabilidad <strong>de</strong> rechazar H 0 , dada una<br />
alternativa específica verda<strong>de</strong>ra:<br />
1 Potencia=P(rechazar H 0 / H 0 es falsa)<br />
Un test muy potente es altamente capaz <strong>de</strong> <strong>de</strong>tectar la falsedad <strong>de</strong> los datos.<br />
Uno poco potente no <strong>de</strong>tecta la falsedad <strong>de</strong> los datos.<br />
En general, a todo número que, obtenido a partir <strong>de</strong> las observaciones <strong>de</strong> una<br />
muestra, sirve para <strong>de</strong>cidirse por H0 ó H 1,<br />
se llama estadístico <strong>de</strong> contraste.<br />
Pero para realizar un test <strong>de</strong> hipótesis, el investigador no sólo <strong>de</strong>be fijar H 0 y<br />
H 1,<br />
y el estadístico <strong>de</strong> contraste, sino que también habrá <strong>de</strong> <strong>de</strong>cidir <strong>de</strong> antemano el<br />
valor <strong>de</strong>l error que está dispuesto a aceptar.<br />
La figura siguiente muestra gráficamente este método. Si la discrepancia<br />
observada D cae <strong>de</strong>ntro <strong>de</strong> la región <strong>de</strong> rechazo (probabilidad <strong>de</strong> rechazar y ser<br />
verda<strong>de</strong>ra), rechazamos la hipótesis H0, en caso contrario la aceptaremos.<br />
Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />
5
<strong>Contraste</strong> <strong>de</strong> hipótesis<br />
Definimos la región <strong>de</strong> rechazo o región crítica por D dces el conjunto <strong>de</strong><br />
valores <strong>de</strong>l estadístico <strong>de</strong><br />
contraste que lleva a la<br />
<strong>de</strong>cisión <strong>de</strong> rechazar la<br />
hipótesis nula H0 y la región <strong>de</strong><br />
aceptación <strong>de</strong> H0 será D dc <strong>de</strong> .<br />
Consi<strong>de</strong>raciones acerca<br />
1) Aceptar o rechazar la<br />
hipótesis H 0 pue<strong>de</strong> <strong>de</strong>pen<strong>de</strong>r<br />
<strong>de</strong>l valor , siendo posible rechazar H 0 con = 0.05 y aceptar H 0 con = 0.04<br />
2) Dar sólo el resultado <strong>de</strong>l test no indica el grado <strong>de</strong> discrepancia. Se acostumbra a<br />
utilizar niveles <strong>de</strong> significación <strong>de</strong>l 0.05 ó 0.01.<br />
Si, por ejemplo se elige un nivel <strong>de</strong> significación <strong>de</strong>l 0.05 entonces hay<br />
aproximadamente 5 ocasiones <strong>de</strong> cada 100 en que se rechazaría la hipótesis<br />
cuando <strong>de</strong>be ser aceptada.<br />
El nivel <strong>de</strong> significación () se fija a priori in<strong>de</strong>pendientemente <strong>de</strong>l estadístico.<br />
Un procedimiento para resolver estas consi<strong>de</strong>raciones es utilizar el nivel<br />
crítico p <strong>de</strong> un test, en vez <strong>de</strong>l nivel <strong>de</strong> significación ().<br />
Se <strong>de</strong>fine el nivel crítico o p valor como el mínimo nivel <strong>de</strong> significación para<br />
el que, con los datos <strong>de</strong> una muestra concreta, se tendría que rechazar H 0 .<br />
pP(D D n)<br />
.<br />
Es <strong>de</strong>cir, la probabilidad <strong>de</strong> obtener una discrepancia mayor o igual que la<br />
observada en la muestra. De esta forma, el valor <strong>de</strong> p no se fija a priori, sino que se<br />
<strong>de</strong>termina en función <strong>de</strong> la muestra.<br />
Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />
<br />
<<br />
> Aceptación d Rechazo<br />
c<br />
6
<strong>Contraste</strong> <strong>de</strong> hipótesis<br />
Como se evi<strong>de</strong>ncia en la figura siguiente, cuanto menor sea el valor crítico,<br />
menor es la probabilidad <strong>de</strong> existir discrepancia como la observada, y menor es la<br />
certidumbre <strong>de</strong> H0.<br />
Esto es; cuanto más cercano a cero sea su valor con mayor confianza se rechazará<br />
H0. Puesto que, pP(D D n)<br />
y Dn un valor fijo, si p es gran<strong>de</strong> Dn es un valor<br />
pequeño, por tanto, para un valor fijo <strong>de</strong> < p será Dn < dc y aceptamos la hipótesis<br />
H0,<br />
aceptar H 0 .<br />
En general, cuanto más próximo a 1 sea p con mayor evi<strong>de</strong>ncia se habrá <strong>de</strong><br />
A título orientativo,<br />
Si p>0.25 no existe suficiente evi<strong>de</strong>ncia para rechazar H0.<br />
Si 0.01
<strong>Contraste</strong> <strong>de</strong> hipótesis<br />
Al error <strong>de</strong> la primera RC que rechaza H0, se le llama nivel crítico ó nivel<br />
mínimo <strong>de</strong> significación.<br />
Los valores fuera <strong>de</strong> la región <strong>de</strong> rechazo son los valores <strong>de</strong> la región <strong>de</strong><br />
aceptación R(H0). Estas regiones <strong>de</strong> aceptación coinci<strong>de</strong>n con los intervalos <strong>de</strong><br />
confianza para los parámetros sobre los que se plantea el contraste con los niveles<br />
<strong>de</strong> confianza <strong>de</strong> 1- complemento <strong>de</strong> los <strong>de</strong> significación .<br />
2.3. TEST UNILATERAL Y BILATERAL<br />
Un test <strong>de</strong> cualquier hipótesis estadística, don<strong>de</strong> la alternativa es unilateral,<br />
tal como: H o : o<br />
H 1 : o<br />
ó bien<br />
H : <br />
H: <br />
0 0<br />
1 0<br />
recibe el nombre <strong>de</strong> test <strong>de</strong> una cola, ya que<br />
la región crítica cae en la cola <strong>de</strong>recha <strong>de</strong> la distribución <strong>de</strong>l estadístico <strong>de</strong> prueba, o<br />
en la cola izquierda, respectivamente.<br />
Un test <strong>de</strong> cualquier hipótesis estadística don<strong>de</strong> la alternativa es bilateral, tal<br />
como: Ho : o recibe el nombre <strong>de</strong> test <strong>de</strong> dos colas, ya que la región crítica se<br />
H1 : o divi<strong>de</strong> en dos partes, generalmente con iguales probabilida<strong>de</strong>s en cada cola <strong>de</strong> la<br />
distribución <strong>de</strong>l estadístico <strong>de</strong> prueba.<br />
Para probar hipótesis en las cuales el estadístico <strong>de</strong> prueba es discreto,<br />
pue<strong>de</strong> escogerse la región crítica arbitrariamente y luego <strong>de</strong>terminar su tamaño. Si<br />
es <strong>de</strong>masiado gran<strong>de</strong>, pue<strong>de</strong> reducirse haciendo un ajuste en el valor crítico.<br />
Un valor p es el nivel más bajo (<strong>de</strong> significación) en el cuál el valor observado<br />
<strong>de</strong>l estadístico <strong>de</strong> prueba es significativo.<br />
Los procedimientos para el test <strong>de</strong> hipótesis, pue<strong>de</strong>n resumirse, supuesto que<br />
la hipótesis es H o : o :<br />
1. Establecer la hipótesis nula H o <strong>de</strong> que o .<br />
Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />
8
<strong>Contraste</strong> <strong>de</strong> hipótesis<br />
2. Seleccionar una hipótesis alternativa apropiada H 1 <strong>de</strong> una <strong>de</strong> las alternativas<br />
o , o ó o .<br />
3. Elegir un nivel <strong>de</strong> significación y el tamaño <strong>de</strong> la muestra n.<br />
4. Seleccionar el estadístico <strong>de</strong> prueba apropiado, y establecer la región crítica<br />
(si la <strong>de</strong>cisión se va a basar en un valor p, no es necesario establecer la<br />
región crítica).<br />
5. Calcular el valor <strong>de</strong>l estadístico <strong>de</strong> prueba <strong>de</strong> los datos muestrales.<br />
6. Decidir: rechazar H o si el estadístico <strong>de</strong> prueba tiene un valor en la región<br />
crítica (o si el valor calculado <strong>de</strong> p es menor o igual que el nivel <strong>de</strong><br />
significación <strong>de</strong>seado ); <strong>de</strong> otra forma, no rechazar H o .<br />
2.4. TEST RELACIONADOS CON UNA SÓLA MEDIA (VARIANZA CONOCIDA):<br />
Presentamos los test <strong>de</strong> hipótesis acerca <strong>de</strong> una sóla media <strong>de</strong> población. Se<br />
<strong>de</strong>ben, en primer lugar, <strong>de</strong>scribir las suposiciones sobre las cuales se basa el<br />
experimento. El mo<strong>de</strong>lo para la situación fundamental se centra alre<strong>de</strong>dor <strong>de</strong> un<br />
experimento X 1 , X 2 ,...,X n que representa una muestra aleatoria <strong>de</strong> una distribución<br />
con media y varianza 2 . Considérese primero la hipótesis:<br />
H o: o<br />
H 1 : o<br />
El estadístico <strong>de</strong> prueba apropiado <strong>de</strong>berá basarse en la variable aleatoria X<br />
.Ya sabemos, según el Teorema Central <strong>de</strong>l Límite, que, al margen <strong>de</strong> la distribución<br />
<strong>de</strong> X, la v.a. tiene una distribución aproximadamente Normal con media y<br />
<strong>de</strong>sviación típica <br />
X<br />
. Pue<strong>de</strong>, entonces, <strong>de</strong>terminarse una región crítica con base en<br />
n<br />
el promedio muestral calculado, X<br />
. Hasta este momento, habrá una región crítica <strong>de</strong><br />
dos colas para la prueba.<br />
Conviene normalizar la v.a. X: Z <br />
X <br />
n .<br />
Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />
9
<strong>Contraste</strong> <strong>de</strong> hipótesis<br />
Se sabe que bajo H o ; es <strong>de</strong>cir, si o , entonces X o<br />
n<br />
Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />
tiene una<br />
distribución N (0,1), y <strong>de</strong> aquí que la expresión p z <br />
2 X o n z <br />
<br />
<br />
1 pue<strong>de</strong><br />
<br />
2<br />
utilizarse para escribir una región crítica apropiada. Formalmente, la región crítica se<br />
crea para controlar , la probabilidad <strong>de</strong> error tipo I.<br />
Se necesita una señal <strong>de</strong> evi<strong>de</strong>ncia <strong>de</strong> dos colas para respaldar H 1 . Así, dado<br />
un valor calculado X , la prueba formal implica rechazar H si el estadístico <strong>de</strong><br />
0<br />
prueba calculado:<br />
X <br />
Z z<br />
/ n<br />
<br />
2<br />
ó z z 2 . Si z 2 z z 2 no se rechaza H o .<br />
El rechazo <strong>de</strong> implica la aceptación <strong>de</strong> la hipótesis alternativa o .<br />
H o<br />
Con esta <strong>de</strong>finición <strong>de</strong> la región crítica, existirá la probabilidad <strong>de</strong> rechazar<br />
H o (al caer en la región crítica) cuando, en realidad o .<br />
O bien, calculando el p-valor=2P(Z>z) y comparándolo con :<br />
p> se acepta la hipótesis nula, y por lo tanto o<br />
p< se rechaza la hipótesis nula, y por lo tanto o<br />
10
Estos son los valores críticos más usados:<br />
<strong>Contraste</strong> <strong>de</strong> hipótesis<br />
Grado <strong>de</strong> confianza Valor crítico z/2<br />
90% 0,10 1,645<br />
95% 0,05 1,96<br />
99% 0,01 2,575<br />
Las pruebas <strong>de</strong> hipótesis unilaterales acerca <strong>de</strong> la media, compren<strong>de</strong>n el<br />
mismo estadístico que el <strong>de</strong>scrito para el caso bilateral. Aquí la región crítica es <strong>de</strong><br />
una sóla cola <strong>de</strong> la distribución normal.<br />
Para H1 : o , el rechazo (región crítica) resulta cuando z z. Para H1 : o , la región crítica está dada por z z. 2.1 Ejemplo:<br />
Se supone que un topógrafo realiza como mínimo 42 mediciones diarias. Ante<br />
la duda se hace una comprobación observando las mediciones durante 10 días<br />
seleccionados al azar, observándose una media <strong>de</strong> 40. Suponiendo normalidad con<br />
varianza 16 en la distribución <strong>de</strong> las mediciones diarias con un nivel <strong>de</strong> significación<br />
<strong>de</strong> 0,05 la suposición inicial. Realizar el contraste para la media.<br />
Solución:<br />
Estamos ante un caso <strong>de</strong> contraste unilateral para la media <strong>de</strong> una población normal<br />
con varianza conocida.<br />
H 0 : 0 42 H: 42 1 0<br />
X 0<br />
Sabemos que: Z N(0,1)<br />
/ n<br />
El valor <strong>de</strong>l estadístico Z bajo la hipótesis nula es:<br />
X 0<br />
40 42<br />
Z -1.581138830<br />
/ n 4/ 10<br />
Para =0,05 en la N(0,1) tenemos que:<br />
<br />
<br />
P Z z P Z z 0,05 z 1,64<br />
0,05 0,05<br />
Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />
11
<strong>Contraste</strong> <strong>de</strong> hipótesis<br />
Como el valor <strong>de</strong> nuestro estadístico Z bajo la hipótesis nula cae <strong>de</strong>ntro <strong>de</strong> la región<br />
<strong>de</strong> aceptación (-1,64
<strong>Contraste</strong> <strong>de</strong> hipótesis<br />
Los intervalos <strong>de</strong> confianza tienen la ventaja frente a los contrastes <strong>de</strong><br />
hipótesis <strong>de</strong> que siempre nos dan una i<strong>de</strong>a <strong>de</strong> la zona en la que se va a encontrar el<br />
verda<strong>de</strong>ro valor <strong>de</strong>l parámetro poblacional, mientras que en el caso <strong>de</strong> los test,<br />
cuando se rechaza una hipótesis nula, no se conoce el valor <strong>de</strong>l parámetro en<br />
cuestión. Todo lo que se sabe es que es más verosímil que el valor <strong>de</strong>l parámetro<br />
sea mayor o menor que un valor concreto.<br />
2.6. TEST SOBRE UNA SÓLA MEDIA (VARIANZA DESCONOCIDA):<br />
La aplicación <strong>de</strong> la t <strong>de</strong> Stu<strong>de</strong>nt tanto en intervalos <strong>de</strong> confianza como en test<br />
<strong>de</strong> hipótesis, se <strong>de</strong>sarrolla bajo las siguientes suposiciones: las v.a. X 1 ,...,X n<br />
representan una muestra aleatoria <strong>de</strong> una distribución con y 2 <strong>de</strong>sconocidos.<br />
Entonces la v.a.<br />
X <br />
s n tiene una distribución t <strong>de</strong> Stu<strong>de</strong>nt con n-1 grados <strong>de</strong> libertad.<br />
La estructura <strong>de</strong> la prueba es idéntica que para el caso <strong>de</strong> conocida, con la<br />
salvedad <strong>de</strong> que el valor <strong>de</strong> <br />
en el estadístico <strong>de</strong> prueba se reemplaza por la<br />
estimación calculada s, y la distribución normal se reemplaza por una distribución t.<br />
Es <strong>de</strong>cir, para la hipótesis bilateral:<br />
H o: o<br />
H 1 : o<br />
el rechazo <strong>de</strong> H o , con un nivel <strong>de</strong> significación , resulta cuando<br />
una estadística t calculada: t x o s n exce<strong>de</strong> a ,n 1<br />
t ó es menor que t ,n1 2<br />
2<br />
O bien, calculando el p-valor=2P(tn-1>t) y comparándolo con :<br />
p> se acepta la hipótesis nula, y por lo tanto o<br />
p< se rechaza la hipótesis nula, y por lo tanto o<br />
Para H1 : o , el rechazo resulta cuando t t,n1. Para H1: o, la región crítica está dada por t t,n1. Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />
.<br />
13
<strong>Contraste</strong> <strong>de</strong> hipótesis<br />
Se conserva la equivalencia <strong>de</strong> la prueba t <strong>de</strong> Stu<strong>de</strong>nt <strong>de</strong> doble cola para una<br />
sola media, y el cálculo <strong>de</strong> un intervalo <strong>de</strong> confianza para , reemplazando por s.<br />
Para muestras pequeñas (n
Datos:<br />
<strong>Contraste</strong> <strong>de</strong> hipótesis<br />
S S <br />
I xt /2,n1 ,xt/2,n1 n n <br />
2<br />
n 5; x 998 ; S 19,6; 10.95; t0,025;4 2,776<br />
4.43 4.43 <br />
I0.25 998 2.776 ,998 2.776 <br />
992.48,1003.51<br />
5 5 <br />
Obviamente se cumple que la media 1000 992.48,1003.51 2.7. TEST SOBRE DOS MEDIAS<br />
2.7.1. Varianzas conocidas<br />
<br />
Los test referidos a dos medias representan un conjunto <strong>de</strong> herramientas<br />
analíticas muy importantes para científicos e ingenieros.<br />
Dos muestras aleatorias in<strong>de</strong>pendientes <strong>de</strong> tamaños n 1 y n 2 ,<br />
respectivamente, se obtienen <strong>de</strong> dos poblaciones con medias y varianzas<br />
respectivas 1 , 2 y 1 2 ,2 2 . Se sabe que la v.a. Z X 1 X 2<br />
distribución N(0,1).<br />
12 2 2<br />
1 n1 2 n2<br />
Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />
<br />
1 2<br />
Si 1 2 , el estadístico anterior se reduce a: Z X 1 X 2<br />
1 n1 1 n2 tiene una<br />
<br />
Estos dos estadísticos sirven como base para el <strong>de</strong>sarrollo <strong>de</strong> los<br />
procedimientos <strong>de</strong> prueba sobre dos medias.<br />
La hipótesis nula sobre dos medias pue<strong>de</strong> escribirse: H o : 1 2 d o .<br />
La alternativa pue<strong>de</strong> ser unilateral o bilateral. De nuevo, la distribución<br />
utilizada es la distribución <strong>de</strong>l estadístico <strong>de</strong> prueba H o . Se calculan los valores<br />
x 1 y x 2 , y para 1 y 2 , el estadístico <strong>de</strong> prueba es:<br />
.<br />
15
<strong>Contraste</strong> <strong>de</strong> hipótesis<br />
z <br />
<br />
x x d<br />
1 2 0<br />
n <br />
n<br />
2 2<br />
1 1 2 2<br />
con una región crítica <strong>de</strong> dos colas en el caso <strong>de</strong> una alternativa <strong>de</strong> dos lados. Es <strong>de</strong>cir, el<br />
rechazo <strong>de</strong> H o en favor <strong>de</strong> H 1 : 1 2 d o si z z 2 ó z z 2 . Las regiones críticas <strong>de</strong><br />
una cola se utilizan en el caso <strong>de</strong> las alternativas unilaterales.<br />
2.3 Ejemplo<br />
90 teodolitos son llevados a reparar a dos talleres distintos. 50 <strong>de</strong> ellos al taller A<br />
don<strong>de</strong> los repararon en un tiempo medio <strong>de</strong> 150 días con una <strong>de</strong>sviación típica <strong>de</strong> 30 días. Los<br />
40 restantes al taller B, siendo reparados en un tiempo medio <strong>de</strong> 160 días con una <strong>de</strong>sviación<br />
típica <strong>de</strong> 25 días. Suponiendo que las varianzas son conocidas, ¿se pue<strong>de</strong> consi<strong>de</strong>rar que el<br />
taller A es más a<strong>de</strong>cuado que el B para conseguir una reparación más rápida?<br />
Solución:<br />
Queremos comparar las medias <strong>de</strong> dos poblaciones normales <strong>de</strong> varianzas conocidas.<br />
El estadístico <strong>de</strong> prueba es:<br />
x x<br />
<br />
<br />
n n<br />
A B<br />
2 2<br />
A B<br />
A B<br />
H : <br />
H: <br />
z<br />
0 A B<br />
1 A B<br />
<br />
sustituyendo los valores<br />
Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />
150 160<br />
1.72<br />
y<br />
2 2<br />
30 25<br />
<br />
50 40<br />
para a -1,72)<br />
=1-DISTR.NORM.ESTAND(-1,72) 0,95728378 > α<br />
Se acepta la hipótesis nula para cualquier valor <strong>de</strong> α
2.7.2. Varianzas <strong>de</strong>sconocidas<br />
<strong>Contraste</strong> <strong>de</strong> hipótesis<br />
Lo más frecuente es que se <strong>de</strong>sconozcan las varianzas.<br />
Si el científico está dispuesto a asumir que ambas distribuciones son normales, y que<br />
1 2 , pue<strong>de</strong> utilizarse la prueba t combinada (prueba t <strong>de</strong> dos muestras). El estadístico<br />
<strong>de</strong> prueba es:<br />
t <br />
x1x2do sp 1 n1 1 n2 s 2 2 n2 1<br />
2<br />
2 s1 n1 1<br />
, siendo s p <br />
n1 n2 2<br />
<br />
Se incluye la distribución t y la hipótesis bilateral no se rechaza cuando:<br />
t 2 ,n 1 n 2 2 t t 2 ,n 1 n 2 2<br />
Las alternativas unilaterales sugieren regiones críticas unilaterales.<br />
2.4 Ejemplo:<br />
Se utilizan dos teodolitos para hacer ciertas <strong>de</strong>terminaciones, pretendiendo averiguar si<br />
la media <strong>de</strong> los errores cometidos con uno y otro es idéntica para un nivel <strong>de</strong> significación <strong>de</strong>l<br />
5%. Se hacen 20 <strong>de</strong>terminaciones con el teodolito A y se obtiene una media 0,4 errores y una<br />
<strong>de</strong>sviación típica <strong>de</strong> 0,2 y otras 20 <strong>de</strong>terminaciones con el B obteniendo una media <strong>de</strong> 0,5 y<br />
una <strong>de</strong>sviación <strong>de</strong> 0,3. Suponemos que las variables error son normales y con la misma<br />
varianza. Comparar los dos teodolitos.<br />
Solución:<br />
Queremos comparar las medias <strong>de</strong> dos poblaciones normales <strong>de</strong> varianzas <strong>de</strong>sconocidas pero<br />
iguales y muestras pequeñas.<br />
El estadístico <strong>de</strong> prueba es:<br />
H : <br />
H: <br />
0 A B<br />
1 A B<br />
xAxB 1 1<br />
S <br />
n n<br />
A B<br />
t<br />
<br />
,nAnB2 2<br />
siendo<br />
Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />
17
A B<br />
<strong>Contraste</strong> <strong>de</strong> hipótesis<br />
2 2 2 2<br />
2 (n A 1)S A (nB 1)SB 190.2 190.3 S 0.065<br />
con lo cual<br />
(n 1) (n 1) 19 19<br />
xAxB 0.40.5 1.24<br />
y para a=0.05, t0.025,38=2<br />
1 1 1 1<br />
S 0.065 <br />
n n 20 20<br />
A B<br />
DERIVE:<br />
#1: NSOLVE(STUDENT(x, 38) = 0.975, x, Real)<br />
#2: x = 2.024394161<br />
EXCEL:<br />
=DISTR.T.INV(0,05;38) 2,02439415<br />
SPSS:<br />
IDF.T(0.975,38) 2.02<br />
Como 1.24 < 2 admitimos la hipótesis <strong>de</strong> igualdad <strong>de</strong> medias.<br />
Calculamos el p-valor = 2P(T>1,24)<br />
=DISTR.T(1,24;38;2) 0,22257815 > α<br />
2.8. PRUEBAS RELACIONADAS CON VARIANZAS<br />
Contemplamos primero el problema <strong>de</strong> probar la hipótesis nula H o <strong>de</strong> que la varianza<br />
poblacional 2 2<br />
es igual a un valor especificado o en contraposición a las alternativas<br />
usuales 2 o 2 , 2 o 2 ó 2 o 2 . El estadístico apropiado sobre el que se basa la <strong>de</strong>cisión<br />
es el estadístico ji-cuadrado utilizado para <strong>de</strong>terminar un intervalo <strong>de</strong> confianza para 2 . Por<br />
tanto, si suponemos que la distribución <strong>de</strong> la población que está siendo muestreada es normal,<br />
el valor ji-cuadrado para probar 2 2<br />
o está dado por:<br />
2 n1s2 2 o don<strong>de</strong> n es el tamaño <strong>de</strong> la muestra, s 2 2 2<br />
es la varianza muestral y o es el valor <strong>de</strong> dado<br />
por la hipótesis nula. Si H o es verda<strong>de</strong>ra, 2 es un valor <strong>de</strong> la distribución ji-cuadrado con n -<br />
1 grados <strong>de</strong> libertad. De aquí que, para una prueba <strong>de</strong> dos colas con un nivel <strong>de</strong> significación<br />
2<br />
, la región crítica es y<br />
1 <br />
/2<br />
.<br />
2<br />
/2<br />
<br />
2 2<br />
O bien, calculando el p-valor = 2 mín P n1,P n1 y comparándolo con a:<br />
Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />
18
<strong>Contraste</strong> <strong>de</strong> hipótesis<br />
p>a se acepta la hipótesis nula, y por lo tanto 2 o 2<br />
p
<strong>Contraste</strong> <strong>de</strong> hipótesis<br />
siendo 13,5 menor que 14,57 RECHAZAMOS la hipótesis nula <strong>de</strong> que la varianza <strong>de</strong>l grosor<br />
<strong>de</strong> los filamentos es 4 milímetros.<br />
EXCEL: = PRUEBA.CHI.INV(0,025;27) 43,19<br />
EXCEL: = PRUEBA.CHI.INV(0,975;27) 14,75<br />
SPSS: IDF.CHISQ(0.975,27) 43,19<br />
SPSS: IDF.CHISQ(0.025,27)<br />
Calculamos el p-valor<br />
14,75<br />
=2*(1-DISTR.CHI(13,5;27) 0,02865106 < 0,05 = α<br />
Al rechazar la hipótesis nula, aceptamos la hipótesis alternativa <strong>de</strong> que la varianza no es<br />
4; pero po<strong>de</strong>mos plantearnos si es menor que 4 o mayor que 4.<br />
Solución:<br />
Ahora se trata <strong>de</strong> realizar un contraste unilateral para la varianza poblacional con media<br />
<strong>de</strong>sconocida suponiendo normalidad.<br />
Sabemos que:<br />
(n 1)S<br />
<br />
2<br />
0<br />
2<br />
<br />
2<br />
n1 El valor crítico para a=0,05 y n=28<br />
Para = 0,05<br />
H : 4<br />
H: 4<br />
2 2<br />
0 0<br />
2 2<br />
1 0<br />
2<br />
(n 1)S272 13,5<br />
2<br />
0 4<br />
1 ,n1 0.95,27<br />
P( ) 0.95 16.25<br />
2<br />
27 0.95 0.95<br />
siendo 13,5 menor que 16,25 ACEPTAMOS la hipótesis nula <strong>de</strong> que la varianza <strong>de</strong>l grosor<br />
<strong>de</strong> los filamentos es menor <strong>de</strong> 4 milímetros.<br />
EXCEL: = PRUEBA.CHI.INV(0,95;27) 16,25<br />
SPSS: IDF.CHISQ(0.95,27) 16,25<br />
Calculamos el p-valor<br />
=DISTR.CHI(13,5;27)<br />
0,9856745 < 0,05 = α<br />
Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />
20
<strong>Contraste</strong> <strong>de</strong> hipótesis<br />
HOMOCEDASTICIDAD<br />
Considérese ahora el problema <strong>de</strong> probar la igualdad <strong>de</strong> varianzas 1 2 y 2 2 , <strong>de</strong> dos<br />
poblaciones. Esto es, <strong>de</strong>be probarse la hipótesis nula H o <strong>de</strong> que 1 2 2 2 en contraposición<br />
a una <strong>de</strong> las alternativas usuales 1 2 2 2 , 1 2 2 2 ó 1 2 2 2 .<br />
Para muestras aleatorias in<strong>de</strong>pendientes <strong>de</strong> tamaños respectivos n 1 y n 2 , <strong>de</strong> las dos<br />
poblaciones, el valor f para probar 1 2 2 2 es la razón f s 1 2<br />
Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />
s 2 2 don<strong>de</strong> s 1 2 y s 2 2 son las<br />
varianzas calculadas a partir <strong>de</strong> las dos muestras. Si las dos poblaciones tienen distribuciones<br />
aproximadamente normales, y la hipótesis nula es verda<strong>de</strong>ra, <strong>de</strong> acuerdo en resultados<br />
obtenidos, la relación f es un valor <strong>de</strong> la distribución F <strong>de</strong> Sne<strong>de</strong>cor con n1-1 y n2-1 grados<br />
<strong>de</strong> libertad. Por tanto, las regiones críticas, con nivel <strong>de</strong> significación correspondientes a<br />
las alternativas unilaterales 1 2 2 2 y 1 2 2 2 son respectivamente,<br />
.<br />
f F,n11,n21 f F .<br />
Para la alternativa bilateral 1 2 2 2 , la región crítica es<br />
,n11,n21 2<br />
f F1 ,n11,n21 y<br />
f F y<br />
1 ,n11,n21 2<br />
2.6 Ejemplo:<br />
Se preten<strong>de</strong> comparar dos métodos <strong>de</strong> eliminación <strong>de</strong> observaciones. Se seleccionan<br />
una muestra <strong>de</strong> 50 series con observaciones aberrantes y a 25 <strong>de</strong> ellas se le aplica el método A<br />
y a las otras 25 el B. Los resultados obtenidos son los siguientes:<br />
Método A : xA 4,3; SA 1,4<br />
Método B : xB 3,6; SB 1,1<br />
Suponiendo la variable normal, contrastar la hipótesis <strong>de</strong> igualdad <strong>de</strong> medias a un nivel <strong>de</strong><br />
significación a=0,05.<br />
Solución:<br />
Debemos en primer lugar contrastar la hipótesis <strong>de</strong> igualdad <strong>de</strong> varianzas<br />
21
2 2<br />
A<br />
2 2<br />
B<br />
<strong>Contraste</strong> <strong>de</strong> hipótesis<br />
S<br />
S<br />
H : <br />
H: <br />
2 2<br />
0 A B<br />
2 2<br />
1 A B<br />
<br />
<br />
<br />
2<br />
A F 2 ,F<br />
1 ,nA1,nB1 ,nA1,nB1 B 2 2<br />
S 1.4<br />
1.62 F ,F 0.44,2.27<br />
S 1.1<br />
0.975,24,24 0.025,24,24 <br />
DERIVE:<br />
#1: NSOLVE(F_DISTRIBUTION(x, 24, 24) = 0.975, x, 0, 1)<br />
#2: x = 0.4405911279<br />
#3: NSOLVE(F_DISTRIBUTION(x, 24, 24) = 0.025, x, 0, 5)<br />
#4: x = 2.269129557<br />
EXCEL:<br />
=DISTR.F.INV(0,975;24;24) 0,44066972<br />
=DISTR.F.INV(0,025;24;24)<br />
SPSS:<br />
2,26927455<br />
IDF.F(0.975,24,24) .44<br />
IDF.F(0.025,24,24) 2.27<br />
0,44 < 1,62 < 2,27 y por tanto aceptamos la hipótesis <strong>de</strong> varianzas iguales.<br />
Contrastamos ahora la igualdad <strong>de</strong> medias <strong>de</strong> dos poblaciones normales <strong>de</strong> varianzas<br />
<strong>de</strong>sconocidas pero iguales y muestras pequeñas.<br />
El estadístico <strong>de</strong> prueba es:<br />
A B<br />
H : <br />
H: <br />
0 A B<br />
1 A B<br />
xAxB 1 1<br />
S <br />
n n<br />
A B<br />
t<br />
<br />
,nAnB2 2<br />
siendo<br />
2 2 2 2<br />
2 (n A 1)S A (nB 1)SB 241.4 241.1 S 1.585<br />
con lo cual<br />
(n 1) (n 1) 2424 xAxB 4.3 3.6<br />
1.966<br />
y para a=0.05, t0.025,48=2<br />
1 1 1 1<br />
S 1.585 <br />
n n 25 25<br />
A B<br />
DERIVE:<br />
#1: NSOLVE(STUDENT(x, 48) = 0.975, x, Real)<br />
Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />
22
#2: x = 2.010634765<br />
EXCEL:<br />
<strong>Contraste</strong> <strong>de</strong> hipótesis<br />
=DISTR.T.INV(0,05;48)<br />
SPSS:<br />
2,01063472<br />
IDF.T(0.975,48) 2.01<br />
Como 1.93 < 2 admitimos la hipótesis <strong>de</strong> igualdad <strong>de</strong> medias.<br />
Calculamos el p-valor<br />
=DISTR.T(1,966;48;2) 0,05509702 > α<br />
2.9. TEST DE BONDAD DE AJUSTE.<br />
Hasta ahora, hemos estudiado aspectos o planteamientos, <strong>de</strong> un problema que, <strong>de</strong><br />
forma general, trata <strong>de</strong> tomar <strong>de</strong>cisiones sobre alguna característica <strong>de</strong> la población, a partir<br />
<strong>de</strong>l estudio <strong>de</strong> una muestra <strong>de</strong> dicha población.<br />
El problema que vamos a tratar es el <strong>de</strong> la conformidad <strong>de</strong> una distribución<br />
experimental y una distribución teórica; esto es, sustituir la distribución experimental<br />
(distribución <strong>de</strong> la muestra <strong>de</strong> la población), el histograma, o la distribución <strong>de</strong> frecuencias,<br />
por una distribución teórica conocida.<br />
Se trata ahora <strong>de</strong> ajustar una distribución experimental a una distribución teórica; es<br />
<strong>de</strong>cir, ver si <strong>de</strong> los resultados obtenidos en una muestra <strong>de</strong> una población, po<strong>de</strong>mos suponer<br />
que la población sigue una <strong>de</strong>terminada distribución.<br />
Según sea el histograma o la tabla <strong>de</strong> frecuencias <strong>de</strong> la muestra, hacemos una<br />
hipótesis sobre la distribución <strong>de</strong> la población, que estudiaremos en un test <strong>de</strong> ajuste que<br />
mi<strong>de</strong> la bondad <strong>de</strong> ajuste.<br />
Sea n el tamaño <strong>de</strong> la muestra y agrupamos en k clases, y sea ni la frecuencia absoluta<br />
observada <strong>de</strong> la clase i. A partir <strong>de</strong> la muestra estimamos los parámetros <strong>de</strong> la población<br />
teórica, y una vez obtenidos éstos, calculamos la probabilidad pi que le correspon<strong>de</strong> a cada<br />
intervalo i. Las correspondientes frecuencias absolutas teóricas (esperadas) serán npi.<br />
Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />
23
Sean:<br />
n = tamaño <strong>de</strong> la muestra<br />
k = número <strong>de</strong> clases<br />
ni = frecuencia absoluta <strong>de</strong> la clase i<br />
<strong>Contraste</strong> <strong>de</strong> hipótesis<br />
pi = probabilidad <strong>de</strong> cada clase según la distribución teórica<br />
npi = frecuencia absoluta <strong>de</strong> cada clase según la distribución teórica<br />
h = número <strong>de</strong> parámetros estimados a partir <strong>de</strong> la muestra<br />
= número <strong>de</strong> grados <strong>de</strong> libertad<br />
Las frecuencias observadas en la distribución <strong>de</strong> una muestra, se emplean para poner a<br />
prueba, la hipótesis <strong>de</strong> que la población <strong>de</strong> la cual se ha obtenido la muestra, no difiere en<br />
distribución, <strong>de</strong> la <strong>de</strong> alguna distribución conocida.<br />
Si la hipótesis fuese cierta, las discrepancias entre las frecuencias absolutas<br />
observadas ni y las frecuencias absolutas esperadas npi, no <strong>de</strong>ben ser gran<strong>de</strong>s.<br />
Supuesta conocida la distribución <strong>de</strong> Y. La hipótesis H 0 tiene la forma: la población X<br />
<strong>de</strong> la cual se obtuvo la muestra tiene la misma distribución que la población Y, formulamos la<br />
hipótesis alternativa H 1 las poblaciones X e Y no tienen la misma distribución.<br />
Una medida <strong>de</strong> las discrepancias en este sentido, fue estudiada por Pearson<br />
k<br />
2<br />
( ni<br />
npi<br />
)<br />
construyendo el siguiente estadístico: D , y <strong>de</strong>mostró que, para<br />
1<br />
np<br />
2<br />
n 30 y npi<br />
5<br />
D kh1<br />
i i<br />
, esto es, la variable D sigue una distribución ji-cuadrado con<br />
= k - h - 1 grados <strong>de</strong> libertad.<br />
Para aplicar correctamente el test, las frecuencias teóricas <strong>de</strong> las diferentes clases<br />
<strong>de</strong>ben ser mayor o igual que cinco, por lo que en caso <strong>de</strong> que no lleguen, se agrupan<br />
previamente.<br />
La prueba <strong>de</strong> bondad ji-cuadrado es una herramienta muy importante, <strong>de</strong>bido sobre<br />
todo a que muchos procedimientos estadísticos en la práctica <strong>de</strong>pen<strong>de</strong>n, en un sentido teórico,<br />
Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />
24
<strong>Contraste</strong> <strong>de</strong> hipótesis<br />
<strong>de</strong> la suposición <strong>de</strong> que los datos recogidos surgen <strong>de</strong> un tipo <strong>de</strong> distribución específica. La<br />
suposición <strong>de</strong> normalidad se hace con bastante frecuencia.<br />
Fijado un nivel <strong>de</strong> significación , buscamos un valor tal que <br />
Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />
2<br />
P <br />
Si D aceptamos la hipótesis H 0 <strong>de</strong> conformidad con el ajuste, siendo las<br />
diferencias i i<br />
n np <strong>de</strong>bidas al azar.<br />
Si D rechazamos la hipótesis H0 , las diferencias i i<br />
por tanto, las distribuciones son distintas.<br />
Observaciones acerca <strong>de</strong> D.<br />
n np son significativas y<br />
1º El valor D es más gran<strong>de</strong> a medida que la distribución experimental se separa más <strong>de</strong> la<br />
teórica.<br />
2º El número <strong>de</strong> intervalos se pue<strong>de</strong>n fijar libremente siempre y cuando se verifique npi 5 .<br />
3º En general, D crece si crece el nº <strong>de</strong> intervalos, aunque la distribución teórica se ajuste<br />
bien. Pue<strong>de</strong> darse el caso <strong>de</strong> rechazar H 0 para un nº <strong>de</strong> intervalos k, y aceptar para un nº<br />
menor <strong>de</strong> k intervalos.<br />
2.7 Ejemplo:<br />
De un experimento se ha obtenido la siguiente distribución <strong>de</strong> frecuencias:<br />
x < 1 1 a 2 2 a 3 3 a 4 4 a 5 5 a 6 6 a 7 7 a 8 8 a 9 > 9<br />
n 0 5 19 91 202 217 95 16 5 0<br />
i<br />
Ajustar a una distribución normal con un nivel <strong>de</strong> significación <strong>de</strong>l 0.05.<br />
Solución:<br />
25
2<br />
ei1 e i xi ni nx i i nx i i<br />
Utilizando las fórmulas, ya conocidas:<br />
3256<br />
X <br />
650<br />
650<br />
S 1154<br />
649<br />
e e<br />
< 1 0<br />
1 - 2 1.5 5 7.5 11.25<br />
2 - 3 2.5 19 47.5 118.75<br />
3 - 4 3.5 91 318.5 1114.75<br />
4 - 5 4.5 202 909.0 4090.50<br />
5 - 6 5.5 217 1193.5 6564.25<br />
6 - 7 6.5 95 617.5 4013.75<br />
7 - 8 7.5 16 120.0 900.00<br />
8 - 9 8.5 5 42.5 361.25<br />
> 9 0<br />
650 3256.0 17174.5<br />
ii 1<br />
5 2<br />
<strong>Contraste</strong> <strong>de</strong> hipótesis<br />
17174 5<br />
<br />
650<br />
.<br />
<br />
<br />
3256<br />
650<br />
Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />
2<br />
<br />
133 . 1153 .<br />
<br />
. . resulta una distribución estimada: N( 5 , 1. 154)<br />
n i<br />
pi F(ei) F(ei1 ) )<br />
np i<br />
2<br />
n np<br />
i i<br />
< 3 24 0.0415386 27.00 0.333333<br />
3 - 4 91 0.193093-0.0415386=0.1515544 98.51 0.572531<br />
4 - 5 202 0.5-0.1515544=0.306907 199.49 0.031581<br />
5 - 6 217 0.806907-0.5=0.306907 199.50 1.535087<br />
6 - 7 95 0.958461-0.806907=0.151554 98.50 0.124365<br />
> 7 21 1-0.958461=0.041539 27.00 1.333333<br />
650 1 650.00 D=3.930230<br />
Quedan 6 intervalos y hemos calculado 2 parámetros (media y varianza) luego<br />
= k - h - 1 = 6 – 2 – 1= 3 grados <strong>de</strong> libertad.<br />
240<br />
200<br />
160<br />
120<br />
80<br />
40<br />
0<br />
n<br />
Histograma <strong>de</strong> frecuencias<br />
0 2 4 6 8 10<br />
np<br />
i<br />
26
Para = 0,05<br />
<strong>Contraste</strong> <strong>de</strong> hipótesis<br />
P( ) 0.05 7.8147 siendo D = 3.9 menor que<br />
2<br />
3 0.05 0.05<br />
005 . aceptamos la hipótesis <strong>de</strong> ser el ajuste bueno.<br />
EXCEL: = PRUEBA.CHI.INV(0,05;3) 7,8147<br />
O bien, utilizando el p-valor:<br />
DERIVE: 1 - CHI_SQUARE(3.9,3)= 0.2691227489 > 0,05 = a<br />
EXCEL: = DISTR.CHI(3,9;3) 0,26912272 > 0,05 = a<br />
SPSS: 1 - CDF.CHISQ(3.9,3) .27> 0,05=a<br />
2.8 Ejemplo:<br />
Se pue<strong>de</strong> admitir la distribución uniforme <strong>de</strong> valores angulares en una triangulación <strong>de</strong> primer<br />
or<strong>de</strong>n <strong>de</strong> un país en la que se ha tomado una muestra <strong>de</strong> tamaño 100 y se han obtenido los<br />
siguientes resultados:<br />
x < 40 40-50 50-60 60-70 >70<br />
n 16 22 20 19 23<br />
i<br />
Solución:<br />
Según la ley <strong>de</strong> la distribución uniforme, la probabilidad teórica <strong>de</strong> cada clase es igual a la<br />
unidad dividida por el número <strong>de</strong> clase: 1/5=0,2<br />
Para = 0,05<br />
x < 40 40-50 50-60 60-70 >70<br />
n 16 22 20 19 23<br />
i<br />
pi 0,2 0,2 0,2 0,2 0,2<br />
npi 20 20 20 20 20<br />
2<br />
n np<br />
i i<br />
np<br />
i<br />
2<br />
16 20 2<br />
22 20 2<br />
20 20 2<br />
19 20<br />
20<br />
20<br />
Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />
20<br />
(n np )<br />
np<br />
k<br />
2<br />
D i i 1,5<br />
<br />
i1 i<br />
2<br />
4 0.05 0.05<br />
20<br />
2<br />
23 20<br />
P( ) 0.05 9,49 siendo D = 1,5 menor que<br />
005 . aceptamos la hipótesis <strong>de</strong> ser el ajuste bueno. La diferencia entre la distribución<br />
empírica y la ley <strong>de</strong> la distribución uniforme no es significativa.<br />
EXCEL: = PRUEBA.CHI.INV(0,05;4) 9,4877<br />
20<br />
27
O bien, utilizando el p-valor:<br />
<strong>Contraste</strong> <strong>de</strong> hipótesis<br />
DERIVE: 1 - CHI_SQUARE(1.5,4)= 0.8266414672> 0,05 = a<br />
EXCEL: = DISTR.CHI(1,5;4) 0,826641> 0,05 = a<br />
SPSS: 1 - CDF.CHISQ(1.5,4) .83> 0,05=a<br />
Directamente con SPSS creamos la variable v1 y en datos>>pon<strong>de</strong>rar casos<br />
Reconoce la columna <strong>de</strong> frecuencias absolutas.<br />
Escogemos analizar>>pruebas no paramétricas>>chi cuadrado<br />
V1<br />
Observed Expected<br />
N N Residual<br />
35,0 16 20,0 -4,0<br />
45,0 22 20,0 2,0<br />
55,0 20 20,0 ,0<br />
65,0 19 20,0 -1,0<br />
75,0 23 20,0 3,0<br />
Total 100<br />
Chi-<br />
Square(a)<br />
V1<br />
1,500<br />
df 4<br />
Asymp.<br />
Sig.<br />
,827<br />
Test Statistics<br />
Test <strong>de</strong> in<strong>de</strong>pen<strong>de</strong>ncia<br />
Aplicaciones <strong>de</strong> la Prueba chi-cuadrado:<br />
Se trata <strong>de</strong> contrastar si dos variables CUALITATIVAS son in<strong>de</strong>pendientes (es <strong>de</strong>cir, si existe<br />
relación entre ellas), o no.<br />
H0: X e Y son in<strong>de</strong>pendientes<br />
H1: X e Y no son in<strong>de</strong>pendientes<br />
Supongamos que <strong>de</strong> una población se han observado dos características X e Y, obteniéndose<br />
una muestra bidimensional (x ,y ), (x ,y ),…, (x ,y ). Se <strong>de</strong>sea contrastar si X e Y son<br />
1 1 2 2 n n<br />
in<strong>de</strong>pendientes o no.<br />
Para ello, se divi<strong>de</strong> el conjunto <strong>de</strong> los posibles valores <strong>de</strong> X en r clases disjuntas, A1, A2,…, Ar<br />
y los <strong>de</strong> Y en k clases disjuntas, B1, B2 ,…, Bk, obteniendo k r clases con frecuencia n , dando<br />
ij<br />
lugar a una tabla <strong>de</strong> doble entrada (tabla <strong>de</strong> contingencia):<br />
Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />
28
<strong>Contraste</strong> <strong>de</strong> hipótesis<br />
Muestra A1 A2 ……. Ar Total<br />
B1 n11 n12 … n1r n1.<br />
B2 n21 n22 … n2r n2.<br />
… … … … … …<br />
Bk<br />
nk1<br />
nk2 … nkr nk.<br />
Total n.1 n.2 …. n.r n<br />
Buscamos las frecuencias esperadas <strong>de</strong> cada casilla (eij):<br />
n n<br />
pij PAjBiPAjPBi <br />
n n<br />
Sobre una muestra <strong>de</strong> tamaño n, será:<br />
.j i.<br />
n n n n<br />
.j i. i. .j<br />
eij npij n <br />
n n n<br />
Al Igual que para el test <strong>de</strong> Bondad el estadístico <strong>de</strong> contraste<br />
r k<br />
D <br />
2<br />
nn i. .j <br />
nij <br />
2<br />
Oij eij<br />
j1 i1 ij<br />
r k<br />
En nuestro caso: D <br />
<br />
<br />
j1 i1 <br />
2.9 Ejemplo:<br />
n<br />
nn i. .j<br />
n<br />
<br />
con (k-1)(r-1) grados <strong>de</strong> libertad<br />
Hemos preguntado a un grupo <strong>de</strong> 100 hombres y 100 mujeres si fumaban o no. ¿Existen<br />
diferencias significativas entre ambos sexos?<br />
Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />
e<br />
Hombres Mujeres TOTAL:<br />
Fuma 25 35 60<br />
No fuma 75 65 140<br />
TOTAL: 100 100 200<br />
29
Solución:<br />
¿Qué <strong>de</strong>bería salir, si fueran in<strong>de</strong>pendientes?<br />
Fuma<br />
<strong>Contraste</strong> <strong>de</strong> hipótesis<br />
Hombres Mujeres TOTAL:<br />
25 (30) 35(30) 60<br />
No fuma 75(70) 65(70) 140<br />
TOTAL: 100 100 200<br />
H o : X e Y son in<strong>de</strong>pendientes<br />
H 1 : X e Y no son in<strong>de</strong>pendientes<br />
Comparamos frecuencias observadas (O i ) y esperadas (e i )<br />
r k<br />
D <br />
La i<strong>de</strong>a es RECHAZAR la hipótesis, si los valores observados difieren <strong>de</strong>masiado <strong>de</strong> los<br />
observados.<br />
Para ello, utilizamos la prueba <strong>de</strong> la chi-cuadrado con n=1 grado <strong>de</strong> libertad.<br />
El número <strong>de</strong> grados <strong>de</strong> libertad es igual al número <strong>de</strong> frecuencias <strong>de</strong> casillas que se pue<strong>de</strong>n<br />
rellenar libremente conocidos los totales.<br />
En general, será el número <strong>de</strong> columnas menos 1 por el número <strong>de</strong> filas menos 1: (c-1)(f-1).<br />
Utilizando el p-valor:<br />
DERIVE: 1 - CHI_SQUARE(2.38,1)= 0.1228975482<br />
EXCEL: = DISTR.CHI(2,38;1) 0,1228975<br />
2<br />
Oij eij<br />
j1 i1 ij<br />
2 2 2 2<br />
(25 30) (35 30) (75 70) (65 70)<br />
D 2,38<br />
30 30 70 70<br />
p valor P( 2.38) 0,12289758<br />
2<br />
n1 Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />
e<br />
30
SPSS: 1 - CDF.CHISQ(2,38,1) .12<br />
<strong>Contraste</strong> <strong>de</strong> hipótesis<br />
2<br />
Para = 0,05 P( 1 0.05) 0.05 0.05 3.84 siendo D = 2.38 menor que 005 .<br />
aceptamos la hipótesis <strong>de</strong> in<strong>de</strong>pen<strong>de</strong>ncia.<br />
EXCEL: = PRUEBA.CHI.INV(0,05;1) 3.841459<br />
Aplicaciones <strong>de</strong> la Prueba chi-cuadrado:<br />
Prueba <strong>de</strong> Homogeneidad<br />
Consiste en comprobar si varias muestras <strong>de</strong> un carácter cualitativo proce<strong>de</strong>n <strong>de</strong> la misma<br />
población o que las distribuciones <strong>de</strong> la variable observada es la misma en todas las<br />
poblaciones<br />
H0: m poblaciones homogéneas<br />
H1: al menos una población es heterogénea<br />
Supongamos que se dispone <strong>de</strong> m muestras aleatorias simples <strong>de</strong> otras tantas poblaciones<br />
cuyos tamaños son, respectivamente, n , n ,…, n . Se <strong>de</strong>sea contrastar si los datos (todos<br />
1 2 m<br />
juntos) provienen <strong>de</strong> la misma población o, por el contrario, se trata <strong>de</strong> poblaciones<br />
heterogéneas con diferentes distribuciones.<br />
Para ello, se divi<strong>de</strong> el conjunto <strong>de</strong> los posibles valores <strong>de</strong> A en r clases disjuntas y n ,<br />
ij<br />
representa el número <strong>de</strong> observaciones <strong>de</strong> la muestra i que pertenece a la clase A según<br />
j<br />
vemos en una tabla <strong>de</strong> doble entrada (tabla <strong>de</strong> contingencia):<br />
Muestra A1 A2 ……. Ar Total<br />
1 n11 n12 … n1r n1<br />
2 n21 n22 … n2r n2<br />
… … … … … …<br />
m nm1 nm2 … nmr nm<br />
Total n.1 n.2 …. n.r n<br />
La hipótesis <strong>de</strong> que las m poblaciones son homogéneas, se traduce en que cada conjunto Aj<br />
<strong>de</strong>be tener una probabilidad teórica pj, <strong>de</strong>sconocida, pero que no varía <strong>de</strong> la población i a la<br />
población i’<br />
n.j<br />
eij nipjni n<br />
Al Igual que para el test <strong>de</strong> Bondad el estadístico <strong>de</strong> contraste<br />
Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />
31
En nuestro caso:<br />
j1 i1 <br />
<strong>Contraste</strong> <strong>de</strong> hipótesis<br />
r m<br />
D <br />
i .j<br />
2<br />
Oij eij<br />
j1 i1 ij<br />
2<br />
nn i .j <br />
n<br />
r m ij <br />
n<br />
<br />
D <br />
<br />
con (m-1)(r-1) grados <strong>de</strong> libertad<br />
nn<br />
n<br />
2.10 Ejemplo:<br />
Queremos saber si las dos muestras obtenidas proce<strong>de</strong>n <strong>de</strong> la misma población con<br />
probabilidad <strong>de</strong>l 95%.<br />
Solución:<br />
Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />
e<br />
A B C D<br />
1ª muestra 56 60 62 59<br />
2ª muestra 44 40 38 41<br />
H : p = p11 = p12 = p13 = p14<br />
o<br />
H : pij distinto <strong>de</strong> p para algún grupo<br />
1<br />
Se calculan las frecuencias esperadas<br />
n.j 237<br />
e1j n1pjn1 100 59,25 5<br />
n 400<br />
Que coinci<strong>de</strong>n para los cuatro grupos por ser el mismo tamaño muestral n1 = 100<br />
n.j 163<br />
e2j n1pjn2 100 40,75 5<br />
n 400<br />
Calculamos el valor <strong>de</strong>l estadístico<br />
32
2<br />
<strong>Contraste</strong> <strong>de</strong> hipótesis<br />
nn i .j <br />
r m nij <br />
2 2 2<br />
n<br />
56 59,25 6059,25 62 59,25<br />
D <br />
<br />
<br />
<br />
nn j1 i1 i .j 59,25 59,25 59,25<br />
n<br />
59 59,25 4440,75 40 40,75 3840,75 4140,75 2 2 2 2 2<br />
<br />
59,25<br />
<br />
40,75<br />
<br />
40,75<br />
<br />
40,75<br />
<br />
40,75<br />
<br />
0,7765784<br />
Ajustamos a una distribución <strong>de</strong> Pearson con 3 grados <strong>de</strong> libertad<br />
En general, será el número <strong>de</strong> columnas menos 1 por el número <strong>de</strong> filas menos 1: (c-1)(f-1).<br />
2 n3 <br />
p valor P 0,7765784 0,85506<br />
Utilizando el p-valor:<br />
DERIVE: 1 - CHI_SQUARE(0.7765784,3)= 0.8550605738<br />
EXCEL: = DISTR.CHI(0.7765784;3) 0,8555061<br />
SPSS: 1 - CDF.CHISQ(0.7765784,3) .86<br />
P( ) 0.05 7.81472776 siendo D = 0,7765784 menor<br />
Para = 0,05<br />
2<br />
1 0.05 0.05<br />
que 005 . aceptamos la hipótesis y las muestras proce<strong>de</strong>n <strong>de</strong> la misma población.<br />
EXCEL: = PRUEBA.CHI.INV(0,05;3) 7.81472776<br />
Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />
33