22.04.2013 Views

Contraste de Hipótesis - E.T.S.I.T.G.C.

Contraste de Hipótesis - E.T.S.I.T.G.C.

Contraste de Hipótesis - E.T.S.I.T.G.C.

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

2. CONTRASTE DE HIPÓTESIS<br />

<strong>Contraste</strong> <strong>de</strong> hipótesis<br />

2.1. Introducción<br />

2.2. <strong>Contraste</strong> <strong>de</strong> una hipótesis estadística<br />

2.3. Test unilateral y bilateral<br />

2.4. Test relacionados con una sola media (varianza conocida)<br />

2.5. Relación con la estimación <strong>de</strong>l intervalo <strong>de</strong> confianza<br />

2.6. Test sobre una sola media (varianza <strong>de</strong>sconocida)<br />

2.7. Test sobre dos medias<br />

2.7.1. Varianzas conocidas<br />

2.7.2. Varianzas <strong>de</strong>sconocidas<br />

2.8. Pruebas relacionadas con varianzas<br />

2.9. Test <strong>de</strong> Bondad <strong>de</strong> ajuste. Aplicaciones<br />

Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />

1


2.1. INTRODUCCIÓN<br />

<strong>Contraste</strong> <strong>de</strong> hipótesis<br />

2. CONTRASTE DE HIPOTESIS<br />

No siempre los problemas a los que se enfrenta el científico o el ingeniero, se<br />

refieren sólo a la estimación <strong>de</strong> un parámetro <strong>de</strong> la población, sino por el contrario,<br />

la formulación <strong>de</strong> un procedimiento <strong>de</strong> <strong>de</strong>cisión basado en datos, que pue<strong>de</strong><br />

producir una conclusión acerca <strong>de</strong> algún sistema científico. Se postula o conjetura<br />

algo acerca <strong>de</strong> un sistema. La conjetura se pue<strong>de</strong> exponer como una hipótesis<br />

estadística. Los procedimientos que conducen a la aceptación o rechazo <strong>de</strong><br />

hipótesis estadísticas, compren<strong>de</strong>n un área muy importante <strong>de</strong> la inferencia<br />

estadística.<br />

Una hipótesis estadística es una afirmación o conjetura acerca <strong>de</strong> una o<br />

más poblaciones. Es importante remarcar que las hipótesis son proposiciones sobre<br />

la población en estudio, nunca sobre la muestra.<br />

Contrastar una hipótesis estadísticamente es tomar una <strong>de</strong>cisión sobre si<br />

cierta propiedad <strong>de</strong> una población es compatible con lo observado en una muestra<br />

<strong>de</strong> dicha población.<br />

La técnica <strong>de</strong>l contraste <strong>de</strong> hipótesis constituye una parte <strong>de</strong> la Inferencia<br />

Estadística que consiste en utilizar la información muestral para examinar la vali<strong>de</strong>z<br />

<strong>de</strong> afirmaciones realizadas sobre una característica poblacional.<br />

Nunca se sabe con absoluta certeza la verdad o falsedad <strong>de</strong> una hipótesis<br />

estadística, a no ser que se examine la población entera. Como esto no es práctico,<br />

se elige una muestra aleatoria <strong>de</strong> la población que se estudia, y se utilizan los datos<br />

que contiene dicha muestra para proporcionar evi<strong>de</strong>ncias que confirmen o no la<br />

hipótesis.<br />

La evi<strong>de</strong>ncia <strong>de</strong> la muestra que es inconsistente con la hipótesis planteada,<br />

lleva al rechazo <strong>de</strong> la misma; mientras que la evi<strong>de</strong>ncia que apoya a la hipótesis,<br />

conduce a su aceptación.<br />

Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />

2


<strong>Contraste</strong> <strong>de</strong> hipótesis<br />

Des<strong>de</strong> luego el diseño <strong>de</strong> un procedimiento <strong>de</strong> <strong>de</strong>cisión, <strong>de</strong>be llevarse a cabo<br />

con la i<strong>de</strong>a <strong>de</strong> probabilidad <strong>de</strong> una conclusión equivocada. Es <strong>de</strong>cir, la<br />

aceptación <strong>de</strong> una hipótesis implica tan sólo que los datos <strong>de</strong> la muestra no<br />

proporcionan evi<strong>de</strong>ncia suficiente para rechazarla. El rechazo <strong>de</strong> la hipótesis implica<br />

que la evi<strong>de</strong>ncia <strong>de</strong> la muestra la refuta.<br />

Existen dos tipos <strong>de</strong> contrastes:<br />

<strong>Contraste</strong>s paramétricos si la hipótesis concierne a parámetros<br />

poblacionales tales como la media o la varianza.<br />

<strong>Contraste</strong>s no paramétricos son los que afectan a cualida<strong>de</strong>s <strong>de</strong> la<br />

distribución, tales como la bondad o <strong>de</strong> ajuste, homogeneidad <strong>de</strong> poblaciones,<br />

in<strong>de</strong>pen<strong>de</strong>ncia.<br />

2.2. CONTRASTE DE UNA HIPÓTESIS ESTADÍSTICA<br />

La estructura <strong>de</strong> la prueba <strong>de</strong> hipótesis (test <strong>de</strong> hipótesis) se formulará<br />

utilizando el término hipótesis nula.<br />

Llamamos hipótesis nula, H 0 , a la hipótesis que vamos a contrastar, H 0<br />

representa la hipótesis que mantendremos mientras los datos no nos indiquen su<br />

falsedad.<br />

El rechazo <strong>de</strong> Ho da como resultado la aceptación <strong>de</strong> una hipótesis<br />

alternativa, que se representa por H1.<br />

rechaza.<br />

Llamamos hipótesis alternativa, H 1, a la hipótesis que se aceptará si H 0 se<br />

Una hipótesis nula referente a un parámetro <strong>de</strong> la población, siempre será<br />

establecida en forma tal que especifique un valor exacto <strong>de</strong>l parámetro; la hipótesis<br />

alternativa admite la posibilidad <strong>de</strong> varios valores.<br />

Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />

3


<strong>Contraste</strong> <strong>de</strong> hipótesis<br />

Las fases en un contraste <strong>de</strong> hipótesis son:<br />

1) Definir la hipótesis a contrastar que llamaremos H 0 .<br />

2) Definir una medida <strong>de</strong> discrepancia D que mida la diferencia entre los valores<br />

observados y los esperados (<strong>de</strong> acuerdo con H 0 ).<br />

3) Calcular D. Si la discrepancia D es muy gran<strong>de</strong>, rechazaremos H 0 ; en caso<br />

contrario, aceptamos H 0 .<br />

Por tanto para realizar un contraste necesitamos una medida <strong>de</strong> discrepancia,<br />

y una ley para juzgar cuando las discrepancias son <strong>de</strong>masiado gran<strong>de</strong>s.<br />

Al probar cualquier hipótesis estadística, se presentan cuatro posibles<br />

situaciones que <strong>de</strong>terminan si la <strong>de</strong>cisión es correcta o equivocada:<br />

La hipótesis nula, es verda<strong>de</strong>ra o falsa y se acepta o se rechaza. No se<br />

comete error alguno si es verda<strong>de</strong>ra y se acepta, o si es falsa y se rechaza. Sin<br />

embargo, se cometerá error si es verda<strong>de</strong>ra y se rechaza o si es falsa y se acepta.<br />

REALIDAD<br />

Decimos que se comete un error <strong>de</strong> tipo I cuando H 0 es verda<strong>de</strong>ra pero se<br />

rechaza, se comete un error <strong>de</strong> tipo II cuando H 0 es falsa pero se acepta.<br />

Para <strong>de</strong>finir qué valores <strong>de</strong> las discrepancias son gran<strong>de</strong>s fijamos un valor <br />

que <strong>de</strong>nominaremos nivel <strong>de</strong> significación. El valor es la probabilidad <strong>de</strong> cometer<br />

un error <strong>de</strong> tipo I, y <strong>de</strong>termina un valor d c <strong>de</strong> forma que: P<br />

DECISIÓN<br />

Se Acepta Se Rechaza<br />

H 0 Es Verda<strong>de</strong>ra Decisión correcta Error <strong>de</strong> tipo I<br />

H 0 Es Falsa Error <strong>de</strong> tipo II Decisión correcta<br />

( D dc) <br />

Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />

4


<strong>Contraste</strong> <strong>de</strong> hipótesis<br />

P(error tipo I)=P(rechazar H 0 / H 0 es cierta)<br />

La probabilidad <strong>de</strong> cometer error tipo II, representado por , es imposible<br />

calcularla a no ser que tenga una hipótesis alternativa específica:<br />

P(error tipo II)=P(aceptar H 0 / H 0 es falsa)<br />

Al conjunto <strong>de</strong> reglas que lleva a aceptar o no una cierta hipótesis, es lo que<br />

se llama "un test o contraste <strong>de</strong> hipótesis".<br />

La potencia <strong>de</strong>l contraste es la probabilidad <strong>de</strong> rechazar H 0 , dada una<br />

alternativa específica verda<strong>de</strong>ra:<br />

1 Potencia=P(rechazar H 0 / H 0 es falsa)<br />

Un test muy potente es altamente capaz <strong>de</strong> <strong>de</strong>tectar la falsedad <strong>de</strong> los datos.<br />

Uno poco potente no <strong>de</strong>tecta la falsedad <strong>de</strong> los datos.<br />

En general, a todo número que, obtenido a partir <strong>de</strong> las observaciones <strong>de</strong> una<br />

muestra, sirve para <strong>de</strong>cidirse por H0 ó H 1,<br />

se llama estadístico <strong>de</strong> contraste.<br />

Pero para realizar un test <strong>de</strong> hipótesis, el investigador no sólo <strong>de</strong>be fijar H 0 y<br />

H 1,<br />

y el estadístico <strong>de</strong> contraste, sino que también habrá <strong>de</strong> <strong>de</strong>cidir <strong>de</strong> antemano el<br />

valor <strong>de</strong>l error que está dispuesto a aceptar.<br />

La figura siguiente muestra gráficamente este método. Si la discrepancia<br />

observada D cae <strong>de</strong>ntro <strong>de</strong> la región <strong>de</strong> rechazo (probabilidad <strong>de</strong> rechazar y ser<br />

verda<strong>de</strong>ra), rechazamos la hipótesis H0, en caso contrario la aceptaremos.<br />

Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />

5


<strong>Contraste</strong> <strong>de</strong> hipótesis<br />

Definimos la región <strong>de</strong> rechazo o región crítica por D dces el conjunto <strong>de</strong><br />

valores <strong>de</strong>l estadístico <strong>de</strong><br />

contraste que lleva a la<br />

<strong>de</strong>cisión <strong>de</strong> rechazar la<br />

hipótesis nula H0 y la región <strong>de</strong><br />

aceptación <strong>de</strong> H0 será D dc <strong>de</strong> .<br />

Consi<strong>de</strong>raciones acerca<br />

1) Aceptar o rechazar la<br />

hipótesis H 0 pue<strong>de</strong> <strong>de</strong>pen<strong>de</strong>r<br />

<strong>de</strong>l valor , siendo posible rechazar H 0 con = 0.05 y aceptar H 0 con = 0.04<br />

2) Dar sólo el resultado <strong>de</strong>l test no indica el grado <strong>de</strong> discrepancia. Se acostumbra a<br />

utilizar niveles <strong>de</strong> significación <strong>de</strong>l 0.05 ó 0.01.<br />

Si, por ejemplo se elige un nivel <strong>de</strong> significación <strong>de</strong>l 0.05 entonces hay<br />

aproximadamente 5 ocasiones <strong>de</strong> cada 100 en que se rechazaría la hipótesis<br />

cuando <strong>de</strong>be ser aceptada.<br />

El nivel <strong>de</strong> significación () se fija a priori in<strong>de</strong>pendientemente <strong>de</strong>l estadístico.<br />

Un procedimiento para resolver estas consi<strong>de</strong>raciones es utilizar el nivel<br />

crítico p <strong>de</strong> un test, en vez <strong>de</strong>l nivel <strong>de</strong> significación ().<br />

Se <strong>de</strong>fine el nivel crítico o p valor como el mínimo nivel <strong>de</strong> significación para<br />

el que, con los datos <strong>de</strong> una muestra concreta, se tendría que rechazar H 0 .<br />

pP(D D n)<br />

.<br />

Es <strong>de</strong>cir, la probabilidad <strong>de</strong> obtener una discrepancia mayor o igual que la<br />

observada en la muestra. De esta forma, el valor <strong>de</strong> p no se fija a priori, sino que se<br />

<strong>de</strong>termina en función <strong>de</strong> la muestra.<br />

Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />

<br />

<<br />

> Aceptación d Rechazo<br />

c<br />

6


<strong>Contraste</strong> <strong>de</strong> hipótesis<br />

Como se evi<strong>de</strong>ncia en la figura siguiente, cuanto menor sea el valor crítico,<br />

menor es la probabilidad <strong>de</strong> existir discrepancia como la observada, y menor es la<br />

certidumbre <strong>de</strong> H0.<br />

Esto es; cuanto más cercano a cero sea su valor con mayor confianza se rechazará<br />

H0. Puesto que, pP(D D n)<br />

y Dn un valor fijo, si p es gran<strong>de</strong> Dn es un valor<br />

pequeño, por tanto, para un valor fijo <strong>de</strong> < p será Dn < dc y aceptamos la hipótesis<br />

H0,<br />

aceptar H 0 .<br />

En general, cuanto más próximo a 1 sea p con mayor evi<strong>de</strong>ncia se habrá <strong>de</strong><br />

A título orientativo,<br />

Si p>0.25 no existe suficiente evi<strong>de</strong>ncia para rechazar H0.<br />

Si 0.01


<strong>Contraste</strong> <strong>de</strong> hipótesis<br />

Al error <strong>de</strong> la primera RC que rechaza H0, se le llama nivel crítico ó nivel<br />

mínimo <strong>de</strong> significación.<br />

Los valores fuera <strong>de</strong> la región <strong>de</strong> rechazo son los valores <strong>de</strong> la región <strong>de</strong><br />

aceptación R(H0). Estas regiones <strong>de</strong> aceptación coinci<strong>de</strong>n con los intervalos <strong>de</strong><br />

confianza para los parámetros sobre los que se plantea el contraste con los niveles<br />

<strong>de</strong> confianza <strong>de</strong> 1- complemento <strong>de</strong> los <strong>de</strong> significación .<br />

2.3. TEST UNILATERAL Y BILATERAL<br />

Un test <strong>de</strong> cualquier hipótesis estadística, don<strong>de</strong> la alternativa es unilateral,<br />

tal como: H o : o<br />

H 1 : o<br />

ó bien<br />

H : <br />

H: <br />

0 0<br />

1 0<br />

recibe el nombre <strong>de</strong> test <strong>de</strong> una cola, ya que<br />

la región crítica cae en la cola <strong>de</strong>recha <strong>de</strong> la distribución <strong>de</strong>l estadístico <strong>de</strong> prueba, o<br />

en la cola izquierda, respectivamente.<br />

Un test <strong>de</strong> cualquier hipótesis estadística don<strong>de</strong> la alternativa es bilateral, tal<br />

como: Ho : o recibe el nombre <strong>de</strong> test <strong>de</strong> dos colas, ya que la región crítica se<br />

H1 : o divi<strong>de</strong> en dos partes, generalmente con iguales probabilida<strong>de</strong>s en cada cola <strong>de</strong> la<br />

distribución <strong>de</strong>l estadístico <strong>de</strong> prueba.<br />

Para probar hipótesis en las cuales el estadístico <strong>de</strong> prueba es discreto,<br />

pue<strong>de</strong> escogerse la región crítica arbitrariamente y luego <strong>de</strong>terminar su tamaño. Si<br />

es <strong>de</strong>masiado gran<strong>de</strong>, pue<strong>de</strong> reducirse haciendo un ajuste en el valor crítico.<br />

Un valor p es el nivel más bajo (<strong>de</strong> significación) en el cuál el valor observado<br />

<strong>de</strong>l estadístico <strong>de</strong> prueba es significativo.<br />

Los procedimientos para el test <strong>de</strong> hipótesis, pue<strong>de</strong>n resumirse, supuesto que<br />

la hipótesis es H o : o :<br />

1. Establecer la hipótesis nula H o <strong>de</strong> que o .<br />

Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />

8


<strong>Contraste</strong> <strong>de</strong> hipótesis<br />

2. Seleccionar una hipótesis alternativa apropiada H 1 <strong>de</strong> una <strong>de</strong> las alternativas<br />

o , o ó o .<br />

3. Elegir un nivel <strong>de</strong> significación y el tamaño <strong>de</strong> la muestra n.<br />

4. Seleccionar el estadístico <strong>de</strong> prueba apropiado, y establecer la región crítica<br />

(si la <strong>de</strong>cisión se va a basar en un valor p, no es necesario establecer la<br />

región crítica).<br />

5. Calcular el valor <strong>de</strong>l estadístico <strong>de</strong> prueba <strong>de</strong> los datos muestrales.<br />

6. Decidir: rechazar H o si el estadístico <strong>de</strong> prueba tiene un valor en la región<br />

crítica (o si el valor calculado <strong>de</strong> p es menor o igual que el nivel <strong>de</strong><br />

significación <strong>de</strong>seado ); <strong>de</strong> otra forma, no rechazar H o .<br />

2.4. TEST RELACIONADOS CON UNA SÓLA MEDIA (VARIANZA CONOCIDA):<br />

Presentamos los test <strong>de</strong> hipótesis acerca <strong>de</strong> una sóla media <strong>de</strong> población. Se<br />

<strong>de</strong>ben, en primer lugar, <strong>de</strong>scribir las suposiciones sobre las cuales se basa el<br />

experimento. El mo<strong>de</strong>lo para la situación fundamental se centra alre<strong>de</strong>dor <strong>de</strong> un<br />

experimento X 1 , X 2 ,...,X n que representa una muestra aleatoria <strong>de</strong> una distribución<br />

con media y varianza 2 . Considérese primero la hipótesis:<br />

H o: o<br />

H 1 : o<br />

El estadístico <strong>de</strong> prueba apropiado <strong>de</strong>berá basarse en la variable aleatoria X<br />

.Ya sabemos, según el Teorema Central <strong>de</strong>l Límite, que, al margen <strong>de</strong> la distribución<br />

<strong>de</strong> X, la v.a. tiene una distribución aproximadamente Normal con media y<br />

<strong>de</strong>sviación típica <br />

X<br />

. Pue<strong>de</strong>, entonces, <strong>de</strong>terminarse una región crítica con base en<br />

n<br />

el promedio muestral calculado, X<br />

. Hasta este momento, habrá una región crítica <strong>de</strong><br />

dos colas para la prueba.<br />

Conviene normalizar la v.a. X: Z <br />

X <br />

n .<br />

Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />

9


<strong>Contraste</strong> <strong>de</strong> hipótesis<br />

Se sabe que bajo H o ; es <strong>de</strong>cir, si o , entonces X o<br />

n<br />

Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />

tiene una<br />

distribución N (0,1), y <strong>de</strong> aquí que la expresión p z <br />

2 X o n z <br />

<br />

<br />

1 pue<strong>de</strong><br />

<br />

2<br />

utilizarse para escribir una región crítica apropiada. Formalmente, la región crítica se<br />

crea para controlar , la probabilidad <strong>de</strong> error tipo I.<br />

Se necesita una señal <strong>de</strong> evi<strong>de</strong>ncia <strong>de</strong> dos colas para respaldar H 1 . Así, dado<br />

un valor calculado X , la prueba formal implica rechazar H si el estadístico <strong>de</strong><br />

0<br />

prueba calculado:<br />

X <br />

Z z<br />

/ n<br />

<br />

2<br />

ó z z 2 . Si z 2 z z 2 no se rechaza H o .<br />

El rechazo <strong>de</strong> implica la aceptación <strong>de</strong> la hipótesis alternativa o .<br />

H o<br />

Con esta <strong>de</strong>finición <strong>de</strong> la región crítica, existirá la probabilidad <strong>de</strong> rechazar<br />

H o (al caer en la región crítica) cuando, en realidad o .<br />

O bien, calculando el p-valor=2P(Z>z) y comparándolo con :<br />

p> se acepta la hipótesis nula, y por lo tanto o<br />

p< se rechaza la hipótesis nula, y por lo tanto o<br />

10


Estos son los valores críticos más usados:<br />

<strong>Contraste</strong> <strong>de</strong> hipótesis<br />

Grado <strong>de</strong> confianza Valor crítico z/2<br />

90% 0,10 1,645<br />

95% 0,05 1,96<br />

99% 0,01 2,575<br />

Las pruebas <strong>de</strong> hipótesis unilaterales acerca <strong>de</strong> la media, compren<strong>de</strong>n el<br />

mismo estadístico que el <strong>de</strong>scrito para el caso bilateral. Aquí la región crítica es <strong>de</strong><br />

una sóla cola <strong>de</strong> la distribución normal.<br />

Para H1 : o , el rechazo (región crítica) resulta cuando z z. Para H1 : o , la región crítica está dada por z z. 2.1 Ejemplo:<br />

Se supone que un topógrafo realiza como mínimo 42 mediciones diarias. Ante<br />

la duda se hace una comprobación observando las mediciones durante 10 días<br />

seleccionados al azar, observándose una media <strong>de</strong> 40. Suponiendo normalidad con<br />

varianza 16 en la distribución <strong>de</strong> las mediciones diarias con un nivel <strong>de</strong> significación<br />

<strong>de</strong> 0,05 la suposición inicial. Realizar el contraste para la media.<br />

Solución:<br />

Estamos ante un caso <strong>de</strong> contraste unilateral para la media <strong>de</strong> una población normal<br />

con varianza conocida.<br />

H 0 : 0 42 H: 42 1 0<br />

X 0<br />

Sabemos que: Z N(0,1)<br />

/ n<br />

El valor <strong>de</strong>l estadístico Z bajo la hipótesis nula es:<br />

X 0<br />

40 42<br />

Z -1.581138830<br />

/ n 4/ 10<br />

Para =0,05 en la N(0,1) tenemos que:<br />

<br />

<br />

P Z z P Z z 0,05 z 1,64<br />

0,05 0,05<br />

Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />

11


<strong>Contraste</strong> <strong>de</strong> hipótesis<br />

Como el valor <strong>de</strong> nuestro estadístico Z bajo la hipótesis nula cae <strong>de</strong>ntro <strong>de</strong> la región<br />

<strong>de</strong> aceptación (-1,64


<strong>Contraste</strong> <strong>de</strong> hipótesis<br />

Los intervalos <strong>de</strong> confianza tienen la ventaja frente a los contrastes <strong>de</strong><br />

hipótesis <strong>de</strong> que siempre nos dan una i<strong>de</strong>a <strong>de</strong> la zona en la que se va a encontrar el<br />

verda<strong>de</strong>ro valor <strong>de</strong>l parámetro poblacional, mientras que en el caso <strong>de</strong> los test,<br />

cuando se rechaza una hipótesis nula, no se conoce el valor <strong>de</strong>l parámetro en<br />

cuestión. Todo lo que se sabe es que es más verosímil que el valor <strong>de</strong>l parámetro<br />

sea mayor o menor que un valor concreto.<br />

2.6. TEST SOBRE UNA SÓLA MEDIA (VARIANZA DESCONOCIDA):<br />

La aplicación <strong>de</strong> la t <strong>de</strong> Stu<strong>de</strong>nt tanto en intervalos <strong>de</strong> confianza como en test<br />

<strong>de</strong> hipótesis, se <strong>de</strong>sarrolla bajo las siguientes suposiciones: las v.a. X 1 ,...,X n<br />

representan una muestra aleatoria <strong>de</strong> una distribución con y 2 <strong>de</strong>sconocidos.<br />

Entonces la v.a.<br />

X <br />

s n tiene una distribución t <strong>de</strong> Stu<strong>de</strong>nt con n-1 grados <strong>de</strong> libertad.<br />

La estructura <strong>de</strong> la prueba es idéntica que para el caso <strong>de</strong> conocida, con la<br />

salvedad <strong>de</strong> que el valor <strong>de</strong> <br />

en el estadístico <strong>de</strong> prueba se reemplaza por la<br />

estimación calculada s, y la distribución normal se reemplaza por una distribución t.<br />

Es <strong>de</strong>cir, para la hipótesis bilateral:<br />

H o: o<br />

H 1 : o<br />

el rechazo <strong>de</strong> H o , con un nivel <strong>de</strong> significación , resulta cuando<br />

una estadística t calculada: t x o s n exce<strong>de</strong> a ,n 1<br />

t ó es menor que t ,n1 2<br />

2<br />

O bien, calculando el p-valor=2P(tn-1>t) y comparándolo con :<br />

p> se acepta la hipótesis nula, y por lo tanto o<br />

p< se rechaza la hipótesis nula, y por lo tanto o<br />

Para H1 : o , el rechazo resulta cuando t t,n1. Para H1: o, la región crítica está dada por t t,n1. Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />

.<br />

13


<strong>Contraste</strong> <strong>de</strong> hipótesis<br />

Se conserva la equivalencia <strong>de</strong> la prueba t <strong>de</strong> Stu<strong>de</strong>nt <strong>de</strong> doble cola para una<br />

sola media, y el cálculo <strong>de</strong> un intervalo <strong>de</strong> confianza para , reemplazando por s.<br />

Para muestras pequeñas (n


Datos:<br />

<strong>Contraste</strong> <strong>de</strong> hipótesis<br />

S S <br />

I xt /2,n1 ,xt/2,n1 n n <br />

2<br />

n 5; x 998 ; S 19,6; 10.95; t0,025;4 2,776<br />

4.43 4.43 <br />

I0.25 998 2.776 ,998 2.776 <br />

992.48,1003.51<br />

5 5 <br />

Obviamente se cumple que la media 1000 992.48,1003.51 2.7. TEST SOBRE DOS MEDIAS<br />

2.7.1. Varianzas conocidas<br />

<br />

Los test referidos a dos medias representan un conjunto <strong>de</strong> herramientas<br />

analíticas muy importantes para científicos e ingenieros.<br />

Dos muestras aleatorias in<strong>de</strong>pendientes <strong>de</strong> tamaños n 1 y n 2 ,<br />

respectivamente, se obtienen <strong>de</strong> dos poblaciones con medias y varianzas<br />

respectivas 1 , 2 y 1 2 ,2 2 . Se sabe que la v.a. Z X 1 X 2<br />

distribución N(0,1).<br />

12 2 2<br />

1 n1 2 n2<br />

Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />

<br />

1 2<br />

Si 1 2 , el estadístico anterior se reduce a: Z X 1 X 2<br />

1 n1 1 n2 tiene una<br />

<br />

Estos dos estadísticos sirven como base para el <strong>de</strong>sarrollo <strong>de</strong> los<br />

procedimientos <strong>de</strong> prueba sobre dos medias.<br />

La hipótesis nula sobre dos medias pue<strong>de</strong> escribirse: H o : 1 2 d o .<br />

La alternativa pue<strong>de</strong> ser unilateral o bilateral. De nuevo, la distribución<br />

utilizada es la distribución <strong>de</strong>l estadístico <strong>de</strong> prueba H o . Se calculan los valores<br />

x 1 y x 2 , y para 1 y 2 , el estadístico <strong>de</strong> prueba es:<br />

.<br />

15


<strong>Contraste</strong> <strong>de</strong> hipótesis<br />

z <br />

<br />

x x d<br />

1 2 0<br />

n <br />

n<br />

2 2<br />

1 1 2 2<br />

con una región crítica <strong>de</strong> dos colas en el caso <strong>de</strong> una alternativa <strong>de</strong> dos lados. Es <strong>de</strong>cir, el<br />

rechazo <strong>de</strong> H o en favor <strong>de</strong> H 1 : 1 2 d o si z z 2 ó z z 2 . Las regiones críticas <strong>de</strong><br />

una cola se utilizan en el caso <strong>de</strong> las alternativas unilaterales.<br />

2.3 Ejemplo<br />

90 teodolitos son llevados a reparar a dos talleres distintos. 50 <strong>de</strong> ellos al taller A<br />

don<strong>de</strong> los repararon en un tiempo medio <strong>de</strong> 150 días con una <strong>de</strong>sviación típica <strong>de</strong> 30 días. Los<br />

40 restantes al taller B, siendo reparados en un tiempo medio <strong>de</strong> 160 días con una <strong>de</strong>sviación<br />

típica <strong>de</strong> 25 días. Suponiendo que las varianzas son conocidas, ¿se pue<strong>de</strong> consi<strong>de</strong>rar que el<br />

taller A es más a<strong>de</strong>cuado que el B para conseguir una reparación más rápida?<br />

Solución:<br />

Queremos comparar las medias <strong>de</strong> dos poblaciones normales <strong>de</strong> varianzas conocidas.<br />

El estadístico <strong>de</strong> prueba es:<br />

x x<br />

<br />

<br />

n n<br />

A B<br />

2 2<br />

A B<br />

A B<br />

H : <br />

H: <br />

z<br />

0 A B<br />

1 A B<br />

<br />

sustituyendo los valores<br />

Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />

150 160<br />

1.72<br />

y<br />

2 2<br />

30 25<br />

<br />

50 40<br />

para a -1,72)<br />

=1-DISTR.NORM.ESTAND(-1,72) 0,95728378 > α<br />

Se acepta la hipótesis nula para cualquier valor <strong>de</strong> α


2.7.2. Varianzas <strong>de</strong>sconocidas<br />

<strong>Contraste</strong> <strong>de</strong> hipótesis<br />

Lo más frecuente es que se <strong>de</strong>sconozcan las varianzas.<br />

Si el científico está dispuesto a asumir que ambas distribuciones son normales, y que<br />

1 2 , pue<strong>de</strong> utilizarse la prueba t combinada (prueba t <strong>de</strong> dos muestras). El estadístico<br />

<strong>de</strong> prueba es:<br />

t <br />

x1x2do sp 1 n1 1 n2 s 2 2 n2 1<br />

2<br />

2 s1 n1 1<br />

, siendo s p <br />

n1 n2 2<br />

<br />

Se incluye la distribución t y la hipótesis bilateral no se rechaza cuando:<br />

t 2 ,n 1 n 2 2 t t 2 ,n 1 n 2 2<br />

Las alternativas unilaterales sugieren regiones críticas unilaterales.<br />

2.4 Ejemplo:<br />

Se utilizan dos teodolitos para hacer ciertas <strong>de</strong>terminaciones, pretendiendo averiguar si<br />

la media <strong>de</strong> los errores cometidos con uno y otro es idéntica para un nivel <strong>de</strong> significación <strong>de</strong>l<br />

5%. Se hacen 20 <strong>de</strong>terminaciones con el teodolito A y se obtiene una media 0,4 errores y una<br />

<strong>de</strong>sviación típica <strong>de</strong> 0,2 y otras 20 <strong>de</strong>terminaciones con el B obteniendo una media <strong>de</strong> 0,5 y<br />

una <strong>de</strong>sviación <strong>de</strong> 0,3. Suponemos que las variables error son normales y con la misma<br />

varianza. Comparar los dos teodolitos.<br />

Solución:<br />

Queremos comparar las medias <strong>de</strong> dos poblaciones normales <strong>de</strong> varianzas <strong>de</strong>sconocidas pero<br />

iguales y muestras pequeñas.<br />

El estadístico <strong>de</strong> prueba es:<br />

H : <br />

H: <br />

0 A B<br />

1 A B<br />

xAxB 1 1<br />

S <br />

n n<br />

A B<br />

t<br />

<br />

,nAnB2 2<br />

siendo<br />

Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />

17


A B<br />

<strong>Contraste</strong> <strong>de</strong> hipótesis<br />

2 2 2 2<br />

2 (n A 1)S A (nB 1)SB 190.2 190.3 S 0.065<br />

con lo cual<br />

(n 1) (n 1) 19 19<br />

xAxB 0.40.5 1.24<br />

y para a=0.05, t0.025,38=2<br />

1 1 1 1<br />

S 0.065 <br />

n n 20 20<br />

A B<br />

DERIVE:<br />

#1: NSOLVE(STUDENT(x, 38) = 0.975, x, Real)<br />

#2: x = 2.024394161<br />

EXCEL:<br />

=DISTR.T.INV(0,05;38) 2,02439415<br />

SPSS:<br />

IDF.T(0.975,38) 2.02<br />

Como 1.24 < 2 admitimos la hipótesis <strong>de</strong> igualdad <strong>de</strong> medias.<br />

Calculamos el p-valor = 2P(T>1,24)<br />

=DISTR.T(1,24;38;2) 0,22257815 > α<br />

2.8. PRUEBAS RELACIONADAS CON VARIANZAS<br />

Contemplamos primero el problema <strong>de</strong> probar la hipótesis nula H o <strong>de</strong> que la varianza<br />

poblacional 2 2<br />

es igual a un valor especificado o en contraposición a las alternativas<br />

usuales 2 o 2 , 2 o 2 ó 2 o 2 . El estadístico apropiado sobre el que se basa la <strong>de</strong>cisión<br />

es el estadístico ji-cuadrado utilizado para <strong>de</strong>terminar un intervalo <strong>de</strong> confianza para 2 . Por<br />

tanto, si suponemos que la distribución <strong>de</strong> la población que está siendo muestreada es normal,<br />

el valor ji-cuadrado para probar 2 2<br />

o está dado por:<br />

2 n1s2 2 o don<strong>de</strong> n es el tamaño <strong>de</strong> la muestra, s 2 2 2<br />

es la varianza muestral y o es el valor <strong>de</strong> dado<br />

por la hipótesis nula. Si H o es verda<strong>de</strong>ra, 2 es un valor <strong>de</strong> la distribución ji-cuadrado con n -<br />

1 grados <strong>de</strong> libertad. De aquí que, para una prueba <strong>de</strong> dos colas con un nivel <strong>de</strong> significación<br />

2<br />

, la región crítica es y<br />

1 <br />

/2<br />

.<br />

2<br />

/2<br />

<br />

2 2<br />

O bien, calculando el p-valor = 2 mín P n1,P n1 y comparándolo con a:<br />

Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />

18


<strong>Contraste</strong> <strong>de</strong> hipótesis<br />

p>a se acepta la hipótesis nula, y por lo tanto 2 o 2<br />

p


<strong>Contraste</strong> <strong>de</strong> hipótesis<br />

siendo 13,5 menor que 14,57 RECHAZAMOS la hipótesis nula <strong>de</strong> que la varianza <strong>de</strong>l grosor<br />

<strong>de</strong> los filamentos es 4 milímetros.<br />

EXCEL: = PRUEBA.CHI.INV(0,025;27) 43,19<br />

EXCEL: = PRUEBA.CHI.INV(0,975;27) 14,75<br />

SPSS: IDF.CHISQ(0.975,27) 43,19<br />

SPSS: IDF.CHISQ(0.025,27)<br />

Calculamos el p-valor<br />

14,75<br />

=2*(1-DISTR.CHI(13,5;27) 0,02865106 < 0,05 = α<br />

Al rechazar la hipótesis nula, aceptamos la hipótesis alternativa <strong>de</strong> que la varianza no es<br />

4; pero po<strong>de</strong>mos plantearnos si es menor que 4 o mayor que 4.<br />

Solución:<br />

Ahora se trata <strong>de</strong> realizar un contraste unilateral para la varianza poblacional con media<br />

<strong>de</strong>sconocida suponiendo normalidad.<br />

Sabemos que:<br />

(n 1)S<br />

<br />

2<br />

0<br />

2<br />

<br />

2<br />

n1 El valor crítico para a=0,05 y n=28<br />

Para = 0,05<br />

H : 4<br />

H: 4<br />

2 2<br />

0 0<br />

2 2<br />

1 0<br />

2<br />

(n 1)S272 13,5<br />

2<br />

0 4<br />

1 ,n1 0.95,27<br />

P( ) 0.95 16.25<br />

2<br />

27 0.95 0.95<br />

siendo 13,5 menor que 16,25 ACEPTAMOS la hipótesis nula <strong>de</strong> que la varianza <strong>de</strong>l grosor<br />

<strong>de</strong> los filamentos es menor <strong>de</strong> 4 milímetros.<br />

EXCEL: = PRUEBA.CHI.INV(0,95;27) 16,25<br />

SPSS: IDF.CHISQ(0.95,27) 16,25<br />

Calculamos el p-valor<br />

=DISTR.CHI(13,5;27)<br />

0,9856745 < 0,05 = α<br />

Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />

20


<strong>Contraste</strong> <strong>de</strong> hipótesis<br />

HOMOCEDASTICIDAD<br />

Considérese ahora el problema <strong>de</strong> probar la igualdad <strong>de</strong> varianzas 1 2 y 2 2 , <strong>de</strong> dos<br />

poblaciones. Esto es, <strong>de</strong>be probarse la hipótesis nula H o <strong>de</strong> que 1 2 2 2 en contraposición<br />

a una <strong>de</strong> las alternativas usuales 1 2 2 2 , 1 2 2 2 ó 1 2 2 2 .<br />

Para muestras aleatorias in<strong>de</strong>pendientes <strong>de</strong> tamaños respectivos n 1 y n 2 , <strong>de</strong> las dos<br />

poblaciones, el valor f para probar 1 2 2 2 es la razón f s 1 2<br />

Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />

s 2 2 don<strong>de</strong> s 1 2 y s 2 2 son las<br />

varianzas calculadas a partir <strong>de</strong> las dos muestras. Si las dos poblaciones tienen distribuciones<br />

aproximadamente normales, y la hipótesis nula es verda<strong>de</strong>ra, <strong>de</strong> acuerdo en resultados<br />

obtenidos, la relación f es un valor <strong>de</strong> la distribución F <strong>de</strong> Sne<strong>de</strong>cor con n1-1 y n2-1 grados<br />

<strong>de</strong> libertad. Por tanto, las regiones críticas, con nivel <strong>de</strong> significación correspondientes a<br />

las alternativas unilaterales 1 2 2 2 y 1 2 2 2 son respectivamente,<br />

.<br />

f F,n11,n21 f F .<br />

Para la alternativa bilateral 1 2 2 2 , la región crítica es<br />

,n11,n21 2<br />

f F1 ,n11,n21 y<br />

f F y<br />

1 ,n11,n21 2<br />

2.6 Ejemplo:<br />

Se preten<strong>de</strong> comparar dos métodos <strong>de</strong> eliminación <strong>de</strong> observaciones. Se seleccionan<br />

una muestra <strong>de</strong> 50 series con observaciones aberrantes y a 25 <strong>de</strong> ellas se le aplica el método A<br />

y a las otras 25 el B. Los resultados obtenidos son los siguientes:<br />

Método A : xA 4,3; SA 1,4<br />

Método B : xB 3,6; SB 1,1<br />

Suponiendo la variable normal, contrastar la hipótesis <strong>de</strong> igualdad <strong>de</strong> medias a un nivel <strong>de</strong><br />

significación a=0,05.<br />

Solución:<br />

Debemos en primer lugar contrastar la hipótesis <strong>de</strong> igualdad <strong>de</strong> varianzas<br />

21


2 2<br />

A<br />

2 2<br />

B<br />

<strong>Contraste</strong> <strong>de</strong> hipótesis<br />

S<br />

S<br />

H : <br />

H: <br />

2 2<br />

0 A B<br />

2 2<br />

1 A B<br />

<br />

<br />

<br />

2<br />

A F 2 ,F<br />

1 ,nA1,nB1 ,nA1,nB1 B 2 2<br />

S 1.4<br />

1.62 F ,F 0.44,2.27<br />

S 1.1<br />

0.975,24,24 0.025,24,24 <br />

DERIVE:<br />

#1: NSOLVE(F_DISTRIBUTION(x, 24, 24) = 0.975, x, 0, 1)<br />

#2: x = 0.4405911279<br />

#3: NSOLVE(F_DISTRIBUTION(x, 24, 24) = 0.025, x, 0, 5)<br />

#4: x = 2.269129557<br />

EXCEL:<br />

=DISTR.F.INV(0,975;24;24) 0,44066972<br />

=DISTR.F.INV(0,025;24;24)<br />

SPSS:<br />

2,26927455<br />

IDF.F(0.975,24,24) .44<br />

IDF.F(0.025,24,24) 2.27<br />

0,44 < 1,62 < 2,27 y por tanto aceptamos la hipótesis <strong>de</strong> varianzas iguales.<br />

Contrastamos ahora la igualdad <strong>de</strong> medias <strong>de</strong> dos poblaciones normales <strong>de</strong> varianzas<br />

<strong>de</strong>sconocidas pero iguales y muestras pequeñas.<br />

El estadístico <strong>de</strong> prueba es:<br />

A B<br />

H : <br />

H: <br />

0 A B<br />

1 A B<br />

xAxB 1 1<br />

S <br />

n n<br />

A B<br />

t<br />

<br />

,nAnB2 2<br />

siendo<br />

2 2 2 2<br />

2 (n A 1)S A (nB 1)SB 241.4 241.1 S 1.585<br />

con lo cual<br />

(n 1) (n 1) 2424 xAxB 4.3 3.6<br />

1.966<br />

y para a=0.05, t0.025,48=2<br />

1 1 1 1<br />

S 1.585 <br />

n n 25 25<br />

A B<br />

DERIVE:<br />

#1: NSOLVE(STUDENT(x, 48) = 0.975, x, Real)<br />

Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />

22


#2: x = 2.010634765<br />

EXCEL:<br />

<strong>Contraste</strong> <strong>de</strong> hipótesis<br />

=DISTR.T.INV(0,05;48)<br />

SPSS:<br />

2,01063472<br />

IDF.T(0.975,48) 2.01<br />

Como 1.93 < 2 admitimos la hipótesis <strong>de</strong> igualdad <strong>de</strong> medias.<br />

Calculamos el p-valor<br />

=DISTR.T(1,966;48;2) 0,05509702 > α<br />

2.9. TEST DE BONDAD DE AJUSTE.<br />

Hasta ahora, hemos estudiado aspectos o planteamientos, <strong>de</strong> un problema que, <strong>de</strong><br />

forma general, trata <strong>de</strong> tomar <strong>de</strong>cisiones sobre alguna característica <strong>de</strong> la población, a partir<br />

<strong>de</strong>l estudio <strong>de</strong> una muestra <strong>de</strong> dicha población.<br />

El problema que vamos a tratar es el <strong>de</strong> la conformidad <strong>de</strong> una distribución<br />

experimental y una distribución teórica; esto es, sustituir la distribución experimental<br />

(distribución <strong>de</strong> la muestra <strong>de</strong> la población), el histograma, o la distribución <strong>de</strong> frecuencias,<br />

por una distribución teórica conocida.<br />

Se trata ahora <strong>de</strong> ajustar una distribución experimental a una distribución teórica; es<br />

<strong>de</strong>cir, ver si <strong>de</strong> los resultados obtenidos en una muestra <strong>de</strong> una población, po<strong>de</strong>mos suponer<br />

que la población sigue una <strong>de</strong>terminada distribución.<br />

Según sea el histograma o la tabla <strong>de</strong> frecuencias <strong>de</strong> la muestra, hacemos una<br />

hipótesis sobre la distribución <strong>de</strong> la población, que estudiaremos en un test <strong>de</strong> ajuste que<br />

mi<strong>de</strong> la bondad <strong>de</strong> ajuste.<br />

Sea n el tamaño <strong>de</strong> la muestra y agrupamos en k clases, y sea ni la frecuencia absoluta<br />

observada <strong>de</strong> la clase i. A partir <strong>de</strong> la muestra estimamos los parámetros <strong>de</strong> la población<br />

teórica, y una vez obtenidos éstos, calculamos la probabilidad pi que le correspon<strong>de</strong> a cada<br />

intervalo i. Las correspondientes frecuencias absolutas teóricas (esperadas) serán npi.<br />

Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />

23


Sean:<br />

n = tamaño <strong>de</strong> la muestra<br />

k = número <strong>de</strong> clases<br />

ni = frecuencia absoluta <strong>de</strong> la clase i<br />

<strong>Contraste</strong> <strong>de</strong> hipótesis<br />

pi = probabilidad <strong>de</strong> cada clase según la distribución teórica<br />

npi = frecuencia absoluta <strong>de</strong> cada clase según la distribución teórica<br />

h = número <strong>de</strong> parámetros estimados a partir <strong>de</strong> la muestra<br />

= número <strong>de</strong> grados <strong>de</strong> libertad<br />

Las frecuencias observadas en la distribución <strong>de</strong> una muestra, se emplean para poner a<br />

prueba, la hipótesis <strong>de</strong> que la población <strong>de</strong> la cual se ha obtenido la muestra, no difiere en<br />

distribución, <strong>de</strong> la <strong>de</strong> alguna distribución conocida.<br />

Si la hipótesis fuese cierta, las discrepancias entre las frecuencias absolutas<br />

observadas ni y las frecuencias absolutas esperadas npi, no <strong>de</strong>ben ser gran<strong>de</strong>s.<br />

Supuesta conocida la distribución <strong>de</strong> Y. La hipótesis H 0 tiene la forma: la población X<br />

<strong>de</strong> la cual se obtuvo la muestra tiene la misma distribución que la población Y, formulamos la<br />

hipótesis alternativa H 1 las poblaciones X e Y no tienen la misma distribución.<br />

Una medida <strong>de</strong> las discrepancias en este sentido, fue estudiada por Pearson<br />

k<br />

2<br />

( ni<br />

npi<br />

)<br />

construyendo el siguiente estadístico: D , y <strong>de</strong>mostró que, para<br />

1<br />

np<br />

2<br />

n 30 y npi<br />

5<br />

D kh1<br />

i i<br />

, esto es, la variable D sigue una distribución ji-cuadrado con<br />

= k - h - 1 grados <strong>de</strong> libertad.<br />

Para aplicar correctamente el test, las frecuencias teóricas <strong>de</strong> las diferentes clases<br />

<strong>de</strong>ben ser mayor o igual que cinco, por lo que en caso <strong>de</strong> que no lleguen, se agrupan<br />

previamente.<br />

La prueba <strong>de</strong> bondad ji-cuadrado es una herramienta muy importante, <strong>de</strong>bido sobre<br />

todo a que muchos procedimientos estadísticos en la práctica <strong>de</strong>pen<strong>de</strong>n, en un sentido teórico,<br />

Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />

24


<strong>Contraste</strong> <strong>de</strong> hipótesis<br />

<strong>de</strong> la suposición <strong>de</strong> que los datos recogidos surgen <strong>de</strong> un tipo <strong>de</strong> distribución específica. La<br />

suposición <strong>de</strong> normalidad se hace con bastante frecuencia.<br />

Fijado un nivel <strong>de</strong> significación , buscamos un valor tal que <br />

Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />

2<br />

P <br />

Si D aceptamos la hipótesis H 0 <strong>de</strong> conformidad con el ajuste, siendo las<br />

diferencias i i<br />

n np <strong>de</strong>bidas al azar.<br />

Si D rechazamos la hipótesis H0 , las diferencias i i<br />

por tanto, las distribuciones son distintas.<br />

Observaciones acerca <strong>de</strong> D.<br />

n np son significativas y<br />

1º El valor D es más gran<strong>de</strong> a medida que la distribución experimental se separa más <strong>de</strong> la<br />

teórica.<br />

2º El número <strong>de</strong> intervalos se pue<strong>de</strong>n fijar libremente siempre y cuando se verifique npi 5 .<br />

3º En general, D crece si crece el nº <strong>de</strong> intervalos, aunque la distribución teórica se ajuste<br />

bien. Pue<strong>de</strong> darse el caso <strong>de</strong> rechazar H 0 para un nº <strong>de</strong> intervalos k, y aceptar para un nº<br />

menor <strong>de</strong> k intervalos.<br />

2.7 Ejemplo:<br />

De un experimento se ha obtenido la siguiente distribución <strong>de</strong> frecuencias:<br />

x < 1 1 a 2 2 a 3 3 a 4 4 a 5 5 a 6 6 a 7 7 a 8 8 a 9 > 9<br />

n 0 5 19 91 202 217 95 16 5 0<br />

i<br />

Ajustar a una distribución normal con un nivel <strong>de</strong> significación <strong>de</strong>l 0.05.<br />

Solución:<br />

25


2<br />

ei1 e i xi ni nx i i nx i i<br />

Utilizando las fórmulas, ya conocidas:<br />

3256<br />

X <br />

650<br />

650<br />

S 1154<br />

649<br />

e e<br />

< 1 0<br />

1 - 2 1.5 5 7.5 11.25<br />

2 - 3 2.5 19 47.5 118.75<br />

3 - 4 3.5 91 318.5 1114.75<br />

4 - 5 4.5 202 909.0 4090.50<br />

5 - 6 5.5 217 1193.5 6564.25<br />

6 - 7 6.5 95 617.5 4013.75<br />

7 - 8 7.5 16 120.0 900.00<br />

8 - 9 8.5 5 42.5 361.25<br />

> 9 0<br />

650 3256.0 17174.5<br />

ii 1<br />

5 2<br />

<strong>Contraste</strong> <strong>de</strong> hipótesis<br />

17174 5<br />

<br />

650<br />

.<br />

<br />

<br />

3256<br />

650<br />

Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />

2<br />

<br />

133 . 1153 .<br />

<br />

. . resulta una distribución estimada: N( 5 , 1. 154)<br />

n i<br />

pi F(ei) F(ei1 ) )<br />

np i<br />

2<br />

n np<br />

i i<br />

< 3 24 0.0415386 27.00 0.333333<br />

3 - 4 91 0.193093-0.0415386=0.1515544 98.51 0.572531<br />

4 - 5 202 0.5-0.1515544=0.306907 199.49 0.031581<br />

5 - 6 217 0.806907-0.5=0.306907 199.50 1.535087<br />

6 - 7 95 0.958461-0.806907=0.151554 98.50 0.124365<br />

> 7 21 1-0.958461=0.041539 27.00 1.333333<br />

650 1 650.00 D=3.930230<br />

Quedan 6 intervalos y hemos calculado 2 parámetros (media y varianza) luego<br />

= k - h - 1 = 6 – 2 – 1= 3 grados <strong>de</strong> libertad.<br />

240<br />

200<br />

160<br />

120<br />

80<br />

40<br />

0<br />

n<br />

Histograma <strong>de</strong> frecuencias<br />

0 2 4 6 8 10<br />

np<br />

i<br />

26


Para = 0,05<br />

<strong>Contraste</strong> <strong>de</strong> hipótesis<br />

P( ) 0.05 7.8147 siendo D = 3.9 menor que<br />

2<br />

3 0.05 0.05<br />

005 . aceptamos la hipótesis <strong>de</strong> ser el ajuste bueno.<br />

EXCEL: = PRUEBA.CHI.INV(0,05;3) 7,8147<br />

O bien, utilizando el p-valor:<br />

DERIVE: 1 - CHI_SQUARE(3.9,3)= 0.2691227489 > 0,05 = a<br />

EXCEL: = DISTR.CHI(3,9;3) 0,26912272 > 0,05 = a<br />

SPSS: 1 - CDF.CHISQ(3.9,3) .27> 0,05=a<br />

2.8 Ejemplo:<br />

Se pue<strong>de</strong> admitir la distribución uniforme <strong>de</strong> valores angulares en una triangulación <strong>de</strong> primer<br />

or<strong>de</strong>n <strong>de</strong> un país en la que se ha tomado una muestra <strong>de</strong> tamaño 100 y se han obtenido los<br />

siguientes resultados:<br />

x < 40 40-50 50-60 60-70 >70<br />

n 16 22 20 19 23<br />

i<br />

Solución:<br />

Según la ley <strong>de</strong> la distribución uniforme, la probabilidad teórica <strong>de</strong> cada clase es igual a la<br />

unidad dividida por el número <strong>de</strong> clase: 1/5=0,2<br />

Para = 0,05<br />

x < 40 40-50 50-60 60-70 >70<br />

n 16 22 20 19 23<br />

i<br />

pi 0,2 0,2 0,2 0,2 0,2<br />

npi 20 20 20 20 20<br />

2<br />

n np<br />

i i<br />

np<br />

i<br />

2<br />

16 20 2<br />

22 20 2<br />

20 20 2<br />

19 20<br />

20<br />

20<br />

Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />

20<br />

(n np )<br />

np<br />

k<br />

2<br />

D i i 1,5<br />

<br />

i1 i<br />

2<br />

4 0.05 0.05<br />

20<br />

2<br />

23 20<br />

P( ) 0.05 9,49 siendo D = 1,5 menor que<br />

005 . aceptamos la hipótesis <strong>de</strong> ser el ajuste bueno. La diferencia entre la distribución<br />

empírica y la ley <strong>de</strong> la distribución uniforme no es significativa.<br />

EXCEL: = PRUEBA.CHI.INV(0,05;4) 9,4877<br />

20<br />

27


O bien, utilizando el p-valor:<br />

<strong>Contraste</strong> <strong>de</strong> hipótesis<br />

DERIVE: 1 - CHI_SQUARE(1.5,4)= 0.8266414672> 0,05 = a<br />

EXCEL: = DISTR.CHI(1,5;4) 0,826641> 0,05 = a<br />

SPSS: 1 - CDF.CHISQ(1.5,4) .83> 0,05=a<br />

Directamente con SPSS creamos la variable v1 y en datos>>pon<strong>de</strong>rar casos<br />

Reconoce la columna <strong>de</strong> frecuencias absolutas.<br />

Escogemos analizar>>pruebas no paramétricas>>chi cuadrado<br />

V1<br />

Observed Expected<br />

N N Residual<br />

35,0 16 20,0 -4,0<br />

45,0 22 20,0 2,0<br />

55,0 20 20,0 ,0<br />

65,0 19 20,0 -1,0<br />

75,0 23 20,0 3,0<br />

Total 100<br />

Chi-<br />

Square(a)<br />

V1<br />

1,500<br />

df 4<br />

Asymp.<br />

Sig.<br />

,827<br />

Test Statistics<br />

Test <strong>de</strong> in<strong>de</strong>pen<strong>de</strong>ncia<br />

Aplicaciones <strong>de</strong> la Prueba chi-cuadrado:<br />

Se trata <strong>de</strong> contrastar si dos variables CUALITATIVAS son in<strong>de</strong>pendientes (es <strong>de</strong>cir, si existe<br />

relación entre ellas), o no.<br />

H0: X e Y son in<strong>de</strong>pendientes<br />

H1: X e Y no son in<strong>de</strong>pendientes<br />

Supongamos que <strong>de</strong> una población se han observado dos características X e Y, obteniéndose<br />

una muestra bidimensional (x ,y ), (x ,y ),…, (x ,y ). Se <strong>de</strong>sea contrastar si X e Y son<br />

1 1 2 2 n n<br />

in<strong>de</strong>pendientes o no.<br />

Para ello, se divi<strong>de</strong> el conjunto <strong>de</strong> los posibles valores <strong>de</strong> X en r clases disjuntas, A1, A2,…, Ar<br />

y los <strong>de</strong> Y en k clases disjuntas, B1, B2 ,…, Bk, obteniendo k r clases con frecuencia n , dando<br />

ij<br />

lugar a una tabla <strong>de</strong> doble entrada (tabla <strong>de</strong> contingencia):<br />

Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />

28


<strong>Contraste</strong> <strong>de</strong> hipótesis<br />

Muestra A1 A2 ……. Ar Total<br />

B1 n11 n12 … n1r n1.<br />

B2 n21 n22 … n2r n2.<br />

… … … … … …<br />

Bk<br />

nk1<br />

nk2 … nkr nk.<br />

Total n.1 n.2 …. n.r n<br />

Buscamos las frecuencias esperadas <strong>de</strong> cada casilla (eij):<br />

n n<br />

pij PAjBiPAjPBi <br />

n n<br />

Sobre una muestra <strong>de</strong> tamaño n, será:<br />

.j i.<br />

n n n n<br />

.j i. i. .j<br />

eij npij n <br />

n n n<br />

Al Igual que para el test <strong>de</strong> Bondad el estadístico <strong>de</strong> contraste<br />

r k<br />

D <br />

2<br />

nn i. .j <br />

nij <br />

2<br />

Oij eij<br />

j1 i1 ij<br />

r k<br />

En nuestro caso: D <br />

<br />

<br />

j1 i1 <br />

2.9 Ejemplo:<br />

n<br />

nn i. .j<br />

n<br />

<br />

con (k-1)(r-1) grados <strong>de</strong> libertad<br />

Hemos preguntado a un grupo <strong>de</strong> 100 hombres y 100 mujeres si fumaban o no. ¿Existen<br />

diferencias significativas entre ambos sexos?<br />

Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />

e<br />

Hombres Mujeres TOTAL:<br />

Fuma 25 35 60<br />

No fuma 75 65 140<br />

TOTAL: 100 100 200<br />

29


Solución:<br />

¿Qué <strong>de</strong>bería salir, si fueran in<strong>de</strong>pendientes?<br />

Fuma<br />

<strong>Contraste</strong> <strong>de</strong> hipótesis<br />

Hombres Mujeres TOTAL:<br />

25 (30) 35(30) 60<br />

No fuma 75(70) 65(70) 140<br />

TOTAL: 100 100 200<br />

H o : X e Y son in<strong>de</strong>pendientes<br />

H 1 : X e Y no son in<strong>de</strong>pendientes<br />

Comparamos frecuencias observadas (O i ) y esperadas (e i )<br />

r k<br />

D <br />

La i<strong>de</strong>a es RECHAZAR la hipótesis, si los valores observados difieren <strong>de</strong>masiado <strong>de</strong> los<br />

observados.<br />

Para ello, utilizamos la prueba <strong>de</strong> la chi-cuadrado con n=1 grado <strong>de</strong> libertad.<br />

El número <strong>de</strong> grados <strong>de</strong> libertad es igual al número <strong>de</strong> frecuencias <strong>de</strong> casillas que se pue<strong>de</strong>n<br />

rellenar libremente conocidos los totales.<br />

En general, será el número <strong>de</strong> columnas menos 1 por el número <strong>de</strong> filas menos 1: (c-1)(f-1).<br />

Utilizando el p-valor:<br />

DERIVE: 1 - CHI_SQUARE(2.38,1)= 0.1228975482<br />

EXCEL: = DISTR.CHI(2,38;1) 0,1228975<br />

2<br />

Oij eij<br />

j1 i1 ij<br />

2 2 2 2<br />

(25 30) (35 30) (75 70) (65 70)<br />

D 2,38<br />

30 30 70 70<br />

p valor P( 2.38) 0,12289758<br />

2<br />

n1 Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />

e<br />

30


SPSS: 1 - CDF.CHISQ(2,38,1) .12<br />

<strong>Contraste</strong> <strong>de</strong> hipótesis<br />

2<br />

Para = 0,05 P( 1 0.05) 0.05 0.05 3.84 siendo D = 2.38 menor que 005 .<br />

aceptamos la hipótesis <strong>de</strong> in<strong>de</strong>pen<strong>de</strong>ncia.<br />

EXCEL: = PRUEBA.CHI.INV(0,05;1) 3.841459<br />

Aplicaciones <strong>de</strong> la Prueba chi-cuadrado:<br />

Prueba <strong>de</strong> Homogeneidad<br />

Consiste en comprobar si varias muestras <strong>de</strong> un carácter cualitativo proce<strong>de</strong>n <strong>de</strong> la misma<br />

población o que las distribuciones <strong>de</strong> la variable observada es la misma en todas las<br />

poblaciones<br />

H0: m poblaciones homogéneas<br />

H1: al menos una población es heterogénea<br />

Supongamos que se dispone <strong>de</strong> m muestras aleatorias simples <strong>de</strong> otras tantas poblaciones<br />

cuyos tamaños son, respectivamente, n , n ,…, n . Se <strong>de</strong>sea contrastar si los datos (todos<br />

1 2 m<br />

juntos) provienen <strong>de</strong> la misma población o, por el contrario, se trata <strong>de</strong> poblaciones<br />

heterogéneas con diferentes distribuciones.<br />

Para ello, se divi<strong>de</strong> el conjunto <strong>de</strong> los posibles valores <strong>de</strong> A en r clases disjuntas y n ,<br />

ij<br />

representa el número <strong>de</strong> observaciones <strong>de</strong> la muestra i que pertenece a la clase A según<br />

j<br />

vemos en una tabla <strong>de</strong> doble entrada (tabla <strong>de</strong> contingencia):<br />

Muestra A1 A2 ……. Ar Total<br />

1 n11 n12 … n1r n1<br />

2 n21 n22 … n2r n2<br />

… … … … … …<br />

m nm1 nm2 … nmr nm<br />

Total n.1 n.2 …. n.r n<br />

La hipótesis <strong>de</strong> que las m poblaciones son homogéneas, se traduce en que cada conjunto Aj<br />

<strong>de</strong>be tener una probabilidad teórica pj, <strong>de</strong>sconocida, pero que no varía <strong>de</strong> la población i a la<br />

población i’<br />

n.j<br />

eij nipjni n<br />

Al Igual que para el test <strong>de</strong> Bondad el estadístico <strong>de</strong> contraste<br />

Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />

31


En nuestro caso:<br />

j1 i1 <br />

<strong>Contraste</strong> <strong>de</strong> hipótesis<br />

r m<br />

D <br />

i .j<br />

2<br />

Oij eij<br />

j1 i1 ij<br />

2<br />

nn i .j <br />

n<br />

r m ij <br />

n<br />

<br />

D <br />

<br />

con (m-1)(r-1) grados <strong>de</strong> libertad<br />

nn<br />

n<br />

2.10 Ejemplo:<br />

Queremos saber si las dos muestras obtenidas proce<strong>de</strong>n <strong>de</strong> la misma población con<br />

probabilidad <strong>de</strong>l 95%.<br />

Solución:<br />

Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />

e<br />

A B C D<br />

1ª muestra 56 60 62 59<br />

2ª muestra 44 40 38 41<br />

H : p = p11 = p12 = p13 = p14<br />

o<br />

H : pij distinto <strong>de</strong> p para algún grupo<br />

1<br />

Se calculan las frecuencias esperadas<br />

n.j 237<br />

e1j n1pjn1 100 59,25 5<br />

n 400<br />

Que coinci<strong>de</strong>n para los cuatro grupos por ser el mismo tamaño muestral n1 = 100<br />

n.j 163<br />

e2j n1pjn2 100 40,75 5<br />

n 400<br />

Calculamos el valor <strong>de</strong>l estadístico<br />

32


2<br />

<strong>Contraste</strong> <strong>de</strong> hipótesis<br />

nn i .j <br />

r m nij <br />

2 2 2<br />

n<br />

56 59,25 6059,25 62 59,25<br />

D <br />

<br />

<br />

<br />

nn j1 i1 i .j 59,25 59,25 59,25<br />

n<br />

59 59,25 4440,75 40 40,75 3840,75 4140,75 2 2 2 2 2<br />

<br />

59,25<br />

<br />

40,75<br />

<br />

40,75<br />

<br />

40,75<br />

<br />

40,75<br />

<br />

0,7765784<br />

Ajustamos a una distribución <strong>de</strong> Pearson con 3 grados <strong>de</strong> libertad<br />

En general, será el número <strong>de</strong> columnas menos 1 por el número <strong>de</strong> filas menos 1: (c-1)(f-1).<br />

2 n3 <br />

p valor P 0,7765784 0,85506<br />

Utilizando el p-valor:<br />

DERIVE: 1 - CHI_SQUARE(0.7765784,3)= 0.8550605738<br />

EXCEL: = DISTR.CHI(0.7765784;3) 0,8555061<br />

SPSS: 1 - CDF.CHISQ(0.7765784,3) .86<br />

P( ) 0.05 7.81472776 siendo D = 0,7765784 menor<br />

Para = 0,05<br />

2<br />

1 0.05 0.05<br />

que 005 . aceptamos la hipótesis y las muestras proce<strong>de</strong>n <strong>de</strong> la misma población.<br />

EXCEL: = PRUEBA.CHI.INV(0,05;3) 7.81472776<br />

Unidad Docente <strong>de</strong> Matemáticas <strong>de</strong> la E.T.S.I.T.G.C. <strong>de</strong> la U.P.M.<br />

33

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!