19.03.2015 Views

Tema 8

Tema 8

Tema 8

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

ASIGNATURA: ESTADÍSTICA II (Grado ADE,MIM,FBS)<br />

TEMA 4:<br />

CONTRASTES DE HIPÓTESIS. CONCEPTOS BÁSICOS<br />

4.1. Hipótesis estadística. Tipos de hipótesis<br />

4.2. Región crítica y región de aceptación<br />

4.3. Errores tipo I y tipo II. Función de potencia<br />

4.4. Concepto de p-valor: cálculo e interpretación<br />

4.5. Etapas en la realización de un contraste<br />

1


OBJETIVOS:<br />

Al finalizar este tema, el alumno será capaz de:<br />

formular la hipótesis nula y la hipótesis alternativa<br />

identificar hipótesis simples e hipótesis compuestas<br />

obtener el valor crítico de un contraste para un nivel de significación dado<br />

calcular e interpretar el p-valor<br />

2


4.1. HIPÓTESIS ESTADÍSTICA. TIPOS DE HIPÓTESIS<br />

Hipótesis estadística: afirmación sobre la distribución que genera los<br />

datos o sobre alguna característica concreta de dicha distribución.<br />

En inferencia paramétrica: Modelo paramétrico: X→ F(x;θ) ⇒ las hipótesis<br />

son afirmaciones sobre un(os) parámetro(s) desconocido(s), θ, del modelo<br />

Ejemplo 1: el partido A no obtendrá mayoría absoluta en las elecciones del 20N<br />

X=<br />

⎧<br />

⎪<br />

⎨<br />

⎪⎩<br />

1<br />

0<br />

si gana A<br />

si no gana<br />

p<br />

A 1− p<br />

Ejemplo 2: una moneda es perfecta<br />

X=<br />

⎧<br />

⎪<br />

⎨<br />

⎪<br />

⎩<br />

1<br />

0<br />

si sale cara p<br />

si sale cruz 1− p<br />

→ b(p) ⇒ hipótesis: p≤0.5<br />

→ b(p) ⇒ hipótesis: p=0.5<br />

Ejemplo 3: hay discriminación salarial entre hombres y mujeres<br />

X 1 =log(salario hombres) → N(µ 1 ,σ 1 )<br />

X 2 =log(salario mujeres) → N(µ 2 ,σ 2 )<br />

hipótesis: µ 1 ≠µ 2<br />

3


En inferencia no paramétrica (<strong>Tema</strong> 6): no se supone a priori un<br />

modelo paramétrico, sino que se contrastan hipótesis más generales.<br />

Ejemplo 3: hay discriminación salarial entre hombres y mujeres<br />

X 1 =salario hombres → F 1 (x)<br />

X 2 =salario mujeres → F 2 (x)<br />

Hipótesis: F 1 ≠F 2<br />

Hipótesis simple: asigna valores puntuales concretos a todos los<br />

parámetros del modelo ⇒ la distribución queda totalmente especificada<br />

Ejemplo 2:<br />

X→b(p) ⇒ hipótesis: p=0.5<br />

Hipótesis compuesta: asigna un rango de valores a los parámetros<br />

Ejemplo 1:<br />

X→b(p) ⇒ hipótesis: p≤0.5<br />

Ejemplo 3: X 1 =log(salario hombres) → N(µ 1 ,σ 1 )<br />

X 2 =log(salario mujeres) → N(µ 2 ,σ 2 )<br />

hipótesis: µ 1 ≠µ 2<br />

Ejemplo 4:<br />

X→N(µ,σ) ⇒ hipótesis: µ=2 (realmente es: µ=2, σ>0 ¡compuesta!)<br />

4


Hipótesis nula H 0 : hipótesis que se somete a prueba y se matendrá como<br />

cierta a menos que los datos muestren suficiente evidencia en su contra.<br />

(En general, H 0 corresponde al modelo más sencillo: incluye el =)<br />

Hipótesis alternativa H 1 : posibles alternativas a la hipótesis nula<br />

Ejemplo 2:<br />

H 0 : p=0.5 H 0 : p=0.5 H 0 : p=0.5<br />

H 1 : p>0.5 H 1 : p


4.2. REGIÓN CRÍTICA Y REGIÓN DE ACEPTACIÓN<br />

Una vez definidas las hipótesis, realizar el contraste consiste en :<br />

Decidir si la hipótesis nula está sustentada por la evidencia empírica<br />

que proporcionan los datos de una muestra aleatoria (X 1 ,...,X n ).<br />

Analizar el grado de discrepancia entre los datos<br />

(observados) y la hipótesis nula (postulada)<br />

La decisión se basa en un estadístico de contraste =T(X 1 ,...,X n ).<br />

Ejemplo 5: dos monedas, una perfecta (p=0.5) y otra con p=p(cara)>0.5<br />

H 0 : p=0.5<br />

H 1 : p>0.5<br />

Estadístico de contraste: pˆ =X 0.75<br />

Rechazo si X ≥0.75<br />

6


Región crítica=C={valores muestrales que conllevan rechazar H 0 }<br />

⇒ Valor crítico= valor a partir del cual se rechaza H 0<br />

Ejemplo 4: (continuación) Rechazo H 0 si la proporción de caras en la muestra es<br />

mayor que 0.75, ¿por qué? Porque observar una proporción de caras superior al<br />

75% sería harto improbable si H 0 fuera cierta (moneda perfecta) ⇒ los datos no<br />

sustentan H 0 , por eso rechazo H 0<br />

Región aceptación=A=̅={valores muestrales que conllevan no rechazar H 0 }<br />

Ejemplo 4: (continuación) Muestra concreta: n=30, x =0.3 < 0.75 ⇒ No rechazo H 0<br />

OBSERVACIÓN:<br />

No rechazar H 0 no implica que H 0 sea cierta, sino que no hay evidencia<br />

suficiente en los datos muestrales para rechazarla.<br />

Rechazar H 0 no significa que H 0 sea falsa, sino que resulta muy difícil<br />

creer que se haya podido observar algo tan improbable bajo H 0 .<br />

7


4.3. ERRORES TIPO I Y TIPO II. FUNCIÓN DE POTENCIA<br />

¿Qué consecuencias puede conllevar la regla de decisión establecida?<br />

¿Cuál es el “coste” de equivocarse tomando una decisión errónea?<br />

Estado de la naturaleza<br />

Decisión H 0 es cierta H 0 es falsa<br />

“Aceptar” H 0 correcto Error tipo II<br />

Rechazar H 0 Error tipo I correcto<br />

α(θ) = p(Error tipo I) = p(rechazar H 0 /H 0 cierta) = ()<br />

β(θ) = p(Error tipo II) = p(“Aceptar” H 0 /H 0 falsa) = (̅)<br />

Función de potencia=p(Rechazar H 0 )=p θ (C)= (ERROR I) ∈ <br />

1 − (ERROR II) ∈ <br />

8


Objetivo<br />

minimizar p(Error tipo I) minimizar p(Error tipo II)<br />

Para una muestra de tamaño n dada, ¡ IMPOSIBLE !<br />

Metodología “clásica” de Neyman-Pearson:<br />

Fijar el tamaño máximo tolerable de la p(Error tipo I), que llamaremos<br />

nivel de significación α.<br />

Valores habituales: α={0.01, 0.05, 0.1}<br />

Elegir, entre todos las regiones críticas de nivel α, la que minimice la<br />

p(Error tipo II): Test uniformemente más potente<br />

9


Ejemplo 6: (X 1 ,...,X 16 ) m.a.s. de una distribución N(µ,5)<br />

H 0 : µ=10<br />

H 1 : µ=15<br />

Estadístico de contraste µˆ =X<br />

Región crítica en la dirección de la alternativa ⇒ C= { X ≥ λ α }<br />

Valor crítico: ¿Determinar λ α para un nivel de significación dado? Tomemos α=0.1<br />

0.1 = p (C) = p ( )<br />

H µ = 10 X≥λα<br />

= = p ⎛ X − 10 λ −<br />

⎟ ⎞<br />

α 10<br />

µ = 10<br />

⎜<br />

≥<br />

0<br />

5/ 16 5/ 16 ⎠<br />

= ⎛ X −10<br />

⎟ ⎞<br />

p µ = 0<br />

⎜ ≥ zα<br />

⎝ 1.25 ⎠<br />

⎝<br />

1 ⇒ Tablas: z α =1.28<br />

Bajo H 0 :µ=10 ⇒ X→ N(10, 5/ 16 ) ⇒<br />

X −10<br />

1.25<br />

⎯ H ⎯→<br />

0<br />

N(0,1)<br />

0.90<br />

0.1<br />

z α<br />

Región crítica<br />

X −10<br />

Rechazar H 0 cuando: 1.25 ≥1.28 ⇔ X≥ 11.6<br />

10


β=p(Error tipo II) = H 1<br />

(C)<br />

⎛ X − 15<br />

⎜<br />

11,6 − 15 ⎞<br />

≤<br />

p = p µ=15( X ≤ 11, 6)<br />

= ⎟ µ = 15<br />

⎜<br />

⎝ 1.25 1.25 ⎠<br />

p<br />

=Φ(-2.72)=0.0033<br />

β=0.0033<br />

H 0 H 1<br />

α=0.1<br />

µ=10 µ=15<br />

λ α =11,6<br />

R. Aceptación Región crítica<br />

Si α=p(Error tipo I) disminuye ⇒ aumenta β=p(Error tipo II)<br />

β=0.0465<br />

H 0 H 1<br />

α=0.01<br />

µ=10 µ=15<br />

λ α =12,9<br />

R. Aceptación Región crítica<br />

11


La única forma de reducir ambos errores simultáneamente es aumentar n<br />

Si n=100 ⇒Bajo H 0 : X → N(10,5/ 100 ); Bajo H 1 : X → N(15,5/ 100 ) ⇒ ↓α ↓β<br />

H 0 H 1<br />

β<br />

α<br />

11.6<br />

R. Aceptación Región crítica<br />

Alejar H 1 de H 0 ⇒ β↓ ⇒ aumenta la potencia: es más fácil discernir entre dos<br />

hipótesis “alejadas” que entre dos hipótesis “cercanas”<br />

β=0<br />

H 0 H 1<br />

α=0.1<br />

µ=10 µ=20<br />

λ α =11,6<br />

12


4.4. CONCEPTO DE P-VALOR: CÁLCULO E INTERPRETACIÓN<br />

Limitaciones de la selección del nivel de significación:<br />

Ejemplo 6: (continuación)<br />

Estadístico: Z*=<br />

H 0 : µ=10<br />

H 1 : µ=15<br />

X<br />

−10<br />

1.25<br />

⎯ H ⎯→<br />

0<br />

X − 10<br />

N(0,1) ⇒ Si α=0.10 ⇒ Rechazo H 0 si Z*= 1.25<br />

≥1.28<br />

a) Si x obs =15 ⇒ z obs =<br />

15− 10<br />

1.<br />

25<br />

=4 ≥ 1.28<br />

⇒ Rechazo H 0 al 10% (z obs “significativo” al 10%)<br />

12.5<br />

− 10<br />

b) Si x obs =12.5 ⇒ z obs =<br />

1.25 =2≥1.28<br />

⇒ Rechazo H 0 al 10% (z obs “significativo” al 10%)<br />

Misma decisión, pero…¿poseen las dos muestras la misma evidencia contra H 0 ?<br />

13


El p-valor se define, para una muestra concreta, como la probabilidad de<br />

observar, bajo H 0 , un valor del estadístico de contraste igual o más extremo<br />

(en la dirección de la alternativa) que el observado en la muestra ⇔<br />

probabilidad de obtener más discrepancia con H 0 que la obtenida con la muestra<br />

Cuanto menor el p-valor ⇒ más extremo el resultado muestral ⇒ más evidencia contra H 0<br />

Ejemplo 6: (continuación)<br />

a) x obs =15 ⇒ z obs =4 ⇒ p-valor = p(Z* ≥ z obs ) = p(N(0,1) ≥ 4) = 0.00003<br />

Obtener el valor observado, z obs , o alguno mayor es casi imposible bajo la<br />

hipótesis nula ⇒ rechazo H 0 (no creo que H 0 haya generado mis datos).<br />

b) x obs =12.5 ⇒ z obs =2 ⇒ p-valor = p(Z* ≥ z obs ) = p(N(0,1) ≥ 2) = 0,0228<br />

El valor observado tiene una probabilidad de aparecer muy pequeña si H 0 es cierta,<br />

pero no es tan improbable como antes ⇒ rechazo H 0 pero con “menos garantías”.<br />

14


p-valor muy pequeño ⇒ sería muy improbable observar lo<br />

observado si H 0 hubiera generado mis datos ⇒ los datos<br />

proporcionan evidencia suficiente en contra de H 0 ⇒ rechazo H 0<br />

p-valor grande ⇒ nuestros datos no proporcionan evidencia<br />

suficiente en contra de H 0 (es probable que H 0 haya generado<br />

mis datos) y no rechazo.<br />

15


RELACIÓN ENTRE “nivel de significación” y “p-valor”<br />

¿Qué ocurriría en el ejemplo anterior si el nivel de significación fuera α=0.01?<br />

X −10<br />

⇒ El valor crítico sería z α =2.33 ⇒ rechazaríamos H 0 si Z*= 1.25 ≥ 2.33<br />

⇒ Si x obs =12.5 ⇒ z obs =2 < 2.33 ⇒ No rechazo al 1% (Si rechazaba al 10%)<br />

α=0.10<br />

p-valor=0.0218<br />

1-α α=0.01<br />

1.28 2 2.33<br />

Rechazo H 0 al 1%<br />

Rechazo H 0 al 10%<br />

Rechazamos H 0 para niveles α ≥ p-valor<br />

No rechazamos H 0 para niveles α< p-valor<br />

p-valor = menor nivel<br />

de significación al<br />

que se rechaza H 0<br />

16


4.5. ETAPAS EN LA REALIZACIÓN DE UN CONTRASTE<br />

1. Describir el modelo y formular la hipótesis nula y la alternativa<br />

2. Definir un estadístico de contraste que cuantifique la discrepancia entre<br />

los datos y la hipótesis nula, y cuya distribución sea conocida bajo H 0<br />

3. Definir la región crítica: ¿Qué valores del estadístico de contraste<br />

rechazan H 0 ?<br />

4. Determinar el valor crítico para un nivel de significación α dado<br />

5. Tomar los datos y calcular el valor del estadístico de contraste<br />

4.' Tomar los datos y calcular el valor del estadístico de contraste<br />

5.' Calcular el p-valor<br />

6. Tomar la decisión de rechazar o no H 0<br />

17


BIBLIOGRAFÍA BÁSICA<br />

Canavos, G.C. (2001), Probabilidad y estadística: aplicaciones y<br />

métodos, Madrid: McGraw-Hill.<br />

Secciones 9.1-9.3, 9.5<br />

Casas, J.M. (1997), Inferencia estadística (incluye ejercicios<br />

resueltos). 2ª ed. Madrid: Centro de Estudios Ramón Areces.<br />

Capítulo 5<br />

BIBLIOGRAFÍA COMPLEMENTARIA:<br />

Peña, D. (2008), Fundamentos de estadística, Madrid : Alianza<br />

Secciones 10.1 – 10.3<br />

18

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!