29.07.2013 Views

Hypotesetest

Hypotesetest

Hypotesetest

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Overordnet 1<br />

<strong>Hypotesetest</strong><br />

Helene Regitze Lund Wandsøe<br />

November 28, 2011<br />

Vi har en påstand eller en teori og en modpåstand og -teori. Vores påstande og<br />

teorier vil være hypoteser. Disse kan hver især udtrykkes som en sandsynlighedsmodel<br />

eller en mængde af sandsynlighedsmodeller. Denne model vil<br />

beskrive en population. Vi antager, at vores stikprøve udtrækkes tilfældigt<br />

fra denne population.<br />

H0 og HA<br />

Hypotesen om “ingen forskel” kaldes ofte nulhypotesen eller H0. Når man indsamler<br />

data og bruger dem som bevis for nulhypotesen, siger man, at man<br />

“tester” nulhypotesen. Den grundlæggende idé bag en statistisk test af H0 er at<br />

sammenligne data fra en faktisk stikprøve med, hvad der forventes, når H0 er<br />

sand. Denne sammenligning er normalt baseret på værdien af teststatistikken.<br />

Stikprøvefordelingen for teststatistikken under H0 kaldes nulfordelingen. Alternativet<br />

til H0 kaldes alternativ hypotesen eller HA. Detteernormaltentenen<br />

bestemt sandsynlighedsfordeling eller en familie af fordelinger.<br />

P værdien<br />

P-værdien er sandsynligheden for at befinde sig i halen af nulfordelingen for<br />

teststatistikken Y i og over den observerede værdi for Y . Dvs. man beskriver<br />

beliggenheden af det observerede testresultat i nulfordelingen for teststatistikken<br />

ved at angive halesandsynligheden over (/under) den observerede værdi. Des<br />

mindre P-værdi des længere er den observerede værdi af teststatistikken fra den<br />

forventede værdi under H0. En meget lille P-værdi ses altså som bevis imod<br />

nulhypotesen. De fleste statistikere bruger følgende grænser for P-værdien til at<br />

afvise H0:<br />

P


Figure 1: P-værdier - de tre tilfælde (se B&L side 425)<br />

Når man udregner P-værdien fra et givent datasæt eller bestemmer, hvorvidt<br />

den er mindre end en valgt grænse, kaldes det at lave en signifikanstest. Pværdien<br />

kaldes også det observerede signifikansniveau.<br />

Fremgangsmåden 2<br />

1. Angiv H0. Heropskrivesaltsådenpåstandellerteori,somønskesundersøgt.<br />

2. Angiv HA. Heropskrivesaltsådenrelevantemodpåstandeller-teori.<br />

3. Angiv teststørrelsen Y .<br />

4. Angiv ekstreme værdier for Y ,nårnulhypotesenersand. Detvilsige<br />

hvilke værdier vil tale for, at alternativhypotesen er bedre til at forklare<br />

data end nulhypotesen.<br />

5. P-værdien udregnes. Det vil sige, værdien af teststørrelsen udregne og<br />

testsandsynligheden bestemmes heraf.<br />

Teststørrelsen 3<br />

Z-test<br />

Hvis nulfordelingen for en teststatistik Y er approksimativt normal, vil nulfordelingen<br />

for standardscoren i ligning (1) være approksimativt standardnor-<br />

2 Side 424-425 i B&L<br />

3 Side 429-436 i B&L<br />

2


mal.<br />

Z =<br />

Y E(Y |H0)<br />

s.d.(Y |H0)<br />

Hvis nævneren i ligning (1) er kendt, vil vi bruge Z som vores test statistik<br />

istedetforY . Hvis nævneren derimod er ukendt definerer vi T som givet i<br />

ligning (2).<br />

T =<br />

Y E(Y |H0)<br />

s.e.(Y |H0)<br />

Når n er stor, vil nulfordelingen for T dog være approksimativt standardnormalfordelt,<br />

og vi kan også kaldes udtrykket i ligning (2) for Z. Bådeligning(1)<br />

og (2) måler forskellen mellem den observerede Y og E(Y |H0), dvs. detY vi<br />

forventer, når H0 er sand. Man kan sige, at Z og T scoren måler antallet<br />

af hhv. s.d. og s.e., der er mellem den sande og den forventede værdi.<br />

T-test<br />

Hvis vi derimod har, at vores nævner i ligning (1) er ukendt, og n er lille, kan<br />

vi ikke længere antage, at stikprøvegennemsnittet er approksimativt normalfordelt<br />

og stikprøve s.d. vil således ikke længere være en god approksimation<br />

for populationens s.d. Vi skriver derfor T som i ligning (3).<br />

T = X µ 0<br />

S/ p n<br />

Såfremt stikprøven er tilfældigt udtrukket og populationen er normal, vil nulfordelingen<br />

for T være t(n 1). Statistikkeniligning(3)ernormaltikket-fordelt,<br />

når populationen ikke er normal. Som tommelfingerregel gælder, at såfremt vi<br />

har en stikprøve, som er mindre end omkring 40 observationer, må populationen<br />

ikke være alt for langt fra normal.<br />

3<br />

(1)<br />

(2)<br />

(3)

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!