Hypotesetest
Hypotesetest
Hypotesetest
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Overordnet 1<br />
<strong>Hypotesetest</strong><br />
Helene Regitze Lund Wandsøe<br />
November 28, 2011<br />
Vi har en påstand eller en teori og en modpåstand og -teori. Vores påstande og<br />
teorier vil være hypoteser. Disse kan hver især udtrykkes som en sandsynlighedsmodel<br />
eller en mængde af sandsynlighedsmodeller. Denne model vil<br />
beskrive en population. Vi antager, at vores stikprøve udtrækkes tilfældigt<br />
fra denne population.<br />
H0 og HA<br />
Hypotesen om “ingen forskel” kaldes ofte nulhypotesen eller H0. Når man indsamler<br />
data og bruger dem som bevis for nulhypotesen, siger man, at man<br />
“tester” nulhypotesen. Den grundlæggende idé bag en statistisk test af H0 er at<br />
sammenligne data fra en faktisk stikprøve med, hvad der forventes, når H0 er<br />
sand. Denne sammenligning er normalt baseret på værdien af teststatistikken.<br />
Stikprøvefordelingen for teststatistikken under H0 kaldes nulfordelingen. Alternativet<br />
til H0 kaldes alternativ hypotesen eller HA. Detteernormaltentenen<br />
bestemt sandsynlighedsfordeling eller en familie af fordelinger.<br />
P værdien<br />
P-værdien er sandsynligheden for at befinde sig i halen af nulfordelingen for<br />
teststatistikken Y i og over den observerede værdi for Y . Dvs. man beskriver<br />
beliggenheden af det observerede testresultat i nulfordelingen for teststatistikken<br />
ved at angive halesandsynligheden over (/under) den observerede værdi. Des<br />
mindre P-værdi des længere er den observerede værdi af teststatistikken fra den<br />
forventede værdi under H0. En meget lille P-værdi ses altså som bevis imod<br />
nulhypotesen. De fleste statistikere bruger følgende grænser for P-værdien til at<br />
afvise H0:<br />
P
Figure 1: P-værdier - de tre tilfælde (se B&L side 425)<br />
Når man udregner P-værdien fra et givent datasæt eller bestemmer, hvorvidt<br />
den er mindre end en valgt grænse, kaldes det at lave en signifikanstest. Pværdien<br />
kaldes også det observerede signifikansniveau.<br />
Fremgangsmåden 2<br />
1. Angiv H0. Heropskrivesaltsådenpåstandellerteori,somønskesundersøgt.<br />
2. Angiv HA. Heropskrivesaltsådenrelevantemodpåstandeller-teori.<br />
3. Angiv teststørrelsen Y .<br />
4. Angiv ekstreme værdier for Y ,nårnulhypotesenersand. Detvilsige<br />
hvilke værdier vil tale for, at alternativhypotesen er bedre til at forklare<br />
data end nulhypotesen.<br />
5. P-værdien udregnes. Det vil sige, værdien af teststørrelsen udregne og<br />
testsandsynligheden bestemmes heraf.<br />
Teststørrelsen 3<br />
Z-test<br />
Hvis nulfordelingen for en teststatistik Y er approksimativt normal, vil nulfordelingen<br />
for standardscoren i ligning (1) være approksimativt standardnor-<br />
2 Side 424-425 i B&L<br />
3 Side 429-436 i B&L<br />
2
mal.<br />
Z =<br />
Y E(Y |H0)<br />
s.d.(Y |H0)<br />
Hvis nævneren i ligning (1) er kendt, vil vi bruge Z som vores test statistik<br />
istedetforY . Hvis nævneren derimod er ukendt definerer vi T som givet i<br />
ligning (2).<br />
T =<br />
Y E(Y |H0)<br />
s.e.(Y |H0)<br />
Når n er stor, vil nulfordelingen for T dog være approksimativt standardnormalfordelt,<br />
og vi kan også kaldes udtrykket i ligning (2) for Z. Bådeligning(1)<br />
og (2) måler forskellen mellem den observerede Y og E(Y |H0), dvs. detY vi<br />
forventer, når H0 er sand. Man kan sige, at Z og T scoren måler antallet<br />
af hhv. s.d. og s.e., der er mellem den sande og den forventede værdi.<br />
T-test<br />
Hvis vi derimod har, at vores nævner i ligning (1) er ukendt, og n er lille, kan<br />
vi ikke længere antage, at stikprøvegennemsnittet er approksimativt normalfordelt<br />
og stikprøve s.d. vil således ikke længere være en god approksimation<br />
for populationens s.d. Vi skriver derfor T som i ligning (3).<br />
T = X µ 0<br />
S/ p n<br />
Såfremt stikprøven er tilfældigt udtrukket og populationen er normal, vil nulfordelingen<br />
for T være t(n 1). Statistikkeniligning(3)ernormaltikket-fordelt,<br />
når populationen ikke er normal. Som tommelfingerregel gælder, at såfremt vi<br />
har en stikprøve, som er mindre end omkring 40 observationer, må populationen<br />
ikke være alt for langt fra normal.<br />
3<br />
(1)<br />
(2)<br />
(3)