Kapitel 10
Kapitel 10
Kapitel 10
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Signifikanstestet<br />
Fordeling af rygevaner som 45-årig og senere<br />
selvrapporteret helbred som 51-årig blandt tilfældigt<br />
udvalgte mænd i Københavns Amt i 1987.<br />
helbred som 51 årig<br />
rygevaner<br />
som 45 årig<br />
Total<br />
aldrig<br />
nej<br />
1-14<br />
15-24<br />
25+<br />
usædvanlig<br />
godt godt<br />
mindre<br />
godt<br />
elendigt<br />
Total<br />
16 73 6 1 96<br />
16,7% 76% 6,3% 1,0% <strong>10</strong>0%<br />
15 75 6 96<br />
15,6% 78% 6,3% <strong>10</strong>0%<br />
13 59 7 1 80<br />
16,3% 74% 8,8% 1,3% <strong>10</strong>0%<br />
<strong>10</strong> 81 17 3 111<br />
9,0% 73% 15,3% 2,7% <strong>10</strong>0%<br />
1 29 3 1 34<br />
2,9% 85% 8,8% 2,9% <strong>10</strong>0%<br />
55 317 39 6 417<br />
13,2% 76% 9,4% 1,4% <strong>10</strong>0%<br />
Hvordan kan man ved hjælp af tallene i tabellen<br />
påvise eller i det mindste understøtte en<br />
hypotese om at rygning er en helbredsmæssig<br />
risikofaktor? At helbredet forringes, jo mere<br />
man ryger?<br />
1
Arbejdsgangen i statistiske<br />
signifikanstest<br />
1) Definition af nul-hypotese og alternativ<br />
2) Valg og beregning af teststørrelse<br />
3) Fastlæggelse af kritisk niveau og<br />
kritiske værdier for teststørrelsen<br />
4) Beregning af signifikanssandsynligheden<br />
(p-værdien)<br />
5) Valg mellem nul-hypotese eller<br />
alternativ<br />
2
Nul-hypotese og alternativ<br />
Nul-hypotesen (H0)<br />
Ingen sammenhæng mellem rygning<br />
og helbred<br />
Alternativ<br />
Rygningen påvirker helbredet<br />
Hvilken en af de to påstande kan<br />
opfattes som arbejdshypotesen?<br />
3
Valg af teststørrelse<br />
Teststørrelse<br />
=<br />
Et talmæssigt udtryk for tilpasningen<br />
mellem nul-hypotesen og data.<br />
Teststørrelsen konstrueres som regel<br />
således at store værdier er udtryk for<br />
stor afstand mellem nul-hypotese og<br />
data.<br />
4
χ 2 -testet<br />
måler for afstanden mellem hypotese og<br />
data<br />
1) Beregning af forventede værdier der<br />
svarer fuldstændigt til nul-hypotesen.<br />
2) Residualer =Afstanden mellem<br />
observerede og forventede værdier<br />
beregnes for hver enkelt celle i<br />
tabellen.<br />
3) Den samlede afstand = en vægtet sum<br />
af de kvadrerede residualer.<br />
nulhypotese<br />
Forventede<br />
værdier<br />
afstand<br />
Observeret<br />
tabel<br />
5
Beregning af χ 2 -teststørrelsen<br />
Tabellen med forventede værdier<br />
1) Tabellen skal indeholde det samme<br />
antal personer som den observerede<br />
tabel.<br />
2) Fordelingen af disse personer mht.<br />
rygevaner og mht. helbred skal være<br />
den samme som i den observerede<br />
tabel.<br />
3) I følge nul-hypotesen er fordelingen<br />
af helbredet den samme for alle rygekategorier.<br />
Tabellen med forventede<br />
værdier skal derfor have de samme<br />
procentvise helbredsfrekvenser, for<br />
de forskellige rygevaner og de samme<br />
som den marginale fordeling af helbredet.<br />
6
Standardterminologi for tovejstabeller:<br />
n ij = antallet af personer i cellen i den<br />
i’te række og den j’te søjle af den<br />
observerede tabel.<br />
n i∗ =<br />
n ∗j =<br />
∑ n<br />
j ij = det samlede antal personer i<br />
den i’te række af den observerede<br />
tabel.<br />
∑ n<br />
i ij = det samlede antal personer i<br />
den j’te søjle af den observerede<br />
tabel.<br />
n ∗∗ = ∑ij n<br />
ij<br />
= det samlede antal personer i<br />
den observerede tabel.<br />
7
Forventede værdier:<br />
e ij = det forventede antallet af personer<br />
i cellen i den i’te række og den j’te<br />
søjle.<br />
e i∗ =<br />
e ∗j =<br />
∑ e<br />
j ij = det samlede antal personer i<br />
den i’te række af tabellen med forventede<br />
værdier.<br />
∑ e<br />
i ij = det samlede antal personer i<br />
den j’te søjle af tabellen med forventede<br />
værdier.<br />
e ∗∗ = ∑ij e<br />
ij<br />
= det samlede antal personer i<br />
tabellen med forventede værdier.<br />
8
Kravene til de forventede værdier:<br />
e i∗ = n i∗ ,<br />
e ∗j = n ∗j ,<br />
e ∗∗ = n ∗∗ .<br />
e e n<br />
= =<br />
e n n<br />
ij ij • j<br />
i<br />
• i<br />
• ••<br />
hvilket vil sige, at<br />
e<br />
ij<br />
=<br />
n n<br />
• j i<br />
•<br />
n<br />
••<br />
9
Forventede værdier under<br />
nul-hypotesen om, at rygevaner og<br />
helbred er uafhængige.<br />
rygevaner<br />
som 45 årig<br />
Total<br />
aldrig<br />
nej<br />
1-14<br />
15-24<br />
25+<br />
usædvanlig<br />
godt godt<br />
helbred som 51 årig<br />
mindre<br />
godt<br />
elendigt<br />
Total<br />
12,7 73,0 9,0 1,4 96,0<br />
12,7 73,0 9,0 1,4 96,0<br />
<strong>10</strong>,6 60,8 7,5 1,2 80,0<br />
14,6 84,4 <strong>10</strong>,4 1,6 111,0<br />
4,5 25,8 3,2 ,5 34,0<br />
55,0 317,0 39,0 6,0 417,0<br />
<strong>10</strong>
Residualerne<br />
Residualer = observeret – forventet<br />
res ij = n ij - e ij<br />
Residualer for sammenhængen mellem<br />
rygevaner og helbred.<br />
rygevaner<br />
som 45 årig<br />
aldrig<br />
nej<br />
1-14<br />
15-24<br />
25+<br />
helbred som 51 årig<br />
usædvanlig<br />
godt godt<br />
mindre<br />
godt<br />
elendigt<br />
3,3 ,0 -3,0 -,4<br />
2,3 2,0 -3,0 -1,4<br />
2,4 -1,8 -,5 -,2<br />
-4,6 -3,4 6,6 1,4<br />
-3,5 3,2 -,2 ,5<br />
11
Den samlede χ 2 -afstand<br />
En vægtet sum af de kvadrerede<br />
residualer.<br />
Hvert enkelt kvadreret residual tildeles<br />
en vægt, der er omvendt proportional<br />
med det forventede antal i den celle, som<br />
residualværdien er taget fra:<br />
(n − e )<br />
2<br />
2<br />
ij ij<br />
χ = ∑<br />
=<br />
eij<br />
16,2<br />
Det største bidrag til denne værdi:<br />
tobaksforbrug = 15-24 cigaretter om dagen<br />
helbred = ”mindre godt”.<br />
Forventet = <strong>10</strong>.4.<br />
Observeret = 17<br />
χ 2 bidraget =<br />
2<br />
(17 −<strong>10</strong>.4)<br />
= 4.19<br />
<strong>10</strong>.4<br />
Er en χ 2 værdi på 16,2 udtryk for god<br />
tilpasning til nul-hypotesen?<br />
12
Kritiske værdier<br />
χ 2 -testet er defineret således at værdien 0 er et<br />
udtryk for perfekt tilpasning mellem nulhypotese<br />
og data<br />
Værdiområdet for χ 2 deles op i to dele:<br />
a) Små værdier – ikke kritiske for nulhypotesen.<br />
Hvis test-størrelsen ligger i<br />
dette område accepteres hypotesen.<br />
b) Store værdier – kritiske for nulhypotesen.<br />
Hvis test-størrelsen ligger i<br />
dette område forkastes hypotesen.<br />
Grænseværdien mellem det ikke-kritiske<br />
og det kritiske område omtales som den<br />
kritiske værdi.<br />
13
Teststørrelsen, T, er en funktion af data<br />
og er derfor præget af en vis grad af<br />
tilfældighed med sandsynligheder, der<br />
kan beregnes.<br />
Den kritiske værdi fastlægges, således at<br />
der kun er en lille sandsynlighed for at<br />
forkaste nul-hypotesen hvis nul-hypotesen<br />
er sand<br />
α = P(T ≥ t kritisk )<br />
=<br />
testets niveau<br />
α, skal være et lille tal således at der kun<br />
er en lille risiko for at forkaste en nulhypotese,<br />
hvis den er sand.<br />
Tommelfingerreglen<br />
Det er almen praksis at sætte α = 0.05.<br />
14
χ 2 -teststørrelsens fordeling<br />
Hvad er P(χ 2 ≥16.2)?<br />
Hvis nul-hypotesen om uafhængighed<br />
for en tabel med r rækker og s søjler<br />
er korrekt, vil χ 2 -testet være tilnærmelsesvist<br />
fordelt som en χ 2 -fordeling<br />
med et antal frihedsgrader, der er lig<br />
med (r-1)(s-1).<br />
Tilpasningen mellem den eksakte og<br />
den approksimative fordeling for χ 2 -<br />
teststørrelsen er alt andet lige bedre,<br />
jo flere observationer, der er i tabellen.<br />
15
Kritiske værdier<br />
Kritiske værdier for χ 2 -testet<br />
Kritisk niveau<br />
antal frihedsgrader 5 % 1 %<br />
1 3.84 6.64<br />
2 5.99 9.21<br />
3 7.81 11.34<br />
4 9.49 13.28<br />
5 11.07 15.09<br />
6 12.59 16.81<br />
7 14.07 18.48<br />
8 15.51 20.09<br />
9 16.92 21.67<br />
<strong>10</strong> 18.31 23.21<br />
15 25.00 30.58<br />
20 31.41 37.57<br />
25 37.65 44.31<br />
SPSS kan overtales til at beregne signifikanssandsynligheder<br />
for χ 2 -testet ved hjælp af<br />
syntaks-filen, PCHI.SPS.<br />
16
Rygevaner og helbred<br />
Antallet af frihedsgrader er lig med<br />
(5-1)(4-1) = 12,<br />
P(χ 2 (12) ≥ 16.2) er lig med 0.182.<br />
χ 2 -testet er ikke signifikant.<br />
Nul-hypotesen om uafhængighed<br />
bliver derfor accepteret.<br />
Ifølge χ²-testet er der altså ikke<br />
statistisk belæg for at påstå at<br />
rygevanerne påvirker helbredet.<br />
Sammenhængen var ellers tydelig at se<br />
i tabellen. Kan vi have begået en fejl?<br />
17
Type I fejl<br />
Hvis man forkaster en sand nul-hypotese<br />
begår man en type I fejl<br />
Konventionelle signifikanstest har derfor<br />
en risiko på 5% for type I fejl.<br />
Men husk at valget af niveauet for<br />
statistiske test er arbitrært.<br />
Hvis man derfor vælger at foretage et test<br />
på 5% niveau betyder det at man synes<br />
man kan leve med en type I risiko på 5 %<br />
18
Type II fejl<br />
Signifikansniveauet for testet blev valgt<br />
således at der kun var 5 % risiko for at<br />
forkaste hypotesen, selvom den var sand<br />
(type I risikoen).<br />
Risikoen for at acceptere en nul-hypotese,<br />
der i virkeligheden er falsk omtales som<br />
en type II risiko.<br />
Risikoen for en type II risiko kan ikke<br />
beregnes, men man kan ofte skelne<br />
mellem test med stor type II risiko og<br />
teststørrelser med mindre type II risiko.<br />
Er χ 2 -testets type II risiko optimal eller<br />
kan vi gøre noget bedre? (spørgsmålet besvares senere).<br />
19
Signifikanssandsynligheder<br />
Signifikansen vurderes lettest, hvis man<br />
beregner sandsynligheden (p-værdien) for<br />
at få et testresultat der mindst er lige så<br />
kritisk for nul-hypotesen som den observerede<br />
testværdi,<br />
p = P(T ≥ t obs )<br />
En χ²-værdi på 16,2 med 12 frihedsgrader<br />
svarer til en p-værdi på 18,2 %.<br />
Denne værdi er klart større end 5 %, og vi<br />
kan derfor endnu engang konstatere, at<br />
χ²-testet ikke er signifikant.<br />
χ²-testet accepterer nul-hypotesen om, at<br />
der ikke er sammenhæng mellem rygning<br />
og helbred.<br />
20
Test-logiske problemer<br />
Hvad er relationen mellem den faglige<br />
hypotese og den statistiske nul-hypotese?<br />
Hvad er logikken i det statistiske tests<br />
bevisførelse? Hvad bliver bevist og hvad<br />
bliver ikke bevist?<br />
Teststørrelsen. Ud fra hvilke principper<br />
skal man vælge blandt de mange forskellige<br />
teststørrelser, som den teoretiske statistik<br />
udbyder?<br />
Om brugen af flere forskellige statistiske<br />
tests til at afprøve den samme nul-hypotese.<br />
Kan man tillade sig at bruge mere<br />
end et statistisk test?<br />
Hvordan skal signifikanssandsynligheden<br />
vurderes og tolkes, og - især - hvad må<br />
man ikke lægge i p-værdierne?<br />
21
Signifikanstestets logik<br />
Problem 1:<br />
Der er et misforhold mellem den fagligt<br />
begrundede arbejdshypotese og statistikernes<br />
nul-hypotese:<br />
Arbejdshypotesen<br />
Rygning forringer på langt sigt helbredet.<br />
Årsagen til problemet: Tabellen støtter arbejdshypotesen,<br />
men der er tale om få personer, og en<br />
høj grad af indbygget usikkerhed. Tabellen er<br />
derfor ikke i sig selv et bevis for den statistiske<br />
sammenhæng mellem rygning og helbred, selvom<br />
tendensen bekræfter arbejdshypotesen.<br />
22
Løsningen på problemet:<br />
Signifikanstestets argumentation svarer til<br />
det, der omtales som et indirekte bevis i<br />
matematikken.<br />
I stedet for at ”bevise”, at der er sammenhæng<br />
mellem rygevaner og helbred, forsøger<br />
testet at vise, at det modsatte – at der<br />
ikke er sammenhæng – har nogle usandsynlige<br />
konsekvenser.<br />
23
Det indirekte matematiske bevis<br />
Et indirekte bevis, er et bevis, hvor man forsøger<br />
at vise en matematisk sætning, A, ved at<br />
vise, at det fører til umulige konsekvenser at<br />
antage at sætningen ikke er korrekt.<br />
Det indirekte bevis omfatter tre trin:<br />
1) Antag først, at den såkaldte antitese, at A<br />
ikke gælder, er korrekt. Antitesen til A<br />
angives som regel som ¬ A i betydningen<br />
”ikke A”.<br />
2) Udled en eller flere logiske konsekvenser af<br />
¬ A.<br />
3) Afprøv, om der er en eller flere af disse<br />
logiske konsekvenser, der er umulige.<br />
Hvis en af de nævnte konsekvenser af antitesen,<br />
der er umulig (falsk), må antitesen også<br />
være falsk. Altså følger det, at sætningen, A.<br />
må være sand.<br />
24
Nul-hypotesen og alternativet<br />
Da data i sig selv ikke kan bevise, at en<br />
arbejdshypotese er korrekt, forsøger man<br />
i stedet at gennemføre noget, der svarer til<br />
et indirekte bevis med den væsentlige forskel,<br />
at ordet umulig erstattes med ordet<br />
usandsynlig.<br />
”Sætningen”, som man ønsker at bevise,<br />
er, at der er sammenhæng mellem<br />
rygevaner og helbred.<br />
Antitesen er den statistiske nul-hypotese:<br />
Der er ikke sammenhæng mellem rygevaner<br />
som 45-årig og helbred som 51-<br />
årig.<br />
Nul-hypotesen opstilles med den hensigt at<br />
forsøge at få den afkræftet på en så overbevisende<br />
måde, som overhovedet muligt.<br />
25
Det statistiske signifikanstest og den dertil<br />
knyttede signifikanssandsynlighed er et<br />
udtryk for en ”logisk” konsekvens af nulhypotesen.<br />
Hvis nul-hypotesen er korrekt, kan<br />
der lægges nogle grænser som det vil være<br />
usandsynligt, at teststørrelsen overskrider.<br />
F.eks.: Hvis nul-hypotesen, at rygevaner og<br />
helbred er uafhængige, er korrekt, følger det ,<br />
at der kun er en sandsynlighed på 0.00000209<br />
for at opnå en χ 2 -teststørrelse på 50 eller derover.<br />
En teststørrelse af en sådan størrelsesorden er<br />
ikke umulig, men den er så usandsynlig, at det<br />
har mening at sige, at den er næsten umulig.<br />
26
Desværre var det i stedet den mere<br />
beskedne værdi på 16.2, der dukkede op,<br />
da χ 2 -testet blev beregnet.<br />
Det er derfor ikke lykkedes at påvise, at<br />
rygning skulle være helbredsforringende.<br />
Er sagen dermed afsluttet?<br />
27
Statistisk evidens<br />
Afdækning af indirekte statistisk evidens<br />
omfatter tre trin, svarende til trinene i det<br />
indirekte matematiske bevis:<br />
1) Antag først at nul-hypotesen, dvs.<br />
alternativet til arbejdshypotesen, er<br />
korrekt.<br />
2) Beregn en eller flere teststørrelser.<br />
3) Afprøv, om der er en eller flere af<br />
værdierne af disse teststørrelser, der er<br />
usandsynlige.<br />
28
Årsager til at man skal passe på såkaldt<br />
bevisførelse i forbindelse med statistiske<br />
analyser:<br />
Det er, at ordet ”umulig”, er blevet erstattet<br />
af ordet ”usandsynlig”. Testproceduren<br />
indebærer altid en vis risiko for fejl.<br />
De færreste vil betragte en hændelse, der<br />
forekommer med sandsynligheden, 0,05,<br />
som en hændelse, der kan kaldes ”usandsynlig<br />
grænsende til det umulige”.<br />
De konventioner, der foreskriver, at det<br />
kritiske niveau for et statistisk test skal<br />
være lig med 5 %, understøtter derfor<br />
ikke umiddelbart tolkningen af et statistisk<br />
test som en procedure, der afslører<br />
forekomst af usandsynlige hændelser.<br />
29
Forslaget om, at der beregnes ”en eller flere”<br />
teststørrelser, betragtes som kontroversielt<br />
pga. sandsynlighedsteoretiske problemer.<br />
Der kan ikke fastlægges et entydigt<br />
kritisk niveau for en testprocedure<br />
omfattende to eller flere statistiske teststørrelser,<br />
eller beregnes sandsynligheder,<br />
der kan fortælle noget om den samlede<br />
grad af usikkerhed for alle teststørrelser.<br />
I stedet for at tale om statistiske beviser<br />
er det bedre at benytte udtrykket,<br />
statistisk evidens, fordi det er et svagere<br />
og mindre ambitiøst begreb.<br />
30
Graden af signifikans<br />
Forskellige grader af signifikans<br />
Signifikans p-værdier Betydning<br />
svag 0.01 < p ≤ 0.05 Sjælden<br />
moderat 0.001 < p ≤ 0.01 Usædvanlig<br />
stærk p ≤ 0.001 Usandsynlig<br />
Det er kun stærkt signifikante p-værdier,<br />
der kan tolkes som udtryk for, at<br />
der er observeret en ”næsten” umulig<br />
teststørrelse.<br />
Hvis p-værdierne er moderate eller<br />
svage, er bevisets stilling tilsvarende<br />
svag.<br />
31
Når nul-hypotesen accepteres<br />
Konklusion nr. 1:<br />
Det har ikke været mulig at påvise en<br />
sammenhæng mellem rygevaner og helbred<br />
32
Hvad der skal til for at begrunde følgende<br />
noget stærkere konklusion?<br />
Konklusion 2:<br />
Der er ikke sammenhæng mellem rygevaner<br />
og helbred<br />
Der skal være tale om klart insignifikante<br />
testresultater.<br />
Man skal kunne overbevise andre om, at<br />
man har gjort alt, hvad der overhovedet<br />
kunne gøres for at få forkastet nulhypotesen.<br />
Man skal kunne forklare, hvorfor de faglige<br />
argumenter, der ligger bag arbejdshypotesen,<br />
alligevel ikke er korrekte.<br />
Man skal kunne forklare, hvorfor eventuelle<br />
tidligere resultater, der understøttede<br />
arbejdshypotesen, var forkerte.<br />
33
To naturlige, men alligevel forkerte fortolkninger<br />
af p-værdierne.<br />
p-værdien er et mål for sandsynligheden for<br />
at nul-hypotesen er korrekt.<br />
p-værdien er et mål for styrken af sammenhængen<br />
mellem to variable.<br />
Signifikanssandsynligheden afhænger af<br />
to argumenter, sammenhængens styrke og<br />
stikprøvens størrelse,<br />
p = f(styrke,størrelse)<br />
p-værdien kan derfor ikke<br />
udelukkende tolkes som et udtryk for<br />
det ene af disse argumenter.<br />
34
Den eneste tolkning, der holder<br />
p-værdien er et udtryk for om det, der er<br />
blevet observeret, er mere eller mindre<br />
sandsynligt under de betingelser, som<br />
nul-hypotesen definerer.<br />
35
To fejltyper:<br />
Statistiske fejlslutninger<br />
Fejl af type I forekommer, når man forkaster en<br />
rigtig nul-hypotese.<br />
Fejl af type II forekommer, når man accepterer en<br />
forkert nul-hypotese.<br />
Krav til testenes størrelse og styrke er krav der<br />
begrænser risikoen for statistiske fejl.<br />
Testets størrelse er lig med sandsynligheden for, at<br />
der ikke begås en type I fejl, hvis nul-hypotesen er<br />
korrekt,<br />
Størrelse<br />
=<br />
P(Nul-hypotesen accepteres | Sand nul-hypotese)<br />
Styrken er sandsynligheden for, at der ikke bliver<br />
begået en type II fejl, hvis nul-hypotesen er forkert,<br />
Styrke<br />
=<br />
P(Nul-hypotesen forkastes | Falsk nul-hypotese)<br />
36
Et eller flere statistiske tests for den<br />
samme hypotese?<br />
Et indirekte bevis vil ofte kræve, at man undersøger<br />
flere forskellige konsekvenser af antitesen, før<br />
man finder en, der er umulig.<br />
Analogien mellem signifikanstestet og det indirekte<br />
bevis lægger derfor op til at man beregner flere<br />
forskellige statistiske test, og forkaster nul-hypotesen,<br />
hvis man finder et stærkt signifikant<br />
testresultat.<br />
Det multiple testproblem: Hvis man beregner mere<br />
end et test er dette ganske besværligt at kontrollere<br />
størrelsen af testet.<br />
37
Om brugen af<br />
korrelationskoefficienter som<br />
teststørrelser<br />
Argumentationen bag brugen af korrelationskoefficienter<br />
som teststørrelser:<br />
a) Hvis de to variable er uafhængige, vil den<br />
teoretiske korrelationskoefficient være lig<br />
med nul.<br />
b) Da statistiske data er behæftet med en vis<br />
grad af tilfældig variation, vil den empiriske<br />
korrelationskoefficient ikke nødvendigvis<br />
være lig med nul. Den kan dog forventes at<br />
ligge tæt på denne værdi.<br />
c) En empirisk korrelationskoefficient, der ligger<br />
relativt langt fra værdien 0, er et udtryk<br />
for manglende overensstemmelse mellem<br />
nul-hypotesens påstand om uafhængighed,<br />
og den korrelation, der er fundet i data.<br />
38
Kritiske områder for<br />
korrelationskoefficienter<br />
Korrelationskoefficientens værdiområde<br />
opdeles i to områder,<br />
- et kritisk område med værdier, der ligger<br />
langt fra nul, og hvor der kun er en lille<br />
sandsynlighed – f.eks. 5% - for at komme<br />
ud, hvis variablene er uafhængige,<br />
- et ikke-kritisk område af værdier tæt på nul,<br />
med en stor sandsynlighed for at finde den<br />
korrelationskoefficient, hvis hypotesen er<br />
sand.<br />
K = korrelationskoefficienten<br />
κ = en kritisk værdi således at<br />
P(K ≤ -κ ) + P(K ≥ κ) = 0.05<br />
p = P(K ≤ -k) + P(K ≥ k)<br />
-1 -κ 0 +κ +1<br />
39
Konverteringen af gammakoefficienten<br />
til en statistisk<br />
teststørrelse:<br />
Standardfejlen, SE 0 (γ), for γ-koefficienten<br />
beregnes under forudsætning af at nul-hypotesen<br />
er korrekt. Dvs. under forudsætning<br />
af, at γ = 0.<br />
Derefter beregnes en standardiseret teststørrelse,<br />
Z = γ/SE 0 (γ). Da γ er tilnærmelsesvist<br />
normalfordelt vil Z tilnærmelsesvis<br />
have en standardiseret normalfordeling.<br />
Antag at z 0 er den observerede værdi af<br />
den standardiserede γ-koefficient. p-værdien<br />
kan herefter beregnes som summen<br />
af to sandsynligheder fra den standardiserede<br />
normalfordeling:<br />
p = P(Z≤-|z 0 |) + P(Z≥+|z 0 |)<br />
40
Rygevaner og helbred<br />
helbred som 51 årig<br />
rygevaner<br />
som 45 årig<br />
Total<br />
aldrig<br />
nej<br />
1-14<br />
15-24<br />
25+<br />
usædvanlig<br />
godt godt<br />
mindre<br />
godt<br />
elendigt<br />
Total<br />
16 73 6 1 96<br />
16,7% 76% 6,3% 1,0% <strong>10</strong>0%<br />
15 75 6 96<br />
15,6% 78% 6,3% <strong>10</strong>0%<br />
13 59 7 1 80<br />
16,3% 74% 8,8% 1,3% <strong>10</strong>0%<br />
<strong>10</strong> 81 17 3 111<br />
9,0% 73% 15,3% 2,7% <strong>10</strong>0%<br />
1 29 3 1 34<br />
2,9% 85% 8,8% 2,9% <strong>10</strong>0%<br />
55 317 39 6 417<br />
13,2% 76% 9,4% 1,4% <strong>10</strong>0%<br />
γ = 0.242.<br />
Standardfejl under nul-hypotesen = 0.07334.<br />
Z = 3.30.<br />
p = P(Z ≤ -3.300) + P(Z ≥ 3.300) = 0.00098<br />
γ-koefficienten omstøder den konklusion,<br />
som χ 2 -testet kom frem til.<br />
41
Ensidede eller tosidede test<br />
Retningsbestemte hypoteser<br />
Den faglige arbejdshypotese:<br />
de, der ryger mest, har det dårligste helbred.<br />
Dette bør derfor også være alternativet til den<br />
statistiske nul-hypotese.<br />
Kritiske områder for ensidede test<br />
-1 0 +κ +1<br />
Ensidede p-værdier<br />
p = P(Z ≥ z 0 )<br />
p<br />
ensi det<br />
=<br />
p<br />
tosi det<br />
γ-koefficienten for sammenhængen<br />
mellem rygevaner og helbred har en<br />
ensidet p-værdi er på 0.00049.<br />
2<br />
42