11.11.2014 Views

Kapitel 10

Kapitel 10

Kapitel 10

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Signifikanstestet<br />

Fordeling af rygevaner som 45-årig og senere<br />

selvrapporteret helbred som 51-årig blandt tilfældigt<br />

udvalgte mænd i Københavns Amt i 1987.<br />

helbred som 51 årig<br />

rygevaner<br />

som 45 årig<br />

Total<br />

aldrig<br />

nej<br />

1-14<br />

15-24<br />

25+<br />

usædvanlig<br />

godt godt<br />

mindre<br />

godt<br />

elendigt<br />

Total<br />

16 73 6 1 96<br />

16,7% 76% 6,3% 1,0% <strong>10</strong>0%<br />

15 75 6 96<br />

15,6% 78% 6,3% <strong>10</strong>0%<br />

13 59 7 1 80<br />

16,3% 74% 8,8% 1,3% <strong>10</strong>0%<br />

<strong>10</strong> 81 17 3 111<br />

9,0% 73% 15,3% 2,7% <strong>10</strong>0%<br />

1 29 3 1 34<br />

2,9% 85% 8,8% 2,9% <strong>10</strong>0%<br />

55 317 39 6 417<br />

13,2% 76% 9,4% 1,4% <strong>10</strong>0%<br />

Hvordan kan man ved hjælp af tallene i tabellen<br />

påvise eller i det mindste understøtte en<br />

hypotese om at rygning er en helbredsmæssig<br />

risikofaktor? At helbredet forringes, jo mere<br />

man ryger?<br />

1


Arbejdsgangen i statistiske<br />

signifikanstest<br />

1) Definition af nul-hypotese og alternativ<br />

2) Valg og beregning af teststørrelse<br />

3) Fastlæggelse af kritisk niveau og<br />

kritiske værdier for teststørrelsen<br />

4) Beregning af signifikanssandsynligheden<br />

(p-værdien)<br />

5) Valg mellem nul-hypotese eller<br />

alternativ<br />

2


Nul-hypotese og alternativ<br />

Nul-hypotesen (H0)<br />

Ingen sammenhæng mellem rygning<br />

og helbred<br />

Alternativ<br />

Rygningen påvirker helbredet<br />

Hvilken en af de to påstande kan<br />

opfattes som arbejdshypotesen?<br />

3


Valg af teststørrelse<br />

Teststørrelse<br />

=<br />

Et talmæssigt udtryk for tilpasningen<br />

mellem nul-hypotesen og data.<br />

Teststørrelsen konstrueres som regel<br />

således at store værdier er udtryk for<br />

stor afstand mellem nul-hypotese og<br />

data.<br />

4


χ 2 -testet<br />

måler for afstanden mellem hypotese og<br />

data<br />

1) Beregning af forventede værdier der<br />

svarer fuldstændigt til nul-hypotesen.<br />

2) Residualer =Afstanden mellem<br />

observerede og forventede værdier<br />

beregnes for hver enkelt celle i<br />

tabellen.<br />

3) Den samlede afstand = en vægtet sum<br />

af de kvadrerede residualer.<br />

nulhypotese<br />

Forventede<br />

værdier<br />

afstand<br />

Observeret<br />

tabel<br />

5


Beregning af χ 2 -teststørrelsen<br />

Tabellen med forventede værdier<br />

1) Tabellen skal indeholde det samme<br />

antal personer som den observerede<br />

tabel.<br />

2) Fordelingen af disse personer mht.<br />

rygevaner og mht. helbred skal være<br />

den samme som i den observerede<br />

tabel.<br />

3) I følge nul-hypotesen er fordelingen<br />

af helbredet den samme for alle rygekategorier.<br />

Tabellen med forventede<br />

værdier skal derfor have de samme<br />

procentvise helbredsfrekvenser, for<br />

de forskellige rygevaner og de samme<br />

som den marginale fordeling af helbredet.<br />

6


Standardterminologi for tovejstabeller:<br />

n ij = antallet af personer i cellen i den<br />

i’te række og den j’te søjle af den<br />

observerede tabel.<br />

n i∗ =<br />

n ∗j =<br />

∑ n<br />

j ij = det samlede antal personer i<br />

den i’te række af den observerede<br />

tabel.<br />

∑ n<br />

i ij = det samlede antal personer i<br />

den j’te søjle af den observerede<br />

tabel.<br />

n ∗∗ = ∑ij n<br />

ij<br />

= det samlede antal personer i<br />

den observerede tabel.<br />

7


Forventede værdier:<br />

e ij = det forventede antallet af personer<br />

i cellen i den i’te række og den j’te<br />

søjle.<br />

e i∗ =<br />

e ∗j =<br />

∑ e<br />

j ij = det samlede antal personer i<br />

den i’te række af tabellen med forventede<br />

værdier.<br />

∑ e<br />

i ij = det samlede antal personer i<br />

den j’te søjle af tabellen med forventede<br />

værdier.<br />

e ∗∗ = ∑ij e<br />

ij<br />

= det samlede antal personer i<br />

tabellen med forventede værdier.<br />

8


Kravene til de forventede værdier:<br />

e i∗ = n i∗ ,<br />

e ∗j = n ∗j ,<br />

e ∗∗ = n ∗∗ .<br />

e e n<br />

= =<br />

e n n<br />

ij ij • j<br />

i<br />

• i<br />

• ••<br />

hvilket vil sige, at<br />

e<br />

ij<br />

=<br />

n n<br />

• j i<br />

•<br />

n<br />

••<br />

9


Forventede værdier under<br />

nul-hypotesen om, at rygevaner og<br />

helbred er uafhængige.<br />

rygevaner<br />

som 45 årig<br />

Total<br />

aldrig<br />

nej<br />

1-14<br />

15-24<br />

25+<br />

usædvanlig<br />

godt godt<br />

helbred som 51 årig<br />

mindre<br />

godt<br />

elendigt<br />

Total<br />

12,7 73,0 9,0 1,4 96,0<br />

12,7 73,0 9,0 1,4 96,0<br />

<strong>10</strong>,6 60,8 7,5 1,2 80,0<br />

14,6 84,4 <strong>10</strong>,4 1,6 111,0<br />

4,5 25,8 3,2 ,5 34,0<br />

55,0 317,0 39,0 6,0 417,0<br />

<strong>10</strong>


Residualerne<br />

Residualer = observeret – forventet<br />

res ij = n ij - e ij<br />

Residualer for sammenhængen mellem<br />

rygevaner og helbred.<br />

rygevaner<br />

som 45 årig<br />

aldrig<br />

nej<br />

1-14<br />

15-24<br />

25+<br />

helbred som 51 årig<br />

usædvanlig<br />

godt godt<br />

mindre<br />

godt<br />

elendigt<br />

3,3 ,0 -3,0 -,4<br />

2,3 2,0 -3,0 -1,4<br />

2,4 -1,8 -,5 -,2<br />

-4,6 -3,4 6,6 1,4<br />

-3,5 3,2 -,2 ,5<br />

11


Den samlede χ 2 -afstand<br />

En vægtet sum af de kvadrerede<br />

residualer.<br />

Hvert enkelt kvadreret residual tildeles<br />

en vægt, der er omvendt proportional<br />

med det forventede antal i den celle, som<br />

residualværdien er taget fra:<br />

(n − e )<br />

2<br />

2<br />

ij ij<br />

χ = ∑<br />

=<br />

eij<br />

16,2<br />

Det største bidrag til denne værdi:<br />

tobaksforbrug = 15-24 cigaretter om dagen<br />

helbred = ”mindre godt”.<br />

Forventet = <strong>10</strong>.4.<br />

Observeret = 17<br />

χ 2 bidraget =<br />

2<br />

(17 −<strong>10</strong>.4)<br />

= 4.19<br />

<strong>10</strong>.4<br />

Er en χ 2 værdi på 16,2 udtryk for god<br />

tilpasning til nul-hypotesen?<br />

12


Kritiske værdier<br />

χ 2 -testet er defineret således at værdien 0 er et<br />

udtryk for perfekt tilpasning mellem nulhypotese<br />

og data<br />

Værdiområdet for χ 2 deles op i to dele:<br />

a) Små værdier – ikke kritiske for nulhypotesen.<br />

Hvis test-størrelsen ligger i<br />

dette område accepteres hypotesen.<br />

b) Store værdier – kritiske for nulhypotesen.<br />

Hvis test-størrelsen ligger i<br />

dette område forkastes hypotesen.<br />

Grænseværdien mellem det ikke-kritiske<br />

og det kritiske område omtales som den<br />

kritiske værdi.<br />

13


Teststørrelsen, T, er en funktion af data<br />

og er derfor præget af en vis grad af<br />

tilfældighed med sandsynligheder, der<br />

kan beregnes.<br />

Den kritiske værdi fastlægges, således at<br />

der kun er en lille sandsynlighed for at<br />

forkaste nul-hypotesen hvis nul-hypotesen<br />

er sand<br />

α = P(T ≥ t kritisk )<br />

=<br />

testets niveau<br />

α, skal være et lille tal således at der kun<br />

er en lille risiko for at forkaste en nulhypotese,<br />

hvis den er sand.<br />

Tommelfingerreglen<br />

Det er almen praksis at sætte α = 0.05.<br />

14


χ 2 -teststørrelsens fordeling<br />

Hvad er P(χ 2 ≥16.2)?<br />

Hvis nul-hypotesen om uafhængighed<br />

for en tabel med r rækker og s søjler<br />

er korrekt, vil χ 2 -testet være tilnærmelsesvist<br />

fordelt som en χ 2 -fordeling<br />

med et antal frihedsgrader, der er lig<br />

med (r-1)(s-1).<br />

Tilpasningen mellem den eksakte og<br />

den approksimative fordeling for χ 2 -<br />

teststørrelsen er alt andet lige bedre,<br />

jo flere observationer, der er i tabellen.<br />

15


Kritiske værdier<br />

Kritiske værdier for χ 2 -testet<br />

Kritisk niveau<br />

antal frihedsgrader 5 % 1 %<br />

1 3.84 6.64<br />

2 5.99 9.21<br />

3 7.81 11.34<br />

4 9.49 13.28<br />

5 11.07 15.09<br />

6 12.59 16.81<br />

7 14.07 18.48<br />

8 15.51 20.09<br />

9 16.92 21.67<br />

<strong>10</strong> 18.31 23.21<br />

15 25.00 30.58<br />

20 31.41 37.57<br />

25 37.65 44.31<br />

SPSS kan overtales til at beregne signifikanssandsynligheder<br />

for χ 2 -testet ved hjælp af<br />

syntaks-filen, PCHI.SPS.<br />

16


Rygevaner og helbred<br />

Antallet af frihedsgrader er lig med<br />

(5-1)(4-1) = 12,<br />

P(χ 2 (12) ≥ 16.2) er lig med 0.182.<br />

χ 2 -testet er ikke signifikant.<br />

Nul-hypotesen om uafhængighed<br />

bliver derfor accepteret.<br />

Ifølge χ²-testet er der altså ikke<br />

statistisk belæg for at påstå at<br />

rygevanerne påvirker helbredet.<br />

Sammenhængen var ellers tydelig at se<br />

i tabellen. Kan vi have begået en fejl?<br />

17


Type I fejl<br />

Hvis man forkaster en sand nul-hypotese<br />

begår man en type I fejl<br />

Konventionelle signifikanstest har derfor<br />

en risiko på 5% for type I fejl.<br />

Men husk at valget af niveauet for<br />

statistiske test er arbitrært.<br />

Hvis man derfor vælger at foretage et test<br />

på 5% niveau betyder det at man synes<br />

man kan leve med en type I risiko på 5 %<br />

18


Type II fejl<br />

Signifikansniveauet for testet blev valgt<br />

således at der kun var 5 % risiko for at<br />

forkaste hypotesen, selvom den var sand<br />

(type I risikoen).<br />

Risikoen for at acceptere en nul-hypotese,<br />

der i virkeligheden er falsk omtales som<br />

en type II risiko.<br />

Risikoen for en type II risiko kan ikke<br />

beregnes, men man kan ofte skelne<br />

mellem test med stor type II risiko og<br />

teststørrelser med mindre type II risiko.<br />

Er χ 2 -testets type II risiko optimal eller<br />

kan vi gøre noget bedre? (spørgsmålet besvares senere).<br />

19


Signifikanssandsynligheder<br />

Signifikansen vurderes lettest, hvis man<br />

beregner sandsynligheden (p-værdien) for<br />

at få et testresultat der mindst er lige så<br />

kritisk for nul-hypotesen som den observerede<br />

testværdi,<br />

p = P(T ≥ t obs )<br />

En χ²-værdi på 16,2 med 12 frihedsgrader<br />

svarer til en p-værdi på 18,2 %.<br />

Denne værdi er klart større end 5 %, og vi<br />

kan derfor endnu engang konstatere, at<br />

χ²-testet ikke er signifikant.<br />

χ²-testet accepterer nul-hypotesen om, at<br />

der ikke er sammenhæng mellem rygning<br />

og helbred.<br />

20


Test-logiske problemer<br />

Hvad er relationen mellem den faglige<br />

hypotese og den statistiske nul-hypotese?<br />

Hvad er logikken i det statistiske tests<br />

bevisførelse? Hvad bliver bevist og hvad<br />

bliver ikke bevist?<br />

Teststørrelsen. Ud fra hvilke principper<br />

skal man vælge blandt de mange forskellige<br />

teststørrelser, som den teoretiske statistik<br />

udbyder?<br />

Om brugen af flere forskellige statistiske<br />

tests til at afprøve den samme nul-hypotese.<br />

Kan man tillade sig at bruge mere<br />

end et statistisk test?<br />

Hvordan skal signifikanssandsynligheden<br />

vurderes og tolkes, og - især - hvad må<br />

man ikke lægge i p-værdierne?<br />

21


Signifikanstestets logik<br />

Problem 1:<br />

Der er et misforhold mellem den fagligt<br />

begrundede arbejdshypotese og statistikernes<br />

nul-hypotese:<br />

Arbejdshypotesen<br />

Rygning forringer på langt sigt helbredet.<br />

Årsagen til problemet: Tabellen støtter arbejdshypotesen,<br />

men der er tale om få personer, og en<br />

høj grad af indbygget usikkerhed. Tabellen er<br />

derfor ikke i sig selv et bevis for den statistiske<br />

sammenhæng mellem rygning og helbred, selvom<br />

tendensen bekræfter arbejdshypotesen.<br />

22


Løsningen på problemet:<br />

Signifikanstestets argumentation svarer til<br />

det, der omtales som et indirekte bevis i<br />

matematikken.<br />

I stedet for at ”bevise”, at der er sammenhæng<br />

mellem rygevaner og helbred, forsøger<br />

testet at vise, at det modsatte – at der<br />

ikke er sammenhæng – har nogle usandsynlige<br />

konsekvenser.<br />

23


Det indirekte matematiske bevis<br />

Et indirekte bevis, er et bevis, hvor man forsøger<br />

at vise en matematisk sætning, A, ved at<br />

vise, at det fører til umulige konsekvenser at<br />

antage at sætningen ikke er korrekt.<br />

Det indirekte bevis omfatter tre trin:<br />

1) Antag først, at den såkaldte antitese, at A<br />

ikke gælder, er korrekt. Antitesen til A<br />

angives som regel som ¬ A i betydningen<br />

”ikke A”.<br />

2) Udled en eller flere logiske konsekvenser af<br />

¬ A.<br />

3) Afprøv, om der er en eller flere af disse<br />

logiske konsekvenser, der er umulige.<br />

Hvis en af de nævnte konsekvenser af antitesen,<br />

der er umulig (falsk), må antitesen også<br />

være falsk. Altså følger det, at sætningen, A.<br />

må være sand.<br />

24


Nul-hypotesen og alternativet<br />

Da data i sig selv ikke kan bevise, at en<br />

arbejdshypotese er korrekt, forsøger man<br />

i stedet at gennemføre noget, der svarer til<br />

et indirekte bevis med den væsentlige forskel,<br />

at ordet umulig erstattes med ordet<br />

usandsynlig.<br />

”Sætningen”, som man ønsker at bevise,<br />

er, at der er sammenhæng mellem<br />

rygevaner og helbred.<br />

Antitesen er den statistiske nul-hypotese:<br />

Der er ikke sammenhæng mellem rygevaner<br />

som 45-årig og helbred som 51-<br />

årig.<br />

Nul-hypotesen opstilles med den hensigt at<br />

forsøge at få den afkræftet på en så overbevisende<br />

måde, som overhovedet muligt.<br />

25


Det statistiske signifikanstest og den dertil<br />

knyttede signifikanssandsynlighed er et<br />

udtryk for en ”logisk” konsekvens af nulhypotesen.<br />

Hvis nul-hypotesen er korrekt, kan<br />

der lægges nogle grænser som det vil være<br />

usandsynligt, at teststørrelsen overskrider.<br />

F.eks.: Hvis nul-hypotesen, at rygevaner og<br />

helbred er uafhængige, er korrekt, følger det ,<br />

at der kun er en sandsynlighed på 0.00000209<br />

for at opnå en χ 2 -teststørrelse på 50 eller derover.<br />

En teststørrelse af en sådan størrelsesorden er<br />

ikke umulig, men den er så usandsynlig, at det<br />

har mening at sige, at den er næsten umulig.<br />

26


Desværre var det i stedet den mere<br />

beskedne værdi på 16.2, der dukkede op,<br />

da χ 2 -testet blev beregnet.<br />

Det er derfor ikke lykkedes at påvise, at<br />

rygning skulle være helbredsforringende.<br />

Er sagen dermed afsluttet?<br />

27


Statistisk evidens<br />

Afdækning af indirekte statistisk evidens<br />

omfatter tre trin, svarende til trinene i det<br />

indirekte matematiske bevis:<br />

1) Antag først at nul-hypotesen, dvs.<br />

alternativet til arbejdshypotesen, er<br />

korrekt.<br />

2) Beregn en eller flere teststørrelser.<br />

3) Afprøv, om der er en eller flere af<br />

værdierne af disse teststørrelser, der er<br />

usandsynlige.<br />

28


Årsager til at man skal passe på såkaldt<br />

bevisførelse i forbindelse med statistiske<br />

analyser:<br />

Det er, at ordet ”umulig”, er blevet erstattet<br />

af ordet ”usandsynlig”. Testproceduren<br />

indebærer altid en vis risiko for fejl.<br />

De færreste vil betragte en hændelse, der<br />

forekommer med sandsynligheden, 0,05,<br />

som en hændelse, der kan kaldes ”usandsynlig<br />

grænsende til det umulige”.<br />

De konventioner, der foreskriver, at det<br />

kritiske niveau for et statistisk test skal<br />

være lig med 5 %, understøtter derfor<br />

ikke umiddelbart tolkningen af et statistisk<br />

test som en procedure, der afslører<br />

forekomst af usandsynlige hændelser.<br />

29


Forslaget om, at der beregnes ”en eller flere”<br />

teststørrelser, betragtes som kontroversielt<br />

pga. sandsynlighedsteoretiske problemer.<br />

Der kan ikke fastlægges et entydigt<br />

kritisk niveau for en testprocedure<br />

omfattende to eller flere statistiske teststørrelser,<br />

eller beregnes sandsynligheder,<br />

der kan fortælle noget om den samlede<br />

grad af usikkerhed for alle teststørrelser.<br />

I stedet for at tale om statistiske beviser<br />

er det bedre at benytte udtrykket,<br />

statistisk evidens, fordi det er et svagere<br />

og mindre ambitiøst begreb.<br />

30


Graden af signifikans<br />

Forskellige grader af signifikans<br />

Signifikans p-værdier Betydning<br />

svag 0.01 < p ≤ 0.05 Sjælden<br />

moderat 0.001 < p ≤ 0.01 Usædvanlig<br />

stærk p ≤ 0.001 Usandsynlig<br />

Det er kun stærkt signifikante p-værdier,<br />

der kan tolkes som udtryk for, at<br />

der er observeret en ”næsten” umulig<br />

teststørrelse.<br />

Hvis p-værdierne er moderate eller<br />

svage, er bevisets stilling tilsvarende<br />

svag.<br />

31


Når nul-hypotesen accepteres<br />

Konklusion nr. 1:<br />

Det har ikke været mulig at påvise en<br />

sammenhæng mellem rygevaner og helbred<br />

32


Hvad der skal til for at begrunde følgende<br />

noget stærkere konklusion?<br />

Konklusion 2:<br />

Der er ikke sammenhæng mellem rygevaner<br />

og helbred<br />

Der skal være tale om klart insignifikante<br />

testresultater.<br />

Man skal kunne overbevise andre om, at<br />

man har gjort alt, hvad der overhovedet<br />

kunne gøres for at få forkastet nulhypotesen.<br />

Man skal kunne forklare, hvorfor de faglige<br />

argumenter, der ligger bag arbejdshypotesen,<br />

alligevel ikke er korrekte.<br />

Man skal kunne forklare, hvorfor eventuelle<br />

tidligere resultater, der understøttede<br />

arbejdshypotesen, var forkerte.<br />

33


To naturlige, men alligevel forkerte fortolkninger<br />

af p-værdierne.<br />

p-værdien er et mål for sandsynligheden for<br />

at nul-hypotesen er korrekt.<br />

p-værdien er et mål for styrken af sammenhængen<br />

mellem to variable.<br />

Signifikanssandsynligheden afhænger af<br />

to argumenter, sammenhængens styrke og<br />

stikprøvens størrelse,<br />

p = f(styrke,størrelse)<br />

p-værdien kan derfor ikke<br />

udelukkende tolkes som et udtryk for<br />

det ene af disse argumenter.<br />

34


Den eneste tolkning, der holder<br />

p-værdien er et udtryk for om det, der er<br />

blevet observeret, er mere eller mindre<br />

sandsynligt under de betingelser, som<br />

nul-hypotesen definerer.<br />

35


To fejltyper:<br />

Statistiske fejlslutninger<br />

Fejl af type I forekommer, når man forkaster en<br />

rigtig nul-hypotese.<br />

Fejl af type II forekommer, når man accepterer en<br />

forkert nul-hypotese.<br />

Krav til testenes størrelse og styrke er krav der<br />

begrænser risikoen for statistiske fejl.<br />

Testets størrelse er lig med sandsynligheden for, at<br />

der ikke begås en type I fejl, hvis nul-hypotesen er<br />

korrekt,<br />

Størrelse<br />

=<br />

P(Nul-hypotesen accepteres | Sand nul-hypotese)<br />

Styrken er sandsynligheden for, at der ikke bliver<br />

begået en type II fejl, hvis nul-hypotesen er forkert,<br />

Styrke<br />

=<br />

P(Nul-hypotesen forkastes | Falsk nul-hypotese)<br />

36


Et eller flere statistiske tests for den<br />

samme hypotese?<br />

Et indirekte bevis vil ofte kræve, at man undersøger<br />

flere forskellige konsekvenser af antitesen, før<br />

man finder en, der er umulig.<br />

Analogien mellem signifikanstestet og det indirekte<br />

bevis lægger derfor op til at man beregner flere<br />

forskellige statistiske test, og forkaster nul-hypotesen,<br />

hvis man finder et stærkt signifikant<br />

testresultat.<br />

Det multiple testproblem: Hvis man beregner mere<br />

end et test er dette ganske besværligt at kontrollere<br />

størrelsen af testet.<br />

37


Om brugen af<br />

korrelationskoefficienter som<br />

teststørrelser<br />

Argumentationen bag brugen af korrelationskoefficienter<br />

som teststørrelser:<br />

a) Hvis de to variable er uafhængige, vil den<br />

teoretiske korrelationskoefficient være lig<br />

med nul.<br />

b) Da statistiske data er behæftet med en vis<br />

grad af tilfældig variation, vil den empiriske<br />

korrelationskoefficient ikke nødvendigvis<br />

være lig med nul. Den kan dog forventes at<br />

ligge tæt på denne værdi.<br />

c) En empirisk korrelationskoefficient, der ligger<br />

relativt langt fra værdien 0, er et udtryk<br />

for manglende overensstemmelse mellem<br />

nul-hypotesens påstand om uafhængighed,<br />

og den korrelation, der er fundet i data.<br />

38


Kritiske områder for<br />

korrelationskoefficienter<br />

Korrelationskoefficientens værdiområde<br />

opdeles i to områder,<br />

- et kritisk område med værdier, der ligger<br />

langt fra nul, og hvor der kun er en lille<br />

sandsynlighed – f.eks. 5% - for at komme<br />

ud, hvis variablene er uafhængige,<br />

- et ikke-kritisk område af værdier tæt på nul,<br />

med en stor sandsynlighed for at finde den<br />

korrelationskoefficient, hvis hypotesen er<br />

sand.<br />

K = korrelationskoefficienten<br />

κ = en kritisk værdi således at<br />

P(K ≤ -κ ) + P(K ≥ κ) = 0.05<br />

p = P(K ≤ -k) + P(K ≥ k)<br />

-1 -κ 0 +κ +1<br />

39


Konverteringen af gammakoefficienten<br />

til en statistisk<br />

teststørrelse:<br />

Standardfejlen, SE 0 (γ), for γ-koefficienten<br />

beregnes under forudsætning af at nul-hypotesen<br />

er korrekt. Dvs. under forudsætning<br />

af, at γ = 0.<br />

Derefter beregnes en standardiseret teststørrelse,<br />

Z = γ/SE 0 (γ). Da γ er tilnærmelsesvist<br />

normalfordelt vil Z tilnærmelsesvis<br />

have en standardiseret normalfordeling.<br />

Antag at z 0 er den observerede værdi af<br />

den standardiserede γ-koefficient. p-værdien<br />

kan herefter beregnes som summen<br />

af to sandsynligheder fra den standardiserede<br />

normalfordeling:<br />

p = P(Z≤-|z 0 |) + P(Z≥+|z 0 |)<br />

40


Rygevaner og helbred<br />

helbred som 51 årig<br />

rygevaner<br />

som 45 årig<br />

Total<br />

aldrig<br />

nej<br />

1-14<br />

15-24<br />

25+<br />

usædvanlig<br />

godt godt<br />

mindre<br />

godt<br />

elendigt<br />

Total<br />

16 73 6 1 96<br />

16,7% 76% 6,3% 1,0% <strong>10</strong>0%<br />

15 75 6 96<br />

15,6% 78% 6,3% <strong>10</strong>0%<br />

13 59 7 1 80<br />

16,3% 74% 8,8% 1,3% <strong>10</strong>0%<br />

<strong>10</strong> 81 17 3 111<br />

9,0% 73% 15,3% 2,7% <strong>10</strong>0%<br />

1 29 3 1 34<br />

2,9% 85% 8,8% 2,9% <strong>10</strong>0%<br />

55 317 39 6 417<br />

13,2% 76% 9,4% 1,4% <strong>10</strong>0%<br />

γ = 0.242.<br />

Standardfejl under nul-hypotesen = 0.07334.<br />

Z = 3.30.<br />

p = P(Z ≤ -3.300) + P(Z ≥ 3.300) = 0.00098<br />

γ-koefficienten omstøder den konklusion,<br />

som χ 2 -testet kom frem til.<br />

41


Ensidede eller tosidede test<br />

Retningsbestemte hypoteser<br />

Den faglige arbejdshypotese:<br />

de, der ryger mest, har det dårligste helbred.<br />

Dette bør derfor også være alternativet til den<br />

statistiske nul-hypotese.<br />

Kritiske områder for ensidede test<br />

-1 0 +κ +1<br />

Ensidede p-værdier<br />

p = P(Z ≥ z 0 )<br />

p<br />

ensi det<br />

=<br />

p<br />

tosi det<br />

γ-koefficienten for sammenhængen<br />

mellem rygevaner og helbred har en<br />

ensidet p-værdi er på 0.00049.<br />

2<br />

42

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!