Kapitel 10

Signifikanstestet 

Fordeling af rygevaner som 45-årig og senere 

selvrapporteret helbred som 51-årig blandt tilfældigt 

udvalgte mænd i Københavns Amt i 1987. 

helbred som 51 årig 

rygevaner 

som 45 årig 

Total 

aldrig 

nej 

1-14 

15-24 

25+ 

usædvanlig 

godt godt 

mindre 

godt 

elendigt 

Total 

16 73 6 1 96 

16,7% 76% 6,3% 1,0% 100% 

15 75 6 96 

15,6% 78% 6,3% 100% 

13 59 7 1 80 

16,3% 74% 8,8% 1,3% 100% 

10 81 17 3 111 

9,0% 73% 15,3% 2,7% 100% 

1 29 3 1 34 

2,9% 85% 8,8% 2,9% 100% 

55 317 39 6 417 

13,2% 76% 9,4% 1,4% 100% 

Hvordan kan man ved hjælp af tallene i tabellen 

påvise eller i det mindste understøtte en 

hypotese om at rygning er en helbredsmæssig 

risikofaktor? At helbredet forringes, jo mere 

man ryger? 

1

Arbejdsgangen i statistiske 

signifikanstest 

1) Definition af nul-hypotese og alternativ 

2) Valg og beregning af teststørrelse 

3) Fastlæggelse af kritisk niveau og 

kritiske værdier for teststørrelsen 

4) Beregning af signifikanssandsynligheden 

(p-værdien) 

5) Valg mellem nul-hypotese eller 

alternativ 

2

Nul-hypotese og alternativ 

Nul-hypotesen (H0) 

Ingen sammenhæng mellem rygning 

og helbred 

Alternativ 

Rygningen påvirker helbredet 

Hvilken en af de to påstande kan 

opfattes som arbejdshypotesen? 

3

Valg af teststørrelse 

Teststørrelse 

= 

Et talmæssigt udtryk for tilpasningen 

mellem nul-hypotesen og data. 

Teststørrelsen konstrueres som regel 

således at store værdier er udtryk for 

stor afstand mellem nul-hypotese og 

data. 

4

χ 2 -testet 

måler for afstanden mellem hypotese og 

data 

1) Beregning af forventede værdier der 

svarer fuldstændigt til nul-hypotesen. 

2) Residualer =Afstanden mellem 

observerede og forventede værdier 

beregnes for hver enkelt celle i 

tabellen. 

3) Den samlede afstand = en vægtet sum 

af de kvadrerede residualer. 

nulhypotese 

Forventede 

værdier 

afstand 

Observeret 

tabel 

5

Beregning af χ 2 -teststørrelsen 

Tabellen med forventede værdier 

1) Tabellen skal indeholde det samme 

antal personer som den observerede 

tabel. 

2) Fordelingen af disse personer mht. 

rygevaner og mht. helbred skal være 

den samme som i den observerede 

tabel. 

3) I følge nul-hypotesen er fordelingen 

af helbredet den samme for alle rygekategorier. 

Tabellen med forventede 

værdier skal derfor have de samme 

procentvise helbredsfrekvenser, for 

de forskellige rygevaner og de samme 

som den marginale fordeling af helbredet. 

6

Standardterminologi for tovejstabeller: 

n ij = antallet af personer i cellen i den 

i’te række og den j’te søjle af den 

observerede tabel. 

n i∗ = 

n ∗j = 

∑ n 

j ij = det samlede antal personer i 

den i’te række af den observerede 

tabel. 

∑ n 

i ij = det samlede antal personer i 

den j’te søjle af den observerede 

tabel. 

n ∗∗ = ∑ij n 

ij 

= det samlede antal personer i 

den observerede tabel. 

7

Forventede værdier: 

e ij = det forventede antallet af personer 

i cellen i den i’te række og den j’te 

søjle. 

e i∗ = 

e ∗j = 

∑ e 

j ij = det samlede antal personer i 

den i’te række af tabellen med forventede 

værdier. 

∑ e 

i ij = det samlede antal personer i 

den j’te søjle af tabellen med forventede 

værdier. 

e ∗∗ = ∑ij e 

ij 

= det samlede antal personer i 

tabellen med forventede værdier. 

8

Kravene til de forventede værdier: 

e i∗ = n i∗ , 

e ∗j = n ∗j , 

e ∗∗ = n ∗∗ . 

e e n 

= = 

e n n 

ij ij • j 

i 

• i 

• •• 

hvilket vil sige, at 

e 

ij 

= 

n n 

• j i 

• 

n 

•• 

9

Forventede værdier under 

nul-hypotesen om, at rygevaner og 

helbred er uafhængige. 

rygevaner 

som 45 årig 

Total 

aldrig 

nej 

1-14 

15-24 

25+ 

usædvanlig 

godt godt 


mindre 

godt 

elendigt 

Total 

12,7 73,0 9,0 1,4 96,0 

12,7 73,0 9,0 1,4 96,0 

10,6 60,8 7,5 1,2 80,0 

14,6 84,4 10,4 1,6 111,0 

4,5 25,8 3,2 ,5 34,0 

55,0 317,0 39,0 6,0 417,0 

10

Residualerne 

Residualer = observeret – forventet 

res ij = n ij - e ij 

Residualer for sammenhængen mellem 

rygevaner og helbred. 

rygevaner 

som 45 årig 

aldrig 

nej 

1-14 

15-24 

25+ 


usædvanlig 

godt godt 

mindre 

godt 

elendigt 

3,3 ,0 -3,0 -,4 

2,3 2,0 -3,0 -1,4 

2,4 -1,8 -,5 -,2 

-4,6 -3,4 6,6 1,4 

-3,5 3,2 -,2 ,5 

11

Den samlede χ 2 -afstand 

En vægtet sum af de kvadrerede 

residualer. 

Hvert enkelt kvadreret residual tildeles 

en vægt, der er omvendt proportional 

med det forventede antal i den celle, som 

residualværdien er taget fra: 

(n − e ) 

2 

2 

ij ij 

χ = ∑ 

= 

eij 

16,2 

Det største bidrag til denne værdi: 

tobaksforbrug = 15-24 cigaretter om dagen 

helbred = ”mindre godt”. 

Forventet = 10.4. 

Observeret = 17 

χ 2 bidraget = 

2 

(17 −10.4) 

= 4.19 

10.4 

Er en χ 2 værdi på 16,2 udtryk for god 

tilpasning til nul-hypotesen? 

12

Kritiske værdier 

χ 2 -testet er defineret således at værdien 0 er et 

udtryk for perfekt tilpasning mellem nulhypotese 

og data 

Værdiområdet for χ 2 deles op i to dele: 

a) Små værdier – ikke kritiske for nulhypotesen. 

Hvis test-størrelsen ligger i 

dette område accepteres hypotesen. 

b) Store værdier – kritiske for nulhypotesen. 

Hvis test-størrelsen ligger i 

dette område forkastes hypotesen. 

Grænseværdien mellem det ikke-kritiske 

og det kritiske område omtales som den 

kritiske værdi. 

13

Teststørrelsen, T, er en funktion af data 

og er derfor præget af en vis grad af 

tilfældighed med sandsynligheder, der 

kan beregnes. 

Den kritiske værdi fastlægges, således at 

der kun er en lille sandsynlighed for at 

forkaste nul-hypotesen hvis nul-hypotesen 

er sand 

α = P(T ≥ t kritisk ) 

= 

testets niveau 

α, skal være et lille tal således at der kun 

er en lille risiko for at forkaste en nulhypotese, 

hvis den er sand. 

Tommelfingerreglen 

Det er almen praksis at sætte α = 0.05. 

14

χ 2 -teststørrelsens fordeling 

Hvad er P(χ 2 ≥16.2)? 

Hvis nul-hypotesen om uafhængighed 

for en tabel med r rækker og s søjler 

er korrekt, vil χ 2 -testet være tilnærmelsesvist 

fordelt som en χ 2 -fordeling 

med et antal frihedsgrader, der er lig 

med (r-1)(s-1). 

Tilpasningen mellem den eksakte og 

den approksimative fordeling for χ 2 - 

teststørrelsen er alt andet lige bedre, 

jo flere observationer, der er i tabellen. 

15

Kritiske værdier 

Kritiske værdier for χ 2 -testet 

Kritisk niveau 

antal frihedsgrader 5 % 1 % 

1 3.84 6.64 

2 5.99 9.21 

3 7.81 11.34 

4 9.49 13.28 

5 11.07 15.09 

6 12.59 16.81 

7 14.07 18.48 

8 15.51 20.09 

9 16.92 21.67 

10 18.31 23.21 

15 25.00 30.58 

20 31.41 37.57 

25 37.65 44.31 

SPSS kan overtales til at beregne signifikanssandsynligheder 

for χ 2 -testet ved hjælp af 

syntaks-filen, PCHI.SPS. 

16

Rygevaner og helbred 

Antallet af frihedsgrader er lig med 

(5-1)(4-1) = 12, 

P(χ 2 (12) ≥ 16.2) er lig med 0.182. 

χ 2 -testet er ikke signifikant. 

Nul-hypotesen om uafhængighed 

bliver derfor accepteret. 

Ifølge χ²-testet er der altså ikke 

statistisk belæg for at påstå at 

rygevanerne påvirker helbredet. 

Sammenhængen var ellers tydelig at se 

i tabellen. Kan vi have begået en fejl? 

17

Type I fejl 

Hvis man forkaster en sand nul-hypotese 

begår man en type I fejl 

Konventionelle signifikanstest har derfor 

en risiko på 5% for type I fejl. 

Men husk at valget af niveauet for 

statistiske test er arbitrært. 

Hvis man derfor vælger at foretage et test 

på 5% niveau betyder det at man synes 

man kan leve med en type I risiko på 5 % 

18

Type II fejl 

Signifikansniveauet for testet blev valgt 

således at der kun var 5 % risiko for at 

forkaste hypotesen, selvom den var sand 

(type I risikoen). 

Risikoen for at acceptere en nul-hypotese, 

der i virkeligheden er falsk omtales som 

en type II risiko. 

Risikoen for en type II risiko kan ikke 

beregnes, men man kan ofte skelne 

mellem test med stor type II risiko og 

teststørrelser med mindre type II risiko. 

Er χ 2 -testets type II risiko optimal eller 

kan vi gøre noget bedre? (spørgsmålet besvares senere). 

19

Signifikanssandsynligheder 

Signifikansen vurderes lettest, hvis man 

beregner sandsynligheden (p-værdien) for 

at få et testresultat der mindst er lige så 

kritisk for nul-hypotesen som den observerede 

testværdi, 

p = P(T ≥ t obs ) 

En χ²-værdi på 16,2 med 12 frihedsgrader 

svarer til en p-værdi på 18,2 %. 

Denne værdi er klart større end 5 %, og vi 

kan derfor endnu engang konstatere, at 

χ²-testet ikke er signifikant. 

χ²-testet accepterer nul-hypotesen om, at 

der ikke er sammenhæng mellem rygning 

og helbred. 

20

Test-logiske problemer 

Hvad er relationen mellem den faglige 

hypotese og den statistiske nul-hypotese? 

Hvad er logikken i det statistiske tests 

bevisførelse? Hvad bliver bevist og hvad 

bliver ikke bevist? 

Teststørrelsen. Ud fra hvilke principper 

skal man vælge blandt de mange forskellige 

teststørrelser, som den teoretiske statistik 

udbyder? 

Om brugen af flere forskellige statistiske 

tests til at afprøve den samme nul-hypotese. 

Kan man tillade sig at bruge mere 

end et statistisk test? 

Hvordan skal signifikanssandsynligheden 

vurderes og tolkes, og - især - hvad må 

man ikke lægge i p-værdierne? 

21

Signifikanstestets logik 

Problem 1: 

Der er et misforhold mellem den fagligt 

begrundede arbejdshypotese og statistikernes 

nul-hypotese: 

Arbejdshypotesen 

Rygning forringer på langt sigt helbredet. 

Årsagen til problemet: Tabellen støtter arbejdshypotesen, 

men der er tale om få personer, og en 

høj grad af indbygget usikkerhed. Tabellen er 

derfor ikke i sig selv et bevis for den statistiske 

sammenhæng mellem rygning og helbred, selvom 

tendensen bekræfter arbejdshypotesen. 

22

Løsningen på problemet: 

Signifikanstestets argumentation svarer til 

det, der omtales som et indirekte bevis i 

matematikken. 

I stedet for at ”bevise”, at der er sammenhæng 

mellem rygevaner og helbred, forsøger 

testet at vise, at det modsatte – at der 

ikke er sammenhæng – har nogle usandsynlige 

konsekvenser. 

23

Det indirekte matematiske bevis 

Et indirekte bevis, er et bevis, hvor man forsøger 

at vise en matematisk sætning, A, ved at 

vise, at det fører til umulige konsekvenser at 

antage at sætningen ikke er korrekt. 

Det indirekte bevis omfatter tre trin: 

1) Antag først, at den såkaldte antitese, at A 

ikke gælder, er korrekt. Antitesen til A 

angives som regel som ¬ A i betydningen 

”ikke A”. 

2) Udled en eller flere logiske konsekvenser af 

¬ A. 

3) Afprøv, om der er en eller flere af disse 

logiske konsekvenser, der er umulige. 

Hvis en af de nævnte konsekvenser af antitesen, 

der er umulig (falsk), må antitesen også 

være falsk. Altså følger det, at sætningen, A. 

må være sand. 

24

Nul-hypotesen og alternativet 

Da data i sig selv ikke kan bevise, at en 

arbejdshypotese er korrekt, forsøger man 

i stedet at gennemføre noget, der svarer til 

et indirekte bevis med den væsentlige forskel, 

at ordet umulig erstattes med ordet 

usandsynlig. 

”Sætningen”, som man ønsker at bevise, 

er, at der er sammenhæng mellem 

rygevaner og helbred. 

Antitesen er den statistiske nul-hypotese: 

Der er ikke sammenhæng mellem rygevaner 

som 45-årig og helbred som 51- 

årig. 

Nul-hypotesen opstilles med den hensigt at 

forsøge at få den afkræftet på en så overbevisende 

måde, som overhovedet muligt. 

25

Det statistiske signifikanstest og den dertil 

knyttede signifikanssandsynlighed er et 

udtryk for en ”logisk” konsekvens af nulhypotesen. 

Hvis nul-hypotesen er korrekt, kan 

der lægges nogle grænser som det vil være 

usandsynligt, at teststørrelsen overskrider. 

F.eks.: Hvis nul-hypotesen, at rygevaner og 

helbred er uafhængige, er korrekt, følger det , 

at der kun er en sandsynlighed på 0.00000209 

for at opnå en χ 2 -teststørrelse på 50 eller derover. 

En teststørrelse af en sådan størrelsesorden er 

ikke umulig, men den er så usandsynlig, at det 

har mening at sige, at den er næsten umulig. 

26

Desværre var det i stedet den mere 

beskedne værdi på 16.2, der dukkede op, 

da χ 2 -testet blev beregnet. 

Det er derfor ikke lykkedes at påvise, at 

rygning skulle være helbredsforringende. 

Er sagen dermed afsluttet? 

27

Statistisk evidens 

Afdækning af indirekte statistisk evidens 

omfatter tre trin, svarende til trinene i det 

indirekte matematiske bevis: 

1) Antag først at nul-hypotesen, dvs. 

alternativet til arbejdshypotesen, er 

korrekt. 

2) Beregn en eller flere teststørrelser. 

3) Afprøv, om der er en eller flere af 

værdierne af disse teststørrelser, der er 

usandsynlige. 

28

Årsager til at man skal passe på såkaldt 

bevisførelse i forbindelse med statistiske 

analyser: 

Det er, at ordet ”umulig”, er blevet erstattet 

af ordet ”usandsynlig”. Testproceduren 

indebærer altid en vis risiko for fejl. 

De færreste vil betragte en hændelse, der 

forekommer med sandsynligheden, 0,05, 

som en hændelse, der kan kaldes ”usandsynlig 

grænsende til det umulige”. 

De konventioner, der foreskriver, at det 

kritiske niveau for et statistisk test skal 

være lig med 5 %, understøtter derfor 

ikke umiddelbart tolkningen af et statistisk 

test som en procedure, der afslører 

forekomst af usandsynlige hændelser. 

29

Forslaget om, at der beregnes ”en eller flere” 

teststørrelser, betragtes som kontroversielt 

pga. sandsynlighedsteoretiske problemer. 

Der kan ikke fastlægges et entydigt 

kritisk niveau for en testprocedure 

omfattende to eller flere statistiske teststørrelser, 

eller beregnes sandsynligheder, 

der kan fortælle noget om den samlede 

grad af usikkerhed for alle teststørrelser. 

I stedet for at tale om statistiske beviser 

er det bedre at benytte udtrykket, 

statistisk evidens, fordi det er et svagere 

og mindre ambitiøst begreb. 

30

Graden af signifikans 

Forskellige grader af signifikans 

Signifikans p-værdier Betydning 

svag 0.01 

moderat 0.001 

stærk p ≤ 0.001 Usandsynlig 

Det er kun stærkt signifikante p-værdier, 

der kan tolkes som udtryk for, at 

der er observeret en ”næsten” umulig 

teststørrelse. 

Hvis p-værdierne er moderate eller 

svage, er bevisets stilling tilsvarende 

svag. 

31

Når nul-hypotesen accepteres 

Konklusion nr. 1: 

Det har ikke været mulig at påvise en 

sammenhæng mellem rygevaner og helbred 

32

Hvad der skal til for at begrunde følgende 

noget stærkere konklusion? 

Konklusion 2: 

Der er ikke sammenhæng mellem rygevaner 

og helbred 

Der skal være tale om klart insignifikante 

testresultater. 

Man skal kunne overbevise andre om, at 

man har gjort alt, hvad der overhovedet 

kunne gøres for at få forkastet nulhypotesen. 

Man skal kunne forklare, hvorfor de faglige 

argumenter, der ligger bag arbejdshypotesen, 

alligevel ikke er korrekte. 

Man skal kunne forklare, hvorfor eventuelle 

tidligere resultater, der understøttede 

arbejdshypotesen, var forkerte. 

33

To naturlige, men alligevel forkerte fortolkninger 

af p-værdierne. 

p-værdien er et mål for sandsynligheden for 

at nul-hypotesen er korrekt. 

p-værdien er et mål for styrken af sammenhængen 

mellem to variable. 

Signifikanssandsynligheden afhænger af 

to argumenter, sammenhængens styrke og 

stikprøvens størrelse, 

p = f(styrke,størrelse) 

p-værdien kan derfor ikke 

udelukkende tolkes som et udtryk for 

det ene af disse argumenter. 

34

Den eneste tolkning, der holder 

p-værdien er et udtryk for om det, der er 

blevet observeret, er mere eller mindre 

sandsynligt under de betingelser, som 

nul-hypotesen definerer. 

35

To fejltyper: 

Statistiske fejlslutninger 

Fejl af type I forekommer, når man forkaster en 

rigtig nul-hypotese. 

Fejl af type II forekommer, når man accepterer en 

forkert nul-hypotese. 

Krav til testenes størrelse og styrke er krav der 

begrænser risikoen for statistiske fejl. 

Testets størrelse er lig med sandsynligheden for, at 

der ikke begås en type I fejl, hvis nul-hypotesen er 

korrekt, 

Størrelse 

= 

P(Nul-hypotesen accepteres | Sand nul-hypotese) 

Styrken er sandsynligheden for, at der ikke bliver 

begået en type II fejl, hvis nul-hypotesen er forkert, 

Styrke 

= 

P(Nul-hypotesen forkastes | Falsk nul-hypotese) 

36

Et eller flere statistiske tests for den 

samme hypotese? 

Et indirekte bevis vil ofte kræve, at man undersøger 

flere forskellige konsekvenser af antitesen, før 

man finder en, der er umulig. 

Analogien mellem signifikanstestet og det indirekte 

bevis lægger derfor op til at man beregner flere 

forskellige statistiske test, og forkaster nul-hypotesen, 

hvis man finder et stærkt signifikant 

testresultat. 

Det multiple testproblem: Hvis man beregner mere 

end et test er dette ganske besværligt at kontrollere 

størrelsen af testet. 

37

Om brugen af 

korrelationskoefficienter som 

teststørrelser 

Argumentationen bag brugen af korrelationskoefficienter 

som teststørrelser: 

a) Hvis de to variable er uafhængige, vil den 

teoretiske korrelationskoefficient være lig 

med nul. 

b) Da statistiske data er behæftet med en vis 

grad af tilfældig variation, vil den empiriske 

korrelationskoefficient ikke nødvendigvis 

være lig med nul. Den kan dog forventes at 

ligge tæt på denne værdi. 

c) En empirisk korrelationskoefficient, der ligger 

relativt langt fra værdien 0, er et udtryk 

for manglende overensstemmelse mellem 

nul-hypotesens påstand om uafhængighed, 

og den korrelation, der er fundet i data. 

38

Kritiske områder for 

korrelationskoefficienter 

Korrelationskoefficientens værdiområde 

opdeles i to områder, 

- et kritisk område med værdier, der ligger 

langt fra nul, og hvor der kun er en lille 

sandsynlighed – f.eks. 5% - for at komme 

ud, hvis variablene er uafhængige, 

- et ikke-kritisk område af værdier tæt på nul, 

med en stor sandsynlighed for at finde den 

korrelationskoefficient, hvis hypotesen er 

sand. 

K = korrelationskoefficienten 

κ = en kritisk værdi således at 

P(K ≤ -κ ) + P(K ≥ κ) = 0.05 

p = P(K ≤ -k) + P(K ≥ k) 

-1 -κ 0 +κ +1 

39

Konverteringen af gammakoefficienten 

til en statistisk 

teststørrelse: 

Standardfejlen, SE 0 (γ), for γ-koefficienten 

beregnes under forudsætning af at nul-hypotesen 

er korrekt. Dvs. under forudsætning 

af, at γ = 0. 

Derefter beregnes en standardiseret teststørrelse, 

Z = γ/SE 0 (γ). Da γ er tilnærmelsesvist 

normalfordelt vil Z tilnærmelsesvis 

have en standardiseret normalfordeling. 

Antag at z 0 er den observerede værdi af 

den standardiserede γ-koefficient. p-værdien 

kan herefter beregnes som summen 

af to sandsynligheder fra den standardiserede 

normalfordeling: 

p = P(Z≤-|z 0 |) + P(Z≥+|z 0 |) 

40

Rygevaner og helbred 


rygevaner 

som 45 årig 

Total 

aldrig 

nej 

1-14 

15-24 

25+ 

usædvanlig 

godt godt 

mindre 

godt 

elendigt 

Total 

16 73 6 1 96 

16,7% 76% 6,3% 1,0% 100% 

15 75 6 96 

15,6% 78% 6,3% 100% 

13 59 7 1 80 

16,3% 74% 8,8% 1,3% 100% 

10 81 17 3 111 

9,0% 73% 15,3% 2,7% 100% 

1 29 3 1 34 

2,9% 85% 8,8% 2,9% 100% 

55 317 39 6 417 

13,2% 76% 9,4% 1,4% 100% 

γ = 0.242. 

Standardfejl under nul-hypotesen = 0.07334. 

Z = 3.30. 

p = P(Z ≤ -3.300) + P(Z ≥ 3.300) = 0.00098 

γ-koefficienten omstøder den konklusion, 

som χ 2 -testet kom frem til. 

41

Ensidede eller tosidede test 

Retningsbestemte hypoteser 

Den faglige arbejdshypotese: 

de, der ryger mest, har det dårligste helbred. 

Dette bør derfor også være alternativet til den 

statistiske nul-hypotese. 

Kritiske områder for ensidede test 

-1 0 +κ +1 

Ensidede p-værdier 

p = P(Z ≥ z 0 ) 

p 

ensi det 

= 

p 

tosi det 

γ-koefficienten for sammenhængen 

mellem rygevaner og helbred har en 

ensidet p-værdi er på 0.00049. 

2 

42

Kapitel 10

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?