16.07.2013 Views

IDRÆTSSTATISTIK BIND 1 - Uvmat

IDRÆTSSTATISTIK BIND 1 - Uvmat

IDRÆTSSTATISTIK BIND 1 - Uvmat

SHOW MORE
SHOW LESS

Transform your PDFs into Flipbooks and boost your revenue!

Leverage SEO-optimized Flipbooks, powerful backlinks, and multimedia content to professionally showcase your products and significantly increase your reach.

<strong>IDRÆTSSTATISTIK</strong><br />

<strong>BIND</strong> 1


ii<br />

Det Naturvidenskabelige Fakultet<br />

Aarhus Universitet<br />

Reprocenter<br />

© Preben Blæsild og Jørgen Granfeldt 2001<br />

ISBN 87-87436-05-1 Bd.1


Forord<br />

Denne bog er skrevet til brug i et statistikkursus for bachelorstuderende ved Center for Idræt,<br />

Aarhus Universitet.<br />

Bag bogen ligger samme holdninger b˚ ade til statistisk anal yse og til begynderundervisning<br />

i statistik, der primært retter sig mod brugere, som i Blæsild og Granfeldt (2000) Statistik for<br />

biologer og geologer.<br />

Et vigtigt holdepunkt i statistisk analyse er modelbegrebet. Man vælger en statistisk model,<br />

som kan belyse den faglige problemstilling. Det vil sige, at parametrene i modellen kan fortol-<br />

kes i den faglige problemstilling, og at interessante faglige hypoteser svarer til restriktioner p˚ a<br />

parametrene. En faglig hypotese afprøves ved at undersøge (teste), om man kan acceptere en<br />

reduktion af modellen til en ny model, som er enklere ved at have færre parametre.<br />

Gør man sig det klart, kan man hurtigt lære at analysere temmelig komplicerede problem-<br />

stillinger korrekt. Ydermere bliver analysen til at følge ogs˚ a for folk, som hverken er specialister<br />

p˚ a det faglige omr˚ ade eller er professionelle statistike re.<br />

Et tidsvarende brugerkursus i statistik m˚ a benytte EDB og e n statistisk programpakke. Ved<br />

dette kursus er valgt regnearket Excel og den statistik pakke der under navnet Dataanalyse op-<br />

træder som et ”tilføjelsesprogram” til Excel, men der er ikke benyttet faciliteter, som er specielle<br />

for denne statistik pakke, og bogen kan uden vanskelighed anvendes sammen med andre statisti-<br />

ske programpakker. Argumentet for at benytte Excel er, at regnearket er tilgængeligt p˚ a de fleste<br />

PC-er imodsætning til mere kostbare og specialiserede statistiske programpakker s˚ asom for ek-<br />

sempel SAS, Genstat og BMDP. Disse programpakker er designet specielt til brug i forbindelse<br />

med statistisk analyse og kan derfor udføre beregningerne i meget mere avancerede statistiske<br />

modeller end regnearket Excel kan. Disse noter demonsterer forh˚ abenligt at i forbindels e med<br />

et elementært kursus i statistik er Excel et brugbart alternativ.<br />

N˚ ar man bruger statistiske programpakker i undervisninge n bliver modellerne, som beskre-<br />

vet ovenfor, det faste holdepunkt n˚ ar man skal orientere si g i udskrifterne. Man kan bruge en<br />

programpakke til statistisk analyse, n˚ ar man har lært dels at specificere modeller i programpak-<br />

ken og dels at teste reduktionen fra én model til en simplere ved at hente relevante oplysninger<br />

ud fra udskrifterne fra estimationen i de to modeller.<br />

iii


iv<br />

Kun af˚ kan lære statistik uden at af˚ metoderne ind gennem fin grene. Vi har derfor valgt<br />

b˚ ade at præsentere, hvordan de enkleste modeller kan regne s p˚ a lommeregner, og hvordan de<br />

kan regnes ved at orientere sig i udskrifter fra en programpakke. For normalfordelte data vises<br />

b˚ ade for én, to og k observationsrækker, samt én regressionslinje, hvordan modellerne regnes<br />

igennem p˚ a lommegner, mens en mere kompliceret model som to sidet variansanalyse kun skal<br />

kunne klares med henvisning til programudskrifter.<br />

Et statistikkursus for studerende, der ikke har et vist kendskab til de mest basale begreber<br />

i sandsynlighedsteorien, fremst˚ ar for os som en umulighed . I Kapitel 2 introduceres og/eller<br />

repeteres disse begreber, der illustreres ved en række eksempler, som er valgt ud fra det princip,<br />

at de matematisk skulle være lette at h˚ andtere. Kapitel 3 er at betragte som et katalog vedrørende<br />

definition af og egenskaber ved de fordelinger som anvendes i forbindelse med de statistiske<br />

modeller i de senere kapitler. Kaptitel 2 gennemg˚ as efter d iskussionen i Kapitel 1 af grafiske og<br />

numeriske metoder i forbindelse med beskrivende statistik. Herefter fortsættes med modellerne<br />

for normalfordelte data i Kapitel 4 idet de hertil relaterede fordelinger fra Kapitel 3 omtales<br />

undervejs. Efter adskillige eksempler p˚ a statistisk anal yse i forbindelse med normalfordelingen<br />

i Kapitel 4 diskuteres hovedtrækkene i en analyse af en parametrisk statistisk model i generelle<br />

termer i Kapitel 5. Derefter gennemg˚ as Kapitel 6 om multino mialfordelte data og Kapitel 7 om<br />

Poissonfordelte data. Bogen slutter med omtale af nogle simple ikke-parametriske test i Kapitel<br />

8. Som nævnt ovenfor foretrækker vi at betragte parametriske statistiske modeller. Form˚ alet<br />

med Kapitel 8 er at orientere læserne om at ikke alle deler denne holdning og for at give et kort<br />

indblik i de alternative metoder.<br />

Det vil være muligt at læse kapitlerne i en anden rækkefølge, men man skal være opmærk-<br />

som p˚ a, at de statistiske grundbegreber som nulhypotese, t est, testsandsynlighed, signifikansni-<br />

veau og s˚ a videre gennemg˚ as i forbindelse med Afsnit 4.2.<br />

Uden dataeksempler, som udspringer af en faglig problemstilling, bliver en lærebog til et<br />

brugerkursus i statistik temmelig uinteressant. En del af eksemplerne er taget fra Andersen<br />

(1998) Statistik for Idrætsstuderende med forfatterens tilladelse, hvilket vi er taknemmelige for.<br />

Vi vil ogs˚ a gerne takke medarbejdere og studerende ved Cent er for Idræt, Aarhus Universitet og<br />

ved Institut for Idræt, Københavns Universitet, som har stillet data og deres historie til adighed r˚<br />

for bogens eksempler og opgaver.<br />

Bogen er blevet brugt ved Idrætsstatistik i efter˚ aret 2000 og bygger p˚ a erfaringer fra et<br />

lignede kursus i efter˚ aret 1999 og en særlig tak g˚ ar til Jak ob Krabbe Pedersen og Lars Bo<br />

Kristensen for deres store indstats som instruktorer p˚ a di sse to kurser og for deres p˚ avisning af<br />

trykfejl.<br />

Bogen er skrevet LATEX, og Jacob Goldbach har skrevet de stylefiler i LATEX, som definerer


udseendet af bogen, men derudover har Jacob Goldbach almo t˚ digt besvaret utallige spørgsm˚ al<br />

om LATEX ligesom Frank Allan Hansen, Niels Væver Hartvig og Michael Kjærg˚ ard Sørensen<br />

velvilligt har assisteret os.<br />

I forhold til versionen af bogen fra maj 2001 er der rettet en del trykfejl og nogle af˚ figu-<br />

rer er blevet tilføjet. Vi vil gerne takke Lars Madsen for meget kompetent bistand med LATEX<br />

spørgsm˚ al i forbindelse med revisionen og Michael Kjærg˚ a rd Sørensen for at have produceret<br />

de nye figurer.<br />

˚Arhus, august 2005<br />

Preben Blæsild og Jørgen Granfeldt<br />

v


INDHOLD vii<br />

Indhold<br />

1 Data og beskrivende statistik 1.1<br />

1.1 Prik- og pindediagrammer . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4<br />

1.2 Histogrammer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5<br />

1.3 Empiriske størrelser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.7<br />

1.4 Grupperede data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.18<br />

1.5 Kvalitative data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.23<br />

1.6 Flerdimensionale data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.27<br />

Anneks til Kapitel 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.31<br />

Opgaver til Kapitel 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.41<br />

2 Begreber fra sandsynlighedsteorien 2.1<br />

2.1 Sandsynlighedsrum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1<br />

2.1.1 Definition af sandsynlighedsm˚ al . . . . . . . . . . . . . . . . . . . . . 2.1<br />

2.1.2 Regneregler for sandsynligheder . . . . . . . . . . . . . . . . . . . . 2.3<br />

2.1.3 Betingede sandsynligheder og uafhængighed . . . . . . . . . . . . . . 2.6<br />

2.2 Stokastiske variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.9<br />

2.2.1 Diskrete stokastiske variable . . . . . . . . . . . . . . . . . . . . . . . 2.12<br />

2.2.2 Kontinuerte stokastiske variable . . . . . . . . . . . . . . . . . . . . . 2.16<br />

2.3 Stokastiske vektorer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.19<br />

2.3.1 Diskrete stokastiske vektorer . . . . . . . . . . . . . . . . . . . . . . . 2.19<br />

2.3.2 Kontinuerte stokastiske vektorer . . . . . . . . . . . . . . . . . . . . . 2.20<br />

2.3.3 Marginale fordelinger . . . . . . . . . . . . . . . . . . . . . . . . . . 2.22<br />

2.3.4 Uafhængighed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.24<br />

2.3.5 Betingede fordelinger . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.25<br />

2.4 Middelværdi og varians . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.26<br />

Opgaver til Kapitel 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.32


viii INDHOLD<br />

3 Specielle fordelinger 3.1<br />

3.1 Normalfordelingen og relaterede fordelinger . . . . . . . . . . . . . . . . . . . 3.1<br />

3.1.1 Normalfordelingen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1<br />

3.1.2 Den todimensionale normalfordeling . . . . . . . . . . . . . . . . . . 3.4<br />

3.1.3 χ 2 -fordelingen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5<br />

3.1.4 t-fordelingen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.8<br />

3.1.5 F-fordelingen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.10<br />

3.2 Diskrete fordelinger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.12<br />

3.2.1 Binomialfordelingen . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.12<br />

3.2.2 Multinomialfordelingen . . . . . . . . . . . . . . . . . . . . . . . . . 3.15<br />

3.2.3 Poissonfordelingen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.16<br />

3.2.4 Den hypergeometriske fordeling . . . . . . . . . . . . . . . . . . . . . 3.17<br />

3.2.5 Den negative binomialfordeling . . . . . . . . . . . . . . . . . . . . . 3.19<br />

Opgaver til Kapitel 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.22<br />

4 Normalfordelte data 4.1<br />

4.1 Fraktilsammenligning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2<br />

4.1.1 Ugrupperede observationer . . . . . . . . . . . . . . . . . . . . . . . . 4.2<br />

4.1.2 Grupperede data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.7<br />

4.1.3 Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.8<br />

Anneks til Afsnit 4.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.10<br />

4.2 Én observationsrække med kendt varians . . . . . . . . . . . . . . . . . . . . . 4.13<br />

Anneks til Afsnit 4.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.19<br />

Hovedpunkter til Afsnit 4.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.20<br />

4.3 Én observationsrække med ukendt varians . . . . . . . . . . . . . . . . . . . . 4.21<br />

Anneks til Afsnit 4.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.28<br />

Hovedpunkter til Afsnit 4.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.30<br />

4.4 To observationsrækker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.32<br />

4.4.1 Test for varianshomogenitet . . . . . . . . . . . . . . . . . . . . . . . 4.35<br />

4.4.2 Ens varians . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.38<br />

4.4.3 Forskellig varians . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.42<br />

4.4.4 Parrede observationer . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.45<br />

Anneks til Afsnit 4.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.50<br />

Hovedpunkter til Afsnit 4.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.55<br />

4.5 k observationsrækker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.59<br />

4.5.1 Test for varianshomogenitet . . . . . . . . . . . . . . . . . . . . . . . 4.61


INDHOLD ix<br />

4.5.2 Test for ens middelværdier . . . . . . . . . . . . . . . . . . . . . . . . 4.64<br />

4.5.3 Forskelle og ligheder i behandlingen af to og k observationsrækker . . . 4.68<br />

4.5.4 Notation og test i forbindelse med en følge af modeller . . . . . . . . . 4.69<br />

Anneks til Afsnit 4.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.70<br />

Hovedpunkter til Afsnit 4.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.73<br />

4.6 Lineær regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.76<br />

4.6.1 Lineær regression uden gentagelser . . . . . . . . . . . . . . . . . . . 4.76<br />

4.6.2 Lineær regression med gentagelser . . . . . . . . . . . . . . . . . . . . 4.83<br />

4.6.3 Hypoteser om regressionsparametrene . . . . . . . . . . . . . . . . . . 4.90<br />

4.6.4 Korrelation og/eller regression . . . . . . . . . . . . . . . . . . . . . . 4.94<br />

Anneks til Afsnit 4.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.101<br />

Hovedpunkter til Afsnit 4.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.106<br />

4.7 Tosidet variansanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.111<br />

Anneks til Afsnit 4.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.135<br />

Hovedpunkter til Afsnit 4.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.137<br />

Opgaver til Kapitel 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.142<br />

Indeks I.1<br />

5 Statistisk analyse 5.1<br />

5.1 Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2<br />

5.2 Modelopstilling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2<br />

5.3 Modelkontrol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4<br />

5.4 Statistisk inferens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5<br />

5.5 Likelihood inferens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.7<br />

5.6 Begreber fra generel testteori . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.14<br />

5.7 Approksimativ likelihood teori . . . . . . . . . . . . . . . . . . . . . . . . . . 5.17<br />

5.8 Afsluttende bemærkninger . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.22<br />

Opgaver til Kapitel 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.23<br />

6 Multinomialfordelte data 6.1<br />

6.1 Eksempler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2<br />

6.2 Inferens i én multinomialfordeling. . . . . . . . . . . . . . . . . . . . . . . . . 6.4<br />

6.2.1 Test af simpel hypotese . . . . . . . . . . . . . . . . . . . . . . . . . . 6.10<br />

6.2.2 Uafhængighed af inddelingskriterier . . . . . . . . . . . . . . . . . . . 6.11<br />

6.3 Inferens i flere multinomialfordelinger . . . . . . . . . . . . . . . . . . . . . . 6.15


x INDHOLD<br />

6.3.1 Homogenitet af flere multinomialfordelinger . . . . . . . . . . . . . . 6.15<br />

6.4 Fishers eksakte test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.19<br />

6.5 Test for goodness of fit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.24<br />

Anneks til Kapitel 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.28<br />

Hovedpunkter til Kapitel 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.31<br />

Opgaver til Kapitel 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.35<br />

7 Poissonfordelte data 7.1<br />

7.1 Eksempler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2<br />

7.2 Sandsynlighedsteoretiske resultater vedrørende Poissonfordelingen . . . . . . . 7.3<br />

7.3 Én observationsrække . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.7<br />

7.4 Inferens i flere fordelinger . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.11<br />

7.4.1 Poissonmodellen med proportionale parametre . . . . . . . . . . . . . 7.12<br />

7.4.2 Den multiplikative Poissonmodel . . . . . . . . . . . . . . . . . . . . 7.18<br />

Anneks til Kapitel 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.29<br />

Hovedpunkter til Kapitel 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.33<br />

Opgaver til Kapitel 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.39<br />

8 Ikke-parametriske test 8.1<br />

8.1 Fortegnstestet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2<br />

8.2 Rangtest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.4<br />

8.2.1 Wilcoxons test for én observationsrække . . . . . . . . . . . . . . . . 8.5<br />

8.2.2 Wilcoxons test for to observationsrækker . . . . . . . . . . . . . . . . 8.7<br />

8.2.3 Kruskal-Wallis test . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.11<br />

Anneks til Kapitel 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.15<br />

Hovedpunkter til Kapitel 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.18<br />

Opgaver til Kapitel 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.21<br />

A Forskellige matematiske begreber A.1<br />

A.1 Notation fra mængdelæren . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.1<br />

A.2 Rækker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.3<br />

A.3 Dobbeltintegraler og partiel differentiation . . . . . . . . . . . . . . . . . . . . A.4<br />

A.3.1 Dobbeltintegraler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.5<br />

A.3.2 Partiel differentiation . . . . . . . . . . . . . . . . . . . . . . . . . . . A.5<br />

B Simulerede fraktildiagrammer B.1


INDHOLD xi<br />

C Matematiske symboler C.1<br />

D Det græske alfabet D.1<br />

Indeks I.1


xii INDHOLD


1 Data og beskrivende statistik 1.1<br />

1 Data og beskrivende statistik<br />

Udgangspunktet for en statistisk analyse er et datasæt x, der er resultatet af et eksperiment,<br />

udført med det form˚ al at af˚ indblik i en speciel faglig sammenhæng. Betegnelsen eksperiment<br />

skal her forst˚ as i en bred forstand. Data fra idræt kan eksem pelvis være bestemmelser af kondi-<br />

tal, hæmaglobinindhold, hæmatokritværdier eller andre fysiologiske størrelser hos en gruppe af<br />

personer. Ofte foretages disse m˚ alinger p˚ a den samme grup pe personer til forskellige tidspunk-<br />

ter for at vurdere effekten p˚ a disse størrelser af træning, konkurrence eller andre p˚ avirkninger.<br />

Data kan ogs˚ a være resultater af konkurrencer eller turner inger indsamlet med henblik p˚ a at<br />

sammenligne personers eller holds præstationer.<br />

Karakteristisk for et datasæt x i et eksperiment er, at det er stokastisk; det vil sige, at hvis man<br />

gentager eksperimentet eller m˚ alingerne under lignende o mstændigheder, bliver resultatet ikke<br />

nødvendigvis x. Dette er i modsætning til en deterministisk situation, hvor udfald p˚ a forh˚ and<br />

kan bestemmes med sikkerhed. Men selv om udfaldene af eksperimentet ikke kan angives p˚ a<br />

forh˚ and er der ofte en regelmæssighed p˚ a et højere niveau, som man netop kan erkende, hvis<br />

forsøget gentages mange gange. En byggesten i beskrivelsen af et eksperiment er derfor en<br />

sandsynlighedsteoretisk model.<br />

De relevante begreber fra sandsynlighedsteorien er resumeret i Kapitel 2. Her nævner vi blot,<br />

at en sandsynlighedsteoretisk model best˚ ar af tre kompone nter: 1) udfaldsrummet, X , som er<br />

samtlige værdier (udfald), som eksperimentet kan a; f˚ 2) hændelsessystemet, F , som omfatter<br />

alle de hændelser vi vil betragte; og 3) sandsynlighedsm˚alet, P, som angiver sandsynligheden<br />

af alle hændelser i F .<br />

Det stokastiske element i et eksperiment beskrives af hændelsessystemet og sandsynlig-<br />

hedsm˚ alet, som beskriver alle hændelser vi er interessere de i og deres sandsynligheder. Vi be-<br />

skriver ofte det stokastiske ved et datasæt ved at opfatte data x som en udfald af en stokastisk<br />

vektor X hvis fordeling er bestemt af sandsynlighedsm˚ alet P.<br />

Det første punkt i en statistisk analyse er at opstille en brugbar statistisk model for det<br />

aktuelle datasæt, hvilket undertiden kan være en besværlig opgave. Dette punkt er ofte det van-<br />

skeligste i en statistisk analyse. Mange faktorer spiller ind, n˚ ar en model for data skal opstilles,<br />

for eksempel m˚ aden data er indsamlet p˚ a, information om de n faglige problemstilling data skal


1.2<br />

belyse, erfaringer - personlige eller erhvervet ved litteraturstudier - fra analyser af lignende<br />

problemer. Statistikeren benytter sig ved modelformuleringen af information, som stammer fra<br />

forskellige sammenfatninger af data, s˚ asom tabelleringe r og/eller grafiske repræsentationer af<br />

data. Ved modelopstillingen skal man tage højde for, at den statistiske model skal være til-<br />

strækkelig simpel fra et matematisk synspunkt, s˚ aledes at den er til at h˚ andtere, og samtidig<br />

tilstrækkelig struktureret til at give relevant information om den faglige problemstilling, som<br />

undersøges. Endelig skal modellen naturligvis give en rimelig god beskrivelse af data for at<br />

kunne anvendes i den videre analyse.<br />

Som det vil fremg˚ a af de kommende kapitler, er grafiske undersøgelser relevante p˚ a s˚ a at<br />

sige alle stadier af en statistisk analyse. I dette kapitel diskuterer vi forskellige numeriske og<br />

grafiske procedurer, der er relevante i den indledende fase af en statistisk analyse, hvor man<br />

skaffer sig overblik over data. Disse procedurer er en del af det, der omtales som beskrivende<br />

eller deskriptiv statistik.<br />

Vi vil udelukkende betragte data, som enten er kvalitative eller kvantitative, det vil sige data,<br />

der fremkommer enten ved at tælle eller ved at m˚ale. For s˚ adanne datasæt best˚ ar de relevante<br />

fordelingsklasser af henholdsvis diskrete fordelinger og kontinuerte fordelinger, se Kapitel 2.<br />

Vi skelner desuden mellem grupperede data og ugrupperede data. Hvis et datasæt best˚ ar af<br />

n observationer, og hvis værdierne x1,x2,...,xn af alle n observationer kendes, siges datasættet<br />

at være ugrupperet. Undertiden er udfaldsrummet X for observationerne opdelt i m disjunk-<br />

te mængder A1,...,Am og i stedet for at angive de n observationer x1,x2,...,xn angiver man<br />

kun a1,a2,...,am, hvor a j betegner antallet af observationer der tilhører A j, j = 1,2,...,m. I<br />

s˚ a tilfælde omtales a1,a2,...,am som et grupperet datasæt. Delmængderne A j, j = 1,2,...,m,<br />

vælges sædvanligvis som intervaller p˚ a den reelle akse.<br />

En stor del af kapitlet beskæftiger sig med modeller for én observationsrække. Ved én ob-<br />

servationsrække p˚ a n observationer forst˚ ar vi n uafhængige observationer x1,x2,...,xn fra den<br />

samme fordeling. Undertiden bruger man i stedet for sprogbrugen en stikprøve af størrelse<br />

n. Vi giver nogle simple numeriske og grafiske metoder, som opsummerer data og som giver<br />

nogle indikationer vedrørende formen af den fælles fordeling af observationerne. I Afsnit 1.1<br />

betragter vi prikdiagrammer og pindediagrammer og Afsnit 1.2 og Afsnit 1.3 vedrører ugruppe-<br />

rede kvantitative data. I Afsnit 1.2 diskuteres histogrammer og i Afsnit 1.3 indføres forskellige<br />

numeriske størrelser, der bruges til at beskrive den observerede fordeling. Afsnit 1.4 vedrører<br />

grupperede kvantitative data mens kvalitative data omtales i Afsnit 1.5. Endelig indeholder Af-<br />

snit 1.6 nogle af˚ bemærkninger om flerdimensionale data. I e t anneks til kapitlet gøres der rede<br />

for hvorledes udvalgte beregninger og tegninger kan laves ved hjælp af Excel. Til sidst i kapitlet<br />

er der en lille samling af opgaver.


1 Data og beskrivende statistik 1.3<br />

I kapitlet betragter vi blandt andet de 3 nedenst˚ aende ekse mpler.<br />

Eksempel 1.1<br />

De følgende data stammer fra en undersøgelse fra Odense amt af børn, der lider af astma. Un-<br />

dersøgelsen er foretaget af professor Bent Juhl, Aarhus Kommunehospital, i perioden 1. decem-<br />

ber 1968 til 3. marts 1969. Der blev foretaget 14 forskellige m˚ alinger p˚ a hvert barn og blandt<br />

disse var m˚ alinger af højden. Blandt børnene var der 247 pig er, der p˚ a undersøgelsestidspunktet<br />

var mellem 10 og 12ar. ˚ M˚ alingerne af højden (i cm) af disse p iger er angivet i Tabel 1.1. Højden<br />

er en kvantitativ - kontinuert - variabel og datasættet er ugrupperet, fordi højden blev m˚ alt og<br />

angivet i cm. Bemærk imidlertid, at hvis højderne oprindeligt var blevet m˚ alt i mm og - som her<br />

- angivet i cm ville datasættet være grupperet. <br />

Eksempel 1.2<br />

139 128 139 125 132 137 146 129 146 150 141 161 143<br />

131 128 134 132 136 137 137 129 140 140 143 148 148<br />

149 132 144 147 137 142 127 127 126 135 136 144 130<br />

132 141 126 135 129 132 130 139 139 134 132 134 127<br />

138 134 127 133 134 126 140 133 142 130 143 140 140<br />

143 150 144 144 128 135 131 135 138 131 135 148 134<br />

132 137 113 150 155 155 155 161 142 142 146 140 141<br />

146 140 139 137 146 142 130 145 149 156 149 155 152<br />

144 139 157 144 149 161 150 144 141 138 140 141 141<br />

147 142 146 156 140 144 145 137 126 134 144 159 134<br />

134 144 130 126 131 130 133 125 122 145 140 132 139<br />

139 128 146 137 139 138 145 133 139 133 139 151 150<br />

138 142 151 140 142 144 136 139 135 141 132 139 140<br />

144 142 127 147 151 141 138 142 147 153 148 144 138<br />

139 124 127 122 123 133 133 136 134 140 137 132 133<br />

132 128 128 136 122 122 123 123 128 145 152 152 156<br />

149 160 148 149 159 145 156 149 153 154 144 153 144<br />

134 140 135 149 136 145 143 139 143 138 137 140 137<br />

144 147 151 166 147 144 159 156 147 154 150 162 159<br />

Tabel 1.1 Højden (i cm) af 247 astmaplagede piger i alderen 10-12ar. ˚<br />

Tabel 1.2 viser konditallene for 20 eliteidrætsudøvere. Tallene er fra Andersen (1998). Datasæt-


1.4 1.1 Prik- og pindediagrammer<br />

tet er ugrupperet og konditallet er en kvantitativ - kontinuert - variabel. <br />

Eksempel 1.3<br />

68.9 75.2 74.3 72.9 72.0 63.9 76.3 76.3 75.4 66.0<br />

68.4 64.1 73.1 64.9 73.4 76.2 79.4 69.4 79.8 72.1<br />

Tabel 1.2 Kondital for 20 eliteidrætsudøvere.<br />

I Tabel 1.3 er vist resultatet af Faxe Kondi Ligaen 1999-2000. For hvert af 12 hold er vist antal<br />

kampe (k), antal vundne kampe (v), antal uafgjorte kampe (u), antal tabte kampe (t), antal m˚ al<br />

for, antal m˚ al imod og antal point ( p) for henholdsvis hjemmebanekampe, udebanekampe og<br />

totalt. Samtlige variable er kvalitative. <br />

£ ¤ ¡¢ £ ¤ ¡¢ £ ¤ ¥¦ §¨§©§ §¨§ ¦ §¨§§§©§ §¨§§¨ ¦ §¨ ¨ ©§§ ¨ §¨§§© ¡¢<br />

¨ ©§¨ ¨§¨§§© ¦§¨ §¨§§ §§§§¨© § § §¨ §§§©§© §¨ §¨§ ¨§§§ §§¨ §<br />

§¨¨§¨ §©§¨§ §¨ ¦ § ©§§¨ ¨©§§§©§ §<br />

¨§¨ §©§§§§ §¨ §¨§¨§§§<br />

Tabel 1.3 Resultatet af Faxe Kondi Ligaen 1999-2000.<br />

©§§§©¨© §§§§¨ ¦§ ¨§§§ ¦ §<br />

1.1 Prik- og pindediagrammer<br />

Prikdiagrammet er en grafisk procedure, der opsummerer data og som kan give et første indtryk<br />

af den underliggende fordeling af data. Prikdiagrammet konstrueres ved at indtegne data i et<br />

koordinatsystem p˚ a følgende m˚ ade. For hver observation a fsættes en prik over det punkt p˚ a<br />

førsteaksen, som svarer til værdien af observationen. (Af typografiskearsager ˚ bruger vi × i<br />

stedet for • til at repræsentere observationerne med.) Prikdiagrammet kan ogs˚ a benyttes til at<br />

ordne observationerne efter størrelse, hvis data ikke foreligger p˚ a elektronisk form.


Eksempel 1.1 (Fortsat)<br />

Figur 1.1 Prikdiagrammet for højderne i Tabel 1.1.<br />

Prikdiagrammet for data i Tabel 1.1 er vist i Figur 1.1 . <br />

Pindediagrammet eller søjlediagrammet bruges til at repræsentere data, der er grupperede<br />

i intervaller. For hvert interval anbringes over midtpunktet af intervallet en pind, hvis højde er<br />

antallet (eller det relative antal) af observationer i intervallet.<br />

Eksempel 1.1 (Fortsat)<br />

Tabel 1.4 nedenfor viser resultatet af en gruppering af data i Tabel 1.1 svarende til en interval-<br />

længde p˚ a 4 cm. Det tilsvarende pindediagram er vist i Figur 1.2. <br />

1.2 Histogrammer<br />

Hvis data er kontinuerte, laver man ofte et histogram for at af˚ et indtryk af, hvorledes tætheds-<br />

funktionen, se Kapitel 2, for den underliggende fordeling ser ud. Histogrammer kan derfor være<br />

af stor hjælp, n˚ ar klassen af fordelinger i den statistiske model skal vælges.<br />

Et histogram konstrueres p˚ a følgende m˚ ade. De n observationer x1, x2,...,xn grupperes i<br />

1.5


1.6 1.2 Histogrammer<br />

interval midtpunkt antal<br />

observationer<br />

]112,116] 114 1<br />

]116,120] 118 0<br />

]120,124] 122 8<br />

]124,128] 126 20<br />

]128,132] 130 24<br />

]132,136] 134 32<br />

]136,140] 138 49<br />

]140,144] 142 41<br />

]144,148] 146 26<br />

]148,152] 150 21<br />

]152,156] 154 14<br />

]156,160] 158 6<br />

]160,164] 162 4<br />

]164,168] 166 1<br />

Tabel 1.4 Observationerne i Tabel 1.1 grupperet i intervaller af længden 4 cm.<br />

Figur 1.2 Pindediagrammet for højderne i Tabel 1.4.


et antal intervaller. Lad m betegne dette antal og lad t1,t2,...,tm og Δt1,Δt2,...,Δtm betegne<br />

henholdsvis midtpunkterne og længderne af disse intervaller. Hvis a j betegner antallet af ob-<br />

servationer i det j’te interval og h j = a j/n den relative hyppighed af observationer i det j’te<br />

interval, j = 1,2,...,m, er histogrammet den trappefunktion h, der er givet ved<br />

h(t) = h j<br />

, hvis t ∈ ] t j −<br />

Δt j<br />

Δt j<br />

2 , t j + Δt j<br />

2<br />

1.7<br />

]. (1.1)<br />

Bemærk, at i et histogram repræsenteres den relative hyppighed h j som arealet af et rektangel,<br />

som har sidelængderne Δt j og h j/Δt j. Derfor er det totale areal under trappefunktionen h lig<br />

med 1, summen af de relative hyppigheder.<br />

Hvis de m intervaller har samme længde Δt, det vil sige hvis Δt1 = Δt2 = ··· = Δtm = Δt,<br />

betragter man, for at lette beregningerne, ofte funktionen<br />

˜h(t) = nΔth(t) = a j, hvis t ∈ ] t j − Δt<br />

2 , t j + Δt<br />

2<br />

] (1.2)<br />

i stedet for h. En tegning af denne funktion kaldes ogs˚ a et histogram. Bem ærk, at arealet un-<br />

der ˜h er nΔt, og bemærk desuden lighedspunkterne mellem denne form for et histogram og<br />

pindediagrammet, som blev omtalt i Afsnit 1.1.<br />

Figurerne 1.2 - 1.2 nedenfor viser forskellige histogrammer for tallene i Tabel 1.1. I hver af<br />

disse figurer betragter vi den samme intervallængde, som varierer fra figur til figur. Det ses af<br />

figurerne, at det er vigtigt at vælge et passende antal intervaller for at af˚ et indtryk af tætheds-<br />

funktionen for den underliggende fordeling. For mange intervaller giver et irregulært indtryk<br />

af tæthedsfunktionen og for af˚ intervaller giver for groft et indtryk. De fleste statistiske pro-<br />

grampakker kan tegne histogrammer og i disse er default værdien af antallet m af intervaller<br />

ofte √ n. For tallene i Tabel 1.1 er √ n ≈ 16, og antallet af intervaller i Figur 1.2 og 1.6 er<br />

henholdsvis 19 og 14. Disse figurer antyder, at tæthedsfunktionen for den underliggende forde-<br />

ling for tallene i Tabel 1.1 har det samme klokkeformede udseende som tæthedsfunktionen for<br />

normalfordelingen - se Figur 3.1, det vil sige figurerne antyder en statistisk model baseret p˚ a<br />

normalfordelingen for højderne i Tabel 1.1.<br />

1.3 Empiriske størrelser<br />

I dette afsnit definerer vi nogle numeriske størrelser knyttet til en observationsrække x1, x2,<br />

..., xn af størrelsen n af en kvantitativ variabel. Form˚ alet med disse størrelser er at beskrive<br />

variationen af observationerne p˚ a forskellig m˚ ade. Førs t introduceres lidt notation vedrørende<br />

reference til observationerne og værdierne af observationerne.


1.8 1.3 Empiriske størrelser<br />

Figur 1.3 Histogram for højden i cm for 247 piger. Intervallængde 1 cm.<br />

Figur 1.4 Histogram for højden i cm for 247 piger. Intervallængde 2 cm.


Figur 1.5 Histogram for højden i cm for 247 piger. Intervallængde 3 cm.<br />

Figur 1.6 Histogram for højden i cm for 247 piger. Intervallængde 4 cm.<br />

1.9


1.10 1.3 Empiriske størrelser<br />

Figur 1.7 Histogram for højden i cm for 247 piger. Intervallængde 6 cm.<br />

Figur 1.8 Histogram for højden i cm for 247 piger. Intervallængde 12 cm.


1.11<br />

Definition 1.1 Lad x1,x2,...,xn være en observationsrække af størrelsen n af en kvantitativ<br />

variabel.<br />

Den ordnede stikprøve x (1),x (2),...,x (i),...,x (n) er en opstilling af observationerne i stigen-<br />

de rækkefølge s˚ aledes at<br />

x (1) ≤ x (2) ≤ ··· ≤ x (i) ≤ ··· ≤ x (n).<br />

Rangen af observationerne defineres s˚ aledes:<br />

rang(x (i)) = i, hvis x (i−1) < x (i) < x (i+1)<br />

rang(x (i)) = ··· = rang(x (i+k−1)) = i+(k − 1)/2, hvis x (i) = ··· = x (i+k−1)<br />

(1.3)<br />

Rangen af observationen x (i) er alts˚ a i, hvis x (i) er den eneste observation med denne værdi,<br />

det vil sige hvis x (i−1) < x (i) < x (i+1). Hvis k observationer x (i),x (i+1),...,x (i+k−1) er lige store,<br />

det vil sige hvis x (i) = x (i+1) = ··· = x (i+k−1), tildeles de alle rangen i + (k − 1)/2, som er<br />

gennemsnittet af de k tal i,i+1,...,i+k − 1.<br />

De ordnede værdier i stikprøven er de forskellige værdier y1,y2,...,ym, som observationerne<br />

i stikprøven antager, ordnet efter størrelse, det vil sige<br />

y1 < y2 < ··· < ym. (1.4)<br />

For j = 1,...,m betegnes antallet af observationer med værdien y j med a j og det kumulerede<br />

antal med k j, det vil sige at k j = a1 + ···+a j. <br />

Bemærkning<br />

I den ordnede stikprøve er det observationerne, der ordnes efter størrelse, mens det ved de<br />

ordnede værdier er værdierne, der ordnes efter størrelse. Hvis der er to eller flere observationer,<br />

der antager samme værdi, er antallet m af forskellige værdier i stikprøven mindre end antallet n<br />

af observationer i stikprøven.<br />

Eksempel 1.4<br />

De forskellige størrelser i Definition 1.1 er illustreret i nedenst˚ aende tabel for 10 hypotetiske


1.12 1.3 Empiriske størrelser<br />

kondital.<br />

i xi x (i) rang(x (i)) yi ai ki<br />

1 65.0 62.9 1 62.9 1 1<br />

2 68.4 64.1 2 64.1 1 2<br />

3 67.9 65.0 4 65.0 3 5<br />

4 65.0 65.0 4 67.9 1 6<br />

5 69.8 65.0 4 68.4 1 7<br />

6 70.9 67.9 6 69.8 2 9<br />

7 62.9 68.4 7 70.9 1 10<br />

8 69.8 69.8 8.5<br />

9 65.0 69.8 8.5<br />

10 64.1 70.9 10<br />

Definition 1.2 Den empiriske fordelingsfunktion Fn svarende til observationerne x1,x2,...,xn<br />

er defineret ved<br />

Fn(x) = #{i : xi ≤ x}<br />

, x ∈ R. (1.5)<br />

n<br />

Den empiriske fordelingsfunktion Fn er alts˚ a en trappefunktion, hvis spring er multipla af<br />

1/n og for ethvert x ∈ R er tallet Fn(x) blot den relative hyppighed af observationer i data-<br />

sættet som er mindre end eller lig med x. Helt præcist har Fn spring i de m ordnede værdier<br />

y1,y2,...,ym og springet i yi er ai/n, i = 1,...,m, se Figur 1.9.<br />

s˚ aledes:<br />

Den empiriske fordelingsfunktion Fn er fuldstændigt bestemt af sine fraktiler, der defineres<br />

Definition 1.3 For ethvert p ∈ [0,1] er p-fraktilen for den empiriske fordelingsfunktion Fn<br />

mængden xp givet ved<br />

xp = {x ∈ R : Fn(x−) ≤ p ≤ Fn(x)},<br />

hvor Fn(x−) betegner grænseværdien fra venstre af Fn i punktet x.<br />

Specielt kaldes x0.50 ofte for den empiriske median , mens x0.25 og x0.75 kaldes henholdsvis<br />

nedre og øvre empiriske kvartil. <br />

Hvis vi supplerer notationen i Definition 1.1 med at sætte k0 = 0 gælder der, at y j er p-fraktil<br />

for alle værdier af p i intervallet k j−1/n,kj/n . I anvendelser er vi kun interesseret i at udpege


1.13<br />

Figur 1.9 Den empiriske fordelingsfunktion Fn for data i Eksempel 1.4. I den øverste figur er<br />

de valgte p-værdier antydet med × og i den nederste figur er fraktilerne x∗ p antydet med ◦.


1.14 1.3 Empiriske størrelser<br />

nummer observation antal kumulerede antal sandsynlighed i %<br />

j y a k p i %<br />

1 y1 a1 k1 = a1 p1 = 100 · k1/(2n)<br />

2 y2 a2 k2 = a1 + a2 p2 = 100 ·(k1+ k2)/(2n)<br />

3 y3 a3 k3 = a1 + a2 + a3 p3 = 100 ·(k2+ k3)/(2n)<br />

... ... ... ...<br />

j y j a j k j = a1 + · · ·+a j p j = 100 ·(k j−1 + k j)/(2n)<br />

... ... ... ...<br />

m ym am km = a1 + · · ·+am pm = 100 ·(km−1 + km)/(2n)<br />

Tabel 1.5 Beregningsskema for fraktiler for et ugrupperet datasæt.<br />

én værdi p j af p for hvilken y j er p-fraktil og vi vælger derfor p j som midtpunkt af intervallet<br />

k j−1/n,kj/n , det vil sige<br />

p j = (k j−1 + k j)/(2n).<br />

Beregningerne kan foretages ved hjælp af skemaet i Tabel 1.5.<br />

Hvis p = k j/n, j = 1,...,m − 1 er p-fraktilen et interval, nemlig<br />

xp = <br />

y j,yj+1 ,<br />

og vil vi blot udpege en enkelt værdi x∗ p af x svarende til p forekommer det naturligt at vælge<br />

midtpunktet af dette interval, det vil sige<br />

x ∗ p = (y j + y j+1)/2.<br />

Hvis k j/n < p < k j+1/n, j = 0,...,m − 1, er p-fraktilen xp blot punktet y j+1 og vi sætter<br />

x ∗ p = xp = y j+1.<br />

Beregningen af størrelserne x ∗ p kan foretages ved hjælp beregningsskemaet i Tabel 1.5. Givet en<br />

værdi af p beregnes np. Hvis np = k j er<br />

og hvis k j < np < k j+1 er<br />

Eksempel 1.4 (Fortsat)<br />

x ∗ p = (y j + y j+1)/2.<br />

x ∗ p = y j+1.<br />

For de 10 hypotetiske kondital i dette eksempel er den empiriske fordelingsfunktion vist i Figur


1.9 og beregningsskemaet i Tabel 1.5 er<br />

nummer observation antal kumulerede antal sandsynlighed i %<br />

j y a k p i %<br />

1 62.9 1 1 5<br />

2 64.1 1 2 15<br />

3 65.0 3 5 35<br />

4 67.9 1 6 55<br />

5 68.4 1 7 65<br />

6 69.8 2 9 80<br />

7 70.9 1 10 95<br />

Vi viser nu beregningen af x ∗ p for udvalgte p-værdier:<br />

p = 0.10 np = 1 np = k1 x ∗ 0.1 = (y1 + y2)/2 = (62.9+64.1)/2 = 63.5<br />

p = 0.25 np = 2.5 k2 < np < k3 x ∗ 0.25 = y3 = 65.0<br />

p = 0.50 np = 5 np = k3 x ∗ 0.50 = (y3 + y4)/2 = (65.0+67.9)/2 = 66.45<br />

p = 0.75 np = 7.5 k5 < np < k6 x ∗ 0.75 = y6 = 69.8<br />

p = 0.90 np = 9 np = k6 x ∗ 0.90 = (y6 + y7)/2 = (69.8+70.9)/2 = 70.35<br />

1.15<br />

Definition 1.4 Fempunktsopsummeringen for en observationsrække x1, x2, ..., xn af størrelsen<br />

n er angivelse af de fem fraktiler x∗ p svarende til p-værdierne 0.10, 0.25, 0.50, 0.75, 0.90, det vil<br />

sige talsættet<br />

(x ∗ 0.10 ,x∗ 0.25 ,x∗ 0.50 ,x∗ 0.75 ,x∗ 0.90 ).<br />

Kvartilafstanden er afstanden mellem den øvre og nedre kvartil, det vil sige størrelsen d =<br />

x∗ 0.75 − x∗ 0.25 . <br />

Medianen x∗ 0.50 angiver observationsrækkens centrale punkt og de to kvartiler, x∗ 0.25 og x∗ 0.75<br />

afgrænser den centrale del. Kvartilafstanden er et m˚ al for fordelingens spredning. Hvis vi kalder<br />

gruppen af de 10% mindste observationer fordelingens venstre hale og gruppen af de 10%<br />

største observationer for fordelingens højre hale, angiver x ∗ 0.10 og x∗ 0.90<br />

haler ligger fra den centrale del.<br />

<br />

hvor langt fordelingens<br />

En stikprøve kaldes symmetrisk hvis dens fordeling har samme form til højre og til venstre<br />

for medianen, det vil sige hvis<br />

x ∗ 0.50 − x∗ p ≈ x∗ 1−p − x∗ 0.50 for alle p ∈ ]0,0.5].


1.16 1.3 Empiriske størrelser<br />

I en symmetrisk stikprøve har højre og venstre hale samme form. En stikprøve kaldes højreskæv<br />

hvis den højre hale ligger længere væk fra medianen end den venstre hale. Tilsvarende, er<br />

skikprøven venstreskæv, hvis den venstre hale ligger længst væk.<br />

Ofte illustreres fempunktsopsummeringen grafisk ved hjælp af et kassediagram, som frem-<br />

kommer ved at tegne lodrette linjer gennem medianen og de to kvartiler og forbinde stregerne<br />

gennem kvartilerne med vandrette linjer. Herved fremkommer en kasse, der illustrerer den cen-<br />

trale del af fordelingen. For at vise længden af fordelingens haler tegnes undertiden linjer ud til<br />

x ∗ 0.10 og x∗ 0.90 og endelig markeres observationer mindre end x∗ 0.10 og eller større end x∗ 0.90 med<br />

et ×.<br />

Eksempel 1.4 (Fortsat)<br />

For de 10 hypotetiske kondital er fempunktsopsummeringen<br />

(x ∗ 0.10 ,x∗0.25 ,x∗0.50 ,x∗0.75 ,x∗0.90 ) = (63.5,65.0,66.45,69.8,70.35)<br />

og kvartil afstanden er d = 69.8 − 65.0 = 4.8. Kassediagrammet i Figur 1.10 viser, at fordelin-<br />

gen højreskæv og dermed ikke er symmetrisk. <br />

Figur 1.10 Kassediagrammet for data i Eksempel 1.4.<br />

Den empiriske median og kvartilafstanden er m˚ al for henhol dsvis fordelingens position og<br />

bredde eller spredning. Alternative - og mere benyttede - m˚al for disse størrelser er:<br />

Definition 1.5 Den empiriske middelværdi ¯x·, den empiriske varians s 2 og den empiriske spred-<br />

ning s for en observationsrække x1, x2, ..., xn af størrelsen n er:<br />

¯x· = 1<br />

n<br />

n<br />

∑<br />

i=1<br />

xi, (1.6)


og<br />

Bemærkning<br />

s 2 = 1<br />

n − 1<br />

s = √ s 2 =<br />

<br />

n<br />

∑<br />

i=1<br />

1<br />

n − 1<br />

(xi − ¯x·) 2<br />

n<br />

∑<br />

i=1<br />

1.17<br />

(1.7)<br />

(xi − ¯x·) 2 . (1.8)<br />

Som det ses er den empiriske middelværdi ¯x· blot gennemsnittet af observationerne. Den empi-<br />

riske varians s2 er et m˚ al for variationen af observationerne. Det fremkomm er ved at beregne en<br />

normeret sum af den kvadratiske afstand (xi − ¯x·) 2 mellem observationerne xi og gennemsnittet<br />

¯x·, som et m˚ al for hvor meget observationerne varierer omkrin g gennemsnittet. Hvis for eksem-<br />

pel m˚ alingerne xi er foretaget i enheden cm, er enheden for s2 , den empiriske varians, cm2 . Ved<br />

at betragte den empiriske spredning s fremkommer et m˚ al for variationen der har samme enhed<br />

- i eksemplet cm - som de enkelte observationer.<br />

Den empiriske middelværdi ¯x· og den empiriske varians s 2 beregnes lettest ud fra<br />

S =<br />

n<br />

∑ xi<br />

i=1<br />

og SK =<br />

Summen af observationerne og Summen af Kvadraterne af observationerne, idet<br />

og<br />

n<br />

∑<br />

i=1<br />

(xi − ¯x·) 2 =<br />

=<br />

¯x· = S<br />

n<br />

n<br />

∑<br />

i=1<br />

x 2 i ,<br />

n<br />

∑(x<br />

i=1<br />

2 i + ¯x2 · − 2xi ¯x·)<br />

n<br />

x 2 i + n ¯x 2 n<br />

· − 2 ¯x· ∑ xi<br />

i=1<br />

∑<br />

i=1<br />

= SK + n S2<br />

− 2S<br />

n2 n S<br />

= SK − S2<br />

n .<br />

<br />

(1.9)<br />

Idet størrelsen ∑ n i=1 (xi − ¯x·) 2 ofte betegnes med SAK - Summen af Afvigelsernes Kvadrater -<br />

as f˚ at<br />

s 2 = 1 1 S2<br />

SAK = (SK − ). (1.10)<br />

n − 1 n − 1 n


1.18 1.4 Grupperede data<br />

Bemærk, at i denne formel optræder b˚ ade S, som er summen af observationerne, og s, som er<br />

den empiriske spredning eller kvadratroden af den empiriske varians. Forveksles disse størrelser<br />

bliver resultatet oftest katastrofalt forkert.<br />

Eksempel 1.4 (Fortsat)<br />

For de 10 hypotetiske kondital er<br />

S = 668.8 og SK = 44800.08,<br />

s˚ a ved hjælp af (1.9), (1.10) og (1.8) finder vi - med 5 decimal ers nøjagtighed -<br />

og<br />

1.4 Grupperede data<br />

¯x· = 668.8<br />

10<br />

= 66.88,<br />

s 2 = 1<br />

668.82<br />

(44800.08 − ) = 7.85956<br />

9 10<br />

s = √ 7.85956 = 2.80349.<br />

Med nogen modvilje giver vi dette afsnit med en kort diskussion af empiriske størrelser for<br />

kontinuerte og grupperede data. Modviljen skyldes den kendsgerning, at kontinuerte og grup-<br />

perede data sjældent forekommer i virkeligheden. Som oftest stammer data af denne type fra<br />

en gruppering af et ugrupperet datasæt. Motivationen for denne gruppering er næsten altid af<br />

praktisk art, s˚ asom at spare plads i tidsskrifter, bøger mm ., og yderst sjældent videnskabelig.<br />

Proceduren med at gruppere data kan illustreres ved data i Tabel 1.1 og 1.4. Data i Tabel 1.4<br />

repræsenterer en opsummering af de oprindelige data i Tabel 1.1, som oplagt ikke indeholder<br />

den samme information som de oprindelige data. Statistiske procedurer bør benytte al informa-<br />

tion i data og ikke kun en del heraf. Imidlertid er datasæt i litteraturen, specielt ældre litteratur,<br />

ofte grupperede, hvilket er grunden til, at empiriske størrelser for grupperede data ogs˚ a bliver<br />

omtalt her.<br />

Antag, at antallet af observationer i de m intervaller ]y0,y1],]y1,y2],...,]ym−1,ym] er a1,<br />

a2,..., am. For j = 1, 2,...,m lader vi k j = a1 + a2 + ··· + a j betegne det kumulerede antal<br />

observationer. Bemærk, at km = n, det totale antal observationer. Desuden lader vi t j = (y j +<br />

y j−1)/2 betegne midtpunket af det j’te interval, j = 1,...,m.


1.19<br />

nummer højre endepunkt midtpunkt antal kumulerede antal sandsynlighed i %<br />

j y t a k p i %<br />

1 y1 t1 a1 k1 = a1 p1 = 100 · k1/n<br />

2 y2 t2 a2 k2 = a1 + a2 p2 = 100 · k2/n<br />

3 y3 t3 a3 k3 = a1 + a2 + a3 p3 = 100 · k3/n<br />

... ... ... ... ... ...<br />

j y j t j a j k j = a1 + · · ·+a j p j = 100 · k j/n<br />

... ... ... ... ... ...<br />

m − 1 ym−1 tm−1 am−1 km−1 = a1 + · · ·+am−1 pm−1 = 100 · km−1/n<br />

m ym tm am km = n pm = 100<br />

Tabel 1.6 Skema til beregning af empiriske størrelser for grupperede data.<br />

For et grupperet datasæt kendes den empiriske fordelingsfunktion Fn kun i de højre interva-<br />

lendepunkter y1,y2,...,ym. Vi lader derfor<br />

og for p = k j/n sætter vi<br />

p j = Fn(y j) = k j/n, j = 1,...,m,<br />

x ∗ p = y j.<br />

Beregningen af p-værdierne kan foretages ved hjælp af skemaet i Tabel 1.6.<br />

Beregningerne af andre empiriske størrelser foretages ofte p˚ a grundlag af en ugrupperet<br />

version af de grupperede data, som fremkommer ved at antage at midtpunktet t j af det j’te<br />

interval er en værdi, som er blevet observeret a j gange, j = 1,...,m. Den empiriske fordelings-<br />

funktion for det grupperede datasæt approksimeres ved den empiriske fordelingsfunktion for<br />

den ugrupperede version, se Figur 1.11.<br />

For k j/n < p < k j+1/n sætter vi<br />

x ∗ p = t j+1.<br />

Størrelserne x ∗ p bestemmes let ud fra Tabel 1.6. Givet en værdi af p beregnes np. Hvis np = k j<br />

er<br />

og hvis k j < np < k j+1 er<br />

x ∗ p = y j<br />

x ∗ p = t j+1.<br />

Summen S og kvadratsummen SK for de grupperede data beregnes som de tilsvarende


1.20 1.4 Grupperede data<br />

størrelser for den ugrupperede version, det vil sige, at<br />

S =<br />

m<br />

∑ a jt j og<br />

m<br />

SK = ∑ a jt<br />

j=1<br />

j=1<br />

2 j , (1.11)<br />

hvorefter beregningsformlerne for middelværdi og varians i (1.9) og (1.10) benyttes, det vil<br />

sige, at<br />

og<br />

Eksempel 1.1 (Fortsat)<br />

¯x· = S<br />

n<br />

(1.12)<br />

s 2 = 1 S2<br />

(SK − ). (1.13)<br />

n − 1 n<br />

Antag, at vi kun kendte den grupperede version af data i Tabel 1.4 og ikke de oprindelige data<br />

i Tabel 1.1. Hvilken forskel giver dette med hensyn til den beskrivende statistik? I Figur 1.11<br />

ses øverst den empiriske fordelingsfunktion for de oprindelige data og nederst den empiriske<br />

fordelingsfunktion for de grupperede data og den ugrupperede version af disse.<br />

Tabel 1.6 for de grupperede data i Tabel 1.4 ser s˚ aledes ud:<br />

nummer højre endepunkt midtpunkt antal kumulerede antal sandsynlighed i %<br />

j y t a k p i %<br />

1 116 114 1 1 0.4<br />

2 120 118 0 1 0.4<br />

3 124 122 8 9 3.6<br />

4 128 126 20 29 11.7<br />

5 132 130 24 53 21.5<br />

6 136 134 32 85 34.4<br />

7 140 138 49 134 54.3<br />

8 144 142 41 175 70.9<br />

9 148 146 26 201 81.4<br />

10 152 150 21 222 89.9<br />

11 156 154 14 236 95.5<br />

12 160 158 6 242 98.0<br />

13 164 162 4 246 99.6<br />

14 168 166 1 247 100.0<br />

Fempunktsopsummeringen er<br />

(x ∗ 0.10 ,x∗0.25 ,x∗0.50 ,x∗ 0.75 ,x∗0.90 ) = (126,134,138,146,154).


1.21<br />

Figur 1.11 Øverst ses den empiriske fordelingsfunktion for data i Tabel 1.1 og nederst den<br />

empiriske fordelingsfunktion for data i Tabel 1.4 og for den ugrupperede version (- - -) af disse<br />

data. De valgte p-værdier antydet med ×.


1.22 1.4 Grupperede data<br />

Hvis for eksempel p = 0.75 er np = 247·0.75= 185.25, det vil sige at j = 8 og x ∗ 0.75 = t9 = 146.<br />

Da<br />

bliver<br />

S =<br />

14<br />

∑ a jt j = 34466 og<br />

14<br />

SK = ∑ a jt<br />

j=1<br />

j=1<br />

2 j = 4830716<br />

¯x· = 34466<br />

247 = 139.54 og s2 = 1<br />

344662<br />

(4830716 − ) = 86.9243.<br />

246 247<br />

For de oprindelige data i 1.1 ser en del af skemaet i Tabel 1.5 s˚ aledes ud:<br />

nummer observation antal kumulerede antal sandsynlighed i %<br />

j y a k p i %<br />

... ... ... ... ...<br />

7 127 6 22 7.7<br />

8 128 7 29 10.3<br />

... ... ... ... ...<br />

13 133 8 61 23.1<br />

14 134 11 72 26.9<br />

... ... ... ... ...<br />

19 139 15 119 45.1<br />

20 140 15 134 51.2<br />

... ... ... ... ...<br />

25 145 7 182 72.3<br />

26 146 7 189 75.1<br />

... ... ... ... ...<br />

32 152 3 222 89.3<br />

33 153 3 225 90.5<br />

... ... ... ... ...<br />

Fempunktsopsummeringen for de oprindelige data i Tabel 1.1 ses at være<br />

(x ∗ 0.10 ,x∗0.25 ,x∗ 0.50 ,x∗0.75 ,x∗0.90 ) = (128,134,140,146,153).<br />

I tabellerne nedenfor resumeres vi de beregnede størrelser for de oprindelige data og de<br />

grupperede data:<br />

data S SK ¯x· s 2<br />

oprindelige (Tabel 1.1) 34613 4871559 140.13 85.8317<br />

grupperede (Tabel 1.4) 34466 4830716 139.54 86.9242


data x ∗ 0.10 x ∗ 0.25 x ∗ 0.50 x ∗ 0.75 x ∗ 0.90<br />

oprindelige (Tabel 1.1) 128 134 140 146 153<br />

grupperede (Tabel 1.4) 126 134 138 146 154<br />

1.23<br />

Det ses, at der er nogen forskel mellem resultaterne for de to datasæt. Med hensyn til den<br />

beskrivende statistik er denne forskel dog næppe af større betydning. Med hensyn til de mere<br />

eksakte beregninger i de kommende kapitler kan forskellen dog være vigtig. Det skal understre-<br />

ges igen, at n˚ ar man som her har de oprindelige data til adi r˚ ghed skal disse benyttes. Grunden<br />

til her at betragte de grupperede data er primært at illustrere beregningerne for grupperede da-<br />

tasæt og - sekundært - at sammenligne med resultaterne med de oprindelige data, som vi har til<br />

adighed r˚ i denne situation. Det er - som nævnt indledningsv is - desværre ikke altid tilfældet. <br />

1.5 Kvalitative data<br />

I dette afsnit betragter vi kvalitative eller diskrete data. Situationen er typisk, at der forelig-<br />

ger data, der er fremkommet ved optælling af antallet af observationer i forskellige navngivne<br />

kategorier. Kategorierne kan være numeriske, det vil sige navngivet ved hjælp af en numerisk<br />

variabel. Hvis dette er tilfældet kan situationen sammenlignes med grupperede data for en kvan-<br />

titativ - kontinuert - variabel idet navnene p˚ a kategorier ne da svarer til de forskellige intervaller,<br />

som data er grupperet i. Hvis kategorierne ikke er numeriske, kan observationer ikke naturligt<br />

ordnes efter størrelse.<br />

Fordelingen af en stikprøve af størrelse n af en diskret variabel kan beskrives ved hyppighe-<br />

den - eller den relative hyppighed - af antallet af observationer i de forskellige kategorier. Hvis<br />

der er m kategorier og antallet af observationer i den j’te kategori er a j, j = 1,...,m, er den<br />

relative hyppighed for den j’te kategori h j = a j/n.<br />

Tabeller over de observerede antal a - eller de relative hyppigheder h - i de m kategori-<br />

er suppleres ofte med grafiske repræsentationer af data. I Excel er der forskellige muligheder<br />

for at præsentere data, herunder søjlediagrammer, blokdiagrammer og lagkagediagrammer. I<br />

et søjlediagram illustreres antallet af observationer a j i den j’te kategori som søjler, der har en<br />

højde der typisk er antallet a j eller det relative antal h j af observationer i kategorien. I et blokdi-<br />

agram tegnes en blok med sektioner, der udgør samme andel af blokken som hyppighederne for<br />

de enkelte kategorier. I et lagkagediagram repræsenteres hyppighederne for kategorierne ved<br />

stykker af lagkagen, der udgør samme andel af lagkagen som hyppighederne for kategorierne.<br />

Eksempel 1.3 (Fortsat)


1.24 1.5 Kvalitative data<br />

Tabellen nedenfor viser antallet af m˚ al som de 12 superliga klubber har scoret p˚ a henholdsvis<br />

hjemme- og udebane.<br />

klub hjemme ude<br />

HB 35 17<br />

BIF 39 17<br />

AB 30 22<br />

VFF 30 26<br />

AAB 36 21<br />

SIF 26 23<br />

LCF 33 18<br />

FCK 23 21<br />

OB 20 22<br />

AGF 24 12<br />

VB 21 17<br />

EFB 15 25<br />

Her er der ialt 24 kategorier med navne (HB, hjemme), (HB, ude), ..., (EFB, ude). Søjlediagram-<br />

met for data er vist i Figur 1.12.<br />

Det mest bemærkelsesværdige er at de 5 svagest placerede klubber - p˚ anær AGF - scorer<br />

relativt godt p˚ a udebane i modsætning til de to højest place rede klubber.<br />

For den enkelte klub har det m˚ aske større interesse at se p˚ a holdets præstationer p˚ a hjemme-<br />

og udebane. For AGF’s vedkommende kan resultaterne i kampene resumeres s˚ aled es:<br />

AGF sejr uafgjort nederlag<br />

hjemme 7 4 5<br />

ude 2 5 10<br />

Her er der 6 kategorier med navne (hjemme, sejr), ..., (ude, nederlag). Det tilsvarende søjle-<br />

diagram i Figur 1.13 viser, at klubben er relativ stærk p˚ a hj emmebane men svag p˚ a udebane.<br />

Figur 1.14 viser blokdiagrammet, hvoraf det fremg˚ ar at sm˚ a 80% (præcist 77.78%) af AGF’s<br />

sejre er vundet hjemme. <br />

I eksemplerne ovenfor var kategorierne ikke navngivet med en numeriske variabel og det<br />

har derfor ingen mening at regne empiriske størrelser s˚ aso m fraktiler, middelværdi og varians.<br />

Vi giver nu et eksempel hvor kategorierne er navngivet ved hjælp af en numerisk variabel og<br />

hvor beregning af numeriske størrelser er relevant.


¡¢£¤¥¦¤§¨©¤§£¡<br />

Figur 1.12 Antal m˚ al scoret hjemme og ude af de 12 klubber i Superligaen 1999-2000.<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

Figur 1.13 Resultaterne af AGF’s kampe p˚ a hjemme- og udebane i sæsonen 1999-2000.<br />

<br />

1.25


1.26 1.5 Kvalitative data<br />

¥££¤ £¤<br />

¥£¤ ¦£¤ §£¤ ¨£¤ ©£¤ £¤ £¤ £¤<br />

£¤<br />

¡¢<br />

<br />

<br />

Figur 1.14 Resultaterne af AGF’s kampe p˚ a hjemme- og udebane i sæsonen 1999-2000 i et<br />

<br />

blokdiagram.<br />

Eksempel 1.3 (Fortsat)<br />

Anden og tredje søjle i tabellen nedenfor viser fordelingen af m˚ al i de 198 superligakampe i<br />

sæsonen 1999-2000. Kategorierne 0, 1, ..., 10 er numeriske.<br />

Søjlediagrammet er vist i Figur 1.15.<br />

nummer antal antal kumulerede p<br />

m˚al kampe antal i %<br />

j x a k p<br />

1 0 10 10 5.05<br />

2 1 27 37 11.87<br />

3 2 60 97 33.84<br />

4 3 36 133 58.08<br />

5 4 34 167 75.06<br />

6 5 19 186 89.14<br />

7 6 6 192 95.45<br />

8 7 1 193 97.22<br />

9 8 2 195 97.98<br />

10 9 2 197 98.99<br />

11 10 1 198 99.75<br />

De resterende søjler i tabellen er udfyldt som i beregningsskemaet for et ugrupperet da-<br />

tasæt i Tabel 1.5, idet vi her kender værdierne af alle 198 observationer. Ud fra skemaet kan


¡¢£¤¥¦§¨£© <br />

<br />

<br />

<br />

<br />

Figur 1.15 Fordelingen af antal m˚ al i de 198 kampe i superligaen 1999-2 000.<br />

fempunktsopsummeringen beregnes til<br />

(x ∗ 0.10 ,x∗0.25 ,x∗0.50 ,x∗0.75 ,x∗0.90 ) = (1,2,3,4,5).<br />

Da summen og kvadratsummen af antal scorede m˚ al er<br />

S =<br />

11<br />

∑ a jx j = 573 og<br />

11<br />

SK = ∑ a jx<br />

j=1<br />

j=1<br />

2 j = 2265<br />

er den empiriske middelværdi og empiriske varians for antal scorede m˚ al henholdsvis<br />

og<br />

1.6 Flerdimensionale data<br />

¯x· = 573<br />

= 2.89<br />

198<br />

s 2 = 1 5732<br />

(2265 − ) = 3.0801.<br />

197 198<br />

1.27<br />

Indtil nu har vi udelukkende betragtet endimensionale data, det vil sige data hvor observatio-<br />

nerne bet˚ ar af et enkelt tal. Ofte registreres mere end et ta l for hver observation og vi taler da<br />

om at data er flerdimensionale. I dette afsnit indføres notationen for todimensionale data.


1.28 1.6 Flerdimensionale data<br />

Eksempel 1.5<br />

Data er fra Andersen (1998) og i tabellen nedenfor er vist muskelglycogen (i mmol/kg tørvægt)<br />

for 8 forsøgspersoners venstre og højre ben.<br />

Forsøgsperson<br />

nummer venstre ben højre ben<br />

1 534 575<br />

2 593 496<br />

3 370 413<br />

4 507 642<br />

5 450 422<br />

6 619 668<br />

7 422 382<br />

8 578 652<br />

For hver af de 8 forsøgspersoner har vi to sammenhørende m˚ al inger af muskelglycogen i<br />

henholdsvis venstre og højre ben, s˚ a data er to-dimensiona le. <br />

Lad (x11,x21),...,(x1 j,x2 j),...,(x1n,x2n) betegne en stikprøve af størrelse n af en to-dimensi-<br />

onal variabel. Foruden at af˚ et indtryk af de to stikprøver x11,...,x1 j,...,x1n og x21,...,x2 j,...,<br />

x2n best˚ aende af henholdsvis første og anden komponenterne, e r det ogs˚ a vigtigt at af˚ et ind-<br />

tryk samvariationen af de to komponenter. Denne kan belyses ved at indtegne observationerne<br />

(x1 j,x2 j), j = 1,...,n, i et koordinatsystem.<br />

En numeriske størrelse, der angiver et m˚ al for samvariatio nen af komponenterne i et to-<br />

dimensionalt datasæt, er den empiriske korrelationskoefficient. For at indføre denne behøver<br />

vi noget notation. For i = 1,2 lader vi Si, SKi, SAKi, ¯xi· og s2 i betegne henholdsvis Summen af<br />

observationerne, Summen af Kvadraterne af observationer, Summen af Afvigelserne Kvadrater,<br />

den empiske middelværdi og den empiriske varians for den i’te komponent af observationerne,<br />

det vil sige<br />

SAKi =<br />

Si =<br />

n<br />

∑<br />

j=1<br />

n<br />

∑ xi j, SKi =<br />

j=1<br />

n<br />

∑<br />

j=1<br />

(xi j − ¯xi·) 2 = SKi − S2 i<br />

n , s2i x 2 i j, ¯xi· = Si<br />

, (1.14)<br />

n<br />

= 1<br />

n − 1 SAKi. (1.15)<br />

Desuden lader vi SP og SAP betegne Summen af Produkter og Summen af Afvigelsernes<br />

Produkter, det vil sige<br />

SP =<br />

n<br />

∑ x1 jx2 j, SAP =<br />

j=1<br />

n<br />

∑<br />

j=1<br />

(x1 j − ¯x1·)(x2 j − ¯x2·) = SP − S1S2<br />

. (1.16)<br />

n


Det kan vises, at den empiriske korrelationskoefficient r, der er defineret som<br />

r =<br />

n<br />

∑ (x1 j − ¯x1·)(x2 j − ¯x2·)<br />

j=1<br />

<br />

n<br />

n<br />

∑ (x1 j − ¯x1·) 2 ∑ (x2 j − ¯x2·)<br />

j=1<br />

j=1<br />

2<br />

=<br />

1.29<br />

SAP<br />

√ , (1.17)<br />

SAK1SAK2<br />

antager værdier i intervallet [−1,1]. Fortolkningen af r er, at for store værdier af r optræder sto-<br />

re(sm˚ a) værdier af første komponenten sammen med store(sma) ˚ værdier af anden komponenten<br />

og i det ekstreme tilfælde hvor r = 1 ligger punkterne (x1 j,x2 j), j = 1,...,n, p˚ a en ret linje med<br />

positiv hældning. Hvis omvendt r er lille optræder store(sm˚ a) værdier af første komponente n<br />

sammen med sm˚ a(store) værdier af anden komponenten og i det ekstreme tilfælde hvor r = −1<br />

ligger punkterne (x1 j,x2 j), j = 1,...,n, p˚ a en ret linje med negativ hældning. Hvis r er tæt p˚ a 0<br />

er der ingen sammenhæng mellem første og anden komponenten.<br />

Eksempel 1.5 (Fortsat)<br />

Tegningen af data i Figur 1.16, antyder en positiv korrelation.<br />

og<br />

For data her er<br />

venstre ben højre ben<br />

n 8<br />

S 4073 4250<br />

SK 2128583 2354710<br />

SP 2220934<br />

Ved hjælp af formlerne (1.14) - (1.17) finder vi,<br />

¯x1· = 4073<br />

8 = 509.125, ¯x2· = 4250<br />

= 531.250,<br />

8<br />

SAK1 = 2128583 − 40732<br />

8 = 54916.875, SAK2 = 2354710 − 42502<br />

= 96897.500,<br />

8<br />

s 2 1 = 54916.875<br />

7<br />

= 7845.2679, s 2 2 = 96897.500<br />

7<br />

SAP = 2220934 −<br />

r =<br />

4073 · 4250<br />

8<br />

= 57152.750<br />

57152.750<br />

√ 54916.875 · 96897.500 = 0.7835<br />

= 13842.5000,


1.30 1.6 Flerdimensionale data<br />

¦¡¡<br />

¥¡¡<br />

¤¡¡<br />

¡¡<br />

¢¡¡<br />

£¡¡<br />

¢¡¡ £¡¡ ¤¡¡ ¥¡¡ ¦¡¡ §¨©<br />

Figur 1.16 Muskelglycogen indholdet i venstre og højre ben tegnet op mod hinanden.<br />

¡¡


Anneks til Kapitel 1<br />

Beregninger i Excel<br />

1.31<br />

I dette afsnit vises, hvordan en del af beregningerne og figurerne i kapitlet kan laves ved hjælp<br />

af Excel.<br />

Ordrer til programmet skrives i en speciel fond, som ser s˚aledes ud. I selve regnearket<br />

benyttes skrifttypen ”Ariel” med en skriftstørrelse p˚ a 10 , som er default værdier i Excel. Det<br />

er ikke muligt at kopier udklip fra Excel direkte ind i Scientific WorkPlace, som noterne her er<br />

skrevet i. Det sker via forskellige omveje, hvilket undertiden bevirker, at udklip fra Excel her<br />

bliver gengivet i en størrelse, der ikke helt stemmer overens med størrelsen i selve regnearket.<br />

Man skal desuden være opmærksom p˚ a, at i danske versioner af Excel benyttes kommaer<br />

som skilletegn mellem heltalsdelen og decimalerne i reelle tal.<br />

Eksempel 1.4 (Fortsat)<br />

Indtast kondital i cellen A1 i regnearket og indtast derefter de 10 hypotetiske kondital (med<br />

kommaer i stedet for punktummer) i den anden søjle i tabellen side 1.12 i cellerne A2:A11.<br />

Resultatet s˚ aledes ud: ¡¢£¤¥¦§¨<br />

¥¤ ¥§£ ¥¦¨ <br />

¥¤<br />

¥¨§ ¥¡¨ ¥¨§ ¥¤ ¥£<br />

Man ar f˚ alts˚ a ikke altid samme antal decimaler som det der i ndtastes, idet for eksempel 65,0<br />

¦©¨ ©<br />

bliver til 65. Ønskes samme antal decimaler i cellerne A2:A11 markeres disse (anbring musen<br />

i A2, tryk venstre museknap ned og træk samtidig musen ned over cellerne). Et tryk p˚ a ikonen


1.32 Beregninger i Excel<br />

←,0<br />

,00 og cellerne bliver til: ¡¢£¤¥¦§¨<br />

¥¤© ¥§£ <br />

¥¦¨<br />

¥¤© ¦©¨ ¥¨§ ¥¨§<br />

Ønsker vi at sortere observationerne i stigende rækkefølge som i den tredje søjle i tabellen ¥£ ¥¡¨ ¥¤© ©<br />

side 1.12 anbringes musen i cellenA2 og der trykkes p˚ a ikonen A ˚A ↓ med følgende resultat: <br />

<br />

<br />

Følgende rute, der starter i den øverste bjælke over regnearket: Funktioner → Dataana- <br />

lyse → Beskrivende statistik giver efter et klik p˚ a OK en dialogboks med overskriften<br />

Beskrivende statistik. Angiv i ruden efterInputomr˚ade cellerneA2:A11 (dette gøres let-<br />

test ved at klikke i ruden, markere cellerneA2:A11 med venstre museknap for dernæst at slippe<br />

venstre museknap). Angiv p˚ a samme m˚ ade efter Outputomr˚ade et omr˚ ade best˚ aende af mindst<br />

15 rækker og 2 kolonner i regnearket (som default vælger ExcelNy regnearksfane). Et klik i<br />

feltet før Resumestatistik efterfulgt af et klik p˚ a OK producerer følgende output (hvor bred-<br />

den af kolonnerne kan justeres ved hjælp af Formater → Kolonner →Autotilpas)


som indeholder nogle af de empiriske størrelser vi tidligere i eksemplet har beregnet, idet<br />

Middelværdi = ¯x· <br />

s2 Standardfejl =<br />

n<br />

Median = x ∗ 0.50<br />

Standardafvigelse = s<br />

Stikprøvevarians = s 2<br />

Minimum = x (1)<br />

Maximum = x (n)<br />

Sum = S<br />

Antal = n<br />

Beregninger i Tabel 1.5 kan for datasættet her foretages p˚ a følgende m˚ ade:<br />

1.33<br />

• Kopier indholdet af cellerne A2:A11 til cellerne C2:C11 (marker A2:A11 og følg ruten<br />

Rediger →Kopier, anbring curseren i cellenC2 og følg rutenRediger →Sæt ind)<br />

• Slet celler i C2:C11 s˚ a de observerede værdier kun optræder én gang (her marker es to<br />

celler med værdien 65 og en celle med værdien 69,8 hvorefter de slettes ved Rediger<br />

→Slet)<br />

Indholdet af cellerneA1:A11 ogC2:C11 er herefter<br />

¡¢£¤¥¦§¨©<br />

¥¤© ¥¤© ¥§£ ¥§£ <br />

¥¦¨ ¥¤© ¥¨§ ¥¨§ ¦©¨ ¦©¨ ¥¡¨ ¥¦¨<br />

¥£ ¥¨§ ¥¡¨<br />

• Herefter følges ruten Funktioner → Dataanalyse → Histogram. I dialogboksen, der<br />

¥£<br />

fremkommer, angives cellerne A2:A11 i ruden efter Inputomr˚ade, cellerne C2:C8 i ru-<br />

¥¤©<br />

den efter Intervalomr˚ade og cellerne E2:G11 i ruden efter Outputomr˚ade. Herefter<br />

klikkes der i feltet foranKumulativ frekvens og dernæst p˚ a OK.


1.34 Beregninger i Excel<br />

CellerneE2:G10 har derefter følgende indhold: <br />

¡¢£¤¥¦§¨<br />

©©© ¡©©© ¢ ¥¦¨ ¥¡¨ ¥£<br />

¨©©© ¤©©©<br />

• I cellen H2<br />

¥©©©<br />

indtastes p i<br />

¥¤©<br />

%. De ønskede p-værdier beregnes ved i cellen H3 at indtaste<br />

©©©© © ¡ ¦©©© ©©©© ¦©¨ ¥¨§ ¥§£ ©<br />

<br />

formlen=100*G3/2 og i cellenH4 at indtaste formlen=100*(G3+G4)/2. Herefter opret-<br />

tes analoge formler i cellerne H5:H9 ved at anbringe musen i det nedre højre hjørne af<br />

cellen H4, s˚ aledes at curseren kommer til at ligne tegnet +, holde kon troltasten nede og<br />

markere cellerneH5:H9.<br />

Cellerne E2:H10 har derefter følgende indhold, som svarer til indholdet af tabellen side<br />

1.15. <br />

<br />

modsætning til i Tabel 1.5. Det skyldes at her er de kumulerede antal angivet i %, mens de i<br />

<br />

Bemærk, at vi ikke i formlerne ovenfor - vedrørende beregning af p - dividerer med n i <br />

Tabel 1.5 ikke er divideret med n. <br />

Der findes adskillige andre m˚ ader at beregne fraktiler p˚ a e nd den beskrevet p˚ a side 1.14.<br />

Trods en hel del overvejelser har vi endnu ikke fundet frem til, hvordan Excel funktionen<br />

Fraktil beregner fraktilerne for et ugrupperet datasæt x1,...,xn. Lad ˜xp betegne den frak-<br />

til som Fraktil beregner svarende til værdien p. For nogle datasæt stemmer fraktilerne ˜xp<br />

overens med fraktilerne x∗ p fra side 1.14, for andre er der ikke overensstemmelse. Igen skal vi<br />

huske p˚ a, at vi her blot er interesseret i at af˚ et første ind tryk af den observerede fordeling og i<br />

denne forbindelse er forskellen mellem ˜xp og x ∗ p<br />

ikke s˚ a afgørende. I anvendelser - for eksempel


i forbindelse med regning af opgaver - kan man derfor frit vælge mellem dem, n˚ ar blot man<br />

angiver hvilken slags fraktiler der benyttes.<br />

Eksempel 1.4 (Fortsat)<br />

1.35<br />

Følgende klip fra Excel<br />

¡¢£¤¥¦§¨<br />

¥¤© © © ¥¢¨§ ¥§£ ©¡¤ ¥¤©© ¥¦¨ ©¤© ¥¥£¤ ¥¤© ©¦¤ ¥¨§© ¥¨§ ©¨© ¦©¢¤ ¦©¨ ¥¡¨ ¥¨§ ¥¤© ¥£<br />

• at indtaste indholdet af cellerne C1:C6 og D1, placere musen i cellen D2, følge ruten<br />

©<br />

er fremkommet ved<br />

Indsæt → Funktion → Statistik → Fraktil og angive cellerne A2:A11 i ruden<br />

efter Vektor og cellen C2 i ruden efter k for derefter at klikke i OK, hvorved resultatet<br />

63,98 dukker op i cellenD2.<br />

• Herefter oprettes analoge formler i cellerneD3:D6 ved at anbringe musen i det nedre højre<br />

hjørne af cellen H2, s˚ aledes at curseren kommer til at ligne tegnet +, holde kon troltasten<br />

nede og markere cellerneD3:D6.<br />

Ifølge Excel bliver fempunktopsummeringen for de ti hypotesiske kondital:<br />

( ˜x0.10, ˜x0.25, ˜x0.50, ˜x0.75, ˜x0.90) = (63.98,65.00,66.45,69.80,70.35)<br />

og den stemmer ikke helt overens med den vi beregnede p˚ a side 1.16. <br />

I Excel giver ruten Indsæt → Diagram adgang til en række grafiske procedurer, som er<br />

rimelig lette at anvende. For at af˚ et første indtryk af diss e laver vi nu kassediagrammet i Figur<br />

1.10 ved hjælp af Excel.<br />

Eksempel 1.4 (Fortsat)<br />

Et kassediagram for disse data - baseret p˚ a fraktilerne x∗ p p˚ a side 1.16 - lavet i Excel kan se


1.36 Beregninger i Excel<br />

s˚ aledes ud:<br />

Denne tegning kan laves s˚ aledes:<br />

¥¨ ¥© ¥¡ § ¦ ¥ ¤ £ ¢ ¡<br />

• Indtast følgende i regnearket:<br />

<br />

<br />

<br />

•<br />

<br />

Følg<br />

<br />

ruten<br />

<br />

Indsæt → Diagram og vælg i dialogboksen Guiden Diagram, der hver- <br />

ved fremkommer,XY-punkt underDiagramtype. Vælg underUndertype typen nederst<br />

til højre (under typerne skriver Excel: Punktdiagram med datapunkter forbundet<br />

med kurver uden datamærker.) Klik derp˚ a p˚ a Udfør.<br />

Herved fremkommer følgende tegning p˚ a regnearket<br />

<br />

<br />

<br />

som ikke umiddelbart ligner resultatet ovenfor. Dette fremkommer ved passende redigering,<br />

som foretages ved hjælp af højre museknap:


• Fjerne forklarende tekst (til højre p˚ a tegningen): Klik pa˚ rammen omkring teksten. Hold<br />

højre musetast nede og slip den i omr˚ adet Ryd.<br />

• Fjerne gitterlinjer (de vandrette linjer i figuren): Klik p˚ a en af gitterlinjerne. Hold højre<br />

musetast nede og slip den i omr˚ adet Ryd.<br />

• Fjerne andenaksen: Klik p˚ a andenaksen. Hold højre museta st nede og slip den i omr˚ adet<br />

Ryd.<br />

1.37<br />

• Ændre baggrundsfarven og fjern rammen: Placer musen i omr˚adet. Hold højre musetast<br />

nede og vælg Formater afbildningsomr˚ade. I dialogboksen der fremkommer vælges<br />

Ingen b˚ ade under Ramme ogOmr˚ade.<br />

• Tilpasse farver. Placer musen p˚ a en af de farvede kurver. H old højre musetast nede og<br />

vælgFormater dataserie. I boksen der fremkommer vælges underKurve, farve far-<br />

ven sort. (Tilsvarende ændres farve p˚ a de to andre kurver).<br />

• Formatere førsteaksen. Placer musen p˚ a førsteaksen. Hol d højre musetast nede og vælg<br />

Formater akse. I dialogboksen der fremkommer vælges Skala og her sættes Minimum<br />

til 62,Maksimum til 72 ogOverordnet enhed til 1.<br />

Vi afslutter dette anneks ved kort at beskrive, hvorledes figurerne i Eksempel 1.3 kan laves.<br />

Eksempel 1.3 (Fortsat)<br />

Figur 1.12<br />

Figuren er lavet ud fra ¦ ¢¨ ¡¢£¤¥¦§¨<br />

¢¤<br />

¡ ¦<br />

¡¢ ¢© ¡¡ ¢© ¡¥ ¢¥<br />

¡¡ ¡¥<br />

¡ ¢¢ §<br />

• Marker disse celler og vælg<br />

<br />

rutenIndsæt<br />

¡¢<br />

→Diagram. I dialogboksen, der fremkommer<br />

¡<br />

¡¤ ¦ ¡£ ¡© ¤ ¡ ¢ ¡ ©<br />

vælges Søjle under Diagramtype og under Undertype vælges typen øverst til venstre


1.38 Beregninger i Excel<br />

(undertyperne skriver Excel: Grupperet søjle. Sammenligner værdier p˚a tværs<br />

af kategorier) Et klik p˚ a OK giver resultatet:<br />

¢ £ ¤ ¥<br />

¦§ ¨§ ¡ © § § ¨¨§<br />

<br />

Som det ses er tegningen ikke bred nok, idet ikke alle klubbers navne st˚ ar p˚ a førsteaksen. Dette<br />

ordnes s˚ aledes:<br />

• Placer musen i det nedeste højre hjørne af rammen s˚ aledes a t curseren bliver til en pil<br />

sammensat af symbolerne ց og տ. Træk derefter musen til højre og nedad indtil tegnin-<br />

gen bliver stor nok.<br />

Herefter redigeres tegningen i følgende trin:<br />

• Ændre placering af forklaring: Klik p˚ a rammen omkring tek sten. Hold højre museknap<br />

ned og vælgFormater forklaring. I dialogboksen vælgesPlacering →Nederst og<br />

derefterOK. Rammen omkring forklaringen fjernes ved i dialogboksen at vælgeMønstre<br />

→Ramme →Ingen.<br />

• Rotere teksten p˚ a førsteaksen: Klik p˚ a teksten. Hold høj re museknap ned og vælgFormater<br />

akse. I dialogboksen vælgesJustering →Retning og i ruden forangrader skrives90.<br />

• Ændre baggrundsfarve og fjerne ramme: Klik p˚ a baggrunden . Hold højre museknap ned<br />

og vælgFormater afbildningsomr˚ade. VælgIngen i b˚ ade Ramme ogOmr˚ade.<br />

• Tilføje titel: Klik p˚ a rammen s˚ a teksten Diagramomr˚ade fremkommer. Hold højre musek-<br />

nap nede og vælgDiagramindstillinger. I dialogboksen skrives derefter den ønskede<br />

titel i ruden under Titler → Diagramtitel. Herved fremkommer titlen p˚ a tegningen<br />

og denne kan eventuelt redigeres ved at placere musen p˚ a tit len, holde højre museknap<br />

nede og s˚ a videre.


Figur 1.13 og Figur 1.14<br />

Figurene laves ud fra ¡¢<br />

¤ ¦ ©<br />

Figur 1.13 er bortset fra lidt redigering fremkommet ved: ¡ ¨ ©¨¨ ¨¨ §¨© ¥ £<br />

1.39<br />

• Marker cellerne og vælg ruten Indsæt → Diagram. I dialogboksen, der fremkommer<br />

vælges Søjle under Diagramtype og under Undertype vælges typen øverst til venstre<br />

(undertyperne skriver Excel: Grupperet søjle. Sammenligner værdier p˚a tværs<br />

af kategorier)<br />

Figur 1.14 er bortset fra lidt redigering fremkommet ved:<br />

• Marker cellerne og vælg ruten Indsæt → Diagram. I dialogboksen, der fremkommer<br />

Figur 1.15<br />

vælgesSøjle underDiagramtype og underUndertype vælges typen øverst til højre (un-<br />

dertyperne skriver Excel: 100% stablet søjlediagram. Sammenligner den pro-<br />

centdel, de enkelte værdier bidrager til totalen med, p˚a tværs af ka-<br />

tegorier.)<br />

Figuren laves ud fra cellerne<br />

<br />

<br />

<br />

<br />

Bemærk, at der er forskel p˚ a cellerne i kolonnerne A ogD. IAst˚ ar tallene til højre hvilket betyder,<br />

at Excel opfatter dem som numeriske variable, mens de iDst˚ ar til venstre og derfor opfattes som<br />

tekst variable. I Excel’s søjlediagrammer afbildes der kategorier p˚ a førsteakse n, s˚ a tegningen


1.40 Beregninger i Excel<br />

skal derfor laves ud fra kolonnerneDogE. Konvertering af numeriske variable til tekst variable<br />

kan foretages ved hjælp af funktionen FAST. I D2 er skrevet formlen =FAST(A2;0), hvilket<br />

transformerer den numeriske værdi 0 i cellenA2 til teksten ”0” iD2. Analoge formler er derefter<br />

oprettet i de øvrige celler iD.<br />

Vedrørende redigeringen af tegningen kan nævnes:<br />

• at titlen og navnene p˚ a akserne laves i dialogboksen der fr emkommer ved rutenDiagram-<br />

omr˚ade →Diagramindstillinger →Titler.<br />

• at tallene, der angiver antallet af observationer i de enkelte kategorier, fremkommer ved<br />

Formater dataserie →Dataetiketter →Vis værdi.


Opgaver til Kapitel 1<br />

1.41<br />

Opgave 1.1 (Andersen 1998) Jættemilen afslutter orienteringssæsonen den anden søndag i<br />

november. Der løbes her p˚ a baner p˚ a ca. 25 km for eliten, ca. 18 km for deltagere mellem<br />

35 og 55ar ˚ og p˚ a ca. 12 km for deltagere over 55. Løbstiderne i minutter for 18 deltagere i<br />

klassen H65, det vil sige herrer der er fyldt 65ar, ˚ i 1994 er v ist nedenfor<br />

92.17 96.65 97.75 97.78 101.43 102.03 107.40 110.12 113.45<br />

118.12 120.42 131.23 136.45 142.87 142.95 148.00 149.45 164.75<br />

a) Udfyld skemaet i Tabel 1.5.<br />

b) Tegn kassediagrammet.<br />

c) Beregn empirisk middelværdi og varians.<br />

Opgave 1.2 (Andersen 1998) I 1993 var løbstiderne for de 23, der gennemførte Jættemilen i<br />

klassen H65, opgjort i minutter:<br />

85.08 85.67 87.02 97.65 100.98 109.96 110.18 111.00 111.27 113.53<br />

123.77 128.58 129.10 133.03 133.63 141.45 162.33 166.53 189.00 190.00<br />

114.85 116.88 118.72<br />

Beskriv fordelingen ved passende grafiske metoder.<br />

Opgave 1.3 (Andersen 1998) Tabellen viser kondital for en række idrætsudøvere.<br />

72.8 73.4 68.6 71.5 69.3 75.4 66.8 71.3 73.0 75.1 69.1 75.4 76.6<br />

71.8 73.9 75.1 75.0 67.7 73.7 74.3 174.4 71.4 72.1 75.5<br />

a) Opstil den ordnede stikprøve og bestem de empiriske fraktiler svarende til observationer-<br />

ne.<br />

b) Beskriv fordelingen ved passende grafiske metoder.<br />

c) Vurder fordelingens eventuelle skævhed og undersøg om der er ekstreme observationer.<br />

Opgave 1.4 (Andersen 1998) Kondital for 17 ikke-aktive idrætsudøvere (ordnet efter størrelse).<br />

56.0 61.8 64.1 64.9 65.2 66.3 66.9 68.9 70.6<br />

70.8 72.4 73.1 73.9 74.1 74.1 75.3 78.7


1.42 Opgaver<br />

a) Udfyld skemaet i Tabel 1.5.<br />

b) Tegn kassediagrammet.<br />

c) Beregn empirisk middelværdi og varians.<br />

Opgave 1.5 (Andersen 1998) Følgende vægte i kg blev m˚ alt for 30 unge idr ætsudøvere.<br />

75.39 77.68 83.58 69.46 87.47 76.79 75.42 83.57 80.18 72.90 74.58 73.99<br />

64.52 71.19 81.71 85.32 61.12 73.54 84.30 74.81 77.46 74.22 74.06 76.80<br />

73.87 69.48 88.35 79.91 73.95 59.74<br />

a) Opstil den ordnede stikprøve.<br />

b) Beregn de fem fraktiler i fempunktsopsummeringen, samt 45% og 70% fraktilerne.<br />

c) Vurder om fordelingen er skæv og om der er ekstreme observationer.<br />

Opgave 1.6 (Andersen 1998) M˚ altider i orienteringsløb. Tallene stam mer fra enkeltstartsløbet<br />

”Classic” under Spring Cup, som arrangeres af FIF Hillerød. Tallene i tabllen nedenfor viser<br />

antallet x af løbere, der passerer m˚ al for hvert halve minut i de 100 hal vminutsintervaller fra<br />

10.45-11.35 og tilsvarende for de 100 halvminutsintervaller fra 10.35-11.25. For eksempel er<br />

der 10 intervaller i tidsrummet 10.45-11.35 hvor der er 3 løbere, der har passeret m˚ al<br />

10.45-11.35 11.35-12.25<br />

antal antal<br />

x intervaller x intervaller<br />

0 47 0 10<br />

1 18 1 12<br />

2 6 2 16<br />

3 10 3 10<br />

4 4 4 3<br />

5 2 5 0<br />

6 2 6 2<br />

7 3 7 5<br />

8 2 8 4<br />

9 2 9 3<br />

10 1 10 4<br />

11 0 11 6<br />

≥12 3 ≥12 25<br />

Sum 100 Sum 100


Sammenlign de to observerede fordelinger ved hjælp af:<br />

a) søjlediagrammer<br />

b) fempunktsopsummeringer<br />

1.43<br />

Opgave 1.7 Tabellen nedenfor viser antallet af m˚ al scoret i samtlige k ampe i henholdsvis Jyl-<br />

landsseriens sydkreds i 1995 og Jyllandsseriens nordkreds i 1996. Der er alts˚ a scoret j m˚ al i a j<br />

kampe.<br />

Sydkreds 1995 Nordkreds 1996<br />

antal( j) observeret (a j) observeret (a j)<br />

0 7 7<br />

1 17 16<br />

2 28 36<br />

3 29 35<br />

4 30 34<br />

5 27 19<br />

6 19 15<br />

7 12 14<br />

8 5 4<br />

9 4 1<br />

10 2 0<br />

11 2 1<br />

ialt 182 182<br />

Sammenlign de to fordelinger ved hjælp af passende numeriske og grafiske metoder.<br />

Opgave 1.8 (Andersen 1998) Tabellen nedenfor viser tidsdifferenser mellem to p˚ a hinanden<br />

følgende løbere p˚ a resultatlisten i eliteklassenklassen H21E1 ved Spring Cup 1996 fordelt p˚ a<br />

en antal intervaller. Det er for eksempel sket 91 gange at to løbere er kommet ind med en


1.44 Opgaver<br />

tidsforskel p˚ a mindre end 5 sek<br />

tidsinterval observeret<br />

(sek) antal løbere<br />

0-5 91<br />

5-10 41<br />

10-15 11<br />

15-20 6<br />

20-25 2<br />

25-30 4<br />

30-40 4<br />

40-50 3<br />

50- 6<br />

Sum 168<br />

a) Lav et histogram for den observerede fordeling. Bemærk, at tidsintervallerne ikke er lige<br />

lange. (Sæt den øvre grænse for intervallet 50- til 70.)<br />

b) Beregn empirisk middelværdi og varians.<br />

Opgave 1.9 (Andersen 1998) Tabellen viser vægtfordelingen for 555 drenge og 723 piger i<br />

1983, og for 327 drenge og 413 piger i 1985, der deltog i forskningsprojektet: Ungdom og<br />

Idræt.<br />

1983 1985<br />

Vægt (kg) Drenge Piger Drenge Piger<br />

-40 2 4 0 3<br />

41-45 1 31 0 16<br />

46-50 7 106 3 44<br />

51-55 27 189 26 97<br />

56-60 82 200 47 122<br />

61-65 153 117 77 76<br />

66-70 123 52 77 32<br />

71-75 88 11 47 17<br />

76-80 46 7 30 3<br />

81-85 14 3 12 2<br />

86-90 8 1 7 0<br />

91- 4 2 1 1


1.45<br />

a) Lav histogrammer og kassediagrammer for alle fire fordelinger (Sæt minimumsvægten til<br />

30 kg og maksimumsvægten til 110 kg).<br />

b) Benyt disse til at beskrive forskellene mellem drenge og piger, og mellem tilstanden i<br />

1983 og tilstanden i 1985.<br />

Opgave 1.10 (Andersen 1998) Højdefordelingen, svarende til vægtfordelingen i Opgave 1.9 er<br />

vist nedenfor<br />

1983 1985<br />

Højde (cm) Drenge Piger Drenge Piger<br />

-150 0 1 0 2<br />

151-155 2 11 0 4<br />

156-160 1 64 1 37<br />

161-165 4 179 7 82<br />

166-170 44 240 24 146<br />

171-175 99 153 56 95<br />

176-180 166 58 81 39<br />

181-185 146 15 93 8<br />

186-190 71 1 48 0<br />

191- 22 1 17 0<br />

a) Benyt kassediagrammer til at vurdere om fordelingerne er skæve (Sæt den minimale højde<br />

til 141 cm og den maksimale til 210 cm.)<br />

b) Benyt desuden kassediagrammerne til at sammenligne højdeforskellene b˚ ade mellem køn<br />

og mellemar. ˚<br />

Opgave 1.11 (Andersen 1998) For 3869 unge fra forskningsprojektet Idræt og Ungdom op-<br />

gjorde man idrætsaktiviteterne pr. uge for rygere og ikke-rygere. De observerede tal var:<br />

Idrætsaktiv Antal<br />

Timer pr. uge Rygere Ikke rygere<br />

0-0.5 181 603<br />

0.5-2 158 591<br />

2-4 162 713<br />

4-7 150 697<br />

7- 83 531<br />

Ialt 734 3135


1.46 Opgaver<br />

Sammenlign fordelingerne af rygere og ikke-rygeres idrætsmæssige aktivitetsniveau ved<br />

hjælp af passende grafiske metoder.<br />

Opgave 1.12 I en undersøgelse fra 1991 undersøgte man en række forhold omkring de 290<br />

personer i live i 1991 (populationen), der havde spillet, eller spillede, professionel fodbold i<br />

udlandet. Det lykkedes at finde frem til adresser p˚ a 214 (adr esselisten) af disse personer. Tabel-<br />

lerne viser dels fordelingen p˚ a oprindeligt hjemsted, det vil sige hvor spilleren havde spillet i<br />

børne- og ungdoms˚ arene, og p˚ a udrejse˚ ar.<br />

Udrejse˚ar Populationen Adresselisten<br />

1946-67 58 42<br />

1968-72 65 48<br />

1973-76 53 38<br />

1977-82 60 41<br />

1983-90 54 45<br />

Ialt 290 214<br />

Hjemsted Populationen Adresselisten<br />

København 133 98<br />

Sjælland (-Kbh.) 44 32<br />

Fyn 29 22<br />

Jylland 84 62<br />

Ialt 290 214<br />

a) Beskriv hver af de fire fordelinger ved hjælp af passende grafiske metoder.<br />

b) Hvad fortæller graferne om det kritiske spørgsm˚ al: Er ad resselisten repræsentativ for po-<br />

pulationen?<br />

Opgave 1.13 (Andersen 1998) Fra den samme undersøgelse som i Opgave 1.12 stammer ne-<br />

denst˚ aende tabel, der viser hvor mange af dem, der besvared e spørgsm˚ alet (en del spillede stadig<br />

i udlandet, og følte m˚ aske, at spørgsm˚ alet ikke var releva nt), der angav om de havde haft fast


1.47<br />

plads p˚ a 1-holdet hele tiden i udlandet, en del af tiden, hal vdelen af tiden, i perioder eller aldrig.<br />

Udrejse før Udrejse efter<br />

Fast plads p˚a 1-holdet 1976 1976<br />

Hele tiden 55 14<br />

Det meste af tiden 9 9<br />

Halvdelen af tiden 2 6<br />

I perioder 4 2<br />

Aldrig 0 3<br />

Ialt 70 34<br />

a) Beskriv fordelingen p˚ a de fem svarkategorier b˚ ade for d em, der rejste ud før 1976, og for<br />

dem , der rejste ud efter 1976, ved hjælp af passende grafiske metoder.<br />

b) Er der forskel p˚ a svarfordelingerne for dem, der rejste u d før 1976, og for dem, der rejste<br />

ud efter 1976?<br />

c) Beskriv eventuelle forskelle ved velvalgte grafer.<br />

Opgave 1.14 (Andersen 1998) Glycogen indholdet (i mmol/kg tørvægt) i benmusklerne før og<br />

efter en træningsperiode p˚ a 3 uger hos 8 forsøgspersoner er vist nedenfor.<br />

forsøgsperson før efter<br />

nr. træning træning<br />

1 534 813<br />

2 593 767<br />

3 370 551<br />

4 507 716<br />

5 450 814<br />

6 619 1168<br />

7 422 749<br />

8 578 714<br />

a) Indtegn observationerne i et koordinatsystem (det vil sige tegn (før,efter) ).<br />

b) Beregn empiriske middelværdi og varians for de to observationsrækker.<br />

c) Beregn den empiriske korrelation mellem de to observationsrækker.


1.48 Opgaver


2 Begreber fra sandsynlighedsteorien 2.1<br />

2 Begreber fra sandsynlighedsteorien<br />

Som det vil fremg˚ a af de følgende kapitler er sandsynlighed steorien det vigtigste hjælpemid-<br />

del ved formuleringen og analysen af statistiske modeller til beskrivelse af udfald - data - fra<br />

eksperimenter, der er underkastet tilfældige variationer. Sandsynlighedsteorien er netop den<br />

matematiske disciplin, der beskæftiger sig med at modellere tilfældig variation.<br />

Dette kapitel er at betragte som en kortfattet summarisk oversigt over de begreber og resul-<br />

tater fra sandsynlighedsteorien, som benyttes i det følgende. Kapitlet indeholder ingen mate-<br />

matiske beviser, idet hensigten blot er at definere og illustrere brugen af de relevante begreber<br />

og alts˚ a ikke at udvikle en præcis matematisk teori. Eksemp lerne i kapitlet er valgt ud fra det<br />

princip, at de skal belyse begreberne uden at matematikken bliver alt for vanskelig. Kapitlet skal<br />

ogs˚ a ses som en forberedelse til Kapitel 3, der resumerer eg nskaber ved en række fordelinger,<br />

der benyttes i de senere kapitler.<br />

Nogle af˚ og m˚ aske ikke s˚ a velkendte matematiske begreber , der benyttes i kapitlet, er omtalt<br />

i Appendiks A.<br />

2.1 Sandsynlighedsrum<br />

Definitionen af sandsynlighedsrum involverer matematiske begreber, som er omtalt i Appendiks<br />

A. I Afsnit A.1 repeteres notationen fra mængdelæren og i Afsnit A.2 defineres begrebet en<br />

uendelig række, som indg˚ ar i Definition 2.1 nedenfor.<br />

2.1.1 Definition af sandsynlighedsm˚al<br />

Et sandsynlighedsm˚al P p˚ a et udfaldsrum E er en funktion, der til en delmængde A af mængden<br />

E tilordner et tal P(A), som ligger i intervallet [0,1]. Funktionen skal opfylde to betingelser som<br />

angivet i<br />

Definition 2.1 Et sandsynlighedsm˚ al P p˚ a udfaldsrummet E er en funktion<br />

P : E ⊇ A → P(A) ∈ [0,1],


2.2 2.1 Sandsynlighedsrum<br />

der opfylder de to betingelser:<br />

1)<br />

P(E) = 1.<br />

2) Hvis A1,A2,... er en tællelig mængde af parvis disjunkte mængder, Ai ∩ A j = /0, i = j, s˚ a<br />

er<br />

Bemærkinger<br />

∞<br />

P( Ai) =<br />

i=1<br />

∞<br />

∑<br />

i=1<br />

P(Ai). (2.1)<br />

I (2.1) er ∑ ∞ i=1 P(Ai) en uendelige række, der beregnes som grænseværdien af ∑ n i=1 P(Ai) =<br />

P(A1)+···+P(An) for n → ∞, se Afsnit A.2.<br />

Hvis E er et interval abent, (˚ halv˚ abent eller lukket) fra a(≥ −∞) til b(≤ ∞), indeholder<br />

E mange mystiske delmængder, som man sædvanligvis ikke er interesseret i at beregne sand-<br />

synligheden for. Man indskrænker sig derfor til at beregne sandsynligheder for en mængde af<br />

delmængder,<br />

hvor F opfylder de to betingelser:<br />

a)<br />

b)<br />

An ∈ F, n = 1,2,...,⇒<br />

F = {A : A ⊆ E},<br />

A ∈ F ⇒ A C ∈ F<br />

∞<br />

An ∈ F og<br />

n=1<br />

∞<br />

An ∈ F.<br />

Hvis P kun er defineret for mængder i F omtales P som et sandsynlighedsm˚ al p˚ a (E,F).<br />

Elementerne i F omtales da som m˚alelige mængder og triplet (E,F,P) kaldes et sandsynlig-<br />

hedsrum. Elementer i E omtales som udfald og delmængder i F som hændelser. En hændelse<br />

A indtræffer, hvis e ∈ A, det vil sige hvis udfaldet e er i mængden A.<br />

Sædvanligvis vælges F som den mindste mængde af delmængder af intervallet fra a til<br />

b, som opfylder betingelserne a) og b) og som indeholder alle intervaller, der er indeholdt i<br />

intervallet fra a til b. Disse delmængder er karakteriseret ved, at hvis A ∈ F kan man beregne<br />

længden |A| af A.<br />

n=1


2.1.2 Regneregler for sandsynligheder<br />

Ud fra Definition 2.1 kan man vise en række af regneregler for sandsynlighedsm˚ al. I sætningen<br />

nedenfor gengives de regneregler, vi har brug for.<br />

Sætning 2.1 Hvis P er et sandsynlighedsm˚ al p˚ a E og A,B,A1,...,An er delmænger af E gælder<br />

der:<br />

Hvis A1,...,An er parvis disjunkte er<br />

A<br />

2.3<br />

P(/0) = 0. (2.2)<br />

P(A\B) = P(A) − P(B), hvis A ⊇ B. (2.3)<br />

P(A C ) = 1 − P(A). (2.4)<br />

P(A ∪ B) = P(A)+P(B) − P(A ∩ B). (2.5)<br />

P(A1 ∪ ··· ∪ An) = P(A1)+···+P(An). (2.6)<br />

B<br />

A\B<br />

P(A\B)=P(A)−P(B)<br />

A B<br />

A∪B<br />

P(A∪B)=P(A)+P(B)−P(A∩B)<br />

A C<br />

A<br />

A<br />

C<br />

P(A )= 1−P(A)<br />

P(A∪B)=P(A)+P(B) hvis A∩B=∅<br />

Figur 2.1 Illustration af nogle af egenskaberne ved et sandsynlighedsm˚ al P.<br />

B


2.4 2.1 Sandsynlighedsrum<br />

Eksempel 2.1<br />

Hvis udfaldsrummet E er en endelig mængde med #E elementer kan det vises, at antallet af<br />

delmængder af E er 2 #E . Sandsynlighedsm˚ alet p˚ a E givet ved at en delmængde A har sandsyn-<br />

ligheden<br />

P(A) = #A<br />

(2.7)<br />

#E<br />

kaldes det uniforme sandsynlighedsm˚al p˚ a E. Sandsynligheden for en delmængde A er alts˚ a<br />

blot antallet af elementer i A divideret med antallet af elementer i E, specielt gælder der, at alle<br />

elementer e i E har samme sandsylighed, nemlig<br />

Eksempel 2.2<br />

P({e}) = 1<br />

, e ∈ E.<br />

#E<br />

Betragt to kampe p˚ a tipskuponen. Udfaldsrummet E svarende hertil er<br />

2.kamp<br />

1 X 2<br />

1 (1,1) (1,X) (1,2)<br />

1.kamp X (X,1) (X,X) (X,2)<br />

2 (2,1) (2,X) (2,2)<br />

Da #E = 9 har samtlige udfald af de to kampe sandsynligheden 1 9 under det uniforme sandsyn-<br />

lighedsm˚ al p˚ a E.<br />

er<br />

Vi illustrerer nu nogle af regnereglerne i Sætning 2.1 i dette simple eksempel.<br />

Lad A være hændelsen at de to kampe giver samme tegn. Da<br />

A = { (1,1) (X,X) (2,2) }<br />

P(A) = #A 3 1<br />

= =<br />

#E 9 3 .<br />

Hvis B er hændelsen at de to kampe giver forskelligt tegn, er B den komplementære hæn-<br />

delse til A, det vil sige at B = AC , og af (2.4) as f˚ at<br />

hvilket stemmer overens med at<br />

P(B) = P(A C ) = 1 − P(A) = 1 − 1 2<br />

=<br />

3 3 ,<br />

B = { (1,X) (1,2) (X,1) (X,2) (2,1) (2,X) }.


sige at<br />

samt at<br />

Lad C1 og C2 betegne hændelserne at vi ar f˚ et 2-tal i første henholdsvis anden kamp, det vil<br />

C1 = { (2,1) (2,X) (2,2) } og P(C1) = 1<br />

3<br />

C2 = { (1,2) (X,2) (2,2) } og P(C2) = 1<br />

3 .<br />

Lad C betegne hændelsen at de to kampe giver mindst et 2-tal, det vil sige at<br />

C = { (1,2) (X,2) (2,2) (2,1) (2,X) } og P(C) = 5<br />

9 .<br />

Denne sandsynlighed kunne vi ogs˚ a have beregnet ved hjælp a f formel (2.5), idet C = C1 ∪<br />

C2. Da C1 ∩C2 = { (2,2) } as f˚ af (2.5), at<br />

P(C) = P(C1 ∪C2) = P(C1)+P(C2) − P(C1 ∩C2)<br />

= 1 1 1<br />

+ −<br />

3 3 9<br />

= 5<br />

9 .<br />

Lad D betegne hændelsen at præcis én af de to kampe giver et 2-tal, det vil sige at<br />

D = { (1,2) (X,2) (2,1) (2,X) } og P(D) = 4<br />

9 .<br />

Da D = C \(C1 ∩C2) kunne denne sandsynlighed - ved hjælp af formel (2.3) - beregnes som<br />

Eksempel 2.3<br />

P(D) = P(C) − P(C1 ∩C2)<br />

= 5 1 4<br />

− =<br />

9 9 9 .<br />

Lad E = ]a,b[ være et endeligt interval p˚ a den relle akse. Lad A være en m˚ alelig delmængde<br />

af E og lad |A| betegne længden af A. Det uniforme sandsynlighedsm˚al p˚ a E tilordner til A<br />

sandsynligheden<br />

2.5<br />

P(A) = |A| |A|<br />

= . (2.8)<br />

|E| b − a<br />

Hvis specielt E = ]0,1[ og P er det uniforme sandsynlighedsm˚ al p˚ a E, omtales et udfald<br />

e ∈ E ofte som et tilfældigt tal mellem 0 og 1.<br />

Tilfældige tal kan man for eksempel benytte, n˚ ar man ønsker frembringe udfald af tilfældige<br />

størrelser, hvis sandsynligheder er specificeret. Antag for eksempel at en tipsekspert har opgivet


2.6 2.1 Sandsynlighedsrum<br />

procenterne 60, 30 og 10 for henholdvis hjemmesejr, uafgjort og udesejr i en bestemt kamp p˚ a<br />

tipskuponen. Lad e betegne et tilfældigt tal mellem 0 og 1. Tipper vi<br />

1, hvis 0.0 < e < 0.6,<br />

X, hvis 0.6 < e < 0.9,<br />

2, hvis 0.9 < e < 1.0,<br />

har vi lavet et tilfældigt tipstegn i overensstemmelse med ekspertens procenter, idet<br />

og<br />

P(tippe 1) = |]0.0,0.6[|<br />

|]0,1[|<br />

P(tippe X) = |]0.6,0.9[|<br />

|]0,1[|<br />

P(tippe 2) = |]0.9,1.0[|<br />

|]0,1[|<br />

2.1.3 Betingede sandsynligheder og uafhængighed<br />

= 0.6<br />

1<br />

= 0.3<br />

1<br />

= 0.1<br />

1<br />

= 0.6,<br />

= 0.3<br />

= 0.1.<br />

Definition 2.2 Hvis A og B er to hændelser, s˚ aledes at P(B) > 0, kaldes størrelsen<br />

P(A|B) =<br />

P(A ∩ B)<br />

P(B)<br />

<br />

(2.9)<br />

den betingede sandsynlighed af A givet B. Hvis P(B) = 0 er den betingede sandsynlighed ikke<br />

defineret. <br />

Definition 2.3 Hændelserne A1,...,An er indbyrdes uafhængige hvis<br />

P(Ai1 ∩ ··· ∩ Ai j ) = P(Ai1 )···P(Ai j ), (2.10)<br />

hvor {i1,...,ij} ⊆ {1,2,...,n}, j = 2,...,n. Med andre ord er de n hændelser indbyrdes uaf-<br />

hængige, hvis der gælder, at sandsynligheden for fællesmængden af j af hændelserne er lig med<br />

produktet af de tilsvarende j sandsynligheder.<br />

Specielt er hændelserne A og B uafhængige, hvis<br />

P(A ∩ B) = P(A)P(B). (2.11)


A<br />

A∩B<br />

P(A|B)=P(A∩B)/P(B)<br />

Figur 2.2 Illustration af definitionen af den betingede sandsynlighed P(A | B) af A givet B.<br />

Bemærkning<br />

Af (2.9) og (2.11) ses, at<br />

A og B er uafhængige ⇔ P(A|B) = P(A),<br />

det vil sige, at A og B er uafhængige, hvis og kun hvis sandsynligheden for A er den samme<br />

uanset om vi ved, at B er indtruffet eller ej.<br />

For betingede sandsynligheder har vi følgende regneregler:<br />

Sætning 2.2 (Omvendt betinget sandsynlighed) Hvis de tre størrelser P(A) > 0, P(B) > 0 og<br />

P(A|B) alle er kendte, er<br />

B<br />

2.7<br />

P(B|A) = P(A|B)P(B)<br />

. (2.12)<br />

P(A)<br />

(Loven om total sandsynlighed) Hvis B1,...,Bn er en disjunkt opdeling af E, det vil sige, at<br />

ni=1 Bi = E, og Bi ∩ B j = /0, i = j, og P(Bi) > 0 og P(A|Bi), i = 1,...,n, alle er kendte, er<br />

og<br />

P(A) =<br />

n<br />

∑<br />

i=1<br />

P(A|Bi)P(Bi) (2.13)<br />

P(Bk |A) = P(A|Bk)P(Bk)<br />

n . (2.14)<br />

∑ P(A|Bi)P(Bi)<br />

i=1<br />

Formel (2.14) omtales ofte som Bayes formel.


2.8 2.1 Sandsynlighedsrum<br />

Eksempel 2.4<br />

E<br />

B B B<br />

1 2 3 n<br />

Figur 2.3 Illustration af antagelserne i Sætning 2.2.<br />

Som bekendt har et superligahold forskellige chancer for henholdsvis sejr, uafgjort og neder-<br />

lag alt efter om holdet spiller p˚ a hjemmebane eller p˚ a udebane . Antag, at disse chancer for et<br />

bestemt hold er specificeret ved følgende betingede sandsynligheder<br />

…<br />

A<br />

sejr uafgjort nederlag<br />

P(·|hjemme ) p1 q1 r1<br />

P(·|ude ) p2 q2 r2<br />

hvor p1 + q1 + r1 = 1 og p2 + q2 + r2 = 1. Antag desuden, at holdet hører til de heldige, der<br />

spiller 17 af turneringens 33 kampe p˚ a hjemmebane, det vil s ige, at<br />

P( hjemme ) = 17<br />

33<br />

og P( ude ) = 16<br />

33 .<br />

Ved hjælp af (2.13) finder vi, at sandsynligheden for sejr i en tilfældig kamp er<br />

P( sejr ) = P( sejr |hjemme )P( hjemme )+P( sejr |ude )P( ude )<br />

17<br />

= p1<br />

33<br />

16<br />

+ p2<br />

33<br />

= 17p1 + 16p2<br />

.<br />

33<br />

Tilsvarende bliver sandsynligheden for henholdsvis uafgjort og nederlag i en tilfældig kamp<br />

P( uafgjort ) = 17q1 + 16q2<br />

33<br />

B


og<br />

P( nederlag ) = 17r1 + 16r2<br />

.<br />

33<br />

Ved hjælp af (2.12) kan vi beregne sandsynligheden for at holdet har spillet p˚ a hjemmebane<br />

givet det har vundet, nemlig som<br />

Eksempel 2.5<br />

P( sejr |hjemme )P( hjemme )<br />

P( hjemme |sejr ) =<br />

P( sejr )<br />

17<br />

p1<br />

=<br />

33<br />

17p1 + 16p2<br />

33<br />

17p1<br />

= .<br />

17p1 + 16p2<br />

Antag, at udfaldene af hjemmekampene, som et hold spiller, er uafhængige og at holdet i alle<br />

hjemmekampene har samme sandsynlighed henholdsvis p, q og r for sejr, uafgjort og nederlag,<br />

hvor p+q+r = 1. Hvis Si, Ui og Ni betegner betegner hændelserne henholdsvis sejr, uafgjort<br />

og nederlag i den i’te hjemmekamp har vi alts˚ a<br />

P(Si) = p, P(Ui) = q og P(Ni) = r.<br />

Da resultaterne i de forskellige hjemmekampe er uafhængige har vi for eksempel, at sand-<br />

synligheden for sejr i første hjemmekamp, nederlag i anden og sejr i tredje er<br />

og mere generelt, for eksempel,<br />

P(S1 ∩ N2 ∩ S3) = P(S1)P(N2)P(S3) = prp<br />

P(S1 ∩ N2 ∩ S3 ∩ ···∩Uj−1 ∩ Nj ∩Uj+1 ∩ ··· ∩ Sn) = prp...qrq... p.<br />

2.2 Stokastiske variable<br />

Det helt centrale begreb i sandsynlighedsregningen er stokastiske variable og vektorer. Hvis<br />

(E,F,P) er et sandsynlighedsrum er en stokastisk variabel en funktion X defineret p˚ a udfalds-<br />

rummet E med værdier i R, den reele akse. Hvis udfaldet e ∈ E indtræffer antager den stoka-<br />

stiske variabel X værdien X(e). Ved at lægge en simpel betingelse p˚ a X kan man ved hjælp af<br />

2.9


2.10 2.2 Stokastiske variable<br />

sandsynlighedsudsagn beskrive variationen af X - eller fordelingen af X - inden udfaldet e er<br />

kendt.<br />

Vi indskrænker os til at omtale to typer af stokastiske variable, nemlig diskrete stokastiske<br />

variable, som bruges til at modellere tælledata med, og kontinuerte stokastiske variable, der<br />

benyttes i forbindelse med kontinuerte data.<br />

Ved valget af eksempler i dette afsnit er der igen lagt vægt p˚a at eksemplerne skal være<br />

nemme at h˚ andtere matematisk. Kapitel 3 giver en oversigt o ver nogle af de mest anvendte<br />

fordelinger i statistik.<br />

Definition 2.4 Lad (E,F,P) være et sandsynlighedsrum. En afbildning X fra E ind i R,<br />

X : E → R<br />

e → X(e)<br />

kaldes en stokastisk variabel hvis {e ∈ E : X(e) ≤ x} ∈ F , for alle x ∈ R. Vi bruger {X ≤ x}<br />

som forkortelse for {e ∈ E : X(e) ≤ x}. <br />

For en stokastisk variabel X gælder der alts˚ a for alle x ∈ R at {e ∈ E : X(e) ≤ x} ∈ F . Vi<br />

kan derfor beregne sandsynligheden P({e ∈ E : X(e) ≤ x}) og beskrive variationen af X ved<br />

hjælp af sandsynlighedsudsagn, hvilket begrunder følgende definition:<br />

Definition 2.5 Funktionen F fra R ind i [0,1] givet ved<br />

F : R → [0,1]<br />

x → F(x) = P(X ≤ x)<br />

kaldes fordelingsfunktionen for X. Helt præcist er F(x) = P({e ∈ E : X(e) ≤ x}). <br />

Sætning 2.3 En fordelingsfunktion F for en stokastisk variabel X har følgende egenskaber :<br />

a) F(x) ∈ [0,1], x ∈ R<br />

b) F er voksende: x1 < x2 ⇒ F(x1) ≤ F(x2)<br />

c) F(x) →<br />

x→ −∞ 0 og F(x) →<br />

x→ ∞ 1<br />

d) F er højrekontinuert, det vil sige F(x) = F(x+).<br />

Endvidere gælder der<br />

P(X ∈ ]a,b]) = F(b) − F(a) (2.15)<br />

P(X = x) = F(x) − F(x−). (2.16)<br />

I statistikken benytter vi ofte begrebet p-fraktil, som defineret i Definition 2.6 nedenfor,<br />

samt resultatet i Sætning 2.4.


2.11<br />

Figur 2.4 Fordelingsfunktionen F for en stokastisk variabel X. Springet af F i x = −1 er P(X =<br />

−1). Endvidere er vist udvalgte fraktiler for F: x0.05 = −2.5, x0.3 = x0.4 = −1.0 og x0.9214 =<br />

[1,2].<br />

Definition 2.6 For p ∈ [0,1] defineres p-fraktilen for F som mængden<br />

xp = {x ∈ R : F(x−) ≤ p ≤ F(x)} (2.17)<br />

Fraktilerne x0.25 og x0.75 omtales som henholdsvis nedre og øvre kvartil, mens x0.5 kaldes<br />

medianen. <br />

For fraktiler gælder der følgende resultat:<br />

Sætning 2.4 Antag, at Y har fordelingsfunktionen FY samt af X = α +βY (β > 0). Fordelings-<br />

funktionen FX for X er<br />

FX(x) = FY(<br />

og sammenhængen mellem fraktilerne xp og yp for X og Y er<br />

yp = xp − α<br />

β<br />

= { x − α<br />

β<br />

x − α<br />

) (2.18)<br />

β<br />

: x ∈ xp}. (2.19)


2.12 2.2 Stokastiske variable<br />

Eksempel 2.6<br />

Lad P betegne det uniforme sandsynlighedsm˚ al p˚ a E = ]0,1[, se Eksempel 2.3, og lad X være<br />

defineret ved at<br />

Da<br />

X(e) = e, e ∈ E = ]0,1[.<br />

⎧<br />

⎪⎨ /0, hvis x ≤ 0<br />

{e ∈ ]0,1[ : X(e) ≤ x} = ]0,x], hvis 0 < x < 1<br />

⎪⎩ ]0,1[, hvis x ≥ 1,<br />

og da vi kan finde længderne af intervallerne p˚ a højre side i l igningen ovenfor, er X en stokastisk<br />

variabel. Ved hjælp af (2.8) ses, at fordelingsfunktionen F for X er<br />

⎧<br />

⎪⎨ 0, hvis x ≤ 0<br />

F(x) = P({e ∈ E : X(e) ≤ x}) = x, hvis 0 < x < 1<br />

⎪⎩ 1, hvis x ≥ 1.<br />

. (2.20)<br />

Da denne funktion er kontinuert og strengt voksende as, f˚ at i dette tilfælde er xp = p for p ∈<br />

]0,1[.<br />

Den stokastiske variabel X siges at være uniformt fordelt p˚ a intervallet ]0,1[, hvilket ofte<br />

kort skrives X ∼ R(0,1). <br />

Vi skal udelukkende beskæftige os med to typer af stokastiske variable, nemlig diskrete<br />

stokastiske variable, der er karakteriseret ved at deres fordelingsfunktioner er trappefunktioner,<br />

og kontinuerte stokastiske variable, hvis fordelingsfunktioner er kontinuerte.<br />

2.2.1 Diskrete stokastiske variable<br />

Definition 2.7 En stokastisk variabel X siges at være diskret hvis dens fordelingsfunktion F er<br />

en trappefunktion med endeligt eller tælleligt mange spring, se Figur 2.5. <br />

En trappefunktion kan karakteriseres ved to ting, nemlig ved placeringen og højden af trap-<br />

petrinnene. Dette er baggrunden for<br />

Definition 2.8 Sandsynlighedsfunktionen (tæthedsfunktionen) f for diskret stokastisk variabel<br />

X, hvis fordelingsfunktion F har spring i punkterne {xi : i ∈ I} hvor I er en endelig eller tællelig<br />

mængde, er defineret ved<br />

f : R → [0,1]<br />

x → f(x),


2.13<br />

Figur 2.5 Fordelingsfunktionen F og sandsynlighedsfunktionen f for en diskret stokastisk va-<br />

riabel.


2.14 2.2 Stokastiske variable<br />

hvor<br />

⎧<br />

⎪⎨ P(X = xi), hvis x = xi<br />

f(x) =<br />

⎪⎩ 0, ellers.<br />

Mængden {xi : i ∈ I} omtales som støtten for den diskrete stokastiske variabel X. <br />

Sætning 2.5 Sandsynlighedsfunktionen f for en diskret stokastisk variabel X har de følgende<br />

tre egenskaber:<br />

som<br />

a) f(x) ≥ 0, x ∈ R<br />

b) f(x) = 0 ⇔ x ∈ {xi : i ∈ I}, hvor I er en endelig eller tællelig mængde<br />

c) ∑<br />

i∈I<br />

f(xi) = 1<br />

Endvidere kan sandsynligheden P(X ∈ A) for hændelsen {X ∈ A}, hvor A ⊆ R, beregnes<br />

P(X ∈ A) = ∑<br />

{i∈I;xi∈A}<br />

f(xi) (2.21)<br />

Endelig gælder der, at givet en funktion f , der opfylder de tre betingelser, findes der en diskret<br />

stokastisk variabel X, s˚ a f er sandsynlighedsfunktionen for X. <br />

Sætning 2.6 Hvis støtten {xi : i ∈ I} for en diskret stokastisk variabel X er indeholdt i mæng-<br />

den {0,1,2,...,} er der følgende sammenhæng mellem fordelingsfunktionen F og sandsyn-<br />

hedsfunktionen f :<br />

f(0) = F(0) og<br />

Eksempel 2.7<br />

F(x) =<br />

x<br />

∑ f(i),<br />

i=0<br />

x = 0,1,2,... , (2.22)<br />

f(x) = F(x) − F(x − 1), x = 1,2,... . (2.23)<br />

Betragt de to kampe p˚ a tipskuponen i Eksempel 2.2. Lad X betegne det totale antal point for<br />

hjemmeholdene i de to kampe, idet sejr, uafgjort og nederlag - som sædvanlig - giver henholds-<br />

vis 3, 1 og 0 point. Vi har da at<br />

⎧<br />

0, hvis e = (2,2),<br />

1, hvis e ∈ { (X,2),(2,X) },<br />

⎪⎨<br />

2, hvis e = (X,X),<br />

X(e) =<br />

3, hvis e ∈ { (1,2),(2,1) },<br />

4, hvis e ∈ { (1,X),X,1) },<br />

⎪⎩ 6, hvis e = (1,1).


2.15<br />

Under det uniforme sandsynlighedsm˚ al p˚ a E, det vil sige hvis de 9 udfald af de to kampe er lige<br />

sandsynlige, bliver sandsynlighedsfunktionen for X lig med<br />

⎧<br />

1/9, hvis x = 0,<br />

2/9, hvis x = 1,<br />

⎪⎨<br />

1/9, hvis x = 2,<br />

f(x) =<br />

2/9, hvis x = 3,<br />

⎪⎩<br />

2/9, hvis x = 4,<br />

1/9, hvis x = 6,<br />

se Figur 2.5. <br />

Eksempel 2.8<br />

Betragt Eksempel 2.5 og lad X betegne antallet af hjemmekampe holdet spiller inden første sejr.<br />

Da hændelsen S C i = Ui ∪ Ni svarer til uafgjort eller nederlag i det i’te hjemmekamp har vi<br />

{X = 0} = S1<br />

{X = 1} = S C 1<br />

.<br />

∩ S2<br />

{X = i} = S C 1 ∩ SC 2 ∩ ··· ∩ SC i−1 ∩ SC i<br />

.<br />

∩ Si+1<br />

og da P(S C i ) = 1 − P(Si) = 1 − p ses, idet resulaterne af hjemmekampene er uafhængige, at<br />

P(X = i) = (1 − p) i p, i = 0,1,... .<br />

Det faktum, at vi i forbindelse med definitionen af sandsynlighedsm˚ al er nødt til at intro-<br />

ducere uendelige rækker, kan let illustreres i dette eksempel. Antag nemlig, at vi er interesseret<br />

i at beregne sandsynligheden for at holdet skal spille et lige antal hjemmekampe inden første<br />

hjemmesejr, det vil sige sandsynligheden for hændelsen<br />

X ∈ {0,2,4,...}.<br />

Da hændelsen er en tællig foreningsmængde af de disjunkte mængder {X = 2i}, i = 0,1,...,<br />

as f˚ af (2.1), at<br />

P(X ∈ {0,2,4,...}) =<br />

=<br />

= p<br />

∞<br />

∑<br />

i=0<br />

∞<br />

∑<br />

i=0<br />

∞<br />

P(X = 2i)<br />

(1 − p) 2i p<br />

∑<br />

i=0<br />

((1 − p) 2 ) i .


2.16 2.2 Stokastiske variable<br />

Benytter vi nu (A.3) med q = (1 − p) 2 as f˚<br />

1<br />

1<br />

P(X ∈ {0,2,4,...}) = p = p<br />

1 −(1 − p) 2 p(2 − p)<br />

2.2.2 Kontinuerte stokastiske variable<br />

= 1<br />

2 − p .<br />

Definition 2.9 En stokastisk variabel X siges at være kontinuert hvis der findes en integrabel<br />

funktion<br />

s˚ a fordelingsfunktionen F for X er givet ved<br />

F(x) =<br />

f : R → [0,∞[<br />

x<br />

−∞<br />

x → f(x),<br />

f(z)dz, x ∈ R. (2.24)<br />

Funktionen f kaldes tæthedsfunktionen (sandsynlighedsfunktionen) for X. (Sammenhængen<br />

mellem F og f er illustreret i Figur 2.6). Mængden {x ∈ R : f(x) > 0} omtales som støtten<br />

for X. <br />

Sætning 2.7 Tæthedsfunktionen f for en kontinuert stokastisk variabel X har de følgende to<br />

egenskaber:<br />

a) f(x) ≥ 0, x ∈ R<br />

b) ∞<br />

f(x)dx = 1.<br />

−∞<br />

Endvidere kan sandsynligheden P(X ∈ A) for hændelsen {X ∈ A}, hvor A ⊆ R er en m˚ alelig<br />

mængde, beregnes som<br />

<br />

P(X ∈ A) =<br />

A<br />

f(x)dx. (2.25)<br />

Endelig gælder der, at givet en funktion f , der opfylder de to betingelser, findes der en kontinuert<br />

stokastisk variabel X, s˚ a f er tæthedsfunktionen for X. <br />

Sætning 2.8 Hvis X er en kontinuert stokastisk variabel med tæthedsfunktion f og fordelings-<br />

funktion F gælder der:<br />

a) F er kontinuert<br />

b) P(X = x) = 0, for alle x ∈ R<br />

c) Hvis f er kontinuert i x, gælder der at f(x) = F ′ (x)


2.17<br />

Figur 2.6 Fordelingsfunktionen F og tæthedsfunktionen f for en kontinuert stokastisk variabel.<br />

Værdien F(1) af F i punktet x = 1 er lig med arealet af det skraverede omr˚ ade i tegningen af f .


2.18 2.2 Stokastiske variable<br />

d) Hvis Ix er et lille interval af længde Δx omkring x er<br />

P(X ∈ Ix) ≈ f(x)Δx, (2.26)<br />

se Figur 2.7. <br />

Figur 2.7 Illustration af formel (2.26). Arealet af det skraverede omr˚ ade er næsten lig med<br />

arealet af firkanten afgrænset af de fuldt optrukne linjer.<br />

Eksempel 2.9<br />

Lad f være funktionen givet ved<br />

Da<br />

x<br />

−∞<br />

f(x) =<br />

1, hvis 0 < x < 1<br />

0, ellers.<br />

⎧<br />

⎪⎨ 0, hvis x ≤ 0<br />

f(z)dz = x, hvis 0 < x < 1<br />

⎪⎩ 1, hvis x ≥ 1,<br />

ses af (2.20), at f er tæthedsfunktionen for den uniforme fordeling p˚ a interv allet ]0,1[.


2.3 Stokastiske vektorer<br />

Definition 2.10 Lad (E,F,P) være et sandsynlighedsrum. En afbildning X fra E ind i R k ,<br />

X : E → R k<br />

e → X(e) = (X1(e),...,Xj(e),...,Xk(e))<br />

2.19<br />

kaldes en stokastisk vektor, hvis komponenterne Xj, j = 1,...,k, er stokastiske variable, se<br />

Definition 2.4. <br />

Definition 2.11 Hvis X = (X1,...,Xk) er en stokastisk vektor kaldes funktionen<br />

givet ved<br />

FX : R k → [0,1]<br />

x = (x1,...,xk) → FX(x),<br />

FX(x) = P(X ≤ x) = P(X1 ≤ x1,...,Xk ≤ xk),<br />

for fordelingsfunktionen for X. <br />

2.3.1 Diskrete stokastiske vektorer<br />

Definition 2.12 Lad X = (X1,...,Xk) være en stokastisk vektor . Hvis der findes en delmængde<br />

{xi : i ∈ I} af Rk , hvor I er en endelig eller tællelig mængde, s˚ aledes at funktionen<br />

opfylder de to betingelser<br />

f : R k → [0,1]<br />

a) f(x) = 0 hvis og kun hvis x ∈ {xi : i ∈ I}<br />

b) ∑<br />

i∈I<br />

f(xi) = 1<br />

x → f(x) = P(X = x),<br />

siges X at være en diskret k-dimensional stokastisk vektor med sandsynlighedsfunktion (eller<br />

tæthedsfunktion) f og med støtte {xi : i ∈ I}.<br />

Hvis A er en delmængde af R k beregnes sandsynligheden for hændelsen {X ∈ A} som<br />

Eksempel 2.10<br />

P(X ∈ A) = ∑<br />

{i∈I:xi∈A}<br />

f(xi).<br />

Betragt igen Eksempel 2.2 vedrørende udfaldet af to kampe p˚a tipskuponen. Lad X1 og X2


2.20 2.3 Stokastiske vektorer<br />

betegne antallet af point hjemmeholdet ar f˚ i henholdsvis f ørste og anden kamp. Værdierne som<br />

vektoren (X1,X2) antager p˚ a udfaldsrummet<br />

er<br />

E 2.kamp<br />

1 X 2<br />

1 (1,1) (1,X) (1,2)<br />

1.kamp X (X,1) (X,X) (X,2)<br />

2 (2,1) (2,X) (2,2)<br />

(X1,X2) 2.kamp<br />

1 X 2<br />

1 (3,3) (3,1) (3,0)<br />

1.kamp X (1,3) (1,1) (1,0)<br />

2 (0,3) (0,1) (0,0)<br />

Hvis samtlige udfald af de to kampe er lige sandsynlige er (X1,X2) en diskret stokastisk vektor<br />

hvis sandsynlighedsfunktion er konstant - med værdien 1/9 - p˚ a støtten {(0,0), (0,1), (0,3),<br />

(1,0), (1,1), (1,3), (3,0), (3,1), (3,3)}. <br />

2.3.2 Kontinuerte stokastiske vektorer<br />

Definition 2.13 En stokastisk vektor X = (X1,...,Xk) siges at være kontinuert hvis der findes<br />

en integrabel funktion<br />

f : R k → [0,∞[<br />

x → f(x),<br />

s˚ a fordelingsfunktionen F for X er givet ved at for alle x = (x1,...,xk) ∈ Rk er<br />

F(x) = F(x1,...,xk) =<br />

x<br />

−∞<br />

f(z)dz z =<br />

x1<br />

−∞<br />

...<br />

xk<br />

−∞<br />

f(z1,...,zk)dzk...dz1, .<br />

Funktionen f kaldes tæthedsfunktionen (sandsynlighedsfunktionen) for X og mængden {x ∈<br />

R k : f(x) > 0} omtales som støtten for X.<br />

som<br />

Hvis A er en m˚ alelig delmængde af Rk beregnes sandsynligheden for hændelsen {X ∈ A}<br />

<br />

P(X ∈ A) =<br />

A<br />

f(x)dx.


Sætning 2.9 Hvis X = (X1,...,Xk) er en kontinuert stokastisk vektor gælder der at<br />

P(X = x) = 0, x ∈ R k ,<br />

2.21<br />

og hvis f er kontinuert i x kan tæthedsfunktionen f findes fra F ved partiel differentation, se<br />

Afsnit A.3.2, idet<br />

Eksempel 2.11<br />

∂<br />

f(x) = f(x1,...,xk) =<br />

kF (x).<br />

∂x1...∂xk<br />

Lad E være en delmængde af R2 hvis areal<br />

<br />

|E| = 1dx2dx1<br />

E<br />

er endeligt. Den kontinuerte stokastiske vektor (X1,X2) hvis tæthedsfunktion er<br />

⎧<br />

⎨<br />

f (X1,X2)(x1,x2) =<br />

⎩<br />

1<br />

|E| , hvis (x1,x2) ∈ E<br />

0, ellers,<br />

kaldes den uniforme fordeling p˚ a E. Hvis A er en delmængde af E med areal |A| har vi<br />

<br />

P((X1,X2) ∈ A) = f (X1,X2)(x1,x2)dx2dx1<br />

A<br />

<br />

1<br />

=<br />

A |E| dx2dx1<br />

= 1<br />

<br />

1dx2dx1 =<br />

|E| A<br />

|A|<br />

|E| ,<br />

sammenlign med (2.8).<br />

<br />

(2.27)<br />

Lad for eksempel E = ]0,1[ 2 = {(x1,x2) : 0 < x1 < 1, 0 < x2 < 1}. Da |E| = 1 har den<br />

uniforme fordeling p˚ a denne mængde tæthedsfunktion<br />

<br />

1, hvis 0 < x1 < 1 og 0 < x2 < 1<br />

f (X1,X2)(x1,x2) =<br />

0, ellers.<br />

Den tilsvarende fordelingsfunktion er<br />

F (X1,X2)(x1,x2) =<br />

x1<br />

x2<br />

−∞<br />

−∞<br />

⎧<br />

⎪⎩<br />

0, hvis x1 ≤ 0 eller x2 ≤ 0<br />

⎪⎨ x1x2, hvis 0 < x1 < 1 og 0 < x2 < 1<br />

f (X1,X2)(z1,z2)dz2dz1 = x1, hvis 0 < x1 < 1 og x2 ≥ 1<br />

x2, hvis x1 ≥ 1 og 0 < x2 < 1<br />

1, hvis x1 ≥ 1 og x2 ≥ 1.


2.22 2.3 Stokastiske vektorer<br />

2.3.3 Marginale fordelinger<br />

Fordelingen af X = (X1,...,Xj,...,Xk) omtales som den simultane fordeling, mens fordelingen<br />

af Xj kaldes den marginale fordeling af Xj, j = 1,...,k.<br />

En generel sætning siger, at tæthedsfunktionen fX j for den marginale fordeling af Xj bestem-<br />

mes ved at summere eller integrere de øvrige variable, det vil sige x1, ..., x j−1, x j+1, ..., xk, ud<br />

i den simultane tæthedsfunktion f (X1,...,Xk)(x1,...,xk). For overskuelighedens skyld formuleres<br />

denne sætning blot i tilfældet k = 2 i<br />

Sætning 2.10 Lad X = (X1,X2) være en todimensional stokastisk vektor.<br />

i) Hvis X kontinuert er X1 og X2 kontinuerte med tæthedsfunktioner<br />

fX1 (x1) = ∞<br />

−∞<br />

fX2 (x2) = ∞<br />

−∞<br />

f (X1,X2)(x1,x2)dx2<br />

f (X1,X2)(x1,x2)dx1.<br />

(2.28)<br />

ii) Hvis X diskret med støtte {xi = (xi1,xi2) : i ∈ I} er X1 og X2 diskrete med sandsynlig-<br />

hedsfunktioner<br />

Eksempel 2.10 (Fortsat)<br />

fX1 (x1) = ∑ f (X1,X2)(xi1,xi2)<br />

{i∈I : xi1=x1}<br />

fX2 (x2) = ∑ f (X1,X2)(xi1,xi2).<br />

{i∈I : xi2 =x2}<br />

(2.29)<br />

Ved hjælp af (2.29) finder vi, at marginal fordelingen for X1- hjemmeholdets point i den første<br />

kamp - har sandsynlighedsfunktion<br />

fX1 (0) = f (X1,X2)(0,0)+ f (X1,X2)(0,1)+ f (X1,X2)(0,3) = 1 1 1 1<br />

+ + =<br />

9 9 9 3<br />

fX1 (1) = f (X1,X2)(1,0)+ f (X1,X2)(1,1)+ f (X1,X2)(1,3) = 1 1 1 1<br />

+ + =<br />

9 9 9 3<br />

fX1 (3) = f (X1,X2)(3,0)+ f (X1,X2)(3,1)+ f (X1,X2)(3,3) = 1 1 1 1<br />

+ + =<br />

9 9 9 3 ,<br />

svarende til, at de tre udfald i den første kamp er lige sandsynlige. Af symmetri grunde har X2<br />

samme sandsynlighedsfuktion som X1.


Eksempel 2.11 (Fortsat)<br />

2.23<br />

Ved hjælp af (2.28) finder vi, at den marginale fordeling for X1 svarende til den uniforme for-<br />

deling p˚ a ]0,1[ 2 har tæthedsfunktion<br />

fX1 (x1) =<br />

∞<br />

−∞<br />

⎧<br />

⎪⎨<br />

f (X1,X2)(x1,x2)dx2 =<br />

⎪⎩<br />

1<br />

0<br />

∞<br />

−∞<br />

1dx2 = 1, hvis 0 < x1 < 1<br />

0dx2 = 0, ellers,<br />

det vil sige, at X1 er uniformt fordelt p˚ a ]0,1[, kort X1 ∼ R(0,1), se Eksempel 2.9. Af symmetri<br />

grunde har vi ogs˚ a at X2 ∼ R(0,1). <br />

Eksempel 2.12<br />

Lad E være det indre af trekanten med vinklelspidser (0,0), (1,0) og (1,1), det vil sige, at<br />

E = {(x1,x2) ∈ R 2 : 0 < x2 < x1 < 1}. Da |E| = 1/2, er tæthedsfunktionen - ifølge (2.27) - for<br />

en uniformt fordelt stokastisk vektor (X1,X2) p˚ a E<br />

f (X1,X2)(x1,x2) =<br />

2, hvis 0 < x2 < x1 < 1<br />

0, ellers.<br />

For fast x1 ∈ ]0,1[ har vi at (x1,x2) ∈ E hvis og kun hvis 0 < x2 < x1, s˚ a ved hjælp af (2.28)<br />

finder vi, at marginal fordelingen for X1 har tæthedsfunktion<br />

fX1 (x1) =<br />

∞<br />

−∞<br />

⎧<br />

⎪⎨<br />

f (X1,X2)(x1,x2)dx2 =<br />

⎪⎩<br />

x1<br />

0<br />

∞<br />

−∞<br />

2dx2 = 2x1, hvis 0 < x1 < 1<br />

0dx2 = 0, ellers.<br />

Tilsvarende, for fast x2 ∈ ]0,1[ har vi at (x1,x2) ∈ E hvis og kun hvis x2 < x1 < 1, s˚ a den<br />

marginale fordeling for X2 har tæthedsfunktion<br />

fX2 (x2) =<br />

∞<br />

−∞<br />

⎧<br />

⎪⎨<br />

f (X1,X2)(x1,x2)dx1 =<br />

⎪⎩<br />

1<br />

x2<br />

∞<br />

−∞<br />

2dx1 = 2(1 − x2), hvis 0 < x2 < 1<br />

0dx1 = 0, ellers.


2.24 2.3 Stokastiske vektorer<br />

2.3.4 Uafhængighed<br />

Definition 2.14 De stokastiske variable X1,...,Xj,...,Xk er uafhængige hvis og kun hvis hæn-<br />

delserne<br />

{X1 ≤ x1},...,{Xj ≤ x j},...,{Xk ≤ xk}<br />

er indbyrdes uafhængige for alle x = (x1,...,xj,...,xk) ∈ R k , se Definition 2.3. <br />

Kriterier for uafhængighed af stokastiske variable kan formuleres ved hjælp af enten forde-<br />

lingsfunktioner eller tæthedsfunktioner som i<br />

Sætning 2.11 De stokastiske variable X1,...,Xj,...,Xk er uafhængige hvis og kun hvis en af<br />

de følgende betingelser er opfyldt:<br />

i) (udtrykt ved fordelingsfunktioner)<br />

F (X1,...,X j,...,Xk)(x1,...,xj,...,xk) = FX1 (x1)···FX j (x j)···FXk (xk) (2.30)<br />

for alle x = (x1,...,xj,...,xk) ∈ R k .<br />

ii) (udtrykt ved tæthedsfunktioner)<br />

f (X1,...,X j,...,Xk)(x1,...,xj,...,xk) = fX1 (x1)··· fX j (x j)··· fXk (xk) (2.31)<br />

alle x = (x1,...,xj,...,xk) ∈ R k . <br />

Eksempel 2.10 (Fortsat)<br />

P˚ a side 2.22 fandt vi, at de marginale fordelinger for X1 og X2 - antallet af point i henholdsvis<br />

første og anden kamp - var identiske, nemlig den uniforme fordeling p˚ a mængden {0, 1, 3}. Da<br />

fX1 (x1) fX2 (x2) = 1 1 1<br />

· =<br />

3 3 9 = f (X1,X2)(x1,x2), x1,x2 ∈ {0,1,3},<br />

er X1 og X2 stokastisk uafhængige ifølge (2.31). <br />

Eksempel 2.11 (Fortsat)<br />

P˚ a side 2.23 s˚ a vi, at hvis (X1,X2) er uniformt fordelt p˚ a ]0,1[ 2 , s˚ a er den marginale fordeling<br />

for b˚ ade X1 og X2 den uniforme fordeling p˚ a ]0,1[ . Af (2.31) ses, at X1 og X2 er stokastisk<br />

uafhængige, idet<br />

fX1 (x1) fX2 (x2) = 1 · 1 = 1 = f (X1,X2)(x1,x2), (x1,x2) ∈ ]0,1[ 2 .


Eksempel 2.12 (Fortsat)<br />

2.25<br />

Af resultaterne - p˚ a side 2.23 - vedrørende de marginale for delinger for en stokastisk vektor<br />

(X1,X2), der uniformt fordelt p˚ a E = {(x1,x2) ∈ R2 : 0 < x2 < x1 < 1}, as, f˚ at<br />

fX1 (x1) fX2 (x2) = 2x12(1 − x2) = 2 = f (X1,X2)(x1,x2), (x1,x2) ∈ E,<br />

s˚ a X1 og X2 er ikke stokastisk uafhængige. <br />

2.3.5 Betingede fordelinger<br />

Definition 2.15 Hvis X og Y er stokastiske vektorer med simultan tæthedsfunktion f (X,Y) X,Y) X,Y)(x,y)<br />

og marginale tæthedsfunktioner fX(x) og fY(y) har den betingede fordeling af Y givet X = x<br />

tæthedsfunktionen<br />

f (Y|X)(y|x) = f (X,Y) X,Y) X,Y)(x,y)<br />

, (2.32)<br />

fX(x)<br />

hvis fX(x) > 0, ellers er den udefineret. <br />

Bemærkning<br />

Hvis X og Y er uafhængige stokastiske vektorer as f˚ at (2.31) og (2.32), at<br />

f (Y|X)(y|x) = fY(y),<br />

det vil sige, at tæthedsfunktionen for Y er uafhængig af om vi har observeret x eller ej.<br />

Eksempel 2.12 (Fortsat)<br />

Af resultaterne - p˚ a side 2.23 - vedrørende en stokastisk ve ktor (X1,X2), der uniformt fordelt p˚ a<br />

E = {(x1,x2) ∈ R2 : 0 < x2 < x1 < 1}, ses, at hvis x1 ∈ ]0,1[, s˚ a er<br />

f (X2 |X1 )(x2 |x1) = f (X1,X2)(x1,x2)<br />

fX1 (x1)<br />

= 2<br />

=<br />

2x1<br />

1<br />

, hvis 0 < x2 < x1,<br />

x1<br />

det vil sige, at den betingede fordeling af X2 givet X1 = x1 er den uniforme fordeling p˚ a inter-<br />

vallet ]0,x1[.<br />

Tilsvarende, hvis x2 ∈ ]0,1[ er<br />

f (X1 |X2)(x1 |x2) = f (X1,X2)(x1,x2)<br />

fX2 (x2)<br />

=<br />

2 1<br />

= , hvis x2 < x1 < 1,<br />

2(1 − x2) 1 − x2<br />

s˚ a den betingede fordeling af X1 givet X2 = x2 er den uniforme fordeling p˚ a intervallet ]x2,1[.


2.26 2.4 Middelværdi og varians<br />

2.4 Middelværdi og varians<br />

I det foreg˚ aende afsnit har vi set, at variationen af en stok astisk variabel eller en stokastisk<br />

vektor kan beskrives fuldstændigt ved hjælp af dens fordelingsfunktion eller ved hjælp af dens<br />

sandsynligheds- eller tæthedsfunktion. Imidlertid er det ofte i sandsynlighedsregning og statistik<br />

bekvemt at kunne beskrive vigtige træk ved en fordeling, s˚ a som position og variabilitet, ved<br />

hjælp af nogle af˚ numeriske størrelser. De vigtigste af dis se størrelser er middelværdi, varians<br />

og kovarians, som alle omtales nedenfor.<br />

Definition 2.16 Lad X være en stokastisk variable og lad g : R → R være en funktion, s˚ aledes<br />

at Y = g(X) er en stokastisk variabel.<br />

Hvis X er en diskret stokastisk variabel med støtte i {xi : i ∈ I}, defineres middelværdien af<br />

Y = g(X) som<br />

forudsat at summen ∑i∈I |g(xi)| f(xi) er endelig. Specielt er<br />

forudsat at summen ∑i∈I |xi| f(xi) er endelig.<br />

EY = Eg(X) = ∑g(xi) f(xi), (2.33)<br />

i∈I<br />

EX = ∑xi f(xi), (2.34)<br />

i∈I<br />

Hvis X er en kontinuert stokastisk variabel, defineres middelværdien af Y = g(X) som<br />

EY = Eg(X) =<br />

∞<br />

forudsat at integralet ∞<br />

−∞ |g(x)| f(x)dx er endeligt. Specielt er<br />

EX =<br />

∞<br />

−∞<br />

−∞<br />

g(x) f(x)dx, (2.35)<br />

x f(x)dx, (2.36)<br />

forudsat at integralet ∞<br />

−∞ |x| f(x)dx er endeligt.<br />

Lad X = (X1,...,Xk) være en stokastisk vektor. Hvis de k komponenter i X alle har middel-<br />

værdi, kaldes vektoren<br />

EX = (EX1,...,EXk)<br />

best˚ aende af middelværdierne for middelværdivektoren for X.<br />

Hvis h : Rk → R være en funktion, s˚ aledes at Y = h(X) er en stokastisk variabel har vi i<br />

analogi med (2.33) og (2.35) følgende definitioner:<br />

Hvis X er en diskret stokastisk vektor med støtte i {xi : i ∈ I}, defineres middelværdien af<br />

Y = h(X) som<br />

EY = Eh(X) = ∑h(xi) f(xi),<br />

i∈I


forudsat at summen ∑i∈I |h(xi)| f(xi) er endelig.<br />

Hvis X er en kontinuert stokastisk vektor, defineres middelværdien af Y = h(X) som<br />

2.27<br />

EY = Eh(X) =<br />

<br />

h(x) f(x)dx,<br />

Rk (2.37)<br />

forudsat at integralet <br />

Rk |h(x)| f(x)dx er endeligt. <br />

Bemærkning<br />

Da ∑ f(xi) = 1, ses det af formel (2.34), at EX kan skrives som<br />

i∈I<br />

EX =<br />

∑ xi f(xi)<br />

i∈I<br />

∑ f(xi)<br />

i∈I<br />

,<br />

det vil sige, at middelværdien af en diskret stokastisk X er et vægtet gennemsnit af de værdier<br />

xi, som X kan antage, med vægte f(xi), som er sandsynligheden for at X antager værdien xi, og<br />

EX er en central værdi i fordelingen for X.<br />

En lignende fortolkning af middelværdien EX for en kontinuert stokastisk variabel X baserer<br />

sig p˚ a formel (2.36), idet ∞<br />

f(x)dx = 1.<br />

−∞<br />

Sætning 2.12 Hvis X og Y er stokastiske variable med middelværdi er<br />

og<br />

E(X +Y) = EX + EY (2.38)<br />

E(a+bX) = a+bEX, hvor a,b ∈ R er konstanter. (2.39)<br />

Hvis X og Y er uafhængige stokastiske variable og g og h er funktioner, er<br />

E{g(X)h(Y)} = Eg(X)Eh(Y),<br />

forudsat at middelværdierne eksisterer. Hvis specielt g(x) = x og h(y) = y er<br />

E{X Y } = EX EY.<br />

Definition 2.17 Lad X og Y være stokastiske variable og X = (X1,...,Xk) en stokastisk vektor.<br />

Variansen og standardafvigelsen (spredningen) af X defineres som henholdsvis<br />

Var X = E{(X − EX) 2 }


2.28 2.4 Middelværdi og varians<br />

og<br />

og<br />

Størrelserne<br />

σ(X) = √ Var X.<br />

Cov(X,Y) = E{(X − EX)(Y − EY)}<br />

Cor(X,Y) = Cov(X,Y)<br />

√ Var X √ VarY<br />

(∈ [−1,1])<br />

omtales som henholdsvis kovariansen og korrelationen mellem X og Y mens (k × k) matricen<br />

med elementer<br />

(CovX)i j =<br />

Cov(Xi,Xj) hvis i = j<br />

Var Xi<br />

hvis i = j<br />

kaldes kovariansmatricen for X. <br />

Bemærkning<br />

Som bemærket ovenfor kan middelværdien EX af en stokastisk variable betragtes som en slags<br />

gennemsnit af de mulige værdier af X. For at beskrive hvorledes X varierer omkring EX synes<br />

det naturligt at betragte den stokastiske variabel (X − EX) 2 . Variansen Var X ses blot at være<br />

middelværdien af denne stokastiske variabel.<br />

P˚ a samme m˚ ade varierer den stokastiske vektor (X,Y) omkring (EX,EY). Middelværdien<br />

af den stokastiske variabel (X − EX)(Y − EY), kovariansen Cov(X,Y) mellem X og Y, er et<br />

m˚ al for sammenhængen mellem værdierne af X og Y og korrelationen Cor(X,Y) mellem X<br />

og Y m˚ aler denne sammenhæng relativt til variationen af X og Y . Af definitionen fremg˚ ar, at<br />

korrelationen varierer i intervallet [−1,1]. Hvis korrelationen er tæt p˚ a 1 optræder store (sm˚ a)<br />

værdier af X sammen med store (sm˚ a) værdier af Y , og hvis korrelationen er tæt p˚ a −1 optræder<br />

store (sm˚ a) værdier af X sammen med sm˚ a (store) værdier af Y.<br />

Sætning 2.13 Hvis variansen for den stokastiske variabel X eksisterer gælder der:<br />

Var X = EX 2 −(EX) 2 , (2.40)<br />

Var(a+bX) = b 2 Var X, hvor a,b ∈ R er konstanter. (2.41)<br />

Hvis X og Y er stokastiske variable med varians, gælder der:<br />

Var(X +Y) = Var X +VarY + 2Cov(X,Y),<br />

Cov(X,Y) = E (X Y) − EX EY, (2.42)


Hvis desuden X og Y er uafhængige, gælder der, at<br />

og X og Y siges at være ukorrelerede.<br />

Cor(X,Y) = Cov(X,Y) = 0,<br />

Hvis X og Y er ukorrelerede - specielt hvis X og Y er uafhængige - gælder der, at<br />

2.29<br />

Var(X +Y) = Var X +VarY. (2.43)<br />

Sætning 2.14 Antag, at X1,...,Xn er uafhængige og identisk fordelte stokastiske variable med<br />

middelværdi μ og varians σ 2 . Hvis ¯X betegner gennemsnittet (X1 + ···+Xn)/n er<br />

og<br />

Eksempel 2.7 (Fortsat)<br />

E ¯X = μ<br />

Var ¯X =<br />

Ved hjælp af sandsynlighedsfunktionen - side 2.15 - for antallet af point X for hjemmeholdene<br />

σ 2<br />

n .<br />

i de to kampe og formel (2.34) as, f˚ at middelværdien af X er<br />

Da<br />

EX = 0 · 1 2 1 2 2 1 24 8<br />

+ 1 · + 2 · + 3 · + 4 · + 6 · = =<br />

9 9 9 9 9 9 9 3 .<br />

EX 2 = 0 2 · 1<br />

9 + 12 · 2<br />

9 + 22 · 1<br />

9 + 32 · 2<br />

9 + 42 · 2<br />

9 + 62 · 1 92<br />

=<br />

9 9 ,<br />

as f˚ at (2.40), at variansen af X er<br />

Var X = EX 2 −(EX) 2 = 92<br />

9 −<br />

2 8<br />

=<br />

3<br />

92 − 64<br />

=<br />

9<br />

28<br />

9<br />

og at spredningen af X er<br />

Eksempel 2.10 (Fortsat)<br />

σ(X) =<br />

28<br />

9 .<br />

Af sandsynlighedsfunktionen p˚ a side 2.22 for X1 - hjemmeholdets point i den første kamp - og<br />

formel (2.34) ses, at middelværdien for X1 er<br />

EX1 = 0 · 1 1 1 4<br />

+ 1 · + 3 · =<br />

3 3 3 3 .


2.30 2.4 Middelværdi og varians<br />

Da<br />

EX 2 1 = 0 2 · 1<br />

3 + 12 · 1<br />

3 + 32 · 1 10<br />

=<br />

3 3 ,<br />

as f˚ af (2.40), at variansen for X1 er<br />

Var X1 = EX 2 1 −(EX1) 2 = 10<br />

3 −<br />

2 4<br />

=<br />

3<br />

30 − 16<br />

=<br />

9<br />

14<br />

9<br />

samt at spredningen for X1 er<br />

<br />

14<br />

σ(X1) =<br />

9 .<br />

Da X2 - hjemmeholdets point i den anden kamp - har samme fordeling som X1, er<br />

EX2 = 4<br />

3<br />

og Var X2 = 14<br />

9 .<br />

Disse resultater kunne vi have benyttet til af finde middelværdi og varians for hjemmehol-<br />

denes point X i de to kampe, idet X = X1 + X2. Af (2.38) as f˚<br />

og idet X1 og X2 er uafhængige, as f˚ af (2.43), at<br />

EX = EX1 + EX2 = 4 4 8<br />

+ =<br />

3 3 3<br />

Var X = Var X1 +Var X2 = 14<br />

9<br />

+ 14<br />

9<br />

= 28<br />

9 ,<br />

hvilket vi ogs˚ a fandt ovenfor i fortsættelsen af Eksempel 2 .7. <br />

Eksempel 2.9 (Fortsat)<br />

Middelværdien for en stokastisk variable X, der er uniformt fordelt p˚ a ]0,1[, finder vi ved hjælp<br />

af formel (2.36) og tæthedsfunktionen p˚ a side 2.18 til<br />

Da<br />

as f˚ af (2.40), at variansen af X er<br />

og dermed at spredningen af X er<br />

EX =<br />

EX 2 =<br />

1<br />

0<br />

1<br />

0<br />

x · 1dx =<br />

x 2 · 1dx =<br />

<br />

1<br />

2 x2<br />

1 =<br />

0<br />

1<br />

2 .<br />

<br />

1<br />

3 x3<br />

1 =<br />

0<br />

1<br />

3<br />

VarX = EX 2 −(EX) 2 = 1<br />

3 −<br />

2 1<br />

=<br />

2<br />

4 − 3 1<br />

=<br />

12 12<br />

σ(X) =<br />

<br />

1<br />

. <br />

12


Eksempel 2.12 (Fortsat)<br />

De marginale tæthedsfunktioner for en stokastisk vektor (X1,X2) der er uniformt fordelt p˚ a<br />

mængden E = {(x1,x2) ∈ R2 : 0 < x2 < x1 < 1} findes p˚ a side 2.12. Ved hjælp af disse og<br />

formel (2.40) as, f˚ at<br />

og<br />

Da endvidere<br />

og<br />

EX 2 2 =<br />

as f˚ ved hjælp af (2.40), at<br />

og<br />

EX2 =<br />

EX1 =<br />

1<br />

0<br />

EX 2 1 =<br />

1<br />

0<br />

1<br />

0<br />

x12x1dx1 =<br />

x22(1 − x2)dx2 =<br />

1<br />

0<br />

x 2 1 2x1dx1 =<br />

x 2 22(1 − x2)dx2 =<br />

Var X1 = EX 2 1 −(EX1) 2 = 1<br />

2 −<br />

Var X2 = EX 2 2 −(EX2) 2 = 1<br />

6 −<br />

<br />

1<br />

3<br />

<br />

2<br />

3 x3 1 1 =<br />

0<br />

2<br />

3<br />

<br />

x 2 2<br />

2 −<br />

3 x3 1 2 =<br />

0<br />

1<br />

3 .<br />

<br />

2<br />

4 x4 1 1 =<br />

0<br />

2 1<br />

=<br />

4 2<br />

<br />

2<br />

3 x3 2<br />

2 −<br />

4 x4 1 2 =<br />

0<br />

2 2 1<br />

− =<br />

3 4 6 ,<br />

2 2<br />

=<br />

3<br />

9 − 8 1<br />

=<br />

18 18<br />

2<br />

= 3 − 2<br />

18<br />

= 1<br />

18 .<br />

2.31<br />

For at finde kovariansen mellem X1 og X2 benytter vi (2.42) og starter derfor med at finde<br />

E(X1X2). Af (2.37) as, f˚ at<br />

E(X1X2) =<br />

=<br />

=<br />

∞<br />

∞<br />

−∞ −∞<br />

1<br />

0<br />

1<br />

0<br />

x1(<br />

x1x2 f (X1,X2)(x1,x2)dx2dx1 =<br />

x1<br />

0<br />

x 3 1 dx1 =<br />

2x2dx2)dx1 =<br />

1<br />

0<br />

<br />

1<br />

4 x4 1 1 =<br />

0<br />

1<br />

4 .<br />

Af (2.42) as f˚ herefter, at kovariansen mellem X1 og X2 er<br />

1<br />

0<br />

<br />

2 x1<br />

x1 x2 0 dx1<br />

<br />

0<br />

x1<br />

x1x22dx2dx1<br />

Cov(X1,X2) = E(X1X2) − EX1EX2 = 1 2 1 9 − 8 1<br />

− · = =<br />

4 3 3 36 36 ,<br />

og dermed at korrelationen mellem X1 og X2 er<br />

Cor(X1,X2) = Cov(X1,X2)<br />

1<br />

√ = 36<br />

Var X1Var X2 1 1<br />

18 18<br />

= 1<br />

. <br />

2


2.32 Opgaver<br />

Opgaver til Kapitel 2<br />

Opgave 2.1 Lad A og B være hændelser s˚ aledes, at P(A) = 0.6,P(B) = 0.5 og P(A ∪ B) =<br />

0.8. Find sandsynlighederne for følgende hændelser: A ∩ B, A c , B c ,A c ∩ B c og A c ∪ B c . Vink:<br />

A c ∩ B c =(A ∪ B) c og A c ∪ B c =(A ∩ B) c .<br />

Opgave 2.2 Hvor mange udfald har spillet ”kast med 3 mønter”?<br />

Betragt den uniforme sandsynlighedsm˚ al p˚ a udfaldsrumme t, det vil sige antag at alle udfald<br />

er lige sandsynlige og beregn:<br />

a) sandsynligheden for at alle mønter viser plat,<br />

b) sandsynligheden for at mindst en mønt viser krone,<br />

c) sandsynligheden for at netop en mønt viser krone.<br />

Besvar samme spørgsm˚ al for spillet ”kast med n mønter”. Hvor stor skal n være, for at<br />

sandsynligheden for at af˚ mindst en krone er større end 95%?<br />

Opgave 2.3 Betragt spillet ”kast med 3 terninger”. Betragt det uniforme sandsynlighedsm˚ al p˚ a<br />

udfaldsrummet og beregn følgende:<br />

a) sandsynligheden for at alle terninger viser 6 øjne,<br />

b) sandsynligheden for at mindst en terning viser 6 øjne,<br />

c) sandsynligheden for at netop en terning viser 6 øjne.<br />

Beregn de samme sandsynligheder for spillet ”kast med n terninger” og bestem det mindste<br />

n s˚ aledes, at sandsynligheden for at mindst en terning viser 6 øjne er større end 95%.<br />

Opgave 2.4 Betragt det uniforme sandsynlighedsm˚ al p˚ a E =[0,10] og hændelserne A =[0,5],B =<br />

[1,7] og C = [4,9].<br />

Undersøg om A og B er uafhængige, om A og C er uafhængige, og om B og C er uafhængige.<br />

Opgave 2.5 I en h˚ andboldklub er der i aldersklassen 12-14ar ˚ 30% piger og 70% drenge og<br />

10% af pigerne er venstreh˚ andede mens den tilsvarende proc ent for drengene er 20.<br />

a) Hvad er sandsynligheden for at en venstreh˚ andet spiller er en pige?<br />

b) Hvad er sandsynligheden for at en højreh˚ andet spiller er en dreng?<br />

Opgave 2.6 En af de klassiske illustrationer af Bayes formel vedrører 3 kommoder, der hver<br />

har to skuffer. I den første kommode er der en guldmønt i hver af de to skuffer, i den anden<br />

kommode er der en guldmønt i den ene skuffe og en sølvmønt i den anden og endelig er der en


2.33<br />

sølvmønt i hver af skufferne i den tredje kommode. En af kommoderne vælges tilfældigt og en<br />

skuffeabnes ˚ og viser sig at indeholde en guldmønt. Hvad er s andsynligheden for at den anden<br />

skuffe ogs˚ a indeholder en guldmønt?<br />

Gæt først p˚ a hvad sandsynligheden er og beregn den dernæst v ed hjælp af Bayes formel.<br />

Opgave 2.7 Der kastes to terninger samtidigt. Lad Y være den stokastiske variabel Y = X1+X2,<br />

hvor X1 er antal øjne p˚ a terning 1 og X2 er antal øjne p˚ a terning 2.<br />

a) Tegn udfaldsrummet E for kastet med de to terninger og udfaldsrummet for Y i samme<br />

diagram.<br />

b) Bestem sandsynlighedsfunktionen for Y , det vil sige punktsandsynlighederne f(y) =<br />

P(Y = y) for alle mulige observerbare værdier y af Y .<br />

c) Hvad er sansynligheden for, at summen af øjne p˚ a de to tern inger er 7, og at summen<br />

er større end 7?<br />

d) Hvad er forskellen p˚ a sandsynligheden for 2 3’ere, og san dsynligheden for Y = 6?<br />

Opgave 2.8 Antag, at X ∼ R(0,1). Find sandsynligheden for følgende hændelser:<br />

a) 0.2 ≤ X ≤ 0.8<br />

b) X ≥ 0.7<br />

c) 0.2 ≤ X ≤ 0.8 og X ≥ 0.7<br />

d) 0.2 ≤ X ≤ 0.8 eller X ≥ 0.7.<br />

Opgave 2.9 Et jokertal er et syvcifret tal, hvor hvert ciffer er et af tallene 0,1,...,9. Spiller<br />

man JOKER er antallet af rigtige lig med antallet af cifre fra højre mod venstre, der stemmer<br />

overens med jokertallet. Er jokertallet for eksempel 1234567 og man har tallet 6494567 er der<br />

fire rigtige. Har man derimod tallet 1234569 har man ingen rigtige.<br />

uger?<br />

uger?<br />

idet<br />

a) Find sandsynligheden for at have henholdsvis 1,2,3,4,5,6,7 og 0 rigtige.<br />

b) Hvad er sandsynligheden for at have mindst 4 rigtige?<br />

Antag, at man spiller JOKER i tre p˚ a hinanden følgende uger.<br />

c) Hvad er sandsynligheden for at have mindst 4 rigtige i præcis én gang i løbet af de tre<br />

d) Hvad er sandsynligheden for at have mindst 4 rigtige i mindst én gang i løbet af de tre<br />

e) Beregn sandsynlighederne i spørgsm˚ al a) og b) ved hjælp a f funktion POTENS i Excel,<br />

x n =POTENS(x;n).


2.34 Opgaver<br />

I Excel kan binomialkoefficenten, der for ikke-negative tal n og x med n ≥ x er<br />

<br />

n n!<br />

=<br />

x x!(n − x)! ,<br />

hvor x! = 1 · 2 · ···· x, hvis x > 0 og hvor 0! = 1, beregnes ved hjælp af funktionenKOMBIN som<br />

<br />

n<br />

=KOMBIN(n;x).<br />

x<br />

<br />

n<br />

Binomialkoefficienten angiver - som bekendt - antallet af m˚ ader hvorp˚ a man kan udt age<br />

x<br />

en delmængde best˚ aende af x elementer fra en mængde best˚ aende af n elementer.<br />

Opgave 2.10 Betragt en tipskupon best˚ aende af 13 kampe.<br />

a) Gør rede for, at antallet af forskellige tegnfordelinger er<br />

3 13 .<br />

b) Lad x være et af tallene 0,1,...,13. Gør rede for, at antallet af tegnfordelinger med x<br />

rigtige er<br />

<br />

13<br />

1<br />

x<br />

x · 2 13−x .<br />

c) Lad X angive antallet af rigtige tegn, hvis tipskuponen udfyldes tilfældigt. Vis, at<br />

P(X = x) =<br />

13<br />

x<br />

1<br />

3<br />

og beregn disse sandsynligheder ved hjælp af Excel.<br />

x 13−x 2<br />

, x = 0,1,...,13,<br />

3<br />

Opgave 2.11 Lav de samme beregninger som i Opgave 2.10 for en tipskupon best˚ aende af 12<br />

kampe.<br />

Opgave 2.12 P˚ a ODDSET kan man spille systemet ”3 ud af 4” p˚ a DEN LANGE, det vil sige,<br />

at man ar f˚ udbetalt gevinst, hvis man tipper mindst 3 ud af 4 k ampe rigtige. Hvad er sandsyn-<br />

ligheden for gevinst, hvis tegnene i de 4 kampe vælges tilfældigt?<br />

Opgave 2.13 En række i LOTTO best˚ ar af 7 af de første 36 hele positive tal.<br />

a) Gør rede for, at antallet af mulige rækker er<br />

<br />

36<br />

.<br />

7


) Lad x være et af tallene 0,1,...,7. Gør rede for, at antallet af rækker med x rigtige er<br />

<br />

7 29<br />

.<br />

x 7 − x<br />

2.35<br />

c) Lad X betegne antallet af rigtige p˚ a en enkelt række p˚ a lottokup onen hvis de 7 numre<br />

vælges tilfældigt. Vis, at<br />

P(X = x) =<br />

og beregn disse sandsynligheder ved hjælp af Excel.<br />

<br />

7 29<br />

<br />

x 7 − x<br />

<br />

36<br />

7<br />

, x = 0,1,...,7,<br />

Opgave 2.14 Antag, at en tipsekspert angiver følgende procenter for tegnfordelingen i de 13<br />

kampe p˚ a tipskuponen:<br />

kamp 1 X 2<br />

1 70 20 10<br />

2 65 20 15<br />

3 40 20 40<br />

4 50 10 40<br />

5 50 30 20<br />

6 10 30 60<br />

7 75 20 5<br />

8 70 15 15<br />

9 60 20 20<br />

10 55 30 15<br />

11 30 50 20<br />

12 45 30 25<br />

13 40 35 25<br />

Lav ved hjælp af Excel funktionen SLUMP, der frembringer tilfældige tal, en tipskupon ud<br />

fra tipsekspertens procentfordeling.<br />

Opgave 2.15 A er en hændelse med sandsynlighed p. X er en stokastisk variabel, defineret ved<br />

X(e) =<br />

1, hvis e ∈ A<br />

−1, hvis e ∈ A c .<br />

Tegn fordelingsfunktionen for X. Vis, at EX = 2p − 1 og at VarX = 4p(1 − p).


2.36 Opgaver<br />

Opgave 2.16 I mange hasardspil vædder man om, at en hændelse A indtræffer. Gevinsten ved<br />

indsatsen 1 er<br />

⎧<br />

⎨ 1 − p<br />

, hvis e ∈ A<br />

X(e) = p<br />

⎩<br />

−1 hvis e ∈ Ac ,<br />

hvor p = P(A). Vis, at EX = 0. Vis desuden, at VarX = (1− p)/p samt at variansen vokser, n˚ ar<br />

p aftager.<br />

Opgave 2.17 En todimensionel diskret stokastisk vektor (X,Y) har sandsynlighedsfunktion<br />

som anført i nedenst˚ aende skema<br />

X\Y 0 1 2<br />

0 0.10 0.05 0.10<br />

1 0.10 0.10 0.10<br />

2 0.07 0.08 0.05<br />

3 0.05 0.12 0.08<br />

a) Find sandsynlighedsfunktionen for X og beregn EX [1.45] og Var X [1.2475].<br />

b) Find sandsynlighedsfunktionen for Y og beregn EY [1.01] og Var Y [0.6499].<br />

c) Find E(XY) [1.50] og Cov (X,Y) [0.0355].<br />

d) Er X og Y uafhængige?<br />

Opgave 2.18 Lad den simultane tæthedsfunktion for X1 og X2, begge med udfaldsrum (0,+∞),<br />

være givet ved<br />

f (X1,X2)(x1,x2) = λ1λ2e −(λ1x1+λ2x2) .<br />

a) Vis at b˚ ade X1’s og X2’s marginale fordeling er en eksponentialfordeling.<br />

b) Hvad er parameterne i X1’s og X2’s marginale fordelinger?<br />

c) Er X1 og X2 uafhængige?<br />

Opgave 2.19 Lad den simultane tæthedsfunktion for X1 og X2, med udfaldsrum {0 ≤ X1 ≤ 1}og<br />

{0 ≤ X2 ≤ 1}, være givet ved<br />

f (X1,X2)(x1,x2) = x1 + x2.<br />

a) Bestem de marginale fordelinger af X1 og X2.<br />

b) Er X1 og X2 uafhængige?<br />

c) Beregn middelværdi og varians af X1 og X2 samt korrelationen mellem X1 og X2.


3 Specielle fordelinger 3.1<br />

3 Specielle fordelinger<br />

I Kapitel 2 blev begreberne diskrete og kontinuerte fordelinger, middelværdi og varians intro-<br />

duceret. Som nævnt i kapitlet blev eksemplerne til illustration af disse begreber ikke valgt ud<br />

fra et anvendelsessynspunkt men derimod s˚ aledes at de fra e t matematisk synpunkt var simple.<br />

I dette kapitel introduceres de fordelinger som oftest anvendes i statistik. Kapitlet skal ses som<br />

et lille katalog over definitionen af og egenskaber ved fordelingerne, hvorimod anvendelsen af<br />

nogle af fordelingerne omtales i senere kapitler.<br />

De kontinuerte fordelinger, der omtales i Afsnit 3.1 er alle relateret til den vigtigste for-<br />

deling i statistikken, nemlig normalfordelingen. Enkelte af de relatere fordelinger er dog ogs˚ a<br />

af selvstændig interesse. Foruden definitionen af fordelingerne omtales deres middelværdi og<br />

varians, deres relation til normalfordelingen, tabelopslag i Statistical Tables samt beregninger i<br />

Excel.<br />

For de diskrete fordelinger i Afsnit 3.2 omtales foruden definitionen ogs˚ a beregningsformler<br />

for sandsynlighedsfunktionen, middelværdi og varians samt beregninger i Excel.<br />

3.1 Normalfordelingen og relaterede fordelinger<br />

3.1.1 Normalfordelingen<br />

Definition<br />

En kontinuert stokastisk variabel X er normalfordelt med middelværdi μ (∈ R) og varians<br />

σ 2 (> 0), hvis tæthedsfunktionen for X er<br />

fX(x) =<br />

1<br />

√ 2πσ 2<br />

− μ)2<br />

e−(x2σ 2<br />

, x ∈ R. (3.1)<br />

Fordelingen betegnes N(μ,σ 2 ), og hvis X har tæthedsfunktionen (3.1) skriver vi X ∼ N(μ,σ 2 ).<br />

Fordelingen N(0,1) refereres til som standard normalfordelingen eller u-fordelingen. Dens<br />

tæthedsfunktion betegnes traditionelt med ϕ og fordelingsfunktionen med Φ, det vil sige<br />

ϕ(x) = 1<br />

√ 2π e −x2<br />

2 , x ∈ R (3.2)


3.2 3.1 Normalfordelingen og relaterede fordelinger<br />

og<br />

Φ(x) =<br />

x<br />

−∞<br />

1<br />

√ 2π e −z2<br />

2 dz, x ∈ R. (3.3)<br />

Tætheden for standard normalfordelingen er symmetrisk omkring 0:<br />

ϕ(−x) = ϕ(x), x ∈ R<br />

og det afspejler sig i fordelingsfunktionen ved at<br />

Φ(−x) = 1 − Φ(x), x ∈ R. (3.4)<br />

Hvis X ∼ N(μ,σ 2 ) kan tæthedsfunktionen og fordelingsfunktionen for X udtrykkes ved de<br />

tilsvarende størrelser for standard normalfordelingen, nemlig som henholdsvis<br />

og<br />

fX(x) = 1 − μ<br />

ϕ(x ) (3.5)<br />

σ σ<br />

FX(x) = Φ(<br />

x − μ<br />

). (3.6)<br />

σ<br />

Figur 3.1 Tæthedsfunktionen for N 0,σ 2 for henholdsvis σ 2 = 0.5, 1.0 og 2.0.<br />

Middelværdi og varians


og<br />

Hvis X ∼ N(μ,σ 2 ) gælder der<br />

Fordelingsresultater<br />

3.3<br />

EX = μ (3.7)<br />

VarX = σ 2 . (3.8)<br />

Lad X1,...,Xn være uafhængige stokastiske variable s˚ a Xi ∼ N(μi,σ 2),<br />

i = 1,...,n. Hvis Y<br />

er en affin funktion af X-erne, det vil sige at Y er af formen<br />

hvor c0,...,cn er konstanter, har vi<br />

Y = c0 + c1X1 + ···+cnXn,<br />

Y ∼ N(c0 + c1μ1 + ···+cnμn,c 2 1σ 2 1 + ···+c2 nσ 2 n ). (3.9)<br />

Hvis yderligere X-erne er identisk fordelte, det vil sige Xi ∼ N(μ,σ 2 ), har vi specielt, at<br />

X· =<br />

Bemærk endelig, at (3.9) medfører, at<br />

Tabeller<br />

n<br />

∑ Xi ∼ N(nμ,nσ<br />

i=1<br />

2 ) og ¯X· = 1<br />

n<br />

X ∼ N(μ,σ 2 ) ⇔<br />

X − μ<br />

σ<br />

n<br />

∑ Xi ∼ N(μ,<br />

i=1<br />

i<br />

σ 2<br />

). (3.10)<br />

n<br />

∼ N(0,1). (3.11)<br />

Hvis up og xp betegner p-fraktilen for henholdsvis N(0,1) fordelingen og N(μ,σ 2 ) forde-<br />

lingen er<br />

up = xp − μ<br />

. (3.12)<br />

σ<br />

Fraktilerne up for standard normalfordelingen har følgende sammenhæng med de s˚ akaldte pro-<br />

bits<br />

Da up = Φ −1 (p) er (3.13) ækvivalent med<br />

probit(p) = up + 5, p ∈ [0,1]. (3.13)<br />

Φ −1 (p) = probit(p) − 5. (3.14)<br />

Med andre ord kan man fra en tabel over probits finde værdien af funktionen Φ og dens inverse<br />

Φ −1 ved hjælp af formlerne (3.13) og (3.14). I mange ældre bøger om sandsynlighedsteori og<br />

statistik var det standard m˚ aden at tabellere funktionern e Φ og Φ−1 . I Statistical Tables findes<br />

der imidlertid direkte tabeller for Φ(side 1) og Φ −1 (siderne 2-4). Ved hjælp af tabellen over Φ<br />

ses det for eksempel, at<br />

Φ(2.57) = 0.9949


3.4 3.1 Normalfordelingen og relaterede fordelinger<br />

og<br />

og<br />

Excel<br />

Φ(−1.96) = 1 − Φ(1.96) = 1 − 0.9750 = 0.0250.<br />

Som en illustration af brugen af tabellen over Φ −1 har vi for eksempel at<br />

Φ −1 (0.005) = −2.576<br />

Φ −1 (0.975) = 1.960.<br />

Hvis X ∼ N(μ,σ 2 ) kan tæthedsfunktionen og fordelingsfunktionen for X beregnes ved<br />

hjælp af funktionenNORMFORDELING, idet<br />

og<br />

fX(x) =NORMFORDELING(x; μ;σ;FALSK)<br />

FX(x) =NORMFORDELING(x; μ;σ;SAND).<br />

Bemærk, at i kaldet af funktionen angives spredningen σ og alts˚ a ikke variansen σ 2 . Specielt<br />

har vi<br />

og<br />

ϕ(x) =NORMFORDELING(x;0;1;FALSK)<br />

Φ(x) =NORMFORDELING(x;0;1;SAND).<br />

Fraktilen xp = F −1 (p) beregnes ved hjælp af funktionenNORMINV, idet<br />

specielt<br />

3.1.2 Den todimensionale normalfordeling<br />

Definition<br />

xp =NORMINV(p; μ;σ)<br />

up =NORMINV(p;0;1).<br />

En kontinuert stokastisk vektor X = (X1,X2) er todimensionalt normalfordelt med middel-<br />

værdi vektor μμμ = (μ1, μ2) og kovariansmatriks<br />

Σ =<br />

σ 2 1 ρσ1σ2<br />

ρσ1σ2<br />

σ 2 2


hvis tætheden for X er<br />

fX(x) =<br />

1<br />

<br />

2π (1 − ρ2 )σ 2 1 σ 2 2<br />

Middelværdi, varians og korrelation<br />

<br />

exp − 1<br />

2(1−ρ2 <br />

(x1−μ1)<br />

)<br />

2<br />

σ 2 −<br />

1<br />

2ρ(x1−μ1)(x2−μ2)<br />

+ σ1σ2<br />

(x2−μ2) 2<br />

Hvis X ∼ N2(μμμ,Σ) er middelværdivektoren og kovariansmatricen for X<br />

Desuden er korrelationen mellem X1 og X2<br />

Marginale og betingede fordelinger<br />

3.5<br />

σ 2 <br />

, x ∈ R<br />

2<br />

2 .<br />

(3.15)<br />

EX = μμμ, (3.16)<br />

CovX = Σ. (3.17)<br />

Cor(X1,X2) = ρ. (3.18)<br />

Hvis X = (X1,X2) ∼ N2(μμμ,Σ) er de marginale fordelinger igen normalfordelinger, idet<br />

Ligeledes er de betingede fordelinger normalfordelinger, idet<br />

og<br />

3.1.3 χ 2 -fordelingen<br />

Definition<br />

Xi ∼ N(μi,σ 2<br />

i ), i = 1,2. (3.19)<br />

X1 |X2 = x2 ∼ N(μ1 +(x2 − μ2) ρσ1<br />

,σ 2 1(1 − ρ 2 )) (3.20)<br />

σ2<br />

X2 |X1 = x1 ∼ N(μ2 +(x1 − μ1) ρσ2<br />

,σ 2 2 (1 − ρ2 )). (3.21)<br />

χ 2 -fordelingen med f frihedsgrader, betegnet χ 2 ( f), er et specialtilfælde af gamma forde-<br />

lingen Γ(α,λ), som er en kontinuert fordeling p˚ a ]0,∞[ med tæthedsfunktion<br />

γ(x;α,λ) =<br />

Her er α > 0, λ > 0 og Γ betegner gamma funktionen<br />

Γ(α) =<br />

σ1<br />

λ α<br />

Γ(α) xα−1 e −λx , x ∈ ]0,∞[. (3.22)<br />

∞<br />

0<br />

x α−1 e −x dx, α > 0.<br />

Mere præcist er χ 2 ( f) = Γ( f/2,1/2). I anvendelser af χ 2 -fordelingen i statistik i modeller<br />

baseret p˚ a normalfordelingen er tæthedsfunktionen for fo rdelingen kun af sekundær interesse,<br />

idet den primære interesse vedrører fordelingens fraktiler.


3.6 3.1 Normalfordelingen og relaterede fordelinger<br />

Figur 3.2 Tæthedsfunktionen for χ 2 ( f) for henholdsvis f = 2, 4, 6 og 8.<br />

Hvis Y er en stokastisk variabel s˚ aledes, at Y/σ 2 ∼ χ2 ( f), siger vi ofte, at Y er σ 2χ 2 ( f) for-<br />

delt og hvis Z er en stokastisk variabel s˚ a f Z/σ 2 ∼ χ2 ( f), siger vi, at Z er σ 2χ 2 ( f)/ f fordelt.<br />

Middelværdi og varians<br />

og<br />

Hvis X ∼ χ 2 ( f) gælder der, at<br />

Fordelingsresultater<br />

Hvis X1 og X2 er uafhængige stokastiske variable gælder der, at<br />

EX = f (3.23)<br />

VarX = 2 f. (3.24)<br />

Xi ∼ χ 2 ( fi), i = 1,2 ⇒ X1 + X2 ∼ χ 2 ( f1 + f2). (3.25)<br />

Den fundamentale sammenhæng mellem normalfordelingen og χ 2 -fordelingen er resultatet:<br />

U ∼ N(0,1) ⇒ U 2 ∼ χ 2 (1). (3.26)<br />

Ved at kombinere resultaterne (3.11), (3.25) og (3.26) ses det, at hvis X1,...,Xn er uafhængige<br />

og N(μ,σ 2 ) fordelte, da er<br />

n (Xi − μ)<br />

∑<br />

i=1<br />

2<br />

σ 2<br />

∼ χ 2 (n),


eller ækvivalent hermed<br />

n<br />

∑<br />

i=1<br />

3.7<br />

(Xi − μ) 2 ∼ σ 2 χ 2 (n). (3.27)<br />

Erstattes middelværdien μ med gennemsnittet ¯X· = (X1 + ··· + Xn)/n af X-erne kan det<br />

vises, at<br />

n<br />

∑<br />

i=1<br />

og, yderligere, at de stokastiske variable ¯X· og n<br />

∑<br />

fra (3.28), at<br />

s 2 (X) = 1<br />

n − 1<br />

(Xi − ¯X·) 2 ∼ σ 2 χ 2 (n − 1) (3.28)<br />

n<br />

∑<br />

i=1<br />

i=1<br />

(Xi − ¯X·) 2 er stokastisk uafhængige. Det følger<br />

(Xi − ¯X·) 2 ∼ σ 2 χ 2 (n − 1)/(n − 1) (3.29)<br />

samt at de to stokastiske variable ¯X· og s 2 (X), der i statistik benyttes som estimatorer for hen-<br />

holdsvis middelværdien μ og variansen σ 2 , er stokastisk uafhængige.<br />

Tabeller<br />

Fordelingerne χ2 ( f) og χ2 ( f)/ f er tabelleret i Statistical Tables p˚ a siderne 6-9 og siderne<br />

10-13. Som illustrationer har vi - med indlysende notation - at<br />

og<br />

Excel<br />

F χ 2 (3) (7.81) = 0.95,<br />

F −1<br />

χ2 (0.60) = 8.35,<br />

(8)<br />

F χ 2 (5)/5 (0.1662) = 0.025<br />

F −1<br />

χ2 (0.95) = 1.7522.<br />

(12)/12<br />

Fordelingsfunktionen og fraktiler i fordelingerne χ 2 ( f) og χ 2 ( f)/ f kan beregnes ved hjælp<br />

af funktionerneCHIFORDELING ogCHIINV, idet<br />

og<br />

F χ 2 ( f) (x) =1 −CHIFORDELING(x;f),<br />

F χ 2 ( f)/ f (x) =1 −CHIFORDELING(f ·x;f),<br />

F −1<br />

χ2 (p) =CHIINV(1 −p;f)<br />

( f)<br />

F −1<br />

χ2 (p) =CHIINV(1 −p;f)/f.<br />

( f)/ f<br />

Bemærk, at begge funktioner beregner halesandsynligheder og der justeres for dette i de fire<br />

formler ovenfor.


3.8 3.1 Normalfordelingen og relaterede fordelinger<br />

3.1.4 t-fordelingen<br />

Definition<br />

Hvis U og Z er to uafhængige stokastiske variable s˚ aledes at U ∼ N(0,1) og Z ∼ χ2 ( f)/ f,<br />

er størrelsen<br />

t = U √ Z<br />

(3.30)<br />

t-fordelt med f frihedsgrader og vi skriver t ∼ t( f). Symbolsk kan definitionen af t-fordelingen<br />

gengives som<br />

t( f) = N(0,1)<br />

χ 2 ( f)/ f ,<br />

hvis vi husker p˚ a at nævner og tæller symboliserer uafhængige stokastiske variable.<br />

Fordelingen kaldes undertiden Student fordelingen eller Student’s t-fordeling.<br />

Som for χ 2 -fordelingen er det fraktilerne for t( f)-fordelingen, der er af primær interesse i<br />

forbindelse med inferens i modeller baseret p˚ a normalford elingen, og ikke selve tæthedfunktio-<br />

nen, som er<br />

f t( f)(x) =<br />

hvor B betegner beta funktionen<br />

B(α1,α2) =<br />

1<br />

√ f B(1/2, f/2) (1+ f −1 x 2 ) −( f+1)/2 , x ∈ R,<br />

1<br />

0<br />

x α1−1 α2−1 Γ(α1)Γ(α2)<br />

(1 − x) dx = . (3.31)<br />

Γ(α1 + α2)<br />

t( f)-fordelingen konvergerer i fordeling mod N(0,1) fordelingen for f → ∞.<br />

Fordelingsresultater<br />

Antag, at X1,...,Xn er uafhængige og identisk N(μ,σ 2 ) fordelte og lad ¯X· og s 2 (X) betegne<br />

henholdsvis den empiriske middelværdi og varians. Det følger da af (3.10), (3.29) og (3.30)<br />

samt af uafhængigheden af ¯X· og s 2 (X), at<br />

Tabeller<br />

t = ¯X· − μ<br />

∼ t(n − 1). (3.32)<br />

s2 (X)/n<br />

Tætheden for t( f)-fordelingen er symmetrisk omkring 0,og det medfører, at<br />

F t( f)(−x) = 1 − F t( f)(x), x ∈ R, (3.33)<br />

hvor F t( f) betegner fordelingsfunktionen for t( f)-fordelingen. Hvis tp( f) betegner p-fraktilen<br />

for t( f)-fordelingen medfører formel (3.33), at<br />

t1−p( f) = −tp( f), p ∈ ]0,1[. (3.34)


Figur 3.3 Tæthedsfunktionen for t ( f) for henholdsvis f = 1, 2, 4 og 8.<br />

P˚ a grund af (3.34) er det nok at tabellere p-fraktilerne for t( f)-fordelingen for p ≥ 0.5. En s˚ adan<br />

tabel findes p˚ a side 5 i Statistical Tables. For eksempel har vi<br />

hvilket ved hjælp af (3.33) giver<br />

Desuden har vi for eksempel at<br />

og derfor - ved hjælp af (3.34) - at<br />

F t(6)(1.440) = 0.90,<br />

F t(6)(−1.440) = 0.10.<br />

t0.975(17) = F −1<br />

t(17) (0.975) = 2.110<br />

t0.025(17) = F −1<br />

t(17) (0.025) = −2.110.<br />

Endelig bør man være opmærksom p˚ a, at den sidste række i tabe llen giver mulighed for at<br />

finde sandsynligheder af formen P(|t( f)| ≥ x), hvor t( f) symboliserer en t( f) fordelt stokastisk<br />

variabel. Som illustration har vi<br />

P(|t(10)| ≥ 1.372) = 0.20.<br />

3.9


3.10 3.1 Normalfordelingen og relaterede fordelinger<br />

Excel<br />

FunktionenTFORDELING beregner to forskellige sandsynligheder afhængig af det tredje ar-<br />

gument i kaldet af funktionen. Da<br />

beregnes fordelingsfunktionen som<br />

og - ved hjælp af (3.33) - som<br />

Benyttes2som tredje argument beregnes<br />

TFORDELING(x;f;1) = P(t( f) ≥ x), x ≥ 0,<br />

F t( f)(x) =1 −TFORDELING(x;f;1), hvis x ≥ 0<br />

F t( f)(x) =TFORDELING(−x;f;1), hvis x < 0.<br />

TFORDELING(x;f;2) = P(|t( f)| ≥ x), x ≥ 0.<br />

Værdien af funktionenTINV er bestemt ved ligningen<br />

s˚ a fraktilerne kan beregnes som<br />

3.1.5 F-fordelingen<br />

Definition<br />

tp( f) = F −1<br />

t( f) (p) =<br />

p = P(|t( f)| ≥TINV(p;f)),<br />

TINV(2 ∗(1 −p);f), hvis p ≥ 0.5<br />

−TINV(2 ∗p;f), hvis p < 0.5.<br />

Lad Z1 og Z2 være to uafhængige stokastiske variable s˚ a Zi ∼ χ2 ( fi)/ fi, i = 1,2. Da er den<br />

stokastiske variabel<br />

F = Z1<br />

Z2<br />

(3.35)<br />

F-fordelt med ( f1, f2) frihedsgrader, eller med f1 frihedsgrader i tælleren og f2 frihedgrader i<br />

nævneren. (I dansk litteratur betegnes fordelingen undertiden som v 2 -fordelingen med ( f1, f2)<br />

frihedsgrader eller kort v 2 ( f1, f2).) Symbolsk er definitionen<br />

F( f1, f2) = χ2 ( f1)/ f1<br />

χ2 ,<br />

( f2)/ f2<br />

hvor tæller og nævner symboliserer uafhængige stokastiske variable.


Figur 3.4 Tæthedsfunktionen for F (10, f2) for henholdsvis f2 = 2, 4, 8 og 16.<br />

3.11<br />

Igen er det fordelingens fraktiler, der er af størst interesse i statistisk inferens. Tætheden for<br />

F( f1, f2) fordelingen er<br />

f f1/2<br />

1<br />

f f2/2<br />

2<br />

fF( f1, f2)(x) =<br />

B( f1/2, f2/2) x f1/2−1<br />

( f2 + f1x) −( f1+ f2)/2<br />

, x > 0,<br />

hvor B er beta funktionen givet i formel (3.31).<br />

Fordelingsresultater<br />

I statistik dukker fordelingen op i variansanalyse samt hvor man ønsker at sammenligne to<br />

empiriske varianser i en model baseret p˚ a normalfordeling en. Antag for eksempel, at X1,...,Xn<br />

og Y1,...,Ym er uafhængige stokastiske variable, s˚ aledes at Xi ∼ N(μX,σ 2 ), i = 1,...,n og Yj ∼<br />

N(μY,σ 2 ), j = 1,...,m. Bemærk, at variansen er antaget ens for samtlige stokastiske variable.<br />

Af (3.29) as f˚ for de empiriske varianser s2 (X) og s2 (Y) at<br />

og<br />

s 2 (X) = 1<br />

n − 1<br />

s 2 (Y) = 1<br />

m − 1<br />

n<br />

∑<br />

i=1<br />

m<br />

∑<br />

j=1<br />

(Xi − ¯X·) 2 ∼ σ 2 χ 2 (n − 1)/(n − 1)<br />

(Yj − ¯Y·) 2 ∼ σ 2 χ 2 (m − 1)/(m − 1).


3.12 3.2 Diskrete fordelinger<br />

Da s2 (X) og s2 (Y) er stokastiske uafhængige as f˚ af formel (3.35), at<br />

F = s2 (X)<br />

s2 ∼ F(n − 1,m − 1).<br />

(Y)<br />

Endelig medfører formlerne (3.26), (3.30) og (3.35), at<br />

Tabeller<br />

Af (3.35) ses, at<br />

t ∼ t( f) ⇒ t 2 ∼ F(1, f). (3.36)<br />

Y ∼ F( f1, f2) ⇒ 1<br />

Y ∼ F( f2, f1),<br />

der bevirker følgende relation mellem p-fraktilen Fp( f1, f2) for F( f1, f2) fordelingen og (1− p)-<br />

fraktilen for F fordelingen hvor der er byttet om p˚ a frihedsgraderne i tæll er og nævner:<br />

Fp( f1, f2) =<br />

1<br />

. (3.37)<br />

F1−p( f2, f1)<br />

Det er derfor tilstrækkeligt at tabellere fraktilerne for F-fordelingen for værdier af p ≥ 0.5. Si-<br />

derne 14-49 i Statistical Tables indeholder p-fraktiler for F-fordelingen for forskellige værdier<br />

af p. Med indlysende notation har vi for eksempel<br />

og<br />

Excel<br />

F −1<br />

F(9,15) (0.95) = 2.59<br />

F F(13,6)(7.66) = 0.99.<br />

Fordelingfunktion og fraktiler for F-fordelingen beregnes ved hjælp af funktionerneFFORDELING<br />

ogFINV, idet<br />

og<br />

3.2 Diskrete fordelinger<br />

3.2.1 Binomialfordelingen<br />

Definition<br />

F F( f1, f2)(x) =1 −FFORDELING(x;f 1 ;f2)<br />

Fp( f1, f2) = F −1<br />

F( f1, f2) (p) =FINV(1 −p;f 1 ;f2)


3.13<br />

Binomialfordelingen med antalsparameter n (helt positivt tal) og sandsynlighedsparameter<br />

p betegnes ofte b(n, p). Idet x! (udtales: x falkultet) er defineret som x! = 1 · 2 · ···· x hvis x > 0<br />

og som 0! = 1, hvis x = 0, er punktsandsynlighederne for binomialfordelingen<br />

<br />

n<br />

b(x;n, p) = p<br />

x<br />

x (1 − p) n−x , x = 0,1,...,n, (3.38)<br />

hvor <br />

n n!<br />

=<br />

x x!(n − x)! .<br />

Hvis X er en stokastisk variabel, som er binomialfordelt, skriver vi ofte X ∼ b(n, p).<br />

Beregning af punktsandsynligheder<br />

eller<br />

Af (3.38) ses, at<br />

b(x+1;n, p)<br />

b(x;n, p)<br />

n − x p<br />

= , x = 0,1,...,n − 1,<br />

x+1 1 − p<br />

n − x p<br />

b(x+1;n, p) = b(x;n, p), x = 0,1,...,n − 1. (3.39)<br />

x+1 1 − p<br />

Ved hjælp af (3.39) kan punktsandsynlighederne beregnes rekursivt i h˚ anden, idet<br />

Middelværdi og varians<br />

og<br />

Excel<br />

Hvis X ∼ b(n, p) gælder der<br />

b(0;n, p) = (1 − p) n . (3.40)<br />

EX = np (3.41)<br />

VarX = np(1 − p). (3.42)<br />

I Excel kan punktsandsynlighederne og fordelingsfunktionen for b(n, p) beregnes ved hjælp<br />

af funktionenBINOMIALFORDELING p˚ a følgende m˚ ade:<br />

Eksempel 3.1<br />

F b(n,p)(x) =<br />

b(x;n, p) =BINOMIALFORDELING(x;n;p;FALSK)<br />

x<br />

∑ b(y;n, p) =BINOMIALFORDELING(x;n;p;SAND).<br />

y=0<br />

Figur 3.5 viser sandsynlighedsfunktionen for b(12, p) for p = 0.05, 0.2 og 0.5. Ved hjælp af


3.14 3.2 Diskrete fordelinger<br />

(3.39) og (3.40) finder vi følgende punktsandsynligheder - med tre decimalers nøjagtighed - for<br />

b(12,0.2), idet p/(1 − p) = 0.2/0.8 = 0.25,<br />

<br />

<br />

<br />

<br />

¡§<br />

¡¢ ¡£ ¡¤ ¡¥ ¡¦<br />

¡<br />

b(0;12,0.2) = 0.8 12 = 0.069<br />

b(1;12,0.2) = 12 1 0.25 b(0;12,0.2) = 0.206<br />

b(2;12,0.2) = 11 2 0.25 b(1;12,0.2) = 0.283<br />

b(3;12,0.2) = 10 3 0.25 b(2;12,0.2) = 0.236<br />

b(4;12,0.2) = 9 4 0.25 b(3;12,0.2) = 0.133<br />

b(5;12,0.2) = 8 5 0.25 b(4;12,0.2) = 0.053<br />

b(6;12,0.2) = 7 6 0.25 b(5;12,0.2) = 0.016<br />

b(7;12,0.2) = 6 7 0.25 b(6;12,0.2) = 0.003<br />

b(8;12,0.2) = 5 8 0.25 b(7;12,0.2) = 0.001<br />

b(9;12,0.2) = 4 9 0.25 b(8;12,0.2) = 0.000<br />

b(10;12,0.2) = 3<br />

10 0.25 b(9;12,0.2) = 0.000<br />

b(11;12,0.2) = 2<br />

11 0.25 b(10;12,0.2) = 0.000<br />

b(12;12,0.2) = 1<br />

12 0.25 b(11;12,0.2) = 0.000<br />

£ ¤ ¥ ¦ § ¨ © ¢ ¢¢¢£ ¢<br />

¦ £ ¦<br />

Figur 3.5 Sandsynlighedsfuktionen for binomialfordelingen b(12, p) med p = 0.05, 0.20 og<br />

<br />

0.50.


3.2.2 Multinomialfordelingen<br />

Definition<br />

3.15<br />

En k-dimensional diskret stokastisk vektor X = (X1,...,Xk) er multinomialfordelt med an-<br />

talsparameter n og sandsynlighedsvektor πππ = (π1, ..., πk), kort X ∼ m(n,πππ), hvis sandsynlig-<br />

hedsfunktionen for X er<br />

<br />

n<br />

P(X = x) =<br />

x1 ···xk<br />

<br />

π x1<br />

1 · ···· πxk<br />

k , for x = (x1,...,xk) ∈ M n k , (3.43)<br />

hvor Mn k er mængden af vektorer i Rk , s˚ aledes at komponenterne er ikke-negative hele tal hvis<br />

sum er n, det vil sige at<br />

I (3.43) er multinomialkoefficienten n<br />

M n k = {x ∈ Rk : x j ∈ {0,1,...,n} og<br />

x1 ···xk<br />

<br />

n!<br />

=<br />

x1! · ···· xk!<br />

k<br />

∑ x j = n}<br />

j=1<br />

og vektoren πππ tilhører mængden Πk af k-dimensionale sandsynlighedsvektorer, det vil sige at<br />

komponenterne af πππ er positive tal hvis sum er 1, eller<br />

Middelværdi, varians og korrelation<br />

πππ ∈ Πk = {πππ : π j > 0 og<br />

k<br />

∑<br />

j=1<br />

π j = 1}.<br />

Hvis X ∼ m(n,πππ) er middelværdivektoren og kovariansmatricen for X = (X1,...,Xk)<br />

⎪⎨<br />

CovX =<br />

⎧<br />

EX = nπππ = (nπ1,...,nπk),<br />

⎫<br />

(3.44)<br />

nπ1(1 − π1) −nπ1π2 ··· −nπ1π j ··· −nπ1πk<br />

⎪⎩<br />

−nπ1π2 nπ2(1 − π2) ··· −nπ2π j ··· −nπ2πk<br />

.<br />

.<br />

. ..<br />

.<br />

. .. .<br />

−nπ1π j −nπ2π j ··· nπ j(1 − π j) ··· −nπ jπk<br />

.. .. .<br />

. . . . .<br />

−nπ1πk −nπ2πk ··· −nπ jπk ··· nπk(1 − πk)<br />

Desuden er korrelationen mellem Xi og Xj for i = j<br />

Cor(Xi,Xj) =<br />

Marginale fordelinger<br />

idet<br />

⎪⎬<br />

. (3.45)<br />

−nπiπ j<br />

<br />

nπ j(1 − π j)nπ j(1 − π j) =<br />

−πiπ j<br />

. (3.46)<br />

π j(1 − π j)π j(1 − π j)<br />

Hvis X ∼ m(n,πππ) er de marginale fordelinger for komponenterne af X binomialfordelinger,<br />

Xj ∼ b(n,πj), j = 1,...,k. (3.47)<br />

⎪⎭


3.16 3.2 Diskrete fordelinger<br />

3.2.3 Poissonfordelingen<br />

Definition<br />

Poissonfordelingen med parameter λ (> 0) betegnes undertiden po(λ). Punktsandsynlig-<br />

hederne er<br />

Beregning af punktsandsynlighederne<br />

eller<br />

Af 3.48 as, f˚ at<br />

Da endvidere<br />

−λ λ x<br />

po(x;λ) = e , x = 0,1,.... (3.48)<br />

x!<br />

po(x+1;λ)<br />

po(x;λ)<br />

λ<br />

= , x = 0,1,...,<br />

x+1<br />

po(x+1;λ) = λ<br />

po(x;λ), x = 0,1,.... (3.49)<br />

x+1<br />

po(0;λ) = e −λ<br />

kan punktsandsynlighederne beregnes rekursivt i h˚ anden.<br />

Middelværdi og varians<br />

og<br />

Excel<br />

og<br />

Hvis X ∼ po(λ) gælder der, at<br />

I Excel kan funktionenPOISSON benyttes, idet<br />

Eksempel 3.2<br />

F po(λ)(x) =<br />

(3.50)<br />

EX = λ (3.51)<br />

VarX = λ. (3.52)<br />

x<br />

∑ po(x;λ) =POISSON(x;λ;SAND), x = 0,1,...,<br />

y=0<br />

po(x;λ) =POISSON(x;λ;FALSK) x = 0,1,... .<br />

Bruger vi (3.49) og (3.50) i forbindelse med Poissonfordelingen med λ = 2 finder vi med fire<br />

decimalers nøjagtighed:


po(0;2) = e −2 = 0.1353<br />

po(1;2) = 2 1 0.1353 = 0.2707<br />

po(2;2) = 2 2 0.2707 = 0.2707<br />

po(3;2) = 2 3 0.2707 = 0.1804<br />

po(4;2) = 2 4 0.1804 = 0.0904<br />

po(5;2) = 2 5 0.0904 = 0.0361<br />

po(6;2) = 2 6 0.0361 = 0.0120<br />

po(7;2) = 2 7 0.0120 = 0.0034<br />

po(8;2) = 2 8 0.0034 = 0.0009<br />

po(9;2) = 2 9 0.0009 = 0.0002<br />

3.17<br />

I princippet skulle vi fortsætte p˚ a samme m˚ ade for x = 10,11,..., men alle disse sandsynlighe-<br />

der bliver mindre end 0.0001. <br />

<br />

<br />

<br />

¡¨ ¡§<br />

¡¢ ¡£ ¡¤ ¡¥ ¡¦<br />

¡<br />

£ ¤ ¥ ¦ § ¨ © ¦ ¢ £<br />

Figur 3.6 Sandsynlighedsfuktionen for Poissonfordelingen po(λ) med λ = 0.5, 1.0 og 2.0.<br />

¢<br />

Sandsynlighederne for x = 0,1,...,9 er vist p˚ a figuren.<br />

3.2.4 Den hypergeometriske fordeling<br />

Den hypergeometriske fordeling<br />

Den hypergeometriske fordeling med parametre M,N og n betegner vi med h(M,N,n). Her<br />

er M, N og n hele positive tal s˚ a M ≤ N og n ≤ N. Hvis K0 = max{0,n + M − N} og K1 =


3.18 3.2 Diskrete fordelinger<br />

min{M,n} er punktsandsynlighederne<br />

<br />

M N − M<br />

h(x;M,N,n) =<br />

x n − x<br />

<br />

N<br />

n<br />

, x = K0,...,K1. (3.53)<br />

Beregning af punktsandsynligheder<br />

Idet<br />

h(x+1;M,N,n)<br />

h(x;M,N,n)<br />

= M − x<br />

x+1<br />

n − x<br />

N − M − n+x+1 , x = K0,...,K1 − 1,<br />

kan punktsandsynlighederne beregnes rekursivt i h˚ anden s om<br />

idet<br />

og<br />

h(x+1;M,N,n) =<br />

M − x<br />

x+1<br />

h(K0,M,N,n) = h(0;M,N,n) =<br />

h(K0,M,N,n) = h(n+M − N;M,N,n) =<br />

Eksempel 3.3<br />

n − x<br />

N − M − n+x+1 h(x;M,N,n), x = K0,...,K1 − 1, (3.54)<br />

(N − M)!(N − n)!<br />

N!(N − M − n)! , hvis K0 = 0, (3.55)<br />

M!n!<br />

N!(n+M − N)! , hvis K0 = n+M − n. (3.56)<br />

Figur 3.7 viser sandsynlighedsfunktionen for h(M,N,n) med M = 8,N = 15 og n = 2,4 og 8.<br />

Ved hjælp af (3.54) og (3.55) finder vi - med tre decimalers nøjagtighed - for h(8,15,4), at<br />

Middelværdi og varians<br />

og<br />

Hvis X ∼ h(M,N,n), gælder der<br />

7! 11!<br />

h(0;8,15,4) = 15! 3! = 0.026<br />

h(1;8,15,4) = 8 1 4 4 0.026 = 0.205<br />

h(2;8,15,4) = 7 2 3 5 0.205 = 0.431<br />

h(3;8,15,4) = 6 3 2 6 0.431 = 0.287<br />

h(4;8,15,4) = 5 4 1 7 0.287 = 0.051<br />

EX = n M<br />

N<br />

(N − n)<br />

VarX =<br />

(N − 1) nM<br />

M<br />

(1 −<br />

N N ).


¡§<br />

¡£ ¡¤ ¡¥ ¡¦<br />

¡¢<br />

3.19<br />

£ ¤ ¥ ¦ § ¨ © ¢<br />

¥ ©<br />

Figur 3.7 Sandsynlighedsfuktionen for den hypergeometriske fordeling h(8,15,n)) med n = 2,<br />

£<br />

4 og 8.<br />

Excel<br />

FunktionenHYPGEOFORDELING beregner sandsynlighedsfunktionen for den hypergeometri-<br />

ske fordeling, idet (bemærk rækkefølgen af parametrene)<br />

h(x;M,N,n) =HYPGEOFORDELING(x;n;M;N), x = 1,...,M0.<br />

3.2.5 Den negative binomialfordeling<br />

Definition<br />

For κ > 0 defineres den generaliserede binomialkoefficient som<br />

<br />

x+κ − 1<br />

=<br />

x<br />

(x+κ − 1)(x+κ − 2)···k<br />

x!<br />

og den negative binomialfordeling b − (κ, p) med parameter κ (> 0) og p (∈ ]0,1[) som den<br />

diskrete fordeling med sandsynlighedsfunktion<br />

b − <br />

x+κ − 1<br />

(x;κ, p) =<br />

p<br />

x<br />

x (1 − p) κ , x = 0,1,... . (3.57)<br />

Beregning af punktsandsynligheder


3.20 3.2 Diskrete fordelinger<br />

Af (3.57) as, f˚ at<br />

b − (x+1;κ, p)<br />

b − (x;κ, p)<br />

= κ + x<br />

x+1<br />

p, x = 0,1,... .<br />

Punktsandsynlighederne for b− (κ, p) kan derfor beregnes rekursivt i h˚ anden, idet<br />

og<br />

Eksempel 3.4<br />

b − (x+1;κ, p) =<br />

κ + x<br />

x+1 p b− (x;κ, p), x = 0,1,... (3.58)<br />

b − (0;κ, p) = (1 − p) κ . (3.59)<br />

Bruges (3.58) og (3.58), finder vi for b − (7.5,0.1)-fordelingen med fire decimalers nøjagtighed:<br />

b − (0;7.5,0.1) = 0.9 7.5 = 0.4538<br />

b − (1;7.5,0.1) = 7.5<br />

1<br />

0.1 · 0.4538 = 0.3403<br />

b − (2;7.5,0.1) = 7.5+1<br />

2 0.1 · 0.3403 = 0.1446<br />

b − (3;7.5,0.1) = 7.5+2<br />

3 0.1 · 0.1446 = 0.0458<br />

b − (4;7.5,0.1) = 7.5+3<br />

4 0.1 · 0.0458 = 0.0120<br />

b − (5;7.5,0.1) = 7.5+4<br />

5 0.1 · 0.0120 = 0.0028<br />

b − (6;7.5,0.1) = 7.5+5<br />

6 0.1 · 0.0028 = 0.0006<br />

b − (7;7.5,0.1) = 7.5+6<br />

7 0.1 · 0.0006 = 0.0001<br />

De øvrige punktsandsynligheder b − (x;7.5,0.1), x = 8,9,..., er alle mindre end 0.0001. Figur<br />

3.8 viser sandsynlighedsfunktionen for b − (4, p) for p = 0.1, 0.3 og 0.5. <br />

Middelværdi og varians<br />

og<br />

Excel<br />

Hvis X ∼ b − (κ, p) gælder der, at<br />

EX =<br />

VarX =<br />

κ p<br />

1 − p<br />

κ p<br />

(1 − p) 2.<br />

Punktsandsynlighederne for X ∼ b − (κ, p) kan for heltallige værdier af κ beregnes ved<br />

hjælp af funktionenNEGBINOMFORDELING, idet (bemærk, at det tredje argument er1-p)<br />

b − (x;κ, p) =NEGBINOMFORDELING(x;κ;1 −p), x = 0,1,2,...


¡¨<br />

¡¢ ¡£ ¡¤ ¡¥ ¡¦ ¡§<br />

¡<br />

3.21<br />

£ ¤ ¥ ¦ § ¨ © ¢ ¢ ¢ ¤ ¦<br />

Figur 3.8 Sandsynlighedsfuktionen for den negative binomialfordeling b<br />

− (4, p) med p = 0.1,<br />

0.3 og 0.5


3.22 Opgaver<br />

Opgaver til Kapitel 3<br />

Opgave 3.1 Lad X være normalfordelt med middelværdi 1.7 og varians 0.49, X ∼ N(1.7,0.49).<br />

a) Beregn sandsynligheden P(1 ≤ X ≤ 2).<br />

b) Beregn sandsynligheden for at X > 1.2 og sandsynligheden for at X < 1.5.<br />

c) Hvilke værdier afgrænser 10% i hver hale af fordelingen. (Det vil sige hvilke to værdier<br />

x1 og x2 opfylder P(X ≤ x1) = 0.1 og P(X ≥ x2) = 0.1.)<br />

d) Hvilke værdier afgrænser 5% i hver hale af fordelingen.<br />

Opgave 3.2 (Andersen 1998) For en række 15arige ˚ drenge m˚ alte man den m aksimale iltopta-<br />

gelse pr. minut ved normal belastning p˚ a en kondicykel. Res ultaterne var:<br />

2.57 2.68 2.80 2.84 2.86 3.01 3.02 3.12 3.15 3.16 3.24 3.25 3.33 3.34 3.47 3.67<br />

3.80<br />

a) Beregn gennemsnit ¯x· og empirisk varians s 2 for disse observationer (n = 17,S = 53.31,<br />

SK = 168.9499.)<br />

Antag at observationerne er normalfordelte og benyt værdierne i a) som middelværdien og<br />

variansen i de følgende to spørgsm˚ al.<br />

b) Hvad er sandsynligheden for, at iltoptagelsen for en tilfældig 15-˚ arig ligger mellem 2.7<br />

og 3.1.<br />

c) Find 90%-fraktilen i fordelingen.<br />

Opgave 3.3 Lav en figur i Excel med normalfordelingens tæthed som i Figur 3.1.<br />

De næste to opgaver vedrører eksponentialfordelingen, som er et specialtilfælde af gamma<br />

fordelingen. Eksponentialfordelingen e(λ) med parameter λ > 0 er gamma fordelingen Γ(1,λ).<br />

Hvis X ∼ e(λ) kan det vises, at middelværdien og variansen er<br />

EX = 1<br />

λ<br />

(3.60)


og<br />

3.23<br />

Var X = 1<br />

λ 2.<br />

(3.61)<br />

Excel funktionenEKSPFORDELING kan beregne tæthedsfunktionen og fordelingsfunktionen for<br />

eksponentialfordelingen.<br />

Opgave 3.4 Antag, at X ∼ e(λ).<br />

a) Vis ved hjælp af formel (3.22) - idet Γ(1) = 1 - at tæthedsfunktionen for X er<br />

b) Vis, at fordelingsfunktionen for X er<br />

c) Vis, at p-fraktilen for X er<br />

Opgave 3.5 Antag, at X ∼ e(1.5).<br />

a) Hvad er middelværdien af X?<br />

b) Hvad er variansen af X?<br />

f(x) = λe −λx , x ∈ ]0,∞[. (3.62)<br />

F(x) = 1 − e −λx , x ∈ ]0,∞[.<br />

xp = F −1 (p) =<br />

c) Hvad er sandsynligheden for, at X er større end 1?<br />

d) Hvad er sandsynligheden for, at 0 ≤ X ≤ 1 2 ?<br />

−ln(1 − p)<br />

, p ∈ ]0,1[.<br />

λ<br />

Opgave 3.6 (Andersen 1998) 8 mænd beslutter sig til at lave en fællestræning til byensarlige ˚<br />

motionsløb p˚ a ca. 11 km. Deres m˚ al er at løbe p˚ a under 50 min utter. En statistiker blandt dem<br />

vurderer, at hver enkelts chance for at n˚ a m˚ alet 50 minutte r er 80%?<br />

a) Med hvilken fordeling kan man beskrive det antal x af de 8 mænd, der p˚ a selve dagen<br />

løber under 50 minutter?<br />

b) Beregn middelværdi og varians i denne fordeling.<br />

c) Hvad er sandsynligheden for, at halvdelen (4) klarer 50 minutters grænsen?<br />

d) Hvad er sandsynligheden for, at alle de 8 mænd klarer 50 minutters grænsen?


3.24 Opgaver<br />

Opgave 3.7 (Andersen 1998) En intelligensprøve best˚ ar af 10 lige svær e opgaver, hver med 5<br />

svarmuligheder, hvoraf én er rigtig. Antal rigtigt løste opgaver kaldes scoren.<br />

a) Hvad er fordelingen af scoren x hvis en person beslutter sig for at gætte tilfældigt mellem<br />

de fem svarmuligheder, idet han ikke bedømmer at kunne løse opgaverne.<br />

b) Hvad er fordelingen af scoren x, hvis en ret intelligent person har sandsynlighed 0.7 for<br />

rigtig løsning for hver af de 10 opgaver.<br />

c) Beregn EX for b˚ ade person a) og person b).<br />

d) Beregn P(scoren ≥ 5) for b˚ ade person a) og person b).<br />

Opgave 3.8 Gør rede for, at antallet af rigtige tegn X p˚ a tipskuponen i Opgave 2.10 er binomi-<br />

alfordelt med antalsparameter n = 13 og sandsynlighedparameter p = 1/3. Find middelværdi,<br />

varians og spredning for X ved hjælp af formlerne i Afsnit 3.1.1.<br />

Opgave 3.9 Lav Figur 3.5 i Excel.<br />

Opgave 3.10 Lav Figur 3.6 i Excel.<br />

Opgave 3.11 Gør rede for at fordelingen af antallet af rigtige X p˚ a lottokuponen i Opgave 2.13<br />

er den hypergeometriske fordeling h(7,36,7). Find middelværdi, varians og spredning for X<br />

ved hjælp af formlerne i Afsnit 3.1.4.<br />

Opgave 3.12 (Andersen 1998) I undersøgelsen af de professionelle fodboldspillere i udlandet<br />

i Opgave 1.12 var populationen p˚ a 290 fodboldspillere, hvo raf 131 (stikprøven) besvarede et<br />

udsendt spørgeskema. Af disse svarede 86, at de var gift eller levede i et fast parforhold, før<br />

de rejste til udlandet. For at skønne over, hvor mange M i hele populationen, der var gift eller<br />

levede i et fast parforhold, før de rejste til udlandet, skal vi bruge en fordeling, hvori M indg˚ ar<br />

sammen med de øvrige tre tal.<br />

a) Hvis X er den stokastiske variabel, der svarer til de x = 86 observerede gifte i stikprøven,<br />

gør da rede for at for en fast værdi af M er fordelingen af X den hypergeometriske fordeling<br />

h(M, 290, 131).<br />

b) Lav ved hjælp af Excel en tabel over sandsynlighederne h(x;M,N,n) med x = 86, N =<br />

290, n = 131 og M ∈ {86,87,...,245} og find den værdi af M, der tillægger den observerede<br />

værdi x = 86 den største sandsynlighed.


4 Normalfordelte data 4.1<br />

4 Normalfordelte data<br />

I dette kapitel behandles en række modeller, som har det til fælles, at observationerne er nor-<br />

malfordelt. Forskellen mellem modellerne best˚ ar i, hvor k ompliceret middelværdistrukturen og<br />

variansstrukturen er. I Afsnit 4.2 omtales én observationsrække med kendt varians mens vari-<br />

ansen antages at være ukendt i Afsnit 4.3. Afsnit 4.4 og Afsnit 4.5 vedrører henholdsvis to og<br />

k observationsrækker. Endelig omtales lineær regression i Afsnit 4.6 og tosidet variansanalyse i<br />

Afsnit 4.7.<br />

Den simpleste model er én observationsrække med kendt varians, og derfor behandles den<br />

først. Endvidere bruges den til at introducere en række statistiske grundbegreber som estima-<br />

tion, test, signifikansniveau, testsandsynlighed og konfidensinterval. De bliver ganske vist ogs˚ a<br />

omtalt i Kapitel 5, men i Afsnit 4.2 behandles de i nøje tilknytning til et eksempel.<br />

De ovennævnte modeller er forholdsvis enkle, men de er fleksible nok til at finde anvendelse<br />

i en lang række praktiske problemstillinger, som spænder fra industriel produktion over alle na-<br />

turvidenskaberne, herunder geologi, biologi og idræt til lægevidenskab og samfundsvidenskab.<br />

P˚ a den anden side udtømmer de ikke alle de modeller for norma lfordelte data, som man kan<br />

af˚ brug for i sin profession. Men det begrebsapparat og de ad færdsmønstre, som man udvikler<br />

ved h˚ andteringen af de enkle modeller, gør det muligt at h˚ a ndtere mere komplicerede modeller.<br />

I Afsnit 4.1 omtales en grafisk metode til at kontrollere om en observationsrække kan be-<br />

tragtes som normalfordelt. Til trods for at metoden er meget simpel, er den særdeles vigtig, idet<br />

den giver os mulighed for at vurdere gyldigheden af en statistiske model baseret p˚ a normalfor-<br />

delingen. Alle følgende beregninger og konklusioner er bestemt af den statistiske model. Hvis<br />

modellen er forkert, vil konklusioner, der er draget p˚ a gru ndlag af den, sandsynligvis ogs˚ a være<br />

forkerte.<br />

Alle fordelingsresultater, der er relateret til analyse af de statistiske modeller i dette kapitel,<br />

er omtalt i Afsnit 3.1.1.


4.2 4.1 Fraktilsammenligning<br />

4.1 Fraktilsammenligning<br />

Lad x1,x2,...,xn være en observationsrække best˚ aende af n observationer af en kontinuert vari-<br />

abel. Antag, at metoderne i Kapitel 1 antyder, at vi som model for observationerne kan antage,<br />

at disse er udfald af uafhængige og identisk fordelte stokastiske variable X1,X2,...,Xn og lad F<br />

betegne den fælles fordelingsfunktion for X’erne. For at vurdere om modellen er rimelig kun-<br />

ne man sammenligne den empiriske fordelingsfunktion Fn med fordelingsfunktionen F ved for<br />

eksempel for udvalgte værdier af x at indtegne (x,Fn(x)) og (x,F(x)) p˚ a samme tegning, idet<br />

modellen da forekommer rimelig hvis de to grafer ligner hinanden. Sædvanligvis er grafen for<br />

F er S-formet og sammenligningen best˚ ar derfor i at vurdere o m to S-formede grafer ligner<br />

hinanden. Øjet har lettere ved at afgøre om punkter varierer omkring en ret linje, s˚ a i stedet for<br />

vælger man at sammenligne p-fraktilerne xp(Fn) og xp(F) for Fn og F. Hvis punkterne (xp(Fn),<br />

xp(F)) for udvalgte værdier af p ligger omkring identitetslinjen uden systematiske afvigelser<br />

anses modellen for rimelig.<br />

Dette var en generel beskrivelse af fraktilsammenligning. For normalfordelingen gælder der,<br />

at hvis up og xp er p-fraktilen for henholdsvis N(0,1) fordelingen og N(μ,σ 2 ) fordelingen da<br />

er<br />

up = xp − μ<br />

, (4.1)<br />

σ<br />

s˚ a for denne fordeling indtegnes (xp(Fn), up) for udvalgte værdier af p. En model baseret p˚ a<br />

normalfordelingen er da rimelig, hvis punkterne ligger omkring en ret linje uden systematiske<br />

afvigelser.<br />

I Afsnit 4.1.1 og Afsnit 4.1.2 diskuteres fraktildiagrammer for henholdsvis ugrupperede og<br />

grupperede observationer.<br />

4.1.1 Ugrupperede observationer<br />

Først repeterer vi notationen fra Kapitel 1. Antag, at der er m forskellige værdier i observa-<br />

tionrækken x1,x2,...,xn og lad y1,y2,...,ym betegne de ordnede værdier, det vil sige<br />

y1 < y2 < ... < ym.<br />

For j = 1,2,...,m lader vi a j betegne antallet af observationer i rækken x1, x2,...,xn med<br />

værdien y j og desuden lader vi k j betegne det kumulerede antal, det vil sige k j = a1 + ···+a j,<br />

og endelig sættes k0 = 0.<br />

Den p-værdi, for hvilken y j er p-fraktil, bestemmes som<br />

p j = (k j−1 + k j)/(2n),


det vil sige y j = xp j (Fn).<br />

I fraktildiagrammet indtegnes punkterne<br />

(y j,up j ) = (y j,Φ −1 (p j)), j = 1,2,...,m.<br />

Beregningerne, der ligger til grund for et fraktildiagram, er vist i Tabel 4.1, der fremkommer<br />

ved i Tabel 1.5 at tilføje en søjle med værdierne af up (og fjerne den første søjle).<br />

observation antal kumulerede antal sandsynlighed i % u fraktil<br />

y a k p i % up<br />

y1 a1 k1 = a1 p1 = 100 · k1/(2n) Φ −1 (p1)<br />

y2 a2 k2 = a1 + a2 p2 = 100 ·(k1 + k2)/(2n) Φ −1 (p2)<br />

y3 a3 k3 = a1 + a2 + a3 p3 = 100 ·(k2 + k3)/(2n) Φ −1 (p3)<br />

... ... ... ... ...<br />

y j a j k j = a1 + · · ·+a j p j = 100 ·(k j−1 + k j)/(2n) Φ −1 (p j)<br />

... ... ... ... ...<br />

ym am km = a1 + · · ·+am pm = 100 ·(km−1 + km)/(2n) Φ −1 (pm)<br />

Tabel 4.1 Beregningsskema for fraktildiagrammet for et ugrupperet datasæt.<br />

Eksempel 1.2 (Fortsat)<br />

Disse tal har vi ikke betragtet i Kapitel 1 men erfaringen viser, at kondital sædvanligvis er nor-<br />

malfordelte. Beregningerne i Tabel 4.1 i er gengivet nedenfor og Figur 4.1 viser det tilsvarende<br />

fraktildiagram.<br />

Da der ikke i figuren er systematiske afvigelser fra en ret linje, kan observationsrækken<br />

betragtes som normalfordelt.<br />

4.3


4.4 4.1 Fraktilsammenligning<br />

Figur 4.1 Fraktildiagrammet for data i Eksempel 1.2.<br />

observation antal kumulerede antal sandsynlighed i % u fraktil<br />

y a k p i % up<br />

63.9 1 1 2.5 −1.960<br />

64.1 1 2 7.5 −1.440<br />

64.9 1 3 12.5 −1.150<br />

66.0 1 4 17.5 −0.935<br />

68.4 1 5 22.5 −0.755<br />

68.9 1 6 27.5 −0.598<br />

69.4 1 7 32.5 −0.454<br />

72.0 1 8 37.5 −0.319<br />

72.1 1 9 42.5 −0.189<br />

72.9 1 10 47.5 −0.063<br />

73.1 1 11 52.5 0.063<br />

73.4 1 12 57.5 0.189<br />

74.3 1 13 62.5 0.319<br />

75.2 1 14 67.5 0.454<br />

75.4 1 15 72.5 0.598<br />

76.2 1 16 77.5 0.755<br />

76.3 2 18 85.0 1.036<br />

79.4 1 19 92.5 1.440<br />

79.8 1 20 97.5 1.960


N˚ ar data ikke foreligger p˚ a elektronisk form kan fraktild iagrammet tegnes p˚ a sandsynlig-<br />

hedspapir, se Figur 4.2. Sandsynlighedspapir findes i mange forskellige fabrikater. Fælles for<br />

dem alle er, at de har en lineær førsteakse til afsættelse af data, og to andenakser. Den ene anden-<br />

akse er lineær og bruges til at afsætte fraktiler, mens den anden andenakse er en procentakse.<br />

Procentaksen er ikke-lineær, idet procenten 100p afsættes ud for up. Hele pointen med de to<br />

andenakser er nemlig, at tabelopslaget for at finde up er indbygget i sammenhængen mellem de<br />

to akser, s˚ a fraktildiagrammet kan laves ved at indtegne pu nkterne (y j,100p j), j = 1,2,...,m,<br />

idet procentaksen benyttes.<br />

Visse typer af sandsynlighedspapir benytter en parallelforskudt lineær andenakse, idet de<br />

s˚ akaldte probits benyttes. Probit prob(p) svarende til en p-værdi er defineret som prob(p) =<br />

up + 5. Et fraktildiagram indtegnet p˚ a den type sandsynligheds papir kaldes ofte et probitdia-<br />

gram. Et eksempel p˚ a et probitdiagram er gengivet i Figur 4.2.<br />

Eksempel 1.2 (Fortsat)<br />

Probitdiagrammet for data er vist i Figur 4.2. <br />

Ved vurderingen af om punkterne i et fraktildiagram udviser et passende lineært forløb,<br />

s˚ aledes at det er rimeligt at antage, at observationerne ka n betragtes som én observationsrække<br />

fra normalfordelingen, skal de følgende tre punkter tages i betragtning:<br />

1) Jo større n er jo mindre variation omkring en ret linje vil man forvente.<br />

2) Punkterne i et fraktildiagram er korrellerede og har derfor en tendens til at sno sig omkring<br />

linjen.<br />

3) Variationen af punkterne omkring linjen er størst i enderne af diagrammet og man skal<br />

derfor lægge mest vægt p˚ a punkterne i midten af diagrammet.<br />

En statistisk model baseret p˚ a normalfordelingen afvises først og fremmest, hvis punkterne<br />

i diagrammet udviser en systematisk afvigelse fra en ret linje.<br />

Vurdering af fraktildiagrammer er et spørgsm˚ al om erfarin g, der for eksempel kan opn˚ as<br />

ved at betragte diagrammer for normalfordelte datasæt, der er fremkommet ved numerisk simu-<br />

lation. Figurerne i Appendiks B viser fraktildiagrammer for forskellige datasæt af denne type<br />

med varierende n. Figurerne antyder, at for sm˚ a værdier af n kan punkterne variere temmelig<br />

meget omkring linjen.<br />

Hvis fraktildiagrammet ikke giver anledning til at afvise en statistisk model baseret p˚ a nor-<br />

malfordelingen, kan man af˚ grove estimater for middelværdien μ og variansen σ 2 i normalfor-<br />

delingen N(μ,σ 2 ) ved at tegne en linje gennem punkterne i diagrammet. Af (4.1) ses det, at μ<br />

4.5


4.6 4.1 Fraktilsammenligning<br />

Figur 4.2 Probitdiagrammet for data i Eksempel 1.2.


kan estimeres som værdien p˚ a førsteaksen svarende til værd ien 0 p˚ a andenaksen i et fraktildi-<br />

agram. Det ses ligeledes af (4.1), at et estimat for σ er den reciprokke værdi af hældningen af<br />

linjen i diagrammet.<br />

Hvis data kun best˚ ar af én observationsrække og hvis antal let af observationer n i denne<br />

række er lille, n < 10, ses det af figurerne i Appendiks B, at fraktildiagrammet er af begrænset<br />

værdi, n˚ ar normalfordelingsantagelsen skal vurderes. Hv is data best˚ ar af flere observationsræk-<br />

ker, kan diagrammerne være nyttige selv for stikprøvestørrelser mindre end 10 ved at afsløre<br />

afvigelser fra et lineært forløb, der g˚ ar igen fra stikprøv e til stikprøve.<br />

4.1.2 Grupperede data<br />

Antag, at antallet af observationer i de m intervaller ]y0,y1],]y1,y2],...,]ym−1,ym] er a1, a2,...,<br />

am. For j = 1, 2,...,m lader vi k j = a1 +a2 +···+aj betegne det kumulerede antal observatio-<br />

ner. Bemærk, at km = n, det totale antal observationer.<br />

højre endepunkt antal kumulerede antal sandsynlighed i % u fraktil<br />

y a k p i % up<br />

y1 a1 k1 = a1 p1 = 100 · k1/n Φ −1 (p1)<br />

y2 a2 k2 = a1 + a2 p2 = 100 · k2/n Φ −1 (p2)<br />

y3 a3 k3 = a1 + a2 + a3 p3 = 100 · k3/n Φ −1 (p3)<br />

... ... ... ... ...<br />

y j a j k j = a1 + · · ·+a j p j = 100 · k j/n Φ −1 (p j)<br />

... ... ... ... ...<br />

ym−1 am−1 km−1 = a1 + · · ·+am−1 pm−1 = 100 · km−1/n Φ −1 (pm−1)<br />

Tabel 4.2 Skema til beregning af punkterne i fraktildiagrammet for grupperede data.<br />

Lader vi p j = k j/n , j = 1,2,...,m, har vi specielt at pm = 1. Da den tilsvarende u fraktil<br />

u1 = ∞, indtegner vi kun følgende m − 1 punkter i fraktildiagrammet :<br />

(y j,up j ) = (y j,Φ −1 (p j)), j = 1,2,...,m − 1.<br />

Beregningerne, der er nødvendige for at finde punkterne i fraktildiagrammet for et grupperet<br />

datasæt, er vist i Tabel 4.2, som fremkommer fra Tabel 1.6 ved at tilføje en søjle med værdierne<br />

af up (og fjerne første og tredje søjle samt sidste række).<br />

Eksempel 1.1 (Fortsat)<br />

Histogrammerne for disse data i Afsnit 1.3 har tilnærmelsesvis samme udseende som tætheds-<br />

funktionen for normalfordelingen, se Figur 3.1. Dette antyder, at data kan betragtes som en<br />

4.7


4.8 4.1 Fraktilsammenligning<br />

normalfordelt observationsrække. For den grupperede version af data i Tabel 1.4 er beregnin-<br />

gerne i Tabel 4.2 gengivet nedenfor og fraktildiagrammet er vist i Figur 4.3. Da punkterne i<br />

probitdiagrammet ikke afviger systematisk fra en ret linje kan data betragtes som en normalfor-<br />

delt observationsrække.<br />

højre endepunkt antal kumulerede antal sandsynlighed i % u fraktil<br />

y a k p i % up<br />

116 1 1 0.4 −2.648<br />

120 0 1 0.4 −2.648<br />

124 8 9 3.6 −1.794<br />

128 20 29 11.7 −1.188<br />

132 24 53 21.5 −0.791<br />

136 32 85 34.4 −0.401<br />

140 49 134 54.3 0.106<br />

144 41 175 70.9 0.549<br />

148 26 201 81.4 0.892<br />

152 21 222 89.9 1.274<br />

156 14 236 95.5 1.700<br />

160 6 242 98.0 2.049<br />

164 4 246 99.6 2.647<br />

4.1.3 Transformation<br />

Undertiden afslører fraktildiagrammet, at det ikke er rimeligt at betragte de oprindelige data<br />

x1,x2,...,xn som én normalfordelt observationsrække. Da modeller baseret p˚ a normalfordelin-<br />

gen er lette at h˚ andtere, forsøger man ofte at opn˚ a en s˚ ada n model for en transformeret version af<br />

data, det vil sige for y1,y2,...,yn, hvor yi = h(xi),i = 1, 2,...,n, og hvor h er en kendt funktion,<br />

som er 1-1 (injektiv). Ikke sjældent har fagmanden specielle grunde til at betragte en bestemt<br />

transformation. De mest brugte transformationer er h(x) = ln(x), h(x) = √ x og h(x) = 1/x.<br />

N˚ ar man leder efter en transformation, skal man være opmærk som p˚ a at alle hyppigt an-<br />

vendte transformationer er lokalt lineære, s˚ a hvis observationerne ligger i et snævert interval,<br />

vil vurderingen af fraktildiagrammet være den samme b˚ ade f or de transformerede og de ut-<br />

ransformerede data. En tommelfingerregel for logaritmetransformationen er, at data mindst skal<br />

strække sig over én dekade og gerne to, hvis der skal være nogen synlig effekt ved en transfor-<br />

mation. Det vil sige at der skal være mindst en faktor 10 og gerne en faktor 100 i forskel mellem<br />

den største og den mindste observation.


Figur 4.3 Fraktildiagram for de grupperede data i Tabel 1.4.<br />

Selvom en indledende undersøgelse ved hjælp af et fraktildiagram er faldet negativ ud i<br />

den forstand, at en statistisk model baseret p˚ a normalford elingen ikke er rimelig for de oprin-<br />

delige observationer x1,x2,..., xn, kan diagrammet give information om, hvorledes man skal<br />

transformere data for at opn˚ a en model baseret p˚ a normalfo rdelingen.<br />

4.9


4.10 Beregninger i Excel<br />

Anneks til Afsnit 4.1<br />

Beregninger i Excel<br />

Eksempel 1.2 (Fortsat)<br />

Vi viser her, hvordan fraktildiagrammet i Figur 4.1 kan laves i Excel. Nedenst˚ aende viser ind-<br />

holdet af cellerneA1:I23 i regnearket.<br />

¡¢£¤¥¦§¨¡<br />

¢ ©<br />

¤ ¥ ¦ £<br />

¨ ¡© §<br />

¡ <br />

¥¢¨ ¥¢¨ ¤©© ¡¤ ¨¥© ¥£ ¥£ ¥£ ©©© ¦¤ ££© ¥£¨ ¥£¨ ¥£¨ ¤©© ¡¤ ¤© ¥¥© ¥¥© ¥¥© ¡©©© ¦¤ ©¨¢¤ ¥¢¨<br />

¥§£ ¥§£ ¡¤©© ¡¡¤ ©¦¤¤ ¥§¨ ¥§¨ ¥§¨ ¢©©© ¡¦¤ ©¤¨§ ¥¨£ ¥¨£ ¥¨£ ¢¤©© ¢¡¤ ©£¤£ ¦¡© ¦¡© ¦¡© £©©© ¢¦¤ ©¢ ¨ ¥§£<br />

¦¡ ¦¡ £¤©© £¡¤ © §¨ ¦¡¨ ¦¡¨ ¦¡¨ ¤©©© £¦¤ ©©¥¢ ¦¢ ¦¢ ¦¢ ¤¤©© ¤¡¤ ©©¥¢ ¦¢£ ¦¢£ ¦¢£ ¥©©© ¤¦¤ © §¨ ¦¡<br />

¦£¢ ¦£¢ ¥¤©© ¥¡¤ ©¢ ¨ ¦£¢<br />

¦¤¡ ¦¤¡ ¦¤¡ ¥¦¤ ¦¤£ ¦¤£ ¦¡¤ ©¤¨§ ¦¥¡ ¦¥¡ ¦¥¡ §©©© ¦¦¤ ©¦¤¤ ¦¥¢ ¦¥¢ ¦¥¢ ¡ ¨©©© §¤© ©¢¥ ¦©©© ©£¤£<br />

¦¨£ ¨¤©© ¨¡¤ ££©<br />

Det er fremkommet ved følgende<br />

¦¤£<br />

trin:<br />

¦¤©©<br />

¦¨§ ©©©© ¨¦¤ ¨¥© ¦¨§ © ©©©© ¦¨§ ¦¨£ ¦¨£ ¦¥¢ ¡¢ ¡¡ ¡<br />

• Data indtastes i cellerne A4:A23 og sorteres efter størrelsesorden. Disse celler kopieres<br />

til cellerne C4:C22, der indeholder de ordnede værdier, idet observationen76.3, der op-<br />

træder to gange, er fjernet.<br />

• Indholdet af cellerne i kolonneE, F og G fremkommer dernæst via ruten Funktioner →<br />

Dataanalyse → Histogram, som giver en dialogboks hvor A4:A23 angives i Input-<br />

omr˚ade, C4:C22 i Intervalomr˚ade og E3:G24 i Outputomr˚ade. Endvidere markeres<br />

ruden foranKumulativ frekvens, hvorefter der klikkes p˚ a OK.


• Indholdet af cellenH4 beregnes som=100*G4/2. Indholdet af H5 beregnes som=100<br />

4.11<br />

*(G4+G5)/2, hvorefter der oprettes analoge formler i H6:H23. (Musen anbringes i det<br />

nedre højre hjørne af H5, s˚ aledes at curseren bliver til et ’+’. Derefter trækkes mu sen ned<br />

over cellerne H6:H23, idet venstre museknap holdes nede)<br />

• Indeholdet af cellenI4 beregnes via rutenIndsæt →Funktion →Statistik →NORMINV.<br />

I dialogboksen, der fremkommer, skrives H4/100 i ruden ved Sandsynlighed, og 0 og<br />

1 i ruderne ved henholdsvis Middelværdi og Standardafv. Derefter oprettes analoge<br />

formler i cellerneI5:I22.<br />

Vi er nu klar til at lave fraktildiagrammet. Det gøres s˚ aled es:<br />

• Marker cellerneE4:E22 ogI4:I22<br />

• Følg ruten Indsæt → Diagram → XY-plot. Vælg i dialogboksen, der fremkommer,<br />

undertypen øverst til venstre( Excel betegner denne som XY-punktdiagram. Sammen-<br />

ligner værdipar.) Tryk p˚ a Udfør.<br />

Resultatet ser s˚ aledes ud:<br />

¥¢£¤¤ ¡¢¤¤¤ ¡¢£¤¤<br />

¥¢¤¤¤<br />

¡¢¤¤¤ ¥¢£¤¤ ¥¢¤¤¤ ¤¢£¤¤ ¤¢¤¤¤ ¤¢£¤¤ ¤¢¤ ¡¤¢¤ ¦¤¢¤ §¤¢¤ ¨¤¢¤ ¥¤¤¢¤ ©¥<br />

¡¢£¤¤<br />

Alts˚ a ikke helt som i Figur 4.1. Dette kan opn˚ as ved lidt red igering. Blandt andet:<br />

• Ændre navn p˚ a den forklarende variabel: Anbring musen p˚ a rammen af figuren. Hold<br />

højre museknap nede og følg rutenKildedata→ Navn.<br />

• Ændre placeringen af forklaringen: Anbring musen p˚ a ramm en om forklaringen. Hold<br />

højre museknap nede og vælgFormater forklaring →Placering →Nederst.


4.12 Beregninger i Excel<br />

• Ændre udseendet af omr˚ adet: Anbring musen i omr˚ adet. Hol d højre museknap nede og<br />

vælgFormater afbildningsomr˚ade og dernæstIngen iRammer ogOmr˚ade.<br />

• Ændre førsteaksen: Peg p˚ a den med musen og hold højre musek nap nede. Følg ruten<br />

Formater akse →Skala. Angiv63 i ruden vedMinimum, 80 i ruden vedMaksimum og<br />

2 i ruden vedOverordnet enhed.<br />

• Ændre andenaksen: Peg p˚ a den med musen og hold højre musekn ap nede. Følg ruten<br />

Formater akse → Skala. Angiv -3 i ruden ved Minimum, 3 i ruden ved Maksimum og<br />

1 i ruden vedOverordnet enhed. Skriv desuden-3 i rudenKrydser ved.<br />

Resultater af disse anstrengelser giver følgende resultat:<br />

¤¢£ ¡¢£<br />

¥¢£<br />

¤¢£ ¥¢£ £¢£<br />

¡¢£<br />

¦§¢£ ¦¨¢£ ¦©¢£ ¨¥¢£ ¨¡¢£ ¨§¢£ ¨¨¢£ ¨©¢£ ¦¡¢£


4.2 Én observationsrække med kendt varians<br />

4.13<br />

I praksis er det forholdsvis sjældent, at variansen for en observationsrække kan antages at væ-<br />

re kendt, men fra et pædagogisk synspunkt er modellen for én observationsrække med kendt<br />

varians bekvem i forbindelse med introduktion af en række statistiske grundbegreber som esti-<br />

mation, test, signifikansniveau, testsandsynlighed og konfidensinterval. Disse omtales generelt<br />

i Kapitel 5, men behandles her i nøje tilknytning til et eksempel.<br />

Eksempel 4.1<br />

Som en øvelse i fysiologi bliver 15 studerende bedt om - uafhængigt af hinanden - at bestemme<br />

koncentrationen af laktat i den samme blodprøve med en kendt koncentration. De studerendes<br />

m˚ alinger er i mg/l<br />

86.5 81.0 79.4 90.9 73.8 80.2 79.9 80.3<br />

71.9 78.6 83.1 79.6 80.0 87.0 92.7<br />

og den kendte koncentration er 80.0 mg/l. Erfaringsmæssigt er der ved bestemmelser af en<br />

laktatkoncentration af denne størrelsesorden en spredning p˚ a 5.0 mg/l.<br />

For at undersøge om de studerendes m˚ alinger afviger signifi kant fra den kendte koncen-<br />

tration, undersøger vi først om de 15 m˚ alinger x1, ..., x15 kan betragtes som en normalfordelt<br />

observationsrække. Fraktildiagrammet i Figur 4.4 afslører ikke systematiske afvigelser fra en<br />

ret linje og vi betragter derfor modellen<br />

M0 : Xi ∼ N(μ,σ 2 0 ), i = 1,...,15, (4.2)<br />

hvor vi betragter spredningen σ0 som kendt og lig med den værdi, man har erfaring for, det vil<br />

sige σ0 = 5.<br />

Estimation<br />

Først ser vi p˚ a, hvad man kan sige om middelværdien μ ud fra observationerne. Vi skønner over<br />

μ, eller estimerer μ. Traditionelt benytter man gennensnittet af observationerne<br />

idet summen S af de 15 observationer er 1224.9.<br />

n<br />

¯x· = 1<br />

n ∑ xi =<br />

i=1<br />

1224.9<br />

= 81.66, (4.3)<br />

15<br />

Bemærk, at ¯x· er en realisation af den normalfordelte stokastiske variabel<br />

n<br />

¯X· = 1<br />

n ∑ Xi ∼ N(μ,<br />

i=1<br />

σ 2 0<br />

), (4.4)<br />

n


4.14 4.2 Én observationsrække med kendt varians<br />

Figur 4.4 Fraktildiagram for lakatkoncentrationerne i Eksempel 4.1.<br />

som har den rigtige middelværdi μ og en varians σ 2 0 /n, som aftager med antallet af observationer.<br />

Det er disse to egenskaber, der er begrundelsen for at bruge gennemsnittet som skøn over<br />

middelværdien μ.<br />

Det er vigtigt at bevare distinktionen mellem den teoretiske, men ukendte middelværdi μ og<br />

skønnet ¯x· for μ. Vi benytter notationen ¯x· → μ eller μ ← ¯x·, som læses ” ¯x· estimerer μ” eller<br />

”μ estimeres af ¯x·”. I det konkrete tilfælde har vi 81.66 → μ.<br />

Vi skriver ofte de to formler i (4.3) og (4.4) kort p˚ a følgend e m˚ ade<br />

¯x· = 81.66 ∼∼ N(μ, σ 2 0<br />

n ),<br />

som læses ” ¯x· = 81.66 er en realisation af en stokastisk variabel ¯X·, som er fordelt N(μ,σ 2 0 /n)”.<br />

Det første ∼ minder alts˚ a om, at estimatet er en realisation af en stokas tisk variabel, og det andet<br />

∼ har den sædvanlige betydning ”fordelt som”. Notationen ∼∼ er ikke standard i litteraturen.<br />

Test<br />

I modellen M0 kan spørgsm˚ alet om de studerendes m˚ alinger stemmer overe ns den kendte kon-<br />

centration formuleres som spørgsm˚ alet om middelværdien μ er lig med 80. I M0 opstiller vi og<br />

tester hypotesen<br />

H0 : μ = μ0 = 80.<br />

Som udgangspunkt kan man betragte forskellen mellem skønnet over middelværdien og<br />

middelværdien under nulhypotesen ¯x· − 80 = 1.66. Jo større denne forskel er - numerisk set


- desto mere kritisk er det for nulhypotesen. Men om 1.66 er stor afhænger af variansen p˚ a<br />

m˚ alingerne. Vi beregner derfor teststørrelsen<br />

4.15<br />

u(x) = u(x1,...,xn) = ¯x· − μ0<br />

<br />

σ 2 0 /n<br />

= 81.66 − 80<br />

= 1.286, (4.5)<br />

25/15<br />

som er differensen normeret med spredningen p˚ a gennemsnit tet. Teststørrelsen u(x) er en reali-<br />

sation af den stokastiske variabel<br />

u(X) = u(X1,...,Xn) = ¯X· − μ0<br />

<br />

σ 2 0 /n<br />

= ¯X· − 80<br />

, (4.6)<br />

25/15<br />

som er N(0,1)-fordelt under nulhypotesen. De værdier af teststørrelsen u(x), som ville have<br />

været mere kritiske for H0, er værdier mindre end −1.286 og større end 1.286. Man kan ikke<br />

umiddelbart sige om 1.286 er s˚ a stor en værdi, at man vil tvivle p˚ a nulhypotesen. M an udfører<br />

derfor endnu en transformation, idet man beregner testsandsynligheden ε(x), som er sandsyn-<br />

ligheden under nulhypotesen for en mere kritisk værdi af teststørrelsen end den observerede.<br />

Det vil sige<br />

ε(x) =Φ(−1.286)+(1 − Φ(1.286))<br />

=2(1 − Φ(1.286)) (4.7)<br />

=0.199.<br />

Testsandsynligheden er illustreret i Figur 4.5 og fortolkningen af denne testsandsynlighed<br />

er, at hvis nulhypotesen er sand, vil man cirka to ud af ti gange, man udfører forsøget, af˚ en<br />

teststørrelse, som er mere kritisk for nulhypotesen, end den værdi som forsøget gav. Det ar f˚ os<br />

ikke til at tvivle p˚ a nulhypotesen. Man forkaster nulhypotesen , hvis testsandsynligheden kom-<br />

mer under en værdi, som kaldes signifikansniveauet, og som betegnes med α. Sædvanligvis er<br />

α lig med 0.05 eller 0.01, og i dette kursus benyttes værdien 0.05 medmindre andet udtrykkeligt<br />

nævnes. Vi ser senere i dette afsnit p˚ a h˚ andteringen af tes tsandsynligheder under overskriften<br />

statistikkens slutningsregel.<br />

Konfidensinterval<br />

Da<br />

u(X) = ¯X· − μ0<br />

<br />

σ 2 0 /n


4.16 4.2 Én observationsrække med kendt varians<br />

Figur 4.5 Illustration af testsandsynligheden for u-testet i Eksempel 4.1. Testsandsynligheden<br />

er arealet af den skraverede omr˚ ade.<br />

er N(0,1)-fordelt, er<br />

1 − α = P<br />

⎡<br />

⎣u α/2 ≤ ¯X· − μ<br />

<br />

⎡<br />

= P⎣<br />

¯X· − u1−α/2 σ 2 0 /n<br />

<br />

⎤<br />

≤ u ⎦<br />

1−α/2<br />

(4.8)<br />

σ 2 0<br />

n ≤ μ ≤ ¯X· + u 1−α/2<br />

Her er u α/2 og u 1−α/2 henholdsvis α/2 og 1 − α/2 fraktiler for N(0,1)-fordelingen, og i om-<br />

skrivningen er det benyttet, at uα/2 = −u1−α/2. Det vil sige, at uligheden<br />

<br />

¯x· − u1−α/2 σ 2 0<br />

n ≤ μ ≤ ¯x·<br />

<br />

+ u1−α/2 σ 2 0<br />

n<br />

holder med sandsynlighed 1 − α. Intervallet<br />

⎡ <br />

⎣ ¯x· − u1−α/2 σ 2 0<br />

n , ¯x·<br />

<br />

+ u1−α/2 σ 2 0<br />

n<br />

⎤<br />

<br />

σ 2 0<br />

n<br />

⎤<br />

⎦.<br />

(4.9)<br />

⎦ (4.10)<br />

er et (1 − α) konfidensinterval for middelværdien μ. Bruges u.975 = 1.960 as f˚ et 0 .95 eller et<br />

95% konfidensinterval. 1−α kaldes konfidenskoefficienten. Fortolkningen af konfidensinterval-<br />

let og konfidenskoefficienten 1 − α er, at enten ligger μ i intervallet, eller der er indtruffet en


4.17<br />

hændelse med en sandsynlighed mindre end α. Hvis α er lille, har man stor tiltro til, at μ ligger<br />

i konfidensintervallet. Det er samme argumentation, der ligger bag forkastelse af nulhypotesen<br />

n˚ ar testsandsynligheden er lille, jævnfør afsnittet om st atistikkens slutningsregel nedenfor.<br />

Det understreges, at det er ¯x· , der er stokastisk, og ikke μ. Der er ikke tale om, at μ ligger<br />

mellem faste grænser med sandsynligheden 1 − α. Det er variationen i ¯x· fra forsøg til forsøg,<br />

der giver anledning til sandsynlighedsudsagnet. Betegnelsen konfidens er valgt for at understre-<br />

ge, at μ ikke pludselig er blevet en stokastisk variabel med tilhørende fordeling.<br />

Det (1 − α) konfidensinterval, vi har valgt her, er baseret p˚ a testsstø rrelsen u(x), og det<br />

har yderligere den fortolkning, at det best˚ ar af de værdier af μ, som ville blive accepteret som<br />

nulhypotese med signifikansniveau α.<br />

Af formel (4.10) finder vi, at 95% konfidensintervallet for middelværdien μ her er<br />

<br />

25<br />

81.66 − 1.96<br />

15 ,81.66+1.96<br />

<br />

25<br />

= [79.130,84.190].<br />

15<br />

Statistikkens slutningsregel<br />

Den regel, som ligger bag de konklusioner, man drager i statistikken, er i al sin enkelthed: En<br />

hændelse med en lille sandsynlighed indtræffer ikke. Signifikansniveauet α er grænsen for, hvor<br />

sm˚ a sandsynligheder skal være, for at hændelserne ikke ind træffer, eller mere præcist grænsen<br />

for at man vælger at se bort fra muligheden, at hændelsen indtræffer.<br />

Risikoen for, at en person kommer til skade ved en flyveulykke, er mindre end 10 −6 per<br />

flyvetime, og de fleste anser den risiko for negligeabel. Det er sandsynligheder af samme<br />

størrelsesorden, man anser for acceptable, n˚ ar man vurder er risikoen for uheld p˚ a atomkraft-<br />

værker eller andre store industrianlæg. Her arbejder man alts˚ a med signifikansniveauer, som er<br />

af størrelsesordenen højst 10 −6 .<br />

I statistik arbejder man med signifikansniveauer af størrelsesordenen 10 −2 . Som tidligere<br />

bemærket er α = 5 · 10−2 overalt i dette kursus. N˚ ar man rapporterer testsandsynli gheden sam-<br />

men med konklusionen, giver man andre mulighed for at drage deres egne konklusioner, hvis<br />

de skulle foretrække et andet signifikansniveau.<br />

Argumentationen, der ligger bag forkastelsen af en nulhypotese, fordi man har aet f˚ en lille<br />

testsandsynlighed, lyder:<br />

Enten er nulhypotesen forkert, eller der er indtruffet en hændelse med en lille sandsynlighed.<br />

Hændelser med en lille sandsynlighed indtræffer ikke, ergo er nulhypotesen forkert.<br />

Det er alts˚ a en helt klassisk logisk argumentation:


4.18 4.2 Én observationsrække med kendt varians<br />

Enten A eller B. B er falsk ergo A.<br />

Det nye og tankevækkende er propositionen: Hændelser med en lille sandsynlighed indtræf-<br />

fer ikke.


Anneks til Afsnit 4.2<br />

Beregninger i Excel<br />

Eksempel 4.1 (Fortsat)<br />

4.19<br />

Excel har ikke en dialogboks, der udfører beregningerne i én normalfordelt observationsrække<br />

med kendt varians. Det gøres dog let som nedenst˚ aende viser . Observationerne er indtastet i<br />

cellerneA4:A18, hvorefter deres sum S iA19 er beregnet. <br />

¡¢£¤¥¦§¨¡<br />

¢ ©<br />

¤ ¥ ¦ £<br />

¨§<br />

§¥¤ £<br />

© § ¥¥ ¡§¥ © ¨¨ ¦¨£ ¨©¨ ¦¢§ §<br />

¦¨ ¢© §£ ¨© ¦¨¨ §©¢ §©¡<br />

CellerneC3:E5 indeholder oplysninger vedrørende u-testet. Indholdet afC5:E5 er beregnet ¡¡£¨<br />

¨ ¦§¥ §¢ ¦¨¥ ¦<br />

§¦© ¨¡¦ §©©<br />

ved hjælp af de følgende tre formler:<br />

og<br />

=A19/15, ( ¯x· = S/n)<br />

<br />

= (C5 −80)/KVROD(25/15) (u(x) = ( ¯x· − 80)/<br />

σ 2 0 /n)<br />

=2 ∗(1 −NORMFORDELING(D5;0;1;SAND)) (ε(x) = 2 ∗(1 − Φ(|u(x)|))).<br />

Den nedre grænse i C9 for konfidensintervallet for middelværdien μ er beregnet som<br />

<br />

=C5 −1,96 ∗KVROD(25/15) (μnedre = ¯x· − 1.96 σ 2 0 /n)<br />

og den øvre grænse beregnes tilsvarende.


4.20 Hovedpunkter til Afsnit 4.2<br />

Hovedpunkter til Afsnit 4.2<br />

Modellen for én normalfordelt observationsrække x1,...,xn med kendt varians σ 2 0 er<br />

Modelkontrol<br />

Fraktilsammenligning<br />

Estimation<br />

M0 : Xi ∼ N(μ,σ 2 0 ), i = 1,...,n.<br />

Middelværdien μ estimeres ved gennemsnittet af observationerne<br />

Test af hypotesen H0 : μ = μ0.<br />

Hypotesen testes ved hjælp af u-teststørrelsen<br />

og testsandsynligheden er<br />

μ ← ¯x· = S<br />

n ∼∼ N(μ, σ 2 0<br />

n ).<br />

u(x) = u(x1,...,xn) = ¯x· − μ0<br />

<br />

σ 2 0 /n<br />

∼∼ N(0,1)<br />

ε(x) = 2(1 − Φ(|u(x)|)).<br />

(Ved test p˚ a niveau 5% forkastes H0, hvis ε(x) < 0.05.)<br />

Konfidensinterval<br />

95% konfidensintervallet for middelværdien μ er<br />

⎡ <br />

⎣ ¯x· − 1.96<br />

σ 2 0<br />

n , ¯x·<br />

<br />

+ 1.96<br />

σ 2 0<br />

n<br />

⎤<br />


4.3 Én observationsrække med ukendt varians<br />

Teorien for én normalfordelt observationsrække med ukendt varians bliver ogs˚ a gennemg˚ aet i<br />

4.21<br />

forbindelse med et eksempel. Vi betragter igen data i Eksempel 4.1 men benytter nu ikke den<br />

oplysning at spredningen p˚ a m˚ alinger af laktatkoncentra tionen erfaringsmæssigt er 5. Ja faktisk<br />

undersøger vi i løbet af fortsættelsen af eksemplet om spredningen p˚ a de studerendes m˚ alinger<br />

er 5. Dette er helt i overensstemmelse med, at man altid skal være skeptisk overfor oplysninger,<br />

der tilskrives erfaringen. Det kunne jo være at de ikke var korrekte i relation til ens data.<br />

Eksempel 4.1 (Fortsat)<br />

Som netop nævnt ser vi nu bort fra oplysningen om at spredningen p˚ a m˚ alingerne erfarings-<br />

mæssigt er 5. Vi betragter derfor modellen<br />

hvor begge parametre μ og σ 2 er ukendte.<br />

Estimation<br />

M0 : Xi ∼ N(μ,σ 2 ), i = 1,...,15,<br />

Som estimater for middelværdien μ og variansen σ 2 benytter vi den empiriske middelværdi<br />

og den empiriske varians<br />

¯x· = 1<br />

n<br />

s 2 = 1<br />

n − 1<br />

n<br />

∑ xi<br />

i=1<br />

n<br />

∑<br />

i=1<br />

(4.11)<br />

(xi − ¯x·) 2 . (4.12)<br />

Da S = 1224.9 og SK = 100472.63 finder vi ved hjælp af beregningsformlerne (1.9) og (1.10),<br />

at<br />

og<br />

μ ← ¯x· = 1224.9<br />

15<br />

= 81.66 ∼∼ N(μ, σ 2<br />

15 )<br />

σ 2 ← s 2 = 1<br />

1224.92<br />

(100472.63 − ) = 31.9497.<br />

14 15<br />

Vi skal senere se, hvordan man kommer frem til at benytte s 2 som estimat for σ 2 . Her<br />

nævner vi blot, at s 2 er en realisation af den stokastiske variabel<br />

s 2 (X) = 1<br />

n − 1<br />

n<br />

∑<br />

i=1<br />

(Xi − ¯X·) 2 , (4.13)<br />

som er σ 2 χ 2 (n − 1)/(n − 1) fordelt, jævnfør (3.29). Specielt er middelværdien<br />

Es 2 (X) = σ 2 ,


4.22 4.3 Én observationsrække med ukendt varians<br />

og variansen,<br />

Var s 2 (X) =<br />

2σ 4<br />

(n − 1) ,<br />

s˚ a s2 er et godt estimat for σ 2 . Det har den rigtige middelværdi, og variansen aftager med<br />

stikprøvens størrelse.<br />

Test af hypotesen H0μ : μ = μ0<br />

Hvis variansen er ukendt, kan man alligevel teste<br />

H0μ : μ = μ0 = 80.<br />

Udgangspunktet er som før differensen ¯x· − μ0 = 81.66 − 80 = 1.66 mellem skønnet over<br />

middelværdien, ¯x·, og middelværdien, μ0, under nulhypotesen. Denne differens ville vi gerne<br />

se i forhold til spredningen p˚ a gennemsnittet, σ 2 /n, men σ 2 er nu ukendt. Det forekommer<br />

oplagt, at n˚ ar σ 2 er ukendt, m˚ a man i stedet bruge et skøn over σ 2 . N˚ ar man bruger s2 i stedet<br />

for den ukendte varians σ 2 , as f˚ teststørrelsen<br />

t(x) = t(x1,...,xn) = ¯x· − μ0 81.66 − 80.0<br />

= = 1.137.<br />

s2 /n 31.9497/15<br />

Teststørrelsen t(x) er en realisation af den stokastiske variabel<br />

t(X) = t(X1,...,Xn) = ¯X· − μ0<br />

. (4.14)<br />

s2 (X)/n<br />

t(X) har en t-fordeling med n−1 frihedsgrader, i dette eksempel alts˚ a 14 frihedsgrader, jævnfør<br />

(3.32).<br />

t-fordelingen er tabellagt og findes desuden p˚ a visse lommer egnere, s˚ a man kan som før<br />

beregne testsandsynligheden ε(x). De værdier af teststørrelsen, som ville være mere kritiske<br />

end den observerede 1.137, er værdier mindre end −1.137 og større end 1.137.<br />

Testsandsynligheden, som er illustreret i Figur 4.6, bliver derfor<br />

ε(x) =F t(14)(−1.137)+(1 − F t(14)(1.137))<br />

=2(1 − F t(14)(1.137))<br />

=0.275.<br />

Her betegner F t( f) fordelingsfunktionen for t-fordelingen med f frihedsgrader. I beregningen af<br />

testsandsynligheden er det benyttet, at t-fordelingerne i lighed med standard normalfordelingen<br />

N(0,1) er symmetriske omkring 0, s˚ a Ft( f)(−t) = 1 − Ft( f)(t), for alle t.<br />

Da testsandsynligheden er større end 0.05, giver det ikke anledning til at forkaste nulhypo-<br />

tesen. Konklusionen er derfor den samme som i tilfældet med kendt varians.


4.23<br />

Figur 4.6 Illustration af testsandsynligheden for t-testet i Eksempel 4.1. Testsandsynligheden<br />

er arealet af den skraverede omr˚ ade.<br />

Konfidensinterval for μ<br />

Lad som sædvanlig μ være den ukendte værdi af middelværdien. Da<br />

t(X) = ¯X· − μ<br />

s 2 (X)/n<br />

er t-fordelt med f = n − 1 frihedsgrader, er<br />

<br />

1 − α =P tα/2( f) ≤ ¯X· − μ<br />

<br />

s2 (X)/n ≤ t <br />

1−α/2( f)<br />

<br />

s2 (X)<br />

=P ¯X· −t1−α/2( f)<br />

n ≤ μ ≤ <br />

s2 (X)<br />

¯X· +t1−α/2( f) .<br />

n<br />

(4.15)<br />

Her er t α/2( f) og t 1−α/2( f) henholdsvis α/2 og 1 − α/2 fraktiler for t-fordelingen med f<br />

frihedsgrader, og i omskrivningen er det benyttet, at t α/2( f) = −t 1−α/2( f). Det vil sige, at<br />

uligheden<br />

<br />

s2 ¯x· −t1−α/2( f)<br />

n ≤ μ ≤ ¯x·<br />

<br />

s2 +t1−α/2( f)<br />

n<br />

holder med sandsynlighed 1 − α. Intervallet<br />

<br />

s2 ¯x· −t1−α/2( f)<br />

n , ¯x·<br />

<br />

s2 +t1−α/2( f)<br />

n<br />

(4.16)<br />

(4.17)


4.24 4.3 Én observationsrække med ukendt varians<br />

er et (1 − α) konfidensinterval for middelværdien μ.<br />

I det konkrete tilfælde bliver 95% konfidensintervallet for middelværdien μ, idet 97.5%<br />

fraktilen t0.975(14) i t-fordelingen med 14 frihedsgrader er 2.145 -<br />

<br />

31.9497<br />

31.9497<br />

81.66 − 2.145 ,81.66+2.145 = [78.529,84.791],<br />

15<br />

15<br />

Test af hypotesen H0σ 2 : σ 2 = σ 2 0<br />

Vi fortsætter eksemplet med at undersøge om studenterne m˚ a ler med samme præcision som man<br />

sædvanligvis har p˚ a bestemmelser af laktatkoncentration er. Det er altid klogt at kontrollere sine<br />

antagelser, hvis det er muligt. Undertiden har antagelser karakter af ufunderet ønsketænkning.<br />

Vi opstiller derfor nulhypotesen<br />

H 0σ 2 : σ 2 = 5 2 = 25.<br />

Testet for H0 tager udgangspunkt i skønnet for variansen s 2 = 31.9497, og som teststørrelse<br />

benytter man forholdet mellem skønnet over variansen og σ 2 0<br />

s2 σ 2 0<br />

= 31.9497<br />

25<br />

= 1.280.<br />

Teststørrelsen er en realisation af den stokastiske variabel<br />

s2 (X)<br />

σ 2 . (4.18)<br />

0<br />

s2 (X) er σ 2χ 2 (n−1)/(n−1) fordelt, s˚ a under nulhypotesen er teststørrelsen χ2 (n−1)/(n−1)-<br />

fordelt. Disse fordelinger er tabellagt for alle i praksis forekommende frihedsgrader.<br />

Hvis teststørrelsen er tæt ved 1, svarer det til god overensstemmelse mellem skønnet s 2<br />

og σ 2 0 . Omvendt er meget sm˚ a værdier af teststørrelsen kritiske f or H0, for det svarer til at<br />

skønnet over variansen er meget mindre end σ 2 0 , og det tyder p˚ a, at variansen er mindre end σ 2 0 .<br />

Tilsvarende er meget store værdier af teststørrelsen kritiske for H0, for det betyder, at skønnet<br />

over variansen er meget større end σ 2 0 , og det tyder p˚ a, at variansen er større end σ 2 0 . Som ved<br />

de tidligere test lader man testsandsynligheden være grundlaget for beslutningen. I det konkrete<br />

tilfælde er værdier af teststørrelsen større end den observerede 1.280 mere kritisk for hypotesen.<br />

Sandsynligheden for, at en χ 2 (14)/14-fordelt stokastisk variabel er større end 1.280, er<br />

1 − F χ 2 (14)/14 (1.280) = 0.21045.<br />

χ 2 ( f)/ f -fordelingen har ikke den samme symmetri som normalfordelingen og t-fordelingen,<br />

s˚ a man kan ikke umiddelbart sige, hvor grænsen g˚ ar for de sm a˚ værdier af teststørrelsen, som<br />

er mindst lige s˚ a kritiske for H0 som 1.280. Man vælger at definere testsandsynligheden til<br />

ε(x) = 2(1 − F χ 2 (14)/14 (1.280)) = 0.42090.


4.25<br />

Det svarer s˚ a til, at man har fastsat, at værdierne mindre en d 0.21405 fraktilen for χ2 (14)/14-<br />

fordelingen er mindst lige s˚ a kritiske for H0, som den observerede 1.280. Iøvrigt er 0.21405<br />

fraktilen for χ 2 (14)/14-fordelingen lig med 0.687, se Figur 4.7.<br />

Figur 4.7 Illustration af testsandsynligheden for H 0σ 2 i Eksempel 4.1. Testsandsynligheden er<br />

arealet af den skraverede omr˚ ade.<br />

Testsandsynligheden er større end 0.05, s˚ a nulhypotesen a ccepteres. Det vil sige, at de stu-<br />

derende m˚ aler med samme præcision som den man har erfaring f or.<br />

Hvis teststørrelsen s2 (X)/σ 2 0 havde været mindre end 1, for eksempel lig med 0.687, skulle<br />

testsandsynligheden være beregnet som<br />

<br />

<br />

ε(x) = 2 Fχ 2 (14)/14 (0.687) = 0.42090.<br />

Begrundelsen er, at hvis s2 (X)/σ 2 0 havde været mindre end 1, ville det være mindre værdier af<br />

teststørrelsen, som umiddelbart ville være mere kritiske end den observerede værdi.<br />

Udføres testet p˚ a 5% niveau, accepteres H0σ 2 hvis s2 /σ 2 0<br />

ligger mellem 2.5% og 97.5%<br />

fraktilen i χ 2 (n − 1)/(n − 1) fordelingen, det vil sige, hvis χ 2 0.025 (n − 1)/(n − 1) < s2 /σ 2 0 <<br />

χ2 0.975 (n − 1)/(n − 1).<br />

Vi bemærker, at man som teststørrelse for H 0σ 2 : σ 2 = σ 2 0<br />

ofte bruger<br />

(n − 1)s2 , (4.19)<br />

σ 2 0


4.26 4.3 Én observationsrække med ukendt varians<br />

som under nulhypotesen har en χ2 (n−1)-fordeling. Det er store og sm˚ a værdier af teststørrelsen,<br />

der er kritiske for H0. Begrundelsen for at bruge (n−1)s 2 /σ 2 0 i stedet for s2 /σ 2 0<br />

er, at tabellerne<br />

over χ 2 -fordelingen er mere udførlige end tabellerne over χ 2 ( f)/ f -fordelingen, idet de inde-<br />

holder flere fraktiler. Det er samme test man udfører, idet testsandsynligheden er den samme,<br />

uanset hvilken af de to teststørrelser, man bruger.<br />

Konfidensinterval for σ 2<br />

Lad σ 2 være den ukendte værdi af variansen. Da s2 (X)/σ 2 er χ2 ( f)/ f -fordelt, er med f = n−1<br />

<br />

1 − α =P χ 2 α/2 ( f)/ f ≤ s2 (X)<br />

σ 2 ≤ χ2 <br />

1−α/2 ( f)/ f<br />

(4.20)<br />

<br />

s<br />

=P<br />

2 (X)<br />

χ2 1−α/2 ( f)/ f ≤ σ 2 ≤ f s2 (X)<br />

χ2 <br />

.<br />

( f)/ f α/2<br />

Det vil sige, at uligheden<br />

s 2<br />

χ 2 1−α/2 ( f)/ f ≤ σ 2 ≤<br />

holder med sandsynlighed 1 − α. Intervallet<br />

<br />

s2 χ2 ,<br />

1−α/2 ( f)/ f<br />

kaldes (1 − α) konfidensintervallet for σ 2 .<br />

s 2<br />

χ2 α/2 ( f)/ f<br />

s 2<br />

χ2 α/2 ( f)/ f<br />

<br />

(4.21)<br />

(4.22)<br />

Tager vi kvadratrod i (4.22) as f˚ (1 − α) konfidensintervallet for σ<br />

<br />

s2 χ2 <br />

s2 ,<br />

1−α/2 ( f)/ f χ2 <br />

. (4.23)<br />

α/2 ( f)/ f<br />

Idet χ 2 0.025 (14)/14 = 0.4021 og χ2 0.975<br />

(14)/14 = 1.8656 as f˚ af (4.22) at 95% konfidensinterval-<br />

let for variansen σ 2 i eksemplet her er<br />

<br />

31.9497 31.9497<br />

, = [17.126,79.457]<br />

1.8656 0.4021<br />

og fra (4.23) at 95% konfidensintervallet for spredningen σ er<br />

√ √ <br />

17.126, 79.457 = [4.138,8.914].<br />

Hermed slutter Eksempel 4.1. <br />

Eksempel 1.1 (Fortsat)<br />

Eksemplet drejer sig om højdefordelingen af 247 astmaplagede piger i alderen 10-12ar. ˚ Mo-<br />

dellen er<br />

Xi ∼ N(μ,σ 2 ), i = 1,...,247,


4.27<br />

hvor b˚ ade middelværdien μ og variansen σ 2 er ukendte. Der er ikke nogen rimelige hypoteser<br />

at teste, hverken om middelværdien eller variansen, s˚ a vi n øjes med at angive estimater og<br />

konfidensintervaller for parametrene. Da<br />

as, f˚ at<br />

n = 247, S = 34613 og SK = 4871559<br />

μ ← ¯x· = 140.13 og σ 2 ← s 2 = 85.8317.<br />

95% konfidensintervallerne for middelværdi μ, varians σ 2 og spredning σ er henholdsvis<br />

og<br />

Eksempel 1.2 (Fortsat)<br />

For de 20 kondital er modellen<br />

[138.97,141.29],<br />

[72.4741,103.2751]<br />

[8.51,10.16].<br />

Xi ∼ N(μ,σ 2 ), i = 1,...,20,<br />

hvor b˚ ade middelværdien μ og variansen σ 2 er ukendte. Der er ikke nogen rimelige hypoteser<br />

at teste, hverken om middelværdien eller variansen, s˚ a vi n øjes med at angive estimater og<br />

konfidensintervaller for parametrene. Da<br />

as, f˚ at<br />

n = 20, S = 1442.0 og SK = 104413.06<br />

μ ← ¯x· = 72.10 og σ 2 ← s 2 = 23.4137.<br />

95% konfidensintervallerne for middelværdi μ, varians σ 2 og spredning σ er henholdsvis<br />

og<br />

[69.835,74.365],<br />

[13.541,49.944]<br />

[3.680,7.067].


4.28 Beregninger i Excel<br />

Anneks til Afsnit 4.3<br />

Beregninger i Excel<br />

Vi viser her, hvorledes beregningerne for én observationsrække med ukendt middelværdi og<br />

varians kan laves ved hjælp af Excel.<br />

Eksempel 4.1 (Fortsat)<br />

I det følgende refererer vi til udskriften fra Excel p˚ a side 4.19.<br />

Følg ruten Funktioner → Dataanalyse → Beskrivende Statistik. Angiv i dialog-<br />

boksen, der fremkommer, celler A4:A18 i Inputomr˚ade. Marker Ny regnearksfane under<br />

Outputindstillinger og klik i ruderne foran Resumestatistik og Konfidensniveau.<br />

Resultatet af dette er angivet i cellerneA1:B16 nedenfor. <br />

<br />

¡¢£¤¥¦§¨<br />

§ ¥¥ ¦§¤¢© §£¦¨© £¤¨££¤ §©¡ §© ¤ ¤¥¤¡£©§ ¢¦ ©¡¦£ ¡¦§ ©£¡¢¤© ¢ ¨£¨¦ © ¥¥¢§§ ©£¡ ¨¤ ¡©§ ¦ ¨ ¦ ¡¤ ¦¨£¥¦ ¨¡¦ ©<br />

¡¡£¨ <br />

Vi genkender umiddelbart estimaterne ¯x·<br />

¤ £ ¢§ §¨ £ ¡<br />

og<br />

<br />

s<br />

£ ¥ ¢ ¤ ¨¤©¢ ¢©¡©¡<br />

2 for middelværdien μ og variansen σ 2 i cel-<br />

lerneB3 ogB8.<br />

CellerneD2:E3 giver 95% konfidensintervallet for middelværdien μ. Idet indholdet af cellen<br />

B16 er t0.975(14) s2 /n beregnesD3 som<br />

<br />

=B3 −B16 (μnedre = ¯x· −t0.975(14) s2 /n)<br />

ogD4 beregnes tilsvarende.<br />

Cellerne D5:E7 indeholder oplysningerne om t-testet for hypotesen H0μ : μ = 80. Da ind-<br />

holdet af cellenB4 er s2 /n beregnes cellerneD7 ogE7 som<br />

<br />

= (B3 −80)/B4 (t(x) = ( ¯x· − 80)/ s2 /n )


og<br />

=TFORDELING(D7;14;2) (ε(x) = 2(1 − P(t(14) ≥ |t(x)|)).<br />

4.29<br />

CellerneF5:G7 indeholder oplysningerne om testet for hypotesen H 0σ 2 : σ 2 = 25. Cellerne<br />

F7 ogG7 beregnes som<br />

og, idet s 2 /σ 2 0<br />

≥ 1,<br />

=B8/25 (s 2 /σ 2 0 )<br />

=2 ∗(CHIFORDELING(14 ∗F7;14)) (ε(x) = 2F χ 2 (14)/14 (s 2 /σ 2 0 )).<br />

95% konfidensintervallerne for variansen σ 2 og spredningen σ er beregnet i D11:E12 og<br />

D14:E15. Eksempelvis er D12<br />

ogD15<br />

=B8/CHIINV(0,025;14) ∗14 (σ 2 nedre = s2 /χ 2 0.975 (14)/14)<br />

=KVROD(D12) (σnedre =<br />

<br />

s 2 /χ 2 0.975 (14)/14).


4.30 Hovedpunkter til Afsnit 4.3<br />

Hovedpunkter til Afsnit 4.3<br />

Modellen for én normalfordelt observationsrække x1,...,xn med ukendt varians σ 2 er<br />

Modelkontrol<br />

Fraktilsammenligning<br />

Estimation<br />

M0 : Xi ∼ N(μ,σ 2 ), i = 1,...,n.<br />

Middelværdien μ estimeres ved gennemsnittet af observationerne<br />

og variansen σ 2 ved den empriske varians<br />

Test<br />

σ 2 ← s 2 = 1<br />

n − 1<br />

n<br />

∑<br />

i=1<br />

μ ← ¯x· = S σ 2<br />

∼∼ N(μ,<br />

n n )<br />

(xi − ¯x·) 2 = 1 S2<br />

(SK −<br />

n − 1 n ) ∼∼ σ 2 χ 2 (n − 1)/(n − 1).<br />

Hypotesen H0μ : μ = μ0 testes ved hjælp af t-teststørrelsen<br />

og testsandsynligheden er<br />

Hypotesen H 0σ 2 : σ 2 = σ 2 0<br />

og testsandsynligheden er<br />

t(x) = t(x1,...,xn) = ¯x· − μ0<br />

s 2 /n ∼∼ t(n − 1)<br />

ε(x) = 2(1 − F t(n−1)(|t(x)|)).<br />

testes ved hjælp af teststørrelsen<br />

⎧<br />

⎪⎨<br />

ε(x) =<br />

⎪⎩<br />

s2 σ 2 0<br />

∼∼ χ 2 (n − 1)/(n − 1)<br />

2(1 − Fχ 2 (n−1)/(n−1) ( s2<br />

σ 2)) hvis<br />

0<br />

s2<br />

σ 2 0<br />

2Fχ 2 (n−1)/(n−1) ( s2<br />

σ 2) hvis<br />

0<br />

s2<br />

σ 2 0<br />

≥ 1<br />

< 1.


Ved test p˚ a niveau 5% forkastes H0σ 2 : σ 2 = σ 2 0<br />

Konfidensinterval<br />

χ 2 s2<br />

0.025 (n − 1)/(n − 1) ≤<br />

σ 2 0<br />

ikke, hvis<br />

≤ χ 2 0.975 (n − 1)/(n − 1)<br />

(1 − α) konfidensintervallet for middelværdien μ er<br />

<br />

s2 ¯x· −t1−α/2( f)<br />

n , ¯x·<br />

<br />

s2 +t1−α/2( f) ,<br />

n<br />

(1 − α) konfidensintervallet for variansen σ 2 er<br />

<br />

s 2<br />

χ2 1−α/2 (n − 1)/(n − 1),<br />

og (1 − α) konfidensintervallet for spredningen σ er<br />

<br />

<br />

s 2<br />

χ2 1−α/2 (n − 1)/(n − 1),<br />

s 2<br />

χ2 α/2 (n − 1)/(n − 1)<br />

s 2<br />

<br />

χ2 α/2 (n − 1)/(n − 1)<br />

<br />

.<br />

4.31


4.32 4.4 To observationsrækker<br />

4.4 To observationsrækker<br />

Selvom afsnittet har overskriften ”to observationsrækker” begynder vi med at indføre notation<br />

for k observationsrækker allerede her. Det skyldes, at notationen og nogle de basale regninger i<br />

tilfældet k = 2 naturligvis blot er et specialtilfælde.<br />

Modellen for k normalfordelte observationsrækker er, at data<br />

x11,...,x1 j,...,x1n1<br />

xi1,...,xi j,...,xini<br />

xk1,...,xk j,...,xknk<br />

er realisationer af uafhængige, normalfordelte stokastiske variable, det vil sige<br />

M0 : Xi j ∼ N(μi,σ 2<br />

i ).<br />

Denne model vil kort blive omtalt som modellen for k normalfordelte observationsrækker. Som<br />

det fremg˚ ar, bruger vi i til at indicere observationsrækkerne og j til at indicere observationerne<br />

inden for rækkerne. Antallet af observationer i den i’te række betegnes ni, og der er ikke noget<br />

krav om, at der skal være det samme antal observationer i hver række. I hver observationsrække<br />

beregnes skøn over middelværdien og variansen. Skønnet over middelværdien i den i’te ræk-<br />

ke er gennemsnittet i den i’te række, og det betegnes ¯xi·. Skønnet over variansen i i’te række<br />

er den empiriske varians s2 beregnet i den i’te række, og det betegnes s2 (i) . Den tilsyneladende<br />

overflødige parentes om rækkeindekset p˚ a variansskønnene s2 (i) er indført for at skelne dem fra<br />

størrelserne s2 1 og s2 2 , som indføres senere i dette kapitel i forbindelse med en følge af gradvist<br />

mere restriktive hypoteser om middelværdierne. For frihedsgraderne bruges den tilsvarende no-<br />

tation. S˚ aledes betegner f (i) = ni − 1 frihedsgraderne for s2 (i) , og s2 (i) = SAK (i)/ f (i), hvor SAK (i)<br />

er SAK fra den i’te række.<br />

Vi har i dette afsnit benyttet notationen ¯xi· for gennemsnittet i den i’te observationsrække.<br />

Vi benytter her den meget almindelige konvention, at n˚ ar ma n har indicerede variable, kan man<br />

angive summen af variablen over alle værdier af et indeks ved at erstatte indekset med · . For<br />

eksempel betegner xi· summen i den i’te observationsrække, x·· betegner summen af alle obser-<br />

vationer og n· betegner det totale antal observationer. Med ¯ over variabelnavnet angiver man,<br />

at der er taget gennemsnit over alle de observationer, der er summeret over. S˚ aledes betegner<br />

netop ¯xi· gennemsnittet af de ni observationer i den i’te observationsrække, og ¯x·· betegner gen-<br />

nemsnittet over alle n· observationer. Beregningen af gennemsnittene og de empiriske varianser<br />

foretages bekvemt ved hjælp af beregningsskemaet p˚ a side 4 .33.


Beregningsskema til k observationsrækker<br />

1 2 3 4 5 6 7 8 9<br />

Række antal Sum af Friheds- Varians- Gennem-<br />

nr. obs Sum kvadrater grader estimat snit<br />

i ni Si SKi<br />

1 n1 S1 SK1<br />

.<br />

.<br />

i ni Si SKi<br />

.<br />

Her er<br />

.<br />

k nk Sk SKk<br />

Ialt n· S· SK·<br />

.<br />

.<br />

.<br />

.<br />

S 2 i<br />

ni<br />

S 2 1<br />

n1<br />

.<br />

S 2 i<br />

ni<br />

.<br />

S 2 k<br />

k<br />

∑<br />

nk<br />

S 2 i<br />

i=1 ni<br />

SAK (i) = SKi − S2 i<br />

,<br />

ni<br />

f (i) = ni − 1,<br />

s 2 (i) = SAK (i)<br />

,<br />

f (i)<br />

SAK (i) f (i) s 2 (i) ¯xi·<br />

SAK (1) f (1) s 2 (1) ¯x1·<br />

.<br />

.<br />

SAK (i) f (i) s 2 (i) ¯xi·<br />

.<br />

.<br />

SAK (k) f (k) s 2 (k) ¯xk·<br />

SAK01 f01 s 2 01 ¯x··<br />

.<br />

.<br />

.<br />

.<br />

4.33<br />

¯xi· = Si<br />

,<br />

ni<br />

mens tallene i kolonnerne 2-7 i den sidste række er summen af tallene i den tilsvarende kolonne.<br />

Endelig er<br />

og<br />

s 2 01<br />

= SAK01<br />

f01<br />

¯x·· = S·<br />

.<br />


4.34 4.4 To observationsrækker<br />

Vi vender nu tilbage til modellen for to observationsrækker, det vil sige<br />

M0 : Xi j ∼ N(μi,σ 2<br />

i ), j = 1,...,ni, i = 1,2.<br />

Behandlingen af to normalfordelte observationsrækker best˚ ar i at undersøge om varianserne<br />

kan antages at være ens, det vil sige teste hypotesen H01 : σ 2 1 = σ 2 2 , svarende til reduktionen<br />

M0 → M1, hvor<br />

M1 : Xi j ∼ N(μi,σ 2 ),<br />

og derefter at undersøge om middelværdierne kan antages at være ens, det vil sige teste hypo-<br />

tesen H02 : μ1 = μ2 svarende til reduktionen M1 → M2, hvor<br />

M2 : Xi j ∼ N(μ,σ 2 ).<br />

Behandlingen afsluttes med beregning af relevante konfidensintervaller.<br />

Undertiden testes hypotesen om ens middelværdier selvom hypotesen om ens varianser ikke<br />

kan accepteres. For at skelne mellem de to situatoner betegner vi da hypotesen om ens middel-<br />

værdier med H∗ 02 , det vil sige H∗ 02 : μ1 = μ2, idet den svarer til reduktionen M0 → M∗ 2 , hvor<br />

M ∗ 2 : Xi j ∼ N(μ,σ 2<br />

i ).<br />

Der er forskel, b˚ ade p˚ a hvordan man kan teste hypotesen om e ns middelværdier og p˚ a hvordan<br />

man beregner konfidensintervaller, n˚ ar der er varianshomo genitet, det vil sige at man har accep-<br />

teret H01 : σ 2 1 = σ 2 2<br />

sig i underafsnit.<br />

, og n˚ ar der ikke er varianshomogenitet. De to tilfælde beha ndles hver for<br />

Gennemgangen af to observationsrækker med ens varians baseres p˚ a Eksempel 4.2.<br />

Eksempel 4.2<br />

Vi betragter konditallene for de ikke-aktive og de aktive idrætsudøvere i henholdsvis Opgave<br />

1.4 og Eksempel 1.2, som er gengivet nedenfor.<br />

kondital<br />

ikke-aktive 56.0 61.8 64.1 64.9 65.2 66.3 66.9 68.9 70.6 70.8<br />

72.4 73.1 73.9 74.1 74.1 75.3 78.7<br />

aktive 68.9 75.2 74.3 72.9 72.0 63.9 76.3 76.3 75.4 66.0<br />

68.4 64.1 73.1 64.9 73.4 76.2 79.4 69.4 79.8 72.1<br />

Figur 4.8 viser fraktildiagrammet for de to observationsrækker. Det ses, at punkterne i dia-<br />

grammet forekommer at variere - uden systematiske afvigelser - omkring to linjer med samme<br />

hældning. Vi betragter derfor modellen M0 og har i denne et h˚ ab om, at hypotesen H01 om vari-<br />

anshomogenitet kan accepteres, idet hældningen af linjerne i fraktildiagrammet jo svarer til den<br />

reciprokke varians.


Figur 4.8 Fraktildiagrammet for data i Eksempel 4.1. Ikke-aktive svarer til gruppe 0.<br />

Esimaterne for de fire parametre i modellen<br />

M0 : Xi j ∼ N(μi,σ 2<br />

i ), j = 1,...,ni, i = 1,2.<br />

fremg˚ ar at de to sidste kolonner i beregningsskemaet:<br />

4.35<br />

£¢ £¢ ¥¦§¡¢ £¨¤¢© ¢© ¢© ¥¦ ¢ ¦ ¦ ¦ ¦ ¦ ¦ ¦ ¦ ¡¢<br />

<br />

£¤¢<br />

¦ ¦ <br />

4.4.1 Test for varianshomogenitet<br />

Eksempel 4.2 (Fortsat)<br />

Vi tester nu hypotesen om ens varians i de to observationsrækker, det vil sige<br />

H01 : σ 2 1 = σ 2 2 .


4.36 4.4 To observationsrækker<br />

Udgangspunktet er variansskønnene i de to observationsrækker.<br />

s 2 (1) = 33.17507 → σ 2 1<br />

s 2 (2) = 23.41368 → σ 2 2 ,<br />

og som teststørrelse bruges forholdet mellem variansskønnene<br />

F(x) = s2 (1)<br />

s2 =<br />

(2)<br />

33.17507<br />

= 1.417.<br />

23.41368<br />

Store og sm˚ a værdier af teststørrelsen er kritiske for H01, for de afspejler store forskelle i va-<br />

riansskønnene og dermed sandsynligvis store forskelle i varianserne. Derimod er værdier om-<br />

kring 1 ikke kritiske. I dette eksempel er<br />

P[F(X) > 1.417] = 1 − F F( f(1), f (2))(1.417) = 0.232,<br />

hvor F( f (1), f (2)) er F-fordelingen med f (1) = n1 − 1 frihedsgrader i tælleren og f (2) = n2 − 1<br />

frihedsgrader i nævneren.<br />

Da sm˚ a værdier ogs˚ a er kritiske for H01 vælger man at sætte testsandsynligheden til<br />

ε(x) = 2P[F(X) > 1.417] = 0.464.<br />

Det strider ikke mod H01, som s˚ aledes accepteres. Modellen M0 kan alts˚ a reduceres til<br />

M1 : Xi j ∼ N(μi,σ 2 ).<br />

Testsandsynligheden, der er illustreret i Figur 4.9, er her regnet ud i F-fordelingen. F-<br />

fordelingen med f (1) frihedsgrader i tælleren og f (2) frihedsgrader i nævneren er netop fordelin-<br />

gen til forholdet mellem en χ 2 ( f (1))/ f (1)-fordelt stokastisk variabel og en χ 2 ( f (2))/ f (2)-fordelt<br />

stokastisk variabel, som er uafhængige, jævnfør Afsnit 3.1.5.<br />

Nu er s 2 (1) og s2 (2) realisationer af henholdsvis en σ 2 1 χ2 ( f (1))/ f (1)- og en σ 2 2 χ2 ( f (2))/ f (2)-<br />

fordelt stokastisk variabel, og netop under H01 : σ 2 1 = σ 2 2 er σ 2 1 /σ 2 2<br />

s2 (1) /s2 (2) bliver en realisation af en F( f (1), f (2))-fordelt stokastisk variabel.<br />

= 1, s˚ a forholdet F(x) =<br />

Det kan være instruktivt at se, hvor store forskelle i de to variansskøn man kunne komme<br />

ud for uden at forkaste hypotesen om ens varianser. 97.5% fraktilen i F(16,19)-fordelingen er<br />

2.59, s˚ a man kunne have observeret en forskel i de to varians skøn p˚ a omkring en faktor 2.5 og<br />

alligevel have accepteret H01 : σ 2 1 = σ 2 2 .


4.37<br />

Figur 4.9 Illustration af testsandsynligheden for F-testet i Eksempel 4.2. Testsandsynligheden<br />

er arealet af den skraverede omr˚ ade.<br />

F-testet og Statistical Tables<br />

Tabellerne over F-fordelingen i Statistical Tables indeholder kun fraktiler over 0.5, s˚ a testsand-<br />

synligheden for F-testet kan ikke sl˚ as op i tabellen, hvis den observerede væ rdi af F(x) = s2 (1) /<br />

s 2 (2)<br />

er lille. Dette afhjælpes p˚ a følgende m˚ ade:<br />

Sæt s 2 tæller = max{s2 (1) ,s2 (2) }, lad ftæller være frihedsgraderne for s 2 tæller ,<br />

s 2 nævner = min{s2 (1) ,s2 (2) } og lad fnævner være frihedsgraderne for s 2 nævner .<br />

F-teststørrelsen er<br />

Testsandsynligheden beregnes som<br />

F(x) = s2 tæller<br />

s2 .<br />

nævner<br />

ε(x) = 2 1 − F F( ftæller, fnævner)(F(x)) ,<br />

hvor F( ftæller, fnævner) betegner F-fordelingen med ftæller frihedsgrader i tælleren og fnævner<br />

frihedsgrader i nævneren.<br />

Ved test p˚ a 5% niveau accepteres H01 : σ 2 1 = σ 2 2 hvis F(x) < F0.975( ftæller, fnævner), 97.5%<br />

fraktilen i F-fordelingen med ( ftæller, fnævner) frihedsgrader.


4.38 4.4 To observationsrækker<br />

4.4.2 Ens varians<br />

Igen diskuteres den generelle teori med udgangspunkt i Eksempel 4.2.<br />

Eksempel 4.2 (Fortsat)<br />

Efter accept af hypotesen H01 : σ 2 1 = σ 2 2<br />

Estimation<br />

er modellen<br />

M1 : Xi j ∼ N(μi,σ 2 ).<br />

Ved estimation af modellens tre parametre μ1, μ2 og σ 2 benyttes en generel estimations meto-<br />

de, maksimum likehood estimation, som omtales i Kapitel 5. Traditionelt antyder man brug af<br />

denne metode ved benytte symbolet ˆ(udtales ”hat”) over parametrene. S˚ aledes betegner ˆμ1, ˆμ2<br />

og ˆσ 2 maksimum likehood estimaterne for μ1, μ2 og σ 2 .<br />

Vi skal ikke i detaljer komme ind p˚ a, hvordan man finder estim aterne for parametrene,<br />

men kun nævne, at maksimum likelihood estimaterne for μ1 og μ2 er gennemsnittene i de to<br />

observationsrækker, alts˚ a ˆμ1 = ¯x1· og ˆμ2 = ¯x2·, mens maksimum likelihood estimatet for σ 2 er<br />

ˆσ 2 = SAK01<br />

n·<br />

= SAK (1) + SAK (2)<br />

.<br />

n1 + n2<br />

Da SAK (1) ∼ σ 2 χ 2 ( f (1)) og SAK (2) ∼ σ 2 χ 2 ( f (2)) og SAK (1) og SAK (2) er uafhængige, er SAK01 ∼<br />

σ 2χ 2 ( f (1) + f (2)), jævnfør (3.25) i Afsnit 3.1.3. For at af˚ et skøn med middelv ærdi σ 2 bruges<br />

skønnet<br />

s 2 01<br />

= SAK01<br />

f (1) + f (2)<br />

= SAK01<br />

, (4.24)<br />

f01<br />

idet vi benytter betegnelsen f01 = f (1) + f (2) for frihedsgraderne for s2 01 . Estimaterne for parametrene<br />

i M1 og deres fordeling kan resumeres p˚ a følgende m˚ ade:<br />

og<br />

σ 2 ← s 2 01 = f (1)s 2 (1) + f (2)s 2 (2)<br />

f (1) + f (2)<br />

μ1 ← ¯x1· ∼∼ N(μ1,<br />

μ2 ← ¯x2· ∼∼ N(μ2,<br />

= SAK (1) + SAK (2)<br />

f (1) + f (2)<br />

σ 2<br />

n1<br />

σ 2<br />

Vi gør igen opmærksom p˚ a at her skal for eksempel notationen<br />

¯x1· ∼∼ N(μ1,<br />

σ 2<br />

n1<br />

n2<br />

),<br />

),<br />

∼∼ σ 2 χ 2 ( f (1) + f (2))/( f (1) + f (2)).<br />

)


4.39<br />

læses ” ¯x1· er en realisation af en stokastisk variabel ¯X1·, som er fordelt N(μ1,σ 2 /n1)”. Det første<br />

∼ minder alts˚ a om, at skønnet er en realisation af en stokasti sk variabel, og det andet ∼ har sin<br />

sædvanlige betydning ”fordelt som”.<br />

Vi har hermed beskrevet de marginale fordelinger for skønnene, og da de marginale forde-<br />

linger er uafhængige, er skønnenes simultane fordeling beskrevet. Det falder uden for rammerne<br />

af kurset at bevise uafhængigheden af estimaternes fordeling.<br />

Bemærk, at formlen s 2 01 = ( f (1)s 2 (1) + f (2)s 2 (2) )/( f (1) + f (2)) viser, at s 2 01<br />

nemsnit med vægte f (1) og f (2). Derfor ar f˚ det af de to variansskøn s2 (1) og s2 (2)<br />

frihedsgrader den største indflydelse p˚ a s2 01 .<br />

er et vægtet gen-<br />

med flest<br />

Tilbage til de konkrete tal i eksemplet. Estimaterne, der fremg˚ ar af beregningsskemaet p˚ a<br />

side 4.35 resumeres i nedenst˚ aende tabel.<br />

ikke-aktive 69.241<br />

aktive 72.100<br />

Test af hypotesen om ens middelværdier<br />

middelværdi μ varians σ 2<br />

27.87603<br />

Vi tester nu hypotesen om ens middelværdi i de to observationsrækker:<br />

H02 : μ1 = μ2.<br />

Testet er baseret p˚ a en sammenligning af estimaterne for mi ddelværdierne. Da<br />

¯x1· ∼∼ N(μ1,<br />

σ 2<br />

n1<br />

og fordelingerne er uafhængige, er<br />

<br />

¯x1· − ¯x2· ∼∼ N<br />

og under nulhypotesen, er<br />

Derfor er<br />

) og ¯x2· ∼∼ N(μ2,<br />

μ1 − μ2,σ 2<br />

1<br />

n1<br />

σ 2<br />

n2<br />

),<br />

+ 1<br />

<br />

,<br />

n2<br />

<br />

¯x1· − ¯x2· ∼∼ N 0,σ 2<br />

<br />

1<br />

+<br />

n1<br />

1<br />

<br />

.<br />

n2<br />

<br />

σ 2<br />

¯x1· − ¯x2·<br />

1<br />

n1<br />

+ 1<br />

<br />

n2<br />

Da σ 2 er ukendt, indsættes i stedet skønnet s 2 01<br />

t(x) = <br />

s 2 01<br />

¯x1· − ¯x2·<br />

1<br />

n1<br />

∼∼ N(0,1). (4.25)<br />

, og man ar f˚ teststørrelsen t(x), hvor<br />

+ 1<br />

<br />

n2<br />

∼∼ t( f01). (4.26)


4.40 4.4 To observationsrækker<br />

Det fremg˚ ar af Afsnit 3.1.4, at t(x) er t-fordelt med f01 frihedsgrader, da s2 01 ∼∼ σ 2χ 2 ( f01)/ f01<br />

og uafhængig af fordelingen til (4.25). Den observerede værdi af teststørrelsen t(x) er<br />

69.241 − 72.100<br />

t(x) = <br />

1 1<br />

27.87603 +<br />

17 20<br />

−2.859<br />

= = −1.6414.<br />

1.74171<br />

De værdier af t(x), som er mere kritiske for nulhypotesen end den observerede værdi 1.6414,<br />

er t < −1.6414 og t > 1.6414. Testsandsynligheden bliver<br />

ε(x) = 2 1 − F t(35)(1.6414) = 0.110,<br />

hvor F t(35) betegner fordelingsfunktionen for t-fordelingen med 35 frihedsgrader. Da ε(x) ><br />

0.05, strider det ikke mod H02, som accepteres. Faglig set betyder dette, at vi ikke kan p˚ a vise<br />

forskel p˚ a konditallene for de ikke-aktive og de aktive, hv ilket er lidt overraskende. Det fremg˚ ar<br />

ikke klart af Andersen (1998), hvordan de to grupper er defineret. Konklusionen er alts˚ a, at<br />

selvom estimatet ¯x2· = 72.100 for middelværdien af de aktives kondital er større end estimatet<br />

¯x1· = 69.241 for de ikke-aktive, er forskellen ikke statistisk signifikant.<br />

Modellen er herefter<br />

M2 : Xi j ∼ N(μ,σ 2 ), i = 1,2, j = 1,...,ni.<br />

Det er den velkendte model for én observationsrække, som ganske vist her har en lidt mere<br />

indviklet indicering af de enkelte observationer, end det var nødvendigt i Afsnit 4.3. Ved hjælp<br />

af formlerne (4.11) og (4.12) finder vi, at estimaterne for parametrene er<br />

hvor n· = n1 + n2.<br />

μ ← ¯x·· = 70.786 ∼∼ N(μ,<br />

σ 2<br />

σ 2 ← s 2 02 = 29.18787 ∼∼ σ 2 χ 2 (n· − 1)/(n· − 1),<br />

Bemærk, at n˚ ar man har udført standardberegningerne for hv er af de to observationsrækker,<br />

det vil sige, at man har beregnet S1, S2, SK1 og SK2, ar f˚ man S· og SK· for samtlige observationer<br />

som S· = S1 + S2 og SK· = SK1 + SK2. Standardberegningerne for de to observationsrækker er<br />

givet i tabellen øverst side 4.35, s˚ a man finder<br />

n· = 37, S· = 2619.1, SK· = 186447.65,<br />

som er brugt til at beregne estimaterne for μ og σ 2 ovenfor.<br />

n·<br />

),


Konfidensintervaller<br />

4.41<br />

95% konfidensintervaller for μ og σ 2 - beregnet ved hjælp af formlerne (4.17) og (4.20) - er<br />

vist i tabellen nedenfor.<br />

95% konfidensintervaller<br />

middelværdi μ varians σ 2<br />

ikke-aktive og aktive [68.985, 72.587] [19.30387, 49.24560]<br />

I eksemplet her var konklusionen at t-testet ikke stred mod H02 : μ1 = μ2, og analysen<br />

sluttede med et 95% konfidensinterval for den fælles middelværdi μ og for den fælles varians<br />

σ 2 .<br />

Hvis H02 var blevet forkastet ville slutmodellen være M1, to observationsrækker med for-<br />

skellig middelværdi og fælles varians. I det tilfælde kunnne man være interesseret i konfidens-<br />

intervallerne for middelværdierne μ1 og μ2, og de vil være<br />

<br />

{μ1 | ¯x1· −t 1−α/2( f01)<br />

{μ2 | ¯x2· −t 1−α/2( f01)<br />

<br />

s 2 01<br />

n1<br />

s 2 01<br />

n2<br />

≤ μ1 ≤ ¯x1· +t 1−α/2( f01)<br />

≤ μ2 ≤ ¯x2· +t 1−α/2( f01)<br />

hvor man lægger mærke til, at man i overensstemmelse med at slutmodellen er M1 benytter<br />

det fælles variansskøn s 2 01 med tilhørende frihedsgrader f01. Men det vil ofte være meget mere<br />

interessant at beregne konfidensintervallet for forskellen i middelværdi i de to observationsræk-<br />

ker, det vil sige for μ1 − μ2. Meget ofte planlægges et forsøg med to observationsrækker for at<br />

p˚ avise en forskel p˚ a middelværdierne, og bredden af konfid ensintervallet for μ1 − μ2 viser hvor<br />

præcist denne forskel er bestemt. Konfidensintervallet er baseret p˚ a t-testet i (4.26), og (1 − α)<br />

konfidensintervallet er<br />

<br />

¯x1· − ¯x2· −t 1−α/2( f01)<br />

<br />

<br />

<br />

s 2 01<br />

n1<br />

s 2 01<br />

s2 1<br />

01 ( +<br />

n1<br />

1<br />

) ≤ μ1 − μ2 ≤ ¯x1· − ¯x2· + t1−α/2( f01)<br />

n2<br />

n2<br />

},<br />

},<br />

<br />

s2 1<br />

01 ( +<br />

n1<br />

1<br />

<br />

) .<br />

n2<br />

(4.27)<br />

Selv n˚ ar testet for H02 ikke forkaster hypotesen, og man derfor m˚ a konkludere, at d ata ikke stri-<br />

der mod H02, at de to observationsrækker har samme middelværdi, er det interessant at beregne<br />

konfidensintervallet for μ1 − μ2, som ogs˚ a i det tilfælde er givet ved formlen ovenfor. Man sk al<br />

nemlig være opmærksom p˚ a, at n˚ ar et statistisk test ikke er signifikant, har man ikke bevist at<br />

der ingen forskel er. Man har kun vist, at data ikke strider mod en antagelse om ingen forskel,<br />

og det kunne jo skyldes at man havde lavet et d˚ arligt forsøg m ed enten for stor varians, for sm˚ a<br />

stikprøver eller begge dele. Bredden af konfidensintervallet for μ1 − μ2 kan bruges til at vurde-<br />

re kvaliteten af forsøget. Et forsøg med et smalt konfidensinterval vil virke mere overbevisende


4.42 4.4 To observationsrækker<br />

end et forsøg med et bredt konfidensinterval, og her skal bredden af konfidensintervallet altid<br />

vurderes ud fra den faglige problemstilling.<br />

95% konfidensintervallet for μ1 − μ2 er i det konkrete tilfælde<br />

<br />

¯x1· − ¯x2· ±t0.975(35) s2 1 1<br />

01 ( + ) = −2.859 ± 2.030 · 1.74171 = [−6.395,0.677] .<br />

17 20<br />

Konfidensinterval for σ 2 i modellen M1 beregnes som beskrevet for én observationsrække. Det<br />

er baseret p˚ a at s2 01 ∼∼ σ 2χ 2 ( f01)/ f01 og (1 − α) konfidensintervallet er<br />

<br />

σ 2 |<br />

s 2 01<br />

s 2 01<br />

χ2 1−α/2 ( f01)/<br />

≤ σ<br />

f01<br />

2 ≤<br />

χ2 α/2 ( f01)/ f01<br />

og det kan transformeres til et (1 − α) konfidensinterval for σ<br />

⎧ <br />

⎨ <br />

<br />

σ | <br />

s<br />

⎩ 2 01<br />

χ2 1−α/2 ( f01)/<br />

<br />

<br />

<br />

≤ σ ≤ <br />

s<br />

f01<br />

2 01<br />

χ2 α/2 ( f01)/<br />

⎫<br />

⎬<br />

f01⎭<br />

.<br />

4.4.3 Forskellig varians<br />

Den generelle teori diskuteres i forbindelse med datasættet i Eksempel 4.3.<br />

Eksempel 4.3<br />

Tabellen nedenfor indeholder tiderne for de to semifinaler i kvindernes 100 m løb ved de olym-<br />

piske lege i Sydney 2000.<br />

semifinale 1 11.22 11.31 11.32 11.34 11.37 11.40 11.42 11.45<br />

semifinale 2 11.01 11.10 11.12 11.16 11.23 11.31 11.33 11.56<br />

Fraktildiagrammet i Figur 4.10 antyder, at var de to observationsrækker kan antages at være<br />

normalfordelte men med hver sin varians, idet punkterne varierer omkring to rette linjer med<br />

forskellig hældning.<br />

Da S1 = 90.83, S2 = 89.82, SK1 = 1031.2983 og SK2 = 1008.6616 bliver estimaterne i<br />

modellen<br />

M0 : Xi j ∼ N(μi,σ 2<br />

i ), j = 1,...,8, i = 1,2<br />

semifinale middelværdi μ varians σ 2<br />

1 11.35375 0.005313<br />

2 11.22750 0.029650<br />

<br />

,


Figur 4.10 Fraktildiagrammet for data i Eksempel 4.3.<br />

Som altid betragter vi først hypotesen om varianshomogenitet H01 : σ 2 1 = σ 2 2 .<br />

F-testet bliver<br />

F(x) = s2 (2)<br />

s2 =<br />

(1)<br />

0.029650<br />

= 5.5812.<br />

0.005313<br />

4.43<br />

Teststørrelsen skal vurderes i en F-fordeling med 7 frihedsgrader i tælleren og 7 frihedsgrader<br />

i nævneren. Her er<br />

s˚ a testsandsynligheden bliver<br />

P[F(X) > 5.5812] = 1 − F F(7,7)(5.5812) = 1 − 0.9814 = 0.0186,<br />

ε(x) = 2P[F(X) > 5.5812] = 0.0372.<br />

Testsandsynligheden er under 0.05, s˚ a H01 forkastes. De to observationsrækker har ikke den<br />

samme varians. Variansskønnet er størst for tiderne i den anden semifinale. Modellen er stadig<br />

M0 ovenfor.<br />

Test af hypotesen om ens middelværdier<br />

Vi tester nu hypotesen om ens middelværdier i de to observationsrækker:<br />

H ∗ 02 : μ1 = μ2


4.44 4.4 To observationsrækker<br />

selvom de to rækker har forskellig varians.<br />

H0μ er<br />

Udgangspunktet er som før at vurdere forskellen i skønnene over middelværdierne. Under<br />

¯x1· − ¯x2·<br />

<br />

σ 2 1 /n1 + σ 2 2 /n2<br />

∼∼ N(0,1) (4.28)<br />

og da varianserne er ukendte, kan man forsøge sig med at erstatte dem med skønnene i formlen<br />

(4.28). Det giver teststørrelsen<br />

t(x) =<br />

¯x1· − ¯x2·<br />

<br />

s2 (1) /n1 + s2 (2) /n2<br />

.<br />

Denne er ikke eksakt t-fordelt, men man kan vise, at dens fordeling kan approksimeres med en<br />

t-fordeling med et antal frihedsgrader, ¯f , der beregnes ud fra variansskønnene og antal obser-<br />

vationer i hver af de to observationsrækker. Formlen til beregning af ¯f er<br />

¯f =<br />

<br />

s2 (1)<br />

n1 + s2 2 (2)<br />

n2<br />

. (4.29)<br />

og det kan vises, at<br />

<br />

s2 2<br />

(1)<br />

n1 f +<br />

(1)<br />

<br />

s2 2<br />

(2)<br />

n2 f (2)<br />

min <br />

f (1), f (2) ≤ ¯f ≤ f (1) + f (2).<br />

Tilbage til det konkrete eksempel finder man, at<br />

t(x) =<br />

11.35375 − 11.22750<br />

=<br />

0.005313/8+0.029650/8 0.126250<br />

= 1.9097. (4.30)<br />

0.066108<br />

For at kunne beregne testsandsynligheden findes ¯f ved hjælp af formel (4.29) til ¯f = 9.43, som<br />

rundes ned til 9. Testsandsynligheden kan derp˚ a beregnes v ed hjælp af t-fordelingen med 9<br />

frihedsgrader til<br />

ε(x) = 2 1 − F t(9)(1.9097) = 0.0885.<br />

Da testsandsynligheden er større end 0.05 accepteres H∗ 02 . De to observationsrækker kan<br />

alts˚ a antages at have samme middelværdi med de har forskell ige varianser.<br />

Konfidensintervaller<br />

Konfidensintervaller for varianserne i hver af de to observationsrækker beregnes som beskrevet<br />

for én observationsrække. Vi nøjes her med at angive et approksimativt konfidensinterval for<br />

μ1 − μ2 som baseres p˚ a den approksimative t-fordeling af<br />

t(x) =<br />

¯x1· − ¯x2·<br />

<br />

s2 (1) /n1 + s2 (2) /n2<br />

,


og et (1 − α) konfidensinterval bliver<br />

⎧<br />

⎨<br />

⎩ ¯x1· − ¯x2· −t 1−α/2( ¯f)<br />

<br />

s 2 (1)<br />

n1<br />

+ s2 (2)<br />

n2<br />

≤ μ1 − μ2 ≤ ¯x1· − ¯x2· +t 1−α/2( ¯f)<br />

<br />

s 2 (1)<br />

n1<br />

+ s2 (2)<br />

n2<br />

⎫<br />

⎬<br />

⎭ .<br />

4.45<br />

(4.31)<br />

Grænserne for 95% konfidensintervallet for μ1 − μ2 er, idet vi benytter f = 9 i stedet for<br />

¯f = 9.43,<br />

¯x1· − ¯x2· ±t0.975(9)<br />

<br />

s 2 (1)<br />

n1<br />

+ s2 (2)<br />

n2<br />

4.4.4 Parrede observationer<br />

= 0.12625 ± 2.262 · 0.066108 = [−0.023287,0.275787] .<br />

Antag, at vi betragter følgende generelle situation. Vi ønsker at undersøge, om en bestemt be-<br />

handling (for eksempel en træningsmetode eller et medicinsk præparat) har en virkning. Vi<br />

udfører derfor et eksperiment, der best˚ ar i at vi p˚ a n forsøgspersoner før og efter behandlin-<br />

gen m˚ aler en størrelse (for eksempel kondital eller glycog en indhold i muskler) ved hjælp af<br />

hvilken behandlingens effekt kan belyses. Lad xi1 og xi2 betegne m˚ alingerne før og efter for<br />

den i’person, i = 1,...,n. Vi har alts˚ a ialt 2 n m˚ alinger, xi j, i = 1,...,n og j = 1,2, men de er<br />

parrede, idet xi1 og xi2 er sammenhørende observationer for den i’te person. Lad Xi j betegne de<br />

tilsvarende stokastiske variable. Typisk varierer middelværdien af den første m˚ aling fra person<br />

til person. Det vil sige, at<br />

EXi1 = αi, i = 1,...,n,<br />

hvor αi er udtryk for den i’te persons niveau af den m˚ alte størrelse. Antager vi nu, at behandlin-<br />

gen har en virkning som uafhængigt af personernes niveau forøger eller formindsker middel-<br />

værdierne med en størrelse δ har vi<br />

EXi2 = αi + δ, i = 1,...,n.<br />

Ingen virkning af behandlingen kan derfor formuleres som hypotesen<br />

H0 : δ = 0.<br />

Lad Di betegne differensen mellem m˚ alingen efter og før behandli ngen for den i’te person, det<br />

vil sige<br />

Di = Xi2 − Xi1, i = 1,...,n.


4.46 4.4 To observationsrækker<br />

Da<br />

EDi = E(Xi2 − Xi1) = EXi2 − EXi1 = (αi + δ) − αi = δ,<br />

ses det, at middelværdien af differenserne er uafhængig af personernes niveauer samt at H0<br />

svarer til at EDi = 0, i = 1,...,n.<br />

Hypotesen H0 kan testes p˚ a flere m˚ ader. Vi tager her udgangspunkt i antag elsen om at de<br />

observerede differenser d1,...,dn kan opfattes som en normalfordelt observationsrække, det vil<br />

sige, vi antager at D1,...,Dn er stokastisk uafhængige og betragter modellen<br />

M0 : Di ∼ N(δ,σ 2 D).<br />

Modellen M0 kontrolleres ved fraktilsammenligning baseret p˚ a differ enserne d1,...,dn samt<br />

ved at indtegne punkterne (xi1,xi2), i = 1,...,n. Punkterne i denne tegning skal variere omkring<br />

en ret linje med hældning 1 og afskæringen p˚ a andenaksen giv er et estimat for δ.<br />

I M0 er testet for H0 : δ = 0 alts˚ a blot testet for at middelværdien for en normalforde lt<br />

observationsrække d1,...,dn kan antages at være 0. Dette test - t-testet - er omtalt i Afsnit 4.3.<br />

I denne situation omtales testet som det parrede t-test. Hvis<br />

hvor<br />

og<br />

bliver testsandsynligheden for H0<br />

s 2 d<br />

t(d) = ¯ d √ n<br />

,<br />

d ¯=<br />

1<br />

n<br />

= 1<br />

n − 1<br />

n<br />

s 2 d<br />

∑ di<br />

i=1<br />

n<br />

∑<br />

i=1<br />

d) 2<br />

(di − ¯<br />

ε(d) = 2(1 − P(t(n − 1) ≤ |t(d)|)),<br />

hvor t(n − 1) er en t-fordelt stokastisk variabel med n − 1 frihedsgrader, og ved test p˚ a niveau<br />

5% forkastes H0 : δ = 0, hvis<br />

|t(d)| > t0.975(n − 1).<br />

Bemærkning Modellen M0 involverer ikke antagelser om de stokastiske variable Xi j, i =<br />

1,...,n, j = 1,2, men kun om differenserne Di, i = 1,...,n. Hvis imidlertid Xi j-erne er stoka-<br />

stisk uafhængige og Xi1 ∼ N(αi,σ 2 1 ) og Xi2 ∼ N(αi + δ,σ 2 2 ) er forudsætningerne i M0 opfyldt,<br />

idet vi da har Di ∼ N(δ,σ 2 D ), hvor σ 2 D = σ 2 1 + σ 2 2 .<br />

Eksempel 4.4<br />

(Andersen 1998) Tallene i tabellen nedenfor er indsamlet for at undersøge om træning har ind-<br />

flydelse p˚ a glycogen indholdet i benmuskler. Der er foretag et m˚ alinger p˚ a 8 personer, som i en


4.47<br />

periode p˚ a 3 uger træner det ene ben men ikke det andet. For hv er af de to ben er glycogen<br />

indholdet m˚ alt før og efter træningen.<br />

Trænet ben Utrænet ben<br />

Forsøgs- Før Efter Før Efter<br />

person nr. træning træning Differens træning træning Differens<br />

1 534 813 +279 575 616 +41<br />

2 593 767 +174 496 465 -31<br />

3 370 551 +181 413 439 +26<br />

4 507 716 +209 642 536 -106<br />

5 450 814 +364 422 566 +144<br />

6 619 1168 +549 668 501 -167<br />

7 422 749 +327 382 621 +239<br />

8 578 714 +136 652 513 -139<br />

Vi vil vurdere om træningen har effekt og betragter derfor primært tallene for det trænede<br />

ben. Tallene for det utrænede ben fungerer som en slags kontrol af forsøget, idet en effekt her<br />

vil antyde, at andre ting end træning har indflydelse p˚ a glyc ogen indholdet i musklerne.<br />

Figur 4.11 viser kontroltegningerne for s˚ avel det trænede ben (+) og det utrænede ben (·). Af<br />

fraktildiagrammet ses, at i begge tilfælde kan vi med rimelighed antage, at observationerne kan<br />

opfattes som en normalfordelt observationsrække, det vil sige at vi i begge tilfælde kan betragte<br />

modellen<br />

M0 : Di ∼ N(δ,σ 2 D ), i = 1,...,8.<br />

Endvidere antyder diagrammet, at middelværdien for det utrænede ben ligger tæt p˚ a 0, mens<br />

den for det trænede ben er af størrelsesordenen 275. (Dette ses af figuren ved at finde de punkter<br />

p˚ a førsteaksen der svarer til værdien 0 p˚ a andenaksen.)<br />

I den nederste tegning varierer punkterne pænt omkring rette linjer med hældning 1. Eneste<br />

afvigelse forekommer at være observationen for det trænede ben for person nr. 6, som m˚ aske er<br />

en ekstrem observation. Vi fastholder dog modellen M0 i begge tilfælde og ser senere p˚ a hvilken<br />

indflydelse observationerne for person nr. 6 har p˚ a resulta tet af analysen.<br />

Da summen og kvadratsummen af differenserne i de to tilfælde er<br />

finder vi for det trænede ben:<br />

differenser S SK<br />

utrænet ben 7 139621<br />

trænet ben 2219 743881<br />

d ¯=<br />

2219<br />

= 227.375<br />

8


4.48 4.4 To observationsrækker<br />

Figur 4.11 Kontroltegninger for det parrede t-test for data i Eksempel 4.4.


og<br />

og dermed<br />

s 2 d<br />

1 22192<br />

= (743881 − ) = 18340.84<br />

7 8<br />

t(d) = 227.375√ 8<br />

√ 18340.84 = 5.793.<br />

I tabellen over t-fordelingen finder vi, at testsandsynligheden for H0 : δ = 0 er<br />

ε(d) = 2(1 − P(t(7) ≤ 5.793)) = 0.0007.<br />

Hypotesen H0 forkastes. Vi har derfor p˚ avist en signifikant virkning af t ræning p˚ a glycogen<br />

indholdet. Da d ¯><br />

0, kan vi konkludere, at træning øger glycogen indholdet.<br />

og<br />

P˚ a samme m˚ ade finder vi for det utrænede ben:<br />

og dermed<br />

s 2 d<br />

d ¯=<br />

7<br />

= 0.875<br />

8<br />

1 72<br />

= (139612 − ) = 19944.98<br />

7 8<br />

t(d) = 0.875√ 8<br />

√ 19944.98 = 0.018.<br />

Testsandsynligheden for H0 : δ = 0 er derfor<br />

ε(d) = 2(1 − P(t(7) ≤ 0.018)) = 0.9865,<br />

4.49<br />

s˚ a H0 kan ikke forkastes. Vi kan derfor ikke konstatere nogen signifikant forskel i middelvær-<br />

dien af indholdet af glycogen i det utrænede ben før og efter de 3 uger.<br />

Gentages analysen, idet m˚ alingerne for person nr. 6 udelad es, finder vi for det trænede ben<br />

og for det utrænede ben<br />

t(d) = 7.365 ε(d) = 2(1 − P(t(6) ≤ 7.365)) = 0.0002<br />

t(d) = 0.492 ε(d) = 2(1 − P(t(6) ≤ 0.492)) = 0.6405,<br />

og alts˚ a præcis de samme konklusioner som ovenfor.


4.50 Beregninger i Excel<br />

Anneks til Afsnit 4.4<br />

Beregninger i Excel<br />

Excel har fire dialogbokse der let udfører beregninger for to observationsrækker, nemlig<br />

F-test: Dobbelt-stikprøve for ens varians<br />

t-test: To stikprøver med ens varians<br />

t-test: To stikprøver med forskellig varians<br />

t-test: Parvis dobbelt stikprøve for middelværdi<br />

Den sidste af disse laver beregningerne for det parrede t-test i Afsnit 4.4.4 og det er oplagt<br />

hvad de tre første dialogbokse laver. Vi illustrerer nu brugen af disse dialogbokse i forbindelse<br />

med eksemplerne i afsnittet.<br />

Eksempel 4.2 (Fortsat)<br />

Antag af cellerneA1:B23 har indholdet vist nedenfor<br />

<br />

¡¢£¤¥¦§¨¡<br />

¢ £ ©<br />

¥ ¦ § ¨¤<br />

¡©<br />

¡¡ ¡¢ ¡<br />

¤¥© ¥¢¨ ¥ § ¥£ £¡<br />

¥£¨ ¥£¨ ¥¥© ¥¤¡ ¥§£ ¥¥¢ ¥§¨ ¥¥¨ ¥¨£ ¥£<br />

¦¡© ¦©¥ ¦¡ ¥§¨<br />

¦¡¨ ¦¡£ ¦¢ ¦¢ ¦¢£ ¦¢¨ ¦£¢ ¦£ ¦¤¡ ¦©§<br />

¦¤£ ¦¤¢ ¦¥¡ ¦§¦ ¦¥¢ ¦¥¢ ¦¨£ ¦£<br />

For at beregne F-testet for hypotesen H01 : σ ¦¨§<br />

2 1 = σ 2 2 følger vi ruten:Funktioner →Dataanalyse<br />

→ F-test: Dobbelt-stikprøve for ens varians. I dialogboksen, der frem-<br />

kommer, angives cellerne A4:A20 i ruden efter Omr˚ade for variabel 1 og cellerne B4:B23


i ruden efterOmr˚ade for variabel 2. P˚ a et nyt regneark kommer der følgende udskrift:<br />

<br />

4.51<br />

¡¢£¤¥¦§¨<br />

¥¨¡£ ¦¡ ¢¢ ¢¥§£¡ ¦ ¨ ¦¥£¦<br />

Udskriften indeholder tal<br />

<br />

vi<br />

¦¤©¦¢¤¢¡¢£<br />

genkender<br />

<br />

fra<br />

¡©<br />

side 4.35 og<br />

<br />

side 4.36. I linjen Middelværdi<br />

£§¨¥¦ ¥¨©¨¤§¢ ¥ ¡¡ ©¡¢¡¡£¥©§¤ £ ©<br />

er angivet gennemsnittene ¯x1· og ¯x2· og i Varians findes de empiriske varianser s 2 (1) og s2 (2) .<br />

Derefter følger i linjerne Observationer og fg henholdsvis antallet af observationer, n1 og<br />

n2, og antallet af frihedsgrader, f (1) og f (2), for de to observationsrækker. I linjen F er angivet<br />

værdien af F-teststørrelsen, 1.416909583. Teksten i den næste linje, P(F


4.52 Beregninger i Excel<br />

Udskriften indeholder resultater vi kender fra side 4.40. I de tre første linjer gengives esti-<br />

materne for parametrene i M0 samt antallet af observationer i de to observationsrækker. I linjen<br />

Puljevarians ses estimatet s2 01 for den fælles varians. I linjen Hypotesen for forskel i<br />

middelværdien st˚ ar der 0, hvilket svarer til at hypotesen om ens middelvær dier ogs˚ a kan for-<br />

muleres H02 : μ1 − μ2 = 0. (Værdien 0 er default, men kan ændres ved i dialogboksen at udfylde<br />

ruden efter Hypotese for forskel i middelværdi.) De to næste linjer fg og t-stat gi-<br />

ver antallet af frihedsgrader i t-testet samt teststørrelsen t(x). De næste to linjer bruger vi ikke,<br />

men i linjenP(T


4.53<br />

Sammenlign med resultaterne p˚ a side 4.44. <br />

Eksempel 4.4 (Fortsat)<br />

I cellerneA1:G11 nedenfor er data indtastet og differenserne beregnet for s˚avel det trænede ben<br />

og det utrænede ben. <br />

££<br />

¡¢£¤¥¦§¨<br />

§ ¡¦¨ ¥ £ ¦¥¦ £¨¥ ¢ <br />

£ £¢¨ ¡¥ <br />

¡©¨ ¥£¡ ¤¢¥ ©¥ ¤¢£ ¢ ¤¦¤ ¥<br />

£¡¡ ¤¥¥ ££ ¤¨¢ ¦£ £¥¤<br />

¤£¨ ¥¥§ ¤© ¥¦<br />

Det<br />

¢¦©<br />

parrede<br />

¤¤ § ¢<br />

¥¡ ¡¢¨ ¤©¦<br />

test<br />

¦<br />

for<br />

¥<br />

den trænede ben as f˚ via ruten Funktioner →Dataanalyse →t-test: ¢¥ ¥¤¡ ¤ ¢ ¢¨ ¢§¡ ¢¡¦ ¦£¨ ¥§ ¨ ¥ ¢¥£ £ § £¤© £ ¦ ¤¦§ £¡¡ ©<br />

Parvis dobbelt stikprøve for middelværdi. I dialogboksen angives cellerne B4:B11 i<br />

ruden efterOmr˚ade for variabel 1 og cellerneA4:A11 i ruden efterOmr˚ade for variabel<br />

2. Udskriften herfra er:<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

De tre første linjer<br />

<br />

i<br />

<br />

udskriften giver empirisk<br />

<br />

middelværdi, empirisk varians og antal obser- <br />

<br />

vationer i de to observationsrækker. I linjenPearson-korrelation angives den empiriske kor-<br />

relationskoefficient for de to rækker. 0’et i linjen Hypotese for forskel i middelværdi<br />

bevirker at vi tester hypotesen H0 : δ = 0. In linjen fg angives frihedsgraderne for det parre-<br />

de t-test og teststørrelsen t(d) er i linjen t-stat. Testsandsynligheden0.000668311 aflæses i<br />

linjen P(T


4.54 Beregninger i Excel<br />

Resultaterne stemmer overens med vores p˚ a side 4.49.<br />

For det utrænede ben as f˚ p˚ a tilsvarende m˚ ade ved hjælp af c ellerne E4:F11 udskriften<br />

¡¢£¤¥¦§¨¡<br />

¢ ©<br />

¤ £<br />

<br />

¤¢¡ ¡¤ ¤¢ ¡¤ £¢¦¡¥¨¥£¡¨ ¢§£¡¤ § § <br />

© ¥§ ¤ © ¦ <br />

©© ¡ ©£¨¢¡¤¢¦¤§ §¨£¤¦¦¤©§ ©¨§¥¤©¦¤ ¥ <br />

<br />

¦¤¡£<br />

¡¢¥£¥¡¡¤¥


Hovedpunkter til Afsnit 4.4<br />

Her resumeres hovedpunkterne om k = 2 observationsrækker.<br />

Model<br />

Modellen for 2 normalfordelte observationsrækker er, at data<br />

x11,...,x1 j,...,x1n1<br />

x21,...,x2 j,...,x2n2<br />

er realisationer af uafhængige, normalfordelte stokastiske variable<br />

Modelkontrol<br />

M0 : Xi j ∼ N(μi,σ 2<br />

i ), j = 1,...,ni, i = 1,2.<br />

Probitanalyse, hvis der er observationer nok, men mindst prikdiagrammer p˚ a samme ark papir,<br />

s˚ a man kan vurdere forskelle og ligheder.<br />

Estimation i M0<br />

4.55<br />

Man kan med fordel bruge beregningsskemaet for k observationsrækker side 4.33. Med nota-<br />

tionen herfra har man<br />

μi ← ¯xi· ∼∼ N(μi,<br />

Det videre forløb afhænger af udfaldet af<br />

σ 2<br />

i<br />

), i = 1,2,<br />

ni<br />

σ 2<br />

i ← s2 2<br />

(i) ∼∼ σi χ 2 ( f (i))/ f (i), i = 1,2.<br />

Test af H01 : σ 2 1 = σ 2 2<br />

Sæt s 2 tæller = max{s2 (1) ,s2 (2) }, lad ftæller være frihedsgraderne for s 2 tæller ,<br />

s 2 nævner = min{s2 (1) ,s2 (2) } og lad fnævner være frihedsgraderne for s 2 nævner .<br />

Teststørrelse<br />

Testsandsynlighed<br />

F(x) = s2 tæller<br />

s2 .<br />

nævner<br />

ε(x) = 2 1 − F F( ftæller, fnævner)(F(x)) ,<br />

hvor F( ftæller, fnævner) betegner F-fordelingen med ftæller frihedsgrader i tælleren og fnævner<br />

frihedsgrader i nævneren.


4.56 Hovedpunkter til Afsnit 4.4<br />

Ved test p˚ a niveau 5% accepteres H01 : σ 2 1 = σ 2 2 , hvis<br />

Accepteres hypotesen H01 : σ 2 1 = σ 2 2<br />

Model M1<br />

Estimation i M1<br />

μ1 ← ¯x1· ∼∼ N(μ1,<br />

F(x) < F0.975( ftæller, fnævner).<br />

er modellen<br />

M1 : Xi j ∼ N(μi,σ 2 ).<br />

σ 2<br />

σ 2 ← s 2 01 = f (1)s 2 (1) + f (2)s 2 (2)<br />

f (1) + f (2)<br />

med f01 = f (1) + f (2) = n· − 2.<br />

Test H02 : μ1 = μ2 i M1<br />

Teststørrelse<br />

Testsandsynlighed<br />

t(x) = <br />

n1<br />

s 2 01<br />

), μ2 ← ¯x2· ∼∼ N(μ2,<br />

= SAK (1) + SAK (2)<br />

f (1) + f (2)<br />

¯x1· − ¯x2·<br />

1<br />

n1<br />

+ 1<br />

<br />

n2<br />

∼∼ t( f01).<br />

ε(x) = 2 1 − F t( f01)(|t(x)|) .<br />

σ 2<br />

n2<br />

),<br />

∼∼ σ 2 χ 2 ( f01)/ f01,<br />

(1 − α) konfidensinterval for forskellen i middelværdi μ1 − μ2<br />

<br />

<br />

¯x1· − ¯x2· −t1−α/2( f01) s2 1<br />

01 ( +<br />

n1<br />

1<br />

<br />

) ≤ μ1 − μ2 ≤ ¯x1· − ¯x2· + t1−α/2( f01) s<br />

n2<br />

2 1<br />

01 ( +<br />

n1<br />

1<br />

<br />

) ,<br />

n2<br />

hvor t 1−α/2( f01) er 1 − α/2 fraktilen i t( f01)-fordelingen med f01 = n1 + n2 − 2.<br />

Accepteres hypotesen H02 kan modelen M1 reduceres til M2 : Xi j ∼ N(μ,σ 2 ), det vil sige,<br />

at de to observationsrækker kan opfattes som én stor observationsrække.<br />

Forkastes hypotesen H01 : σ 2 1 = σ 2 2 er modellen stadig M0 : Xi j ∼ N(μi,σ 2<br />

i ).<br />

Test H ∗ 02 : μ1 = μ2 i M0


Teststørrelse<br />

Testsandsynlighed<br />

t(x) =<br />

¯x1· − ¯x2·<br />

<br />

s 2 (1) /n1 + s 2 (2) /n2<br />

∼∼ t( ¯f).<br />

<br />

ε(x) = 2 1 − Ft( ¯f) (|t(x)|)<br />

<br />

.<br />

(1 − α) konfidensinterval for forskel i middelværdi μ1 − μ2<br />

⎧<br />

⎨<br />

⎩ ¯x1· − ¯x2· −<br />

<br />

s 2 (1)<br />

n1<br />

+ s2 (2)<br />

n2<br />

t 1−α/2( ¯f) ≤ μ1 − μ2 ≤ ¯x1· − ¯x2· +<br />

<br />

s 2 (1)<br />

n1<br />

+ s2 (2)<br />

n2<br />

⎫<br />

⎬<br />

t1−α/2( ¯f)<br />

⎭ ,<br />

4.57<br />

hvor t 1−α/2( ¯f) er 1 − α/2 fraktilen i t-fordelingen med ¯f frihedsgrader, og ¯f beregnes efter<br />

formlen<br />

¯f =<br />

<br />

s2 (1)<br />

n1 + s2 2 (2)<br />

n2<br />

<br />

s2 2<br />

(1)<br />

n1 f +<br />

(1)<br />

<br />

s2 2<br />

(2)<br />

n2 Accepteres hypotesen H ∗ 02 kan modellen M0 reduceres til M ∗ 2 : Xi j ∼ N(μ,σ 2<br />

i ).<br />

Parrede observationer<br />

Data best˚ ar af n parrede observationer, (xi1,xi2), i = 1,...,n.<br />

Model<br />

Differenserne di = xi2 − xi1, i = 1,...,n, det vil sige<br />

f (2)<br />

d1,...,di,...,dn<br />

er realisationer af uafhængige, normalfordelte stokastiske variable<br />

Modelkontrol<br />

M0 : Di ∼ N(δ,σ 2 D ).<br />

Fraktilsammenligning baseret p˚ a differenserne d1,...,dn samt indtegning punkterne (xi1,xi2),<br />

i = 1,...,n, i et koordinatsysten. Punkterne i denne tegning skal variere omkring en ret linje<br />

med hældning 1.<br />

Estimation<br />

n<br />

δ ← d ¯=<br />

1<br />

n ∑ di ∼∼ N(δ,<br />

i=1<br />

σ 2 D<br />

n )<br />

.


4.58 Hovedpunkter til Afsnit 4.4<br />

Test af H0 : δ = 0<br />

σ 2 D ← s2 d<br />

Det parrede t-test. Teststørrelse<br />

Testsandsynlighed<br />

= 1<br />

n − 1<br />

n<br />

∑<br />

i=1<br />

(di − d) ¯ 2 ∼∼ σ 2 Dχ 2 (n − 1)/(n − 1)<br />

t(d) = ¯ d √ n<br />

<br />

s2 ∼∼ t(n − 1).<br />

d<br />

ε(d) = 2(1 − P(t(n − 1) ≤ |t(d)|)),<br />

hvor t(n − 1) er en t-fordelt stokastisk variabel med n − 1 frihedsgrader.<br />

Ved test p˚ a niveau 5% forkastes H0 : δ = 0 hvis<br />

|t(d)| > t0.975(n − 1).


4.5 k observationsrækker<br />

4.59<br />

Notationen vedrørende k observationsrækker har vi allerede indført p˚ a side 4.32. S om udgangs-<br />

punkt for analysen betragter vi modellen<br />

M0 : Xi j ∼ N(μi,σ 2<br />

i ), j = 1,...,ni, i = 1,...,k,<br />

ifølge hvilken de k observationsrækker er normalfordelte hver med sin middelværdi og varians.<br />

Vi antager at k > 2, og modsætning til situationen i Afsnit 4.4, hvor k = 2, tester vi her kun<br />

hypotesen om ens middelværdier under forudsætning af varianshomogenitet. Med andre ord, vi<br />

tester først hypotesen om varianshomogenitet<br />

H01 : σ 2 1 = ··· = σ 2 k<br />

svarende til reduktionen M0 → M1 : Xi j ∼ N(μi,σ 2 ) og kun hvis denne hypotese accepteres,<br />

tester vi hypotesen om ens middelværdier<br />

H02 : μ1 = ··· = μk<br />

svarende reduktionen M1 → M2 : Xi j ∼ N(μ,σ 2 ).<br />

Gennemgangen af teorien for k observationsrækker er baseret p˚ a Eksempel 4.5.<br />

Eksempel 4.5<br />

Institut for Idræt ved Københavns Universitet arrangerer hvertar ˚ et atletikstævne for de 1. ars ˚<br />

studerende. Atletiklærer Mikkel Sørensen har stillet nogle af resultaterne forarene ˚ 1998, 1999<br />

og 2000 til adighed. r˚ Det er af interesse at vide om resultat erne for de trear ˚ er forskellige eller<br />

ej. Resultaterne af pigernes længdespring er vist i tabellen nedenfor.<br />

˚ar længde i m<br />

1998 3.72 3.65 3.90 3.74 3.32 4.22 3.58 4.56 3.65 2.99<br />

3.91 3.65 3.65 3.88 3.65 4.20<br />

1999 4.32 3.79 3.53 3.54 4.27 3.75 4.21 3.66 4.58 3.73<br />

5.18 3.00 3.91 3.52<br />

2000 3.96 3.43 4.30 4.22 3.56 3.70 3.70 3.56<br />

Data er tegnet op i Figur 4.12 og Figur 4.13 viser fraktildiagrammet for de tre observations-<br />

rækker. Punkterne i fraktildiagrammet varierer - uden systematiske afvigelser - omkring tre rette<br />

linjer og giver ikke anledning til at betvivle modellen M0. Linjerne i fraktildiagrammet ser stort<br />

set ud til at være sammenfaldende, hvilket antyder, at s˚ ave l middelværdier som varianser for de<br />

trear ˚ er identiske. Dette indtryk bekræftes af Figur 4.12.


4.60 4.5 k observationsrækker<br />

Figur 4.12 Data i Eksempel 4.5.<br />

Figur 4.13 Fraktildiagrammet for data i Eksempel 4.5.


Estimater for de seks parametre i<br />

M0 : Xi j ∼ N(μi,σ 2<br />

i ), j = 1,...,ni, i = 1,2,3,<br />

ses i de to sidste kolonner i beregningsskemaet nedenfor.<br />

4.61<br />

£¢ £¢ ¥¦§¡¢ £¨¤¢© ¢© ¢© ¥¦ ¢ ¦¦¦¦¦¦ ¦ ¦ ¦ ¦¦¦ ¦ ¦ ¦¦ ¦ ¡¢<br />

<br />

£¤¢<br />

<br />

4.5.1 Test for varianshomogenitet<br />

<br />

Hypotesen om varianshomogenitet<br />

H01 : σ 2 1 = ··· = σ 2 k<br />

testes hypotesen ved et Bartlett test. Teststørrelsen beregnes ved hjælp af de empiriske varianser,<br />

s 2 (1) ,...,s2 (k) , i de k observationsrækker samt estimatet s2 01 for variansen σ 2 i den model M1 :<br />

Xi j ∼ N(μi,σ 2 ), der fremkommer hvis H01 accepteres. Estimatet s2 01 er det vægtede gennemsnit<br />

af s 2 (1) ,...,s2 (k) med vægte f (1),..., f (k). Med betegnelserne i beregningsskemaet side 4.33 har<br />

vi<br />

Teststørrelsen i Bartlett testet er<br />

hvor<br />

og<br />

s 2 01 = f (1)s 2 (1) + ···+ f (k)s 2 (k)<br />

f (1) + ···+ f (k)<br />

= SAK01<br />

. (4.32)<br />

f01<br />

Ba(x) = −2lnQ(x)<br />

, (4.33)<br />

C<br />

−2lnQ(x) = f01 ln(s 2 01 ) −<br />

C = 1+<br />

<br />

k 1<br />

3(k − 1) ∑<br />

i=1<br />

1<br />

f (i)<br />

k<br />

∑<br />

i=1<br />

<br />

f (i) lns 2 (i) , (4.34)<br />

− 1<br />

<br />

f01<br />

. (4.35)<br />

Fra den generelle teori i Kapitel 5 as, f˚ at store værdier af −2lnQ(X), som er approksimativt<br />

χ 2 -fordelt med k−1 frihedsgrader, er kritiske for H01. Approksimationen gælder, hvis antallene<br />

af observationer ni, i = 1,...,k, i de k observationsrækker er store. Teststørrelsen i (4.33) er<br />

udledt af Bartlett, som viste, at ved at dividere −2lnQ(X) med faktoren C as f˚ en teststørrelse<br />

Ba(X) som ogs˚ a er approksimativt er χ2-fordelt med k − 1 frihedsgrader og det kan vises, at<br />

approksimationen er tilfredsstillende, hvis blot ni ≥ 3, i = 1,...,k, alts˚ a hvis der er mindst tre


4.62 4.5 k observationsrækker<br />

observationer i hver observationsrække. Testtørrelsen Ba(x) kan beregnes ud fra kolonnerne 7<br />

og 8 i beregningsskemaet side 4.33.<br />

Da store værdier af Ba(x) er kritiske for H01, beregnes testsandsynligheden som<br />

se Figur 4.14. Ved test p˚ a 5% niveau forkastes H01 hvis<br />

ε(x) = 1 − F χ 2 (k−1) (Ba(x)), (4.36)<br />

Ba(x) > χ 2 0.95 (k − 1).<br />

Figur 4.14 Illustration af testsandsynligheden for Bartlett testet i Eksempel 4.5. Testsandsyn-<br />

ligheden er arealet af den skraverede omr˚ ade.<br />

Accept af H01 reducerer modellen M0 til modellen<br />

Eksempel 4.5 (Fortsat)<br />

M1 : Xi j ∼ N(μi,σ 2 ), j = 1,...,ni, i = 1,...,k.<br />

For data vedrørende pigernes længdespring as f˚ ved hjælp af beregningsskemaet side 4.61, at<br />

−2lnQ(x) = 3.4193,<br />

C = 1.0430


og dermed at<br />

4.63<br />

Ba(x) = 3.4193<br />

= 3.2783.<br />

1.0430<br />

Da antallet af observationer i de k = 3 rækker alle er større end 3 beregnes testsandsynligheden<br />

ifølge (4.36) som<br />

ε(x) = 1 − F χ 2 (2) (3.2783) = 0.1941<br />

og hypotesen om varianshomogenitet H01 accepteres - som forventet. Der er med andre ikke<br />

forskel p˚ a variansen p˚ a længden af længdespringene for pi gerne i de trear. ˚<br />

Testsandsynligheden ovenfor er udregnet ved hjælp af Excel. Benyttes Statistical Tables til<br />

at beregne testsandsynligheden finder vi, idet χ2 0.80 (2) = 3.22


4.64 4.5 k observationsrækker<br />

4.5.2 Test for ens middelværdier<br />

Accepteres hypotesen om ens middelværdier<br />

ved et test i modellen M1, kan M1 reduceres til<br />

H02 : μ1 = ··· = μk<br />

M2 : Xi j ∼ N(μ,σ 2 ), j = 1,...,ni, i = 1,...,k,<br />

som bortset fra en lidt anderledes indicering af de variable er modellen for én normalfordelt<br />

observationsrække med ukendt varians. Fra Afsnit 4.3 har vi følgende estimater for parametrene<br />

i M2 :<br />

og<br />

hvor<br />

μ ← ¯x·· = 1<br />

n·<br />

k<br />

∑<br />

i=1<br />

ni<br />

∑ xi j ∼∼ N(μ,<br />

j=1<br />

σ 2<br />

n·<br />

), (4.37)<br />

σ 2 ← 1<br />

n· − 1 SAK02 ∼∼ σ 2 χ 2 (n· − 1)/(n· − 1), (4.38)<br />

SAK02 =<br />

k<br />

∑<br />

i=1<br />

ni<br />

∑(xi<br />

j − ¯x··)<br />

j=1<br />

2 .<br />

Estimaterne beregnes let ud fra sidste række i beregningsskemaet side 4.33, idet<br />

¯x·· = S·<br />

n·<br />

og SAK02 = SK· − S2 ·<br />

.<br />

n·<br />

Testet i M1 for hypotesen H02 om ens middelværdier er baseret p˚ a følgende opspaltning af<br />

kvadratsumafvigelsen SAK02 i M2 :<br />

hvor<br />

og<br />

SAK02 = SAK01 + SAK2,<br />

SAK01 =<br />

SAK2 =<br />

k<br />

∑<br />

i=1<br />

k<br />

∑<br />

i=1<br />

ni<br />

∑(xi<br />

j − ¯xi·)<br />

j=1<br />

2<br />

ni( ¯xi· − ¯x··) 2 .<br />

Det ses, er SAK2 et udtryk for hvor meget estimaterne ¯xi· for middelværdierne μi i de k rækker<br />

varierer omkring estimatet ¯x·· for den fælles middelværdi μ, det vil sige et udtryk for variationen<br />

mellem observationsrækkerne, mens SAK01 er et udtryk for hvor meget observationerne xi j i<br />

de k observationsrækker varierer omkring ¯xi·, det vil sige et udtryk for variationen inden for<br />

observationsrækkerne. Teststørrelsen for hypotesen H02 om ens middelværdier<br />

F(x) = s2 2<br />

s2 =<br />

01<br />

SAK2/(k − 1)<br />

SAK01/(n· − k)<br />

(4.39)


4.65<br />

forkaster for store værdier af F(x), svarende til at variationen mellem observationsrækkerne er<br />

for stor i forhold til variationen inden for rækkerne, se Figur 4.15.<br />

Figur 4.15 Data i Eksempel 4.5. Observationerne er angivet med ×, gennemsnittene ¯xi· i de tre<br />

rækker med · og den fuldt optrukne linje angiver det totale gennemsnit ¯x··.<br />

De til SAK2 og SAK01 svarende stokastiske variable SAK2(X) og SAK01(X) kan vises at<br />

være stokastisk uafhængige under H02 og endvidere er SAK2(X) ∼ σ 2 χ 2 (k−1) og SAK01(X) ∼<br />

σ 2 χ 2 (n·−k) under H02. Det følger derfor af definitionen af F-fordelingen i Afsnit 3.1.5, at F(x)<br />

er udfald af en stokastisk variabel F(X) som er F(k−1,n· −k)-fordelt. Da store værdier af F(x)<br />

er kritiske for H02 beregnes testsandsynligheden derfor som<br />

se Figur 4.16, og ved test p˚ a 5% niveau forkastes H02, hvis<br />

ε(x) = 1 − F F(k−1,n·−k)(F(x)), (4.40)<br />

F(x) > F0.95(k − 1,n· − k).<br />

Hvis H0 accepteres reduceres modellen M1 til modellen<br />

M2 : Xi j ∼ N(μ,σ 2 ), i = 1,...,nj, j = 1,...,k.


4.66 4.5 k observationsrækker<br />

Figur 4.16 Illustration af testsandsynligheden for F-testet for ens middelværdier i Eksempel<br />

4.5. Testsandsynligheden er arealet af den skraverede omr˚ade.<br />

Beregninger<br />

Beregningen af teststørrelsen i (4.39) foretages let ved hjælp af beregningsskemaet side 4.33,<br />

idet s2 01 som findes i kolonne 8 i skemaets nederste række. Desuden er<br />

s 2 1<br />

2 =<br />

k − 1 SAK2 = 1<br />

<br />

k S<br />

∑<br />

k − 1<br />

2 i − S2 <br />

·<br />

, (4.41)<br />

n·<br />

i=1 ni<br />

som let beregnes ud fra kolonne 2, 3 og 5 i skemaets nederste række.<br />

Konfidensintervaller<br />

Hvis H02 accepteres, findes estimaterne i M2 ved hjælp af formlerne (4.37) og (4.38) ovenfor,<br />

og (1 − α) konfidensintervaller for μ, σ 2 og σ findes ved hjælp af formlerne i Afsnit 4.3:<br />

⎡<br />

μ ∈ ⎣ ¯x·· −t1−α/2(n· − 1)<br />

σ 2 ∈<br />

<br />

<br />

s 2 02<br />

n·<br />

, ¯x·· +t 1−α/2(n· − 1)<br />

<br />

s 2 02<br />

s2 02<br />

χ2 1−α/2 (n· − 1)/(n· − 1) ,<br />

s2 02<br />

χ2 α/2 (n· − 1)/(n· − 1)<br />

n·<br />

<br />

⎤<br />

⎦, (4.42)<br />

, (4.43)


Variansanalysetabellen<br />

4.67<br />

⎡<br />

<br />

<br />

σ ∈ ⎣<br />

s2 02<br />

χ2 1−α/2 (n· − 1)/(n· − 1) ,<br />

<br />

<br />

<br />

<br />

s2 02<br />

χ2 α/2 (n·<br />

⎤<br />

⎦. (4.44)<br />

− 1)/(n· − 1)<br />

I litteraturen omtales modellen for k observationsrækker ofte som ensidet variansanalyse og re-<br />

sultaterne af analysen præsenteres ved variansanalysetabellen, som ogs˚ a Excel benytter. Navnet<br />

variansanalyse skal ses i lys af at F-teststørrelsen i (4.39) jo netop fremkommer ved at sammen-<br />

ligne varianser eller variationer. I variansanalysetabellen gengives beregningerne s˚ aledes<br />

Eksempel 4.5 (Fortsat)<br />

Variationskilde SAK f g s 2 F ε<br />

mellem grupper SAK2 k − 1 s 2 2<br />

inden for grupper SAK01 n· − k s 2 01<br />

I alt SAK02 n· − 1<br />

s 2 2<br />

s 2 01<br />

1 − F F(k−1,n·−k)(F)<br />

Tabel 4.3 Variansanalysetabellen for ensidet variansanalyse.<br />

Ved hjælp af sidste række i beregningsskemaet side 4.61 og formel (4.41) as, f˚ at<br />

og dermed<br />

SAK2 = 558.7705 − 145.692<br />

38<br />

s 2 2 = SAK2<br />

3 − 1<br />

= 0.1014.<br />

= 0.2027<br />

Værdien af s2 01 findes i beregningsskemaet i kolonne 8 i nederste række. Vi kan derfor beregne<br />

F-teststørrelsen i (4.39) for hypotesen H02 : μ1 = μ2 = μ3. Vi finder<br />

F(x) = s22 s2 = 0.5420 ∼∼ F(2,35)<br />

01<br />

og af (4.40) as, f˚ at testsandsynligheden for H02 er<br />

ε(x) = 1 − F F(2,35)(0.5420) = 0.5865,<br />

s˚ a hypotesen om ens middelværdier accepteres. Vi kan alts˚ a ikke p˚ avise forskel p˚ a middelvær-<br />

dien af længden af pigernes længdespring i de trear. ˚<br />

Igen er Excel brugt til at beregne testsandsynligheden. Benyttes Statistical Tables har vi et<br />

lille problem, idet fraktilerne for F(2,35)-fordelingen ikke findes i tabellen. Benytter vi i stedet


4.68 4.5 k observationsrækker<br />

for F(2,36)-fordelingen til at beregne testsandsynligheden, finder vi, idet F0.50(2,36) = 0.71<br />

>0.5420 , at ε(x) >1 − 0.50 = 0.50.<br />

Ved test p˚ a 5% niveau accepteres H02, da 0.5420 < F0.95(2,36) = 3.26.<br />

Beregningerne kan resumeres i variansanalyse tabellen som her bliver<br />

Variationskilde SAK f g s 2 F ε<br />

mellem grupper 0.2027 2 0.1014 0.5420 0.5865<br />

inden for grupper 6.5478 35 0.1871<br />

I alt 6.7505 37<br />

Slutmodellen for analysen er<br />

M2 : Xi j ∼ N(μ,σ 2 ), i = 1,...,nj, j = 1,2,3<br />

og estimaterne i M2 bliver - ved hjælp af (4.37) og (4.38) -<br />

og<br />

σ 2 ← s 2 02<br />

μ ← ¯x·· = S·<br />

n·<br />

= SAK02<br />

n· − 1<br />

= 145.69<br />

38<br />

= 3.8339 ∼∼ N(μ, σ 2<br />

38 )<br />

= 6.7505<br />

37 = 0.1824 ∼∼ σ 2 χ 2 (37)/37.<br />

Endelig bliver 95% konfidensintervallerne for μ,σ 2 og σ - ifølge formlerne (4.42) - (4.44) -<br />

<br />

0.1824<br />

μ ∈ 3.8339 − 2.0262<br />

38 ,3.8339+2.0262<br />

<br />

0.1824<br />

= [3.694,3.974],<br />

38<br />

σ ∈<br />

σ 2 ∈<br />

0.1824<br />

0.1824<br />

,<br />

1.5201 0.5877<br />

0.1824<br />

1.5201 ,<br />

0.1824<br />

0.5877<br />

<br />

= [0.1200,0.3104],<br />

<br />

= [0.3464,0.5571].<br />

Tilsvarende data for drengene er analyseret i Excel p˚ a side 4.70. <br />

4.5.3 Forskelle og ligheder i behandlingen af to og k observationsrækker<br />

Som test for H02 har vi anvendt et t-test, n˚ ar k = 2, og et F-test, n˚ ar k > 2. Det er imidlertid<br />

samme test. Man kan vise, at t 2 = F, og testsandsynligheden er den samme uanset hvilket af de<br />

to tests, man anvender.<br />

N˚ ar man alligevel behandler specialtilfældet k = 2, skyldes det, at man dér kan angive kon-<br />

fidensintervaller for forskellen μ1 − μ2 i middelværdier, og det kan være interessant, n˚ ar H02<br />

forkastes.


4.69<br />

Vi har ogs˚ a angivet forskellige tests for H01 i de to tilfælde. Bartletts test kan rent teknisk<br />

ogs˚ a beregnes n˚ ar k = 2, men det kan ikke anbefales. F-testet baseret p˚ a forholdet mellem de<br />

to variansskøn er langt hurtigst at beregne, og det er ydermere et eksakt test, det vil sige, at<br />

testsandsynligheden kan beregnes nøjagtigt. Ved beregning af testsandsynligheden for Bartletts<br />

test benytter man som bekendt en approksimation.<br />

4.5.4 Notation og test i forbindelse med en følge af modeller<br />

I dette afsnit har vi - uden at nævne det - indført en notation i forbindelse med en følge af<br />

modeller, som ogs˚ a vil blive brugt i de følgende afsnit.<br />

Vi betragter en følge af modeller<br />

M1 → M2 → ··· → Mi−1 → Mi → ··· ,<br />

som best˚ ar af gradvist enklere beskrivelse af observation ernes middelværdi. Det forudsættes, at<br />

alle observationerne har den samme varians. Hypotesen, som beskriver reduktionen<br />

Mi−1 → Mi<br />

betegnes H0i. Variansskønnet i modellen Mi betegnes s 2 0i<br />

s 2 0i<br />

1<br />

= SAK0i,<br />

f0i<br />

, og det er p˚ a formen<br />

hvor f0i betegner frihedsgraderne for s2 0i . Endvidere benytter vi betegnelserne<br />

og<br />

SAKi = SAK0i − SAK0i−1,<br />

fi = f0i − f0i−1,<br />

s 2 i = SAKi<br />

.<br />

fi<br />

Som vi har set i dette afsnit og som vi skal se flere eksempler p˚a i de kommende afsnit i dette<br />

kapitel, er teststørrelsen for H0i, svarende til reduktionen Mi−1 → Mi,<br />

F(x) =<br />

SAK0i − SAK0i−1<br />

f0i − f0i−1<br />

s 2 0i−1<br />

=<br />

SAKi<br />

fi<br />

s 2 0i−1<br />

= s2i s2 ,<br />

0i−1<br />

og testsandsynligheden beregnes ved opslag i F-fordelingen med fi frihedsgrader i tælleren og<br />

f0i−1 frihedsgrader i nævneren som<br />

ε(x) = 1 − F F( fi, f0i−1)(F(x)).<br />

Fortolkningen af frihedsgraderne for tælleren er iøvrigt, at det er forskellen i antallet af pa-<br />

rametre i middelværdien i de to modeller Mi−1 og Mi. Frihedsgraderne for nævneren er antallet<br />

af observationer minus antallet af parametre i middelværdien i modellen Mi−1.


4.70 Beregninger i Excel<br />

Anneks til Afsnit 4.5<br />

Beregninger i Excel<br />

F-testet for hypotesen H02 om ens middelværdier i en ensidet variansanalyse foretages i Excel<br />

ved hjælp af dialogboksen<br />

Anava: Enkelt faktor.<br />

Beregningerne vedrørende Bartlett testet for hypotesen H01 om varianshomogenitet m˚ a man<br />

derimod selv programmere. Det gøres dog forholdsvis let ved hjælp af udskriften fra dialog-<br />

boksenAnava: Enkelt faktor, som vist i fortsættelsen af Eksempel 4.5 nedenfor.<br />

Eksempel 4.5 (Fortsat)<br />

I regnearket nedenfor indeholder cellerne A4:C22 resultaterne af drengenes længdespring i de<br />

trear. ˚ ¡¢£¤¥¦§¨<br />

¡ ¢ £ ©<br />

¥ ¦ § ¨¤<br />

¡ ¡©<br />

£¤ ¨¨§ ¨¨¨ ¡©©© ¥©¢ £¦¨ ¤¥¤ <br />

¤¡ £¤¥ ¥©¤ ¤©¥ ¤ © ¤¢© ¢¨¨ ¥¢§ ¤¡¢ £¤§ ¤¤§ ¤¡© ¥¡¥ ¤¡ ¤£¢<br />

£§¥ ¤¡ ¢¤§ ¤£¡ ¤©£ ¤©§<br />

¤§¤ ¤¤¤ ¢©¢ ¤¥¥ ¤¤§ £§£ ¤¢¦ £¨¢ ¤§¢<br />

¤¥£ ¤ £¥¦ ¤¦£ ¤¥ £¥© ¤© ©<br />

F-testet<br />

£¨¥<br />

for hypotesen<br />

£¦<br />

H02 om ens middelværdier as f˚ via ruten Funktioner → Dataana- ¤¢¥ ¤¦© © ¢¥ ¤¦¡ £¦© £§§ ¥ ££© ¡¡<br />

lyse → Anava: Enkelt faktor. I dialogboksen, der fremkommer, angives cellerne A4:C22<br />

i Input omr˚ade: og i Grupperet efter: angives Kolonner. P˚ a et nyt regneark as f˚ de to


øverste tabeller p˚ a udskriften: <br />

¡¢£¤¥¦§¨¡<br />

¢ ©<br />

¤ ¥ ¦ £<br />

¨ ¡© §<br />

<br />

¨ ¨¤§£¤©££¡ ©¤¡¥©¥¡©§¡¤¦¢ ¡ ¨ ¨§¡¡¤ ¥¨£¦¢¥§£©£¤£§¢§¤¨¥ ¢ ¡ ¥¢§¨¤¢¡£ ¥¥¥¥¦©¡ ¢¤¨© ¤¡ <br />

<br />

©¤¦¨§©©£¢¨ ¡©¡§¨¨©©¡ ¨©¥¡¦¤¥¢¢¥¢©¤¢§¢©£¨©§¢ ¨¤©¤£§§¦ ¡ ¦ ££¨¤¥ £¦©£¥ ¨£¤¦¢¤ ¡¡¡¨ ¡¤ £¨ <br />

<br />

4.71<br />

¡¡ ¡£ §©£¦¥¦©£§¥©©¤¤¤¥ ¡¢ ¡¥¥©©¤¤¤¥ ¡<br />

¡¢¨¢£ §©¦§¦§<br />

I tabellen med overskriften RESUME findes størrelserne ni, Si, ¯xi· og s<br />

¤£¢¥¨¥¡§©©¨©¨ ¡¤ ¡¦ ¡¥ ¡§ ¡ §¦¨§¢©¤¡ © ¢¢£¡§©¥¨¢¦ ¢££¢¤©¤£¢£ ©¢© 2 (i) for de tre observa-<br />

tionsrækker.<br />

Variansanalysentabellen er gengivet under overskriftenANAVA, idetSK svarer til SAK,MK til<br />

s 2 ogP-værdi til ε. IF-krit er angivet 95% faktilen i den relevante F-fordeling, her fraktilen<br />

F0.95(2,47). (Bemærk, at Excel noget uheldigt benytter SK og ikke SAK som betegnelse for<br />

SAK.)<br />

Beregningerne, der giver resultaterne for Bartlett testet i cellerneA18:C28, laves p˚ a følgende<br />

m˚ ade: Først skrives overskriften beregning af Bartlett-testet i cellen A18. Antallet af<br />

frihedsgrader f (1) i den første række beregnes i cellenA21 som<br />

=B5 −1 ( f (1) = n1 − 1)<br />

og analoge formler oprettes iA22:A23. I cellenB21 beregnes<br />

og iC21 beregnes<br />

=LN(E5) (= ln(s 2 (1) ))<br />

=1/A21 (= 1<br />

)<br />

f (1)


4.72 Beregninger i Excel<br />

og analoge formler oprettes iB22:C23. Herefter beregnes værdien af konstanten C i cellenB25<br />

som<br />

1<br />

=1+1/3/(3 −1) ∗(SUM(C21 :C23) −1/C13) (= 1+<br />

3(k − 1) ((<br />

og −2lnQ i cellenB26 som<br />

=C13 ∗LN(D13) −SUMPRODUKT(A21 :A23;B21 :B23) (= f01 lns 2 01 −<br />

Endelig beregnes Ba i cellenB27 som<br />

og testsandsynligheden ε i cellenB28 som<br />

=B26/B25 (= −2lnQ<br />

C )<br />

=CHIFORDELING(B27;2) (= 1 − F χ 2 (2) (Ba)).<br />

k<br />

∑<br />

i=1<br />

1<br />

f (i)<br />

k<br />

∑<br />

) − 1<br />

))<br />

f01<br />

f (i) lns<br />

i=1<br />

2 (i) ).<br />

Det ses af resultaterne ovenfor, at konklusionen for drengene er den samme som for pigerne,<br />

nemlig at det kan antages, at middelværdier og varianser for længden af længdespringene ikke<br />

afhænger afar. ˚


Hovedpunkter til Afsnit 4.5<br />

Her resumeres hovedpunkterne om k observationsrækker.<br />

Modellen for k normalfordelte observationsrækker er, at data<br />

x11,...,x1 j,...,x1n1<br />

xi1,...,xi j,...,xini<br />

xk1,...,xk j,...,xknk<br />

er realisationer af uafhængige, normalfordelte stokastiske variable<br />

Modelkontrol<br />

M0 : Xi j ∼ N(μi,σ 2<br />

i ), j = 1,...,ni, i = 1,...,k.<br />

Fraktilsammenligning, hvis der er observationer nok, men mindst prikdiagrammer p˚ a samme<br />

ark papir, s˚ a man kan vurdere forskelle og ligheder.<br />

Estimation i M0<br />

4.73<br />

Man kan med fordel bruge beregningsskemaet for k observationsrækker side 4.33. Med nota-<br />

tionen herfra har man<br />

μi ← ¯xi· ∼∼ N(μi,<br />

σ 2<br />

i<br />

), i = 1,...,k,<br />

ni<br />

σ 2<br />

i ← s 2 2<br />

(i) ∼∼ σi χ 2 ( f (i))/ f (i), i = 1,...,k.<br />

Test af hypotesen om varianshomogenitet H01 : σ 2 1 = ··· = σ 2 k<br />

Bartlett test.<br />

Teststørrelse<br />

hvor<br />

og<br />

Ba(x) = −2lnQ(x)<br />

,<br />

C<br />

−2lnQ(x) = f01 lns 2 01<br />

C = 1+<br />

<br />

1 k<br />

∑<br />

3(k − 1) i=1<br />

k<br />

− ∑ f (i) lns<br />

i=1<br />

2 (i) ,<br />

1<br />

f (i)<br />

<br />

− 1<br />

<br />

.<br />

f01


4.74 Hovedpunkter til Afsnit 4.5<br />

Her er<br />

og<br />

s 2 01 =<br />

k<br />

∑<br />

f (i)s<br />

i=1<br />

2 (i)<br />

k<br />

∑ f (i)<br />

i=1<br />

SAK01 = k<br />

∑ SAK (i)<br />

i=1<br />

Testsandsynlighed, forudsat ni ≥ 3, i = 1,...,k,<br />

=<br />

k<br />

∑<br />

i=1<br />

SAK (i)<br />

k<br />

∑ f (i)<br />

i=1<br />

= SAK01<br />

,<br />

f01<br />

f01 = k<br />

∑ f (i) = n· − k.<br />

i=1<br />

ε(x) = 1 − F χ 2 (k−1) (Ba(x)),<br />

hvor F χ 2 (k−1) er fordelingsfunktionen for χ 2 -fordelingen med k − 1 frihedsgrader.<br />

Hvis H01 accepteres reduceres modellen til<br />

Estimation i M1<br />

Konfidensintervaller i M1<br />

μi ← ¯xi· ∼∼ N(μi,<br />

M1 : Xi j ∼ N(μi,σ 2 ).<br />

σ 2<br />

ni<br />

σ 2 ← s 2 01 = SAK01<br />

f01<br />

), i = 1,...,k,<br />

∼∼ σ 2 χ 2 ( f01)/ f01.<br />

(1 − α) konfidensintervallerne for middelværdien μi, variansen σ 2 og spredningen σ er:<br />

⎡ <br />

⎤<br />

μi ∈<br />

⎣ ¯xi· −t 1−α/2( f01)<br />

σ 2 ∈<br />

<br />

s 2 01<br />

s 2 01<br />

ni<br />

, ¯xi· +t 1−α/2( f01)<br />

s 2 01<br />

χ2 1−α/2 ( f01)/<br />

,<br />

f01 χ2 α/2 ( f01)/<br />

,<br />

f01<br />

⎡<br />

<br />

<br />

σ ∈ ⎣<br />

s2 01<br />

χ2 1−α/2 ( f01)/<br />

<br />

<br />

<br />

, <br />

s<br />

f01<br />

2 01<br />

χ2 α/2 ( f01)/<br />

⎤<br />

⎦.<br />

f01<br />

Test af hypotesen om ens middelværdier H02 : μ1 = ··· = μk<br />

Teststørrelse<br />

F(x) = s2 2<br />

s 2 01<br />

<br />

s 2 01<br />

ni<br />

⎦,


Testsandsynlighed<br />

ε(x) = 1 − F F(k−1,n·−k)(F(x)),<br />

4.75<br />

hvor F F(k−1,n·−k)er fordelingsfunktionen for F-fordelingen med k − 1 frihedsgrader i tælleren<br />

og n· − k frihedsgrader i nævneren.<br />

Her er<br />

og beregningsformlen for SAK2 er<br />

s 2 2<br />

SAK2 =<br />

= SAK2<br />

k − 1 ,<br />

k<br />

∑<br />

S 2 i<br />

i=1 ni<br />

<br />

− S2 ·<br />

.<br />

n·<br />

De størrelser, der indg˚ ar i beregningen findes i nederste ræ kke i kolonne 5, 2 og 3 i beregnings-<br />

skemaet side 4.33.<br />

Accepteres H02 reduceres modellen M1 til<br />

M2 : Xi j ∼ N(μ,σ 2 )<br />

som er modellen for én observationsrække blot med en anden indicering af de variable.<br />

Estimation i M2<br />

σ 2 ← s 2 02<br />

Konfidensintervaller i M2<br />

= SAK02<br />

n· − 1<br />

μ ← ¯x·· ∼∼ N(μ,<br />

σ 2<br />

n·<br />

),<br />

1<br />

=<br />

n· − 1 (SK· − S2 ·<br />

) ∼∼ σ<br />

n·<br />

2 χ 2 (n· − 1)/n· − 1,<br />

(1 − α) konfidensintervallerne for middelværdien μ, variansen σ 2 og spredningen σ er:<br />

⎡<br />

μ ∈ ⎣ ¯x·· −t1−α/2(n· − 1)<br />

σ 2 ∈<br />

<br />

<br />

s 2 02<br />

n·<br />

, ¯x·· +t 1−α/2(n· − 1)<br />

<br />

s 2 02<br />

s2 02<br />

χ2 1−α/2 (n· − 1)/(n· − 1) ,<br />

s2 02<br />

χ2 α/2 (n· − 1)/(n· − 1)<br />

⎡<br />

<br />

<br />

σ ∈ ⎣<br />

s2 02<br />

χ2 1−α/2 (n· − 1)/(n· − 1) ,<br />

<br />

<br />

<br />

<br />

s2 02<br />

χ2 α/2 (n·<br />

⎤<br />

⎦.<br />

− 1)/(n· − 1)<br />

n·<br />

<br />

⎤<br />

⎦,<br />

,


4.76 4.6 Lineær regression<br />

4.6 Lineær regression<br />

Omtalen af den lineære regressionsmodel kan naturligt opdeles i to dele. I Afsnit 4.6.1 omtales<br />

regression uden gentagelser og i Afsnit 4.6.2 omtales modellen, n˚ ar der forekommer gentagel-<br />

ser. Hypoteser vedrørende parameterne i en lineær regression er omtalt i Afsnit 4.6.3 og i Afsnit<br />

4.6.4 omtales et emne, der er relateret til regressionsmodellen, under overskriften ”Korrelation<br />

og/eller regression”.<br />

4.6.1 Lineær regression uden gentagelser<br />

Gennemgangen af lineær regression uden gentagelser er knyttet til Eksempel 4.6.<br />

Eksempel 4.6<br />

I forbindelse med fortræningen til et 100 km løb blev der foretaget et test med en af løberne.<br />

Testet blev foretaget ved hjælp af et løbeb˚ and, hvor belast ningen blev sat op hver 1 1 2 minut ved<br />

at hastigheden eller vinklen p˚ a b˚ andet blev sat op. Forude n at registrere tiden p˚ a b˚ andet m˚ alte<br />

Tue Lindstrøm, Institut for Idræt, blandt andet iltoptagelse, CO2 udskillelse, ventilation og puls.<br />

Da der g˚ ar et stykke tid fra løbet begynder, indtil hjertet r egistrerer belastningen, betragter vi<br />

kun m˚ alingerne fra 120 sekunder og fremefter. Sammenhøren de m˚ alinger af tid og puls for hvert<br />

1<br />

2 minut ses i tabellen nedenfor.<br />

tid(sek) puls tid(sek) puls<br />

120 162 390 178<br />

150 164 420 181<br />

180 165 450 182<br />

210 168 480 185<br />

240 171 510 187<br />

270 174 540 188<br />

300 172 570 188<br />

330 176 600 192<br />

360 177<br />

Det er ikke overraskende, at pulsen stiger med tiden, og vi indfører nu en model, den lineære<br />

regressionsmodel, som beskriver pulsens stigning med tiden.<br />

Vi opfatter tiden som en kendt eller deterministisk størrelse, som betegnes med t. I modsæt-<br />

ning hertil opfattes pulsen som en realisation af en stokastisk variabel. Vi fastholder traditionen<br />

med at betegne data, som er realisationer af stokastiske variable med x. Data, hvor den lineære<br />

regressionsmodel kan komme p˚ a tale, best˚ ar alts˚ a af talp ar (ti,xi),i = 1,...,n.


4.77<br />

I Figur 4.17 er der en tegning af de sammenhørende værdier af tid og puls, og der er indteg-<br />

net en ret linje midt igennem punktsværmen.<br />

Figur 4.17 Tegning af sammemhørende værdier af tid og puls.<br />

Punkterne i Figur 4.17 ligger tæt og ensartet omkring en ret linje, og p˚ a baggrund af tegnin-<br />

gen i Figur 4.17 beslutter man sig for den lineære regressionsmodel:<br />

xi ∼∼ N(α + βti,σ 2 ), i = 1,...,n.<br />

Der er to karakteristiske træk ved modellen, for det første er middelværdien for x’erne en<br />

lineær funktion af t, og for det andet er variansen p˚ a xi den samme for alle i. Den lineære<br />

middelværdi kontrollerer man p˚ a tegningen ved at se efter, om punkterne ligger omkring en ret<br />

linje. Hvis punktsværmen krummer, for eksempel som en banan, tyder det p˚ a, at middelværdien<br />

af x’erne ikke er en lineær funktion af t. Hvis observationerne har konstant varians, vil punkterne<br />

ligge i et b˚ and omkring linjen af nogenlunde konstant bredd e. En typisk afvigelse fra hypotesen<br />

om konstant varians er, at variansen afhænger af t, s˚ a observationerne spreder sig mere for store<br />

eller sm˚ a værdier af t.<br />

Vi skal senere i Afsnit 4.6.2 se, at man under specielle omstændigheder kan teste b˚ ade<br />

hypotesen om, at middelværdien er en lineær funktion af t og hypotesen om konstant varians,<br />

men oftest er en tegning den eneste kontrol af modellen, inden man begynder at regne.<br />

Vi forlader nu Eksempel 4.6 for at se, hvordan man estimerer i regressionsmodellen.


4.78 4.6 Lineær regression<br />

Model<br />

Modellen for lineær regression svarende til talparrene (ti,xi), i = 1,...,n, er<br />

M2 : Xi ∼ N(α + βti,σ 2 ), i = 1,...,n, (4.45)<br />

og Xi’erne er uafhængige. Modellen omtales som lineær regression af x p˚ a t. Den rette linje<br />

x(t) = α + βt kaldes regressionslinjen. Parameteren α er afskæringen af andenaksen og β er<br />

hældningskoefficienten. Parameteren α kaldes afskæringen eller undertiden positionen, og β<br />

kaldes hældningen eller regressionskoefficienten. De to variable x og t betegnes som henholdsvis<br />

den afhængige variabel og den uafhængige variabel. Denne sprogbrug er inspireret af, at x<br />

opfattes som funktion af t. Undertiden kaldes x for responsen og t for den forklarende variabel.<br />

Hvis alle t’erne er forskellige taler vi om en lineær regression uden gentagelser. Det er<br />

naturligvis overflødigt at tale om en regressionslinje, før man har mindst to punkter, den skal<br />

g˚ a igennem, s˚ a derfor betragter man ikke regressionsmode llen med mindre man har mindst to<br />

forskellige værdier af den forklarende variabel.<br />

Estimation<br />

Estimaterne ˆα og ˆ β for parametrene α og β i regressionsmodellen M2 findes som de værdier af<br />

α og β som miminerer kvadratsumsafvigelsen<br />

n<br />

∑<br />

i=1<br />

(xi −(α + βti)) 2 ,<br />

som er et m˚ al for afstanden mellem observationerne x og linjen α + βt. Metoden omtales som<br />

mindste kvadraters metode. Det kan vises, at i M2 er ˆα og ˆ β maksimum likelihood estimaterne<br />

for α og β.<br />

Hvis n, ¯t· og ¯x· betegner henholdsvis det totale antal observationer, gennemsnittet af t-erne<br />

og gennemsnittet af x-erne, det vil sige<br />

¯t· = 1<br />

n<br />

bestemmes estimaterne for α og β som<br />

og<br />

ˆβ =<br />

n<br />

∑<br />

i=1<br />

ti, ¯x· = 1<br />

n<br />

n<br />

∑<br />

i=1<br />

n<br />

∑ (xi − ¯x·)(ti − ¯t·)<br />

i=1<br />

n<br />

∑ (ti − ¯t·)<br />

i=1<br />

2<br />

xi,<br />

(4.46)<br />

ˆα = ¯x· − ˆ β ¯t·. (4.47)


I dansk litteratur bruges betegnelserne<br />

SAPxt =<br />

for summen af afvigelsernes produkt og<br />

n<br />

∑<br />

i=1<br />

SAKt =<br />

(xi − ¯x·)(ti − ¯t·)<br />

n<br />

∑<br />

i=1<br />

(ti − ¯t·) 2<br />

for summen af afvigelsernes kvadrater. Formel (4.46) bliver da<br />

ˆβ = SAPxt<br />

.<br />

SAKt<br />

Variansen σ 2 estimeres i regressionsmodellen M2 ved<br />

hvor SAK02 er residualkvadratsummen<br />

s 2 02<br />

SAK02 =<br />

4.79<br />

= 1<br />

n − 2 SAK02, (4.48)<br />

n<br />

∑<br />

i=1<br />

(xi −( ˆα + ˆ βti)) 2 .<br />

Navnet p˚ a denne kvadratsum skyldes, at størrelserne<br />

ri = xi −( ˆα + ˆ βti), i = 1,...,n<br />

kaldes (de observerede) residualer i regressionsmodellen M2.<br />

Ifølge (4.45) er<br />

Xi −(α + βti) ∼ N(0,σ 2 ), i = 1,...,n,<br />

og erstatter vi her α og β med estimaterne ˆα og ˆ β ar f˚ vi residualerne Ri som approksimativt er<br />

normalfordelt med middelværdi 0 og varians σ 2 , det vil sige<br />

Ri = Xi −( ˆα + ˆ βti) ≈ N(0,σ 2 ), i = 1,...,n.<br />

Antagelsen, om at observationerne i en regressionsanalyse er normalfordelte, kan derfor un-<br />

dersøges ved at lave en fraktilsammenligning p˚ a grundlag a f residualerne ri, i = 1,...,n. I en<br />

regression uden gentagelser er det den eneste mulighed for at undersøge antagelsen om norma-<br />

litet.


4.80 4.6 Lineær regression<br />

Beregningsformler<br />

Af beregningsskemaet nedenfor ses, at estimaterne i M2 kan beregnes ud fra de 6 størrelser:<br />

og<br />

St =<br />

SKt =<br />

n<br />

∑<br />

i=1<br />

n<br />

∑<br />

i=1<br />

n<br />

ti, Sx =<br />

n<br />

∑<br />

i=1<br />

t 2 i , SKx =<br />

SPxt =<br />

n<br />

∑<br />

i=1<br />

xiti.<br />

xi,<br />

n<br />

∑<br />

i=1<br />

x 2 i ,<br />

x t<br />

n n<br />

S Sx St<br />

SK SKx SKt<br />

SP SPxt<br />

SAK SKx − S2 x<br />

n<br />

SAP SPxt − SxSt<br />

n<br />

ˆβ<br />

ˆα<br />

SAK02<br />

s 2 02<br />

SAPxt<br />

SAKt<br />

1<br />

<br />

Sx −<br />

n<br />

ˆ <br />

βSt<br />

SAKx − SAP2 xt<br />

SAKt<br />

1<br />

n − 2 SAK02<br />

SKt − S2 t<br />

n<br />

Fordelingen til estimaterne i modellen M2 er anført nedenfor.<br />

<br />

ˆα ∼∼ N α,σ 2<br />

<br />

<br />

ˆβ ∼∼ N β,<br />

1<br />

n + ¯t 2 ·<br />

SAKt<br />

σ 2<br />

SAKt<br />

ˆα + ˆ <br />

βt ∼∼ N α + βt,σ 2<br />

<br />

1<br />

n + (t − ¯t·) 2<br />

SAKt


s 2 02 ∼∼ σ 2 χ 2 ( f02)/ f02,<br />

4.81<br />

hvor f02 = n − 2. Desuden har man brug for at vide, at fordelingen til ( ˆα, ˆ β) er uafhængig af<br />

fordelingen til s 2 02 , samt at ˆ β og ¯x· er uafhængige.<br />

Varianserne p˚ a estimaterne er interessante.<br />

Variansen p˚ a ˆ β er σ 2 /SAKt, s˚ a jo større SAKt, desto mindre varians, og desto bedre er β<br />

estimeret. SAKt er et m˚ al for den uafhængige variabels variationsomr˚ ade. Jo større variations-<br />

omr˚ ade den uafhængige variabel har, desto større er SAKt, og desto bedre er β estimeret. Dette<br />

bør man have for øje, hvis man udfører et førsøg, hvor man selv kan vælge værdierne af t.<br />

Variansen p˚ a ˆα viser, at α kan være meningsløs at fortolke, hvis de uafhængige variable<br />

ligger langt væk fra 0. I de situationer gør faktoren ¯t 2 ·<br />

p˚ a ˆα bliver stor.<br />

estimatet for α upræcist, idet variansen<br />

Variansen p˚ a ˆα + ˆ βt afhænger af den uafhængige variabel t gennem (t − ¯t·) 2 . Variansen er<br />

mindst for t = ¯t·, og da er variansen σ 2 /n, hvilket passer smukt med, at ˆα + ˆ β ¯t· = ¯x·.<br />

ˆα + ˆ βt er alts˚ a bedst bestemt for værdier af t midt i variationsomr˚ adet for den uafhængige<br />

variabel.<br />

Konfidensintervaller for parametrene i regressionsmodellen<br />

(1 − α) konfidensinterval for α<br />

<br />

ˆα −t1−α/2( f02) s2 <br />

1<br />

02 n + ¯t 2 <br />

<br />

·<br />

, ˆα +t1−α/2( f02) s<br />

SAKt<br />

2 <br />

1<br />

02 n + ¯t 2 <br />

·<br />

SAKt<br />

<br />

. (4.49)<br />

Ved konkrete beregninger p˚ a lommeregner af konfidensinter vallet for α, er det nyttigt at be-<br />

mærke, at<br />

1<br />

n + ¯t 2 ·<br />

SAKt<br />

= SKt<br />

,<br />

nSAKt<br />

og n, SKt og SAKt findes let i beregningsskemaet til lineær regression.<br />

(1 − α) konfidensinterval for β<br />

⎡<br />

⎣ ˆ β −t1−α/2( f02)<br />

<br />

s 2 02<br />

SAKt<br />

, ˆ β + t 1−α/2( f02)<br />

<br />

s 2 02<br />

⎤<br />

⎦. (4.50)<br />

SAKt<br />

(1 − α) konfidensinterval for α + βt<br />

<br />

ˆα + ˆ <br />

βt −t1−α/2( f02) s2 <br />

1<br />

02 n + (t − ¯t·) 2<br />

<br />

, ˆα +<br />

SAKt<br />

ˆ <br />

βt +t1−α/2( f02) s2 <br />

1<br />

02 n + (t − ¯t·) 2<br />

<br />

SAKt<br />

<br />

.<br />

(4.51)


4.82 4.6 Lineær regression<br />

α + βt er middelværdien af observationer, som svarer til værdien t af den uafhængige variabel.<br />

Undertiden er form˚ alet med en lineær regressionsmodel at k unne forudsige middelværdien af<br />

observationerne til forskellige værdier af t. I de tilfælde bliver (1 − α) konfidensintervallet for<br />

α + βt interessant.<br />

(1 − α) konfidensinterval for σ 2<br />

<br />

s 2 02<br />

s 2 02<br />

χ2 1−α/2 ( f02)/<br />

,<br />

f02 χ2 α/2 ( f02)/ f02<br />

<br />

, (4.52)<br />

hvor χ 2 1−α/2 ( f02)/ f02 og χ 2 α/2 ( f02)/ f02 er henholdsvis 1−α/2 og α/2 fraktil for χ 2 ( f02)/ f02-<br />

fordelingen med f02 = n − 2 frihedsgrader.<br />

Eksempel 4.6 (Fortsat)<br />

For data i dette eksempel bliver beregningsskemaet p˚ a side 4.80.<br />

x(puls) t(tid)<br />

n 17<br />

S 3010 6120<br />

SK 534310 2570400<br />

SP 1105830<br />

SAK 1362.941 367200<br />

SAP 22230<br />

ˆβ 0.0605<br />

ˆα 155.2647<br />

SAK02<br />

s 2 02<br />

17.15441<br />

1.14363<br />

Den estimerede regressionslinje, som er indtegnet i Figur 4.17, har alts˚ a ligningen<br />

x(t) = 155.2647+0.0605t.<br />

Som kontrol af normalfordelingsantagelsen i regressionsmodellen M2 laver vi et fraktildia-<br />

gram for residualerne<br />

ri = xi −(155.2647+0.0605ti), i = 1,...,17.<br />

Fraktildiagrammet, som er vist i Figur 4.18, giver ikke anledning til at betvivle antagelsen om<br />

normalitet, idet punkterne varierer omkring en ret linje uden systematiske afvigelser. Desuden<br />

ser det ud til at residualerne har middelværdi 0.


Figur 4.18 Fraktildiagram for residualerne i Eksempel 4.6.<br />

4.83<br />

Ved hjælp af formlerne (4.49), (4.50) og (4.52) finder vi følgende 95% konfidensintervaller<br />

for α, β og σ 2 :<br />

α ∈ [155.2647 − 2.131 · 0.68622,155.2647+2.131 · 0.68622]= [153.8024,156.7270],<br />

β ∈ [0.0605 − 2.131 · 0.001765,0.0605+2.131 · 0.001765]= [0.0567,0.0643],<br />

σ 2 <br />

1.14363 1.14363<br />

∈ , = [0.62048,2.84414].<br />

1.8326 0.4175<br />

4.6.2 Lineær regression med gentagelser<br />

Teorien bliver gennemg˚ aet i forbindelse med Eksempel 4.7.<br />

Eksempel 4.7<br />

Data i dette eksempel er tiderne i finalerne for kvinder p˚ a lø bedistancerne 200 m, 400 m og 800<br />

m ved olympiaden i Sydney iar ˚ 2000. Det er oplagt, at varians en p˚ a tiderne for de 8 kvinder<br />

i finalen vokser med distancen. Vi betragter derfor tiderne per 100 m og ønsker at undersøge,<br />

hvordan disse afhænger af distancen. Tiderne angivet i sekunder med tre decimalers nøjagtighed


4.84 4.6 Lineær regression<br />

findes i tabellen nedenfor og indtegnet i Figur 4.19.<br />

tider per 100 m<br />

distance<br />

200 m 400 m 800 m<br />

10.920 12.278 14.519<br />

11.135 12.395 14.580<br />

11.140 12.430 14.600<br />

11.175 12.448 14.814<br />

11.185 12.490 14.820<br />

11.210 12.513 14.833<br />

11.265 12.530 14.844<br />

11.330 12.760 14.909<br />

Bedømt ud fra Figur 4.19, ser det ud til, at variansen for de tre observationsrækker p˚ a hver<br />

8 observationer svarende til de tre distancer kan antages, at være ens. Desuden ser, det ud til at<br />

middelværdien vokser lineært med distancen. <br />

Figur 4.19 Tider per 100 m for kvindernes finaler p˚ a distancerne 200 m, 4 00 m og 800 m ved<br />

olympiaden i Sydneyar ˚ 2000.


Modeller og test<br />

4.85<br />

Vi annoncerede side 4.77, at man under specielle omstændigheder kunne teste hypotesen om<br />

konstant varians og hypotesen om lineær regression. Det kan man, hvis flere observationspar<br />

har den samme værdi af den uafhængige variabel, s˚ a en sorter ing af data efter værdierne af den<br />

uafhængige variabel viser, at data kan opdeles i k observationsrækker:<br />

Afhængig variabel: Uafhængige variabel:<br />

x11,...,x1 j,...,x1n1 t1 j = t1, j = 1,...,n1<br />

xi1,...,xi j,...,xini ti j = ti, j = 1,...,ni<br />

xk1,...,xk j,...xknk tk j = tk, j = 1,...,nk<br />

De ni observationer i gruppe i har samme værdi af den uafhængige variabel, og den fælles værdi<br />

betegnes med ti.<br />

N˚ ar data har denne struktur, begynder man med at antage grun dmodellen<br />

M0 : Xi j ∼ N(μi,σ 2<br />

i ), i = 1,...,k, j = 1,...,ni,<br />

som m˚ aske kan kontrolleres med fraktildiagrammer i de k observationsrækker, hvis der er ob-<br />

servationer nok. Derefter kan man teste reduktionen til modellen<br />

M1 : Xi j ∼ N(μi,σ 2 ), i = 1,...,k, j = 1,...,ni,<br />

ved at teste hypotesen H01 : σ 2 1 = ···=σ 2 k = σ 2 med Bartletts test, som blev introduceret i Afsnit<br />

4.5. Hvis reduktionen til M1 accepteres, kan man teste reduktionen til regressionsmodellen<br />

M2 : Xi j ∼ N(α + βti,σ 2 ), i = 1,...,k, j = 1,...,ni,<br />

ved at teste hypotesen H02 : μi = α +βti. Dette test er et typisk variansanalyse test, som baserer<br />

sig p˚ a at vurdere, hvor meget variansskønnet ændrer sig, me llem de to modeller M1 og M2, set<br />

i forhold til variansskønnet under den sidst accepterede model M1.<br />

Variansskønnet i modellen M1 er<br />

s 2 01<br />

1<br />

= SAK01,<br />

f01<br />

og det er velkendt, at f01 = n − k. Det er ligeledes velkendt, at man finder f01, SAK01 og s2 01 , i<br />

sidste række i det manuelle beregningsskema, side 4.33.<br />

Tilsvarende er variansskønnet i regressionsmodellen M2<br />

s 2 02<br />

1<br />

= SAK02,<br />

f02


4.86 4.6 Lineær regression<br />

og SAK02 og s2 02 findes i det manuelle beregningsskema side 4.80.<br />

N˚ ar man har disse størrelser, kan testet for reduktionen fr a M1 til M2 beregnes som<br />

F(x) =<br />

SAK02 − SAK01<br />

f02 − f01<br />

s 2 01<br />

= s2 2<br />

s2 . (4.53)<br />

01<br />

Teststørrelsen skal vurderes i en F-fordeling med f2 = f02 − f01 = (n−2)−(n−k) = k −2 fri-<br />

hedsgrader i tælleren og f01 = n−k frihedsgrader i nævneren. Kun store værdier af teststørrelsen<br />

er kritiske for H02, s˚ a testsandsynligheden beregnes som<br />

ε(x) = 1 − F F(k−2,n−k)(F(x)),<br />

hvor F F(k−2,n−k) er fordelingsfunktionen for F-fordelingen med f2 = k − 2 frihedsgrader i tæl-<br />

leren og f01 = n − k frihedsgrader i nævneren. Det bemærkes, at n her betegner det totale antal<br />

af observationer. Dette antal er tidligere i forbindelse med modellen for k observationsrækker<br />

blevet betegnet med n·.<br />

Det kan vises, at<br />

SAK2 = SAK02 − SAK01 =<br />

k<br />

∑<br />

i=1<br />

ni( ¯xi· −( ˆα + ˆ βti)) 2<br />

som er et m˚ al for hvor meget gennemsnittene ¯xi· varierer omkring det estimerede regressions-<br />

linje ˆα + ˆ βt. Idet SAK01 = ∑ k i=1 ∑ ni<br />

j=1 (xi j − ¯xi·) 2 er m˚ al for variationen inden for grupperne ses<br />

det, at F-testet i (4.53) forkaster, hvis variationen omkring regressionslinjen er for stor i forhold<br />

til variationen inden for grupper, se Figur 4.21.<br />

Eksempel 4.7 (Fortsat)<br />

I Figur 4.20 ses fraktildiagrammet for de tre observationsrækker svarende til de tre distancer.<br />

Figuren giver ikke anledning til at betvivle modellen M0.<br />

Udskriften fra Excel nedenfor viser beregningsskemaet side 4.33 for disse data:<br />

σ 2 2 = σ 2 3<br />

£¢ £¢ £¨¤¢© ¥¦ ¢ ¦¦ ¦ ¦ ¦¦¦¦¦ ¦ ¦¦¦ ¦ ¦¦ ¡¢<br />

Ud<br />

£¤¢<br />

fra<br />

¥¦§¡¢<br />

dette<br />

¢©<br />

beregnes<br />

¢©<br />

Bartlett testet for hypotesen om varianshomogenitet H01 : σ ¦¦¦¦¦¦ ¦ ¦ ¦ 2 1 =<br />

let. Idet<br />

bliver teststørrelsen<br />

C = 1.06349 og − 2lnQ(x) = 0.31229,<br />

Ba(x) = 0.31229<br />

= 0.29365<br />

1.06349


og testsandsynligheden<br />

s˚ a H01 accepteres.<br />

Figur 4.20 Fraktildiagram for tiderne per 100m i Eksempel 4.7.<br />

ε(x) = 1 − F χ 2 (2) (0.29365) = 0.863,<br />

For disse data er beregningsskemaet side 4.80<br />

x(tid) t(distance)<br />

n 24<br />

S 307.123 11200<br />

SK 3982.754245 6720000<br />

SP 152144.8<br />

SAK 52.565198 1493333.3333<br />

SAP 8820.7333<br />

ˆβ 0.00591<br />

ˆα 10.04031<br />

SAK02<br />

s 2 02<br />

Ved hjælp af de to beregningsskemaer finder vi, at<br />

0.46341<br />

0.02106<br />

SAK2 = SAK02 − SAK01 = 0.46341 − 0.38868 = 0.07473,<br />

4.87


4.88 4.6 Lineær regression<br />

Figur 4.21 Tider per 100 m for kvindernes finaler p˚ a distancerne 200 m, 4 00 m og 800 m ved<br />

olympiaden i Sydneyar ˚ 2000 samt den estimerede regression slinje. Gennemsnittene for de tre<br />

distance er markeret med ·.<br />

s˚ a F-teststørrelse i (4.53) bliver<br />

Da<br />

F(x) = 0.07473/1<br />

= 4.038 ∼∼ F(1,21).<br />

0.38868/21<br />

ε(x) = 1 − F F(1,21)(4.038) = 0.058.<br />

accepteres hypotesen om lineær regression H02 : μi = α + βti lige netop ved test p˚ a niveau 5%.<br />

(Benyttes Statistical Tables ar f˚ vi samme konklusion, idet F(x) = 4.038 < F0.95(1,21) = 4.32.)<br />

Af det beregningsskemaet oven for ses, at det estimerede regressionslinje for sammenhæn-<br />

gen mellem tid per 100 m og distancen har ligningen<br />

til<br />

x(t) = 10.04031+0.00591t. (4.54)<br />

Ved hjælp af formlerne (4.49), (4.50) og (4.52) findes konfidensintervallerne for α, β og σ 2<br />

α ∈ [10.04031 − 2.074 · 0.06284,10.04031+2.074 · 0.06284]= [9.90998,10.17064],<br />

β ∈ [0.00591 − 2.074 · 0.0001187,0.00591+2.074 · 0.0001187]= [0.00566,0.00616],


σ 2 ∈<br />

<br />

0.02106 0.02106<br />

, = [0.01260,0.04219].<br />

1.6719 0.4992<br />

Ønsker vi at angive et skøn over tiden per 100 m for en distance p˚ a 600 m indsætter vi<br />

t = 600 i formel (4.54) og finder<br />

x(600) = 10.04031+0.00591 · 600 = 13.586.<br />

Ifølge (4.51) er 95% konfidensintervallet for dette skøn<br />

[13.586 − 2.074 · 0.03359,13.586+2.074 · 0.03359]= [13.516,13.656].<br />

4.89<br />

Figur 4.22 Tider per 100 m for kvindernes finaler i samtlige løbedistancer, 100 m, 200 m, 400<br />

m, 800 m, 1500 m, 5000 m, 10000 m og marathon, ved olympiaden i Sydneyar ˚ 2000.<br />

Man skal som regel altid være meget forsigtig med at anvende formlen for den estimerede<br />

regressionslinje x(t) = ˆα + ˆ βt til angive skøn for den afhængige variabel x svarende til værdi-<br />

er af den uafhængige variable t, der ligger udenfor det omr˚ ade af t-værdier, der er benyttet til<br />

at bestemme linjen. S˚ aledes ogs˚ a i dette eksempel. Figur 4 .22 viser tiden per 100 m for de 8<br />

bedst placerede i samtlige løbedistancer for kvinder ved olympiaden i Sydney 2000, det vil sige<br />

for distancerne 100 m, 200 m, 400 m, 800 m, 1500 m, 3000 m, 5000 m, 10000 m og 42195<br />

m(marathon). Det fremg˚ ar tydeligt af figuren, at den lineær e sammenhæng mellem tid per 100


4.90 4.6 Lineær regression<br />

m og distancen, som vi fandt for distancerne 200 m, 400 m og 800 m, ikke gælder for de længste<br />

distancer. <br />

4.6.3 Hypoteser om regressionsparametrene<br />

Vi betragter hypoteserne med kendt hældning eller kendt afskæring og de modeller det leder til.<br />

Sammenhængen mellem modellerne og hypoteserne, der forbinder dem, kan fremstilles grafisk:<br />

M3 : Xi ∼ N(α + β0ti,σ 2 )<br />

H03 : β = β0 ր ց H04 : α = α0<br />

M2 : Xi ∼ N(α + βti,σ 2 ) M4 : Xi ∼ N(α0 + β0ti,σ 2 )<br />

H∗ 03 : α = α0 ց ր H∗ 04 : β = β0<br />

M ∗ 3 : Xi ∼ N(α0 + βti,σ 2 )<br />

Vi giver alle test for hypoteserne og estimaterne for parametrene i modellerne. Man skal be-<br />

mærke, at b˚ ade H∗ 03 og H04 er test for α = α0, men dermed hører enhver lighed op. Der er tale<br />

om reduktion fra to forskellige modeller til to forskellige modeller og testene er derfor forskel-<br />

lige. N˚ ar man tester H04, har man accepteret, at β er kendt og dermed modellen M3, og i den<br />

model har estimatet for α - som det ses nedenfor - en mindre varians end estimatet for α i M2.<br />

Tilsvarende kommentarer gælder om hypoteserne H03 og H∗ 04 , om at β = β0.<br />

Test af H03 : β = β0.<br />

Teststørrelse<br />

Testsandsynlighed<br />

Estimater for parametrene i M3 :<br />

t(x) = ˆ β − β0<br />

<br />

s2 02 /SAKt<br />

ε(x) = 2 1 − F t(n−2)(|t(x)|) <br />

α ← ˆαM3 = ¯x· − β0¯t· σ 2<br />

∼∼ N(α,<br />

n )<br />

σ 2 ← s 2 1 n<br />

2<br />

03 = ∑ {xi −( ˆαM3 + β0ti)}<br />

n − 1 i=1<br />

= 1<br />

<br />

SAK02 +(<br />

n − 1<br />

ˆ β − β0) 2 <br />

SAKt<br />

∼∼σ 2 χ 2 (n − 1)/(n − 1)<br />

(4.55)


Test af H∗ 03 : α = α0.<br />

Teststørrelse<br />

Testsandsynlighed<br />

Estimater for parametrene i M ∗ 3 :<br />

Test af H ∗ 04 : β = β0 :<br />

Teststørrelse<br />

Testsandsynlighed<br />

β ← ˆ βM ∗ 3 =<br />

t(x) = <br />

s 2 02<br />

ˆα − α0<br />

1<br />

n + ¯t 2 ·<br />

SAKt<br />

<br />

ε(x) = 2 1 − F t(n−2)(|t(x)|) <br />

n<br />

∑ ti(xi − α0)<br />

i=1<br />

n<br />

∑<br />

i=1<br />

σ 2 ← s ∗2 1<br />

03 =<br />

Estimat for parameteren i M4 :<br />

t 2 i<br />

n − 1<br />

= 1<br />

n − 1<br />

n<br />

∑<br />

i=1<br />

= SPxt − α0St<br />

SKt<br />

{xi −(α0 + ˆ βM ∗ 3<br />

σ 2<br />

∼∼ N(β, )<br />

SKt<br />

ti)} 2<br />

<br />

SKx + nα 2 0 − 2α0Sx − ˆ β 2 M ∗ 3 SKt<br />

∼∼σ 2 χ 2 (n − 1)/(n − 1)<br />

t(x) =<br />

ˆβM ∗ − β0 3 <br />

s∗2 03 /SKt<br />

= SPxt − α0St − β0SKt<br />

<br />

s∗2 03SKt ∼∼ t(n − 1)<br />

ε(x) = 2 1 − F t(n−1)(|t(x)|) <br />

σ 2 ← s 2 04 = 1 n<br />

∑ {xi −(α0 + β0ti)}<br />

n i=1<br />

2<br />

= 1 <br />

SKx + nα<br />

n<br />

2 0 + β 2 0 SKt<br />

<br />

− 2α0Sx − 2β0SPxt + 2α0β0St<br />

∼∼σ 2 χ 2 (n)/(n)<br />

<br />

4.91


4.92 4.6 Lineær regression<br />

Test af H04 : α = α0 :<br />

Teststørrelse<br />

Testsandsynlighed<br />

Estimat for parameteren i M4 :<br />

Variansanalysetabellen<br />

t(x) =<br />

ˆαM3 − α0<br />

<br />

s 2 03 /n<br />

= Sx − β0St − α0n<br />

<br />

s2 03n ∼∼ t(n − 1)<br />

ε(x) = 2 1 − F t(n−1)(| t(x) |) <br />

σ 2 ← s 2 04 = 1 n<br />

∑ {xi −(α0 + β0ti)}<br />

n i=1<br />

2<br />

= 1 <br />

SKx + nα<br />

n<br />

2 0 + β 2 0 SKt<br />

<br />

− 2α0Sx − 2β0SPxt + 2α0β0St<br />

∼∼σ 2 χ 2 (n)/(n).<br />

For en regressionsanalysen med gentagelser kan beregningerne resumeres i variansanalyseta-<br />

bellen:<br />

Variationskilde SAK f g s 2 F ε<br />

regression SAK3 1 s 2 3 s 2 3 /s2 02 1 − F F(1,n−2)(F)<br />

omkring linjen SAK2 k − 2 s 2 2 s 2 2 /s2 01 1 − F F(k−2,n−k)(F)<br />

inden for grupper SAK01 n − k s 2 01<br />

I alt SAK03 n − 1<br />

I linjen regression svarer kvadratsummen SAK3 til testet for hypotesen H03 : β = 0, svarende til<br />

at alle observationerne har middelværdi α. F-teststørrelsen i denne linje er<br />

F(x) = s2 3<br />

s2 =<br />

02<br />

ˆ β 2SAKt s2 02<br />

=<br />

⎛<br />

⎝ ˆ β − 0<br />

<br />

s2 02 /SAKt<br />

⎞<br />

⎠<br />

2<br />

= (t(x)) 2 ,<br />

hvor t(x) er t-teststørrelsen i (4.55) for hypotesen H03. Desuden er SAK03 = SAKx.


4.93<br />

For en regressionsanalyse uden gentagelser er variationen inden for grupper, SAK01, lig med<br />

0, s˚ a linjen inden for grupper fjernes fra tabellen som ar f˚ udseendet:<br />

Eksempel 4.6 (Fortsat)<br />

Variationskilde SAK f g s 2 F ε<br />

regression SAK3 1 s 2 3 s 2 3 /s2 02 1 − F F(1,n−2)(F)<br />

omkring linjen SAK02 n − 2 s 2 02<br />

I alt SAK03 n − 1<br />

I dette eksempel svarer hypotesen H03 : β = 0 til at pulsen ikke afhænger af tiden p˚ a løbeb˚ andet,<br />

idet regressionslinjen under H03 ar f˚ ligningen x(t) = α. Fra beregningsskemaet p˚ a side 4.82<br />

finder man de størrelser, der benyttes i t-testet for H03, som bliver<br />

t(x) =<br />

0.0605<br />

1.14363/367200 = 34.2818 ∼∼ t(15).<br />

Testsandsynligheden er 1.11 · 10−15 , s˚ a H03 forkastes som forventet. Pulsen afhænger alts˚ a af<br />

tiden p˚ a løbeb˚ andet.<br />

Ifølge udskriften fra Excel p˚ a side 4.102 er variansanalysetabellen for data i dette ek sempel<br />

som vist nedenfor. (Resultaterne i tabellen vedrørende testet for H03 adskiller sig lidt fra den<br />

ovenfor, fordi vi her har brugt afrundede størrelser i beregningerne.)<br />

Variationskilde SAK f g s 2 F ε<br />

regression 1345.787 1 1345.787 1176.387 1.14 · 10 −15<br />

omkring linjen 17.154 15 1.144<br />

I alt 1362.941 16<br />

Eksempel 4.7 (Fortsat)<br />

Variansanalysetabellen for disse data er:<br />

Variationskilde SAK f g s 2 F ε<br />

regression 52.10178 1 52.10178 2473.488 4.22 · 10 −24<br />

omkring linjen 0.07473 1 0.07473 4.038 0.058<br />

inden for grupper 0.38868 21 0.01851<br />

I alt 52.56519 23


4.94 4.6 Lineær regression<br />

4.6.4 Korrelation og/eller regression<br />

Teorien gennemg˚ as i forbindelse med Eksempel 4.8.<br />

Eksempel 4.8<br />

Vi betragter igen eksperimentet i Eksempel 4.6 udført af Tue Lindstrøm, Institut for Idræt, hvor<br />

der foruden tiden p˚ a løbeb˚ andet blev m˚ alt forskellige fy siologiske størrelser, blandt andre puls<br />

og iltoptagelse. I Eksempel 4.6 s˚ a vi, at pulsens afhængigh ed af tiden kunne beskrives ved hjælp<br />

af en lineær regressionsmodel. Her betragter vi sammenhørende m˚ alinger af pulsen og iltopta-<br />

gelsen(i l/min) foretaget første gang efter 2 minutter og derefter hvert 1 2 minut. Resultaterne er<br />

vist i tabellen nedenfor.<br />

puls iltoptagelse puls iltoptagelse<br />

162 3.130 178 3.832<br />

164 3.137 181 3.111<br />

165 3.060 182 4.054<br />

168 3.873 185 3.762<br />

171 3.322 187 4.102<br />

174 3.716 188 4.289<br />

172 3.413 188 4.171<br />

176 3.488 192 4.237<br />

177 3.630<br />

Vi er her interesserede i at undersøge, om der er en sammenhæng mellem pulsen og iltopta-<br />

gelsen. Situationen her er forskellig fra den i Eksempel 4.6 hvor vi studerede sammenhørende<br />

af tiden og pulsen, idet vi da antog, at tiden var deterministisk (kendt) mens pulsen var ud-<br />

fald en realisation af en stokastisk variabel. Her er b˚ ade p ulsen og iltoptagelsen realisationer<br />

af stokastiske variable. Vi kan for eksempel ikke før forsøgets start med sikkerhed sige, hvad<br />

pulsen og iltoptaget er efter 4 1 2 minuts løb p˚ a b˚ andet. Lader vi (x1i,x2i), i = 1,...,17, betegne<br />

det i’te sæt af sammenhørende værdier af puls og iltoptagelse er (x1i,x2i) en realisation af<br />

en todimensional stokastisk vektor og vil betragte (x11,x21),...,(x1n,x2n) som én observations-<br />

række af længde n = 17 fra den todimensionale normalfordeling, som er omtalt i Afsnit 3.1.2. <br />

Én observationsrække fra den todimensionale normalfordeling<br />

Vi betragter modellen<br />

M0 : Xi = (X1i,X2i) ∼ N2((μ1, μ2),Σ),


hvor<br />

Figur 4.23 Data i Eksempel 4.8. Sammenhørende værdier af puls og iltoptagelse.<br />

Σ =<br />

σ 2 1 ρσ1σ2<br />

ρσ1σ2<br />

σ 2 2<br />

<br />

.<br />

4.95<br />

Her betegner μi og σ 2<br />

i middelværdien og variansen for Xi, i = 1,2, og ρ er korrelationen mellem<br />

de to komponenter af Xi.<br />

Modelkontrol<br />

Af formel (3.19) as, f˚ at i modellen M0 er observationsrækken best˚ aende af førstekomponenterne<br />

x11,...,x1i,...,x1n normalfordelt med middelværdi μ1 og varians σ 2 1<br />

og tilsvarende er observa-<br />

tionsrækken best˚ aende af andenkomponenterne x21,...,x2i,...,x2n normalfordelt med middel-<br />

værdi μ2 og varians σ 2 2 . En del af kontrollen af M0 best˚ ar derfor af to fraktilsammenligninger<br />

for henholdsvis første- og andenkomponenterne.<br />

eller<br />

Formel (3.21) medfører, at<br />

X2i |X1i = x1i ∼ N(μ2 +(x1i − μ1) ρσ2<br />

,σ 2 2 (1 − ρ2 ))<br />

σ1<br />

X2i |X1i = x1i ∼ N(α + βx1i,σ 2 ), (4.56)


4.96 4.6 Lineær regression<br />

hvor<br />

og<br />

ρσ2<br />

α = μ2 − μ1 , (4.57)<br />

β = ρσ2<br />

σ1<br />

σ1<br />

(4.58)<br />

σ 2 = σ 2 2 (1 − ρ2 ). (4.59)<br />

Hvis førstekomponenterne x11,...,x1i,...,x1n betragtes som faste, siger formel (4.56), at vi har<br />

en lineær regression med førstekomponenterne som uafhængige variable og andenkomponen-<br />

terne som afhængige variable. Af symmetrigrunde har vi ogs˚a en lineær regression med an-<br />

denkomponenterne som uafhængige variable og førstekomponenterne som afhængige variable.<br />

Modellen M0 kan alts˚ a ogs˚ a evalueres ved hjælp af kontroltegninger fr a lineær regressionsana-<br />

lyse.<br />

Estimation<br />

Maksimum likelihood estimaterne for de fem parametre i M0 beregnet p˚ a grundlag af observa-<br />

tionerne (x11,x21),...,(x1n,x2n) er:<br />

σ 2 1<br />

σ 2 2<br />

μ1 ← S1<br />

n<br />

μ2 ← S2<br />

n<br />

1<br />

←<br />

n − 1 SAK1 = 1<br />

n − 1<br />

1<br />

←<br />

n − 1 SAK2 = 1<br />

n − 1<br />

ρ ← r =<br />

n<br />

1<br />

=<br />

n ∑ x1i = ¯x1· ∼∼ N(μ1,<br />

i=1<br />

σ 2 1<br />

n ),<br />

n<br />

1<br />

=<br />

n ∑ x2i = ¯x2· ∼∼ N(μ2,<br />

i=1<br />

σ 2 2<br />

n ),<br />

n<br />

∑<br />

i=1<br />

n<br />

∑<br />

i=1<br />

SAP<br />

√ =<br />

SAK1SAK2<br />

(x1i − ¯x1·) 2 ∼∼ σ 2 1 χ 2 (n − 1)/(n − 1),<br />

(x2i − ¯x2·) 2 ∼∼ σ 2 2 χ 2 (n − 1)/(n − 1),<br />

n<br />

∑<br />

i=1<br />

(x1i − ¯x1·)(x2i − ¯x2·)<br />

<br />

n<br />

n<br />

∑ (x1i − ¯x1·) 2 ∑ (x2i − ¯x2·)<br />

i=1<br />

i=1<br />

2<br />

Den simultane fordeling af de fem estimater er vanskelig at beskrive, men foruden de nævnte<br />

fordelingsresultater gælder der, følgende approksimation<br />

z = 1<br />

2 ln(1+r ) ∼≈ N(1<br />

1 − r 2 ln(1+ρ<br />

1<br />

),<br />

1 − ρ n − 3 ).<br />

.


Beregningerne af estimaterne foretages let ved hjælp af følgende beregningsskema<br />

Test af hypotesen H0 : ρ = 0<br />

x1<br />

n n<br />

S S1 = n<br />

∑ xi1<br />

i=1<br />

SK SK1 = n<br />

∑ x<br />

i=1<br />

2 i1<br />

SP SP = n<br />

∑ xi1xi2<br />

i=1<br />

SAK SAK1 = SK1 − S2 1<br />

n<br />

SAP SAP = SP − S1S2<br />

n<br />

s 2 s 2 1<br />

x2<br />

S2 = n<br />

∑ xi2<br />

i=1<br />

SK2 = n<br />

∑ x<br />

i=1<br />

2 i2<br />

SAK2 = SK2 − S2 2<br />

n<br />

1<br />

=<br />

n − 1 SAK1 s2 1<br />

2 =<br />

n − 1 SAK2<br />

r r =<br />

SAP<br />

√ SAK1SAK2<br />

4.97<br />

Hypotesen H0 om uafhængighed af de to komponenter i en todimensional normalfordeling te-<br />

stes ved hjælp af teststørrelsen<br />

t(x) =<br />

r<br />

(1 − r 2 )/(n − 2) ∼∼ t(n − 2). (4.60)<br />

Idet b˚ ade store og sm˚ a værdier af teststørrelsen er kritis ke er testsandsynligheden for H0<br />

Relation til regressionsanalyse<br />

ε(x) = 2(1 − F t(n−2)(|t(x)|). (4.61)<br />

Indsættes estimaterne ovenfor p˚ a højresiden i (4.57) og (4 .58) as, f˚<br />

ˆβ = r s2<br />

<br />

SAP SAK2/(n − 1) SAP<br />

= √ =<br />

s1 SAK1SAK2 SAK1/(n − 1) SAK1<br />

og<br />

ˆα = ¯x2· − ¯x1·r s2<br />

= ¯x2· − ¯x1· ˆ β,<br />

det vil sige præcis de samme størrelser som i regressionsanalysen af x2 p˚ a x1.<br />

s1


4.98 4.6 Lineær regression<br />

Ved at indsætte formlen for r i (4.60) finder vi<br />

SAP<br />

√<br />

SAK1SAK2<br />

t(x) = SAP<br />

1 −( √ )<br />

SAK1SAK2<br />

2<br />

<br />

/(n − 2)<br />

= <br />

1<br />

n−2<br />

= <br />

ˆβ<br />

s2 02 /SAK1<br />

,<br />

SAP<br />

SAK1<br />

<br />

SAK2 − SAP2<br />

<br />

/SAK1<br />

SAK1<br />

hvor s2 02 betegner variansestimatet i modellen for lineær regression af x2 p˚ a x1. Det ses, at t-testet<br />

for H0 : ρ = 0 i (4.60) er præcis det samme som t-testet for H03 : β = 0 i (4.55).<br />

Som konklusion p˚ a overvejelserne ovenfor har vi, at der med hensyn til de betragtede a-<br />

spekter beregningsmæssigt ikke er forskel p˚ a regressionsmodellen og modellen for én obser-<br />

vationsrække fra den todimensionale normalfordeling, skønt disse to modeller er principielt<br />

forskellige. Endvidere gælder, lidt løst formuleret, at den todimensionale normalfordelingsmo-<br />

del ”indeholder” to regressionsanalyser, nemlig regressionen af x2 p˚ a x1, hvis x1 betragtes som<br />

fast, og tilsvarende af x1 p˚ a x2.<br />

Eksempel 4.8 (Fortsat)<br />

Af Figur 4.23 ses, at de sammenhørende værdier af puls og iltoptag ligger pænt og ensartet om-<br />

kring en ret linje. Figur 4.24 viser fraktildiagrammerne for m˚ alingerne af pulsen og iltoptaget.<br />

Diagrammerne strider ikke mod at m˚ alingerne kan betragtes som to normalfordelte observa-<br />

tionsrækker. Alt i alt strider Figur 4.23 og Figur 4.24 ikke mod at antage at de sammenhørende<br />

m˚ alinger kan betragtes som én todimensional normalforde lt observationsrække. For disse data<br />

bliver beregningsskemaet p˚ a side 4.97:<br />

x1(puls) x2(iltoptag)<br />

n 17<br />

S 3010 62.327<br />

SK 534310 231.358791<br />

SP 11085.215<br />

SAK 1362.9412 2.8497<br />

SAP 49.6697<br />

s 2 85.1838 0.1781<br />

r 0.7970


Figur 4.24 Fraktildiagrammer for m˚ alinger af puls og iltoptag i Eksem pel 4.8.<br />

4.99


4.100 4.6 Lineær regression<br />

Teststørrelsen i (4.58) for hypotesen H0 om ingen sammenhæng mellem puls og iltoptag er<br />

t(x) =<br />

Da testsandsynligheden er 0.00013 for kastes H0.<br />

0.7970<br />

(1 − 0.7970 2 )/15 = 5.11 ∼∼ t(15).<br />

Linjen i regressionen for iltoptag p˚ a puls, der fremkommer ved at betragte værdierne af<br />

pulsm˚ alingerne som deterministiske, har ligningen<br />

x2 = ( ¯x2· − ¯x1·r s2<br />

s1<br />

)+r s2<br />

x1 = −2.78627+0.03644x1.<br />

s1


Anneks til Afsnit 4.6<br />

Beregninger i Excel<br />

4.101<br />

Beregningerne i regressionsmodellen M2 : Xi j ∼ N(α + βti,σ 2 ) udføres let i Excel ved hjælp af<br />

dialogboksen<br />

Regression<br />

Det er derimod noget besværligt at teste reduktionen for modellen for k observationsrækker<br />

M1 : Xi j ∼ N(μi,σ 2 ) til M2, som beskrevet i fortsættelsen af Eksempel 4.7 nedenfor.<br />

Eksempel 4.6 (Fortsat)<br />

Antag, at cellerneA1:B20 har indholdet som vist nedenfor<br />

¡¢£¤¥¦§¨¡<br />

¢ £ ©<br />

¥ ¦ § ¨¤<br />

¡©<br />

£¥ ¡© ¥¡ <br />

¥£ §© ¥¤ ¡ © ¥§ ¡£© ¦ ¡¦© ¦£ ¤©<br />

¦¡ ¢¢© ¦¥ ¢¥© ¦¦ ¢¨© ¦§ ¢©©<br />

§ £¤© §¡ £§© §¤ ¤ © §¦ ¤£© §§ £¡©<br />

§§ ¥©© ¨¡<br />

Via ruten Funktioner → Dataanalyse → Regression fremkommer der en dialogboks.<br />

¤¦©<br />

I vores gennemgang af regressionanlysen har vi betegnet den afhængige variabel med x og<br />

den uafhængige variabel med t. Mange stedet betegnes den afhængige variable med y og den<br />

uafhængige med x, s˚ aledes ogs˚ a i Excel. Da vi vil lave regressionen af puls p˚ a tid angiver vi<br />

cellerneB4:B20 efterInput for Y-omr˚ade og cellerne A4:A20 efterInput for X-omr˚ade.


4.102 Beregninger i Excel<br />

Efter et klik p˚ a OK ar f˚ vi følgende udskrift p˚ a et nyt regneark:<br />

¡¢£¤¥¦§¨¡<br />

¢ £ ©<br />

¥ ¦ § ¤<br />

©¨¨¢¥§¥¨ ¢ <br />

©¨§¦£ ¢¥§ ©¨§¥¤¦£¤¨£ ©¥¨£©¤ §¥ ¦ <br />

<br />

¢£¤¦§¥¦¥¤ ¢£¤¦§¥¦¥¤ ¦¥¦¦©¡¤¢ £¢¦£ ¤ ¤ ¦ ¤££ ¦¥ £¢¥¡¦£¤ ¥ ¢¥¡¨£ ¦¥ <br />

¤¤¡¥£¦©¤¨©¥§¥¡¡¤£§§¡¡¥¡¤¨© ¨ ¥£ ¦£¡§ ¤¢§©¡©¤ ¤¥¦¡¦¢¥ § <br />

©©¥©¤¢¨¡ ¥©©© ¦¥£¦§¡¢£¢©£©§¤©§ £¢¦£ ¤©©¤¥¦¦¦¥¦ ©©¥£¢©©¦¥<br />

I tabellen med overskriften Regressionsstatistik angives den empiriske korrelation r<br />

<br />

for de to variable i linjen Multipel R og r2 <br />

i linjen R-kvadreret. I linjen Standardfejl<br />

angives den estimerede spredning s02(= s2 02 )i regressionsmodellen.<br />

I den øverste tabel under overskriftenANAVA finder vi i linjenResidual under henholdsvis<br />

fg, SK og MK størrelserne f02, SAK02 og s2 02 , sammenlign med beregningsskemaet side 4.82. I<br />

linjenRegression finder vi underSK ogMK størrelserne SAK3 og s2 3 , som benyttes i forbindelse<br />

med test af hypotesen H03 : β = 0. Størrelserne er ens, idet antallet af frihedsgrader f3 = f03 −<br />

f02 = (n−1)−(n−2) = 1. F-teststørrelsen og den tilsvarende testsandsynlighed for H03 findes<br />

i samme linje underFogSignifikans F. Endelig findes i linjenI alt størrelserne f03 = n−1<br />

og SAK03 = SAK02 + SAK3.<br />

I den nederste tabel under overskriften ANAVA finder vi i linjen Skæring finder vi estima-<br />

tet ˆα (Koefficienter), den estimerede spredning p˚ a ˆα (Standardfejl), t-teststørrelsen for<br />

hypotesen H ∗ 03<br />

: α = 0 (t-stat) og den tilsvarende testsandsynlighed (P-værdi). De to sidste<br />

tal i rækken angiver 95% konfidensintervallet for α, som vi genkender fra side 4.83. I linjen<br />

X-variabel 1 findes tilsvarende estimatet ˆ β for hældningen, den estimerede spredning p˚ a ˆ β,<br />

t-teststørrelsen for hypotesen H03 : β = 0, den tilsvarende testsandsynlighed, og 95% konfiden-<br />

sintervallet for β. Resultaterne vedrørende testet svarer til dem p˚ a side 4.9 3 og konfidensinter-<br />

vallet blev beregnet p˚ a side 4.83. (Af en ukendt grund blive r konfidensintervallerne angivet to<br />

gange p˚ a udskriften. S˚ a tungnemme er vi da ikke at det er nød vendigt.)<br />

En tegning af observationerne med den estimerede regressionslinje kan as f˚ ved at klikke i


uden foranLinjetilpasningsplot i dialogboksenRegression. Tegningen ser s˚ aledes ud:<br />

<br />

¡¢£¤¥£¦§¨©¥§¥¨£¥¨<br />

<br />

<br />

Ikke særligt informativ, men efter lidt redigering bliver den til<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

4.103<br />

som ligner tegningen i Figur 4.17. <br />

Eksempel 4.7 (Fortsat)<br />

I forbindelse med test af reduktionen fra M1 : Xi j ∼ N(μi,σ 2 ) til M2 : Xi j ∼ N(α + βti,σ 2 )


4.104 Beregninger i Excel<br />

er Excel lidt tung at danse med. Det skyldes, at man i forbindelse med M1, modellen for k<br />

observationsrækker, skal angive x-erne som k kolonner (eller rækker), mens man i forbindelse<br />

med M2 skal angive x-erne som en kolonne (eller række). Det kan gøres s˚ aledes:<br />

Først indtastet data som tre observationsrækker som vist nedenfor<br />

¡ £ § ¨¡ ¡¡¦§ £¤ ¨ ©<br />

¢¤ ¡¢¨¤ £¤§ £ ¡£¢ £¥ ¦¤ ¡££§ £§ £ §¤ ¡£¨ £§¡ ¡¢£¤¥¦§¨ ¡¤ ¢ £§¢¢ ¡¥¤ ¡¤¢ £§££ ¢¢ ¡¦¥ £¨¨<br />

og dialogboksenAnava: Enkelt faktor benyttes til at producere udskriften<br />

¡<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

hvor de størrelser fra M1, der skal bruges i F-teststørrelsen i (4.53) for hypotesen H02 : μi = α +<br />

<br />

βti, nemlig SAK01, f01 og s2 01 , findes i linjen Inden for grupper i ANAVA-tabellen. Herefter


omorganiseres data, s˚ a de kommer til at se s˚ aledes ud: <br />

¡¢£¤¥¦§¨¡<br />

¢ £ ©<br />

¥ ¦ § ¨¤<br />

¡©<br />

¡©© ©¨¡© ¡©© ¢¤ ¡©© £© ¡©© ¦¤ <br />

§¤ ¡©© ¡ © ¡©© ¡¥¤ ¡©© ¢¢© £©© ¡¡¦§ ¡©©<br />

¡¢¨¤ £©© ¡£¢© £©© ¡££§ £©©<br />

¡£¨© £©© ¡¤ ¢ £©© ¡¤¢© £©© ¡¦¥© §©© £¤ ¨ £©©<br />

£¤§© §©© £¥©© §©©<br />

og med disse data som input produceres ved hjælp af dialogboksenRegression udskriften<br />

<br />

<br />

<br />

¡¡ ¡¢ ¡£ ¡¤ §©© £§ £ §©© £§¡© §©© £§¢¢ §©© £§££ §©© £¨©¨ ¡<br />

<br />

<br />

<br />

<br />

4.105<br />

<br />

<br />

hvor de størrelser fra M2, der skal bruges i F-testet af H02, nemlig SAK02 og f02, findes i linjen<br />

<br />

Residual iANAVA-tabellen underSK ogfg.<br />

Sammenlign estimater og konfidensintervaller i udskriften med resultaterne p˚ a siderne 4.87<br />

og 4.88.


4.106 Hovedpunkter til Afsnit 4.6<br />

Hovedpunkter til Afsnit 4.6<br />

Data best˚ ar af sammenhørende værdier af t og x, (ti,xi), i = 1,...,n.<br />

Model:<br />

Modellen M2 for lineær regression er, at xi, i = 1,...,n, er realisationer af uafhængige stokasti-<br />

ske variable<br />

Dette forkortes til<br />

Modelkontrol:<br />

Mindst en tegning af (ti,xi), i = 1,...,n.<br />

Xi ∼ N(α + βti,σ 2 ), 1,...,n.<br />

M2 : Xi ∼ N(α + βti,σ 2 ), i = 1,...,n.<br />

Hvis der er flere observationspar med samme værdi af ti, kan probitdiagrammer, test for vari-<br />

anshomogenitet og test af den lineære regression komme p˚ a t ale.<br />

Test for lineær regression:<br />

Teststørrelse<br />

F(x) =<br />

SAK02 − SAK01<br />

f02 − f01<br />

s 2 01<br />

= s22 s2 ∼∼ F(k − 2,n − k).<br />

01<br />

Se side 4.86 for angivelse af, hvordan de størrelser, der indg˚ ar i testet, beregnes.<br />

Testsandsynlighed<br />

Estimation:<br />

ε(x) = 1 − F F(k−2,n−k)(F(x)).<br />

Formler for estimaterne fremg˚ ar af beregningsskemaet sid e 4.80.<br />

<br />

ˆα ∼∼ N α,σ 2<br />

<br />

1<br />

n + ¯t 2 <br />

·<br />

SAKt<br />

<br />

ˆβ ∼∼ N β,<br />

σ 2<br />

SAKt<br />

ˆα + ˆ <br />

βt ∼∼ N α + βt,σ 2<br />

<br />

1<br />

n + (t − ¯t·) 2<br />

SAKt<br />

<br />

s 2 02 ∼∼ σ 2 χ 2 ( f02)/ f02<br />

hvor f02 = n − 2 (antal observationer minus antal ukendte parametre i middelværdien).<br />

Konfidensintervaller:


(1 − α) konfidensinterval for α<br />

<br />

ˆα − t 1−α/2( f02)<br />

s 2 02<br />

(1 − α) konfidensinterval for β<br />

⎡<br />

⎣ ˆ β −t1−α/2( f02)<br />

<br />

1<br />

n + ¯t 2 <br />

<br />

·<br />

, ˆα +t1−α/2( f02) s<br />

SAKt<br />

2 <br />

1<br />

02 n + ¯t 2 <br />

·<br />

SAKt<br />

<br />

<br />

s 2 02<br />

SAKt<br />

, ˆ β + t 1−α/2( f02)<br />

<br />

s 2 02<br />

⎤<br />

⎦<br />

SAKt<br />

4.107<br />

(1 − α) konfidensinterval for regressionslinjen α + βt :<br />

<br />

ˆα + ˆ <br />

βt − t1−α/2( f02) s2 <br />

1<br />

02 n + (t − ¯t·) 2<br />

<br />

, ˆα +<br />

SAKt<br />

ˆ <br />

βt +t1−α/2( f02) s2 <br />

1<br />

02 n + (t − ¯t·) 2<br />

<br />

SAKt<br />

<br />

(1 − α) konfidensinterval for σ 2<br />

<br />

s 2 02<br />

s 2 02<br />

χ2 1−α/2 ( f02)/<br />

,<br />

f02 χ2 α/2 ( f02)/ f02<br />

hvor χ 2 1−α/2 ( f02) og χ 2 α/2 ( f02) er henholdsvis 1 − α/2 og α/2 fraktil for χ 2 -fordelingen med<br />

f02 = n − 2 frihedsgrader.<br />

Undermodeller af regressionsmodellen eller hypoteser om regressionsparametrene<br />

Vi betragter modellerne med kendt hældning og/eller kendt afskæring. Sammenhængen mel-<br />

lem modellerne og hypoteserne, der forbinder dem, kan fremstilles grafisk:<br />

M3 : Xi ∼ N(α + β0ti,σ 2 )<br />

H03 : β = β0 ր ց H04 : α = α0<br />

M2 : Xi ∼ N(α + βti,σ 2 ) M4 : Xi ∼ N(α0 + β0ti,σ 2 )<br />

Test af H03 : β = β0.<br />

Teststørrelse<br />

Testsandsynlighed<br />

H∗ 03 : α = α0 ց ր H∗ 04 : β = β0<br />

M ∗ 3 : Xi ∼ N(α0 + βti,σ 2 )<br />

t(x) = ˆ β − β0<br />

<br />

s2 02 /SAKt<br />

ε(x) = 2 1 − F t(n−2)(|t(x)|) <br />

<br />

,


4.108 Hovedpunkter til Afsnit 4.6<br />

Estimater for parametrene i M3 :<br />

Test af H∗ 03 : α = α0.<br />

Teststørrelse<br />

Testsandsynlighed<br />

Estimater for parametrene i M ∗ 3 :<br />

Test af H ∗ 04 : β = β0 :<br />

Teststørrelse<br />

α ← ˆαM3 = ¯x· − β0¯t· σ 2<br />

∼∼ N(α,<br />

n )<br />

σ 2 ← s 2 1 n<br />

2<br />

03 = ∑ {xi −( ˆαM3 + β0ti)}<br />

n − 1 i=1<br />

= 1<br />

<br />

SAK02 +(<br />

n − 1<br />

ˆ β − β0) 2 <br />

SAKt<br />

β ← ˆ β M ∗ 3 =<br />

∼∼σ 2 χ 2 (n − 1)/(n − 1)<br />

t(x) = <br />

s 2 02<br />

ˆα − α0<br />

1<br />

n + ¯t 2 ·<br />

SAKt<br />

<br />

ε(x) = 2 1 − F t(n−2)(|t(x)|) <br />

n<br />

∑ ti(xi − α0)<br />

i=1<br />

n<br />

∑<br />

i=1<br />

σ 2 ← s ∗2 1<br />

03 =<br />

t 2 i<br />

n − 1<br />

= 1<br />

n − 1<br />

n<br />

∑<br />

i=1<br />

= SPxt − α0St<br />

SKt<br />

{xi −(α0 + ˆ β M ∗ 3 ti)} 2<br />

σ 2<br />

∼∼ N(β, )<br />

SKt<br />

<br />

SKx + nα 2 0 − 2α0Sx − ˆ β 2 M ∗ 3 SKt<br />

∼∼σ 2 χ 2 (n − 1)/(n − 1)<br />

t(x) =<br />

ˆβM ∗ − β0 3 <br />

s∗2 03 /SKt<br />

= SPxt − α0St − β0SKt<br />

<br />

s∗2 03SKt ∼∼ t(n − 1)


Testsandsynlighed<br />

Estimat for parameteren i M4 :<br />

Test af H04 : α = α0 :<br />

Teststørrelse<br />

Testsandsynlighed<br />

ε(x) = 2 1 − F t(n−1)(|t(x)|) <br />

σ 2 ← s 2 04 =1<br />

n<br />

∑ {xi −(α0 + β0ti)}<br />

n i=1<br />

2<br />

= 1 <br />

SKx + nα<br />

n<br />

2 0 + β 2 0 SKt<br />

<br />

− 2α0Sx − 2β0SPxt + 2α0β0St<br />

∼∼σ 2 χ 2 (n)/(n)<br />

Estimat for parameteren i M4 :<br />

t(x) =<br />

ˆαM3 − α0<br />

<br />

s 2 03 /n<br />

= Sx − β0St − α0n<br />

<br />

s2 03n ∼∼ t(n − 1)<br />

ε(x) = 2 1 − F t(n−1)(| t(x) |) <br />

σ 2 ← s 2 04 =1<br />

n<br />

∑ {xi −(α0 + β0ti)}<br />

n i=1<br />

2<br />

= 1 <br />

SKx + nα<br />

n<br />

2 0 + β 2 0 SKt<br />

<br />

− 2α0Sx − 2β0SPxt + 2α0β0St<br />

∼∼σ 2 χ 2 (n)/(n).<br />

Én observationsrække fra en todimensional normalfordeling<br />

Modellen for data (x11,x21), ..., (x1i,x2i),..., (x1n,x2n) er<br />

hvor<br />

M0 : Xi = (X1i,X2i) ∼ N2((μ1, μ2),Σ),<br />

Σ =<br />

σ 2 1 ρσ1σ2<br />

ρσ1σ2<br />

σ 2 2<br />

<br />

.<br />

4.109


4.110 Hovedpunkter til Afsnit 4.6<br />

Modelkontrol<br />

Fraktilsammenligning for førstekomponenterne x11,..., x1i,...,x1n og andenkomponenterne x21,...,<br />

x2i,...,x2n. Desuden skal en tegning af observationer (x11,x21), ..., (x1i,x2i),..., (x1n,x2n) vise<br />

samme træk som kontroltegningen for en lineær regression af x2 p˚ a x1.<br />

Estimation<br />

Parametrene i M0 estimeres ved de tilsvarende empiriske størrelser, det vil sige μ1 ← ¯x1·,<br />

μ2 ← ¯x2·, σ 2 1 ← s2 1 , σ 2 2 ← s2 2<br />

side 4.97.<br />

Test af hypotesen H0 : ρ = 0<br />

Teststørrelse<br />

Testsandsynligheden for H0<br />

t(x) =<br />

og ρ ← r, som kan beregnes ved hjælp af beregningsskemaet<br />

r<br />

(1 − r 2 )/(n − 2) ∼∼ t(n − 2).<br />

ε(x) = 2(1 − F t(n−2)(|t(x)|).


4.7 Tosidet variansanalyse<br />

4.111<br />

I dette afsnit slækker vi p˚ a kravet om, at beregningerne ska l kunne foretages i h˚ anden og base-<br />

rer gennemgangen p˚ a beregninger udført i Excel ved hjælp af to dialogbokse, nemlig Anava:<br />

To-faktor uden gentagelse ogAnava: To-faktor med gentagelse. Teorien bliver gen-<br />

nemg˚ aet i tilknytning til Eksempel 4.9 og Eksempel 4.10.<br />

Eksempel 4.9<br />

I forbindelse med klubbens 100ars ˚ fødselsdag arrangerede atletikafdelingen i ˚Arhus 1900 et<br />

100 km løb i juli m˚ aned iar ˚ 2000. For at undersøge hvorledes et s˚ a langt løb p˚ avirker deltagernes<br />

fysiologi, foretog man p˚ a Institut for Idræt en lang række malinger ˚ p˚ a nogle af deltagerne. Der<br />

blev blandt andet taget blodprøver p˚ a deltagerne forud for løbet (dag -1), umiddelbart efter løbet<br />

(dag 0), samt 1, 2, 3, 5 og 12 dage efter løbet (dag 1, dag 2, dag 3, dag 5 og dag 12). Tallene i<br />

tabellen nedenfor, som Tue Lindstrøm har stillet tilr˚ adig hed, viser indholdet (m˚ alt i mmol/l) af<br />

Calcium i blodprøverne for 11 af deltagerne.<br />

person\dag -1 0 1 2 3 5 12<br />

1 2.24 2.57 2.09 2.27 2.28 2.25 2.29<br />

2 2.38 2.62 2.38 2.39 2.29 2.47 2.49<br />

3 2.50 2.91 2.29 2.40 2.32 2.37 2.45<br />

4 2.48 2.91 2.32 2.47 2.51 2.57<br />

5 2.47 2.92 2.25 2.42 2.36 2.29<br />

6 2.21 2.45 2.26 2.27 2.36 2.39<br />

7 2.38 2.88 2.24 2.22 2.23 2.32 2.32<br />

8 2.42 2.83 2.37 2.41 2.44 2.35<br />

9 2.41 2.84 2.32 2.29 2.44 2.44 2.36<br />

10 2.38 2.78 2.34 2.39 2.36 2.43 2.35<br />

11 2.56 2.81 2.43 2.53 2.41 2.62<br />

Der er af interesse at undersøge dels om der er forskel p˚ a ind holdet af calcium p˚ a de forskellige<br />

tidpunkter og dels om der er forskel p˚ a indholdet af calcium i deltagernes blodprøver. <br />

Eksempel 4.10<br />

I forbindelse med atletikstævnet for 1. arsstuderende ˚<br />

- om talt i Eksempel 4.5 - har Mikkel<br />

Sørensen, Institut for Idræt, Københavns universitet registreret følgende resultater i kuglestød (i


4.112 4.7 Tosidet variansanalyse<br />

m) for drenge og piger iarene ˚ 1998, 1999 og 2000:<br />

køn/˚ar 1998 1999 2000<br />

drenge 11.17 8.80 9.30<br />

12.57 11.57 11.60<br />

9.33 12.48 11.80<br />

12.53 9.83 12.20<br />

11.25 12.91 12.50<br />

7.54 11.50 10.50<br />

9.69 11.90 9.70<br />

10.70 11.52 11.90<br />

9.33 9.90 9.20<br />

piger 7.16 9.49 8.59<br />

10.45 6.69 8.80<br />

8.47 8.01 11.61<br />

9.40 11.01 10.65<br />

7.22 8.11 8.21<br />

8.51 8.72 9.18<br />

9.62 7.94 8.65<br />

6.27 8.03 8.45<br />

9.18 9.12 7.79<br />

Vi vil her undersøge dels om der er forskel p˚ a resultaterne i de trear ˚ og dels om der er<br />

forskel p˚ a drengenes og pigernes resultater. <br />

Modeller og hypoteser<br />

Fælles for de to datasæt er at de er opskrevet i et tosidet skema med r rækker og s søjler og<br />

alts˚ a i alt rs celler. I Eksempel 4.9 har vi indledningsvis r = 11 rækker og s = 7 søjler, mens<br />

der i Eksempel 4.10 er r = 2 rækker og s = 3 søjler. De to dialogbokse i Excel kræver, at der er<br />

lige mange observationer i de rs celler. Hvis t betegner dette antal, er dette tilfældet i Eksempel<br />

4.10, hvor antallet af observationer i de seks celler i skemaet er t = 9. Uheldigvis er det ikke<br />

lykkedes medarbejderne ved Institut for Idræt at af˚ blodpr øver p˚ a de 11 personer til samtlige 7<br />

tidspunkter, s˚ a derfor betragter vi i det følgende kun pers onerne 1, 2, 3, 7, 9 og 10. Med denne<br />

modification har vi for data i Eksempel 4.9, at r = 6, s = 7 og t = 1.<br />

Lad xi jk betegne det k’te m˚ aling i den i’te række og den j’te søjle. Vi bruger alts˚ a i = 1,...,r<br />

til at indicere de r rækker, j = 1,...,s, til at indicere de s søjler og k = 1...,t til at indicere


gentagelserne med. Det totale antal af observationer betegnes n, det vil sige n = rst.<br />

4.113<br />

Idet vi som sædvanlig forudsætter, at alle observationerne xi jk, i = 1,...,r, j = 1,...,s, k<br />

= 1,...,t, er udfald af uafhængige stokastiske variable Xi jk, kan de modeller, vi vil betragte,<br />

skrives p˚ a følgende m˚ ade:<br />

skema.<br />

M ∗ 3<br />

Modellen for rs observationsrækker hver med sin middelværdi og sin varians<br />

M0 : Xi jk ∼ N(μi j,σ 2<br />

i j).<br />

Modellen for rs observationsrækker hver med sin middelværdi og fælles varians<br />

Additivitetsmodellen<br />

Modellen med kun rækkevirkning<br />

Modellen med kun søjlevirkning<br />

M1 : Xi jk ∼ N(μi j,σ 2 ).<br />

M2 : Xi jk ∼ N(αi + β j,σ 2 ).<br />

M3 : Xi jk ∼ N(αi,σ 2 ),<br />

M ∗ 3 : Xi jk ∼ N(β j,σ 2 ).<br />

Modellen for én observationsrække eller homogenitet<br />

M4 : Xi jk ∼ N(μ,σ 2 ).<br />

Det indbyrdes forhold mellem modellerne M2, M3, M∗ 3 og M4 er angivet i nedenst˚ aende<br />

M3 : Xi jk ∼ N(αi,σ 2 )<br />

ր ց<br />

M2 : Xi jk ∼ N(αi + β j,σ 2 ) M4 : Xi jk ∼ N(μ,σ 2 )<br />

ց ր<br />

M ∗ 3 : Xi jk ∼ N(β j,σ 2 )<br />

Vi kender alle disse modeller fra tidligere med undtagelse af M2. Modellerne M1, M3 og<br />

er alle eksempler p˚ a en model for flere observationsrækker h ver med sin middelværdi men<br />

med fælles varians, omtalt i Afsnit 4.5. I M1 har vi rs observationsrækker (cellerne) hver med<br />

t observationer. I M3 har r observationsrækker (rækkerne) hver med st observationer og i M ∗ 3<br />

har vi s observationsrækker (søjlerne) hver med rt observationer. Endelig er M4 modellen for<br />

én observationsrække med n = rst observationer.


4.114 4.7 Tosidet variansanalyse<br />

De hypoteser vi skal betragte er følgende:<br />

Hypotesen om additivitet:<br />

H02 : μi j = αi + β j<br />

svarende til reduktionen M1 → M2. Hypotesen omtales ogs˚ a undertiden som hypotesen om<br />

ingen vekselvirkning eller som hypotesen om ingen interaktion.<br />

I en tosidet variansanalyse betragter man endvidere følgende hypoteser:<br />

Hypotesen om ingen rækkevirkning<br />

og hypotesen om ingen søjlevirkning<br />

H0R : α1 = ··· = αr,<br />

H0S : β1 = ··· = βs,<br />

Det ses af skemaet ovenfor, at accept af H0R i modellen M2 giver reduktionen til M∗ 3 , idet<br />

det accepteres at EXi j = α + β j = ˜ β j, hvor α betegner den fælles værdi af α-erne. Accept af<br />

H0R i M3 bevirker reduktion til M4, idet vi da har EXi j = α, det vil sige at alle observationerne<br />

har samme middelværdi. Hypotesen om ingen rækkevirkning kan alts˚ a testes i to fors kellige<br />

modeller og testene er - som vi skal se nedenfor - forskellige. (Bemærk, at notationen her er<br />

ændret i forhold til tidligere, hvor hypoteserne svarende til reduktionerne M2 → M ∗ 3 og M3 → M4<br />

blev betegnet med henholdsvis H ∗ 03<br />

og H04.)<br />

Tilsvarende giver accept af hypotesen om ingen søjlevirkning H0S anledning til reduktioner-<br />

ne M2 → M3 og M ∗ 3 → M4 og igen afhænger testet af hvilken model hypotesen testes i. (Hypo-<br />

teserne svarende til reduktionerne M2 → M3 og M ∗ 3 → M4 er tidligere betegnet med henholdsvis<br />

H03 og H ∗ 04 .)<br />

Hvis t = 1, det vil sige hvis der kun er én observation i hver celle, taler vi om en tosidet<br />

variansanalyse uden gentagelser og hvis t ≥ 2 om en tosidet variansanalyse med gentagelser.<br />

Estimation<br />

Som nævnt ovenfor er modellerne M1, M3 og M ∗ 3<br />

er alle eksempler p˚ a en model med flere<br />

observationsrækker med hver sin middelværdi men med fælles varians, omtalt i Afsnit 4.5. Fra<br />

det afsnit har vi derfor umiddelbart de følgende resultater:<br />

Estimation i M1 : Xi jk ∼ N(μi j,σ 2 ) (rs observationsrækker hver med t observationer):<br />

s 2 01<br />

μi j ← ¯Xi j· = 1<br />

t<br />

1<br />

= SAK01 =<br />

f01<br />

1<br />

f01<br />

r<br />

∑<br />

i=1<br />

s<br />

∑<br />

t<br />

σ 2<br />

∑ Xi jk ∼ N(μi j,<br />

k=1<br />

t ),<br />

t<br />

∑<br />

j=1 k=1<br />

(Xi jk − ¯Xi j·) 2 ∼ σ 2 χ 2 ( f01)/ f01,


hvor f01 = n − rs = rst − rs = rs(t − 1).<br />

4.115<br />

Estimation i M3 : Xi jk ∼ N(αi,σ 2 ) (r observationsrækker - rækkerne - hver med st observa-<br />

tioner):<br />

s 2 03<br />

αi ← ¯Xi·· = 1<br />

st<br />

1<br />

= SAK03 =<br />

f03<br />

1<br />

f03<br />

hvor f03 = n − r = rst − r = r(st − 1).<br />

r<br />

∑<br />

i=1<br />

s<br />

∑<br />

t<br />

∑<br />

j=1 k=1<br />

s<br />

∑<br />

t<br />

∑<br />

j=1 k=1<br />

σ 2<br />

Xi jk ∼ N(αi,<br />

st ),<br />

(Xi jk − ¯Xi··) 2 ∼ σ 2 χ 2 ( f03)/ f03,<br />

Estimation i M ∗ 3 : Xi jk ∼ N(β j,σ 2 ) (s observationsrækker - søjlerne - hver med rt observa-<br />

tioner):<br />

hvor f ∗ 03<br />

β j ← ¯X· j· = 1<br />

rt<br />

s ∗2 1<br />

03 =<br />

f ∗ SAK<br />

03<br />

∗ 1<br />

03 =<br />

f ∗ 03<br />

= n − s = rst − s = s(rt − 1).<br />

r<br />

∑<br />

i=1<br />

r<br />

∑<br />

t<br />

∑<br />

i=1 k=1<br />

s<br />

∑<br />

t<br />

∑<br />

j=1 k=1<br />

σ 2<br />

Xi jk ∼ N(β j,<br />

rt ),<br />

(Xi jk − ¯X· j·) 2 ∼ σ 2 χ 2 ( f ∗ 03 )/ f ∗ 03 ,<br />

Estimation i M4 : Xi jk ∼ N(μ,σ 2 ) (én observationsrække hver med rst observationer):<br />

s 2 04<br />

hvor f04 = n − 1 = rst − 1.<br />

μ ← ¯X··· = 1<br />

rst<br />

1<br />

= SAK04 =<br />

f04<br />

1<br />

f04<br />

r<br />

∑<br />

i=1<br />

r<br />

∑<br />

i=1<br />

s<br />

∑<br />

s<br />

∑<br />

t<br />

∑<br />

j=1 k=1<br />

t<br />

∑<br />

j=1 k=1<br />

σ 2<br />

Xi jk ∼ N(μ,<br />

rst ),<br />

(Xi jk − ¯X···) 2 ∼ σ 2 χ 2 ( f04)/ f04,<br />

Vi mangler nu kun at diskutere estimation i additivitetsmodellen M2 : Xi jk ∼ N(αi+βj,σ 2 ).<br />

Da vi kan skrive αi+βj som (αi+c)+(β j −c), hvor c er en konstant, parametriserer de r α-er<br />

og de s β-er ikke modellen M2. Det kan vises, at antallet af frie parametre, der skal bruges til at<br />

parametrisere M2, er r + s − 1. Idet antallet af observationer er rst, er antallet af frihedsgrader<br />

for varians estimatet i M2 derfor f02 = rst −(r+ s − 1). I M2 benyttes følgende estimater<br />

s 2 02<br />

Modelkontrol<br />

1<br />

= SAK02 =<br />

f02<br />

1<br />

f02<br />

αi + β j ← ¯Xi··+ ¯X· j· − ¯X··· ∼ N(αi + β j,<br />

r<br />

∑<br />

i=1<br />

s<br />

∑<br />

t<br />

∑<br />

j=1 k=1<br />

r+ s − 1<br />

σ<br />

rst<br />

2 ) (4.62)<br />

(Xi jk − ¯Xi·· − ¯X· j· + ¯X···) 2 ∼ σ 2 χ 2 ( f02)/ f02. (4.63)<br />

I en tosidet variansanalyse er det additivitetsmodellen M2 der sædvanligvis er i centrum, da det<br />

er i denne (eller i delmodeller af denne) hypoteserne om ingen rækkevirkning H0R og ingen<br />

søjlevirkning H0S testes. Vi diskuterer derfor nu kontrol af additivitetsmodellen M2.


4.116 4.7 Tosidet variansanalyse<br />

Hvis vi har en tosidet variansanalyse med gentagelser er udgangspunktet M0 : Xi jk ∼ N(μi j,σ 2<br />

i j )<br />

som kan kontrolleres med rs fraktildiagrammer (ét for hver af de rs celler), hvis antallet t af ob-<br />

servationer i cellerne er tilpas stort.<br />

Hvis t ≥ 3 kan hypotesen om varianshomogenitet H01 : σ 2 11 = ··· = σ 2<br />

i j = ··· = σ 2 rs , svarende<br />

til reduktionen M0 → M1 : Xi jk ∼ N(μi j,σ 2 ), testes ved Bartletts test som omtalt i Afsnit 4.5.<br />

Hypotesen om additivitet H02 : μi j = αi+βj - svarende til reduktionen M1 → M2 - kan testet<br />

ved hjælp af et F-test, hvis t ≥ 2, det vil sige hvis vi har gentagelser. Lad<br />

hvor<br />

og<br />

SAK2 = SAK02 − SAK01 = t<br />

s 2 2 = SAK2<br />

,<br />

f2<br />

r s<br />

∑ ∑<br />

i=1 j=1<br />

( ¯Xi j· − ¯Xi·· − ¯X· j· + ¯X···) 2<br />

f2 = f02 − f01 = (rst −(r+ s − 1)) − rs(t − 1) = rs −(r+ s − 1) = (r − 1)(s − 1).<br />

Under hypotesen H02 er SAK2 ∼ σ 2 χ 2 ( f2) og uafhængig af SAK01 ∼ σ 2 χ 2 ( f01) og som teststørrelse<br />

for H02 benyttes<br />

F(X) = s2 2<br />

s2 , (4.64)<br />

01<br />

som - ifølge formel (3.35) - er F-fordelt med ( f2, f01) frihedsgrader, hvor f01 = rs(t − 1). Hvis<br />

F(x) er den observerede værdi af F(X) er testsandsynligheden for H02 - idet store værdier af<br />

F(x) er kritiske -<br />

ε(x) = P(F(X) > F(x)) = 1 − F F( f2, f01)(F(x)),<br />

hvor F F( f2, f01) er fordelingsfunktionen for F-fordelingen med ( f2, f01) frihedsgrader.<br />

Ved test p˚ a 5% niveau forkastes H02, hvis<br />

F(x) > F0.95( f2, f01).<br />

Accept af H02 medfører modelreduktionen M1 → M2.<br />

Under M2 afhænger forskellen i middelværdi mellem to forskellige rækker g og h ikke af, i<br />

hvilken søjle man m˚ aler forskellen, da<br />

EXg jk − EXh jk’ = (αg + β j) −(αh + β j) = αg − αh. (4.65)<br />

Tilsvarende afhænger forskellen i middelværdi mellem to forskellige søjler l og m ikke af, i<br />

hvilken række man m˚ aler forskellen, da<br />

EXilk − EXimk’ = (αi + βl) −(αi + βm) = βl − βm. (4.66)


4.117<br />

Nu er ¯xi j· et estimat for middelværdien EXi jk, s˚ a hvis man for hver række i afsætter og<br />

forbinder punkterne ( j, ¯xi j·), j = 1,...,s, skal man p˚ a grund af (4.65) have r kurver, som bortset<br />

fra tilfældige udsving har konstant lodret afstand.<br />

Hvis man tilsvarende for hver fast søjle j afsætter og forbinder punkterne (i, ¯xi j·), i = 1,...,r,<br />

skal man p˚ a grund af (4.66) have s kurver, som bortset fra tilfældige udsving har konstant lodret<br />

afstand. De netop omtalte figurer kaldes profildiagrammer.<br />

Hvis t = 1, det vil sige hvis vi ikke har gentagelser, kan vi ikke foretage testet i (4.64), idet<br />

s 2 01 ikke er defineret, og rimeligheden af additivitetsmodellen M2 vurderes udelukkende ved<br />

hjælp af profildiagrammer.<br />

I M2 betegnes størrelserne<br />

Ri jk = Xi jk − ¯Xi·· − ¯X· j· + ¯X···<br />

som residualerne. Det kan vises, at residualerne approksimativt er identisk normalfordelt med<br />

middelværdi 0. Antagelsen om normalitet i M2 kan derfor vurderes ved at lave et fraktildiagram<br />

baseret p˚ a de observerede residualer ri jk = xi jk − ¯xi·· − ¯x· j· + ¯x···, i = 1,...,r, j = 1...,s, k =<br />

1...,t. Hvis vi ikke har gentagelser er et fraktildiagram for residualerne den eneste kontrol af<br />

normalfordelingsantagelsen i M2.<br />

Eksempel 4.9 (Fortsat)<br />

Profildiagrammerne for data for personerne 1, 2, 3, 7, 9 og 10 er vist i Figur 4.25. Bortset fra<br />

tilfældige udsving ser kurverne i hver af de to tegninger ud til at have konstant lodret afstand og<br />

tegningerne giver ikke anledning til at betvivle additivitetsmodellen M2. <br />

Eksempel 4.10 (Fortsat)<br />

Tallene i dette eksempel har vi betragtet før, nemlig i Opgave 4.12, hvor der ikke var lige mange<br />

observationer i hver af de seks grupper. Der var færrest observationer for pigerne iar ˚ 2000,<br />

nemlig 9. For at kunne imødekomme kravet om, at antallet af observationer skal være det samme<br />

i hver af de seks grupper, betragter vi her de 9 første observationer i grupperne. Data ses i Figur<br />

4.26 og i Figur 4.27 ses fraktildiagrammerne for de seks observationsrækker. Fraktildiagram-<br />

merne afslører ikke systematiske afvigelser fra rette linjer, s˚ a de seks observationsrækker kan<br />

betragtes som normalfordelte. Begge figurer antyder, at variansen i de seks rækker kan antages<br />

at være ens. Endvidere antyder figurerne, at der ikke er forskel p˚ a resultaterne i de trear ˚ hverken<br />

for drengene eller pigerne, men at der er forskel p˚ a resulta terne for drenge og piger.<br />

Beregningsskemaet side 4.33 ser s˚ aledes ud:


4.118 4.7 Tosidet variansanalyse<br />

Figur 4.25 Profildiagrammer for personerne 1, 2, 3, 7, 9 og 10 i Eksempel 4.9.


4.119<br />

Figur 4.26 Resultater for drenge og piger i kuglestød ved atletikstævnet for 1. ars ˚ studerende i<br />

arene ˚ 1998, 1999 og 2000.<br />

Figur 4.27 Fraktildiagrammer for resultaterne for drenge og piger i kuglestød ved atletikstævnet<br />

for 1. ars ˚ studerende iarene ˚ 1998, 1999 og 2000.


4.120 4.7 Tosidet variansanalyse<br />

£¢ £¤¢ £¢ ¥¦§¡¢ £¨¤¢© ¢© ¢© ¥¦ ¢ ¦ ¦ ¦ ¦¦¦ ¦ ¦ ¡¢<br />

¦ ¦¦ ¦ ¦ ¦ ¦ ¦ ¦ ¦¦¦ ¦¦ <br />

Med udgangspunkt i dette skema tester vi hypotesen om varianshomogenitet H01 : σ ¦¦¦ 2 11 =<br />

··· = σ 2 23 i<br />

ved hjælp af Bartlett testet. Da<br />

og<br />

finder vi<br />

M0 : Xi jk ∼ N(μi j,σ 2<br />

i j<br />

),i = 1,2, j = 1,2,3,k = 1,...,9,<br />

C = 1.04861,<br />

−2lnQ(x) = 1.00214,<br />

Ba(x) = 0.95569 ∼∼ χ 2 (5).<br />

Idet ni ≥ 3 er den tilsvarende testsandsynlighed<br />

ε(x) = 1 − F χ 2 (5) (0.95569) = 0.9661,<br />

det vil sige, at vi accepterer, at variansen kan antages at være ens for de seks observationsrækker<br />

af længden af kuglestød og dermed reduktion af M0 til<br />

Test i M2<br />

M1 : Xi jk ∼ N(μi j,σ 2 ).<br />

Teststørrelserne for testene i M2 baserer sig p˚ a følgende opspaltning af den totale variatio n:<br />

SAK04 =<br />

=<br />

r<br />

∑<br />

i=1<br />

s<br />

∑<br />

t<br />

∑<br />

j=1 k=1<br />

r s t<br />

∑ ∑ ∑<br />

i=1 j=1 k=1<br />

(Xi jk − ¯X···) 2<br />

(Xi jk − ¯Xi·· − ¯X· j· + ¯X···) 2 + st<br />

= SAK02 + SAKR + SAKS.<br />

r<br />

∑<br />

i=1<br />

( ¯Xi·· − ¯X···) 2 + rt<br />

s<br />

∑<br />

j=1<br />

( ¯X· j· − ¯X···) 2


Her er<br />

SAKR = st<br />

r<br />

∑<br />

i=1<br />

( ¯Xi·· − ¯X···) 2<br />

et udtryk for variationen mellem rækkegennemsnittene - kort variationen mellem rækker - og<br />

SAKS = rt<br />

s<br />

∑<br />

j=1<br />

( ¯X· j· − ¯X···) 2<br />

er et udtryk for variationen mellem søjlegennemsnittene - variationen mellem søjler - mens<br />

SAK02 =<br />

r<br />

∑<br />

i=1<br />

s<br />

∑<br />

t<br />

∑<br />

j=1 k=1<br />

(Xi jk − ¯Xi·· − ¯X· j·+ ¯X···) 2<br />

4.121<br />

betegnes som residualvariationen, idet størrelserne Ri jk = Xi jk − ¯Xi·· − ¯X· j· + ¯X··· som nævnt<br />

ovenfor betegnes som residualerne i M2.<br />

Det kan vises, at i M2 er SAK02, SAKR og SAKS stokastisk uafhængige og som nævnt ovenfor<br />

er SAK02 ∼ σ 2 χ 2 ( f02), hvor f02 = rst −(r+ s − 1).<br />

Test af H0R i M2<br />

I M2 svarer hypotesen H0R om ingen rækkevirkning til reduktionen M2 → M∗ 3 . Idet<br />

sætter vi<br />

og<br />

SAK ∗ 3 = SAK∗ 03 − SAK02 = SAKR<br />

fR = f ∗ 3 = f ∗ 03 − f02 = s(rt − 1) −(rst −(r+ s − 1)) = r − 1<br />

s 2 R<br />

= s∗2<br />

3 = SAK∗ 3<br />

f ∗ 3<br />

= SAKR<br />

.<br />

fR<br />

I forhold til den generelle notation i Afsnit 4.5.4 erstatter vi alts˚ a indiceringen ∗ 3 med indiceringen<br />

R, idet denne forekommer mere naturlig i forbindelse med testet af hypotesen H0R.<br />

Af resultaterne i Afsnit 4.5.4 as, f˚ at vi som teststørrelse for H0R i M2 benytter<br />

FR(X) = s2R s2 , (4.67)<br />

02<br />

som - ifølge formel (3.35) - er F-fordelt med (r−1, f02) frihedsgrader, idet SAKR ∼ σ 2 χ 2 (r−1)<br />

under H0R. Hvis FR(x) er den observerede værdi af FR(X) er store værdier af FR(x) kritiske, sva-<br />

rende til at variationen mellem rækker er for stor i forhold til residualvariationen i M2. Testsand-<br />

synligheden for H0R bliver derfor<br />

ε(x) = P(FR(X) > FR(x)) = 1 − F F(r−1, f02)(FR(x)),


4.122 4.7 Tosidet variansanalyse<br />

hvor F F(r−1, f02) er fordelingsfunktionen for F-fordelingen med (r − 1, f02) frihedsgrader og<br />

f02 = rst −(r+ s − 1).<br />

Ved test p˚ a 5% niveau forkastes H0R, hvis<br />

FR(x) > F0.95(r − 1, f02).<br />

Accept af H0R medfører modelreduktionen M2 → M ∗ 3 .<br />

Test af H0S i M2<br />

I M2 svarer hypotesen H0S om ingen søjlevirkning til reduktionen M2 → M3 og hypotesen for-<br />

kastes, hvis variationen<br />

SAKS = SAK03 − SAK02<br />

mellem søjlegennemsnittene er for stor i forhold til residualvariationen SAK02.<br />

Lad<br />

s 2 S<br />

= SAKS<br />

s − 1 .<br />

Under hypotesen H0S er SAKS ∼ σ 2 χ 2 (s − 1) og som teststørrelse for H0S benyttes<br />

FS(X) = s2 S<br />

s2 , (4.68)<br />

02<br />

som - ifølge formel (3.35) - er F-fordelt med (s − 1, f02) frihedsgrader. Hvis FS(x) er den ob-<br />

serverede værdi af FS(X) er testsandsynligheden for H0S - idet store værdier af FS(x) er kritiske<br />

-<br />

ε(x) = P(FS(X) > FS(x)) = 1 − F F(s−1, f02)(FS(x)),<br />

hvor F F(s−1, f02) er fordelingsfunktionen for F-fordelingen med (s − 1, f02) frihedsgrader og<br />

f02 = rst −(r+ s − 1).<br />

Ved test p˚ a 5% niveau forkastes H0S, hvis<br />

FS(x) > F0.95(s − 1, f02).<br />

Accept af H0S medfører modelreduktionen M2 → M3.<br />

Test i M3<br />

Test af H0R i M3<br />

Idet M3 er en model for r observationsrækker - rækkerne - med hver st observationer ved vi


4.123<br />

fra Afsnit 4.5, at i M3 testes hypotesen H0R - svarende til modelreduktionen M3 → M4 - ved at<br />

sammenligne variationen<br />

SAKR = st<br />

r<br />

∑<br />

i=1<br />

( ¯Xi·· − ¯X···) 2 = SAK04 − SAK03<br />

mellem rækker med variationen SAK03 indenfor rækker. Der gælder SAK03 ∼ σ 2 χ 2 ( f03), hvor<br />

f03 = r(st − 1) og det kan vises, at<br />

SAK03 =<br />

r<br />

∑<br />

i=1<br />

s<br />

∑<br />

Teststørrelsen for testet af H0R i M3 er<br />

t<br />

∑<br />

j=1 k=1<br />

˜FR(X) = s2 R<br />

s 2 03<br />

(Xi jk − ¯Xi··) 2 = SAK02 + SAKS.<br />

= SAKR/(r − 1)<br />

, (4.69)<br />

SAK03/ f03<br />

som er F-fordelt med (r − 1, f03) frihedsgrader. (Bemærk, at vi sætter en ∼ over FR for ikke<br />

at forveksle testet her med testet i (4.67).) Hvis ˜FR(x) er den observerede værdi af ˜FR(X), er<br />

testsandsynligheden for test af H0R i M3<br />

ε(x) = P( ˜FR(X) > ˜FR(x)) = 1 − F F(r−1, f03)( ˜FR(x)),<br />

idet store værdier er kritiske. Ved test p˚ a niveau 5% forkas tes, hvis<br />

Accept af H0R medfører reduktionen M3 → M4.<br />

Test i M ∗ 3<br />

Test af H0S i M ∗ 3<br />

˜FR(x) > F0.95(r − 1, f03).<br />

Idet M∗ 3 er en model for s observationsrækker - søjlerne - med hver rt observationer ved vi fra<br />

Afsnit 4.5, at i M∗ 3 testes hypotesen H0S - svarende til modelreduktionen M∗ 3 → M4 - ved at<br />

sammenligne variationen<br />

SAKS = rt<br />

s<br />

∑<br />

j=1<br />

( ¯X· j· − ¯X···) 2 = SAK04 − SAK ∗ 03<br />

mellem søjler med variationen SAK∗ 03 indenfor søjler. Der gælder SAK∗ 03 ∼ σ 2χ 2 ( f ∗ 03 ), hvor<br />

f ∗ 03<br />

= s(rt − 1) og det kan vises, at<br />

SAK ∗ 03 =<br />

r<br />

∑<br />

i=1<br />

s<br />

∑<br />

t<br />

∑<br />

j=1 k=1<br />

(Xi jk − ¯X· j·) 2 = SAK02 + SAKR. (4.70)


4.124 4.7 Tosidet variansanalyse<br />

Teststørrelsen for testet af H0S i M ∗ 3 er<br />

˜FS(X) = s2 S<br />

s ∗ 2<br />

03<br />

= SAKS/(s − 1)<br />

SAK∗ 03 / f ∗ , (4.71)<br />

03<br />

som er F-fordelt med (s − 1, f ∗ 03 ) frihedsgrader. (Bemærk, at vi sætter en ∼ over FS for ikke<br />

at forveksle testet her med testet i (4.68).) Hvis ˜FS(x) er den observerede værdi af ˜FS(X), er<br />

testsandsynligheden for test af H0S i M ∗ 3<br />

ε(x) = P( ˜FS(X) > ˜FS(x)) = 1 − F F(s−1, f ∗ 03 )( ˜FS(x)),<br />

idet store værdier er kritiske. Ved test p˚ a niveau 5% forkas tes, hvis<br />

Accept af HS medfører reduktionen M ∗ 3<br />

Variansanalysetabellen<br />

˜FS(x) > F0.95(s − 1, f ∗ 03 ).<br />

→ M4.<br />

En oversigt over beregningerne i en tosidet variansanalyse resumeres bekvemt i en variansanly-<br />

setabel. For en tosidet variansanalyse med gentagelser ser en del af Excel’s variansanlysetabel<br />

s˚ aledes ud:<br />

Variationskilde SAK f g s 2 F ε<br />

Rækker SAKR r − 1 s 2 R (s 2 R /s2 01 ) (1 − F F(r−1,rs(t−1))(s 2 R /s2 01 ))<br />

Søjler SAKS s − 1 s 2 S (s 2 S /s2 01 ) (1 − F F(s−1,rs(t−1))(s 2 S /s2 01 ))<br />

Interaktion SAK2 (r − 1)(s − 1) s 2 2 s 2 2 /s2 01 1 − F F((r−1)(s−1),rs(t−1))(s 2 2 /s2 01 )<br />

Indenfor SAK01 rs(t − 1) s 2 01<br />

I alt SAK04 rst − 1<br />

Excel benytter dog navneneSK,MK ogP-værdi for kolonnerne som her hedder SAK, s 2 og ε og<br />

navneneStikprøve ogKolonner for rækkerne som her hedder Rækker og Søjler.<br />

Bemærk, at der er sat parenteser om F- og ε-størrelserne i Rækker og Søjler. Det skyl-<br />

des, at Excel tester hypoteserne H0R og H0S om henholdsvis ingen rækkevirkning og ingen<br />

søjlevirkning i modellen M1. Dette ses af at tælleren og antal frihedsgrader for tælleren i alle F<br />

størrelserne er henholdsvis s2 01 og f01 = rs(t − 1). Det er ikke den fremgangsm˚ ade vi benytter.<br />

Vi tester først hypotesen H02 om additivitet i M1. Hvis vi forkaster kan vi ikke komme videre<br />

med analysen. Hvis vi accepterer H02 er model M1 reduceret til additivitetsmodellen M2, som<br />

nu danner grundlag for den videre analyse. Rækkefølgen hvori hypoteserne H0R og H0S testes<br />

afhænger af den faglige problemstilling. Hvis vi først vælger af teste H0R er F-teststørrelsen


4.125<br />

s2 R /s2 02 , idet s2 02 er varians estimatet i M2. Accepteres H0R reduceres M2 til M∗ 3 og i denne model<br />

kan hypotesen H0S testes ved hjælp af F-teststørrelsen s2 S /s∗2<br />

03 , idet s∗2<br />

03 er varians estimatet i M∗ 3 .<br />

Hvis H0R forkastes ved test i M2 er modellen stadig M2 og hypotesen H0S kan testes ved hjælp<br />

af F-teststørrelsen s 2 S /s2 02 .<br />

Fremgangsm˚ aden er alts˚ a ikke den samme som den Excel lægger op til, men variansanaly-<br />

seskemaet indeholder alle de relevante størrelser, idet<br />

SAK02 = SAK01 + SAK2, f02 = f01 + f2 = rst −(r+ s − 1), s 2 02<br />

SAK03 = SAK01 + SAK2 + SAKS, f03 = f01 + f2 + fS = r(st − 1), s 2 03<br />

SAK ∗ 03 = SAK01 + SAK2 + SAKR, f ∗ 03 = f01 + f2 + fR = s(rt − 1), s ∗2<br />

= SAK02<br />

f02<br />

= SAK03<br />

f03<br />

03 = SAK∗ 03<br />

.<br />

For en tosidet variansanalyse uden gentagelser ser en del af Excel’s variansanalysetabel<br />

s˚ aledes ud:<br />

Variationskilde SAK f g s 2 F ε<br />

Rækker SAKR r − 1 s 2 R s 2 R /s2 02 1 − F F(r−1,(r−1)(s−1))(s 2 R /s2 02 )<br />

Søjler SAKS s − 1 s 2 S s 2 S /s2 02 1 − F F(s−1,(r−1)(s−1))(s 2 S /s2 02 )<br />

Interaktion SAK02 (r − 1)(s − 1) s 2 02<br />

I alt SAK04 rs − 1<br />

Igen benyter Excel navnene SK, MK og P-værdi for kolonnerne som her hedder SAK, s 2 og ε.<br />

Desuden benyttes navnene Rækker, Kolonner og Fejl for rækkerne som her hedder Rækker,<br />

Søjler og Interaktion.<br />

Bemærk, at Excel angiver tester begge hypoteserne H0R og H0S i additivitetsmodellen M2,<br />

hvilket vi ikke altid gør. Tabellen indeholder dog den relevante information ogs˚ a til vores frem-<br />

gangsm˚ ade idet<br />

SAK03 = SAK02 + SAKS, f03 = f02 + fS = r(s − 1), s 2 03<br />

SAK ∗ 03 = SAK02 + SAKR, f ∗ 03 = f02 + fR = s(r − 1), s ∗2<br />

Konfidensintervaller i M2<br />

Da modellerne M1, M3 og M ∗ 3<br />

= SAK03<br />

f03<br />

03 = SAK∗ 03<br />

.<br />

alle er modeller for flere observationsrækker kan konfidensin-<br />

tervallerne for parametrene i disse modeller findes ved hjælp af resultaterne i Afsnit 4.5. M4<br />

er modellen for én normalfordelt observationsrække med ukendt middelværdi og varians, s˚ a<br />

f ∗ 03<br />

f ∗ 03


4.126 4.7 Tosidet variansanalyse<br />

konfidensintervallerne i denne model fremg˚ ar af Afsnit 4.3 . Vi indskrænker os derfor her til at<br />

diskutere konfidensintervaller i additivitetsmodellen M2.<br />

Af formlerne (4.62) og (4.63) as, f˚ at (1 − α) konfidensintervallerne for middelværdien αi +<br />

β j i den (i, j)’te celle er<br />

[ ¯xi··+ ¯x· j· − ¯x··· −t 1−α/2( f02)<br />

<br />

s 2 02<br />

hvor f02 = rst −(r+ s − 1), og for variansen σ 2<br />

<br />

r+ s − 1<br />

, ¯xi··+ ¯x· j· − ¯x···+t<br />

rst<br />

1−α/2( f02) s2 r+ s − 1<br />

02 ], (4.72)<br />

rst<br />

s 2 02<br />

s 2 02<br />

[<br />

χ2 1−α/2 ( f02)/<br />

,<br />

f02 χ2 α/2 ( f02)/<br />

]. (4.73)<br />

f02<br />

Størrelsen αg − αh omtales kontrasten mellem den g’te og den h’te række. Tilsvarende er<br />

βl − βm kontrasten mellem den l’te og den m’te søjle. I M2 estimeres kontrasterne s˚ aledes:<br />

og<br />

αg − αh ← ¯xg·· − ¯xh·· ∼∼ N(αg − αh, 2<br />

st σ 2 )<br />

βl − βm ← ¯x·l· − ¯x·m· ∼∼ N(βl − βm, 2<br />

rt σ 2 ),<br />

hvilket giver anledning til følgende (1 − α) konfidensintervaller. For kontrasten αg − αh<br />

<br />

[ ¯xg·· − ¯xh·· −t1−α/2( f02) s2 2<br />

02 st , ¯xg··<br />

<br />

− ¯xh·· +t1−α/2( f02) s2 2<br />

02 ] (4.74)<br />

st<br />

og for kontrasten βl − βm<br />

[ ¯x·l· − ¯x·m· −t 1−α/2( f02)<br />

Diskussion af de to test for H0S<br />

<br />

s 2 02<br />

2<br />

rt , ¯x·l·<br />

<br />

− ¯x·m· +t1−α/2( f02)<br />

s 2 02<br />

2<br />

]. (4.75)<br />

rt<br />

Af det ovenst˚ aende ses, at hypotesen om ingen søjlevirknin g H0S kan testes i to forskellige<br />

modeller, nemlig M2 og M∗ 3 . Testene er forskellige og kan føre til forskellige resultater - som<br />

vist nedenfor - hvis der er en signifikant rækkevirkning. For nemheds skyld antager vi at t = 1,<br />

det vil sige at vi ingen gentagelser har.<br />

Af (4.68) og (4.71), ses at i additivitetsmodellen M2 testes H0S ved hjælp af<br />

og i M ∗ 3<br />

ved hjælp af<br />

FS(X) = s2 S<br />

s2 ∼ F(s − 1,(r − 1)(s − 1))<br />

02<br />

˜FS(X) = s2 S<br />

s∗2 ∼ F(s − 1,(r − 1)s).<br />

03


Formlerne (4.67) og (4.70) medfører, at<br />

FS(X)<br />

˜FS(X) =<br />

s2 S<br />

s2 02<br />

s 2 S<br />

s ∗2<br />

03<br />

= s∗2 03<br />

s2 =<br />

02<br />

1<br />

(r−1)sSAK∗ 03<br />

1<br />

(r−1)(s−1) SAK02<br />

= s − 1<br />

= s − 1 SAK02 + SAKR<br />

=<br />

s SAK02<br />

s − 1<br />

= s − 1<br />

(1+<br />

s<br />

1<br />

s − 1 FR(X))<br />

= s − 1<br />

s<br />

FR(X)<br />

+ .<br />

s<br />

SAK<br />

s<br />

∗ 03<br />

SAK02<br />

(1+<br />

s<br />

SAKR<br />

)<br />

SAK02<br />

4.127<br />

Hypotesen H0R om ingen rækkevirkning forkastes for store værdier af FR(X)(>> 1), og det ses<br />

at i s˚ a tilfælde er<br />

FS(X)<br />

˜FS(X) >> 1 eller ˜FS(X) <br />

F0.95(s − 1,(r − 1)(s − 1)), mens hypotesen accepteres i M ∗ 3 idet ˜FS(x) < F0.95(s − 1,(r − 1)s).<br />

Forklaringen er, at hypotesen ikke skal testes i M ∗ 3 , da reduktionen M2 → M ∗ 3<br />

- svarende til<br />

hypotesen om ingen rækkevirkning - forkastes, fordi FR(x) er stor. Med andre ord kan hypotesen<br />

om ingen søjlevirkning ukorrekt blive accepteret, hvis en signifikant rækkevirkning negliceres.<br />

Eksempel 4.9 (Fortsat)<br />

Udskriften fra Excel’s dialogboks Anava: To-faktor uden gentagelse ser for disse data


4.128 4.7 Tosidet variansanalyse<br />

s˚ aledes ud:<br />

¡¢£¤¥¦§¨¡<br />

¢ £ ©<br />

¥ ¦ § ¨¤<br />

¡©<br />

¦ ¤¨¨¡¡§£¡§¤¦ £©©¡©£¥ ¨©¤ <br />

¦ ¦©¡¡£¢ £¡§¤¦ ©© ¡£¦¥ ¨ ¢ ¦ ¦¡£¡£¥¡§¤¦ £¢©©££©¤¦ £¢ £ ¦ ¥¤¨ ¡¢¦©©¤£©¢¢¢¢¢ ¤ ¦ ¦ ©¡££¡§¤¦ £¢ ©©¢£©¡¢§ ¥ ¦ ¦©¢¡£¢¡§¤¦ £¢ ©©¡£¢¡¢§ ¡<br />

¥ £¡¨¡¢§ ¥¥¥¥¥¦©©©¥¨¦¥¥¥¦ <br />

¥ ¥¥©¡¦¥¥¥¥¥¥¥¦©© ¨§¡¥¥¥¦ ¢ ¥ ¢¥¥¡¡¦¥¥¥¥¥¥¦©© ©¤§¥¥¥¦ £ ¥ ¢¨¥¡¢¡¥¥¥¥¥¥¦©©©¤§¥¥¥¥¦ ¤ ¥ ¢¨¡ ¡¢¡ ©©©¤¢¡ ¥ ¥ £¡§ ¡¢§ ©©©¥¨¥ ¡<br />

¥ £¡¥¡¢¦¥¥¥¥¥¥¦©©©¤¨§¥¥¥¦ <br />

¦<br />

© ¤£¢¡¥ ¨ ¤©©¢©§¥¤¡¢§¥©£©¤¢¨¡§ ©©©©¤¤¥£¨¢¡¤¢¢¤¤¢§ ©¨¦¤¤¨¤¡¢§ ¥© ¥¡¤¨¨¡©¥¢ §¡ ¦§¡£¨ © ¨¡¤ ¡£¡©¤¡©¥¦ <br />

¡¡ ¡£ ¡ © ¢©©©©¤<br />

Den øverste tabel indeholder informationer om tretten observationsrækker (seks svarende til £ ¨©¤ ¡§¢¡ ©¨¥§¢ ¤¢¡¨©£¦¥ ¡¤ ¡¢ ¡¥<br />

rækkerne og syv svarende til søjlerne). For hver observationsrække angives antallet af observa-<br />

tioner, summen af observationerne samt empirisk middelværdi og varians.<br />

at<br />

Under overskriftenANAVA ses variansanalysetabellen. Det fremg˚ ar af rækken Fejl fremg˚ ar,<br />

I rækkenKolonner ses, at<br />

samt at<br />

SAK02 =0.153290476, f02 =30 og s 2 02 =0.005109683.<br />

SAKS =0.975595238, fS =6 og s 2 S =0.162599206<br />

og at den tilsvarende testsandsynlighed er<br />

FS(x) = s2 S<br />

s2 =31.82178249<br />

02<br />

ε(x) = 1 − F F(6,30)(FS(x)) =1.01925 ·10 −11<br />

og endvidere er angiver 95% fraktilen F0.95(6,30) =2.420520673. Vi forkaster derfor hypote-<br />

sen H0S om ingen søjlevirkning, hvilket her betyder at der er forskel p˚ a den m˚ alte mængde af<br />

calcium p˚ a de syv forskellige tidspunkter.


samt<br />

og<br />

P˚ a tilsvarende m˚ ade ses i rækken Rækker, at<br />

SAKR =0.15432619, fR =5 og s 2 R =0.030865238<br />

FR(x) = s2R s2 =6.040539281<br />

02<br />

ε(x) = 1 − F F(5,30)(FR(x)) =0.000556493.<br />

4.129<br />

Hypotesen H0R om ingen rækkevirkning forkastes alts˚ a ogs˚ a. Det vil sige , at der er forskel p˚ a<br />

mængden af calcium hos de seks personer.<br />

Figur 4.28 Fraktildiagrammer for residualerne i M2 i Eksempel 4.9.<br />

Figur 4.28 viser fraktildiagrammet for residualerne i M2 og figuren giver ikke anledning til<br />

at betvivle normalfordelingsantagelsen i modellen.<br />

Ved hjælp af udskriften fra Excel p˚ a side 4.128 og formel (4.73) finder vi følgende 95%<br />

konfidensinterval for variansen σ 2 :<br />

[ 0.00511<br />

1.5660<br />

0.00511<br />

, ] = [0.00326,0.00913]<br />

0.5597<br />

Konfidensintervallet for middelværdien αi + β j i den (i, j)’te celle er givet i formel (4.72). For,<br />

for eksempel, at beregne intervallet for person nr. 10 (i = 6) p˚ a den 12’te dag ( j = 7) finder vi


4.130 4.7 Tosidet variansanalyse<br />

først ved hjælp af tabellenRESUME p˚ a side 4.128, at<br />

α6 + β7 ← ¯x6·· + ¯x·7· − ¯x··· = 17.03<br />

7 +14.26<br />

100.97<br />

− = 2.4055,<br />

6 42<br />

idet summen af de 42 observationer er 100.97. Da t0.975(30) = 2.042, bliver 95% konfidensin-<br />

tervallet for α6 + β7<br />

[2.4055 − 2.042<br />

<br />

0.00511 12<br />

42 ,2.4055+2.042<br />

<br />

0.00511 12<br />

] = [2.327,2.484].<br />

42<br />

Ved hjælp af (4.74) findes 95% konfidensintervallet for kontrasten α5 − α6 (for person nr. 9 og<br />

person nr. 10), idet<br />

til<br />

[0.0100 − 2.042<br />

α5 − α6 ← ¯x5·· − ¯x6·· = 17.10<br />

7 −17.03 = 0.0100,<br />

7<br />

<br />

0.00511 2<br />

7 ,0.0100+2.042<br />

<br />

0.00511 2<br />

] = [−0.068,0.088].<br />

7<br />

Der er alts˚ a ikke forskel p˚ a indholdet af calcium i blodprø verne for disse to personer.<br />

95% konfidensintervallet for kontrasten β2 − β7 (for dag 0 og dag 12) bliver ved hjælp af<br />

formel (4.75), idet<br />

β2 − β7 ← ¯x·2· − ¯x·7· = 16.60<br />

6 −14.26 = 0.3900,<br />

6<br />

<br />

[0.3900 − 2.042 0.00511 2<br />

6 ,0.3900+2.042<br />

<br />

0.00511 2<br />

] = [0.306,0.474].<br />

6<br />

Vi ser, at 0 ikke tilhører 95% konfidensintervallet for β2 −β7. Ved et t-test p˚ a 5% niveau for-<br />

kaster vi alts˚ a hypotesen β2 −β7 = 0, eller β2 = β7. Der er alts˚ a signifikant forskel p˚ a indeholdet<br />

af calcium i blodprøverne fra dag 0, lige efter løbet, og indholdet af calcuim i blodprøverne p˚ a<br />

dag 12 efter løbet. Fysiologerne mener, at denne forskel skyldes væsketabet under løbet.


Eksempel 4.10 (Fortsat)<br />

4.131<br />

Udskriften fra Excel’s dialogboks Anava: To-faktor med gentagelser bliver i dette ek-<br />

sempel<br />

¡¢£¤¥¦§¨¡<br />

¢ ©<br />

¤ ¥ ¦ § £<br />

¡© ¨<br />

¡¡ ¡¢ ¡£ ¡¤ ¡<br />

¡¦ ¡§ ¡¨ ¢© ¡¥<br />

¨¨§ ¨¨¨ ¡©©© <br />

¨ ¨ ¨ ¡¦ ¨£ ©©£ ¨§¦ ¡¨¢¡¡ ©£¤¥¥¥¥¥¦ ¤¥¥¥¥¥¦ ©¨¥¥¥¥¥¥¦ ©§¥ ¡¥¨¨£¦¤ §¢¥£¦¤ ¥¨¤¡©©¦¨¢©¦¥¨ <br />

¨ ¨ ¨ ¡¦ <br />

¦¥¡§ ¦¦ ¡ § ¨¢ ¡¢¤¢¢ §£¦¤¤¤¤¤¤¥§¤¥§§§§§§¨¨ ©¢¢¢¢¢¢¢§¦ ¤¨¡¤¨¡¥ §£ £¦¦¦¦§ £§£ ¢¥ ¤¡£©¡¤ ¤¦ ¥¢¡¦¥£ <br />

§ § § ¦©¢¨ ¦¦¤¢ §©¥¢ ¨£¥¥ ¨§¥¡¦¦¦¦¦§ ©©¢¤ ¢ ¦¤§¢¥¨¡§¢¢¢¤¡¥§¢© ¡£¢¢§¨¦©¤¨ <br />

<br />

¥¡©¥©¡¡£©¦ ¢©¦£©£¡¥£¦ ¢©¥¢§¢¦©¢¦ ¤¢ §¤ £¥¦¦££¡£© ¨©¦¡© ¢¥© ¡©¥§©©¤ ¢ £§ ¤ <br />

I<br />

¥¡©¥©¡¡£©¦¢¢¥©£§¢¢£§¤<br />

tabellenRESUME er angivet antal observationer, sum af observationer samt empirisk mid- ¡§§¦¤¨ ¤¢ §£¥¦¥£§ §§¥££¦ ¨©¦¡© §¤¡©¢¥§¡¢¨¤¤£¥¨¢¨© ©¢¦©£ ¢ ¨©§¡¨¤ ¨ ¡ ¤¤ <br />

delværdi og varians for observationsrækkerne best˚ aende a f henholdsvis observationer indenfor<br />

de enkelte celler, observationer indenfor de enkelte rækker og observationer indenfor de enkelte<br />

søjler.<br />

Variansanalysetabellen findes under overskriftenANAVA.<br />

I rækkenIndenfor ses at<br />

SAK01 =88.64471111, f01 =48 og s 2 01 =1.846764815,<br />

hvilket ogs˚ a fremg˚ ar at beregningsskemaet side 4.117.<br />

RækkenInteraktion indeholder størrelserne<br />

SAK2 =1.360103704, f2 =2 og s 2 2 =0.680051852<br />

samt F-teststørrelsen for hypotesen om additivitet H02 : μi j = αi + β j<br />

F(x) = s2 2<br />

s2 =0.368239554<br />

01


4.132 4.7 Tosidet variansanalyse<br />

og den tilsvarende testsandsynlighed<br />

ε(x) = 1 − F F(2,48)(F(x)) =0.69388911.<br />

Det vil sige, at hypotensen H02 om additivitet accepteres. Modellen M1 reduceres derfor til<br />

idet<br />

og<br />

I M2 er varians estimatet<br />

s 2 02 = SAK02<br />

f02<br />

M2 : Xi jk ∼ N(αi + β j,σ 2 ).<br />

= 90.00481481<br />

50<br />

= 1.80009630,<br />

SAK02 = SAK01 + SAK2 =88.64471111+1.360103704 = 90.00481481<br />

f02 = f01 + f2 =48+2 = 50.<br />

Da der ikke er nogen særlig grund til at der er forskel p˚ a resu ltaterne de forskelligear ˚ (søjler),<br />

tester vi først hypotesen om ingen søjlevirkning H0S. I linjenKolonner ses, at<br />

SAKS =3.063837037, fS =2 og s 2 S =1.531918519.<br />

Af (4.68) ses, at F-teststørrelsen for H0S er<br />

Da<br />

FS(x) = s2 S<br />

s2 =<br />

02<br />

1.531918519<br />

= 0.85102032 ∼∼ F(2,50).<br />

1.80009630<br />

ε(x) = 1 − F F(2,50)(FS(x)) = 0.4331<br />

(eller blot FS(x) < F0.95(2,50) = 3.18) accepteres H0S, det vil sige der er ikke forskel p˚ a resul-<br />

taterne i de trear. ˚ Modellen M2 reduceres til<br />

Da<br />

og<br />

M3 : Xi jk ∼ N(αi,σ 2 ).<br />

SAK03 = SAK02 + SAKS = 90.00481481+3.063837037 = 93.06865185<br />

bliver estimatet for variansen i M3<br />

f03 = f02 + fS = 50+2 = 52,<br />

s 2 03<br />

= SAK03<br />

f03<br />

= 1.78978177.


4.133<br />

Vi tester til sidst hypotesen H0R om ingen rækkevirkning - her ingen forskel p˚ a længden af<br />

drengenes og pigernes kuglestød - i M3. I linjenStikprøve ses, at<br />

SAKR =62.06022407, fR =1, s 2 R =62.06022407,<br />

s˚ a F-teststørrelsen for test af H0R i M3 i formel (4.69) bliver<br />

Da<br />

˜FR(x) = s2R s2 =<br />

03<br />

62.06022407<br />

= 34.67587047 ∼∼ F(1,52).<br />

1.78978177<br />

ε(x) = 1 − F F(1,52)( ˜FR(x)) = 0.000000289<br />

(eller blot ˜FR(x) > F0.95(1,50) = 4.03 (da F0.95(1,52) ikke findes i Statistical Tables)) forkastes<br />

H0R. Der er alts˚ a forskel p˚ a længden af drengenes og pigernes k uglestød.<br />

Slutmodellen for disse data er dermed<br />

M3 : Xi jk ∼ N(αi,σ 2 ), i = 1,2, j = 1,2,3,k = 1,...,9,<br />

det vil sige to normalfordelte observationsrækker hver med 27 observationer. Af tabellenRESUME<br />

ses, at<br />

og af det ovenst˚ aende as f˚<br />

Relation til andre modeller<br />

σ 2<br />

α1 ← ¯x1·· =10.86 ∼∼ N(α1,<br />

27 ),<br />

σ 2<br />

α2 ← ¯x2·· =8.72 ∼∼ N(α2,<br />

27 ),<br />

σ 2 ← s 2 03 = 1.7898 ∼∼ σ 2 χ 2 (52)/52.<br />

Antag, at s = 2 og t = 1, det vil sige at vi betragter en tosidet variansanalyse uden gentagelser og<br />

med kun to søjler. Det kan da vises, at F-testet i (4.68) for hypotesen H0S om ingen søjlevirkning<br />

er ækvivalent med det parrede t-test i Afsnit 4.4.4, idet<br />

FS(x) = (t(d)) 2 .<br />

P˚ a grund af formel (3.36) er de to testsandsynligheder<br />

ε(x) = 1 − F F(1,r−1)(FS(x))


4.134 4.7 Tosidet variansanalyse<br />

og<br />

identiske.<br />

Eksempel 4.11<br />

ε(d) = 2(1 − P(t(r − 1) ≤ |t(d)|))<br />

Hvis vi betragter data for samtlige 11 personer før løbet (dag -1) og efter løbet (dag 0) i tabellen<br />

side 4.111 bliver teststørrelsen for hypotesen H0S om ingen søjlevirkning i additivitetsmodellen<br />

M2<br />

mens teststørrelsen for det parrede t-test er<br />

FS(x) = 180.2597 ∼∼ F(1,10)<br />

t(d) = 13.4261.<br />

I begge tilfælde er testsandsynligheden 1.01 · 10 −7 , hvilket betyder, at vi har konstateret en sig-<br />

nifikant forskel p˚ a indholdet af calcium i deltagernes blod prøver før og efter løbet. Af tallene<br />

ses, at indholdet er størst efter løbet, hvilket - som nævnt ovenfor - ifølge fysiologerne skyldes<br />

væsketab under løbet.


Anneks til Afsnit 4.7<br />

Beregninger i Excel<br />

Excel har to dialogbokse der udfører beregninger i en tosidet variansanalyse, nemlig<br />

Anava: To-faktor uden gentagelse<br />

Anava: To-faktor med gentagelse<br />

4.135<br />

Vi viser her hvorledes beregningerne udføres. Udskrifterene fra de to dialogbokse er kom-<br />

menteret i teksten ovenfor.<br />

Eksempel 4.9 (Fortsat)<br />

Antag, at indholdet af cellerne A1:H9 i regnearket er: ©<br />

£¨<br />

¡ ¤ ¡ ¡¤¦ ¡¡¦ ¡¡¤ ¡ ¡¥¡ ¡¢¨ ¡¡¨ ¡£¦ ¡£¨ ¡¢£¤¥¦§¨ ¡¤ ¡¨ ¡¡¨ ¡£ ¡¢¡ ¡¢¦ ¡£¤ ¢ <br />

¡¡¡ ¡¡¢ ¡¢¡ ¡¢¡<br />

Ruten Funktioner → Dataanalyse →<br />

¡¡£<br />

Anava:To-faktor<br />

¡¨<br />

uden<br />

¡¡§<br />

gentagelse<br />

¡¡¨<br />

giver<br />

¡¡¨ ¡££ ¡££ ¡¢¥ ¡¢§<br />

en<br />

¡¢§<br />

¡¦§ ¡¢£ ¡¢¨ ¡¢¥ ¡£¢ ¡¢¤ ¡¢§ ¡¢¡ ¡§£ ¡£ ¨ ¡¡£ ¡§§ ¡¢§ ¦ ¢<br />

dialogboks, hvor cellerne B4:H9 angives i Inputomr˚ade. Bemærk, at kun celler, der indehol-<br />

der tal, angives. Et klik p˚ a OK bevirker en udskrift p˚ a et nyt regneark. Udskriften er her v ist p˚ a<br />

side 4.128.


4.136 Beregninger i Excel<br />

Eksempel 4.10 (Fortsat)<br />

Antag, at indholdet af cellerne A1:D21 i regnearket er: <br />

¡¢£¤¥¦§¨¡<br />

¢ ©<br />

¤ ¥ ¦ £<br />

¨§<br />

© ¨¨§ ¨¨¨ ¡©©© ¦ §§© ¨¢© £<br />

¤¦ ¥© ¨¢¢ ¡£§ §© ¡¤¢ ¨§¢ ¡¡© ¡¤ ¡¨ ¡¤© ¡¤¦<br />

¤© ©¤© ¨¥¨ ¨© ¨¦© ©¦© ¤¡ ¨© ¦¤£<br />

¨¨© ¨¡© ¦ ¥ ¨£¨ §¤¨ ©£¤ ¥¥¨ §§© ¨¢¢<br />

§£¦ §© ¨£© ©¥¤ § §¤ ¨ ¥<br />

§¥¤<br />

RutenFunktioner →Dataanalyse →Anava:To-faktor<br />

©<br />

med<br />

§©¢ §£¤ ¦¡¡<br />

gentagelse<br />

§¡<br />

giver en di- ¨ ¡ ¦¦¨ ¦¨£ § §¦¡ § ¨ ¥¡¦ ¨¥¡ ¡ ¡©<br />

alogboks, hvor cellerneA3:D21 angives iInputomr˚ade. Bemærk, at ikke kun celler, der inde-<br />

holder tal, angives. Cellerne, der indeholder navne p˚ a ræk ker og søjler, angives ogs˚ a. Desuden<br />

angives iRækker pr. stikprøve tallet9. Et klik p˚ a OK bevirker en udskrift p˚ a et nyt regneark.<br />

Udskriften er her vist p˚ a side 4.131. (Linjerne i regnearke t er strengt taget ikke nødvendige men<br />

er medtaget for overskuelighedens skyld.)


Hovedpunkter til Afsnit 4.7<br />

Her resumeres hovedpunkterne vedrørende tosidet variansanalyse.<br />

4.137<br />

Data er organiseret i et tosidet skema med r rækker og s søjler. I den (i, j)’ celle er der<br />

t observationer. Den k-te observation i den (i, j)’ celle xi jk antages at være et udfald af en<br />

stokastisk variabel Xi jk, i = 1,...,r, j = 1,...,s og k = 1,...,t. Idet X-erne antages at være<br />

uafhængige betragtes følgende modeller:<br />

M0 : Xi jk ∼ N(μi j,σ 2<br />

i j ),<br />

M1 : Xi jk ∼ N(μi j,σ 2 ),<br />

M3 : Xi jk ∼ N(αi,σ 2 )<br />

ր ց<br />

M2 : Xi jk ∼ N(αi + β j,σ 2 ) M4 : Xi jk ∼ N(μ,σ 2 )<br />

ց ր<br />

M ∗ 3 : Xi jk ∼ N(β j,σ 2 )<br />

Her er M0 modellen for rs observationsrækker hver med sin middelværdi og sin varians.<br />

Modellerne M1, M3 og M ∗ 3<br />

er alle eksempler p˚ a modellen med flere observationsrækker hver<br />

med sin middelværdi men med fælles varians, omtalt i Afsnit 4.5. I M1 er der rs observations-<br />

rækker (cellerne) hver med t observationer, i M3 er der r observationsrækker (rækkerne) hver<br />

med st observationer og i M ∗ 3<br />

er der s observationsrækker (søjlerne) hver med rt observationer.<br />

M4 er modellen for én observationsrække med n = rst observationer med ukendt middelværdi<br />

og varians, omtalt i Afsnit 4.3. Estimation, herunder konfidensintervaller, i disse modeller er<br />

kendt fra Afsnit 4.3 og Afsnit 4.5 og resumeres derfor ikke her.<br />

De centrale hypoteser er hypotesen om ingen rækkevirkning<br />

og hypotesen om ingen søjlevirkning<br />

H0R : α1 = ··· = αr<br />

H0S : β1 = ··· = βs<br />

H0R kan testes i M2 og i M3. Testene i de to modeller er forskellige og accept af hypotesen<br />

medfører henholdsvis modelreduktionen M2 → M ∗ 3 og M3 → M4. Tilsvarende kan H0S kan testes<br />

i M2 og i M ∗ 3 og igen er testene, svarende til henholdsvis reduktionen M2 → M3 og M ∗ 3<br />

forskellige.<br />

→ M4,


4.138 Hovedpunkter til Afsnit 4.7<br />

Modelkontrol<br />

Hvis antallet af observationer t i hver celle er tilpas stort kan M0 kontrolleres ved hjælp af rs<br />

fraktilsammenligninger.<br />

Hvis t ≥ 3 kan hypotesen om varianshomogenitet, svarende til reduktionen M0 → M1, vur-<br />

deres ved hjælp af et Bartlett test, omtalt i Afsnit 4.5.<br />

Hvis vi har gentagelser, t ≥ 2, kan hypotesen om additivitet H02 : μi j = αi + β j testet ved<br />

hjælp af teststørrelsen<br />

hvor<br />

og<br />

s 2 2<br />

= SAK2<br />

f2<br />

s 2 01<br />

F(x) = s2 2<br />

s2 ∼∼ F( f2, f01),<br />

01<br />

=<br />

t<br />

= SAK01<br />

f01<br />

r<br />

∑<br />

i=1<br />

=<br />

s<br />

∑ ( ¯xi j· − ¯xi·· − ¯x· j· + ¯x···)<br />

j=1<br />

2<br />

,<br />

(r − 1)(s − 1)<br />

r<br />

∑<br />

i=1<br />

s<br />

∑<br />

t<br />

∑<br />

j=1 k=1<br />

(xi jk − ¯xi j·) 2<br />

rs(t − 1)<br />

Store værdier af F(x) er kritiske og testsandsynligheden for H02 er<br />

ε(x) = 1 − F F( f2, f01)(F(x)),<br />

hvor F F( f2, f01) er fordelingsfunktionen for F-fordelingen med ( f2, f01) frihedsgrader.<br />

Ved test p˚ a 5% niveau forkastes H02, hvis<br />

F(x) > F0.95( f2, f01).<br />

Testet beregnes ved hjælp af Excel’s dialogboksAnava: To-faktor med gentagelse.<br />

Modellen M2 kan endvidere kontrolles ved hjælp af profildiagrammer, omtalt p˚ a side 4.117.<br />

Hvis vi ikke har gentagelser, t = 1, er profildiagrammer den eneste m˚ ade at vurdere rimelighe -<br />

den af M2 p˚ a.<br />

Estimation i M2<br />

Vi har følgende estimater for EXi jk = αi + β j og variansen σ 2 i M2 :<br />

s 2 02<br />

αi + β j ← ¯xi·· + ¯x· j· − ¯x··· ∼∼ N(αi + β j,<br />

1<br />

= SAK02 =<br />

f02<br />

1<br />

f02<br />

r<br />

∑<br />

i=1<br />

s<br />

∑<br />

t<br />

∑<br />

j=1 k=1<br />

.<br />

r+ s − 1<br />

σ<br />

rst<br />

2 ),<br />

(xi jk − ¯xi·· − ¯x· j· + ¯x···) 2 ∼∼ σ 2 χ 2 ( f02)/ f02.<br />

hvor f02 = rst −(r+ s − 1). Endvidere estimeres kontrasterne s˚ aledes:<br />

αg − αh ← ¯xg·· − ¯xh·· ∼∼ N(αg − αh, 2<br />

st σ 2 ),


Konfidensintervaller i M2<br />

βl − βm ← ¯x·l· − ¯x·m· ∼∼ N(βl − βm, 2<br />

rt σ 2 ).<br />

Med f02 = rst −(r+ s − 1) har vi følgende (1 − α) konfidensintervaller:<br />

middelværdien αi + β j i den (i, j)’te celle:<br />

<br />

[ ¯xi·· + ¯x· j· − ¯x··· −t1−α/2( f02) s2 <br />

r+ s − 1<br />

02 , ¯xi·· + ¯x· j· − ¯x··· +t<br />

rst<br />

1−α/2( f02)<br />

variansen σ 2 :<br />

kontrasten αg − αh :<br />

kontrasten βl − βm<br />

Test i M2<br />

Test af H0R i M2<br />

Teststørrelse:<br />

hvor<br />

og<br />

[ ¯xg·· − ¯xh·· −t 1−α/2( f02)<br />

[ ¯x·l· − ¯x·m· −t 1−α/2( f02)<br />

s 2 02<br />

s 2 02<br />

s 2 02<br />

[<br />

χ2 1−α/2 ( f02)/<br />

,<br />

f02 χ2 α/2 ( f02)/<br />

]<br />

f02<br />

= SAK02<br />

f02<br />

<br />

<br />

s 2 02<br />

s 2 02<br />

2<br />

st , ¯xg··<br />

<br />

− ¯xh·· +t1−α/2( f02)<br />

2<br />

rt , ¯x·l·<br />

<br />

− ¯x·m· +t1−α/2( f02)<br />

FR(x) = s2R s2 ∼∼ F( fR, f02),<br />

02<br />

s 2 R = SAKR<br />

fR<br />

=<br />

r<br />

∑<br />

i=1<br />

s<br />

∑<br />

st<br />

=<br />

t<br />

∑<br />

j=1 k=1<br />

r<br />

∑<br />

i=1<br />

( ¯xi·· − ¯x···) 2<br />

r − 1<br />

(xi jk − ¯xi·· − ¯x· j· + ¯x···) 2<br />

rst −(r+ s − 1)<br />

.<br />

s 2 02<br />

s 2 02<br />

s 2 02<br />

2<br />

st ]<br />

2<br />

rt ].<br />

r+ s − 1<br />

]<br />

rst<br />

4.139<br />

SAKR og SAK02 fremg˚ ar af udskriften fra Excel, idet dog SAK02 beregnes som SAK02 = SAK01+<br />

SAK2 hvis t ≥ 2.<br />

Testsandsynlighed for H0R :<br />

ε(x) = 1 − F F(r−1, f02)(FR(x)),<br />

hvor F F(r−1, f02) er fordelingsfunktionen for F-fordelingen med (r − 1, f02) frihedsgrader.


4.140 Hovedpunkter til Afsnit 4.7<br />

Ved test p˚ a 5% niveau forkastes H0R, hvis<br />

FR(x) > F0.95(r − 1, f02).<br />

Accept af H0R medfører modelreduktionen M2 → M ∗ 3 .<br />

Test af H0S i M2<br />

Teststørrelse<br />

hvor<br />

og<br />

s 2 S<br />

s 2 02 = SAK02<br />

f02<br />

FS(x) = s2 S<br />

s2 ∼∼ F( fS, f02),<br />

02<br />

= SAKS<br />

fS<br />

=<br />

r<br />

∑<br />

i=1<br />

=<br />

s<br />

∑<br />

rt<br />

t<br />

∑<br />

j=1 k=1<br />

s<br />

∑ ( ¯x· j· − ¯x···)<br />

j=1<br />

2<br />

s − 1<br />

(xi jk − ¯xi·· − ¯x· j· + ¯x···) 2<br />

rst −(r+ s − 1)<br />

SAKS og SAK02 fremg˚ ar af udskriften fra Excel, idet dog SAK02 beregnes som SAK02 = SAK01+<br />

SAK2 hvis t ≥ 2.<br />

Testsandsynligheden for H0S<br />

ε(x) = 1 − F F(s−1, f02)(FS(x)),<br />

hvor F F(s−1, f02) er fordelingsfunktionen for F-fordelingen med (s − 1, f02) frihedsgrader.<br />

Ved test p˚ a 5% niveau forkastes H0S, hvis<br />

FS(x) > F0.95(s − 1, f02).<br />

Accept af H0S medfører modelreduktionen M2 → M3.<br />

Test i M3<br />

Test af H0R i M3<br />

Teststørrelse<br />

hvor<br />

˜FR(x) = s2R s2 ∼∼ F( fR, f03),<br />

03<br />

s 2 R = SAKR<br />

fR<br />

st<br />

=<br />

r<br />

∑<br />

i=1<br />

( ¯xi·· − ¯x···) 2<br />

r − 1<br />

.


og<br />

s 2 03<br />

= SAK03<br />

f03<br />

=<br />

r<br />

∑<br />

i=1<br />

s<br />

∑<br />

t<br />

∑<br />

j=1 k=1<br />

(xi jk − ¯xi··) 2<br />

r(st − 1)<br />

SAKR fremg˚ ar af udskriften fra Excel, mens SAK03 beregnes som SAK03 = SAK02 + SAKS.<br />

Testsandsynlighed:<br />

Ved test p˚ a niveau 5% forkastes, hvis<br />

ε(x) = 1 − F F(r−1, f03)( ˜FR(x)),<br />

˜FR(x) > F0.95(r − 1, f03).<br />

Accept af H0R medfører modelreduktionen M3 → M4.<br />

Test i M ∗ 3<br />

Test af H0S i M ∗ 3<br />

Teststørrelse<br />

hvor<br />

og<br />

s 2 S<br />

˜FS(x) = s2 S<br />

s∗2 ∼∼ F( fS, f<br />

03<br />

∗ 03 ),<br />

= SAKS<br />

fS<br />

s ∗2<br />

03 = SAK∗ 03<br />

f ∗ =<br />

03<br />

=<br />

rt<br />

r<br />

∑<br />

i=1<br />

s<br />

∑ ( ¯x· j· − ¯x···)<br />

j=1<br />

2<br />

s − 1<br />

s<br />

∑<br />

t<br />

∑<br />

j=1 k=1<br />

(xi jk − ¯x· j·) 2<br />

s(rt − 1)<br />

SAKS fremg˚ ar af udskriften fra Excel, mens SAK∗ 03 beregnes som SAK∗ 03 = SAK02 + SAKR.<br />

Testsandsynlighed:<br />

Ved test p˚ a niveau 5% forkastes, hvis<br />

Accept af H0S medfører modelreduktionen M ∗ 3<br />

ε(x) = 1 − F F(s−1, f ∗ 03 )( ˜FS(x)),<br />

˜FS(x) > F0.95(s − 1, f ∗ 03 ).<br />

→ M4.<br />

4.141


4.142 Opgaver<br />

Opgaver til Kapitel 4<br />

Opgave 4.1 Betragt igen tallene i Opgave 3.2.<br />

a) Gør rede for at data kan betragtes som en normalfordelt observationsrække.<br />

b) Angiv estimaterne for middelværdi og varians og angiv estimaternes fordeling (n = 17,<br />

S = 53.31, SK = 168.9499).<br />

c) Beregn 95% konfidensintervallet for middelværdien, variansen og spredningen.<br />

Opgave 4.2 Betragt konditallene i Opgave 1.3. Observationen med værdien 174.4 er oplagt<br />

urimelig og skyldes m˚ aske en skrivefejl. Her erstatter vi d en med en observation med værdien<br />

74.4. (Efter denne korrektion er n = 24, S = 1743.2 og SK = 126784.64.)<br />

a) Gør rede for, at konditallene kan antages at være normalfordelte.<br />

Antag først, at variansen σ 2 er kendt og lig med 5, det vil sige σ 2 0<br />

b) Test hypotesen om middelværdien μ kan antages at være 71.5, det vil sige hypotesen<br />

H0 : μ = 71.5.<br />

c) Angiv 95% konfidensintervallet for middelværdien μ.<br />

Antag nu, at b˚ ade middelværdien μ og variansen σ 2 er ukendte.<br />

d) Test hypotesen H0μ : μ = 71.5.<br />

e) Angiv 95% konfidensintervallet for middelværdien μ.<br />

f) Test hypotesen H 0σ 2 : σ 2 = 5.<br />

= 5.<br />

h) Angiv 95% konfidensintervallet for variansen σ 2 og spredningen σ.<br />

Opgave 4.3 Betragt konditallene i Opgave 1.4.<br />

a) Gør rede for, at konditallene kan antages at være normalfordelte.<br />

b) Angiv 95% konfidensintervallet for middelværdien, variansen og spredningen (n = 17,<br />

S = 1177.1, SK = 82034.59).


Opgave 4.4 Betragt vægtene i Opgave 1.5.<br />

a) Gør rede for, at vægtene kan antages at være normalfordelte.<br />

4.143<br />

b) Angiv 95% konfidensintervallet for middelværdien, variansen og spredningen (n = 30,<br />

S = 2275.36, SK = 173966.4244).<br />

Opgave 4.5 Betragt højdefordelingen for pigerne i Opgave 1.10.<br />

a) Gør rede for, at højderne for pigerne i 1983 og højden for pigerne i 1985 kan antages at<br />

være normalfordelte. (Lav fraktildiagrammerne for de toa˚ r i samme figur.)<br />

b) Angiv for hvert af de toar ˚ 95% konfidensintervallet for mi ddelværdien, variansen og<br />

spredningen. (Benyt de beregnede størrelser for højderne i tabellen nedenfor)<br />

˚ar n S SK<br />

1983 723 122820.0 20892850.00<br />

1985 413 70315.0 11986925.00<br />

Opgave 4.6 I afsnittet her har vi i forbindelse med t-testet for hypotesen H0μ : μ = μ0 betragtet<br />

et dobbeltsidet test , det vil sige beregnet testsandsynligheden for t-testet som<br />

hvor<br />

ε(x) = P(t(n − 1) ≥ |t(x)|),<br />

t(x) = ¯x· − μ0<br />

s 2 /n .<br />

Hvis man af en faglig grund kun er interesseret i at afsløre afvigelser fra H0μ i én bestemt<br />

retning for eksempel μ > μ0 betragtes ofte et ensidet test for hypotesen, det vil sige, at testsand-<br />

synligheden beregnes som<br />

ε(x) = P(t(n − 1) ≥ t(x)).<br />

Det kunne for eksempel være tilfældet i følgende situation:<br />

Som bekendt er promillegrænsen for spirituskørsel 0.5 promille. Antag, at der foretages<br />

fire uafhængige m˚ alinger er promillen, nemlig 0.58, 0.57, 0 .57 og 0.49, som antages at være<br />

normalfordelte. Test hypotesen H0μ : μ = 0.5 ved s˚ avel et ensidet som et dobbeltsidet test ( n = 4,<br />

S = 2.21, SK = 1.2263) og diskuter resultaterne.


4.144 Opgaver<br />

Opgave 4.7 Betragt de fire vægtfordelinger i Opgave 1.9. De følgende summer og kvadratsum-<br />

mer er beregnet ved hjælp af intervalmidtpunkterne:<br />

vægt n S SK<br />

drenge 1983 555 36642.5 2459031.25<br />

piger 1983 723 40612.5 2324131.25<br />

drenge 1985 327 21655.0 1457937.50<br />

piger 1985 413 23622.5 1376231.25<br />

Fraktildiagrammer alslører, at det kan antages, at de fire observationsrækker er normalfordelte.<br />

(Det er ikke nødvendigt at foretage denne kontrol.)<br />

Vi betragter først drengene.<br />

a) Vis, at det antages, variansen p˚ a vægtm˚ alingerne er den samme i 1983 og 1985.<br />

b) Vis, at det kan antages, at middelværdien er den samme for de to vægtfordelinger og<br />

angiv et 95% konfidensinterval for forskellen i middelværdien for fordelingen i 1983 og<br />

fordelingen i 1985.<br />

Nu til pigerne.<br />

c) Vis, at det antages, variansen p˚ a vægtm˚ alingerne er den samme i 1983 og 1985.<br />

d) Vis at det ikke kan antages, at middelværdien er den samme for de to vægtfordelinger og<br />

angiv et 95% konfidensinterval for forskellen i middelværdien for fordelingen i 1983 og<br />

fordelingen i 1985.<br />

Opgave 4.8 Betragt de fire højdefordelinger i Opgave 1.10. De følgende summer og kva-<br />

dratsummer er beregnet ved hjælp af intervalmidtpunkterne:<br />

højde n S SK<br />

drenge 83 555 99382.5 17826131.25<br />

piger 83 723 121002.5 20279481.25<br />

drenge 85 327 58725.0 10566337.50<br />

piger 85 413 69277.5 11636468.75<br />

Fraktildiagrammer alslører, at det kan antages, at de fire observationsrækker er normalfordelte.<br />

(Det er ikke nødvendigt at foretage denne kontrol.)<br />

a) Vis, for s˚ avel drenge som piger, at de to observationsræk ker forarene ˚ 1983 og 1985 kan<br />

beskrives ved hjælp af én fordeling.


4.145<br />

Sl˚ a nu de to observationsrækker for drengene sammen til én observationsrække og tilsva-<br />

rende for pigerne.<br />

b) Vis, at det ikke kan antages at observationsrækken for drengene har samme varians som<br />

observationsrækken for pigerne.<br />

c) Beregn et 95% konfidensomr˚ ade for forskellen mellem midd elværdien af højden for dren-<br />

gene og middelværdien af højden for pigerne og p˚ avis ved hjæ lp af dette den ikke over-<br />

raskende kendsgerning, at drengene er signifikant højere end pigerne.<br />

Opgave 4.9 Betragt tallene i Opgave 1.14. Er der signifikant forskel p˚ a glycogen indholdet i<br />

benmusklerne før og efter træningsperioden p˚ a 3 uger?<br />

Opgave 4.10 Betragt tallene i Eksempel 1.5. Er der signifikant forskel p˚a indholdet af glycogen<br />

i venstre og højre ben?<br />

Opgave 4.11 Et helsecenter tilbyder et fitness program og lover et gennemsnitligt vægttab p˚ a<br />

6.5 kg de første 30 dage. For at undersøge om centret lever op til dette løfte, blev programmet<br />

afprøvet p˚ a 12 personer. Resultatet ses i Tabel 4.4.<br />

person før efter differens<br />

i fi ei di = fi − ei<br />

1 73.1 70.9 2.2<br />

2 69.5 65.9 3.6<br />

3 60.0 56.2 3.8<br />

4 55.2 50.8 4.4<br />

5 62.2 57.3 4.9<br />

6 68.5 62.6 5.9<br />

7 71.0 64.1 6.9<br />

8 76.2 68.7 7.5<br />

9 62.8 55.3 7.5<br />

10 64.3 56.6 7.7<br />

11 83.3 74.4 8.9<br />

12 66.0 56.3 9.7<br />

Tabel 4.4 Vægten (i kg) før og efter hos 12 personer, der deltog i et fitness program. Desuden<br />

er differensen mellem vægtene angivet.


4.146 Opgaver<br />

a) Undersøg, om vægttabet er normalfordelt.<br />

b) Undersøg, om middelværdien af vægttabet er 6.5 kg.<br />

c) Angiv estimat og 95%-konfidensinterval for middelværdien og variansen af vægttabet.<br />

Standardberegninger for vægttabene.<br />

Antal S SK<br />

12 73.0 503.12<br />

Opgave 4.12 Ved atletikstævnerne for de 1. arsstuderende ˚<br />

ved Institut for Idræt, Københavns<br />

Universitet, blev resultaterne i pigernes kuglestød iare ˚ ne 1998 - 2000:<br />

Beregnede størrelser<br />

¡¢£¤¥¦§¨©¢¤<br />

<br />

<br />

<br />

<br />

˚ar n S SK<br />

1998 15 127.56 1103.6480<br />

1999 11 96.70 864.5862<br />

2000 9 81.93 758.0283<br />

a) Vis, at det kan antages, at de tre observationsrækker for pigerne har samme varians.<br />

b) Undersøg, om det kan antages, at de tre observationsrækker for pigerne har samme mid-<br />

delværdi.


Resultaterne for drengene blev:<br />

Beregnede størrelser<br />

¡¢£¤¥¦§¨¨©¤¢¤<br />

<br />

<br />

<br />

<br />

˚ar n S SK<br />

1998 14 143.78 1510.9406<br />

1999 14 155.19 1739.7157<br />

2000 10 108.50 1192.0100<br />

c) Vis, at det kan antages, at de tre observationsrækker for drengene har samme varians.<br />

4.147<br />

d) Undersøg, om det kan antages, at de tre observationsrækker for drengene har samme<br />

middelværdi.<br />

Opgave 4.13 Ved atletikstævnerne for de 1. arsstuderende ˚<br />

ved Institut for Idræt, Københavns<br />

Universitet, blev resultaterne i pigernes 100 m løb iarene ˚ 1998 - 2000:


4.148 Opgaver<br />

Beregnede størrelser<br />

˚ar n S SK<br />

1998 11 163.82 2441.8978<br />

1999 8 120.44 1814.1520<br />

2000 8 117.80 1737.0800<br />

a) Vis, at det kan antages, at de tre observationsrækker for pigerne har samme varians.<br />

b) Undersøg, om det kan antages, at de tre observationsrækker for pigerne har samme mid-<br />

delværdi.<br />

Resultaterne for drengene blev: ¡¡¢£¤¥¦§¨©¨<br />

Beregnede størrelser<br />

¡¡¡ ¡ ¡ ¡ <br />

¡ ¡ ¡ ¡ ¡ <br />

¡ ¡¡ ¡ ¡ ¡<br />

¡ <br />

<br />

<br />

˚ar n S SK<br />

1998 19 237.94 2981.5790<br />

1999 15 184.81 2283.2303<br />

2000 9 107.60 1288.4000<br />

c) Vis, at det ikke kan antages, at de tre observationsrækker for drengene har samme varians<br />

og overvej, hvorfor dette er tilfældet.


4.149<br />

Opgave 4.14 (Andersen 1998) Tallene i tabellen nedenfor viser verdensrekorderne p˚ a en en-<br />

gelsk mile fra 1911 til 1993. Materialet stammer oprindeligt fra 1975, s˚ a frem til 1993 er blot<br />

den sidste rekord medtaget. Tiderne er rekordtiderne i sekunder fratrukket 180 sekunder. Ved<br />

angivelsen eraret ˚ er der fratrukket 1900.<br />

˚ar rekord ˚ar rekord<br />

11 75.4 54 59.4<br />

13 74.6 54 58.0<br />

15 72.6 57 57.2<br />

23 70.4 58 54.5<br />

31 69.2 62 54.4<br />

33 67.6 64 54.1<br />

34 66.8 65 53.6<br />

37 66.4 66 51.3<br />

42 66.2 67 51.1<br />

42 64.6 75 51.0<br />

43 62.6 75 49.4<br />

44 61.6 93 43.5<br />

45 61.4<br />

a) Gør rede for at data kan beskrives ved en lineær regression rekord som afhængig variabel<br />

ogar ˚ som uafhængig variabel<br />

b) Beregn estimater for parametrene i regressionmodellen, idet følgende beregnede størrelser<br />

kan benyttes<br />

x(rekord) t(˚ar)<br />

n 25<br />

S 1516.9 1203<br />

SK 93815.81 68311<br />

SP 68735.4<br />

c) Angiv 95% konfidensinterval for parametrene i regressionsmodellen.<br />

Data til Opgave 4.15 og Opgave 4.16 nedenfor stammer fra samme undersøgelse, hvis form˚ al<br />

og resultater var:<br />

Efter fødslen falder hæmoglobinindholdet i blodet hos for tidligt fødte børn ofte voldsomt.<br />

Tidligere fik disse børn derfor blodtransfusioner. For at undersøge om indsprøjtning af erythro-


4.150 Opgaver<br />

poietin (det fra professionel cykelsport kendte dopingmiddel ”epo”) kunne erstatte blodtransfu-<br />

sioner, udførtes to forsø g, hvor for tidligt fødte børn blev behandlet med erythropoietin. I det<br />

første deltog 29 børn, hvoraf 14 (gruppe 3) fik en erythropoietin-dosis p˚ a 100 U pr. kg legems-<br />

vægt (her er U en enhed for det anvendte præparat), mens de resterende 15 var en kontrolgruppe<br />

(gruppe 0), der ikke fik nogen behandling. I det andet deltog 31 børn, hvoraf 16 (gruppe 2) fik<br />

en erythropoietin-dosis p˚ a 100 U pr. kg legemsvægt og 15 (gr uppe 1) fik en erythropoietin-dosis<br />

p˚ a 50 U pr. kg legemsvægt. Børnenes hæmoglobinprocent blev blandt andet m˚ a lt 3 og 6 uger<br />

efter fødslen. Tabel 4.5 viser æ ndringen i hæmoglobinprocenten fra uge 3 til uge 6 for de fire<br />

grupper.<br />

Epo-gruppe Ændring i hæ moglobinprocent n<br />

0 (0 U/kg) -4.0 -5.8 -0.5 1.0 -1.4 -3.3 0.2 -3.6 15<br />

-2.8 -0.4 -0.7 -3.9 -3.2 -2.7 -1.6<br />

1 (50 U/kg) -1.9 -1.9 -1.0 -0.7 2.0 2.2 -2.6 -3.1 15<br />

-2.5 -1.9 3.0 -2.2 -2.5 0.4 -4.3<br />

2 (100 U/kg) -0.4 -1.8 -2.6 0.1 -1.3 0.0 -1.4 -3.5 16<br />

-1.1 2.7 -1.1 -0.9 0.0 0.0 0.8 -0.5<br />

3 (100 U/kg) -0.3 -1.0 0.3 0.0 0.4 1.3 -1.8 -0.6 14<br />

-1.5 -3.0 -1.1 0.5 0.8 -0.9<br />

Tabel 4.5 Ændring i hæmoglobinprocenten fra uge 3 til uge 6 for 60 præmature børn.<br />

I det følgende antages, at ændringen i hæmoglobinprocenten i hver af de 4 grupper er en<br />

normalfordelt observationsrække.<br />

Opgave 4.15 I denne opgave betragter vi kun grupperne 2 og 3, der begge har af˚ et en epo-dosis<br />

p˚ a 100 U/kg.<br />

a) Vis, at det kan antages, at variansen p˚ a ændringen i hæmog lobinprocenten er den samme<br />

i de to grupper.<br />

b) Vis, at det kan antages, at gruppe 2 og 3 har samme ændring i hæmoglobinprocent.<br />

c) Estimer den fælles middelværdi og den fælles varians for ændringen i hæmoglobinprocent<br />

i gruppe 2 og 3.


Ved besvarelsen kan følgende beregnede størrelser benyttes:<br />

n S SK<br />

gruppe 2 16 −11.0 37.48<br />

gruppe 3 14 −6.9 20.79<br />

Σ 30 −17.9 58.27<br />

4.151<br />

Opgave 4.16 Opgave 4.15 viste, at grupperne 2 og 3 kunne sl˚ as sammen til e n gruppe. I denne<br />

opgave betragter vi derfor 3 observationsrækker svarende til forskellige værdier af epo-dosen:<br />

0 (gruppe 0), 50 (gruppe 1) og 100 (gruppe 2 og 3).<br />

For disse data ser beregningsskemaet side 4.33 s˚ aledes ud<br />

Beregningsskema:<br />

i ni Si SKi Si2/ni SAKi fi Var Mean<br />

0 15 -32.7000 120.5300 71.2860 49.2440 14 3.517428571 -2.1800<br />

50 15 -17.0000 82.5200 19.2667 63.2533 14 4.518095238 -1.1333<br />

100 30 -17.9000 58.2700 10.6803 47.5897 29 1.641022988 -0.5967<br />

-------------------------------------------------------=====================<br />

60 -67.6000 261.3200 101.2330 160.0870 57 2.8085438596<br />

a) Gør rede for, at det kan antages, at de 3 observationsrækker svarende til de tre værdier af<br />

epo-dosen har samme varians.<br />

Figur 4.29 viser ændringen i hæmoglobinprocenten (dif) tegnet op mod epo-dosen (dosis).<br />

b) Kommenter Figur 4.29 med henblik p˚ a en lineær regression smodel med ændringen i hæ-<br />

moglobinprocenten som responsvariabel og epo-dosen som forklarende variabel.<br />

c) Estimer parametrene i regressionsmodellen. Ved beregningerne kan følgende størrelser<br />

benyttes<br />

ændring i<br />

hæmoglobinprocent epo-dosis<br />

n 60<br />

S −67.60 3750<br />

SK 261.32 337500<br />

SP −2640.00<br />

d) Vis, at det kan antages, at middelværdien af ændringen i hæmoglobinprocent afhænger<br />

lineært af epo-dosis.


4.152 Opgaver<br />

Figur 4.29 Ændringen i hæmoglobinprocenten tegnet op mod epo-dosen.<br />

e) Vis, at materialet giver grundlag for at antage, at epo-behandling har en virkning p˚ a hæ-<br />

moglobinprocenten.<br />

Opgave 4.17 Vis, at data i Opgave 1.14, som vi ogs˚ a har regnet p˚ a i Opgave 4.9, kan betrag-<br />

tes som én observationsrække fra den todimensionale normalfordeling og test hypotesen om<br />

uafhængighed af glycogen indholdet før og efter træningsperioden p˚ a 3 uger.<br />

Opgave 4.18 Vis, at data i Eksempel 1.5, som vi ogs˚ a har betragtet i Opgav e 4.10, kan opfat-<br />

tes som én observationsrække fra den todimensionale normalfordeling og test hypotesen om<br />

uafhængighed af glycogen indholdet i venstre og højre ben.<br />

Opgave 4.19 Det eneste kvinde blandt personerne i tabellen p˚ a side 4.11 1 er person nr. 1.<br />

Lav en tosidet variansanalyse for de fem mænd, der fik foretaget blodprøver p˚ a samtlige syv<br />

tidpunkter. Er der forskel p˚ a indholdet af calcium i blodpr øverne hos disse mænd?<br />

Opgave 4.20 Som det ses af tabellen p˚ a side 4.111 har samtlige 11 persone r aet f˚ foretaget<br />

blodprøver p˚ a de tre første tidspunkter.<br />

a) Hvad kan der siges indholdet af calcium i blodprøverne hvis betragter alle personer med<br />

kun tre tidspunkter?


4.153<br />

b) Hvad er konklusionen, hvis vi som i Opgave 4.19 udelader m˚alingerne for den eneste<br />

kvinde, person nr.1?<br />

Opgave 4.21 Data nedenfor stammer fra langdistanceløbene ved olympiaden i Sydneyar ˚ 2000.<br />

Data best˚ ar af tiden per 100 m for de syv bedst placerede i fina lerne p˚ a 1500 m, 10000 m og<br />

marathon for mænd og kvinder. ¡¢£¤¥¦§§¨©¤¢¡¢¤<br />

¦§§§§¨ ¦¨ ©¡¢¤¥ ¦§ ¦¦ § ¦ ¦ § ¦¦ ¦ § ¦§§¨<br />

¦§ §§¦ ¦ ¦ § ¦ ¦ § ¦ ¦ §¦§ ¦<br />

¦¦ ¦ ¦¦ ¦¦ ¦ ¦ ¨¢<br />

¦ ¦ ¦ ¦ ¦ ¦<br />

Det<br />

¦¦<br />

kan ved hjælp af fraktildiagrammer<br />

¦¦<br />

vises, at det kan antages, at de seks observations- ¦§ ¦ ¦§ ¦ ¦§ ¦§ ¦<br />

rækker er normalfordelte.<br />

a) Vis, at det kan antages, at den seks observationsrækker har samme varians. (De tilsvarende<br />

tal for mændenes 5000 m har en meget mindre varians p˚ a grund a f et meget tæt opløb,<br />

hvilket er grunden til at distancen ikke betragtes her.)<br />

b) Vis, at data kan beskrives ved additivitesmodellen i en tosidet variansanalyse.<br />

c) Vis, at der er forskel p˚ a tiderne per 100 m for s˚ avel de tre distancer som for mænd og<br />

kvinder.<br />

d) Angiv et 95% konfidensinterval for forskellen mellem mænd og kvinder.<br />

Opgave 4.22 Kontroller ved hjælp af Excel beregningerne i Eksempel 4.11.


4.154 Opgaver


Indeks I.1<br />

Indeks<br />

A<br />

acceptomr˚ ade . . . . . . . . . . . . . . . . . . . . . 5.6<br />

additivitetsmodellen<br />

tosidet variansanalyse . . . . . . . . . . . . 4.113<br />

afhængig variabel<br />

lineær regression . . . . . . . . . . . . . . . . 4.78<br />

afskæring<br />

lineær regression . . . . . . . . . . . . . . . . 4.78<br />

B<br />

Bartlett test<br />

−2lnQ . . . . . . . . . . . . . . . . . . . . . . . 4.61<br />

for identitet af k > 2 varianser . . . . . . . 4.61<br />

hovedpunkter . . . . . . . . . . . . . . . . . . 4.73<br />

konstanten C . . . . . . . . . . . . . . . . . . . 4.61<br />

testsandsynlighed . . . . . . . . . . . . . . . . 4.62<br />

Bayes formel . . . . . . . . . . . . . . . . . . . . . 2.7<br />

beregninger<br />

s 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.8<br />

¯x· . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.8<br />

beregninger i Excel . . . . . . . . . . . . . 1.31,<br />

4.10, 4.19, 4.28, 4.50, 4.70, 4.135, 6.28, 7.29, 8.15<br />

beta funktion . . . . . . . . . . . . . . . . . . . . . 3.8<br />

betinget fordeling . . . . . . . . . . . . . . . . . 2.25<br />

betinget sandsynlighed . . . . . . . . . . . . . . . 2.6<br />

binomialfordeling<br />

beregning af punktsandsynligheder . . . . 3.13<br />

definition . . . . . . . . . . . . . . . . . . . . . 3.12<br />

Excel . . . . . . . . . . . . . . . . . . . . . . . . 3.13<br />

middelværdi og varians . . . . . . . . . . . . 3.13<br />

binomialrækken . . . . . . . . . . . . . . . . . . . A.3<br />

C<br />

χ 2 -fordeling . . . . . . . . . . . . . . . . . . . . . 5.21<br />

data<br />

definition . . . . . . . . . . . . . . . . . . . . . . 3.5<br />

Excel<br />

fordelingsresultater . . . . . . . . . . . . . . . . 3.6<br />

middelværdi og varians . . . . . . . . . . . . . 3.6<br />

tabel . . . . . . . . . . . . . . . . . . . . . . . . . 3.7<br />

D<br />

flerdimensionale . . . . . . . . . . . . . . . . 1.27<br />

grafisk repræsentation . . . . . . . . . . . . . . 1.2<br />

grupperede . . . . . . . . . . . . . . . . . . . . . 1.2<br />

grupperede, ugrupperet version . . . . . . . 1.19<br />

gruppering . . . . . . . . . . . . . . . . . . . . . 1.5<br />

idræt . . . . . . . . . . . . . . . . . . . . . . 1.1, 5.2<br />

kvalitative . . . . . . . . . . . . . . . . . . . . . . 1.2<br />

kvantitative . . . . . . . . . . . . . . . . . . . . . 1.2<br />

sæt . . . . . . . . . . . . . . . . . . . . . . . 1.1, 5.2<br />

tabelform . . . . . . . . . . . . . . . . . . . . . . 7.1<br />

tabellering . . . . . . . . . . . . . . . . . . . . . 1.2<br />

todimensionale . . . . . . . . . . . . . . . . . 1.27<br />

ugrupperede . . . . . . . . . . . . . . . . . . . . 1.2<br />

delmængde . . . . . . . . . . . . . . . . . . . . . . A.1<br />

omr˚ ade . . . . . . . . . . . . . . . . . . . . . . . . 5.3<br />

sammenhængende . . . . . . . . . . . . . . . . 5.3<br />

aben ˚ . . . . . . . . . . . . . . . . . . . . . . . . . 5.3


I.2 Indeks<br />

diagram<br />

blok . . . . . . . . . . . . . . . . . . . . . . . . . 1.23<br />

fraktil . . . . . . . . . . . . . . . . . . . . . . . . 4.2<br />

kasse . . . . . . . . . . . . . . . . . . . . . . . . 1.16<br />

lagkage . . . . . . . . . . . . . . . . . . . . . . 1.23<br />

pinde . . . . . . . . . . . . . . . . . . . . . . . . . 1.5<br />

prik . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4<br />

probit . . . . . . . . . . . . . . . . . . . . . . . . . 4.5<br />

profil . . . . . . . . . . . . . . . . . . . . . . . 4.117<br />

søjle . . . . . . . . . . . . . . . . . . . . . 1.5, 1.23<br />

disjunkte mængder . . . . . . . . . . . . . . . . . A.2<br />

parvis . . . . . . . . . . . . . . . . . . . . . . . . A.2<br />

diskret stokastisk variabel . . . . . . . . . . . . 2.12<br />

diskret stokastisk vektor . . . . . . . . . . 2.19, 5.2<br />

dobbeltintegral . . . . . . . . . . . . . . . . . . . . A.5<br />

E<br />

Eksempel 1.1 . . . . . . . . 1.3, 1.5, 4.7, 4.26, 6.26<br />

højde af piger . . . . . . . . . . . . . . . . . . . 1.3<br />

Eksempel 1.2 . . . . . . . . 1.3, 4.3, 4.5, 4.10, 4.27<br />

kondital for eliteidrætsudøvere . . . . . . . . 1.3<br />

Eksempel 1.3 . . . . . . . . . . . . . 1.4, 1.24, 1.26<br />

Excel . . . . . . . . . . . . . . . . . . . . . . . . 1.37<br />

resultatet af Faxe Kondi Ligaen . . . . . . . . 1.4<br />

Eksempel 1.4 . . . . . . . . . 1.11, 1.16, 1.31, 1.35<br />

hypotetiske kondital . . . . . . . . . . . . . . 1.11<br />

Eksempel 1.5 . . . . . . . . . . . . . . . . . . . . 1.28<br />

glycogen indhold i muskler . . . . . . . . . 1.28<br />

Eksempel 2.1 . . . . . . . . . . . . . . . . . . . . . 2.4<br />

uniforme sandsynlighedsm˚ al p˚ a endelig<br />

mængde . . . . . . . . . . . . . . . . . . . . . . 2.4<br />

Eksempel 2.2 . . . . . . . . . . . . . . . . . 2.4, 2.19<br />

to kampe p˚ a tipskuponen . . . . . . . . . . . . 2.4<br />

Eksempel 2.3 . . . . . . . . . . . . . . . . . . . . . 2.5<br />

uniforme sandsynlighedsm˚ al p˚ a interval . . 2.5<br />

Eksempel 2.4 . . . . . . . . . . . . . . . . . . . . . 2.8<br />

superligaholds chancer p˚ a hjemme- og ude-<br />

bane . . . . . . . . . . . . . . . . . . . . . . . . . 2.8<br />

Eksempel 2.5 . . . . . . . . . . . . . . . . . . . . . 2.9<br />

superligaholds hjemmekampe . . . . . . . . . 2.9<br />

Eksempel 2.6 . . . . . . . . . . . . . . . . . . . . 2.12<br />

uniform fordeling . . . . . . . . . . . . . . . . 2.12<br />

Eksempel 2.7 . . . . . . . . . . . . . . . . 2.14, 2.29<br />

to kampe p˚ a tipskuponen, point fordeling 2.14<br />

Eksempel 2.8 . . . . . . . . . . . . . . . . . . . . 2.15<br />

antal hjemmekampe inden første sejr . . . 2.15<br />

Eksempel 2.9 . . . . . . . . . . . . . . . . 2.18, 2.30<br />

tæthedsfunktion for uniform fordeling . . 2.18<br />

Eksempel 2.10 . . . . . . . . 2.19, 2.22, 2.24, 2.29<br />

to kampe p˚ a tipskuponen . . . . . . . . . . . 2.19<br />

Eksempel 2.11 . . . . . . . . . . . . 2.21, 2.23, 2.24<br />

uniform fordeling p˚ a delmængde af R2 . . 2.21<br />

Eksempel 2.12 . . . . . . . . . . . . 2.23, 2.25, 2.31<br />

uniform fordeling p˚ a trekant . . . . . . . . . 2.23<br />

Eksempel 3.1 . . . . . . . . . . . . . . . . . . . . 3.13<br />

sandsynlighedsfunktion for binomialforde-<br />

ling . . . . . . . . . . . . . . . . . . . . . . . . . 3.13<br />

Eksempel 3.2 . . . . . . . . . . . . . . . . . . . . 3.16<br />

sandsynlighedsfunktion for poissonfordeling<br />

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.16<br />

Eksempel 3.3 . . . . . . . . . . . . . . . . . . . . 3.18<br />

sandsynlighedsfunktion for hypergeometrisk<br />

fordeling . . . . . . . . . . . . . . . . . . . . . . 3.18<br />

Eksempel 3.4 . . . . . . . . . . . . . . . . . . . . 3.20<br />

sandsynlighedsfunktion for negativ binomial-<br />

fordeling . . . . . . . . . . . . . . . . . . . . . . 3.20<br />

Eksempel 4.1 . . . . . . . . . . . . . . . . . . . . .<br />

. . . . . 4.13, 4.19, 4.21, 5.4, 5.10, 5.13, 5.16, 5.21<br />

bestemmelse af laktatkoncentration . . . . 4.13<br />

Eksempel 4.2 . . . . . . . . . . . . . 4.34, 4.35, 4.38<br />

Excel . . . . . . . . . . . . . . . . . . . . . . . . 4.50<br />

kondital for ikke-aktive og aktive . . . . . 4.34<br />

Eksempel 4.3 . . . . . . . . . . . . . . . . . . . . 4.42<br />

Excel . . . . . . . . . . . . . . . . . . . . . . . . 4.52<br />

tider i semifinalerne i kvindernes 100 m løb 4.42<br />

Eksempel 4.4 . . . . . . . . . . . . . . . . . . . . 4.46


Indeks I.3<br />

Excel . . . . . . . . . . . . . . . . . . . . . . . . 4.53<br />

muskelglucogen før og efter træning . . . 4.46<br />

Eksempel 4.5 . . . . . . . . . . . . . 4.59, 4.62, 4.67<br />

Excel . . . . . . . . . . . . . . . . . . . . . . . . 4.70<br />

længdespring . . . . . . . . . . . . . . . . . . . 4.59<br />

Eksempel 4.6 . . . . . . . . . . . . . 4.76, 4.82, 4.93<br />

Excel . . . . . . . . . . . . . . . . . . . . . . . 4.101<br />

lineær regression af puls p˚ a tid . . . . . . . 4.76<br />

Eksempel 4.7 . . . . . . . . . . . . . . . . 4.83, 4.93<br />

Excel . . . . . . . . . . . . . . . . . . . . . . . 4.103<br />

finaletider i kvindernes 200 m, 400 m og<br />

800 m løb . . . . . . . . . . . . . . . . . . . . . 4.83<br />

Eksempel 4.8 . . . . . . . . . . . . . . . . . . . . 4.94<br />

puls og iltoptagelse . . . . . . . . . . . . . . . 4.94<br />

Eksempel 4.9 . . . . . . . . . . 4.111, 4.117, 4.127<br />

Excel . . . . . . . . . . . . . . . . . . . . . . . 4.135<br />

tosidet variansanalyse uden gentagelser 4.111<br />

Eksempel 4.10 . . . . . . . . . 4.111, 4.117, 4.131<br />

Excel . . . . . . . . . . . . . . . . . . . . . . . 4.136<br />

tosidet variansanalyse med gentagelser . 4.111<br />

Eksempel 4.11 . . . . . . . . . . . . . . . . . . 4.134<br />

tosidet variansanalyse og det parrede t-test 4.134<br />

Eksempel 6.1 . . . . . . . . . . . . . . . . . . . . . 6.1<br />

multinomialfordelte data . . . . . . . . . . . . 6.1<br />

Eksempel 6.2 . . . . . . . . . . . . . . . . . 6.3, 6.10<br />

AB’s kampe p˚ a hjemme- og udebane . . . . 6.3<br />

Excel . . . . . . . . . . . . . . . . . . . . . . . . 6.28<br />

Eksempel 6.3 . . . . . . . . . . . . . . . . . 6.3, 6.13<br />

Excel . . . . . . . . . . . . . . . . . . . . . . . . 6.29<br />

idrætaktivitet og rygning . . . . . . . . . . . . 6.3<br />

Eksempel 6.4 . . . . . . . . . . . . . . . . . . . . 6.17<br />

Excel . . . . . . . . . . . . . . . . . . . . . . . . 6.30<br />

opdeling af resultater i Faxe Kondi Ligaen 6.4<br />

Eksempel 6.5 . . . . . . . . . . . . . . . . 6.20, 6.22<br />

undersøgelse af sammenhæng mellem kræft<br />

og magnetfelter . . . . . . . . . . . . . . . . . . 6.20<br />

Eksempel 6.6 . . . . . . . . . . . . . . . . . . . . 6.26<br />

test for goodness of fit . . . . . . . . . . . . . 6.26<br />

Eksempel 7.1 . . . . . . . . . . 7.2, 7.8, 7.11, 7.17<br />

antal m˚ al i Faxe Kondi Ligaen . . . . . . . . 7.2<br />

Excel . . . . . . . . . . . . . . . . . . . . . . . . 7.29<br />

Eksempel 7.2 . . . . . . . . . . . . . . . . . 7.2, 7.15<br />

de nordiske landes medaljehøst ved OL i Syd-<br />

ney . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2<br />

Excel . . . . . . . . . . . . . . . . . . . . . . . . 7.31<br />

Eksempel 7.3 . . . . . . . . . . . . . . . . . 7.2, 7.26<br />

Excel . . . . . . . . . . . . . . . . . . . . . . . . 7.32<br />

medaljefordeling ved OL i Sydney . . . . . 7.2<br />

Eksempel 8.1 . . . . . . . . . . . . . . . 8.2, 8.3, 8.6<br />

Excel . . . . . . . . . . . . . . . . . . . . . . . . 8.15<br />

kondital før og efter træning . . . . . . . . . . 8.2<br />

Eksempel 8.2 . . . . . . . . . . . . . 8.7, 8.10, 8.14<br />

kondital for ikke-aktive og aktive . . . . . . 8.7<br />

Eksempel 8.3 . . . . . . . . . . . . . . . . 8.11, 8.13<br />

længdespring . . . . . . . . . . . . . . . . . . . 8.11<br />

eksperiment<br />

datasæt . . . . . . . . . . . . . . . . . . . . . 1.1, 5.2<br />

eksponentialfordeling<br />

definition . . . . . . . . . . . . . . . . . . . . . 3.22<br />

Excel . . . . . . . . . . . . . . . . . . . . . . . . 3.23<br />

middelværdi og varians . . . . . . . . . . . . 3.22<br />

eksponentialrækken . . . . . . . . . . . . . . . . . A.4<br />

empirisk fordelingsfunktion . . . . . . . . . . 1.12<br />

empirisk korrelationskoefficient . . . . . . . . 1.28<br />

empirisk middelværdi . . . . . . . . . . . . . . 1.16<br />

empirisk spredning . . . . . . . . . . . . . . . . 1.16<br />

empirisk varians . . . . . . . . . . . . . . . . . . 1.16<br />

én observationsrække<br />

Poissonfordelingen . . . . . . . . . . . . . . . . 7.7<br />

tabelform . . . . . . . . . . . . . . . . . . . . . . 7.1<br />

endelig række . . . . . . . . . . . . . . . . . . . . . A.3<br />

eksempler . . . . . . . . . . . . . . . . . . . . . . A.3<br />

estimat . . . . . . . . . . . . . . . . . . . . . . . . . 5.5<br />

interval . . . . . . . . . . . . . . . . . . . . . . . 5.16<br />

maksimum likelihood . . . . . . . . . . . . . . 5.9<br />

notation . . . . . . . . . . . . . . . . . . . . . . . 5.5


I.4 Indeks<br />

estimation<br />

én observationsrække, Poissonfordelingen 7.7<br />

lineær regression . . . . . . . . . . . . . . . . 4.78<br />

maksimum likelihood . . . . . . . . . . . . . . 5.9<br />

middelværdien i én observationsrække . . 4.13<br />

multiplikativ Poissonmodel . . . . . . . . . 7.21<br />

proportionale parametre i Poissonmodel . 7.13<br />

teori . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5<br />

todimensional normalfordeling . . . . . . . 4.96<br />

tosidet variansanalyse . . . . . . . . . . . . 4.114<br />

variansen i én observationsrække . . . . . 4.21<br />

estimator . . . . . . . . . . . . . . . . . . . . . . . . 5.5<br />

maksimum likelihood . . . . . . . . . . . 5.6, 5.9<br />

Excel<br />

analoge formler . . . . . . . . . . . . . . . . . 1.35<br />

Beskrivende statistik . . . . . . . . . 1.32<br />

binomialfordeling . . . . . . . . . . . . . . . . 3.13<br />

χ 2 -fordeling . . . . . . . . . . . . . . . . . . . . 3.7<br />

Diagram . . . . . . . . . . . . . . . . . . . . . 1.35<br />

100 (procent) stablet søjlediagram<br />

. . . . . . . . . . . . . . . . . . . . . . . . . . . 1.39<br />

Grupperet søjle . . . . . . . . . 1.38, 1.39<br />

Punktdiagram . . . . . . . . . . . . . . . . 1.36<br />

dialogboksen Anava:<br />

Enkelt faktor . . . . . . . . . . . . . . . 4.70<br />

To-faktor med gentagelse . . . . 4.135<br />

To-faktor uden gentagelse . . . 4.135<br />

dialogboksen F-test:<br />

Dobbelt stikprøve for ens varians<br />

. . . . . . . . . . . . . . . . . . . . . . . . . . . 4.50<br />

dialogboksen Regression . . . . . . . . . 4.101<br />

dialogboksen t-test:<br />

Parvis dobbelt stikprøve for<br />

middelværdi . . . . . . . . . . . . . . . . 4.50<br />

To stikprøver med ens varians . 4.50<br />

To stikprøver med forskellig<br />

varians . . . . . . . . . . . . . . . . . . . . 4.50<br />

eksponentialfordelingen . . . . . . . . . . . 3.23<br />

F-fordeling . . . . . . . . . . . . . . . . . . . . 3.12<br />

fraktildiagram . . . . . . . . . . . . . . . . . . 4.10<br />

funktionen BINOMIALFORDELING . . . . . 3.13<br />

funktionen CHIFORDELING . . . . . . . . . . 3.7<br />

funktionen CHIINV . . . . . . . . . . . . 3.7, 6.30<br />

funktionen CHITEST . . . . . . . . . . 6.28, 6.30<br />

funktionen EKSPFORDELING . . . . . . . . . 3.23<br />

funktionen FAST . . . . . . . . . . . . . . . . 1.40<br />

funktionen FFORDELING . . . . . . . . . . . 3.12<br />

funktionen FINV . . . . . . . . . . . . . . . . 3.12<br />

funktionen FRAKTIL . . . . . . . . . . . . . . 1.34<br />

funktionen HYPGEOFORDELING . . . . . . . 3.19<br />

funktionen KOMBIN . . . . . . . . . . . . . . . 2.34<br />

funktionen NEGBINOMFORDELING . . . . . 3.20<br />

funktionen NORMFORDELING . . . . . . . . . . 3.4<br />

funktionen NORMINV . . . . . . . . . . . . . . . 3.4<br />

funktionen PLADS . . . . . . . . . . . . . . . . 8.15<br />

funktionen POISSON . . . . . . . . . . . . . . 3.16<br />

funktionen POTENS . . . . . . . . . . . . . . . 2.33<br />

funktionen SLUMP . . . . . . . . . . . . . . . . 2.35<br />

funktionen SUMPRODUKT . . . . . . . . . . . 6.28<br />

funktionen TFORDELING . . . . . . . . . . . 3.10<br />

funktionen TINV . . . . . . . . . . . . . . . . 3.10<br />

Histogram . . . . . . . . . . . . . . . . . . . . 1.33<br />

hypergeometrisk fordeling . . . . . . . . . . 3.19<br />

negativ binomialfordeling . . . . . . . . . . 3.20<br />

normalfordeling . . . . . . . . . . . . . . . . . . 3.4<br />

numeriske variable . . . . . . . . . . . . . . . 1.39<br />

Poissonfordeling . . . . . . . . . . . . . . . . 3.16<br />

t-fordeling . . . . . . . . . . . . . . . . . . . . 3.10<br />

t-test for kendt middelværdi . . . . . . . . . 4.28<br />

tekst variable . . . . . . . . . . . . . . . . . . . 1.39<br />

test for kendt varians . . . . . . . . . . . . . . 4.28<br />

u-test . . . . . . . . . . . . . . . . . . . . . . . . 4.19<br />

F<br />

F-fordeling<br />

definition . . . . . . . . . . . . . . . . . . . . . 3.10


Indeks I.5<br />

Excel . . . . . . . . . . . . . . . . . . . . . . . . 3.12<br />

fordelingsresultater . . . . . . . . . . . . . . . 3.11<br />

tabel . . . . . . . . . . . . . . . . . . . . . . . . 3.12<br />

F-test<br />

for identitet af to varianser . . . . . . 4.37, 4.55<br />

t 2 = F . . . . . . . . . . . . . . . . . . . . . . . 4.68<br />

faglig<br />

fejl<br />

problem . . . . . . . . . . . . . . . . . . . . . . . 5.3<br />

sammenhæng . . . . . . . . . . . . . 1.1, 5.2, 5.4<br />

type I . . . . . . . . . . . . . . . . . . . . . . . . 5.14<br />

type II . . . . . . . . . . . . . . . . . . . . . . . 5.14<br />

fempunktsopsummeringen . . . . . . . . . . . 1.15<br />

f (i)<br />

k observationsrækker . . . . . . . . . . . . . 4.32<br />

Fishers dispersionsindeks . . . . . . . . . . . . . 7.7<br />

eksempel . . . . . . . . . . . . . . . . . . . . . . 7.9<br />

Fishers eksakte test . . . . . . . . . . . . . . . . 6.21<br />

eksempel . . . . . . . . . . . . . . . . . . . . . 6.22<br />

i 2×2 tableller . . . . . . . . . . . . . . . . . . 6.21<br />

i r × s tabeller . . . . . . . . . . . . . . . . . . 6.23<br />

fordeling<br />

approksimativ, likelihood ratio testoren . 5.21<br />

diskret . . . . . . . . . . . . . . . . . . . . . . . . 1.2<br />

funktion . . . . . . . . . . . . . . . . . . . . . . . 5.2<br />

klasse af . . . . . . . . . . . . . . . . . . . . . . . 5.3<br />

kontinuert . . . . . . . . . . . . . . . . . . . . . . 1.2<br />

fordelingsfunktion<br />

egenskaber ved . . . . . . . . . . . . . . . . . 2.10<br />

empirisk . . . . . . . . . . . . . . . . . . . . . . 1.12<br />

stokastisk variabel . . . . . . . . . . . . . . . 2.10<br />

stokastisk vektor . . . . . . . . . . . . . . . . 2.19<br />

foreningsmængde . . . . . . . . . . . . . . . . . . A.2<br />

endelig . . . . . . . . . . . . . . . . . . . . . . . . A.2<br />

tællelig . . . . . . . . . . . . . . . . . . . . . . . . A.2<br />

forkastelsesomr˚ ade . . . . . . . . . . . . . . . . . 5.6<br />

forklarende variabel<br />

lineær regression . . . . . . . . . . . . . . . . 4.78<br />

forsøgsplanlægning . . . . . . . . . . . . . . . . 5.22<br />

fraktildiagram<br />

Excel . . . . . . . . . . . . . . . . . . . . . . . . 4.10<br />

grupperede data . . . . . . . . . . . . . . . . . . 4.7<br />

simuleret . . . . . . . . . . . . . . . . . . . . . . B.1<br />

ugrupperede data . . . . . . . . . . . . . . . . . 4.3<br />

vurdering af . . . . . . . . . . . . . . . . . . . . 4.5<br />

frie parametre . . . . . . . . . . . . . . . . . . . . 5.21<br />

funktion<br />

fordeling . . . . . . . . . . . . . . . . . . . . . . 5.2<br />

likelihood . . . . . . . . . . . . . . . . . . . . . . 5.6<br />

log likelihood . . . . . . . . . . . . . . . . . . . 5.9<br />

log likelihood, normeret . . . . . . . . . . . 5.18<br />

model . . . . . . . . . . . . . . . . . . . . . 5.3, 5.7<br />

styrke . . . . . . . . . . . . . . . . . . . . . . . . 5.14<br />

tæthed . . . . . . . . . . . . . . . . . . . . . . . . 5.2<br />

fællesmængde . . . . . . . . . . . . . . . . . . . . A.2<br />

endelig . . . . . . . . . . . . . . . . . . . . . . . . A.2<br />

tællelig . . . . . . . . . . . . . . . . . . . . . . . . A.2<br />

følge af modeller<br />

notation . . . . . . . . . . . . . . . . . . . . . . 4.69<br />

G<br />

gamma fordeling . . . . . . . . . . . . . . . . . . . 3.5<br />

gamma funktion . . . . . . . . . . . . . . . . . . . 3.5<br />

goodness of fit<br />

−2lnQ-testet . . . . . . . . . . . . . . . . . . 6.25<br />

−2lnQ-testet, testsandsynlighed . . . . . . 6.25<br />

eksempel . . . . . . . . . . . . . . . . . . 6.26, 7.9<br />

Poissonmodel . . . . . . . . . . . . . . . . . . . 7.7<br />

test . . . . . . . . . . . . . . . . . . . . . . . . . 6.24<br />

X 2 -testet . . . . . . . . . . . . . . . . . . . . . . 6.25<br />

X 2 -testet, testsandsynlighed . . . . . . . . . 6.25<br />

grafisk<br />

undersøgelse . . . . . . . . . . . . . . . . . 1.2, 5.4<br />

grupperede data<br />

empiriske størrelser . . . . . . . . . . . . . . 1.18<br />

ugrupperet version af . . . . . . . . . . . . . 1.19


I.6 Indeks<br />

græsk alfabet . . . . . . . . . . . . . . . . . . . . . D.1<br />

H<br />

histogram . . . . . . . . . . . . . . . . . . . . . . . 1.5<br />

homogenitet<br />

tosidet variansanalyse . . . . . . . . . . . . 4.113<br />

homogenitet af flere multinomialfordelinger 6.15<br />

−2lnQ-testet, testsandsynlighed . . . . . . 6.16<br />

beregningsformel for −2lnQ-testet . . . . 6.16<br />

eksempel . . . . . . . . . . . . . . . . . . . . . 6.20<br />

fordelingsresultat . . . . . . . . . . . . . . . . 6.17<br />

maksimum likelihood estimat . . . . . . . . 6.16<br />

hovedpunkter<br />

én observationsrække med kendt varians . 4.20<br />

én observationsrække med ukendt varians 4.30<br />

ikke-parametriske test . . . . . . . . . . . . . 8.18<br />

k observationsrækker . . . . . . . . . . . . . 4.73<br />

lineær regression . . . . . . . . . . . . . . . 4.106<br />

multinomialmodel . . . . . . . . . . . . . . . 6.31<br />

Poissonfordelte data . . . . . . . . . . . . . . 7.33<br />

to observationsrækker . . . . . . . . . . . . . 4.55<br />

tosidet variansanalyse . . . . . . . . . . . . 4.137<br />

hypergeometrisk fordeling . . . . . . . . . . . 6.22<br />

beregning af punktsandsynligheder . . . . 3.18<br />

definition . . . . . . . . . . . . . . . . . . . . . 3.17<br />

Excel . . . . . . . . . . . . . . . . . . . . . . . . 3.19<br />

middelværdi og varians . . . . . . . . . . . . 3.18<br />

hypotese<br />

kritisk observation . . . . . . . . . . . . . . . 5.11<br />

multinomialmodel . . . . . . . . . . . . . . . . 6.6<br />

punkt . . . . . . . . . . . . . . . . . . . . . . . . . 5.6<br />

sammensat . . . . . . . . . . . . . . . . . . . . . 5.6<br />

simpel . . . . . . . . . . . . . . . . . . . . . . . . 5.6<br />

test af . . . . . . . . . . . . . . . . . . . . . . . . . 5.6<br />

hyppighed<br />

relativ . . . . . . . . . . . . . . . . . . . . . . . . 1.7<br />

hældning<br />

lineær regression . . . . . . . . . . . . . . . . 4.78<br />

hændelser . . . . . . . . . . . . . . . . . . . . . . . 2.2<br />

hændelsessystem . . . . . . . . . . . . . . . . 1.1, 5.2<br />

højreskæv . . . . . . . . . . . . . . . . . . . . . . 1.16<br />

inferens<br />

I<br />

likelihood . . . . . . . . . . . . . . . . . . . . . . 5.7<br />

statistisk . . . . . . . . . . . . . . . . . . . . . . . 5.5<br />

information<br />

Fisher . . . . . . . . . . . . . . . . . . . . . . . 5.18<br />

forventet . . . . . . . . . . . . . . . . . . . . . . 5.18<br />

observeret . . . . . . . . . . . . . . . . . . . . . 5.18<br />

intervalestimat . . . . . . . . . . . . . . . . . . . 5.16<br />

K<br />

k observationsrækker . . . . . . . . . . . . . . . 4.59<br />

estimation . . . . . . . . . . . . . . . . . . . . . 4.63<br />

notation . . . . . . . . . . . . . . . . . . . . . . 4.32<br />

statistisk model . . . . . . . . . . . . . . . . . 4.32<br />

kassediagram . . . . . . . . . . . . . . . . . . . . 1.16<br />

kategori . . . . . . . . . . . . . . . . . . . . . . . . 1.23<br />

numerisk . . . . . . . . . . . . . . . . . . . . . 1.23<br />

komplementærmængde . . . . . . . . . . . . . . A.1<br />

konfidens<br />

interval . . . . . . . . . . . . . . . . . . . . . . . 5.16<br />

omr˚ ade . . . . . . . . . . . . . . . . . . . . . . . 5.16<br />

konfidensinterval<br />

binomialmodel . . . . . . . . . . . . . . . . . . 6.9<br />

for afskæringen i lineær regression . . . 4.107<br />

for forskel mellem to middelværdier; ens va-<br />

rianser . . . . . . . . . . . . . . . . . . . . . . . . 4.56<br />

for forskel mellem to middelværdier; forskel-<br />

lige varianser . . . . . . . . . . . . . . . . . . . 4.57<br />

for hældningen i lineær regression . . . . 4.107<br />

for middelværdien; kendt varians . . . . . 4.16<br />

for middelværdien; ukendt varians . . . . . 4.23<br />

for regressionslinjen . . . . . . . . . . . . . 4.107<br />

for spredningen i en normalfordeling . . . 4.26<br />

for variansen i en normalfordeling . . . . . 4.26


Indeks I.7<br />

for variansen i lineær regression . . . . . 4.107<br />

multinomialmodel . . . . . . . . . . . . . . . . 6.9<br />

Poissonmodel . . . . . . . . . . . . . . . . . . 7.10<br />

middelværdien λ baseret p˚ a én Poissonfor-<br />

delt variabel . . . . . . . . . . . . . . . . . . 7.11<br />

middelværdien λ i én Poissonfordelt obser-<br />

vationsrække . . . . . . . . . . . . . . . . . 7.11<br />

parameteren i modellen med proportionale<br />

parametre . . . . . . . . . . . . . . . . . . . 7.13<br />

kontinuert stokastisk variabel . . . . . . . . . . 2.16<br />

kontinuert stokastisk vektor . . . . . . . . 2.20, 5.2<br />

kontrast . . . . . . . . . . . . . . . . . . . . . . . 4.126<br />

korrelation . . . . . . . . . . . . . . . . . . . . . . 2.28<br />

empirisk . . . . . . . . . . . . . . . . . . . . . . 1.28<br />

kovarians . . . . . . . . . . . . . . . . . . . . . . . 2.28<br />

regneregler . . . . . . . . . . . . . . . . . . . . 2.28<br />

kumulerede antal . . . . . . . . . . . . . . . . . . 1.18<br />

kvartil<br />

afstand, empirisk . . . . . . . . . . . . . . . . 1.15<br />

nedre . . . . . . . . . . . . . . . . . . . . . . . . 2.11<br />

nedre, empirisk . . . . . . . . . . . . . . . . . 1.12<br />

øvre, empirisk . . . . . . . . . . . . . . . . . . 1.12<br />

øvre . . . . . . . . . . . . . . . . . . . . . . . . . 2.11<br />

kvotientrække<br />

endelig . . . . . . . . . . . . . . . . . . . . . . . . A.4<br />

uendelig . . . . . . . . . . . . . . . . . . . . . . . A.4<br />

L<br />

likelihood . . . . . . . . . . . . . . . . . . . . . . . 5.1<br />

approksimativ teori . . . . . . . . . . . . . . . 5.17<br />

estimat, maksimum . . . . . . . . . . . . . . . . 5.9<br />

estimation, maksimum . . . . . . . . . . . . . 5.9<br />

estimator, maksimum . . . . . . . . . . . . . . 5.9<br />

funktion . . . . . . . . . . . . . . . . . . . . . . . 5.6<br />

inferens . . . . . . . . . . . . . . . . . . . . . . . 5.7<br />

ligninger . . . . . . . . . . . . . . . . . . . . . . . 5.9<br />

maksimum, estimator . . . . . . . . . . . . . . 5.6<br />

ratio test . . . . . . . . . . . . . . . . . . . . . . 5.11<br />

ratio test, approksimativ testsandsynlighed 5.20<br />

ratio testor, approksimativ fordeling . . . . 5.21<br />

lineær regression<br />

estimaternes fordeling . . . . . . . . . . . . 4.106<br />

hypoteser om regressionsparametrene . . .<br />

. . . . . . . . . . . . . . . . . . . . . . . . 4.90, 4.107<br />

konfidensintervaller for parametrene . . 4.106<br />

med gentagelser . . . . . . . . . . . . . . . . . 4.83<br />

modelkontrol . . . . . . . . . . . . . . . . . . 4.106<br />

test af hypotesen om lineær regression . . .<br />

. . . . . . . . . . . . . . . . . . . . . . . . 4.86, 4.106<br />

uden gentagelser . . . . . . . . . . . . . . . . 4.78<br />

log likelihood<br />

funktion . . . . . . . . . . . . . . . . . . . . . . . 5.9<br />

funktion, normeret . . . . . . . . . . . . . . . 5.18<br />

logaritmisk række . . . . . . . . . . . . . . . . . . A.4<br />

loven om total sandsynlighed . . . . . . . . . . . 2.7<br />

M<br />

maksimum likelihood<br />

estimat . . . . . . . . . . . . . . . . . . . . . . . . 5.9<br />

estimation . . . . . . . . . . . . . . . . . . . . . . 5.9<br />

estimator . . . . . . . . . . . . . . . . . . . 5.6, 5.9<br />

marginal fordeling . . . . . . . . . . . . . . . . . 2.22<br />

median . . . . . . . . . . . . . . . . . . . . . . . . 2.11<br />

empirisk . . . . . . . . . . . . . . . . . . . . . . 1.12<br />

middelværdi<br />

af funktion af diskret stokastisk vektor . . 2.26<br />

af funktion af kontinuert stokastisk vektor 2.27<br />

af gennemsnit . . . . . . . . . . . . . . . . . . 2.29<br />

diskret stokastisk variabel . . . . . . . . . . 2.26<br />

empirisk . . . . . . . . . . . . . . . . . . . . . . 1.16<br />

kontinuert stokastisk variabel . . . . . . . . 2.26<br />

regneregler . . . . . . . . . . . . . . . . . . . . 2.27<br />

middelværdivektor . . . . . . . . . . . . . . . . 2.26<br />

mindste kvadraters metode . . . . . . . . . . . 4.78<br />

model<br />

funktion . . . . . . . . . . . . . . . . . . . . 5.3, 5.7


I.8 Indeks<br />

inferens . . . . . . . . . . . . . . . . . . . . . . . 5.1<br />

kontrol . . . . . . . . . . . . . . . . . . . . . 5.1, 5.4<br />

opstilling . . . . . . . . . . . . . . . . 1.1, 5.1, 5.2<br />

parametrisk . . . . . . . . . . . . . . . . . . . . . 5.3<br />

sandsynlighedsteoretisk . . . . . . . . . . 1.1, 5.2<br />

statistisk . . . . . . . . . . . . . . . . . . . . . . . 5.2<br />

multinomialfordeling<br />

betingelser for . . . . . . . . . . . . . . . . . . . 6.1<br />

definition . . . . . . . . . . . . . . . . . . . . . 3.15<br />

egenskaber ved . . . . . . . . . . . . . . . . . . 6.4<br />

marginale fordelinger . . . . . . . . . . . . . 3.15<br />

middelværdivektor og kovariansmatriks . 3.15<br />

multinomialmodel<br />

−2lnQ-testor . . . . . . . . . . . . . . . . . . . 6.8<br />

−2lnQ-testor, testsandsynlighed . . . . . . . 6.8<br />

X 2 -testoren . . . . . . . . . . . . . . . . . . . . . 6.9<br />

X 2 -testoren, testsandsynlighed . . . . . . . . 6.9<br />

estimation . . . . . . . . . . . . . . . . . . . . . . 6.6<br />

estimation under hypotese . . . . . . . . . . . 6.7<br />

flere multinomialfordelinger . . . . . . . . . 6.15<br />

forventede antal under hypotese . . . . . . . 6.8<br />

frie parametre . . . . . . . . . . . . . . . . . . . 6.6<br />

homogenitet af flere multinomialfordelinger<br />

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.15<br />

hovedpunkter . . . . . . . . . . . . . . . . . . 6.31<br />

hypotese . . . . . . . . . . . . . . . . . . . . . . . 6.6<br />

hypotese, frie parametre . . . . . . . . . . . . 6.6<br />

konfidensinterval . . . . . . . . . . . . . . . . . 6.9<br />

statistisk inferens . . . . . . . . . . . . . . . . . 6.5<br />

test af simpel hypotese, eksempel . . . . . 6.10<br />

uafhængighed af inddelingskriterier . . . . 6.11<br />

mængdedifferens . . . . . . . . . . . . . . . . . . . A.2<br />

mængdelære . . . . . . . . . . . . . . . . . . . 2.1, A.1<br />

m˚ ale . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2<br />

m˚ alelig mængde . . . . . . . . . . . . . . . . . . . 2.2<br />

N<br />

negativ binomialfordeling<br />

beregning af punktsandsynligheder . . . . 3.19<br />

definition . . . . . . . . . . . . . . . . . . . . . 3.19<br />

Excel . . . . . . . . . . . . . . . . . . . . . . . . 3.20<br />

middelværdi og varians . . . . . . . . . . . . 3.20<br />

normalfordeling . . . . . . . . . . . . . . . . 1.7, 4.1<br />

definition . . . . . . . . . . . . . . . . . . . . . . 3.1<br />

Excel . . . . . . . . . . . . . . . . . . . . . . . . . 3.4<br />

fordelingsresultater . . . . . . . . . . . . . . . . 3.3<br />

middelværdi og varians . . . . . . . . . . . . . 3.2<br />

standard . . . . . . . . . . . . . . . . . . . . . . . 3.1<br />

tabeller . . . . . . . . . . . . . . . . . . . . . . . . 3.3<br />

todimensional . . . . . . . . . . . . . . . . . . . 3.4<br />

normalfordelte data . . . . . . . . . . . . . . . . . 4.1<br />

notation<br />

følge af modeller . . . . . . . . . . . . . . . . 4.69<br />

numerisk<br />

undersøgelse . . . . . . . . . . . . . . . . . . . . 5.4<br />

O<br />

observation<br />

kritisk . . . . . . . . . . . . . . . . . . . . . . . 5.11<br />

observationer<br />

sammenfaldende . . . . . . . . . . . . . . . . . 8.5<br />

observationsrække . . . . . . . . . . . . . . . 1.2, 5.9<br />

én; normalfordeling . . . . . . . . . . . . . . . 4.1<br />

én; Poissonfordelingen . . . . . . . . . . . . . 7.7<br />

én; todimensional normalfordeling . . . . 4.94<br />

omr˚ ade . . . . . . . . . . . . . . . . . . . . . . . . . 5.3<br />

accept . . . . . . . . . . . . . . . . . . . . . . . . 5.6<br />

kritisk . . . . . . . . . . . . . . . . . . . . . . . . 5.6<br />

omvendt betinget sandsynlighed . . . . . . . . . 2.7<br />

opgaver . . . . . . . . . . . . . . . . . . . . . . . . .<br />

. . . 1.41, 2.32, 3.22, 4.142, 5.23, 6.35, 7.39, 8.21<br />

ordnede stikprøve . . . . . . . . . . . . . . . . . 1.11<br />

ordnede værdier . . . . . . . . . . . . . . . 1.11, 8.4


Indeks I.9<br />

P<br />

p-fraktil . . . . . . . . . . . . . . . . . . . . . . . 2.10<br />

empirisk fordeling . . . . . . . . . . . . . . . 1.12<br />

p-værdi . . . . . . . . . . . . . . . . . . . . . . . . 5.12<br />

parameter . . . . . . . . . . . . . . . . . . . . . . . 5.3<br />

fri . . . . . . . . . . . . . . . . . . . . . . . . . . 5.21<br />

mængde . . . . . . . . . . . . . . . . . . . . . . . 5.3<br />

rum . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3<br />

parrede t-test . . . . . . . . . . . . . . . . . . . . 4.46<br />

partiel differentiation . . . . . . . . . . . . . . . . A.5<br />

pindediagram . . . . . . . . . . . . . . . . . . . . . 1.5<br />

Poisson processen . . . . . . . . . . . . . . . 7.1, 7.5<br />

intensitet . . . . . . . . . . . . . . . . . . . . . . 7.6<br />

Poissonfordeling<br />

approksimeret med normalfordeling . . . . 7.5<br />

beregning af punktsandsynligheder . . . . 3.16<br />

definition . . . . . . . . . . . . . . . . . . . . . 3.16<br />

egenskaber ved . . . . . . . . . . . . . . . . . . 7.3<br />

Excel . . . . . . . . . . . . . . . . . . . . . . . . 3.16<br />

grænsefordeling for binomialfordeling . . . 7.5<br />

middelværdi og varians . . . . . . . . . . . . 3.16<br />

relation til multinomialfordeling ved beting-<br />

ning . . . . . . . . . . . . . . . . . . . . . . . . . 7.5<br />

Poissonmodel<br />

én observationsrække, −2lnQ-test . . . . 7.14<br />

én observationsrække, estimation . . . . . . 7.7<br />

én observationsrække, Fishers dispersionsin-<br />

deks . . . . . . . . . . . . . . . . . . . . . . . . . 7.7<br />

én observationsrække, modelkontrol . . . . 7.7<br />

én observationsrække, test for goodness of fit 7.7<br />

én observationsrække, X 2 -test . . . . . . . . 7.14<br />

konfidensinterval . . . . . . . . . . . . . . . . 7.10<br />

konfidensinterval for middelværdien λ i Po-<br />

issonfordeling . . . . . . . . . . . . . . . . . . . 7.11<br />

konfidensinterval for middelværdien λ i Po-<br />

issonfordelt observationsrække . . . . . . . 7.11<br />

konfidensinterval for parameteren i Poisson-<br />

modellen med proportionale parametre . . 7.13<br />

multiplikativ . . . . . . . . . . . . . . . . . . . 7.18<br />

multiplikativ, estimation . . . . . . . . . . . 7.21<br />

multiplikativ, homogenitet . . . . . . . . . . 7.19<br />

multiplikativ, ingen vekselvirkning . . . . 7.19<br />

multiplikativ, kun rækkevirkning . . . . . . 7.19<br />

multiplikativ, kun søjlevirkning . . . . . . . 7.19<br />

multiplikativ, parametrisering . . . . . . . . 7.20<br />

multiplikativ, relation til multinomialmodel 7.25<br />

multiplikativ, test af hypoteser . . . . . . . 7.23<br />

proportionale parametre . . . . . . . . . . . . 7.12<br />

proportionale parametre, −2lnQ-test . . . 7.13<br />

proportionale parametre, −2lnQ-test, test-<br />

sandsynlighed . . . . . . . . . . . . . . . . . . . 7.13<br />

proportionale parametre, estimation . . . . 7.13<br />

proportionale parametre, fordeling af estima-<br />

tor . . . . . . . . . . . . . . . . . . . . . . . . . . 7.13<br />

proportionale parametre, relation til multino-<br />

mial model . . . . . . . . . . . . . . . . . . . . . 7.15<br />

proportionale parametre, X 2 -test . . . . . . 7.13<br />

proportionale parametre, X 2 -test, testsand-<br />

synlighed . . . . . . . . . . . . . . . . . . . . . . 7.13<br />

position<br />

lineær regression . . . . . . . . . . . . . . . . 4.78<br />

prikdiagram . . . . . . . . . . . . . . . . . . . . . . 1.4<br />

probit . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5<br />

profildiagram . . . . . . . . . . . . . . . . . . . 4.117<br />

programpakker . . . . . . . . . . . . . . . . . . . . 1.7<br />

rang<br />

R<br />

af observationer . . . . . . . . . . . . . . 1.11, 8.4<br />

rangtest . . . . . . . . . . . . . . . . . . . . . . . . . 8.4<br />

reduktion<br />

statistisk model . . . . . . . . . . . . . . . . . . 5.6<br />

regneregler<br />

betinget sandsynlighed . . . . . . . . . . . . . 2.7<br />

middelværdi . . . . . . . . . . . . . . . . . . . 2.27<br />

sandsynligheder . . . . . . . . . . . . . . . . . . 2.3


I.10 Indeks<br />

uendelige rækker . . . . . . . . . . . . . . . . . A.4<br />

varians og kovarians . . . . . . . . . . . . . . 2.28<br />

regressionskoefficient<br />

lineær regression . . . . . . . . . . . . . . . . 4.78<br />

regressionslinje<br />

lineær regression . . . . . . . . . . . . . . . . 4.78<br />

relativ hyppighed . . . . . . . . . . . 1.7, 6.6, 6.12<br />

residual<br />

kvadratsum . . . . . . . . . . . . . . . . . . . . 4.79<br />

tosidet variansanalyse . . . . . . . . . . . . 4.117<br />

respons<br />

lineær regression . . . . . . . . . . . . . . . . 4.78<br />

rækkevirkning . . . . . . . . . . . . . . . . . . 4.113<br />

S<br />

s 2<br />

s 2 (i)<br />

SAK<br />

S<br />

sum af observationer . . . . . . . . . . . 1.17, 7.8<br />

beregningsformel . . . . . . . . . . . . . . . . . 7.8<br />

k observationsrækker . . . . . . . . . . . . . 4.32<br />

sum af afvigelsernes kvadrater . . . . . . . 1.17<br />

SAK (i)<br />

k observationsrækker . . . . . . . . . . . . . 4.32<br />

sammenfaldende observationer . . . . . . . . . 8.5<br />

sandsynlighed<br />

test . . . . . . . . . . . . . . . . . . . . . . . . . 5.12<br />

sandsynlighedsfunktion<br />

diskret stokastisk variabel . . . . . . . . . . 2.12<br />

diskret stokastisk variabel, egenskaber ved 2.14<br />

diskret stokastisk vektor . . . . . . . . . . . 2.19<br />

marginal fordeling . . . . . . . . . . . . . . . 2.22<br />

sandsynlighedsm˚ al . . . . . . . . . . . . . . 1.1, 5.2<br />

sandsynlighedsm˚ al . . . . . . . . . . . . . . . . . 2.1<br />

sandsynlighedspapir . . . . . . . . . . . . . . . . 4.5<br />

sandsynlighedsrum . . . . . . . . . . . . . . . . . 2.2<br />

sandsynlighedsteori . . . . . . . . . . . . . . 1.1, 5.2<br />

SAP<br />

sum af afvigelsernes produkter . . . . . . . 1.28<br />

signifikansniveau . . . . . . . . . . . . . 5.12, 5.14<br />

observeret . . . . . . . . . . . . . . . . . . . . . 5.12<br />

simultan fordeling . . . . . . . . . . . . . . . . . 2.22<br />

SK<br />

SP<br />

sum af kvadrater . . . . . . . . . . . . . 1.17, 7.8<br />

sum af produkter . . . . . . . . . . . . . . . . 1.28<br />

spredning . . . . . . . . . . . . . . . . . . . . . . . 2.27<br />

empirisk . . . . . . . . . . . . . . . . . . . . . . 1.16<br />

standardafvigelse . . . . . . . . . . . . . . . . . 2.27<br />

statistik<br />

beskrivende . . . . . . . . . . . . . . . . . . . . . 1.2<br />

deskriptiv . . . . . . . . . . . . . . . . . . . . . . 1.2<br />

ikke-parametrisk . . . . . . . . . . . . . . . . 5.22<br />

inferens . . . . . . . . . . . . . . . . . . . . . . . 5.5<br />

parametrisk model . . . . . . . . . . . . . . . . 5.3<br />

statistikkens slutningsregel . . . . . . . . . . . 4.17<br />

statistisk<br />

analyse . . . . . . . . . . . . . . . . . . 1.1, 5.1, 5.2<br />

approksimativ metode . . . . . . . . . . . . . . 5.1<br />

metode . . . . . . . . . . . . . . . . . . . . . . . . 5.1<br />

stikprøve . . . . . . . . . . . . . . . . . . . . . . . . 1.2<br />

ordnet . . . . . . . . . . . . . . . . . . . . . . . 1.11<br />

størrelse . . . . . . . . . . . . . . . . . . . . . . . 1.2<br />

stokastisk<br />

variation . . . . . . . . . . . . . . . . . . . . 1.1, 5.2<br />

vektor, multinomialfordelt . . . . . . . . . . . 6.1<br />

stokastisk variabel . . . . . . . . . . . . . . . . . 2.10<br />

diskret . . . . . . . . . . . . . . . . . . . . . . . 2.12<br />

kontinuert . . . . . . . . . . . . . . . . . . . . . 2.16<br />

stokastisk vektor . . . . . . . . . . . . . . . . . . 2.19<br />

diskret . . . . . . . . . . . . . . . . . . . . 2.19, 5.2<br />

kontinuert . . . . . . . . . . . . . . . . . . 2.20, 5.2<br />

styrkefunktion . . . . . . . . . . . . . . . . . . . 5.14<br />

støtte<br />

diskret stokastisk variabel . . . . . . . . . . 2.14


Indeks I.11<br />

diskret stokastisk vektor . . . . . . . . . . . 2.19<br />

kontinuert stokastisk variabel . . . . . . . . 2.16<br />

stokastisk vektor . . . . . . . . . . . . . . . . 2.20<br />

søjlediagram . . . . . . . . . . . . . . . . . . . . . 1.5<br />

søjlevirkning . . . . . . . . . . . . . . . . . . . 4.113<br />

t-fordeling<br />

T<br />

definition . . . . . . . . . . . . . . . . . . . . . . 3.8<br />

Excel . . . . . . . . . . . . . . . . . . . . . . . . 3.10<br />

fordelingsresultater . . . . . . . . . . . . . . . . 3.8<br />

tabel . . . . . . . . . . . . . . . . . . . . . . . . . 3.8<br />

t-test<br />

parrede . . . . . . . . . . . . . . . . . . 4.46, 4.133<br />

t-test for kendt middelværdi . . . . . . . . . . 4.22<br />

Excel . . . . . . . . . . . . . . . . . . . . . . . . 4.28<br />

tabel<br />

χ 2 -fordeling . . . . . . . . . . . . . . . . . . . . 3.7<br />

F-fordeling . . . . . . . . . . . . . . . . . . . . 3.12<br />

normalfordeling . . . . . . . . . . . . . . . . . . 3.3<br />

t-fordeling . . . . . . . . . . . . . . . . . . . . . 3.8<br />

u-fordeling . . . . . . . . . . . . . . . . . . . . . 3.3<br />

tabelform<br />

data . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1<br />

Taylor<br />

teori<br />

test<br />

polynomium . . . . . . . . . . . . . . . . . . . 5.18<br />

udvikling . . . . . . . . . . . . . . . . . . . . . 5.18<br />

estimation . . . . . . . . . . . . . . . . . . . . . . 5.5<br />

likelihood, approksimativ . . . . . . . . . . 5.17<br />

test . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5<br />

test, generel . . . . . . . . . . . . . . . . . . . . 5.14<br />

af hypoteser om regressionsparametrene . .<br />

. . . . . . . . . . . . . . . . . . . . . . . . 4.90, 4.107<br />

Bartlett . . . . . . . . . . . . . . . . . . . . . . . 4.61<br />

dobbeltsidet . . . . . . . . . . . . . . . . . . 4.143<br />

ensidet . . . . . . . . . . . . . . . . . . . . . . 4.143<br />

F-test for hypotesen om lineær regression .<br />

. . . . . . . . . . . . . . . . . . . . . . . . 4.86, 4.106<br />

F-test for identitet af middelværdier . . . 4.64<br />

F-test for identitet af to varianser . 4.37, 4.55<br />

for kendt varians . . . . . . . . . . . . 4.24, 4.28<br />

goodness of fit . . . . . . . . . . . . . . . . . . 6.24<br />

ikke-parametrisk . . . . . . . . . . . . . . . . . 8.2<br />

fortegnstest . . . . . . . . . . . . . . . . . . . 8.3<br />

Kruskal-Wallis’s for flere observationsræk-<br />

ker . . . . . . . . . . . . . . . . . . . . . . . . 8.11<br />

Wilcoxons for én observationsrække . . . 8.5<br />

Wilcoxons for to observationsrækker . . 8.8<br />

likelihood ratio . . . . . . . . . . . . . . 5.6, 5.11<br />

p-værdi . . . . . . . . . . . . . . . . . . . . . . 5.12<br />

p˚ a niveau α . . . . . . . . . . . . . . . . . . . . 5.14<br />

signifikansniveau . . . . . . . . . . . . 5.12, 5.14<br />

størrelse . . . . . . . . . . . . . . . . . . . . . . . 5.6<br />

styrkefunktion . . . . . . . . . . . . . . . . . . 5.14<br />

t 2 = F . . . . . . . . . . . . . . . . . . . . . . . 4.68<br />

t-test for kendt middelværdi . . . . . . . . . 4.23<br />

t-test for uafhængighed i N2 . . . . . . . . . 4.97<br />

teori . . . . . . . . . . . . . . . . . . . . . . . 5.1, 5.5<br />

teori, generel . . . . . . . . . . . . . . . . . . . 5.14<br />

u-test for kendt middelværdi . . . . . . . . . 4.15<br />

testor . . . . . . . . . . . . . . . . . . . . . . . . . . 5.6<br />

testsandsynlighed . . . . . . . . . . . . . . . . . 5.12<br />

approksimativ, likelihood ratio test . . . . 5.20<br />

teststørrelse . . . . . . . . . . . . . . . . . . . . . . 5.6<br />

likelihood ratio . . . . . . . . . . . . . . . . . 5.11<br />

tilfældigt tal . . . . . . . . . . . . . . . . . . . . . . 2.5<br />

to observationsrækker . . . . . . . . . . . . . . 4.34<br />

skøn over fælles varians . . . . . . . . . . . . 4.38<br />

test af ens middelværdier; varianser ens . .<br />

. . . . . . . . . . . . . . . . . . . . . . . . . 4.39, 4.56<br />

test af ens middelværdier; varianser forskelli-<br />

ge . . . . . . . . . . . . . . . . . . . . . . . 4.44, 4.57<br />

test af ens varianser . . . . . . . . . . . . . . 4.55


I.12 Indeks<br />

todimensional normalfordeling<br />

definition . . . . . . . . . . . . . . . . . . . . . . 3.4<br />

én observationsrække fra . . . . . . . . . . . 4.94<br />

estimation . . . . . . . . . . . . . . . . . . . . . 4.96<br />

korrelation . . . . . . . . . . . . . . . . . . . . . 3.5<br />

marginale og betingede fordelinger . . . . . 3.5<br />

middelværdivektor og kovariansmatriks . . 3.5<br />

modelkontrol . . . . . . . . . . . . . . . . . . . 4.95<br />

test af hypotesen om uafhængighed . . . . 4.97<br />

tomme mængde . . . . . . . . . . . . . . . . . . . A.2<br />

tosidet variansanalyse . . . . . . . . . . . . . 4.111<br />

additivitet . . . . . . . . . . . . . . . . . . . . 4.113<br />

estimation . . . . . . . . . . . . . . . . . . . . 4.114<br />

estimation af rækkevirkningsforskel i additi-<br />

vitesmodellen . . . . . . . . . . . . . . . . . . 4.126<br />

estimation af søjlevirkningsforskel i additivi-<br />

tesmodellen . . . . . . . . . . . . . . . . . . . 4.126<br />

homogenitet . . . . . . . . . . . . . . . . . . 4.113<br />

hypotesen om additivitet . . . . . . . . . . 4.114<br />

hypotesen om ingen rækkevirkning . . . 4.114<br />

hypotesen om ingen søjlevirkning . . . . 4.114<br />

konfidensintervaller i additivitetsmodellen 4.125<br />

kontrast . . . . . . . . . . . . . . . . . . . . . 4.126<br />

kun rækkevirkning . . . . . . . . . . . . . . 4.113<br />

kun søjlevirkning . . . . . . . . . . . . . . . 4.113<br />

med gentagelser . . . . . . . . . . . . . . . . 4.114<br />

med gentagelser, variansanalysetabel . . 4.124<br />

modelkontrol . . . . . . . . . . . . . . . . . . 4.115<br />

profildiagram . . . . . . . . . . . . . . . . . 4.117<br />

relation til det parrede t-test . . . . . . . . 4.133<br />

residualer . . . . . . . . . . . . . . . . . . . . 4.117<br />

test i additivitetsmodellen . . . . . . . . . 4.120<br />

test i modellen for kun rækkevirkning . 4.122<br />

test i modellen for kun søjlevirkning . . 4.123<br />

uden gentagelser . . . . . . . . . . . . . . . 4.114<br />

uden gentagelser, variansanalysetabel . . 4.125<br />

transformation . . . . . . . . . . . . . . . . . . . . 4.8<br />

tælle . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2<br />

tæthedsfunktion . . . . . . . . . . . . . . . . . . . 5.2<br />

kontinuert stokastisk variabel . . . . . . . . 2.16<br />

kontinuert stokastisk variabel, egenskaber<br />

ved . . . . . . . . . . . . . . . . . . . . . . . . . . 2.16<br />

kontinuert stokastisk vektor . . . . . . . . . 2.20<br />

marginal fordeling . . . . . . . . . . . . . . . 2.22<br />

U<br />

u-fordeling . . . . . . . . . . . . . . . . . . . . . . . 3.1<br />

tabel . . . . . . . . . . . . . . . . . . . . . . . . . 3.3<br />

u-test for kendt middelværdi . . . . . . . . . . 4.15<br />

Excel . . . . . . . . . . . . . . . . . . . . . . . . 4.19<br />

uafhængig variabel<br />

lineær regression . . . . . . . . . . . . . . . . 4.78<br />

uafhængighed<br />

flere hændelser . . . . . . . . . . . . . . . . . . 2.6<br />

stokastiske variable . . . . . . . . . . . . . . . 2.24<br />

stokastiske variable, betingelser for . . . . 2.24<br />

to hændelser . . . . . . . . . . . . . . . . . . . . 2.6<br />

uafhængighed af inddelingskriterier . . . . . 6.11<br />

−2lnQ-testet, testsandsynlighed . . . . . . 6.13<br />

beregningsformel for −2lnQ-testet . . . . 6.12<br />

eksempel . . . . . . . . . . . . . . . . . . . . . 6.13<br />

fordelingsresultat . . . . . . . . . . . . . . . . 6.13<br />

forventede antal . . . . . . . . . . . . . . . . . 6.12<br />

hypotese . . . . . . . . . . . . . . . . . . . . . . 6.11<br />

maksimum likelihood estimater . . . . . . 6.12<br />

udfald . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2<br />

udfaldsrum . . . . . . . . . . . . . . . . . 1.1, 2.1, 5.2<br />

uendelig række . . . . . . . . . . . . . . 2.1, 2.2, A.3<br />

absolut konvergent . . . . . . . . . . . . . . . . A.3<br />

afsnitssum . . . . . . . . . . . . . . . . . . . . . A.3<br />

divergent . . . . . . . . . . . . . . . . . . . . . . A.3<br />

eksempler . . . . . . . . . . . . . . . . . . . . . . A.4<br />

konvergent . . . . . . . . . . . . . . . . . . . . . A.3<br />

led . . . . . . . . . . . . . . . . . . . . . . . . . . . A.3<br />

regneregler . . . . . . . . . . . . . . . . . . . . . A.4


Indeks I.13<br />

undersøgelse<br />

grafisk . . . . . . . . . . . . . . . . . . . . . . . . 5.4<br />

numerisk . . . . . . . . . . . . . . . . . . . . . . 5.4<br />

uniform fordeling . . . . . . . . . . . . . . . . . 2.12<br />

tæthedsfunktion . . . . . . . . . . . . . . . . . 2.18<br />

uniforme sandsynlighedsm˚ al<br />

p˚ a endelig mængde . . . . . . . . . . . . . . . . 2.4<br />

p˚ a interval . . . . . . . . . . . . . . . . . . . . . . 2.5<br />

V<br />

varians . . . . . . . . . . . . . . . . . . . . . . . . 2.27<br />

af gennemsnit . . . . . . . . . . . . . . . . . . 2.29<br />

empirisk . . . . . . . . . . . . . . . . . . . . . . 1.16<br />

regneregler . . . . . . . . . . . . . . . . . . . . 2.28<br />

variansanalyse . . . . . . . . . . . . . . . . . . . 4.67<br />

variansanalysetabel . . . . . . . . . . . . . . . . 4.67<br />

ensidet variansanalyse . . . . . . . . . . . . . 4.67<br />

tosidet variansanalyse med gentagelser . 4.124<br />

tosidet variansanalyse uden gentagelser 4.125<br />

venstreskæv . . . . . . . . . . . . . . . . . . . . . 1.16


I.14 Indeks

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!