Transform your PDFs into Flipbooks and boost your revenue!
Leverage SEO-optimized Flipbooks, powerful backlinks, and multimedia content to professionally showcase your products and significantly increase your reach.
<strong>IDRÆTSSTATISTIK</strong><br />
<strong>BIND</strong> 1
ii<br />
Det Naturvidenskabelige Fakultet<br />
Aarhus Universitet<br />
Reprocenter<br />
© Preben Blæsild og Jørgen Granfeldt 2001<br />
ISBN 87-87436-05-1 Bd.1
Forord<br />
Denne bog er skrevet til brug i et statistikkursus for bachelorstuderende ved Center for Idræt,<br />
Aarhus Universitet.<br />
Bag bogen ligger samme holdninger b˚ ade til statistisk anal yse og til begynderundervisning<br />
i statistik, der primært retter sig mod brugere, som i Blæsild og Granfeldt (2000) Statistik for<br />
biologer og geologer.<br />
Et vigtigt holdepunkt i statistisk analyse er modelbegrebet. Man vælger en statistisk model,<br />
som kan belyse den faglige problemstilling. Det vil sige, at parametrene i modellen kan fortol-<br />
kes i den faglige problemstilling, og at interessante faglige hypoteser svarer til restriktioner p˚ a<br />
parametrene. En faglig hypotese afprøves ved at undersøge (teste), om man kan acceptere en<br />
reduktion af modellen til en ny model, som er enklere ved at have færre parametre.<br />
Gør man sig det klart, kan man hurtigt lære at analysere temmelig komplicerede problem-<br />
stillinger korrekt. Ydermere bliver analysen til at følge ogs˚ a for folk, som hverken er specialister<br />
p˚ a det faglige omr˚ ade eller er professionelle statistike re.<br />
Et tidsvarende brugerkursus i statistik m˚ a benytte EDB og e n statistisk programpakke. Ved<br />
dette kursus er valgt regnearket Excel og den statistik pakke der under navnet Dataanalyse op-<br />
træder som et ”tilføjelsesprogram” til Excel, men der er ikke benyttet faciliteter, som er specielle<br />
for denne statistik pakke, og bogen kan uden vanskelighed anvendes sammen med andre statisti-<br />
ske programpakker. Argumentet for at benytte Excel er, at regnearket er tilgængeligt p˚ a de fleste<br />
PC-er imodsætning til mere kostbare og specialiserede statistiske programpakker s˚ asom for ek-<br />
sempel SAS, Genstat og BMDP. Disse programpakker er designet specielt til brug i forbindelse<br />
med statistisk analyse og kan derfor udføre beregningerne i meget mere avancerede statistiske<br />
modeller end regnearket Excel kan. Disse noter demonsterer forh˚ abenligt at i forbindels e med<br />
et elementært kursus i statistik er Excel et brugbart alternativ.<br />
N˚ ar man bruger statistiske programpakker i undervisninge n bliver modellerne, som beskre-<br />
vet ovenfor, det faste holdepunkt n˚ ar man skal orientere si g i udskrifterne. Man kan bruge en<br />
programpakke til statistisk analyse, n˚ ar man har lært dels at specificere modeller i programpak-<br />
ken og dels at teste reduktionen fra én model til en simplere ved at hente relevante oplysninger<br />
ud fra udskrifterne fra estimationen i de to modeller.<br />
iii
iv<br />
Kun af˚ kan lære statistik uden at af˚ metoderne ind gennem fin grene. Vi har derfor valgt<br />
b˚ ade at præsentere, hvordan de enkleste modeller kan regne s p˚ a lommeregner, og hvordan de<br />
kan regnes ved at orientere sig i udskrifter fra en programpakke. For normalfordelte data vises<br />
b˚ ade for én, to og k observationsrækker, samt én regressionslinje, hvordan modellerne regnes<br />
igennem p˚ a lommegner, mens en mere kompliceret model som to sidet variansanalyse kun skal<br />
kunne klares med henvisning til programudskrifter.<br />
Et statistikkursus for studerende, der ikke har et vist kendskab til de mest basale begreber<br />
i sandsynlighedsteorien, fremst˚ ar for os som en umulighed . I Kapitel 2 introduceres og/eller<br />
repeteres disse begreber, der illustreres ved en række eksempler, som er valgt ud fra det princip,<br />
at de matematisk skulle være lette at h˚ andtere. Kapitel 3 er at betragte som et katalog vedrørende<br />
definition af og egenskaber ved de fordelinger som anvendes i forbindelse med de statistiske<br />
modeller i de senere kapitler. Kaptitel 2 gennemg˚ as efter d iskussionen i Kapitel 1 af grafiske og<br />
numeriske metoder i forbindelse med beskrivende statistik. Herefter fortsættes med modellerne<br />
for normalfordelte data i Kapitel 4 idet de hertil relaterede fordelinger fra Kapitel 3 omtales<br />
undervejs. Efter adskillige eksempler p˚ a statistisk anal yse i forbindelse med normalfordelingen<br />
i Kapitel 4 diskuteres hovedtrækkene i en analyse af en parametrisk statistisk model i generelle<br />
termer i Kapitel 5. Derefter gennemg˚ as Kapitel 6 om multino mialfordelte data og Kapitel 7 om<br />
Poissonfordelte data. Bogen slutter med omtale af nogle simple ikke-parametriske test i Kapitel<br />
8. Som nævnt ovenfor foretrækker vi at betragte parametriske statistiske modeller. Form˚ alet<br />
med Kapitel 8 er at orientere læserne om at ikke alle deler denne holdning og for at give et kort<br />
indblik i de alternative metoder.<br />
Det vil være muligt at læse kapitlerne i en anden rækkefølge, men man skal være opmærk-<br />
som p˚ a, at de statistiske grundbegreber som nulhypotese, t est, testsandsynlighed, signifikansni-<br />
veau og s˚ a videre gennemg˚ as i forbindelse med Afsnit 4.2.<br />
Uden dataeksempler, som udspringer af en faglig problemstilling, bliver en lærebog til et<br />
brugerkursus i statistik temmelig uinteressant. En del af eksemplerne er taget fra Andersen<br />
(1998) Statistik for Idrætsstuderende med forfatterens tilladelse, hvilket vi er taknemmelige for.<br />
Vi vil ogs˚ a gerne takke medarbejdere og studerende ved Cent er for Idræt, Aarhus Universitet og<br />
ved Institut for Idræt, Københavns Universitet, som har stillet data og deres historie til adighed r˚<br />
for bogens eksempler og opgaver.<br />
Bogen er blevet brugt ved Idrætsstatistik i efter˚ aret 2000 og bygger p˚ a erfaringer fra et<br />
lignede kursus i efter˚ aret 1999 og en særlig tak g˚ ar til Jak ob Krabbe Pedersen og Lars Bo<br />
Kristensen for deres store indstats som instruktorer p˚ a di sse to kurser og for deres p˚ avisning af<br />
trykfejl.<br />
Bogen er skrevet LATEX, og Jacob Goldbach har skrevet de stylefiler i LATEX, som definerer
udseendet af bogen, men derudover har Jacob Goldbach almo t˚ digt besvaret utallige spørgsm˚ al<br />
om LATEX ligesom Frank Allan Hansen, Niels Væver Hartvig og Michael Kjærg˚ ard Sørensen<br />
velvilligt har assisteret os.<br />
I forhold til versionen af bogen fra maj 2001 er der rettet en del trykfejl og nogle af˚ figu-<br />
rer er blevet tilføjet. Vi vil gerne takke Lars Madsen for meget kompetent bistand med LATEX<br />
spørgsm˚ al i forbindelse med revisionen og Michael Kjærg˚ a rd Sørensen for at have produceret<br />
de nye figurer.<br />
˚Arhus, august 2005<br />
Preben Blæsild og Jørgen Granfeldt<br />
v
INDHOLD vii<br />
Indhold<br />
1 Data og beskrivende statistik 1.1<br />
1.1 Prik- og pindediagrammer . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4<br />
1.2 Histogrammer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5<br />
1.3 Empiriske størrelser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.7<br />
1.4 Grupperede data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.18<br />
1.5 Kvalitative data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.23<br />
1.6 Flerdimensionale data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.27<br />
Anneks til Kapitel 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.31<br />
Opgaver til Kapitel 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.41<br />
2 Begreber fra sandsynlighedsteorien 2.1<br />
2.1 Sandsynlighedsrum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1<br />
2.1.1 Definition af sandsynlighedsm˚ al . . . . . . . . . . . . . . . . . . . . . 2.1<br />
2.1.2 Regneregler for sandsynligheder . . . . . . . . . . . . . . . . . . . . 2.3<br />
2.1.3 Betingede sandsynligheder og uafhængighed . . . . . . . . . . . . . . 2.6<br />
2.2 Stokastiske variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.9<br />
2.2.1 Diskrete stokastiske variable . . . . . . . . . . . . . . . . . . . . . . . 2.12<br />
2.2.2 Kontinuerte stokastiske variable . . . . . . . . . . . . . . . . . . . . . 2.16<br />
2.3 Stokastiske vektorer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.19<br />
2.3.1 Diskrete stokastiske vektorer . . . . . . . . . . . . . . . . . . . . . . . 2.19<br />
2.3.2 Kontinuerte stokastiske vektorer . . . . . . . . . . . . . . . . . . . . . 2.20<br />
2.3.3 Marginale fordelinger . . . . . . . . . . . . . . . . . . . . . . . . . . 2.22<br />
2.3.4 Uafhængighed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.24<br />
2.3.5 Betingede fordelinger . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.25<br />
2.4 Middelværdi og varians . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.26<br />
Opgaver til Kapitel 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.32
viii INDHOLD<br />
3 Specielle fordelinger 3.1<br />
3.1 Normalfordelingen og relaterede fordelinger . . . . . . . . . . . . . . . . . . . 3.1<br />
3.1.1 Normalfordelingen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1<br />
3.1.2 Den todimensionale normalfordeling . . . . . . . . . . . . . . . . . . 3.4<br />
3.1.3 χ 2 -fordelingen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5<br />
3.1.4 t-fordelingen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.8<br />
3.1.5 F-fordelingen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.10<br />
3.2 Diskrete fordelinger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.12<br />
3.2.1 Binomialfordelingen . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.12<br />
3.2.2 Multinomialfordelingen . . . . . . . . . . . . . . . . . . . . . . . . . 3.15<br />
3.2.3 Poissonfordelingen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.16<br />
3.2.4 Den hypergeometriske fordeling . . . . . . . . . . . . . . . . . . . . . 3.17<br />
3.2.5 Den negative binomialfordeling . . . . . . . . . . . . . . . . . . . . . 3.19<br />
Opgaver til Kapitel 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.22<br />
4 Normalfordelte data 4.1<br />
4.1 Fraktilsammenligning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2<br />
4.1.1 Ugrupperede observationer . . . . . . . . . . . . . . . . . . . . . . . . 4.2<br />
4.1.2 Grupperede data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.7<br />
4.1.3 Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.8<br />
Anneks til Afsnit 4.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.10<br />
4.2 Én observationsrække med kendt varians . . . . . . . . . . . . . . . . . . . . . 4.13<br />
Anneks til Afsnit 4.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.19<br />
Hovedpunkter til Afsnit 4.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.20<br />
4.3 Én observationsrække med ukendt varians . . . . . . . . . . . . . . . . . . . . 4.21<br />
Anneks til Afsnit 4.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.28<br />
Hovedpunkter til Afsnit 4.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.30<br />
4.4 To observationsrækker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.32<br />
4.4.1 Test for varianshomogenitet . . . . . . . . . . . . . . . . . . . . . . . 4.35<br />
4.4.2 Ens varians . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.38<br />
4.4.3 Forskellig varians . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.42<br />
4.4.4 Parrede observationer . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.45<br />
Anneks til Afsnit 4.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.50<br />
Hovedpunkter til Afsnit 4.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.55<br />
4.5 k observationsrækker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.59<br />
4.5.1 Test for varianshomogenitet . . . . . . . . . . . . . . . . . . . . . . . 4.61
INDHOLD ix<br />
4.5.2 Test for ens middelværdier . . . . . . . . . . . . . . . . . . . . . . . . 4.64<br />
4.5.3 Forskelle og ligheder i behandlingen af to og k observationsrækker . . . 4.68<br />
4.5.4 Notation og test i forbindelse med en følge af modeller . . . . . . . . . 4.69<br />
Anneks til Afsnit 4.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.70<br />
Hovedpunkter til Afsnit 4.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.73<br />
4.6 Lineær regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.76<br />
4.6.1 Lineær regression uden gentagelser . . . . . . . . . . . . . . . . . . . 4.76<br />
4.6.2 Lineær regression med gentagelser . . . . . . . . . . . . . . . . . . . . 4.83<br />
4.6.3 Hypoteser om regressionsparametrene . . . . . . . . . . . . . . . . . . 4.90<br />
4.6.4 Korrelation og/eller regression . . . . . . . . . . . . . . . . . . . . . . 4.94<br />
Anneks til Afsnit 4.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.101<br />
Hovedpunkter til Afsnit 4.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.106<br />
4.7 Tosidet variansanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.111<br />
Anneks til Afsnit 4.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.135<br />
Hovedpunkter til Afsnit 4.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.137<br />
Opgaver til Kapitel 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.142<br />
Indeks I.1<br />
5 Statistisk analyse 5.1<br />
5.1 Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2<br />
5.2 Modelopstilling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2<br />
5.3 Modelkontrol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4<br />
5.4 Statistisk inferens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5<br />
5.5 Likelihood inferens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.7<br />
5.6 Begreber fra generel testteori . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.14<br />
5.7 Approksimativ likelihood teori . . . . . . . . . . . . . . . . . . . . . . . . . . 5.17<br />
5.8 Afsluttende bemærkninger . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.22<br />
Opgaver til Kapitel 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.23<br />
6 Multinomialfordelte data 6.1<br />
6.1 Eksempler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2<br />
6.2 Inferens i én multinomialfordeling. . . . . . . . . . . . . . . . . . . . . . . . . 6.4<br />
6.2.1 Test af simpel hypotese . . . . . . . . . . . . . . . . . . . . . . . . . . 6.10<br />
6.2.2 Uafhængighed af inddelingskriterier . . . . . . . . . . . . . . . . . . . 6.11<br />
6.3 Inferens i flere multinomialfordelinger . . . . . . . . . . . . . . . . . . . . . . 6.15
x INDHOLD<br />
6.3.1 Homogenitet af flere multinomialfordelinger . . . . . . . . . . . . . . 6.15<br />
6.4 Fishers eksakte test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.19<br />
6.5 Test for goodness of fit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.24<br />
Anneks til Kapitel 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.28<br />
Hovedpunkter til Kapitel 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.31<br />
Opgaver til Kapitel 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.35<br />
7 Poissonfordelte data 7.1<br />
7.1 Eksempler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2<br />
7.2 Sandsynlighedsteoretiske resultater vedrørende Poissonfordelingen . . . . . . . 7.3<br />
7.3 Én observationsrække . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.7<br />
7.4 Inferens i flere fordelinger . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.11<br />
7.4.1 Poissonmodellen med proportionale parametre . . . . . . . . . . . . . 7.12<br />
7.4.2 Den multiplikative Poissonmodel . . . . . . . . . . . . . . . . . . . . 7.18<br />
Anneks til Kapitel 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.29<br />
Hovedpunkter til Kapitel 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.33<br />
Opgaver til Kapitel 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.39<br />
8 Ikke-parametriske test 8.1<br />
8.1 Fortegnstestet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2<br />
8.2 Rangtest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.4<br />
8.2.1 Wilcoxons test for én observationsrække . . . . . . . . . . . . . . . . 8.5<br />
8.2.2 Wilcoxons test for to observationsrækker . . . . . . . . . . . . . . . . 8.7<br />
8.2.3 Kruskal-Wallis test . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.11<br />
Anneks til Kapitel 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.15<br />
Hovedpunkter til Kapitel 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.18<br />
Opgaver til Kapitel 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.21<br />
A Forskellige matematiske begreber A.1<br />
A.1 Notation fra mængdelæren . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.1<br />
A.2 Rækker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.3<br />
A.3 Dobbeltintegraler og partiel differentiation . . . . . . . . . . . . . . . . . . . . A.4<br />
A.3.1 Dobbeltintegraler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.5<br />
A.3.2 Partiel differentiation . . . . . . . . . . . . . . . . . . . . . . . . . . . A.5<br />
B Simulerede fraktildiagrammer B.1
INDHOLD xi<br />
C Matematiske symboler C.1<br />
D Det græske alfabet D.1<br />
Indeks I.1
xii INDHOLD
1 Data og beskrivende statistik 1.1<br />
1 Data og beskrivende statistik<br />
Udgangspunktet for en statistisk analyse er et datasæt x, der er resultatet af et eksperiment,<br />
udført med det form˚ al at af˚ indblik i en speciel faglig sammenhæng. Betegnelsen eksperiment<br />
skal her forst˚ as i en bred forstand. Data fra idræt kan eksem pelvis være bestemmelser af kondi-<br />
tal, hæmaglobinindhold, hæmatokritværdier eller andre fysiologiske størrelser hos en gruppe af<br />
personer. Ofte foretages disse m˚ alinger p˚ a den samme grup pe personer til forskellige tidspunk-<br />
ter for at vurdere effekten p˚ a disse størrelser af træning, konkurrence eller andre p˚ avirkninger.<br />
Data kan ogs˚ a være resultater af konkurrencer eller turner inger indsamlet med henblik p˚ a at<br />
sammenligne personers eller holds præstationer.<br />
Karakteristisk for et datasæt x i et eksperiment er, at det er stokastisk; det vil sige, at hvis man<br />
gentager eksperimentet eller m˚ alingerne under lignende o mstændigheder, bliver resultatet ikke<br />
nødvendigvis x. Dette er i modsætning til en deterministisk situation, hvor udfald p˚ a forh˚ and<br />
kan bestemmes med sikkerhed. Men selv om udfaldene af eksperimentet ikke kan angives p˚ a<br />
forh˚ and er der ofte en regelmæssighed p˚ a et højere niveau, som man netop kan erkende, hvis<br />
forsøget gentages mange gange. En byggesten i beskrivelsen af et eksperiment er derfor en<br />
sandsynlighedsteoretisk model.<br />
De relevante begreber fra sandsynlighedsteorien er resumeret i Kapitel 2. Her nævner vi blot,<br />
at en sandsynlighedsteoretisk model best˚ ar af tre kompone nter: 1) udfaldsrummet, X , som er<br />
samtlige værdier (udfald), som eksperimentet kan a; f˚ 2) hændelsessystemet, F , som omfatter<br />
alle de hændelser vi vil betragte; og 3) sandsynlighedsm˚alet, P, som angiver sandsynligheden<br />
af alle hændelser i F .<br />
Det stokastiske element i et eksperiment beskrives af hændelsessystemet og sandsynlig-<br />
hedsm˚ alet, som beskriver alle hændelser vi er interessere de i og deres sandsynligheder. Vi be-<br />
skriver ofte det stokastiske ved et datasæt ved at opfatte data x som en udfald af en stokastisk<br />
vektor X hvis fordeling er bestemt af sandsynlighedsm˚ alet P.<br />
Det første punkt i en statistisk analyse er at opstille en brugbar statistisk model for det<br />
aktuelle datasæt, hvilket undertiden kan være en besværlig opgave. Dette punkt er ofte det van-<br />
skeligste i en statistisk analyse. Mange faktorer spiller ind, n˚ ar en model for data skal opstilles,<br />
for eksempel m˚ aden data er indsamlet p˚ a, information om de n faglige problemstilling data skal
1.2<br />
belyse, erfaringer - personlige eller erhvervet ved litteraturstudier - fra analyser af lignende<br />
problemer. Statistikeren benytter sig ved modelformuleringen af information, som stammer fra<br />
forskellige sammenfatninger af data, s˚ asom tabelleringe r og/eller grafiske repræsentationer af<br />
data. Ved modelopstillingen skal man tage højde for, at den statistiske model skal være til-<br />
strækkelig simpel fra et matematisk synspunkt, s˚ aledes at den er til at h˚ andtere, og samtidig<br />
tilstrækkelig struktureret til at give relevant information om den faglige problemstilling, som<br />
undersøges. Endelig skal modellen naturligvis give en rimelig god beskrivelse af data for at<br />
kunne anvendes i den videre analyse.<br />
Som det vil fremg˚ a af de kommende kapitler, er grafiske undersøgelser relevante p˚ a s˚ a at<br />
sige alle stadier af en statistisk analyse. I dette kapitel diskuterer vi forskellige numeriske og<br />
grafiske procedurer, der er relevante i den indledende fase af en statistisk analyse, hvor man<br />
skaffer sig overblik over data. Disse procedurer er en del af det, der omtales som beskrivende<br />
eller deskriptiv statistik.<br />
Vi vil udelukkende betragte data, som enten er kvalitative eller kvantitative, det vil sige data,<br />
der fremkommer enten ved at tælle eller ved at m˚ale. For s˚ adanne datasæt best˚ ar de relevante<br />
fordelingsklasser af henholdsvis diskrete fordelinger og kontinuerte fordelinger, se Kapitel 2.<br />
Vi skelner desuden mellem grupperede data og ugrupperede data. Hvis et datasæt best˚ ar af<br />
n observationer, og hvis værdierne x1,x2,...,xn af alle n observationer kendes, siges datasættet<br />
at være ugrupperet. Undertiden er udfaldsrummet X for observationerne opdelt i m disjunk-<br />
te mængder A1,...,Am og i stedet for at angive de n observationer x1,x2,...,xn angiver man<br />
kun a1,a2,...,am, hvor a j betegner antallet af observationer der tilhører A j, j = 1,2,...,m. I<br />
s˚ a tilfælde omtales a1,a2,...,am som et grupperet datasæt. Delmængderne A j, j = 1,2,...,m,<br />
vælges sædvanligvis som intervaller p˚ a den reelle akse.<br />
En stor del af kapitlet beskæftiger sig med modeller for én observationsrække. Ved én ob-<br />
servationsrække p˚ a n observationer forst˚ ar vi n uafhængige observationer x1,x2,...,xn fra den<br />
samme fordeling. Undertiden bruger man i stedet for sprogbrugen en stikprøve af størrelse<br />
n. Vi giver nogle simple numeriske og grafiske metoder, som opsummerer data og som giver<br />
nogle indikationer vedrørende formen af den fælles fordeling af observationerne. I Afsnit 1.1<br />
betragter vi prikdiagrammer og pindediagrammer og Afsnit 1.2 og Afsnit 1.3 vedrører ugruppe-<br />
rede kvantitative data. I Afsnit 1.2 diskuteres histogrammer og i Afsnit 1.3 indføres forskellige<br />
numeriske størrelser, der bruges til at beskrive den observerede fordeling. Afsnit 1.4 vedrører<br />
grupperede kvantitative data mens kvalitative data omtales i Afsnit 1.5. Endelig indeholder Af-<br />
snit 1.6 nogle af˚ bemærkninger om flerdimensionale data. I e t anneks til kapitlet gøres der rede<br />
for hvorledes udvalgte beregninger og tegninger kan laves ved hjælp af Excel. Til sidst i kapitlet<br />
er der en lille samling af opgaver.
1 Data og beskrivende statistik 1.3<br />
I kapitlet betragter vi blandt andet de 3 nedenst˚ aende ekse mpler.<br />
Eksempel 1.1<br />
De følgende data stammer fra en undersøgelse fra Odense amt af børn, der lider af astma. Un-<br />
dersøgelsen er foretaget af professor Bent Juhl, Aarhus Kommunehospital, i perioden 1. decem-<br />
ber 1968 til 3. marts 1969. Der blev foretaget 14 forskellige m˚ alinger p˚ a hvert barn og blandt<br />
disse var m˚ alinger af højden. Blandt børnene var der 247 pig er, der p˚ a undersøgelsestidspunktet<br />
var mellem 10 og 12ar. ˚ M˚ alingerne af højden (i cm) af disse p iger er angivet i Tabel 1.1. Højden<br />
er en kvantitativ - kontinuert - variabel og datasættet er ugrupperet, fordi højden blev m˚ alt og<br />
angivet i cm. Bemærk imidlertid, at hvis højderne oprindeligt var blevet m˚ alt i mm og - som her<br />
- angivet i cm ville datasættet være grupperet. <br />
Eksempel 1.2<br />
139 128 139 125 132 137 146 129 146 150 141 161 143<br />
131 128 134 132 136 137 137 129 140 140 143 148 148<br />
149 132 144 147 137 142 127 127 126 135 136 144 130<br />
132 141 126 135 129 132 130 139 139 134 132 134 127<br />
138 134 127 133 134 126 140 133 142 130 143 140 140<br />
143 150 144 144 128 135 131 135 138 131 135 148 134<br />
132 137 113 150 155 155 155 161 142 142 146 140 141<br />
146 140 139 137 146 142 130 145 149 156 149 155 152<br />
144 139 157 144 149 161 150 144 141 138 140 141 141<br />
147 142 146 156 140 144 145 137 126 134 144 159 134<br />
134 144 130 126 131 130 133 125 122 145 140 132 139<br />
139 128 146 137 139 138 145 133 139 133 139 151 150<br />
138 142 151 140 142 144 136 139 135 141 132 139 140<br />
144 142 127 147 151 141 138 142 147 153 148 144 138<br />
139 124 127 122 123 133 133 136 134 140 137 132 133<br />
132 128 128 136 122 122 123 123 128 145 152 152 156<br />
149 160 148 149 159 145 156 149 153 154 144 153 144<br />
134 140 135 149 136 145 143 139 143 138 137 140 137<br />
144 147 151 166 147 144 159 156 147 154 150 162 159<br />
Tabel 1.1 Højden (i cm) af 247 astmaplagede piger i alderen 10-12ar. ˚<br />
Tabel 1.2 viser konditallene for 20 eliteidrætsudøvere. Tallene er fra Andersen (1998). Datasæt-
1.4 1.1 Prik- og pindediagrammer<br />
tet er ugrupperet og konditallet er en kvantitativ - kontinuert - variabel. <br />
Eksempel 1.3<br />
68.9 75.2 74.3 72.9 72.0 63.9 76.3 76.3 75.4 66.0<br />
68.4 64.1 73.1 64.9 73.4 76.2 79.4 69.4 79.8 72.1<br />
Tabel 1.2 Kondital for 20 eliteidrætsudøvere.<br />
I Tabel 1.3 er vist resultatet af Faxe Kondi Ligaen 1999-2000. For hvert af 12 hold er vist antal<br />
kampe (k), antal vundne kampe (v), antal uafgjorte kampe (u), antal tabte kampe (t), antal m˚ al<br />
for, antal m˚ al imod og antal point ( p) for henholdsvis hjemmebanekampe, udebanekampe og<br />
totalt. Samtlige variable er kvalitative. <br />
£ ¤ ¡¢ £ ¤ ¡¢ £ ¤ ¥¦ §¨§©§ §¨§ ¦ §¨§§§©§ §¨§§¨ ¦ §¨ ¨ ©§§ ¨ §¨§§© ¡¢<br />
¨ ©§¨ ¨§¨§§© ¦§¨ §¨§§ §§§§¨© § § §¨ §§§©§© §¨ §¨§ ¨§§§ §§¨ §<br />
§¨¨§¨ §©§¨§ §¨ ¦ § ©§§¨ ¨©§§§©§ §<br />
¨§¨ §©§§§§ §¨ §¨§¨§§§<br />
Tabel 1.3 Resultatet af Faxe Kondi Ligaen 1999-2000.<br />
©§§§©¨© §§§§¨ ¦§ ¨§§§ ¦ §<br />
1.1 Prik- og pindediagrammer<br />
Prikdiagrammet er en grafisk procedure, der opsummerer data og som kan give et første indtryk<br />
af den underliggende fordeling af data. Prikdiagrammet konstrueres ved at indtegne data i et<br />
koordinatsystem p˚ a følgende m˚ ade. For hver observation a fsættes en prik over det punkt p˚ a<br />
førsteaksen, som svarer til værdien af observationen. (Af typografiskearsager ˚ bruger vi × i<br />
stedet for • til at repræsentere observationerne med.) Prikdiagrammet kan ogs˚ a benyttes til at<br />
ordne observationerne efter størrelse, hvis data ikke foreligger p˚ a elektronisk form.
Eksempel 1.1 (Fortsat)<br />
Figur 1.1 Prikdiagrammet for højderne i Tabel 1.1.<br />
Prikdiagrammet for data i Tabel 1.1 er vist i Figur 1.1 . <br />
Pindediagrammet eller søjlediagrammet bruges til at repræsentere data, der er grupperede<br />
i intervaller. For hvert interval anbringes over midtpunktet af intervallet en pind, hvis højde er<br />
antallet (eller det relative antal) af observationer i intervallet.<br />
Eksempel 1.1 (Fortsat)<br />
Tabel 1.4 nedenfor viser resultatet af en gruppering af data i Tabel 1.1 svarende til en interval-<br />
længde p˚ a 4 cm. Det tilsvarende pindediagram er vist i Figur 1.2. <br />
1.2 Histogrammer<br />
Hvis data er kontinuerte, laver man ofte et histogram for at af˚ et indtryk af, hvorledes tætheds-<br />
funktionen, se Kapitel 2, for den underliggende fordeling ser ud. Histogrammer kan derfor være<br />
af stor hjælp, n˚ ar klassen af fordelinger i den statistiske model skal vælges.<br />
Et histogram konstrueres p˚ a følgende m˚ ade. De n observationer x1, x2,...,xn grupperes i<br />
1.5
1.6 1.2 Histogrammer<br />
interval midtpunkt antal<br />
observationer<br />
]112,116] 114 1<br />
]116,120] 118 0<br />
]120,124] 122 8<br />
]124,128] 126 20<br />
]128,132] 130 24<br />
]132,136] 134 32<br />
]136,140] 138 49<br />
]140,144] 142 41<br />
]144,148] 146 26<br />
]148,152] 150 21<br />
]152,156] 154 14<br />
]156,160] 158 6<br />
]160,164] 162 4<br />
]164,168] 166 1<br />
Tabel 1.4 Observationerne i Tabel 1.1 grupperet i intervaller af længden 4 cm.<br />
Figur 1.2 Pindediagrammet for højderne i Tabel 1.4.
et antal intervaller. Lad m betegne dette antal og lad t1,t2,...,tm og Δt1,Δt2,...,Δtm betegne<br />
henholdsvis midtpunkterne og længderne af disse intervaller. Hvis a j betegner antallet af ob-<br />
servationer i det j’te interval og h j = a j/n den relative hyppighed af observationer i det j’te<br />
interval, j = 1,2,...,m, er histogrammet den trappefunktion h, der er givet ved<br />
h(t) = h j<br />
, hvis t ∈ ] t j −<br />
Δt j<br />
Δt j<br />
2 , t j + Δt j<br />
2<br />
1.7<br />
]. (1.1)<br />
Bemærk, at i et histogram repræsenteres den relative hyppighed h j som arealet af et rektangel,<br />
som har sidelængderne Δt j og h j/Δt j. Derfor er det totale areal under trappefunktionen h lig<br />
med 1, summen af de relative hyppigheder.<br />
Hvis de m intervaller har samme længde Δt, det vil sige hvis Δt1 = Δt2 = ··· = Δtm = Δt,<br />
betragter man, for at lette beregningerne, ofte funktionen<br />
˜h(t) = nΔth(t) = a j, hvis t ∈ ] t j − Δt<br />
2 , t j + Δt<br />
2<br />
] (1.2)<br />
i stedet for h. En tegning af denne funktion kaldes ogs˚ a et histogram. Bem ærk, at arealet un-<br />
der ˜h er nΔt, og bemærk desuden lighedspunkterne mellem denne form for et histogram og<br />
pindediagrammet, som blev omtalt i Afsnit 1.1.<br />
Figurerne 1.2 - 1.2 nedenfor viser forskellige histogrammer for tallene i Tabel 1.1. I hver af<br />
disse figurer betragter vi den samme intervallængde, som varierer fra figur til figur. Det ses af<br />
figurerne, at det er vigtigt at vælge et passende antal intervaller for at af˚ et indtryk af tætheds-<br />
funktionen for den underliggende fordeling. For mange intervaller giver et irregulært indtryk<br />
af tæthedsfunktionen og for af˚ intervaller giver for groft et indtryk. De fleste statistiske pro-<br />
grampakker kan tegne histogrammer og i disse er default værdien af antallet m af intervaller<br />
ofte √ n. For tallene i Tabel 1.1 er √ n ≈ 16, og antallet af intervaller i Figur 1.2 og 1.6 er<br />
henholdsvis 19 og 14. Disse figurer antyder, at tæthedsfunktionen for den underliggende forde-<br />
ling for tallene i Tabel 1.1 har det samme klokkeformede udseende som tæthedsfunktionen for<br />
normalfordelingen - se Figur 3.1, det vil sige figurerne antyder en statistisk model baseret p˚ a<br />
normalfordelingen for højderne i Tabel 1.1.<br />
1.3 Empiriske størrelser<br />
I dette afsnit definerer vi nogle numeriske størrelser knyttet til en observationsrække x1, x2,<br />
..., xn af størrelsen n af en kvantitativ variabel. Form˚ alet med disse størrelser er at beskrive<br />
variationen af observationerne p˚ a forskellig m˚ ade. Førs t introduceres lidt notation vedrørende<br />
reference til observationerne og værdierne af observationerne.
1.8 1.3 Empiriske størrelser<br />
Figur 1.3 Histogram for højden i cm for 247 piger. Intervallængde 1 cm.<br />
Figur 1.4 Histogram for højden i cm for 247 piger. Intervallængde 2 cm.
Figur 1.5 Histogram for højden i cm for 247 piger. Intervallængde 3 cm.<br />
Figur 1.6 Histogram for højden i cm for 247 piger. Intervallængde 4 cm.<br />
1.9
1.10 1.3 Empiriske størrelser<br />
Figur 1.7 Histogram for højden i cm for 247 piger. Intervallængde 6 cm.<br />
Figur 1.8 Histogram for højden i cm for 247 piger. Intervallængde 12 cm.
1.11<br />
Definition 1.1 Lad x1,x2,...,xn være en observationsrække af størrelsen n af en kvantitativ<br />
variabel.<br />
Den ordnede stikprøve x (1),x (2),...,x (i),...,x (n) er en opstilling af observationerne i stigen-<br />
de rækkefølge s˚ aledes at<br />
x (1) ≤ x (2) ≤ ··· ≤ x (i) ≤ ··· ≤ x (n).<br />
Rangen af observationerne defineres s˚ aledes:<br />
rang(x (i)) = i, hvis x (i−1) < x (i) < x (i+1)<br />
rang(x (i)) = ··· = rang(x (i+k−1)) = i+(k − 1)/2, hvis x (i) = ··· = x (i+k−1)<br />
(1.3)<br />
Rangen af observationen x (i) er alts˚ a i, hvis x (i) er den eneste observation med denne værdi,<br />
det vil sige hvis x (i−1) < x (i) < x (i+1). Hvis k observationer x (i),x (i+1),...,x (i+k−1) er lige store,<br />
det vil sige hvis x (i) = x (i+1) = ··· = x (i+k−1), tildeles de alle rangen i + (k − 1)/2, som er<br />
gennemsnittet af de k tal i,i+1,...,i+k − 1.<br />
De ordnede værdier i stikprøven er de forskellige værdier y1,y2,...,ym, som observationerne<br />
i stikprøven antager, ordnet efter størrelse, det vil sige<br />
y1 < y2 < ··· < ym. (1.4)<br />
For j = 1,...,m betegnes antallet af observationer med værdien y j med a j og det kumulerede<br />
antal med k j, det vil sige at k j = a1 + ···+a j. <br />
Bemærkning<br />
I den ordnede stikprøve er det observationerne, der ordnes efter størrelse, mens det ved de<br />
ordnede værdier er værdierne, der ordnes efter størrelse. Hvis der er to eller flere observationer,<br />
der antager samme værdi, er antallet m af forskellige værdier i stikprøven mindre end antallet n<br />
af observationer i stikprøven.<br />
Eksempel 1.4<br />
De forskellige størrelser i Definition 1.1 er illustreret i nedenst˚ aende tabel for 10 hypotetiske
1.12 1.3 Empiriske størrelser<br />
kondital.<br />
i xi x (i) rang(x (i)) yi ai ki<br />
1 65.0 62.9 1 62.9 1 1<br />
2 68.4 64.1 2 64.1 1 2<br />
3 67.9 65.0 4 65.0 3 5<br />
4 65.0 65.0 4 67.9 1 6<br />
5 69.8 65.0 4 68.4 1 7<br />
6 70.9 67.9 6 69.8 2 9<br />
7 62.9 68.4 7 70.9 1 10<br />
8 69.8 69.8 8.5<br />
9 65.0 69.8 8.5<br />
10 64.1 70.9 10<br />
Definition 1.2 Den empiriske fordelingsfunktion Fn svarende til observationerne x1,x2,...,xn<br />
er defineret ved<br />
Fn(x) = #{i : xi ≤ x}<br />
, x ∈ R. (1.5)<br />
n<br />
Den empiriske fordelingsfunktion Fn er alts˚ a en trappefunktion, hvis spring er multipla af<br />
1/n og for ethvert x ∈ R er tallet Fn(x) blot den relative hyppighed af observationer i data-<br />
sættet som er mindre end eller lig med x. Helt præcist har Fn spring i de m ordnede værdier<br />
y1,y2,...,ym og springet i yi er ai/n, i = 1,...,m, se Figur 1.9.<br />
s˚ aledes:<br />
Den empiriske fordelingsfunktion Fn er fuldstændigt bestemt af sine fraktiler, der defineres<br />
Definition 1.3 For ethvert p ∈ [0,1] er p-fraktilen for den empiriske fordelingsfunktion Fn<br />
mængden xp givet ved<br />
xp = {x ∈ R : Fn(x−) ≤ p ≤ Fn(x)},<br />
hvor Fn(x−) betegner grænseværdien fra venstre af Fn i punktet x.<br />
Specielt kaldes x0.50 ofte for den empiriske median , mens x0.25 og x0.75 kaldes henholdsvis<br />
nedre og øvre empiriske kvartil. <br />
Hvis vi supplerer notationen i Definition 1.1 med at sætte k0 = 0 gælder der, at y j er p-fraktil<br />
for alle værdier af p i intervallet k j−1/n,kj/n . I anvendelser er vi kun interesseret i at udpege
1.13<br />
Figur 1.9 Den empiriske fordelingsfunktion Fn for data i Eksempel 1.4. I den øverste figur er<br />
de valgte p-værdier antydet med × og i den nederste figur er fraktilerne x∗ p antydet med ◦.
1.14 1.3 Empiriske størrelser<br />
nummer observation antal kumulerede antal sandsynlighed i %<br />
j y a k p i %<br />
1 y1 a1 k1 = a1 p1 = 100 · k1/(2n)<br />
2 y2 a2 k2 = a1 + a2 p2 = 100 ·(k1+ k2)/(2n)<br />
3 y3 a3 k3 = a1 + a2 + a3 p3 = 100 ·(k2+ k3)/(2n)<br />
... ... ... ...<br />
j y j a j k j = a1 + · · ·+a j p j = 100 ·(k j−1 + k j)/(2n)<br />
... ... ... ...<br />
m ym am km = a1 + · · ·+am pm = 100 ·(km−1 + km)/(2n)<br />
Tabel 1.5 Beregningsskema for fraktiler for et ugrupperet datasæt.<br />
én værdi p j af p for hvilken y j er p-fraktil og vi vælger derfor p j som midtpunkt af intervallet<br />
k j−1/n,kj/n , det vil sige<br />
p j = (k j−1 + k j)/(2n).<br />
Beregningerne kan foretages ved hjælp af skemaet i Tabel 1.5.<br />
Hvis p = k j/n, j = 1,...,m − 1 er p-fraktilen et interval, nemlig<br />
xp = <br />
y j,yj+1 ,<br />
og vil vi blot udpege en enkelt værdi x∗ p af x svarende til p forekommer det naturligt at vælge<br />
midtpunktet af dette interval, det vil sige<br />
x ∗ p = (y j + y j+1)/2.<br />
Hvis k j/n < p < k j+1/n, j = 0,...,m − 1, er p-fraktilen xp blot punktet y j+1 og vi sætter<br />
x ∗ p = xp = y j+1.<br />
Beregningen af størrelserne x ∗ p kan foretages ved hjælp beregningsskemaet i Tabel 1.5. Givet en<br />
værdi af p beregnes np. Hvis np = k j er<br />
og hvis k j < np < k j+1 er<br />
Eksempel 1.4 (Fortsat)<br />
x ∗ p = (y j + y j+1)/2.<br />
x ∗ p = y j+1.<br />
For de 10 hypotetiske kondital i dette eksempel er den empiriske fordelingsfunktion vist i Figur
1.9 og beregningsskemaet i Tabel 1.5 er<br />
nummer observation antal kumulerede antal sandsynlighed i %<br />
j y a k p i %<br />
1 62.9 1 1 5<br />
2 64.1 1 2 15<br />
3 65.0 3 5 35<br />
4 67.9 1 6 55<br />
5 68.4 1 7 65<br />
6 69.8 2 9 80<br />
7 70.9 1 10 95<br />
Vi viser nu beregningen af x ∗ p for udvalgte p-værdier:<br />
p = 0.10 np = 1 np = k1 x ∗ 0.1 = (y1 + y2)/2 = (62.9+64.1)/2 = 63.5<br />
p = 0.25 np = 2.5 k2 < np < k3 x ∗ 0.25 = y3 = 65.0<br />
p = 0.50 np = 5 np = k3 x ∗ 0.50 = (y3 + y4)/2 = (65.0+67.9)/2 = 66.45<br />
p = 0.75 np = 7.5 k5 < np < k6 x ∗ 0.75 = y6 = 69.8<br />
p = 0.90 np = 9 np = k6 x ∗ 0.90 = (y6 + y7)/2 = (69.8+70.9)/2 = 70.35<br />
1.15<br />
Definition 1.4 Fempunktsopsummeringen for en observationsrække x1, x2, ..., xn af størrelsen<br />
n er angivelse af de fem fraktiler x∗ p svarende til p-værdierne 0.10, 0.25, 0.50, 0.75, 0.90, det vil<br />
sige talsættet<br />
(x ∗ 0.10 ,x∗ 0.25 ,x∗ 0.50 ,x∗ 0.75 ,x∗ 0.90 ).<br />
Kvartilafstanden er afstanden mellem den øvre og nedre kvartil, det vil sige størrelsen d =<br />
x∗ 0.75 − x∗ 0.25 . <br />
Medianen x∗ 0.50 angiver observationsrækkens centrale punkt og de to kvartiler, x∗ 0.25 og x∗ 0.75<br />
afgrænser den centrale del. Kvartilafstanden er et m˚ al for fordelingens spredning. Hvis vi kalder<br />
gruppen af de 10% mindste observationer fordelingens venstre hale og gruppen af de 10%<br />
største observationer for fordelingens højre hale, angiver x ∗ 0.10 og x∗ 0.90<br />
haler ligger fra den centrale del.<br />
<br />
hvor langt fordelingens<br />
En stikprøve kaldes symmetrisk hvis dens fordeling har samme form til højre og til venstre<br />
for medianen, det vil sige hvis<br />
x ∗ 0.50 − x∗ p ≈ x∗ 1−p − x∗ 0.50 for alle p ∈ ]0,0.5].
1.16 1.3 Empiriske størrelser<br />
I en symmetrisk stikprøve har højre og venstre hale samme form. En stikprøve kaldes højreskæv<br />
hvis den højre hale ligger længere væk fra medianen end den venstre hale. Tilsvarende, er<br />
skikprøven venstreskæv, hvis den venstre hale ligger længst væk.<br />
Ofte illustreres fempunktsopsummeringen grafisk ved hjælp af et kassediagram, som frem-<br />
kommer ved at tegne lodrette linjer gennem medianen og de to kvartiler og forbinde stregerne<br />
gennem kvartilerne med vandrette linjer. Herved fremkommer en kasse, der illustrerer den cen-<br />
trale del af fordelingen. For at vise længden af fordelingens haler tegnes undertiden linjer ud til<br />
x ∗ 0.10 og x∗ 0.90 og endelig markeres observationer mindre end x∗ 0.10 og eller større end x∗ 0.90 med<br />
et ×.<br />
Eksempel 1.4 (Fortsat)<br />
For de 10 hypotetiske kondital er fempunktsopsummeringen<br />
(x ∗ 0.10 ,x∗0.25 ,x∗0.50 ,x∗0.75 ,x∗0.90 ) = (63.5,65.0,66.45,69.8,70.35)<br />
og kvartil afstanden er d = 69.8 − 65.0 = 4.8. Kassediagrammet i Figur 1.10 viser, at fordelin-<br />
gen højreskæv og dermed ikke er symmetrisk. <br />
Figur 1.10 Kassediagrammet for data i Eksempel 1.4.<br />
Den empiriske median og kvartilafstanden er m˚ al for henhol dsvis fordelingens position og<br />
bredde eller spredning. Alternative - og mere benyttede - m˚al for disse størrelser er:<br />
Definition 1.5 Den empiriske middelværdi ¯x·, den empiriske varians s 2 og den empiriske spred-<br />
ning s for en observationsrække x1, x2, ..., xn af størrelsen n er:<br />
¯x· = 1<br />
n<br />
n<br />
∑<br />
i=1<br />
xi, (1.6)
og<br />
Bemærkning<br />
s 2 = 1<br />
n − 1<br />
s = √ s 2 =<br />
<br />
n<br />
∑<br />
i=1<br />
1<br />
n − 1<br />
(xi − ¯x·) 2<br />
n<br />
∑<br />
i=1<br />
1.17<br />
(1.7)<br />
(xi − ¯x·) 2 . (1.8)<br />
Som det ses er den empiriske middelværdi ¯x· blot gennemsnittet af observationerne. Den empi-<br />
riske varians s2 er et m˚ al for variationen af observationerne. Det fremkomm er ved at beregne en<br />
normeret sum af den kvadratiske afstand (xi − ¯x·) 2 mellem observationerne xi og gennemsnittet<br />
¯x·, som et m˚ al for hvor meget observationerne varierer omkrin g gennemsnittet. Hvis for eksem-<br />
pel m˚ alingerne xi er foretaget i enheden cm, er enheden for s2 , den empiriske varians, cm2 . Ved<br />
at betragte den empiriske spredning s fremkommer et m˚ al for variationen der har samme enhed<br />
- i eksemplet cm - som de enkelte observationer.<br />
Den empiriske middelværdi ¯x· og den empiriske varians s 2 beregnes lettest ud fra<br />
S =<br />
n<br />
∑ xi<br />
i=1<br />
og SK =<br />
Summen af observationerne og Summen af Kvadraterne af observationerne, idet<br />
og<br />
n<br />
∑<br />
i=1<br />
(xi − ¯x·) 2 =<br />
=<br />
¯x· = S<br />
n<br />
n<br />
∑<br />
i=1<br />
x 2 i ,<br />
n<br />
∑(x<br />
i=1<br />
2 i + ¯x2 · − 2xi ¯x·)<br />
n<br />
x 2 i + n ¯x 2 n<br />
· − 2 ¯x· ∑ xi<br />
i=1<br />
∑<br />
i=1<br />
= SK + n S2<br />
− 2S<br />
n2 n S<br />
= SK − S2<br />
n .<br />
<br />
(1.9)<br />
Idet størrelsen ∑ n i=1 (xi − ¯x·) 2 ofte betegnes med SAK - Summen af Afvigelsernes Kvadrater -<br />
as f˚ at<br />
s 2 = 1 1 S2<br />
SAK = (SK − ). (1.10)<br />
n − 1 n − 1 n
1.18 1.4 Grupperede data<br />
Bemærk, at i denne formel optræder b˚ ade S, som er summen af observationerne, og s, som er<br />
den empiriske spredning eller kvadratroden af den empiriske varians. Forveksles disse størrelser<br />
bliver resultatet oftest katastrofalt forkert.<br />
Eksempel 1.4 (Fortsat)<br />
For de 10 hypotetiske kondital er<br />
S = 668.8 og SK = 44800.08,<br />
s˚ a ved hjælp af (1.9), (1.10) og (1.8) finder vi - med 5 decimal ers nøjagtighed -<br />
og<br />
1.4 Grupperede data<br />
¯x· = 668.8<br />
10<br />
= 66.88,<br />
s 2 = 1<br />
668.82<br />
(44800.08 − ) = 7.85956<br />
9 10<br />
s = √ 7.85956 = 2.80349.<br />
Med nogen modvilje giver vi dette afsnit med en kort diskussion af empiriske størrelser for<br />
kontinuerte og grupperede data. Modviljen skyldes den kendsgerning, at kontinuerte og grup-<br />
perede data sjældent forekommer i virkeligheden. Som oftest stammer data af denne type fra<br />
en gruppering af et ugrupperet datasæt. Motivationen for denne gruppering er næsten altid af<br />
praktisk art, s˚ asom at spare plads i tidsskrifter, bøger mm ., og yderst sjældent videnskabelig.<br />
Proceduren med at gruppere data kan illustreres ved data i Tabel 1.1 og 1.4. Data i Tabel 1.4<br />
repræsenterer en opsummering af de oprindelige data i Tabel 1.1, som oplagt ikke indeholder<br />
den samme information som de oprindelige data. Statistiske procedurer bør benytte al informa-<br />
tion i data og ikke kun en del heraf. Imidlertid er datasæt i litteraturen, specielt ældre litteratur,<br />
ofte grupperede, hvilket er grunden til, at empiriske størrelser for grupperede data ogs˚ a bliver<br />
omtalt her.<br />
Antag, at antallet af observationer i de m intervaller ]y0,y1],]y1,y2],...,]ym−1,ym] er a1,<br />
a2,..., am. For j = 1, 2,...,m lader vi k j = a1 + a2 + ··· + a j betegne det kumulerede antal<br />
observationer. Bemærk, at km = n, det totale antal observationer. Desuden lader vi t j = (y j +<br />
y j−1)/2 betegne midtpunket af det j’te interval, j = 1,...,m.
1.19<br />
nummer højre endepunkt midtpunkt antal kumulerede antal sandsynlighed i %<br />
j y t a k p i %<br />
1 y1 t1 a1 k1 = a1 p1 = 100 · k1/n<br />
2 y2 t2 a2 k2 = a1 + a2 p2 = 100 · k2/n<br />
3 y3 t3 a3 k3 = a1 + a2 + a3 p3 = 100 · k3/n<br />
... ... ... ... ... ...<br />
j y j t j a j k j = a1 + · · ·+a j p j = 100 · k j/n<br />
... ... ... ... ... ...<br />
m − 1 ym−1 tm−1 am−1 km−1 = a1 + · · ·+am−1 pm−1 = 100 · km−1/n<br />
m ym tm am km = n pm = 100<br />
Tabel 1.6 Skema til beregning af empiriske størrelser for grupperede data.<br />
For et grupperet datasæt kendes den empiriske fordelingsfunktion Fn kun i de højre interva-<br />
lendepunkter y1,y2,...,ym. Vi lader derfor<br />
og for p = k j/n sætter vi<br />
p j = Fn(y j) = k j/n, j = 1,...,m,<br />
x ∗ p = y j.<br />
Beregningen af p-værdierne kan foretages ved hjælp af skemaet i Tabel 1.6.<br />
Beregningerne af andre empiriske størrelser foretages ofte p˚ a grundlag af en ugrupperet<br />
version af de grupperede data, som fremkommer ved at antage at midtpunktet t j af det j’te<br />
interval er en værdi, som er blevet observeret a j gange, j = 1,...,m. Den empiriske fordelings-<br />
funktion for det grupperede datasæt approksimeres ved den empiriske fordelingsfunktion for<br />
den ugrupperede version, se Figur 1.11.<br />
For k j/n < p < k j+1/n sætter vi<br />
x ∗ p = t j+1.<br />
Størrelserne x ∗ p bestemmes let ud fra Tabel 1.6. Givet en værdi af p beregnes np. Hvis np = k j<br />
er<br />
og hvis k j < np < k j+1 er<br />
x ∗ p = y j<br />
x ∗ p = t j+1.<br />
Summen S og kvadratsummen SK for de grupperede data beregnes som de tilsvarende
1.20 1.4 Grupperede data<br />
størrelser for den ugrupperede version, det vil sige, at<br />
S =<br />
m<br />
∑ a jt j og<br />
m<br />
SK = ∑ a jt<br />
j=1<br />
j=1<br />
2 j , (1.11)<br />
hvorefter beregningsformlerne for middelværdi og varians i (1.9) og (1.10) benyttes, det vil<br />
sige, at<br />
og<br />
Eksempel 1.1 (Fortsat)<br />
¯x· = S<br />
n<br />
(1.12)<br />
s 2 = 1 S2<br />
(SK − ). (1.13)<br />
n − 1 n<br />
Antag, at vi kun kendte den grupperede version af data i Tabel 1.4 og ikke de oprindelige data<br />
i Tabel 1.1. Hvilken forskel giver dette med hensyn til den beskrivende statistik? I Figur 1.11<br />
ses øverst den empiriske fordelingsfunktion for de oprindelige data og nederst den empiriske<br />
fordelingsfunktion for de grupperede data og den ugrupperede version af disse.<br />
Tabel 1.6 for de grupperede data i Tabel 1.4 ser s˚ aledes ud:<br />
nummer højre endepunkt midtpunkt antal kumulerede antal sandsynlighed i %<br />
j y t a k p i %<br />
1 116 114 1 1 0.4<br />
2 120 118 0 1 0.4<br />
3 124 122 8 9 3.6<br />
4 128 126 20 29 11.7<br />
5 132 130 24 53 21.5<br />
6 136 134 32 85 34.4<br />
7 140 138 49 134 54.3<br />
8 144 142 41 175 70.9<br />
9 148 146 26 201 81.4<br />
10 152 150 21 222 89.9<br />
11 156 154 14 236 95.5<br />
12 160 158 6 242 98.0<br />
13 164 162 4 246 99.6<br />
14 168 166 1 247 100.0<br />
Fempunktsopsummeringen er<br />
(x ∗ 0.10 ,x∗0.25 ,x∗0.50 ,x∗ 0.75 ,x∗0.90 ) = (126,134,138,146,154).
1.21<br />
Figur 1.11 Øverst ses den empiriske fordelingsfunktion for data i Tabel 1.1 og nederst den<br />
empiriske fordelingsfunktion for data i Tabel 1.4 og for den ugrupperede version (- - -) af disse<br />
data. De valgte p-værdier antydet med ×.
1.22 1.4 Grupperede data<br />
Hvis for eksempel p = 0.75 er np = 247·0.75= 185.25, det vil sige at j = 8 og x ∗ 0.75 = t9 = 146.<br />
Da<br />
bliver<br />
S =<br />
14<br />
∑ a jt j = 34466 og<br />
14<br />
SK = ∑ a jt<br />
j=1<br />
j=1<br />
2 j = 4830716<br />
¯x· = 34466<br />
247 = 139.54 og s2 = 1<br />
344662<br />
(4830716 − ) = 86.9243.<br />
246 247<br />
For de oprindelige data i 1.1 ser en del af skemaet i Tabel 1.5 s˚ aledes ud:<br />
nummer observation antal kumulerede antal sandsynlighed i %<br />
j y a k p i %<br />
... ... ... ... ...<br />
7 127 6 22 7.7<br />
8 128 7 29 10.3<br />
... ... ... ... ...<br />
13 133 8 61 23.1<br />
14 134 11 72 26.9<br />
... ... ... ... ...<br />
19 139 15 119 45.1<br />
20 140 15 134 51.2<br />
... ... ... ... ...<br />
25 145 7 182 72.3<br />
26 146 7 189 75.1<br />
... ... ... ... ...<br />
32 152 3 222 89.3<br />
33 153 3 225 90.5<br />
... ... ... ... ...<br />
Fempunktsopsummeringen for de oprindelige data i Tabel 1.1 ses at være<br />
(x ∗ 0.10 ,x∗0.25 ,x∗ 0.50 ,x∗0.75 ,x∗0.90 ) = (128,134,140,146,153).<br />
I tabellerne nedenfor resumeres vi de beregnede størrelser for de oprindelige data og de<br />
grupperede data:<br />
data S SK ¯x· s 2<br />
oprindelige (Tabel 1.1) 34613 4871559 140.13 85.8317<br />
grupperede (Tabel 1.4) 34466 4830716 139.54 86.9242
data x ∗ 0.10 x ∗ 0.25 x ∗ 0.50 x ∗ 0.75 x ∗ 0.90<br />
oprindelige (Tabel 1.1) 128 134 140 146 153<br />
grupperede (Tabel 1.4) 126 134 138 146 154<br />
1.23<br />
Det ses, at der er nogen forskel mellem resultaterne for de to datasæt. Med hensyn til den<br />
beskrivende statistik er denne forskel dog næppe af større betydning. Med hensyn til de mere<br />
eksakte beregninger i de kommende kapitler kan forskellen dog være vigtig. Det skal understre-<br />
ges igen, at n˚ ar man som her har de oprindelige data til adi r˚ ghed skal disse benyttes. Grunden<br />
til her at betragte de grupperede data er primært at illustrere beregningerne for grupperede da-<br />
tasæt og - sekundært - at sammenligne med resultaterne med de oprindelige data, som vi har til<br />
adighed r˚ i denne situation. Det er - som nævnt indledningsv is - desværre ikke altid tilfældet. <br />
1.5 Kvalitative data<br />
I dette afsnit betragter vi kvalitative eller diskrete data. Situationen er typisk, at der forelig-<br />
ger data, der er fremkommet ved optælling af antallet af observationer i forskellige navngivne<br />
kategorier. Kategorierne kan være numeriske, det vil sige navngivet ved hjælp af en numerisk<br />
variabel. Hvis dette er tilfældet kan situationen sammenlignes med grupperede data for en kvan-<br />
titativ - kontinuert - variabel idet navnene p˚ a kategorier ne da svarer til de forskellige intervaller,<br />
som data er grupperet i. Hvis kategorierne ikke er numeriske, kan observationer ikke naturligt<br />
ordnes efter størrelse.<br />
Fordelingen af en stikprøve af størrelse n af en diskret variabel kan beskrives ved hyppighe-<br />
den - eller den relative hyppighed - af antallet af observationer i de forskellige kategorier. Hvis<br />
der er m kategorier og antallet af observationer i den j’te kategori er a j, j = 1,...,m, er den<br />
relative hyppighed for den j’te kategori h j = a j/n.<br />
Tabeller over de observerede antal a - eller de relative hyppigheder h - i de m kategori-<br />
er suppleres ofte med grafiske repræsentationer af data. I Excel er der forskellige muligheder<br />
for at præsentere data, herunder søjlediagrammer, blokdiagrammer og lagkagediagrammer. I<br />
et søjlediagram illustreres antallet af observationer a j i den j’te kategori som søjler, der har en<br />
højde der typisk er antallet a j eller det relative antal h j af observationer i kategorien. I et blokdi-<br />
agram tegnes en blok med sektioner, der udgør samme andel af blokken som hyppighederne for<br />
de enkelte kategorier. I et lagkagediagram repræsenteres hyppighederne for kategorierne ved<br />
stykker af lagkagen, der udgør samme andel af lagkagen som hyppighederne for kategorierne.<br />
Eksempel 1.3 (Fortsat)
1.24 1.5 Kvalitative data<br />
Tabellen nedenfor viser antallet af m˚ al som de 12 superliga klubber har scoret p˚ a henholdsvis<br />
hjemme- og udebane.<br />
klub hjemme ude<br />
HB 35 17<br />
BIF 39 17<br />
AB 30 22<br />
VFF 30 26<br />
AAB 36 21<br />
SIF 26 23<br />
LCF 33 18<br />
FCK 23 21<br />
OB 20 22<br />
AGF 24 12<br />
VB 21 17<br />
EFB 15 25<br />
Her er der ialt 24 kategorier med navne (HB, hjemme), (HB, ude), ..., (EFB, ude). Søjlediagram-<br />
met for data er vist i Figur 1.12.<br />
Det mest bemærkelsesværdige er at de 5 svagest placerede klubber - p˚ anær AGF - scorer<br />
relativt godt p˚ a udebane i modsætning til de to højest place rede klubber.<br />
For den enkelte klub har det m˚ aske større interesse at se p˚ a holdets præstationer p˚ a hjemme-<br />
og udebane. For AGF’s vedkommende kan resultaterne i kampene resumeres s˚ aled es:<br />
AGF sejr uafgjort nederlag<br />
hjemme 7 4 5<br />
ude 2 5 10<br />
Her er der 6 kategorier med navne (hjemme, sejr), ..., (ude, nederlag). Det tilsvarende søjle-<br />
diagram i Figur 1.13 viser, at klubben er relativ stærk p˚ a hj emmebane men svag p˚ a udebane.<br />
Figur 1.14 viser blokdiagrammet, hvoraf det fremg˚ ar at sm˚ a 80% (præcist 77.78%) af AGF’s<br />
sejre er vundet hjemme. <br />
I eksemplerne ovenfor var kategorierne ikke navngivet med en numeriske variabel og det<br />
har derfor ingen mening at regne empiriske størrelser s˚ aso m fraktiler, middelværdi og varians.<br />
Vi giver nu et eksempel hvor kategorierne er navngivet ved hjælp af en numerisk variabel og<br />
hvor beregning af numeriske størrelser er relevant.
¡¢£¤¥¦¤§¨©¤§£¡<br />
Figur 1.12 Antal m˚ al scoret hjemme og ude af de 12 klubber i Superligaen 1999-2000.<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
Figur 1.13 Resultaterne af AGF’s kampe p˚ a hjemme- og udebane i sæsonen 1999-2000.<br />
<br />
1.25
1.26 1.5 Kvalitative data<br />
¥££¤ £¤<br />
¥£¤ ¦£¤ §£¤ ¨£¤ ©£¤ £¤ £¤ £¤<br />
£¤<br />
¡¢<br />
<br />
<br />
Figur 1.14 Resultaterne af AGF’s kampe p˚ a hjemme- og udebane i sæsonen 1999-2000 i et<br />
<br />
blokdiagram.<br />
Eksempel 1.3 (Fortsat)<br />
Anden og tredje søjle i tabellen nedenfor viser fordelingen af m˚ al i de 198 superligakampe i<br />
sæsonen 1999-2000. Kategorierne 0, 1, ..., 10 er numeriske.<br />
Søjlediagrammet er vist i Figur 1.15.<br />
nummer antal antal kumulerede p<br />
m˚al kampe antal i %<br />
j x a k p<br />
1 0 10 10 5.05<br />
2 1 27 37 11.87<br />
3 2 60 97 33.84<br />
4 3 36 133 58.08<br />
5 4 34 167 75.06<br />
6 5 19 186 89.14<br />
7 6 6 192 95.45<br />
8 7 1 193 97.22<br />
9 8 2 195 97.98<br />
10 9 2 197 98.99<br />
11 10 1 198 99.75<br />
De resterende søjler i tabellen er udfyldt som i beregningsskemaet for et ugrupperet da-<br />
tasæt i Tabel 1.5, idet vi her kender værdierne af alle 198 observationer. Ud fra skemaet kan
¡¢£¤¥¦§¨£© <br />
<br />
<br />
<br />
<br />
Figur 1.15 Fordelingen af antal m˚ al i de 198 kampe i superligaen 1999-2 000.<br />
fempunktsopsummeringen beregnes til<br />
(x ∗ 0.10 ,x∗0.25 ,x∗0.50 ,x∗0.75 ,x∗0.90 ) = (1,2,3,4,5).<br />
Da summen og kvadratsummen af antal scorede m˚ al er<br />
S =<br />
11<br />
∑ a jx j = 573 og<br />
11<br />
SK = ∑ a jx<br />
j=1<br />
j=1<br />
2 j = 2265<br />
er den empiriske middelværdi og empiriske varians for antal scorede m˚ al henholdsvis<br />
og<br />
1.6 Flerdimensionale data<br />
¯x· = 573<br />
= 2.89<br />
198<br />
s 2 = 1 5732<br />
(2265 − ) = 3.0801.<br />
197 198<br />
1.27<br />
Indtil nu har vi udelukkende betragtet endimensionale data, det vil sige data hvor observatio-<br />
nerne bet˚ ar af et enkelt tal. Ofte registreres mere end et ta l for hver observation og vi taler da<br />
om at data er flerdimensionale. I dette afsnit indføres notationen for todimensionale data.
1.28 1.6 Flerdimensionale data<br />
Eksempel 1.5<br />
Data er fra Andersen (1998) og i tabellen nedenfor er vist muskelglycogen (i mmol/kg tørvægt)<br />
for 8 forsøgspersoners venstre og højre ben.<br />
Forsøgsperson<br />
nummer venstre ben højre ben<br />
1 534 575<br />
2 593 496<br />
3 370 413<br />
4 507 642<br />
5 450 422<br />
6 619 668<br />
7 422 382<br />
8 578 652<br />
For hver af de 8 forsøgspersoner har vi to sammenhørende m˚ al inger af muskelglycogen i<br />
henholdsvis venstre og højre ben, s˚ a data er to-dimensiona le. <br />
Lad (x11,x21),...,(x1 j,x2 j),...,(x1n,x2n) betegne en stikprøve af størrelse n af en to-dimensi-<br />
onal variabel. Foruden at af˚ et indtryk af de to stikprøver x11,...,x1 j,...,x1n og x21,...,x2 j,...,<br />
x2n best˚ aende af henholdsvis første og anden komponenterne, e r det ogs˚ a vigtigt at af˚ et ind-<br />
tryk samvariationen af de to komponenter. Denne kan belyses ved at indtegne observationerne<br />
(x1 j,x2 j), j = 1,...,n, i et koordinatsystem.<br />
En numeriske størrelse, der angiver et m˚ al for samvariatio nen af komponenterne i et to-<br />
dimensionalt datasæt, er den empiriske korrelationskoefficient. For at indføre denne behøver<br />
vi noget notation. For i = 1,2 lader vi Si, SKi, SAKi, ¯xi· og s2 i betegne henholdsvis Summen af<br />
observationerne, Summen af Kvadraterne af observationer, Summen af Afvigelserne Kvadrater,<br />
den empiske middelværdi og den empiriske varians for den i’te komponent af observationerne,<br />
det vil sige<br />
SAKi =<br />
Si =<br />
n<br />
∑<br />
j=1<br />
n<br />
∑ xi j, SKi =<br />
j=1<br />
n<br />
∑<br />
j=1<br />
(xi j − ¯xi·) 2 = SKi − S2 i<br />
n , s2i x 2 i j, ¯xi· = Si<br />
, (1.14)<br />
n<br />
= 1<br />
n − 1 SAKi. (1.15)<br />
Desuden lader vi SP og SAP betegne Summen af Produkter og Summen af Afvigelsernes<br />
Produkter, det vil sige<br />
SP =<br />
n<br />
∑ x1 jx2 j, SAP =<br />
j=1<br />
n<br />
∑<br />
j=1<br />
(x1 j − ¯x1·)(x2 j − ¯x2·) = SP − S1S2<br />
. (1.16)<br />
n
Det kan vises, at den empiriske korrelationskoefficient r, der er defineret som<br />
r =<br />
n<br />
∑ (x1 j − ¯x1·)(x2 j − ¯x2·)<br />
j=1<br />
<br />
n<br />
n<br />
∑ (x1 j − ¯x1·) 2 ∑ (x2 j − ¯x2·)<br />
j=1<br />
j=1<br />
2<br />
=<br />
1.29<br />
SAP<br />
√ , (1.17)<br />
SAK1SAK2<br />
antager værdier i intervallet [−1,1]. Fortolkningen af r er, at for store værdier af r optræder sto-<br />
re(sm˚ a) værdier af første komponenten sammen med store(sma) ˚ værdier af anden komponenten<br />
og i det ekstreme tilfælde hvor r = 1 ligger punkterne (x1 j,x2 j), j = 1,...,n, p˚ a en ret linje med<br />
positiv hældning. Hvis omvendt r er lille optræder store(sm˚ a) værdier af første komponente n<br />
sammen med sm˚ a(store) værdier af anden komponenten og i det ekstreme tilfælde hvor r = −1<br />
ligger punkterne (x1 j,x2 j), j = 1,...,n, p˚ a en ret linje med negativ hældning. Hvis r er tæt p˚ a 0<br />
er der ingen sammenhæng mellem første og anden komponenten.<br />
Eksempel 1.5 (Fortsat)<br />
Tegningen af data i Figur 1.16, antyder en positiv korrelation.<br />
og<br />
For data her er<br />
venstre ben højre ben<br />
n 8<br />
S 4073 4250<br />
SK 2128583 2354710<br />
SP 2220934<br />
Ved hjælp af formlerne (1.14) - (1.17) finder vi,<br />
¯x1· = 4073<br />
8 = 509.125, ¯x2· = 4250<br />
= 531.250,<br />
8<br />
SAK1 = 2128583 − 40732<br />
8 = 54916.875, SAK2 = 2354710 − 42502<br />
= 96897.500,<br />
8<br />
s 2 1 = 54916.875<br />
7<br />
= 7845.2679, s 2 2 = 96897.500<br />
7<br />
SAP = 2220934 −<br />
r =<br />
4073 · 4250<br />
8<br />
= 57152.750<br />
57152.750<br />
√ 54916.875 · 96897.500 = 0.7835<br />
= 13842.5000,
1.30 1.6 Flerdimensionale data<br />
¦¡¡<br />
¥¡¡<br />
¤¡¡<br />
¡¡<br />
¢¡¡<br />
£¡¡<br />
¢¡¡ £¡¡ ¤¡¡ ¥¡¡ ¦¡¡ §¨©<br />
Figur 1.16 Muskelglycogen indholdet i venstre og højre ben tegnet op mod hinanden.<br />
¡¡
Anneks til Kapitel 1<br />
Beregninger i Excel<br />
1.31<br />
I dette afsnit vises, hvordan en del af beregningerne og figurerne i kapitlet kan laves ved hjælp<br />
af Excel.<br />
Ordrer til programmet skrives i en speciel fond, som ser s˚aledes ud. I selve regnearket<br />
benyttes skrifttypen ”Ariel” med en skriftstørrelse p˚ a 10 , som er default værdier i Excel. Det<br />
er ikke muligt at kopier udklip fra Excel direkte ind i Scientific WorkPlace, som noterne her er<br />
skrevet i. Det sker via forskellige omveje, hvilket undertiden bevirker, at udklip fra Excel her<br />
bliver gengivet i en størrelse, der ikke helt stemmer overens med størrelsen i selve regnearket.<br />
Man skal desuden være opmærksom p˚ a, at i danske versioner af Excel benyttes kommaer<br />
som skilletegn mellem heltalsdelen og decimalerne i reelle tal.<br />
Eksempel 1.4 (Fortsat)<br />
Indtast kondital i cellen A1 i regnearket og indtast derefter de 10 hypotetiske kondital (med<br />
kommaer i stedet for punktummer) i den anden søjle i tabellen side 1.12 i cellerne A2:A11.<br />
Resultatet s˚ aledes ud: ¡¢£¤¥¦§¨<br />
¥¤ ¥§£ ¥¦¨ <br />
¥¤<br />
¥¨§ ¥¡¨ ¥¨§ ¥¤ ¥£<br />
Man ar f˚ alts˚ a ikke altid samme antal decimaler som det der i ndtastes, idet for eksempel 65,0<br />
¦©¨ ©<br />
bliver til 65. Ønskes samme antal decimaler i cellerne A2:A11 markeres disse (anbring musen<br />
i A2, tryk venstre museknap ned og træk samtidig musen ned over cellerne). Et tryk p˚ a ikonen
1.32 Beregninger i Excel<br />
←,0<br />
,00 og cellerne bliver til: ¡¢£¤¥¦§¨<br />
¥¤© ¥§£ <br />
¥¦¨<br />
¥¤© ¦©¨ ¥¨§ ¥¨§<br />
Ønsker vi at sortere observationerne i stigende rækkefølge som i den tredje søjle i tabellen ¥£ ¥¡¨ ¥¤© ©<br />
side 1.12 anbringes musen i cellenA2 og der trykkes p˚ a ikonen A ˚A ↓ med følgende resultat: <br />
<br />
<br />
Følgende rute, der starter i den øverste bjælke over regnearket: Funktioner → Dataana- <br />
lyse → Beskrivende statistik giver efter et klik p˚ a OK en dialogboks med overskriften<br />
Beskrivende statistik. Angiv i ruden efterInputomr˚ade cellerneA2:A11 (dette gøres let-<br />
test ved at klikke i ruden, markere cellerneA2:A11 med venstre museknap for dernæst at slippe<br />
venstre museknap). Angiv p˚ a samme m˚ ade efter Outputomr˚ade et omr˚ ade best˚ aende af mindst<br />
15 rækker og 2 kolonner i regnearket (som default vælger ExcelNy regnearksfane). Et klik i<br />
feltet før Resumestatistik efterfulgt af et klik p˚ a OK producerer følgende output (hvor bred-<br />
den af kolonnerne kan justeres ved hjælp af Formater → Kolonner →Autotilpas)
som indeholder nogle af de empiriske størrelser vi tidligere i eksemplet har beregnet, idet<br />
Middelværdi = ¯x· <br />
s2 Standardfejl =<br />
n<br />
Median = x ∗ 0.50<br />
Standardafvigelse = s<br />
Stikprøvevarians = s 2<br />
Minimum = x (1)<br />
Maximum = x (n)<br />
Sum = S<br />
Antal = n<br />
Beregninger i Tabel 1.5 kan for datasættet her foretages p˚ a følgende m˚ ade:<br />
1.33<br />
• Kopier indholdet af cellerne A2:A11 til cellerne C2:C11 (marker A2:A11 og følg ruten<br />
Rediger →Kopier, anbring curseren i cellenC2 og følg rutenRediger →Sæt ind)<br />
• Slet celler i C2:C11 s˚ a de observerede værdier kun optræder én gang (her marker es to<br />
celler med værdien 65 og en celle med værdien 69,8 hvorefter de slettes ved Rediger<br />
→Slet)<br />
Indholdet af cellerneA1:A11 ogC2:C11 er herefter<br />
¡¢£¤¥¦§¨©<br />
¥¤© ¥¤© ¥§£ ¥§£ <br />
¥¦¨ ¥¤© ¥¨§ ¥¨§ ¦©¨ ¦©¨ ¥¡¨ ¥¦¨<br />
¥£ ¥¨§ ¥¡¨<br />
• Herefter følges ruten Funktioner → Dataanalyse → Histogram. I dialogboksen, der<br />
¥£<br />
fremkommer, angives cellerne A2:A11 i ruden efter Inputomr˚ade, cellerne C2:C8 i ru-<br />
¥¤©<br />
den efter Intervalomr˚ade og cellerne E2:G11 i ruden efter Outputomr˚ade. Herefter<br />
klikkes der i feltet foranKumulativ frekvens og dernæst p˚ a OK.
1.34 Beregninger i Excel<br />
CellerneE2:G10 har derefter følgende indhold: <br />
¡¢£¤¥¦§¨<br />
©©© ¡©©© ¢ ¥¦¨ ¥¡¨ ¥£<br />
¨©©© ¤©©©<br />
• I cellen H2<br />
¥©©©<br />
indtastes p i<br />
¥¤©<br />
%. De ønskede p-værdier beregnes ved i cellen H3 at indtaste<br />
©©©© © ¡ ¦©©© ©©©© ¦©¨ ¥¨§ ¥§£ ©<br />
<br />
formlen=100*G3/2 og i cellenH4 at indtaste formlen=100*(G3+G4)/2. Herefter opret-<br />
tes analoge formler i cellerne H5:H9 ved at anbringe musen i det nedre højre hjørne af<br />
cellen H4, s˚ aledes at curseren kommer til at ligne tegnet +, holde kon troltasten nede og<br />
markere cellerneH5:H9.<br />
Cellerne E2:H10 har derefter følgende indhold, som svarer til indholdet af tabellen side<br />
1.15. <br />
<br />
modsætning til i Tabel 1.5. Det skyldes at her er de kumulerede antal angivet i %, mens de i<br />
<br />
Bemærk, at vi ikke i formlerne ovenfor - vedrørende beregning af p - dividerer med n i <br />
Tabel 1.5 ikke er divideret med n. <br />
Der findes adskillige andre m˚ ader at beregne fraktiler p˚ a e nd den beskrevet p˚ a side 1.14.<br />
Trods en hel del overvejelser har vi endnu ikke fundet frem til, hvordan Excel funktionen<br />
Fraktil beregner fraktilerne for et ugrupperet datasæt x1,...,xn. Lad ˜xp betegne den frak-<br />
til som Fraktil beregner svarende til værdien p. For nogle datasæt stemmer fraktilerne ˜xp<br />
overens med fraktilerne x∗ p fra side 1.14, for andre er der ikke overensstemmelse. Igen skal vi<br />
huske p˚ a, at vi her blot er interesseret i at af˚ et første ind tryk af den observerede fordeling og i<br />
denne forbindelse er forskellen mellem ˜xp og x ∗ p<br />
ikke s˚ a afgørende. I anvendelser - for eksempel
i forbindelse med regning af opgaver - kan man derfor frit vælge mellem dem, n˚ ar blot man<br />
angiver hvilken slags fraktiler der benyttes.<br />
Eksempel 1.4 (Fortsat)<br />
1.35<br />
Følgende klip fra Excel<br />
¡¢£¤¥¦§¨<br />
¥¤© © © ¥¢¨§ ¥§£ ©¡¤ ¥¤©© ¥¦¨ ©¤© ¥¥£¤ ¥¤© ©¦¤ ¥¨§© ¥¨§ ©¨© ¦©¢¤ ¦©¨ ¥¡¨ ¥¨§ ¥¤© ¥£<br />
• at indtaste indholdet af cellerne C1:C6 og D1, placere musen i cellen D2, følge ruten<br />
©<br />
er fremkommet ved<br />
Indsæt → Funktion → Statistik → Fraktil og angive cellerne A2:A11 i ruden<br />
efter Vektor og cellen C2 i ruden efter k for derefter at klikke i OK, hvorved resultatet<br />
63,98 dukker op i cellenD2.<br />
• Herefter oprettes analoge formler i cellerneD3:D6 ved at anbringe musen i det nedre højre<br />
hjørne af cellen H2, s˚ aledes at curseren kommer til at ligne tegnet +, holde kon troltasten<br />
nede og markere cellerneD3:D6.<br />
Ifølge Excel bliver fempunktopsummeringen for de ti hypotesiske kondital:<br />
( ˜x0.10, ˜x0.25, ˜x0.50, ˜x0.75, ˜x0.90) = (63.98,65.00,66.45,69.80,70.35)<br />
og den stemmer ikke helt overens med den vi beregnede p˚ a side 1.16. <br />
I Excel giver ruten Indsæt → Diagram adgang til en række grafiske procedurer, som er<br />
rimelig lette at anvende. For at af˚ et første indtryk af diss e laver vi nu kassediagrammet i Figur<br />
1.10 ved hjælp af Excel.<br />
Eksempel 1.4 (Fortsat)<br />
Et kassediagram for disse data - baseret p˚ a fraktilerne x∗ p p˚ a side 1.16 - lavet i Excel kan se
1.36 Beregninger i Excel<br />
s˚ aledes ud:<br />
Denne tegning kan laves s˚ aledes:<br />
¥¨ ¥© ¥¡ § ¦ ¥ ¤ £ ¢ ¡<br />
• Indtast følgende i regnearket:<br />
<br />
<br />
<br />
•<br />
<br />
Følg<br />
<br />
ruten<br />
<br />
Indsæt → Diagram og vælg i dialogboksen Guiden Diagram, der hver- <br />
ved fremkommer,XY-punkt underDiagramtype. Vælg underUndertype typen nederst<br />
til højre (under typerne skriver Excel: Punktdiagram med datapunkter forbundet<br />
med kurver uden datamærker.) Klik derp˚ a p˚ a Udfør.<br />
Herved fremkommer følgende tegning p˚ a regnearket<br />
<br />
<br />
<br />
som ikke umiddelbart ligner resultatet ovenfor. Dette fremkommer ved passende redigering,<br />
som foretages ved hjælp af højre museknap:
• Fjerne forklarende tekst (til højre p˚ a tegningen): Klik pa˚ rammen omkring teksten. Hold<br />
højre musetast nede og slip den i omr˚ adet Ryd.<br />
• Fjerne gitterlinjer (de vandrette linjer i figuren): Klik p˚ a en af gitterlinjerne. Hold højre<br />
musetast nede og slip den i omr˚ adet Ryd.<br />
• Fjerne andenaksen: Klik p˚ a andenaksen. Hold højre museta st nede og slip den i omr˚ adet<br />
Ryd.<br />
1.37<br />
• Ændre baggrundsfarven og fjern rammen: Placer musen i omr˚adet. Hold højre musetast<br />
nede og vælg Formater afbildningsomr˚ade. I dialogboksen der fremkommer vælges<br />
Ingen b˚ ade under Ramme ogOmr˚ade.<br />
• Tilpasse farver. Placer musen p˚ a en af de farvede kurver. H old højre musetast nede og<br />
vælgFormater dataserie. I boksen der fremkommer vælges underKurve, farve far-<br />
ven sort. (Tilsvarende ændres farve p˚ a de to andre kurver).<br />
• Formatere førsteaksen. Placer musen p˚ a førsteaksen. Hol d højre musetast nede og vælg<br />
Formater akse. I dialogboksen der fremkommer vælges Skala og her sættes Minimum<br />
til 62,Maksimum til 72 ogOverordnet enhed til 1.<br />
Vi afslutter dette anneks ved kort at beskrive, hvorledes figurerne i Eksempel 1.3 kan laves.<br />
Eksempel 1.3 (Fortsat)<br />
Figur 1.12<br />
Figuren er lavet ud fra ¦ ¢¨ ¡¢£¤¥¦§¨<br />
¢¤<br />
¡ ¦<br />
¡¢ ¢© ¡¡ ¢© ¡¥ ¢¥<br />
¡¡ ¡¥<br />
¡ ¢¢ §<br />
• Marker disse celler og vælg<br />
<br />
rutenIndsæt<br />
¡¢<br />
→Diagram. I dialogboksen, der fremkommer<br />
¡<br />
¡¤ ¦ ¡£ ¡© ¤ ¡ ¢ ¡ ©<br />
vælges Søjle under Diagramtype og under Undertype vælges typen øverst til venstre
1.38 Beregninger i Excel<br />
(undertyperne skriver Excel: Grupperet søjle. Sammenligner værdier p˚a tværs<br />
af kategorier) Et klik p˚ a OK giver resultatet:<br />
¢ £ ¤ ¥<br />
¦§ ¨§ ¡ © § § ¨¨§<br />
<br />
Som det ses er tegningen ikke bred nok, idet ikke alle klubbers navne st˚ ar p˚ a førsteaksen. Dette<br />
ordnes s˚ aledes:<br />
• Placer musen i det nedeste højre hjørne af rammen s˚ aledes a t curseren bliver til en pil<br />
sammensat af symbolerne ց og տ. Træk derefter musen til højre og nedad indtil tegnin-<br />
gen bliver stor nok.<br />
Herefter redigeres tegningen i følgende trin:<br />
• Ændre placering af forklaring: Klik p˚ a rammen omkring tek sten. Hold højre museknap<br />
ned og vælgFormater forklaring. I dialogboksen vælgesPlacering →Nederst og<br />
derefterOK. Rammen omkring forklaringen fjernes ved i dialogboksen at vælgeMønstre<br />
→Ramme →Ingen.<br />
• Rotere teksten p˚ a førsteaksen: Klik p˚ a teksten. Hold høj re museknap ned og vælgFormater<br />
akse. I dialogboksen vælgesJustering →Retning og i ruden forangrader skrives90.<br />
• Ændre baggrundsfarve og fjerne ramme: Klik p˚ a baggrunden . Hold højre museknap ned<br />
og vælgFormater afbildningsomr˚ade. VælgIngen i b˚ ade Ramme ogOmr˚ade.<br />
• Tilføje titel: Klik p˚ a rammen s˚ a teksten Diagramomr˚ade fremkommer. Hold højre musek-<br />
nap nede og vælgDiagramindstillinger. I dialogboksen skrives derefter den ønskede<br />
titel i ruden under Titler → Diagramtitel. Herved fremkommer titlen p˚ a tegningen<br />
og denne kan eventuelt redigeres ved at placere musen p˚ a tit len, holde højre museknap<br />
nede og s˚ a videre.
Figur 1.13 og Figur 1.14<br />
Figurene laves ud fra ¡¢<br />
¤ ¦ ©<br />
Figur 1.13 er bortset fra lidt redigering fremkommet ved: ¡ ¨ ©¨¨ ¨¨ §¨© ¥ £<br />
1.39<br />
• Marker cellerne og vælg ruten Indsæt → Diagram. I dialogboksen, der fremkommer<br />
vælges Søjle under Diagramtype og under Undertype vælges typen øverst til venstre<br />
(undertyperne skriver Excel: Grupperet søjle. Sammenligner værdier p˚a tværs<br />
af kategorier)<br />
Figur 1.14 er bortset fra lidt redigering fremkommet ved:<br />
• Marker cellerne og vælg ruten Indsæt → Diagram. I dialogboksen, der fremkommer<br />
Figur 1.15<br />
vælgesSøjle underDiagramtype og underUndertype vælges typen øverst til højre (un-<br />
dertyperne skriver Excel: 100% stablet søjlediagram. Sammenligner den pro-<br />
centdel, de enkelte værdier bidrager til totalen med, p˚a tværs af ka-<br />
tegorier.)<br />
Figuren laves ud fra cellerne<br />
<br />
<br />
<br />
<br />
Bemærk, at der er forskel p˚ a cellerne i kolonnerne A ogD. IAst˚ ar tallene til højre hvilket betyder,<br />
at Excel opfatter dem som numeriske variable, mens de iDst˚ ar til venstre og derfor opfattes som<br />
tekst variable. I Excel’s søjlediagrammer afbildes der kategorier p˚ a førsteakse n, s˚ a tegningen
1.40 Beregninger i Excel<br />
skal derfor laves ud fra kolonnerneDogE. Konvertering af numeriske variable til tekst variable<br />
kan foretages ved hjælp af funktionen FAST. I D2 er skrevet formlen =FAST(A2;0), hvilket<br />
transformerer den numeriske værdi 0 i cellenA2 til teksten ”0” iD2. Analoge formler er derefter<br />
oprettet i de øvrige celler iD.<br />
Vedrørende redigeringen af tegningen kan nævnes:<br />
• at titlen og navnene p˚ a akserne laves i dialogboksen der fr emkommer ved rutenDiagram-<br />
omr˚ade →Diagramindstillinger →Titler.<br />
• at tallene, der angiver antallet af observationer i de enkelte kategorier, fremkommer ved<br />
Formater dataserie →Dataetiketter →Vis værdi.
Opgaver til Kapitel 1<br />
1.41<br />
Opgave 1.1 (Andersen 1998) Jættemilen afslutter orienteringssæsonen den anden søndag i<br />
november. Der løbes her p˚ a baner p˚ a ca. 25 km for eliten, ca. 18 km for deltagere mellem<br />
35 og 55ar ˚ og p˚ a ca. 12 km for deltagere over 55. Løbstiderne i minutter for 18 deltagere i<br />
klassen H65, det vil sige herrer der er fyldt 65ar, ˚ i 1994 er v ist nedenfor<br />
92.17 96.65 97.75 97.78 101.43 102.03 107.40 110.12 113.45<br />
118.12 120.42 131.23 136.45 142.87 142.95 148.00 149.45 164.75<br />
a) Udfyld skemaet i Tabel 1.5.<br />
b) Tegn kassediagrammet.<br />
c) Beregn empirisk middelværdi og varians.<br />
Opgave 1.2 (Andersen 1998) I 1993 var løbstiderne for de 23, der gennemførte Jættemilen i<br />
klassen H65, opgjort i minutter:<br />
85.08 85.67 87.02 97.65 100.98 109.96 110.18 111.00 111.27 113.53<br />
123.77 128.58 129.10 133.03 133.63 141.45 162.33 166.53 189.00 190.00<br />
114.85 116.88 118.72<br />
Beskriv fordelingen ved passende grafiske metoder.<br />
Opgave 1.3 (Andersen 1998) Tabellen viser kondital for en række idrætsudøvere.<br />
72.8 73.4 68.6 71.5 69.3 75.4 66.8 71.3 73.0 75.1 69.1 75.4 76.6<br />
71.8 73.9 75.1 75.0 67.7 73.7 74.3 174.4 71.4 72.1 75.5<br />
a) Opstil den ordnede stikprøve og bestem de empiriske fraktiler svarende til observationer-<br />
ne.<br />
b) Beskriv fordelingen ved passende grafiske metoder.<br />
c) Vurder fordelingens eventuelle skævhed og undersøg om der er ekstreme observationer.<br />
Opgave 1.4 (Andersen 1998) Kondital for 17 ikke-aktive idrætsudøvere (ordnet efter størrelse).<br />
56.0 61.8 64.1 64.9 65.2 66.3 66.9 68.9 70.6<br />
70.8 72.4 73.1 73.9 74.1 74.1 75.3 78.7
1.42 Opgaver<br />
a) Udfyld skemaet i Tabel 1.5.<br />
b) Tegn kassediagrammet.<br />
c) Beregn empirisk middelværdi og varians.<br />
Opgave 1.5 (Andersen 1998) Følgende vægte i kg blev m˚ alt for 30 unge idr ætsudøvere.<br />
75.39 77.68 83.58 69.46 87.47 76.79 75.42 83.57 80.18 72.90 74.58 73.99<br />
64.52 71.19 81.71 85.32 61.12 73.54 84.30 74.81 77.46 74.22 74.06 76.80<br />
73.87 69.48 88.35 79.91 73.95 59.74<br />
a) Opstil den ordnede stikprøve.<br />
b) Beregn de fem fraktiler i fempunktsopsummeringen, samt 45% og 70% fraktilerne.<br />
c) Vurder om fordelingen er skæv og om der er ekstreme observationer.<br />
Opgave 1.6 (Andersen 1998) M˚ altider i orienteringsløb. Tallene stam mer fra enkeltstartsløbet<br />
”Classic” under Spring Cup, som arrangeres af FIF Hillerød. Tallene i tabllen nedenfor viser<br />
antallet x af løbere, der passerer m˚ al for hvert halve minut i de 100 hal vminutsintervaller fra<br />
10.45-11.35 og tilsvarende for de 100 halvminutsintervaller fra 10.35-11.25. For eksempel er<br />
der 10 intervaller i tidsrummet 10.45-11.35 hvor der er 3 løbere, der har passeret m˚ al<br />
10.45-11.35 11.35-12.25<br />
antal antal<br />
x intervaller x intervaller<br />
0 47 0 10<br />
1 18 1 12<br />
2 6 2 16<br />
3 10 3 10<br />
4 4 4 3<br />
5 2 5 0<br />
6 2 6 2<br />
7 3 7 5<br />
8 2 8 4<br />
9 2 9 3<br />
10 1 10 4<br />
11 0 11 6<br />
≥12 3 ≥12 25<br />
Sum 100 Sum 100
Sammenlign de to observerede fordelinger ved hjælp af:<br />
a) søjlediagrammer<br />
b) fempunktsopsummeringer<br />
1.43<br />
Opgave 1.7 Tabellen nedenfor viser antallet af m˚ al scoret i samtlige k ampe i henholdsvis Jyl-<br />
landsseriens sydkreds i 1995 og Jyllandsseriens nordkreds i 1996. Der er alts˚ a scoret j m˚ al i a j<br />
kampe.<br />
Sydkreds 1995 Nordkreds 1996<br />
antal( j) observeret (a j) observeret (a j)<br />
0 7 7<br />
1 17 16<br />
2 28 36<br />
3 29 35<br />
4 30 34<br />
5 27 19<br />
6 19 15<br />
7 12 14<br />
8 5 4<br />
9 4 1<br />
10 2 0<br />
11 2 1<br />
ialt 182 182<br />
Sammenlign de to fordelinger ved hjælp af passende numeriske og grafiske metoder.<br />
Opgave 1.8 (Andersen 1998) Tabellen nedenfor viser tidsdifferenser mellem to p˚ a hinanden<br />
følgende løbere p˚ a resultatlisten i eliteklassenklassen H21E1 ved Spring Cup 1996 fordelt p˚ a<br />
en antal intervaller. Det er for eksempel sket 91 gange at to løbere er kommet ind med en
1.44 Opgaver<br />
tidsforskel p˚ a mindre end 5 sek<br />
tidsinterval observeret<br />
(sek) antal løbere<br />
0-5 91<br />
5-10 41<br />
10-15 11<br />
15-20 6<br />
20-25 2<br />
25-30 4<br />
30-40 4<br />
40-50 3<br />
50- 6<br />
Sum 168<br />
a) Lav et histogram for den observerede fordeling. Bemærk, at tidsintervallerne ikke er lige<br />
lange. (Sæt den øvre grænse for intervallet 50- til 70.)<br />
b) Beregn empirisk middelværdi og varians.<br />
Opgave 1.9 (Andersen 1998) Tabellen viser vægtfordelingen for 555 drenge og 723 piger i<br />
1983, og for 327 drenge og 413 piger i 1985, der deltog i forskningsprojektet: Ungdom og<br />
Idræt.<br />
1983 1985<br />
Vægt (kg) Drenge Piger Drenge Piger<br />
-40 2 4 0 3<br />
41-45 1 31 0 16<br />
46-50 7 106 3 44<br />
51-55 27 189 26 97<br />
56-60 82 200 47 122<br />
61-65 153 117 77 76<br />
66-70 123 52 77 32<br />
71-75 88 11 47 17<br />
76-80 46 7 30 3<br />
81-85 14 3 12 2<br />
86-90 8 1 7 0<br />
91- 4 2 1 1
1.45<br />
a) Lav histogrammer og kassediagrammer for alle fire fordelinger (Sæt minimumsvægten til<br />
30 kg og maksimumsvægten til 110 kg).<br />
b) Benyt disse til at beskrive forskellene mellem drenge og piger, og mellem tilstanden i<br />
1983 og tilstanden i 1985.<br />
Opgave 1.10 (Andersen 1998) Højdefordelingen, svarende til vægtfordelingen i Opgave 1.9 er<br />
vist nedenfor<br />
1983 1985<br />
Højde (cm) Drenge Piger Drenge Piger<br />
-150 0 1 0 2<br />
151-155 2 11 0 4<br />
156-160 1 64 1 37<br />
161-165 4 179 7 82<br />
166-170 44 240 24 146<br />
171-175 99 153 56 95<br />
176-180 166 58 81 39<br />
181-185 146 15 93 8<br />
186-190 71 1 48 0<br />
191- 22 1 17 0<br />
a) Benyt kassediagrammer til at vurdere om fordelingerne er skæve (Sæt den minimale højde<br />
til 141 cm og den maksimale til 210 cm.)<br />
b) Benyt desuden kassediagrammerne til at sammenligne højdeforskellene b˚ ade mellem køn<br />
og mellemar. ˚<br />
Opgave 1.11 (Andersen 1998) For 3869 unge fra forskningsprojektet Idræt og Ungdom op-<br />
gjorde man idrætsaktiviteterne pr. uge for rygere og ikke-rygere. De observerede tal var:<br />
Idrætsaktiv Antal<br />
Timer pr. uge Rygere Ikke rygere<br />
0-0.5 181 603<br />
0.5-2 158 591<br />
2-4 162 713<br />
4-7 150 697<br />
7- 83 531<br />
Ialt 734 3135
1.46 Opgaver<br />
Sammenlign fordelingerne af rygere og ikke-rygeres idrætsmæssige aktivitetsniveau ved<br />
hjælp af passende grafiske metoder.<br />
Opgave 1.12 I en undersøgelse fra 1991 undersøgte man en række forhold omkring de 290<br />
personer i live i 1991 (populationen), der havde spillet, eller spillede, professionel fodbold i<br />
udlandet. Det lykkedes at finde frem til adresser p˚ a 214 (adr esselisten) af disse personer. Tabel-<br />
lerne viser dels fordelingen p˚ a oprindeligt hjemsted, det vil sige hvor spilleren havde spillet i<br />
børne- og ungdoms˚ arene, og p˚ a udrejse˚ ar.<br />
Udrejse˚ar Populationen Adresselisten<br />
1946-67 58 42<br />
1968-72 65 48<br />
1973-76 53 38<br />
1977-82 60 41<br />
1983-90 54 45<br />
Ialt 290 214<br />
Hjemsted Populationen Adresselisten<br />
København 133 98<br />
Sjælland (-Kbh.) 44 32<br />
Fyn 29 22<br />
Jylland 84 62<br />
Ialt 290 214<br />
a) Beskriv hver af de fire fordelinger ved hjælp af passende grafiske metoder.<br />
b) Hvad fortæller graferne om det kritiske spørgsm˚ al: Er ad resselisten repræsentativ for po-<br />
pulationen?<br />
Opgave 1.13 (Andersen 1998) Fra den samme undersøgelse som i Opgave 1.12 stammer ne-<br />
denst˚ aende tabel, der viser hvor mange af dem, der besvared e spørgsm˚ alet (en del spillede stadig<br />
i udlandet, og følte m˚ aske, at spørgsm˚ alet ikke var releva nt), der angav om de havde haft fast
1.47<br />
plads p˚ a 1-holdet hele tiden i udlandet, en del af tiden, hal vdelen af tiden, i perioder eller aldrig.<br />
Udrejse før Udrejse efter<br />
Fast plads p˚a 1-holdet 1976 1976<br />
Hele tiden 55 14<br />
Det meste af tiden 9 9<br />
Halvdelen af tiden 2 6<br />
I perioder 4 2<br />
Aldrig 0 3<br />
Ialt 70 34<br />
a) Beskriv fordelingen p˚ a de fem svarkategorier b˚ ade for d em, der rejste ud før 1976, og for<br />
dem , der rejste ud efter 1976, ved hjælp af passende grafiske metoder.<br />
b) Er der forskel p˚ a svarfordelingerne for dem, der rejste u d før 1976, og for dem, der rejste<br />
ud efter 1976?<br />
c) Beskriv eventuelle forskelle ved velvalgte grafer.<br />
Opgave 1.14 (Andersen 1998) Glycogen indholdet (i mmol/kg tørvægt) i benmusklerne før og<br />
efter en træningsperiode p˚ a 3 uger hos 8 forsøgspersoner er vist nedenfor.<br />
forsøgsperson før efter<br />
nr. træning træning<br />
1 534 813<br />
2 593 767<br />
3 370 551<br />
4 507 716<br />
5 450 814<br />
6 619 1168<br />
7 422 749<br />
8 578 714<br />
a) Indtegn observationerne i et koordinatsystem (det vil sige tegn (før,efter) ).<br />
b) Beregn empiriske middelværdi og varians for de to observationsrækker.<br />
c) Beregn den empiriske korrelation mellem de to observationsrækker.
1.48 Opgaver
2 Begreber fra sandsynlighedsteorien 2.1<br />
2 Begreber fra sandsynlighedsteorien<br />
Som det vil fremg˚ a af de følgende kapitler er sandsynlighed steorien det vigtigste hjælpemid-<br />
del ved formuleringen og analysen af statistiske modeller til beskrivelse af udfald - data - fra<br />
eksperimenter, der er underkastet tilfældige variationer. Sandsynlighedsteorien er netop den<br />
matematiske disciplin, der beskæftiger sig med at modellere tilfældig variation.<br />
Dette kapitel er at betragte som en kortfattet summarisk oversigt over de begreber og resul-<br />
tater fra sandsynlighedsteorien, som benyttes i det følgende. Kapitlet indeholder ingen mate-<br />
matiske beviser, idet hensigten blot er at definere og illustrere brugen af de relevante begreber<br />
og alts˚ a ikke at udvikle en præcis matematisk teori. Eksemp lerne i kapitlet er valgt ud fra det<br />
princip, at de skal belyse begreberne uden at matematikken bliver alt for vanskelig. Kapitlet skal<br />
ogs˚ a ses som en forberedelse til Kapitel 3, der resumerer eg nskaber ved en række fordelinger,<br />
der benyttes i de senere kapitler.<br />
Nogle af˚ og m˚ aske ikke s˚ a velkendte matematiske begreber , der benyttes i kapitlet, er omtalt<br />
i Appendiks A.<br />
2.1 Sandsynlighedsrum<br />
Definitionen af sandsynlighedsrum involverer matematiske begreber, som er omtalt i Appendiks<br />
A. I Afsnit A.1 repeteres notationen fra mængdelæren og i Afsnit A.2 defineres begrebet en<br />
uendelig række, som indg˚ ar i Definition 2.1 nedenfor.<br />
2.1.1 Definition af sandsynlighedsm˚al<br />
Et sandsynlighedsm˚al P p˚ a et udfaldsrum E er en funktion, der til en delmængde A af mængden<br />
E tilordner et tal P(A), som ligger i intervallet [0,1]. Funktionen skal opfylde to betingelser som<br />
angivet i<br />
Definition 2.1 Et sandsynlighedsm˚ al P p˚ a udfaldsrummet E er en funktion<br />
P : E ⊇ A → P(A) ∈ [0,1],
2.2 2.1 Sandsynlighedsrum<br />
der opfylder de to betingelser:<br />
1)<br />
P(E) = 1.<br />
2) Hvis A1,A2,... er en tællelig mængde af parvis disjunkte mængder, Ai ∩ A j = /0, i = j, s˚ a<br />
er<br />
Bemærkinger<br />
∞<br />
P( Ai) =<br />
i=1<br />
∞<br />
∑<br />
i=1<br />
P(Ai). (2.1)<br />
I (2.1) er ∑ ∞ i=1 P(Ai) en uendelige række, der beregnes som grænseværdien af ∑ n i=1 P(Ai) =<br />
P(A1)+···+P(An) for n → ∞, se Afsnit A.2.<br />
Hvis E er et interval abent, (˚ halv˚ abent eller lukket) fra a(≥ −∞) til b(≤ ∞), indeholder<br />
E mange mystiske delmængder, som man sædvanligvis ikke er interesseret i at beregne sand-<br />
synligheden for. Man indskrænker sig derfor til at beregne sandsynligheder for en mængde af<br />
delmængder,<br />
hvor F opfylder de to betingelser:<br />
a)<br />
b)<br />
An ∈ F, n = 1,2,...,⇒<br />
F = {A : A ⊆ E},<br />
A ∈ F ⇒ A C ∈ F<br />
∞<br />
An ∈ F og<br />
n=1<br />
∞<br />
An ∈ F.<br />
Hvis P kun er defineret for mængder i F omtales P som et sandsynlighedsm˚ al p˚ a (E,F).<br />
Elementerne i F omtales da som m˚alelige mængder og triplet (E,F,P) kaldes et sandsynlig-<br />
hedsrum. Elementer i E omtales som udfald og delmængder i F som hændelser. En hændelse<br />
A indtræffer, hvis e ∈ A, det vil sige hvis udfaldet e er i mængden A.<br />
Sædvanligvis vælges F som den mindste mængde af delmængder af intervallet fra a til<br />
b, som opfylder betingelserne a) og b) og som indeholder alle intervaller, der er indeholdt i<br />
intervallet fra a til b. Disse delmængder er karakteriseret ved, at hvis A ∈ F kan man beregne<br />
længden |A| af A.<br />
n=1
2.1.2 Regneregler for sandsynligheder<br />
Ud fra Definition 2.1 kan man vise en række af regneregler for sandsynlighedsm˚ al. I sætningen<br />
nedenfor gengives de regneregler, vi har brug for.<br />
Sætning 2.1 Hvis P er et sandsynlighedsm˚ al p˚ a E og A,B,A1,...,An er delmænger af E gælder<br />
der:<br />
Hvis A1,...,An er parvis disjunkte er<br />
A<br />
2.3<br />
P(/0) = 0. (2.2)<br />
P(A\B) = P(A) − P(B), hvis A ⊇ B. (2.3)<br />
P(A C ) = 1 − P(A). (2.4)<br />
P(A ∪ B) = P(A)+P(B) − P(A ∩ B). (2.5)<br />
P(A1 ∪ ··· ∪ An) = P(A1)+···+P(An). (2.6)<br />
B<br />
A\B<br />
P(A\B)=P(A)−P(B)<br />
A B<br />
A∪B<br />
P(A∪B)=P(A)+P(B)−P(A∩B)<br />
A C<br />
A<br />
A<br />
C<br />
P(A )= 1−P(A)<br />
P(A∪B)=P(A)+P(B) hvis A∩B=∅<br />
Figur 2.1 Illustration af nogle af egenskaberne ved et sandsynlighedsm˚ al P.<br />
B
2.4 2.1 Sandsynlighedsrum<br />
Eksempel 2.1<br />
Hvis udfaldsrummet E er en endelig mængde med #E elementer kan det vises, at antallet af<br />
delmængder af E er 2 #E . Sandsynlighedsm˚ alet p˚ a E givet ved at en delmængde A har sandsyn-<br />
ligheden<br />
P(A) = #A<br />
(2.7)<br />
#E<br />
kaldes det uniforme sandsynlighedsm˚al p˚ a E. Sandsynligheden for en delmængde A er alts˚ a<br />
blot antallet af elementer i A divideret med antallet af elementer i E, specielt gælder der, at alle<br />
elementer e i E har samme sandsylighed, nemlig<br />
Eksempel 2.2<br />
P({e}) = 1<br />
, e ∈ E.<br />
#E<br />
Betragt to kampe p˚ a tipskuponen. Udfaldsrummet E svarende hertil er<br />
2.kamp<br />
1 X 2<br />
1 (1,1) (1,X) (1,2)<br />
1.kamp X (X,1) (X,X) (X,2)<br />
2 (2,1) (2,X) (2,2)<br />
Da #E = 9 har samtlige udfald af de to kampe sandsynligheden 1 9 under det uniforme sandsyn-<br />
lighedsm˚ al p˚ a E.<br />
er<br />
Vi illustrerer nu nogle af regnereglerne i Sætning 2.1 i dette simple eksempel.<br />
Lad A være hændelsen at de to kampe giver samme tegn. Da<br />
A = { (1,1) (X,X) (2,2) }<br />
P(A) = #A 3 1<br />
= =<br />
#E 9 3 .<br />
Hvis B er hændelsen at de to kampe giver forskelligt tegn, er B den komplementære hæn-<br />
delse til A, det vil sige at B = AC , og af (2.4) as f˚ at<br />
hvilket stemmer overens med at<br />
P(B) = P(A C ) = 1 − P(A) = 1 − 1 2<br />
=<br />
3 3 ,<br />
B = { (1,X) (1,2) (X,1) (X,2) (2,1) (2,X) }.
sige at<br />
samt at<br />
Lad C1 og C2 betegne hændelserne at vi ar f˚ et 2-tal i første henholdsvis anden kamp, det vil<br />
C1 = { (2,1) (2,X) (2,2) } og P(C1) = 1<br />
3<br />
C2 = { (1,2) (X,2) (2,2) } og P(C2) = 1<br />
3 .<br />
Lad C betegne hændelsen at de to kampe giver mindst et 2-tal, det vil sige at<br />
C = { (1,2) (X,2) (2,2) (2,1) (2,X) } og P(C) = 5<br />
9 .<br />
Denne sandsynlighed kunne vi ogs˚ a have beregnet ved hjælp a f formel (2.5), idet C = C1 ∪<br />
C2. Da C1 ∩C2 = { (2,2) } as f˚ af (2.5), at<br />
P(C) = P(C1 ∪C2) = P(C1)+P(C2) − P(C1 ∩C2)<br />
= 1 1 1<br />
+ −<br />
3 3 9<br />
= 5<br />
9 .<br />
Lad D betegne hændelsen at præcis én af de to kampe giver et 2-tal, det vil sige at<br />
D = { (1,2) (X,2) (2,1) (2,X) } og P(D) = 4<br />
9 .<br />
Da D = C \(C1 ∩C2) kunne denne sandsynlighed - ved hjælp af formel (2.3) - beregnes som<br />
Eksempel 2.3<br />
P(D) = P(C) − P(C1 ∩C2)<br />
= 5 1 4<br />
− =<br />
9 9 9 .<br />
Lad E = ]a,b[ være et endeligt interval p˚ a den relle akse. Lad A være en m˚ alelig delmængde<br />
af E og lad |A| betegne længden af A. Det uniforme sandsynlighedsm˚al p˚ a E tilordner til A<br />
sandsynligheden<br />
2.5<br />
P(A) = |A| |A|<br />
= . (2.8)<br />
|E| b − a<br />
Hvis specielt E = ]0,1[ og P er det uniforme sandsynlighedsm˚ al p˚ a E, omtales et udfald<br />
e ∈ E ofte som et tilfældigt tal mellem 0 og 1.<br />
Tilfældige tal kan man for eksempel benytte, n˚ ar man ønsker frembringe udfald af tilfældige<br />
størrelser, hvis sandsynligheder er specificeret. Antag for eksempel at en tipsekspert har opgivet
2.6 2.1 Sandsynlighedsrum<br />
procenterne 60, 30 og 10 for henholdvis hjemmesejr, uafgjort og udesejr i en bestemt kamp p˚ a<br />
tipskuponen. Lad e betegne et tilfældigt tal mellem 0 og 1. Tipper vi<br />
1, hvis 0.0 < e < 0.6,<br />
X, hvis 0.6 < e < 0.9,<br />
2, hvis 0.9 < e < 1.0,<br />
har vi lavet et tilfældigt tipstegn i overensstemmelse med ekspertens procenter, idet<br />
og<br />
P(tippe 1) = |]0.0,0.6[|<br />
|]0,1[|<br />
P(tippe X) = |]0.6,0.9[|<br />
|]0,1[|<br />
P(tippe 2) = |]0.9,1.0[|<br />
|]0,1[|<br />
2.1.3 Betingede sandsynligheder og uafhængighed<br />
= 0.6<br />
1<br />
= 0.3<br />
1<br />
= 0.1<br />
1<br />
= 0.6,<br />
= 0.3<br />
= 0.1.<br />
Definition 2.2 Hvis A og B er to hændelser, s˚ aledes at P(B) > 0, kaldes størrelsen<br />
P(A|B) =<br />
P(A ∩ B)<br />
P(B)<br />
<br />
(2.9)<br />
den betingede sandsynlighed af A givet B. Hvis P(B) = 0 er den betingede sandsynlighed ikke<br />
defineret. <br />
Definition 2.3 Hændelserne A1,...,An er indbyrdes uafhængige hvis<br />
P(Ai1 ∩ ··· ∩ Ai j ) = P(Ai1 )···P(Ai j ), (2.10)<br />
hvor {i1,...,ij} ⊆ {1,2,...,n}, j = 2,...,n. Med andre ord er de n hændelser indbyrdes uaf-<br />
hængige, hvis der gælder, at sandsynligheden for fællesmængden af j af hændelserne er lig med<br />
produktet af de tilsvarende j sandsynligheder.<br />
Specielt er hændelserne A og B uafhængige, hvis<br />
P(A ∩ B) = P(A)P(B). (2.11)
A<br />
A∩B<br />
P(A|B)=P(A∩B)/P(B)<br />
Figur 2.2 Illustration af definitionen af den betingede sandsynlighed P(A | B) af A givet B.<br />
Bemærkning<br />
Af (2.9) og (2.11) ses, at<br />
A og B er uafhængige ⇔ P(A|B) = P(A),<br />
det vil sige, at A og B er uafhængige, hvis og kun hvis sandsynligheden for A er den samme<br />
uanset om vi ved, at B er indtruffet eller ej.<br />
For betingede sandsynligheder har vi følgende regneregler:<br />
Sætning 2.2 (Omvendt betinget sandsynlighed) Hvis de tre størrelser P(A) > 0, P(B) > 0 og<br />
P(A|B) alle er kendte, er<br />
B<br />
2.7<br />
P(B|A) = P(A|B)P(B)<br />
. (2.12)<br />
P(A)<br />
(Loven om total sandsynlighed) Hvis B1,...,Bn er en disjunkt opdeling af E, det vil sige, at<br />
ni=1 Bi = E, og Bi ∩ B j = /0, i = j, og P(Bi) > 0 og P(A|Bi), i = 1,...,n, alle er kendte, er<br />
og<br />
P(A) =<br />
n<br />
∑<br />
i=1<br />
P(A|Bi)P(Bi) (2.13)<br />
P(Bk |A) = P(A|Bk)P(Bk)<br />
n . (2.14)<br />
∑ P(A|Bi)P(Bi)<br />
i=1<br />
Formel (2.14) omtales ofte som Bayes formel.
2.8 2.1 Sandsynlighedsrum<br />
Eksempel 2.4<br />
E<br />
B B B<br />
1 2 3 n<br />
Figur 2.3 Illustration af antagelserne i Sætning 2.2.<br />
Som bekendt har et superligahold forskellige chancer for henholdsvis sejr, uafgjort og neder-<br />
lag alt efter om holdet spiller p˚ a hjemmebane eller p˚ a udebane . Antag, at disse chancer for et<br />
bestemt hold er specificeret ved følgende betingede sandsynligheder<br />
…<br />
A<br />
sejr uafgjort nederlag<br />
P(·|hjemme ) p1 q1 r1<br />
P(·|ude ) p2 q2 r2<br />
hvor p1 + q1 + r1 = 1 og p2 + q2 + r2 = 1. Antag desuden, at holdet hører til de heldige, der<br />
spiller 17 af turneringens 33 kampe p˚ a hjemmebane, det vil s ige, at<br />
P( hjemme ) = 17<br />
33<br />
og P( ude ) = 16<br />
33 .<br />
Ved hjælp af (2.13) finder vi, at sandsynligheden for sejr i en tilfældig kamp er<br />
P( sejr ) = P( sejr |hjemme )P( hjemme )+P( sejr |ude )P( ude )<br />
17<br />
= p1<br />
33<br />
16<br />
+ p2<br />
33<br />
= 17p1 + 16p2<br />
.<br />
33<br />
Tilsvarende bliver sandsynligheden for henholdsvis uafgjort og nederlag i en tilfældig kamp<br />
P( uafgjort ) = 17q1 + 16q2<br />
33<br />
B
og<br />
P( nederlag ) = 17r1 + 16r2<br />
.<br />
33<br />
Ved hjælp af (2.12) kan vi beregne sandsynligheden for at holdet har spillet p˚ a hjemmebane<br />
givet det har vundet, nemlig som<br />
Eksempel 2.5<br />
P( sejr |hjemme )P( hjemme )<br />
P( hjemme |sejr ) =<br />
P( sejr )<br />
17<br />
p1<br />
=<br />
33<br />
17p1 + 16p2<br />
33<br />
17p1<br />
= .<br />
17p1 + 16p2<br />
Antag, at udfaldene af hjemmekampene, som et hold spiller, er uafhængige og at holdet i alle<br />
hjemmekampene har samme sandsynlighed henholdsvis p, q og r for sejr, uafgjort og nederlag,<br />
hvor p+q+r = 1. Hvis Si, Ui og Ni betegner betegner hændelserne henholdsvis sejr, uafgjort<br />
og nederlag i den i’te hjemmekamp har vi alts˚ a<br />
P(Si) = p, P(Ui) = q og P(Ni) = r.<br />
Da resultaterne i de forskellige hjemmekampe er uafhængige har vi for eksempel, at sand-<br />
synligheden for sejr i første hjemmekamp, nederlag i anden og sejr i tredje er<br />
og mere generelt, for eksempel,<br />
P(S1 ∩ N2 ∩ S3) = P(S1)P(N2)P(S3) = prp<br />
P(S1 ∩ N2 ∩ S3 ∩ ···∩Uj−1 ∩ Nj ∩Uj+1 ∩ ··· ∩ Sn) = prp...qrq... p.<br />
2.2 Stokastiske variable<br />
Det helt centrale begreb i sandsynlighedsregningen er stokastiske variable og vektorer. Hvis<br />
(E,F,P) er et sandsynlighedsrum er en stokastisk variabel en funktion X defineret p˚ a udfalds-<br />
rummet E med værdier i R, den reele akse. Hvis udfaldet e ∈ E indtræffer antager den stoka-<br />
stiske variabel X værdien X(e). Ved at lægge en simpel betingelse p˚ a X kan man ved hjælp af<br />
2.9
2.10 2.2 Stokastiske variable<br />
sandsynlighedsudsagn beskrive variationen af X - eller fordelingen af X - inden udfaldet e er<br />
kendt.<br />
Vi indskrænker os til at omtale to typer af stokastiske variable, nemlig diskrete stokastiske<br />
variable, som bruges til at modellere tælledata med, og kontinuerte stokastiske variable, der<br />
benyttes i forbindelse med kontinuerte data.<br />
Ved valget af eksempler i dette afsnit er der igen lagt vægt p˚a at eksemplerne skal være<br />
nemme at h˚ andtere matematisk. Kapitel 3 giver en oversigt o ver nogle af de mest anvendte<br />
fordelinger i statistik.<br />
Definition 2.4 Lad (E,F,P) være et sandsynlighedsrum. En afbildning X fra E ind i R,<br />
X : E → R<br />
e → X(e)<br />
kaldes en stokastisk variabel hvis {e ∈ E : X(e) ≤ x} ∈ F , for alle x ∈ R. Vi bruger {X ≤ x}<br />
som forkortelse for {e ∈ E : X(e) ≤ x}. <br />
For en stokastisk variabel X gælder der alts˚ a for alle x ∈ R at {e ∈ E : X(e) ≤ x} ∈ F . Vi<br />
kan derfor beregne sandsynligheden P({e ∈ E : X(e) ≤ x}) og beskrive variationen af X ved<br />
hjælp af sandsynlighedsudsagn, hvilket begrunder følgende definition:<br />
Definition 2.5 Funktionen F fra R ind i [0,1] givet ved<br />
F : R → [0,1]<br />
x → F(x) = P(X ≤ x)<br />
kaldes fordelingsfunktionen for X. Helt præcist er F(x) = P({e ∈ E : X(e) ≤ x}). <br />
Sætning 2.3 En fordelingsfunktion F for en stokastisk variabel X har følgende egenskaber :<br />
a) F(x) ∈ [0,1], x ∈ R<br />
b) F er voksende: x1 < x2 ⇒ F(x1) ≤ F(x2)<br />
c) F(x) →<br />
x→ −∞ 0 og F(x) →<br />
x→ ∞ 1<br />
d) F er højrekontinuert, det vil sige F(x) = F(x+).<br />
Endvidere gælder der<br />
P(X ∈ ]a,b]) = F(b) − F(a) (2.15)<br />
P(X = x) = F(x) − F(x−). (2.16)<br />
I statistikken benytter vi ofte begrebet p-fraktil, som defineret i Definition 2.6 nedenfor,<br />
samt resultatet i Sætning 2.4.
2.11<br />
Figur 2.4 Fordelingsfunktionen F for en stokastisk variabel X. Springet af F i x = −1 er P(X =<br />
−1). Endvidere er vist udvalgte fraktiler for F: x0.05 = −2.5, x0.3 = x0.4 = −1.0 og x0.9214 =<br />
[1,2].<br />
Definition 2.6 For p ∈ [0,1] defineres p-fraktilen for F som mængden<br />
xp = {x ∈ R : F(x−) ≤ p ≤ F(x)} (2.17)<br />
Fraktilerne x0.25 og x0.75 omtales som henholdsvis nedre og øvre kvartil, mens x0.5 kaldes<br />
medianen. <br />
For fraktiler gælder der følgende resultat:<br />
Sætning 2.4 Antag, at Y har fordelingsfunktionen FY samt af X = α +βY (β > 0). Fordelings-<br />
funktionen FX for X er<br />
FX(x) = FY(<br />
og sammenhængen mellem fraktilerne xp og yp for X og Y er<br />
yp = xp − α<br />
β<br />
= { x − α<br />
β<br />
x − α<br />
) (2.18)<br />
β<br />
: x ∈ xp}. (2.19)
2.12 2.2 Stokastiske variable<br />
Eksempel 2.6<br />
Lad P betegne det uniforme sandsynlighedsm˚ al p˚ a E = ]0,1[, se Eksempel 2.3, og lad X være<br />
defineret ved at<br />
Da<br />
X(e) = e, e ∈ E = ]0,1[.<br />
⎧<br />
⎪⎨ /0, hvis x ≤ 0<br />
{e ∈ ]0,1[ : X(e) ≤ x} = ]0,x], hvis 0 < x < 1<br />
⎪⎩ ]0,1[, hvis x ≥ 1,<br />
og da vi kan finde længderne af intervallerne p˚ a højre side i l igningen ovenfor, er X en stokastisk<br />
variabel. Ved hjælp af (2.8) ses, at fordelingsfunktionen F for X er<br />
⎧<br />
⎪⎨ 0, hvis x ≤ 0<br />
F(x) = P({e ∈ E : X(e) ≤ x}) = x, hvis 0 < x < 1<br />
⎪⎩ 1, hvis x ≥ 1.<br />
. (2.20)<br />
Da denne funktion er kontinuert og strengt voksende as, f˚ at i dette tilfælde er xp = p for p ∈<br />
]0,1[.<br />
Den stokastiske variabel X siges at være uniformt fordelt p˚ a intervallet ]0,1[, hvilket ofte<br />
kort skrives X ∼ R(0,1). <br />
Vi skal udelukkende beskæftige os med to typer af stokastiske variable, nemlig diskrete<br />
stokastiske variable, der er karakteriseret ved at deres fordelingsfunktioner er trappefunktioner,<br />
og kontinuerte stokastiske variable, hvis fordelingsfunktioner er kontinuerte.<br />
2.2.1 Diskrete stokastiske variable<br />
Definition 2.7 En stokastisk variabel X siges at være diskret hvis dens fordelingsfunktion F er<br />
en trappefunktion med endeligt eller tælleligt mange spring, se Figur 2.5. <br />
En trappefunktion kan karakteriseres ved to ting, nemlig ved placeringen og højden af trap-<br />
petrinnene. Dette er baggrunden for<br />
Definition 2.8 Sandsynlighedsfunktionen (tæthedsfunktionen) f for diskret stokastisk variabel<br />
X, hvis fordelingsfunktion F har spring i punkterne {xi : i ∈ I} hvor I er en endelig eller tællelig<br />
mængde, er defineret ved<br />
f : R → [0,1]<br />
x → f(x),
2.13<br />
Figur 2.5 Fordelingsfunktionen F og sandsynlighedsfunktionen f for en diskret stokastisk va-<br />
riabel.
2.14 2.2 Stokastiske variable<br />
hvor<br />
⎧<br />
⎪⎨ P(X = xi), hvis x = xi<br />
f(x) =<br />
⎪⎩ 0, ellers.<br />
Mængden {xi : i ∈ I} omtales som støtten for den diskrete stokastiske variabel X. <br />
Sætning 2.5 Sandsynlighedsfunktionen f for en diskret stokastisk variabel X har de følgende<br />
tre egenskaber:<br />
som<br />
a) f(x) ≥ 0, x ∈ R<br />
b) f(x) = 0 ⇔ x ∈ {xi : i ∈ I}, hvor I er en endelig eller tællelig mængde<br />
c) ∑<br />
i∈I<br />
f(xi) = 1<br />
Endvidere kan sandsynligheden P(X ∈ A) for hændelsen {X ∈ A}, hvor A ⊆ R, beregnes<br />
P(X ∈ A) = ∑<br />
{i∈I;xi∈A}<br />
f(xi) (2.21)<br />
Endelig gælder der, at givet en funktion f , der opfylder de tre betingelser, findes der en diskret<br />
stokastisk variabel X, s˚ a f er sandsynlighedsfunktionen for X. <br />
Sætning 2.6 Hvis støtten {xi : i ∈ I} for en diskret stokastisk variabel X er indeholdt i mæng-<br />
den {0,1,2,...,} er der følgende sammenhæng mellem fordelingsfunktionen F og sandsyn-<br />
hedsfunktionen f :<br />
f(0) = F(0) og<br />
Eksempel 2.7<br />
F(x) =<br />
x<br />
∑ f(i),<br />
i=0<br />
x = 0,1,2,... , (2.22)<br />
f(x) = F(x) − F(x − 1), x = 1,2,... . (2.23)<br />
Betragt de to kampe p˚ a tipskuponen i Eksempel 2.2. Lad X betegne det totale antal point for<br />
hjemmeholdene i de to kampe, idet sejr, uafgjort og nederlag - som sædvanlig - giver henholds-<br />
vis 3, 1 og 0 point. Vi har da at<br />
⎧<br />
0, hvis e = (2,2),<br />
1, hvis e ∈ { (X,2),(2,X) },<br />
⎪⎨<br />
2, hvis e = (X,X),<br />
X(e) =<br />
3, hvis e ∈ { (1,2),(2,1) },<br />
4, hvis e ∈ { (1,X),X,1) },<br />
⎪⎩ 6, hvis e = (1,1).
2.15<br />
Under det uniforme sandsynlighedsm˚ al p˚ a E, det vil sige hvis de 9 udfald af de to kampe er lige<br />
sandsynlige, bliver sandsynlighedsfunktionen for X lig med<br />
⎧<br />
1/9, hvis x = 0,<br />
2/9, hvis x = 1,<br />
⎪⎨<br />
1/9, hvis x = 2,<br />
f(x) =<br />
2/9, hvis x = 3,<br />
⎪⎩<br />
2/9, hvis x = 4,<br />
1/9, hvis x = 6,<br />
se Figur 2.5. <br />
Eksempel 2.8<br />
Betragt Eksempel 2.5 og lad X betegne antallet af hjemmekampe holdet spiller inden første sejr.<br />
Da hændelsen S C i = Ui ∪ Ni svarer til uafgjort eller nederlag i det i’te hjemmekamp har vi<br />
{X = 0} = S1<br />
{X = 1} = S C 1<br />
.<br />
∩ S2<br />
{X = i} = S C 1 ∩ SC 2 ∩ ··· ∩ SC i−1 ∩ SC i<br />
.<br />
∩ Si+1<br />
og da P(S C i ) = 1 − P(Si) = 1 − p ses, idet resulaterne af hjemmekampene er uafhængige, at<br />
P(X = i) = (1 − p) i p, i = 0,1,... .<br />
Det faktum, at vi i forbindelse med definitionen af sandsynlighedsm˚ al er nødt til at intro-<br />
ducere uendelige rækker, kan let illustreres i dette eksempel. Antag nemlig, at vi er interesseret<br />
i at beregne sandsynligheden for at holdet skal spille et lige antal hjemmekampe inden første<br />
hjemmesejr, det vil sige sandsynligheden for hændelsen<br />
X ∈ {0,2,4,...}.<br />
Da hændelsen er en tællig foreningsmængde af de disjunkte mængder {X = 2i}, i = 0,1,...,<br />
as f˚ af (2.1), at<br />
P(X ∈ {0,2,4,...}) =<br />
=<br />
= p<br />
∞<br />
∑<br />
i=0<br />
∞<br />
∑<br />
i=0<br />
∞<br />
P(X = 2i)<br />
(1 − p) 2i p<br />
∑<br />
i=0<br />
((1 − p) 2 ) i .
2.16 2.2 Stokastiske variable<br />
Benytter vi nu (A.3) med q = (1 − p) 2 as f˚<br />
1<br />
1<br />
P(X ∈ {0,2,4,...}) = p = p<br />
1 −(1 − p) 2 p(2 − p)<br />
2.2.2 Kontinuerte stokastiske variable<br />
= 1<br />
2 − p .<br />
Definition 2.9 En stokastisk variabel X siges at være kontinuert hvis der findes en integrabel<br />
funktion<br />
s˚ a fordelingsfunktionen F for X er givet ved<br />
F(x) =<br />
f : R → [0,∞[<br />
x<br />
−∞<br />
x → f(x),<br />
f(z)dz, x ∈ R. (2.24)<br />
Funktionen f kaldes tæthedsfunktionen (sandsynlighedsfunktionen) for X. (Sammenhængen<br />
mellem F og f er illustreret i Figur 2.6). Mængden {x ∈ R : f(x) > 0} omtales som støtten<br />
for X. <br />
Sætning 2.7 Tæthedsfunktionen f for en kontinuert stokastisk variabel X har de følgende to<br />
egenskaber:<br />
a) f(x) ≥ 0, x ∈ R<br />
b) ∞<br />
f(x)dx = 1.<br />
−∞<br />
Endvidere kan sandsynligheden P(X ∈ A) for hændelsen {X ∈ A}, hvor A ⊆ R er en m˚ alelig<br />
mængde, beregnes som<br />
<br />
P(X ∈ A) =<br />
A<br />
f(x)dx. (2.25)<br />
Endelig gælder der, at givet en funktion f , der opfylder de to betingelser, findes der en kontinuert<br />
stokastisk variabel X, s˚ a f er tæthedsfunktionen for X. <br />
Sætning 2.8 Hvis X er en kontinuert stokastisk variabel med tæthedsfunktion f og fordelings-<br />
funktion F gælder der:<br />
a) F er kontinuert<br />
b) P(X = x) = 0, for alle x ∈ R<br />
c) Hvis f er kontinuert i x, gælder der at f(x) = F ′ (x)
2.17<br />
Figur 2.6 Fordelingsfunktionen F og tæthedsfunktionen f for en kontinuert stokastisk variabel.<br />
Værdien F(1) af F i punktet x = 1 er lig med arealet af det skraverede omr˚ ade i tegningen af f .
2.18 2.2 Stokastiske variable<br />
d) Hvis Ix er et lille interval af længde Δx omkring x er<br />
P(X ∈ Ix) ≈ f(x)Δx, (2.26)<br />
se Figur 2.7. <br />
Figur 2.7 Illustration af formel (2.26). Arealet af det skraverede omr˚ ade er næsten lig med<br />
arealet af firkanten afgrænset af de fuldt optrukne linjer.<br />
Eksempel 2.9<br />
Lad f være funktionen givet ved<br />
Da<br />
x<br />
−∞<br />
f(x) =<br />
1, hvis 0 < x < 1<br />
0, ellers.<br />
⎧<br />
⎪⎨ 0, hvis x ≤ 0<br />
f(z)dz = x, hvis 0 < x < 1<br />
⎪⎩ 1, hvis x ≥ 1,<br />
ses af (2.20), at f er tæthedsfunktionen for den uniforme fordeling p˚ a interv allet ]0,1[.
2.3 Stokastiske vektorer<br />
Definition 2.10 Lad (E,F,P) være et sandsynlighedsrum. En afbildning X fra E ind i R k ,<br />
X : E → R k<br />
e → X(e) = (X1(e),...,Xj(e),...,Xk(e))<br />
2.19<br />
kaldes en stokastisk vektor, hvis komponenterne Xj, j = 1,...,k, er stokastiske variable, se<br />
Definition 2.4. <br />
Definition 2.11 Hvis X = (X1,...,Xk) er en stokastisk vektor kaldes funktionen<br />
givet ved<br />
FX : R k → [0,1]<br />
x = (x1,...,xk) → FX(x),<br />
FX(x) = P(X ≤ x) = P(X1 ≤ x1,...,Xk ≤ xk),<br />
for fordelingsfunktionen for X. <br />
2.3.1 Diskrete stokastiske vektorer<br />
Definition 2.12 Lad X = (X1,...,Xk) være en stokastisk vektor . Hvis der findes en delmængde<br />
{xi : i ∈ I} af Rk , hvor I er en endelig eller tællelig mængde, s˚ aledes at funktionen<br />
opfylder de to betingelser<br />
f : R k → [0,1]<br />
a) f(x) = 0 hvis og kun hvis x ∈ {xi : i ∈ I}<br />
b) ∑<br />
i∈I<br />
f(xi) = 1<br />
x → f(x) = P(X = x),<br />
siges X at være en diskret k-dimensional stokastisk vektor med sandsynlighedsfunktion (eller<br />
tæthedsfunktion) f og med støtte {xi : i ∈ I}.<br />
Hvis A er en delmængde af R k beregnes sandsynligheden for hændelsen {X ∈ A} som<br />
Eksempel 2.10<br />
P(X ∈ A) = ∑<br />
{i∈I:xi∈A}<br />
f(xi).<br />
Betragt igen Eksempel 2.2 vedrørende udfaldet af to kampe p˚a tipskuponen. Lad X1 og X2
2.20 2.3 Stokastiske vektorer<br />
betegne antallet af point hjemmeholdet ar f˚ i henholdsvis f ørste og anden kamp. Værdierne som<br />
vektoren (X1,X2) antager p˚ a udfaldsrummet<br />
er<br />
E 2.kamp<br />
1 X 2<br />
1 (1,1) (1,X) (1,2)<br />
1.kamp X (X,1) (X,X) (X,2)<br />
2 (2,1) (2,X) (2,2)<br />
(X1,X2) 2.kamp<br />
1 X 2<br />
1 (3,3) (3,1) (3,0)<br />
1.kamp X (1,3) (1,1) (1,0)<br />
2 (0,3) (0,1) (0,0)<br />
Hvis samtlige udfald af de to kampe er lige sandsynlige er (X1,X2) en diskret stokastisk vektor<br />
hvis sandsynlighedsfunktion er konstant - med værdien 1/9 - p˚ a støtten {(0,0), (0,1), (0,3),<br />
(1,0), (1,1), (1,3), (3,0), (3,1), (3,3)}. <br />
2.3.2 Kontinuerte stokastiske vektorer<br />
Definition 2.13 En stokastisk vektor X = (X1,...,Xk) siges at være kontinuert hvis der findes<br />
en integrabel funktion<br />
f : R k → [0,∞[<br />
x → f(x),<br />
s˚ a fordelingsfunktionen F for X er givet ved at for alle x = (x1,...,xk) ∈ Rk er<br />
F(x) = F(x1,...,xk) =<br />
x<br />
−∞<br />
f(z)dz z =<br />
x1<br />
−∞<br />
...<br />
xk<br />
−∞<br />
f(z1,...,zk)dzk...dz1, .<br />
Funktionen f kaldes tæthedsfunktionen (sandsynlighedsfunktionen) for X og mængden {x ∈<br />
R k : f(x) > 0} omtales som støtten for X.<br />
som<br />
Hvis A er en m˚ alelig delmængde af Rk beregnes sandsynligheden for hændelsen {X ∈ A}<br />
<br />
P(X ∈ A) =<br />
A<br />
f(x)dx.
Sætning 2.9 Hvis X = (X1,...,Xk) er en kontinuert stokastisk vektor gælder der at<br />
P(X = x) = 0, x ∈ R k ,<br />
2.21<br />
og hvis f er kontinuert i x kan tæthedsfunktionen f findes fra F ved partiel differentation, se<br />
Afsnit A.3.2, idet<br />
Eksempel 2.11<br />
∂<br />
f(x) = f(x1,...,xk) =<br />
kF (x).<br />
∂x1...∂xk<br />
Lad E være en delmængde af R2 hvis areal<br />
<br />
|E| = 1dx2dx1<br />
E<br />
er endeligt. Den kontinuerte stokastiske vektor (X1,X2) hvis tæthedsfunktion er<br />
⎧<br />
⎨<br />
f (X1,X2)(x1,x2) =<br />
⎩<br />
1<br />
|E| , hvis (x1,x2) ∈ E<br />
0, ellers,<br />
kaldes den uniforme fordeling p˚ a E. Hvis A er en delmængde af E med areal |A| har vi<br />
<br />
P((X1,X2) ∈ A) = f (X1,X2)(x1,x2)dx2dx1<br />
A<br />
<br />
1<br />
=<br />
A |E| dx2dx1<br />
= 1<br />
<br />
1dx2dx1 =<br />
|E| A<br />
|A|<br />
|E| ,<br />
sammenlign med (2.8).<br />
<br />
(2.27)<br />
Lad for eksempel E = ]0,1[ 2 = {(x1,x2) : 0 < x1 < 1, 0 < x2 < 1}. Da |E| = 1 har den<br />
uniforme fordeling p˚ a denne mængde tæthedsfunktion<br />
<br />
1, hvis 0 < x1 < 1 og 0 < x2 < 1<br />
f (X1,X2)(x1,x2) =<br />
0, ellers.<br />
Den tilsvarende fordelingsfunktion er<br />
F (X1,X2)(x1,x2) =<br />
x1<br />
x2<br />
−∞<br />
−∞<br />
⎧<br />
⎪⎩<br />
0, hvis x1 ≤ 0 eller x2 ≤ 0<br />
⎪⎨ x1x2, hvis 0 < x1 < 1 og 0 < x2 < 1<br />
f (X1,X2)(z1,z2)dz2dz1 = x1, hvis 0 < x1 < 1 og x2 ≥ 1<br />
x2, hvis x1 ≥ 1 og 0 < x2 < 1<br />
1, hvis x1 ≥ 1 og x2 ≥ 1.
2.22 2.3 Stokastiske vektorer<br />
2.3.3 Marginale fordelinger<br />
Fordelingen af X = (X1,...,Xj,...,Xk) omtales som den simultane fordeling, mens fordelingen<br />
af Xj kaldes den marginale fordeling af Xj, j = 1,...,k.<br />
En generel sætning siger, at tæthedsfunktionen fX j for den marginale fordeling af Xj bestem-<br />
mes ved at summere eller integrere de øvrige variable, det vil sige x1, ..., x j−1, x j+1, ..., xk, ud<br />
i den simultane tæthedsfunktion f (X1,...,Xk)(x1,...,xk). For overskuelighedens skyld formuleres<br />
denne sætning blot i tilfældet k = 2 i<br />
Sætning 2.10 Lad X = (X1,X2) være en todimensional stokastisk vektor.<br />
i) Hvis X kontinuert er X1 og X2 kontinuerte med tæthedsfunktioner<br />
fX1 (x1) = ∞<br />
−∞<br />
fX2 (x2) = ∞<br />
−∞<br />
f (X1,X2)(x1,x2)dx2<br />
f (X1,X2)(x1,x2)dx1.<br />
(2.28)<br />
ii) Hvis X diskret med støtte {xi = (xi1,xi2) : i ∈ I} er X1 og X2 diskrete med sandsynlig-<br />
hedsfunktioner<br />
Eksempel 2.10 (Fortsat)<br />
fX1 (x1) = ∑ f (X1,X2)(xi1,xi2)<br />
{i∈I : xi1=x1}<br />
fX2 (x2) = ∑ f (X1,X2)(xi1,xi2).<br />
{i∈I : xi2 =x2}<br />
(2.29)<br />
Ved hjælp af (2.29) finder vi, at marginal fordelingen for X1- hjemmeholdets point i den første<br />
kamp - har sandsynlighedsfunktion<br />
fX1 (0) = f (X1,X2)(0,0)+ f (X1,X2)(0,1)+ f (X1,X2)(0,3) = 1 1 1 1<br />
+ + =<br />
9 9 9 3<br />
fX1 (1) = f (X1,X2)(1,0)+ f (X1,X2)(1,1)+ f (X1,X2)(1,3) = 1 1 1 1<br />
+ + =<br />
9 9 9 3<br />
fX1 (3) = f (X1,X2)(3,0)+ f (X1,X2)(3,1)+ f (X1,X2)(3,3) = 1 1 1 1<br />
+ + =<br />
9 9 9 3 ,<br />
svarende til, at de tre udfald i den første kamp er lige sandsynlige. Af symmetri grunde har X2<br />
samme sandsynlighedsfuktion som X1.
Eksempel 2.11 (Fortsat)<br />
2.23<br />
Ved hjælp af (2.28) finder vi, at den marginale fordeling for X1 svarende til den uniforme for-<br />
deling p˚ a ]0,1[ 2 har tæthedsfunktion<br />
fX1 (x1) =<br />
∞<br />
−∞<br />
⎧<br />
⎪⎨<br />
f (X1,X2)(x1,x2)dx2 =<br />
⎪⎩<br />
1<br />
0<br />
∞<br />
−∞<br />
1dx2 = 1, hvis 0 < x1 < 1<br />
0dx2 = 0, ellers,<br />
det vil sige, at X1 er uniformt fordelt p˚ a ]0,1[, kort X1 ∼ R(0,1), se Eksempel 2.9. Af symmetri<br />
grunde har vi ogs˚ a at X2 ∼ R(0,1). <br />
Eksempel 2.12<br />
Lad E være det indre af trekanten med vinklelspidser (0,0), (1,0) og (1,1), det vil sige, at<br />
E = {(x1,x2) ∈ R 2 : 0 < x2 < x1 < 1}. Da |E| = 1/2, er tæthedsfunktionen - ifølge (2.27) - for<br />
en uniformt fordelt stokastisk vektor (X1,X2) p˚ a E<br />
f (X1,X2)(x1,x2) =<br />
2, hvis 0 < x2 < x1 < 1<br />
0, ellers.<br />
For fast x1 ∈ ]0,1[ har vi at (x1,x2) ∈ E hvis og kun hvis 0 < x2 < x1, s˚ a ved hjælp af (2.28)<br />
finder vi, at marginal fordelingen for X1 har tæthedsfunktion<br />
fX1 (x1) =<br />
∞<br />
−∞<br />
⎧<br />
⎪⎨<br />
f (X1,X2)(x1,x2)dx2 =<br />
⎪⎩<br />
x1<br />
0<br />
∞<br />
−∞<br />
2dx2 = 2x1, hvis 0 < x1 < 1<br />
0dx2 = 0, ellers.<br />
Tilsvarende, for fast x2 ∈ ]0,1[ har vi at (x1,x2) ∈ E hvis og kun hvis x2 < x1 < 1, s˚ a den<br />
marginale fordeling for X2 har tæthedsfunktion<br />
fX2 (x2) =<br />
∞<br />
−∞<br />
⎧<br />
⎪⎨<br />
f (X1,X2)(x1,x2)dx1 =<br />
⎪⎩<br />
1<br />
x2<br />
∞<br />
−∞<br />
2dx1 = 2(1 − x2), hvis 0 < x2 < 1<br />
0dx1 = 0, ellers.
2.24 2.3 Stokastiske vektorer<br />
2.3.4 Uafhængighed<br />
Definition 2.14 De stokastiske variable X1,...,Xj,...,Xk er uafhængige hvis og kun hvis hæn-<br />
delserne<br />
{X1 ≤ x1},...,{Xj ≤ x j},...,{Xk ≤ xk}<br />
er indbyrdes uafhængige for alle x = (x1,...,xj,...,xk) ∈ R k , se Definition 2.3. <br />
Kriterier for uafhængighed af stokastiske variable kan formuleres ved hjælp af enten forde-<br />
lingsfunktioner eller tæthedsfunktioner som i<br />
Sætning 2.11 De stokastiske variable X1,...,Xj,...,Xk er uafhængige hvis og kun hvis en af<br />
de følgende betingelser er opfyldt:<br />
i) (udtrykt ved fordelingsfunktioner)<br />
F (X1,...,X j,...,Xk)(x1,...,xj,...,xk) = FX1 (x1)···FX j (x j)···FXk (xk) (2.30)<br />
for alle x = (x1,...,xj,...,xk) ∈ R k .<br />
ii) (udtrykt ved tæthedsfunktioner)<br />
f (X1,...,X j,...,Xk)(x1,...,xj,...,xk) = fX1 (x1)··· fX j (x j)··· fXk (xk) (2.31)<br />
alle x = (x1,...,xj,...,xk) ∈ R k . <br />
Eksempel 2.10 (Fortsat)<br />
P˚ a side 2.22 fandt vi, at de marginale fordelinger for X1 og X2 - antallet af point i henholdsvis<br />
første og anden kamp - var identiske, nemlig den uniforme fordeling p˚ a mængden {0, 1, 3}. Da<br />
fX1 (x1) fX2 (x2) = 1 1 1<br />
· =<br />
3 3 9 = f (X1,X2)(x1,x2), x1,x2 ∈ {0,1,3},<br />
er X1 og X2 stokastisk uafhængige ifølge (2.31). <br />
Eksempel 2.11 (Fortsat)<br />
P˚ a side 2.23 s˚ a vi, at hvis (X1,X2) er uniformt fordelt p˚ a ]0,1[ 2 , s˚ a er den marginale fordeling<br />
for b˚ ade X1 og X2 den uniforme fordeling p˚ a ]0,1[ . Af (2.31) ses, at X1 og X2 er stokastisk<br />
uafhængige, idet<br />
fX1 (x1) fX2 (x2) = 1 · 1 = 1 = f (X1,X2)(x1,x2), (x1,x2) ∈ ]0,1[ 2 .
Eksempel 2.12 (Fortsat)<br />
2.25<br />
Af resultaterne - p˚ a side 2.23 - vedrørende de marginale for delinger for en stokastisk vektor<br />
(X1,X2), der uniformt fordelt p˚ a E = {(x1,x2) ∈ R2 : 0 < x2 < x1 < 1}, as, f˚ at<br />
fX1 (x1) fX2 (x2) = 2x12(1 − x2) = 2 = f (X1,X2)(x1,x2), (x1,x2) ∈ E,<br />
s˚ a X1 og X2 er ikke stokastisk uafhængige. <br />
2.3.5 Betingede fordelinger<br />
Definition 2.15 Hvis X og Y er stokastiske vektorer med simultan tæthedsfunktion f (X,Y) X,Y) X,Y)(x,y)<br />
og marginale tæthedsfunktioner fX(x) og fY(y) har den betingede fordeling af Y givet X = x<br />
tæthedsfunktionen<br />
f (Y|X)(y|x) = f (X,Y) X,Y) X,Y)(x,y)<br />
, (2.32)<br />
fX(x)<br />
hvis fX(x) > 0, ellers er den udefineret. <br />
Bemærkning<br />
Hvis X og Y er uafhængige stokastiske vektorer as f˚ at (2.31) og (2.32), at<br />
f (Y|X)(y|x) = fY(y),<br />
det vil sige, at tæthedsfunktionen for Y er uafhængig af om vi har observeret x eller ej.<br />
Eksempel 2.12 (Fortsat)<br />
Af resultaterne - p˚ a side 2.23 - vedrørende en stokastisk ve ktor (X1,X2), der uniformt fordelt p˚ a<br />
E = {(x1,x2) ∈ R2 : 0 < x2 < x1 < 1}, ses, at hvis x1 ∈ ]0,1[, s˚ a er<br />
f (X2 |X1 )(x2 |x1) = f (X1,X2)(x1,x2)<br />
fX1 (x1)<br />
= 2<br />
=<br />
2x1<br />
1<br />
, hvis 0 < x2 < x1,<br />
x1<br />
det vil sige, at den betingede fordeling af X2 givet X1 = x1 er den uniforme fordeling p˚ a inter-<br />
vallet ]0,x1[.<br />
Tilsvarende, hvis x2 ∈ ]0,1[ er<br />
f (X1 |X2)(x1 |x2) = f (X1,X2)(x1,x2)<br />
fX2 (x2)<br />
=<br />
2 1<br />
= , hvis x2 < x1 < 1,<br />
2(1 − x2) 1 − x2<br />
s˚ a den betingede fordeling af X1 givet X2 = x2 er den uniforme fordeling p˚ a intervallet ]x2,1[.
2.26 2.4 Middelværdi og varians<br />
2.4 Middelværdi og varians<br />
I det foreg˚ aende afsnit har vi set, at variationen af en stok astisk variabel eller en stokastisk<br />
vektor kan beskrives fuldstændigt ved hjælp af dens fordelingsfunktion eller ved hjælp af dens<br />
sandsynligheds- eller tæthedsfunktion. Imidlertid er det ofte i sandsynlighedsregning og statistik<br />
bekvemt at kunne beskrive vigtige træk ved en fordeling, s˚ a som position og variabilitet, ved<br />
hjælp af nogle af˚ numeriske størrelser. De vigtigste af dis se størrelser er middelværdi, varians<br />
og kovarians, som alle omtales nedenfor.<br />
Definition 2.16 Lad X være en stokastisk variable og lad g : R → R være en funktion, s˚ aledes<br />
at Y = g(X) er en stokastisk variabel.<br />
Hvis X er en diskret stokastisk variabel med støtte i {xi : i ∈ I}, defineres middelværdien af<br />
Y = g(X) som<br />
forudsat at summen ∑i∈I |g(xi)| f(xi) er endelig. Specielt er<br />
forudsat at summen ∑i∈I |xi| f(xi) er endelig.<br />
EY = Eg(X) = ∑g(xi) f(xi), (2.33)<br />
i∈I<br />
EX = ∑xi f(xi), (2.34)<br />
i∈I<br />
Hvis X er en kontinuert stokastisk variabel, defineres middelværdien af Y = g(X) som<br />
EY = Eg(X) =<br />
∞<br />
forudsat at integralet ∞<br />
−∞ |g(x)| f(x)dx er endeligt. Specielt er<br />
EX =<br />
∞<br />
−∞<br />
−∞<br />
g(x) f(x)dx, (2.35)<br />
x f(x)dx, (2.36)<br />
forudsat at integralet ∞<br />
−∞ |x| f(x)dx er endeligt.<br />
Lad X = (X1,...,Xk) være en stokastisk vektor. Hvis de k komponenter i X alle har middel-<br />
værdi, kaldes vektoren<br />
EX = (EX1,...,EXk)<br />
best˚ aende af middelværdierne for middelværdivektoren for X.<br />
Hvis h : Rk → R være en funktion, s˚ aledes at Y = h(X) er en stokastisk variabel har vi i<br />
analogi med (2.33) og (2.35) følgende definitioner:<br />
Hvis X er en diskret stokastisk vektor med støtte i {xi : i ∈ I}, defineres middelværdien af<br />
Y = h(X) som<br />
EY = Eh(X) = ∑h(xi) f(xi),<br />
i∈I
forudsat at summen ∑i∈I |h(xi)| f(xi) er endelig.<br />
Hvis X er en kontinuert stokastisk vektor, defineres middelværdien af Y = h(X) som<br />
2.27<br />
EY = Eh(X) =<br />
<br />
h(x) f(x)dx,<br />
Rk (2.37)<br />
forudsat at integralet <br />
Rk |h(x)| f(x)dx er endeligt. <br />
Bemærkning<br />
Da ∑ f(xi) = 1, ses det af formel (2.34), at EX kan skrives som<br />
i∈I<br />
EX =<br />
∑ xi f(xi)<br />
i∈I<br />
∑ f(xi)<br />
i∈I<br />
,<br />
det vil sige, at middelværdien af en diskret stokastisk X er et vægtet gennemsnit af de værdier<br />
xi, som X kan antage, med vægte f(xi), som er sandsynligheden for at X antager værdien xi, og<br />
EX er en central værdi i fordelingen for X.<br />
En lignende fortolkning af middelværdien EX for en kontinuert stokastisk variabel X baserer<br />
sig p˚ a formel (2.36), idet ∞<br />
f(x)dx = 1.<br />
−∞<br />
Sætning 2.12 Hvis X og Y er stokastiske variable med middelværdi er<br />
og<br />
E(X +Y) = EX + EY (2.38)<br />
E(a+bX) = a+bEX, hvor a,b ∈ R er konstanter. (2.39)<br />
Hvis X og Y er uafhængige stokastiske variable og g og h er funktioner, er<br />
E{g(X)h(Y)} = Eg(X)Eh(Y),<br />
forudsat at middelværdierne eksisterer. Hvis specielt g(x) = x og h(y) = y er<br />
E{X Y } = EX EY.<br />
Definition 2.17 Lad X og Y være stokastiske variable og X = (X1,...,Xk) en stokastisk vektor.<br />
Variansen og standardafvigelsen (spredningen) af X defineres som henholdsvis<br />
Var X = E{(X − EX) 2 }
2.28 2.4 Middelværdi og varians<br />
og<br />
og<br />
Størrelserne<br />
σ(X) = √ Var X.<br />
Cov(X,Y) = E{(X − EX)(Y − EY)}<br />
Cor(X,Y) = Cov(X,Y)<br />
√ Var X √ VarY<br />
(∈ [−1,1])<br />
omtales som henholdsvis kovariansen og korrelationen mellem X og Y mens (k × k) matricen<br />
med elementer<br />
(CovX)i j =<br />
Cov(Xi,Xj) hvis i = j<br />
Var Xi<br />
hvis i = j<br />
kaldes kovariansmatricen for X. <br />
Bemærkning<br />
Som bemærket ovenfor kan middelværdien EX af en stokastisk variable betragtes som en slags<br />
gennemsnit af de mulige værdier af X. For at beskrive hvorledes X varierer omkring EX synes<br />
det naturligt at betragte den stokastiske variabel (X − EX) 2 . Variansen Var X ses blot at være<br />
middelværdien af denne stokastiske variabel.<br />
P˚ a samme m˚ ade varierer den stokastiske vektor (X,Y) omkring (EX,EY). Middelværdien<br />
af den stokastiske variabel (X − EX)(Y − EY), kovariansen Cov(X,Y) mellem X og Y, er et<br />
m˚ al for sammenhængen mellem værdierne af X og Y og korrelationen Cor(X,Y) mellem X<br />
og Y m˚ aler denne sammenhæng relativt til variationen af X og Y . Af definitionen fremg˚ ar, at<br />
korrelationen varierer i intervallet [−1,1]. Hvis korrelationen er tæt p˚ a 1 optræder store (sm˚ a)<br />
værdier af X sammen med store (sm˚ a) værdier af Y , og hvis korrelationen er tæt p˚ a −1 optræder<br />
store (sm˚ a) værdier af X sammen med sm˚ a (store) værdier af Y.<br />
Sætning 2.13 Hvis variansen for den stokastiske variabel X eksisterer gælder der:<br />
Var X = EX 2 −(EX) 2 , (2.40)<br />
Var(a+bX) = b 2 Var X, hvor a,b ∈ R er konstanter. (2.41)<br />
Hvis X og Y er stokastiske variable med varians, gælder der:<br />
Var(X +Y) = Var X +VarY + 2Cov(X,Y),<br />
Cov(X,Y) = E (X Y) − EX EY, (2.42)
Hvis desuden X og Y er uafhængige, gælder der, at<br />
og X og Y siges at være ukorrelerede.<br />
Cor(X,Y) = Cov(X,Y) = 0,<br />
Hvis X og Y er ukorrelerede - specielt hvis X og Y er uafhængige - gælder der, at<br />
2.29<br />
Var(X +Y) = Var X +VarY. (2.43)<br />
Sætning 2.14 Antag, at X1,...,Xn er uafhængige og identisk fordelte stokastiske variable med<br />
middelværdi μ og varians σ 2 . Hvis ¯X betegner gennemsnittet (X1 + ···+Xn)/n er<br />
og<br />
Eksempel 2.7 (Fortsat)<br />
E ¯X = μ<br />
Var ¯X =<br />
Ved hjælp af sandsynlighedsfunktionen - side 2.15 - for antallet af point X for hjemmeholdene<br />
σ 2<br />
n .<br />
i de to kampe og formel (2.34) as, f˚ at middelværdien af X er<br />
Da<br />
EX = 0 · 1 2 1 2 2 1 24 8<br />
+ 1 · + 2 · + 3 · + 4 · + 6 · = =<br />
9 9 9 9 9 9 9 3 .<br />
EX 2 = 0 2 · 1<br />
9 + 12 · 2<br />
9 + 22 · 1<br />
9 + 32 · 2<br />
9 + 42 · 2<br />
9 + 62 · 1 92<br />
=<br />
9 9 ,<br />
as f˚ at (2.40), at variansen af X er<br />
Var X = EX 2 −(EX) 2 = 92<br />
9 −<br />
2 8<br />
=<br />
3<br />
92 − 64<br />
=<br />
9<br />
28<br />
9<br />
og at spredningen af X er<br />
Eksempel 2.10 (Fortsat)<br />
σ(X) =<br />
28<br />
9 .<br />
Af sandsynlighedsfunktionen p˚ a side 2.22 for X1 - hjemmeholdets point i den første kamp - og<br />
formel (2.34) ses, at middelværdien for X1 er<br />
EX1 = 0 · 1 1 1 4<br />
+ 1 · + 3 · =<br />
3 3 3 3 .
2.30 2.4 Middelværdi og varians<br />
Da<br />
EX 2 1 = 0 2 · 1<br />
3 + 12 · 1<br />
3 + 32 · 1 10<br />
=<br />
3 3 ,<br />
as f˚ af (2.40), at variansen for X1 er<br />
Var X1 = EX 2 1 −(EX1) 2 = 10<br />
3 −<br />
2 4<br />
=<br />
3<br />
30 − 16<br />
=<br />
9<br />
14<br />
9<br />
samt at spredningen for X1 er<br />
<br />
14<br />
σ(X1) =<br />
9 .<br />
Da X2 - hjemmeholdets point i den anden kamp - har samme fordeling som X1, er<br />
EX2 = 4<br />
3<br />
og Var X2 = 14<br />
9 .<br />
Disse resultater kunne vi have benyttet til af finde middelværdi og varians for hjemmehol-<br />
denes point X i de to kampe, idet X = X1 + X2. Af (2.38) as f˚<br />
og idet X1 og X2 er uafhængige, as f˚ af (2.43), at<br />
EX = EX1 + EX2 = 4 4 8<br />
+ =<br />
3 3 3<br />
Var X = Var X1 +Var X2 = 14<br />
9<br />
+ 14<br />
9<br />
= 28<br />
9 ,<br />
hvilket vi ogs˚ a fandt ovenfor i fortsættelsen af Eksempel 2 .7. <br />
Eksempel 2.9 (Fortsat)<br />
Middelværdien for en stokastisk variable X, der er uniformt fordelt p˚ a ]0,1[, finder vi ved hjælp<br />
af formel (2.36) og tæthedsfunktionen p˚ a side 2.18 til<br />
Da<br />
as f˚ af (2.40), at variansen af X er<br />
og dermed at spredningen af X er<br />
EX =<br />
EX 2 =<br />
1<br />
0<br />
1<br />
0<br />
x · 1dx =<br />
x 2 · 1dx =<br />
<br />
1<br />
2 x2<br />
1 =<br />
0<br />
1<br />
2 .<br />
<br />
1<br />
3 x3<br />
1 =<br />
0<br />
1<br />
3<br />
VarX = EX 2 −(EX) 2 = 1<br />
3 −<br />
2 1<br />
=<br />
2<br />
4 − 3 1<br />
=<br />
12 12<br />
σ(X) =<br />
<br />
1<br />
. <br />
12
Eksempel 2.12 (Fortsat)<br />
De marginale tæthedsfunktioner for en stokastisk vektor (X1,X2) der er uniformt fordelt p˚ a<br />
mængden E = {(x1,x2) ∈ R2 : 0 < x2 < x1 < 1} findes p˚ a side 2.12. Ved hjælp af disse og<br />
formel (2.40) as, f˚ at<br />
og<br />
Da endvidere<br />
og<br />
EX 2 2 =<br />
as f˚ ved hjælp af (2.40), at<br />
og<br />
EX2 =<br />
EX1 =<br />
1<br />
0<br />
EX 2 1 =<br />
1<br />
0<br />
1<br />
0<br />
x12x1dx1 =<br />
x22(1 − x2)dx2 =<br />
1<br />
0<br />
x 2 1 2x1dx1 =<br />
x 2 22(1 − x2)dx2 =<br />
Var X1 = EX 2 1 −(EX1) 2 = 1<br />
2 −<br />
Var X2 = EX 2 2 −(EX2) 2 = 1<br />
6 −<br />
<br />
1<br />
3<br />
<br />
2<br />
3 x3 1 1 =<br />
0<br />
2<br />
3<br />
<br />
x 2 2<br />
2 −<br />
3 x3 1 2 =<br />
0<br />
1<br />
3 .<br />
<br />
2<br />
4 x4 1 1 =<br />
0<br />
2 1<br />
=<br />
4 2<br />
<br />
2<br />
3 x3 2<br />
2 −<br />
4 x4 1 2 =<br />
0<br />
2 2 1<br />
− =<br />
3 4 6 ,<br />
2 2<br />
=<br />
3<br />
9 − 8 1<br />
=<br />
18 18<br />
2<br />
= 3 − 2<br />
18<br />
= 1<br />
18 .<br />
2.31<br />
For at finde kovariansen mellem X1 og X2 benytter vi (2.42) og starter derfor med at finde<br />
E(X1X2). Af (2.37) as, f˚ at<br />
E(X1X2) =<br />
=<br />
=<br />
∞<br />
∞<br />
−∞ −∞<br />
1<br />
0<br />
1<br />
0<br />
x1(<br />
x1x2 f (X1,X2)(x1,x2)dx2dx1 =<br />
x1<br />
0<br />
x 3 1 dx1 =<br />
2x2dx2)dx1 =<br />
1<br />
0<br />
<br />
1<br />
4 x4 1 1 =<br />
0<br />
1<br />
4 .<br />
Af (2.42) as f˚ herefter, at kovariansen mellem X1 og X2 er<br />
1<br />
0<br />
<br />
2 x1<br />
x1 x2 0 dx1<br />
<br />
0<br />
x1<br />
x1x22dx2dx1<br />
Cov(X1,X2) = E(X1X2) − EX1EX2 = 1 2 1 9 − 8 1<br />
− · = =<br />
4 3 3 36 36 ,<br />
og dermed at korrelationen mellem X1 og X2 er<br />
Cor(X1,X2) = Cov(X1,X2)<br />
1<br />
√ = 36<br />
Var X1Var X2 1 1<br />
18 18<br />
= 1<br />
. <br />
2
2.32 Opgaver<br />
Opgaver til Kapitel 2<br />
Opgave 2.1 Lad A og B være hændelser s˚ aledes, at P(A) = 0.6,P(B) = 0.5 og P(A ∪ B) =<br />
0.8. Find sandsynlighederne for følgende hændelser: A ∩ B, A c , B c ,A c ∩ B c og A c ∪ B c . Vink:<br />
A c ∩ B c =(A ∪ B) c og A c ∪ B c =(A ∩ B) c .<br />
Opgave 2.2 Hvor mange udfald har spillet ”kast med 3 mønter”?<br />
Betragt den uniforme sandsynlighedsm˚ al p˚ a udfaldsrumme t, det vil sige antag at alle udfald<br />
er lige sandsynlige og beregn:<br />
a) sandsynligheden for at alle mønter viser plat,<br />
b) sandsynligheden for at mindst en mønt viser krone,<br />
c) sandsynligheden for at netop en mønt viser krone.<br />
Besvar samme spørgsm˚ al for spillet ”kast med n mønter”. Hvor stor skal n være, for at<br />
sandsynligheden for at af˚ mindst en krone er større end 95%?<br />
Opgave 2.3 Betragt spillet ”kast med 3 terninger”. Betragt det uniforme sandsynlighedsm˚ al p˚ a<br />
udfaldsrummet og beregn følgende:<br />
a) sandsynligheden for at alle terninger viser 6 øjne,<br />
b) sandsynligheden for at mindst en terning viser 6 øjne,<br />
c) sandsynligheden for at netop en terning viser 6 øjne.<br />
Beregn de samme sandsynligheder for spillet ”kast med n terninger” og bestem det mindste<br />
n s˚ aledes, at sandsynligheden for at mindst en terning viser 6 øjne er større end 95%.<br />
Opgave 2.4 Betragt det uniforme sandsynlighedsm˚ al p˚ a E =[0,10] og hændelserne A =[0,5],B =<br />
[1,7] og C = [4,9].<br />
Undersøg om A og B er uafhængige, om A og C er uafhængige, og om B og C er uafhængige.<br />
Opgave 2.5 I en h˚ andboldklub er der i aldersklassen 12-14ar ˚ 30% piger og 70% drenge og<br />
10% af pigerne er venstreh˚ andede mens den tilsvarende proc ent for drengene er 20.<br />
a) Hvad er sandsynligheden for at en venstreh˚ andet spiller er en pige?<br />
b) Hvad er sandsynligheden for at en højreh˚ andet spiller er en dreng?<br />
Opgave 2.6 En af de klassiske illustrationer af Bayes formel vedrører 3 kommoder, der hver<br />
har to skuffer. I den første kommode er der en guldmønt i hver af de to skuffer, i den anden<br />
kommode er der en guldmønt i den ene skuffe og en sølvmønt i den anden og endelig er der en
2.33<br />
sølvmønt i hver af skufferne i den tredje kommode. En af kommoderne vælges tilfældigt og en<br />
skuffeabnes ˚ og viser sig at indeholde en guldmønt. Hvad er s andsynligheden for at den anden<br />
skuffe ogs˚ a indeholder en guldmønt?<br />
Gæt først p˚ a hvad sandsynligheden er og beregn den dernæst v ed hjælp af Bayes formel.<br />
Opgave 2.7 Der kastes to terninger samtidigt. Lad Y være den stokastiske variabel Y = X1+X2,<br />
hvor X1 er antal øjne p˚ a terning 1 og X2 er antal øjne p˚ a terning 2.<br />
a) Tegn udfaldsrummet E for kastet med de to terninger og udfaldsrummet for Y i samme<br />
diagram.<br />
b) Bestem sandsynlighedsfunktionen for Y , det vil sige punktsandsynlighederne f(y) =<br />
P(Y = y) for alle mulige observerbare værdier y af Y .<br />
c) Hvad er sansynligheden for, at summen af øjne p˚ a de to tern inger er 7, og at summen<br />
er større end 7?<br />
d) Hvad er forskellen p˚ a sandsynligheden for 2 3’ere, og san dsynligheden for Y = 6?<br />
Opgave 2.8 Antag, at X ∼ R(0,1). Find sandsynligheden for følgende hændelser:<br />
a) 0.2 ≤ X ≤ 0.8<br />
b) X ≥ 0.7<br />
c) 0.2 ≤ X ≤ 0.8 og X ≥ 0.7<br />
d) 0.2 ≤ X ≤ 0.8 eller X ≥ 0.7.<br />
Opgave 2.9 Et jokertal er et syvcifret tal, hvor hvert ciffer er et af tallene 0,1,...,9. Spiller<br />
man JOKER er antallet af rigtige lig med antallet af cifre fra højre mod venstre, der stemmer<br />
overens med jokertallet. Er jokertallet for eksempel 1234567 og man har tallet 6494567 er der<br />
fire rigtige. Har man derimod tallet 1234569 har man ingen rigtige.<br />
uger?<br />
uger?<br />
idet<br />
a) Find sandsynligheden for at have henholdsvis 1,2,3,4,5,6,7 og 0 rigtige.<br />
b) Hvad er sandsynligheden for at have mindst 4 rigtige?<br />
Antag, at man spiller JOKER i tre p˚ a hinanden følgende uger.<br />
c) Hvad er sandsynligheden for at have mindst 4 rigtige i præcis én gang i løbet af de tre<br />
d) Hvad er sandsynligheden for at have mindst 4 rigtige i mindst én gang i løbet af de tre<br />
e) Beregn sandsynlighederne i spørgsm˚ al a) og b) ved hjælp a f funktion POTENS i Excel,<br />
x n =POTENS(x;n).
2.34 Opgaver<br />
I Excel kan binomialkoefficenten, der for ikke-negative tal n og x med n ≥ x er<br />
<br />
n n!<br />
=<br />
x x!(n − x)! ,<br />
hvor x! = 1 · 2 · ···· x, hvis x > 0 og hvor 0! = 1, beregnes ved hjælp af funktionenKOMBIN som<br />
<br />
n<br />
=KOMBIN(n;x).<br />
x<br />
<br />
n<br />
Binomialkoefficienten angiver - som bekendt - antallet af m˚ ader hvorp˚ a man kan udt age<br />
x<br />
en delmængde best˚ aende af x elementer fra en mængde best˚ aende af n elementer.<br />
Opgave 2.10 Betragt en tipskupon best˚ aende af 13 kampe.<br />
a) Gør rede for, at antallet af forskellige tegnfordelinger er<br />
3 13 .<br />
b) Lad x være et af tallene 0,1,...,13. Gør rede for, at antallet af tegnfordelinger med x<br />
rigtige er<br />
<br />
13<br />
1<br />
x<br />
x · 2 13−x .<br />
c) Lad X angive antallet af rigtige tegn, hvis tipskuponen udfyldes tilfældigt. Vis, at<br />
P(X = x) =<br />
13<br />
x<br />
1<br />
3<br />
og beregn disse sandsynligheder ved hjælp af Excel.<br />
x 13−x 2<br />
, x = 0,1,...,13,<br />
3<br />
Opgave 2.11 Lav de samme beregninger som i Opgave 2.10 for en tipskupon best˚ aende af 12<br />
kampe.<br />
Opgave 2.12 P˚ a ODDSET kan man spille systemet ”3 ud af 4” p˚ a DEN LANGE, det vil sige,<br />
at man ar f˚ udbetalt gevinst, hvis man tipper mindst 3 ud af 4 k ampe rigtige. Hvad er sandsyn-<br />
ligheden for gevinst, hvis tegnene i de 4 kampe vælges tilfældigt?<br />
Opgave 2.13 En række i LOTTO best˚ ar af 7 af de første 36 hele positive tal.<br />
a) Gør rede for, at antallet af mulige rækker er<br />
<br />
36<br />
.<br />
7
) Lad x være et af tallene 0,1,...,7. Gør rede for, at antallet af rækker med x rigtige er<br />
<br />
7 29<br />
.<br />
x 7 − x<br />
2.35<br />
c) Lad X betegne antallet af rigtige p˚ a en enkelt række p˚ a lottokup onen hvis de 7 numre<br />
vælges tilfældigt. Vis, at<br />
P(X = x) =<br />
og beregn disse sandsynligheder ved hjælp af Excel.<br />
<br />
7 29<br />
<br />
x 7 − x<br />
<br />
36<br />
7<br />
, x = 0,1,...,7,<br />
Opgave 2.14 Antag, at en tipsekspert angiver følgende procenter for tegnfordelingen i de 13<br />
kampe p˚ a tipskuponen:<br />
kamp 1 X 2<br />
1 70 20 10<br />
2 65 20 15<br />
3 40 20 40<br />
4 50 10 40<br />
5 50 30 20<br />
6 10 30 60<br />
7 75 20 5<br />
8 70 15 15<br />
9 60 20 20<br />
10 55 30 15<br />
11 30 50 20<br />
12 45 30 25<br />
13 40 35 25<br />
Lav ved hjælp af Excel funktionen SLUMP, der frembringer tilfældige tal, en tipskupon ud<br />
fra tipsekspertens procentfordeling.<br />
Opgave 2.15 A er en hændelse med sandsynlighed p. X er en stokastisk variabel, defineret ved<br />
X(e) =<br />
1, hvis e ∈ A<br />
−1, hvis e ∈ A c .<br />
Tegn fordelingsfunktionen for X. Vis, at EX = 2p − 1 og at VarX = 4p(1 − p).
2.36 Opgaver<br />
Opgave 2.16 I mange hasardspil vædder man om, at en hændelse A indtræffer. Gevinsten ved<br />
indsatsen 1 er<br />
⎧<br />
⎨ 1 − p<br />
, hvis e ∈ A<br />
X(e) = p<br />
⎩<br />
−1 hvis e ∈ Ac ,<br />
hvor p = P(A). Vis, at EX = 0. Vis desuden, at VarX = (1− p)/p samt at variansen vokser, n˚ ar<br />
p aftager.<br />
Opgave 2.17 En todimensionel diskret stokastisk vektor (X,Y) har sandsynlighedsfunktion<br />
som anført i nedenst˚ aende skema<br />
X\Y 0 1 2<br />
0 0.10 0.05 0.10<br />
1 0.10 0.10 0.10<br />
2 0.07 0.08 0.05<br />
3 0.05 0.12 0.08<br />
a) Find sandsynlighedsfunktionen for X og beregn EX [1.45] og Var X [1.2475].<br />
b) Find sandsynlighedsfunktionen for Y og beregn EY [1.01] og Var Y [0.6499].<br />
c) Find E(XY) [1.50] og Cov (X,Y) [0.0355].<br />
d) Er X og Y uafhængige?<br />
Opgave 2.18 Lad den simultane tæthedsfunktion for X1 og X2, begge med udfaldsrum (0,+∞),<br />
være givet ved<br />
f (X1,X2)(x1,x2) = λ1λ2e −(λ1x1+λ2x2) .<br />
a) Vis at b˚ ade X1’s og X2’s marginale fordeling er en eksponentialfordeling.<br />
b) Hvad er parameterne i X1’s og X2’s marginale fordelinger?<br />
c) Er X1 og X2 uafhængige?<br />
Opgave 2.19 Lad den simultane tæthedsfunktion for X1 og X2, med udfaldsrum {0 ≤ X1 ≤ 1}og<br />
{0 ≤ X2 ≤ 1}, være givet ved<br />
f (X1,X2)(x1,x2) = x1 + x2.<br />
a) Bestem de marginale fordelinger af X1 og X2.<br />
b) Er X1 og X2 uafhængige?<br />
c) Beregn middelværdi og varians af X1 og X2 samt korrelationen mellem X1 og X2.
3 Specielle fordelinger 3.1<br />
3 Specielle fordelinger<br />
I Kapitel 2 blev begreberne diskrete og kontinuerte fordelinger, middelværdi og varians intro-<br />
duceret. Som nævnt i kapitlet blev eksemplerne til illustration af disse begreber ikke valgt ud<br />
fra et anvendelsessynspunkt men derimod s˚ aledes at de fra e t matematisk synpunkt var simple.<br />
I dette kapitel introduceres de fordelinger som oftest anvendes i statistik. Kapitlet skal ses som<br />
et lille katalog over definitionen af og egenskaber ved fordelingerne, hvorimod anvendelsen af<br />
nogle af fordelingerne omtales i senere kapitler.<br />
De kontinuerte fordelinger, der omtales i Afsnit 3.1 er alle relateret til den vigtigste for-<br />
deling i statistikken, nemlig normalfordelingen. Enkelte af de relatere fordelinger er dog ogs˚ a<br />
af selvstændig interesse. Foruden definitionen af fordelingerne omtales deres middelværdi og<br />
varians, deres relation til normalfordelingen, tabelopslag i Statistical Tables samt beregninger i<br />
Excel.<br />
For de diskrete fordelinger i Afsnit 3.2 omtales foruden definitionen ogs˚ a beregningsformler<br />
for sandsynlighedsfunktionen, middelværdi og varians samt beregninger i Excel.<br />
3.1 Normalfordelingen og relaterede fordelinger<br />
3.1.1 Normalfordelingen<br />
Definition<br />
En kontinuert stokastisk variabel X er normalfordelt med middelværdi μ (∈ R) og varians<br />
σ 2 (> 0), hvis tæthedsfunktionen for X er<br />
fX(x) =<br />
1<br />
√ 2πσ 2<br />
− μ)2<br />
e−(x2σ 2<br />
, x ∈ R. (3.1)<br />
Fordelingen betegnes N(μ,σ 2 ), og hvis X har tæthedsfunktionen (3.1) skriver vi X ∼ N(μ,σ 2 ).<br />
Fordelingen N(0,1) refereres til som standard normalfordelingen eller u-fordelingen. Dens<br />
tæthedsfunktion betegnes traditionelt med ϕ og fordelingsfunktionen med Φ, det vil sige<br />
ϕ(x) = 1<br />
√ 2π e −x2<br />
2 , x ∈ R (3.2)
3.2 3.1 Normalfordelingen og relaterede fordelinger<br />
og<br />
Φ(x) =<br />
x<br />
−∞<br />
1<br />
√ 2π e −z2<br />
2 dz, x ∈ R. (3.3)<br />
Tætheden for standard normalfordelingen er symmetrisk omkring 0:<br />
ϕ(−x) = ϕ(x), x ∈ R<br />
og det afspejler sig i fordelingsfunktionen ved at<br />
Φ(−x) = 1 − Φ(x), x ∈ R. (3.4)<br />
Hvis X ∼ N(μ,σ 2 ) kan tæthedsfunktionen og fordelingsfunktionen for X udtrykkes ved de<br />
tilsvarende størrelser for standard normalfordelingen, nemlig som henholdsvis<br />
og<br />
fX(x) = 1 − μ<br />
ϕ(x ) (3.5)<br />
σ σ<br />
FX(x) = Φ(<br />
x − μ<br />
). (3.6)<br />
σ<br />
Figur 3.1 Tæthedsfunktionen for N 0,σ 2 for henholdsvis σ 2 = 0.5, 1.0 og 2.0.<br />
Middelværdi og varians
og<br />
Hvis X ∼ N(μ,σ 2 ) gælder der<br />
Fordelingsresultater<br />
3.3<br />
EX = μ (3.7)<br />
VarX = σ 2 . (3.8)<br />
Lad X1,...,Xn være uafhængige stokastiske variable s˚ a Xi ∼ N(μi,σ 2),<br />
i = 1,...,n. Hvis Y<br />
er en affin funktion af X-erne, det vil sige at Y er af formen<br />
hvor c0,...,cn er konstanter, har vi<br />
Y = c0 + c1X1 + ···+cnXn,<br />
Y ∼ N(c0 + c1μ1 + ···+cnμn,c 2 1σ 2 1 + ···+c2 nσ 2 n ). (3.9)<br />
Hvis yderligere X-erne er identisk fordelte, det vil sige Xi ∼ N(μ,σ 2 ), har vi specielt, at<br />
X· =<br />
Bemærk endelig, at (3.9) medfører, at<br />
Tabeller<br />
n<br />
∑ Xi ∼ N(nμ,nσ<br />
i=1<br />
2 ) og ¯X· = 1<br />
n<br />
X ∼ N(μ,σ 2 ) ⇔<br />
X − μ<br />
σ<br />
n<br />
∑ Xi ∼ N(μ,<br />
i=1<br />
i<br />
σ 2<br />
). (3.10)<br />
n<br />
∼ N(0,1). (3.11)<br />
Hvis up og xp betegner p-fraktilen for henholdsvis N(0,1) fordelingen og N(μ,σ 2 ) forde-<br />
lingen er<br />
up = xp − μ<br />
. (3.12)<br />
σ<br />
Fraktilerne up for standard normalfordelingen har følgende sammenhæng med de s˚ akaldte pro-<br />
bits<br />
Da up = Φ −1 (p) er (3.13) ækvivalent med<br />
probit(p) = up + 5, p ∈ [0,1]. (3.13)<br />
Φ −1 (p) = probit(p) − 5. (3.14)<br />
Med andre ord kan man fra en tabel over probits finde værdien af funktionen Φ og dens inverse<br />
Φ −1 ved hjælp af formlerne (3.13) og (3.14). I mange ældre bøger om sandsynlighedsteori og<br />
statistik var det standard m˚ aden at tabellere funktionern e Φ og Φ−1 . I Statistical Tables findes<br />
der imidlertid direkte tabeller for Φ(side 1) og Φ −1 (siderne 2-4). Ved hjælp af tabellen over Φ<br />
ses det for eksempel, at<br />
Φ(2.57) = 0.9949
3.4 3.1 Normalfordelingen og relaterede fordelinger<br />
og<br />
og<br />
Excel<br />
Φ(−1.96) = 1 − Φ(1.96) = 1 − 0.9750 = 0.0250.<br />
Som en illustration af brugen af tabellen over Φ −1 har vi for eksempel at<br />
Φ −1 (0.005) = −2.576<br />
Φ −1 (0.975) = 1.960.<br />
Hvis X ∼ N(μ,σ 2 ) kan tæthedsfunktionen og fordelingsfunktionen for X beregnes ved<br />
hjælp af funktionenNORMFORDELING, idet<br />
og<br />
fX(x) =NORMFORDELING(x; μ;σ;FALSK)<br />
FX(x) =NORMFORDELING(x; μ;σ;SAND).<br />
Bemærk, at i kaldet af funktionen angives spredningen σ og alts˚ a ikke variansen σ 2 . Specielt<br />
har vi<br />
og<br />
ϕ(x) =NORMFORDELING(x;0;1;FALSK)<br />
Φ(x) =NORMFORDELING(x;0;1;SAND).<br />
Fraktilen xp = F −1 (p) beregnes ved hjælp af funktionenNORMINV, idet<br />
specielt<br />
3.1.2 Den todimensionale normalfordeling<br />
Definition<br />
xp =NORMINV(p; μ;σ)<br />
up =NORMINV(p;0;1).<br />
En kontinuert stokastisk vektor X = (X1,X2) er todimensionalt normalfordelt med middel-<br />
værdi vektor μμμ = (μ1, μ2) og kovariansmatriks<br />
Σ =<br />
σ 2 1 ρσ1σ2<br />
ρσ1σ2<br />
σ 2 2
hvis tætheden for X er<br />
fX(x) =<br />
1<br />
<br />
2π (1 − ρ2 )σ 2 1 σ 2 2<br />
Middelværdi, varians og korrelation<br />
<br />
exp − 1<br />
2(1−ρ2 <br />
(x1−μ1)<br />
)<br />
2<br />
σ 2 −<br />
1<br />
2ρ(x1−μ1)(x2−μ2)<br />
+ σ1σ2<br />
(x2−μ2) 2<br />
Hvis X ∼ N2(μμμ,Σ) er middelværdivektoren og kovariansmatricen for X<br />
Desuden er korrelationen mellem X1 og X2<br />
Marginale og betingede fordelinger<br />
3.5<br />
σ 2 <br />
, x ∈ R<br />
2<br />
2 .<br />
(3.15)<br />
EX = μμμ, (3.16)<br />
CovX = Σ. (3.17)<br />
Cor(X1,X2) = ρ. (3.18)<br />
Hvis X = (X1,X2) ∼ N2(μμμ,Σ) er de marginale fordelinger igen normalfordelinger, idet<br />
Ligeledes er de betingede fordelinger normalfordelinger, idet<br />
og<br />
3.1.3 χ 2 -fordelingen<br />
Definition<br />
Xi ∼ N(μi,σ 2<br />
i ), i = 1,2. (3.19)<br />
X1 |X2 = x2 ∼ N(μ1 +(x2 − μ2) ρσ1<br />
,σ 2 1(1 − ρ 2 )) (3.20)<br />
σ2<br />
X2 |X1 = x1 ∼ N(μ2 +(x1 − μ1) ρσ2<br />
,σ 2 2 (1 − ρ2 )). (3.21)<br />
χ 2 -fordelingen med f frihedsgrader, betegnet χ 2 ( f), er et specialtilfælde af gamma forde-<br />
lingen Γ(α,λ), som er en kontinuert fordeling p˚ a ]0,∞[ med tæthedsfunktion<br />
γ(x;α,λ) =<br />
Her er α > 0, λ > 0 og Γ betegner gamma funktionen<br />
Γ(α) =<br />
σ1<br />
λ α<br />
Γ(α) xα−1 e −λx , x ∈ ]0,∞[. (3.22)<br />
∞<br />
0<br />
x α−1 e −x dx, α > 0.<br />
Mere præcist er χ 2 ( f) = Γ( f/2,1/2). I anvendelser af χ 2 -fordelingen i statistik i modeller<br />
baseret p˚ a normalfordelingen er tæthedsfunktionen for fo rdelingen kun af sekundær interesse,<br />
idet den primære interesse vedrører fordelingens fraktiler.
3.6 3.1 Normalfordelingen og relaterede fordelinger<br />
Figur 3.2 Tæthedsfunktionen for χ 2 ( f) for henholdsvis f = 2, 4, 6 og 8.<br />
Hvis Y er en stokastisk variabel s˚ aledes, at Y/σ 2 ∼ χ2 ( f), siger vi ofte, at Y er σ 2χ 2 ( f) for-<br />
delt og hvis Z er en stokastisk variabel s˚ a f Z/σ 2 ∼ χ2 ( f), siger vi, at Z er σ 2χ 2 ( f)/ f fordelt.<br />
Middelværdi og varians<br />
og<br />
Hvis X ∼ χ 2 ( f) gælder der, at<br />
Fordelingsresultater<br />
Hvis X1 og X2 er uafhængige stokastiske variable gælder der, at<br />
EX = f (3.23)<br />
VarX = 2 f. (3.24)<br />
Xi ∼ χ 2 ( fi), i = 1,2 ⇒ X1 + X2 ∼ χ 2 ( f1 + f2). (3.25)<br />
Den fundamentale sammenhæng mellem normalfordelingen og χ 2 -fordelingen er resultatet:<br />
U ∼ N(0,1) ⇒ U 2 ∼ χ 2 (1). (3.26)<br />
Ved at kombinere resultaterne (3.11), (3.25) og (3.26) ses det, at hvis X1,...,Xn er uafhængige<br />
og N(μ,σ 2 ) fordelte, da er<br />
n (Xi − μ)<br />
∑<br />
i=1<br />
2<br />
σ 2<br />
∼ χ 2 (n),
eller ækvivalent hermed<br />
n<br />
∑<br />
i=1<br />
3.7<br />
(Xi − μ) 2 ∼ σ 2 χ 2 (n). (3.27)<br />
Erstattes middelværdien μ med gennemsnittet ¯X· = (X1 + ··· + Xn)/n af X-erne kan det<br />
vises, at<br />
n<br />
∑<br />
i=1<br />
og, yderligere, at de stokastiske variable ¯X· og n<br />
∑<br />
fra (3.28), at<br />
s 2 (X) = 1<br />
n − 1<br />
(Xi − ¯X·) 2 ∼ σ 2 χ 2 (n − 1) (3.28)<br />
n<br />
∑<br />
i=1<br />
i=1<br />
(Xi − ¯X·) 2 er stokastisk uafhængige. Det følger<br />
(Xi − ¯X·) 2 ∼ σ 2 χ 2 (n − 1)/(n − 1) (3.29)<br />
samt at de to stokastiske variable ¯X· og s 2 (X), der i statistik benyttes som estimatorer for hen-<br />
holdsvis middelværdien μ og variansen σ 2 , er stokastisk uafhængige.<br />
Tabeller<br />
Fordelingerne χ2 ( f) og χ2 ( f)/ f er tabelleret i Statistical Tables p˚ a siderne 6-9 og siderne<br />
10-13. Som illustrationer har vi - med indlysende notation - at<br />
og<br />
Excel<br />
F χ 2 (3) (7.81) = 0.95,<br />
F −1<br />
χ2 (0.60) = 8.35,<br />
(8)<br />
F χ 2 (5)/5 (0.1662) = 0.025<br />
F −1<br />
χ2 (0.95) = 1.7522.<br />
(12)/12<br />
Fordelingsfunktionen og fraktiler i fordelingerne χ 2 ( f) og χ 2 ( f)/ f kan beregnes ved hjælp<br />
af funktionerneCHIFORDELING ogCHIINV, idet<br />
og<br />
F χ 2 ( f) (x) =1 −CHIFORDELING(x;f),<br />
F χ 2 ( f)/ f (x) =1 −CHIFORDELING(f ·x;f),<br />
F −1<br />
χ2 (p) =CHIINV(1 −p;f)<br />
( f)<br />
F −1<br />
χ2 (p) =CHIINV(1 −p;f)/f.<br />
( f)/ f<br />
Bemærk, at begge funktioner beregner halesandsynligheder og der justeres for dette i de fire<br />
formler ovenfor.
3.8 3.1 Normalfordelingen og relaterede fordelinger<br />
3.1.4 t-fordelingen<br />
Definition<br />
Hvis U og Z er to uafhængige stokastiske variable s˚ aledes at U ∼ N(0,1) og Z ∼ χ2 ( f)/ f,<br />
er størrelsen<br />
t = U √ Z<br />
(3.30)<br />
t-fordelt med f frihedsgrader og vi skriver t ∼ t( f). Symbolsk kan definitionen af t-fordelingen<br />
gengives som<br />
t( f) = N(0,1)<br />
χ 2 ( f)/ f ,<br />
hvis vi husker p˚ a at nævner og tæller symboliserer uafhængige stokastiske variable.<br />
Fordelingen kaldes undertiden Student fordelingen eller Student’s t-fordeling.<br />
Som for χ 2 -fordelingen er det fraktilerne for t( f)-fordelingen, der er af primær interesse i<br />
forbindelse med inferens i modeller baseret p˚ a normalford elingen, og ikke selve tæthedfunktio-<br />
nen, som er<br />
f t( f)(x) =<br />
hvor B betegner beta funktionen<br />
B(α1,α2) =<br />
1<br />
√ f B(1/2, f/2) (1+ f −1 x 2 ) −( f+1)/2 , x ∈ R,<br />
1<br />
0<br />
x α1−1 α2−1 Γ(α1)Γ(α2)<br />
(1 − x) dx = . (3.31)<br />
Γ(α1 + α2)<br />
t( f)-fordelingen konvergerer i fordeling mod N(0,1) fordelingen for f → ∞.<br />
Fordelingsresultater<br />
Antag, at X1,...,Xn er uafhængige og identisk N(μ,σ 2 ) fordelte og lad ¯X· og s 2 (X) betegne<br />
henholdsvis den empiriske middelværdi og varians. Det følger da af (3.10), (3.29) og (3.30)<br />
samt af uafhængigheden af ¯X· og s 2 (X), at<br />
Tabeller<br />
t = ¯X· − μ<br />
∼ t(n − 1). (3.32)<br />
s2 (X)/n<br />
Tætheden for t( f)-fordelingen er symmetrisk omkring 0,og det medfører, at<br />
F t( f)(−x) = 1 − F t( f)(x), x ∈ R, (3.33)<br />
hvor F t( f) betegner fordelingsfunktionen for t( f)-fordelingen. Hvis tp( f) betegner p-fraktilen<br />
for t( f)-fordelingen medfører formel (3.33), at<br />
t1−p( f) = −tp( f), p ∈ ]0,1[. (3.34)
Figur 3.3 Tæthedsfunktionen for t ( f) for henholdsvis f = 1, 2, 4 og 8.<br />
P˚ a grund af (3.34) er det nok at tabellere p-fraktilerne for t( f)-fordelingen for p ≥ 0.5. En s˚ adan<br />
tabel findes p˚ a side 5 i Statistical Tables. For eksempel har vi<br />
hvilket ved hjælp af (3.33) giver<br />
Desuden har vi for eksempel at<br />
og derfor - ved hjælp af (3.34) - at<br />
F t(6)(1.440) = 0.90,<br />
F t(6)(−1.440) = 0.10.<br />
t0.975(17) = F −1<br />
t(17) (0.975) = 2.110<br />
t0.025(17) = F −1<br />
t(17) (0.025) = −2.110.<br />
Endelig bør man være opmærksom p˚ a, at den sidste række i tabe llen giver mulighed for at<br />
finde sandsynligheder af formen P(|t( f)| ≥ x), hvor t( f) symboliserer en t( f) fordelt stokastisk<br />
variabel. Som illustration har vi<br />
P(|t(10)| ≥ 1.372) = 0.20.<br />
3.9
3.10 3.1 Normalfordelingen og relaterede fordelinger<br />
Excel<br />
FunktionenTFORDELING beregner to forskellige sandsynligheder afhængig af det tredje ar-<br />
gument i kaldet af funktionen. Da<br />
beregnes fordelingsfunktionen som<br />
og - ved hjælp af (3.33) - som<br />
Benyttes2som tredje argument beregnes<br />
TFORDELING(x;f;1) = P(t( f) ≥ x), x ≥ 0,<br />
F t( f)(x) =1 −TFORDELING(x;f;1), hvis x ≥ 0<br />
F t( f)(x) =TFORDELING(−x;f;1), hvis x < 0.<br />
TFORDELING(x;f;2) = P(|t( f)| ≥ x), x ≥ 0.<br />
Værdien af funktionenTINV er bestemt ved ligningen<br />
s˚ a fraktilerne kan beregnes som<br />
3.1.5 F-fordelingen<br />
Definition<br />
tp( f) = F −1<br />
t( f) (p) =<br />
p = P(|t( f)| ≥TINV(p;f)),<br />
TINV(2 ∗(1 −p);f), hvis p ≥ 0.5<br />
−TINV(2 ∗p;f), hvis p < 0.5.<br />
Lad Z1 og Z2 være to uafhængige stokastiske variable s˚ a Zi ∼ χ2 ( fi)/ fi, i = 1,2. Da er den<br />
stokastiske variabel<br />
F = Z1<br />
Z2<br />
(3.35)<br />
F-fordelt med ( f1, f2) frihedsgrader, eller med f1 frihedsgrader i tælleren og f2 frihedgrader i<br />
nævneren. (I dansk litteratur betegnes fordelingen undertiden som v 2 -fordelingen med ( f1, f2)<br />
frihedsgrader eller kort v 2 ( f1, f2).) Symbolsk er definitionen<br />
F( f1, f2) = χ2 ( f1)/ f1<br />
χ2 ,<br />
( f2)/ f2<br />
hvor tæller og nævner symboliserer uafhængige stokastiske variable.
Figur 3.4 Tæthedsfunktionen for F (10, f2) for henholdsvis f2 = 2, 4, 8 og 16.<br />
3.11<br />
Igen er det fordelingens fraktiler, der er af størst interesse i statistisk inferens. Tætheden for<br />
F( f1, f2) fordelingen er<br />
f f1/2<br />
1<br />
f f2/2<br />
2<br />
fF( f1, f2)(x) =<br />
B( f1/2, f2/2) x f1/2−1<br />
( f2 + f1x) −( f1+ f2)/2<br />
, x > 0,<br />
hvor B er beta funktionen givet i formel (3.31).<br />
Fordelingsresultater<br />
I statistik dukker fordelingen op i variansanalyse samt hvor man ønsker at sammenligne to<br />
empiriske varianser i en model baseret p˚ a normalfordeling en. Antag for eksempel, at X1,...,Xn<br />
og Y1,...,Ym er uafhængige stokastiske variable, s˚ aledes at Xi ∼ N(μX,σ 2 ), i = 1,...,n og Yj ∼<br />
N(μY,σ 2 ), j = 1,...,m. Bemærk, at variansen er antaget ens for samtlige stokastiske variable.<br />
Af (3.29) as f˚ for de empiriske varianser s2 (X) og s2 (Y) at<br />
og<br />
s 2 (X) = 1<br />
n − 1<br />
s 2 (Y) = 1<br />
m − 1<br />
n<br />
∑<br />
i=1<br />
m<br />
∑<br />
j=1<br />
(Xi − ¯X·) 2 ∼ σ 2 χ 2 (n − 1)/(n − 1)<br />
(Yj − ¯Y·) 2 ∼ σ 2 χ 2 (m − 1)/(m − 1).
3.12 3.2 Diskrete fordelinger<br />
Da s2 (X) og s2 (Y) er stokastiske uafhængige as f˚ af formel (3.35), at<br />
F = s2 (X)<br />
s2 ∼ F(n − 1,m − 1).<br />
(Y)<br />
Endelig medfører formlerne (3.26), (3.30) og (3.35), at<br />
Tabeller<br />
Af (3.35) ses, at<br />
t ∼ t( f) ⇒ t 2 ∼ F(1, f). (3.36)<br />
Y ∼ F( f1, f2) ⇒ 1<br />
Y ∼ F( f2, f1),<br />
der bevirker følgende relation mellem p-fraktilen Fp( f1, f2) for F( f1, f2) fordelingen og (1− p)-<br />
fraktilen for F fordelingen hvor der er byttet om p˚ a frihedsgraderne i tæll er og nævner:<br />
Fp( f1, f2) =<br />
1<br />
. (3.37)<br />
F1−p( f2, f1)<br />
Det er derfor tilstrækkeligt at tabellere fraktilerne for F-fordelingen for værdier af p ≥ 0.5. Si-<br />
derne 14-49 i Statistical Tables indeholder p-fraktiler for F-fordelingen for forskellige værdier<br />
af p. Med indlysende notation har vi for eksempel<br />
og<br />
Excel<br />
F −1<br />
F(9,15) (0.95) = 2.59<br />
F F(13,6)(7.66) = 0.99.<br />
Fordelingfunktion og fraktiler for F-fordelingen beregnes ved hjælp af funktionerneFFORDELING<br />
ogFINV, idet<br />
og<br />
3.2 Diskrete fordelinger<br />
3.2.1 Binomialfordelingen<br />
Definition<br />
F F( f1, f2)(x) =1 −FFORDELING(x;f 1 ;f2)<br />
Fp( f1, f2) = F −1<br />
F( f1, f2) (p) =FINV(1 −p;f 1 ;f2)
3.13<br />
Binomialfordelingen med antalsparameter n (helt positivt tal) og sandsynlighedsparameter<br />
p betegnes ofte b(n, p). Idet x! (udtales: x falkultet) er defineret som x! = 1 · 2 · ···· x hvis x > 0<br />
og som 0! = 1, hvis x = 0, er punktsandsynlighederne for binomialfordelingen<br />
<br />
n<br />
b(x;n, p) = p<br />
x<br />
x (1 − p) n−x , x = 0,1,...,n, (3.38)<br />
hvor <br />
n n!<br />
=<br />
x x!(n − x)! .<br />
Hvis X er en stokastisk variabel, som er binomialfordelt, skriver vi ofte X ∼ b(n, p).<br />
Beregning af punktsandsynligheder<br />
eller<br />
Af (3.38) ses, at<br />
b(x+1;n, p)<br />
b(x;n, p)<br />
n − x p<br />
= , x = 0,1,...,n − 1,<br />
x+1 1 − p<br />
n − x p<br />
b(x+1;n, p) = b(x;n, p), x = 0,1,...,n − 1. (3.39)<br />
x+1 1 − p<br />
Ved hjælp af (3.39) kan punktsandsynlighederne beregnes rekursivt i h˚ anden, idet<br />
Middelværdi og varians<br />
og<br />
Excel<br />
Hvis X ∼ b(n, p) gælder der<br />
b(0;n, p) = (1 − p) n . (3.40)<br />
EX = np (3.41)<br />
VarX = np(1 − p). (3.42)<br />
I Excel kan punktsandsynlighederne og fordelingsfunktionen for b(n, p) beregnes ved hjælp<br />
af funktionenBINOMIALFORDELING p˚ a følgende m˚ ade:<br />
Eksempel 3.1<br />
F b(n,p)(x) =<br />
b(x;n, p) =BINOMIALFORDELING(x;n;p;FALSK)<br />
x<br />
∑ b(y;n, p) =BINOMIALFORDELING(x;n;p;SAND).<br />
y=0<br />
Figur 3.5 viser sandsynlighedsfunktionen for b(12, p) for p = 0.05, 0.2 og 0.5. Ved hjælp af
3.14 3.2 Diskrete fordelinger<br />
(3.39) og (3.40) finder vi følgende punktsandsynligheder - med tre decimalers nøjagtighed - for<br />
b(12,0.2), idet p/(1 − p) = 0.2/0.8 = 0.25,<br />
<br />
<br />
<br />
<br />
¡§<br />
¡¢ ¡£ ¡¤ ¡¥ ¡¦<br />
¡<br />
b(0;12,0.2) = 0.8 12 = 0.069<br />
b(1;12,0.2) = 12 1 0.25 b(0;12,0.2) = 0.206<br />
b(2;12,0.2) = 11 2 0.25 b(1;12,0.2) = 0.283<br />
b(3;12,0.2) = 10 3 0.25 b(2;12,0.2) = 0.236<br />
b(4;12,0.2) = 9 4 0.25 b(3;12,0.2) = 0.133<br />
b(5;12,0.2) = 8 5 0.25 b(4;12,0.2) = 0.053<br />
b(6;12,0.2) = 7 6 0.25 b(5;12,0.2) = 0.016<br />
b(7;12,0.2) = 6 7 0.25 b(6;12,0.2) = 0.003<br />
b(8;12,0.2) = 5 8 0.25 b(7;12,0.2) = 0.001<br />
b(9;12,0.2) = 4 9 0.25 b(8;12,0.2) = 0.000<br />
b(10;12,0.2) = 3<br />
10 0.25 b(9;12,0.2) = 0.000<br />
b(11;12,0.2) = 2<br />
11 0.25 b(10;12,0.2) = 0.000<br />
b(12;12,0.2) = 1<br />
12 0.25 b(11;12,0.2) = 0.000<br />
£ ¤ ¥ ¦ § ¨ © ¢ ¢¢¢£ ¢<br />
¦ £ ¦<br />
Figur 3.5 Sandsynlighedsfuktionen for binomialfordelingen b(12, p) med p = 0.05, 0.20 og<br />
<br />
0.50.
3.2.2 Multinomialfordelingen<br />
Definition<br />
3.15<br />
En k-dimensional diskret stokastisk vektor X = (X1,...,Xk) er multinomialfordelt med an-<br />
talsparameter n og sandsynlighedsvektor πππ = (π1, ..., πk), kort X ∼ m(n,πππ), hvis sandsynlig-<br />
hedsfunktionen for X er<br />
<br />
n<br />
P(X = x) =<br />
x1 ···xk<br />
<br />
π x1<br />
1 · ···· πxk<br />
k , for x = (x1,...,xk) ∈ M n k , (3.43)<br />
hvor Mn k er mængden af vektorer i Rk , s˚ aledes at komponenterne er ikke-negative hele tal hvis<br />
sum er n, det vil sige at<br />
I (3.43) er multinomialkoefficienten n<br />
M n k = {x ∈ Rk : x j ∈ {0,1,...,n} og<br />
x1 ···xk<br />
<br />
n!<br />
=<br />
x1! · ···· xk!<br />
k<br />
∑ x j = n}<br />
j=1<br />
og vektoren πππ tilhører mængden Πk af k-dimensionale sandsynlighedsvektorer, det vil sige at<br />
komponenterne af πππ er positive tal hvis sum er 1, eller<br />
Middelværdi, varians og korrelation<br />
πππ ∈ Πk = {πππ : π j > 0 og<br />
k<br />
∑<br />
j=1<br />
π j = 1}.<br />
Hvis X ∼ m(n,πππ) er middelværdivektoren og kovariansmatricen for X = (X1,...,Xk)<br />
⎪⎨<br />
CovX =<br />
⎧<br />
EX = nπππ = (nπ1,...,nπk),<br />
⎫<br />
(3.44)<br />
nπ1(1 − π1) −nπ1π2 ··· −nπ1π j ··· −nπ1πk<br />
⎪⎩<br />
−nπ1π2 nπ2(1 − π2) ··· −nπ2π j ··· −nπ2πk<br />
.<br />
.<br />
. ..<br />
.<br />
. .. .<br />
−nπ1π j −nπ2π j ··· nπ j(1 − π j) ··· −nπ jπk<br />
.. .. .<br />
. . . . .<br />
−nπ1πk −nπ2πk ··· −nπ jπk ··· nπk(1 − πk)<br />
Desuden er korrelationen mellem Xi og Xj for i = j<br />
Cor(Xi,Xj) =<br />
Marginale fordelinger<br />
idet<br />
⎪⎬<br />
. (3.45)<br />
−nπiπ j<br />
<br />
nπ j(1 − π j)nπ j(1 − π j) =<br />
−πiπ j<br />
. (3.46)<br />
π j(1 − π j)π j(1 − π j)<br />
Hvis X ∼ m(n,πππ) er de marginale fordelinger for komponenterne af X binomialfordelinger,<br />
Xj ∼ b(n,πj), j = 1,...,k. (3.47)<br />
⎪⎭
3.16 3.2 Diskrete fordelinger<br />
3.2.3 Poissonfordelingen<br />
Definition<br />
Poissonfordelingen med parameter λ (> 0) betegnes undertiden po(λ). Punktsandsynlig-<br />
hederne er<br />
Beregning af punktsandsynlighederne<br />
eller<br />
Af 3.48 as, f˚ at<br />
Da endvidere<br />
−λ λ x<br />
po(x;λ) = e , x = 0,1,.... (3.48)<br />
x!<br />
po(x+1;λ)<br />
po(x;λ)<br />
λ<br />
= , x = 0,1,...,<br />
x+1<br />
po(x+1;λ) = λ<br />
po(x;λ), x = 0,1,.... (3.49)<br />
x+1<br />
po(0;λ) = e −λ<br />
kan punktsandsynlighederne beregnes rekursivt i h˚ anden.<br />
Middelværdi og varians<br />
og<br />
Excel<br />
og<br />
Hvis X ∼ po(λ) gælder der, at<br />
I Excel kan funktionenPOISSON benyttes, idet<br />
Eksempel 3.2<br />
F po(λ)(x) =<br />
(3.50)<br />
EX = λ (3.51)<br />
VarX = λ. (3.52)<br />
x<br />
∑ po(x;λ) =POISSON(x;λ;SAND), x = 0,1,...,<br />
y=0<br />
po(x;λ) =POISSON(x;λ;FALSK) x = 0,1,... .<br />
Bruger vi (3.49) og (3.50) i forbindelse med Poissonfordelingen med λ = 2 finder vi med fire<br />
decimalers nøjagtighed:
po(0;2) = e −2 = 0.1353<br />
po(1;2) = 2 1 0.1353 = 0.2707<br />
po(2;2) = 2 2 0.2707 = 0.2707<br />
po(3;2) = 2 3 0.2707 = 0.1804<br />
po(4;2) = 2 4 0.1804 = 0.0904<br />
po(5;2) = 2 5 0.0904 = 0.0361<br />
po(6;2) = 2 6 0.0361 = 0.0120<br />
po(7;2) = 2 7 0.0120 = 0.0034<br />
po(8;2) = 2 8 0.0034 = 0.0009<br />
po(9;2) = 2 9 0.0009 = 0.0002<br />
3.17<br />
I princippet skulle vi fortsætte p˚ a samme m˚ ade for x = 10,11,..., men alle disse sandsynlighe-<br />
der bliver mindre end 0.0001. <br />
<br />
<br />
<br />
¡¨ ¡§<br />
¡¢ ¡£ ¡¤ ¡¥ ¡¦<br />
¡<br />
£ ¤ ¥ ¦ § ¨ © ¦ ¢ £<br />
Figur 3.6 Sandsynlighedsfuktionen for Poissonfordelingen po(λ) med λ = 0.5, 1.0 og 2.0.<br />
¢<br />
Sandsynlighederne for x = 0,1,...,9 er vist p˚ a figuren.<br />
3.2.4 Den hypergeometriske fordeling<br />
Den hypergeometriske fordeling<br />
Den hypergeometriske fordeling med parametre M,N og n betegner vi med h(M,N,n). Her<br />
er M, N og n hele positive tal s˚ a M ≤ N og n ≤ N. Hvis K0 = max{0,n + M − N} og K1 =
3.18 3.2 Diskrete fordelinger<br />
min{M,n} er punktsandsynlighederne<br />
<br />
M N − M<br />
h(x;M,N,n) =<br />
x n − x<br />
<br />
N<br />
n<br />
, x = K0,...,K1. (3.53)<br />
Beregning af punktsandsynligheder<br />
Idet<br />
h(x+1;M,N,n)<br />
h(x;M,N,n)<br />
= M − x<br />
x+1<br />
n − x<br />
N − M − n+x+1 , x = K0,...,K1 − 1,<br />
kan punktsandsynlighederne beregnes rekursivt i h˚ anden s om<br />
idet<br />
og<br />
h(x+1;M,N,n) =<br />
M − x<br />
x+1<br />
h(K0,M,N,n) = h(0;M,N,n) =<br />
h(K0,M,N,n) = h(n+M − N;M,N,n) =<br />
Eksempel 3.3<br />
n − x<br />
N − M − n+x+1 h(x;M,N,n), x = K0,...,K1 − 1, (3.54)<br />
(N − M)!(N − n)!<br />
N!(N − M − n)! , hvis K0 = 0, (3.55)<br />
M!n!<br />
N!(n+M − N)! , hvis K0 = n+M − n. (3.56)<br />
Figur 3.7 viser sandsynlighedsfunktionen for h(M,N,n) med M = 8,N = 15 og n = 2,4 og 8.<br />
Ved hjælp af (3.54) og (3.55) finder vi - med tre decimalers nøjagtighed - for h(8,15,4), at<br />
Middelværdi og varians<br />
og<br />
Hvis X ∼ h(M,N,n), gælder der<br />
7! 11!<br />
h(0;8,15,4) = 15! 3! = 0.026<br />
h(1;8,15,4) = 8 1 4 4 0.026 = 0.205<br />
h(2;8,15,4) = 7 2 3 5 0.205 = 0.431<br />
h(3;8,15,4) = 6 3 2 6 0.431 = 0.287<br />
h(4;8,15,4) = 5 4 1 7 0.287 = 0.051<br />
EX = n M<br />
N<br />
(N − n)<br />
VarX =<br />
(N − 1) nM<br />
M<br />
(1 −<br />
N N ).
¡§<br />
¡£ ¡¤ ¡¥ ¡¦<br />
¡¢<br />
3.19<br />
£ ¤ ¥ ¦ § ¨ © ¢<br />
¥ ©<br />
Figur 3.7 Sandsynlighedsfuktionen for den hypergeometriske fordeling h(8,15,n)) med n = 2,<br />
£<br />
4 og 8.<br />
Excel<br />
FunktionenHYPGEOFORDELING beregner sandsynlighedsfunktionen for den hypergeometri-<br />
ske fordeling, idet (bemærk rækkefølgen af parametrene)<br />
h(x;M,N,n) =HYPGEOFORDELING(x;n;M;N), x = 1,...,M0.<br />
3.2.5 Den negative binomialfordeling<br />
Definition<br />
For κ > 0 defineres den generaliserede binomialkoefficient som<br />
<br />
x+κ − 1<br />
=<br />
x<br />
(x+κ − 1)(x+κ − 2)···k<br />
x!<br />
og den negative binomialfordeling b − (κ, p) med parameter κ (> 0) og p (∈ ]0,1[) som den<br />
diskrete fordeling med sandsynlighedsfunktion<br />
b − <br />
x+κ − 1<br />
(x;κ, p) =<br />
p<br />
x<br />
x (1 − p) κ , x = 0,1,... . (3.57)<br />
Beregning af punktsandsynligheder
3.20 3.2 Diskrete fordelinger<br />
Af (3.57) as, f˚ at<br />
b − (x+1;κ, p)<br />
b − (x;κ, p)<br />
= κ + x<br />
x+1<br />
p, x = 0,1,... .<br />
Punktsandsynlighederne for b− (κ, p) kan derfor beregnes rekursivt i h˚ anden, idet<br />
og<br />
Eksempel 3.4<br />
b − (x+1;κ, p) =<br />
κ + x<br />
x+1 p b− (x;κ, p), x = 0,1,... (3.58)<br />
b − (0;κ, p) = (1 − p) κ . (3.59)<br />
Bruges (3.58) og (3.58), finder vi for b − (7.5,0.1)-fordelingen med fire decimalers nøjagtighed:<br />
b − (0;7.5,0.1) = 0.9 7.5 = 0.4538<br />
b − (1;7.5,0.1) = 7.5<br />
1<br />
0.1 · 0.4538 = 0.3403<br />
b − (2;7.5,0.1) = 7.5+1<br />
2 0.1 · 0.3403 = 0.1446<br />
b − (3;7.5,0.1) = 7.5+2<br />
3 0.1 · 0.1446 = 0.0458<br />
b − (4;7.5,0.1) = 7.5+3<br />
4 0.1 · 0.0458 = 0.0120<br />
b − (5;7.5,0.1) = 7.5+4<br />
5 0.1 · 0.0120 = 0.0028<br />
b − (6;7.5,0.1) = 7.5+5<br />
6 0.1 · 0.0028 = 0.0006<br />
b − (7;7.5,0.1) = 7.5+6<br />
7 0.1 · 0.0006 = 0.0001<br />
De øvrige punktsandsynligheder b − (x;7.5,0.1), x = 8,9,..., er alle mindre end 0.0001. Figur<br />
3.8 viser sandsynlighedsfunktionen for b − (4, p) for p = 0.1, 0.3 og 0.5. <br />
Middelværdi og varians<br />
og<br />
Excel<br />
Hvis X ∼ b − (κ, p) gælder der, at<br />
EX =<br />
VarX =<br />
κ p<br />
1 − p<br />
κ p<br />
(1 − p) 2.<br />
Punktsandsynlighederne for X ∼ b − (κ, p) kan for heltallige værdier af κ beregnes ved<br />
hjælp af funktionenNEGBINOMFORDELING, idet (bemærk, at det tredje argument er1-p)<br />
b − (x;κ, p) =NEGBINOMFORDELING(x;κ;1 −p), x = 0,1,2,...
¡¨<br />
¡¢ ¡£ ¡¤ ¡¥ ¡¦ ¡§<br />
¡<br />
3.21<br />
£ ¤ ¥ ¦ § ¨ © ¢ ¢ ¢ ¤ ¦<br />
Figur 3.8 Sandsynlighedsfuktionen for den negative binomialfordeling b<br />
− (4, p) med p = 0.1,<br />
0.3 og 0.5
3.22 Opgaver<br />
Opgaver til Kapitel 3<br />
Opgave 3.1 Lad X være normalfordelt med middelværdi 1.7 og varians 0.49, X ∼ N(1.7,0.49).<br />
a) Beregn sandsynligheden P(1 ≤ X ≤ 2).<br />
b) Beregn sandsynligheden for at X > 1.2 og sandsynligheden for at X < 1.5.<br />
c) Hvilke værdier afgrænser 10% i hver hale af fordelingen. (Det vil sige hvilke to værdier<br />
x1 og x2 opfylder P(X ≤ x1) = 0.1 og P(X ≥ x2) = 0.1.)<br />
d) Hvilke værdier afgrænser 5% i hver hale af fordelingen.<br />
Opgave 3.2 (Andersen 1998) For en række 15arige ˚ drenge m˚ alte man den m aksimale iltopta-<br />
gelse pr. minut ved normal belastning p˚ a en kondicykel. Res ultaterne var:<br />
2.57 2.68 2.80 2.84 2.86 3.01 3.02 3.12 3.15 3.16 3.24 3.25 3.33 3.34 3.47 3.67<br />
3.80<br />
a) Beregn gennemsnit ¯x· og empirisk varians s 2 for disse observationer (n = 17,S = 53.31,<br />
SK = 168.9499.)<br />
Antag at observationerne er normalfordelte og benyt værdierne i a) som middelværdien og<br />
variansen i de følgende to spørgsm˚ al.<br />
b) Hvad er sandsynligheden for, at iltoptagelsen for en tilfældig 15-˚ arig ligger mellem 2.7<br />
og 3.1.<br />
c) Find 90%-fraktilen i fordelingen.<br />
Opgave 3.3 Lav en figur i Excel med normalfordelingens tæthed som i Figur 3.1.<br />
De næste to opgaver vedrører eksponentialfordelingen, som er et specialtilfælde af gamma<br />
fordelingen. Eksponentialfordelingen e(λ) med parameter λ > 0 er gamma fordelingen Γ(1,λ).<br />
Hvis X ∼ e(λ) kan det vises, at middelværdien og variansen er<br />
EX = 1<br />
λ<br />
(3.60)
og<br />
3.23<br />
Var X = 1<br />
λ 2.<br />
(3.61)<br />
Excel funktionenEKSPFORDELING kan beregne tæthedsfunktionen og fordelingsfunktionen for<br />
eksponentialfordelingen.<br />
Opgave 3.4 Antag, at X ∼ e(λ).<br />
a) Vis ved hjælp af formel (3.22) - idet Γ(1) = 1 - at tæthedsfunktionen for X er<br />
b) Vis, at fordelingsfunktionen for X er<br />
c) Vis, at p-fraktilen for X er<br />
Opgave 3.5 Antag, at X ∼ e(1.5).<br />
a) Hvad er middelværdien af X?<br />
b) Hvad er variansen af X?<br />
f(x) = λe −λx , x ∈ ]0,∞[. (3.62)<br />
F(x) = 1 − e −λx , x ∈ ]0,∞[.<br />
xp = F −1 (p) =<br />
c) Hvad er sandsynligheden for, at X er større end 1?<br />
d) Hvad er sandsynligheden for, at 0 ≤ X ≤ 1 2 ?<br />
−ln(1 − p)<br />
, p ∈ ]0,1[.<br />
λ<br />
Opgave 3.6 (Andersen 1998) 8 mænd beslutter sig til at lave en fællestræning til byensarlige ˚<br />
motionsløb p˚ a ca. 11 km. Deres m˚ al er at løbe p˚ a under 50 min utter. En statistiker blandt dem<br />
vurderer, at hver enkelts chance for at n˚ a m˚ alet 50 minutte r er 80%?<br />
a) Med hvilken fordeling kan man beskrive det antal x af de 8 mænd, der p˚ a selve dagen<br />
løber under 50 minutter?<br />
b) Beregn middelværdi og varians i denne fordeling.<br />
c) Hvad er sandsynligheden for, at halvdelen (4) klarer 50 minutters grænsen?<br />
d) Hvad er sandsynligheden for, at alle de 8 mænd klarer 50 minutters grænsen?
3.24 Opgaver<br />
Opgave 3.7 (Andersen 1998) En intelligensprøve best˚ ar af 10 lige svær e opgaver, hver med 5<br />
svarmuligheder, hvoraf én er rigtig. Antal rigtigt løste opgaver kaldes scoren.<br />
a) Hvad er fordelingen af scoren x hvis en person beslutter sig for at gætte tilfældigt mellem<br />
de fem svarmuligheder, idet han ikke bedømmer at kunne løse opgaverne.<br />
b) Hvad er fordelingen af scoren x, hvis en ret intelligent person har sandsynlighed 0.7 for<br />
rigtig løsning for hver af de 10 opgaver.<br />
c) Beregn EX for b˚ ade person a) og person b).<br />
d) Beregn P(scoren ≥ 5) for b˚ ade person a) og person b).<br />
Opgave 3.8 Gør rede for, at antallet af rigtige tegn X p˚ a tipskuponen i Opgave 2.10 er binomi-<br />
alfordelt med antalsparameter n = 13 og sandsynlighedparameter p = 1/3. Find middelværdi,<br />
varians og spredning for X ved hjælp af formlerne i Afsnit 3.1.1.<br />
Opgave 3.9 Lav Figur 3.5 i Excel.<br />
Opgave 3.10 Lav Figur 3.6 i Excel.<br />
Opgave 3.11 Gør rede for at fordelingen af antallet af rigtige X p˚ a lottokuponen i Opgave 2.13<br />
er den hypergeometriske fordeling h(7,36,7). Find middelværdi, varians og spredning for X<br />
ved hjælp af formlerne i Afsnit 3.1.4.<br />
Opgave 3.12 (Andersen 1998) I undersøgelsen af de professionelle fodboldspillere i udlandet<br />
i Opgave 1.12 var populationen p˚ a 290 fodboldspillere, hvo raf 131 (stikprøven) besvarede et<br />
udsendt spørgeskema. Af disse svarede 86, at de var gift eller levede i et fast parforhold, før<br />
de rejste til udlandet. For at skønne over, hvor mange M i hele populationen, der var gift eller<br />
levede i et fast parforhold, før de rejste til udlandet, skal vi bruge en fordeling, hvori M indg˚ ar<br />
sammen med de øvrige tre tal.<br />
a) Hvis X er den stokastiske variabel, der svarer til de x = 86 observerede gifte i stikprøven,<br />
gør da rede for at for en fast værdi af M er fordelingen af X den hypergeometriske fordeling<br />
h(M, 290, 131).<br />
b) Lav ved hjælp af Excel en tabel over sandsynlighederne h(x;M,N,n) med x = 86, N =<br />
290, n = 131 og M ∈ {86,87,...,245} og find den værdi af M, der tillægger den observerede<br />
værdi x = 86 den største sandsynlighed.
4 Normalfordelte data 4.1<br />
4 Normalfordelte data<br />
I dette kapitel behandles en række modeller, som har det til fælles, at observationerne er nor-<br />
malfordelt. Forskellen mellem modellerne best˚ ar i, hvor k ompliceret middelværdistrukturen og<br />
variansstrukturen er. I Afsnit 4.2 omtales én observationsrække med kendt varians mens vari-<br />
ansen antages at være ukendt i Afsnit 4.3. Afsnit 4.4 og Afsnit 4.5 vedrører henholdsvis to og<br />
k observationsrækker. Endelig omtales lineær regression i Afsnit 4.6 og tosidet variansanalyse i<br />
Afsnit 4.7.<br />
Den simpleste model er én observationsrække med kendt varians, og derfor behandles den<br />
først. Endvidere bruges den til at introducere en række statistiske grundbegreber som estima-<br />
tion, test, signifikansniveau, testsandsynlighed og konfidensinterval. De bliver ganske vist ogs˚ a<br />
omtalt i Kapitel 5, men i Afsnit 4.2 behandles de i nøje tilknytning til et eksempel.<br />
De ovennævnte modeller er forholdsvis enkle, men de er fleksible nok til at finde anvendelse<br />
i en lang række praktiske problemstillinger, som spænder fra industriel produktion over alle na-<br />
turvidenskaberne, herunder geologi, biologi og idræt til lægevidenskab og samfundsvidenskab.<br />
P˚ a den anden side udtømmer de ikke alle de modeller for norma lfordelte data, som man kan<br />
af˚ brug for i sin profession. Men det begrebsapparat og de ad færdsmønstre, som man udvikler<br />
ved h˚ andteringen af de enkle modeller, gør det muligt at h˚ a ndtere mere komplicerede modeller.<br />
I Afsnit 4.1 omtales en grafisk metode til at kontrollere om en observationsrække kan be-<br />
tragtes som normalfordelt. Til trods for at metoden er meget simpel, er den særdeles vigtig, idet<br />
den giver os mulighed for at vurdere gyldigheden af en statistiske model baseret p˚ a normalfor-<br />
delingen. Alle følgende beregninger og konklusioner er bestemt af den statistiske model. Hvis<br />
modellen er forkert, vil konklusioner, der er draget p˚ a gru ndlag af den, sandsynligvis ogs˚ a være<br />
forkerte.<br />
Alle fordelingsresultater, der er relateret til analyse af de statistiske modeller i dette kapitel,<br />
er omtalt i Afsnit 3.1.1.
4.2 4.1 Fraktilsammenligning<br />
4.1 Fraktilsammenligning<br />
Lad x1,x2,...,xn være en observationsrække best˚ aende af n observationer af en kontinuert vari-<br />
abel. Antag, at metoderne i Kapitel 1 antyder, at vi som model for observationerne kan antage,<br />
at disse er udfald af uafhængige og identisk fordelte stokastiske variable X1,X2,...,Xn og lad F<br />
betegne den fælles fordelingsfunktion for X’erne. For at vurdere om modellen er rimelig kun-<br />
ne man sammenligne den empiriske fordelingsfunktion Fn med fordelingsfunktionen F ved for<br />
eksempel for udvalgte værdier af x at indtegne (x,Fn(x)) og (x,F(x)) p˚ a samme tegning, idet<br />
modellen da forekommer rimelig hvis de to grafer ligner hinanden. Sædvanligvis er grafen for<br />
F er S-formet og sammenligningen best˚ ar derfor i at vurdere o m to S-formede grafer ligner<br />
hinanden. Øjet har lettere ved at afgøre om punkter varierer omkring en ret linje, s˚ a i stedet for<br />
vælger man at sammenligne p-fraktilerne xp(Fn) og xp(F) for Fn og F. Hvis punkterne (xp(Fn),<br />
xp(F)) for udvalgte værdier af p ligger omkring identitetslinjen uden systematiske afvigelser<br />
anses modellen for rimelig.<br />
Dette var en generel beskrivelse af fraktilsammenligning. For normalfordelingen gælder der,<br />
at hvis up og xp er p-fraktilen for henholdsvis N(0,1) fordelingen og N(μ,σ 2 ) fordelingen da<br />
er<br />
up = xp − μ<br />
, (4.1)<br />
σ<br />
s˚ a for denne fordeling indtegnes (xp(Fn), up) for udvalgte værdier af p. En model baseret p˚ a<br />
normalfordelingen er da rimelig, hvis punkterne ligger omkring en ret linje uden systematiske<br />
afvigelser.<br />
I Afsnit 4.1.1 og Afsnit 4.1.2 diskuteres fraktildiagrammer for henholdsvis ugrupperede og<br />
grupperede observationer.<br />
4.1.1 Ugrupperede observationer<br />
Først repeterer vi notationen fra Kapitel 1. Antag, at der er m forskellige værdier i observa-<br />
tionrækken x1,x2,...,xn og lad y1,y2,...,ym betegne de ordnede værdier, det vil sige<br />
y1 < y2 < ... < ym.<br />
For j = 1,2,...,m lader vi a j betegne antallet af observationer i rækken x1, x2,...,xn med<br />
værdien y j og desuden lader vi k j betegne det kumulerede antal, det vil sige k j = a1 + ···+a j,<br />
og endelig sættes k0 = 0.<br />
Den p-værdi, for hvilken y j er p-fraktil, bestemmes som<br />
p j = (k j−1 + k j)/(2n),
det vil sige y j = xp j (Fn).<br />
I fraktildiagrammet indtegnes punkterne<br />
(y j,up j ) = (y j,Φ −1 (p j)), j = 1,2,...,m.<br />
Beregningerne, der ligger til grund for et fraktildiagram, er vist i Tabel 4.1, der fremkommer<br />
ved i Tabel 1.5 at tilføje en søjle med værdierne af up (og fjerne den første søjle).<br />
observation antal kumulerede antal sandsynlighed i % u fraktil<br />
y a k p i % up<br />
y1 a1 k1 = a1 p1 = 100 · k1/(2n) Φ −1 (p1)<br />
y2 a2 k2 = a1 + a2 p2 = 100 ·(k1 + k2)/(2n) Φ −1 (p2)<br />
y3 a3 k3 = a1 + a2 + a3 p3 = 100 ·(k2 + k3)/(2n) Φ −1 (p3)<br />
... ... ... ... ...<br />
y j a j k j = a1 + · · ·+a j p j = 100 ·(k j−1 + k j)/(2n) Φ −1 (p j)<br />
... ... ... ... ...<br />
ym am km = a1 + · · ·+am pm = 100 ·(km−1 + km)/(2n) Φ −1 (pm)<br />
Tabel 4.1 Beregningsskema for fraktildiagrammet for et ugrupperet datasæt.<br />
Eksempel 1.2 (Fortsat)<br />
Disse tal har vi ikke betragtet i Kapitel 1 men erfaringen viser, at kondital sædvanligvis er nor-<br />
malfordelte. Beregningerne i Tabel 4.1 i er gengivet nedenfor og Figur 4.1 viser det tilsvarende<br />
fraktildiagram.<br />
Da der ikke i figuren er systematiske afvigelser fra en ret linje, kan observationsrækken<br />
betragtes som normalfordelt.<br />
4.3
4.4 4.1 Fraktilsammenligning<br />
Figur 4.1 Fraktildiagrammet for data i Eksempel 1.2.<br />
observation antal kumulerede antal sandsynlighed i % u fraktil<br />
y a k p i % up<br />
63.9 1 1 2.5 −1.960<br />
64.1 1 2 7.5 −1.440<br />
64.9 1 3 12.5 −1.150<br />
66.0 1 4 17.5 −0.935<br />
68.4 1 5 22.5 −0.755<br />
68.9 1 6 27.5 −0.598<br />
69.4 1 7 32.5 −0.454<br />
72.0 1 8 37.5 −0.319<br />
72.1 1 9 42.5 −0.189<br />
72.9 1 10 47.5 −0.063<br />
73.1 1 11 52.5 0.063<br />
73.4 1 12 57.5 0.189<br />
74.3 1 13 62.5 0.319<br />
75.2 1 14 67.5 0.454<br />
75.4 1 15 72.5 0.598<br />
76.2 1 16 77.5 0.755<br />
76.3 2 18 85.0 1.036<br />
79.4 1 19 92.5 1.440<br />
79.8 1 20 97.5 1.960
N˚ ar data ikke foreligger p˚ a elektronisk form kan fraktild iagrammet tegnes p˚ a sandsynlig-<br />
hedspapir, se Figur 4.2. Sandsynlighedspapir findes i mange forskellige fabrikater. Fælles for<br />
dem alle er, at de har en lineær førsteakse til afsættelse af data, og to andenakser. Den ene anden-<br />
akse er lineær og bruges til at afsætte fraktiler, mens den anden andenakse er en procentakse.<br />
Procentaksen er ikke-lineær, idet procenten 100p afsættes ud for up. Hele pointen med de to<br />
andenakser er nemlig, at tabelopslaget for at finde up er indbygget i sammenhængen mellem de<br />
to akser, s˚ a fraktildiagrammet kan laves ved at indtegne pu nkterne (y j,100p j), j = 1,2,...,m,<br />
idet procentaksen benyttes.<br />
Visse typer af sandsynlighedspapir benytter en parallelforskudt lineær andenakse, idet de<br />
s˚ akaldte probits benyttes. Probit prob(p) svarende til en p-værdi er defineret som prob(p) =<br />
up + 5. Et fraktildiagram indtegnet p˚ a den type sandsynligheds papir kaldes ofte et probitdia-<br />
gram. Et eksempel p˚ a et probitdiagram er gengivet i Figur 4.2.<br />
Eksempel 1.2 (Fortsat)<br />
Probitdiagrammet for data er vist i Figur 4.2. <br />
Ved vurderingen af om punkterne i et fraktildiagram udviser et passende lineært forløb,<br />
s˚ aledes at det er rimeligt at antage, at observationerne ka n betragtes som én observationsrække<br />
fra normalfordelingen, skal de følgende tre punkter tages i betragtning:<br />
1) Jo større n er jo mindre variation omkring en ret linje vil man forvente.<br />
2) Punkterne i et fraktildiagram er korrellerede og har derfor en tendens til at sno sig omkring<br />
linjen.<br />
3) Variationen af punkterne omkring linjen er størst i enderne af diagrammet og man skal<br />
derfor lægge mest vægt p˚ a punkterne i midten af diagrammet.<br />
En statistisk model baseret p˚ a normalfordelingen afvises først og fremmest, hvis punkterne<br />
i diagrammet udviser en systematisk afvigelse fra en ret linje.<br />
Vurdering af fraktildiagrammer er et spørgsm˚ al om erfarin g, der for eksempel kan opn˚ as<br />
ved at betragte diagrammer for normalfordelte datasæt, der er fremkommet ved numerisk simu-<br />
lation. Figurerne i Appendiks B viser fraktildiagrammer for forskellige datasæt af denne type<br />
med varierende n. Figurerne antyder, at for sm˚ a værdier af n kan punkterne variere temmelig<br />
meget omkring linjen.<br />
Hvis fraktildiagrammet ikke giver anledning til at afvise en statistisk model baseret p˚ a nor-<br />
malfordelingen, kan man af˚ grove estimater for middelværdien μ og variansen σ 2 i normalfor-<br />
delingen N(μ,σ 2 ) ved at tegne en linje gennem punkterne i diagrammet. Af (4.1) ses det, at μ<br />
4.5
4.6 4.1 Fraktilsammenligning<br />
Figur 4.2 Probitdiagrammet for data i Eksempel 1.2.
kan estimeres som værdien p˚ a førsteaksen svarende til værd ien 0 p˚ a andenaksen i et fraktildi-<br />
agram. Det ses ligeledes af (4.1), at et estimat for σ er den reciprokke værdi af hældningen af<br />
linjen i diagrammet.<br />
Hvis data kun best˚ ar af én observationsrække og hvis antal let af observationer n i denne<br />
række er lille, n < 10, ses det af figurerne i Appendiks B, at fraktildiagrammet er af begrænset<br />
værdi, n˚ ar normalfordelingsantagelsen skal vurderes. Hv is data best˚ ar af flere observationsræk-<br />
ker, kan diagrammerne være nyttige selv for stikprøvestørrelser mindre end 10 ved at afsløre<br />
afvigelser fra et lineært forløb, der g˚ ar igen fra stikprøv e til stikprøve.<br />
4.1.2 Grupperede data<br />
Antag, at antallet af observationer i de m intervaller ]y0,y1],]y1,y2],...,]ym−1,ym] er a1, a2,...,<br />
am. For j = 1, 2,...,m lader vi k j = a1 +a2 +···+aj betegne det kumulerede antal observatio-<br />
ner. Bemærk, at km = n, det totale antal observationer.<br />
højre endepunkt antal kumulerede antal sandsynlighed i % u fraktil<br />
y a k p i % up<br />
y1 a1 k1 = a1 p1 = 100 · k1/n Φ −1 (p1)<br />
y2 a2 k2 = a1 + a2 p2 = 100 · k2/n Φ −1 (p2)<br />
y3 a3 k3 = a1 + a2 + a3 p3 = 100 · k3/n Φ −1 (p3)<br />
... ... ... ... ...<br />
y j a j k j = a1 + · · ·+a j p j = 100 · k j/n Φ −1 (p j)<br />
... ... ... ... ...<br />
ym−1 am−1 km−1 = a1 + · · ·+am−1 pm−1 = 100 · km−1/n Φ −1 (pm−1)<br />
Tabel 4.2 Skema til beregning af punkterne i fraktildiagrammet for grupperede data.<br />
Lader vi p j = k j/n , j = 1,2,...,m, har vi specielt at pm = 1. Da den tilsvarende u fraktil<br />
u1 = ∞, indtegner vi kun følgende m − 1 punkter i fraktildiagrammet :<br />
(y j,up j ) = (y j,Φ −1 (p j)), j = 1,2,...,m − 1.<br />
Beregningerne, der er nødvendige for at finde punkterne i fraktildiagrammet for et grupperet<br />
datasæt, er vist i Tabel 4.2, som fremkommer fra Tabel 1.6 ved at tilføje en søjle med værdierne<br />
af up (og fjerne første og tredje søjle samt sidste række).<br />
Eksempel 1.1 (Fortsat)<br />
Histogrammerne for disse data i Afsnit 1.3 har tilnærmelsesvis samme udseende som tætheds-<br />
funktionen for normalfordelingen, se Figur 3.1. Dette antyder, at data kan betragtes som en<br />
4.7
4.8 4.1 Fraktilsammenligning<br />
normalfordelt observationsrække. For den grupperede version af data i Tabel 1.4 er beregnin-<br />
gerne i Tabel 4.2 gengivet nedenfor og fraktildiagrammet er vist i Figur 4.3. Da punkterne i<br />
probitdiagrammet ikke afviger systematisk fra en ret linje kan data betragtes som en normalfor-<br />
delt observationsrække.<br />
højre endepunkt antal kumulerede antal sandsynlighed i % u fraktil<br />
y a k p i % up<br />
116 1 1 0.4 −2.648<br />
120 0 1 0.4 −2.648<br />
124 8 9 3.6 −1.794<br />
128 20 29 11.7 −1.188<br />
132 24 53 21.5 −0.791<br />
136 32 85 34.4 −0.401<br />
140 49 134 54.3 0.106<br />
144 41 175 70.9 0.549<br />
148 26 201 81.4 0.892<br />
152 21 222 89.9 1.274<br />
156 14 236 95.5 1.700<br />
160 6 242 98.0 2.049<br />
164 4 246 99.6 2.647<br />
4.1.3 Transformation<br />
Undertiden afslører fraktildiagrammet, at det ikke er rimeligt at betragte de oprindelige data<br />
x1,x2,...,xn som én normalfordelt observationsrække. Da modeller baseret p˚ a normalfordelin-<br />
gen er lette at h˚ andtere, forsøger man ofte at opn˚ a en s˚ ada n model for en transformeret version af<br />
data, det vil sige for y1,y2,...,yn, hvor yi = h(xi),i = 1, 2,...,n, og hvor h er en kendt funktion,<br />
som er 1-1 (injektiv). Ikke sjældent har fagmanden specielle grunde til at betragte en bestemt<br />
transformation. De mest brugte transformationer er h(x) = ln(x), h(x) = √ x og h(x) = 1/x.<br />
N˚ ar man leder efter en transformation, skal man være opmærk som p˚ a at alle hyppigt an-<br />
vendte transformationer er lokalt lineære, s˚ a hvis observationerne ligger i et snævert interval,<br />
vil vurderingen af fraktildiagrammet være den samme b˚ ade f or de transformerede og de ut-<br />
ransformerede data. En tommelfingerregel for logaritmetransformationen er, at data mindst skal<br />
strække sig over én dekade og gerne to, hvis der skal være nogen synlig effekt ved en transfor-<br />
mation. Det vil sige at der skal være mindst en faktor 10 og gerne en faktor 100 i forskel mellem<br />
den største og den mindste observation.
Figur 4.3 Fraktildiagram for de grupperede data i Tabel 1.4.<br />
Selvom en indledende undersøgelse ved hjælp af et fraktildiagram er faldet negativ ud i<br />
den forstand, at en statistisk model baseret p˚ a normalford elingen ikke er rimelig for de oprin-<br />
delige observationer x1,x2,..., xn, kan diagrammet give information om, hvorledes man skal<br />
transformere data for at opn˚ a en model baseret p˚ a normalfo rdelingen.<br />
4.9
4.10 Beregninger i Excel<br />
Anneks til Afsnit 4.1<br />
Beregninger i Excel<br />
Eksempel 1.2 (Fortsat)<br />
Vi viser her, hvordan fraktildiagrammet i Figur 4.1 kan laves i Excel. Nedenst˚ aende viser ind-<br />
holdet af cellerneA1:I23 i regnearket.<br />
¡¢£¤¥¦§¨¡<br />
¢ ©<br />
¤ ¥ ¦ £<br />
¨ ¡© §<br />
¡ <br />
¥¢¨ ¥¢¨ ¤©© ¡¤ ¨¥© ¥£ ¥£ ¥£ ©©© ¦¤ ££© ¥£¨ ¥£¨ ¥£¨ ¤©© ¡¤ ¤© ¥¥© ¥¥© ¥¥© ¡©©© ¦¤ ©¨¢¤ ¥¢¨<br />
¥§£ ¥§£ ¡¤©© ¡¡¤ ©¦¤¤ ¥§¨ ¥§¨ ¥§¨ ¢©©© ¡¦¤ ©¤¨§ ¥¨£ ¥¨£ ¥¨£ ¢¤©© ¢¡¤ ©£¤£ ¦¡© ¦¡© ¦¡© £©©© ¢¦¤ ©¢ ¨ ¥§£<br />
¦¡ ¦¡ £¤©© £¡¤ © §¨ ¦¡¨ ¦¡¨ ¦¡¨ ¤©©© £¦¤ ©©¥¢ ¦¢ ¦¢ ¦¢ ¤¤©© ¤¡¤ ©©¥¢ ¦¢£ ¦¢£ ¦¢£ ¥©©© ¤¦¤ © §¨ ¦¡<br />
¦£¢ ¦£¢ ¥¤©© ¥¡¤ ©¢ ¨ ¦£¢<br />
¦¤¡ ¦¤¡ ¦¤¡ ¥¦¤ ¦¤£ ¦¤£ ¦¡¤ ©¤¨§ ¦¥¡ ¦¥¡ ¦¥¡ §©©© ¦¦¤ ©¦¤¤ ¦¥¢ ¦¥¢ ¦¥¢ ¡ ¨©©© §¤© ©¢¥ ¦©©© ©£¤£<br />
¦¨£ ¨¤©© ¨¡¤ ££©<br />
Det er fremkommet ved følgende<br />
¦¤£<br />
trin:<br />
¦¤©©<br />
¦¨§ ©©©© ¨¦¤ ¨¥© ¦¨§ © ©©©© ¦¨§ ¦¨£ ¦¨£ ¦¥¢ ¡¢ ¡¡ ¡<br />
• Data indtastes i cellerne A4:A23 og sorteres efter størrelsesorden. Disse celler kopieres<br />
til cellerne C4:C22, der indeholder de ordnede værdier, idet observationen76.3, der op-<br />
træder to gange, er fjernet.<br />
• Indholdet af cellerne i kolonneE, F og G fremkommer dernæst via ruten Funktioner →<br />
Dataanalyse → Histogram, som giver en dialogboks hvor A4:A23 angives i Input-<br />
omr˚ade, C4:C22 i Intervalomr˚ade og E3:G24 i Outputomr˚ade. Endvidere markeres<br />
ruden foranKumulativ frekvens, hvorefter der klikkes p˚ a OK.
• Indholdet af cellenH4 beregnes som=100*G4/2. Indholdet af H5 beregnes som=100<br />
4.11<br />
*(G4+G5)/2, hvorefter der oprettes analoge formler i H6:H23. (Musen anbringes i det<br />
nedre højre hjørne af H5, s˚ aledes at curseren bliver til et ’+’. Derefter trækkes mu sen ned<br />
over cellerne H6:H23, idet venstre museknap holdes nede)<br />
• Indeholdet af cellenI4 beregnes via rutenIndsæt →Funktion →Statistik →NORMINV.<br />
I dialogboksen, der fremkommer, skrives H4/100 i ruden ved Sandsynlighed, og 0 og<br />
1 i ruderne ved henholdsvis Middelværdi og Standardafv. Derefter oprettes analoge<br />
formler i cellerneI5:I22.<br />
Vi er nu klar til at lave fraktildiagrammet. Det gøres s˚ aled es:<br />
• Marker cellerneE4:E22 ogI4:I22<br />
• Følg ruten Indsæt → Diagram → XY-plot. Vælg i dialogboksen, der fremkommer,<br />
undertypen øverst til venstre( Excel betegner denne som XY-punktdiagram. Sammen-<br />
ligner værdipar.) Tryk p˚ a Udfør.<br />
Resultatet ser s˚ aledes ud:<br />
¥¢£¤¤ ¡¢¤¤¤ ¡¢£¤¤<br />
¥¢¤¤¤<br />
¡¢¤¤¤ ¥¢£¤¤ ¥¢¤¤¤ ¤¢£¤¤ ¤¢¤¤¤ ¤¢£¤¤ ¤¢¤ ¡¤¢¤ ¦¤¢¤ §¤¢¤ ¨¤¢¤ ¥¤¤¢¤ ©¥<br />
¡¢£¤¤<br />
Alts˚ a ikke helt som i Figur 4.1. Dette kan opn˚ as ved lidt red igering. Blandt andet:<br />
• Ændre navn p˚ a den forklarende variabel: Anbring musen p˚ a rammen af figuren. Hold<br />
højre museknap nede og følg rutenKildedata→ Navn.<br />
• Ændre placeringen af forklaringen: Anbring musen p˚ a ramm en om forklaringen. Hold<br />
højre museknap nede og vælgFormater forklaring →Placering →Nederst.
4.12 Beregninger i Excel<br />
• Ændre udseendet af omr˚ adet: Anbring musen i omr˚ adet. Hol d højre museknap nede og<br />
vælgFormater afbildningsomr˚ade og dernæstIngen iRammer ogOmr˚ade.<br />
• Ændre førsteaksen: Peg p˚ a den med musen og hold højre musek nap nede. Følg ruten<br />
Formater akse →Skala. Angiv63 i ruden vedMinimum, 80 i ruden vedMaksimum og<br />
2 i ruden vedOverordnet enhed.<br />
• Ændre andenaksen: Peg p˚ a den med musen og hold højre musekn ap nede. Følg ruten<br />
Formater akse → Skala. Angiv -3 i ruden ved Minimum, 3 i ruden ved Maksimum og<br />
1 i ruden vedOverordnet enhed. Skriv desuden-3 i rudenKrydser ved.<br />
Resultater af disse anstrengelser giver følgende resultat:<br />
¤¢£ ¡¢£<br />
¥¢£<br />
¤¢£ ¥¢£ £¢£<br />
¡¢£<br />
¦§¢£ ¦¨¢£ ¦©¢£ ¨¥¢£ ¨¡¢£ ¨§¢£ ¨¨¢£ ¨©¢£ ¦¡¢£
4.2 Én observationsrække med kendt varians<br />
4.13<br />
I praksis er det forholdsvis sjældent, at variansen for en observationsrække kan antages at væ-<br />
re kendt, men fra et pædagogisk synspunkt er modellen for én observationsrække med kendt<br />
varians bekvem i forbindelse med introduktion af en række statistiske grundbegreber som esti-<br />
mation, test, signifikansniveau, testsandsynlighed og konfidensinterval. Disse omtales generelt<br />
i Kapitel 5, men behandles her i nøje tilknytning til et eksempel.<br />
Eksempel 4.1<br />
Som en øvelse i fysiologi bliver 15 studerende bedt om - uafhængigt af hinanden - at bestemme<br />
koncentrationen af laktat i den samme blodprøve med en kendt koncentration. De studerendes<br />
m˚ alinger er i mg/l<br />
86.5 81.0 79.4 90.9 73.8 80.2 79.9 80.3<br />
71.9 78.6 83.1 79.6 80.0 87.0 92.7<br />
og den kendte koncentration er 80.0 mg/l. Erfaringsmæssigt er der ved bestemmelser af en<br />
laktatkoncentration af denne størrelsesorden en spredning p˚ a 5.0 mg/l.<br />
For at undersøge om de studerendes m˚ alinger afviger signifi kant fra den kendte koncen-<br />
tration, undersøger vi først om de 15 m˚ alinger x1, ..., x15 kan betragtes som en normalfordelt<br />
observationsrække. Fraktildiagrammet i Figur 4.4 afslører ikke systematiske afvigelser fra en<br />
ret linje og vi betragter derfor modellen<br />
M0 : Xi ∼ N(μ,σ 2 0 ), i = 1,...,15, (4.2)<br />
hvor vi betragter spredningen σ0 som kendt og lig med den værdi, man har erfaring for, det vil<br />
sige σ0 = 5.<br />
Estimation<br />
Først ser vi p˚ a, hvad man kan sige om middelværdien μ ud fra observationerne. Vi skønner over<br />
μ, eller estimerer μ. Traditionelt benytter man gennensnittet af observationerne<br />
idet summen S af de 15 observationer er 1224.9.<br />
n<br />
¯x· = 1<br />
n ∑ xi =<br />
i=1<br />
1224.9<br />
= 81.66, (4.3)<br />
15<br />
Bemærk, at ¯x· er en realisation af den normalfordelte stokastiske variabel<br />
n<br />
¯X· = 1<br />
n ∑ Xi ∼ N(μ,<br />
i=1<br />
σ 2 0<br />
), (4.4)<br />
n
4.14 4.2 Én observationsrække med kendt varians<br />
Figur 4.4 Fraktildiagram for lakatkoncentrationerne i Eksempel 4.1.<br />
som har den rigtige middelværdi μ og en varians σ 2 0 /n, som aftager med antallet af observationer.<br />
Det er disse to egenskaber, der er begrundelsen for at bruge gennemsnittet som skøn over<br />
middelværdien μ.<br />
Det er vigtigt at bevare distinktionen mellem den teoretiske, men ukendte middelværdi μ og<br />
skønnet ¯x· for μ. Vi benytter notationen ¯x· → μ eller μ ← ¯x·, som læses ” ¯x· estimerer μ” eller<br />
”μ estimeres af ¯x·”. I det konkrete tilfælde har vi 81.66 → μ.<br />
Vi skriver ofte de to formler i (4.3) og (4.4) kort p˚ a følgend e m˚ ade<br />
¯x· = 81.66 ∼∼ N(μ, σ 2 0<br />
n ),<br />
som læses ” ¯x· = 81.66 er en realisation af en stokastisk variabel ¯X·, som er fordelt N(μ,σ 2 0 /n)”.<br />
Det første ∼ minder alts˚ a om, at estimatet er en realisation af en stokas tisk variabel, og det andet<br />
∼ har den sædvanlige betydning ”fordelt som”. Notationen ∼∼ er ikke standard i litteraturen.<br />
Test<br />
I modellen M0 kan spørgsm˚ alet om de studerendes m˚ alinger stemmer overe ns den kendte kon-<br />
centration formuleres som spørgsm˚ alet om middelværdien μ er lig med 80. I M0 opstiller vi og<br />
tester hypotesen<br />
H0 : μ = μ0 = 80.<br />
Som udgangspunkt kan man betragte forskellen mellem skønnet over middelværdien og<br />
middelværdien under nulhypotesen ¯x· − 80 = 1.66. Jo større denne forskel er - numerisk set
- desto mere kritisk er det for nulhypotesen. Men om 1.66 er stor afhænger af variansen p˚ a<br />
m˚ alingerne. Vi beregner derfor teststørrelsen<br />
4.15<br />
u(x) = u(x1,...,xn) = ¯x· − μ0<br />
<br />
σ 2 0 /n<br />
= 81.66 − 80<br />
= 1.286, (4.5)<br />
25/15<br />
som er differensen normeret med spredningen p˚ a gennemsnit tet. Teststørrelsen u(x) er en reali-<br />
sation af den stokastiske variabel<br />
u(X) = u(X1,...,Xn) = ¯X· − μ0<br />
<br />
σ 2 0 /n<br />
= ¯X· − 80<br />
, (4.6)<br />
25/15<br />
som er N(0,1)-fordelt under nulhypotesen. De værdier af teststørrelsen u(x), som ville have<br />
været mere kritiske for H0, er værdier mindre end −1.286 og større end 1.286. Man kan ikke<br />
umiddelbart sige om 1.286 er s˚ a stor en værdi, at man vil tvivle p˚ a nulhypotesen. M an udfører<br />
derfor endnu en transformation, idet man beregner testsandsynligheden ε(x), som er sandsyn-<br />
ligheden under nulhypotesen for en mere kritisk værdi af teststørrelsen end den observerede.<br />
Det vil sige<br />
ε(x) =Φ(−1.286)+(1 − Φ(1.286))<br />
=2(1 − Φ(1.286)) (4.7)<br />
=0.199.<br />
Testsandsynligheden er illustreret i Figur 4.5 og fortolkningen af denne testsandsynlighed<br />
er, at hvis nulhypotesen er sand, vil man cirka to ud af ti gange, man udfører forsøget, af˚ en<br />
teststørrelse, som er mere kritisk for nulhypotesen, end den værdi som forsøget gav. Det ar f˚ os<br />
ikke til at tvivle p˚ a nulhypotesen. Man forkaster nulhypotesen , hvis testsandsynligheden kom-<br />
mer under en værdi, som kaldes signifikansniveauet, og som betegnes med α. Sædvanligvis er<br />
α lig med 0.05 eller 0.01, og i dette kursus benyttes værdien 0.05 medmindre andet udtrykkeligt<br />
nævnes. Vi ser senere i dette afsnit p˚ a h˚ andteringen af tes tsandsynligheder under overskriften<br />
statistikkens slutningsregel.<br />
Konfidensinterval<br />
Da<br />
u(X) = ¯X· − μ0<br />
<br />
σ 2 0 /n
4.16 4.2 Én observationsrække med kendt varians<br />
Figur 4.5 Illustration af testsandsynligheden for u-testet i Eksempel 4.1. Testsandsynligheden<br />
er arealet af den skraverede omr˚ ade.<br />
er N(0,1)-fordelt, er<br />
1 − α = P<br />
⎡<br />
⎣u α/2 ≤ ¯X· − μ<br />
<br />
⎡<br />
= P⎣<br />
¯X· − u1−α/2 σ 2 0 /n<br />
<br />
⎤<br />
≤ u ⎦<br />
1−α/2<br />
(4.8)<br />
σ 2 0<br />
n ≤ μ ≤ ¯X· + u 1−α/2<br />
Her er u α/2 og u 1−α/2 henholdsvis α/2 og 1 − α/2 fraktiler for N(0,1)-fordelingen, og i om-<br />
skrivningen er det benyttet, at uα/2 = −u1−α/2. Det vil sige, at uligheden<br />
<br />
¯x· − u1−α/2 σ 2 0<br />
n ≤ μ ≤ ¯x·<br />
<br />
+ u1−α/2 σ 2 0<br />
n<br />
holder med sandsynlighed 1 − α. Intervallet<br />
⎡ <br />
⎣ ¯x· − u1−α/2 σ 2 0<br />
n , ¯x·<br />
<br />
+ u1−α/2 σ 2 0<br />
n<br />
⎤<br />
<br />
σ 2 0<br />
n<br />
⎤<br />
⎦.<br />
(4.9)<br />
⎦ (4.10)<br />
er et (1 − α) konfidensinterval for middelværdien μ. Bruges u.975 = 1.960 as f˚ et 0 .95 eller et<br />
95% konfidensinterval. 1−α kaldes konfidenskoefficienten. Fortolkningen af konfidensinterval-<br />
let og konfidenskoefficienten 1 − α er, at enten ligger μ i intervallet, eller der er indtruffet en
4.17<br />
hændelse med en sandsynlighed mindre end α. Hvis α er lille, har man stor tiltro til, at μ ligger<br />
i konfidensintervallet. Det er samme argumentation, der ligger bag forkastelse af nulhypotesen<br />
n˚ ar testsandsynligheden er lille, jævnfør afsnittet om st atistikkens slutningsregel nedenfor.<br />
Det understreges, at det er ¯x· , der er stokastisk, og ikke μ. Der er ikke tale om, at μ ligger<br />
mellem faste grænser med sandsynligheden 1 − α. Det er variationen i ¯x· fra forsøg til forsøg,<br />
der giver anledning til sandsynlighedsudsagnet. Betegnelsen konfidens er valgt for at understre-<br />
ge, at μ ikke pludselig er blevet en stokastisk variabel med tilhørende fordeling.<br />
Det (1 − α) konfidensinterval, vi har valgt her, er baseret p˚ a testsstø rrelsen u(x), og det<br />
har yderligere den fortolkning, at det best˚ ar af de værdier af μ, som ville blive accepteret som<br />
nulhypotese med signifikansniveau α.<br />
Af formel (4.10) finder vi, at 95% konfidensintervallet for middelværdien μ her er<br />
<br />
25<br />
81.66 − 1.96<br />
15 ,81.66+1.96<br />
<br />
25<br />
= [79.130,84.190].<br />
15<br />
Statistikkens slutningsregel<br />
Den regel, som ligger bag de konklusioner, man drager i statistikken, er i al sin enkelthed: En<br />
hændelse med en lille sandsynlighed indtræffer ikke. Signifikansniveauet α er grænsen for, hvor<br />
sm˚ a sandsynligheder skal være, for at hændelserne ikke ind træffer, eller mere præcist grænsen<br />
for at man vælger at se bort fra muligheden, at hændelsen indtræffer.<br />
Risikoen for, at en person kommer til skade ved en flyveulykke, er mindre end 10 −6 per<br />
flyvetime, og de fleste anser den risiko for negligeabel. Det er sandsynligheder af samme<br />
størrelsesorden, man anser for acceptable, n˚ ar man vurder er risikoen for uheld p˚ a atomkraft-<br />
værker eller andre store industrianlæg. Her arbejder man alts˚ a med signifikansniveauer, som er<br />
af størrelsesordenen højst 10 −6 .<br />
I statistik arbejder man med signifikansniveauer af størrelsesordenen 10 −2 . Som tidligere<br />
bemærket er α = 5 · 10−2 overalt i dette kursus. N˚ ar man rapporterer testsandsynli gheden sam-<br />
men med konklusionen, giver man andre mulighed for at drage deres egne konklusioner, hvis<br />
de skulle foretrække et andet signifikansniveau.<br />
Argumentationen, der ligger bag forkastelsen af en nulhypotese, fordi man har aet f˚ en lille<br />
testsandsynlighed, lyder:<br />
Enten er nulhypotesen forkert, eller der er indtruffet en hændelse med en lille sandsynlighed.<br />
Hændelser med en lille sandsynlighed indtræffer ikke, ergo er nulhypotesen forkert.<br />
Det er alts˚ a en helt klassisk logisk argumentation:
4.18 4.2 Én observationsrække med kendt varians<br />
Enten A eller B. B er falsk ergo A.<br />
Det nye og tankevækkende er propositionen: Hændelser med en lille sandsynlighed indtræf-<br />
fer ikke.
Anneks til Afsnit 4.2<br />
Beregninger i Excel<br />
Eksempel 4.1 (Fortsat)<br />
4.19<br />
Excel har ikke en dialogboks, der udfører beregningerne i én normalfordelt observationsrække<br />
med kendt varians. Det gøres dog let som nedenst˚ aende viser . Observationerne er indtastet i<br />
cellerneA4:A18, hvorefter deres sum S iA19 er beregnet. <br />
¡¢£¤¥¦§¨¡<br />
¢ ©<br />
¤ ¥ ¦ £<br />
¨§<br />
§¥¤ £<br />
© § ¥¥ ¡§¥ © ¨¨ ¦¨£ ¨©¨ ¦¢§ §<br />
¦¨ ¢© §£ ¨© ¦¨¨ §©¢ §©¡<br />
CellerneC3:E5 indeholder oplysninger vedrørende u-testet. Indholdet afC5:E5 er beregnet ¡¡£¨<br />
¨ ¦§¥ §¢ ¦¨¥ ¦<br />
§¦© ¨¡¦ §©©<br />
ved hjælp af de følgende tre formler:<br />
og<br />
=A19/15, ( ¯x· = S/n)<br />
<br />
= (C5 −80)/KVROD(25/15) (u(x) = ( ¯x· − 80)/<br />
σ 2 0 /n)<br />
=2 ∗(1 −NORMFORDELING(D5;0;1;SAND)) (ε(x) = 2 ∗(1 − Φ(|u(x)|))).<br />
Den nedre grænse i C9 for konfidensintervallet for middelværdien μ er beregnet som<br />
<br />
=C5 −1,96 ∗KVROD(25/15) (μnedre = ¯x· − 1.96 σ 2 0 /n)<br />
og den øvre grænse beregnes tilsvarende.
4.20 Hovedpunkter til Afsnit 4.2<br />
Hovedpunkter til Afsnit 4.2<br />
Modellen for én normalfordelt observationsrække x1,...,xn med kendt varians σ 2 0 er<br />
Modelkontrol<br />
Fraktilsammenligning<br />
Estimation<br />
M0 : Xi ∼ N(μ,σ 2 0 ), i = 1,...,n.<br />
Middelværdien μ estimeres ved gennemsnittet af observationerne<br />
Test af hypotesen H0 : μ = μ0.<br />
Hypotesen testes ved hjælp af u-teststørrelsen<br />
og testsandsynligheden er<br />
μ ← ¯x· = S<br />
n ∼∼ N(μ, σ 2 0<br />
n ).<br />
u(x) = u(x1,...,xn) = ¯x· − μ0<br />
<br />
σ 2 0 /n<br />
∼∼ N(0,1)<br />
ε(x) = 2(1 − Φ(|u(x)|)).<br />
(Ved test p˚ a niveau 5% forkastes H0, hvis ε(x) < 0.05.)<br />
Konfidensinterval<br />
95% konfidensintervallet for middelværdien μ er<br />
⎡ <br />
⎣ ¯x· − 1.96<br />
σ 2 0<br />
n , ¯x·<br />
<br />
+ 1.96<br />
σ 2 0<br />
n<br />
⎤<br />
⎦
4.3 Én observationsrække med ukendt varians<br />
Teorien for én normalfordelt observationsrække med ukendt varians bliver ogs˚ a gennemg˚ aet i<br />
4.21<br />
forbindelse med et eksempel. Vi betragter igen data i Eksempel 4.1 men benytter nu ikke den<br />
oplysning at spredningen p˚ a m˚ alinger af laktatkoncentra tionen erfaringsmæssigt er 5. Ja faktisk<br />
undersøger vi i løbet af fortsættelsen af eksemplet om spredningen p˚ a de studerendes m˚ alinger<br />
er 5. Dette er helt i overensstemmelse med, at man altid skal være skeptisk overfor oplysninger,<br />
der tilskrives erfaringen. Det kunne jo være at de ikke var korrekte i relation til ens data.<br />
Eksempel 4.1 (Fortsat)<br />
Som netop nævnt ser vi nu bort fra oplysningen om at spredningen p˚ a m˚ alingerne erfarings-<br />
mæssigt er 5. Vi betragter derfor modellen<br />
hvor begge parametre μ og σ 2 er ukendte.<br />
Estimation<br />
M0 : Xi ∼ N(μ,σ 2 ), i = 1,...,15,<br />
Som estimater for middelværdien μ og variansen σ 2 benytter vi den empiriske middelværdi<br />
og den empiriske varians<br />
¯x· = 1<br />
n<br />
s 2 = 1<br />
n − 1<br />
n<br />
∑ xi<br />
i=1<br />
n<br />
∑<br />
i=1<br />
(4.11)<br />
(xi − ¯x·) 2 . (4.12)<br />
Da S = 1224.9 og SK = 100472.63 finder vi ved hjælp af beregningsformlerne (1.9) og (1.10),<br />
at<br />
og<br />
μ ← ¯x· = 1224.9<br />
15<br />
= 81.66 ∼∼ N(μ, σ 2<br />
15 )<br />
σ 2 ← s 2 = 1<br />
1224.92<br />
(100472.63 − ) = 31.9497.<br />
14 15<br />
Vi skal senere se, hvordan man kommer frem til at benytte s 2 som estimat for σ 2 . Her<br />
nævner vi blot, at s 2 er en realisation af den stokastiske variabel<br />
s 2 (X) = 1<br />
n − 1<br />
n<br />
∑<br />
i=1<br />
(Xi − ¯X·) 2 , (4.13)<br />
som er σ 2 χ 2 (n − 1)/(n − 1) fordelt, jævnfør (3.29). Specielt er middelværdien<br />
Es 2 (X) = σ 2 ,
4.22 4.3 Én observationsrække med ukendt varians<br />
og variansen,<br />
Var s 2 (X) =<br />
2σ 4<br />
(n − 1) ,<br />
s˚ a s2 er et godt estimat for σ 2 . Det har den rigtige middelværdi, og variansen aftager med<br />
stikprøvens størrelse.<br />
Test af hypotesen H0μ : μ = μ0<br />
Hvis variansen er ukendt, kan man alligevel teste<br />
H0μ : μ = μ0 = 80.<br />
Udgangspunktet er som før differensen ¯x· − μ0 = 81.66 − 80 = 1.66 mellem skønnet over<br />
middelværdien, ¯x·, og middelværdien, μ0, under nulhypotesen. Denne differens ville vi gerne<br />
se i forhold til spredningen p˚ a gennemsnittet, σ 2 /n, men σ 2 er nu ukendt. Det forekommer<br />
oplagt, at n˚ ar σ 2 er ukendt, m˚ a man i stedet bruge et skøn over σ 2 . N˚ ar man bruger s2 i stedet<br />
for den ukendte varians σ 2 , as f˚ teststørrelsen<br />
t(x) = t(x1,...,xn) = ¯x· − μ0 81.66 − 80.0<br />
= = 1.137.<br />
s2 /n 31.9497/15<br />
Teststørrelsen t(x) er en realisation af den stokastiske variabel<br />
t(X) = t(X1,...,Xn) = ¯X· − μ0<br />
. (4.14)<br />
s2 (X)/n<br />
t(X) har en t-fordeling med n−1 frihedsgrader, i dette eksempel alts˚ a 14 frihedsgrader, jævnfør<br />
(3.32).<br />
t-fordelingen er tabellagt og findes desuden p˚ a visse lommer egnere, s˚ a man kan som før<br />
beregne testsandsynligheden ε(x). De værdier af teststørrelsen, som ville være mere kritiske<br />
end den observerede 1.137, er værdier mindre end −1.137 og større end 1.137.<br />
Testsandsynligheden, som er illustreret i Figur 4.6, bliver derfor<br />
ε(x) =F t(14)(−1.137)+(1 − F t(14)(1.137))<br />
=2(1 − F t(14)(1.137))<br />
=0.275.<br />
Her betegner F t( f) fordelingsfunktionen for t-fordelingen med f frihedsgrader. I beregningen af<br />
testsandsynligheden er det benyttet, at t-fordelingerne i lighed med standard normalfordelingen<br />
N(0,1) er symmetriske omkring 0, s˚ a Ft( f)(−t) = 1 − Ft( f)(t), for alle t.<br />
Da testsandsynligheden er større end 0.05, giver det ikke anledning til at forkaste nulhypo-<br />
tesen. Konklusionen er derfor den samme som i tilfældet med kendt varians.
4.23<br />
Figur 4.6 Illustration af testsandsynligheden for t-testet i Eksempel 4.1. Testsandsynligheden<br />
er arealet af den skraverede omr˚ ade.<br />
Konfidensinterval for μ<br />
Lad som sædvanlig μ være den ukendte værdi af middelværdien. Da<br />
t(X) = ¯X· − μ<br />
s 2 (X)/n<br />
er t-fordelt med f = n − 1 frihedsgrader, er<br />
<br />
1 − α =P tα/2( f) ≤ ¯X· − μ<br />
<br />
s2 (X)/n ≤ t <br />
1−α/2( f)<br />
<br />
s2 (X)<br />
=P ¯X· −t1−α/2( f)<br />
n ≤ μ ≤ <br />
s2 (X)<br />
¯X· +t1−α/2( f) .<br />
n<br />
(4.15)<br />
Her er t α/2( f) og t 1−α/2( f) henholdsvis α/2 og 1 − α/2 fraktiler for t-fordelingen med f<br />
frihedsgrader, og i omskrivningen er det benyttet, at t α/2( f) = −t 1−α/2( f). Det vil sige, at<br />
uligheden<br />
<br />
s2 ¯x· −t1−α/2( f)<br />
n ≤ μ ≤ ¯x·<br />
<br />
s2 +t1−α/2( f)<br />
n<br />
holder med sandsynlighed 1 − α. Intervallet<br />
<br />
s2 ¯x· −t1−α/2( f)<br />
n , ¯x·<br />
<br />
s2 +t1−α/2( f)<br />
n<br />
(4.16)<br />
(4.17)
4.24 4.3 Én observationsrække med ukendt varians<br />
er et (1 − α) konfidensinterval for middelværdien μ.<br />
I det konkrete tilfælde bliver 95% konfidensintervallet for middelværdien μ, idet 97.5%<br />
fraktilen t0.975(14) i t-fordelingen med 14 frihedsgrader er 2.145 -<br />
<br />
31.9497<br />
31.9497<br />
81.66 − 2.145 ,81.66+2.145 = [78.529,84.791],<br />
15<br />
15<br />
Test af hypotesen H0σ 2 : σ 2 = σ 2 0<br />
Vi fortsætter eksemplet med at undersøge om studenterne m˚ a ler med samme præcision som man<br />
sædvanligvis har p˚ a bestemmelser af laktatkoncentration er. Det er altid klogt at kontrollere sine<br />
antagelser, hvis det er muligt. Undertiden har antagelser karakter af ufunderet ønsketænkning.<br />
Vi opstiller derfor nulhypotesen<br />
H 0σ 2 : σ 2 = 5 2 = 25.<br />
Testet for H0 tager udgangspunkt i skønnet for variansen s 2 = 31.9497, og som teststørrelse<br />
benytter man forholdet mellem skønnet over variansen og σ 2 0<br />
s2 σ 2 0<br />
= 31.9497<br />
25<br />
= 1.280.<br />
Teststørrelsen er en realisation af den stokastiske variabel<br />
s2 (X)<br />
σ 2 . (4.18)<br />
0<br />
s2 (X) er σ 2χ 2 (n−1)/(n−1) fordelt, s˚ a under nulhypotesen er teststørrelsen χ2 (n−1)/(n−1)-<br />
fordelt. Disse fordelinger er tabellagt for alle i praksis forekommende frihedsgrader.<br />
Hvis teststørrelsen er tæt ved 1, svarer det til god overensstemmelse mellem skønnet s 2<br />
og σ 2 0 . Omvendt er meget sm˚ a værdier af teststørrelsen kritiske f or H0, for det svarer til at<br />
skønnet over variansen er meget mindre end σ 2 0 , og det tyder p˚ a, at variansen er mindre end σ 2 0 .<br />
Tilsvarende er meget store værdier af teststørrelsen kritiske for H0, for det betyder, at skønnet<br />
over variansen er meget større end σ 2 0 , og det tyder p˚ a, at variansen er større end σ 2 0 . Som ved<br />
de tidligere test lader man testsandsynligheden være grundlaget for beslutningen. I det konkrete<br />
tilfælde er værdier af teststørrelsen større end den observerede 1.280 mere kritisk for hypotesen.<br />
Sandsynligheden for, at en χ 2 (14)/14-fordelt stokastisk variabel er større end 1.280, er<br />
1 − F χ 2 (14)/14 (1.280) = 0.21045.<br />
χ 2 ( f)/ f -fordelingen har ikke den samme symmetri som normalfordelingen og t-fordelingen,<br />
s˚ a man kan ikke umiddelbart sige, hvor grænsen g˚ ar for de sm a˚ værdier af teststørrelsen, som<br />
er mindst lige s˚ a kritiske for H0 som 1.280. Man vælger at definere testsandsynligheden til<br />
ε(x) = 2(1 − F χ 2 (14)/14 (1.280)) = 0.42090.
4.25<br />
Det svarer s˚ a til, at man har fastsat, at værdierne mindre en d 0.21405 fraktilen for χ2 (14)/14-<br />
fordelingen er mindst lige s˚ a kritiske for H0, som den observerede 1.280. Iøvrigt er 0.21405<br />
fraktilen for χ 2 (14)/14-fordelingen lig med 0.687, se Figur 4.7.<br />
Figur 4.7 Illustration af testsandsynligheden for H 0σ 2 i Eksempel 4.1. Testsandsynligheden er<br />
arealet af den skraverede omr˚ ade.<br />
Testsandsynligheden er større end 0.05, s˚ a nulhypotesen a ccepteres. Det vil sige, at de stu-<br />
derende m˚ aler med samme præcision som den man har erfaring f or.<br />
Hvis teststørrelsen s2 (X)/σ 2 0 havde været mindre end 1, for eksempel lig med 0.687, skulle<br />
testsandsynligheden være beregnet som<br />
<br />
<br />
ε(x) = 2 Fχ 2 (14)/14 (0.687) = 0.42090.<br />
Begrundelsen er, at hvis s2 (X)/σ 2 0 havde været mindre end 1, ville det være mindre værdier af<br />
teststørrelsen, som umiddelbart ville være mere kritiske end den observerede værdi.<br />
Udføres testet p˚ a 5% niveau, accepteres H0σ 2 hvis s2 /σ 2 0<br />
ligger mellem 2.5% og 97.5%<br />
fraktilen i χ 2 (n − 1)/(n − 1) fordelingen, det vil sige, hvis χ 2 0.025 (n − 1)/(n − 1) < s2 /σ 2 0 <<br />
χ2 0.975 (n − 1)/(n − 1).<br />
Vi bemærker, at man som teststørrelse for H 0σ 2 : σ 2 = σ 2 0<br />
ofte bruger<br />
(n − 1)s2 , (4.19)<br />
σ 2 0
4.26 4.3 Én observationsrække med ukendt varians<br />
som under nulhypotesen har en χ2 (n−1)-fordeling. Det er store og sm˚ a værdier af teststørrelsen,<br />
der er kritiske for H0. Begrundelsen for at bruge (n−1)s 2 /σ 2 0 i stedet for s2 /σ 2 0<br />
er, at tabellerne<br />
over χ 2 -fordelingen er mere udførlige end tabellerne over χ 2 ( f)/ f -fordelingen, idet de inde-<br />
holder flere fraktiler. Det er samme test man udfører, idet testsandsynligheden er den samme,<br />
uanset hvilken af de to teststørrelser, man bruger.<br />
Konfidensinterval for σ 2<br />
Lad σ 2 være den ukendte værdi af variansen. Da s2 (X)/σ 2 er χ2 ( f)/ f -fordelt, er med f = n−1<br />
<br />
1 − α =P χ 2 α/2 ( f)/ f ≤ s2 (X)<br />
σ 2 ≤ χ2 <br />
1−α/2 ( f)/ f<br />
(4.20)<br />
<br />
s<br />
=P<br />
2 (X)<br />
χ2 1−α/2 ( f)/ f ≤ σ 2 ≤ f s2 (X)<br />
χ2 <br />
.<br />
( f)/ f α/2<br />
Det vil sige, at uligheden<br />
s 2<br />
χ 2 1−α/2 ( f)/ f ≤ σ 2 ≤<br />
holder med sandsynlighed 1 − α. Intervallet<br />
<br />
s2 χ2 ,<br />
1−α/2 ( f)/ f<br />
kaldes (1 − α) konfidensintervallet for σ 2 .<br />
s 2<br />
χ2 α/2 ( f)/ f<br />
s 2<br />
χ2 α/2 ( f)/ f<br />
<br />
(4.21)<br />
(4.22)<br />
Tager vi kvadratrod i (4.22) as f˚ (1 − α) konfidensintervallet for σ<br />
<br />
s2 χ2 <br />
s2 ,<br />
1−α/2 ( f)/ f χ2 <br />
. (4.23)<br />
α/2 ( f)/ f<br />
Idet χ 2 0.025 (14)/14 = 0.4021 og χ2 0.975<br />
(14)/14 = 1.8656 as f˚ af (4.22) at 95% konfidensinterval-<br />
let for variansen σ 2 i eksemplet her er<br />
<br />
31.9497 31.9497<br />
, = [17.126,79.457]<br />
1.8656 0.4021<br />
og fra (4.23) at 95% konfidensintervallet for spredningen σ er<br />
√ √ <br />
17.126, 79.457 = [4.138,8.914].<br />
Hermed slutter Eksempel 4.1. <br />
Eksempel 1.1 (Fortsat)<br />
Eksemplet drejer sig om højdefordelingen af 247 astmaplagede piger i alderen 10-12ar. ˚ Mo-<br />
dellen er<br />
Xi ∼ N(μ,σ 2 ), i = 1,...,247,
4.27<br />
hvor b˚ ade middelværdien μ og variansen σ 2 er ukendte. Der er ikke nogen rimelige hypoteser<br />
at teste, hverken om middelværdien eller variansen, s˚ a vi n øjes med at angive estimater og<br />
konfidensintervaller for parametrene. Da<br />
as, f˚ at<br />
n = 247, S = 34613 og SK = 4871559<br />
μ ← ¯x· = 140.13 og σ 2 ← s 2 = 85.8317.<br />
95% konfidensintervallerne for middelværdi μ, varians σ 2 og spredning σ er henholdsvis<br />
og<br />
Eksempel 1.2 (Fortsat)<br />
For de 20 kondital er modellen<br />
[138.97,141.29],<br />
[72.4741,103.2751]<br />
[8.51,10.16].<br />
Xi ∼ N(μ,σ 2 ), i = 1,...,20,<br />
hvor b˚ ade middelværdien μ og variansen σ 2 er ukendte. Der er ikke nogen rimelige hypoteser<br />
at teste, hverken om middelværdien eller variansen, s˚ a vi n øjes med at angive estimater og<br />
konfidensintervaller for parametrene. Da<br />
as, f˚ at<br />
n = 20, S = 1442.0 og SK = 104413.06<br />
μ ← ¯x· = 72.10 og σ 2 ← s 2 = 23.4137.<br />
95% konfidensintervallerne for middelværdi μ, varians σ 2 og spredning σ er henholdsvis<br />
og<br />
[69.835,74.365],<br />
[13.541,49.944]<br />
[3.680,7.067].
4.28 Beregninger i Excel<br />
Anneks til Afsnit 4.3<br />
Beregninger i Excel<br />
Vi viser her, hvorledes beregningerne for én observationsrække med ukendt middelværdi og<br />
varians kan laves ved hjælp af Excel.<br />
Eksempel 4.1 (Fortsat)<br />
I det følgende refererer vi til udskriften fra Excel p˚ a side 4.19.<br />
Følg ruten Funktioner → Dataanalyse → Beskrivende Statistik. Angiv i dialog-<br />
boksen, der fremkommer, celler A4:A18 i Inputomr˚ade. Marker Ny regnearksfane under<br />
Outputindstillinger og klik i ruderne foran Resumestatistik og Konfidensniveau.<br />
Resultatet af dette er angivet i cellerneA1:B16 nedenfor. <br />
<br />
¡¢£¤¥¦§¨<br />
§ ¥¥ ¦§¤¢© §£¦¨© £¤¨££¤ §©¡ §© ¤ ¤¥¤¡£©§ ¢¦ ©¡¦£ ¡¦§ ©£¡¢¤© ¢ ¨£¨¦ © ¥¥¢§§ ©£¡ ¨¤ ¡©§ ¦ ¨ ¦ ¡¤ ¦¨£¥¦ ¨¡¦ ©<br />
¡¡£¨ <br />
Vi genkender umiddelbart estimaterne ¯x·<br />
¤ £ ¢§ §¨ £ ¡<br />
og<br />
<br />
s<br />
£ ¥ ¢ ¤ ¨¤©¢ ¢©¡©¡<br />
2 for middelværdien μ og variansen σ 2 i cel-<br />
lerneB3 ogB8.<br />
CellerneD2:E3 giver 95% konfidensintervallet for middelværdien μ. Idet indholdet af cellen<br />
B16 er t0.975(14) s2 /n beregnesD3 som<br />
<br />
=B3 −B16 (μnedre = ¯x· −t0.975(14) s2 /n)<br />
ogD4 beregnes tilsvarende.<br />
Cellerne D5:E7 indeholder oplysningerne om t-testet for hypotesen H0μ : μ = 80. Da ind-<br />
holdet af cellenB4 er s2 /n beregnes cellerneD7 ogE7 som<br />
<br />
= (B3 −80)/B4 (t(x) = ( ¯x· − 80)/ s2 /n )
og<br />
=TFORDELING(D7;14;2) (ε(x) = 2(1 − P(t(14) ≥ |t(x)|)).<br />
4.29<br />
CellerneF5:G7 indeholder oplysningerne om testet for hypotesen H 0σ 2 : σ 2 = 25. Cellerne<br />
F7 ogG7 beregnes som<br />
og, idet s 2 /σ 2 0<br />
≥ 1,<br />
=B8/25 (s 2 /σ 2 0 )<br />
=2 ∗(CHIFORDELING(14 ∗F7;14)) (ε(x) = 2F χ 2 (14)/14 (s 2 /σ 2 0 )).<br />
95% konfidensintervallerne for variansen σ 2 og spredningen σ er beregnet i D11:E12 og<br />
D14:E15. Eksempelvis er D12<br />
ogD15<br />
=B8/CHIINV(0,025;14) ∗14 (σ 2 nedre = s2 /χ 2 0.975 (14)/14)<br />
=KVROD(D12) (σnedre =<br />
<br />
s 2 /χ 2 0.975 (14)/14).
4.30 Hovedpunkter til Afsnit 4.3<br />
Hovedpunkter til Afsnit 4.3<br />
Modellen for én normalfordelt observationsrække x1,...,xn med ukendt varians σ 2 er<br />
Modelkontrol<br />
Fraktilsammenligning<br />
Estimation<br />
M0 : Xi ∼ N(μ,σ 2 ), i = 1,...,n.<br />
Middelværdien μ estimeres ved gennemsnittet af observationerne<br />
og variansen σ 2 ved den empriske varians<br />
Test<br />
σ 2 ← s 2 = 1<br />
n − 1<br />
n<br />
∑<br />
i=1<br />
μ ← ¯x· = S σ 2<br />
∼∼ N(μ,<br />
n n )<br />
(xi − ¯x·) 2 = 1 S2<br />
(SK −<br />
n − 1 n ) ∼∼ σ 2 χ 2 (n − 1)/(n − 1).<br />
Hypotesen H0μ : μ = μ0 testes ved hjælp af t-teststørrelsen<br />
og testsandsynligheden er<br />
Hypotesen H 0σ 2 : σ 2 = σ 2 0<br />
og testsandsynligheden er<br />
t(x) = t(x1,...,xn) = ¯x· − μ0<br />
s 2 /n ∼∼ t(n − 1)<br />
ε(x) = 2(1 − F t(n−1)(|t(x)|)).<br />
testes ved hjælp af teststørrelsen<br />
⎧<br />
⎪⎨<br />
ε(x) =<br />
⎪⎩<br />
s2 σ 2 0<br />
∼∼ χ 2 (n − 1)/(n − 1)<br />
2(1 − Fχ 2 (n−1)/(n−1) ( s2<br />
σ 2)) hvis<br />
0<br />
s2<br />
σ 2 0<br />
2Fχ 2 (n−1)/(n−1) ( s2<br />
σ 2) hvis<br />
0<br />
s2<br />
σ 2 0<br />
≥ 1<br />
< 1.
Ved test p˚ a niveau 5% forkastes H0σ 2 : σ 2 = σ 2 0<br />
Konfidensinterval<br />
χ 2 s2<br />
0.025 (n − 1)/(n − 1) ≤<br />
σ 2 0<br />
ikke, hvis<br />
≤ χ 2 0.975 (n − 1)/(n − 1)<br />
(1 − α) konfidensintervallet for middelværdien μ er<br />
<br />
s2 ¯x· −t1−α/2( f)<br />
n , ¯x·<br />
<br />
s2 +t1−α/2( f) ,<br />
n<br />
(1 − α) konfidensintervallet for variansen σ 2 er<br />
<br />
s 2<br />
χ2 1−α/2 (n − 1)/(n − 1),<br />
og (1 − α) konfidensintervallet for spredningen σ er<br />
<br />
<br />
s 2<br />
χ2 1−α/2 (n − 1)/(n − 1),<br />
s 2<br />
χ2 α/2 (n − 1)/(n − 1)<br />
s 2<br />
<br />
χ2 α/2 (n − 1)/(n − 1)<br />
<br />
.<br />
4.31
4.32 4.4 To observationsrækker<br />
4.4 To observationsrækker<br />
Selvom afsnittet har overskriften ”to observationsrækker” begynder vi med at indføre notation<br />
for k observationsrækker allerede her. Det skyldes, at notationen og nogle de basale regninger i<br />
tilfældet k = 2 naturligvis blot er et specialtilfælde.<br />
Modellen for k normalfordelte observationsrækker er, at data<br />
x11,...,x1 j,...,x1n1<br />
xi1,...,xi j,...,xini<br />
xk1,...,xk j,...,xknk<br />
er realisationer af uafhængige, normalfordelte stokastiske variable, det vil sige<br />
M0 : Xi j ∼ N(μi,σ 2<br />
i ).<br />
Denne model vil kort blive omtalt som modellen for k normalfordelte observationsrækker. Som<br />
det fremg˚ ar, bruger vi i til at indicere observationsrækkerne og j til at indicere observationerne<br />
inden for rækkerne. Antallet af observationer i den i’te række betegnes ni, og der er ikke noget<br />
krav om, at der skal være det samme antal observationer i hver række. I hver observationsrække<br />
beregnes skøn over middelværdien og variansen. Skønnet over middelværdien i den i’te ræk-<br />
ke er gennemsnittet i den i’te række, og det betegnes ¯xi·. Skønnet over variansen i i’te række<br />
er den empiriske varians s2 beregnet i den i’te række, og det betegnes s2 (i) . Den tilsyneladende<br />
overflødige parentes om rækkeindekset p˚ a variansskønnene s2 (i) er indført for at skelne dem fra<br />
størrelserne s2 1 og s2 2 , som indføres senere i dette kapitel i forbindelse med en følge af gradvist<br />
mere restriktive hypoteser om middelværdierne. For frihedsgraderne bruges den tilsvarende no-<br />
tation. S˚ aledes betegner f (i) = ni − 1 frihedsgraderne for s2 (i) , og s2 (i) = SAK (i)/ f (i), hvor SAK (i)<br />
er SAK fra den i’te række.<br />
Vi har i dette afsnit benyttet notationen ¯xi· for gennemsnittet i den i’te observationsrække.<br />
Vi benytter her den meget almindelige konvention, at n˚ ar ma n har indicerede variable, kan man<br />
angive summen af variablen over alle værdier af et indeks ved at erstatte indekset med · . For<br />
eksempel betegner xi· summen i den i’te observationsrække, x·· betegner summen af alle obser-<br />
vationer og n· betegner det totale antal observationer. Med ¯ over variabelnavnet angiver man,<br />
at der er taget gennemsnit over alle de observationer, der er summeret over. S˚ aledes betegner<br />
netop ¯xi· gennemsnittet af de ni observationer i den i’te observationsrække, og ¯x·· betegner gen-<br />
nemsnittet over alle n· observationer. Beregningen af gennemsnittene og de empiriske varianser<br />
foretages bekvemt ved hjælp af beregningsskemaet p˚ a side 4 .33.
Beregningsskema til k observationsrækker<br />
1 2 3 4 5 6 7 8 9<br />
Række antal Sum af Friheds- Varians- Gennem-<br />
nr. obs Sum kvadrater grader estimat snit<br />
i ni Si SKi<br />
1 n1 S1 SK1<br />
.<br />
.<br />
i ni Si SKi<br />
.<br />
Her er<br />
.<br />
k nk Sk SKk<br />
Ialt n· S· SK·<br />
.<br />
.<br />
.<br />
.<br />
S 2 i<br />
ni<br />
S 2 1<br />
n1<br />
.<br />
S 2 i<br />
ni<br />
.<br />
S 2 k<br />
k<br />
∑<br />
nk<br />
S 2 i<br />
i=1 ni<br />
SAK (i) = SKi − S2 i<br />
,<br />
ni<br />
f (i) = ni − 1,<br />
s 2 (i) = SAK (i)<br />
,<br />
f (i)<br />
SAK (i) f (i) s 2 (i) ¯xi·<br />
SAK (1) f (1) s 2 (1) ¯x1·<br />
.<br />
.<br />
SAK (i) f (i) s 2 (i) ¯xi·<br />
.<br />
.<br />
SAK (k) f (k) s 2 (k) ¯xk·<br />
SAK01 f01 s 2 01 ¯x··<br />
.<br />
.<br />
.<br />
.<br />
4.33<br />
¯xi· = Si<br />
,<br />
ni<br />
mens tallene i kolonnerne 2-7 i den sidste række er summen af tallene i den tilsvarende kolonne.<br />
Endelig er<br />
og<br />
s 2 01<br />
= SAK01<br />
f01<br />
¯x·· = S·<br />
.<br />
n·
4.34 4.4 To observationsrækker<br />
Vi vender nu tilbage til modellen for to observationsrækker, det vil sige<br />
M0 : Xi j ∼ N(μi,σ 2<br />
i ), j = 1,...,ni, i = 1,2.<br />
Behandlingen af to normalfordelte observationsrækker best˚ ar i at undersøge om varianserne<br />
kan antages at være ens, det vil sige teste hypotesen H01 : σ 2 1 = σ 2 2 , svarende til reduktionen<br />
M0 → M1, hvor<br />
M1 : Xi j ∼ N(μi,σ 2 ),<br />
og derefter at undersøge om middelværdierne kan antages at være ens, det vil sige teste hypo-<br />
tesen H02 : μ1 = μ2 svarende til reduktionen M1 → M2, hvor<br />
M2 : Xi j ∼ N(μ,σ 2 ).<br />
Behandlingen afsluttes med beregning af relevante konfidensintervaller.<br />
Undertiden testes hypotesen om ens middelværdier selvom hypotesen om ens varianser ikke<br />
kan accepteres. For at skelne mellem de to situatoner betegner vi da hypotesen om ens middel-<br />
værdier med H∗ 02 , det vil sige H∗ 02 : μ1 = μ2, idet den svarer til reduktionen M0 → M∗ 2 , hvor<br />
M ∗ 2 : Xi j ∼ N(μ,σ 2<br />
i ).<br />
Der er forskel, b˚ ade p˚ a hvordan man kan teste hypotesen om e ns middelværdier og p˚ a hvordan<br />
man beregner konfidensintervaller, n˚ ar der er varianshomo genitet, det vil sige at man har accep-<br />
teret H01 : σ 2 1 = σ 2 2<br />
sig i underafsnit.<br />
, og n˚ ar der ikke er varianshomogenitet. De to tilfælde beha ndles hver for<br />
Gennemgangen af to observationsrækker med ens varians baseres p˚ a Eksempel 4.2.<br />
Eksempel 4.2<br />
Vi betragter konditallene for de ikke-aktive og de aktive idrætsudøvere i henholdsvis Opgave<br />
1.4 og Eksempel 1.2, som er gengivet nedenfor.<br />
kondital<br />
ikke-aktive 56.0 61.8 64.1 64.9 65.2 66.3 66.9 68.9 70.6 70.8<br />
72.4 73.1 73.9 74.1 74.1 75.3 78.7<br />
aktive 68.9 75.2 74.3 72.9 72.0 63.9 76.3 76.3 75.4 66.0<br />
68.4 64.1 73.1 64.9 73.4 76.2 79.4 69.4 79.8 72.1<br />
Figur 4.8 viser fraktildiagrammet for de to observationsrækker. Det ses, at punkterne i dia-<br />
grammet forekommer at variere - uden systematiske afvigelser - omkring to linjer med samme<br />
hældning. Vi betragter derfor modellen M0 og har i denne et h˚ ab om, at hypotesen H01 om vari-<br />
anshomogenitet kan accepteres, idet hældningen af linjerne i fraktildiagrammet jo svarer til den<br />
reciprokke varians.
Figur 4.8 Fraktildiagrammet for data i Eksempel 4.1. Ikke-aktive svarer til gruppe 0.<br />
Esimaterne for de fire parametre i modellen<br />
M0 : Xi j ∼ N(μi,σ 2<br />
i ), j = 1,...,ni, i = 1,2.<br />
fremg˚ ar at de to sidste kolonner i beregningsskemaet:<br />
4.35<br />
£¢ £¢ ¥¦§¡¢ £¨¤¢© ¢© ¢© ¥¦ ¢ ¦ ¦ ¦ ¦ ¦ ¦ ¦ ¦ ¡¢<br />
<br />
£¤¢<br />
¦ ¦ <br />
4.4.1 Test for varianshomogenitet<br />
Eksempel 4.2 (Fortsat)<br />
Vi tester nu hypotesen om ens varians i de to observationsrækker, det vil sige<br />
H01 : σ 2 1 = σ 2 2 .
4.36 4.4 To observationsrækker<br />
Udgangspunktet er variansskønnene i de to observationsrækker.<br />
s 2 (1) = 33.17507 → σ 2 1<br />
s 2 (2) = 23.41368 → σ 2 2 ,<br />
og som teststørrelse bruges forholdet mellem variansskønnene<br />
F(x) = s2 (1)<br />
s2 =<br />
(2)<br />
33.17507<br />
= 1.417.<br />
23.41368<br />
Store og sm˚ a værdier af teststørrelsen er kritiske for H01, for de afspejler store forskelle i va-<br />
riansskønnene og dermed sandsynligvis store forskelle i varianserne. Derimod er værdier om-<br />
kring 1 ikke kritiske. I dette eksempel er<br />
P[F(X) > 1.417] = 1 − F F( f(1), f (2))(1.417) = 0.232,<br />
hvor F( f (1), f (2)) er F-fordelingen med f (1) = n1 − 1 frihedsgrader i tælleren og f (2) = n2 − 1<br />
frihedsgrader i nævneren.<br />
Da sm˚ a værdier ogs˚ a er kritiske for H01 vælger man at sætte testsandsynligheden til<br />
ε(x) = 2P[F(X) > 1.417] = 0.464.<br />
Det strider ikke mod H01, som s˚ aledes accepteres. Modellen M0 kan alts˚ a reduceres til<br />
M1 : Xi j ∼ N(μi,σ 2 ).<br />
Testsandsynligheden, der er illustreret i Figur 4.9, er her regnet ud i F-fordelingen. F-<br />
fordelingen med f (1) frihedsgrader i tælleren og f (2) frihedsgrader i nævneren er netop fordelin-<br />
gen til forholdet mellem en χ 2 ( f (1))/ f (1)-fordelt stokastisk variabel og en χ 2 ( f (2))/ f (2)-fordelt<br />
stokastisk variabel, som er uafhængige, jævnfør Afsnit 3.1.5.<br />
Nu er s 2 (1) og s2 (2) realisationer af henholdsvis en σ 2 1 χ2 ( f (1))/ f (1)- og en σ 2 2 χ2 ( f (2))/ f (2)-<br />
fordelt stokastisk variabel, og netop under H01 : σ 2 1 = σ 2 2 er σ 2 1 /σ 2 2<br />
s2 (1) /s2 (2) bliver en realisation af en F( f (1), f (2))-fordelt stokastisk variabel.<br />
= 1, s˚ a forholdet F(x) =<br />
Det kan være instruktivt at se, hvor store forskelle i de to variansskøn man kunne komme<br />
ud for uden at forkaste hypotesen om ens varianser. 97.5% fraktilen i F(16,19)-fordelingen er<br />
2.59, s˚ a man kunne have observeret en forskel i de to varians skøn p˚ a omkring en faktor 2.5 og<br />
alligevel have accepteret H01 : σ 2 1 = σ 2 2 .
4.37<br />
Figur 4.9 Illustration af testsandsynligheden for F-testet i Eksempel 4.2. Testsandsynligheden<br />
er arealet af den skraverede omr˚ ade.<br />
F-testet og Statistical Tables<br />
Tabellerne over F-fordelingen i Statistical Tables indeholder kun fraktiler over 0.5, s˚ a testsand-<br />
synligheden for F-testet kan ikke sl˚ as op i tabellen, hvis den observerede væ rdi af F(x) = s2 (1) /<br />
s 2 (2)<br />
er lille. Dette afhjælpes p˚ a følgende m˚ ade:<br />
Sæt s 2 tæller = max{s2 (1) ,s2 (2) }, lad ftæller være frihedsgraderne for s 2 tæller ,<br />
s 2 nævner = min{s2 (1) ,s2 (2) } og lad fnævner være frihedsgraderne for s 2 nævner .<br />
F-teststørrelsen er<br />
Testsandsynligheden beregnes som<br />
F(x) = s2 tæller<br />
s2 .<br />
nævner<br />
ε(x) = 2 1 − F F( ftæller, fnævner)(F(x)) ,<br />
hvor F( ftæller, fnævner) betegner F-fordelingen med ftæller frihedsgrader i tælleren og fnævner<br />
frihedsgrader i nævneren.<br />
Ved test p˚ a 5% niveau accepteres H01 : σ 2 1 = σ 2 2 hvis F(x) < F0.975( ftæller, fnævner), 97.5%<br />
fraktilen i F-fordelingen med ( ftæller, fnævner) frihedsgrader.
4.38 4.4 To observationsrækker<br />
4.4.2 Ens varians<br />
Igen diskuteres den generelle teori med udgangspunkt i Eksempel 4.2.<br />
Eksempel 4.2 (Fortsat)<br />
Efter accept af hypotesen H01 : σ 2 1 = σ 2 2<br />
Estimation<br />
er modellen<br />
M1 : Xi j ∼ N(μi,σ 2 ).<br />
Ved estimation af modellens tre parametre μ1, μ2 og σ 2 benyttes en generel estimations meto-<br />
de, maksimum likehood estimation, som omtales i Kapitel 5. Traditionelt antyder man brug af<br />
denne metode ved benytte symbolet ˆ(udtales ”hat”) over parametrene. S˚ aledes betegner ˆμ1, ˆμ2<br />
og ˆσ 2 maksimum likehood estimaterne for μ1, μ2 og σ 2 .<br />
Vi skal ikke i detaljer komme ind p˚ a, hvordan man finder estim aterne for parametrene,<br />
men kun nævne, at maksimum likelihood estimaterne for μ1 og μ2 er gennemsnittene i de to<br />
observationsrækker, alts˚ a ˆμ1 = ¯x1· og ˆμ2 = ¯x2·, mens maksimum likelihood estimatet for σ 2 er<br />
ˆσ 2 = SAK01<br />
n·<br />
= SAK (1) + SAK (2)<br />
.<br />
n1 + n2<br />
Da SAK (1) ∼ σ 2 χ 2 ( f (1)) og SAK (2) ∼ σ 2 χ 2 ( f (2)) og SAK (1) og SAK (2) er uafhængige, er SAK01 ∼<br />
σ 2χ 2 ( f (1) + f (2)), jævnfør (3.25) i Afsnit 3.1.3. For at af˚ et skøn med middelv ærdi σ 2 bruges<br />
skønnet<br />
s 2 01<br />
= SAK01<br />
f (1) + f (2)<br />
= SAK01<br />
, (4.24)<br />
f01<br />
idet vi benytter betegnelsen f01 = f (1) + f (2) for frihedsgraderne for s2 01 . Estimaterne for parametrene<br />
i M1 og deres fordeling kan resumeres p˚ a følgende m˚ ade:<br />
og<br />
σ 2 ← s 2 01 = f (1)s 2 (1) + f (2)s 2 (2)<br />
f (1) + f (2)<br />
μ1 ← ¯x1· ∼∼ N(μ1,<br />
μ2 ← ¯x2· ∼∼ N(μ2,<br />
= SAK (1) + SAK (2)<br />
f (1) + f (2)<br />
σ 2<br />
n1<br />
σ 2<br />
Vi gør igen opmærksom p˚ a at her skal for eksempel notationen<br />
¯x1· ∼∼ N(μ1,<br />
σ 2<br />
n1<br />
n2<br />
),<br />
),<br />
∼∼ σ 2 χ 2 ( f (1) + f (2))/( f (1) + f (2)).<br />
)
4.39<br />
læses ” ¯x1· er en realisation af en stokastisk variabel ¯X1·, som er fordelt N(μ1,σ 2 /n1)”. Det første<br />
∼ minder alts˚ a om, at skønnet er en realisation af en stokasti sk variabel, og det andet ∼ har sin<br />
sædvanlige betydning ”fordelt som”.<br />
Vi har hermed beskrevet de marginale fordelinger for skønnene, og da de marginale forde-<br />
linger er uafhængige, er skønnenes simultane fordeling beskrevet. Det falder uden for rammerne<br />
af kurset at bevise uafhængigheden af estimaternes fordeling.<br />
Bemærk, at formlen s 2 01 = ( f (1)s 2 (1) + f (2)s 2 (2) )/( f (1) + f (2)) viser, at s 2 01<br />
nemsnit med vægte f (1) og f (2). Derfor ar f˚ det af de to variansskøn s2 (1) og s2 (2)<br />
frihedsgrader den største indflydelse p˚ a s2 01 .<br />
er et vægtet gen-<br />
med flest<br />
Tilbage til de konkrete tal i eksemplet. Estimaterne, der fremg˚ ar af beregningsskemaet p˚ a<br />
side 4.35 resumeres i nedenst˚ aende tabel.<br />
ikke-aktive 69.241<br />
aktive 72.100<br />
Test af hypotesen om ens middelværdier<br />
middelværdi μ varians σ 2<br />
27.87603<br />
Vi tester nu hypotesen om ens middelværdi i de to observationsrækker:<br />
H02 : μ1 = μ2.<br />
Testet er baseret p˚ a en sammenligning af estimaterne for mi ddelværdierne. Da<br />
¯x1· ∼∼ N(μ1,<br />
σ 2<br />
n1<br />
og fordelingerne er uafhængige, er<br />
<br />
¯x1· − ¯x2· ∼∼ N<br />
og under nulhypotesen, er<br />
Derfor er<br />
) og ¯x2· ∼∼ N(μ2,<br />
μ1 − μ2,σ 2<br />
1<br />
n1<br />
σ 2<br />
n2<br />
),<br />
+ 1<br />
<br />
,<br />
n2<br />
<br />
¯x1· − ¯x2· ∼∼ N 0,σ 2<br />
<br />
1<br />
+<br />
n1<br />
1<br />
<br />
.<br />
n2<br />
<br />
σ 2<br />
¯x1· − ¯x2·<br />
1<br />
n1<br />
+ 1<br />
<br />
n2<br />
Da σ 2 er ukendt, indsættes i stedet skønnet s 2 01<br />
t(x) = <br />
s 2 01<br />
¯x1· − ¯x2·<br />
1<br />
n1<br />
∼∼ N(0,1). (4.25)<br />
, og man ar f˚ teststørrelsen t(x), hvor<br />
+ 1<br />
<br />
n2<br />
∼∼ t( f01). (4.26)
4.40 4.4 To observationsrækker<br />
Det fremg˚ ar af Afsnit 3.1.4, at t(x) er t-fordelt med f01 frihedsgrader, da s2 01 ∼∼ σ 2χ 2 ( f01)/ f01<br />
og uafhængig af fordelingen til (4.25). Den observerede værdi af teststørrelsen t(x) er<br />
69.241 − 72.100<br />
t(x) = <br />
1 1<br />
27.87603 +<br />
17 20<br />
−2.859<br />
= = −1.6414.<br />
1.74171<br />
De værdier af t(x), som er mere kritiske for nulhypotesen end den observerede værdi 1.6414,<br />
er t < −1.6414 og t > 1.6414. Testsandsynligheden bliver<br />
ε(x) = 2 1 − F t(35)(1.6414) = 0.110,<br />
hvor F t(35) betegner fordelingsfunktionen for t-fordelingen med 35 frihedsgrader. Da ε(x) ><br />
0.05, strider det ikke mod H02, som accepteres. Faglig set betyder dette, at vi ikke kan p˚ a vise<br />
forskel p˚ a konditallene for de ikke-aktive og de aktive, hv ilket er lidt overraskende. Det fremg˚ ar<br />
ikke klart af Andersen (1998), hvordan de to grupper er defineret. Konklusionen er alts˚ a, at<br />
selvom estimatet ¯x2· = 72.100 for middelværdien af de aktives kondital er større end estimatet<br />
¯x1· = 69.241 for de ikke-aktive, er forskellen ikke statistisk signifikant.<br />
Modellen er herefter<br />
M2 : Xi j ∼ N(μ,σ 2 ), i = 1,2, j = 1,...,ni.<br />
Det er den velkendte model for én observationsrække, som ganske vist her har en lidt mere<br />
indviklet indicering af de enkelte observationer, end det var nødvendigt i Afsnit 4.3. Ved hjælp<br />
af formlerne (4.11) og (4.12) finder vi, at estimaterne for parametrene er<br />
hvor n· = n1 + n2.<br />
μ ← ¯x·· = 70.786 ∼∼ N(μ,<br />
σ 2<br />
σ 2 ← s 2 02 = 29.18787 ∼∼ σ 2 χ 2 (n· − 1)/(n· − 1),<br />
Bemærk, at n˚ ar man har udført standardberegningerne for hv er af de to observationsrækker,<br />
det vil sige, at man har beregnet S1, S2, SK1 og SK2, ar f˚ man S· og SK· for samtlige observationer<br />
som S· = S1 + S2 og SK· = SK1 + SK2. Standardberegningerne for de to observationsrækker er<br />
givet i tabellen øverst side 4.35, s˚ a man finder<br />
n· = 37, S· = 2619.1, SK· = 186447.65,<br />
som er brugt til at beregne estimaterne for μ og σ 2 ovenfor.<br />
n·<br />
),
Konfidensintervaller<br />
4.41<br />
95% konfidensintervaller for μ og σ 2 - beregnet ved hjælp af formlerne (4.17) og (4.20) - er<br />
vist i tabellen nedenfor.<br />
95% konfidensintervaller<br />
middelværdi μ varians σ 2<br />
ikke-aktive og aktive [68.985, 72.587] [19.30387, 49.24560]<br />
I eksemplet her var konklusionen at t-testet ikke stred mod H02 : μ1 = μ2, og analysen<br />
sluttede med et 95% konfidensinterval for den fælles middelværdi μ og for den fælles varians<br />
σ 2 .<br />
Hvis H02 var blevet forkastet ville slutmodellen være M1, to observationsrækker med for-<br />
skellig middelværdi og fælles varians. I det tilfælde kunnne man være interesseret i konfidens-<br />
intervallerne for middelværdierne μ1 og μ2, og de vil være<br />
<br />
{μ1 | ¯x1· −t 1−α/2( f01)<br />
{μ2 | ¯x2· −t 1−α/2( f01)<br />
<br />
s 2 01<br />
n1<br />
s 2 01<br />
n2<br />
≤ μ1 ≤ ¯x1· +t 1−α/2( f01)<br />
≤ μ2 ≤ ¯x2· +t 1−α/2( f01)<br />
hvor man lægger mærke til, at man i overensstemmelse med at slutmodellen er M1 benytter<br />
det fælles variansskøn s 2 01 med tilhørende frihedsgrader f01. Men det vil ofte være meget mere<br />
interessant at beregne konfidensintervallet for forskellen i middelværdi i de to observationsræk-<br />
ker, det vil sige for μ1 − μ2. Meget ofte planlægges et forsøg med to observationsrækker for at<br />
p˚ avise en forskel p˚ a middelværdierne, og bredden af konfid ensintervallet for μ1 − μ2 viser hvor<br />
præcist denne forskel er bestemt. Konfidensintervallet er baseret p˚ a t-testet i (4.26), og (1 − α)<br />
konfidensintervallet er<br />
<br />
¯x1· − ¯x2· −t 1−α/2( f01)<br />
<br />
<br />
<br />
s 2 01<br />
n1<br />
s 2 01<br />
s2 1<br />
01 ( +<br />
n1<br />
1<br />
) ≤ μ1 − μ2 ≤ ¯x1· − ¯x2· + t1−α/2( f01)<br />
n2<br />
n2<br />
},<br />
},<br />
<br />
s2 1<br />
01 ( +<br />
n1<br />
1<br />
<br />
) .<br />
n2<br />
(4.27)<br />
Selv n˚ ar testet for H02 ikke forkaster hypotesen, og man derfor m˚ a konkludere, at d ata ikke stri-<br />
der mod H02, at de to observationsrækker har samme middelværdi, er det interessant at beregne<br />
konfidensintervallet for μ1 − μ2, som ogs˚ a i det tilfælde er givet ved formlen ovenfor. Man sk al<br />
nemlig være opmærksom p˚ a, at n˚ ar et statistisk test ikke er signifikant, har man ikke bevist at<br />
der ingen forskel er. Man har kun vist, at data ikke strider mod en antagelse om ingen forskel,<br />
og det kunne jo skyldes at man havde lavet et d˚ arligt forsøg m ed enten for stor varians, for sm˚ a<br />
stikprøver eller begge dele. Bredden af konfidensintervallet for μ1 − μ2 kan bruges til at vurde-<br />
re kvaliteten af forsøget. Et forsøg med et smalt konfidensinterval vil virke mere overbevisende
4.42 4.4 To observationsrækker<br />
end et forsøg med et bredt konfidensinterval, og her skal bredden af konfidensintervallet altid<br />
vurderes ud fra den faglige problemstilling.<br />
95% konfidensintervallet for μ1 − μ2 er i det konkrete tilfælde<br />
<br />
¯x1· − ¯x2· ±t0.975(35) s2 1 1<br />
01 ( + ) = −2.859 ± 2.030 · 1.74171 = [−6.395,0.677] .<br />
17 20<br />
Konfidensinterval for σ 2 i modellen M1 beregnes som beskrevet for én observationsrække. Det<br />
er baseret p˚ a at s2 01 ∼∼ σ 2χ 2 ( f01)/ f01 og (1 − α) konfidensintervallet er<br />
<br />
σ 2 |<br />
s 2 01<br />
s 2 01<br />
χ2 1−α/2 ( f01)/<br />
≤ σ<br />
f01<br />
2 ≤<br />
χ2 α/2 ( f01)/ f01<br />
og det kan transformeres til et (1 − α) konfidensinterval for σ<br />
⎧ <br />
⎨ <br />
<br />
σ | <br />
s<br />
⎩ 2 01<br />
χ2 1−α/2 ( f01)/<br />
<br />
<br />
<br />
≤ σ ≤ <br />
s<br />
f01<br />
2 01<br />
χ2 α/2 ( f01)/<br />
⎫<br />
⎬<br />
f01⎭<br />
.<br />
4.4.3 Forskellig varians<br />
Den generelle teori diskuteres i forbindelse med datasættet i Eksempel 4.3.<br />
Eksempel 4.3<br />
Tabellen nedenfor indeholder tiderne for de to semifinaler i kvindernes 100 m løb ved de olym-<br />
piske lege i Sydney 2000.<br />
semifinale 1 11.22 11.31 11.32 11.34 11.37 11.40 11.42 11.45<br />
semifinale 2 11.01 11.10 11.12 11.16 11.23 11.31 11.33 11.56<br />
Fraktildiagrammet i Figur 4.10 antyder, at var de to observationsrækker kan antages at være<br />
normalfordelte men med hver sin varians, idet punkterne varierer omkring to rette linjer med<br />
forskellig hældning.<br />
Da S1 = 90.83, S2 = 89.82, SK1 = 1031.2983 og SK2 = 1008.6616 bliver estimaterne i<br />
modellen<br />
M0 : Xi j ∼ N(μi,σ 2<br />
i ), j = 1,...,8, i = 1,2<br />
semifinale middelværdi μ varians σ 2<br />
1 11.35375 0.005313<br />
2 11.22750 0.029650<br />
<br />
,
Figur 4.10 Fraktildiagrammet for data i Eksempel 4.3.<br />
Som altid betragter vi først hypotesen om varianshomogenitet H01 : σ 2 1 = σ 2 2 .<br />
F-testet bliver<br />
F(x) = s2 (2)<br />
s2 =<br />
(1)<br />
0.029650<br />
= 5.5812.<br />
0.005313<br />
4.43<br />
Teststørrelsen skal vurderes i en F-fordeling med 7 frihedsgrader i tælleren og 7 frihedsgrader<br />
i nævneren. Her er<br />
s˚ a testsandsynligheden bliver<br />
P[F(X) > 5.5812] = 1 − F F(7,7)(5.5812) = 1 − 0.9814 = 0.0186,<br />
ε(x) = 2P[F(X) > 5.5812] = 0.0372.<br />
Testsandsynligheden er under 0.05, s˚ a H01 forkastes. De to observationsrækker har ikke den<br />
samme varians. Variansskønnet er størst for tiderne i den anden semifinale. Modellen er stadig<br />
M0 ovenfor.<br />
Test af hypotesen om ens middelværdier<br />
Vi tester nu hypotesen om ens middelværdier i de to observationsrækker:<br />
H ∗ 02 : μ1 = μ2
4.44 4.4 To observationsrækker<br />
selvom de to rækker har forskellig varians.<br />
H0μ er<br />
Udgangspunktet er som før at vurdere forskellen i skønnene over middelværdierne. Under<br />
¯x1· − ¯x2·<br />
<br />
σ 2 1 /n1 + σ 2 2 /n2<br />
∼∼ N(0,1) (4.28)<br />
og da varianserne er ukendte, kan man forsøge sig med at erstatte dem med skønnene i formlen<br />
(4.28). Det giver teststørrelsen<br />
t(x) =<br />
¯x1· − ¯x2·<br />
<br />
s2 (1) /n1 + s2 (2) /n2<br />
.<br />
Denne er ikke eksakt t-fordelt, men man kan vise, at dens fordeling kan approksimeres med en<br />
t-fordeling med et antal frihedsgrader, ¯f , der beregnes ud fra variansskønnene og antal obser-<br />
vationer i hver af de to observationsrækker. Formlen til beregning af ¯f er<br />
¯f =<br />
<br />
s2 (1)<br />
n1 + s2 2 (2)<br />
n2<br />
. (4.29)<br />
og det kan vises, at<br />
<br />
s2 2<br />
(1)<br />
n1 f +<br />
(1)<br />
<br />
s2 2<br />
(2)<br />
n2 f (2)<br />
min <br />
f (1), f (2) ≤ ¯f ≤ f (1) + f (2).<br />
Tilbage til det konkrete eksempel finder man, at<br />
t(x) =<br />
11.35375 − 11.22750<br />
=<br />
0.005313/8+0.029650/8 0.126250<br />
= 1.9097. (4.30)<br />
0.066108<br />
For at kunne beregne testsandsynligheden findes ¯f ved hjælp af formel (4.29) til ¯f = 9.43, som<br />
rundes ned til 9. Testsandsynligheden kan derp˚ a beregnes v ed hjælp af t-fordelingen med 9<br />
frihedsgrader til<br />
ε(x) = 2 1 − F t(9)(1.9097) = 0.0885.<br />
Da testsandsynligheden er større end 0.05 accepteres H∗ 02 . De to observationsrækker kan<br />
alts˚ a antages at have samme middelværdi med de har forskell ige varianser.<br />
Konfidensintervaller<br />
Konfidensintervaller for varianserne i hver af de to observationsrækker beregnes som beskrevet<br />
for én observationsrække. Vi nøjes her med at angive et approksimativt konfidensinterval for<br />
μ1 − μ2 som baseres p˚ a den approksimative t-fordeling af<br />
t(x) =<br />
¯x1· − ¯x2·<br />
<br />
s2 (1) /n1 + s2 (2) /n2<br />
,
og et (1 − α) konfidensinterval bliver<br />
⎧<br />
⎨<br />
⎩ ¯x1· − ¯x2· −t 1−α/2( ¯f)<br />
<br />
s 2 (1)<br />
n1<br />
+ s2 (2)<br />
n2<br />
≤ μ1 − μ2 ≤ ¯x1· − ¯x2· +t 1−α/2( ¯f)<br />
<br />
s 2 (1)<br />
n1<br />
+ s2 (2)<br />
n2<br />
⎫<br />
⎬<br />
⎭ .<br />
4.45<br />
(4.31)<br />
Grænserne for 95% konfidensintervallet for μ1 − μ2 er, idet vi benytter f = 9 i stedet for<br />
¯f = 9.43,<br />
¯x1· − ¯x2· ±t0.975(9)<br />
<br />
s 2 (1)<br />
n1<br />
+ s2 (2)<br />
n2<br />
4.4.4 Parrede observationer<br />
= 0.12625 ± 2.262 · 0.066108 = [−0.023287,0.275787] .<br />
Antag, at vi betragter følgende generelle situation. Vi ønsker at undersøge, om en bestemt be-<br />
handling (for eksempel en træningsmetode eller et medicinsk præparat) har en virkning. Vi<br />
udfører derfor et eksperiment, der best˚ ar i at vi p˚ a n forsøgspersoner før og efter behandlin-<br />
gen m˚ aler en størrelse (for eksempel kondital eller glycog en indhold i muskler) ved hjælp af<br />
hvilken behandlingens effekt kan belyses. Lad xi1 og xi2 betegne m˚ alingerne før og efter for<br />
den i’person, i = 1,...,n. Vi har alts˚ a ialt 2 n m˚ alinger, xi j, i = 1,...,n og j = 1,2, men de er<br />
parrede, idet xi1 og xi2 er sammenhørende observationer for den i’te person. Lad Xi j betegne de<br />
tilsvarende stokastiske variable. Typisk varierer middelværdien af den første m˚ aling fra person<br />
til person. Det vil sige, at<br />
EXi1 = αi, i = 1,...,n,<br />
hvor αi er udtryk for den i’te persons niveau af den m˚ alte størrelse. Antager vi nu, at behandlin-<br />
gen har en virkning som uafhængigt af personernes niveau forøger eller formindsker middel-<br />
værdierne med en størrelse δ har vi<br />
EXi2 = αi + δ, i = 1,...,n.<br />
Ingen virkning af behandlingen kan derfor formuleres som hypotesen<br />
H0 : δ = 0.<br />
Lad Di betegne differensen mellem m˚ alingen efter og før behandli ngen for den i’te person, det<br />
vil sige<br />
Di = Xi2 − Xi1, i = 1,...,n.
4.46 4.4 To observationsrækker<br />
Da<br />
EDi = E(Xi2 − Xi1) = EXi2 − EXi1 = (αi + δ) − αi = δ,<br />
ses det, at middelværdien af differenserne er uafhængig af personernes niveauer samt at H0<br />
svarer til at EDi = 0, i = 1,...,n.<br />
Hypotesen H0 kan testes p˚ a flere m˚ ader. Vi tager her udgangspunkt i antag elsen om at de<br />
observerede differenser d1,...,dn kan opfattes som en normalfordelt observationsrække, det vil<br />
sige, vi antager at D1,...,Dn er stokastisk uafhængige og betragter modellen<br />
M0 : Di ∼ N(δ,σ 2 D).<br />
Modellen M0 kontrolleres ved fraktilsammenligning baseret p˚ a differ enserne d1,...,dn samt<br />
ved at indtegne punkterne (xi1,xi2), i = 1,...,n. Punkterne i denne tegning skal variere omkring<br />
en ret linje med hældning 1 og afskæringen p˚ a andenaksen giv er et estimat for δ.<br />
I M0 er testet for H0 : δ = 0 alts˚ a blot testet for at middelværdien for en normalforde lt<br />
observationsrække d1,...,dn kan antages at være 0. Dette test - t-testet - er omtalt i Afsnit 4.3.<br />
I denne situation omtales testet som det parrede t-test. Hvis<br />
hvor<br />
og<br />
bliver testsandsynligheden for H0<br />
s 2 d<br />
t(d) = ¯ d √ n<br />
,<br />
d ¯=<br />
1<br />
n<br />
= 1<br />
n − 1<br />
n<br />
s 2 d<br />
∑ di<br />
i=1<br />
n<br />
∑<br />
i=1<br />
d) 2<br />
(di − ¯<br />
ε(d) = 2(1 − P(t(n − 1) ≤ |t(d)|)),<br />
hvor t(n − 1) er en t-fordelt stokastisk variabel med n − 1 frihedsgrader, og ved test p˚ a niveau<br />
5% forkastes H0 : δ = 0, hvis<br />
|t(d)| > t0.975(n − 1).<br />
Bemærkning Modellen M0 involverer ikke antagelser om de stokastiske variable Xi j, i =<br />
1,...,n, j = 1,2, men kun om differenserne Di, i = 1,...,n. Hvis imidlertid Xi j-erne er stoka-<br />
stisk uafhængige og Xi1 ∼ N(αi,σ 2 1 ) og Xi2 ∼ N(αi + δ,σ 2 2 ) er forudsætningerne i M0 opfyldt,<br />
idet vi da har Di ∼ N(δ,σ 2 D ), hvor σ 2 D = σ 2 1 + σ 2 2 .<br />
Eksempel 4.4<br />
(Andersen 1998) Tallene i tabellen nedenfor er indsamlet for at undersøge om træning har ind-<br />
flydelse p˚ a glycogen indholdet i benmuskler. Der er foretag et m˚ alinger p˚ a 8 personer, som i en
4.47<br />
periode p˚ a 3 uger træner det ene ben men ikke det andet. For hv er af de to ben er glycogen<br />
indholdet m˚ alt før og efter træningen.<br />
Trænet ben Utrænet ben<br />
Forsøgs- Før Efter Før Efter<br />
person nr. træning træning Differens træning træning Differens<br />
1 534 813 +279 575 616 +41<br />
2 593 767 +174 496 465 -31<br />
3 370 551 +181 413 439 +26<br />
4 507 716 +209 642 536 -106<br />
5 450 814 +364 422 566 +144<br />
6 619 1168 +549 668 501 -167<br />
7 422 749 +327 382 621 +239<br />
8 578 714 +136 652 513 -139<br />
Vi vil vurdere om træningen har effekt og betragter derfor primært tallene for det trænede<br />
ben. Tallene for det utrænede ben fungerer som en slags kontrol af forsøget, idet en effekt her<br />
vil antyde, at andre ting end træning har indflydelse p˚ a glyc ogen indholdet i musklerne.<br />
Figur 4.11 viser kontroltegningerne for s˚ avel det trænede ben (+) og det utrænede ben (·). Af<br />
fraktildiagrammet ses, at i begge tilfælde kan vi med rimelighed antage, at observationerne kan<br />
opfattes som en normalfordelt observationsrække, det vil sige at vi i begge tilfælde kan betragte<br />
modellen<br />
M0 : Di ∼ N(δ,σ 2 D ), i = 1,...,8.<br />
Endvidere antyder diagrammet, at middelværdien for det utrænede ben ligger tæt p˚ a 0, mens<br />
den for det trænede ben er af størrelsesordenen 275. (Dette ses af figuren ved at finde de punkter<br />
p˚ a førsteaksen der svarer til værdien 0 p˚ a andenaksen.)<br />
I den nederste tegning varierer punkterne pænt omkring rette linjer med hældning 1. Eneste<br />
afvigelse forekommer at være observationen for det trænede ben for person nr. 6, som m˚ aske er<br />
en ekstrem observation. Vi fastholder dog modellen M0 i begge tilfælde og ser senere p˚ a hvilken<br />
indflydelse observationerne for person nr. 6 har p˚ a resulta tet af analysen.<br />
Da summen og kvadratsummen af differenserne i de to tilfælde er<br />
finder vi for det trænede ben:<br />
differenser S SK<br />
utrænet ben 7 139621<br />
trænet ben 2219 743881<br />
d ¯=<br />
2219<br />
= 227.375<br />
8
4.48 4.4 To observationsrækker<br />
Figur 4.11 Kontroltegninger for det parrede t-test for data i Eksempel 4.4.
og<br />
og dermed<br />
s 2 d<br />
1 22192<br />
= (743881 − ) = 18340.84<br />
7 8<br />
t(d) = 227.375√ 8<br />
√ 18340.84 = 5.793.<br />
I tabellen over t-fordelingen finder vi, at testsandsynligheden for H0 : δ = 0 er<br />
ε(d) = 2(1 − P(t(7) ≤ 5.793)) = 0.0007.<br />
Hypotesen H0 forkastes. Vi har derfor p˚ avist en signifikant virkning af t ræning p˚ a glycogen<br />
indholdet. Da d ¯><br />
0, kan vi konkludere, at træning øger glycogen indholdet.<br />
og<br />
P˚ a samme m˚ ade finder vi for det utrænede ben:<br />
og dermed<br />
s 2 d<br />
d ¯=<br />
7<br />
= 0.875<br />
8<br />
1 72<br />
= (139612 − ) = 19944.98<br />
7 8<br />
t(d) = 0.875√ 8<br />
√ 19944.98 = 0.018.<br />
Testsandsynligheden for H0 : δ = 0 er derfor<br />
ε(d) = 2(1 − P(t(7) ≤ 0.018)) = 0.9865,<br />
4.49<br />
s˚ a H0 kan ikke forkastes. Vi kan derfor ikke konstatere nogen signifikant forskel i middelvær-<br />
dien af indholdet af glycogen i det utrænede ben før og efter de 3 uger.<br />
Gentages analysen, idet m˚ alingerne for person nr. 6 udelad es, finder vi for det trænede ben<br />
og for det utrænede ben<br />
t(d) = 7.365 ε(d) = 2(1 − P(t(6) ≤ 7.365)) = 0.0002<br />
t(d) = 0.492 ε(d) = 2(1 − P(t(6) ≤ 0.492)) = 0.6405,<br />
og alts˚ a præcis de samme konklusioner som ovenfor.
4.50 Beregninger i Excel<br />
Anneks til Afsnit 4.4<br />
Beregninger i Excel<br />
Excel har fire dialogbokse der let udfører beregninger for to observationsrækker, nemlig<br />
F-test: Dobbelt-stikprøve for ens varians<br />
t-test: To stikprøver med ens varians<br />
t-test: To stikprøver med forskellig varians<br />
t-test: Parvis dobbelt stikprøve for middelværdi<br />
Den sidste af disse laver beregningerne for det parrede t-test i Afsnit 4.4.4 og det er oplagt<br />
hvad de tre første dialogbokse laver. Vi illustrerer nu brugen af disse dialogbokse i forbindelse<br />
med eksemplerne i afsnittet.<br />
Eksempel 4.2 (Fortsat)<br />
Antag af cellerneA1:B23 har indholdet vist nedenfor<br />
<br />
¡¢£¤¥¦§¨¡<br />
¢ £ ©<br />
¥ ¦ § ¨¤<br />
¡©<br />
¡¡ ¡¢ ¡<br />
¤¥© ¥¢¨ ¥ § ¥£ £¡<br />
¥£¨ ¥£¨ ¥¥© ¥¤¡ ¥§£ ¥¥¢ ¥§¨ ¥¥¨ ¥¨£ ¥£<br />
¦¡© ¦©¥ ¦¡ ¥§¨<br />
¦¡¨ ¦¡£ ¦¢ ¦¢ ¦¢£ ¦¢¨ ¦£¢ ¦£ ¦¤¡ ¦©§<br />
¦¤£ ¦¤¢ ¦¥¡ ¦§¦ ¦¥¢ ¦¥¢ ¦¨£ ¦£<br />
For at beregne F-testet for hypotesen H01 : σ ¦¨§<br />
2 1 = σ 2 2 følger vi ruten:Funktioner →Dataanalyse<br />
→ F-test: Dobbelt-stikprøve for ens varians. I dialogboksen, der frem-<br />
kommer, angives cellerne A4:A20 i ruden efter Omr˚ade for variabel 1 og cellerne B4:B23
i ruden efterOmr˚ade for variabel 2. P˚ a et nyt regneark kommer der følgende udskrift:<br />
<br />
4.51<br />
¡¢£¤¥¦§¨<br />
¥¨¡£ ¦¡ ¢¢ ¢¥§£¡ ¦ ¨ ¦¥£¦<br />
Udskriften indeholder tal<br />
<br />
vi<br />
¦¤©¦¢¤¢¡¢£<br />
genkender<br />
<br />
fra<br />
¡©<br />
side 4.35 og<br />
<br />
side 4.36. I linjen Middelværdi<br />
£§¨¥¦ ¥¨©¨¤§¢ ¥ ¡¡ ©¡¢¡¡£¥©§¤ £ ©<br />
er angivet gennemsnittene ¯x1· og ¯x2· og i Varians findes de empiriske varianser s 2 (1) og s2 (2) .<br />
Derefter følger i linjerne Observationer og fg henholdsvis antallet af observationer, n1 og<br />
n2, og antallet af frihedsgrader, f (1) og f (2), for de to observationsrækker. I linjen F er angivet<br />
værdien af F-teststørrelsen, 1.416909583. Teksten i den næste linje, P(F
4.52 Beregninger i Excel<br />
Udskriften indeholder resultater vi kender fra side 4.40. I de tre første linjer gengives esti-<br />
materne for parametrene i M0 samt antallet af observationer i de to observationsrækker. I linjen<br />
Puljevarians ses estimatet s2 01 for den fælles varians. I linjen Hypotesen for forskel i<br />
middelværdien st˚ ar der 0, hvilket svarer til at hypotesen om ens middelvær dier ogs˚ a kan for-<br />
muleres H02 : μ1 − μ2 = 0. (Værdien 0 er default, men kan ændres ved i dialogboksen at udfylde<br />
ruden efter Hypotese for forskel i middelværdi.) De to næste linjer fg og t-stat gi-<br />
ver antallet af frihedsgrader i t-testet samt teststørrelsen t(x). De næste to linjer bruger vi ikke,<br />
men i linjenP(T
4.53<br />
Sammenlign med resultaterne p˚ a side 4.44. <br />
Eksempel 4.4 (Fortsat)<br />
I cellerneA1:G11 nedenfor er data indtastet og differenserne beregnet for s˚avel det trænede ben<br />
og det utrænede ben. <br />
££<br />
¡¢£¤¥¦§¨<br />
§ ¡¦¨ ¥ £ ¦¥¦ £¨¥ ¢ <br />
£ £¢¨ ¡¥ <br />
¡©¨ ¥£¡ ¤¢¥ ©¥ ¤¢£ ¢ ¤¦¤ ¥<br />
£¡¡ ¤¥¥ ££ ¤¨¢ ¦£ £¥¤<br />
¤£¨ ¥¥§ ¤© ¥¦<br />
Det<br />
¢¦©<br />
parrede<br />
¤¤ § ¢<br />
¥¡ ¡¢¨ ¤©¦<br />
test<br />
¦<br />
for<br />
¥<br />
den trænede ben as f˚ via ruten Funktioner →Dataanalyse →t-test: ¢¥ ¥¤¡ ¤ ¢ ¢¨ ¢§¡ ¢¡¦ ¦£¨ ¥§ ¨ ¥ ¢¥£ £ § £¤© £ ¦ ¤¦§ £¡¡ ©<br />
Parvis dobbelt stikprøve for middelværdi. I dialogboksen angives cellerne B4:B11 i<br />
ruden efterOmr˚ade for variabel 1 og cellerneA4:A11 i ruden efterOmr˚ade for variabel<br />
2. Udskriften herfra er:<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
De tre første linjer<br />
<br />
i<br />
<br />
udskriften giver empirisk<br />
<br />
middelværdi, empirisk varians og antal obser- <br />
<br />
vationer i de to observationsrækker. I linjenPearson-korrelation angives den empiriske kor-<br />
relationskoefficient for de to rækker. 0’et i linjen Hypotese for forskel i middelværdi<br />
bevirker at vi tester hypotesen H0 : δ = 0. In linjen fg angives frihedsgraderne for det parre-<br />
de t-test og teststørrelsen t(d) er i linjen t-stat. Testsandsynligheden0.000668311 aflæses i<br />
linjen P(T
4.54 Beregninger i Excel<br />
Resultaterne stemmer overens med vores p˚ a side 4.49.<br />
For det utrænede ben as f˚ p˚ a tilsvarende m˚ ade ved hjælp af c ellerne E4:F11 udskriften<br />
¡¢£¤¥¦§¨¡<br />
¢ ©<br />
¤ £<br />
<br />
¤¢¡ ¡¤ ¤¢ ¡¤ £¢¦¡¥¨¥£¡¨ ¢§£¡¤ § § <br />
© ¥§ ¤ © ¦ <br />
©© ¡ ©£¨¢¡¤¢¦¤§ §¨£¤¦¦¤©§ ©¨§¥¤©¦¤ ¥ <br />
<br />
¦¤¡£<br />
¡¢¥£¥¡¡¤¥
Hovedpunkter til Afsnit 4.4<br />
Her resumeres hovedpunkterne om k = 2 observationsrækker.<br />
Model<br />
Modellen for 2 normalfordelte observationsrækker er, at data<br />
x11,...,x1 j,...,x1n1<br />
x21,...,x2 j,...,x2n2<br />
er realisationer af uafhængige, normalfordelte stokastiske variable<br />
Modelkontrol<br />
M0 : Xi j ∼ N(μi,σ 2<br />
i ), j = 1,...,ni, i = 1,2.<br />
Probitanalyse, hvis der er observationer nok, men mindst prikdiagrammer p˚ a samme ark papir,<br />
s˚ a man kan vurdere forskelle og ligheder.<br />
Estimation i M0<br />
4.55<br />
Man kan med fordel bruge beregningsskemaet for k observationsrækker side 4.33. Med nota-<br />
tionen herfra har man<br />
μi ← ¯xi· ∼∼ N(μi,<br />
Det videre forløb afhænger af udfaldet af<br />
σ 2<br />
i<br />
), i = 1,2,<br />
ni<br />
σ 2<br />
i ← s2 2<br />
(i) ∼∼ σi χ 2 ( f (i))/ f (i), i = 1,2.<br />
Test af H01 : σ 2 1 = σ 2 2<br />
Sæt s 2 tæller = max{s2 (1) ,s2 (2) }, lad ftæller være frihedsgraderne for s 2 tæller ,<br />
s 2 nævner = min{s2 (1) ,s2 (2) } og lad fnævner være frihedsgraderne for s 2 nævner .<br />
Teststørrelse<br />
Testsandsynlighed<br />
F(x) = s2 tæller<br />
s2 .<br />
nævner<br />
ε(x) = 2 1 − F F( ftæller, fnævner)(F(x)) ,<br />
hvor F( ftæller, fnævner) betegner F-fordelingen med ftæller frihedsgrader i tælleren og fnævner<br />
frihedsgrader i nævneren.
4.56 Hovedpunkter til Afsnit 4.4<br />
Ved test p˚ a niveau 5% accepteres H01 : σ 2 1 = σ 2 2 , hvis<br />
Accepteres hypotesen H01 : σ 2 1 = σ 2 2<br />
Model M1<br />
Estimation i M1<br />
μ1 ← ¯x1· ∼∼ N(μ1,<br />
F(x) < F0.975( ftæller, fnævner).<br />
er modellen<br />
M1 : Xi j ∼ N(μi,σ 2 ).<br />
σ 2<br />
σ 2 ← s 2 01 = f (1)s 2 (1) + f (2)s 2 (2)<br />
f (1) + f (2)<br />
med f01 = f (1) + f (2) = n· − 2.<br />
Test H02 : μ1 = μ2 i M1<br />
Teststørrelse<br />
Testsandsynlighed<br />
t(x) = <br />
n1<br />
s 2 01<br />
), μ2 ← ¯x2· ∼∼ N(μ2,<br />
= SAK (1) + SAK (2)<br />
f (1) + f (2)<br />
¯x1· − ¯x2·<br />
1<br />
n1<br />
+ 1<br />
<br />
n2<br />
∼∼ t( f01).<br />
ε(x) = 2 1 − F t( f01)(|t(x)|) .<br />
σ 2<br />
n2<br />
),<br />
∼∼ σ 2 χ 2 ( f01)/ f01,<br />
(1 − α) konfidensinterval for forskellen i middelværdi μ1 − μ2<br />
<br />
<br />
¯x1· − ¯x2· −t1−α/2( f01) s2 1<br />
01 ( +<br />
n1<br />
1<br />
<br />
) ≤ μ1 − μ2 ≤ ¯x1· − ¯x2· + t1−α/2( f01) s<br />
n2<br />
2 1<br />
01 ( +<br />
n1<br />
1<br />
<br />
) ,<br />
n2<br />
hvor t 1−α/2( f01) er 1 − α/2 fraktilen i t( f01)-fordelingen med f01 = n1 + n2 − 2.<br />
Accepteres hypotesen H02 kan modelen M1 reduceres til M2 : Xi j ∼ N(μ,σ 2 ), det vil sige,<br />
at de to observationsrækker kan opfattes som én stor observationsrække.<br />
Forkastes hypotesen H01 : σ 2 1 = σ 2 2 er modellen stadig M0 : Xi j ∼ N(μi,σ 2<br />
i ).<br />
Test H ∗ 02 : μ1 = μ2 i M0
Teststørrelse<br />
Testsandsynlighed<br />
t(x) =<br />
¯x1· − ¯x2·<br />
<br />
s 2 (1) /n1 + s 2 (2) /n2<br />
∼∼ t( ¯f).<br />
<br />
ε(x) = 2 1 − Ft( ¯f) (|t(x)|)<br />
<br />
.<br />
(1 − α) konfidensinterval for forskel i middelværdi μ1 − μ2<br />
⎧<br />
⎨<br />
⎩ ¯x1· − ¯x2· −<br />
<br />
s 2 (1)<br />
n1<br />
+ s2 (2)<br />
n2<br />
t 1−α/2( ¯f) ≤ μ1 − μ2 ≤ ¯x1· − ¯x2· +<br />
<br />
s 2 (1)<br />
n1<br />
+ s2 (2)<br />
n2<br />
⎫<br />
⎬<br />
t1−α/2( ¯f)<br />
⎭ ,<br />
4.57<br />
hvor t 1−α/2( ¯f) er 1 − α/2 fraktilen i t-fordelingen med ¯f frihedsgrader, og ¯f beregnes efter<br />
formlen<br />
¯f =<br />
<br />
s2 (1)<br />
n1 + s2 2 (2)<br />
n2<br />
<br />
s2 2<br />
(1)<br />
n1 f +<br />
(1)<br />
<br />
s2 2<br />
(2)<br />
n2 Accepteres hypotesen H ∗ 02 kan modellen M0 reduceres til M ∗ 2 : Xi j ∼ N(μ,σ 2<br />
i ).<br />
Parrede observationer<br />
Data best˚ ar af n parrede observationer, (xi1,xi2), i = 1,...,n.<br />
Model<br />
Differenserne di = xi2 − xi1, i = 1,...,n, det vil sige<br />
f (2)<br />
d1,...,di,...,dn<br />
er realisationer af uafhængige, normalfordelte stokastiske variable<br />
Modelkontrol<br />
M0 : Di ∼ N(δ,σ 2 D ).<br />
Fraktilsammenligning baseret p˚ a differenserne d1,...,dn samt indtegning punkterne (xi1,xi2),<br />
i = 1,...,n, i et koordinatsysten. Punkterne i denne tegning skal variere omkring en ret linje<br />
med hældning 1.<br />
Estimation<br />
n<br />
δ ← d ¯=<br />
1<br />
n ∑ di ∼∼ N(δ,<br />
i=1<br />
σ 2 D<br />
n )<br />
.
4.58 Hovedpunkter til Afsnit 4.4<br />
Test af H0 : δ = 0<br />
σ 2 D ← s2 d<br />
Det parrede t-test. Teststørrelse<br />
Testsandsynlighed<br />
= 1<br />
n − 1<br />
n<br />
∑<br />
i=1<br />
(di − d) ¯ 2 ∼∼ σ 2 Dχ 2 (n − 1)/(n − 1)<br />
t(d) = ¯ d √ n<br />
<br />
s2 ∼∼ t(n − 1).<br />
d<br />
ε(d) = 2(1 − P(t(n − 1) ≤ |t(d)|)),<br />
hvor t(n − 1) er en t-fordelt stokastisk variabel med n − 1 frihedsgrader.<br />
Ved test p˚ a niveau 5% forkastes H0 : δ = 0 hvis<br />
|t(d)| > t0.975(n − 1).
4.5 k observationsrækker<br />
4.59<br />
Notationen vedrørende k observationsrækker har vi allerede indført p˚ a side 4.32. S om udgangs-<br />
punkt for analysen betragter vi modellen<br />
M0 : Xi j ∼ N(μi,σ 2<br />
i ), j = 1,...,ni, i = 1,...,k,<br />
ifølge hvilken de k observationsrækker er normalfordelte hver med sin middelværdi og varians.<br />
Vi antager at k > 2, og modsætning til situationen i Afsnit 4.4, hvor k = 2, tester vi her kun<br />
hypotesen om ens middelværdier under forudsætning af varianshomogenitet. Med andre ord, vi<br />
tester først hypotesen om varianshomogenitet<br />
H01 : σ 2 1 = ··· = σ 2 k<br />
svarende til reduktionen M0 → M1 : Xi j ∼ N(μi,σ 2 ) og kun hvis denne hypotese accepteres,<br />
tester vi hypotesen om ens middelværdier<br />
H02 : μ1 = ··· = μk<br />
svarende reduktionen M1 → M2 : Xi j ∼ N(μ,σ 2 ).<br />
Gennemgangen af teorien for k observationsrækker er baseret p˚ a Eksempel 4.5.<br />
Eksempel 4.5<br />
Institut for Idræt ved Københavns Universitet arrangerer hvertar ˚ et atletikstævne for de 1. ars ˚<br />
studerende. Atletiklærer Mikkel Sørensen har stillet nogle af resultaterne forarene ˚ 1998, 1999<br />
og 2000 til adighed. r˚ Det er af interesse at vide om resultat erne for de trear ˚ er forskellige eller<br />
ej. Resultaterne af pigernes længdespring er vist i tabellen nedenfor.<br />
˚ar længde i m<br />
1998 3.72 3.65 3.90 3.74 3.32 4.22 3.58 4.56 3.65 2.99<br />
3.91 3.65 3.65 3.88 3.65 4.20<br />
1999 4.32 3.79 3.53 3.54 4.27 3.75 4.21 3.66 4.58 3.73<br />
5.18 3.00 3.91 3.52<br />
2000 3.96 3.43 4.30 4.22 3.56 3.70 3.70 3.56<br />
Data er tegnet op i Figur 4.12 og Figur 4.13 viser fraktildiagrammet for de tre observations-<br />
rækker. Punkterne i fraktildiagrammet varierer - uden systematiske afvigelser - omkring tre rette<br />
linjer og giver ikke anledning til at betvivle modellen M0. Linjerne i fraktildiagrammet ser stort<br />
set ud til at være sammenfaldende, hvilket antyder, at s˚ ave l middelværdier som varianser for de<br />
trear ˚ er identiske. Dette indtryk bekræftes af Figur 4.12.
4.60 4.5 k observationsrækker<br />
Figur 4.12 Data i Eksempel 4.5.<br />
Figur 4.13 Fraktildiagrammet for data i Eksempel 4.5.
Estimater for de seks parametre i<br />
M0 : Xi j ∼ N(μi,σ 2<br />
i ), j = 1,...,ni, i = 1,2,3,<br />
ses i de to sidste kolonner i beregningsskemaet nedenfor.<br />
4.61<br />
£¢ £¢ ¥¦§¡¢ £¨¤¢© ¢© ¢© ¥¦ ¢ ¦¦¦¦¦¦ ¦ ¦ ¦ ¦¦¦ ¦ ¦ ¦¦ ¦ ¡¢<br />
<br />
£¤¢<br />
<br />
4.5.1 Test for varianshomogenitet<br />
<br />
Hypotesen om varianshomogenitet<br />
H01 : σ 2 1 = ··· = σ 2 k<br />
testes hypotesen ved et Bartlett test. Teststørrelsen beregnes ved hjælp af de empiriske varianser,<br />
s 2 (1) ,...,s2 (k) , i de k observationsrækker samt estimatet s2 01 for variansen σ 2 i den model M1 :<br />
Xi j ∼ N(μi,σ 2 ), der fremkommer hvis H01 accepteres. Estimatet s2 01 er det vægtede gennemsnit<br />
af s 2 (1) ,...,s2 (k) med vægte f (1),..., f (k). Med betegnelserne i beregningsskemaet side 4.33 har<br />
vi<br />
Teststørrelsen i Bartlett testet er<br />
hvor<br />
og<br />
s 2 01 = f (1)s 2 (1) + ···+ f (k)s 2 (k)<br />
f (1) + ···+ f (k)<br />
= SAK01<br />
. (4.32)<br />
f01<br />
Ba(x) = −2lnQ(x)<br />
, (4.33)<br />
C<br />
−2lnQ(x) = f01 ln(s 2 01 ) −<br />
C = 1+<br />
<br />
k 1<br />
3(k − 1) ∑<br />
i=1<br />
1<br />
f (i)<br />
k<br />
∑<br />
i=1<br />
<br />
f (i) lns 2 (i) , (4.34)<br />
− 1<br />
<br />
f01<br />
. (4.35)<br />
Fra den generelle teori i Kapitel 5 as, f˚ at store værdier af −2lnQ(X), som er approksimativt<br />
χ 2 -fordelt med k−1 frihedsgrader, er kritiske for H01. Approksimationen gælder, hvis antallene<br />
af observationer ni, i = 1,...,k, i de k observationsrækker er store. Teststørrelsen i (4.33) er<br />
udledt af Bartlett, som viste, at ved at dividere −2lnQ(X) med faktoren C as f˚ en teststørrelse<br />
Ba(X) som ogs˚ a er approksimativt er χ2-fordelt med k − 1 frihedsgrader og det kan vises, at<br />
approksimationen er tilfredsstillende, hvis blot ni ≥ 3, i = 1,...,k, alts˚ a hvis der er mindst tre
4.62 4.5 k observationsrækker<br />
observationer i hver observationsrække. Testtørrelsen Ba(x) kan beregnes ud fra kolonnerne 7<br />
og 8 i beregningsskemaet side 4.33.<br />
Da store værdier af Ba(x) er kritiske for H01, beregnes testsandsynligheden som<br />
se Figur 4.14. Ved test p˚ a 5% niveau forkastes H01 hvis<br />
ε(x) = 1 − F χ 2 (k−1) (Ba(x)), (4.36)<br />
Ba(x) > χ 2 0.95 (k − 1).<br />
Figur 4.14 Illustration af testsandsynligheden for Bartlett testet i Eksempel 4.5. Testsandsyn-<br />
ligheden er arealet af den skraverede omr˚ ade.<br />
Accept af H01 reducerer modellen M0 til modellen<br />
Eksempel 4.5 (Fortsat)<br />
M1 : Xi j ∼ N(μi,σ 2 ), j = 1,...,ni, i = 1,...,k.<br />
For data vedrørende pigernes længdespring as f˚ ved hjælp af beregningsskemaet side 4.61, at<br />
−2lnQ(x) = 3.4193,<br />
C = 1.0430
og dermed at<br />
4.63<br />
Ba(x) = 3.4193<br />
= 3.2783.<br />
1.0430<br />
Da antallet af observationer i de k = 3 rækker alle er større end 3 beregnes testsandsynligheden<br />
ifølge (4.36) som<br />
ε(x) = 1 − F χ 2 (2) (3.2783) = 0.1941<br />
og hypotesen om varianshomogenitet H01 accepteres - som forventet. Der er med andre ikke<br />
forskel p˚ a variansen p˚ a længden af længdespringene for pi gerne i de trear. ˚<br />
Testsandsynligheden ovenfor er udregnet ved hjælp af Excel. Benyttes Statistical Tables til<br />
at beregne testsandsynligheden finder vi, idet χ2 0.80 (2) = 3.22
4.64 4.5 k observationsrækker<br />
4.5.2 Test for ens middelværdier<br />
Accepteres hypotesen om ens middelværdier<br />
ved et test i modellen M1, kan M1 reduceres til<br />
H02 : μ1 = ··· = μk<br />
M2 : Xi j ∼ N(μ,σ 2 ), j = 1,...,ni, i = 1,...,k,<br />
som bortset fra en lidt anderledes indicering af de variable er modellen for én normalfordelt<br />
observationsrække med ukendt varians. Fra Afsnit 4.3 har vi følgende estimater for parametrene<br />
i M2 :<br />
og<br />
hvor<br />
μ ← ¯x·· = 1<br />
n·<br />
k<br />
∑<br />
i=1<br />
ni<br />
∑ xi j ∼∼ N(μ,<br />
j=1<br />
σ 2<br />
n·<br />
), (4.37)<br />
σ 2 ← 1<br />
n· − 1 SAK02 ∼∼ σ 2 χ 2 (n· − 1)/(n· − 1), (4.38)<br />
SAK02 =<br />
k<br />
∑<br />
i=1<br />
ni<br />
∑(xi<br />
j − ¯x··)<br />
j=1<br />
2 .<br />
Estimaterne beregnes let ud fra sidste række i beregningsskemaet side 4.33, idet<br />
¯x·· = S·<br />
n·<br />
og SAK02 = SK· − S2 ·<br />
.<br />
n·<br />
Testet i M1 for hypotesen H02 om ens middelværdier er baseret p˚ a følgende opspaltning af<br />
kvadratsumafvigelsen SAK02 i M2 :<br />
hvor<br />
og<br />
SAK02 = SAK01 + SAK2,<br />
SAK01 =<br />
SAK2 =<br />
k<br />
∑<br />
i=1<br />
k<br />
∑<br />
i=1<br />
ni<br />
∑(xi<br />
j − ¯xi·)<br />
j=1<br />
2<br />
ni( ¯xi· − ¯x··) 2 .<br />
Det ses, er SAK2 et udtryk for hvor meget estimaterne ¯xi· for middelværdierne μi i de k rækker<br />
varierer omkring estimatet ¯x·· for den fælles middelværdi μ, det vil sige et udtryk for variationen<br />
mellem observationsrækkerne, mens SAK01 er et udtryk for hvor meget observationerne xi j i<br />
de k observationsrækker varierer omkring ¯xi·, det vil sige et udtryk for variationen inden for<br />
observationsrækkerne. Teststørrelsen for hypotesen H02 om ens middelværdier<br />
F(x) = s2 2<br />
s2 =<br />
01<br />
SAK2/(k − 1)<br />
SAK01/(n· − k)<br />
(4.39)
4.65<br />
forkaster for store værdier af F(x), svarende til at variationen mellem observationsrækkerne er<br />
for stor i forhold til variationen inden for rækkerne, se Figur 4.15.<br />
Figur 4.15 Data i Eksempel 4.5. Observationerne er angivet med ×, gennemsnittene ¯xi· i de tre<br />
rækker med · og den fuldt optrukne linje angiver det totale gennemsnit ¯x··.<br />
De til SAK2 og SAK01 svarende stokastiske variable SAK2(X) og SAK01(X) kan vises at<br />
være stokastisk uafhængige under H02 og endvidere er SAK2(X) ∼ σ 2 χ 2 (k−1) og SAK01(X) ∼<br />
σ 2 χ 2 (n·−k) under H02. Det følger derfor af definitionen af F-fordelingen i Afsnit 3.1.5, at F(x)<br />
er udfald af en stokastisk variabel F(X) som er F(k−1,n· −k)-fordelt. Da store værdier af F(x)<br />
er kritiske for H02 beregnes testsandsynligheden derfor som<br />
se Figur 4.16, og ved test p˚ a 5% niveau forkastes H02, hvis<br />
ε(x) = 1 − F F(k−1,n·−k)(F(x)), (4.40)<br />
F(x) > F0.95(k − 1,n· − k).<br />
Hvis H0 accepteres reduceres modellen M1 til modellen<br />
M2 : Xi j ∼ N(μ,σ 2 ), i = 1,...,nj, j = 1,...,k.
4.66 4.5 k observationsrækker<br />
Figur 4.16 Illustration af testsandsynligheden for F-testet for ens middelværdier i Eksempel<br />
4.5. Testsandsynligheden er arealet af den skraverede omr˚ade.<br />
Beregninger<br />
Beregningen af teststørrelsen i (4.39) foretages let ved hjælp af beregningsskemaet side 4.33,<br />
idet s2 01 som findes i kolonne 8 i skemaets nederste række. Desuden er<br />
s 2 1<br />
2 =<br />
k − 1 SAK2 = 1<br />
<br />
k S<br />
∑<br />
k − 1<br />
2 i − S2 <br />
·<br />
, (4.41)<br />
n·<br />
i=1 ni<br />
som let beregnes ud fra kolonne 2, 3 og 5 i skemaets nederste række.<br />
Konfidensintervaller<br />
Hvis H02 accepteres, findes estimaterne i M2 ved hjælp af formlerne (4.37) og (4.38) ovenfor,<br />
og (1 − α) konfidensintervaller for μ, σ 2 og σ findes ved hjælp af formlerne i Afsnit 4.3:<br />
⎡<br />
μ ∈ ⎣ ¯x·· −t1−α/2(n· − 1)<br />
σ 2 ∈<br />
<br />
<br />
s 2 02<br />
n·<br />
, ¯x·· +t 1−α/2(n· − 1)<br />
<br />
s 2 02<br />
s2 02<br />
χ2 1−α/2 (n· − 1)/(n· − 1) ,<br />
s2 02<br />
χ2 α/2 (n· − 1)/(n· − 1)<br />
n·<br />
<br />
⎤<br />
⎦, (4.42)<br />
, (4.43)
Variansanalysetabellen<br />
4.67<br />
⎡<br />
<br />
<br />
σ ∈ ⎣<br />
s2 02<br />
χ2 1−α/2 (n· − 1)/(n· − 1) ,<br />
<br />
<br />
<br />
<br />
s2 02<br />
χ2 α/2 (n·<br />
⎤<br />
⎦. (4.44)<br />
− 1)/(n· − 1)<br />
I litteraturen omtales modellen for k observationsrækker ofte som ensidet variansanalyse og re-<br />
sultaterne af analysen præsenteres ved variansanalysetabellen, som ogs˚ a Excel benytter. Navnet<br />
variansanalyse skal ses i lys af at F-teststørrelsen i (4.39) jo netop fremkommer ved at sammen-<br />
ligne varianser eller variationer. I variansanalysetabellen gengives beregningerne s˚ aledes<br />
Eksempel 4.5 (Fortsat)<br />
Variationskilde SAK f g s 2 F ε<br />
mellem grupper SAK2 k − 1 s 2 2<br />
inden for grupper SAK01 n· − k s 2 01<br />
I alt SAK02 n· − 1<br />
s 2 2<br />
s 2 01<br />
1 − F F(k−1,n·−k)(F)<br />
Tabel 4.3 Variansanalysetabellen for ensidet variansanalyse.<br />
Ved hjælp af sidste række i beregningsskemaet side 4.61 og formel (4.41) as, f˚ at<br />
og dermed<br />
SAK2 = 558.7705 − 145.692<br />
38<br />
s 2 2 = SAK2<br />
3 − 1<br />
= 0.1014.<br />
= 0.2027<br />
Værdien af s2 01 findes i beregningsskemaet i kolonne 8 i nederste række. Vi kan derfor beregne<br />
F-teststørrelsen i (4.39) for hypotesen H02 : μ1 = μ2 = μ3. Vi finder<br />
F(x) = s22 s2 = 0.5420 ∼∼ F(2,35)<br />
01<br />
og af (4.40) as, f˚ at testsandsynligheden for H02 er<br />
ε(x) = 1 − F F(2,35)(0.5420) = 0.5865,<br />
s˚ a hypotesen om ens middelværdier accepteres. Vi kan alts˚ a ikke p˚ avise forskel p˚ a middelvær-<br />
dien af længden af pigernes længdespring i de trear. ˚<br />
Igen er Excel brugt til at beregne testsandsynligheden. Benyttes Statistical Tables har vi et<br />
lille problem, idet fraktilerne for F(2,35)-fordelingen ikke findes i tabellen. Benytter vi i stedet
4.68 4.5 k observationsrækker<br />
for F(2,36)-fordelingen til at beregne testsandsynligheden, finder vi, idet F0.50(2,36) = 0.71<br />
>0.5420 , at ε(x) >1 − 0.50 = 0.50.<br />
Ved test p˚ a 5% niveau accepteres H02, da 0.5420 < F0.95(2,36) = 3.26.<br />
Beregningerne kan resumeres i variansanalyse tabellen som her bliver<br />
Variationskilde SAK f g s 2 F ε<br />
mellem grupper 0.2027 2 0.1014 0.5420 0.5865<br />
inden for grupper 6.5478 35 0.1871<br />
I alt 6.7505 37<br />
Slutmodellen for analysen er<br />
M2 : Xi j ∼ N(μ,σ 2 ), i = 1,...,nj, j = 1,2,3<br />
og estimaterne i M2 bliver - ved hjælp af (4.37) og (4.38) -<br />
og<br />
σ 2 ← s 2 02<br />
μ ← ¯x·· = S·<br />
n·<br />
= SAK02<br />
n· − 1<br />
= 145.69<br />
38<br />
= 3.8339 ∼∼ N(μ, σ 2<br />
38 )<br />
= 6.7505<br />
37 = 0.1824 ∼∼ σ 2 χ 2 (37)/37.<br />
Endelig bliver 95% konfidensintervallerne for μ,σ 2 og σ - ifølge formlerne (4.42) - (4.44) -<br />
<br />
0.1824<br />
μ ∈ 3.8339 − 2.0262<br />
38 ,3.8339+2.0262<br />
<br />
0.1824<br />
= [3.694,3.974],<br />
38<br />
σ ∈<br />
σ 2 ∈<br />
0.1824<br />
0.1824<br />
,<br />
1.5201 0.5877<br />
0.1824<br />
1.5201 ,<br />
0.1824<br />
0.5877<br />
<br />
= [0.1200,0.3104],<br />
<br />
= [0.3464,0.5571].<br />
Tilsvarende data for drengene er analyseret i Excel p˚ a side 4.70. <br />
4.5.3 Forskelle og ligheder i behandlingen af to og k observationsrækker<br />
Som test for H02 har vi anvendt et t-test, n˚ ar k = 2, og et F-test, n˚ ar k > 2. Det er imidlertid<br />
samme test. Man kan vise, at t 2 = F, og testsandsynligheden er den samme uanset hvilket af de<br />
to tests, man anvender.<br />
N˚ ar man alligevel behandler specialtilfældet k = 2, skyldes det, at man dér kan angive kon-<br />
fidensintervaller for forskellen μ1 − μ2 i middelværdier, og det kan være interessant, n˚ ar H02<br />
forkastes.
4.69<br />
Vi har ogs˚ a angivet forskellige tests for H01 i de to tilfælde. Bartletts test kan rent teknisk<br />
ogs˚ a beregnes n˚ ar k = 2, men det kan ikke anbefales. F-testet baseret p˚ a forholdet mellem de<br />
to variansskøn er langt hurtigst at beregne, og det er ydermere et eksakt test, det vil sige, at<br />
testsandsynligheden kan beregnes nøjagtigt. Ved beregning af testsandsynligheden for Bartletts<br />
test benytter man som bekendt en approksimation.<br />
4.5.4 Notation og test i forbindelse med en følge af modeller<br />
I dette afsnit har vi - uden at nævne det - indført en notation i forbindelse med en følge af<br />
modeller, som ogs˚ a vil blive brugt i de følgende afsnit.<br />
Vi betragter en følge af modeller<br />
M1 → M2 → ··· → Mi−1 → Mi → ··· ,<br />
som best˚ ar af gradvist enklere beskrivelse af observation ernes middelværdi. Det forudsættes, at<br />
alle observationerne har den samme varians. Hypotesen, som beskriver reduktionen<br />
Mi−1 → Mi<br />
betegnes H0i. Variansskønnet i modellen Mi betegnes s 2 0i<br />
s 2 0i<br />
1<br />
= SAK0i,<br />
f0i<br />
, og det er p˚ a formen<br />
hvor f0i betegner frihedsgraderne for s2 0i . Endvidere benytter vi betegnelserne<br />
og<br />
SAKi = SAK0i − SAK0i−1,<br />
fi = f0i − f0i−1,<br />
s 2 i = SAKi<br />
.<br />
fi<br />
Som vi har set i dette afsnit og som vi skal se flere eksempler p˚a i de kommende afsnit i dette<br />
kapitel, er teststørrelsen for H0i, svarende til reduktionen Mi−1 → Mi,<br />
F(x) =<br />
SAK0i − SAK0i−1<br />
f0i − f0i−1<br />
s 2 0i−1<br />
=<br />
SAKi<br />
fi<br />
s 2 0i−1<br />
= s2i s2 ,<br />
0i−1<br />
og testsandsynligheden beregnes ved opslag i F-fordelingen med fi frihedsgrader i tælleren og<br />
f0i−1 frihedsgrader i nævneren som<br />
ε(x) = 1 − F F( fi, f0i−1)(F(x)).<br />
Fortolkningen af frihedsgraderne for tælleren er iøvrigt, at det er forskellen i antallet af pa-<br />
rametre i middelværdien i de to modeller Mi−1 og Mi. Frihedsgraderne for nævneren er antallet<br />
af observationer minus antallet af parametre i middelværdien i modellen Mi−1.
4.70 Beregninger i Excel<br />
Anneks til Afsnit 4.5<br />
Beregninger i Excel<br />
F-testet for hypotesen H02 om ens middelværdier i en ensidet variansanalyse foretages i Excel<br />
ved hjælp af dialogboksen<br />
Anava: Enkelt faktor.<br />
Beregningerne vedrørende Bartlett testet for hypotesen H01 om varianshomogenitet m˚ a man<br />
derimod selv programmere. Det gøres dog forholdsvis let ved hjælp af udskriften fra dialog-<br />
boksenAnava: Enkelt faktor, som vist i fortsættelsen af Eksempel 4.5 nedenfor.<br />
Eksempel 4.5 (Fortsat)<br />
I regnearket nedenfor indeholder cellerne A4:C22 resultaterne af drengenes længdespring i de<br />
trear. ˚ ¡¢£¤¥¦§¨<br />
¡ ¢ £ ©<br />
¥ ¦ § ¨¤<br />
¡ ¡©<br />
£¤ ¨¨§ ¨¨¨ ¡©©© ¥©¢ £¦¨ ¤¥¤ <br />
¤¡ £¤¥ ¥©¤ ¤©¥ ¤ © ¤¢© ¢¨¨ ¥¢§ ¤¡¢ £¤§ ¤¤§ ¤¡© ¥¡¥ ¤¡ ¤£¢<br />
£§¥ ¤¡ ¢¤§ ¤£¡ ¤©£ ¤©§<br />
¤§¤ ¤¤¤ ¢©¢ ¤¥¥ ¤¤§ £§£ ¤¢¦ £¨¢ ¤§¢<br />
¤¥£ ¤ £¥¦ ¤¦£ ¤¥ £¥© ¤© ©<br />
F-testet<br />
£¨¥<br />
for hypotesen<br />
£¦<br />
H02 om ens middelværdier as f˚ via ruten Funktioner → Dataana- ¤¢¥ ¤¦© © ¢¥ ¤¦¡ £¦© £§§ ¥ ££© ¡¡<br />
lyse → Anava: Enkelt faktor. I dialogboksen, der fremkommer, angives cellerne A4:C22<br />
i Input omr˚ade: og i Grupperet efter: angives Kolonner. P˚ a et nyt regneark as f˚ de to
øverste tabeller p˚ a udskriften: <br />
¡¢£¤¥¦§¨¡<br />
¢ ©<br />
¤ ¥ ¦ £<br />
¨ ¡© §<br />
<br />
¨ ¨¤§£¤©££¡ ©¤¡¥©¥¡©§¡¤¦¢ ¡ ¨ ¨§¡¡¤ ¥¨£¦¢¥§£©£¤£§¢§¤¨¥ ¢ ¡ ¥¢§¨¤¢¡£ ¥¥¥¥¦©¡ ¢¤¨© ¤¡ <br />
<br />
©¤¦¨§©©£¢¨ ¡©¡§¨¨©©¡ ¨©¥¡¦¤¥¢¢¥¢©¤¢§¢©£¨©§¢ ¨¤©¤£§§¦ ¡ ¦ ££¨¤¥ £¦©£¥ ¨£¤¦¢¤ ¡¡¡¨ ¡¤ £¨ <br />
<br />
4.71<br />
¡¡ ¡£ §©£¦¥¦©£§¥©©¤¤¤¥ ¡¢ ¡¥¥©©¤¤¤¥ ¡<br />
¡¢¨¢£ §©¦§¦§<br />
I tabellen med overskriften RESUME findes størrelserne ni, Si, ¯xi· og s<br />
¤£¢¥¨¥¡§©©¨©¨ ¡¤ ¡¦ ¡¥ ¡§ ¡ §¦¨§¢©¤¡ © ¢¢£¡§©¥¨¢¦ ¢££¢¤©¤£¢£ ©¢© 2 (i) for de tre observa-<br />
tionsrækker.<br />
Variansanalysentabellen er gengivet under overskriftenANAVA, idetSK svarer til SAK,MK til<br />
s 2 ogP-værdi til ε. IF-krit er angivet 95% faktilen i den relevante F-fordeling, her fraktilen<br />
F0.95(2,47). (Bemærk, at Excel noget uheldigt benytter SK og ikke SAK som betegnelse for<br />
SAK.)<br />
Beregningerne, der giver resultaterne for Bartlett testet i cellerneA18:C28, laves p˚ a følgende<br />
m˚ ade: Først skrives overskriften beregning af Bartlett-testet i cellen A18. Antallet af<br />
frihedsgrader f (1) i den første række beregnes i cellenA21 som<br />
=B5 −1 ( f (1) = n1 − 1)<br />
og analoge formler oprettes iA22:A23. I cellenB21 beregnes<br />
og iC21 beregnes<br />
=LN(E5) (= ln(s 2 (1) ))<br />
=1/A21 (= 1<br />
)<br />
f (1)
4.72 Beregninger i Excel<br />
og analoge formler oprettes iB22:C23. Herefter beregnes værdien af konstanten C i cellenB25<br />
som<br />
1<br />
=1+1/3/(3 −1) ∗(SUM(C21 :C23) −1/C13) (= 1+<br />
3(k − 1) ((<br />
og −2lnQ i cellenB26 som<br />
=C13 ∗LN(D13) −SUMPRODUKT(A21 :A23;B21 :B23) (= f01 lns 2 01 −<br />
Endelig beregnes Ba i cellenB27 som<br />
og testsandsynligheden ε i cellenB28 som<br />
=B26/B25 (= −2lnQ<br />
C )<br />
=CHIFORDELING(B27;2) (= 1 − F χ 2 (2) (Ba)).<br />
k<br />
∑<br />
i=1<br />
1<br />
f (i)<br />
k<br />
∑<br />
) − 1<br />
))<br />
f01<br />
f (i) lns<br />
i=1<br />
2 (i) ).<br />
Det ses af resultaterne ovenfor, at konklusionen for drengene er den samme som for pigerne,<br />
nemlig at det kan antages, at middelværdier og varianser for længden af længdespringene ikke<br />
afhænger afar. ˚
Hovedpunkter til Afsnit 4.5<br />
Her resumeres hovedpunkterne om k observationsrækker.<br />
Modellen for k normalfordelte observationsrækker er, at data<br />
x11,...,x1 j,...,x1n1<br />
xi1,...,xi j,...,xini<br />
xk1,...,xk j,...,xknk<br />
er realisationer af uafhængige, normalfordelte stokastiske variable<br />
Modelkontrol<br />
M0 : Xi j ∼ N(μi,σ 2<br />
i ), j = 1,...,ni, i = 1,...,k.<br />
Fraktilsammenligning, hvis der er observationer nok, men mindst prikdiagrammer p˚ a samme<br />
ark papir, s˚ a man kan vurdere forskelle og ligheder.<br />
Estimation i M0<br />
4.73<br />
Man kan med fordel bruge beregningsskemaet for k observationsrækker side 4.33. Med nota-<br />
tionen herfra har man<br />
μi ← ¯xi· ∼∼ N(μi,<br />
σ 2<br />
i<br />
), i = 1,...,k,<br />
ni<br />
σ 2<br />
i ← s 2 2<br />
(i) ∼∼ σi χ 2 ( f (i))/ f (i), i = 1,...,k.<br />
Test af hypotesen om varianshomogenitet H01 : σ 2 1 = ··· = σ 2 k<br />
Bartlett test.<br />
Teststørrelse<br />
hvor<br />
og<br />
Ba(x) = −2lnQ(x)<br />
,<br />
C<br />
−2lnQ(x) = f01 lns 2 01<br />
C = 1+<br />
<br />
1 k<br />
∑<br />
3(k − 1) i=1<br />
k<br />
− ∑ f (i) lns<br />
i=1<br />
2 (i) ,<br />
1<br />
f (i)<br />
<br />
− 1<br />
<br />
.<br />
f01
4.74 Hovedpunkter til Afsnit 4.5<br />
Her er<br />
og<br />
s 2 01 =<br />
k<br />
∑<br />
f (i)s<br />
i=1<br />
2 (i)<br />
k<br />
∑ f (i)<br />
i=1<br />
SAK01 = k<br />
∑ SAK (i)<br />
i=1<br />
Testsandsynlighed, forudsat ni ≥ 3, i = 1,...,k,<br />
=<br />
k<br />
∑<br />
i=1<br />
SAK (i)<br />
k<br />
∑ f (i)<br />
i=1<br />
= SAK01<br />
,<br />
f01<br />
f01 = k<br />
∑ f (i) = n· − k.<br />
i=1<br />
ε(x) = 1 − F χ 2 (k−1) (Ba(x)),<br />
hvor F χ 2 (k−1) er fordelingsfunktionen for χ 2 -fordelingen med k − 1 frihedsgrader.<br />
Hvis H01 accepteres reduceres modellen til<br />
Estimation i M1<br />
Konfidensintervaller i M1<br />
μi ← ¯xi· ∼∼ N(μi,<br />
M1 : Xi j ∼ N(μi,σ 2 ).<br />
σ 2<br />
ni<br />
σ 2 ← s 2 01 = SAK01<br />
f01<br />
), i = 1,...,k,<br />
∼∼ σ 2 χ 2 ( f01)/ f01.<br />
(1 − α) konfidensintervallerne for middelværdien μi, variansen σ 2 og spredningen σ er:<br />
⎡ <br />
⎤<br />
μi ∈<br />
⎣ ¯xi· −t 1−α/2( f01)<br />
σ 2 ∈<br />
<br />
s 2 01<br />
s 2 01<br />
ni<br />
, ¯xi· +t 1−α/2( f01)<br />
s 2 01<br />
χ2 1−α/2 ( f01)/<br />
,<br />
f01 χ2 α/2 ( f01)/<br />
,<br />
f01<br />
⎡<br />
<br />
<br />
σ ∈ ⎣<br />
s2 01<br />
χ2 1−α/2 ( f01)/<br />
<br />
<br />
<br />
, <br />
s<br />
f01<br />
2 01<br />
χ2 α/2 ( f01)/<br />
⎤<br />
⎦.<br />
f01<br />
Test af hypotesen om ens middelværdier H02 : μ1 = ··· = μk<br />
Teststørrelse<br />
F(x) = s2 2<br />
s 2 01<br />
<br />
s 2 01<br />
ni<br />
⎦,
Testsandsynlighed<br />
ε(x) = 1 − F F(k−1,n·−k)(F(x)),<br />
4.75<br />
hvor F F(k−1,n·−k)er fordelingsfunktionen for F-fordelingen med k − 1 frihedsgrader i tælleren<br />
og n· − k frihedsgrader i nævneren.<br />
Her er<br />
og beregningsformlen for SAK2 er<br />
s 2 2<br />
SAK2 =<br />
= SAK2<br />
k − 1 ,<br />
k<br />
∑<br />
S 2 i<br />
i=1 ni<br />
<br />
− S2 ·<br />
.<br />
n·<br />
De størrelser, der indg˚ ar i beregningen findes i nederste ræ kke i kolonne 5, 2 og 3 i beregnings-<br />
skemaet side 4.33.<br />
Accepteres H02 reduceres modellen M1 til<br />
M2 : Xi j ∼ N(μ,σ 2 )<br />
som er modellen for én observationsrække blot med en anden indicering af de variable.<br />
Estimation i M2<br />
σ 2 ← s 2 02<br />
Konfidensintervaller i M2<br />
= SAK02<br />
n· − 1<br />
μ ← ¯x·· ∼∼ N(μ,<br />
σ 2<br />
n·<br />
),<br />
1<br />
=<br />
n· − 1 (SK· − S2 ·<br />
) ∼∼ σ<br />
n·<br />
2 χ 2 (n· − 1)/n· − 1,<br />
(1 − α) konfidensintervallerne for middelværdien μ, variansen σ 2 og spredningen σ er:<br />
⎡<br />
μ ∈ ⎣ ¯x·· −t1−α/2(n· − 1)<br />
σ 2 ∈<br />
<br />
<br />
s 2 02<br />
n·<br />
, ¯x·· +t 1−α/2(n· − 1)<br />
<br />
s 2 02<br />
s2 02<br />
χ2 1−α/2 (n· − 1)/(n· − 1) ,<br />
s2 02<br />
χ2 α/2 (n· − 1)/(n· − 1)<br />
⎡<br />
<br />
<br />
σ ∈ ⎣<br />
s2 02<br />
χ2 1−α/2 (n· − 1)/(n· − 1) ,<br />
<br />
<br />
<br />
<br />
s2 02<br />
χ2 α/2 (n·<br />
⎤<br />
⎦.<br />
− 1)/(n· − 1)<br />
n·<br />
<br />
⎤<br />
⎦,<br />
,
4.76 4.6 Lineær regression<br />
4.6 Lineær regression<br />
Omtalen af den lineære regressionsmodel kan naturligt opdeles i to dele. I Afsnit 4.6.1 omtales<br />
regression uden gentagelser og i Afsnit 4.6.2 omtales modellen, n˚ ar der forekommer gentagel-<br />
ser. Hypoteser vedrørende parameterne i en lineær regression er omtalt i Afsnit 4.6.3 og i Afsnit<br />
4.6.4 omtales et emne, der er relateret til regressionsmodellen, under overskriften ”Korrelation<br />
og/eller regression”.<br />
4.6.1 Lineær regression uden gentagelser<br />
Gennemgangen af lineær regression uden gentagelser er knyttet til Eksempel 4.6.<br />
Eksempel 4.6<br />
I forbindelse med fortræningen til et 100 km løb blev der foretaget et test med en af løberne.<br />
Testet blev foretaget ved hjælp af et løbeb˚ and, hvor belast ningen blev sat op hver 1 1 2 minut ved<br />
at hastigheden eller vinklen p˚ a b˚ andet blev sat op. Forude n at registrere tiden p˚ a b˚ andet m˚ alte<br />
Tue Lindstrøm, Institut for Idræt, blandt andet iltoptagelse, CO2 udskillelse, ventilation og puls.<br />
Da der g˚ ar et stykke tid fra løbet begynder, indtil hjertet r egistrerer belastningen, betragter vi<br />
kun m˚ alingerne fra 120 sekunder og fremefter. Sammenhøren de m˚ alinger af tid og puls for hvert<br />
1<br />
2 minut ses i tabellen nedenfor.<br />
tid(sek) puls tid(sek) puls<br />
120 162 390 178<br />
150 164 420 181<br />
180 165 450 182<br />
210 168 480 185<br />
240 171 510 187<br />
270 174 540 188<br />
300 172 570 188<br />
330 176 600 192<br />
360 177<br />
Det er ikke overraskende, at pulsen stiger med tiden, og vi indfører nu en model, den lineære<br />
regressionsmodel, som beskriver pulsens stigning med tiden.<br />
Vi opfatter tiden som en kendt eller deterministisk størrelse, som betegnes med t. I modsæt-<br />
ning hertil opfattes pulsen som en realisation af en stokastisk variabel. Vi fastholder traditionen<br />
med at betegne data, som er realisationer af stokastiske variable med x. Data, hvor den lineære<br />
regressionsmodel kan komme p˚ a tale, best˚ ar alts˚ a af talp ar (ti,xi),i = 1,...,n.
4.77<br />
I Figur 4.17 er der en tegning af de sammenhørende værdier af tid og puls, og der er indteg-<br />
net en ret linje midt igennem punktsværmen.<br />
Figur 4.17 Tegning af sammemhørende værdier af tid og puls.<br />
Punkterne i Figur 4.17 ligger tæt og ensartet omkring en ret linje, og p˚ a baggrund af tegnin-<br />
gen i Figur 4.17 beslutter man sig for den lineære regressionsmodel:<br />
xi ∼∼ N(α + βti,σ 2 ), i = 1,...,n.<br />
Der er to karakteristiske træk ved modellen, for det første er middelværdien for x’erne en<br />
lineær funktion af t, og for det andet er variansen p˚ a xi den samme for alle i. Den lineære<br />
middelværdi kontrollerer man p˚ a tegningen ved at se efter, om punkterne ligger omkring en ret<br />
linje. Hvis punktsværmen krummer, for eksempel som en banan, tyder det p˚ a, at middelværdien<br />
af x’erne ikke er en lineær funktion af t. Hvis observationerne har konstant varians, vil punkterne<br />
ligge i et b˚ and omkring linjen af nogenlunde konstant bredd e. En typisk afvigelse fra hypotesen<br />
om konstant varians er, at variansen afhænger af t, s˚ a observationerne spreder sig mere for store<br />
eller sm˚ a værdier af t.<br />
Vi skal senere i Afsnit 4.6.2 se, at man under specielle omstændigheder kan teste b˚ ade<br />
hypotesen om, at middelværdien er en lineær funktion af t og hypotesen om konstant varians,<br />
men oftest er en tegning den eneste kontrol af modellen, inden man begynder at regne.<br />
Vi forlader nu Eksempel 4.6 for at se, hvordan man estimerer i regressionsmodellen.
4.78 4.6 Lineær regression<br />
Model<br />
Modellen for lineær regression svarende til talparrene (ti,xi), i = 1,...,n, er<br />
M2 : Xi ∼ N(α + βti,σ 2 ), i = 1,...,n, (4.45)<br />
og Xi’erne er uafhængige. Modellen omtales som lineær regression af x p˚ a t. Den rette linje<br />
x(t) = α + βt kaldes regressionslinjen. Parameteren α er afskæringen af andenaksen og β er<br />
hældningskoefficienten. Parameteren α kaldes afskæringen eller undertiden positionen, og β<br />
kaldes hældningen eller regressionskoefficienten. De to variable x og t betegnes som henholdsvis<br />
den afhængige variabel og den uafhængige variabel. Denne sprogbrug er inspireret af, at x<br />
opfattes som funktion af t. Undertiden kaldes x for responsen og t for den forklarende variabel.<br />
Hvis alle t’erne er forskellige taler vi om en lineær regression uden gentagelser. Det er<br />
naturligvis overflødigt at tale om en regressionslinje, før man har mindst to punkter, den skal<br />
g˚ a igennem, s˚ a derfor betragter man ikke regressionsmode llen med mindre man har mindst to<br />
forskellige værdier af den forklarende variabel.<br />
Estimation<br />
Estimaterne ˆα og ˆ β for parametrene α og β i regressionsmodellen M2 findes som de værdier af<br />
α og β som miminerer kvadratsumsafvigelsen<br />
n<br />
∑<br />
i=1<br />
(xi −(α + βti)) 2 ,<br />
som er et m˚ al for afstanden mellem observationerne x og linjen α + βt. Metoden omtales som<br />
mindste kvadraters metode. Det kan vises, at i M2 er ˆα og ˆ β maksimum likelihood estimaterne<br />
for α og β.<br />
Hvis n, ¯t· og ¯x· betegner henholdsvis det totale antal observationer, gennemsnittet af t-erne<br />
og gennemsnittet af x-erne, det vil sige<br />
¯t· = 1<br />
n<br />
bestemmes estimaterne for α og β som<br />
og<br />
ˆβ =<br />
n<br />
∑<br />
i=1<br />
ti, ¯x· = 1<br />
n<br />
n<br />
∑<br />
i=1<br />
n<br />
∑ (xi − ¯x·)(ti − ¯t·)<br />
i=1<br />
n<br />
∑ (ti − ¯t·)<br />
i=1<br />
2<br />
xi,<br />
(4.46)<br />
ˆα = ¯x· − ˆ β ¯t·. (4.47)
I dansk litteratur bruges betegnelserne<br />
SAPxt =<br />
for summen af afvigelsernes produkt og<br />
n<br />
∑<br />
i=1<br />
SAKt =<br />
(xi − ¯x·)(ti − ¯t·)<br />
n<br />
∑<br />
i=1<br />
(ti − ¯t·) 2<br />
for summen af afvigelsernes kvadrater. Formel (4.46) bliver da<br />
ˆβ = SAPxt<br />
.<br />
SAKt<br />
Variansen σ 2 estimeres i regressionsmodellen M2 ved<br />
hvor SAK02 er residualkvadratsummen<br />
s 2 02<br />
SAK02 =<br />
4.79<br />
= 1<br />
n − 2 SAK02, (4.48)<br />
n<br />
∑<br />
i=1<br />
(xi −( ˆα + ˆ βti)) 2 .<br />
Navnet p˚ a denne kvadratsum skyldes, at størrelserne<br />
ri = xi −( ˆα + ˆ βti), i = 1,...,n<br />
kaldes (de observerede) residualer i regressionsmodellen M2.<br />
Ifølge (4.45) er<br />
Xi −(α + βti) ∼ N(0,σ 2 ), i = 1,...,n,<br />
og erstatter vi her α og β med estimaterne ˆα og ˆ β ar f˚ vi residualerne Ri som approksimativt er<br />
normalfordelt med middelværdi 0 og varians σ 2 , det vil sige<br />
Ri = Xi −( ˆα + ˆ βti) ≈ N(0,σ 2 ), i = 1,...,n.<br />
Antagelsen, om at observationerne i en regressionsanalyse er normalfordelte, kan derfor un-<br />
dersøges ved at lave en fraktilsammenligning p˚ a grundlag a f residualerne ri, i = 1,...,n. I en<br />
regression uden gentagelser er det den eneste mulighed for at undersøge antagelsen om norma-<br />
litet.
4.80 4.6 Lineær regression<br />
Beregningsformler<br />
Af beregningsskemaet nedenfor ses, at estimaterne i M2 kan beregnes ud fra de 6 størrelser:<br />
og<br />
St =<br />
SKt =<br />
n<br />
∑<br />
i=1<br />
n<br />
∑<br />
i=1<br />
n<br />
ti, Sx =<br />
n<br />
∑<br />
i=1<br />
t 2 i , SKx =<br />
SPxt =<br />
n<br />
∑<br />
i=1<br />
xiti.<br />
xi,<br />
n<br />
∑<br />
i=1<br />
x 2 i ,<br />
x t<br />
n n<br />
S Sx St<br />
SK SKx SKt<br />
SP SPxt<br />
SAK SKx − S2 x<br />
n<br />
SAP SPxt − SxSt<br />
n<br />
ˆβ<br />
ˆα<br />
SAK02<br />
s 2 02<br />
SAPxt<br />
SAKt<br />
1<br />
<br />
Sx −<br />
n<br />
ˆ <br />
βSt<br />
SAKx − SAP2 xt<br />
SAKt<br />
1<br />
n − 2 SAK02<br />
SKt − S2 t<br />
n<br />
Fordelingen til estimaterne i modellen M2 er anført nedenfor.<br />
<br />
ˆα ∼∼ N α,σ 2<br />
<br />
<br />
ˆβ ∼∼ N β,<br />
1<br />
n + ¯t 2 ·<br />
SAKt<br />
σ 2<br />
SAKt<br />
ˆα + ˆ <br />
βt ∼∼ N α + βt,σ 2<br />
<br />
1<br />
n + (t − ¯t·) 2<br />
SAKt
s 2 02 ∼∼ σ 2 χ 2 ( f02)/ f02,<br />
4.81<br />
hvor f02 = n − 2. Desuden har man brug for at vide, at fordelingen til ( ˆα, ˆ β) er uafhængig af<br />
fordelingen til s 2 02 , samt at ˆ β og ¯x· er uafhængige.<br />
Varianserne p˚ a estimaterne er interessante.<br />
Variansen p˚ a ˆ β er σ 2 /SAKt, s˚ a jo større SAKt, desto mindre varians, og desto bedre er β<br />
estimeret. SAKt er et m˚ al for den uafhængige variabels variationsomr˚ ade. Jo større variations-<br />
omr˚ ade den uafhængige variabel har, desto større er SAKt, og desto bedre er β estimeret. Dette<br />
bør man have for øje, hvis man udfører et førsøg, hvor man selv kan vælge værdierne af t.<br />
Variansen p˚ a ˆα viser, at α kan være meningsløs at fortolke, hvis de uafhængige variable<br />
ligger langt væk fra 0. I de situationer gør faktoren ¯t 2 ·<br />
p˚ a ˆα bliver stor.<br />
estimatet for α upræcist, idet variansen<br />
Variansen p˚ a ˆα + ˆ βt afhænger af den uafhængige variabel t gennem (t − ¯t·) 2 . Variansen er<br />
mindst for t = ¯t·, og da er variansen σ 2 /n, hvilket passer smukt med, at ˆα + ˆ β ¯t· = ¯x·.<br />
ˆα + ˆ βt er alts˚ a bedst bestemt for værdier af t midt i variationsomr˚ adet for den uafhængige<br />
variabel.<br />
Konfidensintervaller for parametrene i regressionsmodellen<br />
(1 − α) konfidensinterval for α<br />
<br />
ˆα −t1−α/2( f02) s2 <br />
1<br />
02 n + ¯t 2 <br />
<br />
·<br />
, ˆα +t1−α/2( f02) s<br />
SAKt<br />
2 <br />
1<br />
02 n + ¯t 2 <br />
·<br />
SAKt<br />
<br />
. (4.49)<br />
Ved konkrete beregninger p˚ a lommeregner af konfidensinter vallet for α, er det nyttigt at be-<br />
mærke, at<br />
1<br />
n + ¯t 2 ·<br />
SAKt<br />
= SKt<br />
,<br />
nSAKt<br />
og n, SKt og SAKt findes let i beregningsskemaet til lineær regression.<br />
(1 − α) konfidensinterval for β<br />
⎡<br />
⎣ ˆ β −t1−α/2( f02)<br />
<br />
s 2 02<br />
SAKt<br />
, ˆ β + t 1−α/2( f02)<br />
<br />
s 2 02<br />
⎤<br />
⎦. (4.50)<br />
SAKt<br />
(1 − α) konfidensinterval for α + βt<br />
<br />
ˆα + ˆ <br />
βt −t1−α/2( f02) s2 <br />
1<br />
02 n + (t − ¯t·) 2<br />
<br />
, ˆα +<br />
SAKt<br />
ˆ <br />
βt +t1−α/2( f02) s2 <br />
1<br />
02 n + (t − ¯t·) 2<br />
<br />
SAKt<br />
<br />
.<br />
(4.51)
4.82 4.6 Lineær regression<br />
α + βt er middelværdien af observationer, som svarer til værdien t af den uafhængige variabel.<br />
Undertiden er form˚ alet med en lineær regressionsmodel at k unne forudsige middelværdien af<br />
observationerne til forskellige værdier af t. I de tilfælde bliver (1 − α) konfidensintervallet for<br />
α + βt interessant.<br />
(1 − α) konfidensinterval for σ 2<br />
<br />
s 2 02<br />
s 2 02<br />
χ2 1−α/2 ( f02)/<br />
,<br />
f02 χ2 α/2 ( f02)/ f02<br />
<br />
, (4.52)<br />
hvor χ 2 1−α/2 ( f02)/ f02 og χ 2 α/2 ( f02)/ f02 er henholdsvis 1−α/2 og α/2 fraktil for χ 2 ( f02)/ f02-<br />
fordelingen med f02 = n − 2 frihedsgrader.<br />
Eksempel 4.6 (Fortsat)<br />
For data i dette eksempel bliver beregningsskemaet p˚ a side 4.80.<br />
x(puls) t(tid)<br />
n 17<br />
S 3010 6120<br />
SK 534310 2570400<br />
SP 1105830<br />
SAK 1362.941 367200<br />
SAP 22230<br />
ˆβ 0.0605<br />
ˆα 155.2647<br />
SAK02<br />
s 2 02<br />
17.15441<br />
1.14363<br />
Den estimerede regressionslinje, som er indtegnet i Figur 4.17, har alts˚ a ligningen<br />
x(t) = 155.2647+0.0605t.<br />
Som kontrol af normalfordelingsantagelsen i regressionsmodellen M2 laver vi et fraktildia-<br />
gram for residualerne<br />
ri = xi −(155.2647+0.0605ti), i = 1,...,17.<br />
Fraktildiagrammet, som er vist i Figur 4.18, giver ikke anledning til at betvivle antagelsen om<br />
normalitet, idet punkterne varierer omkring en ret linje uden systematiske afvigelser. Desuden<br />
ser det ud til at residualerne har middelværdi 0.
Figur 4.18 Fraktildiagram for residualerne i Eksempel 4.6.<br />
4.83<br />
Ved hjælp af formlerne (4.49), (4.50) og (4.52) finder vi følgende 95% konfidensintervaller<br />
for α, β og σ 2 :<br />
α ∈ [155.2647 − 2.131 · 0.68622,155.2647+2.131 · 0.68622]= [153.8024,156.7270],<br />
β ∈ [0.0605 − 2.131 · 0.001765,0.0605+2.131 · 0.001765]= [0.0567,0.0643],<br />
σ 2 <br />
1.14363 1.14363<br />
∈ , = [0.62048,2.84414].<br />
1.8326 0.4175<br />
4.6.2 Lineær regression med gentagelser<br />
Teorien bliver gennemg˚ aet i forbindelse med Eksempel 4.7.<br />
Eksempel 4.7<br />
Data i dette eksempel er tiderne i finalerne for kvinder p˚ a lø bedistancerne 200 m, 400 m og 800<br />
m ved olympiaden i Sydney iar ˚ 2000. Det er oplagt, at varians en p˚ a tiderne for de 8 kvinder<br />
i finalen vokser med distancen. Vi betragter derfor tiderne per 100 m og ønsker at undersøge,<br />
hvordan disse afhænger af distancen. Tiderne angivet i sekunder med tre decimalers nøjagtighed
4.84 4.6 Lineær regression<br />
findes i tabellen nedenfor og indtegnet i Figur 4.19.<br />
tider per 100 m<br />
distance<br />
200 m 400 m 800 m<br />
10.920 12.278 14.519<br />
11.135 12.395 14.580<br />
11.140 12.430 14.600<br />
11.175 12.448 14.814<br />
11.185 12.490 14.820<br />
11.210 12.513 14.833<br />
11.265 12.530 14.844<br />
11.330 12.760 14.909<br />
Bedømt ud fra Figur 4.19, ser det ud til, at variansen for de tre observationsrækker p˚ a hver<br />
8 observationer svarende til de tre distancer kan antages, at være ens. Desuden ser, det ud til at<br />
middelværdien vokser lineært med distancen. <br />
Figur 4.19 Tider per 100 m for kvindernes finaler p˚ a distancerne 200 m, 4 00 m og 800 m ved<br />
olympiaden i Sydneyar ˚ 2000.
Modeller og test<br />
4.85<br />
Vi annoncerede side 4.77, at man under specielle omstændigheder kunne teste hypotesen om<br />
konstant varians og hypotesen om lineær regression. Det kan man, hvis flere observationspar<br />
har den samme værdi af den uafhængige variabel, s˚ a en sorter ing af data efter værdierne af den<br />
uafhængige variabel viser, at data kan opdeles i k observationsrækker:<br />
Afhængig variabel: Uafhængige variabel:<br />
x11,...,x1 j,...,x1n1 t1 j = t1, j = 1,...,n1<br />
xi1,...,xi j,...,xini ti j = ti, j = 1,...,ni<br />
xk1,...,xk j,...xknk tk j = tk, j = 1,...,nk<br />
De ni observationer i gruppe i har samme værdi af den uafhængige variabel, og den fælles værdi<br />
betegnes med ti.<br />
N˚ ar data har denne struktur, begynder man med at antage grun dmodellen<br />
M0 : Xi j ∼ N(μi,σ 2<br />
i ), i = 1,...,k, j = 1,...,ni,<br />
som m˚ aske kan kontrolleres med fraktildiagrammer i de k observationsrækker, hvis der er ob-<br />
servationer nok. Derefter kan man teste reduktionen til modellen<br />
M1 : Xi j ∼ N(μi,σ 2 ), i = 1,...,k, j = 1,...,ni,<br />
ved at teste hypotesen H01 : σ 2 1 = ···=σ 2 k = σ 2 med Bartletts test, som blev introduceret i Afsnit<br />
4.5. Hvis reduktionen til M1 accepteres, kan man teste reduktionen til regressionsmodellen<br />
M2 : Xi j ∼ N(α + βti,σ 2 ), i = 1,...,k, j = 1,...,ni,<br />
ved at teste hypotesen H02 : μi = α +βti. Dette test er et typisk variansanalyse test, som baserer<br />
sig p˚ a at vurdere, hvor meget variansskønnet ændrer sig, me llem de to modeller M1 og M2, set<br />
i forhold til variansskønnet under den sidst accepterede model M1.<br />
Variansskønnet i modellen M1 er<br />
s 2 01<br />
1<br />
= SAK01,<br />
f01<br />
og det er velkendt, at f01 = n − k. Det er ligeledes velkendt, at man finder f01, SAK01 og s2 01 , i<br />
sidste række i det manuelle beregningsskema, side 4.33.<br />
Tilsvarende er variansskønnet i regressionsmodellen M2<br />
s 2 02<br />
1<br />
= SAK02,<br />
f02
4.86 4.6 Lineær regression<br />
og SAK02 og s2 02 findes i det manuelle beregningsskema side 4.80.<br />
N˚ ar man har disse størrelser, kan testet for reduktionen fr a M1 til M2 beregnes som<br />
F(x) =<br />
SAK02 − SAK01<br />
f02 − f01<br />
s 2 01<br />
= s2 2<br />
s2 . (4.53)<br />
01<br />
Teststørrelsen skal vurderes i en F-fordeling med f2 = f02 − f01 = (n−2)−(n−k) = k −2 fri-<br />
hedsgrader i tælleren og f01 = n−k frihedsgrader i nævneren. Kun store værdier af teststørrelsen<br />
er kritiske for H02, s˚ a testsandsynligheden beregnes som<br />
ε(x) = 1 − F F(k−2,n−k)(F(x)),<br />
hvor F F(k−2,n−k) er fordelingsfunktionen for F-fordelingen med f2 = k − 2 frihedsgrader i tæl-<br />
leren og f01 = n − k frihedsgrader i nævneren. Det bemærkes, at n her betegner det totale antal<br />
af observationer. Dette antal er tidligere i forbindelse med modellen for k observationsrækker<br />
blevet betegnet med n·.<br />
Det kan vises, at<br />
SAK2 = SAK02 − SAK01 =<br />
k<br />
∑<br />
i=1<br />
ni( ¯xi· −( ˆα + ˆ βti)) 2<br />
som er et m˚ al for hvor meget gennemsnittene ¯xi· varierer omkring det estimerede regressions-<br />
linje ˆα + ˆ βt. Idet SAK01 = ∑ k i=1 ∑ ni<br />
j=1 (xi j − ¯xi·) 2 er m˚ al for variationen inden for grupperne ses<br />
det, at F-testet i (4.53) forkaster, hvis variationen omkring regressionslinjen er for stor i forhold<br />
til variationen inden for grupper, se Figur 4.21.<br />
Eksempel 4.7 (Fortsat)<br />
I Figur 4.20 ses fraktildiagrammet for de tre observationsrækker svarende til de tre distancer.<br />
Figuren giver ikke anledning til at betvivle modellen M0.<br />
Udskriften fra Excel nedenfor viser beregningsskemaet side 4.33 for disse data:<br />
σ 2 2 = σ 2 3<br />
£¢ £¢ £¨¤¢© ¥¦ ¢ ¦¦ ¦ ¦ ¦¦¦¦¦ ¦ ¦¦¦ ¦ ¦¦ ¡¢<br />
Ud<br />
£¤¢<br />
fra<br />
¥¦§¡¢<br />
dette<br />
¢©<br />
beregnes<br />
¢©<br />
Bartlett testet for hypotesen om varianshomogenitet H01 : σ ¦¦¦¦¦¦ ¦ ¦ ¦ 2 1 =<br />
let. Idet<br />
bliver teststørrelsen<br />
C = 1.06349 og − 2lnQ(x) = 0.31229,<br />
Ba(x) = 0.31229<br />
= 0.29365<br />
1.06349
og testsandsynligheden<br />
s˚ a H01 accepteres.<br />
Figur 4.20 Fraktildiagram for tiderne per 100m i Eksempel 4.7.<br />
ε(x) = 1 − F χ 2 (2) (0.29365) = 0.863,<br />
For disse data er beregningsskemaet side 4.80<br />
x(tid) t(distance)<br />
n 24<br />
S 307.123 11200<br />
SK 3982.754245 6720000<br />
SP 152144.8<br />
SAK 52.565198 1493333.3333<br />
SAP 8820.7333<br />
ˆβ 0.00591<br />
ˆα 10.04031<br />
SAK02<br />
s 2 02<br />
Ved hjælp af de to beregningsskemaer finder vi, at<br />
0.46341<br />
0.02106<br />
SAK2 = SAK02 − SAK01 = 0.46341 − 0.38868 = 0.07473,<br />
4.87
4.88 4.6 Lineær regression<br />
Figur 4.21 Tider per 100 m for kvindernes finaler p˚ a distancerne 200 m, 4 00 m og 800 m ved<br />
olympiaden i Sydneyar ˚ 2000 samt den estimerede regression slinje. Gennemsnittene for de tre<br />
distance er markeret med ·.<br />
s˚ a F-teststørrelse i (4.53) bliver<br />
Da<br />
F(x) = 0.07473/1<br />
= 4.038 ∼∼ F(1,21).<br />
0.38868/21<br />
ε(x) = 1 − F F(1,21)(4.038) = 0.058.<br />
accepteres hypotesen om lineær regression H02 : μi = α + βti lige netop ved test p˚ a niveau 5%.<br />
(Benyttes Statistical Tables ar f˚ vi samme konklusion, idet F(x) = 4.038 < F0.95(1,21) = 4.32.)<br />
Af det beregningsskemaet oven for ses, at det estimerede regressionslinje for sammenhæn-<br />
gen mellem tid per 100 m og distancen har ligningen<br />
til<br />
x(t) = 10.04031+0.00591t. (4.54)<br />
Ved hjælp af formlerne (4.49), (4.50) og (4.52) findes konfidensintervallerne for α, β og σ 2<br />
α ∈ [10.04031 − 2.074 · 0.06284,10.04031+2.074 · 0.06284]= [9.90998,10.17064],<br />
β ∈ [0.00591 − 2.074 · 0.0001187,0.00591+2.074 · 0.0001187]= [0.00566,0.00616],
σ 2 ∈<br />
<br />
0.02106 0.02106<br />
, = [0.01260,0.04219].<br />
1.6719 0.4992<br />
Ønsker vi at angive et skøn over tiden per 100 m for en distance p˚ a 600 m indsætter vi<br />
t = 600 i formel (4.54) og finder<br />
x(600) = 10.04031+0.00591 · 600 = 13.586.<br />
Ifølge (4.51) er 95% konfidensintervallet for dette skøn<br />
[13.586 − 2.074 · 0.03359,13.586+2.074 · 0.03359]= [13.516,13.656].<br />
4.89<br />
Figur 4.22 Tider per 100 m for kvindernes finaler i samtlige løbedistancer, 100 m, 200 m, 400<br />
m, 800 m, 1500 m, 5000 m, 10000 m og marathon, ved olympiaden i Sydneyar ˚ 2000.<br />
Man skal som regel altid være meget forsigtig med at anvende formlen for den estimerede<br />
regressionslinje x(t) = ˆα + ˆ βt til angive skøn for den afhængige variabel x svarende til værdi-<br />
er af den uafhængige variable t, der ligger udenfor det omr˚ ade af t-værdier, der er benyttet til<br />
at bestemme linjen. S˚ aledes ogs˚ a i dette eksempel. Figur 4 .22 viser tiden per 100 m for de 8<br />
bedst placerede i samtlige løbedistancer for kvinder ved olympiaden i Sydney 2000, det vil sige<br />
for distancerne 100 m, 200 m, 400 m, 800 m, 1500 m, 3000 m, 5000 m, 10000 m og 42195<br />
m(marathon). Det fremg˚ ar tydeligt af figuren, at den lineær e sammenhæng mellem tid per 100
4.90 4.6 Lineær regression<br />
m og distancen, som vi fandt for distancerne 200 m, 400 m og 800 m, ikke gælder for de længste<br />
distancer. <br />
4.6.3 Hypoteser om regressionsparametrene<br />
Vi betragter hypoteserne med kendt hældning eller kendt afskæring og de modeller det leder til.<br />
Sammenhængen mellem modellerne og hypoteserne, der forbinder dem, kan fremstilles grafisk:<br />
M3 : Xi ∼ N(α + β0ti,σ 2 )<br />
H03 : β = β0 ր ց H04 : α = α0<br />
M2 : Xi ∼ N(α + βti,σ 2 ) M4 : Xi ∼ N(α0 + β0ti,σ 2 )<br />
H∗ 03 : α = α0 ց ր H∗ 04 : β = β0<br />
M ∗ 3 : Xi ∼ N(α0 + βti,σ 2 )<br />
Vi giver alle test for hypoteserne og estimaterne for parametrene i modellerne. Man skal be-<br />
mærke, at b˚ ade H∗ 03 og H04 er test for α = α0, men dermed hører enhver lighed op. Der er tale<br />
om reduktion fra to forskellige modeller til to forskellige modeller og testene er derfor forskel-<br />
lige. N˚ ar man tester H04, har man accepteret, at β er kendt og dermed modellen M3, og i den<br />
model har estimatet for α - som det ses nedenfor - en mindre varians end estimatet for α i M2.<br />
Tilsvarende kommentarer gælder om hypoteserne H03 og H∗ 04 , om at β = β0.<br />
Test af H03 : β = β0.<br />
Teststørrelse<br />
Testsandsynlighed<br />
Estimater for parametrene i M3 :<br />
t(x) = ˆ β − β0<br />
<br />
s2 02 /SAKt<br />
ε(x) = 2 1 − F t(n−2)(|t(x)|) <br />
α ← ˆαM3 = ¯x· − β0¯t· σ 2<br />
∼∼ N(α,<br />
n )<br />
σ 2 ← s 2 1 n<br />
2<br />
03 = ∑ {xi −( ˆαM3 + β0ti)}<br />
n − 1 i=1<br />
= 1<br />
<br />
SAK02 +(<br />
n − 1<br />
ˆ β − β0) 2 <br />
SAKt<br />
∼∼σ 2 χ 2 (n − 1)/(n − 1)<br />
(4.55)
Test af H∗ 03 : α = α0.<br />
Teststørrelse<br />
Testsandsynlighed<br />
Estimater for parametrene i M ∗ 3 :<br />
Test af H ∗ 04 : β = β0 :<br />
Teststørrelse<br />
Testsandsynlighed<br />
β ← ˆ βM ∗ 3 =<br />
t(x) = <br />
s 2 02<br />
ˆα − α0<br />
1<br />
n + ¯t 2 ·<br />
SAKt<br />
<br />
ε(x) = 2 1 − F t(n−2)(|t(x)|) <br />
n<br />
∑ ti(xi − α0)<br />
i=1<br />
n<br />
∑<br />
i=1<br />
σ 2 ← s ∗2 1<br />
03 =<br />
Estimat for parameteren i M4 :<br />
t 2 i<br />
n − 1<br />
= 1<br />
n − 1<br />
n<br />
∑<br />
i=1<br />
= SPxt − α0St<br />
SKt<br />
{xi −(α0 + ˆ βM ∗ 3<br />
σ 2<br />
∼∼ N(β, )<br />
SKt<br />
ti)} 2<br />
<br />
SKx + nα 2 0 − 2α0Sx − ˆ β 2 M ∗ 3 SKt<br />
∼∼σ 2 χ 2 (n − 1)/(n − 1)<br />
t(x) =<br />
ˆβM ∗ − β0 3 <br />
s∗2 03 /SKt<br />
= SPxt − α0St − β0SKt<br />
<br />
s∗2 03SKt ∼∼ t(n − 1)<br />
ε(x) = 2 1 − F t(n−1)(|t(x)|) <br />
σ 2 ← s 2 04 = 1 n<br />
∑ {xi −(α0 + β0ti)}<br />
n i=1<br />
2<br />
= 1 <br />
SKx + nα<br />
n<br />
2 0 + β 2 0 SKt<br />
<br />
− 2α0Sx − 2β0SPxt + 2α0β0St<br />
∼∼σ 2 χ 2 (n)/(n)<br />
<br />
4.91
4.92 4.6 Lineær regression<br />
Test af H04 : α = α0 :<br />
Teststørrelse<br />
Testsandsynlighed<br />
Estimat for parameteren i M4 :<br />
Variansanalysetabellen<br />
t(x) =<br />
ˆαM3 − α0<br />
<br />
s 2 03 /n<br />
= Sx − β0St − α0n<br />
<br />
s2 03n ∼∼ t(n − 1)<br />
ε(x) = 2 1 − F t(n−1)(| t(x) |) <br />
σ 2 ← s 2 04 = 1 n<br />
∑ {xi −(α0 + β0ti)}<br />
n i=1<br />
2<br />
= 1 <br />
SKx + nα<br />
n<br />
2 0 + β 2 0 SKt<br />
<br />
− 2α0Sx − 2β0SPxt + 2α0β0St<br />
∼∼σ 2 χ 2 (n)/(n).<br />
For en regressionsanalysen med gentagelser kan beregningerne resumeres i variansanalyseta-<br />
bellen:<br />
Variationskilde SAK f g s 2 F ε<br />
regression SAK3 1 s 2 3 s 2 3 /s2 02 1 − F F(1,n−2)(F)<br />
omkring linjen SAK2 k − 2 s 2 2 s 2 2 /s2 01 1 − F F(k−2,n−k)(F)<br />
inden for grupper SAK01 n − k s 2 01<br />
I alt SAK03 n − 1<br />
I linjen regression svarer kvadratsummen SAK3 til testet for hypotesen H03 : β = 0, svarende til<br />
at alle observationerne har middelværdi α. F-teststørrelsen i denne linje er<br />
F(x) = s2 3<br />
s2 =<br />
02<br />
ˆ β 2SAKt s2 02<br />
=<br />
⎛<br />
⎝ ˆ β − 0<br />
<br />
s2 02 /SAKt<br />
⎞<br />
⎠<br />
2<br />
= (t(x)) 2 ,<br />
hvor t(x) er t-teststørrelsen i (4.55) for hypotesen H03. Desuden er SAK03 = SAKx.
4.93<br />
For en regressionsanalyse uden gentagelser er variationen inden for grupper, SAK01, lig med<br />
0, s˚ a linjen inden for grupper fjernes fra tabellen som ar f˚ udseendet:<br />
Eksempel 4.6 (Fortsat)<br />
Variationskilde SAK f g s 2 F ε<br />
regression SAK3 1 s 2 3 s 2 3 /s2 02 1 − F F(1,n−2)(F)<br />
omkring linjen SAK02 n − 2 s 2 02<br />
I alt SAK03 n − 1<br />
I dette eksempel svarer hypotesen H03 : β = 0 til at pulsen ikke afhænger af tiden p˚ a løbeb˚ andet,<br />
idet regressionslinjen under H03 ar f˚ ligningen x(t) = α. Fra beregningsskemaet p˚ a side 4.82<br />
finder man de størrelser, der benyttes i t-testet for H03, som bliver<br />
t(x) =<br />
0.0605<br />
1.14363/367200 = 34.2818 ∼∼ t(15).<br />
Testsandsynligheden er 1.11 · 10−15 , s˚ a H03 forkastes som forventet. Pulsen afhænger alts˚ a af<br />
tiden p˚ a løbeb˚ andet.<br />
Ifølge udskriften fra Excel p˚ a side 4.102 er variansanalysetabellen for data i dette ek sempel<br />
som vist nedenfor. (Resultaterne i tabellen vedrørende testet for H03 adskiller sig lidt fra den<br />
ovenfor, fordi vi her har brugt afrundede størrelser i beregningerne.)<br />
Variationskilde SAK f g s 2 F ε<br />
regression 1345.787 1 1345.787 1176.387 1.14 · 10 −15<br />
omkring linjen 17.154 15 1.144<br />
I alt 1362.941 16<br />
Eksempel 4.7 (Fortsat)<br />
Variansanalysetabellen for disse data er:<br />
Variationskilde SAK f g s 2 F ε<br />
regression 52.10178 1 52.10178 2473.488 4.22 · 10 −24<br />
omkring linjen 0.07473 1 0.07473 4.038 0.058<br />
inden for grupper 0.38868 21 0.01851<br />
I alt 52.56519 23
4.94 4.6 Lineær regression<br />
4.6.4 Korrelation og/eller regression<br />
Teorien gennemg˚ as i forbindelse med Eksempel 4.8.<br />
Eksempel 4.8<br />
Vi betragter igen eksperimentet i Eksempel 4.6 udført af Tue Lindstrøm, Institut for Idræt, hvor<br />
der foruden tiden p˚ a løbeb˚ andet blev m˚ alt forskellige fy siologiske størrelser, blandt andre puls<br />
og iltoptagelse. I Eksempel 4.6 s˚ a vi, at pulsens afhængigh ed af tiden kunne beskrives ved hjælp<br />
af en lineær regressionsmodel. Her betragter vi sammenhørende m˚ alinger af pulsen og iltopta-<br />
gelsen(i l/min) foretaget første gang efter 2 minutter og derefter hvert 1 2 minut. Resultaterne er<br />
vist i tabellen nedenfor.<br />
puls iltoptagelse puls iltoptagelse<br />
162 3.130 178 3.832<br />
164 3.137 181 3.111<br />
165 3.060 182 4.054<br />
168 3.873 185 3.762<br />
171 3.322 187 4.102<br />
174 3.716 188 4.289<br />
172 3.413 188 4.171<br />
176 3.488 192 4.237<br />
177 3.630<br />
Vi er her interesserede i at undersøge, om der er en sammenhæng mellem pulsen og iltopta-<br />
gelsen. Situationen her er forskellig fra den i Eksempel 4.6 hvor vi studerede sammenhørende<br />
af tiden og pulsen, idet vi da antog, at tiden var deterministisk (kendt) mens pulsen var ud-<br />
fald en realisation af en stokastisk variabel. Her er b˚ ade p ulsen og iltoptagelsen realisationer<br />
af stokastiske variable. Vi kan for eksempel ikke før forsøgets start med sikkerhed sige, hvad<br />
pulsen og iltoptaget er efter 4 1 2 minuts løb p˚ a b˚ andet. Lader vi (x1i,x2i), i = 1,...,17, betegne<br />
det i’te sæt af sammenhørende værdier af puls og iltoptagelse er (x1i,x2i) en realisation af<br />
en todimensional stokastisk vektor og vil betragte (x11,x21),...,(x1n,x2n) som én observations-<br />
række af længde n = 17 fra den todimensionale normalfordeling, som er omtalt i Afsnit 3.1.2. <br />
Én observationsrække fra den todimensionale normalfordeling<br />
Vi betragter modellen<br />
M0 : Xi = (X1i,X2i) ∼ N2((μ1, μ2),Σ),
hvor<br />
Figur 4.23 Data i Eksempel 4.8. Sammenhørende værdier af puls og iltoptagelse.<br />
Σ =<br />
σ 2 1 ρσ1σ2<br />
ρσ1σ2<br />
σ 2 2<br />
<br />
.<br />
4.95<br />
Her betegner μi og σ 2<br />
i middelværdien og variansen for Xi, i = 1,2, og ρ er korrelationen mellem<br />
de to komponenter af Xi.<br />
Modelkontrol<br />
Af formel (3.19) as, f˚ at i modellen M0 er observationsrækken best˚ aende af førstekomponenterne<br />
x11,...,x1i,...,x1n normalfordelt med middelværdi μ1 og varians σ 2 1<br />
og tilsvarende er observa-<br />
tionsrækken best˚ aende af andenkomponenterne x21,...,x2i,...,x2n normalfordelt med middel-<br />
værdi μ2 og varians σ 2 2 . En del af kontrollen af M0 best˚ ar derfor af to fraktilsammenligninger<br />
for henholdsvis første- og andenkomponenterne.<br />
eller<br />
Formel (3.21) medfører, at<br />
X2i |X1i = x1i ∼ N(μ2 +(x1i − μ1) ρσ2<br />
,σ 2 2 (1 − ρ2 ))<br />
σ1<br />
X2i |X1i = x1i ∼ N(α + βx1i,σ 2 ), (4.56)
4.96 4.6 Lineær regression<br />
hvor<br />
og<br />
ρσ2<br />
α = μ2 − μ1 , (4.57)<br />
β = ρσ2<br />
σ1<br />
σ1<br />
(4.58)<br />
σ 2 = σ 2 2 (1 − ρ2 ). (4.59)<br />
Hvis førstekomponenterne x11,...,x1i,...,x1n betragtes som faste, siger formel (4.56), at vi har<br />
en lineær regression med førstekomponenterne som uafhængige variable og andenkomponen-<br />
terne som afhængige variable. Af symmetrigrunde har vi ogs˚a en lineær regression med an-<br />
denkomponenterne som uafhængige variable og førstekomponenterne som afhængige variable.<br />
Modellen M0 kan alts˚ a ogs˚ a evalueres ved hjælp af kontroltegninger fr a lineær regressionsana-<br />
lyse.<br />
Estimation<br />
Maksimum likelihood estimaterne for de fem parametre i M0 beregnet p˚ a grundlag af observa-<br />
tionerne (x11,x21),...,(x1n,x2n) er:<br />
σ 2 1<br />
σ 2 2<br />
μ1 ← S1<br />
n<br />
μ2 ← S2<br />
n<br />
1<br />
←<br />
n − 1 SAK1 = 1<br />
n − 1<br />
1<br />
←<br />
n − 1 SAK2 = 1<br />
n − 1<br />
ρ ← r =<br />
n<br />
1<br />
=<br />
n ∑ x1i = ¯x1· ∼∼ N(μ1,<br />
i=1<br />
σ 2 1<br />
n ),<br />
n<br />
1<br />
=<br />
n ∑ x2i = ¯x2· ∼∼ N(μ2,<br />
i=1<br />
σ 2 2<br />
n ),<br />
n<br />
∑<br />
i=1<br />
n<br />
∑<br />
i=1<br />
SAP<br />
√ =<br />
SAK1SAK2<br />
(x1i − ¯x1·) 2 ∼∼ σ 2 1 χ 2 (n − 1)/(n − 1),<br />
(x2i − ¯x2·) 2 ∼∼ σ 2 2 χ 2 (n − 1)/(n − 1),<br />
n<br />
∑<br />
i=1<br />
(x1i − ¯x1·)(x2i − ¯x2·)<br />
<br />
n<br />
n<br />
∑ (x1i − ¯x1·) 2 ∑ (x2i − ¯x2·)<br />
i=1<br />
i=1<br />
2<br />
Den simultane fordeling af de fem estimater er vanskelig at beskrive, men foruden de nævnte<br />
fordelingsresultater gælder der, følgende approksimation<br />
z = 1<br />
2 ln(1+r ) ∼≈ N(1<br />
1 − r 2 ln(1+ρ<br />
1<br />
),<br />
1 − ρ n − 3 ).<br />
.
Beregningerne af estimaterne foretages let ved hjælp af følgende beregningsskema<br />
Test af hypotesen H0 : ρ = 0<br />
x1<br />
n n<br />
S S1 = n<br />
∑ xi1<br />
i=1<br />
SK SK1 = n<br />
∑ x<br />
i=1<br />
2 i1<br />
SP SP = n<br />
∑ xi1xi2<br />
i=1<br />
SAK SAK1 = SK1 − S2 1<br />
n<br />
SAP SAP = SP − S1S2<br />
n<br />
s 2 s 2 1<br />
x2<br />
S2 = n<br />
∑ xi2<br />
i=1<br />
SK2 = n<br />
∑ x<br />
i=1<br />
2 i2<br />
SAK2 = SK2 − S2 2<br />
n<br />
1<br />
=<br />
n − 1 SAK1 s2 1<br />
2 =<br />
n − 1 SAK2<br />
r r =<br />
SAP<br />
√ SAK1SAK2<br />
4.97<br />
Hypotesen H0 om uafhængighed af de to komponenter i en todimensional normalfordeling te-<br />
stes ved hjælp af teststørrelsen<br />
t(x) =<br />
r<br />
(1 − r 2 )/(n − 2) ∼∼ t(n − 2). (4.60)<br />
Idet b˚ ade store og sm˚ a værdier af teststørrelsen er kritis ke er testsandsynligheden for H0<br />
Relation til regressionsanalyse<br />
ε(x) = 2(1 − F t(n−2)(|t(x)|). (4.61)<br />
Indsættes estimaterne ovenfor p˚ a højresiden i (4.57) og (4 .58) as, f˚<br />
ˆβ = r s2<br />
<br />
SAP SAK2/(n − 1) SAP<br />
= √ =<br />
s1 SAK1SAK2 SAK1/(n − 1) SAK1<br />
og<br />
ˆα = ¯x2· − ¯x1·r s2<br />
= ¯x2· − ¯x1· ˆ β,<br />
det vil sige præcis de samme størrelser som i regressionsanalysen af x2 p˚ a x1.<br />
s1
4.98 4.6 Lineær regression<br />
Ved at indsætte formlen for r i (4.60) finder vi<br />
SAP<br />
√<br />
SAK1SAK2<br />
t(x) = SAP<br />
1 −( √ )<br />
SAK1SAK2<br />
2<br />
<br />
/(n − 2)<br />
= <br />
1<br />
n−2<br />
= <br />
ˆβ<br />
s2 02 /SAK1<br />
,<br />
SAP<br />
SAK1<br />
<br />
SAK2 − SAP2<br />
<br />
/SAK1<br />
SAK1<br />
hvor s2 02 betegner variansestimatet i modellen for lineær regression af x2 p˚ a x1. Det ses, at t-testet<br />
for H0 : ρ = 0 i (4.60) er præcis det samme som t-testet for H03 : β = 0 i (4.55).<br />
Som konklusion p˚ a overvejelserne ovenfor har vi, at der med hensyn til de betragtede a-<br />
spekter beregningsmæssigt ikke er forskel p˚ a regressionsmodellen og modellen for én obser-<br />
vationsrække fra den todimensionale normalfordeling, skønt disse to modeller er principielt<br />
forskellige. Endvidere gælder, lidt løst formuleret, at den todimensionale normalfordelingsmo-<br />
del ”indeholder” to regressionsanalyser, nemlig regressionen af x2 p˚ a x1, hvis x1 betragtes som<br />
fast, og tilsvarende af x1 p˚ a x2.<br />
Eksempel 4.8 (Fortsat)<br />
Af Figur 4.23 ses, at de sammenhørende værdier af puls og iltoptag ligger pænt og ensartet om-<br />
kring en ret linje. Figur 4.24 viser fraktildiagrammerne for m˚ alingerne af pulsen og iltoptaget.<br />
Diagrammerne strider ikke mod at m˚ alingerne kan betragtes som to normalfordelte observa-<br />
tionsrækker. Alt i alt strider Figur 4.23 og Figur 4.24 ikke mod at antage at de sammenhørende<br />
m˚ alinger kan betragtes som én todimensional normalforde lt observationsrække. For disse data<br />
bliver beregningsskemaet p˚ a side 4.97:<br />
x1(puls) x2(iltoptag)<br />
n 17<br />
S 3010 62.327<br />
SK 534310 231.358791<br />
SP 11085.215<br />
SAK 1362.9412 2.8497<br />
SAP 49.6697<br />
s 2 85.1838 0.1781<br />
r 0.7970
Figur 4.24 Fraktildiagrammer for m˚ alinger af puls og iltoptag i Eksem pel 4.8.<br />
4.99
4.100 4.6 Lineær regression<br />
Teststørrelsen i (4.58) for hypotesen H0 om ingen sammenhæng mellem puls og iltoptag er<br />
t(x) =<br />
Da testsandsynligheden er 0.00013 for kastes H0.<br />
0.7970<br />
(1 − 0.7970 2 )/15 = 5.11 ∼∼ t(15).<br />
Linjen i regressionen for iltoptag p˚ a puls, der fremkommer ved at betragte værdierne af<br />
pulsm˚ alingerne som deterministiske, har ligningen<br />
x2 = ( ¯x2· − ¯x1·r s2<br />
s1<br />
)+r s2<br />
x1 = −2.78627+0.03644x1.<br />
s1
Anneks til Afsnit 4.6<br />
Beregninger i Excel<br />
4.101<br />
Beregningerne i regressionsmodellen M2 : Xi j ∼ N(α + βti,σ 2 ) udføres let i Excel ved hjælp af<br />
dialogboksen<br />
Regression<br />
Det er derimod noget besværligt at teste reduktionen for modellen for k observationsrækker<br />
M1 : Xi j ∼ N(μi,σ 2 ) til M2, som beskrevet i fortsættelsen af Eksempel 4.7 nedenfor.<br />
Eksempel 4.6 (Fortsat)<br />
Antag, at cellerneA1:B20 har indholdet som vist nedenfor<br />
¡¢£¤¥¦§¨¡<br />
¢ £ ©<br />
¥ ¦ § ¨¤<br />
¡©<br />
£¥ ¡© ¥¡ <br />
¥£ §© ¥¤ ¡ © ¥§ ¡£© ¦ ¡¦© ¦£ ¤©<br />
¦¡ ¢¢© ¦¥ ¢¥© ¦¦ ¢¨© ¦§ ¢©©<br />
§ £¤© §¡ £§© §¤ ¤ © §¦ ¤£© §§ £¡©<br />
§§ ¥©© ¨¡<br />
Via ruten Funktioner → Dataanalyse → Regression fremkommer der en dialogboks.<br />
¤¦©<br />
I vores gennemgang af regressionanlysen har vi betegnet den afhængige variabel med x og<br />
den uafhængige variabel med t. Mange stedet betegnes den afhængige variable med y og den<br />
uafhængige med x, s˚ aledes ogs˚ a i Excel. Da vi vil lave regressionen af puls p˚ a tid angiver vi<br />
cellerneB4:B20 efterInput for Y-omr˚ade og cellerne A4:A20 efterInput for X-omr˚ade.
4.102 Beregninger i Excel<br />
Efter et klik p˚ a OK ar f˚ vi følgende udskrift p˚ a et nyt regneark:<br />
¡¢£¤¥¦§¨¡<br />
¢ £ ©<br />
¥ ¦ § ¤<br />
©¨¨¢¥§¥¨ ¢ <br />
©¨§¦£ ¢¥§ ©¨§¥¤¦£¤¨£ ©¥¨£©¤ §¥ ¦ <br />
<br />
¢£¤¦§¥¦¥¤ ¢£¤¦§¥¦¥¤ ¦¥¦¦©¡¤¢ £¢¦£ ¤ ¤ ¦ ¤££ ¦¥ £¢¥¡¦£¤ ¥ ¢¥¡¨£ ¦¥ <br />
¤¤¡¥£¦©¤¨©¥§¥¡¡¤£§§¡¡¥¡¤¨© ¨ ¥£ ¦£¡§ ¤¢§©¡©¤ ¤¥¦¡¦¢¥ § <br />
©©¥©¤¢¨¡ ¥©©© ¦¥£¦§¡¢£¢©£©§¤©§ £¢¦£ ¤©©¤¥¦¦¦¥¦ ©©¥£¢©©¦¥<br />
I tabellen med overskriften Regressionsstatistik angives den empiriske korrelation r<br />
<br />
for de to variable i linjen Multipel R og r2 <br />
i linjen R-kvadreret. I linjen Standardfejl<br />
angives den estimerede spredning s02(= s2 02 )i regressionsmodellen.<br />
I den øverste tabel under overskriftenANAVA finder vi i linjenResidual under henholdsvis<br />
fg, SK og MK størrelserne f02, SAK02 og s2 02 , sammenlign med beregningsskemaet side 4.82. I<br />
linjenRegression finder vi underSK ogMK størrelserne SAK3 og s2 3 , som benyttes i forbindelse<br />
med test af hypotesen H03 : β = 0. Størrelserne er ens, idet antallet af frihedsgrader f3 = f03 −<br />
f02 = (n−1)−(n−2) = 1. F-teststørrelsen og den tilsvarende testsandsynlighed for H03 findes<br />
i samme linje underFogSignifikans F. Endelig findes i linjenI alt størrelserne f03 = n−1<br />
og SAK03 = SAK02 + SAK3.<br />
I den nederste tabel under overskriften ANAVA finder vi i linjen Skæring finder vi estima-<br />
tet ˆα (Koefficienter), den estimerede spredning p˚ a ˆα (Standardfejl), t-teststørrelsen for<br />
hypotesen H ∗ 03<br />
: α = 0 (t-stat) og den tilsvarende testsandsynlighed (P-værdi). De to sidste<br />
tal i rækken angiver 95% konfidensintervallet for α, som vi genkender fra side 4.83. I linjen<br />
X-variabel 1 findes tilsvarende estimatet ˆ β for hældningen, den estimerede spredning p˚ a ˆ β,<br />
t-teststørrelsen for hypotesen H03 : β = 0, den tilsvarende testsandsynlighed, og 95% konfiden-<br />
sintervallet for β. Resultaterne vedrørende testet svarer til dem p˚ a side 4.9 3 og konfidensinter-<br />
vallet blev beregnet p˚ a side 4.83. (Af en ukendt grund blive r konfidensintervallerne angivet to<br />
gange p˚ a udskriften. S˚ a tungnemme er vi da ikke at det er nød vendigt.)<br />
En tegning af observationerne med den estimerede regressionslinje kan as f˚ ved at klikke i
uden foranLinjetilpasningsplot i dialogboksenRegression. Tegningen ser s˚ aledes ud:<br />
<br />
¡¢£¤¥£¦§¨©¥§¥¨£¥¨<br />
<br />
<br />
Ikke særligt informativ, men efter lidt redigering bliver den til<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
4.103<br />
som ligner tegningen i Figur 4.17. <br />
Eksempel 4.7 (Fortsat)<br />
I forbindelse med test af reduktionen fra M1 : Xi j ∼ N(μi,σ 2 ) til M2 : Xi j ∼ N(α + βti,σ 2 )
4.104 Beregninger i Excel<br />
er Excel lidt tung at danse med. Det skyldes, at man i forbindelse med M1, modellen for k<br />
observationsrækker, skal angive x-erne som k kolonner (eller rækker), mens man i forbindelse<br />
med M2 skal angive x-erne som en kolonne (eller række). Det kan gøres s˚ aledes:<br />
Først indtastet data som tre observationsrækker som vist nedenfor<br />
¡ £ § ¨¡ ¡¡¦§ £¤ ¨ ©<br />
¢¤ ¡¢¨¤ £¤§ £ ¡£¢ £¥ ¦¤ ¡££§ £§ £ §¤ ¡£¨ £§¡ ¡¢£¤¥¦§¨ ¡¤ ¢ £§¢¢ ¡¥¤ ¡¤¢ £§££ ¢¢ ¡¦¥ £¨¨<br />
og dialogboksenAnava: Enkelt faktor benyttes til at producere udskriften<br />
¡<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
hvor de størrelser fra M1, der skal bruges i F-teststørrelsen i (4.53) for hypotesen H02 : μi = α +<br />
<br />
βti, nemlig SAK01, f01 og s2 01 , findes i linjen Inden for grupper i ANAVA-tabellen. Herefter
omorganiseres data, s˚ a de kommer til at se s˚ aledes ud: <br />
¡¢£¤¥¦§¨¡<br />
¢ £ ©<br />
¥ ¦ § ¨¤<br />
¡©<br />
¡©© ©¨¡© ¡©© ¢¤ ¡©© £© ¡©© ¦¤ <br />
§¤ ¡©© ¡ © ¡©© ¡¥¤ ¡©© ¢¢© £©© ¡¡¦§ ¡©©<br />
¡¢¨¤ £©© ¡£¢© £©© ¡££§ £©©<br />
¡£¨© £©© ¡¤ ¢ £©© ¡¤¢© £©© ¡¦¥© §©© £¤ ¨ £©©<br />
£¤§© §©© £¥©© §©©<br />
og med disse data som input produceres ved hjælp af dialogboksenRegression udskriften<br />
<br />
<br />
<br />
¡¡ ¡¢ ¡£ ¡¤ §©© £§ £ §©© £§¡© §©© £§¢¢ §©© £§££ §©© £¨©¨ ¡<br />
<br />
<br />
<br />
<br />
4.105<br />
<br />
<br />
hvor de størrelser fra M2, der skal bruges i F-testet af H02, nemlig SAK02 og f02, findes i linjen<br />
<br />
Residual iANAVA-tabellen underSK ogfg.<br />
Sammenlign estimater og konfidensintervaller i udskriften med resultaterne p˚ a siderne 4.87<br />
og 4.88.
4.106 Hovedpunkter til Afsnit 4.6<br />
Hovedpunkter til Afsnit 4.6<br />
Data best˚ ar af sammenhørende værdier af t og x, (ti,xi), i = 1,...,n.<br />
Model:<br />
Modellen M2 for lineær regression er, at xi, i = 1,...,n, er realisationer af uafhængige stokasti-<br />
ske variable<br />
Dette forkortes til<br />
Modelkontrol:<br />
Mindst en tegning af (ti,xi), i = 1,...,n.<br />
Xi ∼ N(α + βti,σ 2 ), 1,...,n.<br />
M2 : Xi ∼ N(α + βti,σ 2 ), i = 1,...,n.<br />
Hvis der er flere observationspar med samme værdi af ti, kan probitdiagrammer, test for vari-<br />
anshomogenitet og test af den lineære regression komme p˚ a t ale.<br />
Test for lineær regression:<br />
Teststørrelse<br />
F(x) =<br />
SAK02 − SAK01<br />
f02 − f01<br />
s 2 01<br />
= s22 s2 ∼∼ F(k − 2,n − k).<br />
01<br />
Se side 4.86 for angivelse af, hvordan de størrelser, der indg˚ ar i testet, beregnes.<br />
Testsandsynlighed<br />
Estimation:<br />
ε(x) = 1 − F F(k−2,n−k)(F(x)).<br />
Formler for estimaterne fremg˚ ar af beregningsskemaet sid e 4.80.<br />
<br />
ˆα ∼∼ N α,σ 2<br />
<br />
1<br />
n + ¯t 2 <br />
·<br />
SAKt<br />
<br />
ˆβ ∼∼ N β,<br />
σ 2<br />
SAKt<br />
ˆα + ˆ <br />
βt ∼∼ N α + βt,σ 2<br />
<br />
1<br />
n + (t − ¯t·) 2<br />
SAKt<br />
<br />
s 2 02 ∼∼ σ 2 χ 2 ( f02)/ f02<br />
hvor f02 = n − 2 (antal observationer minus antal ukendte parametre i middelværdien).<br />
Konfidensintervaller:
(1 − α) konfidensinterval for α<br />
<br />
ˆα − t 1−α/2( f02)<br />
s 2 02<br />
(1 − α) konfidensinterval for β<br />
⎡<br />
⎣ ˆ β −t1−α/2( f02)<br />
<br />
1<br />
n + ¯t 2 <br />
<br />
·<br />
, ˆα +t1−α/2( f02) s<br />
SAKt<br />
2 <br />
1<br />
02 n + ¯t 2 <br />
·<br />
SAKt<br />
<br />
<br />
s 2 02<br />
SAKt<br />
, ˆ β + t 1−α/2( f02)<br />
<br />
s 2 02<br />
⎤<br />
⎦<br />
SAKt<br />
4.107<br />
(1 − α) konfidensinterval for regressionslinjen α + βt :<br />
<br />
ˆα + ˆ <br />
βt − t1−α/2( f02) s2 <br />
1<br />
02 n + (t − ¯t·) 2<br />
<br />
, ˆα +<br />
SAKt<br />
ˆ <br />
βt +t1−α/2( f02) s2 <br />
1<br />
02 n + (t − ¯t·) 2<br />
<br />
SAKt<br />
<br />
(1 − α) konfidensinterval for σ 2<br />
<br />
s 2 02<br />
s 2 02<br />
χ2 1−α/2 ( f02)/<br />
,<br />
f02 χ2 α/2 ( f02)/ f02<br />
hvor χ 2 1−α/2 ( f02) og χ 2 α/2 ( f02) er henholdsvis 1 − α/2 og α/2 fraktil for χ 2 -fordelingen med<br />
f02 = n − 2 frihedsgrader.<br />
Undermodeller af regressionsmodellen eller hypoteser om regressionsparametrene<br />
Vi betragter modellerne med kendt hældning og/eller kendt afskæring. Sammenhængen mel-<br />
lem modellerne og hypoteserne, der forbinder dem, kan fremstilles grafisk:<br />
M3 : Xi ∼ N(α + β0ti,σ 2 )<br />
H03 : β = β0 ր ց H04 : α = α0<br />
M2 : Xi ∼ N(α + βti,σ 2 ) M4 : Xi ∼ N(α0 + β0ti,σ 2 )<br />
Test af H03 : β = β0.<br />
Teststørrelse<br />
Testsandsynlighed<br />
H∗ 03 : α = α0 ց ր H∗ 04 : β = β0<br />
M ∗ 3 : Xi ∼ N(α0 + βti,σ 2 )<br />
t(x) = ˆ β − β0<br />
<br />
s2 02 /SAKt<br />
ε(x) = 2 1 − F t(n−2)(|t(x)|) <br />
<br />
,
4.108 Hovedpunkter til Afsnit 4.6<br />
Estimater for parametrene i M3 :<br />
Test af H∗ 03 : α = α0.<br />
Teststørrelse<br />
Testsandsynlighed<br />
Estimater for parametrene i M ∗ 3 :<br />
Test af H ∗ 04 : β = β0 :<br />
Teststørrelse<br />
α ← ˆαM3 = ¯x· − β0¯t· σ 2<br />
∼∼ N(α,<br />
n )<br />
σ 2 ← s 2 1 n<br />
2<br />
03 = ∑ {xi −( ˆαM3 + β0ti)}<br />
n − 1 i=1<br />
= 1<br />
<br />
SAK02 +(<br />
n − 1<br />
ˆ β − β0) 2 <br />
SAKt<br />
β ← ˆ β M ∗ 3 =<br />
∼∼σ 2 χ 2 (n − 1)/(n − 1)<br />
t(x) = <br />
s 2 02<br />
ˆα − α0<br />
1<br />
n + ¯t 2 ·<br />
SAKt<br />
<br />
ε(x) = 2 1 − F t(n−2)(|t(x)|) <br />
n<br />
∑ ti(xi − α0)<br />
i=1<br />
n<br />
∑<br />
i=1<br />
σ 2 ← s ∗2 1<br />
03 =<br />
t 2 i<br />
n − 1<br />
= 1<br />
n − 1<br />
n<br />
∑<br />
i=1<br />
= SPxt − α0St<br />
SKt<br />
{xi −(α0 + ˆ β M ∗ 3 ti)} 2<br />
σ 2<br />
∼∼ N(β, )<br />
SKt<br />
<br />
SKx + nα 2 0 − 2α0Sx − ˆ β 2 M ∗ 3 SKt<br />
∼∼σ 2 χ 2 (n − 1)/(n − 1)<br />
t(x) =<br />
ˆβM ∗ − β0 3 <br />
s∗2 03 /SKt<br />
= SPxt − α0St − β0SKt<br />
<br />
s∗2 03SKt ∼∼ t(n − 1)
Testsandsynlighed<br />
Estimat for parameteren i M4 :<br />
Test af H04 : α = α0 :<br />
Teststørrelse<br />
Testsandsynlighed<br />
ε(x) = 2 1 − F t(n−1)(|t(x)|) <br />
σ 2 ← s 2 04 =1<br />
n<br />
∑ {xi −(α0 + β0ti)}<br />
n i=1<br />
2<br />
= 1 <br />
SKx + nα<br />
n<br />
2 0 + β 2 0 SKt<br />
<br />
− 2α0Sx − 2β0SPxt + 2α0β0St<br />
∼∼σ 2 χ 2 (n)/(n)<br />
Estimat for parameteren i M4 :<br />
t(x) =<br />
ˆαM3 − α0<br />
<br />
s 2 03 /n<br />
= Sx − β0St − α0n<br />
<br />
s2 03n ∼∼ t(n − 1)<br />
ε(x) = 2 1 − F t(n−1)(| t(x) |) <br />
σ 2 ← s 2 04 =1<br />
n<br />
∑ {xi −(α0 + β0ti)}<br />
n i=1<br />
2<br />
= 1 <br />
SKx + nα<br />
n<br />
2 0 + β 2 0 SKt<br />
<br />
− 2α0Sx − 2β0SPxt + 2α0β0St<br />
∼∼σ 2 χ 2 (n)/(n).<br />
Én observationsrække fra en todimensional normalfordeling<br />
Modellen for data (x11,x21), ..., (x1i,x2i),..., (x1n,x2n) er<br />
hvor<br />
M0 : Xi = (X1i,X2i) ∼ N2((μ1, μ2),Σ),<br />
Σ =<br />
σ 2 1 ρσ1σ2<br />
ρσ1σ2<br />
σ 2 2<br />
<br />
.<br />
4.109
4.110 Hovedpunkter til Afsnit 4.6<br />
Modelkontrol<br />
Fraktilsammenligning for førstekomponenterne x11,..., x1i,...,x1n og andenkomponenterne x21,...,<br />
x2i,...,x2n. Desuden skal en tegning af observationer (x11,x21), ..., (x1i,x2i),..., (x1n,x2n) vise<br />
samme træk som kontroltegningen for en lineær regression af x2 p˚ a x1.<br />
Estimation<br />
Parametrene i M0 estimeres ved de tilsvarende empiriske størrelser, det vil sige μ1 ← ¯x1·,<br />
μ2 ← ¯x2·, σ 2 1 ← s2 1 , σ 2 2 ← s2 2<br />
side 4.97.<br />
Test af hypotesen H0 : ρ = 0<br />
Teststørrelse<br />
Testsandsynligheden for H0<br />
t(x) =<br />
og ρ ← r, som kan beregnes ved hjælp af beregningsskemaet<br />
r<br />
(1 − r 2 )/(n − 2) ∼∼ t(n − 2).<br />
ε(x) = 2(1 − F t(n−2)(|t(x)|).
4.7 Tosidet variansanalyse<br />
4.111<br />
I dette afsnit slækker vi p˚ a kravet om, at beregningerne ska l kunne foretages i h˚ anden og base-<br />
rer gennemgangen p˚ a beregninger udført i Excel ved hjælp af to dialogbokse, nemlig Anava:<br />
To-faktor uden gentagelse ogAnava: To-faktor med gentagelse. Teorien bliver gen-<br />
nemg˚ aet i tilknytning til Eksempel 4.9 og Eksempel 4.10.<br />
Eksempel 4.9<br />
I forbindelse med klubbens 100ars ˚ fødselsdag arrangerede atletikafdelingen i ˚Arhus 1900 et<br />
100 km løb i juli m˚ aned iar ˚ 2000. For at undersøge hvorledes et s˚ a langt løb p˚ avirker deltagernes<br />
fysiologi, foretog man p˚ a Institut for Idræt en lang række malinger ˚ p˚ a nogle af deltagerne. Der<br />
blev blandt andet taget blodprøver p˚ a deltagerne forud for løbet (dag -1), umiddelbart efter løbet<br />
(dag 0), samt 1, 2, 3, 5 og 12 dage efter løbet (dag 1, dag 2, dag 3, dag 5 og dag 12). Tallene i<br />
tabellen nedenfor, som Tue Lindstrøm har stillet tilr˚ adig hed, viser indholdet (m˚ alt i mmol/l) af<br />
Calcium i blodprøverne for 11 af deltagerne.<br />
person\dag -1 0 1 2 3 5 12<br />
1 2.24 2.57 2.09 2.27 2.28 2.25 2.29<br />
2 2.38 2.62 2.38 2.39 2.29 2.47 2.49<br />
3 2.50 2.91 2.29 2.40 2.32 2.37 2.45<br />
4 2.48 2.91 2.32 2.47 2.51 2.57<br />
5 2.47 2.92 2.25 2.42 2.36 2.29<br />
6 2.21 2.45 2.26 2.27 2.36 2.39<br />
7 2.38 2.88 2.24 2.22 2.23 2.32 2.32<br />
8 2.42 2.83 2.37 2.41 2.44 2.35<br />
9 2.41 2.84 2.32 2.29 2.44 2.44 2.36<br />
10 2.38 2.78 2.34 2.39 2.36 2.43 2.35<br />
11 2.56 2.81 2.43 2.53 2.41 2.62<br />
Der er af interesse at undersøge dels om der er forskel p˚ a ind holdet af calcium p˚ a de forskellige<br />
tidpunkter og dels om der er forskel p˚ a indholdet af calcium i deltagernes blodprøver. <br />
Eksempel 4.10<br />
I forbindelse med atletikstævnet for 1. arsstuderende ˚<br />
- om talt i Eksempel 4.5 - har Mikkel<br />
Sørensen, Institut for Idræt, Københavns universitet registreret følgende resultater i kuglestød (i
4.112 4.7 Tosidet variansanalyse<br />
m) for drenge og piger iarene ˚ 1998, 1999 og 2000:<br />
køn/˚ar 1998 1999 2000<br />
drenge 11.17 8.80 9.30<br />
12.57 11.57 11.60<br />
9.33 12.48 11.80<br />
12.53 9.83 12.20<br />
11.25 12.91 12.50<br />
7.54 11.50 10.50<br />
9.69 11.90 9.70<br />
10.70 11.52 11.90<br />
9.33 9.90 9.20<br />
piger 7.16 9.49 8.59<br />
10.45 6.69 8.80<br />
8.47 8.01 11.61<br />
9.40 11.01 10.65<br />
7.22 8.11 8.21<br />
8.51 8.72 9.18<br />
9.62 7.94 8.65<br />
6.27 8.03 8.45<br />
9.18 9.12 7.79<br />
Vi vil her undersøge dels om der er forskel p˚ a resultaterne i de trear ˚ og dels om der er<br />
forskel p˚ a drengenes og pigernes resultater. <br />
Modeller og hypoteser<br />
Fælles for de to datasæt er at de er opskrevet i et tosidet skema med r rækker og s søjler og<br />
alts˚ a i alt rs celler. I Eksempel 4.9 har vi indledningsvis r = 11 rækker og s = 7 søjler, mens<br />
der i Eksempel 4.10 er r = 2 rækker og s = 3 søjler. De to dialogbokse i Excel kræver, at der er<br />
lige mange observationer i de rs celler. Hvis t betegner dette antal, er dette tilfældet i Eksempel<br />
4.10, hvor antallet af observationer i de seks celler i skemaet er t = 9. Uheldigvis er det ikke<br />
lykkedes medarbejderne ved Institut for Idræt at af˚ blodpr øver p˚ a de 11 personer til samtlige 7<br />
tidspunkter, s˚ a derfor betragter vi i det følgende kun pers onerne 1, 2, 3, 7, 9 og 10. Med denne<br />
modification har vi for data i Eksempel 4.9, at r = 6, s = 7 og t = 1.<br />
Lad xi jk betegne det k’te m˚ aling i den i’te række og den j’te søjle. Vi bruger alts˚ a i = 1,...,r<br />
til at indicere de r rækker, j = 1,...,s, til at indicere de s søjler og k = 1...,t til at indicere
gentagelserne med. Det totale antal af observationer betegnes n, det vil sige n = rst.<br />
4.113<br />
Idet vi som sædvanlig forudsætter, at alle observationerne xi jk, i = 1,...,r, j = 1,...,s, k<br />
= 1,...,t, er udfald af uafhængige stokastiske variable Xi jk, kan de modeller, vi vil betragte,<br />
skrives p˚ a følgende m˚ ade:<br />
skema.<br />
M ∗ 3<br />
Modellen for rs observationsrækker hver med sin middelværdi og sin varians<br />
M0 : Xi jk ∼ N(μi j,σ 2<br />
i j).<br />
Modellen for rs observationsrækker hver med sin middelværdi og fælles varians<br />
Additivitetsmodellen<br />
Modellen med kun rækkevirkning<br />
Modellen med kun søjlevirkning<br />
M1 : Xi jk ∼ N(μi j,σ 2 ).<br />
M2 : Xi jk ∼ N(αi + β j,σ 2 ).<br />
M3 : Xi jk ∼ N(αi,σ 2 ),<br />
M ∗ 3 : Xi jk ∼ N(β j,σ 2 ).<br />
Modellen for én observationsrække eller homogenitet<br />
M4 : Xi jk ∼ N(μ,σ 2 ).<br />
Det indbyrdes forhold mellem modellerne M2, M3, M∗ 3 og M4 er angivet i nedenst˚ aende<br />
M3 : Xi jk ∼ N(αi,σ 2 )<br />
ր ց<br />
M2 : Xi jk ∼ N(αi + β j,σ 2 ) M4 : Xi jk ∼ N(μ,σ 2 )<br />
ց ր<br />
M ∗ 3 : Xi jk ∼ N(β j,σ 2 )<br />
Vi kender alle disse modeller fra tidligere med undtagelse af M2. Modellerne M1, M3 og<br />
er alle eksempler p˚ a en model for flere observationsrækker h ver med sin middelværdi men<br />
med fælles varians, omtalt i Afsnit 4.5. I M1 har vi rs observationsrækker (cellerne) hver med<br />
t observationer. I M3 har r observationsrækker (rækkerne) hver med st observationer og i M ∗ 3<br />
har vi s observationsrækker (søjlerne) hver med rt observationer. Endelig er M4 modellen for<br />
én observationsrække med n = rst observationer.
4.114 4.7 Tosidet variansanalyse<br />
De hypoteser vi skal betragte er følgende:<br />
Hypotesen om additivitet:<br />
H02 : μi j = αi + β j<br />
svarende til reduktionen M1 → M2. Hypotesen omtales ogs˚ a undertiden som hypotesen om<br />
ingen vekselvirkning eller som hypotesen om ingen interaktion.<br />
I en tosidet variansanalyse betragter man endvidere følgende hypoteser:<br />
Hypotesen om ingen rækkevirkning<br />
og hypotesen om ingen søjlevirkning<br />
H0R : α1 = ··· = αr,<br />
H0S : β1 = ··· = βs,<br />
Det ses af skemaet ovenfor, at accept af H0R i modellen M2 giver reduktionen til M∗ 3 , idet<br />
det accepteres at EXi j = α + β j = ˜ β j, hvor α betegner den fælles værdi af α-erne. Accept af<br />
H0R i M3 bevirker reduktion til M4, idet vi da har EXi j = α, det vil sige at alle observationerne<br />
har samme middelværdi. Hypotesen om ingen rækkevirkning kan alts˚ a testes i to fors kellige<br />
modeller og testene er - som vi skal se nedenfor - forskellige. (Bemærk, at notationen her er<br />
ændret i forhold til tidligere, hvor hypoteserne svarende til reduktionerne M2 → M ∗ 3 og M3 → M4<br />
blev betegnet med henholdsvis H ∗ 03<br />
og H04.)<br />
Tilsvarende giver accept af hypotesen om ingen søjlevirkning H0S anledning til reduktioner-<br />
ne M2 → M3 og M ∗ 3 → M4 og igen afhænger testet af hvilken model hypotesen testes i. (Hypo-<br />
teserne svarende til reduktionerne M2 → M3 og M ∗ 3 → M4 er tidligere betegnet med henholdsvis<br />
H03 og H ∗ 04 .)<br />
Hvis t = 1, det vil sige hvis der kun er én observation i hver celle, taler vi om en tosidet<br />
variansanalyse uden gentagelser og hvis t ≥ 2 om en tosidet variansanalyse med gentagelser.<br />
Estimation<br />
Som nævnt ovenfor er modellerne M1, M3 og M ∗ 3<br />
er alle eksempler p˚ a en model med flere<br />
observationsrækker med hver sin middelværdi men med fælles varians, omtalt i Afsnit 4.5. Fra<br />
det afsnit har vi derfor umiddelbart de følgende resultater:<br />
Estimation i M1 : Xi jk ∼ N(μi j,σ 2 ) (rs observationsrækker hver med t observationer):<br />
s 2 01<br />
μi j ← ¯Xi j· = 1<br />
t<br />
1<br />
= SAK01 =<br />
f01<br />
1<br />
f01<br />
r<br />
∑<br />
i=1<br />
s<br />
∑<br />
t<br />
σ 2<br />
∑ Xi jk ∼ N(μi j,<br />
k=1<br />
t ),<br />
t<br />
∑<br />
j=1 k=1<br />
(Xi jk − ¯Xi j·) 2 ∼ σ 2 χ 2 ( f01)/ f01,
hvor f01 = n − rs = rst − rs = rs(t − 1).<br />
4.115<br />
Estimation i M3 : Xi jk ∼ N(αi,σ 2 ) (r observationsrækker - rækkerne - hver med st observa-<br />
tioner):<br />
s 2 03<br />
αi ← ¯Xi·· = 1<br />
st<br />
1<br />
= SAK03 =<br />
f03<br />
1<br />
f03<br />
hvor f03 = n − r = rst − r = r(st − 1).<br />
r<br />
∑<br />
i=1<br />
s<br />
∑<br />
t<br />
∑<br />
j=1 k=1<br />
s<br />
∑<br />
t<br />
∑<br />
j=1 k=1<br />
σ 2<br />
Xi jk ∼ N(αi,<br />
st ),<br />
(Xi jk − ¯Xi··) 2 ∼ σ 2 χ 2 ( f03)/ f03,<br />
Estimation i M ∗ 3 : Xi jk ∼ N(β j,σ 2 ) (s observationsrækker - søjlerne - hver med rt observa-<br />
tioner):<br />
hvor f ∗ 03<br />
β j ← ¯X· j· = 1<br />
rt<br />
s ∗2 1<br />
03 =<br />
f ∗ SAK<br />
03<br />
∗ 1<br />
03 =<br />
f ∗ 03<br />
= n − s = rst − s = s(rt − 1).<br />
r<br />
∑<br />
i=1<br />
r<br />
∑<br />
t<br />
∑<br />
i=1 k=1<br />
s<br />
∑<br />
t<br />
∑<br />
j=1 k=1<br />
σ 2<br />
Xi jk ∼ N(β j,<br />
rt ),<br />
(Xi jk − ¯X· j·) 2 ∼ σ 2 χ 2 ( f ∗ 03 )/ f ∗ 03 ,<br />
Estimation i M4 : Xi jk ∼ N(μ,σ 2 ) (én observationsrække hver med rst observationer):<br />
s 2 04<br />
hvor f04 = n − 1 = rst − 1.<br />
μ ← ¯X··· = 1<br />
rst<br />
1<br />
= SAK04 =<br />
f04<br />
1<br />
f04<br />
r<br />
∑<br />
i=1<br />
r<br />
∑<br />
i=1<br />
s<br />
∑<br />
s<br />
∑<br />
t<br />
∑<br />
j=1 k=1<br />
t<br />
∑<br />
j=1 k=1<br />
σ 2<br />
Xi jk ∼ N(μ,<br />
rst ),<br />
(Xi jk − ¯X···) 2 ∼ σ 2 χ 2 ( f04)/ f04,<br />
Vi mangler nu kun at diskutere estimation i additivitetsmodellen M2 : Xi jk ∼ N(αi+βj,σ 2 ).<br />
Da vi kan skrive αi+βj som (αi+c)+(β j −c), hvor c er en konstant, parametriserer de r α-er<br />
og de s β-er ikke modellen M2. Det kan vises, at antallet af frie parametre, der skal bruges til at<br />
parametrisere M2, er r + s − 1. Idet antallet af observationer er rst, er antallet af frihedsgrader<br />
for varians estimatet i M2 derfor f02 = rst −(r+ s − 1). I M2 benyttes følgende estimater<br />
s 2 02<br />
Modelkontrol<br />
1<br />
= SAK02 =<br />
f02<br />
1<br />
f02<br />
αi + β j ← ¯Xi··+ ¯X· j· − ¯X··· ∼ N(αi + β j,<br />
r<br />
∑<br />
i=1<br />
s<br />
∑<br />
t<br />
∑<br />
j=1 k=1<br />
r+ s − 1<br />
σ<br />
rst<br />
2 ) (4.62)<br />
(Xi jk − ¯Xi·· − ¯X· j· + ¯X···) 2 ∼ σ 2 χ 2 ( f02)/ f02. (4.63)<br />
I en tosidet variansanalyse er det additivitetsmodellen M2 der sædvanligvis er i centrum, da det<br />
er i denne (eller i delmodeller af denne) hypoteserne om ingen rækkevirkning H0R og ingen<br />
søjlevirkning H0S testes. Vi diskuterer derfor nu kontrol af additivitetsmodellen M2.
4.116 4.7 Tosidet variansanalyse<br />
Hvis vi har en tosidet variansanalyse med gentagelser er udgangspunktet M0 : Xi jk ∼ N(μi j,σ 2<br />
i j )<br />
som kan kontrolleres med rs fraktildiagrammer (ét for hver af de rs celler), hvis antallet t af ob-<br />
servationer i cellerne er tilpas stort.<br />
Hvis t ≥ 3 kan hypotesen om varianshomogenitet H01 : σ 2 11 = ··· = σ 2<br />
i j = ··· = σ 2 rs , svarende<br />
til reduktionen M0 → M1 : Xi jk ∼ N(μi j,σ 2 ), testes ved Bartletts test som omtalt i Afsnit 4.5.<br />
Hypotesen om additivitet H02 : μi j = αi+βj - svarende til reduktionen M1 → M2 - kan testet<br />
ved hjælp af et F-test, hvis t ≥ 2, det vil sige hvis vi har gentagelser. Lad<br />
hvor<br />
og<br />
SAK2 = SAK02 − SAK01 = t<br />
s 2 2 = SAK2<br />
,<br />
f2<br />
r s<br />
∑ ∑<br />
i=1 j=1<br />
( ¯Xi j· − ¯Xi·· − ¯X· j· + ¯X···) 2<br />
f2 = f02 − f01 = (rst −(r+ s − 1)) − rs(t − 1) = rs −(r+ s − 1) = (r − 1)(s − 1).<br />
Under hypotesen H02 er SAK2 ∼ σ 2 χ 2 ( f2) og uafhængig af SAK01 ∼ σ 2 χ 2 ( f01) og som teststørrelse<br />
for H02 benyttes<br />
F(X) = s2 2<br />
s2 , (4.64)<br />
01<br />
som - ifølge formel (3.35) - er F-fordelt med ( f2, f01) frihedsgrader, hvor f01 = rs(t − 1). Hvis<br />
F(x) er den observerede værdi af F(X) er testsandsynligheden for H02 - idet store værdier af<br />
F(x) er kritiske -<br />
ε(x) = P(F(X) > F(x)) = 1 − F F( f2, f01)(F(x)),<br />
hvor F F( f2, f01) er fordelingsfunktionen for F-fordelingen med ( f2, f01) frihedsgrader.<br />
Ved test p˚ a 5% niveau forkastes H02, hvis<br />
F(x) > F0.95( f2, f01).<br />
Accept af H02 medfører modelreduktionen M1 → M2.<br />
Under M2 afhænger forskellen i middelværdi mellem to forskellige rækker g og h ikke af, i<br />
hvilken søjle man m˚ aler forskellen, da<br />
EXg jk − EXh jk’ = (αg + β j) −(αh + β j) = αg − αh. (4.65)<br />
Tilsvarende afhænger forskellen i middelværdi mellem to forskellige søjler l og m ikke af, i<br />
hvilken række man m˚ aler forskellen, da<br />
EXilk − EXimk’ = (αi + βl) −(αi + βm) = βl − βm. (4.66)
4.117<br />
Nu er ¯xi j· et estimat for middelværdien EXi jk, s˚ a hvis man for hver række i afsætter og<br />
forbinder punkterne ( j, ¯xi j·), j = 1,...,s, skal man p˚ a grund af (4.65) have r kurver, som bortset<br />
fra tilfældige udsving har konstant lodret afstand.<br />
Hvis man tilsvarende for hver fast søjle j afsætter og forbinder punkterne (i, ¯xi j·), i = 1,...,r,<br />
skal man p˚ a grund af (4.66) have s kurver, som bortset fra tilfældige udsving har konstant lodret<br />
afstand. De netop omtalte figurer kaldes profildiagrammer.<br />
Hvis t = 1, det vil sige hvis vi ikke har gentagelser, kan vi ikke foretage testet i (4.64), idet<br />
s 2 01 ikke er defineret, og rimeligheden af additivitetsmodellen M2 vurderes udelukkende ved<br />
hjælp af profildiagrammer.<br />
I M2 betegnes størrelserne<br />
Ri jk = Xi jk − ¯Xi·· − ¯X· j· + ¯X···<br />
som residualerne. Det kan vises, at residualerne approksimativt er identisk normalfordelt med<br />
middelværdi 0. Antagelsen om normalitet i M2 kan derfor vurderes ved at lave et fraktildiagram<br />
baseret p˚ a de observerede residualer ri jk = xi jk − ¯xi·· − ¯x· j· + ¯x···, i = 1,...,r, j = 1...,s, k =<br />
1...,t. Hvis vi ikke har gentagelser er et fraktildiagram for residualerne den eneste kontrol af<br />
normalfordelingsantagelsen i M2.<br />
Eksempel 4.9 (Fortsat)<br />
Profildiagrammerne for data for personerne 1, 2, 3, 7, 9 og 10 er vist i Figur 4.25. Bortset fra<br />
tilfældige udsving ser kurverne i hver af de to tegninger ud til at have konstant lodret afstand og<br />
tegningerne giver ikke anledning til at betvivle additivitetsmodellen M2. <br />
Eksempel 4.10 (Fortsat)<br />
Tallene i dette eksempel har vi betragtet før, nemlig i Opgave 4.12, hvor der ikke var lige mange<br />
observationer i hver af de seks grupper. Der var færrest observationer for pigerne iar ˚ 2000,<br />
nemlig 9. For at kunne imødekomme kravet om, at antallet af observationer skal være det samme<br />
i hver af de seks grupper, betragter vi her de 9 første observationer i grupperne. Data ses i Figur<br />
4.26 og i Figur 4.27 ses fraktildiagrammerne for de seks observationsrækker. Fraktildiagram-<br />
merne afslører ikke systematiske afvigelser fra rette linjer, s˚ a de seks observationsrækker kan<br />
betragtes som normalfordelte. Begge figurer antyder, at variansen i de seks rækker kan antages<br />
at være ens. Endvidere antyder figurerne, at der ikke er forskel p˚ a resultaterne i de trear ˚ hverken<br />
for drengene eller pigerne, men at der er forskel p˚ a resulta terne for drenge og piger.<br />
Beregningsskemaet side 4.33 ser s˚ aledes ud:
4.118 4.7 Tosidet variansanalyse<br />
Figur 4.25 Profildiagrammer for personerne 1, 2, 3, 7, 9 og 10 i Eksempel 4.9.
4.119<br />
Figur 4.26 Resultater for drenge og piger i kuglestød ved atletikstævnet for 1. ars ˚ studerende i<br />
arene ˚ 1998, 1999 og 2000.<br />
Figur 4.27 Fraktildiagrammer for resultaterne for drenge og piger i kuglestød ved atletikstævnet<br />
for 1. ars ˚ studerende iarene ˚ 1998, 1999 og 2000.
4.120 4.7 Tosidet variansanalyse<br />
£¢ £¤¢ £¢ ¥¦§¡¢ £¨¤¢© ¢© ¢© ¥¦ ¢ ¦ ¦ ¦ ¦¦¦ ¦ ¦ ¡¢<br />
¦ ¦¦ ¦ ¦ ¦ ¦ ¦ ¦ ¦¦¦ ¦¦ <br />
Med udgangspunkt i dette skema tester vi hypotesen om varianshomogenitet H01 : σ ¦¦¦ 2 11 =<br />
··· = σ 2 23 i<br />
ved hjælp af Bartlett testet. Da<br />
og<br />
finder vi<br />
M0 : Xi jk ∼ N(μi j,σ 2<br />
i j<br />
),i = 1,2, j = 1,2,3,k = 1,...,9,<br />
C = 1.04861,<br />
−2lnQ(x) = 1.00214,<br />
Ba(x) = 0.95569 ∼∼ χ 2 (5).<br />
Idet ni ≥ 3 er den tilsvarende testsandsynlighed<br />
ε(x) = 1 − F χ 2 (5) (0.95569) = 0.9661,<br />
det vil sige, at vi accepterer, at variansen kan antages at være ens for de seks observationsrækker<br />
af længden af kuglestød og dermed reduktion af M0 til<br />
Test i M2<br />
M1 : Xi jk ∼ N(μi j,σ 2 ).<br />
Teststørrelserne for testene i M2 baserer sig p˚ a følgende opspaltning af den totale variatio n:<br />
SAK04 =<br />
=<br />
r<br />
∑<br />
i=1<br />
s<br />
∑<br />
t<br />
∑<br />
j=1 k=1<br />
r s t<br />
∑ ∑ ∑<br />
i=1 j=1 k=1<br />
(Xi jk − ¯X···) 2<br />
(Xi jk − ¯Xi·· − ¯X· j· + ¯X···) 2 + st<br />
= SAK02 + SAKR + SAKS.<br />
r<br />
∑<br />
i=1<br />
( ¯Xi·· − ¯X···) 2 + rt<br />
s<br />
∑<br />
j=1<br />
( ¯X· j· − ¯X···) 2
Her er<br />
SAKR = st<br />
r<br />
∑<br />
i=1<br />
( ¯Xi·· − ¯X···) 2<br />
et udtryk for variationen mellem rækkegennemsnittene - kort variationen mellem rækker - og<br />
SAKS = rt<br />
s<br />
∑<br />
j=1<br />
( ¯X· j· − ¯X···) 2<br />
er et udtryk for variationen mellem søjlegennemsnittene - variationen mellem søjler - mens<br />
SAK02 =<br />
r<br />
∑<br />
i=1<br />
s<br />
∑<br />
t<br />
∑<br />
j=1 k=1<br />
(Xi jk − ¯Xi·· − ¯X· j·+ ¯X···) 2<br />
4.121<br />
betegnes som residualvariationen, idet størrelserne Ri jk = Xi jk − ¯Xi·· − ¯X· j· + ¯X··· som nævnt<br />
ovenfor betegnes som residualerne i M2.<br />
Det kan vises, at i M2 er SAK02, SAKR og SAKS stokastisk uafhængige og som nævnt ovenfor<br />
er SAK02 ∼ σ 2 χ 2 ( f02), hvor f02 = rst −(r+ s − 1).<br />
Test af H0R i M2<br />
I M2 svarer hypotesen H0R om ingen rækkevirkning til reduktionen M2 → M∗ 3 . Idet<br />
sætter vi<br />
og<br />
SAK ∗ 3 = SAK∗ 03 − SAK02 = SAKR<br />
fR = f ∗ 3 = f ∗ 03 − f02 = s(rt − 1) −(rst −(r+ s − 1)) = r − 1<br />
s 2 R<br />
= s∗2<br />
3 = SAK∗ 3<br />
f ∗ 3<br />
= SAKR<br />
.<br />
fR<br />
I forhold til den generelle notation i Afsnit 4.5.4 erstatter vi alts˚ a indiceringen ∗ 3 med indiceringen<br />
R, idet denne forekommer mere naturlig i forbindelse med testet af hypotesen H0R.<br />
Af resultaterne i Afsnit 4.5.4 as, f˚ at vi som teststørrelse for H0R i M2 benytter<br />
FR(X) = s2R s2 , (4.67)<br />
02<br />
som - ifølge formel (3.35) - er F-fordelt med (r−1, f02) frihedsgrader, idet SAKR ∼ σ 2 χ 2 (r−1)<br />
under H0R. Hvis FR(x) er den observerede værdi af FR(X) er store værdier af FR(x) kritiske, sva-<br />
rende til at variationen mellem rækker er for stor i forhold til residualvariationen i M2. Testsand-<br />
synligheden for H0R bliver derfor<br />
ε(x) = P(FR(X) > FR(x)) = 1 − F F(r−1, f02)(FR(x)),
4.122 4.7 Tosidet variansanalyse<br />
hvor F F(r−1, f02) er fordelingsfunktionen for F-fordelingen med (r − 1, f02) frihedsgrader og<br />
f02 = rst −(r+ s − 1).<br />
Ved test p˚ a 5% niveau forkastes H0R, hvis<br />
FR(x) > F0.95(r − 1, f02).<br />
Accept af H0R medfører modelreduktionen M2 → M ∗ 3 .<br />
Test af H0S i M2<br />
I M2 svarer hypotesen H0S om ingen søjlevirkning til reduktionen M2 → M3 og hypotesen for-<br />
kastes, hvis variationen<br />
SAKS = SAK03 − SAK02<br />
mellem søjlegennemsnittene er for stor i forhold til residualvariationen SAK02.<br />
Lad<br />
s 2 S<br />
= SAKS<br />
s − 1 .<br />
Under hypotesen H0S er SAKS ∼ σ 2 χ 2 (s − 1) og som teststørrelse for H0S benyttes<br />
FS(X) = s2 S<br />
s2 , (4.68)<br />
02<br />
som - ifølge formel (3.35) - er F-fordelt med (s − 1, f02) frihedsgrader. Hvis FS(x) er den ob-<br />
serverede værdi af FS(X) er testsandsynligheden for H0S - idet store værdier af FS(x) er kritiske<br />
-<br />
ε(x) = P(FS(X) > FS(x)) = 1 − F F(s−1, f02)(FS(x)),<br />
hvor F F(s−1, f02) er fordelingsfunktionen for F-fordelingen med (s − 1, f02) frihedsgrader og<br />
f02 = rst −(r+ s − 1).<br />
Ved test p˚ a 5% niveau forkastes H0S, hvis<br />
FS(x) > F0.95(s − 1, f02).<br />
Accept af H0S medfører modelreduktionen M2 → M3.<br />
Test i M3<br />
Test af H0R i M3<br />
Idet M3 er en model for r observationsrækker - rækkerne - med hver st observationer ved vi
4.123<br />
fra Afsnit 4.5, at i M3 testes hypotesen H0R - svarende til modelreduktionen M3 → M4 - ved at<br />
sammenligne variationen<br />
SAKR = st<br />
r<br />
∑<br />
i=1<br />
( ¯Xi·· − ¯X···) 2 = SAK04 − SAK03<br />
mellem rækker med variationen SAK03 indenfor rækker. Der gælder SAK03 ∼ σ 2 χ 2 ( f03), hvor<br />
f03 = r(st − 1) og det kan vises, at<br />
SAK03 =<br />
r<br />
∑<br />
i=1<br />
s<br />
∑<br />
Teststørrelsen for testet af H0R i M3 er<br />
t<br />
∑<br />
j=1 k=1<br />
˜FR(X) = s2 R<br />
s 2 03<br />
(Xi jk − ¯Xi··) 2 = SAK02 + SAKS.<br />
= SAKR/(r − 1)<br />
, (4.69)<br />
SAK03/ f03<br />
som er F-fordelt med (r − 1, f03) frihedsgrader. (Bemærk, at vi sætter en ∼ over FR for ikke<br />
at forveksle testet her med testet i (4.67).) Hvis ˜FR(x) er den observerede værdi af ˜FR(X), er<br />
testsandsynligheden for test af H0R i M3<br />
ε(x) = P( ˜FR(X) > ˜FR(x)) = 1 − F F(r−1, f03)( ˜FR(x)),<br />
idet store værdier er kritiske. Ved test p˚ a niveau 5% forkas tes, hvis<br />
Accept af H0R medfører reduktionen M3 → M4.<br />
Test i M ∗ 3<br />
Test af H0S i M ∗ 3<br />
˜FR(x) > F0.95(r − 1, f03).<br />
Idet M∗ 3 er en model for s observationsrækker - søjlerne - med hver rt observationer ved vi fra<br />
Afsnit 4.5, at i M∗ 3 testes hypotesen H0S - svarende til modelreduktionen M∗ 3 → M4 - ved at<br />
sammenligne variationen<br />
SAKS = rt<br />
s<br />
∑<br />
j=1<br />
( ¯X· j· − ¯X···) 2 = SAK04 − SAK ∗ 03<br />
mellem søjler med variationen SAK∗ 03 indenfor søjler. Der gælder SAK∗ 03 ∼ σ 2χ 2 ( f ∗ 03 ), hvor<br />
f ∗ 03<br />
= s(rt − 1) og det kan vises, at<br />
SAK ∗ 03 =<br />
r<br />
∑<br />
i=1<br />
s<br />
∑<br />
t<br />
∑<br />
j=1 k=1<br />
(Xi jk − ¯X· j·) 2 = SAK02 + SAKR. (4.70)
4.124 4.7 Tosidet variansanalyse<br />
Teststørrelsen for testet af H0S i M ∗ 3 er<br />
˜FS(X) = s2 S<br />
s ∗ 2<br />
03<br />
= SAKS/(s − 1)<br />
SAK∗ 03 / f ∗ , (4.71)<br />
03<br />
som er F-fordelt med (s − 1, f ∗ 03 ) frihedsgrader. (Bemærk, at vi sætter en ∼ over FS for ikke<br />
at forveksle testet her med testet i (4.68).) Hvis ˜FS(x) er den observerede værdi af ˜FS(X), er<br />
testsandsynligheden for test af H0S i M ∗ 3<br />
ε(x) = P( ˜FS(X) > ˜FS(x)) = 1 − F F(s−1, f ∗ 03 )( ˜FS(x)),<br />
idet store værdier er kritiske. Ved test p˚ a niveau 5% forkas tes, hvis<br />
Accept af HS medfører reduktionen M ∗ 3<br />
Variansanalysetabellen<br />
˜FS(x) > F0.95(s − 1, f ∗ 03 ).<br />
→ M4.<br />
En oversigt over beregningerne i en tosidet variansanalyse resumeres bekvemt i en variansanly-<br />
setabel. For en tosidet variansanalyse med gentagelser ser en del af Excel’s variansanlysetabel<br />
s˚ aledes ud:<br />
Variationskilde SAK f g s 2 F ε<br />
Rækker SAKR r − 1 s 2 R (s 2 R /s2 01 ) (1 − F F(r−1,rs(t−1))(s 2 R /s2 01 ))<br />
Søjler SAKS s − 1 s 2 S (s 2 S /s2 01 ) (1 − F F(s−1,rs(t−1))(s 2 S /s2 01 ))<br />
Interaktion SAK2 (r − 1)(s − 1) s 2 2 s 2 2 /s2 01 1 − F F((r−1)(s−1),rs(t−1))(s 2 2 /s2 01 )<br />
Indenfor SAK01 rs(t − 1) s 2 01<br />
I alt SAK04 rst − 1<br />
Excel benytter dog navneneSK,MK ogP-værdi for kolonnerne som her hedder SAK, s 2 og ε og<br />
navneneStikprøve ogKolonner for rækkerne som her hedder Rækker og Søjler.<br />
Bemærk, at der er sat parenteser om F- og ε-størrelserne i Rækker og Søjler. Det skyl-<br />
des, at Excel tester hypoteserne H0R og H0S om henholdsvis ingen rækkevirkning og ingen<br />
søjlevirkning i modellen M1. Dette ses af at tælleren og antal frihedsgrader for tælleren i alle F<br />
størrelserne er henholdsvis s2 01 og f01 = rs(t − 1). Det er ikke den fremgangsm˚ ade vi benytter.<br />
Vi tester først hypotesen H02 om additivitet i M1. Hvis vi forkaster kan vi ikke komme videre<br />
med analysen. Hvis vi accepterer H02 er model M1 reduceret til additivitetsmodellen M2, som<br />
nu danner grundlag for den videre analyse. Rækkefølgen hvori hypoteserne H0R og H0S testes<br />
afhænger af den faglige problemstilling. Hvis vi først vælger af teste H0R er F-teststørrelsen
4.125<br />
s2 R /s2 02 , idet s2 02 er varians estimatet i M2. Accepteres H0R reduceres M2 til M∗ 3 og i denne model<br />
kan hypotesen H0S testes ved hjælp af F-teststørrelsen s2 S /s∗2<br />
03 , idet s∗2<br />
03 er varians estimatet i M∗ 3 .<br />
Hvis H0R forkastes ved test i M2 er modellen stadig M2 og hypotesen H0S kan testes ved hjælp<br />
af F-teststørrelsen s 2 S /s2 02 .<br />
Fremgangsm˚ aden er alts˚ a ikke den samme som den Excel lægger op til, men variansanaly-<br />
seskemaet indeholder alle de relevante størrelser, idet<br />
SAK02 = SAK01 + SAK2, f02 = f01 + f2 = rst −(r+ s − 1), s 2 02<br />
SAK03 = SAK01 + SAK2 + SAKS, f03 = f01 + f2 + fS = r(st − 1), s 2 03<br />
SAK ∗ 03 = SAK01 + SAK2 + SAKR, f ∗ 03 = f01 + f2 + fR = s(rt − 1), s ∗2<br />
= SAK02<br />
f02<br />
= SAK03<br />
f03<br />
03 = SAK∗ 03<br />
.<br />
For en tosidet variansanalyse uden gentagelser ser en del af Excel’s variansanalysetabel<br />
s˚ aledes ud:<br />
Variationskilde SAK f g s 2 F ε<br />
Rækker SAKR r − 1 s 2 R s 2 R /s2 02 1 − F F(r−1,(r−1)(s−1))(s 2 R /s2 02 )<br />
Søjler SAKS s − 1 s 2 S s 2 S /s2 02 1 − F F(s−1,(r−1)(s−1))(s 2 S /s2 02 )<br />
Interaktion SAK02 (r − 1)(s − 1) s 2 02<br />
I alt SAK04 rs − 1<br />
Igen benyter Excel navnene SK, MK og P-værdi for kolonnerne som her hedder SAK, s 2 og ε.<br />
Desuden benyttes navnene Rækker, Kolonner og Fejl for rækkerne som her hedder Rækker,<br />
Søjler og Interaktion.<br />
Bemærk, at Excel angiver tester begge hypoteserne H0R og H0S i additivitetsmodellen M2,<br />
hvilket vi ikke altid gør. Tabellen indeholder dog den relevante information ogs˚ a til vores frem-<br />
gangsm˚ ade idet<br />
SAK03 = SAK02 + SAKS, f03 = f02 + fS = r(s − 1), s 2 03<br />
SAK ∗ 03 = SAK02 + SAKR, f ∗ 03 = f02 + fR = s(r − 1), s ∗2<br />
Konfidensintervaller i M2<br />
Da modellerne M1, M3 og M ∗ 3<br />
= SAK03<br />
f03<br />
03 = SAK∗ 03<br />
.<br />
alle er modeller for flere observationsrækker kan konfidensin-<br />
tervallerne for parametrene i disse modeller findes ved hjælp af resultaterne i Afsnit 4.5. M4<br />
er modellen for én normalfordelt observationsrække med ukendt middelværdi og varians, s˚ a<br />
f ∗ 03<br />
f ∗ 03
4.126 4.7 Tosidet variansanalyse<br />
konfidensintervallerne i denne model fremg˚ ar af Afsnit 4.3 . Vi indskrænker os derfor her til at<br />
diskutere konfidensintervaller i additivitetsmodellen M2.<br />
Af formlerne (4.62) og (4.63) as, f˚ at (1 − α) konfidensintervallerne for middelværdien αi +<br />
β j i den (i, j)’te celle er<br />
[ ¯xi··+ ¯x· j· − ¯x··· −t 1−α/2( f02)<br />
<br />
s 2 02<br />
hvor f02 = rst −(r+ s − 1), og for variansen σ 2<br />
<br />
r+ s − 1<br />
, ¯xi··+ ¯x· j· − ¯x···+t<br />
rst<br />
1−α/2( f02) s2 r+ s − 1<br />
02 ], (4.72)<br />
rst<br />
s 2 02<br />
s 2 02<br />
[<br />
χ2 1−α/2 ( f02)/<br />
,<br />
f02 χ2 α/2 ( f02)/<br />
]. (4.73)<br />
f02<br />
Størrelsen αg − αh omtales kontrasten mellem den g’te og den h’te række. Tilsvarende er<br />
βl − βm kontrasten mellem den l’te og den m’te søjle. I M2 estimeres kontrasterne s˚ aledes:<br />
og<br />
αg − αh ← ¯xg·· − ¯xh·· ∼∼ N(αg − αh, 2<br />
st σ 2 )<br />
βl − βm ← ¯x·l· − ¯x·m· ∼∼ N(βl − βm, 2<br />
rt σ 2 ),<br />
hvilket giver anledning til følgende (1 − α) konfidensintervaller. For kontrasten αg − αh<br />
<br />
[ ¯xg·· − ¯xh·· −t1−α/2( f02) s2 2<br />
02 st , ¯xg··<br />
<br />
− ¯xh·· +t1−α/2( f02) s2 2<br />
02 ] (4.74)<br />
st<br />
og for kontrasten βl − βm<br />
[ ¯x·l· − ¯x·m· −t 1−α/2( f02)<br />
Diskussion af de to test for H0S<br />
<br />
s 2 02<br />
2<br />
rt , ¯x·l·<br />
<br />
− ¯x·m· +t1−α/2( f02)<br />
s 2 02<br />
2<br />
]. (4.75)<br />
rt<br />
Af det ovenst˚ aende ses, at hypotesen om ingen søjlevirknin g H0S kan testes i to forskellige<br />
modeller, nemlig M2 og M∗ 3 . Testene er forskellige og kan føre til forskellige resultater - som<br />
vist nedenfor - hvis der er en signifikant rækkevirkning. For nemheds skyld antager vi at t = 1,<br />
det vil sige at vi ingen gentagelser har.<br />
Af (4.68) og (4.71), ses at i additivitetsmodellen M2 testes H0S ved hjælp af<br />
og i M ∗ 3<br />
ved hjælp af<br />
FS(X) = s2 S<br />
s2 ∼ F(s − 1,(r − 1)(s − 1))<br />
02<br />
˜FS(X) = s2 S<br />
s∗2 ∼ F(s − 1,(r − 1)s).<br />
03
Formlerne (4.67) og (4.70) medfører, at<br />
FS(X)<br />
˜FS(X) =<br />
s2 S<br />
s2 02<br />
s 2 S<br />
s ∗2<br />
03<br />
= s∗2 03<br />
s2 =<br />
02<br />
1<br />
(r−1)sSAK∗ 03<br />
1<br />
(r−1)(s−1) SAK02<br />
= s − 1<br />
= s − 1 SAK02 + SAKR<br />
=<br />
s SAK02<br />
s − 1<br />
= s − 1<br />
(1+<br />
s<br />
1<br />
s − 1 FR(X))<br />
= s − 1<br />
s<br />
FR(X)<br />
+ .<br />
s<br />
SAK<br />
s<br />
∗ 03<br />
SAK02<br />
(1+<br />
s<br />
SAKR<br />
)<br />
SAK02<br />
4.127<br />
Hypotesen H0R om ingen rækkevirkning forkastes for store værdier af FR(X)(>> 1), og det ses<br />
at i s˚ a tilfælde er<br />
FS(X)<br />
˜FS(X) >> 1 eller ˜FS(X) <br />
F0.95(s − 1,(r − 1)(s − 1)), mens hypotesen accepteres i M ∗ 3 idet ˜FS(x) < F0.95(s − 1,(r − 1)s).<br />
Forklaringen er, at hypotesen ikke skal testes i M ∗ 3 , da reduktionen M2 → M ∗ 3<br />
- svarende til<br />
hypotesen om ingen rækkevirkning - forkastes, fordi FR(x) er stor. Med andre ord kan hypotesen<br />
om ingen søjlevirkning ukorrekt blive accepteret, hvis en signifikant rækkevirkning negliceres.<br />
Eksempel 4.9 (Fortsat)<br />
Udskriften fra Excel’s dialogboks Anava: To-faktor uden gentagelse ser for disse data
4.128 4.7 Tosidet variansanalyse<br />
s˚ aledes ud:<br />
¡¢£¤¥¦§¨¡<br />
¢ £ ©<br />
¥ ¦ § ¨¤<br />
¡©<br />
¦ ¤¨¨¡¡§£¡§¤¦ £©©¡©£¥ ¨©¤ <br />
¦ ¦©¡¡£¢ £¡§¤¦ ©© ¡£¦¥ ¨ ¢ ¦ ¦¡£¡£¥¡§¤¦ £¢©©££©¤¦ £¢ £ ¦ ¥¤¨ ¡¢¦©©¤£©¢¢¢¢¢ ¤ ¦ ¦ ©¡££¡§¤¦ £¢ ©©¢£©¡¢§ ¥ ¦ ¦©¢¡£¢¡§¤¦ £¢ ©©¡£¢¡¢§ ¡<br />
¥ £¡¨¡¢§ ¥¥¥¥¥¦©©©¥¨¦¥¥¥¦ <br />
¥ ¥¥©¡¦¥¥¥¥¥¥¥¦©© ¨§¡¥¥¥¦ ¢ ¥ ¢¥¥¡¡¦¥¥¥¥¥¥¦©© ©¤§¥¥¥¦ £ ¥ ¢¨¥¡¢¡¥¥¥¥¥¥¦©©©¤§¥¥¥¥¦ ¤ ¥ ¢¨¡ ¡¢¡ ©©©¤¢¡ ¥ ¥ £¡§ ¡¢§ ©©©¥¨¥ ¡<br />
¥ £¡¥¡¢¦¥¥¥¥¥¥¦©©©¤¨§¥¥¥¦ <br />
¦<br />
© ¤£¢¡¥ ¨ ¤©©¢©§¥¤¡¢§¥©£©¤¢¨¡§ ©©©©¤¤¥£¨¢¡¤¢¢¤¤¢§ ©¨¦¤¤¨¤¡¢§ ¥© ¥¡¤¨¨¡©¥¢ §¡ ¦§¡£¨ © ¨¡¤ ¡£¡©¤¡©¥¦ <br />
¡¡ ¡£ ¡ © ¢©©©©¤<br />
Den øverste tabel indeholder informationer om tretten observationsrækker (seks svarende til £ ¨©¤ ¡§¢¡ ©¨¥§¢ ¤¢¡¨©£¦¥ ¡¤ ¡¢ ¡¥<br />
rækkerne og syv svarende til søjlerne). For hver observationsrække angives antallet af observa-<br />
tioner, summen af observationerne samt empirisk middelværdi og varians.<br />
at<br />
Under overskriftenANAVA ses variansanalysetabellen. Det fremg˚ ar af rækken Fejl fremg˚ ar,<br />
I rækkenKolonner ses, at<br />
samt at<br />
SAK02 =0.153290476, f02 =30 og s 2 02 =0.005109683.<br />
SAKS =0.975595238, fS =6 og s 2 S =0.162599206<br />
og at den tilsvarende testsandsynlighed er<br />
FS(x) = s2 S<br />
s2 =31.82178249<br />
02<br />
ε(x) = 1 − F F(6,30)(FS(x)) =1.01925 ·10 −11<br />
og endvidere er angiver 95% fraktilen F0.95(6,30) =2.420520673. Vi forkaster derfor hypote-<br />
sen H0S om ingen søjlevirkning, hvilket her betyder at der er forskel p˚ a den m˚ alte mængde af<br />
calcium p˚ a de syv forskellige tidspunkter.
samt<br />
og<br />
P˚ a tilsvarende m˚ ade ses i rækken Rækker, at<br />
SAKR =0.15432619, fR =5 og s 2 R =0.030865238<br />
FR(x) = s2R s2 =6.040539281<br />
02<br />
ε(x) = 1 − F F(5,30)(FR(x)) =0.000556493.<br />
4.129<br />
Hypotesen H0R om ingen rækkevirkning forkastes alts˚ a ogs˚ a. Det vil sige , at der er forskel p˚ a<br />
mængden af calcium hos de seks personer.<br />
Figur 4.28 Fraktildiagrammer for residualerne i M2 i Eksempel 4.9.<br />
Figur 4.28 viser fraktildiagrammet for residualerne i M2 og figuren giver ikke anledning til<br />
at betvivle normalfordelingsantagelsen i modellen.<br />
Ved hjælp af udskriften fra Excel p˚ a side 4.128 og formel (4.73) finder vi følgende 95%<br />
konfidensinterval for variansen σ 2 :<br />
[ 0.00511<br />
1.5660<br />
0.00511<br />
, ] = [0.00326,0.00913]<br />
0.5597<br />
Konfidensintervallet for middelværdien αi + β j i den (i, j)’te celle er givet i formel (4.72). For,<br />
for eksempel, at beregne intervallet for person nr. 10 (i = 6) p˚ a den 12’te dag ( j = 7) finder vi
4.130 4.7 Tosidet variansanalyse<br />
først ved hjælp af tabellenRESUME p˚ a side 4.128, at<br />
α6 + β7 ← ¯x6·· + ¯x·7· − ¯x··· = 17.03<br />
7 +14.26<br />
100.97<br />
− = 2.4055,<br />
6 42<br />
idet summen af de 42 observationer er 100.97. Da t0.975(30) = 2.042, bliver 95% konfidensin-<br />
tervallet for α6 + β7<br />
[2.4055 − 2.042<br />
<br />
0.00511 12<br />
42 ,2.4055+2.042<br />
<br />
0.00511 12<br />
] = [2.327,2.484].<br />
42<br />
Ved hjælp af (4.74) findes 95% konfidensintervallet for kontrasten α5 − α6 (for person nr. 9 og<br />
person nr. 10), idet<br />
til<br />
[0.0100 − 2.042<br />
α5 − α6 ← ¯x5·· − ¯x6·· = 17.10<br />
7 −17.03 = 0.0100,<br />
7<br />
<br />
0.00511 2<br />
7 ,0.0100+2.042<br />
<br />
0.00511 2<br />
] = [−0.068,0.088].<br />
7<br />
Der er alts˚ a ikke forskel p˚ a indholdet af calcium i blodprø verne for disse to personer.<br />
95% konfidensintervallet for kontrasten β2 − β7 (for dag 0 og dag 12) bliver ved hjælp af<br />
formel (4.75), idet<br />
β2 − β7 ← ¯x·2· − ¯x·7· = 16.60<br />
6 −14.26 = 0.3900,<br />
6<br />
<br />
[0.3900 − 2.042 0.00511 2<br />
6 ,0.3900+2.042<br />
<br />
0.00511 2<br />
] = [0.306,0.474].<br />
6<br />
Vi ser, at 0 ikke tilhører 95% konfidensintervallet for β2 −β7. Ved et t-test p˚ a 5% niveau for-<br />
kaster vi alts˚ a hypotesen β2 −β7 = 0, eller β2 = β7. Der er alts˚ a signifikant forskel p˚ a indeholdet<br />
af calcium i blodprøverne fra dag 0, lige efter løbet, og indholdet af calcuim i blodprøverne p˚ a<br />
dag 12 efter løbet. Fysiologerne mener, at denne forskel skyldes væsketabet under løbet.
Eksempel 4.10 (Fortsat)<br />
4.131<br />
Udskriften fra Excel’s dialogboks Anava: To-faktor med gentagelser bliver i dette ek-<br />
sempel<br />
¡¢£¤¥¦§¨¡<br />
¢ ©<br />
¤ ¥ ¦ § £<br />
¡© ¨<br />
¡¡ ¡¢ ¡£ ¡¤ ¡<br />
¡¦ ¡§ ¡¨ ¢© ¡¥<br />
¨¨§ ¨¨¨ ¡©©© <br />
¨ ¨ ¨ ¡¦ ¨£ ©©£ ¨§¦ ¡¨¢¡¡ ©£¤¥¥¥¥¥¦ ¤¥¥¥¥¥¦ ©¨¥¥¥¥¥¥¦ ©§¥ ¡¥¨¨£¦¤ §¢¥£¦¤ ¥¨¤¡©©¦¨¢©¦¥¨ <br />
¨ ¨ ¨ ¡¦ <br />
¦¥¡§ ¦¦ ¡ § ¨¢ ¡¢¤¢¢ §£¦¤¤¤¤¤¤¥§¤¥§§§§§§¨¨ ©¢¢¢¢¢¢¢§¦ ¤¨¡¤¨¡¥ §£ £¦¦¦¦§ £§£ ¢¥ ¤¡£©¡¤ ¤¦ ¥¢¡¦¥£ <br />
§ § § ¦©¢¨ ¦¦¤¢ §©¥¢ ¨£¥¥ ¨§¥¡¦¦¦¦¦§ ©©¢¤ ¢ ¦¤§¢¥¨¡§¢¢¢¤¡¥§¢© ¡£¢¢§¨¦©¤¨ <br />
<br />
¥¡©¥©¡¡£©¦ ¢©¦£©£¡¥£¦ ¢©¥¢§¢¦©¢¦ ¤¢ §¤ £¥¦¦££¡£© ¨©¦¡© ¢¥© ¡©¥§©©¤ ¢ £§ ¤ <br />
I<br />
¥¡©¥©¡¡£©¦¢¢¥©£§¢¢£§¤<br />
tabellenRESUME er angivet antal observationer, sum af observationer samt empirisk mid- ¡§§¦¤¨ ¤¢ §£¥¦¥£§ §§¥££¦ ¨©¦¡© §¤¡©¢¥§¡¢¨¤¤£¥¨¢¨© ©¢¦©£ ¢ ¨©§¡¨¤ ¨ ¡ ¤¤ <br />
delværdi og varians for observationsrækkerne best˚ aende a f henholdsvis observationer indenfor<br />
de enkelte celler, observationer indenfor de enkelte rækker og observationer indenfor de enkelte<br />
søjler.<br />
Variansanalysetabellen findes under overskriftenANAVA.<br />
I rækkenIndenfor ses at<br />
SAK01 =88.64471111, f01 =48 og s 2 01 =1.846764815,<br />
hvilket ogs˚ a fremg˚ ar at beregningsskemaet side 4.117.<br />
RækkenInteraktion indeholder størrelserne<br />
SAK2 =1.360103704, f2 =2 og s 2 2 =0.680051852<br />
samt F-teststørrelsen for hypotesen om additivitet H02 : μi j = αi + β j<br />
F(x) = s2 2<br />
s2 =0.368239554<br />
01
4.132 4.7 Tosidet variansanalyse<br />
og den tilsvarende testsandsynlighed<br />
ε(x) = 1 − F F(2,48)(F(x)) =0.69388911.<br />
Det vil sige, at hypotensen H02 om additivitet accepteres. Modellen M1 reduceres derfor til<br />
idet<br />
og<br />
I M2 er varians estimatet<br />
s 2 02 = SAK02<br />
f02<br />
M2 : Xi jk ∼ N(αi + β j,σ 2 ).<br />
= 90.00481481<br />
50<br />
= 1.80009630,<br />
SAK02 = SAK01 + SAK2 =88.64471111+1.360103704 = 90.00481481<br />
f02 = f01 + f2 =48+2 = 50.<br />
Da der ikke er nogen særlig grund til at der er forskel p˚ a resu ltaterne de forskelligear ˚ (søjler),<br />
tester vi først hypotesen om ingen søjlevirkning H0S. I linjenKolonner ses, at<br />
SAKS =3.063837037, fS =2 og s 2 S =1.531918519.<br />
Af (4.68) ses, at F-teststørrelsen for H0S er<br />
Da<br />
FS(x) = s2 S<br />
s2 =<br />
02<br />
1.531918519<br />
= 0.85102032 ∼∼ F(2,50).<br />
1.80009630<br />
ε(x) = 1 − F F(2,50)(FS(x)) = 0.4331<br />
(eller blot FS(x) < F0.95(2,50) = 3.18) accepteres H0S, det vil sige der er ikke forskel p˚ a resul-<br />
taterne i de trear. ˚ Modellen M2 reduceres til<br />
Da<br />
og<br />
M3 : Xi jk ∼ N(αi,σ 2 ).<br />
SAK03 = SAK02 + SAKS = 90.00481481+3.063837037 = 93.06865185<br />
bliver estimatet for variansen i M3<br />
f03 = f02 + fS = 50+2 = 52,<br />
s 2 03<br />
= SAK03<br />
f03<br />
= 1.78978177.
4.133<br />
Vi tester til sidst hypotesen H0R om ingen rækkevirkning - her ingen forskel p˚ a længden af<br />
drengenes og pigernes kuglestød - i M3. I linjenStikprøve ses, at<br />
SAKR =62.06022407, fR =1, s 2 R =62.06022407,<br />
s˚ a F-teststørrelsen for test af H0R i M3 i formel (4.69) bliver<br />
Da<br />
˜FR(x) = s2R s2 =<br />
03<br />
62.06022407<br />
= 34.67587047 ∼∼ F(1,52).<br />
1.78978177<br />
ε(x) = 1 − F F(1,52)( ˜FR(x)) = 0.000000289<br />
(eller blot ˜FR(x) > F0.95(1,50) = 4.03 (da F0.95(1,52) ikke findes i Statistical Tables)) forkastes<br />
H0R. Der er alts˚ a forskel p˚ a længden af drengenes og pigernes k uglestød.<br />
Slutmodellen for disse data er dermed<br />
M3 : Xi jk ∼ N(αi,σ 2 ), i = 1,2, j = 1,2,3,k = 1,...,9,<br />
det vil sige to normalfordelte observationsrækker hver med 27 observationer. Af tabellenRESUME<br />
ses, at<br />
og af det ovenst˚ aende as f˚<br />
Relation til andre modeller<br />
σ 2<br />
α1 ← ¯x1·· =10.86 ∼∼ N(α1,<br />
27 ),<br />
σ 2<br />
α2 ← ¯x2·· =8.72 ∼∼ N(α2,<br />
27 ),<br />
σ 2 ← s 2 03 = 1.7898 ∼∼ σ 2 χ 2 (52)/52.<br />
Antag, at s = 2 og t = 1, det vil sige at vi betragter en tosidet variansanalyse uden gentagelser og<br />
med kun to søjler. Det kan da vises, at F-testet i (4.68) for hypotesen H0S om ingen søjlevirkning<br />
er ækvivalent med det parrede t-test i Afsnit 4.4.4, idet<br />
FS(x) = (t(d)) 2 .<br />
P˚ a grund af formel (3.36) er de to testsandsynligheder<br />
ε(x) = 1 − F F(1,r−1)(FS(x))
4.134 4.7 Tosidet variansanalyse<br />
og<br />
identiske.<br />
Eksempel 4.11<br />
ε(d) = 2(1 − P(t(r − 1) ≤ |t(d)|))<br />
Hvis vi betragter data for samtlige 11 personer før løbet (dag -1) og efter løbet (dag 0) i tabellen<br />
side 4.111 bliver teststørrelsen for hypotesen H0S om ingen søjlevirkning i additivitetsmodellen<br />
M2<br />
mens teststørrelsen for det parrede t-test er<br />
FS(x) = 180.2597 ∼∼ F(1,10)<br />
t(d) = 13.4261.<br />
I begge tilfælde er testsandsynligheden 1.01 · 10 −7 , hvilket betyder, at vi har konstateret en sig-<br />
nifikant forskel p˚ a indholdet af calcium i deltagernes blod prøver før og efter løbet. Af tallene<br />
ses, at indholdet er størst efter løbet, hvilket - som nævnt ovenfor - ifølge fysiologerne skyldes<br />
væsketab under løbet.
Anneks til Afsnit 4.7<br />
Beregninger i Excel<br />
Excel har to dialogbokse der udfører beregninger i en tosidet variansanalyse, nemlig<br />
Anava: To-faktor uden gentagelse<br />
Anava: To-faktor med gentagelse<br />
4.135<br />
Vi viser her hvorledes beregningerne udføres. Udskrifterene fra de to dialogbokse er kom-<br />
menteret i teksten ovenfor.<br />
Eksempel 4.9 (Fortsat)<br />
Antag, at indholdet af cellerne A1:H9 i regnearket er: ©<br />
£¨<br />
¡ ¤ ¡ ¡¤¦ ¡¡¦ ¡¡¤ ¡ ¡¥¡ ¡¢¨ ¡¡¨ ¡£¦ ¡£¨ ¡¢£¤¥¦§¨ ¡¤ ¡¨ ¡¡¨ ¡£ ¡¢¡ ¡¢¦ ¡£¤ ¢ <br />
¡¡¡ ¡¡¢ ¡¢¡ ¡¢¡<br />
Ruten Funktioner → Dataanalyse →<br />
¡¡£<br />
Anava:To-faktor<br />
¡¨<br />
uden<br />
¡¡§<br />
gentagelse<br />
¡¡¨<br />
giver<br />
¡¡¨ ¡££ ¡££ ¡¢¥ ¡¢§<br />
en<br />
¡¢§<br />
¡¦§ ¡¢£ ¡¢¨ ¡¢¥ ¡£¢ ¡¢¤ ¡¢§ ¡¢¡ ¡§£ ¡£ ¨ ¡¡£ ¡§§ ¡¢§ ¦ ¢<br />
dialogboks, hvor cellerne B4:H9 angives i Inputomr˚ade. Bemærk, at kun celler, der indehol-<br />
der tal, angives. Et klik p˚ a OK bevirker en udskrift p˚ a et nyt regneark. Udskriften er her v ist p˚ a<br />
side 4.128.
4.136 Beregninger i Excel<br />
Eksempel 4.10 (Fortsat)<br />
Antag, at indholdet af cellerne A1:D21 i regnearket er: <br />
¡¢£¤¥¦§¨¡<br />
¢ ©<br />
¤ ¥ ¦ £<br />
¨§<br />
© ¨¨§ ¨¨¨ ¡©©© ¦ §§© ¨¢© £<br />
¤¦ ¥© ¨¢¢ ¡£§ §© ¡¤¢ ¨§¢ ¡¡© ¡¤ ¡¨ ¡¤© ¡¤¦<br />
¤© ©¤© ¨¥¨ ¨© ¨¦© ©¦© ¤¡ ¨© ¦¤£<br />
¨¨© ¨¡© ¦ ¥ ¨£¨ §¤¨ ©£¤ ¥¥¨ §§© ¨¢¢<br />
§£¦ §© ¨£© ©¥¤ § §¤ ¨ ¥<br />
§¥¤<br />
RutenFunktioner →Dataanalyse →Anava:To-faktor<br />
©<br />
med<br />
§©¢ §£¤ ¦¡¡<br />
gentagelse<br />
§¡<br />
giver en di- ¨ ¡ ¦¦¨ ¦¨£ § §¦¡ § ¨ ¥¡¦ ¨¥¡ ¡ ¡©<br />
alogboks, hvor cellerneA3:D21 angives iInputomr˚ade. Bemærk, at ikke kun celler, der inde-<br />
holder tal, angives. Cellerne, der indeholder navne p˚ a ræk ker og søjler, angives ogs˚ a. Desuden<br />
angives iRækker pr. stikprøve tallet9. Et klik p˚ a OK bevirker en udskrift p˚ a et nyt regneark.<br />
Udskriften er her vist p˚ a side 4.131. (Linjerne i regnearke t er strengt taget ikke nødvendige men<br />
er medtaget for overskuelighedens skyld.)
Hovedpunkter til Afsnit 4.7<br />
Her resumeres hovedpunkterne vedrørende tosidet variansanalyse.<br />
4.137<br />
Data er organiseret i et tosidet skema med r rækker og s søjler. I den (i, j)’ celle er der<br />
t observationer. Den k-te observation i den (i, j)’ celle xi jk antages at være et udfald af en<br />
stokastisk variabel Xi jk, i = 1,...,r, j = 1,...,s og k = 1,...,t. Idet X-erne antages at være<br />
uafhængige betragtes følgende modeller:<br />
M0 : Xi jk ∼ N(μi j,σ 2<br />
i j ),<br />
M1 : Xi jk ∼ N(μi j,σ 2 ),<br />
M3 : Xi jk ∼ N(αi,σ 2 )<br />
ր ց<br />
M2 : Xi jk ∼ N(αi + β j,σ 2 ) M4 : Xi jk ∼ N(μ,σ 2 )<br />
ց ր<br />
M ∗ 3 : Xi jk ∼ N(β j,σ 2 )<br />
Her er M0 modellen for rs observationsrækker hver med sin middelværdi og sin varians.<br />
Modellerne M1, M3 og M ∗ 3<br />
er alle eksempler p˚ a modellen med flere observationsrækker hver<br />
med sin middelværdi men med fælles varians, omtalt i Afsnit 4.5. I M1 er der rs observations-<br />
rækker (cellerne) hver med t observationer, i M3 er der r observationsrækker (rækkerne) hver<br />
med st observationer og i M ∗ 3<br />
er der s observationsrækker (søjlerne) hver med rt observationer.<br />
M4 er modellen for én observationsrække med n = rst observationer med ukendt middelværdi<br />
og varians, omtalt i Afsnit 4.3. Estimation, herunder konfidensintervaller, i disse modeller er<br />
kendt fra Afsnit 4.3 og Afsnit 4.5 og resumeres derfor ikke her.<br />
De centrale hypoteser er hypotesen om ingen rækkevirkning<br />
og hypotesen om ingen søjlevirkning<br />
H0R : α1 = ··· = αr<br />
H0S : β1 = ··· = βs<br />
H0R kan testes i M2 og i M3. Testene i de to modeller er forskellige og accept af hypotesen<br />
medfører henholdsvis modelreduktionen M2 → M ∗ 3 og M3 → M4. Tilsvarende kan H0S kan testes<br />
i M2 og i M ∗ 3 og igen er testene, svarende til henholdsvis reduktionen M2 → M3 og M ∗ 3<br />
forskellige.<br />
→ M4,
4.138 Hovedpunkter til Afsnit 4.7<br />
Modelkontrol<br />
Hvis antallet af observationer t i hver celle er tilpas stort kan M0 kontrolleres ved hjælp af rs<br />
fraktilsammenligninger.<br />
Hvis t ≥ 3 kan hypotesen om varianshomogenitet, svarende til reduktionen M0 → M1, vur-<br />
deres ved hjælp af et Bartlett test, omtalt i Afsnit 4.5.<br />
Hvis vi har gentagelser, t ≥ 2, kan hypotesen om additivitet H02 : μi j = αi + β j testet ved<br />
hjælp af teststørrelsen<br />
hvor<br />
og<br />
s 2 2<br />
= SAK2<br />
f2<br />
s 2 01<br />
F(x) = s2 2<br />
s2 ∼∼ F( f2, f01),<br />
01<br />
=<br />
t<br />
= SAK01<br />
f01<br />
r<br />
∑<br />
i=1<br />
=<br />
s<br />
∑ ( ¯xi j· − ¯xi·· − ¯x· j· + ¯x···)<br />
j=1<br />
2<br />
,<br />
(r − 1)(s − 1)<br />
r<br />
∑<br />
i=1<br />
s<br />
∑<br />
t<br />
∑<br />
j=1 k=1<br />
(xi jk − ¯xi j·) 2<br />
rs(t − 1)<br />
Store værdier af F(x) er kritiske og testsandsynligheden for H02 er<br />
ε(x) = 1 − F F( f2, f01)(F(x)),<br />
hvor F F( f2, f01) er fordelingsfunktionen for F-fordelingen med ( f2, f01) frihedsgrader.<br />
Ved test p˚ a 5% niveau forkastes H02, hvis<br />
F(x) > F0.95( f2, f01).<br />
Testet beregnes ved hjælp af Excel’s dialogboksAnava: To-faktor med gentagelse.<br />
Modellen M2 kan endvidere kontrolles ved hjælp af profildiagrammer, omtalt p˚ a side 4.117.<br />
Hvis vi ikke har gentagelser, t = 1, er profildiagrammer den eneste m˚ ade at vurdere rimelighe -<br />
den af M2 p˚ a.<br />
Estimation i M2<br />
Vi har følgende estimater for EXi jk = αi + β j og variansen σ 2 i M2 :<br />
s 2 02<br />
αi + β j ← ¯xi·· + ¯x· j· − ¯x··· ∼∼ N(αi + β j,<br />
1<br />
= SAK02 =<br />
f02<br />
1<br />
f02<br />
r<br />
∑<br />
i=1<br />
s<br />
∑<br />
t<br />
∑<br />
j=1 k=1<br />
.<br />
r+ s − 1<br />
σ<br />
rst<br />
2 ),<br />
(xi jk − ¯xi·· − ¯x· j· + ¯x···) 2 ∼∼ σ 2 χ 2 ( f02)/ f02.<br />
hvor f02 = rst −(r+ s − 1). Endvidere estimeres kontrasterne s˚ aledes:<br />
αg − αh ← ¯xg·· − ¯xh·· ∼∼ N(αg − αh, 2<br />
st σ 2 ),
Konfidensintervaller i M2<br />
βl − βm ← ¯x·l· − ¯x·m· ∼∼ N(βl − βm, 2<br />
rt σ 2 ).<br />
Med f02 = rst −(r+ s − 1) har vi følgende (1 − α) konfidensintervaller:<br />
middelværdien αi + β j i den (i, j)’te celle:<br />
<br />
[ ¯xi·· + ¯x· j· − ¯x··· −t1−α/2( f02) s2 <br />
r+ s − 1<br />
02 , ¯xi·· + ¯x· j· − ¯x··· +t<br />
rst<br />
1−α/2( f02)<br />
variansen σ 2 :<br />
kontrasten αg − αh :<br />
kontrasten βl − βm<br />
Test i M2<br />
Test af H0R i M2<br />
Teststørrelse:<br />
hvor<br />
og<br />
[ ¯xg·· − ¯xh·· −t 1−α/2( f02)<br />
[ ¯x·l· − ¯x·m· −t 1−α/2( f02)<br />
s 2 02<br />
s 2 02<br />
s 2 02<br />
[<br />
χ2 1−α/2 ( f02)/<br />
,<br />
f02 χ2 α/2 ( f02)/<br />
]<br />
f02<br />
= SAK02<br />
f02<br />
<br />
<br />
s 2 02<br />
s 2 02<br />
2<br />
st , ¯xg··<br />
<br />
− ¯xh·· +t1−α/2( f02)<br />
2<br />
rt , ¯x·l·<br />
<br />
− ¯x·m· +t1−α/2( f02)<br />
FR(x) = s2R s2 ∼∼ F( fR, f02),<br />
02<br />
s 2 R = SAKR<br />
fR<br />
=<br />
r<br />
∑<br />
i=1<br />
s<br />
∑<br />
st<br />
=<br />
t<br />
∑<br />
j=1 k=1<br />
r<br />
∑<br />
i=1<br />
( ¯xi·· − ¯x···) 2<br />
r − 1<br />
(xi jk − ¯xi·· − ¯x· j· + ¯x···) 2<br />
rst −(r+ s − 1)<br />
.<br />
s 2 02<br />
s 2 02<br />
s 2 02<br />
2<br />
st ]<br />
2<br />
rt ].<br />
r+ s − 1<br />
]<br />
rst<br />
4.139<br />
SAKR og SAK02 fremg˚ ar af udskriften fra Excel, idet dog SAK02 beregnes som SAK02 = SAK01+<br />
SAK2 hvis t ≥ 2.<br />
Testsandsynlighed for H0R :<br />
ε(x) = 1 − F F(r−1, f02)(FR(x)),<br />
hvor F F(r−1, f02) er fordelingsfunktionen for F-fordelingen med (r − 1, f02) frihedsgrader.
4.140 Hovedpunkter til Afsnit 4.7<br />
Ved test p˚ a 5% niveau forkastes H0R, hvis<br />
FR(x) > F0.95(r − 1, f02).<br />
Accept af H0R medfører modelreduktionen M2 → M ∗ 3 .<br />
Test af H0S i M2<br />
Teststørrelse<br />
hvor<br />
og<br />
s 2 S<br />
s 2 02 = SAK02<br />
f02<br />
FS(x) = s2 S<br />
s2 ∼∼ F( fS, f02),<br />
02<br />
= SAKS<br />
fS<br />
=<br />
r<br />
∑<br />
i=1<br />
=<br />
s<br />
∑<br />
rt<br />
t<br />
∑<br />
j=1 k=1<br />
s<br />
∑ ( ¯x· j· − ¯x···)<br />
j=1<br />
2<br />
s − 1<br />
(xi jk − ¯xi·· − ¯x· j· + ¯x···) 2<br />
rst −(r+ s − 1)<br />
SAKS og SAK02 fremg˚ ar af udskriften fra Excel, idet dog SAK02 beregnes som SAK02 = SAK01+<br />
SAK2 hvis t ≥ 2.<br />
Testsandsynligheden for H0S<br />
ε(x) = 1 − F F(s−1, f02)(FS(x)),<br />
hvor F F(s−1, f02) er fordelingsfunktionen for F-fordelingen med (s − 1, f02) frihedsgrader.<br />
Ved test p˚ a 5% niveau forkastes H0S, hvis<br />
FS(x) > F0.95(s − 1, f02).<br />
Accept af H0S medfører modelreduktionen M2 → M3.<br />
Test i M3<br />
Test af H0R i M3<br />
Teststørrelse<br />
hvor<br />
˜FR(x) = s2R s2 ∼∼ F( fR, f03),<br />
03<br />
s 2 R = SAKR<br />
fR<br />
st<br />
=<br />
r<br />
∑<br />
i=1<br />
( ¯xi·· − ¯x···) 2<br />
r − 1<br />
.
og<br />
s 2 03<br />
= SAK03<br />
f03<br />
=<br />
r<br />
∑<br />
i=1<br />
s<br />
∑<br />
t<br />
∑<br />
j=1 k=1<br />
(xi jk − ¯xi··) 2<br />
r(st − 1)<br />
SAKR fremg˚ ar af udskriften fra Excel, mens SAK03 beregnes som SAK03 = SAK02 + SAKS.<br />
Testsandsynlighed:<br />
Ved test p˚ a niveau 5% forkastes, hvis<br />
ε(x) = 1 − F F(r−1, f03)( ˜FR(x)),<br />
˜FR(x) > F0.95(r − 1, f03).<br />
Accept af H0R medfører modelreduktionen M3 → M4.<br />
Test i M ∗ 3<br />
Test af H0S i M ∗ 3<br />
Teststørrelse<br />
hvor<br />
og<br />
s 2 S<br />
˜FS(x) = s2 S<br />
s∗2 ∼∼ F( fS, f<br />
03<br />
∗ 03 ),<br />
= SAKS<br />
fS<br />
s ∗2<br />
03 = SAK∗ 03<br />
f ∗ =<br />
03<br />
=<br />
rt<br />
r<br />
∑<br />
i=1<br />
s<br />
∑ ( ¯x· j· − ¯x···)<br />
j=1<br />
2<br />
s − 1<br />
s<br />
∑<br />
t<br />
∑<br />
j=1 k=1<br />
(xi jk − ¯x· j·) 2<br />
s(rt − 1)<br />
SAKS fremg˚ ar af udskriften fra Excel, mens SAK∗ 03 beregnes som SAK∗ 03 = SAK02 + SAKR.<br />
Testsandsynlighed:<br />
Ved test p˚ a niveau 5% forkastes, hvis<br />
Accept af H0S medfører modelreduktionen M ∗ 3<br />
ε(x) = 1 − F F(s−1, f ∗ 03 )( ˜FS(x)),<br />
˜FS(x) > F0.95(s − 1, f ∗ 03 ).<br />
→ M4.<br />
4.141
4.142 Opgaver<br />
Opgaver til Kapitel 4<br />
Opgave 4.1 Betragt igen tallene i Opgave 3.2.<br />
a) Gør rede for at data kan betragtes som en normalfordelt observationsrække.<br />
b) Angiv estimaterne for middelværdi og varians og angiv estimaternes fordeling (n = 17,<br />
S = 53.31, SK = 168.9499).<br />
c) Beregn 95% konfidensintervallet for middelværdien, variansen og spredningen.<br />
Opgave 4.2 Betragt konditallene i Opgave 1.3. Observationen med værdien 174.4 er oplagt<br />
urimelig og skyldes m˚ aske en skrivefejl. Her erstatter vi d en med en observation med værdien<br />
74.4. (Efter denne korrektion er n = 24, S = 1743.2 og SK = 126784.64.)<br />
a) Gør rede for, at konditallene kan antages at være normalfordelte.<br />
Antag først, at variansen σ 2 er kendt og lig med 5, det vil sige σ 2 0<br />
b) Test hypotesen om middelværdien μ kan antages at være 71.5, det vil sige hypotesen<br />
H0 : μ = 71.5.<br />
c) Angiv 95% konfidensintervallet for middelværdien μ.<br />
Antag nu, at b˚ ade middelværdien μ og variansen σ 2 er ukendte.<br />
d) Test hypotesen H0μ : μ = 71.5.<br />
e) Angiv 95% konfidensintervallet for middelværdien μ.<br />
f) Test hypotesen H 0σ 2 : σ 2 = 5.<br />
= 5.<br />
h) Angiv 95% konfidensintervallet for variansen σ 2 og spredningen σ.<br />
Opgave 4.3 Betragt konditallene i Opgave 1.4.<br />
a) Gør rede for, at konditallene kan antages at være normalfordelte.<br />
b) Angiv 95% konfidensintervallet for middelværdien, variansen og spredningen (n = 17,<br />
S = 1177.1, SK = 82034.59).
Opgave 4.4 Betragt vægtene i Opgave 1.5.<br />
a) Gør rede for, at vægtene kan antages at være normalfordelte.<br />
4.143<br />
b) Angiv 95% konfidensintervallet for middelværdien, variansen og spredningen (n = 30,<br />
S = 2275.36, SK = 173966.4244).<br />
Opgave 4.5 Betragt højdefordelingen for pigerne i Opgave 1.10.<br />
a) Gør rede for, at højderne for pigerne i 1983 og højden for pigerne i 1985 kan antages at<br />
være normalfordelte. (Lav fraktildiagrammerne for de toa˚ r i samme figur.)<br />
b) Angiv for hvert af de toar ˚ 95% konfidensintervallet for mi ddelværdien, variansen og<br />
spredningen. (Benyt de beregnede størrelser for højderne i tabellen nedenfor)<br />
˚ar n S SK<br />
1983 723 122820.0 20892850.00<br />
1985 413 70315.0 11986925.00<br />
Opgave 4.6 I afsnittet her har vi i forbindelse med t-testet for hypotesen H0μ : μ = μ0 betragtet<br />
et dobbeltsidet test , det vil sige beregnet testsandsynligheden for t-testet som<br />
hvor<br />
ε(x) = P(t(n − 1) ≥ |t(x)|),<br />
t(x) = ¯x· − μ0<br />
s 2 /n .<br />
Hvis man af en faglig grund kun er interesseret i at afsløre afvigelser fra H0μ i én bestemt<br />
retning for eksempel μ > μ0 betragtes ofte et ensidet test for hypotesen, det vil sige, at testsand-<br />
synligheden beregnes som<br />
ε(x) = P(t(n − 1) ≥ t(x)).<br />
Det kunne for eksempel være tilfældet i følgende situation:<br />
Som bekendt er promillegrænsen for spirituskørsel 0.5 promille. Antag, at der foretages<br />
fire uafhængige m˚ alinger er promillen, nemlig 0.58, 0.57, 0 .57 og 0.49, som antages at være<br />
normalfordelte. Test hypotesen H0μ : μ = 0.5 ved s˚ avel et ensidet som et dobbeltsidet test ( n = 4,<br />
S = 2.21, SK = 1.2263) og diskuter resultaterne.
4.144 Opgaver<br />
Opgave 4.7 Betragt de fire vægtfordelinger i Opgave 1.9. De følgende summer og kvadratsum-<br />
mer er beregnet ved hjælp af intervalmidtpunkterne:<br />
vægt n S SK<br />
drenge 1983 555 36642.5 2459031.25<br />
piger 1983 723 40612.5 2324131.25<br />
drenge 1985 327 21655.0 1457937.50<br />
piger 1985 413 23622.5 1376231.25<br />
Fraktildiagrammer alslører, at det kan antages, at de fire observationsrækker er normalfordelte.<br />
(Det er ikke nødvendigt at foretage denne kontrol.)<br />
Vi betragter først drengene.<br />
a) Vis, at det antages, variansen p˚ a vægtm˚ alingerne er den samme i 1983 og 1985.<br />
b) Vis, at det kan antages, at middelværdien er den samme for de to vægtfordelinger og<br />
angiv et 95% konfidensinterval for forskellen i middelværdien for fordelingen i 1983 og<br />
fordelingen i 1985.<br />
Nu til pigerne.<br />
c) Vis, at det antages, variansen p˚ a vægtm˚ alingerne er den samme i 1983 og 1985.<br />
d) Vis at det ikke kan antages, at middelværdien er den samme for de to vægtfordelinger og<br />
angiv et 95% konfidensinterval for forskellen i middelværdien for fordelingen i 1983 og<br />
fordelingen i 1985.<br />
Opgave 4.8 Betragt de fire højdefordelinger i Opgave 1.10. De følgende summer og kva-<br />
dratsummer er beregnet ved hjælp af intervalmidtpunkterne:<br />
højde n S SK<br />
drenge 83 555 99382.5 17826131.25<br />
piger 83 723 121002.5 20279481.25<br />
drenge 85 327 58725.0 10566337.50<br />
piger 85 413 69277.5 11636468.75<br />
Fraktildiagrammer alslører, at det kan antages, at de fire observationsrækker er normalfordelte.<br />
(Det er ikke nødvendigt at foretage denne kontrol.)<br />
a) Vis, for s˚ avel drenge som piger, at de to observationsræk ker forarene ˚ 1983 og 1985 kan<br />
beskrives ved hjælp af én fordeling.
4.145<br />
Sl˚ a nu de to observationsrækker for drengene sammen til én observationsrække og tilsva-<br />
rende for pigerne.<br />
b) Vis, at det ikke kan antages at observationsrækken for drengene har samme varians som<br />
observationsrækken for pigerne.<br />
c) Beregn et 95% konfidensomr˚ ade for forskellen mellem midd elværdien af højden for dren-<br />
gene og middelværdien af højden for pigerne og p˚ avis ved hjæ lp af dette den ikke over-<br />
raskende kendsgerning, at drengene er signifikant højere end pigerne.<br />
Opgave 4.9 Betragt tallene i Opgave 1.14. Er der signifikant forskel p˚ a glycogen indholdet i<br />
benmusklerne før og efter træningsperioden p˚ a 3 uger?<br />
Opgave 4.10 Betragt tallene i Eksempel 1.5. Er der signifikant forskel p˚a indholdet af glycogen<br />
i venstre og højre ben?<br />
Opgave 4.11 Et helsecenter tilbyder et fitness program og lover et gennemsnitligt vægttab p˚ a<br />
6.5 kg de første 30 dage. For at undersøge om centret lever op til dette løfte, blev programmet<br />
afprøvet p˚ a 12 personer. Resultatet ses i Tabel 4.4.<br />
person før efter differens<br />
i fi ei di = fi − ei<br />
1 73.1 70.9 2.2<br />
2 69.5 65.9 3.6<br />
3 60.0 56.2 3.8<br />
4 55.2 50.8 4.4<br />
5 62.2 57.3 4.9<br />
6 68.5 62.6 5.9<br />
7 71.0 64.1 6.9<br />
8 76.2 68.7 7.5<br />
9 62.8 55.3 7.5<br />
10 64.3 56.6 7.7<br />
11 83.3 74.4 8.9<br />
12 66.0 56.3 9.7<br />
Tabel 4.4 Vægten (i kg) før og efter hos 12 personer, der deltog i et fitness program. Desuden<br />
er differensen mellem vægtene angivet.
4.146 Opgaver<br />
a) Undersøg, om vægttabet er normalfordelt.<br />
b) Undersøg, om middelværdien af vægttabet er 6.5 kg.<br />
c) Angiv estimat og 95%-konfidensinterval for middelværdien og variansen af vægttabet.<br />
Standardberegninger for vægttabene.<br />
Antal S SK<br />
12 73.0 503.12<br />
Opgave 4.12 Ved atletikstævnerne for de 1. arsstuderende ˚<br />
ved Institut for Idræt, Københavns<br />
Universitet, blev resultaterne i pigernes kuglestød iare ˚ ne 1998 - 2000:<br />
Beregnede størrelser<br />
¡¢£¤¥¦§¨©¢¤<br />
<br />
<br />
<br />
<br />
˚ar n S SK<br />
1998 15 127.56 1103.6480<br />
1999 11 96.70 864.5862<br />
2000 9 81.93 758.0283<br />
a) Vis, at det kan antages, at de tre observationsrækker for pigerne har samme varians.<br />
b) Undersøg, om det kan antages, at de tre observationsrækker for pigerne har samme mid-<br />
delværdi.
Resultaterne for drengene blev:<br />
Beregnede størrelser<br />
¡¢£¤¥¦§¨¨©¤¢¤<br />
<br />
<br />
<br />
<br />
˚ar n S SK<br />
1998 14 143.78 1510.9406<br />
1999 14 155.19 1739.7157<br />
2000 10 108.50 1192.0100<br />
c) Vis, at det kan antages, at de tre observationsrækker for drengene har samme varians.<br />
4.147<br />
d) Undersøg, om det kan antages, at de tre observationsrækker for drengene har samme<br />
middelværdi.<br />
Opgave 4.13 Ved atletikstævnerne for de 1. arsstuderende ˚<br />
ved Institut for Idræt, Københavns<br />
Universitet, blev resultaterne i pigernes 100 m løb iarene ˚ 1998 - 2000:
4.148 Opgaver<br />
Beregnede størrelser<br />
˚ar n S SK<br />
1998 11 163.82 2441.8978<br />
1999 8 120.44 1814.1520<br />
2000 8 117.80 1737.0800<br />
a) Vis, at det kan antages, at de tre observationsrækker for pigerne har samme varians.<br />
b) Undersøg, om det kan antages, at de tre observationsrækker for pigerne har samme mid-<br />
delværdi.<br />
Resultaterne for drengene blev: ¡¡¢£¤¥¦§¨©¨<br />
Beregnede størrelser<br />
¡¡¡ ¡ ¡ ¡ <br />
¡ ¡ ¡ ¡ ¡ <br />
¡ ¡¡ ¡ ¡ ¡<br />
¡ <br />
<br />
<br />
˚ar n S SK<br />
1998 19 237.94 2981.5790<br />
1999 15 184.81 2283.2303<br />
2000 9 107.60 1288.4000<br />
c) Vis, at det ikke kan antages, at de tre observationsrækker for drengene har samme varians<br />
og overvej, hvorfor dette er tilfældet.
4.149<br />
Opgave 4.14 (Andersen 1998) Tallene i tabellen nedenfor viser verdensrekorderne p˚ a en en-<br />
gelsk mile fra 1911 til 1993. Materialet stammer oprindeligt fra 1975, s˚ a frem til 1993 er blot<br />
den sidste rekord medtaget. Tiderne er rekordtiderne i sekunder fratrukket 180 sekunder. Ved<br />
angivelsen eraret ˚ er der fratrukket 1900.<br />
˚ar rekord ˚ar rekord<br />
11 75.4 54 59.4<br />
13 74.6 54 58.0<br />
15 72.6 57 57.2<br />
23 70.4 58 54.5<br />
31 69.2 62 54.4<br />
33 67.6 64 54.1<br />
34 66.8 65 53.6<br />
37 66.4 66 51.3<br />
42 66.2 67 51.1<br />
42 64.6 75 51.0<br />
43 62.6 75 49.4<br />
44 61.6 93 43.5<br />
45 61.4<br />
a) Gør rede for at data kan beskrives ved en lineær regression rekord som afhængig variabel<br />
ogar ˚ som uafhængig variabel<br />
b) Beregn estimater for parametrene i regressionmodellen, idet følgende beregnede størrelser<br />
kan benyttes<br />
x(rekord) t(˚ar)<br />
n 25<br />
S 1516.9 1203<br />
SK 93815.81 68311<br />
SP 68735.4<br />
c) Angiv 95% konfidensinterval for parametrene i regressionsmodellen.<br />
Data til Opgave 4.15 og Opgave 4.16 nedenfor stammer fra samme undersøgelse, hvis form˚ al<br />
og resultater var:<br />
Efter fødslen falder hæmoglobinindholdet i blodet hos for tidligt fødte børn ofte voldsomt.<br />
Tidligere fik disse børn derfor blodtransfusioner. For at undersøge om indsprøjtning af erythro-
4.150 Opgaver<br />
poietin (det fra professionel cykelsport kendte dopingmiddel ”epo”) kunne erstatte blodtransfu-<br />
sioner, udførtes to forsø g, hvor for tidligt fødte børn blev behandlet med erythropoietin. I det<br />
første deltog 29 børn, hvoraf 14 (gruppe 3) fik en erythropoietin-dosis p˚ a 100 U pr. kg legems-<br />
vægt (her er U en enhed for det anvendte præparat), mens de resterende 15 var en kontrolgruppe<br />
(gruppe 0), der ikke fik nogen behandling. I det andet deltog 31 børn, hvoraf 16 (gruppe 2) fik<br />
en erythropoietin-dosis p˚ a 100 U pr. kg legemsvægt og 15 (gr uppe 1) fik en erythropoietin-dosis<br />
p˚ a 50 U pr. kg legemsvægt. Børnenes hæmoglobinprocent blev blandt andet m˚ a lt 3 og 6 uger<br />
efter fødslen. Tabel 4.5 viser æ ndringen i hæmoglobinprocenten fra uge 3 til uge 6 for de fire<br />
grupper.<br />
Epo-gruppe Ændring i hæ moglobinprocent n<br />
0 (0 U/kg) -4.0 -5.8 -0.5 1.0 -1.4 -3.3 0.2 -3.6 15<br />
-2.8 -0.4 -0.7 -3.9 -3.2 -2.7 -1.6<br />
1 (50 U/kg) -1.9 -1.9 -1.0 -0.7 2.0 2.2 -2.6 -3.1 15<br />
-2.5 -1.9 3.0 -2.2 -2.5 0.4 -4.3<br />
2 (100 U/kg) -0.4 -1.8 -2.6 0.1 -1.3 0.0 -1.4 -3.5 16<br />
-1.1 2.7 -1.1 -0.9 0.0 0.0 0.8 -0.5<br />
3 (100 U/kg) -0.3 -1.0 0.3 0.0 0.4 1.3 -1.8 -0.6 14<br />
-1.5 -3.0 -1.1 0.5 0.8 -0.9<br />
Tabel 4.5 Ændring i hæmoglobinprocenten fra uge 3 til uge 6 for 60 præmature børn.<br />
I det følgende antages, at ændringen i hæmoglobinprocenten i hver af de 4 grupper er en<br />
normalfordelt observationsrække.<br />
Opgave 4.15 I denne opgave betragter vi kun grupperne 2 og 3, der begge har af˚ et en epo-dosis<br />
p˚ a 100 U/kg.<br />
a) Vis, at det kan antages, at variansen p˚ a ændringen i hæmog lobinprocenten er den samme<br />
i de to grupper.<br />
b) Vis, at det kan antages, at gruppe 2 og 3 har samme ændring i hæmoglobinprocent.<br />
c) Estimer den fælles middelværdi og den fælles varians for ændringen i hæmoglobinprocent<br />
i gruppe 2 og 3.
Ved besvarelsen kan følgende beregnede størrelser benyttes:<br />
n S SK<br />
gruppe 2 16 −11.0 37.48<br />
gruppe 3 14 −6.9 20.79<br />
Σ 30 −17.9 58.27<br />
4.151<br />
Opgave 4.16 Opgave 4.15 viste, at grupperne 2 og 3 kunne sl˚ as sammen til e n gruppe. I denne<br />
opgave betragter vi derfor 3 observationsrækker svarende til forskellige værdier af epo-dosen:<br />
0 (gruppe 0), 50 (gruppe 1) og 100 (gruppe 2 og 3).<br />
For disse data ser beregningsskemaet side 4.33 s˚ aledes ud<br />
Beregningsskema:<br />
i ni Si SKi Si2/ni SAKi fi Var Mean<br />
0 15 -32.7000 120.5300 71.2860 49.2440 14 3.517428571 -2.1800<br />
50 15 -17.0000 82.5200 19.2667 63.2533 14 4.518095238 -1.1333<br />
100 30 -17.9000 58.2700 10.6803 47.5897 29 1.641022988 -0.5967<br />
-------------------------------------------------------=====================<br />
60 -67.6000 261.3200 101.2330 160.0870 57 2.8085438596<br />
a) Gør rede for, at det kan antages, at de 3 observationsrækker svarende til de tre værdier af<br />
epo-dosen har samme varians.<br />
Figur 4.29 viser ændringen i hæmoglobinprocenten (dif) tegnet op mod epo-dosen (dosis).<br />
b) Kommenter Figur 4.29 med henblik p˚ a en lineær regression smodel med ændringen i hæ-<br />
moglobinprocenten som responsvariabel og epo-dosen som forklarende variabel.<br />
c) Estimer parametrene i regressionsmodellen. Ved beregningerne kan følgende størrelser<br />
benyttes<br />
ændring i<br />
hæmoglobinprocent epo-dosis<br />
n 60<br />
S −67.60 3750<br />
SK 261.32 337500<br />
SP −2640.00<br />
d) Vis, at det kan antages, at middelværdien af ændringen i hæmoglobinprocent afhænger<br />
lineært af epo-dosis.
4.152 Opgaver<br />
Figur 4.29 Ændringen i hæmoglobinprocenten tegnet op mod epo-dosen.<br />
e) Vis, at materialet giver grundlag for at antage, at epo-behandling har en virkning p˚ a hæ-<br />
moglobinprocenten.<br />
Opgave 4.17 Vis, at data i Opgave 1.14, som vi ogs˚ a har regnet p˚ a i Opgave 4.9, kan betrag-<br />
tes som én observationsrække fra den todimensionale normalfordeling og test hypotesen om<br />
uafhængighed af glycogen indholdet før og efter træningsperioden p˚ a 3 uger.<br />
Opgave 4.18 Vis, at data i Eksempel 1.5, som vi ogs˚ a har betragtet i Opgav e 4.10, kan opfat-<br />
tes som én observationsrække fra den todimensionale normalfordeling og test hypotesen om<br />
uafhængighed af glycogen indholdet i venstre og højre ben.<br />
Opgave 4.19 Det eneste kvinde blandt personerne i tabellen p˚ a side 4.11 1 er person nr. 1.<br />
Lav en tosidet variansanalyse for de fem mænd, der fik foretaget blodprøver p˚ a samtlige syv<br />
tidpunkter. Er der forskel p˚ a indholdet af calcium i blodpr øverne hos disse mænd?<br />
Opgave 4.20 Som det ses af tabellen p˚ a side 4.111 har samtlige 11 persone r aet f˚ foretaget<br />
blodprøver p˚ a de tre første tidspunkter.<br />
a) Hvad kan der siges indholdet af calcium i blodprøverne hvis betragter alle personer med<br />
kun tre tidspunkter?
4.153<br />
b) Hvad er konklusionen, hvis vi som i Opgave 4.19 udelader m˚alingerne for den eneste<br />
kvinde, person nr.1?<br />
Opgave 4.21 Data nedenfor stammer fra langdistanceløbene ved olympiaden i Sydneyar ˚ 2000.<br />
Data best˚ ar af tiden per 100 m for de syv bedst placerede i fina lerne p˚ a 1500 m, 10000 m og<br />
marathon for mænd og kvinder. ¡¢£¤¥¦§§¨©¤¢¡¢¤<br />
¦§§§§¨ ¦¨ ©¡¢¤¥ ¦§ ¦¦ § ¦ ¦ § ¦¦ ¦ § ¦§§¨<br />
¦§ §§¦ ¦ ¦ § ¦ ¦ § ¦ ¦ §¦§ ¦<br />
¦¦ ¦ ¦¦ ¦¦ ¦ ¦ ¨¢<br />
¦ ¦ ¦ ¦ ¦ ¦<br />
Det<br />
¦¦<br />
kan ved hjælp af fraktildiagrammer<br />
¦¦<br />
vises, at det kan antages, at de seks observations- ¦§ ¦ ¦§ ¦ ¦§ ¦§ ¦<br />
rækker er normalfordelte.<br />
a) Vis, at det kan antages, at den seks observationsrækker har samme varians. (De tilsvarende<br />
tal for mændenes 5000 m har en meget mindre varians p˚ a grund a f et meget tæt opløb,<br />
hvilket er grunden til at distancen ikke betragtes her.)<br />
b) Vis, at data kan beskrives ved additivitesmodellen i en tosidet variansanalyse.<br />
c) Vis, at der er forskel p˚ a tiderne per 100 m for s˚ avel de tre distancer som for mænd og<br />
kvinder.<br />
d) Angiv et 95% konfidensinterval for forskellen mellem mænd og kvinder.<br />
Opgave 4.22 Kontroller ved hjælp af Excel beregningerne i Eksempel 4.11.
4.154 Opgaver
Indeks I.1<br />
Indeks<br />
A<br />
acceptomr˚ ade . . . . . . . . . . . . . . . . . . . . . 5.6<br />
additivitetsmodellen<br />
tosidet variansanalyse . . . . . . . . . . . . 4.113<br />
afhængig variabel<br />
lineær regression . . . . . . . . . . . . . . . . 4.78<br />
afskæring<br />
lineær regression . . . . . . . . . . . . . . . . 4.78<br />
B<br />
Bartlett test<br />
−2lnQ . . . . . . . . . . . . . . . . . . . . . . . 4.61<br />
for identitet af k > 2 varianser . . . . . . . 4.61<br />
hovedpunkter . . . . . . . . . . . . . . . . . . 4.73<br />
konstanten C . . . . . . . . . . . . . . . . . . . 4.61<br />
testsandsynlighed . . . . . . . . . . . . . . . . 4.62<br />
Bayes formel . . . . . . . . . . . . . . . . . . . . . 2.7<br />
beregninger<br />
s 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.8<br />
¯x· . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.8<br />
beregninger i Excel . . . . . . . . . . . . . 1.31,<br />
4.10, 4.19, 4.28, 4.50, 4.70, 4.135, 6.28, 7.29, 8.15<br />
beta funktion . . . . . . . . . . . . . . . . . . . . . 3.8<br />
betinget fordeling . . . . . . . . . . . . . . . . . 2.25<br />
betinget sandsynlighed . . . . . . . . . . . . . . . 2.6<br />
binomialfordeling<br />
beregning af punktsandsynligheder . . . . 3.13<br />
definition . . . . . . . . . . . . . . . . . . . . . 3.12<br />
Excel . . . . . . . . . . . . . . . . . . . . . . . . 3.13<br />
middelværdi og varians . . . . . . . . . . . . 3.13<br />
binomialrækken . . . . . . . . . . . . . . . . . . . A.3<br />
C<br />
χ 2 -fordeling . . . . . . . . . . . . . . . . . . . . . 5.21<br />
data<br />
definition . . . . . . . . . . . . . . . . . . . . . . 3.5<br />
Excel<br />
fordelingsresultater . . . . . . . . . . . . . . . . 3.6<br />
middelværdi og varians . . . . . . . . . . . . . 3.6<br />
tabel . . . . . . . . . . . . . . . . . . . . . . . . . 3.7<br />
D<br />
flerdimensionale . . . . . . . . . . . . . . . . 1.27<br />
grafisk repræsentation . . . . . . . . . . . . . . 1.2<br />
grupperede . . . . . . . . . . . . . . . . . . . . . 1.2<br />
grupperede, ugrupperet version . . . . . . . 1.19<br />
gruppering . . . . . . . . . . . . . . . . . . . . . 1.5<br />
idræt . . . . . . . . . . . . . . . . . . . . . . 1.1, 5.2<br />
kvalitative . . . . . . . . . . . . . . . . . . . . . . 1.2<br />
kvantitative . . . . . . . . . . . . . . . . . . . . . 1.2<br />
sæt . . . . . . . . . . . . . . . . . . . . . . . 1.1, 5.2<br />
tabelform . . . . . . . . . . . . . . . . . . . . . . 7.1<br />
tabellering . . . . . . . . . . . . . . . . . . . . . 1.2<br />
todimensionale . . . . . . . . . . . . . . . . . 1.27<br />
ugrupperede . . . . . . . . . . . . . . . . . . . . 1.2<br />
delmængde . . . . . . . . . . . . . . . . . . . . . . A.1<br />
omr˚ ade . . . . . . . . . . . . . . . . . . . . . . . . 5.3<br />
sammenhængende . . . . . . . . . . . . . . . . 5.3<br />
aben ˚ . . . . . . . . . . . . . . . . . . . . . . . . . 5.3
I.2 Indeks<br />
diagram<br />
blok . . . . . . . . . . . . . . . . . . . . . . . . . 1.23<br />
fraktil . . . . . . . . . . . . . . . . . . . . . . . . 4.2<br />
kasse . . . . . . . . . . . . . . . . . . . . . . . . 1.16<br />
lagkage . . . . . . . . . . . . . . . . . . . . . . 1.23<br />
pinde . . . . . . . . . . . . . . . . . . . . . . . . . 1.5<br />
prik . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4<br />
probit . . . . . . . . . . . . . . . . . . . . . . . . . 4.5<br />
profil . . . . . . . . . . . . . . . . . . . . . . . 4.117<br />
søjle . . . . . . . . . . . . . . . . . . . . . 1.5, 1.23<br />
disjunkte mængder . . . . . . . . . . . . . . . . . A.2<br />
parvis . . . . . . . . . . . . . . . . . . . . . . . . A.2<br />
diskret stokastisk variabel . . . . . . . . . . . . 2.12<br />
diskret stokastisk vektor . . . . . . . . . . 2.19, 5.2<br />
dobbeltintegral . . . . . . . . . . . . . . . . . . . . A.5<br />
E<br />
Eksempel 1.1 . . . . . . . . 1.3, 1.5, 4.7, 4.26, 6.26<br />
højde af piger . . . . . . . . . . . . . . . . . . . 1.3<br />
Eksempel 1.2 . . . . . . . . 1.3, 4.3, 4.5, 4.10, 4.27<br />
kondital for eliteidrætsudøvere . . . . . . . . 1.3<br />
Eksempel 1.3 . . . . . . . . . . . . . 1.4, 1.24, 1.26<br />
Excel . . . . . . . . . . . . . . . . . . . . . . . . 1.37<br />
resultatet af Faxe Kondi Ligaen . . . . . . . . 1.4<br />
Eksempel 1.4 . . . . . . . . . 1.11, 1.16, 1.31, 1.35<br />
hypotetiske kondital . . . . . . . . . . . . . . 1.11<br />
Eksempel 1.5 . . . . . . . . . . . . . . . . . . . . 1.28<br />
glycogen indhold i muskler . . . . . . . . . 1.28<br />
Eksempel 2.1 . . . . . . . . . . . . . . . . . . . . . 2.4<br />
uniforme sandsynlighedsm˚ al p˚ a endelig<br />
mængde . . . . . . . . . . . . . . . . . . . . . . 2.4<br />
Eksempel 2.2 . . . . . . . . . . . . . . . . . 2.4, 2.19<br />
to kampe p˚ a tipskuponen . . . . . . . . . . . . 2.4<br />
Eksempel 2.3 . . . . . . . . . . . . . . . . . . . . . 2.5<br />
uniforme sandsynlighedsm˚ al p˚ a interval . . 2.5<br />
Eksempel 2.4 . . . . . . . . . . . . . . . . . . . . . 2.8<br />
superligaholds chancer p˚ a hjemme- og ude-<br />
bane . . . . . . . . . . . . . . . . . . . . . . . . . 2.8<br />
Eksempel 2.5 . . . . . . . . . . . . . . . . . . . . . 2.9<br />
superligaholds hjemmekampe . . . . . . . . . 2.9<br />
Eksempel 2.6 . . . . . . . . . . . . . . . . . . . . 2.12<br />
uniform fordeling . . . . . . . . . . . . . . . . 2.12<br />
Eksempel 2.7 . . . . . . . . . . . . . . . . 2.14, 2.29<br />
to kampe p˚ a tipskuponen, point fordeling 2.14<br />
Eksempel 2.8 . . . . . . . . . . . . . . . . . . . . 2.15<br />
antal hjemmekampe inden første sejr . . . 2.15<br />
Eksempel 2.9 . . . . . . . . . . . . . . . . 2.18, 2.30<br />
tæthedsfunktion for uniform fordeling . . 2.18<br />
Eksempel 2.10 . . . . . . . . 2.19, 2.22, 2.24, 2.29<br />
to kampe p˚ a tipskuponen . . . . . . . . . . . 2.19<br />
Eksempel 2.11 . . . . . . . . . . . . 2.21, 2.23, 2.24<br />
uniform fordeling p˚ a delmængde af R2 . . 2.21<br />
Eksempel 2.12 . . . . . . . . . . . . 2.23, 2.25, 2.31<br />
uniform fordeling p˚ a trekant . . . . . . . . . 2.23<br />
Eksempel 3.1 . . . . . . . . . . . . . . . . . . . . 3.13<br />
sandsynlighedsfunktion for binomialforde-<br />
ling . . . . . . . . . . . . . . . . . . . . . . . . . 3.13<br />
Eksempel 3.2 . . . . . . . . . . . . . . . . . . . . 3.16<br />
sandsynlighedsfunktion for poissonfordeling<br />
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.16<br />
Eksempel 3.3 . . . . . . . . . . . . . . . . . . . . 3.18<br />
sandsynlighedsfunktion for hypergeometrisk<br />
fordeling . . . . . . . . . . . . . . . . . . . . . . 3.18<br />
Eksempel 3.4 . . . . . . . . . . . . . . . . . . . . 3.20<br />
sandsynlighedsfunktion for negativ binomial-<br />
fordeling . . . . . . . . . . . . . . . . . . . . . . 3.20<br />
Eksempel 4.1 . . . . . . . . . . . . . . . . . . . . .<br />
. . . . . 4.13, 4.19, 4.21, 5.4, 5.10, 5.13, 5.16, 5.21<br />
bestemmelse af laktatkoncentration . . . . 4.13<br />
Eksempel 4.2 . . . . . . . . . . . . . 4.34, 4.35, 4.38<br />
Excel . . . . . . . . . . . . . . . . . . . . . . . . 4.50<br />
kondital for ikke-aktive og aktive . . . . . 4.34<br />
Eksempel 4.3 . . . . . . . . . . . . . . . . . . . . 4.42<br />
Excel . . . . . . . . . . . . . . . . . . . . . . . . 4.52<br />
tider i semifinalerne i kvindernes 100 m løb 4.42<br />
Eksempel 4.4 . . . . . . . . . . . . . . . . . . . . 4.46
Indeks I.3<br />
Excel . . . . . . . . . . . . . . . . . . . . . . . . 4.53<br />
muskelglucogen før og efter træning . . . 4.46<br />
Eksempel 4.5 . . . . . . . . . . . . . 4.59, 4.62, 4.67<br />
Excel . . . . . . . . . . . . . . . . . . . . . . . . 4.70<br />
længdespring . . . . . . . . . . . . . . . . . . . 4.59<br />
Eksempel 4.6 . . . . . . . . . . . . . 4.76, 4.82, 4.93<br />
Excel . . . . . . . . . . . . . . . . . . . . . . . 4.101<br />
lineær regression af puls p˚ a tid . . . . . . . 4.76<br />
Eksempel 4.7 . . . . . . . . . . . . . . . . 4.83, 4.93<br />
Excel . . . . . . . . . . . . . . . . . . . . . . . 4.103<br />
finaletider i kvindernes 200 m, 400 m og<br />
800 m løb . . . . . . . . . . . . . . . . . . . . . 4.83<br />
Eksempel 4.8 . . . . . . . . . . . . . . . . . . . . 4.94<br />
puls og iltoptagelse . . . . . . . . . . . . . . . 4.94<br />
Eksempel 4.9 . . . . . . . . . . 4.111, 4.117, 4.127<br />
Excel . . . . . . . . . . . . . . . . . . . . . . . 4.135<br />
tosidet variansanalyse uden gentagelser 4.111<br />
Eksempel 4.10 . . . . . . . . . 4.111, 4.117, 4.131<br />
Excel . . . . . . . . . . . . . . . . . . . . . . . 4.136<br />
tosidet variansanalyse med gentagelser . 4.111<br />
Eksempel 4.11 . . . . . . . . . . . . . . . . . . 4.134<br />
tosidet variansanalyse og det parrede t-test 4.134<br />
Eksempel 6.1 . . . . . . . . . . . . . . . . . . . . . 6.1<br />
multinomialfordelte data . . . . . . . . . . . . 6.1<br />
Eksempel 6.2 . . . . . . . . . . . . . . . . . 6.3, 6.10<br />
AB’s kampe p˚ a hjemme- og udebane . . . . 6.3<br />
Excel . . . . . . . . . . . . . . . . . . . . . . . . 6.28<br />
Eksempel 6.3 . . . . . . . . . . . . . . . . . 6.3, 6.13<br />
Excel . . . . . . . . . . . . . . . . . . . . . . . . 6.29<br />
idrætaktivitet og rygning . . . . . . . . . . . . 6.3<br />
Eksempel 6.4 . . . . . . . . . . . . . . . . . . . . 6.17<br />
Excel . . . . . . . . . . . . . . . . . . . . . . . . 6.30<br />
opdeling af resultater i Faxe Kondi Ligaen 6.4<br />
Eksempel 6.5 . . . . . . . . . . . . . . . . 6.20, 6.22<br />
undersøgelse af sammenhæng mellem kræft<br />
og magnetfelter . . . . . . . . . . . . . . . . . . 6.20<br />
Eksempel 6.6 . . . . . . . . . . . . . . . . . . . . 6.26<br />
test for goodness of fit . . . . . . . . . . . . . 6.26<br />
Eksempel 7.1 . . . . . . . . . . 7.2, 7.8, 7.11, 7.17<br />
antal m˚ al i Faxe Kondi Ligaen . . . . . . . . 7.2<br />
Excel . . . . . . . . . . . . . . . . . . . . . . . . 7.29<br />
Eksempel 7.2 . . . . . . . . . . . . . . . . . 7.2, 7.15<br />
de nordiske landes medaljehøst ved OL i Syd-<br />
ney . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2<br />
Excel . . . . . . . . . . . . . . . . . . . . . . . . 7.31<br />
Eksempel 7.3 . . . . . . . . . . . . . . . . . 7.2, 7.26<br />
Excel . . . . . . . . . . . . . . . . . . . . . . . . 7.32<br />
medaljefordeling ved OL i Sydney . . . . . 7.2<br />
Eksempel 8.1 . . . . . . . . . . . . . . . 8.2, 8.3, 8.6<br />
Excel . . . . . . . . . . . . . . . . . . . . . . . . 8.15<br />
kondital før og efter træning . . . . . . . . . . 8.2<br />
Eksempel 8.2 . . . . . . . . . . . . . 8.7, 8.10, 8.14<br />
kondital for ikke-aktive og aktive . . . . . . 8.7<br />
Eksempel 8.3 . . . . . . . . . . . . . . . . 8.11, 8.13<br />
længdespring . . . . . . . . . . . . . . . . . . . 8.11<br />
eksperiment<br />
datasæt . . . . . . . . . . . . . . . . . . . . . 1.1, 5.2<br />
eksponentialfordeling<br />
definition . . . . . . . . . . . . . . . . . . . . . 3.22<br />
Excel . . . . . . . . . . . . . . . . . . . . . . . . 3.23<br />
middelværdi og varians . . . . . . . . . . . . 3.22<br />
eksponentialrækken . . . . . . . . . . . . . . . . . A.4<br />
empirisk fordelingsfunktion . . . . . . . . . . 1.12<br />
empirisk korrelationskoefficient . . . . . . . . 1.28<br />
empirisk middelværdi . . . . . . . . . . . . . . 1.16<br />
empirisk spredning . . . . . . . . . . . . . . . . 1.16<br />
empirisk varians . . . . . . . . . . . . . . . . . . 1.16<br />
én observationsrække<br />
Poissonfordelingen . . . . . . . . . . . . . . . . 7.7<br />
tabelform . . . . . . . . . . . . . . . . . . . . . . 7.1<br />
endelig række . . . . . . . . . . . . . . . . . . . . . A.3<br />
eksempler . . . . . . . . . . . . . . . . . . . . . . A.3<br />
estimat . . . . . . . . . . . . . . . . . . . . . . . . . 5.5<br />
interval . . . . . . . . . . . . . . . . . . . . . . . 5.16<br />
maksimum likelihood . . . . . . . . . . . . . . 5.9<br />
notation . . . . . . . . . . . . . . . . . . . . . . . 5.5
I.4 Indeks<br />
estimation<br />
én observationsrække, Poissonfordelingen 7.7<br />
lineær regression . . . . . . . . . . . . . . . . 4.78<br />
maksimum likelihood . . . . . . . . . . . . . . 5.9<br />
middelværdien i én observationsrække . . 4.13<br />
multiplikativ Poissonmodel . . . . . . . . . 7.21<br />
proportionale parametre i Poissonmodel . 7.13<br />
teori . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5<br />
todimensional normalfordeling . . . . . . . 4.96<br />
tosidet variansanalyse . . . . . . . . . . . . 4.114<br />
variansen i én observationsrække . . . . . 4.21<br />
estimator . . . . . . . . . . . . . . . . . . . . . . . . 5.5<br />
maksimum likelihood . . . . . . . . . . . 5.6, 5.9<br />
Excel<br />
analoge formler . . . . . . . . . . . . . . . . . 1.35<br />
Beskrivende statistik . . . . . . . . . 1.32<br />
binomialfordeling . . . . . . . . . . . . . . . . 3.13<br />
χ 2 -fordeling . . . . . . . . . . . . . . . . . . . . 3.7<br />
Diagram . . . . . . . . . . . . . . . . . . . . . 1.35<br />
100 (procent) stablet søjlediagram<br />
. . . . . . . . . . . . . . . . . . . . . . . . . . . 1.39<br />
Grupperet søjle . . . . . . . . . 1.38, 1.39<br />
Punktdiagram . . . . . . . . . . . . . . . . 1.36<br />
dialogboksen Anava:<br />
Enkelt faktor . . . . . . . . . . . . . . . 4.70<br />
To-faktor med gentagelse . . . . 4.135<br />
To-faktor uden gentagelse . . . 4.135<br />
dialogboksen F-test:<br />
Dobbelt stikprøve for ens varians<br />
. . . . . . . . . . . . . . . . . . . . . . . . . . . 4.50<br />
dialogboksen Regression . . . . . . . . . 4.101<br />
dialogboksen t-test:<br />
Parvis dobbelt stikprøve for<br />
middelværdi . . . . . . . . . . . . . . . . 4.50<br />
To stikprøver med ens varians . 4.50<br />
To stikprøver med forskellig<br />
varians . . . . . . . . . . . . . . . . . . . . 4.50<br />
eksponentialfordelingen . . . . . . . . . . . 3.23<br />
F-fordeling . . . . . . . . . . . . . . . . . . . . 3.12<br />
fraktildiagram . . . . . . . . . . . . . . . . . . 4.10<br />
funktionen BINOMIALFORDELING . . . . . 3.13<br />
funktionen CHIFORDELING . . . . . . . . . . 3.7<br />
funktionen CHIINV . . . . . . . . . . . . 3.7, 6.30<br />
funktionen CHITEST . . . . . . . . . . 6.28, 6.30<br />
funktionen EKSPFORDELING . . . . . . . . . 3.23<br />
funktionen FAST . . . . . . . . . . . . . . . . 1.40<br />
funktionen FFORDELING . . . . . . . . . . . 3.12<br />
funktionen FINV . . . . . . . . . . . . . . . . 3.12<br />
funktionen FRAKTIL . . . . . . . . . . . . . . 1.34<br />
funktionen HYPGEOFORDELING . . . . . . . 3.19<br />
funktionen KOMBIN . . . . . . . . . . . . . . . 2.34<br />
funktionen NEGBINOMFORDELING . . . . . 3.20<br />
funktionen NORMFORDELING . . . . . . . . . . 3.4<br />
funktionen NORMINV . . . . . . . . . . . . . . . 3.4<br />
funktionen PLADS . . . . . . . . . . . . . . . . 8.15<br />
funktionen POISSON . . . . . . . . . . . . . . 3.16<br />
funktionen POTENS . . . . . . . . . . . . . . . 2.33<br />
funktionen SLUMP . . . . . . . . . . . . . . . . 2.35<br />
funktionen SUMPRODUKT . . . . . . . . . . . 6.28<br />
funktionen TFORDELING . . . . . . . . . . . 3.10<br />
funktionen TINV . . . . . . . . . . . . . . . . 3.10<br />
Histogram . . . . . . . . . . . . . . . . . . . . 1.33<br />
hypergeometrisk fordeling . . . . . . . . . . 3.19<br />
negativ binomialfordeling . . . . . . . . . . 3.20<br />
normalfordeling . . . . . . . . . . . . . . . . . . 3.4<br />
numeriske variable . . . . . . . . . . . . . . . 1.39<br />
Poissonfordeling . . . . . . . . . . . . . . . . 3.16<br />
t-fordeling . . . . . . . . . . . . . . . . . . . . 3.10<br />
t-test for kendt middelværdi . . . . . . . . . 4.28<br />
tekst variable . . . . . . . . . . . . . . . . . . . 1.39<br />
test for kendt varians . . . . . . . . . . . . . . 4.28<br />
u-test . . . . . . . . . . . . . . . . . . . . . . . . 4.19<br />
F<br />
F-fordeling<br />
definition . . . . . . . . . . . . . . . . . . . . . 3.10
Indeks I.5<br />
Excel . . . . . . . . . . . . . . . . . . . . . . . . 3.12<br />
fordelingsresultater . . . . . . . . . . . . . . . 3.11<br />
tabel . . . . . . . . . . . . . . . . . . . . . . . . 3.12<br />
F-test<br />
for identitet af to varianser . . . . . . 4.37, 4.55<br />
t 2 = F . . . . . . . . . . . . . . . . . . . . . . . 4.68<br />
faglig<br />
fejl<br />
problem . . . . . . . . . . . . . . . . . . . . . . . 5.3<br />
sammenhæng . . . . . . . . . . . . . 1.1, 5.2, 5.4<br />
type I . . . . . . . . . . . . . . . . . . . . . . . . 5.14<br />
type II . . . . . . . . . . . . . . . . . . . . . . . 5.14<br />
fempunktsopsummeringen . . . . . . . . . . . 1.15<br />
f (i)<br />
k observationsrækker . . . . . . . . . . . . . 4.32<br />
Fishers dispersionsindeks . . . . . . . . . . . . . 7.7<br />
eksempel . . . . . . . . . . . . . . . . . . . . . . 7.9<br />
Fishers eksakte test . . . . . . . . . . . . . . . . 6.21<br />
eksempel . . . . . . . . . . . . . . . . . . . . . 6.22<br />
i 2×2 tableller . . . . . . . . . . . . . . . . . . 6.21<br />
i r × s tabeller . . . . . . . . . . . . . . . . . . 6.23<br />
fordeling<br />
approksimativ, likelihood ratio testoren . 5.21<br />
diskret . . . . . . . . . . . . . . . . . . . . . . . . 1.2<br />
funktion . . . . . . . . . . . . . . . . . . . . . . . 5.2<br />
klasse af . . . . . . . . . . . . . . . . . . . . . . . 5.3<br />
kontinuert . . . . . . . . . . . . . . . . . . . . . . 1.2<br />
fordelingsfunktion<br />
egenskaber ved . . . . . . . . . . . . . . . . . 2.10<br />
empirisk . . . . . . . . . . . . . . . . . . . . . . 1.12<br />
stokastisk variabel . . . . . . . . . . . . . . . 2.10<br />
stokastisk vektor . . . . . . . . . . . . . . . . 2.19<br />
foreningsmængde . . . . . . . . . . . . . . . . . . A.2<br />
endelig . . . . . . . . . . . . . . . . . . . . . . . . A.2<br />
tællelig . . . . . . . . . . . . . . . . . . . . . . . . A.2<br />
forkastelsesomr˚ ade . . . . . . . . . . . . . . . . . 5.6<br />
forklarende variabel<br />
lineær regression . . . . . . . . . . . . . . . . 4.78<br />
forsøgsplanlægning . . . . . . . . . . . . . . . . 5.22<br />
fraktildiagram<br />
Excel . . . . . . . . . . . . . . . . . . . . . . . . 4.10<br />
grupperede data . . . . . . . . . . . . . . . . . . 4.7<br />
simuleret . . . . . . . . . . . . . . . . . . . . . . B.1<br />
ugrupperede data . . . . . . . . . . . . . . . . . 4.3<br />
vurdering af . . . . . . . . . . . . . . . . . . . . 4.5<br />
frie parametre . . . . . . . . . . . . . . . . . . . . 5.21<br />
funktion<br />
fordeling . . . . . . . . . . . . . . . . . . . . . . 5.2<br />
likelihood . . . . . . . . . . . . . . . . . . . . . . 5.6<br />
log likelihood . . . . . . . . . . . . . . . . . . . 5.9<br />
log likelihood, normeret . . . . . . . . . . . 5.18<br />
model . . . . . . . . . . . . . . . . . . . . . 5.3, 5.7<br />
styrke . . . . . . . . . . . . . . . . . . . . . . . . 5.14<br />
tæthed . . . . . . . . . . . . . . . . . . . . . . . . 5.2<br />
fællesmængde . . . . . . . . . . . . . . . . . . . . A.2<br />
endelig . . . . . . . . . . . . . . . . . . . . . . . . A.2<br />
tællelig . . . . . . . . . . . . . . . . . . . . . . . . A.2<br />
følge af modeller<br />
notation . . . . . . . . . . . . . . . . . . . . . . 4.69<br />
G<br />
gamma fordeling . . . . . . . . . . . . . . . . . . . 3.5<br />
gamma funktion . . . . . . . . . . . . . . . . . . . 3.5<br />
goodness of fit<br />
−2lnQ-testet . . . . . . . . . . . . . . . . . . 6.25<br />
−2lnQ-testet, testsandsynlighed . . . . . . 6.25<br />
eksempel . . . . . . . . . . . . . . . . . . 6.26, 7.9<br />
Poissonmodel . . . . . . . . . . . . . . . . . . . 7.7<br />
test . . . . . . . . . . . . . . . . . . . . . . . . . 6.24<br />
X 2 -testet . . . . . . . . . . . . . . . . . . . . . . 6.25<br />
X 2 -testet, testsandsynlighed . . . . . . . . . 6.25<br />
grafisk<br />
undersøgelse . . . . . . . . . . . . . . . . . 1.2, 5.4<br />
grupperede data<br />
empiriske størrelser . . . . . . . . . . . . . . 1.18<br />
ugrupperet version af . . . . . . . . . . . . . 1.19
I.6 Indeks<br />
græsk alfabet . . . . . . . . . . . . . . . . . . . . . D.1<br />
H<br />
histogram . . . . . . . . . . . . . . . . . . . . . . . 1.5<br />
homogenitet<br />
tosidet variansanalyse . . . . . . . . . . . . 4.113<br />
homogenitet af flere multinomialfordelinger 6.15<br />
−2lnQ-testet, testsandsynlighed . . . . . . 6.16<br />
beregningsformel for −2lnQ-testet . . . . 6.16<br />
eksempel . . . . . . . . . . . . . . . . . . . . . 6.20<br />
fordelingsresultat . . . . . . . . . . . . . . . . 6.17<br />
maksimum likelihood estimat . . . . . . . . 6.16<br />
hovedpunkter<br />
én observationsrække med kendt varians . 4.20<br />
én observationsrække med ukendt varians 4.30<br />
ikke-parametriske test . . . . . . . . . . . . . 8.18<br />
k observationsrækker . . . . . . . . . . . . . 4.73<br />
lineær regression . . . . . . . . . . . . . . . 4.106<br />
multinomialmodel . . . . . . . . . . . . . . . 6.31<br />
Poissonfordelte data . . . . . . . . . . . . . . 7.33<br />
to observationsrækker . . . . . . . . . . . . . 4.55<br />
tosidet variansanalyse . . . . . . . . . . . . 4.137<br />
hypergeometrisk fordeling . . . . . . . . . . . 6.22<br />
beregning af punktsandsynligheder . . . . 3.18<br />
definition . . . . . . . . . . . . . . . . . . . . . 3.17<br />
Excel . . . . . . . . . . . . . . . . . . . . . . . . 3.19<br />
middelværdi og varians . . . . . . . . . . . . 3.18<br />
hypotese<br />
kritisk observation . . . . . . . . . . . . . . . 5.11<br />
multinomialmodel . . . . . . . . . . . . . . . . 6.6<br />
punkt . . . . . . . . . . . . . . . . . . . . . . . . . 5.6<br />
sammensat . . . . . . . . . . . . . . . . . . . . . 5.6<br />
simpel . . . . . . . . . . . . . . . . . . . . . . . . 5.6<br />
test af . . . . . . . . . . . . . . . . . . . . . . . . . 5.6<br />
hyppighed<br />
relativ . . . . . . . . . . . . . . . . . . . . . . . . 1.7<br />
hældning<br />
lineær regression . . . . . . . . . . . . . . . . 4.78<br />
hændelser . . . . . . . . . . . . . . . . . . . . . . . 2.2<br />
hændelsessystem . . . . . . . . . . . . . . . . 1.1, 5.2<br />
højreskæv . . . . . . . . . . . . . . . . . . . . . . 1.16<br />
inferens<br />
I<br />
likelihood . . . . . . . . . . . . . . . . . . . . . . 5.7<br />
statistisk . . . . . . . . . . . . . . . . . . . . . . . 5.5<br />
information<br />
Fisher . . . . . . . . . . . . . . . . . . . . . . . 5.18<br />
forventet . . . . . . . . . . . . . . . . . . . . . . 5.18<br />
observeret . . . . . . . . . . . . . . . . . . . . . 5.18<br />
intervalestimat . . . . . . . . . . . . . . . . . . . 5.16<br />
K<br />
k observationsrækker . . . . . . . . . . . . . . . 4.59<br />
estimation . . . . . . . . . . . . . . . . . . . . . 4.63<br />
notation . . . . . . . . . . . . . . . . . . . . . . 4.32<br />
statistisk model . . . . . . . . . . . . . . . . . 4.32<br />
kassediagram . . . . . . . . . . . . . . . . . . . . 1.16<br />
kategori . . . . . . . . . . . . . . . . . . . . . . . . 1.23<br />
numerisk . . . . . . . . . . . . . . . . . . . . . 1.23<br />
komplementærmængde . . . . . . . . . . . . . . A.1<br />
konfidens<br />
interval . . . . . . . . . . . . . . . . . . . . . . . 5.16<br />
omr˚ ade . . . . . . . . . . . . . . . . . . . . . . . 5.16<br />
konfidensinterval<br />
binomialmodel . . . . . . . . . . . . . . . . . . 6.9<br />
for afskæringen i lineær regression . . . 4.107<br />
for forskel mellem to middelværdier; ens va-<br />
rianser . . . . . . . . . . . . . . . . . . . . . . . . 4.56<br />
for forskel mellem to middelværdier; forskel-<br />
lige varianser . . . . . . . . . . . . . . . . . . . 4.57<br />
for hældningen i lineær regression . . . . 4.107<br />
for middelværdien; kendt varians . . . . . 4.16<br />
for middelværdien; ukendt varians . . . . . 4.23<br />
for regressionslinjen . . . . . . . . . . . . . 4.107<br />
for spredningen i en normalfordeling . . . 4.26<br />
for variansen i en normalfordeling . . . . . 4.26
Indeks I.7<br />
for variansen i lineær regression . . . . . 4.107<br />
multinomialmodel . . . . . . . . . . . . . . . . 6.9<br />
Poissonmodel . . . . . . . . . . . . . . . . . . 7.10<br />
middelværdien λ baseret p˚ a én Poissonfor-<br />
delt variabel . . . . . . . . . . . . . . . . . . 7.11<br />
middelværdien λ i én Poissonfordelt obser-<br />
vationsrække . . . . . . . . . . . . . . . . . 7.11<br />
parameteren i modellen med proportionale<br />
parametre . . . . . . . . . . . . . . . . . . . 7.13<br />
kontinuert stokastisk variabel . . . . . . . . . . 2.16<br />
kontinuert stokastisk vektor . . . . . . . . 2.20, 5.2<br />
kontrast . . . . . . . . . . . . . . . . . . . . . . . 4.126<br />
korrelation . . . . . . . . . . . . . . . . . . . . . . 2.28<br />
empirisk . . . . . . . . . . . . . . . . . . . . . . 1.28<br />
kovarians . . . . . . . . . . . . . . . . . . . . . . . 2.28<br />
regneregler . . . . . . . . . . . . . . . . . . . . 2.28<br />
kumulerede antal . . . . . . . . . . . . . . . . . . 1.18<br />
kvartil<br />
afstand, empirisk . . . . . . . . . . . . . . . . 1.15<br />
nedre . . . . . . . . . . . . . . . . . . . . . . . . 2.11<br />
nedre, empirisk . . . . . . . . . . . . . . . . . 1.12<br />
øvre, empirisk . . . . . . . . . . . . . . . . . . 1.12<br />
øvre . . . . . . . . . . . . . . . . . . . . . . . . . 2.11<br />
kvotientrække<br />
endelig . . . . . . . . . . . . . . . . . . . . . . . . A.4<br />
uendelig . . . . . . . . . . . . . . . . . . . . . . . A.4<br />
L<br />
likelihood . . . . . . . . . . . . . . . . . . . . . . . 5.1<br />
approksimativ teori . . . . . . . . . . . . . . . 5.17<br />
estimat, maksimum . . . . . . . . . . . . . . . . 5.9<br />
estimation, maksimum . . . . . . . . . . . . . 5.9<br />
estimator, maksimum . . . . . . . . . . . . . . 5.9<br />
funktion . . . . . . . . . . . . . . . . . . . . . . . 5.6<br />
inferens . . . . . . . . . . . . . . . . . . . . . . . 5.7<br />
ligninger . . . . . . . . . . . . . . . . . . . . . . . 5.9<br />
maksimum, estimator . . . . . . . . . . . . . . 5.6<br />
ratio test . . . . . . . . . . . . . . . . . . . . . . 5.11<br />
ratio test, approksimativ testsandsynlighed 5.20<br />
ratio testor, approksimativ fordeling . . . . 5.21<br />
lineær regression<br />
estimaternes fordeling . . . . . . . . . . . . 4.106<br />
hypoteser om regressionsparametrene . . .<br />
. . . . . . . . . . . . . . . . . . . . . . . . 4.90, 4.107<br />
konfidensintervaller for parametrene . . 4.106<br />
med gentagelser . . . . . . . . . . . . . . . . . 4.83<br />
modelkontrol . . . . . . . . . . . . . . . . . . 4.106<br />
test af hypotesen om lineær regression . . .<br />
. . . . . . . . . . . . . . . . . . . . . . . . 4.86, 4.106<br />
uden gentagelser . . . . . . . . . . . . . . . . 4.78<br />
log likelihood<br />
funktion . . . . . . . . . . . . . . . . . . . . . . . 5.9<br />
funktion, normeret . . . . . . . . . . . . . . . 5.18<br />
logaritmisk række . . . . . . . . . . . . . . . . . . A.4<br />
loven om total sandsynlighed . . . . . . . . . . . 2.7<br />
M<br />
maksimum likelihood<br />
estimat . . . . . . . . . . . . . . . . . . . . . . . . 5.9<br />
estimation . . . . . . . . . . . . . . . . . . . . . . 5.9<br />
estimator . . . . . . . . . . . . . . . . . . . 5.6, 5.9<br />
marginal fordeling . . . . . . . . . . . . . . . . . 2.22<br />
median . . . . . . . . . . . . . . . . . . . . . . . . 2.11<br />
empirisk . . . . . . . . . . . . . . . . . . . . . . 1.12<br />
middelværdi<br />
af funktion af diskret stokastisk vektor . . 2.26<br />
af funktion af kontinuert stokastisk vektor 2.27<br />
af gennemsnit . . . . . . . . . . . . . . . . . . 2.29<br />
diskret stokastisk variabel . . . . . . . . . . 2.26<br />
empirisk . . . . . . . . . . . . . . . . . . . . . . 1.16<br />
kontinuert stokastisk variabel . . . . . . . . 2.26<br />
regneregler . . . . . . . . . . . . . . . . . . . . 2.27<br />
middelværdivektor . . . . . . . . . . . . . . . . 2.26<br />
mindste kvadraters metode . . . . . . . . . . . 4.78<br />
model<br />
funktion . . . . . . . . . . . . . . . . . . . . 5.3, 5.7
I.8 Indeks<br />
inferens . . . . . . . . . . . . . . . . . . . . . . . 5.1<br />
kontrol . . . . . . . . . . . . . . . . . . . . . 5.1, 5.4<br />
opstilling . . . . . . . . . . . . . . . . 1.1, 5.1, 5.2<br />
parametrisk . . . . . . . . . . . . . . . . . . . . . 5.3<br />
sandsynlighedsteoretisk . . . . . . . . . . 1.1, 5.2<br />
statistisk . . . . . . . . . . . . . . . . . . . . . . . 5.2<br />
multinomialfordeling<br />
betingelser for . . . . . . . . . . . . . . . . . . . 6.1<br />
definition . . . . . . . . . . . . . . . . . . . . . 3.15<br />
egenskaber ved . . . . . . . . . . . . . . . . . . 6.4<br />
marginale fordelinger . . . . . . . . . . . . . 3.15<br />
middelværdivektor og kovariansmatriks . 3.15<br />
multinomialmodel<br />
−2lnQ-testor . . . . . . . . . . . . . . . . . . . 6.8<br />
−2lnQ-testor, testsandsynlighed . . . . . . . 6.8<br />
X 2 -testoren . . . . . . . . . . . . . . . . . . . . . 6.9<br />
X 2 -testoren, testsandsynlighed . . . . . . . . 6.9<br />
estimation . . . . . . . . . . . . . . . . . . . . . . 6.6<br />
estimation under hypotese . . . . . . . . . . . 6.7<br />
flere multinomialfordelinger . . . . . . . . . 6.15<br />
forventede antal under hypotese . . . . . . . 6.8<br />
frie parametre . . . . . . . . . . . . . . . . . . . 6.6<br />
homogenitet af flere multinomialfordelinger<br />
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.15<br />
hovedpunkter . . . . . . . . . . . . . . . . . . 6.31<br />
hypotese . . . . . . . . . . . . . . . . . . . . . . . 6.6<br />
hypotese, frie parametre . . . . . . . . . . . . 6.6<br />
konfidensinterval . . . . . . . . . . . . . . . . . 6.9<br />
statistisk inferens . . . . . . . . . . . . . . . . . 6.5<br />
test af simpel hypotese, eksempel . . . . . 6.10<br />
uafhængighed af inddelingskriterier . . . . 6.11<br />
mængdedifferens . . . . . . . . . . . . . . . . . . . A.2<br />
mængdelære . . . . . . . . . . . . . . . . . . . 2.1, A.1<br />
m˚ ale . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2<br />
m˚ alelig mængde . . . . . . . . . . . . . . . . . . . 2.2<br />
N<br />
negativ binomialfordeling<br />
beregning af punktsandsynligheder . . . . 3.19<br />
definition . . . . . . . . . . . . . . . . . . . . . 3.19<br />
Excel . . . . . . . . . . . . . . . . . . . . . . . . 3.20<br />
middelværdi og varians . . . . . . . . . . . . 3.20<br />
normalfordeling . . . . . . . . . . . . . . . . 1.7, 4.1<br />
definition . . . . . . . . . . . . . . . . . . . . . . 3.1<br />
Excel . . . . . . . . . . . . . . . . . . . . . . . . . 3.4<br />
fordelingsresultater . . . . . . . . . . . . . . . . 3.3<br />
middelværdi og varians . . . . . . . . . . . . . 3.2<br />
standard . . . . . . . . . . . . . . . . . . . . . . . 3.1<br />
tabeller . . . . . . . . . . . . . . . . . . . . . . . . 3.3<br />
todimensional . . . . . . . . . . . . . . . . . . . 3.4<br />
normalfordelte data . . . . . . . . . . . . . . . . . 4.1<br />
notation<br />
følge af modeller . . . . . . . . . . . . . . . . 4.69<br />
numerisk<br />
undersøgelse . . . . . . . . . . . . . . . . . . . . 5.4<br />
O<br />
observation<br />
kritisk . . . . . . . . . . . . . . . . . . . . . . . 5.11<br />
observationer<br />
sammenfaldende . . . . . . . . . . . . . . . . . 8.5<br />
observationsrække . . . . . . . . . . . . . . . 1.2, 5.9<br />
én; normalfordeling . . . . . . . . . . . . . . . 4.1<br />
én; Poissonfordelingen . . . . . . . . . . . . . 7.7<br />
én; todimensional normalfordeling . . . . 4.94<br />
omr˚ ade . . . . . . . . . . . . . . . . . . . . . . . . . 5.3<br />
accept . . . . . . . . . . . . . . . . . . . . . . . . 5.6<br />
kritisk . . . . . . . . . . . . . . . . . . . . . . . . 5.6<br />
omvendt betinget sandsynlighed . . . . . . . . . 2.7<br />
opgaver . . . . . . . . . . . . . . . . . . . . . . . . .<br />
. . . 1.41, 2.32, 3.22, 4.142, 5.23, 6.35, 7.39, 8.21<br />
ordnede stikprøve . . . . . . . . . . . . . . . . . 1.11<br />
ordnede værdier . . . . . . . . . . . . . . . 1.11, 8.4
Indeks I.9<br />
P<br />
p-fraktil . . . . . . . . . . . . . . . . . . . . . . . 2.10<br />
empirisk fordeling . . . . . . . . . . . . . . . 1.12<br />
p-værdi . . . . . . . . . . . . . . . . . . . . . . . . 5.12<br />
parameter . . . . . . . . . . . . . . . . . . . . . . . 5.3<br />
fri . . . . . . . . . . . . . . . . . . . . . . . . . . 5.21<br />
mængde . . . . . . . . . . . . . . . . . . . . . . . 5.3<br />
rum . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3<br />
parrede t-test . . . . . . . . . . . . . . . . . . . . 4.46<br />
partiel differentiation . . . . . . . . . . . . . . . . A.5<br />
pindediagram . . . . . . . . . . . . . . . . . . . . . 1.5<br />
Poisson processen . . . . . . . . . . . . . . . 7.1, 7.5<br />
intensitet . . . . . . . . . . . . . . . . . . . . . . 7.6<br />
Poissonfordeling<br />
approksimeret med normalfordeling . . . . 7.5<br />
beregning af punktsandsynligheder . . . . 3.16<br />
definition . . . . . . . . . . . . . . . . . . . . . 3.16<br />
egenskaber ved . . . . . . . . . . . . . . . . . . 7.3<br />
Excel . . . . . . . . . . . . . . . . . . . . . . . . 3.16<br />
grænsefordeling for binomialfordeling . . . 7.5<br />
middelværdi og varians . . . . . . . . . . . . 3.16<br />
relation til multinomialfordeling ved beting-<br />
ning . . . . . . . . . . . . . . . . . . . . . . . . . 7.5<br />
Poissonmodel<br />
én observationsrække, −2lnQ-test . . . . 7.14<br />
én observationsrække, estimation . . . . . . 7.7<br />
én observationsrække, Fishers dispersionsin-<br />
deks . . . . . . . . . . . . . . . . . . . . . . . . . 7.7<br />
én observationsrække, modelkontrol . . . . 7.7<br />
én observationsrække, test for goodness of fit 7.7<br />
én observationsrække, X 2 -test . . . . . . . . 7.14<br />
konfidensinterval . . . . . . . . . . . . . . . . 7.10<br />
konfidensinterval for middelværdien λ i Po-<br />
issonfordeling . . . . . . . . . . . . . . . . . . . 7.11<br />
konfidensinterval for middelværdien λ i Po-<br />
issonfordelt observationsrække . . . . . . . 7.11<br />
konfidensinterval for parameteren i Poisson-<br />
modellen med proportionale parametre . . 7.13<br />
multiplikativ . . . . . . . . . . . . . . . . . . . 7.18<br />
multiplikativ, estimation . . . . . . . . . . . 7.21<br />
multiplikativ, homogenitet . . . . . . . . . . 7.19<br />
multiplikativ, ingen vekselvirkning . . . . 7.19<br />
multiplikativ, kun rækkevirkning . . . . . . 7.19<br />
multiplikativ, kun søjlevirkning . . . . . . . 7.19<br />
multiplikativ, parametrisering . . . . . . . . 7.20<br />
multiplikativ, relation til multinomialmodel 7.25<br />
multiplikativ, test af hypoteser . . . . . . . 7.23<br />
proportionale parametre . . . . . . . . . . . . 7.12<br />
proportionale parametre, −2lnQ-test . . . 7.13<br />
proportionale parametre, −2lnQ-test, test-<br />
sandsynlighed . . . . . . . . . . . . . . . . . . . 7.13<br />
proportionale parametre, estimation . . . . 7.13<br />
proportionale parametre, fordeling af estima-<br />
tor . . . . . . . . . . . . . . . . . . . . . . . . . . 7.13<br />
proportionale parametre, relation til multino-<br />
mial model . . . . . . . . . . . . . . . . . . . . . 7.15<br />
proportionale parametre, X 2 -test . . . . . . 7.13<br />
proportionale parametre, X 2 -test, testsand-<br />
synlighed . . . . . . . . . . . . . . . . . . . . . . 7.13<br />
position<br />
lineær regression . . . . . . . . . . . . . . . . 4.78<br />
prikdiagram . . . . . . . . . . . . . . . . . . . . . . 1.4<br />
probit . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5<br />
profildiagram . . . . . . . . . . . . . . . . . . . 4.117<br />
programpakker . . . . . . . . . . . . . . . . . . . . 1.7<br />
rang<br />
R<br />
af observationer . . . . . . . . . . . . . . 1.11, 8.4<br />
rangtest . . . . . . . . . . . . . . . . . . . . . . . . . 8.4<br />
reduktion<br />
statistisk model . . . . . . . . . . . . . . . . . . 5.6<br />
regneregler<br />
betinget sandsynlighed . . . . . . . . . . . . . 2.7<br />
middelværdi . . . . . . . . . . . . . . . . . . . 2.27<br />
sandsynligheder . . . . . . . . . . . . . . . . . . 2.3
I.10 Indeks<br />
uendelige rækker . . . . . . . . . . . . . . . . . A.4<br />
varians og kovarians . . . . . . . . . . . . . . 2.28<br />
regressionskoefficient<br />
lineær regression . . . . . . . . . . . . . . . . 4.78<br />
regressionslinje<br />
lineær regression . . . . . . . . . . . . . . . . 4.78<br />
relativ hyppighed . . . . . . . . . . . 1.7, 6.6, 6.12<br />
residual<br />
kvadratsum . . . . . . . . . . . . . . . . . . . . 4.79<br />
tosidet variansanalyse . . . . . . . . . . . . 4.117<br />
respons<br />
lineær regression . . . . . . . . . . . . . . . . 4.78<br />
rækkevirkning . . . . . . . . . . . . . . . . . . 4.113<br />
S<br />
s 2<br />
s 2 (i)<br />
SAK<br />
S<br />
sum af observationer . . . . . . . . . . . 1.17, 7.8<br />
beregningsformel . . . . . . . . . . . . . . . . . 7.8<br />
k observationsrækker . . . . . . . . . . . . . 4.32<br />
sum af afvigelsernes kvadrater . . . . . . . 1.17<br />
SAK (i)<br />
k observationsrækker . . . . . . . . . . . . . 4.32<br />
sammenfaldende observationer . . . . . . . . . 8.5<br />
sandsynlighed<br />
test . . . . . . . . . . . . . . . . . . . . . . . . . 5.12<br />
sandsynlighedsfunktion<br />
diskret stokastisk variabel . . . . . . . . . . 2.12<br />
diskret stokastisk variabel, egenskaber ved 2.14<br />
diskret stokastisk vektor . . . . . . . . . . . 2.19<br />
marginal fordeling . . . . . . . . . . . . . . . 2.22<br />
sandsynlighedsm˚ al . . . . . . . . . . . . . . 1.1, 5.2<br />
sandsynlighedsm˚ al . . . . . . . . . . . . . . . . . 2.1<br />
sandsynlighedspapir . . . . . . . . . . . . . . . . 4.5<br />
sandsynlighedsrum . . . . . . . . . . . . . . . . . 2.2<br />
sandsynlighedsteori . . . . . . . . . . . . . . 1.1, 5.2<br />
SAP<br />
sum af afvigelsernes produkter . . . . . . . 1.28<br />
signifikansniveau . . . . . . . . . . . . . 5.12, 5.14<br />
observeret . . . . . . . . . . . . . . . . . . . . . 5.12<br />
simultan fordeling . . . . . . . . . . . . . . . . . 2.22<br />
SK<br />
SP<br />
sum af kvadrater . . . . . . . . . . . . . 1.17, 7.8<br />
sum af produkter . . . . . . . . . . . . . . . . 1.28<br />
spredning . . . . . . . . . . . . . . . . . . . . . . . 2.27<br />
empirisk . . . . . . . . . . . . . . . . . . . . . . 1.16<br />
standardafvigelse . . . . . . . . . . . . . . . . . 2.27<br />
statistik<br />
beskrivende . . . . . . . . . . . . . . . . . . . . . 1.2<br />
deskriptiv . . . . . . . . . . . . . . . . . . . . . . 1.2<br />
ikke-parametrisk . . . . . . . . . . . . . . . . 5.22<br />
inferens . . . . . . . . . . . . . . . . . . . . . . . 5.5<br />
parametrisk model . . . . . . . . . . . . . . . . 5.3<br />
statistikkens slutningsregel . . . . . . . . . . . 4.17<br />
statistisk<br />
analyse . . . . . . . . . . . . . . . . . . 1.1, 5.1, 5.2<br />
approksimativ metode . . . . . . . . . . . . . . 5.1<br />
metode . . . . . . . . . . . . . . . . . . . . . . . . 5.1<br />
stikprøve . . . . . . . . . . . . . . . . . . . . . . . . 1.2<br />
ordnet . . . . . . . . . . . . . . . . . . . . . . . 1.11<br />
størrelse . . . . . . . . . . . . . . . . . . . . . . . 1.2<br />
stokastisk<br />
variation . . . . . . . . . . . . . . . . . . . . 1.1, 5.2<br />
vektor, multinomialfordelt . . . . . . . . . . . 6.1<br />
stokastisk variabel . . . . . . . . . . . . . . . . . 2.10<br />
diskret . . . . . . . . . . . . . . . . . . . . . . . 2.12<br />
kontinuert . . . . . . . . . . . . . . . . . . . . . 2.16<br />
stokastisk vektor . . . . . . . . . . . . . . . . . . 2.19<br />
diskret . . . . . . . . . . . . . . . . . . . . 2.19, 5.2<br />
kontinuert . . . . . . . . . . . . . . . . . . 2.20, 5.2<br />
styrkefunktion . . . . . . . . . . . . . . . . . . . 5.14<br />
støtte<br />
diskret stokastisk variabel . . . . . . . . . . 2.14
Indeks I.11<br />
diskret stokastisk vektor . . . . . . . . . . . 2.19<br />
kontinuert stokastisk variabel . . . . . . . . 2.16<br />
stokastisk vektor . . . . . . . . . . . . . . . . 2.20<br />
søjlediagram . . . . . . . . . . . . . . . . . . . . . 1.5<br />
søjlevirkning . . . . . . . . . . . . . . . . . . . 4.113<br />
t-fordeling<br />
T<br />
definition . . . . . . . . . . . . . . . . . . . . . . 3.8<br />
Excel . . . . . . . . . . . . . . . . . . . . . . . . 3.10<br />
fordelingsresultater . . . . . . . . . . . . . . . . 3.8<br />
tabel . . . . . . . . . . . . . . . . . . . . . . . . . 3.8<br />
t-test<br />
parrede . . . . . . . . . . . . . . . . . . 4.46, 4.133<br />
t-test for kendt middelværdi . . . . . . . . . . 4.22<br />
Excel . . . . . . . . . . . . . . . . . . . . . . . . 4.28<br />
tabel<br />
χ 2 -fordeling . . . . . . . . . . . . . . . . . . . . 3.7<br />
F-fordeling . . . . . . . . . . . . . . . . . . . . 3.12<br />
normalfordeling . . . . . . . . . . . . . . . . . . 3.3<br />
t-fordeling . . . . . . . . . . . . . . . . . . . . . 3.8<br />
u-fordeling . . . . . . . . . . . . . . . . . . . . . 3.3<br />
tabelform<br />
data . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1<br />
Taylor<br />
teori<br />
test<br />
polynomium . . . . . . . . . . . . . . . . . . . 5.18<br />
udvikling . . . . . . . . . . . . . . . . . . . . . 5.18<br />
estimation . . . . . . . . . . . . . . . . . . . . . . 5.5<br />
likelihood, approksimativ . . . . . . . . . . 5.17<br />
test . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5<br />
test, generel . . . . . . . . . . . . . . . . . . . . 5.14<br />
af hypoteser om regressionsparametrene . .<br />
. . . . . . . . . . . . . . . . . . . . . . . . 4.90, 4.107<br />
Bartlett . . . . . . . . . . . . . . . . . . . . . . . 4.61<br />
dobbeltsidet . . . . . . . . . . . . . . . . . . 4.143<br />
ensidet . . . . . . . . . . . . . . . . . . . . . . 4.143<br />
F-test for hypotesen om lineær regression .<br />
. . . . . . . . . . . . . . . . . . . . . . . . 4.86, 4.106<br />
F-test for identitet af middelværdier . . . 4.64<br />
F-test for identitet af to varianser . 4.37, 4.55<br />
for kendt varians . . . . . . . . . . . . 4.24, 4.28<br />
goodness of fit . . . . . . . . . . . . . . . . . . 6.24<br />
ikke-parametrisk . . . . . . . . . . . . . . . . . 8.2<br />
fortegnstest . . . . . . . . . . . . . . . . . . . 8.3<br />
Kruskal-Wallis’s for flere observationsræk-<br />
ker . . . . . . . . . . . . . . . . . . . . . . . . 8.11<br />
Wilcoxons for én observationsrække . . . 8.5<br />
Wilcoxons for to observationsrækker . . 8.8<br />
likelihood ratio . . . . . . . . . . . . . . 5.6, 5.11<br />
p-værdi . . . . . . . . . . . . . . . . . . . . . . 5.12<br />
p˚ a niveau α . . . . . . . . . . . . . . . . . . . . 5.14<br />
signifikansniveau . . . . . . . . . . . . 5.12, 5.14<br />
størrelse . . . . . . . . . . . . . . . . . . . . . . . 5.6<br />
styrkefunktion . . . . . . . . . . . . . . . . . . 5.14<br />
t 2 = F . . . . . . . . . . . . . . . . . . . . . . . 4.68<br />
t-test for kendt middelværdi . . . . . . . . . 4.23<br />
t-test for uafhængighed i N2 . . . . . . . . . 4.97<br />
teori . . . . . . . . . . . . . . . . . . . . . . . 5.1, 5.5<br />
teori, generel . . . . . . . . . . . . . . . . . . . 5.14<br />
u-test for kendt middelværdi . . . . . . . . . 4.15<br />
testor . . . . . . . . . . . . . . . . . . . . . . . . . . 5.6<br />
testsandsynlighed . . . . . . . . . . . . . . . . . 5.12<br />
approksimativ, likelihood ratio test . . . . 5.20<br />
teststørrelse . . . . . . . . . . . . . . . . . . . . . . 5.6<br />
likelihood ratio . . . . . . . . . . . . . . . . . 5.11<br />
tilfældigt tal . . . . . . . . . . . . . . . . . . . . . . 2.5<br />
to observationsrækker . . . . . . . . . . . . . . 4.34<br />
skøn over fælles varians . . . . . . . . . . . . 4.38<br />
test af ens middelværdier; varianser ens . .<br />
. . . . . . . . . . . . . . . . . . . . . . . . . 4.39, 4.56<br />
test af ens middelværdier; varianser forskelli-<br />
ge . . . . . . . . . . . . . . . . . . . . . . . 4.44, 4.57<br />
test af ens varianser . . . . . . . . . . . . . . 4.55
I.12 Indeks<br />
todimensional normalfordeling<br />
definition . . . . . . . . . . . . . . . . . . . . . . 3.4<br />
én observationsrække fra . . . . . . . . . . . 4.94<br />
estimation . . . . . . . . . . . . . . . . . . . . . 4.96<br />
korrelation . . . . . . . . . . . . . . . . . . . . . 3.5<br />
marginale og betingede fordelinger . . . . . 3.5<br />
middelværdivektor og kovariansmatriks . . 3.5<br />
modelkontrol . . . . . . . . . . . . . . . . . . . 4.95<br />
test af hypotesen om uafhængighed . . . . 4.97<br />
tomme mængde . . . . . . . . . . . . . . . . . . . A.2<br />
tosidet variansanalyse . . . . . . . . . . . . . 4.111<br />
additivitet . . . . . . . . . . . . . . . . . . . . 4.113<br />
estimation . . . . . . . . . . . . . . . . . . . . 4.114<br />
estimation af rækkevirkningsforskel i additi-<br />
vitesmodellen . . . . . . . . . . . . . . . . . . 4.126<br />
estimation af søjlevirkningsforskel i additivi-<br />
tesmodellen . . . . . . . . . . . . . . . . . . . 4.126<br />
homogenitet . . . . . . . . . . . . . . . . . . 4.113<br />
hypotesen om additivitet . . . . . . . . . . 4.114<br />
hypotesen om ingen rækkevirkning . . . 4.114<br />
hypotesen om ingen søjlevirkning . . . . 4.114<br />
konfidensintervaller i additivitetsmodellen 4.125<br />
kontrast . . . . . . . . . . . . . . . . . . . . . 4.126<br />
kun rækkevirkning . . . . . . . . . . . . . . 4.113<br />
kun søjlevirkning . . . . . . . . . . . . . . . 4.113<br />
med gentagelser . . . . . . . . . . . . . . . . 4.114<br />
med gentagelser, variansanalysetabel . . 4.124<br />
modelkontrol . . . . . . . . . . . . . . . . . . 4.115<br />
profildiagram . . . . . . . . . . . . . . . . . 4.117<br />
relation til det parrede t-test . . . . . . . . 4.133<br />
residualer . . . . . . . . . . . . . . . . . . . . 4.117<br />
test i additivitetsmodellen . . . . . . . . . 4.120<br />
test i modellen for kun rækkevirkning . 4.122<br />
test i modellen for kun søjlevirkning . . 4.123<br />
uden gentagelser . . . . . . . . . . . . . . . 4.114<br />
uden gentagelser, variansanalysetabel . . 4.125<br />
transformation . . . . . . . . . . . . . . . . . . . . 4.8<br />
tælle . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2<br />
tæthedsfunktion . . . . . . . . . . . . . . . . . . . 5.2<br />
kontinuert stokastisk variabel . . . . . . . . 2.16<br />
kontinuert stokastisk variabel, egenskaber<br />
ved . . . . . . . . . . . . . . . . . . . . . . . . . . 2.16<br />
kontinuert stokastisk vektor . . . . . . . . . 2.20<br />
marginal fordeling . . . . . . . . . . . . . . . 2.22<br />
U<br />
u-fordeling . . . . . . . . . . . . . . . . . . . . . . . 3.1<br />
tabel . . . . . . . . . . . . . . . . . . . . . . . . . 3.3<br />
u-test for kendt middelværdi . . . . . . . . . . 4.15<br />
Excel . . . . . . . . . . . . . . . . . . . . . . . . 4.19<br />
uafhængig variabel<br />
lineær regression . . . . . . . . . . . . . . . . 4.78<br />
uafhængighed<br />
flere hændelser . . . . . . . . . . . . . . . . . . 2.6<br />
stokastiske variable . . . . . . . . . . . . . . . 2.24<br />
stokastiske variable, betingelser for . . . . 2.24<br />
to hændelser . . . . . . . . . . . . . . . . . . . . 2.6<br />
uafhængighed af inddelingskriterier . . . . . 6.11<br />
−2lnQ-testet, testsandsynlighed . . . . . . 6.13<br />
beregningsformel for −2lnQ-testet . . . . 6.12<br />
eksempel . . . . . . . . . . . . . . . . . . . . . 6.13<br />
fordelingsresultat . . . . . . . . . . . . . . . . 6.13<br />
forventede antal . . . . . . . . . . . . . . . . . 6.12<br />
hypotese . . . . . . . . . . . . . . . . . . . . . . 6.11<br />
maksimum likelihood estimater . . . . . . 6.12<br />
udfald . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2<br />
udfaldsrum . . . . . . . . . . . . . . . . . 1.1, 2.1, 5.2<br />
uendelig række . . . . . . . . . . . . . . 2.1, 2.2, A.3<br />
absolut konvergent . . . . . . . . . . . . . . . . A.3<br />
afsnitssum . . . . . . . . . . . . . . . . . . . . . A.3<br />
divergent . . . . . . . . . . . . . . . . . . . . . . A.3<br />
eksempler . . . . . . . . . . . . . . . . . . . . . . A.4<br />
konvergent . . . . . . . . . . . . . . . . . . . . . A.3<br />
led . . . . . . . . . . . . . . . . . . . . . . . . . . . A.3<br />
regneregler . . . . . . . . . . . . . . . . . . . . . A.4
Indeks I.13<br />
undersøgelse<br />
grafisk . . . . . . . . . . . . . . . . . . . . . . . . 5.4<br />
numerisk . . . . . . . . . . . . . . . . . . . . . . 5.4<br />
uniform fordeling . . . . . . . . . . . . . . . . . 2.12<br />
tæthedsfunktion . . . . . . . . . . . . . . . . . 2.18<br />
uniforme sandsynlighedsm˚ al<br />
p˚ a endelig mængde . . . . . . . . . . . . . . . . 2.4<br />
p˚ a interval . . . . . . . . . . . . . . . . . . . . . . 2.5<br />
V<br />
varians . . . . . . . . . . . . . . . . . . . . . . . . 2.27<br />
af gennemsnit . . . . . . . . . . . . . . . . . . 2.29<br />
empirisk . . . . . . . . . . . . . . . . . . . . . . 1.16<br />
regneregler . . . . . . . . . . . . . . . . . . . . 2.28<br />
variansanalyse . . . . . . . . . . . . . . . . . . . 4.67<br />
variansanalysetabel . . . . . . . . . . . . . . . . 4.67<br />
ensidet variansanalyse . . . . . . . . . . . . . 4.67<br />
tosidet variansanalyse med gentagelser . 4.124<br />
tosidet variansanalyse uden gentagelser 4.125<br />
venstreskæv . . . . . . . . . . . . . . . . . . . . . 1.16
I.14 Indeks