C:\mol\noter\Statistik\Statistiske grundbegreber-v11\s1v11-forside.wpd
C:\mol\noter\Statistik\Statistiske grundbegreber-v11\s1v11-forside.wpd
C:\mol\noter\Statistik\Statistiske grundbegreber-v11\s1v11-forside.wpd
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
5.2 Fordeling og spredning af gennemsnit<br />
Klyngeudvælgelse (Cluster sampling)<br />
Denne metode kan med fordel benyttes, hvis populationen består af eller kan inddeles i<br />
delmængder (klynger) . Metoden består i, at man ved randomisering vælger et mindre antal<br />
klynger, som så totaltælles.<br />
Eksempel: I et vareparti på 2000 emner fordelt på 200 kasser hver med 10 emner ønsker man en<br />
vurdering af fejlprocenten.<br />
Man udtager randomiseret 5 kasser, og undersøger alle emnerne i kasserne.<br />
5.2. FORDELING OG SPREDNING AF GENNEMSNIT<br />
Udtages en stikprøve fra en population er det jo for, at man ud fra stikprøven kan fortælle noget<br />
centralt om hele populationen.<br />
I eksempel 1.5 var vi således interesseret i koncentrationen af brintioner (pH) i ledvæsken i knæet<br />
hos patienter, der led af denne sygdom.<br />
Som led i en nordisk medicinsk undersøgelse udtog man blandt patienter der led af denne sygdom<br />
tilfældigt en stikprøve på 75.<br />
På basis heraf beregnede man gennemsnittet af pH værdierne til x = 7.2868 og spredningen<br />
s = 0.134355 .<br />
Man vil nu sige, at et estimat (skøn) for den “sande” middelværdi µ for hele populationen er 7.29<br />
og den “sande” spredning” σ er 0.134.<br />
Det er imidlertid klart, at disse tal er behæftet med en vis usikkerhed.<br />
Havde vi valgt 75 andre patienter havde vi uden tvivl fået lidt andre tal.<br />
Det er derfor ikke nok, at angive at den “sande” middelværdi er x , vi må også angive et<br />
“usikkerhedsinterval”.<br />
For at kunne beregne et sådant interval er det nødvendigt at kende fordelingen.<br />
Her spiller den tidligere nævnte centrale grænseværdisætning en vigtig rolle, idet den jo (løst<br />
sagt) siger, at selv om man ikke kender fordelingen af den kontinuerte stokastiske variabel, så vil<br />
gennemsnittet af værdierne i en stikprøve på n tal vil være tilnærmelsesvis normalfordelt, hvis<br />
blot n er tilstrækkelig stor ( i praksis over 30).<br />
Dette er af stor praktisk betydning, idet det så ikke er så vigtigt, om selve populationen er<br />
normalfordelt. Ofte er det jo kun af interesseret at kunne forudsige noget om hvor middelværdien<br />
af fordelingen er placeret.<br />
σ<br />
Endvidere fremgik det af sætning 3.1 , at spredningen på x er σ(<br />
x)<br />
= , hvor σ er<br />
n<br />
spredningen på den enkelte værdi i stikprøven.<br />
Heraf fremgår, at gennemsnittet kan man “stole” mere på end den enkelte måling, da den har en<br />
mindre spredning.<br />
39