28.07.2013 Views

C:\mol\noter\Statistik\Statistiske grundbegreber-v11\s1v11-forside.wpd

C:\mol\noter\Statistik\Statistiske grundbegreber-v11\s1v11-forside.wpd

C:\mol\noter\Statistik\Statistiske grundbegreber-v11\s1v11-forside.wpd

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

5.2 Fordeling og spredning af gennemsnit<br />

Klyngeudvælgelse (Cluster sampling)<br />

Denne metode kan med fordel benyttes, hvis populationen består af eller kan inddeles i<br />

delmængder (klynger) . Metoden består i, at man ved randomisering vælger et mindre antal<br />

klynger, som så totaltælles.<br />

Eksempel: I et vareparti på 2000 emner fordelt på 200 kasser hver med 10 emner ønsker man en<br />

vurdering af fejlprocenten.<br />

Man udtager randomiseret 5 kasser, og undersøger alle emnerne i kasserne.<br />

5.2. FORDELING OG SPREDNING AF GENNEMSNIT<br />

Udtages en stikprøve fra en population er det jo for, at man ud fra stikprøven kan fortælle noget<br />

centralt om hele populationen.<br />

I eksempel 1.5 var vi således interesseret i koncentrationen af brintioner (pH) i ledvæsken i knæet<br />

hos patienter, der led af denne sygdom.<br />

Som led i en nordisk medicinsk undersøgelse udtog man blandt patienter der led af denne sygdom<br />

tilfældigt en stikprøve på 75.<br />

På basis heraf beregnede man gennemsnittet af pH værdierne til x = 7.2868 og spredningen<br />

s = 0.134355 .<br />

Man vil nu sige, at et estimat (skøn) for den “sande” middelværdi µ for hele populationen er 7.29<br />

og den “sande” spredning” σ er 0.134.<br />

Det er imidlertid klart, at disse tal er behæftet med en vis usikkerhed.<br />

Havde vi valgt 75 andre patienter havde vi uden tvivl fået lidt andre tal.<br />

Det er derfor ikke nok, at angive at den “sande” middelværdi er x , vi må også angive et<br />

“usikkerhedsinterval”.<br />

For at kunne beregne et sådant interval er det nødvendigt at kende fordelingen.<br />

Her spiller den tidligere nævnte centrale grænseværdisætning en vigtig rolle, idet den jo (løst<br />

sagt) siger, at selv om man ikke kender fordelingen af den kontinuerte stokastiske variabel, så vil<br />

gennemsnittet af værdierne i en stikprøve på n tal vil være tilnærmelsesvis normalfordelt, hvis<br />

blot n er tilstrækkelig stor ( i praksis over 30).<br />

Dette er af stor praktisk betydning, idet det så ikke er så vigtigt, om selve populationen er<br />

normalfordelt. Ofte er det jo kun af interesseret at kunne forudsige noget om hvor middelværdien<br />

af fordelingen er placeret.<br />

σ<br />

Endvidere fremgik det af sætning 3.1 , at spredningen på x er σ(<br />

x)<br />

= , hvor σ er<br />

n<br />

spredningen på den enkelte værdi i stikprøven.<br />

Heraf fremgår, at gennemsnittet kan man “stole” mere på end den enkelte måling, da den har en<br />

mindre spredning.<br />

39

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!