18.07.2013 Views

5. Statistik

5. Statistik

5. Statistik

SHOW MORE
SHOW LESS

Transform your PDFs into Flipbooks and boost your revenue!

Leverage SEO-optimized Flipbooks, powerful backlinks, and multimedia content to professionally showcase your products and significantly increase your reach.

Følgende fremstilling er baseret på<br />

<strong>5.</strong> <strong>Statistik</strong><br />

Hayati Balo,AAMS<br />

1. Carstensen, Frandsen og Studsgaard, stx mat B2, systime<br />

1. Ugrupperede Observationer<br />

Hvis der foreligger et antal målinger eller observationer i form af tal, taler man<br />

om ugrupperede observationer, hvis man ikke slår dem sammen i grupper.<br />

Som eksempel tænker vi os, at man har bedt 200 familier om at opgøre, hvor<br />

mange reklametryksager de har modtaget en bestemt week-end. Resultaterne kan<br />

sammenfattes i en tabel som denne:<br />

1


Antal tryksager Antal familier Antal familier kumuleret Antal familier i pct. Antal familier kumuleret i pct.<br />

Observation - x Hyppighed - h(x) Kumuleret hyppighed - H(x) Frekvens i pct. f(x) Kumuleret frekvens F(x)<br />

8 24 24 12% 12%<br />

9 30 54 15% 27%<br />

10 42 96 21% 48%<br />

11 40 136 20% 68%<br />

12 36 172 18% 86%<br />

13 28 200 14% 100%<br />

200<br />

Der er altså 24 familier, der modtog 8 tryksager og disse 24 udgjorde 12% af<br />

de 200 familier.<br />

Kumuleret betyder opsummeret og den kumulerede frekvens angiver hvor mange<br />

procent af talmaterialet der ligger under en given grænse. Fx. har 68% af fami-<br />

lierne modtaget højst 11 tryksager og 86% har modtaget 12 eller derunder.<br />

Stolpediagram og fraktiler<br />

Frekvenserne kan anskueliggøres i et såkaldt stolpediagram som vist nedenunder.<br />

I Geogebras regneark facilitet skal ma blot indtaste antal tryksager i den første<br />

kolonne og hyppighederne i den anden kolonne. Dernæst skal man lave en list<br />

af punkter så der fremkommer følgende stolpediagram som viser f.eks. 9 stk af<br />

tryksagerne svarer til 15%.<br />

2


Stolpedigrammer kan også laves ved at bruge antal tryksager x sammen med<br />

kumulerede frekvenser F(x). Brug kommandoen StickGraph[List of points].<br />

Ordet fraktil betyder brøkdel. Vi kan f.eks. være interesseret i at finde, under<br />

3


hvilket antal tryksager 40% af familierne ligger.<br />

Der er 27% af familierne, der har modtagert 9 eller færre tryksager og 48%<br />

har modtaget 10 eller færre, så grænsen på 40 tryksager omfatter i hvert fald 40%<br />

af familierne. Derfor siger man at 40 %-fraktilen er 10.<br />

Vi forestiller os nu materialet stillet op i voksende rækkefølge:<br />

8,8,8,....8,9,9,......9,10,10,...,10,11,11,...,11,12,12,...,12,13,13,...,13<br />

Medianen er den midterste observation, hvis der er et ulige antal observationer<br />

og gennemsnittet af de to midterste, hvis der er et lige antal. Medianen er et tal<br />

med den egenskab, at halvdelen af materialet ligger under halvdelen over.<br />

I dette tilfælde er der 200 observationer, så medianen er gennemsnittet af ob-<br />

servation nr. 100 og nr. 101 dvs. den er<br />

11 + 11<br />

2<br />

= 11<br />

I GeoGebra kan man indsætte talmaterialet som en liste ved at skrive følgende<br />

(se. evt geogebra filen “statistik_ugrupperet.ggb” ).<br />

{8,8,...8,9,9,...9,10,10,....,10,11,11,......,11,12,12,....,12,13,13,....,13}<br />

Og skrive følgende kommando til at beregne medianen.<br />

Median[list1]<br />

list1 er Geogebras navn til talmaterialet ovenover.<br />

Den nederste halvdel af talmaterialet har også en median, som kaldes 1.kvartil.<br />

Dette tal har altså den egenskab, at en fjerdedel af talmaterialet ligger under, tre<br />

fjerdedel over.<br />

4


På samme måde har den øverste halvdel af materialet en median, som kaldes<br />

3.kvartil. Tre fjerdedele af materialet ligger under dette tal, en fjerdedel over.<br />

I eksemplet ovenover, består talmaterialets nederste halvdel af 100 tal. 1. kvar-<br />

til fås som gennemsnittet mellem tal nr. 50 og tal nr. 51, dvs. den er 9. GeoGebra’s<br />

kommando til at finde 1.kvartil hedder Q1 og ses af GeoGebra filen.<br />

På samme måde fås 3. kvartil som gennemsnittet af tal nr. 150 og tal nr. 151,<br />

dvs. den er 12.<br />

Kvartilsættet består af 1. kvartil, median og 3. kvartil, så det vises som<br />

Kvartilsættet=(9,11,12)<br />

Kvartilsættet kan sammen med mindsteværdien og størsteværdien (8 og 13)<br />

illustreres på et såkaldt boxdiagram.<br />

GeoGebra’s kommando BoxPlot[2,1,list1] bruges til at tegne boxdiagrammet.<br />

Kassen i midten strækker sig fra 1. til 3. kvartil og er delt med en tværstreg ved<br />

medianen. Linjerne i enderne strækker sig til mindsteværdien og størsteværdien.<br />

Forskellen mellem største- og mindsteværdi kaldes variationsbredden,og den<br />

er 13-8=<strong>5.</strong><br />

5


Middelværdi<br />

Vi kan beregne middelværdien eller gennemsnittet ved at lægge observationerne<br />

sammen og dividere med antallet. Det gennemsnitlige antal tryksager, som en<br />

familie har modtaget bliver<br />

µ =<br />

8 · 24 + 9 · 30 + 10 · 42 + 11 · 40 + 12 · 36 + 13 · 28<br />

200<br />

= 10,59<br />

Middelværdien kan også beregnes ved at bruge frekvenserne i stedet på føl-<br />

gende måde:<br />

µ = 8 · 0,12 + 9 · 0,15 + 10 · 0,21 + 11 · 0,20 + 12 · 0,18 + 13 · 0,14 = 10,59<br />

Her har man brugt det græske bogstav µ(my) til at betegne middelværdien.<br />

GeoGebra’s kommando til at finde middelværdien er:<br />

Mean[list1]<br />

Man kan sige, at middelværdien af tallene i materialet (8,9,10,11,12,13) fremkom-<br />

mer som et såkaldt vejet gennemsnit. Tallet 8 har vægten 12%, tallet 9 har vægten<br />

15% osv. og middelværdien på 10,59 fås netop ved at tallene bidrager til mid-<br />

delværdien med deres vægte, dvs. med deres frekvenser.<br />

Talmaterialets middelværdi omtales også som den matematiske forventning -<br />

familien kan jo forvente at modtage ca. 10,59 tryksager i gennemsnit. Man bruger<br />

også betegnelsen E(X), hvor X betegner observationerne(antal tryksager) og hvor<br />

E står for expectation,så E(X) = 10,59.<br />

I almindelighed er middelværdien ikke tilstrækkelig til at beskrive et talmate-<br />

riale. I en prøve kan en klasses elever fx. alle opnå karakteren 7, mens en anden<br />

klasses gennemgår prøven med det resultat at halvdelen får 00 og halvdelen 12.<br />

6


Også denne klasse har et gennemsnit på 7 - men man må sige at de to klasser trods<br />

ens gennemsnit er meget forskellige.<br />

EKSEMPEL 1<br />

To skoleklasser A-klassen og B-klassen med henholdsvis 13 og 11 elever, har<br />

gennemgået en prøve, hvor der kan gives maksimalt 50 points. der blev givet<br />

følgende pointtal:<br />

A-klassen B-klassen<br />

7 20<br />

11 23<br />

17 24<br />

22 27<br />

24 28<br />

29 30<br />

30 31<br />

31 32<br />

35 33<br />

39 34<br />

41 37<br />

45<br />

46<br />

i alt 377 points ialt 319 points<br />

Middelværdien for pointtallene i de to klasser er ens:<br />

A − klassen : 377<br />

13<br />

7<br />

= 29


B − klassen : 319<br />

= 29<br />

11<br />

Man kan alså ikke vurdere klasserne baseret alene på middelværdierne!<br />

Medianen er den midterste observation og ved optælling ser vi, at det midterste<br />

tal i både a.klassen og B-klassen er 30. Altså er medianen for de to klasser:<br />

A − klassen = 30<br />

B − klassen = 30<br />

Medianerne er heller ikke nok til at vurdere klasserene!<br />

Derimod ligger pointtallene åbenbart mere spredt i B-klassen end i A-klassen.<br />

Vi finder kvartilsættene i de to klasser for at finde et bedre vurderingsgrundlag.<br />

For A-klassen er den nederste halvdel af talmaterialet<br />

7,11,17,22,24,29<br />

og medianen af dette talsæt er gennemsnittet af 17 og 22, dvs.<br />

Øverste halvdel af materialet er<br />

17 + 22<br />

Dvs. 1. kvartil = = 19,5<br />

2<br />

31,35,39,41,45,46<br />

39 + 41<br />

3.kvartil = = 40<br />

2<br />

Kvartilsættet for A-klassen er = (19,5;30;40)<br />

For B-klassen er nederste og øverste halvdel af materialet henholdsvis<br />

8


1. kvartil er 24 og 3.kvartil er 33.<br />

20,23,24,27,28<br />

31,32,33,34,37<br />

Kvartilsættet for B-klassen er = (24,30,33)<br />

Og tallet i midten 30 er jo medianen så kvartilsættet skrives som (1. kvartil,<br />

medianen,3.kvartil)<br />

De to boxdiagrammer nedenunder illustrerer udmærket den meget forskellige<br />

spredning af pointtallene i de to klasser.<br />

Diagrammet er konstrueret af GeoGebra kommandoen:<br />

BoxPlot[2,1,{7,11,17,22,24,29,30,31,35,39,41,45,46]<br />

9


Og på tilsvarende måde:<br />

BoxPlot[2,1,{20,23,24,27,28,30,31,32,33,34,37}]<br />

Vi ser at A-klassen har en variationsbredde på 46-7=39 mens den for B-klassen<br />

kun er 37-20=17<br />

Varians og Spredning<br />

Vi bruger nu antal tryksager og antal familier i starten af dokumentet og<br />

indfører et mål for, hvor spredt observationerne ligger i forhold til middelværdien.<br />

Man udregner det vejede gennemsnit - dvs. ganges med frekvenserne - af<br />

kvadraterne på forskellene mellem middelværdien µ = 10.59 og observationerne,<br />

og beregner summen af<br />

0,12(8 − 10,59) 2 = 0,80<br />

0,15(9 − 10,59) 2 = 0,38<br />

0,21(10 − 10,59) 2 = 0,073<br />

10


som giver: 2,46.<br />

0,20(11 − 10,59) 2 = 0,034<br />

0,18(12 − 10,59) 2 = 0,36<br />

0,14(13 − 10,59) 2 = 0,81<br />

Sum 2,46<br />

Dette tal kaldes observationssættets varians og skrives som:<br />

Var(X) = 2,46<br />

Spredningen σ(X) defineres som kvadratroden af dette tal:<br />

σ(X) = √ 2,46 = 1,57<br />

Dette giver et mål for, hvor spredt søjlerne i stolpediagrammet står.<br />

Spredningen -eller standartafvigelsen som også kaldes- for et talmateriale kan<br />

ikke umiddelbart aflæses på en figur.<br />

Man kan ved hjælp af GeoGebra beregne varians og spredning(standartafvigelsen)<br />

på følgende måde:<br />

SampleVarians[list1]<br />

SD[list1]<br />

11


Antal tryksager(x) frekvens - f(x) f(x)·(x-µ) 2<br />

8 0,12 0,12(8-10,59) 2 = 0,80<br />

9 0,15 0,15(9-10,59) 2 = 0,38<br />

10 0,21 0,21(10-10,59) 2 = 0,073<br />

11 0,20 0,20(11-10,59) 2 = 0,034<br />

12 0,18 0,18(12-10,59) 2 = 0,36<br />

13 0,14 0,14(13-10,59) 2 = 0,81<br />

12<br />

Var(x) = 2.46


2. Grupperede Observationer<br />

Et eksempel på grupperede observation:<br />

En virksomhed fremstiller reservedele til maskiner. Der produceres bl.a. små<br />

metalaksler, hvis længde varierer mellem 10 og 20 mm. Man udtager 40 sådanne<br />

aksler og måler deres længde. De 40 målinger sammensættes i en tabel, hvor<br />

tallene er grupperet i intervaller:<br />

Observationsinterval(mm) Intervalhyppighed(antal) Intervalfrekvens(%) Kumuleret intervalfrekvens(%)<br />

x h(x) f(x) F(x)<br />

]10;12] 4 10,0 10,0<br />

]12;14] 7 17,5 27,5<br />

]14;16] 15 37,5 65,0<br />

]16;18] 8 20,0 85,0<br />

]18;20] 6 15,0 100,0<br />

Hver af de 40 målinger kaldes en observation. Observationsintervallerne er<br />

de intervaller, man har valgt at dele målingerne i. Man har vedtaget, at højre<br />

endepunkt er med i intervallet, venstre ikke.<br />

terval.<br />

Intervalhyppighederne angiver det antal målinger, der ligger i hvert interval.<br />

Intervalfrekvenser er den procentdel af observationerne, der ligger i hvert in-<br />

Vi ser desuden, at 27,5% af observationerne er på 14 mm. eller derunder.<br />

13


Histogram<br />

For at lette overblikket anskueliggør man de tal, der er samlet i en tabel som<br />

ovenstående, i forskellige figurer. Et histogram ses på nedenstående figur.<br />

For at tegne histogrammet i GeoGebra skal man først i regnearket indtæste<br />

følgende værdier fra grupperede tabel og lave to lister en for hver kolonne.<br />

Observationsinterval Interval frekvens (%)<br />

x f(x)<br />

10 10<br />

12 17,5<br />

14 37,5<br />

16 20,0<br />

18 15,0<br />

20 -<br />

14


Læg mærke til hvordan tabellen er konstrueret og som ses hyppigheds kolon-<br />

nen mangler sidste tal. Sådan skal det være for at konstruere histogrammet vha.<br />

kommandoen<br />

Histogram[list1,list2]<br />

På x-aksen er intervalendepunkterne afsat og over hvert interval er tegnet et<br />

rektangel, hvis areal svarer til procentdelen af observationer i intervallet.<br />

Sumkurve<br />

De kumulerede intervalfrekvenser afbildes ved hjælp af en sumkurve. Vi kon-<br />

struerer følgende tabel for at tegne sumkurve.<br />

Observationsinterval Kumuleret intervalfrekvens(%)<br />

x F(x)<br />

10 0,0<br />

12 10,0<br />

14 27,5<br />

16 65,0<br />

18 85,0<br />

20 100,0<br />

Polyline[ list1] kommandoen i GeoGebra bruges til at forbinde de afsatte<br />

punkter på sumkurven. Der skal laves et liste af punkter som hedder list1 i Ge-<br />

oGebra inden. man kan også bruge kommandoen StickGraph[List of points ]<br />

15


Ved hjælp af sumkurven - som kan konstrueres ved x og F(x) og polyline<br />

between points - kan man besvare forskellige spørgsmål:<br />

16


- Hvor mange procent af akslerne er højst 17 mm lange?<br />

Dette kan aflæses direkte på figuren ovenover som funktionsværdien af 17,<br />

altså 75 %.<br />

- Hvor mange procent af akslerne er mindst 13 mm lange?<br />

På figuren ses at 19% er 13 mm lange eller derunder, så 81% må være mindst<br />

13 mm lange.<br />

- Hvor mange procent af akslerne er mellem 15 og 19 mm lange?<br />

På figuren ses, at 93% af akslerne er højst 19 mm lange og 46 % er højst 15<br />

mm lange. Derfor er 93 % - 46 % = 47 % mellem 15<br />

og 19 mm lange.<br />

Fraktiler<br />

Fraktiler defineres på samme måde som ved ugrupperede observationer. Således<br />

er 40 %-fraktilen den grænse under hvilken 40 % af materialet ligger. På sumkur-<br />

ven er det den værdi på x-aksen, der svarer til 40 % på y-aksen. 40 %-fraktilen<br />

er 14,7 mm, så 40 % af materialet har en længde på 14,7 mm eller derunder.<br />

Kvartilsættet er (13,7;15,2;17).<br />

Middelværdi<br />

Man finder middelværdien eller gennemsnittet af en række målinger ved at lægge<br />

dem sammen og dividere med antallet. I dette tilfælde kender vi imidlertid ikke<br />

hver enkelt aksels længde. Vi kan alligevel beregne et tal, som er tæt på det rigtige<br />

gennemsnit.<br />

17


Vi tillader os at gå ud fra, at de aksler, der er mellem 10 og 12 mm lange, er<br />

jævn fordelt i intervallet ]10;12], så vi ikke begår nogen særlig fejl ved at tillægge<br />

dem alle længden 11 mm. Akslerne bidrager altså med 4*11=44 mm til den sam-<br />

lede længde.<br />

De 7 aksler i intervallet ]12;14] tillægges alle en længde på 13 mm osv. Derfor<br />

indfører vi middelværdien af materialet sådan:<br />

Middelværdien beregnes ved at gange hvert intervalmidtpunkt med antallet af<br />

observationer i intervallet,lægge sammen og dividere med det samlede antal<br />

I dette tilfælde får vi:<br />

Så middelværdien bliver<br />

observationer.<br />

4·11 + 7 · 13 + 15 · 15 + 8 · 17 + 6 · 19 = 610 mm<br />

µ = 610<br />

40<br />

= 15,25 mm<br />

Hvis intervalhyppighederne ikke oplyses, men kun intervalfrekvenserne, kan<br />

vi bruge disse til beregning af middelværdien.<br />

18


Observationsinterval Intervalhyppighed Intervalmidtpunkt Frekvens<br />

x h(x) m f(x) m·f(x) m 2 E(X 2 ) =m 2 · f (x)<br />

]10;12] 4 11 0,10 1,1 121 121 · 0,10 = 12,1<br />

]12;14] 7 13 0,175 2,275 169 169 · 0,175 = 29,575<br />

]14;16] 15 15 0,375 5,625 225 225 · 0,375 = 84,375<br />

]16;18] 8 17 0,20 3,4 289 289 · 0,20 = 57,8<br />

]18;20] 6 19 0,15 2,85 361 361 · 0,15 = 54,15<br />

40 µ = E(X) = 15,25 E(X 2 ) = 238<br />

µ = E(X) = 11 · 0,1 + 13 · 0,175 + 15 · 0,375 · 17 · 0,2 + 19 · 0,15 = 15,25<br />

Varians og spredning<br />

Varians og spredning er<br />

Opgave<br />

Var(X) = 238 − 15,25 2 = 5,4375<br />

σ(X) = √ 5,4375 = 2,33<br />

Der er registreret følgende fødselsvægte i gram for børn.<br />

vægt 2800-3000 3000-3200 3200-3400 3400-3600 3600-3800 3800-4000 4000-4200 sum<br />

antal 2 3 6 7 6 4 2 30<br />

frekvens 0,067 0,100 0,200 0,233 0,200 0,133 0,067 1,000<br />

kumuleret 0,067 0,167 0,367 0,600 0,80 0,933 1,000<br />

19


a) Tegn en sumkurve<br />

b) Bestem kvartilsættet og middelværdien<br />

Løsning:<br />

a) For at tegne sumkurve skal vi lave følgende tabel:<br />

Interval Kumuleret frekvens<br />

2800 0,0<br />

3000 0,067<br />

3200 0,167<br />

3400 0,367<br />

3600 0,600<br />

3800 0,80<br />

4000 0,933<br />

4200 1,00<br />

Vi indtaster disse to søjler i GeoGebras regneark og laver en liste af punkter<br />

vha. “create list of points”. Bagefter forbindes punkterne vha. kommandoen<br />

“PolyLine[list1]” eller kommandoen StickGraph[] bruges.<br />

Kvartilsættet kan aflæses direkte ud fra figuren.<br />

20


) Middelværdien beregnes<br />

µ = E(X) = ∑(mi · fi)<br />

hvor mi er intervalmidtpunkter og fi er frekvenserne<br />

µ = (2900 · 0,067 + 3100 · 0,100 + 3300 · 0,2 + 3500 · 0,233 + 3700 · 0,2 + 3900 ·<br />

0,133 + 4100 · 0,67) = 3513,2<br />

21

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!