5. Statistik
5. Statistik
5. Statistik
Transform your PDFs into Flipbooks and boost your revenue!
Leverage SEO-optimized Flipbooks, powerful backlinks, and multimedia content to professionally showcase your products and significantly increase your reach.
Følgende fremstilling er baseret på<br />
<strong>5.</strong> <strong>Statistik</strong><br />
Hayati Balo,AAMS<br />
1. Carstensen, Frandsen og Studsgaard, stx mat B2, systime<br />
1. Ugrupperede Observationer<br />
Hvis der foreligger et antal målinger eller observationer i form af tal, taler man<br />
om ugrupperede observationer, hvis man ikke slår dem sammen i grupper.<br />
Som eksempel tænker vi os, at man har bedt 200 familier om at opgøre, hvor<br />
mange reklametryksager de har modtaget en bestemt week-end. Resultaterne kan<br />
sammenfattes i en tabel som denne:<br />
1
Antal tryksager Antal familier Antal familier kumuleret Antal familier i pct. Antal familier kumuleret i pct.<br />
Observation - x Hyppighed - h(x) Kumuleret hyppighed - H(x) Frekvens i pct. f(x) Kumuleret frekvens F(x)<br />
8 24 24 12% 12%<br />
9 30 54 15% 27%<br />
10 42 96 21% 48%<br />
11 40 136 20% 68%<br />
12 36 172 18% 86%<br />
13 28 200 14% 100%<br />
200<br />
Der er altså 24 familier, der modtog 8 tryksager og disse 24 udgjorde 12% af<br />
de 200 familier.<br />
Kumuleret betyder opsummeret og den kumulerede frekvens angiver hvor mange<br />
procent af talmaterialet der ligger under en given grænse. Fx. har 68% af fami-<br />
lierne modtaget højst 11 tryksager og 86% har modtaget 12 eller derunder.<br />
Stolpediagram og fraktiler<br />
Frekvenserne kan anskueliggøres i et såkaldt stolpediagram som vist nedenunder.<br />
I Geogebras regneark facilitet skal ma blot indtaste antal tryksager i den første<br />
kolonne og hyppighederne i den anden kolonne. Dernæst skal man lave en list<br />
af punkter så der fremkommer følgende stolpediagram som viser f.eks. 9 stk af<br />
tryksagerne svarer til 15%.<br />
2
Stolpedigrammer kan også laves ved at bruge antal tryksager x sammen med<br />
kumulerede frekvenser F(x). Brug kommandoen StickGraph[List of points].<br />
Ordet fraktil betyder brøkdel. Vi kan f.eks. være interesseret i at finde, under<br />
3
hvilket antal tryksager 40% af familierne ligger.<br />
Der er 27% af familierne, der har modtagert 9 eller færre tryksager og 48%<br />
har modtaget 10 eller færre, så grænsen på 40 tryksager omfatter i hvert fald 40%<br />
af familierne. Derfor siger man at 40 %-fraktilen er 10.<br />
Vi forestiller os nu materialet stillet op i voksende rækkefølge:<br />
8,8,8,....8,9,9,......9,10,10,...,10,11,11,...,11,12,12,...,12,13,13,...,13<br />
Medianen er den midterste observation, hvis der er et ulige antal observationer<br />
og gennemsnittet af de to midterste, hvis der er et lige antal. Medianen er et tal<br />
med den egenskab, at halvdelen af materialet ligger under halvdelen over.<br />
I dette tilfælde er der 200 observationer, så medianen er gennemsnittet af ob-<br />
servation nr. 100 og nr. 101 dvs. den er<br />
11 + 11<br />
2<br />
= 11<br />
I GeoGebra kan man indsætte talmaterialet som en liste ved at skrive følgende<br />
(se. evt geogebra filen “statistik_ugrupperet.ggb” ).<br />
{8,8,...8,9,9,...9,10,10,....,10,11,11,......,11,12,12,....,12,13,13,....,13}<br />
Og skrive følgende kommando til at beregne medianen.<br />
Median[list1]<br />
list1 er Geogebras navn til talmaterialet ovenover.<br />
Den nederste halvdel af talmaterialet har også en median, som kaldes 1.kvartil.<br />
Dette tal har altså den egenskab, at en fjerdedel af talmaterialet ligger under, tre<br />
fjerdedel over.<br />
4
På samme måde har den øverste halvdel af materialet en median, som kaldes<br />
3.kvartil. Tre fjerdedele af materialet ligger under dette tal, en fjerdedel over.<br />
I eksemplet ovenover, består talmaterialets nederste halvdel af 100 tal. 1. kvar-<br />
til fås som gennemsnittet mellem tal nr. 50 og tal nr. 51, dvs. den er 9. GeoGebra’s<br />
kommando til at finde 1.kvartil hedder Q1 og ses af GeoGebra filen.<br />
På samme måde fås 3. kvartil som gennemsnittet af tal nr. 150 og tal nr. 151,<br />
dvs. den er 12.<br />
Kvartilsættet består af 1. kvartil, median og 3. kvartil, så det vises som<br />
Kvartilsættet=(9,11,12)<br />
Kvartilsættet kan sammen med mindsteværdien og størsteværdien (8 og 13)<br />
illustreres på et såkaldt boxdiagram.<br />
GeoGebra’s kommando BoxPlot[2,1,list1] bruges til at tegne boxdiagrammet.<br />
Kassen i midten strækker sig fra 1. til 3. kvartil og er delt med en tværstreg ved<br />
medianen. Linjerne i enderne strækker sig til mindsteværdien og størsteværdien.<br />
Forskellen mellem største- og mindsteværdi kaldes variationsbredden,og den<br />
er 13-8=<strong>5.</strong><br />
5
Middelværdi<br />
Vi kan beregne middelværdien eller gennemsnittet ved at lægge observationerne<br />
sammen og dividere med antallet. Det gennemsnitlige antal tryksager, som en<br />
familie har modtaget bliver<br />
µ =<br />
8 · 24 + 9 · 30 + 10 · 42 + 11 · 40 + 12 · 36 + 13 · 28<br />
200<br />
= 10,59<br />
Middelværdien kan også beregnes ved at bruge frekvenserne i stedet på føl-<br />
gende måde:<br />
µ = 8 · 0,12 + 9 · 0,15 + 10 · 0,21 + 11 · 0,20 + 12 · 0,18 + 13 · 0,14 = 10,59<br />
Her har man brugt det græske bogstav µ(my) til at betegne middelværdien.<br />
GeoGebra’s kommando til at finde middelværdien er:<br />
Mean[list1]<br />
Man kan sige, at middelværdien af tallene i materialet (8,9,10,11,12,13) fremkom-<br />
mer som et såkaldt vejet gennemsnit. Tallet 8 har vægten 12%, tallet 9 har vægten<br />
15% osv. og middelværdien på 10,59 fås netop ved at tallene bidrager til mid-<br />
delværdien med deres vægte, dvs. med deres frekvenser.<br />
Talmaterialets middelværdi omtales også som den matematiske forventning -<br />
familien kan jo forvente at modtage ca. 10,59 tryksager i gennemsnit. Man bruger<br />
også betegnelsen E(X), hvor X betegner observationerne(antal tryksager) og hvor<br />
E står for expectation,så E(X) = 10,59.<br />
I almindelighed er middelværdien ikke tilstrækkelig til at beskrive et talmate-<br />
riale. I en prøve kan en klasses elever fx. alle opnå karakteren 7, mens en anden<br />
klasses gennemgår prøven med det resultat at halvdelen får 00 og halvdelen 12.<br />
6
Også denne klasse har et gennemsnit på 7 - men man må sige at de to klasser trods<br />
ens gennemsnit er meget forskellige.<br />
EKSEMPEL 1<br />
To skoleklasser A-klassen og B-klassen med henholdsvis 13 og 11 elever, har<br />
gennemgået en prøve, hvor der kan gives maksimalt 50 points. der blev givet<br />
følgende pointtal:<br />
A-klassen B-klassen<br />
7 20<br />
11 23<br />
17 24<br />
22 27<br />
24 28<br />
29 30<br />
30 31<br />
31 32<br />
35 33<br />
39 34<br />
41 37<br />
45<br />
46<br />
i alt 377 points ialt 319 points<br />
Middelværdien for pointtallene i de to klasser er ens:<br />
A − klassen : 377<br />
13<br />
7<br />
= 29
B − klassen : 319<br />
= 29<br />
11<br />
Man kan alså ikke vurdere klasserne baseret alene på middelværdierne!<br />
Medianen er den midterste observation og ved optælling ser vi, at det midterste<br />
tal i både a.klassen og B-klassen er 30. Altså er medianen for de to klasser:<br />
A − klassen = 30<br />
B − klassen = 30<br />
Medianerne er heller ikke nok til at vurdere klasserene!<br />
Derimod ligger pointtallene åbenbart mere spredt i B-klassen end i A-klassen.<br />
Vi finder kvartilsættene i de to klasser for at finde et bedre vurderingsgrundlag.<br />
For A-klassen er den nederste halvdel af talmaterialet<br />
7,11,17,22,24,29<br />
og medianen af dette talsæt er gennemsnittet af 17 og 22, dvs.<br />
Øverste halvdel af materialet er<br />
17 + 22<br />
Dvs. 1. kvartil = = 19,5<br />
2<br />
31,35,39,41,45,46<br />
39 + 41<br />
3.kvartil = = 40<br />
2<br />
Kvartilsættet for A-klassen er = (19,5;30;40)<br />
For B-klassen er nederste og øverste halvdel af materialet henholdsvis<br />
8
1. kvartil er 24 og 3.kvartil er 33.<br />
20,23,24,27,28<br />
31,32,33,34,37<br />
Kvartilsættet for B-klassen er = (24,30,33)<br />
Og tallet i midten 30 er jo medianen så kvartilsættet skrives som (1. kvartil,<br />
medianen,3.kvartil)<br />
De to boxdiagrammer nedenunder illustrerer udmærket den meget forskellige<br />
spredning af pointtallene i de to klasser.<br />
Diagrammet er konstrueret af GeoGebra kommandoen:<br />
BoxPlot[2,1,{7,11,17,22,24,29,30,31,35,39,41,45,46]<br />
9
Og på tilsvarende måde:<br />
BoxPlot[2,1,{20,23,24,27,28,30,31,32,33,34,37}]<br />
Vi ser at A-klassen har en variationsbredde på 46-7=39 mens den for B-klassen<br />
kun er 37-20=17<br />
Varians og Spredning<br />
Vi bruger nu antal tryksager og antal familier i starten af dokumentet og<br />
indfører et mål for, hvor spredt observationerne ligger i forhold til middelværdien.<br />
Man udregner det vejede gennemsnit - dvs. ganges med frekvenserne - af<br />
kvadraterne på forskellene mellem middelværdien µ = 10.59 og observationerne,<br />
og beregner summen af<br />
0,12(8 − 10,59) 2 = 0,80<br />
0,15(9 − 10,59) 2 = 0,38<br />
0,21(10 − 10,59) 2 = 0,073<br />
10
som giver: 2,46.<br />
0,20(11 − 10,59) 2 = 0,034<br />
0,18(12 − 10,59) 2 = 0,36<br />
0,14(13 − 10,59) 2 = 0,81<br />
Sum 2,46<br />
Dette tal kaldes observationssættets varians og skrives som:<br />
Var(X) = 2,46<br />
Spredningen σ(X) defineres som kvadratroden af dette tal:<br />
σ(X) = √ 2,46 = 1,57<br />
Dette giver et mål for, hvor spredt søjlerne i stolpediagrammet står.<br />
Spredningen -eller standartafvigelsen som også kaldes- for et talmateriale kan<br />
ikke umiddelbart aflæses på en figur.<br />
Man kan ved hjælp af GeoGebra beregne varians og spredning(standartafvigelsen)<br />
på følgende måde:<br />
SampleVarians[list1]<br />
SD[list1]<br />
11
Antal tryksager(x) frekvens - f(x) f(x)·(x-µ) 2<br />
8 0,12 0,12(8-10,59) 2 = 0,80<br />
9 0,15 0,15(9-10,59) 2 = 0,38<br />
10 0,21 0,21(10-10,59) 2 = 0,073<br />
11 0,20 0,20(11-10,59) 2 = 0,034<br />
12 0,18 0,18(12-10,59) 2 = 0,36<br />
13 0,14 0,14(13-10,59) 2 = 0,81<br />
12<br />
Var(x) = 2.46
2. Grupperede Observationer<br />
Et eksempel på grupperede observation:<br />
En virksomhed fremstiller reservedele til maskiner. Der produceres bl.a. små<br />
metalaksler, hvis længde varierer mellem 10 og 20 mm. Man udtager 40 sådanne<br />
aksler og måler deres længde. De 40 målinger sammensættes i en tabel, hvor<br />
tallene er grupperet i intervaller:<br />
Observationsinterval(mm) Intervalhyppighed(antal) Intervalfrekvens(%) Kumuleret intervalfrekvens(%)<br />
x h(x) f(x) F(x)<br />
]10;12] 4 10,0 10,0<br />
]12;14] 7 17,5 27,5<br />
]14;16] 15 37,5 65,0<br />
]16;18] 8 20,0 85,0<br />
]18;20] 6 15,0 100,0<br />
Hver af de 40 målinger kaldes en observation. Observationsintervallerne er<br />
de intervaller, man har valgt at dele målingerne i. Man har vedtaget, at højre<br />
endepunkt er med i intervallet, venstre ikke.<br />
terval.<br />
Intervalhyppighederne angiver det antal målinger, der ligger i hvert interval.<br />
Intervalfrekvenser er den procentdel af observationerne, der ligger i hvert in-<br />
Vi ser desuden, at 27,5% af observationerne er på 14 mm. eller derunder.<br />
13
Histogram<br />
For at lette overblikket anskueliggør man de tal, der er samlet i en tabel som<br />
ovenstående, i forskellige figurer. Et histogram ses på nedenstående figur.<br />
For at tegne histogrammet i GeoGebra skal man først i regnearket indtæste<br />
følgende værdier fra grupperede tabel og lave to lister en for hver kolonne.<br />
Observationsinterval Interval frekvens (%)<br />
x f(x)<br />
10 10<br />
12 17,5<br />
14 37,5<br />
16 20,0<br />
18 15,0<br />
20 -<br />
14
Læg mærke til hvordan tabellen er konstrueret og som ses hyppigheds kolon-<br />
nen mangler sidste tal. Sådan skal det være for at konstruere histogrammet vha.<br />
kommandoen<br />
Histogram[list1,list2]<br />
På x-aksen er intervalendepunkterne afsat og over hvert interval er tegnet et<br />
rektangel, hvis areal svarer til procentdelen af observationer i intervallet.<br />
Sumkurve<br />
De kumulerede intervalfrekvenser afbildes ved hjælp af en sumkurve. Vi kon-<br />
struerer følgende tabel for at tegne sumkurve.<br />
Observationsinterval Kumuleret intervalfrekvens(%)<br />
x F(x)<br />
10 0,0<br />
12 10,0<br />
14 27,5<br />
16 65,0<br />
18 85,0<br />
20 100,0<br />
Polyline[ list1] kommandoen i GeoGebra bruges til at forbinde de afsatte<br />
punkter på sumkurven. Der skal laves et liste af punkter som hedder list1 i Ge-<br />
oGebra inden. man kan også bruge kommandoen StickGraph[List of points ]<br />
15
Ved hjælp af sumkurven - som kan konstrueres ved x og F(x) og polyline<br />
between points - kan man besvare forskellige spørgsmål:<br />
16
- Hvor mange procent af akslerne er højst 17 mm lange?<br />
Dette kan aflæses direkte på figuren ovenover som funktionsværdien af 17,<br />
altså 75 %.<br />
- Hvor mange procent af akslerne er mindst 13 mm lange?<br />
På figuren ses at 19% er 13 mm lange eller derunder, så 81% må være mindst<br />
13 mm lange.<br />
- Hvor mange procent af akslerne er mellem 15 og 19 mm lange?<br />
På figuren ses, at 93% af akslerne er højst 19 mm lange og 46 % er højst 15<br />
mm lange. Derfor er 93 % - 46 % = 47 % mellem 15<br />
og 19 mm lange.<br />
Fraktiler<br />
Fraktiler defineres på samme måde som ved ugrupperede observationer. Således<br />
er 40 %-fraktilen den grænse under hvilken 40 % af materialet ligger. På sumkur-<br />
ven er det den værdi på x-aksen, der svarer til 40 % på y-aksen. 40 %-fraktilen<br />
er 14,7 mm, så 40 % af materialet har en længde på 14,7 mm eller derunder.<br />
Kvartilsættet er (13,7;15,2;17).<br />
Middelværdi<br />
Man finder middelværdien eller gennemsnittet af en række målinger ved at lægge<br />
dem sammen og dividere med antallet. I dette tilfælde kender vi imidlertid ikke<br />
hver enkelt aksels længde. Vi kan alligevel beregne et tal, som er tæt på det rigtige<br />
gennemsnit.<br />
17
Vi tillader os at gå ud fra, at de aksler, der er mellem 10 og 12 mm lange, er<br />
jævn fordelt i intervallet ]10;12], så vi ikke begår nogen særlig fejl ved at tillægge<br />
dem alle længden 11 mm. Akslerne bidrager altså med 4*11=44 mm til den sam-<br />
lede længde.<br />
De 7 aksler i intervallet ]12;14] tillægges alle en længde på 13 mm osv. Derfor<br />
indfører vi middelværdien af materialet sådan:<br />
Middelværdien beregnes ved at gange hvert intervalmidtpunkt med antallet af<br />
observationer i intervallet,lægge sammen og dividere med det samlede antal<br />
I dette tilfælde får vi:<br />
Så middelværdien bliver<br />
observationer.<br />
4·11 + 7 · 13 + 15 · 15 + 8 · 17 + 6 · 19 = 610 mm<br />
µ = 610<br />
40<br />
= 15,25 mm<br />
Hvis intervalhyppighederne ikke oplyses, men kun intervalfrekvenserne, kan<br />
vi bruge disse til beregning af middelværdien.<br />
18
Observationsinterval Intervalhyppighed Intervalmidtpunkt Frekvens<br />
x h(x) m f(x) m·f(x) m 2 E(X 2 ) =m 2 · f (x)<br />
]10;12] 4 11 0,10 1,1 121 121 · 0,10 = 12,1<br />
]12;14] 7 13 0,175 2,275 169 169 · 0,175 = 29,575<br />
]14;16] 15 15 0,375 5,625 225 225 · 0,375 = 84,375<br />
]16;18] 8 17 0,20 3,4 289 289 · 0,20 = 57,8<br />
]18;20] 6 19 0,15 2,85 361 361 · 0,15 = 54,15<br />
40 µ = E(X) = 15,25 E(X 2 ) = 238<br />
µ = E(X) = 11 · 0,1 + 13 · 0,175 + 15 · 0,375 · 17 · 0,2 + 19 · 0,15 = 15,25<br />
Varians og spredning<br />
Varians og spredning er<br />
Opgave<br />
Var(X) = 238 − 15,25 2 = 5,4375<br />
σ(X) = √ 5,4375 = 2,33<br />
Der er registreret følgende fødselsvægte i gram for børn.<br />
vægt 2800-3000 3000-3200 3200-3400 3400-3600 3600-3800 3800-4000 4000-4200 sum<br />
antal 2 3 6 7 6 4 2 30<br />
frekvens 0,067 0,100 0,200 0,233 0,200 0,133 0,067 1,000<br />
kumuleret 0,067 0,167 0,367 0,600 0,80 0,933 1,000<br />
19
a) Tegn en sumkurve<br />
b) Bestem kvartilsættet og middelværdien<br />
Løsning:<br />
a) For at tegne sumkurve skal vi lave følgende tabel:<br />
Interval Kumuleret frekvens<br />
2800 0,0<br />
3000 0,067<br />
3200 0,167<br />
3400 0,367<br />
3600 0,600<br />
3800 0,80<br />
4000 0,933<br />
4200 1,00<br />
Vi indtaster disse to søjler i GeoGebras regneark og laver en liste af punkter<br />
vha. “create list of points”. Bagefter forbindes punkterne vha. kommandoen<br />
“PolyLine[list1]” eller kommandoen StickGraph[] bruges.<br />
Kvartilsættet kan aflæses direkte ud fra figuren.<br />
20
) Middelværdien beregnes<br />
µ = E(X) = ∑(mi · fi)<br />
hvor mi er intervalmidtpunkter og fi er frekvenserne<br />
µ = (2900 · 0,067 + 3100 · 0,100 + 3300 · 0,2 + 3500 · 0,233 + 3700 · 0,2 + 3900 ·<br />
0,133 + 4100 · 0,67) = 3513,2<br />
21