116 Statistiek - Quickprinter
116 Statistiek - Quickprinter
116 Statistiek - Quickprinter
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
<strong>116</strong><br />
1ste bach TEW (HIR)<br />
<strong>Statistiek</strong> I<br />
Goos - Kessels<br />
Q uickprinter<br />
Koningstraat 13<br />
2000 Antwerpen<br />
www.quickprinter.be<br />
4.25 EUR
QUICKPRINTER<br />
Copy & Printshop<br />
Koningstraat 13 - 2000 Antwerpen<br />
Tel. : 03 233 22 11<br />
Kopies - Kleurenkopies - Thesis - Studentencursussen - Inbinden<br />
www.quickprinter.be<br />
NIEUW !!!<br />
Verkooppunt 2de hands boeken!<br />
Biedt je oude boeken via ons te koop aan!<br />
OPENINGSUREN :<br />
Maandag tot en met donderdag<br />
van 9.00u tot 18.00u<br />
Vrijdag van 9.00u tot 17.00u
<strong>Statistiek</strong> met (bedrijfs)economische toepassingen 1<br />
SAMENVATTING<br />
Bewijzen van in het boek<br />
Bewijzen die we zelf moesten vinden (“het is een goede oefening om…”)<br />
Gebruik gemaakt van slides tijdens hoorcollege<br />
Voorbeeldoefeningen die de definities etc. verduidelijken<br />
Definities, eigenschappen, opmerkingen enz. van uit het boek<br />
…<br />
Vergeet niet het 2 e boek (‘Kansen en Verwachtingen-Vraagstukken over<br />
kansrekening en statistiek’) ook te doornemen!<br />
Veel succes!!
Hoofdstuk 1: Wat is statistiek?<br />
<strong>Statistiek</strong><br />
Definitie: <strong>Statistiek</strong><br />
De studie van de variabiliteit.<br />
Een geheel van methodologieën voor het verzamelen, voorstellen, analyseren en interpreteren van data of<br />
gegevens.<br />
verwijst altijd naar numerieke informatie<br />
belangrijke hulpwetenschap<br />
gegevens zijn tegenwoordig massaal aanwezig dankzij de informatisering<br />
Studie-object van de statistiek<br />
Populaties van objecten: Belgische bevolking, klanten van een grootwarenhuis,<br />
verzekeringsnemers, . . .<br />
Processen die objecten genereren: Industriële en chemische productieprocessen<br />
Variabelen (gegevens): Geregistreerde eigenschappen of karakteristieken<br />
Steekproef: Slechts een deel van de objecten wordt bestudeerd<br />
GIGO (Garbage In, Garbage Out): Het feit dat de meest geavanceerde statistische<br />
methoden weinig tot geen betrouwbare informatie<br />
kunnen halen uit gegevens van slechte kwaliteit.<br />
Takken van de statistiek<br />
1) Beschrijvende-/Descriptieve statistiek<br />
a. beschrijven van steekproefgegevens<br />
b. overzichtelijk voorstellen<br />
c. berekenen van een aantal kenmerkende waarden (gemiddelde, variantie, . . . )<br />
2) Verklarende-/Inferentiële statistiek<br />
a. analyseren en interpreteren van steekproefgegevens<br />
b. antwoorden vinden op vragen of hypothesen<br />
c. nagaan wat de waarde is van een model<br />
d. inferentie<br />
= veralgemenen naar de ganse populatie of het ganse proces<br />
Probleem:<br />
Op basis van een steekproef kunnen nooit met zekerheid uitspraken over een<br />
populatie of een proces gemaakt worden.<br />
oplossing: we kunnen wel iets zeggen over de betrouwbaarheid van de uitspraken:<br />
* Betrouwbaarheid, uitgedrukt in: kans(rekening)<br />
* Onbetrouwbaarheid, uitgedrukt in: foutenmarge<br />
Definitie: Kansrekening<br />
Kansrekenen bestudeert processen of experimenten waarvan de uitkomst onzeker is.<br />
Voorbeelden:<br />
gooien van een dobbelsteen, prijs van een aandeel over 1 jaar, vraag naar Dell computers gedurende een<br />
maand, percentage defecte producten op een productielijn gedurende een shift…
Hoofdstuk 2: Data en hun voorstelling<br />
Begrippen<br />
Discrete variabele: Eindig of oneindig aftelbaar aantal verschillende waarden aannemen<br />
Voorbeeld: aantal kinderen/gezin, aantal passagiers/vlucht…<br />
Continue variabele: Een continuüm van waarden kan aannemen<br />
Voorbeeld: lengte, duurtijd, BMI, gewicht…<br />
Data/gegevens: Informatie omtrent 1 of meerdere variabelen van een (beperkt) aantal<br />
elementen van een populatie of gegenereerd door een proces.<br />
Meetschalen<br />
1) Kwalitatieve of categorische variabelen: dicreet<br />
a. nominale meetschaal<br />
b. ordinale meetschaal<br />
2) Kwantitatieve variabelen: dicreet & continu<br />
a. Intervalschaal<br />
b. ratio meetschaal<br />
1) Kwalitatieve of categorische variabelen:<br />
a. Nominale variabelen<br />
Elementen van steekproef/populatie worden in een klasse of categorie geplaatst<br />
Voorbeelden:<br />
geslacht (man/vrouw), nationaliteit (Belg/Nederlander/. . . ),<br />
godsdienst (katholiek/protestants/. . . ), gemeente…<br />
Cijfercodes:<br />
man = 0, vrouw = 1, postnummers van gemeenten<br />
cijfercodes impliceren geen volgorde:<br />
rekenkundige bewerkingen zijn zinloos (behalve percentages)!!<br />
b. Ordinale variabelen<br />
Nominale variabelen waarbij er een ordening is tussen de klassen of categorieën<br />
Voorbeelden:<br />
aantalMichelinsterren van een restaurant, antwoorden op enquêtes: “1: helemaal eens”,<br />
“2: eerder eens”, “3: noch eens, noch oneens”, “4: eerder oneens” of “5: helemaal oneens”<br />
geen vaste meeteenheid<br />
rekenkundige bewerkingen zijn zinloos (behalve percentages)!!<br />
2) Kwantitatieve variabelen<br />
worden uitgedrukt in een aantal vaste meeteenheden<br />
Voorbeelden:<br />
lengte, gewicht, aantal verkochte auto’s, temperatuur, duurtijd, aantal Kb per tijdseenheid…<br />
bijna alle rekenkundige bewerkingen zinvol<br />
a. Intervalschaal:<br />
Geen natuurlijk nulpunt; geen natuurlijke ondergrens<br />
Voorbeeld:<br />
temperatuur (Celsius of Fahrenheit), tijd afgelezen op een klok<br />
verschil tussen 2 en 4 uur = verschil tussen 21 en 23 uur<br />
verhoudingen houden geen steek: 4 uur is niet dubbel zo laat als 2 uur<br />
b. Ratioschaal:<br />
Wel absoluut nulpunt; wel natuurlijke ondergrens<br />
Voorbeeld:<br />
lengte, gewicht, temperatuur (Kelvin). . .<br />
verhoudingen zijn wel zinvol: 2 meter is dubbel zo lang als 1m
Hiërarchie van de meetschalen<br />
I. Variabelen gemeten op ratioschaal zijn meest informatief<br />
II. Intervalschaal<br />
III. Ordinale schaal<br />
IV. Variabelen gemeten op nominale schaal zijn het minst informatief<br />
gegevens gemeten op een hogere schaal kunnen omgezet worden in gegevens op een lagere schaal,<br />
maar niet omgekeerd!<br />
statistische methoden voor lagere meetschalen kunnen gebruikt worden voor hogere meetschalen,<br />
maar niet omgekeerd!<br />
Datamatrix of gegevensmatrix<br />
= Gegevens worden voorgesteld in een matrix:<br />
Rijen: Elementen van een steekproef<br />
Kolommen: Verschillende gemeten variabelen<br />
Observatievector: Een rij in een datamatrix<br />
Voorbeeld:<br />
kolom<br />
rij<br />
Voorstellingen<br />
1) Univariate voorstelling:<br />
Voorstelling die betrekking heeft op 1 variabele<br />
2) Bivariate voorstelling:<br />
Voorstelling die betrekking heeft op 2 variabelen<br />
3) Multivariate voorstelling:<br />
Voorstelling die betrekking heeft op meerdere variabelen<br />
Voorstellen van univariate kwalitatieve variabelen<br />
1) Absolute frequenties en relatieve frequenties:<br />
a. Absolute- van een klasse:<br />
Het aantal elementen van de steekproef die tot de klasse behoren<br />
b. Relatieve- van een klasse:<br />
Verhouding van de klassenfrequentie tot het aantal waarnemingen<br />
of observaties in de steekproef<br />
2) Staafdiagram<br />
3) Paretodiagram:<br />
Diagram waarbij klassen volgens dalende frequentie worden herschikt en daarna cumulatief<br />
worden opgeteld:<br />
a. Vital few: Klassen met de hoogste frequentie<br />
b. Trivial many: Klassen met de laagste frequentie<br />
4) Cirkel-, sector- of taartdiagram
1) Frequenties en staafdiagram<br />
Absolute frequenties en relatieve frequenties:<br />
Absolute frequentie<br />
Staafdiagram van de frequenties:<br />
2) Staafdiagram<br />
3) Paretodiagram<br />
Cumulatieve, relatieve<br />
frequentie<br />
4) Cirkel-, sector- of taartdiagram
Voorstellen van univariate kwantitatieve variabelen<br />
1) Stam- en bladdiagram<br />
aantal stammen = √(aantal waarnemingen)<br />
2) Naalddiagram<br />
absolute- en relatieve frequentie<br />
3) Histogram<br />
aantal klassen = √(aantal waarnemingen)<br />
som van de oppervlakten = 1<br />
Interval onderverdeeld in een aantal klassen/deelintervallen<br />
rechthoeken<br />
4) (Frequentie) polygoon<br />
Interval onderverdeeld in een aantal klassen/deelintervallen<br />
toppen van de rechthoeken zijn met elkaar verbonden adhv een lijnstuk<br />
5) Empirische cumulatieve verdelingsfunctie<br />
1) Stam- en bladdiagram 2) Naalddiagram voor discrete variabelen<br />
3) Histogram voor continue variabelen 4) Frequentiepolygoon voor continue variabelen<br />
5) Empirische cumulatieve verdelingsfunctie
Voorstellen van bivariate variabelen<br />
1) Kruistabel<br />
= meervoudig staafdiagram<br />
tabelvorm<br />
2 verschillende voorstellingen:<br />
2demensionaal:<br />
o Staven naast elkaar<br />
o Staven op elkaar (relatieve frequentie)<br />
3demensionaal:<br />
o Staven naast elkaar<br />
o Staven op elkaar (relatieve frequentie)<br />
2) Puntenwolk/scatter plot<br />
= elke waarneming van de steekproef wordt door een punt voorgesteld<br />
puntenconfiguratie<br />
3) Tijdreeks<br />
1) Kruistabel<br />
2) Puntenwolk 3) Tijdreeks
Voorstellen van multivariate variabelen<br />
1) Gestratificeerde puntenwolk<br />
= verschillende symbolen worden voor verschillende categorieën gebruikt<br />
2) Bubble plot<br />
= puntenwolk waarbij elk symbool een verschillende grootte bezit<br />
1) Gestratificeerde puntenwolk<br />
3 variabelen: 2 kwantitatieve- en 1 kwalitatieve variabele(n)<br />
2) Bubble plot<br />
3 variabelen: 3 kwantitatieve variabelen
Hoofdstuk 3: Beschrijvende statistieken van steekproefgegevens<br />
Wat?<br />
1. Kengetallen of statistieken<br />
samenvatting van steekproefgegevens<br />
ligging/locatie, spreiding en scheefheid<br />
aangeduid m.b.v. Romeinse letters<br />
niet alle kengetallen kunnen voor alle meetschalen gebruikt worden<br />
2. Parameters<br />
kengetallen worden berekend voor een volledige populatie of een gans proces<br />
aangeduid m.b.v. Griekse letters<br />
Kengetallen en statistieken
Kengetallen van centrale ligging of locatie<br />
= waarden die het best de centrale ligging van de gegevens beschrijven<br />
indicatie van hoe groot of hoe klein de gegevens zijn<br />
1) De MODUS<br />
Definitie: Modus voor gegroepeerde gegevens<br />
M0 van een verzameling gegroepeerde waarnemingen is het klassencentrum van de modale klasse,<br />
waarbij de modale klasse de klasse is met de grootste frequentie.<br />
Modus ≠ uniek:<br />
Unimodaal histogram: 1 top<br />
Bimodaal histogram: 2 toppen<br />
Multimodaal histogram: > 1 top<br />
voor elk type van gegevens<br />
2) De MEDIAAN<br />
Definitie: Mediaan van een verzameling waarnemingen<br />
Me is het middelste element van geordende data:<br />
* aantal elementen n oneven: ((n+1)/2)de element<br />
* aantal elementen n even: gemiddelde van het (n/2)de en het (n/2+1)de element<br />
voor ordinale gegevens en kwantitatieve gegevens<br />
Voorbeeld:<br />
16, 13, 14, 17, 14, 16, 17, 16, 15, 13<br />
n = 10 n/2 = 5 en n/2+1 = 6<br />
geordend: 13, 13, 14, 14, 15, 16, 16, 16, 17, 17<br />
Me = (15+16)/2 = 15.5<br />
Eigenschappen: de Mediaan (Me)<br />
Ongeveer 50% van de waarnemingen ligt onder of boven de mediaan<br />
De mediaan wordt niet beïnvloed door een klein aantal extreme waarnemingen<br />
!! De som van de absolute afwijkingen van de waarnemingen xi t.o.v. een constante c,<br />
, is minimaal indien c = Me<br />
De mediaan is het gemiddelde van een afgeknotte dataset waarin alleen de middenste (de 2<br />
middenste) waarneming(en) behouden blijft (blijven).<br />
3) Het REKENKUNDIG GEMIDDELDE<br />
Definitie: Rekenkundig gemiddelde van waarnemingen<br />
Het rekenkundig gemiddelde van de waarnemingen x1,…,xn is<br />
Voorbeeld:<br />
= (16+13+14+17+14+16+17+16+15+13)= 15.1<br />
Unimodaal<br />
histogram
Definitie: Rekenkundig gemiddelde bij gegroepeerde gegevens<br />
Rekenkundig gemiddelde bij gegroepeerde gegevens:<br />
waarbij xi het klassencentrum van de i-de klasse is, fi de frequentie van de i-de klasse, n de aantal<br />
waarnemingen en k de aantal klassen.<br />
Voorbeeld:<br />
= (11×0+38×1+32×2+9×3+6×4+3×5+1×6) = 1.74<br />
Eigenschappen: Het steekproefgemiddelde<br />
De som van alle waarnemingen is gelijk aan het rekenkundig gemiddelde vermenigvuldigd<br />
met de steekproefgrootte n :<br />
De som van de afwijkingen van de waarnemingen t.o.v. het gemiddelde is nul:<br />
De som van de gekwadrateerde afwijkingen van de waarnemingen t.o.v. een constante c,<br />
, is minimaal indien c =<br />
Het rekenkundig gemiddelde van een aantal constanten a,…,a is gelijk aan die constante<br />
zelf:<br />
Het rekenkundig gemiddelde van een aantal gegevens x1,…xn, waarop eenzelfde lineaire<br />
transformatie wordt toegepast zodat de getransformeerde dataset ax1 + b,…, axn + b wordt<br />
bekomen, is niets anders dan dezelfde lineaire combinatie van het gemiddelde van de<br />
oorspronkelijke dataset: a<br />
Voor- en nadelen van het rekenkundig gemiddelde<br />
VD: gebruikt alle waarnemingen<br />
ND: gevoelig voor extreme waarden (in tegenstelling tot mediaan)<br />
uitbijters, uitschieters of outliers<br />
Voorbeeld:<br />
(16+13+14+17+14+16+17+16+15+13) = 15.1<br />
(16+13+14+17+14+16+17+16+15+130) = 26.8<br />
in sommige toepassingen is het geometrisch/meetkundig gemiddelde meer aangewezen<br />
(vb.gemiddelde intrestvoeten)<br />
Definitie: Meetkundig gemiddelde van een verzameling waarnemingen<br />
Het meetkundig gemiddelde G van een verzameling waarnemingen x1, … , xn is<br />
enkel zinvol voor positieve waarnemingen!
Maatstaven van relatieve ligging<br />
geeft de positie van een waarneming weer in vergelijking met de waarden van de andere waarnemingen<br />
1) Ordestatistiek: minimum en maximum<br />
2) Percentiel of kwantiel<br />
3) Deciel: wanneer (100 x p) een veelvoud is van 10<br />
4) Kwartiel<br />
5) Mediaan: 5 e deciel = 50 ste percentiel = kwartiel c0.5<br />
1) Ordestatistiek of -kengetal<br />
Definitie: Ordestatistiek of -kengetal<br />
i-de ordestatistiek of -kengetal x(i) in een steekproef van een waarneming is de i-de waarneming nadat de<br />
gegevens gerangschikt zijn van klein naar groot.<br />
x(i) is het i-de kleinste getal<br />
Voorbeeld:<br />
geordend: 13, 13, 14, 14, 15, 16, 16, 16, 17, 17<br />
x(1) = 13 (minimum), x(4) = 14, x(10) = 17 (maximum)<br />
2) Percentielen of kwantielen<br />
Definitie: Percentielen of kwantielen<br />
(100×p) ste percentiel of kwantiel cp, met 0 < p
Spreiding<br />
A. De elementaire spreidingsmaten:<br />
kunnen gebruikt worden voor ordinale en kwantitatieve gegevens<br />
1. Spreidingsbreedte = Range, R:<br />
2. Interkwartielbreedte, Q:<br />
Definitie: Spreidingsbreedte<br />
De spreidingsbreedte of range, R, van een verzameling is het verschil tussen de waarde van de grootste en<br />
kleinste waarneming, of<br />
gevoelig voor uitschieters!<br />
Definitie: Interkwartielbreedte<br />
De interkwartielbreedte, Q, is gedefinieerd als het verschil tussen het 3 e en het 1 e kwartiel:<br />
.<br />
ongevoelig voor uitschieters!<br />
Boxplot<br />
= grafische voorstelling van univariate, ordinale of kwantitatieve gegevens.<br />
Extreme waarden:<br />
1. Mogelijk extreem:<br />
2. Extreem:<br />
B. Andere maten van spreiding<br />
enkel voor kwantitatieve gegevens<br />
1. Gemiddelde Absolute Afwijking, MAD:<br />
2. Steekproefvariantie, s 2 :<br />
of<br />
Snorharen = whiskers<br />
Definitie: Gemiddelde absolute afwijking = Mean Absolute Deviation, MAD:<br />
De Gemiddelde absolute afwijking of Mean Absolute Deviation, MAD, is het gemiddelde van alle afwijkingen<br />
van het rekenkundig gemiddelde in absolute waarde:
Definitie: Steekproefvariantie, s 2 , van een verzameling waarnemingen<br />
De steekproefvariantie, s 2 , van een verzameling waarnemingen x1,…,xn is het gemiddelde van<br />
gekwadrateerde afwijkingen t.o.v. het rekenkundig gemiddelde, , waarbij gedeeld wordt door n-1 i.p.v. n:<br />
of<br />
BEWIJS: Steekproefvariantie-formules (p41):<br />
=<br />
Gebruik van het feit dat:<br />
Definitie: Steekproefvariantie, s 2 , bij gegroepeerde gegevens<br />
De steekproefvariantie, s 2 , bij gegroepeerde gegevens:<br />
waarbij het klassencentrum van de i-de klasse, i de frequentie van de i-de klasse, n het aantal<br />
waarnemingen en k het aantal klassen.<br />
vrijheidsgraden: de noemer = (n-1)<br />
Opmerkingen:<br />
Variantie<br />
Positief<br />
enkel nul wanneer waarden idem zijn<br />
uitgedrukt in een eenheid die het kwadraat is van de originele meeteenheid
Voorbeeld:<br />
BEWIJS:<br />
De variantie van een lineaire transformatie y1 = ax1 + b,…, yn = axn + b van de waarnemingen x1,…,xn<br />
waarbij a en b constanten zijn, is gelijk aan de variantie van de oorspronkelijke gegevens vermenigvuldigd<br />
met a 2 .
C. Nog andere maten van spreiding<br />
enkel voor kwantitatieve gegevens<br />
1. Steekproefstandaarddeviatie, s:<br />
2. Variatiecoëfficiënt, VC:<br />
Definitie: Steekproefstandaarddeviatie, s<br />
De steekproefstandaarddeviatie of de -afwijking is de (positieve) √ van de steekproefvariantie:<br />
uitgedrukt in dezelfde eenheid als de oorspronkelijke eenheid<br />
BEWIJS:<br />
Wanneer we slechts over 2 waarnemingen beschikken, dan leveren de steekproefstandaarddeviatie<br />
( ) en de spreidingsbreedte ( ) identiek dezelfde informatie:<br />
<br />
(zie bewijs: Steekproefvariantie-formules)