116 Statistiek - Quickprinter

116 

1ste bach TEW (HIR) 

Statistiek I 

Goos - Kessels 

Q uickprinter 

Koningstraat 13 

2000 Antwerpen 

www.quickprinter.be 

4.25 EUR

QUICKPRINTER 

Copy & Printshop 

Koningstraat 13 - 2000 Antwerpen 

Tel. : 03 233 22 11 

Kopies - Kleurenkopies - Thesis - Studentencursussen - Inbinden 

www.quickprinter.be 

NIEUW !!! 

Verkooppunt 2de hands boeken! 

Biedt je oude boeken via ons te koop aan! 

OPENINGSUREN : 

Maandag tot en met donderdag 

van 9.00u tot 18.00u 

Vrijdag van 9.00u tot 17.00u

Statistiek met (bedrijfs)economische toepassingen 1 

SAMENVATTING 

Bewijzen van in het boek 

Bewijzen die we zelf moesten vinden (“het is een goede oefening om…”) 

Gebruik gemaakt van slides tijdens hoorcollege 

Voorbeeldoefeningen die de definities etc. verduidelijken 

Definities, eigenschappen, opmerkingen enz. van uit het boek 

… 

Vergeet niet het 2 e boek (‘Kansen en Verwachtingen-Vraagstukken over 

kansrekening en statistiek’) ook te doornemen! 

Veel succes!!

Hoofdstuk 1: Wat is statistiek? 

Statistiek 

Definitie: Statistiek 

De studie van de variabiliteit. 

Een geheel van methodologieën voor het verzamelen, voorstellen, analyseren en interpreteren van data of 

gegevens. 

verwijst altijd naar numerieke informatie 

belangrijke hulpwetenschap 

gegevens zijn tegenwoordig massaal aanwezig dankzij de informatisering 

Studie-object van de statistiek 

Populaties van objecten: Belgische bevolking, klanten van een grootwarenhuis, 

verzekeringsnemers, . . . 

Processen die objecten genereren: Industriële en chemische productieprocessen 

Variabelen (gegevens): Geregistreerde eigenschappen of karakteristieken 

Steekproef: Slechts een deel van de objecten wordt bestudeerd 

GIGO (Garbage In, Garbage Out): Het feit dat de meest geavanceerde statistische 

methoden weinig tot geen betrouwbare informatie 

kunnen halen uit gegevens van slechte kwaliteit. 

Takken van de statistiek 

1) Beschrijvende-/Descriptieve statistiek 

a. beschrijven van steekproefgegevens 

b. overzichtelijk voorstellen 

c. berekenen van een aantal kenmerkende waarden (gemiddelde, variantie, . . . ) 

2) Verklarende-/Inferentiële statistiek 

a. analyseren en interpreteren van steekproefgegevens 

b. antwoorden vinden op vragen of hypothesen 

c. nagaan wat de waarde is van een model 

d. inferentie 

= veralgemenen naar de ganse populatie of het ganse proces 

Probleem: 

Op basis van een steekproef kunnen nooit met zekerheid uitspraken over een 

populatie of een proces gemaakt worden. 

oplossing: we kunnen wel iets zeggen over de betrouwbaarheid van de uitspraken: 

* Betrouwbaarheid, uitgedrukt in: kans(rekening) 

* Onbetrouwbaarheid, uitgedrukt in: foutenmarge 

Definitie: Kansrekening 

Kansrekenen bestudeert processen of experimenten waarvan de uitkomst onzeker is. 

Voorbeelden: 

gooien van een dobbelsteen, prijs van een aandeel over 1 jaar, vraag naar Dell computers gedurende een 

maand, percentage defecte producten op een productielijn gedurende een shift…

Hoofdstuk 2: Data en hun voorstelling 

Begrippen 

Discrete variabele: Eindig of oneindig aftelbaar aantal verschillende waarden aannemen 

Voorbeeld: aantal kinderen/gezin, aantal passagiers/vlucht… 

Continue variabele: Een continuüm van waarden kan aannemen 

Voorbeeld: lengte, duurtijd, BMI, gewicht… 

Data/gegevens: Informatie omtrent 1 of meerdere variabelen van een (beperkt) aantal 

elementen van een populatie of gegenereerd door een proces. 

Meetschalen 

1) Kwalitatieve of categorische variabelen: dicreet 

a. nominale meetschaal 

b. ordinale meetschaal 

2) Kwantitatieve variabelen: dicreet & continu 

a. Intervalschaal 

b. ratio meetschaal 

1) Kwalitatieve of categorische variabelen: 

a. Nominale variabelen 

Elementen van steekproef/populatie worden in een klasse of categorie geplaatst 

Voorbeelden: 

geslacht (man/vrouw), nationaliteit (Belg/Nederlander/. . . ), 

godsdienst (katholiek/protestants/. . . ), gemeente… 

Cijfercodes: 

man = 0, vrouw = 1, postnummers van gemeenten 

cijfercodes impliceren geen volgorde: 

rekenkundige bewerkingen zijn zinloos (behalve percentages)!! 

b. Ordinale variabelen 

Nominale variabelen waarbij er een ordening is tussen de klassen of categorieën 

Voorbeelden: 

aantalMichelinsterren van een restaurant, antwoorden op enquêtes: “1: helemaal eens”, 

“2: eerder eens”, “3: noch eens, noch oneens”, “4: eerder oneens” of “5: helemaal oneens” 

geen vaste meeteenheid 

rekenkundige bewerkingen zijn zinloos (behalve percentages)!! 

2) Kwantitatieve variabelen 

worden uitgedrukt in een aantal vaste meeteenheden 

Voorbeelden: 

lengte, gewicht, aantal verkochte auto’s, temperatuur, duurtijd, aantal Kb per tijdseenheid… 

bijna alle rekenkundige bewerkingen zinvol 

a. Intervalschaal: 

Geen natuurlijk nulpunt; geen natuurlijke ondergrens 

Voorbeeld: 

temperatuur (Celsius of Fahrenheit), tijd afgelezen op een klok 

verschil tussen 2 en 4 uur = verschil tussen 21 en 23 uur 

verhoudingen houden geen steek: 4 uur is niet dubbel zo laat als 2 uur 

b. Ratioschaal: 

Wel absoluut nulpunt; wel natuurlijke ondergrens 

Voorbeeld: 

lengte, gewicht, temperatuur (Kelvin). . . 

verhoudingen zijn wel zinvol: 2 meter is dubbel zo lang als 1m

Hiërarchie van de meetschalen 

I. Variabelen gemeten op ratioschaal zijn meest informatief 

II. Intervalschaal 

III. Ordinale schaal 

IV. Variabelen gemeten op nominale schaal zijn het minst informatief 

gegevens gemeten op een hogere schaal kunnen omgezet worden in gegevens op een lagere schaal, 

maar niet omgekeerd! 

statistische methoden voor lagere meetschalen kunnen gebruikt worden voor hogere meetschalen, 

maar niet omgekeerd! 

Datamatrix of gegevensmatrix 

= Gegevens worden voorgesteld in een matrix: 

Rijen: Elementen van een steekproef 

Kolommen: Verschillende gemeten variabelen 

Observatievector: Een rij in een datamatrix 

Voorbeeld: 

kolom 

rij 

Voorstellingen 

1) Univariate voorstelling: 

Voorstelling die betrekking heeft op 1 variabele 

2) Bivariate voorstelling: 

Voorstelling die betrekking heeft op 2 variabelen 

3) Multivariate voorstelling: 

Voorstelling die betrekking heeft op meerdere variabelen 

Voorstellen van univariate kwalitatieve variabelen 

1) Absolute frequenties en relatieve frequenties: 

a. Absolute- van een klasse: 

Het aantal elementen van de steekproef die tot de klasse behoren 

b. Relatieve- van een klasse: 

Verhouding van de klassenfrequentie tot het aantal waarnemingen 

of observaties in de steekproef 

2) Staafdiagram 

3) Paretodiagram: 

Diagram waarbij klassen volgens dalende frequentie worden herschikt en daarna cumulatief 

worden opgeteld: 

a. Vital few: Klassen met de hoogste frequentie 

b. Trivial many: Klassen met de laagste frequentie 

4) Cirkel-, sector- of taartdiagram

1) Frequenties en staafdiagram 

Absolute frequenties en relatieve frequenties: 

Absolute frequentie 

Staafdiagram van de frequenties: 

2) Staafdiagram 

3) Paretodiagram 

Cumulatieve, relatieve 

frequentie 

4) Cirkel-, sector- of taartdiagram

Voorstellen van univariate kwantitatieve variabelen 

1) Stam- en bladdiagram 

aantal stammen = √(aantal waarnemingen) 

2) Naalddiagram 

absolute- en relatieve frequentie 

3) Histogram 

aantal klassen = √(aantal waarnemingen) 

som van de oppervlakten = 1 

Interval onderverdeeld in een aantal klassen/deelintervallen 

rechthoeken 

4) (Frequentie) polygoon 

Interval onderverdeeld in een aantal klassen/deelintervallen 

toppen van de rechthoeken zijn met elkaar verbonden adhv een lijnstuk 

5) Empirische cumulatieve verdelingsfunctie 

1) Stam- en bladdiagram 2) Naalddiagram voor discrete variabelen 

3) Histogram voor continue variabelen 4) Frequentiepolygoon voor continue variabelen 

5) Empirische cumulatieve verdelingsfunctie

Voorstellen van bivariate variabelen 

1) Kruistabel 

= meervoudig staafdiagram 

tabelvorm 

2 verschillende voorstellingen: 

2demensionaal: 

o Staven naast elkaar 

o Staven op elkaar (relatieve frequentie) 

3demensionaal: 

o Staven naast elkaar 

o Staven op elkaar (relatieve frequentie) 

2) Puntenwolk/scatter plot 

= elke waarneming van de steekproef wordt door een punt voorgesteld 

puntenconfiguratie 

3) Tijdreeks 

1) Kruistabel 

2) Puntenwolk 3) Tijdreeks

Voorstellen van multivariate variabelen 

1) Gestratificeerde puntenwolk 

= verschillende symbolen worden voor verschillende categorieën gebruikt 

2) Bubble plot 

= puntenwolk waarbij elk symbool een verschillende grootte bezit 

1) Gestratificeerde puntenwolk 

3 variabelen: 2 kwantitatieve- en 1 kwalitatieve variabele(n) 

2) Bubble plot 

3 variabelen: 3 kwantitatieve variabelen

Hoofdstuk 3: Beschrijvende statistieken van steekproefgegevens 

Wat? 

1. Kengetallen of statistieken 

samenvatting van steekproefgegevens 

ligging/locatie, spreiding en scheefheid 

aangeduid m.b.v. Romeinse letters 

niet alle kengetallen kunnen voor alle meetschalen gebruikt worden 

2. Parameters 

kengetallen worden berekend voor een volledige populatie of een gans proces 

aangeduid m.b.v. Griekse letters 

Kengetallen en statistieken

Kengetallen van centrale ligging of locatie 

= waarden die het best de centrale ligging van de gegevens beschrijven 

indicatie van hoe groot of hoe klein de gegevens zijn 

1) De MODUS 

Definitie: Modus voor gegroepeerde gegevens 

M0 van een verzameling gegroepeerde waarnemingen is het klassencentrum van de modale klasse, 

waarbij de modale klasse de klasse is met de grootste frequentie. 

Modus ≠ uniek: 

Unimodaal histogram: 1 top 

Bimodaal histogram: 2 toppen 

Multimodaal histogram: > 1 top 

voor elk type van gegevens 

2) De MEDIAAN 

Definitie: Mediaan van een verzameling waarnemingen 

Me is het middelste element van geordende data: 

* aantal elementen n oneven: ((n+1)/2)de element 

* aantal elementen n even: gemiddelde van het (n/2)de en het (n/2+1)de element 

voor ordinale gegevens en kwantitatieve gegevens 

Voorbeeld: 

16, 13, 14, 17, 14, 16, 17, 16, 15, 13 

n = 10 n/2 = 5 en n/2+1 = 6 

geordend: 13, 13, 14, 14, 15, 16, 16, 16, 17, 17 

Me = (15+16)/2 = 15.5 

Eigenschappen: de Mediaan (Me) 

Ongeveer 50% van de waarnemingen ligt onder of boven de mediaan 

De mediaan wordt niet beïnvloed door een klein aantal extreme waarnemingen 

!! De som van de absolute afwijkingen van de waarnemingen xi t.o.v. een constante c, 

, is minimaal indien c = Me 

De mediaan is het gemiddelde van een afgeknotte dataset waarin alleen de middenste (de 2 

middenste) waarneming(en) behouden blijft (blijven). 

3) Het REKENKUNDIG GEMIDDELDE 

Definitie: Rekenkundig gemiddelde van waarnemingen 

Het rekenkundig gemiddelde van de waarnemingen x1,…,xn is 

Voorbeeld: 

= (16+13+14+17+14+16+17+16+15+13)= 15.1 

Unimodaal 

histogram

Definitie: Rekenkundig gemiddelde bij gegroepeerde gegevens 

Rekenkundig gemiddelde bij gegroepeerde gegevens: 

waarbij xi het klassencentrum van de i-de klasse is, fi de frequentie van de i-de klasse, n de aantal 

waarnemingen en k de aantal klassen. 

Voorbeeld: 

= (11×0+38×1+32×2+9×3+6×4+3×5+1×6) = 1.74 

Eigenschappen: Het steekproefgemiddelde 

De som van alle waarnemingen is gelijk aan het rekenkundig gemiddelde vermenigvuldigd 

met de steekproefgrootte n : 

De som van de afwijkingen van de waarnemingen t.o.v. het gemiddelde is nul: 

De som van de gekwadrateerde afwijkingen van de waarnemingen t.o.v. een constante c, 

, is minimaal indien c = 

Het rekenkundig gemiddelde van een aantal constanten a,…,a is gelijk aan die constante 

zelf: 

Het rekenkundig gemiddelde van een aantal gegevens x1,…xn, waarop eenzelfde lineaire 

transformatie wordt toegepast zodat de getransformeerde dataset ax1 + b,…, axn + b wordt 

bekomen, is niets anders dan dezelfde lineaire combinatie van het gemiddelde van de 

oorspronkelijke dataset: a 

Voor- en nadelen van het rekenkundig gemiddelde 

VD: gebruikt alle waarnemingen 

ND: gevoelig voor extreme waarden (in tegenstelling tot mediaan) 

uitbijters, uitschieters of outliers 

Voorbeeld: 

(16+13+14+17+14+16+17+16+15+13) = 15.1 

(16+13+14+17+14+16+17+16+15+130) = 26.8 

in sommige toepassingen is het geometrisch/meetkundig gemiddelde meer aangewezen 

(vb.gemiddelde intrestvoeten) 

Definitie: Meetkundig gemiddelde van een verzameling waarnemingen 

Het meetkundig gemiddelde G van een verzameling waarnemingen x1, … , xn is 

enkel zinvol voor positieve waarnemingen!

Maatstaven van relatieve ligging 

geeft de positie van een waarneming weer in vergelijking met de waarden van de andere waarnemingen 

1) Ordestatistiek: minimum en maximum 

2) Percentiel of kwantiel 

3) Deciel: wanneer (100 x p) een veelvoud is van 10 

4) Kwartiel 

5) Mediaan: 5 e deciel = 50 ste percentiel = kwartiel c0.5 

1) Ordestatistiek of -kengetal 

Definitie: Ordestatistiek of -kengetal 

i-de ordestatistiek of -kengetal x(i) in een steekproef van een waarneming is de i-de waarneming nadat de 

gegevens gerangschikt zijn van klein naar groot. 

x(i) is het i-de kleinste getal 

Voorbeeld: 

geordend: 13, 13, 14, 14, 15, 16, 16, 16, 17, 17 

x(1) = 13 (minimum), x(4) = 14, x(10) = 17 (maximum) 

2) Percentielen of kwantielen 

Definitie: Percentielen of kwantielen 

(100×p) ste percentiel of kwantiel cp, met 0 

A. De elementaire spreidingsmaten: 

kunnen gebruikt worden voor ordinale en kwantitatieve gegevens 

1. Spreidingsbreedte = Range, R: 

2. Interkwartielbreedte, Q: 

Definitie: Spreidingsbreedte 

De spreidingsbreedte of range, R, van een verzameling is het verschil tussen de waarde van de grootste en 

kleinste waarneming, of 

gevoelig voor uitschieters! 

Definitie: Interkwartielbreedte 

De interkwartielbreedte, Q, is gedefinieerd als het verschil tussen het 3 e en het 1 e kwartiel: 

. 

ongevoelig voor uitschieters! 

Boxplot 

= grafische voorstelling van univariate, ordinale of kwantitatieve gegevens. 

Extreme waarden: 

1. Mogelijk extreem: 

2. Extreem: 

B. Andere maten van spreiding 

enkel voor kwantitatieve gegevens 

1. Gemiddelde Absolute Afwijking, MAD: 

2. Steekproefvariantie, s 2 : 

of 

Snorharen = whiskers 

Definitie: Gemiddelde absolute afwijking = Mean Absolute Deviation, MAD: 

De Gemiddelde absolute afwijking of Mean Absolute Deviation, MAD, is het gemiddelde van alle afwijkingen 

van het rekenkundig gemiddelde in absolute waarde:

Definitie: Steekproefvariantie, s 2 , van een verzameling waarnemingen 

De steekproefvariantie, s 2 , van een verzameling waarnemingen x1,…,xn is het gemiddelde van 

gekwadrateerde afwijkingen t.o.v. het rekenkundig gemiddelde, , waarbij gedeeld wordt door n-1 i.p.v. n: 

of 

BEWIJS: Steekproefvariantie-formules (p41): 

= 

Gebruik van het feit dat: 

Definitie: Steekproefvariantie, s 2 , bij gegroepeerde gegevens 

De steekproefvariantie, s 2 , bij gegroepeerde gegevens: 

waarbij het klassencentrum van de i-de klasse, i de frequentie van de i-de klasse, n het aantal 

waarnemingen en k het aantal klassen. 

vrijheidsgraden: de noemer = (n-1) 

Opmerkingen: 

Variantie 

Positief 

enkel nul wanneer waarden idem zijn 

uitgedrukt in een eenheid die het kwadraat is van de originele meeteenheid

Voorbeeld: 

BEWIJS: 

De variantie van een lineaire transformatie y1 = ax1 + b,…, yn = axn + b van de waarnemingen x1,…,xn 

waarbij a en b constanten zijn, is gelijk aan de variantie van de oorspronkelijke gegevens vermenigvuldigd 

met a 2 .

C. Nog andere maten van spreiding 

enkel voor kwantitatieve gegevens 

1. Steekproefstandaarddeviatie, s: 

2. Variatiecoëfficiënt, VC: 

Definitie: Steekproefstandaarddeviatie, s 

De steekproefstandaarddeviatie of de -afwijking is de (positieve) √ van de steekproefvariantie: 

uitgedrukt in dezelfde eenheid als de oorspronkelijke eenheid 

BEWIJS: 

Wanneer we slechts over 2 waarnemingen beschikken, dan leveren de steekproefstandaarddeviatie 

( ) en de spreidingsbreedte ( ) identiek dezelfde informatie: 

 

(zie bewijs: Steekproefvariantie-formules)

116 Statistiek - Quickprinter

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?