13.09.2013 Views

116 Statistiek - Quickprinter

116 Statistiek - Quickprinter

116 Statistiek - Quickprinter

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>116</strong><br />

1ste bach TEW (HIR)<br />

<strong>Statistiek</strong> I<br />

Goos - Kessels<br />

Q uickprinter<br />

Koningstraat 13<br />

2000 Antwerpen<br />

www.quickprinter.be<br />

4.25 EUR


QUICKPRINTER<br />

Copy & Printshop<br />

Koningstraat 13 - 2000 Antwerpen<br />

Tel. : 03 233 22 11<br />

Kopies - Kleurenkopies - Thesis - Studentencursussen - Inbinden<br />

www.quickprinter.be<br />

NIEUW !!!<br />

Verkooppunt 2de hands boeken!<br />

Biedt je oude boeken via ons te koop aan!<br />

OPENINGSUREN :<br />

Maandag tot en met donderdag<br />

van 9.00u tot 18.00u<br />

Vrijdag van 9.00u tot 17.00u


<strong>Statistiek</strong> met (bedrijfs)economische toepassingen 1<br />

SAMENVATTING<br />

Bewijzen van in het boek<br />

Bewijzen die we zelf moesten vinden (“het is een goede oefening om…”)<br />

Gebruik gemaakt van slides tijdens hoorcollege<br />

Voorbeeldoefeningen die de definities etc. verduidelijken<br />

Definities, eigenschappen, opmerkingen enz. van uit het boek<br />

…<br />

Vergeet niet het 2 e boek (‘Kansen en Verwachtingen-Vraagstukken over<br />

kansrekening en statistiek’) ook te doornemen!<br />

Veel succes!!


Hoofdstuk 1: Wat is statistiek?<br />

<strong>Statistiek</strong><br />

Definitie: <strong>Statistiek</strong><br />

De studie van de variabiliteit.<br />

Een geheel van methodologieën voor het verzamelen, voorstellen, analyseren en interpreteren van data of<br />

gegevens.<br />

verwijst altijd naar numerieke informatie<br />

belangrijke hulpwetenschap<br />

gegevens zijn tegenwoordig massaal aanwezig dankzij de informatisering<br />

Studie-object van de statistiek<br />

Populaties van objecten: Belgische bevolking, klanten van een grootwarenhuis,<br />

verzekeringsnemers, . . .<br />

Processen die objecten genereren: Industriële en chemische productieprocessen<br />

Variabelen (gegevens): Geregistreerde eigenschappen of karakteristieken<br />

Steekproef: Slechts een deel van de objecten wordt bestudeerd<br />

GIGO (Garbage In, Garbage Out): Het feit dat de meest geavanceerde statistische<br />

methoden weinig tot geen betrouwbare informatie<br />

kunnen halen uit gegevens van slechte kwaliteit.<br />

Takken van de statistiek<br />

1) Beschrijvende-/Descriptieve statistiek<br />

a. beschrijven van steekproefgegevens<br />

b. overzichtelijk voorstellen<br />

c. berekenen van een aantal kenmerkende waarden (gemiddelde, variantie, . . . )<br />

2) Verklarende-/Inferentiële statistiek<br />

a. analyseren en interpreteren van steekproefgegevens<br />

b. antwoorden vinden op vragen of hypothesen<br />

c. nagaan wat de waarde is van een model<br />

d. inferentie<br />

= veralgemenen naar de ganse populatie of het ganse proces<br />

Probleem:<br />

Op basis van een steekproef kunnen nooit met zekerheid uitspraken over een<br />

populatie of een proces gemaakt worden.<br />

oplossing: we kunnen wel iets zeggen over de betrouwbaarheid van de uitspraken:<br />

* Betrouwbaarheid, uitgedrukt in: kans(rekening)<br />

* Onbetrouwbaarheid, uitgedrukt in: foutenmarge<br />

Definitie: Kansrekening<br />

Kansrekenen bestudeert processen of experimenten waarvan de uitkomst onzeker is.<br />

Voorbeelden:<br />

gooien van een dobbelsteen, prijs van een aandeel over 1 jaar, vraag naar Dell computers gedurende een<br />

maand, percentage defecte producten op een productielijn gedurende een shift…


Hoofdstuk 2: Data en hun voorstelling<br />

Begrippen<br />

Discrete variabele: Eindig of oneindig aftelbaar aantal verschillende waarden aannemen<br />

Voorbeeld: aantal kinderen/gezin, aantal passagiers/vlucht…<br />

Continue variabele: Een continuüm van waarden kan aannemen<br />

Voorbeeld: lengte, duurtijd, BMI, gewicht…<br />

Data/gegevens: Informatie omtrent 1 of meerdere variabelen van een (beperkt) aantal<br />

elementen van een populatie of gegenereerd door een proces.<br />

Meetschalen<br />

1) Kwalitatieve of categorische variabelen: dicreet<br />

a. nominale meetschaal<br />

b. ordinale meetschaal<br />

2) Kwantitatieve variabelen: dicreet & continu<br />

a. Intervalschaal<br />

b. ratio meetschaal<br />

1) Kwalitatieve of categorische variabelen:<br />

a. Nominale variabelen<br />

Elementen van steekproef/populatie worden in een klasse of categorie geplaatst<br />

Voorbeelden:<br />

geslacht (man/vrouw), nationaliteit (Belg/Nederlander/. . . ),<br />

godsdienst (katholiek/protestants/. . . ), gemeente…<br />

Cijfercodes:<br />

man = 0, vrouw = 1, postnummers van gemeenten<br />

cijfercodes impliceren geen volgorde:<br />

rekenkundige bewerkingen zijn zinloos (behalve percentages)!!<br />

b. Ordinale variabelen<br />

Nominale variabelen waarbij er een ordening is tussen de klassen of categorieën<br />

Voorbeelden:<br />

aantalMichelinsterren van een restaurant, antwoorden op enquêtes: “1: helemaal eens”,<br />

“2: eerder eens”, “3: noch eens, noch oneens”, “4: eerder oneens” of “5: helemaal oneens”<br />

geen vaste meeteenheid<br />

rekenkundige bewerkingen zijn zinloos (behalve percentages)!!<br />

2) Kwantitatieve variabelen<br />

worden uitgedrukt in een aantal vaste meeteenheden<br />

Voorbeelden:<br />

lengte, gewicht, aantal verkochte auto’s, temperatuur, duurtijd, aantal Kb per tijdseenheid…<br />

bijna alle rekenkundige bewerkingen zinvol<br />

a. Intervalschaal:<br />

Geen natuurlijk nulpunt; geen natuurlijke ondergrens<br />

Voorbeeld:<br />

temperatuur (Celsius of Fahrenheit), tijd afgelezen op een klok<br />

verschil tussen 2 en 4 uur = verschil tussen 21 en 23 uur<br />

verhoudingen houden geen steek: 4 uur is niet dubbel zo laat als 2 uur<br />

b. Ratioschaal:<br />

Wel absoluut nulpunt; wel natuurlijke ondergrens<br />

Voorbeeld:<br />

lengte, gewicht, temperatuur (Kelvin). . .<br />

verhoudingen zijn wel zinvol: 2 meter is dubbel zo lang als 1m


Hiërarchie van de meetschalen<br />

I. Variabelen gemeten op ratioschaal zijn meest informatief<br />

II. Intervalschaal<br />

III. Ordinale schaal<br />

IV. Variabelen gemeten op nominale schaal zijn het minst informatief<br />

gegevens gemeten op een hogere schaal kunnen omgezet worden in gegevens op een lagere schaal,<br />

maar niet omgekeerd!<br />

statistische methoden voor lagere meetschalen kunnen gebruikt worden voor hogere meetschalen,<br />

maar niet omgekeerd!<br />

Datamatrix of gegevensmatrix<br />

= Gegevens worden voorgesteld in een matrix:<br />

Rijen: Elementen van een steekproef<br />

Kolommen: Verschillende gemeten variabelen<br />

Observatievector: Een rij in een datamatrix<br />

Voorbeeld:<br />

kolom<br />

rij<br />

Voorstellingen<br />

1) Univariate voorstelling:<br />

Voorstelling die betrekking heeft op 1 variabele<br />

2) Bivariate voorstelling:<br />

Voorstelling die betrekking heeft op 2 variabelen<br />

3) Multivariate voorstelling:<br />

Voorstelling die betrekking heeft op meerdere variabelen<br />

Voorstellen van univariate kwalitatieve variabelen<br />

1) Absolute frequenties en relatieve frequenties:<br />

a. Absolute- van een klasse:<br />

Het aantal elementen van de steekproef die tot de klasse behoren<br />

b. Relatieve- van een klasse:<br />

Verhouding van de klassenfrequentie tot het aantal waarnemingen<br />

of observaties in de steekproef<br />

2) Staafdiagram<br />

3) Paretodiagram:<br />

Diagram waarbij klassen volgens dalende frequentie worden herschikt en daarna cumulatief<br />

worden opgeteld:<br />

a. Vital few: Klassen met de hoogste frequentie<br />

b. Trivial many: Klassen met de laagste frequentie<br />

4) Cirkel-, sector- of taartdiagram


1) Frequenties en staafdiagram<br />

Absolute frequenties en relatieve frequenties:<br />

Absolute frequentie<br />

Staafdiagram van de frequenties:<br />

2) Staafdiagram<br />

3) Paretodiagram<br />

Cumulatieve, relatieve<br />

frequentie<br />

4) Cirkel-, sector- of taartdiagram


Voorstellen van univariate kwantitatieve variabelen<br />

1) Stam- en bladdiagram<br />

aantal stammen = √(aantal waarnemingen)<br />

2) Naalddiagram<br />

absolute- en relatieve frequentie<br />

3) Histogram<br />

aantal klassen = √(aantal waarnemingen)<br />

som van de oppervlakten = 1<br />

Interval onderverdeeld in een aantal klassen/deelintervallen<br />

rechthoeken<br />

4) (Frequentie) polygoon<br />

Interval onderverdeeld in een aantal klassen/deelintervallen<br />

toppen van de rechthoeken zijn met elkaar verbonden adhv een lijnstuk<br />

5) Empirische cumulatieve verdelingsfunctie<br />

1) Stam- en bladdiagram 2) Naalddiagram voor discrete variabelen<br />

3) Histogram voor continue variabelen 4) Frequentiepolygoon voor continue variabelen<br />

5) Empirische cumulatieve verdelingsfunctie


Voorstellen van bivariate variabelen<br />

1) Kruistabel<br />

= meervoudig staafdiagram<br />

tabelvorm<br />

2 verschillende voorstellingen:<br />

2demensionaal:<br />

o Staven naast elkaar<br />

o Staven op elkaar (relatieve frequentie)<br />

3demensionaal:<br />

o Staven naast elkaar<br />

o Staven op elkaar (relatieve frequentie)<br />

2) Puntenwolk/scatter plot<br />

= elke waarneming van de steekproef wordt door een punt voorgesteld<br />

puntenconfiguratie<br />

3) Tijdreeks<br />

1) Kruistabel<br />

2) Puntenwolk 3) Tijdreeks


Voorstellen van multivariate variabelen<br />

1) Gestratificeerde puntenwolk<br />

= verschillende symbolen worden voor verschillende categorieën gebruikt<br />

2) Bubble plot<br />

= puntenwolk waarbij elk symbool een verschillende grootte bezit<br />

1) Gestratificeerde puntenwolk<br />

3 variabelen: 2 kwantitatieve- en 1 kwalitatieve variabele(n)<br />

2) Bubble plot<br />

3 variabelen: 3 kwantitatieve variabelen


Hoofdstuk 3: Beschrijvende statistieken van steekproefgegevens<br />

Wat?<br />

1. Kengetallen of statistieken<br />

samenvatting van steekproefgegevens<br />

ligging/locatie, spreiding en scheefheid<br />

aangeduid m.b.v. Romeinse letters<br />

niet alle kengetallen kunnen voor alle meetschalen gebruikt worden<br />

2. Parameters<br />

kengetallen worden berekend voor een volledige populatie of een gans proces<br />

aangeduid m.b.v. Griekse letters<br />

Kengetallen en statistieken


Kengetallen van centrale ligging of locatie<br />

= waarden die het best de centrale ligging van de gegevens beschrijven<br />

indicatie van hoe groot of hoe klein de gegevens zijn<br />

1) De MODUS<br />

Definitie: Modus voor gegroepeerde gegevens<br />

M0 van een verzameling gegroepeerde waarnemingen is het klassencentrum van de modale klasse,<br />

waarbij de modale klasse de klasse is met de grootste frequentie.<br />

Modus ≠ uniek:<br />

Unimodaal histogram: 1 top<br />

Bimodaal histogram: 2 toppen<br />

Multimodaal histogram: > 1 top<br />

voor elk type van gegevens<br />

2) De MEDIAAN<br />

Definitie: Mediaan van een verzameling waarnemingen<br />

Me is het middelste element van geordende data:<br />

* aantal elementen n oneven: ((n+1)/2)de element<br />

* aantal elementen n even: gemiddelde van het (n/2)de en het (n/2+1)de element<br />

voor ordinale gegevens en kwantitatieve gegevens<br />

Voorbeeld:<br />

16, 13, 14, 17, 14, 16, 17, 16, 15, 13<br />

n = 10 n/2 = 5 en n/2+1 = 6<br />

geordend: 13, 13, 14, 14, 15, 16, 16, 16, 17, 17<br />

Me = (15+16)/2 = 15.5<br />

Eigenschappen: de Mediaan (Me)<br />

Ongeveer 50% van de waarnemingen ligt onder of boven de mediaan<br />

De mediaan wordt niet beïnvloed door een klein aantal extreme waarnemingen<br />

!! De som van de absolute afwijkingen van de waarnemingen xi t.o.v. een constante c,<br />

, is minimaal indien c = Me<br />

De mediaan is het gemiddelde van een afgeknotte dataset waarin alleen de middenste (de 2<br />

middenste) waarneming(en) behouden blijft (blijven).<br />

3) Het REKENKUNDIG GEMIDDELDE<br />

Definitie: Rekenkundig gemiddelde van waarnemingen<br />

Het rekenkundig gemiddelde van de waarnemingen x1,…,xn is<br />

Voorbeeld:<br />

= (16+13+14+17+14+16+17+16+15+13)= 15.1<br />

Unimodaal<br />

histogram


Definitie: Rekenkundig gemiddelde bij gegroepeerde gegevens<br />

Rekenkundig gemiddelde bij gegroepeerde gegevens:<br />

waarbij xi het klassencentrum van de i-de klasse is, fi de frequentie van de i-de klasse, n de aantal<br />

waarnemingen en k de aantal klassen.<br />

Voorbeeld:<br />

= (11×0+38×1+32×2+9×3+6×4+3×5+1×6) = 1.74<br />

Eigenschappen: Het steekproefgemiddelde<br />

De som van alle waarnemingen is gelijk aan het rekenkundig gemiddelde vermenigvuldigd<br />

met de steekproefgrootte n :<br />

De som van de afwijkingen van de waarnemingen t.o.v. het gemiddelde is nul:<br />

De som van de gekwadrateerde afwijkingen van de waarnemingen t.o.v. een constante c,<br />

, is minimaal indien c =<br />

Het rekenkundig gemiddelde van een aantal constanten a,…,a is gelijk aan die constante<br />

zelf:<br />

Het rekenkundig gemiddelde van een aantal gegevens x1,…xn, waarop eenzelfde lineaire<br />

transformatie wordt toegepast zodat de getransformeerde dataset ax1 + b,…, axn + b wordt<br />

bekomen, is niets anders dan dezelfde lineaire combinatie van het gemiddelde van de<br />

oorspronkelijke dataset: a<br />

Voor- en nadelen van het rekenkundig gemiddelde<br />

VD: gebruikt alle waarnemingen<br />

ND: gevoelig voor extreme waarden (in tegenstelling tot mediaan)<br />

uitbijters, uitschieters of outliers<br />

Voorbeeld:<br />

(16+13+14+17+14+16+17+16+15+13) = 15.1<br />

(16+13+14+17+14+16+17+16+15+130) = 26.8<br />

in sommige toepassingen is het geometrisch/meetkundig gemiddelde meer aangewezen<br />

(vb.gemiddelde intrestvoeten)<br />

Definitie: Meetkundig gemiddelde van een verzameling waarnemingen<br />

Het meetkundig gemiddelde G van een verzameling waarnemingen x1, … , xn is<br />

enkel zinvol voor positieve waarnemingen!


Maatstaven van relatieve ligging<br />

geeft de positie van een waarneming weer in vergelijking met de waarden van de andere waarnemingen<br />

1) Ordestatistiek: minimum en maximum<br />

2) Percentiel of kwantiel<br />

3) Deciel: wanneer (100 x p) een veelvoud is van 10<br />

4) Kwartiel<br />

5) Mediaan: 5 e deciel = 50 ste percentiel = kwartiel c0.5<br />

1) Ordestatistiek of -kengetal<br />

Definitie: Ordestatistiek of -kengetal<br />

i-de ordestatistiek of -kengetal x(i) in een steekproef van een waarneming is de i-de waarneming nadat de<br />

gegevens gerangschikt zijn van klein naar groot.<br />

x(i) is het i-de kleinste getal<br />

Voorbeeld:<br />

geordend: 13, 13, 14, 14, 15, 16, 16, 16, 17, 17<br />

x(1) = 13 (minimum), x(4) = 14, x(10) = 17 (maximum)<br />

2) Percentielen of kwantielen<br />

Definitie: Percentielen of kwantielen<br />

(100×p) ste percentiel of kwantiel cp, met 0 < p


Spreiding<br />

A. De elementaire spreidingsmaten:<br />

kunnen gebruikt worden voor ordinale en kwantitatieve gegevens<br />

1. Spreidingsbreedte = Range, R:<br />

2. Interkwartielbreedte, Q:<br />

Definitie: Spreidingsbreedte<br />

De spreidingsbreedte of range, R, van een verzameling is het verschil tussen de waarde van de grootste en<br />

kleinste waarneming, of<br />

gevoelig voor uitschieters!<br />

Definitie: Interkwartielbreedte<br />

De interkwartielbreedte, Q, is gedefinieerd als het verschil tussen het 3 e en het 1 e kwartiel:<br />

.<br />

ongevoelig voor uitschieters!<br />

Boxplot<br />

= grafische voorstelling van univariate, ordinale of kwantitatieve gegevens.<br />

Extreme waarden:<br />

1. Mogelijk extreem:<br />

2. Extreem:<br />

B. Andere maten van spreiding<br />

enkel voor kwantitatieve gegevens<br />

1. Gemiddelde Absolute Afwijking, MAD:<br />

2. Steekproefvariantie, s 2 :<br />

of<br />

Snorharen = whiskers<br />

Definitie: Gemiddelde absolute afwijking = Mean Absolute Deviation, MAD:<br />

De Gemiddelde absolute afwijking of Mean Absolute Deviation, MAD, is het gemiddelde van alle afwijkingen<br />

van het rekenkundig gemiddelde in absolute waarde:


Definitie: Steekproefvariantie, s 2 , van een verzameling waarnemingen<br />

De steekproefvariantie, s 2 , van een verzameling waarnemingen x1,…,xn is het gemiddelde van<br />

gekwadrateerde afwijkingen t.o.v. het rekenkundig gemiddelde, , waarbij gedeeld wordt door n-1 i.p.v. n:<br />

of<br />

BEWIJS: Steekproefvariantie-formules (p41):<br />

=<br />

Gebruik van het feit dat:<br />

Definitie: Steekproefvariantie, s 2 , bij gegroepeerde gegevens<br />

De steekproefvariantie, s 2 , bij gegroepeerde gegevens:<br />

waarbij het klassencentrum van de i-de klasse, i de frequentie van de i-de klasse, n het aantal<br />

waarnemingen en k het aantal klassen.<br />

vrijheidsgraden: de noemer = (n-1)<br />

Opmerkingen:<br />

Variantie<br />

Positief<br />

enkel nul wanneer waarden idem zijn<br />

uitgedrukt in een eenheid die het kwadraat is van de originele meeteenheid


Voorbeeld:<br />

BEWIJS:<br />

De variantie van een lineaire transformatie y1 = ax1 + b,…, yn = axn + b van de waarnemingen x1,…,xn<br />

waarbij a en b constanten zijn, is gelijk aan de variantie van de oorspronkelijke gegevens vermenigvuldigd<br />

met a 2 .


C. Nog andere maten van spreiding<br />

enkel voor kwantitatieve gegevens<br />

1. Steekproefstandaarddeviatie, s:<br />

2. Variatiecoëfficiënt, VC:<br />

Definitie: Steekproefstandaarddeviatie, s<br />

De steekproefstandaarddeviatie of de -afwijking is de (positieve) √ van de steekproefvariantie:<br />

uitgedrukt in dezelfde eenheid als de oorspronkelijke eenheid<br />

BEWIJS:<br />

Wanneer we slechts over 2 waarnemingen beschikken, dan leveren de steekproefstandaarddeviatie<br />

( ) en de spreidingsbreedte ( ) identiek dezelfde informatie:<br />

<br />

(zie bewijs: Steekproefvariantie-formules)

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!