Deskriptive Statistik Kapitel VII - Konzentration von Merkmalswerten

Deskriptive StatistikKapitel VII - Konzentration von MerkmalswertenGeorg Bolbol@statistik.uni-karlsruhe.deMarkus Höchstötterhoechstoetter@statistik.uni-karlsruhe.de

Mit der vorliegenden Bestellkarte können Sie wieder für sich, fürIhre Freunde und Bekannten Karten bestellen. Die Kartenwünschewerden in der Reihe des Bestelleingangs bearbeitet.Ab Anfang Oktober werden Ihnen die Karten per Post zugeschickt.Wir bitten um Verständnis für den kleinen Anteil für Versand undPorto von 2 €. Vorverkaufsgebühr wird nicht erhoben.Bitte Karten nur schriftlich per Post oder über unsere Homepagebestellen.FBI - Feuchter Bildung Initiative e.V.Bestellkarte Bitte die gewünschte Kartenanzahl in die leeren weißen Kästchen eintragen.Alle Veranstaltungen haben freie Platzwahl.Datum Veranstaltung Vorverkauf AbendkasseDo., 14.11.13 Django Asül 18 € 22 €Fr., 13.12.13 Leipziger Pfeffermühle 18 € 20 €Fr., 21.02.14 Mia Pittroff 17 € 19 €Fr., 14.03.14 Bernd Regenauer 18 € 20 €Falls Sie aufgrund körperlicher Beeinträchtigung auf einen speziellen Sitzplatzangewiesen sind, kontaktieren Sie uns bitte per Email oder Telefon.

EinleitungBei vielen Verteilungen sind Lage- und Streuungsparameter für die Analyse einerHäufigkeitsverteilung nicht ausreichend.Beispiel 7.1Bei einer Einkommensverteilung ist neben dem arithmetischen Mittel, also dem durchschnittlichenEinkommen, ein Streuungsparameter, z.B. die Standardabweichung, von Bedeutung, die etwasüber die Abweichung vom mittleren Einkommen aussagt. Die Standardabweichung ist allerdingsnicht genügend aussagekräftig, da die Verteilung sicherlich in der Regel nicht symmetrisch ist. Eskann z. B. viele mit geringeren Einkommen als dem Durchschnittseinkommen und einige wenigemit wesentlich höheren Einkommen geben. Das Ziel ist es diese Ungleichheit in der Verteilung derEinkommen mit Hilfe eines aussagekräftigen Maßes sichtbar und damit vergleichbar zu machen.Kapitel IV - Häufigkeitsverteilungen 2

EinleitungZiel: Beschreibung, graphische Darstellung und Messung von Ungleichheiten z.B. bei derVerteilung von ”Besitz”Gegeben: ”Besitz”-Verteilung in Form einer nichtnegativen geordneten Urliste0 ≤ x (1)≤ x (2)≤ . . . ≤ x (n)Gesamtbesitz: Positive Merkmalssummex =x (i)> 0ni=1Kapitel IV - Häufigkeitsverteilungen 3

EinleitungFrage: Wie ist die Merkmalssumme auf die n Personen verteilt?Extremfälle:• Alle besitzen gleich viel.• Einer besitzt alles.Kapitel IV - Häufigkeitsverteilungen 4

Agenda1. Einleitung2. Lorenzkurve3. Gini-Koeffizient4. Weitere KonzentrationsmaßeKapitel IV - Häufigkeitsverteilungen 5

LorenzkurveWichtigstes graphisches Hilfsmittel zur Verdeutlichung von Konzentrationsphänomenen.Ausgegangen wird dabei von einer geordneten nichtnegativen statistischen Reihe mit positiverSumme der Beobachtungswerte (Merkmalssumme)0 ≤ x (1) ≤ x (2) ≤ . . . ≤ x (n) , x =ni=1x (i) > 0Prinzip: Gegenüberstellung des• Anteils an der statistischen Masseund des• Anteils an der Merkmalssummeder k statistischen Einheitenmit den kleinsten MerkmalswertenKapitel IV - Häufigkeitsverteilungen 6

LorenzkurvenÈ=x (i)i=1Anteil an der Merkmalssumme, der auf die k statistischen Einheiten mit den kleinstenMerkmalswerten (x (1) , . . . , x (k) ) entfällt:v k =kÈx (i)i=1Anteil an der gesamten statistischen Masse:x (1)+ ... + x (k)x (1)+ ... + x (n)u k = k nDamit steht also dem Anteil u k an der statistischen Masse ein Anteil v k an der Merkmalssummegegenüber. Für k = 1, . . . , n trägt man die Punkte (u k , v k ) in ein Koordinatenkreuz ein undverbindet sie durch einen Streckenzug, beginnend mit dem Ursprung (0,0):Kapitel IV - Häufigkeitsverteilungen 7

LorenzkurveBeispiel 7.1Die geordnete statistische Reihe der Monatslöhne in einem mittleren Handwerksbetrieb laute wiefolgt in Euro:500, 1900, 2050, 2200, 2250, 2400, 2600, 2950, 4000, 5000.Merkmalssumme ist: 25850. Damit erhält man folgende Tabelle:u k 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0v k 0.02 0.09 0.17 0.26 0.34 0.44 0.54 0.65 0.81 1.0Und die folgende Lorenzkurve...Kapitel IV - Häufigkeitsverteilungen 9

LorenzkurveFigure 1: Abbildung 7.2 - Lorenzkurve zu Beispiel 7.1Kapitel IV - Häufigkeitsverteilungen 10

LorenzkurveEigenschaften der Lorenzkurve:• Die Lorenzkurve beginnt in (0,0) und endet in (1,1).• Die Lorenzkurve verläuft nirgendwo oberhalb der Diagonalen.• Die Lorenzkurve steigt monoton.• Die Lorenzkurve ist konvex.Kapitel IV - Häufigkeitsverteilungen 11

LorenzkurvenÈ= k · x 1x ii=1Anmerkung: Die Diagonale ist die Bezugskurve zur Lorenzkurve. Sind nämlich alle Beobachtungswertegleich...0 < x 1 = x 2 = . . . = xn,...so ist für k = 1, . . . , nv k =kÈx ii=1n · x 1= k n = u k .Die Diagonale gibt also den Zustand wieder, in dem die Merkmalssumme völlig gleichmäßig überdie Masse verteilt ist (”Gleichverteilung der Merkmalssumme”). Aus der Sicht der Konzentrationder Idealzustand ohne jegliche Konzentration.Dem Idealzustand der Gleichverteilung entgegengesetzt ist der Extremfall, dass die gesamteMerkmalssumme in einer statistischen Einheit vereint ist:0 = x (1) = . . . = x (n−1) < x (n) .Kapitel IV - Häufigkeitsverteilungen 12

LorenzkurveKapitel IV - Häufigkeitsverteilungen 13

LorenzkurveWeitere Anmerkung: Für großes n, also viele statistische Einheiten, erhält man bei vollständigerKonzentration ”‘nahezu”’ die Katheden des rechtwinkligen Dreiecks mit den Eckpunkten (0,0),(1,0), (1,1).Interpretation der Lorenzkurve: Je weiter die Lorenzkurve von der Diagonalen entfernt ist, jemehr die Lorenzkurve also durchhängt, desto größer ist die Konzentration.Kapitel IV - Häufigkeitsverteilungen 14

LorenzkurveBeispiel 7.2Gegeben ist die Häufigkeitsverteilunga 1 2 3h(a) 2 3 1p(a) 0.¯3 0.5 0.1¯6Geordnete Urliste ist dann: 1, 1, 2, 2, 2, 3; Merkmalssumme ist 11.Damit erhält man die Koordinaten der Lorenzkurve:u k 0 16263646561v k 0 1112114116118111Kapitel IV - Häufigkeitsverteilungen 15

LorenzkurveFigure 2: Abbildung 7.4 - Lorenzkurve zu Beispiel 7.2Anmerkung: Man sieht, dass übereinstimmende Merkmalswerte zu Geradenstücken gleicherSteigung führen. Es genügt also, die Werte für k = 2 und k = 5 zu berechnen.Kapitel IV - Häufigkeitsverteilungen 16

LorenzkurveErmittlung der Lorenzkurve aus der absoluten HäufigkeitsverteilungMerkmalssumme:=x a · h(a)a∈MZur Berechnung der Koordinaten sind die Merkmalsausprägungen zu ordnen:0 ≤ a 1 < a 2 < . . . < am.Kapitel IV - Häufigkeitsverteilungen 17

kÈv kkÈÈa i · h(a i )i=1=a · h(a)a∈MÈh(a i )i=1u k =h(a)a∈MLorenzkurveErmittlung der Lorenzkurve aus der absoluten HäufigkeitsverteilungAnteil der k niedrigsten Merkmalsausprägungen an der Merkmalssumme:Anteil dieser Merkmalsausprägungen an der statistischen Masse:Kapitel IV - Häufigkeitsverteilungen 18

LorenzkurveBeispiel 7.3Im Beispiel 7.2 erhält man die notwendigen Koordinaten der Lorenzkurveu k 0 26561v k 0 2118111Anmerkung: Der Unterschied besteht darin, dass hierbei lediglich die ”Knickstellen” derLorenzkurve berechnet werden.Kapitel IV - Häufigkeitsverteilungen 19

LorenzkurveErmittlung der Lorenzkurve aus der relativen HäufigkeitsverteilungAnteil der k niedrigsten Merkmalsausprägungen an der Merkmalssumme:v k =kÈÈa i · p(a i )i=1a · p(a)a∈MAnteil dieser Merkmalsausprägungen an der statistischen Masse:u k =p(a i )ki=1Kapitel IV - Häufigkeitsverteilungen 20

LorenzkurveBeispiel 7.4In Beispiel 7.2 erhält man3i=1a i p(a i ) = 1 · 13 + 2 · 12 + 3 · 16 = 11 6und damitv 1 =13116= 211 , v 2 = (1 3 + 1)116= 811 , v 3 = 1 wie in Beispiel 7.3.Kapitel IV - Häufigkeitsverteilungen 21

LorenzkurveErmittlung der Lorenzkurve bei klassierten MerkmalenWeder u k noch v k können gebildet werden. Seien I j die Klassen und h(I j ) bzw. p(I j ) dieabsoluten bzw. relativen Häufigkeiten. Die Klasse I hat damit den relativen Anteil p(I) = h(I)nander statistischen Masse. Seien also die Klassen I 1 , . . . , I m nach ihren Klassengrenzen geordnet,dann kann man statt u 1 , . . . , u n die folgenden Werte verwenden:p(I 1 ), p(I 1 ) + p(I 2 ), . . . ,mj=1p(I j )Kapitel IV - Häufigkeitsverteilungen 22

LorenzkurveErmittlung der Lorenzkurve bei klassierten MerkmalenDer Anteil an der Merkmalssumme einer Klasse I lässt sich nur anhand der Urliste oderder Häufigkeitsverteilung der unklassierten Daten feststellen. Geht man davon aus, dass dieKlassenmitte z I das arithmetische Mittel der Merkmalswerte der Klasse ist, so istz I h(I) Merkmalssumme der Klasse Iundmj=1z j h(I j ) Merkmalssumme der Gesamtmasse.Kapitel IV - Häufigkeitsverteilungen 23

LorenzkurvemÈmÈkÈz j p(I j )j=1Ermittlung der Lorenzkurve bei klassierten MerkmalenPunkte der Lorenzkurve für absolute Häufigkeiten:(u k , v k ) =¼kj=1p(I j ),Punkte der Lorenzkurve für relative Häufigkeiten:(u k , v k ) =¼kj=1p(I j ),kÈz j h(I j )j=1k = 0, . . . , mz j h(I j )½fürj=1k = 0, . . . , mz j p(I j )½fürj=1Kapitel IV - Häufigkeitsverteilungen 24

LorenzkurveBeispiel 7.5ÈMännerEinkommen in TEuro abs. H. rel. H. u k z j h(I j )Èz j h(I j ) v kunter 10 5 0.05 0.05 25 25 0.00810 bis unter 20 15 0.15 0.20 225 250 0.08520 bis unter 25 20 0.20 0.40 450 700 0.23725 bis unter 30 25 0.25 0.65 687.5 1387.5 0.47030 bis unter 40 20 0.20 0.85 700 2087.5 0.70840 bis unter 60 10 0.10 0.95 500 2587.5 0.87760 bis unter 85 5 0.05 1 362.5 2950 1100 1Für eine Verbrauchsstudie wurden die Nettojahreseinkommen von 100 Männern festgestellt:Kapitel IV - Häufigkeitsverteilungen 25

LorenzkurveFigure 3: Abbildung 7.5 - Lorenzkurve u Beispiel 7.5Kapitel IV - Häufigkeitsverteilungen 26


Gini-KoeffizientAnteil der Fläche zwischen der Diagonalen und der Lorenzkurve an Gesamtfläche unterhalb derDiagonalen. Er ist ein Maß für die Konzentration, die eben gerade der Abweichung der Lorenzkurvevon der Diagonalen entspricht.G =Fläche zwischen Diagonale D und Lorenzkurve LFläche zwischen Diagonale D und u-AchseKapitel IV - Häufigkeitsverteilungen 28

Gini-Koeffizient(u i ,v i )u iF i(u i+1 ,v i+1 )u i+1Abbildung 7.6 - Zur Berechnung des Gini-KoeffizientenKapitel IV - Häufigkeitsverteilungen 29

Gini-KoeffizientBerechnung des Gini-KoeffizientenFür F i giltF i = (u i+1 − u i ) · ( u i − v i2+ u i+1 − v i+1),2da F i (um 90 o gedreht) ein Trapez ist, mit der Höhe u i+1 − u i und der Mittellinie0.5((u i − v i ) + (u i+1 − v i+1 )).Kapitel IV - Häufigkeitsverteilungen 30

Damit istG =12ÈGini-Koeffizientn−1i=0(u i+1 −u i )(u i −v i +u i+1 −v i+1 )12= n−1(u i+1 − u i )(u i − v i + u i+1 − v i+1 )Èi=0Setzt man die Daten aus der geordneten Urliste ein, so erhält man nach einigem RechenaufwandG =2 · nÈi=1i · x (i) − (n + 1) · nÈi=1x (i)n · nÈi=1.x (i)Kapitel IV - Häufigkeitsverteilungen 31

Gini-KoeffizientBeispiel 7.6(1) In Beispiel 7.1 erhält man:G = 110· (2 · 0.08 + 2 · 0.11 + 2 · 0.13 + 2 · 0.14 + 2 · 0.16 + 2 · 0.16 ++2 · 0.16 + 2 · 0.15 + 2 · 0.09) = 2Nach der zweiten Formel erhält man:10· 1.18 = 0.24.G =2 · 172700 − 11 · 2585010 · 25850= 0.2361.Der Unterschied ist durch die Rundung der beiden Koordinaten (u k , v k ) begründet.Kapitel IV - Häufigkeitsverteilungen 32

Beispiel 7.6Gini-Koeffizient(2) Aus den Daten von Beispiel 7.2 bzw. 7.3 erhält man:G = 2 6 ·26 − 211+ 3 6 ·26 + 5 6 − 2 11 − 811+ 1 6 ·56 + 1 − 8= 2 6 · 1066 + 3 6 · 1766 + 1 6 · 766 = 786 · 66 = 1366 = 0.20.(3) Für die Einkommensverteilung der Männer lautet der Gini-Koeffizient:11 − 1G = 0.05 · 0.042 + 0.15 · 0.157 + 0.2 · 0.278 + 0.25 · 0.343 + 0.2 · 0.322+ 0.1 · 0.215 + 0.05 · 0.073= 0.257.Kapitel IV - Häufigkeitsverteilungen 33

Gini-KoeffizientBetrachte: Der Maximalwert des Gini-Koeffizienten ist für0 = x (1)= . . . = x (n−1), x (n)=x (i)ni=1nach der zweiten FormelGmax =2 · n · x (n)− (n + 1) · x (n)= n − 1n · x (n)nBei einer Maßzahl geht man üblicherweise von einem Maximalwert 1 aus. Aus diesem Grundnormiert man den Ginikoeffizienten.Kapitel IV - Häufigkeitsverteilungen 34

Gini-KoeffizientNormierter Gini-KoeffizientEs giltGnorm =nn − 1 · G.0 ≤ Gnorm ≤ 1undG normG norm= 1 bei vollständiger Konzentration,= 0 bei gleichmäßiger Verteilung der Merkmalssumme.Kapitel IV - Häufigkeitsverteilungen 35

Gini-KoeffizientKritikpunkte• Unterschiedliche Lorenzkurven können zu dem selben Gini-Koeffizienten führen.• Es besteht ein starke Abhängigkeit des Gini-Koeffizienten von der Zahl dereinbezogenen statistischen Einheinten. Weglassen von kleinen Merkmalswerten verringert G.• Der Gini-Koeffizient ist nur ein Maß für die relative Konzentration,nicht für die absolute Konzentration.Kapitel IV - Häufigkeitsverteilungen 36

Gini-KoeffizientBeispiel 7.7Die Messung der Wettbewerbskonzentration mit Hilfe des Gini-Koeffizienten auf zwei verschiedenenMärkten ergibt den selben Wert, obwohl die Märkte nicht identisch sind:• G = 0 für zwei Firmen mit je 50% Marktanteil• G = 0 für 20 Firmen mit je 5% MarktanteilKapitel IV - Häufigkeitsverteilungen 37

Gini-KoeffizientFigure 4: Abbildung 7.7 - Beispiel zweier Lorenzkurven mit übereinstimmendemGini-KoeffizientenKapitel IV - Häufigkeitsverteilungen 38


KonzentrationskoeffizientWeitere KonzentrationsmaßeCRg =nÈx (i)i=n−g+1i=1x (i)für g = (1, 2, )3, . . .CR g gibt an, welchen Anteil der Merkmalssumme die g letzten Merkmalswerte der geordnetenstatistischen Reihe in sich vereinen.Die Vorgehensweise entspricht der Konstruktion der Lorenzkurve, wobei die geordnete Urliste vonrechts nach links, also in umgekehrter Reihenfolge abgearbeitet wird.Die zugehörige Kurve wird üblicherweise als Paretokurve bezeichnet.Kapitel IV - Häufigkeitsverteilungen 40

Weitere KonzentrationsmaßeFigure 5: Abbildung 7.8 - ParetokurveKapitel IV - Häufigkeitsverteilungen 41

Herfindahl-IndexWeitere KonzentrationsmaßenÈ i½2H :=xni=1¼x iH ist die Summe der quadrierten individuellen Anteile an der Merkmalssumme. Je größer H ist,desto größer ist die Konzentration.i=1Kapitel IV - Häufigkeitsverteilungen 42

Deskriptive Statistik Kapitel VII - Konzentration von Merkmalswerten

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?