Deskriptive Statistik Kapitel VII - Konzentration von Merkmalswerten
Deskriptive Statistik Kapitel VII - Konzentration von Merkmalswerten
Deskriptive Statistik Kapitel VII - Konzentration von Merkmalswerten
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
<strong>Deskriptive</strong> <strong>Statistik</strong><strong>Kapitel</strong> <strong>VII</strong> - <strong>Konzentration</strong> <strong>von</strong> <strong>Merkmalswerten</strong>Georg Bolbol@statistik.uni-karlsruhe.deMarkus Höchstötterhoechstoetter@statistik.uni-karlsruhe.de
Mit der vorliegenden Bestellkarte können Sie wieder für sich, fürIhre Freunde und Bekannten Karten bestellen. Die Kartenwünschewerden in der Reihe des Bestelleingangs bearbeitet.Ab Anfang Oktober werden Ihnen die Karten per Post zugeschickt.Wir bitten um Verständnis für den kleinen Anteil für Versand undPorto <strong>von</strong> 2 €. Vorverkaufsgebühr wird nicht erhoben.Bitte Karten nur schriftlich per Post oder über unsere Homepagebestellen.FBI - Feuchter Bildung Initiative e.V.Bestellkarte Bitte die gewünschte Kartenanzahl in die leeren weißen Kästchen eintragen.Alle Veranstaltungen haben freie Platzwahl.Datum Veranstaltung Vorverkauf AbendkasseDo., 14.11.13 Django Asül 18 € 22 €Fr., 13.12.13 Leipziger Pfeffermühle 18 € 20 €Fr., 21.02.14 Mia Pittroff 17 € 19 €Fr., 14.03.14 Bernd Regenauer 18 € 20 €Falls Sie aufgrund körperlicher Beeinträchtigung auf einen speziellen Sitzplatzangewiesen sind, kontaktieren Sie uns bitte per Email oder Telefon.
EinleitungBei vielen Verteilungen sind Lage- und Streuungsparameter für die Analyse einerHäufigkeitsverteilung nicht ausreichend.Beispiel 7.1Bei einer Einkommensverteilung ist neben dem arithmetischen Mittel, also dem durchschnittlichenEinkommen, ein Streuungsparameter, z.B. die Standardabweichung, <strong>von</strong> Bedeutung, die etwasüber die Abweichung vom mittleren Einkommen aussagt. Die Standardabweichung ist allerdingsnicht genügend aussagekräftig, da die Verteilung sicherlich in der Regel nicht symmetrisch ist. Eskann z. B. viele mit geringeren Einkommen als dem Durchschnittseinkommen und einige wenigemit wesentlich höheren Einkommen geben. Das Ziel ist es diese Ungleichheit in der Verteilung derEinkommen mit Hilfe eines aussagekräftigen Maßes sichtbar und damit vergleichbar zu machen.<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 2
EinleitungZiel: Beschreibung, graphische Darstellung und Messung <strong>von</strong> Ungleichheiten z.B. bei derVerteilung <strong>von</strong> ”Besitz”Gegeben: ”Besitz”-Verteilung in Form einer nichtnegativen geordneten Urliste0 ≤ x (1)≤ x (2)≤ . . . ≤ x (n)Gesamtbesitz: Positive Merkmalssummex =x (i)> 0ni=1<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 3
EinleitungFrage: Wie ist die Merkmalssumme auf die n Personen verteilt?Extremfälle:• Alle besitzen gleich viel.• Einer besitzt alles.<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 4
Agenda1. Einleitung2. Lorenzkurve3. Gini-Koeffizient4. Weitere <strong>Konzentration</strong>smaße<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 5
LorenzkurveWichtigstes graphisches Hilfsmittel zur Verdeutlichung <strong>von</strong> <strong>Konzentration</strong>sphänomenen.Ausgegangen wird dabei <strong>von</strong> einer geordneten nichtnegativen statistischen Reihe mit positiverSumme der Beobachtungswerte (Merkmalssumme)0 ≤ x (1) ≤ x (2) ≤ . . . ≤ x (n) , x =ni=1x (i) > 0Prinzip: Gegenüberstellung des• Anteils an der statistischen Masseund des• Anteils an der Merkmalssummeder k statistischen Einheitenmit den kleinsten <strong>Merkmalswerten</strong><strong>Kapitel</strong> IV - Häufigkeitsverteilungen 6
LorenzkurvenÈ=x (i)i=1Anteil an der Merkmalssumme, der auf die k statistischen Einheiten mit den kleinsten<strong>Merkmalswerten</strong> (x (1) , . . . , x (k) ) entfällt:v k =kÈx (i)i=1Anteil an der gesamten statistischen Masse:x (1)+ ... + x (k)x (1)+ ... + x (n)u k = k nDamit steht also dem Anteil u k an der statistischen Masse ein Anteil v k an der Merkmalssummegegenüber. Für k = 1, . . . , n trägt man die Punkte (u k , v k ) in ein Koordinatenkreuz ein undverbindet sie durch einen Streckenzug, beginnend mit dem Ursprung (0,0):<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 7
LorenzkurveBeispiel 7.1Die geordnete statistische Reihe der Monatslöhne in einem mittleren Handwerksbetrieb laute wiefolgt in Euro:500, 1900, 2050, 2200, 2250, 2400, 2600, 2950, 4000, 5000.Merkmalssumme ist: 25850. Damit erhält man folgende Tabelle:u k 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0v k 0.02 0.09 0.17 0.26 0.34 0.44 0.54 0.65 0.81 1.0Und die folgende Lorenzkurve...<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 9
LorenzkurveFigure 1: Abbildung 7.2 - Lorenzkurve zu Beispiel 7.1<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 10
LorenzkurveEigenschaften der Lorenzkurve:• Die Lorenzkurve beginnt in (0,0) und endet in (1,1).• Die Lorenzkurve verläuft nirgendwo oberhalb der Diagonalen.• Die Lorenzkurve steigt monoton.• Die Lorenzkurve ist konvex.<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 11
LorenzkurvenÈ= k · x 1x ii=1Anmerkung: Die Diagonale ist die Bezugskurve zur Lorenzkurve. Sind nämlich alle Beobachtungswertegleich...0 < x 1 = x 2 = . . . = xn,...so ist für k = 1, . . . , nv k =kÈx ii=1n · x 1= k n = u k .Die Diagonale gibt also den Zustand wieder, in dem die Merkmalssumme völlig gleichmäßig überdie Masse verteilt ist (”Gleichverteilung der Merkmalssumme”). Aus der Sicht der <strong>Konzentration</strong>der Idealzustand ohne jegliche <strong>Konzentration</strong>.Dem Idealzustand der Gleichverteilung entgegengesetzt ist der Extremfall, dass die gesamteMerkmalssumme in einer statistischen Einheit vereint ist:0 = x (1) = . . . = x (n−1) < x (n) .<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 12
Lorenzkurve<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 13
LorenzkurveWeitere Anmerkung: Für großes n, also viele statistische Einheiten, erhält man bei vollständiger<strong>Konzentration</strong> ”‘nahezu”’ die Katheden des rechtwinkligen Dreiecks mit den Eckpunkten (0,0),(1,0), (1,1).Interpretation der Lorenzkurve: Je weiter die Lorenzkurve <strong>von</strong> der Diagonalen entfernt ist, jemehr die Lorenzkurve also durchhängt, desto größer ist die <strong>Konzentration</strong>.<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 14
LorenzkurveBeispiel 7.2Gegeben ist die Häufigkeitsverteilunga 1 2 3h(a) 2 3 1p(a) 0.¯3 0.5 0.1¯6Geordnete Urliste ist dann: 1, 1, 2, 2, 2, 3; Merkmalssumme ist 11.Damit erhält man die Koordinaten der Lorenzkurve:u k 0 16263646561v k 0 1112114116118111<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 15
LorenzkurveFigure 2: Abbildung 7.4 - Lorenzkurve zu Beispiel 7.2Anmerkung: Man sieht, dass übereinstimmende Merkmalswerte zu Geradenstücken gleicherSteigung führen. Es genügt also, die Werte für k = 2 und k = 5 zu berechnen.<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 16
LorenzkurveErmittlung der Lorenzkurve aus der absoluten HäufigkeitsverteilungMerkmalssumme:=x a · h(a)a∈MZur Berechnung der Koordinaten sind die Merkmalsausprägungen zu ordnen:0 ≤ a 1 < a 2 < . . . < am.<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 17
kÈv kkÈÈa i · h(a i )i=1=a · h(a)a∈MÈh(a i )i=1u k =h(a)a∈MLorenzkurveErmittlung der Lorenzkurve aus der absoluten HäufigkeitsverteilungAnteil der k niedrigsten Merkmalsausprägungen an der Merkmalssumme:Anteil dieser Merkmalsausprägungen an der statistischen Masse:<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 18
LorenzkurveBeispiel 7.3Im Beispiel 7.2 erhält man die notwendigen Koordinaten der Lorenzkurveu k 0 26561v k 0 2118111Anmerkung: Der Unterschied besteht darin, dass hierbei lediglich die ”Knickstellen” derLorenzkurve berechnet werden.<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 19
LorenzkurveErmittlung der Lorenzkurve aus der relativen HäufigkeitsverteilungAnteil der k niedrigsten Merkmalsausprägungen an der Merkmalssumme:v k =kÈÈa i · p(a i )i=1a · p(a)a∈MAnteil dieser Merkmalsausprägungen an der statistischen Masse:u k =p(a i )ki=1<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 20
LorenzkurveBeispiel 7.4In Beispiel 7.2 erhält man3i=1a i p(a i ) = 1 · 13 + 2 · 12 + 3 · 16 = 11 6und damitv 1 =13116= 211 , v 2 = (1 3 + 1)116= 811 , v 3 = 1 wie in Beispiel 7.3.<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 21
LorenzkurveErmittlung der Lorenzkurve bei klassierten MerkmalenWeder u k noch v k können gebildet werden. Seien I j die Klassen und h(I j ) bzw. p(I j ) dieabsoluten bzw. relativen Häufigkeiten. Die Klasse I hat damit den relativen Anteil p(I) = h(I)nander statistischen Masse. Seien also die Klassen I 1 , . . . , I m nach ihren Klassengrenzen geordnet,dann kann man statt u 1 , . . . , u n die folgenden Werte verwenden:p(I 1 ), p(I 1 ) + p(I 2 ), . . . ,mj=1p(I j )<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 22
LorenzkurveErmittlung der Lorenzkurve bei klassierten MerkmalenDer Anteil an der Merkmalssumme einer Klasse I lässt sich nur anhand der Urliste oderder Häufigkeitsverteilung der unklassierten Daten feststellen. Geht man da<strong>von</strong> aus, dass dieKlassenmitte z I das arithmetische Mittel der Merkmalswerte der Klasse ist, so istz I h(I) Merkmalssumme der Klasse Iundmj=1z j h(I j ) Merkmalssumme der Gesamtmasse.<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 23
LorenzkurvemÈmÈkÈz j p(I j )j=1Ermittlung der Lorenzkurve bei klassierten MerkmalenPunkte der Lorenzkurve für absolute Häufigkeiten:(u k , v k ) =¼kj=1p(I j ),Punkte der Lorenzkurve für relative Häufigkeiten:(u k , v k ) =¼kj=1p(I j ),kÈz j h(I j )j=1k = 0, . . . , mz j h(I j )½fürj=1k = 0, . . . , mz j p(I j )½fürj=1<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 24
LorenzkurveBeispiel 7.5ÈMännerEinkommen in TEuro abs. H. rel. H. u k z j h(I j )Èz j h(I j ) v kunter 10 5 0.05 0.05 25 25 0.00810 bis unter 20 15 0.15 0.20 225 250 0.08520 bis unter 25 20 0.20 0.40 450 700 0.23725 bis unter 30 25 0.25 0.65 687.5 1387.5 0.47030 bis unter 40 20 0.20 0.85 700 2087.5 0.70840 bis unter 60 10 0.10 0.95 500 2587.5 0.87760 bis unter 85 5 0.05 1 362.5 2950 1100 1Für eine Verbrauchsstudie wurden die Nettojahreseinkommen <strong>von</strong> 100 Männern festgestellt:<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 25
LorenzkurveFigure 3: Abbildung 7.5 - Lorenzkurve u Beispiel 7.5<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 26
Agenda1. Einleitung2. Lorenzkurve3. Gini-Koeffizient4. Weitere <strong>Konzentration</strong>smaße<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 27
Gini-KoeffizientAnteil der Fläche zwischen der Diagonalen und der Lorenzkurve an Gesamtfläche unterhalb derDiagonalen. Er ist ein Maß für die <strong>Konzentration</strong>, die eben gerade der Abweichung der Lorenzkurve<strong>von</strong> der Diagonalen entspricht.G =Fläche zwischen Diagonale D und Lorenzkurve LFläche zwischen Diagonale D und u-Achse<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 28
Gini-Koeffizient(u i ,v i )u iF i(u i+1 ,v i+1 )u i+1Abbildung 7.6 - Zur Berechnung des Gini-Koeffizienten<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 29
Gini-KoeffizientBerechnung des Gini-KoeffizientenFür F i giltF i = (u i+1 − u i ) · ( u i − v i2+ u i+1 − v i+1),2da F i (um 90 o gedreht) ein Trapez ist, mit der Höhe u i+1 − u i und der Mittellinie0.5((u i − v i ) + (u i+1 − v i+1 )).<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 30
Damit istG =12ÈGini-Koeffizientn−1i=0(u i+1 −u i )(u i −v i +u i+1 −v i+1 )12= n−1(u i+1 − u i )(u i − v i + u i+1 − v i+1 )Èi=0Setzt man die Daten aus der geordneten Urliste ein, so erhält man nach einigem RechenaufwandG =2 · nÈi=1i · x (i) − (n + 1) · nÈi=1x (i)n · nÈi=1.x (i)<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 31
Gini-KoeffizientBeispiel 7.6(1) In Beispiel 7.1 erhält man:G = 110· (2 · 0.08 + 2 · 0.11 + 2 · 0.13 + 2 · 0.14 + 2 · 0.16 + 2 · 0.16 ++2 · 0.16 + 2 · 0.15 + 2 · 0.09) = 2Nach der zweiten Formel erhält man:10· 1.18 = 0.24.G =2 · 172700 − 11 · 2585010 · 25850= 0.2361.Der Unterschied ist durch die Rundung der beiden Koordinaten (u k , v k ) begründet.<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 32
Beispiel 7.6Gini-Koeffizient(2) Aus den Daten <strong>von</strong> Beispiel 7.2 bzw. 7.3 erhält man:G = 2 6 ·26 − 211+ 3 6 ·26 + 5 6 − 2 11 − 811+ 1 6 ·56 + 1 − 8= 2 6 · 1066 + 3 6 · 1766 + 1 6 · 766 = 786 · 66 = 1366 = 0.20.(3) Für die Einkommensverteilung der Männer lautet der Gini-Koeffizient:11 − 1G = 0.05 · 0.042 + 0.15 · 0.157 + 0.2 · 0.278 + 0.25 · 0.343 + 0.2 · 0.322+ 0.1 · 0.215 + 0.05 · 0.073= 0.257.<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 33
Gini-KoeffizientBetrachte: Der Maximalwert des Gini-Koeffizienten ist für0 = x (1)= . . . = x (n−1), x (n)=x (i)ni=1nach der zweiten FormelGmax =2 · n · x (n)− (n + 1) · x (n)= n − 1n · x (n)nBei einer Maßzahl geht man üblicherweise <strong>von</strong> einem Maximalwert 1 aus. Aus diesem Grundnormiert man den Ginikoeffizienten.<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 34
Gini-KoeffizientNormierter Gini-KoeffizientEs giltGnorm =nn − 1 · G.0 ≤ Gnorm ≤ 1undG normG norm= 1 bei vollständiger <strong>Konzentration</strong>,= 0 bei gleichmäßiger Verteilung der Merkmalssumme.<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 35
Gini-KoeffizientKritikpunkte• Unterschiedliche Lorenzkurven können zu dem selben Gini-Koeffizienten führen.• Es besteht ein starke Abhängigkeit des Gini-Koeffizienten <strong>von</strong> der Zahl dereinbezogenen statistischen Einheinten. Weglassen <strong>von</strong> kleinen <strong>Merkmalswerten</strong> verringert G.• Der Gini-Koeffizient ist nur ein Maß für die relative <strong>Konzentration</strong>,nicht für die absolute <strong>Konzentration</strong>.<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 36
Gini-KoeffizientBeispiel 7.7Die Messung der Wettbewerbskonzentration mit Hilfe des Gini-Koeffizienten auf zwei verschiedenenMärkten ergibt den selben Wert, obwohl die Märkte nicht identisch sind:• G = 0 für zwei Firmen mit je 50% Marktanteil• G = 0 für 20 Firmen mit je 5% Marktanteil<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 37
Gini-KoeffizientFigure 4: Abbildung 7.7 - Beispiel zweier Lorenzkurven mit übereinstimmendemGini-Koeffizienten<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 38
Agenda1. Einleitung2. Lorenzkurve3. Gini-Koeffizient4. Weitere <strong>Konzentration</strong>smaße<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 39
<strong>Konzentration</strong>skoeffizientWeitere <strong>Konzentration</strong>smaßeCRg =nÈx (i)i=n−g+1i=1x (i)für g = (1, 2, )3, . . .CR g gibt an, welchen Anteil der Merkmalssumme die g letzten Merkmalswerte der geordnetenstatistischen Reihe in sich vereinen.Die Vorgehensweise entspricht der Konstruktion der Lorenzkurve, wobei die geordnete Urliste <strong>von</strong>rechts nach links, also in umgekehrter Reihenfolge abgearbeitet wird.Die zugehörige Kurve wird üblicherweise als Paretokurve bezeichnet.<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 40
Weitere <strong>Konzentration</strong>smaßeFigure 5: Abbildung 7.8 - Paretokurve<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 41
Herfindahl-IndexWeitere <strong>Konzentration</strong>smaßenÈ i½2H :=xni=1¼x iH ist die Summe der quadrierten individuellen Anteile an der Merkmalssumme. Je größer H ist,desto größer ist die <strong>Konzentration</strong>.i=1<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 42