13.07.2015 Aufrufe

Deskriptive Statistik Kapitel VII - Konzentration von Merkmalswerten

Deskriptive Statistik Kapitel VII - Konzentration von Merkmalswerten

Deskriptive Statistik Kapitel VII - Konzentration von Merkmalswerten

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

<strong>Deskriptive</strong> <strong>Statistik</strong><strong>Kapitel</strong> <strong>VII</strong> - <strong>Konzentration</strong> <strong>von</strong> <strong>Merkmalswerten</strong>Georg Bolbol@statistik.uni-karlsruhe.deMarkus Höchstötterhoechstoetter@statistik.uni-karlsruhe.de


Mit der vorliegenden Bestellkarte können Sie wieder für sich, fürIhre Freunde und Bekannten Karten bestellen. Die Kartenwünschewerden in der Reihe des Bestelleingangs bearbeitet.Ab Anfang Oktober werden Ihnen die Karten per Post zugeschickt.Wir bitten um Verständnis für den kleinen Anteil für Versand undPorto <strong>von</strong> 2 €. Vorverkaufsgebühr wird nicht erhoben.Bitte Karten nur schriftlich per Post oder über unsere Homepagebestellen.FBI - Feuchter Bildung Initiative e.V.Bestellkarte Bitte die gewünschte Kartenanzahl in die leeren weißen Kästchen eintragen.Alle Veranstaltungen haben freie Platzwahl.Datum Veranstaltung Vorverkauf AbendkasseDo., 14.11.13 Django Asül 18 € 22 €Fr., 13.12.13 Leipziger Pfeffermühle 18 € 20 €Fr., 21.02.14 Mia Pittroff 17 € 19 €Fr., 14.03.14 Bernd Regenauer 18 € 20 €Falls Sie aufgrund körperlicher Beeinträchtigung auf einen speziellen Sitzplatzangewiesen sind, kontaktieren Sie uns bitte per Email oder Telefon.


EinleitungBei vielen Verteilungen sind Lage- und Streuungsparameter für die Analyse einerHäufigkeitsverteilung nicht ausreichend.Beispiel 7.1Bei einer Einkommensverteilung ist neben dem arithmetischen Mittel, also dem durchschnittlichenEinkommen, ein Streuungsparameter, z.B. die Standardabweichung, <strong>von</strong> Bedeutung, die etwasüber die Abweichung vom mittleren Einkommen aussagt. Die Standardabweichung ist allerdingsnicht genügend aussagekräftig, da die Verteilung sicherlich in der Regel nicht symmetrisch ist. Eskann z. B. viele mit geringeren Einkommen als dem Durchschnittseinkommen und einige wenigemit wesentlich höheren Einkommen geben. Das Ziel ist es diese Ungleichheit in der Verteilung derEinkommen mit Hilfe eines aussagekräftigen Maßes sichtbar und damit vergleichbar zu machen.<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 2


EinleitungZiel: Beschreibung, graphische Darstellung und Messung <strong>von</strong> Ungleichheiten z.B. bei derVerteilung <strong>von</strong> ”Besitz”Gegeben: ”Besitz”-Verteilung in Form einer nichtnegativen geordneten Urliste0 ≤ x (1)≤ x (2)≤ . . . ≤ x (n)Gesamtbesitz: Positive Merkmalssummex =x (i)> 0ni=1<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 3


EinleitungFrage: Wie ist die Merkmalssumme auf die n Personen verteilt?Extremfälle:• Alle besitzen gleich viel.• Einer besitzt alles.<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 4


Agenda1. Einleitung2. Lorenzkurve3. Gini-Koeffizient4. Weitere <strong>Konzentration</strong>smaße<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 5


LorenzkurveWichtigstes graphisches Hilfsmittel zur Verdeutlichung <strong>von</strong> <strong>Konzentration</strong>sphänomenen.Ausgegangen wird dabei <strong>von</strong> einer geordneten nichtnegativen statistischen Reihe mit positiverSumme der Beobachtungswerte (Merkmalssumme)0 ≤ x (1) ≤ x (2) ≤ . . . ≤ x (n) , x =ni=1x (i) > 0Prinzip: Gegenüberstellung des• Anteils an der statistischen Masseund des• Anteils an der Merkmalssummeder k statistischen Einheitenmit den kleinsten <strong>Merkmalswerten</strong><strong>Kapitel</strong> IV - Häufigkeitsverteilungen 6


LorenzkurvenÈ=x (i)i=1Anteil an der Merkmalssumme, der auf die k statistischen Einheiten mit den kleinsten<strong>Merkmalswerten</strong> (x (1) , . . . , x (k) ) entfällt:v k =kÈx (i)i=1Anteil an der gesamten statistischen Masse:x (1)+ ... + x (k)x (1)+ ... + x (n)u k = k nDamit steht also dem Anteil u k an der statistischen Masse ein Anteil v k an der Merkmalssummegegenüber. Für k = 1, . . . , n trägt man die Punkte (u k , v k ) in ein Koordinatenkreuz ein undverbindet sie durch einen Streckenzug, beginnend mit dem Ursprung (0,0):<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 7


LorenzkurveBeispiel 7.1Die geordnete statistische Reihe der Monatslöhne in einem mittleren Handwerksbetrieb laute wiefolgt in Euro:500, 1900, 2050, 2200, 2250, 2400, 2600, 2950, 4000, 5000.Merkmalssumme ist: 25850. Damit erhält man folgende Tabelle:u k 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0v k 0.02 0.09 0.17 0.26 0.34 0.44 0.54 0.65 0.81 1.0Und die folgende Lorenzkurve...<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 9


LorenzkurveFigure 1: Abbildung 7.2 - Lorenzkurve zu Beispiel 7.1<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 10


LorenzkurveEigenschaften der Lorenzkurve:• Die Lorenzkurve beginnt in (0,0) und endet in (1,1).• Die Lorenzkurve verläuft nirgendwo oberhalb der Diagonalen.• Die Lorenzkurve steigt monoton.• Die Lorenzkurve ist konvex.<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 11


LorenzkurvenÈ= k · x 1x ii=1Anmerkung: Die Diagonale ist die Bezugskurve zur Lorenzkurve. Sind nämlich alle Beobachtungswertegleich...0 < x 1 = x 2 = . . . = xn,...so ist für k = 1, . . . , nv k =kÈx ii=1n · x 1= k n = u k .Die Diagonale gibt also den Zustand wieder, in dem die Merkmalssumme völlig gleichmäßig überdie Masse verteilt ist (”Gleichverteilung der Merkmalssumme”). Aus der Sicht der <strong>Konzentration</strong>der Idealzustand ohne jegliche <strong>Konzentration</strong>.Dem Idealzustand der Gleichverteilung entgegengesetzt ist der Extremfall, dass die gesamteMerkmalssumme in einer statistischen Einheit vereint ist:0 = x (1) = . . . = x (n−1) < x (n) .<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 12


Lorenzkurve<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 13


LorenzkurveWeitere Anmerkung: Für großes n, also viele statistische Einheiten, erhält man bei vollständiger<strong>Konzentration</strong> ”‘nahezu”’ die Katheden des rechtwinkligen Dreiecks mit den Eckpunkten (0,0),(1,0), (1,1).Interpretation der Lorenzkurve: Je weiter die Lorenzkurve <strong>von</strong> der Diagonalen entfernt ist, jemehr die Lorenzkurve also durchhängt, desto größer ist die <strong>Konzentration</strong>.<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 14


LorenzkurveBeispiel 7.2Gegeben ist die Häufigkeitsverteilunga 1 2 3h(a) 2 3 1p(a) 0.¯3 0.5 0.1¯6Geordnete Urliste ist dann: 1, 1, 2, 2, 2, 3; Merkmalssumme ist 11.Damit erhält man die Koordinaten der Lorenzkurve:u k 0 16263646561v k 0 1112114116118111<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 15


LorenzkurveFigure 2: Abbildung 7.4 - Lorenzkurve zu Beispiel 7.2Anmerkung: Man sieht, dass übereinstimmende Merkmalswerte zu Geradenstücken gleicherSteigung führen. Es genügt also, die Werte für k = 2 und k = 5 zu berechnen.<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 16


LorenzkurveErmittlung der Lorenzkurve aus der absoluten HäufigkeitsverteilungMerkmalssumme:=x a · h(a)a∈MZur Berechnung der Koordinaten sind die Merkmalsausprägungen zu ordnen:0 ≤ a 1 < a 2 < . . . < am.<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 17


kÈv kkÈÈa i · h(a i )i=1=a · h(a)a∈MÈh(a i )i=1u k =h(a)a∈MLorenzkurveErmittlung der Lorenzkurve aus der absoluten HäufigkeitsverteilungAnteil der k niedrigsten Merkmalsausprägungen an der Merkmalssumme:Anteil dieser Merkmalsausprägungen an der statistischen Masse:<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 18


LorenzkurveBeispiel 7.3Im Beispiel 7.2 erhält man die notwendigen Koordinaten der Lorenzkurveu k 0 26561v k 0 2118111Anmerkung: Der Unterschied besteht darin, dass hierbei lediglich die ”Knickstellen” derLorenzkurve berechnet werden.<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 19


LorenzkurveErmittlung der Lorenzkurve aus der relativen HäufigkeitsverteilungAnteil der k niedrigsten Merkmalsausprägungen an der Merkmalssumme:v k =kÈÈa i · p(a i )i=1a · p(a)a∈MAnteil dieser Merkmalsausprägungen an der statistischen Masse:u k =p(a i )ki=1<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 20


LorenzkurveBeispiel 7.4In Beispiel 7.2 erhält man3i=1a i p(a i ) = 1 · 13 + 2 · 12 + 3 · 16 = 11 6und damitv 1 =13116= 211 , v 2 = (1 3 + 1)116= 811 , v 3 = 1 wie in Beispiel 7.3.<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 21


LorenzkurveErmittlung der Lorenzkurve bei klassierten MerkmalenWeder u k noch v k können gebildet werden. Seien I j die Klassen und h(I j ) bzw. p(I j ) dieabsoluten bzw. relativen Häufigkeiten. Die Klasse I hat damit den relativen Anteil p(I) = h(I)nander statistischen Masse. Seien also die Klassen I 1 , . . . , I m nach ihren Klassengrenzen geordnet,dann kann man statt u 1 , . . . , u n die folgenden Werte verwenden:p(I 1 ), p(I 1 ) + p(I 2 ), . . . ,mj=1p(I j )<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 22


LorenzkurveErmittlung der Lorenzkurve bei klassierten MerkmalenDer Anteil an der Merkmalssumme einer Klasse I lässt sich nur anhand der Urliste oderder Häufigkeitsverteilung der unklassierten Daten feststellen. Geht man da<strong>von</strong> aus, dass dieKlassenmitte z I das arithmetische Mittel der Merkmalswerte der Klasse ist, so istz I h(I) Merkmalssumme der Klasse Iundmj=1z j h(I j ) Merkmalssumme der Gesamtmasse.<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 23


LorenzkurvemÈmÈkÈz j p(I j )j=1Ermittlung der Lorenzkurve bei klassierten MerkmalenPunkte der Lorenzkurve für absolute Häufigkeiten:(u k , v k ) =¼kj=1p(I j ),Punkte der Lorenzkurve für relative Häufigkeiten:(u k , v k ) =¼kj=1p(I j ),kÈz j h(I j )j=1k = 0, . . . , mz j h(I j )½fürj=1k = 0, . . . , mz j p(I j )½fürj=1<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 24


LorenzkurveBeispiel 7.5ÈMännerEinkommen in TEuro abs. H. rel. H. u k z j h(I j )Èz j h(I j ) v kunter 10 5 0.05 0.05 25 25 0.00810 bis unter 20 15 0.15 0.20 225 250 0.08520 bis unter 25 20 0.20 0.40 450 700 0.23725 bis unter 30 25 0.25 0.65 687.5 1387.5 0.47030 bis unter 40 20 0.20 0.85 700 2087.5 0.70840 bis unter 60 10 0.10 0.95 500 2587.5 0.87760 bis unter 85 5 0.05 1 362.5 2950 1100 1Für eine Verbrauchsstudie wurden die Nettojahreseinkommen <strong>von</strong> 100 Männern festgestellt:<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 25


LorenzkurveFigure 3: Abbildung 7.5 - Lorenzkurve u Beispiel 7.5<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 26


Agenda1. Einleitung2. Lorenzkurve3. Gini-Koeffizient4. Weitere <strong>Konzentration</strong>smaße<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 27


Gini-KoeffizientAnteil der Fläche zwischen der Diagonalen und der Lorenzkurve an Gesamtfläche unterhalb derDiagonalen. Er ist ein Maß für die <strong>Konzentration</strong>, die eben gerade der Abweichung der Lorenzkurve<strong>von</strong> der Diagonalen entspricht.G =Fläche zwischen Diagonale D und Lorenzkurve LFläche zwischen Diagonale D und u-Achse<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 28


Gini-Koeffizient(u i ,v i )u iF i(u i+1 ,v i+1 )u i+1Abbildung 7.6 - Zur Berechnung des Gini-Koeffizienten<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 29


Gini-KoeffizientBerechnung des Gini-KoeffizientenFür F i giltF i = (u i+1 − u i ) · ( u i − v i2+ u i+1 − v i+1),2da F i (um 90 o gedreht) ein Trapez ist, mit der Höhe u i+1 − u i und der Mittellinie0.5((u i − v i ) + (u i+1 − v i+1 )).<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 30


Damit istG =12ÈGini-Koeffizientn−1i=0(u i+1 −u i )(u i −v i +u i+1 −v i+1 )12= n−1(u i+1 − u i )(u i − v i + u i+1 − v i+1 )Èi=0Setzt man die Daten aus der geordneten Urliste ein, so erhält man nach einigem RechenaufwandG =2 · nÈi=1i · x (i) − (n + 1) · nÈi=1x (i)n · nÈi=1.x (i)<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 31


Gini-KoeffizientBeispiel 7.6(1) In Beispiel 7.1 erhält man:G = 110· (2 · 0.08 + 2 · 0.11 + 2 · 0.13 + 2 · 0.14 + 2 · 0.16 + 2 · 0.16 ++2 · 0.16 + 2 · 0.15 + 2 · 0.09) = 2Nach der zweiten Formel erhält man:10· 1.18 = 0.24.G =2 · 172700 − 11 · 2585010 · 25850= 0.2361.Der Unterschied ist durch die Rundung der beiden Koordinaten (u k , v k ) begründet.<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 32


Beispiel 7.6Gini-Koeffizient(2) Aus den Daten <strong>von</strong> Beispiel 7.2 bzw. 7.3 erhält man:G = 2 6 ·26 − 211+ 3 6 ·26 + 5 6 − 2 11 − 811+ 1 6 ·56 + 1 − 8= 2 6 · 1066 + 3 6 · 1766 + 1 6 · 766 = 786 · 66 = 1366 = 0.20.(3) Für die Einkommensverteilung der Männer lautet der Gini-Koeffizient:11 − 1G = 0.05 · 0.042 + 0.15 · 0.157 + 0.2 · 0.278 + 0.25 · 0.343 + 0.2 · 0.322+ 0.1 · 0.215 + 0.05 · 0.073= 0.257.<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 33


Gini-KoeffizientBetrachte: Der Maximalwert des Gini-Koeffizienten ist für0 = x (1)= . . . = x (n−1), x (n)=x (i)ni=1nach der zweiten FormelGmax =2 · n · x (n)− (n + 1) · x (n)= n − 1n · x (n)nBei einer Maßzahl geht man üblicherweise <strong>von</strong> einem Maximalwert 1 aus. Aus diesem Grundnormiert man den Ginikoeffizienten.<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 34


Gini-KoeffizientNormierter Gini-KoeffizientEs giltGnorm =nn − 1 · G.0 ≤ Gnorm ≤ 1undG normG norm= 1 bei vollständiger <strong>Konzentration</strong>,= 0 bei gleichmäßiger Verteilung der Merkmalssumme.<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 35


Gini-KoeffizientKritikpunkte• Unterschiedliche Lorenzkurven können zu dem selben Gini-Koeffizienten führen.• Es besteht ein starke Abhängigkeit des Gini-Koeffizienten <strong>von</strong> der Zahl dereinbezogenen statistischen Einheinten. Weglassen <strong>von</strong> kleinen <strong>Merkmalswerten</strong> verringert G.• Der Gini-Koeffizient ist nur ein Maß für die relative <strong>Konzentration</strong>,nicht für die absolute <strong>Konzentration</strong>.<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 36


Gini-KoeffizientBeispiel 7.7Die Messung der Wettbewerbskonzentration mit Hilfe des Gini-Koeffizienten auf zwei verschiedenenMärkten ergibt den selben Wert, obwohl die Märkte nicht identisch sind:• G = 0 für zwei Firmen mit je 50% Marktanteil• G = 0 für 20 Firmen mit je 5% Marktanteil<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 37


Gini-KoeffizientFigure 4: Abbildung 7.7 - Beispiel zweier Lorenzkurven mit übereinstimmendemGini-Koeffizienten<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 38


Agenda1. Einleitung2. Lorenzkurve3. Gini-Koeffizient4. Weitere <strong>Konzentration</strong>smaße<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 39


<strong>Konzentration</strong>skoeffizientWeitere <strong>Konzentration</strong>smaßeCRg =nÈx (i)i=n−g+1i=1x (i)für g = (1, 2, )3, . . .CR g gibt an, welchen Anteil der Merkmalssumme die g letzten Merkmalswerte der geordnetenstatistischen Reihe in sich vereinen.Die Vorgehensweise entspricht der Konstruktion der Lorenzkurve, wobei die geordnete Urliste <strong>von</strong>rechts nach links, also in umgekehrter Reihenfolge abgearbeitet wird.Die zugehörige Kurve wird üblicherweise als Paretokurve bezeichnet.<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 40


Weitere <strong>Konzentration</strong>smaßeFigure 5: Abbildung 7.8 - Paretokurve<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 41


Herfindahl-IndexWeitere <strong>Konzentration</strong>smaßenÈ i½2H :=xni=1¼x iH ist die Summe der quadrierten individuellen Anteile an der Merkmalssumme. Je größer H ist,desto größer ist die <strong>Konzentration</strong>.i=1<strong>Kapitel</strong> IV - Häufigkeitsverteilungen 42

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!