Teil 7 Beschreibende Statistik

Teil 7 Beschreibende Statistik 

7 / 1 

Ziele: 

Grundgesamtheiten, Stichproben 

Merkmale, Skalen 

Häufigkeiten, empirische Verteilungsfunktion 

Maßzahlen (Mittelwerte, Streuparameter) 

...deren Eigenschaften 

Beschreibung und Darstellung von Daten; Minimumeigenschaften der 

Maßzahlen. 

In der schließenden Statistik (→Teil 10) geht es um Schlußfolgerungen 

aus der Stichprobe mittels Wahrscheinlichkeitsrechnung (→Teil 9).

7 / 2 

Stichproben, Merkmale 

Klassifikation der Grundgesamtheit in: 

Bastandsmassen Bewegungsmassen 

z.B. zugelassenene Kfz An-/Abmeldungen Kfz 

Eine Zufallsstichprobe ist eine Teilmenge der Grundgesamtheit. 

Die statistischen Objekte der Stichprobe / der Grundgesamtheit haben 

Merkmale. 

Merkmale sind 

diskret: Anzahl Teilnehmer 

oder stetig : Alter, Geschwindigkeit (Merkmal kontinuierlich) 

Merkmale können dichoton sein, d.h. nur zweier Werte fähig: m/w 

Merkmale können häufbar sein: Informatiker und Betriebswirt als "erlernter 

Beruf"

7 / 3 

Skalen 

Für die Merkmale gibt es statistische, hierarchisch gegliederte Skalen: 

qualitative Skala: 

◮ 

Nominalskala: m/w, s/w, 0/1, Arbeiter/Angestellter/Beamter 

quantitative (metrische) Skalen: 

◮ 

◮ 

◮ 

◮ 

Ordinalskala (mit Rangordnung): Tabelle Fußball-Liga, Notenskala, 

Güteklassen Eier 

Intervallskala (vergleicht Abstände): Zeit-/Temperaturskala, 

Längen-/Breitengrade 

Verhältnisskala (hat Maßeinheit und Nullpunkt): Gewicht, Alter, 

Einkommen 

Absolutskala (hat natürliche Einheit): Kinderzahl, Stückzahlen

7 / 4 

Urlisten, Häufigkeiten 

Die Urliste enthält die Merkmalswerte : {x 1 , x 2 ,..., x n } 

mit den unterschiedlichen Werten: a 1 ,..., a k 

Die Häufigkeiten werden angegeben: 

absolut: relativ: prozentual: 

h j := h(a j ) := #{x i |x i = a j } f j = f (a j ) = h j /n p j := f j ∗ 100 

∑ h j = n ∑ f j = 1 ∑ p j = 100 

Per Histogramm oder Kreisdiagramm/Polygonzug wird die 

Häufigkeitsverteilung grafisch dargestellt. 

Im Falle von vielen Merkmalsausprägungen geht man über zu 

Merkmalsklassen.

7 / 5 

Empirische Verteilungsfunktion 

Die kumulativen Häufigkeiten sind: 

absolut : H i = ∑ i j=1 h j 

H i = #{x j |x j ≤ a i } 

H i → n f ür i → ∞ 

relativ : F i = ∑ i j=1 f j 

F i : Anteil Stichproben 

mit Werten ≤ a i 

F i → 1 f ür i → ∞ 

Bei H ∗ und F ∗ handelt es sich um Treppenfunktionen. 

F (x) : Anteil der Stichprobe mit Werten ≤ x 

empirische Verteilungsfunktion

7 / 6 

Maßzahlen, Mittelwerte 

...einer Urliste: 

Modus x D 

...ist der häufigste Merkmalswert 

Median (Zentralwert) x Z ......ist der Wert (ist ein Wert) mit 

ebensovielen kleineren wie größeren Merkmalswerten: 

{ 

x n+1/2 falls n ungerade 

x Z = 

... ist robust gegen Ausreißer 

x n/2 falls n gerade 

p-Quantil (Verallgemeinerung des Median-Wertes) ...teilt den unteren 

Anteil p und den oberen Anteil 1 − p, p ∈ (0,1) von den 

Merkmalswerten ab: 

{ 

x np falls np ganzzahlig 

x p = 

sonst 

x ⌊np⌋+1

7 / 7 

Arithmetisches Mittel 

... metrische (quantitative) Skala unterstellt 

x = 1 n ∗ ∑n i=1 x i = 1 n ∗ ∑k j=1 h j ∗ a j = ∑ k j=1 f j ∗ a j 

↑ ↑ ↑ 

Merkmalswerte Häufigkeiten in der 

in der Urliste Häufigkeitstabelle 

wobei k : Anzahl der unterschiedlichen vorkommenden Werte 

Es gilt ∑ n j=1 (x j − x) = 0 

(denn...) 

Das arithmetische Mittel x minimiert die mittlere quadratische 

Abweichung: min x 

1/n ∗ ∑ j (x j − x) 2 hat das Minimum bei x = x 

denn: d/dx (∑ j (x j − x) 2 ! 

) = 0 ⇒ ∑ j 2 ∗ (x j − x) ∗ (−1) = 0 

⇒ ∑ j x j = ∑ j x = n ∗ x und x = 1/n ∗ ∑ j x j = x

7 / 8 

Harmonisches Mittel x H 

...einer Stichprobe {x 1 , x 2 ,..., x n } ist: 

x H = 

n 

∑ n i=1 1 /x i 

= 

n 

1 

= 

∑ k j=1 h j/a j ∑ k j=1 

f j/a j 

Beispiel (Duchschnittsgeschwindigkeit v eines Autos): 

Vier gleichlange Strecken werden durchfahren mit Geschwindigkeiten: 

v 1/2/3/4 

= 40/50/80/100 [km/h] 

Was ist die Geschwindigkeit eines Autos, das gleichmäßig schnell fährt und die 

gleiche Reisezeit hat wie die vier unterschiedlich schnellen Pkw’s ? 

Wir rechnen: 

Reisezeit T = s/v 1 + s/v 2 + s/v 3 + s/v 4 

! 

= 4s/v ; gesucht v 

liefert v = 4 

1/v 1 + 1 /v 2 + 1 /v 3 + 1 /v 4 

... harmonisches Mittel der v i 

und Duchschnittsgeschwindigkeit v = 59,259 [km/h]

7 / 9 

Streuparameter 

Spannweite w = max x j − min x j 

Quartilsabstand q = x 0.75 − x 0.25 

...wenig aussagekräftige Maßzahl 

...unempfindlich gegen Ausreißer 

mittlere Abweichung d bezogen auf den Median x Z ist die mittlere 

Summe der Fehlerbeträge : 

d = 1 n ∗∑n i=1 |x i −x Z | = 1 n ∗∑k j=1 h j ∗|a j −x Z | = ∑ k j=1 f j ∗|a j −x Z | 

Warum bezieht man die mittlere Abweichung auf den Median ? 

Theorie: Die mittlere Abweichung 1 /n ∗ ∑ i 

durch den Median x = x Z (denn...) 

|x i − x| wird minimiert

7 / 10 

Empirische Varianz s 2 (Standardabweichung s) 

... mittlere quadratische Abweichung, zur Definition vergl. Teil 10 

s 2 = 1 n ∗ ∑n i=1 (x i − x) 2 = 1 n ∗ ∑k j=1 h j ∗ (a j − x) 2 = ∑ k j=1 f j ∗ (a j − x) 2 

Rechenregeln: 

s 2 = 1 n ∗ ∑n i=1 x 2 

i − x 2 = 1 n ∗ ∑k j=1 h j ∗ a 2 j − x 2 = ∑ k j=1 f j ∗ a 2 j − x 2 

Warum bezieht man die Varianz s 2 auf den Mittelwert x ? 

Ähnliche Optimierung wie beim Median 7-9: Die mittlere quadratische 

Abweichung 1 /n∑ i (x i − x) 2 hat ihr Minimum bei x = x vergl. 7/7

7 / 11 

weitere Streuparameter 

Variationskoeffizient: v = s/x ist eine Maßzahl für die relative (auf den 

Mittelwert bezogene) Standardabweichung. 

Drittes Moment um den Mittelwert: 

m 3 (x) = 1 n ∗ ∑n i=1 (x i − x) 3 

Schiefe 

ist ein Maß für die Abweichung von der Symmetrie. 

Höhere Momente m r (0) [ um 0 ] bzw. m r (x) [ um x ] : 

m r (x) = 1 n ∗ ∑n i=1 (x i − x) r

7 / 12 

Datentransformation 

Lineare Transformation der Daten: 

α j 

= m ∗ x j + b 

bewirkt lineare Transformation von Mittelwert und Standardabweichung: 

x α = m ∗ x + b 

(Mittelwert) 

s 2 α = m 2 ∗ s 2 (Varianz) [ nachrechnen... ]

7 / 13 

Konzentrationsmaß 

...beim Merkmal "Reichtum" 

L(x) : Gesamtvermögen des ärmsten Bevölkerungsteils x, x ∈ (0,1) 

Lorenzkurve:

7 / 14 

Konzentrationsmaß... 

Gini-Koeffizient 

= A : 1 /2 = 2 ∗ A = 2 ∗ ( 1 /2 − ´ 1 

0 L(x) dx ) = 1 − 2 ∗ ´ 1 

0 

L(x) dx 

Extreme: Gini-Koeffizient = 

{ 

0 alle gleich reich 

1 einer hat alles

7 / 15 

Newcomb-Benfordsches Gesetz 

...Statistische Verteilung der Zahlen 

Man erkennt: Zahlen mit erster Ziffer 1 sind signifikant häufiger als Zahlen 

mit erster Ziffer 2,3,... , diese Beobachtung ermöglicht Prüfen großer 

Datensätze auf Plausibilität, z.B. Steuerprüfer. 

Entdeckt von Newcomb und Benford an der Abnutzung(!) der damals 

erforderlichen Logarithmentafeln.

7 / 16 

Aufgaben (aus Skript MM, Teschl/Teschl) 

(1) Anlässlich einer Schulstatistik wurden in einer Klasse die Körpergrößen 

von 20 Schülern erhoben, die in folgender Urliste zusammengestellt sind: 

160, 162, 165, 160, 163, 161, 165, 166, 162, 164, 162, 163, 160, 161, 163, 

166, 165, 163, 164, 163. 

(a) Man stelle in einer Häufigkeitstabelle die absoluten und relativen 

Häufigkeiten sowie die kumulierten absoluten und kumulierten relativen 

Häufigkeiten dar. 

(b) Man ermittle das arithmetische Mittel x auf eine Dezimale genau. 

(c) Man ermittle die Varianz s 2 auf zwei Dezimalen genau. 

(d) Man gebe die Standardabweichung s auf zwei Dezimalen genau an. 

(e) Man ermittle – unter Angabe der verwendeten Formel – den 

Variationskoeffizienten v auf zwei Dezimalen genau.

7 / 17 

Aufgaben... 

(2) Die jährliche Zuwachsrate des Servervolumens einer kleinen Abteilung 

des Unternehmens entwickelte sich (exemplarisch) wie folgt: 

Jahr 2004 2005 2006 2007 

Zuwachsrate 5% -2% 4% 3% 

Man ermittle die über alle vier Jahre gleich bleibende und auf den gleichen 

Endwert führende durchschnittliche Zuwachsrate. 

Welchen Mittelwert sollte man zugrunde legen? 

Man gebe die allgemeine Formel an und berechne die 

durchschnittliche Zuwachsrate auf zwei Dezimalen genau.

7 / 18 

Aufgaben... 

(3) Man skizziere die notierten Stichproben und bestimme den 

Korrelationskoeffizienten: 

(a) (2,2) , (3,1) , (5,3) , (6,4) 

(b) (1,5) , (2,2) , (3,1) , (4,2) , (5,5) 

(c) (1,5) , (2,3) , (3,4) , (5,2) 

Für die Datensätze aus (a),(b),(c) , die einen linearen Zusammenhang 

nahelegen, bestimme man die Gleichung der Regressionsgeraden.

Teil 7 Beschreibende Statistik

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?