Teil 7 Beschreibende Statistik
Teil 7 Beschreibende Statistik
Teil 7 Beschreibende Statistik
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
<strong>Teil</strong> 7 <strong>Beschreibende</strong> <strong>Statistik</strong><br />
7 / 1<br />
Ziele:<br />
Grundgesamtheiten, Stichproben<br />
Merkmale, Skalen<br />
Häufigkeiten, empirische Verteilungsfunktion<br />
Maßzahlen (Mittelwerte, Streuparameter)<br />
...deren Eigenschaften<br />
Beschreibung und Darstellung von Daten; Minimumeigenschaften der<br />
Maßzahlen.<br />
In der schließenden <strong>Statistik</strong> (→<strong>Teil</strong> 10) geht es um Schlußfolgerungen<br />
aus der Stichprobe mittels Wahrscheinlichkeitsrechnung (→<strong>Teil</strong> 9).
7 / 2<br />
Stichproben, Merkmale<br />
Klassifikation der Grundgesamtheit in:<br />
Bastandsmassen Bewegungsmassen<br />
z.B. zugelassenene Kfz An-/Abmeldungen Kfz<br />
Eine Zufallsstichprobe ist eine <strong>Teil</strong>menge der Grundgesamtheit.<br />
Die statistischen Objekte der Stichprobe / der Grundgesamtheit haben<br />
Merkmale.<br />
Merkmale sind<br />
diskret: Anzahl <strong>Teil</strong>nehmer<br />
oder stetig : Alter, Geschwindigkeit (Merkmal kontinuierlich)<br />
Merkmale können dichoton sein, d.h. nur zweier Werte fähig: m/w<br />
Merkmale können häufbar sein: Informatiker und Betriebswirt als "erlernter<br />
Beruf"
7 / 3<br />
Skalen<br />
Für die Merkmale gibt es statistische, hierarchisch gegliederte Skalen:<br />
qualitative Skala:<br />
◮<br />
Nominalskala: m/w, s/w, 0/1, Arbeiter/Angestellter/Beamter<br />
quantitative (metrische) Skalen:<br />
◮<br />
◮<br />
◮<br />
◮<br />
Ordinalskala (mit Rangordnung): Tabelle Fußball-Liga, Notenskala,<br />
Güteklassen Eier<br />
Intervallskala (vergleicht Abstände): Zeit-/Temperaturskala,<br />
Längen-/Breitengrade<br />
Verhältnisskala (hat Maßeinheit und Nullpunkt): Gewicht, Alter,<br />
Einkommen<br />
Absolutskala (hat natürliche Einheit): Kinderzahl, Stückzahlen
7 / 4<br />
Urlisten, Häufigkeiten<br />
Die Urliste enthält die Merkmalswerte : {x 1 , x 2 ,..., x n }<br />
mit den unterschiedlichen Werten: a 1 ,..., a k<br />
Die Häufigkeiten werden angegeben:<br />
absolut: relativ: prozentual:<br />
h j := h(a j ) := #{x i |x i = a j } f j = f (a j ) = h j /n p j := f j ∗ 100<br />
∑ h j = n ∑ f j = 1 ∑ p j = 100<br />
Per Histogramm oder Kreisdiagramm/Polygonzug wird die<br />
Häufigkeitsverteilung grafisch dargestellt.<br />
Im Falle von vielen Merkmalsausprägungen geht man über zu<br />
Merkmalsklassen.
7 / 5<br />
Empirische Verteilungsfunktion<br />
Die kumulativen Häufigkeiten sind:<br />
absolut : H i = ∑ i j=1 h j<br />
H i = #{x j |x j ≤ a i }<br />
H i → n f ür i → ∞<br />
relativ : F i = ∑ i j=1 f j<br />
F i : Anteil Stichproben<br />
mit Werten ≤ a i<br />
F i → 1 f ür i → ∞<br />
Bei H ∗ und F ∗ handelt es sich um Treppenfunktionen.<br />
F (x) : Anteil der Stichprobe mit Werten ≤ x<br />
empirische Verteilungsfunktion
7 / 6<br />
Maßzahlen, Mittelwerte<br />
...einer Urliste:<br />
Modus x D<br />
...ist der häufigste Merkmalswert<br />
Median (Zentralwert) x Z ......ist der Wert (ist ein Wert) mit<br />
ebensovielen kleineren wie größeren Merkmalswerten:<br />
{<br />
x n+1/2 falls n ungerade<br />
x Z =<br />
... ist robust gegen Ausreißer<br />
x n/2 falls n gerade<br />
p-Quantil (Verallgemeinerung des Median-Wertes) ...teilt den unteren<br />
Anteil p und den oberen Anteil 1 − p, p ∈ (0,1) von den<br />
Merkmalswerten ab:<br />
{<br />
x np falls np ganzzahlig<br />
x p =<br />
sonst<br />
x ⌊np⌋+1
7 / 7<br />
Arithmetisches Mittel<br />
... metrische (quantitative) Skala unterstellt<br />
x = 1 n ∗ ∑n i=1 x i = 1 n ∗ ∑k j=1 h j ∗ a j = ∑ k j=1 f j ∗ a j<br />
↑ ↑ ↑<br />
Merkmalswerte Häufigkeiten in der<br />
in der Urliste Häufigkeitstabelle<br />
wobei k : Anzahl der unterschiedlichen vorkommenden Werte<br />
Es gilt ∑ n j=1 (x j − x) = 0<br />
(denn...)<br />
Das arithmetische Mittel x minimiert die mittlere quadratische<br />
Abweichung: min x<br />
1/n ∗ ∑ j (x j − x) 2 hat das Minimum bei x = x<br />
denn: d/dx (∑ j (x j − x) 2 !<br />
) = 0 ⇒ ∑ j 2 ∗ (x j − x) ∗ (−1) = 0<br />
⇒ ∑ j x j = ∑ j x = n ∗ x und x = 1/n ∗ ∑ j x j = x
7 / 8<br />
Harmonisches Mittel x H<br />
...einer Stichprobe {x 1 , x 2 ,..., x n } ist:<br />
x H =<br />
n<br />
∑ n i=1 1 /x i<br />
=<br />
n<br />
1<br />
=<br />
∑ k j=1 h j/a j ∑ k j=1<br />
f j/a j<br />
Beispiel (Duchschnittsgeschwindigkeit v eines Autos):<br />
Vier gleichlange Strecken werden durchfahren mit Geschwindigkeiten:<br />
v 1/2/3/4<br />
= 40/50/80/100 [km/h]<br />
Was ist die Geschwindigkeit eines Autos, das gleichmäßig schnell fährt und die<br />
gleiche Reisezeit hat wie die vier unterschiedlich schnellen Pkw’s ?<br />
Wir rechnen:<br />
Reisezeit T = s/v 1 + s/v 2 + s/v 3 + s/v 4<br />
!<br />
= 4s/v ; gesucht v<br />
liefert v = 4<br />
1/v 1 + 1 /v 2 + 1 /v 3 + 1 /v 4<br />
... harmonisches Mittel der v i<br />
und Duchschnittsgeschwindigkeit v = 59,259 [km/h]
7 / 9<br />
Streuparameter<br />
Spannweite w = max x j − min x j<br />
Quartilsabstand q = x 0.75 − x 0.25<br />
...wenig aussagekräftige Maßzahl<br />
...unempfindlich gegen Ausreißer<br />
mittlere Abweichung d bezogen auf den Median x Z ist die mittlere<br />
Summe der Fehlerbeträge :<br />
d = 1 n ∗∑n i=1 |x i −x Z | = 1 n ∗∑k j=1 h j ∗|a j −x Z | = ∑ k j=1 f j ∗|a j −x Z |<br />
Warum bezieht man die mittlere Abweichung auf den Median ?<br />
Theorie: Die mittlere Abweichung 1 /n ∗ ∑ i<br />
durch den Median x = x Z (denn...)<br />
|x i − x| wird minimiert
7 / 10<br />
Empirische Varianz s 2 (Standardabweichung s)<br />
... mittlere quadratische Abweichung, zur Definition vergl. <strong>Teil</strong> 10<br />
s 2 = 1 n ∗ ∑n i=1 (x i − x) 2 = 1 n ∗ ∑k j=1 h j ∗ (a j − x) 2 = ∑ k j=1 f j ∗ (a j − x) 2<br />
Rechenregeln:<br />
s 2 = 1 n ∗ ∑n i=1 x 2<br />
i − x 2 = 1 n ∗ ∑k j=1 h j ∗ a 2 j − x 2 = ∑ k j=1 f j ∗ a 2 j − x 2<br />
Warum bezieht man die Varianz s 2 auf den Mittelwert x ?<br />
Ähnliche Optimierung wie beim Median 7-9: Die mittlere quadratische<br />
Abweichung 1 /n∑ i (x i − x) 2 hat ihr Minimum bei x = x vergl. 7/7
7 / 11<br />
weitere Streuparameter<br />
Variationskoeffizient: v = s/x ist eine Maßzahl für die relative (auf den<br />
Mittelwert bezogene) Standardabweichung.<br />
Drittes Moment um den Mittelwert:<br />
m 3 (x) = 1 n ∗ ∑n i=1 (x i − x) 3<br />
Schiefe<br />
ist ein Maß für die Abweichung von der Symmetrie.<br />
Höhere Momente m r (0) [ um 0 ] bzw. m r (x) [ um x ] :<br />
m r (x) = 1 n ∗ ∑n i=1 (x i − x) r
7 / 12<br />
Datentransformation<br />
Lineare Transformation der Daten:<br />
α j<br />
= m ∗ x j + b<br />
bewirkt lineare Transformation von Mittelwert und Standardabweichung:<br />
x α = m ∗ x + b<br />
(Mittelwert)<br />
s 2 α = m 2 ∗ s 2 (Varianz) [ nachrechnen... ]
7 / 13<br />
Konzentrationsmaß<br />
...beim Merkmal "Reichtum"<br />
L(x) : Gesamtvermögen des ärmsten Bevölkerungsteils x, x ∈ (0,1)<br />
Lorenzkurve:
7 / 14<br />
Konzentrationsmaß...<br />
Gini-Koeffizient<br />
= A : 1 /2 = 2 ∗ A = 2 ∗ ( 1 /2 − ´ 1<br />
0 L(x) dx ) = 1 − 2 ∗ ´ 1<br />
0<br />
L(x) dx<br />
Extreme: Gini-Koeffizient =<br />
{<br />
0 alle gleich reich<br />
1 einer hat alles
7 / 15<br />
Newcomb-Benfordsches Gesetz<br />
...Statistische Verteilung der Zahlen<br />
Man erkennt: Zahlen mit erster Ziffer 1 sind signifikant häufiger als Zahlen<br />
mit erster Ziffer 2,3,... , diese Beobachtung ermöglicht Prüfen großer<br />
Datensätze auf Plausibilität, z.B. Steuerprüfer.<br />
Entdeckt von Newcomb und Benford an der Abnutzung(!) der damals<br />
erforderlichen Logarithmentafeln.
7 / 16<br />
Aufgaben (aus Skript MM, Teschl/Teschl)<br />
(1) Anlässlich einer Schulstatistik wurden in einer Klasse die Körpergrößen<br />
von 20 Schülern erhoben, die in folgender Urliste zusammengestellt sind:<br />
160, 162, 165, 160, 163, 161, 165, 166, 162, 164, 162, 163, 160, 161, 163,<br />
166, 165, 163, 164, 163.<br />
(a) Man stelle in einer Häufigkeitstabelle die absoluten und relativen<br />
Häufigkeiten sowie die kumulierten absoluten und kumulierten relativen<br />
Häufigkeiten dar.<br />
(b) Man ermittle das arithmetische Mittel x auf eine Dezimale genau.<br />
(c) Man ermittle die Varianz s 2 auf zwei Dezimalen genau.<br />
(d) Man gebe die Standardabweichung s auf zwei Dezimalen genau an.<br />
(e) Man ermittle – unter Angabe der verwendeten Formel – den<br />
Variationskoeffizienten v auf zwei Dezimalen genau.
7 / 17<br />
Aufgaben...<br />
(2) Die jährliche Zuwachsrate des Servervolumens einer kleinen Abteilung<br />
des Unternehmens entwickelte sich (exemplarisch) wie folgt:<br />
Jahr 2004 2005 2006 2007<br />
Zuwachsrate 5% -2% 4% 3%<br />
Man ermittle die über alle vier Jahre gleich bleibende und auf den gleichen<br />
Endwert führende durchschnittliche Zuwachsrate.<br />
Welchen Mittelwert sollte man zugrunde legen?<br />
Man gebe die allgemeine Formel an und berechne die<br />
durchschnittliche Zuwachsrate auf zwei Dezimalen genau.
7 / 18<br />
Aufgaben...<br />
(3) Man skizziere die notierten Stichproben und bestimme den<br />
Korrelationskoeffizienten:<br />
(a) (2,2) , (3,1) , (5,3) , (6,4)<br />
(b) (1,5) , (2,2) , (3,1) , (4,2) , (5,5)<br />
(c) (1,5) , (2,3) , (3,4) , (5,2)<br />
Für die Datensätze aus (a),(b),(c) , die einen linearen Zusammenhang<br />
nahelegen, bestimme man die Gleichung der Regressionsgeraden.