23.01.2014 Aufrufe

Teil 7 Beschreibende Statistik

Teil 7 Beschreibende Statistik

Teil 7 Beschreibende Statistik

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

<strong>Teil</strong> 7 <strong>Beschreibende</strong> <strong>Statistik</strong><br />

7 / 1<br />

Ziele:<br />

Grundgesamtheiten, Stichproben<br />

Merkmale, Skalen<br />

Häufigkeiten, empirische Verteilungsfunktion<br />

Maßzahlen (Mittelwerte, Streuparameter)<br />

...deren Eigenschaften<br />

Beschreibung und Darstellung von Daten; Minimumeigenschaften der<br />

Maßzahlen.<br />

In der schließenden <strong>Statistik</strong> (→<strong>Teil</strong> 10) geht es um Schlußfolgerungen<br />

aus der Stichprobe mittels Wahrscheinlichkeitsrechnung (→<strong>Teil</strong> 9).


7 / 2<br />

Stichproben, Merkmale<br />

Klassifikation der Grundgesamtheit in:<br />

Bastandsmassen Bewegungsmassen<br />

z.B. zugelassenene Kfz An-/Abmeldungen Kfz<br />

Eine Zufallsstichprobe ist eine <strong>Teil</strong>menge der Grundgesamtheit.<br />

Die statistischen Objekte der Stichprobe / der Grundgesamtheit haben<br />

Merkmale.<br />

Merkmale sind<br />

diskret: Anzahl <strong>Teil</strong>nehmer<br />

oder stetig : Alter, Geschwindigkeit (Merkmal kontinuierlich)<br />

Merkmale können dichoton sein, d.h. nur zweier Werte fähig: m/w<br />

Merkmale können häufbar sein: Informatiker und Betriebswirt als "erlernter<br />

Beruf"


7 / 3<br />

Skalen<br />

Für die Merkmale gibt es statistische, hierarchisch gegliederte Skalen:<br />

qualitative Skala:<br />

◮<br />

Nominalskala: m/w, s/w, 0/1, Arbeiter/Angestellter/Beamter<br />

quantitative (metrische) Skalen:<br />

◮<br />

◮<br />

◮<br />

◮<br />

Ordinalskala (mit Rangordnung): Tabelle Fußball-Liga, Notenskala,<br />

Güteklassen Eier<br />

Intervallskala (vergleicht Abstände): Zeit-/Temperaturskala,<br />

Längen-/Breitengrade<br />

Verhältnisskala (hat Maßeinheit und Nullpunkt): Gewicht, Alter,<br />

Einkommen<br />

Absolutskala (hat natürliche Einheit): Kinderzahl, Stückzahlen


7 / 4<br />

Urlisten, Häufigkeiten<br />

Die Urliste enthält die Merkmalswerte : {x 1 , x 2 ,..., x n }<br />

mit den unterschiedlichen Werten: a 1 ,..., a k<br />

Die Häufigkeiten werden angegeben:<br />

absolut: relativ: prozentual:<br />

h j := h(a j ) := #{x i |x i = a j } f j = f (a j ) = h j /n p j := f j ∗ 100<br />

∑ h j = n ∑ f j = 1 ∑ p j = 100<br />

Per Histogramm oder Kreisdiagramm/Polygonzug wird die<br />

Häufigkeitsverteilung grafisch dargestellt.<br />

Im Falle von vielen Merkmalsausprägungen geht man über zu<br />

Merkmalsklassen.


7 / 5<br />

Empirische Verteilungsfunktion<br />

Die kumulativen Häufigkeiten sind:<br />

absolut : H i = ∑ i j=1 h j<br />

H i = #{x j |x j ≤ a i }<br />

H i → n f ür i → ∞<br />

relativ : F i = ∑ i j=1 f j<br />

F i : Anteil Stichproben<br />

mit Werten ≤ a i<br />

F i → 1 f ür i → ∞<br />

Bei H ∗ und F ∗ handelt es sich um Treppenfunktionen.<br />

F (x) : Anteil der Stichprobe mit Werten ≤ x<br />

empirische Verteilungsfunktion


7 / 6<br />

Maßzahlen, Mittelwerte<br />

...einer Urliste:<br />

Modus x D<br />

...ist der häufigste Merkmalswert<br />

Median (Zentralwert) x Z ......ist der Wert (ist ein Wert) mit<br />

ebensovielen kleineren wie größeren Merkmalswerten:<br />

{<br />

x n+1/2 falls n ungerade<br />

x Z =<br />

... ist robust gegen Ausreißer<br />

x n/2 falls n gerade<br />

p-Quantil (Verallgemeinerung des Median-Wertes) ...teilt den unteren<br />

Anteil p und den oberen Anteil 1 − p, p ∈ (0,1) von den<br />

Merkmalswerten ab:<br />

{<br />

x np falls np ganzzahlig<br />

x p =<br />

sonst<br />

x ⌊np⌋+1


7 / 7<br />

Arithmetisches Mittel<br />

... metrische (quantitative) Skala unterstellt<br />

x = 1 n ∗ ∑n i=1 x i = 1 n ∗ ∑k j=1 h j ∗ a j = ∑ k j=1 f j ∗ a j<br />

↑ ↑ ↑<br />

Merkmalswerte Häufigkeiten in der<br />

in der Urliste Häufigkeitstabelle<br />

wobei k : Anzahl der unterschiedlichen vorkommenden Werte<br />

Es gilt ∑ n j=1 (x j − x) = 0<br />

(denn...)<br />

Das arithmetische Mittel x minimiert die mittlere quadratische<br />

Abweichung: min x<br />

1/n ∗ ∑ j (x j − x) 2 hat das Minimum bei x = x<br />

denn: d/dx (∑ j (x j − x) 2 !<br />

) = 0 ⇒ ∑ j 2 ∗ (x j − x) ∗ (−1) = 0<br />

⇒ ∑ j x j = ∑ j x = n ∗ x und x = 1/n ∗ ∑ j x j = x


7 / 8<br />

Harmonisches Mittel x H<br />

...einer Stichprobe {x 1 , x 2 ,..., x n } ist:<br />

x H =<br />

n<br />

∑ n i=1 1 /x i<br />

=<br />

n<br />

1<br />

=<br />

∑ k j=1 h j/a j ∑ k j=1<br />

f j/a j<br />

Beispiel (Duchschnittsgeschwindigkeit v eines Autos):<br />

Vier gleichlange Strecken werden durchfahren mit Geschwindigkeiten:<br />

v 1/2/3/4<br />

= 40/50/80/100 [km/h]<br />

Was ist die Geschwindigkeit eines Autos, das gleichmäßig schnell fährt und die<br />

gleiche Reisezeit hat wie die vier unterschiedlich schnellen Pkw’s ?<br />

Wir rechnen:<br />

Reisezeit T = s/v 1 + s/v 2 + s/v 3 + s/v 4<br />

!<br />

= 4s/v ; gesucht v<br />

liefert v = 4<br />

1/v 1 + 1 /v 2 + 1 /v 3 + 1 /v 4<br />

... harmonisches Mittel der v i<br />

und Duchschnittsgeschwindigkeit v = 59,259 [km/h]


7 / 9<br />

Streuparameter<br />

Spannweite w = max x j − min x j<br />

Quartilsabstand q = x 0.75 − x 0.25<br />

...wenig aussagekräftige Maßzahl<br />

...unempfindlich gegen Ausreißer<br />

mittlere Abweichung d bezogen auf den Median x Z ist die mittlere<br />

Summe der Fehlerbeträge :<br />

d = 1 n ∗∑n i=1 |x i −x Z | = 1 n ∗∑k j=1 h j ∗|a j −x Z | = ∑ k j=1 f j ∗|a j −x Z |<br />

Warum bezieht man die mittlere Abweichung auf den Median ?<br />

Theorie: Die mittlere Abweichung 1 /n ∗ ∑ i<br />

durch den Median x = x Z (denn...)<br />

|x i − x| wird minimiert


7 / 10<br />

Empirische Varianz s 2 (Standardabweichung s)<br />

... mittlere quadratische Abweichung, zur Definition vergl. <strong>Teil</strong> 10<br />

s 2 = 1 n ∗ ∑n i=1 (x i − x) 2 = 1 n ∗ ∑k j=1 h j ∗ (a j − x) 2 = ∑ k j=1 f j ∗ (a j − x) 2<br />

Rechenregeln:<br />

s 2 = 1 n ∗ ∑n i=1 x 2<br />

i − x 2 = 1 n ∗ ∑k j=1 h j ∗ a 2 j − x 2 = ∑ k j=1 f j ∗ a 2 j − x 2<br />

Warum bezieht man die Varianz s 2 auf den Mittelwert x ?<br />

Ähnliche Optimierung wie beim Median 7-9: Die mittlere quadratische<br />

Abweichung 1 /n∑ i (x i − x) 2 hat ihr Minimum bei x = x vergl. 7/7


7 / 11<br />

weitere Streuparameter<br />

Variationskoeffizient: v = s/x ist eine Maßzahl für die relative (auf den<br />

Mittelwert bezogene) Standardabweichung.<br />

Drittes Moment um den Mittelwert:<br />

m 3 (x) = 1 n ∗ ∑n i=1 (x i − x) 3<br />

Schiefe<br />

ist ein Maß für die Abweichung von der Symmetrie.<br />

Höhere Momente m r (0) [ um 0 ] bzw. m r (x) [ um x ] :<br />

m r (x) = 1 n ∗ ∑n i=1 (x i − x) r


7 / 12<br />

Datentransformation<br />

Lineare Transformation der Daten:<br />

α j<br />

= m ∗ x j + b<br />

bewirkt lineare Transformation von Mittelwert und Standardabweichung:<br />

x α = m ∗ x + b<br />

(Mittelwert)<br />

s 2 α = m 2 ∗ s 2 (Varianz) [ nachrechnen... ]


7 / 13<br />

Konzentrationsmaß<br />

...beim Merkmal "Reichtum"<br />

L(x) : Gesamtvermögen des ärmsten Bevölkerungsteils x, x ∈ (0,1)<br />

Lorenzkurve:


7 / 14<br />

Konzentrationsmaß...<br />

Gini-Koeffizient<br />

= A : 1 /2 = 2 ∗ A = 2 ∗ ( 1 /2 − ´ 1<br />

0 L(x) dx ) = 1 − 2 ∗ ´ 1<br />

0<br />

L(x) dx<br />

Extreme: Gini-Koeffizient =<br />

{<br />

0 alle gleich reich<br />

1 einer hat alles


7 / 15<br />

Newcomb-Benfordsches Gesetz<br />

...Statistische Verteilung der Zahlen<br />

Man erkennt: Zahlen mit erster Ziffer 1 sind signifikant häufiger als Zahlen<br />

mit erster Ziffer 2,3,... , diese Beobachtung ermöglicht Prüfen großer<br />

Datensätze auf Plausibilität, z.B. Steuerprüfer.<br />

Entdeckt von Newcomb und Benford an der Abnutzung(!) der damals<br />

erforderlichen Logarithmentafeln.


7 / 16<br />

Aufgaben (aus Skript MM, Teschl/Teschl)<br />

(1) Anlässlich einer Schulstatistik wurden in einer Klasse die Körpergrößen<br />

von 20 Schülern erhoben, die in folgender Urliste zusammengestellt sind:<br />

160, 162, 165, 160, 163, 161, 165, 166, 162, 164, 162, 163, 160, 161, 163,<br />

166, 165, 163, 164, 163.<br />

(a) Man stelle in einer Häufigkeitstabelle die absoluten und relativen<br />

Häufigkeiten sowie die kumulierten absoluten und kumulierten relativen<br />

Häufigkeiten dar.<br />

(b) Man ermittle das arithmetische Mittel x auf eine Dezimale genau.<br />

(c) Man ermittle die Varianz s 2 auf zwei Dezimalen genau.<br />

(d) Man gebe die Standardabweichung s auf zwei Dezimalen genau an.<br />

(e) Man ermittle – unter Angabe der verwendeten Formel – den<br />

Variationskoeffizienten v auf zwei Dezimalen genau.


7 / 17<br />

Aufgaben...<br />

(2) Die jährliche Zuwachsrate des Servervolumens einer kleinen Abteilung<br />

des Unternehmens entwickelte sich (exemplarisch) wie folgt:<br />

Jahr 2004 2005 2006 2007<br />

Zuwachsrate 5% -2% 4% 3%<br />

Man ermittle die über alle vier Jahre gleich bleibende und auf den gleichen<br />

Endwert führende durchschnittliche Zuwachsrate.<br />

Welchen Mittelwert sollte man zugrunde legen?<br />

Man gebe die allgemeine Formel an und berechne die<br />

durchschnittliche Zuwachsrate auf zwei Dezimalen genau.


7 / 18<br />

Aufgaben...<br />

(3) Man skizziere die notierten Stichproben und bestimme den<br />

Korrelationskoeffizienten:<br />

(a) (2,2) , (3,1) , (5,3) , (6,4)<br />

(b) (1,5) , (2,2) , (3,1) , (4,2) , (5,5)<br />

(c) (1,5) , (2,3) , (3,4) , (5,2)<br />

Für die Datensätze aus (a),(b),(c) , die einen linearen Zusammenhang<br />

nahelegen, bestimme man die Gleichung der Regressionsgeraden.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!