Kapitel 10: Beschreibende Statistik
Kapitel 10: Beschreibende Statistik
Kapitel 10: Beschreibende Statistik
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Z.B.:<br />
Fachrechnen für Tierpfleger<br />
A<strong>10</strong>. <strong>Statistik</strong><br />
<strong>10</strong>.1 Allgemeines – Was ist <strong>Statistik</strong><br />
1. Daten sammeln: Durch Umfragen, Zählung, Messung, . . .<br />
2. Daten präsentieren: Tabellen, Grafiken<br />
3. Daten beschreiben/charakterisieren: durch Mittelwert, Maximum, Minimum. . .<br />
4. Auf eine Grundgesamtheit schließen: Hypothese testen<br />
5. Zusammenhänge finden: Lineare Regression, ....<br />
1.-3.: Beschreibend<br />
4.-5.: Schließend<br />
Warum Datenanalyse<br />
Um einen Ist-Zustand zu beschreiben!<br />
Um Entscheidungen (bei Unsicherheit) treffen zu können!<br />
Um Hypothese zu testen!<br />
Um von einer Stichprobe auf die Grundgesamtheit zu schließen!<br />
Um Prognosen erstellen zu können!<br />
<strong>10</strong>.2 Skalen<br />
Skala: Einteilung und Reihung von Werten<br />
Nominalskala (qualitativ)<br />
Besitzt ein Merkmal für das eine Reihung der Ausprägungen nicht möglich bzw. sinnvoll ist.<br />
Die Merkmalsausprägungen heißen Kategorien.<br />
z.B: Geschlecht (m,w), Zustand (Ja, Nein, . . .), Fellfarbe ( . . .), . . .<br />
Ordinalskala (qualitativ)<br />
Zwischen einzelnen Merkmalsausprägungen gibt es eine natürliche Rangordnung. Differenzen lassen<br />
sich aber nicht quantifizieren.<br />
z.B: Ausbildung (Lehre, Fachschule,…), Prüfungsnoten (1,2,3,4,5), Güteklassen (A,B,C), . . .<br />
Metrische Skala (quantitativ)<br />
Merkmalsausprägungen lassen sich ordnen. Und es können Abstände numerisch angegeben werden.<br />
Es gibt meist viele (verschiedene) Merkmalsausprägungen.<br />
Körpergröße, Alter, Masse, . . .<br />
Skalenniveaus bilden eine Hierarchie, i.e., ein metrisch skaliertes Merkmal ist auch ordinal- oder<br />
nominalskaliert, aber nicht umgekehrt.<br />
<strong>10</strong>.3 Präsentation qualitativer Daten<br />
<strong>10</strong>.3.1 Tabellarisch - Häufigkeitstabelle<br />
1. Häufigkeitstabelle eines Merkmals gibt die Kategorien (Merkmalsausprägungen) und die Zahl der<br />
Elemente pro Kategorie an.<br />
2. Erhält man, indem die Antworten den Kategorien zugeordnet werden (Strichliste).<br />
3. Angegeben werden die absoluten oder relativen Häufigkeiten (Prozentsätze), oder beides.<br />
Beispiel:<br />
Beobachtung von 200 Tieren:<br />
1
Fachrechnen für Tierpfleger<br />
Fellfarbe Anzahl Anteil<br />
hellbraun 130 65%<br />
mittelbraun 20 <strong>10</strong>%<br />
mit schwarz 50 25%<br />
Gesamt 200 <strong>10</strong>0%<br />
Wobei: Fellfarbe = Merkmal,<br />
hellbraun…= Kategorie (Ausprägung),<br />
Anzahl aus Strichliste<br />
<strong>10</strong>.3.2 Graphisch<br />
a) Balkendiagramm (siehe <strong>Kapitel</strong> 9)<br />
b) Tortendiagramm (siehe <strong>Kapitel</strong> 9)<br />
<strong>10</strong>.4 Präsentation quantitativer Daten<br />
Präsentation/Beschreibung der Verteilung, d.h. mit welcher Häufigkeit kommen bestimmte Daten vor.<br />
<strong>10</strong>.4.1 Tabellarisch<br />
a) Häufigkeitsverteilung<br />
Vorgangsweise bei der Klasseneinteilung:<br />
1. Bereich (kleinsten und größten Wert) bestimmen.<br />
2. Geeignete Zahl an Klassen auswählen.<br />
(Anzahl der Klassen: Wurzel aus Anzahl der Rohdatenwerte, Typischerweise zwischen 5 und 15)<br />
3. Klassenbreite bestimmen. Die Klassen sind in der Regel gleich breit.<br />
4. Klassengrenzen bestimmen.<br />
5. Klassenmitte berechnen.<br />
6. Beobachtungen abzählen und den Klassen zuordnen.<br />
Beispiel: Einteilung in Klassen<br />
Rohdaten: 24, 26, 15, 21, 27, 27, 30, 45, 32, 38<br />
Klasse Anzahl Anteil Prozent<br />
15 – 25 3 0,3 30%<br />
25 – 35 5 0,5 50%<br />
35 – 45 2 0,2 20%<br />
Summe <strong>10</strong> 1,0 <strong>10</strong>0%<br />
Konvention: 15 bis unter 25, d.h., 15 gehört zur Klasse, 25 nicht.<br />
b) Tabellarisch - Relative Summenhäufigkeitsverteilung (Kumuliertehäufigkeit)<br />
Gibt an, wie viele Beobachtungen – relativ oder prozentuell – einen Wert besitzen, der sich links der<br />
jeweiligen oberen Klassengrenze befindet.<br />
(Links bedeutet: Kleiner als die obere Klassengrenze.)<br />
Beispiel: Summenhäufigkeiten<br />
Rohdaten: 24, 26, 24, 21, 27, 27, 30, 41, 32, 38<br />
Klassen Anteil Summe relativ Summe prozentuell<br />
15 – 25 0.3 0.3 30%<br />
25 – 35 0.5 0.8 80% (30%+50%)<br />
35 – 45 0.2 1.0 <strong>10</strong>0% (30%+50%)+20%<br />
2
Fachrechnen für Tierpfleger<br />
<strong>10</strong>.4.2 Graphisch - Histogramm<br />
Absolute Häufigkiet<br />
7<br />
6<br />
5<br />
4<br />
3<br />
2<br />
1<br />
0<br />
<strong>10</strong> 20 30 40 50<br />
70<br />
60<br />
50<br />
40<br />
30<br />
20<br />
<strong>10</strong><br />
0<br />
Relative Häufigkeit[%]<br />
Absolute Summenhäufigkeit<br />
<strong>10</strong><br />
9<br />
8<br />
7<br />
6<br />
5<br />
4<br />
3<br />
2<br />
1<br />
0<br />
bis 15 bis 25 bis 35 bis 45<br />
<strong>10</strong>0<br />
90<br />
80<br />
70<br />
60<br />
50<br />
40<br />
30<br />
20<br />
<strong>10</strong><br />
0<br />
Relative Summenhäufigkeit [%]<br />
<strong>10</strong>.5 Numerische Beschreibung/Charakterisierung quantitativer Daten<br />
= Numerische Charakterisierung einer Verteilung<br />
Lage: Lagemaße (Geben die „Mitte“ der Verteilung an)<br />
• arithmetisches Mittel<br />
• Median<br />
• Modus<br />
Streuung: Streuungsmaße (Geben die „Breite“ und „Höhe“ einer Verteilung an)<br />
• Spannweite<br />
• Interquartilsabstand<br />
• Varianz<br />
• Standardabweichung<br />
Form: Formmaße (Geben die „Form“ der Verteilung an)<br />
• Schiefe<br />
<strong>10</strong>.5.1 Lagemaße<br />
<strong>10</strong>.5.1.1 (Arithmetisches) Mittel<br />
• Maß für die Lage der Verteilung: Für metrisch skalierte Daten<br />
• Am häufigsten verwendetes Maß<br />
• Auch „Durchschnitt“<br />
• „Durchschnittlicher Wert“ der Daten<br />
• Empfindlich gegen „Ausreißer“ (Werte die deutlich anders sind als der Rest, z.B. Messfehler,<br />
Dezimalstelle,…)<br />
• Achtung: Mittelwert hat die gleiche Einheit wie die Messwerte und muss natürlich angegeben<br />
werden!<br />
Definition:<br />
3
Fachrechnen für Tierpfleger<br />
TABELLENKALKULATIONSPROGRAMM:<br />
=MITTELWERT(Wert_1; Wert_2; …Wert_n)<br />
Bzw.<br />
=MITTELWERT(Zelle_1:Zelle_n)<br />
Oder<br />
=SUMME(Zelle_1:Zelle_n) / ANZAHL (Zelle_1:Zelle_n)<br />
Beispiel<br />
Urinabgabe: Tier1:<strong>10</strong>.3ml, Tier2: 4.9ml, Tier3: 8.9ml, Tier4: 11.7ml, Tier5: 6.3ml, Tier6: 7.7ml<br />
1. Anzahl: n=6<br />
2. Summe: (<strong>10</strong>.3+ 4.9+8.9+11.7+ 6.3+ 7.7)<br />
3. Ergebnis: (<strong>10</strong>.3+ 4.9+8.9+11.7+ 6.3+ 7.7) ml / 6 = 8.30 ml<br />
<strong>10</strong>.5.1.2 Gewichtetes Mittel<br />
Notwendig zur Berechnung des arithmetischen Mittels aus einer Häufigkeitstabelle.<br />
k verschiedene Werte x1, . . . , xk mit den Häufigkeiten h1, . . . , hk.<br />
Definition<br />
Beispiel<br />
Es wurde die Wurfgröße einer Tierart in einem bestimmten Zeitraum erhoben:<br />
Wie groß ist die mittlere Wurfgröße<br />
Wurfgröße x i 0 1 4 3 4<br />
Häuigkeit h i 12 14 5 2 0<br />
Lösung:<br />
Summe der Häufigkeiten: n = 12+14+5+2 = 33 (Anzahl der „Muttertiere“)<br />
<strong>10</strong>.5.1.3 Median<br />
Maß für die Lage der Verteilung<br />
für ordinalskalierte Daten<br />
Definition:<br />
Mittlerer Wert in der geordneten Liste<br />
Ungerade Anzahl n: Mittlerer Wert<br />
Gerade Anzahl n: Durchschnitt der beiden mittleren Werten<br />
Position des Medians= (n+ 1)/2<br />
4
Fachrechnen für Tierpfleger<br />
Robust (unempfindlich) gegenüber Ausreißern.<br />
Beispiel: Ungerade Anzahl von Daten:<br />
Rohdaten: 24.1 22.6 21.5 23.7 22.6<br />
Sortiert : 21.5 22.6 22.6 23.7 24.1<br />
Position : 1 2 3 4 5<br />
Position des Median= (n+ 1)/2 = (5+1)/2 = 3<br />
Median = 22.6<br />
Beispiel: Gerade Anzahl von Daten:<br />
Rohdaten: <strong>10</strong>.3 4.9 8.9 11.7 6.3 7.7<br />
Sortiert: 4.9 6.3 7.7 8.9 <strong>10</strong>.3 11.7<br />
Position: 1 2 3 4 5 6<br />
Position des Median = (6+1) / 2 = 3.5<br />
Median=(7.7+8.9) /2 = 8.3<br />
TABELLENKALKULATIONSPROGRAMM:<br />
=MEDIAN(Wert_1; Wert_2; …; Wert_n)<br />
bzw<br />
=MEDIAN(Zelle_1:Zelle_n)<br />
<strong>10</strong>.5.1.4 Modus<br />
Maß für die Lage der Verteilung<br />
Kann auch für nominalskalierte Daten verwendet werden<br />
Definition:<br />
Häufigster Wert<br />
Kein, ein oder mehrere Modi sind möglich<br />
Kann auch bei qualitativen und quantitativen Daten verwendet werden<br />
Robust (unempfindlich) gegenüber Ausreißern<br />
Beispiele:<br />
Kein Modus:<br />
Rohdaten: <strong>10</strong>.3 4.9 8.9 11.7 6.3 7.7<br />
Ein Modus:<br />
Rohdaten 6.3 4.9 8.9 6.3 4.9 4.9<br />
Mehrere Modi:<br />
Rohdaten: 21 28 28 41 43 43<br />
<strong>10</strong>.5.1.5 Zusammenfassung<br />
5
Fachrechnen für Tierpfleger<br />
<strong>10</strong>.5.1.6 Beispiele<br />
Beispiel 1:<br />
Beschreiben Sie die Lage der Verteilung (Mittel, Median, Modus)<br />
Stimmen die Lagemaße gut überein<br />
Rohdaten: 17g, 16g, 21g, 18g, 13g, 16g, 12g und 11g<br />
Mittel = (17g+16g+ 21g+18g+ 13g+16g+12g+11g) / 8 =15.5 g<br />
Median:<br />
Sortiert: 11g 12g 13g 16g 16g 17g 18g 21g<br />
Position: 1 2 3 4 5 6 7 8 (Anzahl gerade)<br />
Position des Medians = (8+1) / 2 = 4.5<br />
Median = (16g+16g) / 2 =16g<br />
Modus:<br />
Sortiert: 11g 12g 13g 16g 16g 17g 18g 21g<br />
Modus = 16g<br />
Vergleich: Mittel=15.5g, Median=16g, Modus=16g => Gute Übereinstimmung<br />
Beispiel 2:<br />
Beschreiben Sie die Lage der Verteilung (Mittel, Median, Modus)<br />
Stimmen die Lagemaße gut überein<br />
Rohdaten: 17g, 33g, 25g, 21g, 13g, 11g, 12g und 11g<br />
Mittel: Mittel = (17g+33g+ 25g+21g+ 13g+11g+12g+11g) / 8 =17.9 g<br />
Median:<br />
Sortiert: 11g 11g 12g 13g 17g 21g 25g 33g<br />
Position: 1 2 3 4 5 6 7 8 (Anzahl gerade)<br />
Median = (13g+17g) / 2 =15g<br />
Modus:<br />
Sortiert: 11g 11g 12g 13g 17g 19g 25g 33g<br />
Modus = 11g<br />
Vergleich: Mittel=17.9g, Median=15g, Modus=11g => Keine gute Übereinstimmung<br />
<strong>10</strong>.5.2 Streuungsmaße<br />
<strong>10</strong>.5.2.1 Spannweite<br />
Maß für die Streuung metrisch skalierter Merkmale<br />
Definition:<br />
Spannweite ist die Differenz zwischen größter (x max ) und kleinster (x min )Beobachtung<br />
Spannweite = x max - x min<br />
Nachteil: Sehr empfindlich gegenüber Ausreißern<br />
TABELLENKALKULATIONSPROGRAMM:<br />
Maximalwert: =MAX(Wert_1; Wert_2; …; Wert_n) bzw. =MAX(Zelle_1:Zelle_n)<br />
Minimalwert:<br />
=MIN(Wert_1; Wert_2; …; Wert_n) bzw. =MIN(Zelle_1:Zelle_n)<br />
6
Fachrechnen für Tierpfleger<br />
<strong>10</strong>.5.2.2 Varianz<br />
Maß für die Streuung für metrisch skalierte Merkmale<br />
Berücksichtigt die Verteilung<br />
Zeigt die Abweichung von Mittelwert x bzw. vom Erwartungswert µ<br />
Definition der Varianz:<br />
Die Varianz berechnet sich leichter durch folgende Formeln (Verschiebungssatz):<br />
<strong>10</strong>.5.2.3 Standardabweichung<br />
Maß für die Streuung für metrisch skalierte Merkmale<br />
Berücksichtigt die Verteilung<br />
Die Standardabweichung ist die positive Quadratwurzel der Varianz.<br />
Die Standardabweichung hat die gleiche Dimension wie Mittelwert.<br />
Definition der Standardabweichung:<br />
Grundgesamtheit<br />
Stichprobe<br />
Beispiel<br />
Rohdaten: <strong>10</strong>.3 4.9 8.9 11.7 6.3 7.7<br />
Varianz in der Stichprobe:<br />
Standardabweichung in der Stichprobe:<br />
Beispiel<br />
Rohdaten: <strong>10</strong>.3 4.9 8.9 11.7 6.3 7.7<br />
Varianz in der Stichprobe:<br />
7
Fachrechnen für Tierpfleger<br />
<strong>10</strong>.5.2.4 Zusammenfassung<br />
8
Fachrechnen für Tierpfleger<br />
<strong>10</strong>.5.3 Form der Verteilung<br />
Form: beschreibt die Verteilung der Daten<br />
Maß für die Form ist die Schiefe (= Abweichung von der Symmetrie)<br />
<strong>10</strong>.5.3.1 Quartile<br />
Beschreiben die Verteilung der Daten xj, j=1, . . . , n.<br />
Die geordneten Daten werden in vier gleiche Teile zerlegt.<br />
Das i-te Quartil ist der maximale x-Wert des i-ten Teiles:<br />
1/4 aller Daten sind kleiner oder gleich Q1.<br />
1/2 aller Daten sind kleiner oder gleich Q2 (=Median).<br />
3/4 aller Daten sind kleiner oder gleich Q3.<br />
Beispiel<br />
Rohdaten: <strong>10</strong>.3, 4.9, 8.9, 11.7, 6.3, 7.7<br />
Sortiert: 4.9, 6.3, 7.7, 8.9, <strong>10</strong>.3, 11.7<br />
Position: 1 2 3 4 5 6<br />
Tabellenkalkulation<br />
9
Fachrechnen für Tierpfleger<br />
1.Quartil: =QUARTILE(Wertebereich;1)<br />
2.Quartil: =QUARTILE(Wertebereich;2) oder: =MEDIAN(Wertebereich)<br />
3.Quartil: =QUARTILE(Wertebereich;3)<br />
<strong>10</strong>.5.3.2 Interquartilsabstand<br />
Streuungsmaß für metrisch skalierte Daten<br />
Definition:<br />
Differenz zwischen 3. und 1. Quartil<br />
Zeigt den Bereich der mittleren 50% der Daten<br />
Robust (unempfindlich) gegenüber Ausreißern<br />
Beispiel 1<br />
Rohdaten: <strong>10</strong>.3 4.9 8.9 11.7 6.3 7.7<br />
Sortiert: 4.9 6.3 7.7 8.9 <strong>10</strong>.3 11.7<br />
Position: 1 2 3 4 5 6<br />
Q1<br />
Q3<br />
Q1 = 6.3<br />
Q3 = <strong>10</strong>.3<br />
Interquartilsabstand: Q3-Q1=<strong>10</strong>.3 - 6.3 = 4.0<br />
Beispiel 2<br />
Sie haben in den letzten 8 Tagen folgenden Futtermittelbedarf festgestellt: Analysieren Sie die<br />
Verteilung mit Hilfe der Quartile Q1 und Q3 sowie mit dem Interquartilsabstand.<br />
Rohdaten: 17kg 16kg 21kg 18kg 13kg 16kg 12kg 11kg<br />
Sortiert: 11kg 12kg 13kg 16kg 16kg 17kg 18kg 21kg<br />
Position: 1 2 3 4 5 6 7 8<br />
Q1,Q3:<br />
Interquartilsabstand: Q3- Q1= 18kg- 12kg= 6kg<br />
Tabellenkalkulation<br />
=QUARTILE(Wertebereich;3) - QUARTILE(Wertebereich;1)<br />
<strong>10</strong>.5.3.3 Box-Plot<br />
= Graphische Darstellung der Daten<br />
verwendet 5 Kenngrößen:<br />
xmin, Q1, Median, Q3, xmax<br />
Beispiel<br />
<strong>10</strong>
Fachrechnen für Tierpfleger<br />
Rohdaten: 17kg 16kg 21kg 18kg 13kg 16kg 12kg 11kg<br />
Sortiert: 11kg 12kg 13kg 16kg 16kg 17kg 18kg 21kg<br />
Position: 1 2 3 4 5 6 7 8<br />
n=8,<br />
X min = 11kg<br />
Q 1 = 12kg (Pos. : 1*9/4=2.25=2)<br />
Median= 14kg<br />
Q 3 = 18kg (Pos.: 3*9/4=6.75=7<br />
X max = 21kg<br />
<strong>10</strong>.5.3.4 Bestimmung der Form<br />
Linkschief: Median liegt näher bei Q3 als bei Q1<br />
Symmetrisch: Median liegt zwischen Q3 und Q1<br />
Rechtsschief: Median liegt näher bei Q1 als bei Q3<br />
<strong>10</strong>.5.3.5 Quantile<br />
Beschreiben die Verteilung der Daten xj, j=1, . . . , n.<br />
Die geordneten Daten können in beliebig viele gleiche Teile zerlegt.<br />
Das i-te Quantil ist der maximale x-Wert des i-ten Teiles<br />
Besondere Quantile: Percentil (<strong>10</strong>0er), Dezil (<strong>10</strong>er-Teilung)<br />
Tabellenkalkulation<br />
=QUANTIL(Wertebereich;Alpha)<br />
Alpha = [0,1]<br />
z.B.:Alpha 0.25-> 1. Quartil<br />
<strong>10</strong>.5.3.6 Interquantilsabstände<br />
Interquantilsabstände sind analog zum Interquartilabstand definiert:<br />
Interdezil: Q 90% -Q <strong>10</strong>% … Wertebereich in dem 80% aller Werte liegen (α2=0.9, α1=0.1)<br />
Interpercentil: Q 99% -Q 1% … Wertebereich in dem 98% aller Werte liegen (α2 =0.99, α1=0.01)<br />
11
Fachrechnen für Tierpfleger<br />
Im Gegensatz zum Quartileinteilung benötigt die Quantileinteilung mehr Werte und zwar mindestens<br />
so viele wie Unterteilungsintervalle (Dezil <strong>10</strong>, Percentil <strong>10</strong>0)<br />
<strong>10</strong>.5.3.7 Anwendung von Quantil und Quantilsabstände<br />
Was ist „normal“ was ist außergewöhnlich<br />
Häufig gefragt:<br />
Intervall in dem 75% aller Werte liegen => Abstand=0.75<br />
Intervall in dem 95% aller Werte liegen => Abstand=0.95<br />
Intervall in dem 99% aller Werte liegen => Abstand=0.99<br />
Frage:<br />
α1=, α2=<br />
Es gilt: α2 = 1.0 – α1<br />
Abstand = α2 - α1<br />
α 1 = (1.0 -Abstand)/2<br />
α2 = 1.0 – α1<br />
α2 = (α1 + Abstand)<br />
Intervall in dem 75% aller Werte liegen<br />
Abstand=0.75,<br />
α1 = (1.0-0.75)/2.0 = 0.125,<br />
α2 = 0.125+0.75= 0.875<br />
Intervall in dem 95% aller Werte liegen<br />
Abstand=0.95,<br />
α1 = (1.0-0.95)/2.0 = 0.025,<br />
α2 = 0.025+0.95= 0.975<br />
Intervall in dem 99% aller Werte liegen<br />
Abstand=0.99,<br />
α1 = (1.0-0.99)/2.0 = 0.005,<br />
α2 = 0.005+0.99= 0.995<br />
12