01.01.2015 Aufrufe

Kapitel 10: Beschreibende Statistik

Kapitel 10: Beschreibende Statistik

Kapitel 10: Beschreibende Statistik

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Z.B.:<br />

Fachrechnen für Tierpfleger<br />

A<strong>10</strong>. <strong>Statistik</strong><br />

<strong>10</strong>.1 Allgemeines – Was ist <strong>Statistik</strong><br />

1. Daten sammeln: Durch Umfragen, Zählung, Messung, . . .<br />

2. Daten präsentieren: Tabellen, Grafiken<br />

3. Daten beschreiben/charakterisieren: durch Mittelwert, Maximum, Minimum. . .<br />

4. Auf eine Grundgesamtheit schließen: Hypothese testen<br />

5. Zusammenhänge finden: Lineare Regression, ....<br />

1.-3.: Beschreibend<br />

4.-5.: Schließend<br />

Warum Datenanalyse<br />

Um einen Ist-Zustand zu beschreiben!<br />

Um Entscheidungen (bei Unsicherheit) treffen zu können!<br />

Um Hypothese zu testen!<br />

Um von einer Stichprobe auf die Grundgesamtheit zu schließen!<br />

Um Prognosen erstellen zu können!<br />

<strong>10</strong>.2 Skalen<br />

Skala: Einteilung und Reihung von Werten<br />

Nominalskala (qualitativ)<br />

Besitzt ein Merkmal für das eine Reihung der Ausprägungen nicht möglich bzw. sinnvoll ist.<br />

Die Merkmalsausprägungen heißen Kategorien.<br />

z.B: Geschlecht (m,w), Zustand (Ja, Nein, . . .), Fellfarbe ( . . .), . . .<br />

Ordinalskala (qualitativ)<br />

Zwischen einzelnen Merkmalsausprägungen gibt es eine natürliche Rangordnung. Differenzen lassen<br />

sich aber nicht quantifizieren.<br />

z.B: Ausbildung (Lehre, Fachschule,…), Prüfungsnoten (1,2,3,4,5), Güteklassen (A,B,C), . . .<br />

Metrische Skala (quantitativ)<br />

Merkmalsausprägungen lassen sich ordnen. Und es können Abstände numerisch angegeben werden.<br />

Es gibt meist viele (verschiedene) Merkmalsausprägungen.<br />

Körpergröße, Alter, Masse, . . .<br />

Skalenniveaus bilden eine Hierarchie, i.e., ein metrisch skaliertes Merkmal ist auch ordinal- oder<br />

nominalskaliert, aber nicht umgekehrt.<br />

<strong>10</strong>.3 Präsentation qualitativer Daten<br />

<strong>10</strong>.3.1 Tabellarisch - Häufigkeitstabelle<br />

1. Häufigkeitstabelle eines Merkmals gibt die Kategorien (Merkmalsausprägungen) und die Zahl der<br />

Elemente pro Kategorie an.<br />

2. Erhält man, indem die Antworten den Kategorien zugeordnet werden (Strichliste).<br />

3. Angegeben werden die absoluten oder relativen Häufigkeiten (Prozentsätze), oder beides.<br />

Beispiel:<br />

Beobachtung von 200 Tieren:<br />

1


Fachrechnen für Tierpfleger<br />

Fellfarbe Anzahl Anteil<br />

hellbraun 130 65%<br />

mittelbraun 20 <strong>10</strong>%<br />

mit schwarz 50 25%<br />

Gesamt 200 <strong>10</strong>0%<br />

Wobei: Fellfarbe = Merkmal,<br />

hellbraun…= Kategorie (Ausprägung),<br />

Anzahl aus Strichliste<br />

<strong>10</strong>.3.2 Graphisch<br />

a) Balkendiagramm (siehe <strong>Kapitel</strong> 9)<br />

b) Tortendiagramm (siehe <strong>Kapitel</strong> 9)<br />

<strong>10</strong>.4 Präsentation quantitativer Daten<br />

Präsentation/Beschreibung der Verteilung, d.h. mit welcher Häufigkeit kommen bestimmte Daten vor.<br />

<strong>10</strong>.4.1 Tabellarisch<br />

a) Häufigkeitsverteilung<br />

Vorgangsweise bei der Klasseneinteilung:<br />

1. Bereich (kleinsten und größten Wert) bestimmen.<br />

2. Geeignete Zahl an Klassen auswählen.<br />

(Anzahl der Klassen: Wurzel aus Anzahl der Rohdatenwerte, Typischerweise zwischen 5 und 15)<br />

3. Klassenbreite bestimmen. Die Klassen sind in der Regel gleich breit.<br />

4. Klassengrenzen bestimmen.<br />

5. Klassenmitte berechnen.<br />

6. Beobachtungen abzählen und den Klassen zuordnen.<br />

Beispiel: Einteilung in Klassen<br />

Rohdaten: 24, 26, 15, 21, 27, 27, 30, 45, 32, 38<br />

Klasse Anzahl Anteil Prozent<br />

15 – 25 3 0,3 30%<br />

25 – 35 5 0,5 50%<br />

35 – 45 2 0,2 20%<br />

Summe <strong>10</strong> 1,0 <strong>10</strong>0%<br />

Konvention: 15 bis unter 25, d.h., 15 gehört zur Klasse, 25 nicht.<br />

b) Tabellarisch - Relative Summenhäufigkeitsverteilung (Kumuliertehäufigkeit)<br />

Gibt an, wie viele Beobachtungen – relativ oder prozentuell – einen Wert besitzen, der sich links der<br />

jeweiligen oberen Klassengrenze befindet.<br />

(Links bedeutet: Kleiner als die obere Klassengrenze.)<br />

Beispiel: Summenhäufigkeiten<br />

Rohdaten: 24, 26, 24, 21, 27, 27, 30, 41, 32, 38<br />

Klassen Anteil Summe relativ Summe prozentuell<br />

15 – 25 0.3 0.3 30%<br />

25 – 35 0.5 0.8 80% (30%+50%)<br />

35 – 45 0.2 1.0 <strong>10</strong>0% (30%+50%)+20%<br />

2


Fachrechnen für Tierpfleger<br />

<strong>10</strong>.4.2 Graphisch - Histogramm<br />

Absolute Häufigkiet<br />

7<br />

6<br />

5<br />

4<br />

3<br />

2<br />

1<br />

0<br />

<strong>10</strong> 20 30 40 50<br />

70<br />

60<br />

50<br />

40<br />

30<br />

20<br />

<strong>10</strong><br />

0<br />

Relative Häufigkeit[%]<br />

Absolute Summenhäufigkeit<br />

<strong>10</strong><br />

9<br />

8<br />

7<br />

6<br />

5<br />

4<br />

3<br />

2<br />

1<br />

0<br />

bis 15 bis 25 bis 35 bis 45<br />

<strong>10</strong>0<br />

90<br />

80<br />

70<br />

60<br />

50<br />

40<br />

30<br />

20<br />

<strong>10</strong><br />

0<br />

Relative Summenhäufigkeit [%]<br />

<strong>10</strong>.5 Numerische Beschreibung/Charakterisierung quantitativer Daten<br />

= Numerische Charakterisierung einer Verteilung<br />

Lage: Lagemaße (Geben die „Mitte“ der Verteilung an)<br />

• arithmetisches Mittel<br />

• Median<br />

• Modus<br />

Streuung: Streuungsmaße (Geben die „Breite“ und „Höhe“ einer Verteilung an)<br />

• Spannweite<br />

• Interquartilsabstand<br />

• Varianz<br />

• Standardabweichung<br />

Form: Formmaße (Geben die „Form“ der Verteilung an)<br />

• Schiefe<br />

<strong>10</strong>.5.1 Lagemaße<br />

<strong>10</strong>.5.1.1 (Arithmetisches) Mittel<br />

• Maß für die Lage der Verteilung: Für metrisch skalierte Daten<br />

• Am häufigsten verwendetes Maß<br />

• Auch „Durchschnitt“<br />

• „Durchschnittlicher Wert“ der Daten<br />

• Empfindlich gegen „Ausreißer“ (Werte die deutlich anders sind als der Rest, z.B. Messfehler,<br />

Dezimalstelle,…)<br />

• Achtung: Mittelwert hat die gleiche Einheit wie die Messwerte und muss natürlich angegeben<br />

werden!<br />

Definition:<br />

3


Fachrechnen für Tierpfleger<br />

TABELLENKALKULATIONSPROGRAMM:<br />

=MITTELWERT(Wert_1; Wert_2; …Wert_n)<br />

Bzw.<br />

=MITTELWERT(Zelle_1:Zelle_n)<br />

Oder<br />

=SUMME(Zelle_1:Zelle_n) / ANZAHL (Zelle_1:Zelle_n)<br />

Beispiel<br />

Urinabgabe: Tier1:<strong>10</strong>.3ml, Tier2: 4.9ml, Tier3: 8.9ml, Tier4: 11.7ml, Tier5: 6.3ml, Tier6: 7.7ml<br />

1. Anzahl: n=6<br />

2. Summe: (<strong>10</strong>.3+ 4.9+8.9+11.7+ 6.3+ 7.7)<br />

3. Ergebnis: (<strong>10</strong>.3+ 4.9+8.9+11.7+ 6.3+ 7.7) ml / 6 = 8.30 ml<br />

<strong>10</strong>.5.1.2 Gewichtetes Mittel<br />

Notwendig zur Berechnung des arithmetischen Mittels aus einer Häufigkeitstabelle.<br />

k verschiedene Werte x1, . . . , xk mit den Häufigkeiten h1, . . . , hk.<br />

Definition<br />

Beispiel<br />

Es wurde die Wurfgröße einer Tierart in einem bestimmten Zeitraum erhoben:<br />

Wie groß ist die mittlere Wurfgröße<br />

Wurfgröße x i 0 1 4 3 4<br />

Häuigkeit h i 12 14 5 2 0<br />

Lösung:<br />

Summe der Häufigkeiten: n = 12+14+5+2 = 33 (Anzahl der „Muttertiere“)<br />

<strong>10</strong>.5.1.3 Median<br />

Maß für die Lage der Verteilung<br />

für ordinalskalierte Daten<br />

Definition:<br />

Mittlerer Wert in der geordneten Liste<br />

Ungerade Anzahl n: Mittlerer Wert<br />

Gerade Anzahl n: Durchschnitt der beiden mittleren Werten<br />

Position des Medians= (n+ 1)/2<br />

4


Fachrechnen für Tierpfleger<br />

Robust (unempfindlich) gegenüber Ausreißern.<br />

Beispiel: Ungerade Anzahl von Daten:<br />

Rohdaten: 24.1 22.6 21.5 23.7 22.6<br />

Sortiert : 21.5 22.6 22.6 23.7 24.1<br />

Position : 1 2 3 4 5<br />

Position des Median= (n+ 1)/2 = (5+1)/2 = 3<br />

Median = 22.6<br />

Beispiel: Gerade Anzahl von Daten:<br />

Rohdaten: <strong>10</strong>.3 4.9 8.9 11.7 6.3 7.7<br />

Sortiert: 4.9 6.3 7.7 8.9 <strong>10</strong>.3 11.7<br />

Position: 1 2 3 4 5 6<br />

Position des Median = (6+1) / 2 = 3.5<br />

Median=(7.7+8.9) /2 = 8.3<br />

TABELLENKALKULATIONSPROGRAMM:<br />

=MEDIAN(Wert_1; Wert_2; …; Wert_n)<br />

bzw<br />

=MEDIAN(Zelle_1:Zelle_n)<br />

<strong>10</strong>.5.1.4 Modus<br />

Maß für die Lage der Verteilung<br />

Kann auch für nominalskalierte Daten verwendet werden<br />

Definition:<br />

Häufigster Wert<br />

Kein, ein oder mehrere Modi sind möglich<br />

Kann auch bei qualitativen und quantitativen Daten verwendet werden<br />

Robust (unempfindlich) gegenüber Ausreißern<br />

Beispiele:<br />

Kein Modus:<br />

Rohdaten: <strong>10</strong>.3 4.9 8.9 11.7 6.3 7.7<br />

Ein Modus:<br />

Rohdaten 6.3 4.9 8.9 6.3 4.9 4.9<br />

Mehrere Modi:<br />

Rohdaten: 21 28 28 41 43 43<br />

<strong>10</strong>.5.1.5 Zusammenfassung<br />

5


Fachrechnen für Tierpfleger<br />

<strong>10</strong>.5.1.6 Beispiele<br />

Beispiel 1:<br />

Beschreiben Sie die Lage der Verteilung (Mittel, Median, Modus)<br />

Stimmen die Lagemaße gut überein<br />

Rohdaten: 17g, 16g, 21g, 18g, 13g, 16g, 12g und 11g<br />

Mittel = (17g+16g+ 21g+18g+ 13g+16g+12g+11g) / 8 =15.5 g<br />

Median:<br />

Sortiert: 11g 12g 13g 16g 16g 17g 18g 21g<br />

Position: 1 2 3 4 5 6 7 8 (Anzahl gerade)<br />

Position des Medians = (8+1) / 2 = 4.5<br />

Median = (16g+16g) / 2 =16g<br />

Modus:<br />

Sortiert: 11g 12g 13g 16g 16g 17g 18g 21g<br />

Modus = 16g<br />

Vergleich: Mittel=15.5g, Median=16g, Modus=16g => Gute Übereinstimmung<br />

Beispiel 2:<br />

Beschreiben Sie die Lage der Verteilung (Mittel, Median, Modus)<br />

Stimmen die Lagemaße gut überein<br />

Rohdaten: 17g, 33g, 25g, 21g, 13g, 11g, 12g und 11g<br />

Mittel: Mittel = (17g+33g+ 25g+21g+ 13g+11g+12g+11g) / 8 =17.9 g<br />

Median:<br />

Sortiert: 11g 11g 12g 13g 17g 21g 25g 33g<br />

Position: 1 2 3 4 5 6 7 8 (Anzahl gerade)<br />

Median = (13g+17g) / 2 =15g<br />

Modus:<br />

Sortiert: 11g 11g 12g 13g 17g 19g 25g 33g<br />

Modus = 11g<br />

Vergleich: Mittel=17.9g, Median=15g, Modus=11g => Keine gute Übereinstimmung<br />

<strong>10</strong>.5.2 Streuungsmaße<br />

<strong>10</strong>.5.2.1 Spannweite<br />

Maß für die Streuung metrisch skalierter Merkmale<br />

Definition:<br />

Spannweite ist die Differenz zwischen größter (x max ) und kleinster (x min )Beobachtung<br />

Spannweite = x max - x min<br />

Nachteil: Sehr empfindlich gegenüber Ausreißern<br />

TABELLENKALKULATIONSPROGRAMM:<br />

Maximalwert: =MAX(Wert_1; Wert_2; …; Wert_n) bzw. =MAX(Zelle_1:Zelle_n)<br />

Minimalwert:<br />

=MIN(Wert_1; Wert_2; …; Wert_n) bzw. =MIN(Zelle_1:Zelle_n)<br />

6


Fachrechnen für Tierpfleger<br />

<strong>10</strong>.5.2.2 Varianz<br />

Maß für die Streuung für metrisch skalierte Merkmale<br />

Berücksichtigt die Verteilung<br />

Zeigt die Abweichung von Mittelwert x bzw. vom Erwartungswert µ<br />

Definition der Varianz:<br />

Die Varianz berechnet sich leichter durch folgende Formeln (Verschiebungssatz):<br />

<strong>10</strong>.5.2.3 Standardabweichung<br />

Maß für die Streuung für metrisch skalierte Merkmale<br />

Berücksichtigt die Verteilung<br />

Die Standardabweichung ist die positive Quadratwurzel der Varianz.<br />

Die Standardabweichung hat die gleiche Dimension wie Mittelwert.<br />

Definition der Standardabweichung:<br />

Grundgesamtheit<br />

Stichprobe<br />

Beispiel<br />

Rohdaten: <strong>10</strong>.3 4.9 8.9 11.7 6.3 7.7<br />

Varianz in der Stichprobe:<br />

Standardabweichung in der Stichprobe:<br />

Beispiel<br />

Rohdaten: <strong>10</strong>.3 4.9 8.9 11.7 6.3 7.7<br />

Varianz in der Stichprobe:<br />

7


Fachrechnen für Tierpfleger<br />

<strong>10</strong>.5.2.4 Zusammenfassung<br />

8


Fachrechnen für Tierpfleger<br />

<strong>10</strong>.5.3 Form der Verteilung<br />

Form: beschreibt die Verteilung der Daten<br />

Maß für die Form ist die Schiefe (= Abweichung von der Symmetrie)<br />

<strong>10</strong>.5.3.1 Quartile<br />

Beschreiben die Verteilung der Daten xj, j=1, . . . , n.<br />

Die geordneten Daten werden in vier gleiche Teile zerlegt.<br />

Das i-te Quartil ist der maximale x-Wert des i-ten Teiles:<br />

1/4 aller Daten sind kleiner oder gleich Q1.<br />

1/2 aller Daten sind kleiner oder gleich Q2 (=Median).<br />

3/4 aller Daten sind kleiner oder gleich Q3.<br />

Beispiel<br />

Rohdaten: <strong>10</strong>.3, 4.9, 8.9, 11.7, 6.3, 7.7<br />

Sortiert: 4.9, 6.3, 7.7, 8.9, <strong>10</strong>.3, 11.7<br />

Position: 1 2 3 4 5 6<br />

Tabellenkalkulation<br />

9


Fachrechnen für Tierpfleger<br />

1.Quartil: =QUARTILE(Wertebereich;1)<br />

2.Quartil: =QUARTILE(Wertebereich;2) oder: =MEDIAN(Wertebereich)<br />

3.Quartil: =QUARTILE(Wertebereich;3)<br />

<strong>10</strong>.5.3.2 Interquartilsabstand<br />

Streuungsmaß für metrisch skalierte Daten<br />

Definition:<br />

Differenz zwischen 3. und 1. Quartil<br />

Zeigt den Bereich der mittleren 50% der Daten<br />

Robust (unempfindlich) gegenüber Ausreißern<br />

Beispiel 1<br />

Rohdaten: <strong>10</strong>.3 4.9 8.9 11.7 6.3 7.7<br />

Sortiert: 4.9 6.3 7.7 8.9 <strong>10</strong>.3 11.7<br />

Position: 1 2 3 4 5 6<br />

Q1<br />

Q3<br />

Q1 = 6.3<br />

Q3 = <strong>10</strong>.3<br />

Interquartilsabstand: Q3-Q1=<strong>10</strong>.3 - 6.3 = 4.0<br />

Beispiel 2<br />

Sie haben in den letzten 8 Tagen folgenden Futtermittelbedarf festgestellt: Analysieren Sie die<br />

Verteilung mit Hilfe der Quartile Q1 und Q3 sowie mit dem Interquartilsabstand.<br />

Rohdaten: 17kg 16kg 21kg 18kg 13kg 16kg 12kg 11kg<br />

Sortiert: 11kg 12kg 13kg 16kg 16kg 17kg 18kg 21kg<br />

Position: 1 2 3 4 5 6 7 8<br />

Q1,Q3:<br />

Interquartilsabstand: Q3- Q1= 18kg- 12kg= 6kg<br />

Tabellenkalkulation<br />

=QUARTILE(Wertebereich;3) - QUARTILE(Wertebereich;1)<br />

<strong>10</strong>.5.3.3 Box-Plot<br />

= Graphische Darstellung der Daten<br />

verwendet 5 Kenngrößen:<br />

xmin, Q1, Median, Q3, xmax<br />

Beispiel<br />

<strong>10</strong>


Fachrechnen für Tierpfleger<br />

Rohdaten: 17kg 16kg 21kg 18kg 13kg 16kg 12kg 11kg<br />

Sortiert: 11kg 12kg 13kg 16kg 16kg 17kg 18kg 21kg<br />

Position: 1 2 3 4 5 6 7 8<br />

n=8,<br />

X min = 11kg<br />

Q 1 = 12kg (Pos. : 1*9/4=2.25=2)<br />

Median= 14kg<br />

Q 3 = 18kg (Pos.: 3*9/4=6.75=7<br />

X max = 21kg<br />

<strong>10</strong>.5.3.4 Bestimmung der Form<br />

Linkschief: Median liegt näher bei Q3 als bei Q1<br />

Symmetrisch: Median liegt zwischen Q3 und Q1<br />

Rechtsschief: Median liegt näher bei Q1 als bei Q3<br />

<strong>10</strong>.5.3.5 Quantile<br />

Beschreiben die Verteilung der Daten xj, j=1, . . . , n.<br />

Die geordneten Daten können in beliebig viele gleiche Teile zerlegt.<br />

Das i-te Quantil ist der maximale x-Wert des i-ten Teiles<br />

Besondere Quantile: Percentil (<strong>10</strong>0er), Dezil (<strong>10</strong>er-Teilung)<br />

Tabellenkalkulation<br />

=QUANTIL(Wertebereich;Alpha)<br />

Alpha = [0,1]<br />

z.B.:Alpha 0.25-> 1. Quartil<br />

<strong>10</strong>.5.3.6 Interquantilsabstände<br />

Interquantilsabstände sind analog zum Interquartilabstand definiert:<br />

Interdezil: Q 90% -Q <strong>10</strong>% … Wertebereich in dem 80% aller Werte liegen (α2=0.9, α1=0.1)<br />

Interpercentil: Q 99% -Q 1% … Wertebereich in dem 98% aller Werte liegen (α2 =0.99, α1=0.01)<br />

11


Fachrechnen für Tierpfleger<br />

Im Gegensatz zum Quartileinteilung benötigt die Quantileinteilung mehr Werte und zwar mindestens<br />

so viele wie Unterteilungsintervalle (Dezil <strong>10</strong>, Percentil <strong>10</strong>0)<br />

<strong>10</strong>.5.3.7 Anwendung von Quantil und Quantilsabstände<br />

Was ist „normal“ was ist außergewöhnlich<br />

Häufig gefragt:<br />

Intervall in dem 75% aller Werte liegen => Abstand=0.75<br />

Intervall in dem 95% aller Werte liegen => Abstand=0.95<br />

Intervall in dem 99% aller Werte liegen => Abstand=0.99<br />

Frage:<br />

α1=, α2=<br />

Es gilt: α2 = 1.0 – α1<br />

Abstand = α2 - α1<br />

α 1 = (1.0 -Abstand)/2<br />

α2 = 1.0 – α1<br />

α2 = (α1 + Abstand)<br />

Intervall in dem 75% aller Werte liegen<br />

Abstand=0.75,<br />

α1 = (1.0-0.75)/2.0 = 0.125,<br />

α2 = 0.125+0.75= 0.875<br />

Intervall in dem 95% aller Werte liegen<br />

Abstand=0.95,<br />

α1 = (1.0-0.95)/2.0 = 0.025,<br />

α2 = 0.025+0.95= 0.975<br />

Intervall in dem 99% aller Werte liegen<br />

Abstand=0.99,<br />

α1 = (1.0-0.99)/2.0 = 0.005,<br />

α2 = 0.005+0.99= 0.995<br />

12

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!