Teil I: Deskriptive Statistik
Teil I: Deskriptive Statistik
Teil I: Deskriptive Statistik
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
<strong>Teil</strong> I: <strong>Deskriptive</strong> <strong>Statistik</strong><br />
2 Grundbegriffe<br />
2.1 Merkmal und Stichprobe<br />
2.2 Skalenniveau von Merkmalen<br />
2.3 Geordnete Stichproben und Ränge<br />
2.1 Merkmal und Stichprobe<br />
An (geeignet ausgewählten)<br />
Untersuchungseinheiten (Beobachtungsein–<br />
heiten, Merkmalsträger)<br />
werden Werte eines oder mehrerer Merkmale<br />
festgestellt.<br />
Merkmal (Variable) ist die zu untersuchende<br />
Größe einer Untersuchungseinheit.<br />
StatSoz 25
Merkmalsausprägungen sind die möglichen<br />
Werte, die von einem Merkmal angenommen<br />
werden können.<br />
Tabelle 2–1 Merkmale und ihre Ausprägungen<br />
Einheit Merkmal Ausprägung<br />
Person Geschlecht weiblich, männlich<br />
Berufsstatus Arbeiter, Beamter,...<br />
Alter in Jahren 1, 2, 3, . . .<br />
Lebensraum ländl. Region, Stadt<br />
Haushalt Anzahl der Personen 1, 2, 3 . . .<br />
Realeinkommen Beträge in e<br />
Grundgesamtheit (Kollektiv, Population):<br />
Menge aller potentiellen Untersuchungseinheiten<br />
für eine bestimmte Fragestellung.<br />
Vollerhebung: Alle Merkmalsträger einer<br />
Grundgesamtheit werden in die Untersuchung<br />
einbezogen.<br />
StatSoz 26
Stichprobe: Endliche <strong>Teil</strong>menge einer Grundgesamtheit.<br />
Hat diese Menge n Elemente, so<br />
spricht man von einer Stichprobe vom Umfang<br />
n (sample of size n).<br />
Daten, Beobachtungen: konkrete Werte der<br />
Merkmalsausprägungen einer Stichprobe.<br />
Beispiel:<br />
Grundgesamtheit: Haushalte einer Stadt<br />
Merkmal: Anzahl der Haushaltsmitglieder<br />
Stichprobe vom Umfang 5: H1, H2, H3, H4, H5<br />
Daten: 4, 5, 6, 6, 4<br />
Bemerkung: Die Begriffe Stichprobe und Daten<br />
werden auch häufig synonym verwendet (so auch<br />
im Folgenden).<br />
Es gibt verschiedene Merkmalstypen:<br />
StatSoz 27
• Ein qualitatives (artmäßig erfassbares)<br />
Merkmal hat nur endlich viele Ausprägungen,<br />
die Namen oder Kategorien sind. Qualitative<br />
Merkmale werden auch als kategoriale<br />
Merkmale bezeichnet. Beispiele:<br />
– Familienstand: ledig - verheiratet - eheähnliche<br />
Partnerschaft - geschieden - verwitwet<br />
– Schulabschluss: kein Schulabschluss -<br />
Hauptschulabschluss - mittlere Reife - Fachhochschulreife<br />
- Abitur<br />
• Ein quantitatives (in natürlicher Weise zahlenmäßig<br />
erfassbares) Merkmal liegt vor,<br />
wenn seine Ausprägungen eine Größe wiedergeben.<br />
Beispiele:<br />
– Einwohnerzahl<br />
– Intelligenzquotient<br />
– Zeitmessung<br />
StatSoz 28
Eine andere Unterscheidung ist in diskrete und<br />
stetige Merkmale.<br />
• Diskretes Merkmal (discrete variable): Ein<br />
solches Merkmal kann nur endlich viele oder<br />
höchstens abzählbar unendlich viele Ausprägungen<br />
annehmen (häufig ganzzahlig, also<br />
0, 1, 2, ...). Qualitative Merkmale sind immer<br />
diskret. Quantitative Merkmale sind dann diskret,<br />
wenn ihre Merkmalsausprägungen durch<br />
einen Zählvorgang ermittelt werden (sogenannte<br />
Zähldaten).<br />
Beispiele für Zähldaten:<br />
– Anzahl der Einwohner<br />
– Anzahl der Mitglieder eines Haushaltes<br />
– Anzahl der Pendler einer Region<br />
– Anzahl der Geburten eines Jahres in einem<br />
Land<br />
StatSoz 29
• Stetiges Merkmal (continuous variable): Die<br />
Ausprägungen können (wenigstens dem Prinzip<br />
nach) beliebige Werte aus einem Intervall<br />
annehmen, alle Werte aus einem Intervall sind<br />
also denkbar. Die Ausprägungen werden in der<br />
Regel durch einen Messvorgang ermittelt, sogenannte<br />
Messdaten.<br />
Beispiele:<br />
– Längenmessung<br />
– Zeitmessung<br />
Zusammenfassung:<br />
Merkmal diskret stetig<br />
qualitativ ja nein<br />
quantitativ ja ja<br />
(Zähldaten) (Messdaten)<br />
StatSoz 30
Bemerkung: Stetige Merkmale können nur diskret<br />
beobachtet werden (Messgenauigkeit), Angaben<br />
z. B. auf zwei Dezimalstellen hinter<br />
dem Komma genau (Rundungen). In der Praxis<br />
ist die Unterscheidung diskret/stetig vielfach<br />
willkürlich.<br />
2.2 Skalenniveau von Merkmalen<br />
Für statistische Analysen ist die Einteilung in<br />
qualitative und quantitative Merkmale zu grob.<br />
Von entscheidender Bedeutung für die<br />
– Interpretation von Daten und<br />
– Eignung statistischer Verfahren<br />
ist es, wie bzw. nach welchen Kriterien die Merkmalsausprägungen<br />
gemessen und geordnet werden<br />
können.<br />
StatSoz 31
Grundsätzlich erfolgt die Messung der Merkmalswerte<br />
mit Hilfe einer Skala (Messvorschrift).<br />
Skala: Anordnung von Zahlen, denen die Merkmalsausprägungen<br />
eindeutig zugordnet werden.<br />
Skalenwerte: Zahlenwerte, die auf einer Skala<br />
Berücksichtigung finden. Man spricht in diesem<br />
Zusammenhang auch von Skalierung.<br />
Das Skalenniveau gibt an<br />
1. welche Vergleichsaussagen und welche rechnerischen<br />
Operationen für die Skalenwerte<br />
sinnvoll und somit zulässig sind<br />
2. welche Transformationen von Skalenwerten<br />
die Messung erhalten (sogenannte zulässige<br />
Transformationen).<br />
StatSoz 32
Die verschiedenen Skalenniveaus (Übersicht):<br />
Qualitative Merkmale<br />
Nominalskala Ordinalskala<br />
Quantitative Merkmale<br />
Metrische Skala<br />
Intervallskala Verhältnisskala<br />
StatSoz 33
Nominalskala (Skala mit dem niedrigsten Niveau)<br />
Charakteristika:<br />
– keine natürliche Rangordnung der Skalenwerte<br />
– Zuordnung von Zahlen ist lediglich eine Kodierung<br />
der Merkmalsausprägungen<br />
– Anordnung hat keine inhaltliche Bedeutung<br />
Vergleichsaussagen: gleich (=), ungleich (�=)<br />
Rechnerische Operationen: Häufigkeiten<br />
Zulässige Transformationen: bijektive (eineindeutige)<br />
Abbildungen (siehe Aufgabe 3, Blatt<br />
1)<br />
StatSoz 34
Tabelle 2–2 Nominale Merkmale und Kodierungen<br />
Merkmal Merkmalsausprägungen Kodierung<br />
Familienstand ledig 1<br />
verheiratet 2<br />
geschieden 3<br />
verwitwet 4<br />
eheähnliche Partnerschaft 5<br />
Erwerbsstatus Selbstständige 1<br />
Beamte 2<br />
Angestellte 3<br />
Arbeiter 4<br />
Rentner 5<br />
Arbeitslose 6<br />
Sozialhilfeempfänger 7<br />
Geschlecht männlich 0<br />
weiblich 1<br />
Spezialfall nominalskalierter Merkmale sind<br />
binäre Merkmale (dichotome Merkmale):<br />
Merkmale mit nur zwei Ausprägungen (häufig<br />
0/1–kodiert).<br />
StatSoz 35
Ordinalskala (Rangskala)<br />
Charakteristika:<br />
Die Merkmalsausprägungen sind Kategorien, bei<br />
denen eine natürliche Rangordnung aufgrund<br />
ihrer Größe bzw. Intensität gegeben ist.<br />
Vergleichsaussagen: gleich (=), ungleich (�=)<br />
sowie kleiner ()<br />
Rechnerische Operationen: Häufigkeiten,<br />
Ränge<br />
Zulässige Transformationen: streng monotone<br />
(ordnungserhaltende) Abbildungen (siehe Aufgabe<br />
3, Blatt 1)<br />
StatSoz 36
Tabelle 2–3 Beispiele für ordinalskalierte Merkmale<br />
Merkmal Merkmalsausprägungen Skala<br />
politisches sehr stark 1<br />
Interesse stark 2<br />
mittel 3<br />
wenig 4<br />
überhaupt nicht 5<br />
Meinung Ablehnung −1 (1)<br />
neutral 0 (2)<br />
Zustimmung 1 (3)<br />
Beachte: Bei nominal– und ordinalskalierten<br />
Merkmalen haben Abstände (Differenzen) und<br />
Verhältnisse (Quotienten) von Skalenwerten<br />
keine inhaltliche Bedeutung, sind also nicht<br />
vergleichbar.<br />
StatSoz 37
Bei quantitativen Merkmalen verwendet man eine<br />
metrische Skala. Hier liegt Messbarkeit im<br />
engeren Sinne vor, wobei Skalenwerte im Allgemeinen<br />
eine Dimension haben (Minute, km,<br />
km 2 , e, usw.).<br />
Charakteristika:<br />
– Abstände zwischen Skalenwerten sind interpretierbar<br />
– natürliche Rangordnung durch die Größe der<br />
Merkmalswerte<br />
Bei der metrischen Skala wird zwischen Intervall–<br />
und Verhältnisskala unterschieden.<br />
StatSoz 38
Intervallskala (Differenzenskala)<br />
Charakteristika:<br />
Bezugspunkt dieser Skala (Nullpunkt, Durchschnittswert)<br />
ist willkürlich festgelegt. Konsequenz:<br />
Vergleich von Differenzen ist sinnvoll,<br />
nicht aber von Quotienten.<br />
Vergleichsaussagen: gleich (=), ungleich (�=)<br />
sowie kleiner ()<br />
Rechnerische Operationen: Häufigkeiten,<br />
Ränge, Subtraktionen<br />
Zulässige Transformationen: lineare Abbildungen<br />
(siehe Aufgabe 3, Blatt 1)<br />
Beispiele intervallskalierter Merkmale:<br />
– Intelligenzquotient (Wechsler–Skala)<br />
– Jahreszahlen<br />
StatSoz 39
Verhältnisskala (Ratioskala)<br />
Charakteristika:<br />
Natürlicher (absoluter) Nullpunkt ist gegeben,<br />
Vergleich von Verhältnissen (Quotienten) ist<br />
daher sinnvoll. Gleiche Quotienten drücken einen<br />
gleich großen Unterschied aus.<br />
Vergleichsaussagen: gleich (=), ungleich (�=)<br />
sowie kleiner ()<br />
Rechnerische Operationen: Häufigkeiten,<br />
Ränge, Subtraktionen, Divisionen<br />
Zulässige Transformationen: lineare homogene<br />
Abbildungen (siehe Aufgabe 3, Blatt 1)<br />
Beispiele verhältnisskalierter Merkmale:<br />
– Alter in Jahren<br />
– Einkommen in e<br />
– Entfernung in km<br />
StatSoz 40
Die verschiedenen Skalenniveaus stellen eine<br />
Hierachie dar:<br />
Tabelle 2–4 Sinnvoll interpretierbare Berechnungen<br />
Skala zählen ordnen subtrahieren dividieren<br />
Nominal ja nein nein nein<br />
Ordinal ja ja nein nein<br />
Intervall ja ja ja nein<br />
Verhältnis ja ja ja ja<br />
Bemerkung: Statistische Methoden, die für ein<br />
niedriges Skalenniveau geeignet sind, können<br />
auch für ein höheres Skalenniveau verwendet<br />
werden (zählen und ordnen ist stets für metrische<br />
Merkmale durchführbar). Die Umkehrung<br />
gilt nicht! Für metrische Merkmale kann etwa<br />
der Durchschnittswert (arithmetisches Mittel)<br />
berechnet werden, was für ordinal– und nominalskalierte<br />
Merkmale im Allgemeinen völlig<br />
sinnlos ist.<br />
StatSoz 41
Skalentransformationen<br />
Für die statistische Analyse kann es sinnvoll sein,<br />
metrische Daten so zu transformieren, dass ihre<br />
Ausprägungen ordinalskaliert sind, auch wenn<br />
solche Transformationen immer mit einem gewissen<br />
Informationsverlust verbunden sind (denn<br />
aus der Kenntnis der transformierten Werte<br />
können die ursprünglichen Werte nicht mehr<br />
zurückgewonnen werden).<br />
Die wichtigsten Transformationen sind der Übergang<br />
zu<br />
– Kategorien, Klassen (Klassenbildung ,,von<br />
... bis”, ,,Klassierung der Daten”)<br />
– Rängen (Daten werden der Größe nach geordnet,<br />
der kleinste Wert erhält Rang 1, der<br />
zweitkleinste Wert Rang 2, usw.)<br />
StatSoz 42
Beispiel: (i) Klassierung von Daten<br />
Tabelle 2–5 Einkommensklassen (monatl. Einkommen)<br />
von bis unter Skala<br />
1 2400 1<br />
2400 4800 2<br />
4800 7200 3<br />
7200 9600 4<br />
9600 12000 5<br />
12000 16000 6<br />
16000 20000 7<br />
20000 25000 8<br />
25000 36000 9<br />
36000 50000 10<br />
50000 75000 11<br />
75000 100000 12<br />
100000 und mehr 13<br />
StatSoz 43
(ii) Rangbildung<br />
Es wurden 12 Haushalte nach ihrem verfügbaren<br />
Einkommen (in e) befragt:<br />
Tabelle 2–6 Einkommens–Daten<br />
Haushalt Nr. Einkommen<br />
1 1240<br />
2 1700<br />
3 2040<br />
4 1990<br />
5 1240<br />
6 1350<br />
7 1060<br />
8 920<br />
9 1620<br />
10 1480<br />
11 1120<br />
12 1780<br />
StatSoz 44
Tabelle 2–7 Ränge der Einkommens–Daten<br />
Durchschnittsrang<br />
Einkommen Rang<br />
geordnet<br />
920 1<br />
1060 2<br />
1120 3<br />
1240 4.5<br />
1240 4.5<br />
1350 6<br />
1480 7<br />
1620 8<br />
1700 9<br />
1780 10<br />
1990 11<br />
2040 12<br />
Der Beobachtungswert 1240 kommt zweimal<br />
vor. Es sind die Ränge 4 und 5 zu vergeben.<br />
Man bildet den Durchschnittsrang:<br />
Rang(1240) =<br />
4 + 5<br />
2<br />
= 4.5<br />
StatSoz 45
2.3 Geordnete Stichproben und Ränge<br />
Gegeben seien Daten<br />
Bezeichne<br />
x1, x2, . . . , xn<br />
x (1) die kleinste der n Zahlen x1, . . . , xn<br />
x (2) die zweitkleinste der n Zahlen x1, . . . , xn<br />
.<br />
x (n) die größte der n Zahlen x1, . . . , xn<br />
x (k) heißt k–te Ordnungsgröße. Per Definition<br />
gilt stets<br />
x (1) ≤ x (2) ≤ . . . ≤ x (n)<br />
x (1), . . . , x (n) heißt geordnete Stichprobe.<br />
StatSoz 46
Tabelle 2–8 Einkommens–Daten, geordnet<br />
i xi x (i)<br />
1 1240 920<br />
2 1700 1060<br />
3 2040 1120<br />
4 1990 1240<br />
5 1240 1240<br />
6 1350 1350<br />
7 1060 1480<br />
8 920 1620<br />
9 1620 1700<br />
10 1480 1780<br />
11 1120 1990<br />
12 1780 2040<br />
Der Rang einer Zahl xi innerhalb einer Stichprobe<br />
gibt an, die wie–vielt–kleinste Zahl sie ist.<br />
Um den Rang einer Beobachtung zu bestimmen<br />
ist es sinnvoll, die Daten der Größe nach zu<br />
ordnen.<br />
Formaler versteht man unter einem Rang folgendes:<br />
StatSoz 47
1. Fall: Der Beobachtungswert xi kommt in der<br />
Stichprobe nur einmal vor. Dann ist der Rang<br />
von xi gleich 1 plus Anzahl der Beobachtungen<br />
die kleiner als xi sind:<br />
Rang(xi) = 1 + Anzahl der xj mit xj < xi<br />
2. Fall: Der Beobachtungswert xi kommt in der<br />
Stichprobe k–mal vor, k ≥ 2 (man spricht von<br />
einer Bindung der Länge k). Dann hat man für<br />
diese k gleichen Beobachtungswerte die Ränge<br />
zu vergeben, wobei<br />
ri, ri + 1, . . . , ri + (k − 1)<br />
ri = 1 + Anzahl der xj mit xj < xi<br />
Käme der Beobachtungswert xi nur einmal vor,<br />
so wäre die Zahl ri der Rang von xi.<br />
StatSoz 48
Diese k gleichen Beobachtungswerte bekommen<br />
alle den gleichen Rang, den Durchschnittsrang.<br />
Dieser ist definiert als das arithmetische Mittel<br />
der zu vergebenden Ränge:<br />
Rang(xi)<br />
= ri + (ri + 1) + . . . + [ri + (k − 1)]<br />
k<br />
(2.1)<br />
Formel (2.1) lässt sich vereinfachen (Aufgabe 5,<br />
Blatt 1).<br />
Beachte: Die Rang–Transformation<br />
xi → Rang(xi)<br />
einer Beobachtung xi ist immer nur in Bezug auf<br />
die Daten x1, . . . , xn festgelegt! (Vgl. Aufgabe<br />
6, Blatt 1)<br />
StatSoz 49