27.11.2012 Aufrufe

Teil I: Deskriptive Statistik

Teil I: Deskriptive Statistik

Teil I: Deskriptive Statistik

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

<strong>Teil</strong> I: <strong>Deskriptive</strong> <strong>Statistik</strong><br />

2 Grundbegriffe<br />

2.1 Merkmal und Stichprobe<br />

2.2 Skalenniveau von Merkmalen<br />

2.3 Geordnete Stichproben und Ränge<br />

2.1 Merkmal und Stichprobe<br />

An (geeignet ausgewählten)<br />

Untersuchungseinheiten (Beobachtungsein–<br />

heiten, Merkmalsträger)<br />

werden Werte eines oder mehrerer Merkmale<br />

festgestellt.<br />

Merkmal (Variable) ist die zu untersuchende<br />

Größe einer Untersuchungseinheit.<br />

StatSoz 25


Merkmalsausprägungen sind die möglichen<br />

Werte, die von einem Merkmal angenommen<br />

werden können.<br />

Tabelle 2–1 Merkmale und ihre Ausprägungen<br />

Einheit Merkmal Ausprägung<br />

Person Geschlecht weiblich, männlich<br />

Berufsstatus Arbeiter, Beamter,...<br />

Alter in Jahren 1, 2, 3, . . .<br />

Lebensraum ländl. Region, Stadt<br />

Haushalt Anzahl der Personen 1, 2, 3 . . .<br />

Realeinkommen Beträge in e<br />

Grundgesamtheit (Kollektiv, Population):<br />

Menge aller potentiellen Untersuchungseinheiten<br />

für eine bestimmte Fragestellung.<br />

Vollerhebung: Alle Merkmalsträger einer<br />

Grundgesamtheit werden in die Untersuchung<br />

einbezogen.<br />

StatSoz 26


Stichprobe: Endliche <strong>Teil</strong>menge einer Grundgesamtheit.<br />

Hat diese Menge n Elemente, so<br />

spricht man von einer Stichprobe vom Umfang<br />

n (sample of size n).<br />

Daten, Beobachtungen: konkrete Werte der<br />

Merkmalsausprägungen einer Stichprobe.<br />

Beispiel:<br />

Grundgesamtheit: Haushalte einer Stadt<br />

Merkmal: Anzahl der Haushaltsmitglieder<br />

Stichprobe vom Umfang 5: H1, H2, H3, H4, H5<br />

Daten: 4, 5, 6, 6, 4<br />

Bemerkung: Die Begriffe Stichprobe und Daten<br />

werden auch häufig synonym verwendet (so auch<br />

im Folgenden).<br />

Es gibt verschiedene Merkmalstypen:<br />

StatSoz 27


• Ein qualitatives (artmäßig erfassbares)<br />

Merkmal hat nur endlich viele Ausprägungen,<br />

die Namen oder Kategorien sind. Qualitative<br />

Merkmale werden auch als kategoriale<br />

Merkmale bezeichnet. Beispiele:<br />

– Familienstand: ledig - verheiratet - eheähnliche<br />

Partnerschaft - geschieden - verwitwet<br />

– Schulabschluss: kein Schulabschluss -<br />

Hauptschulabschluss - mittlere Reife - Fachhochschulreife<br />

- Abitur<br />

• Ein quantitatives (in natürlicher Weise zahlenmäßig<br />

erfassbares) Merkmal liegt vor,<br />

wenn seine Ausprägungen eine Größe wiedergeben.<br />

Beispiele:<br />

– Einwohnerzahl<br />

– Intelligenzquotient<br />

– Zeitmessung<br />

StatSoz 28


Eine andere Unterscheidung ist in diskrete und<br />

stetige Merkmale.<br />

• Diskretes Merkmal (discrete variable): Ein<br />

solches Merkmal kann nur endlich viele oder<br />

höchstens abzählbar unendlich viele Ausprägungen<br />

annehmen (häufig ganzzahlig, also<br />

0, 1, 2, ...). Qualitative Merkmale sind immer<br />

diskret. Quantitative Merkmale sind dann diskret,<br />

wenn ihre Merkmalsausprägungen durch<br />

einen Zählvorgang ermittelt werden (sogenannte<br />

Zähldaten).<br />

Beispiele für Zähldaten:<br />

– Anzahl der Einwohner<br />

– Anzahl der Mitglieder eines Haushaltes<br />

– Anzahl der Pendler einer Region<br />

– Anzahl der Geburten eines Jahres in einem<br />

Land<br />

StatSoz 29


• Stetiges Merkmal (continuous variable): Die<br />

Ausprägungen können (wenigstens dem Prinzip<br />

nach) beliebige Werte aus einem Intervall<br />

annehmen, alle Werte aus einem Intervall sind<br />

also denkbar. Die Ausprägungen werden in der<br />

Regel durch einen Messvorgang ermittelt, sogenannte<br />

Messdaten.<br />

Beispiele:<br />

– Längenmessung<br />

– Zeitmessung<br />

Zusammenfassung:<br />

Merkmal diskret stetig<br />

qualitativ ja nein<br />

quantitativ ja ja<br />

(Zähldaten) (Messdaten)<br />

StatSoz 30


Bemerkung: Stetige Merkmale können nur diskret<br />

beobachtet werden (Messgenauigkeit), Angaben<br />

z. B. auf zwei Dezimalstellen hinter<br />

dem Komma genau (Rundungen). In der Praxis<br />

ist die Unterscheidung diskret/stetig vielfach<br />

willkürlich.<br />

2.2 Skalenniveau von Merkmalen<br />

Für statistische Analysen ist die Einteilung in<br />

qualitative und quantitative Merkmale zu grob.<br />

Von entscheidender Bedeutung für die<br />

– Interpretation von Daten und<br />

– Eignung statistischer Verfahren<br />

ist es, wie bzw. nach welchen Kriterien die Merkmalsausprägungen<br />

gemessen und geordnet werden<br />

können.<br />

StatSoz 31


Grundsätzlich erfolgt die Messung der Merkmalswerte<br />

mit Hilfe einer Skala (Messvorschrift).<br />

Skala: Anordnung von Zahlen, denen die Merkmalsausprägungen<br />

eindeutig zugordnet werden.<br />

Skalenwerte: Zahlenwerte, die auf einer Skala<br />

Berücksichtigung finden. Man spricht in diesem<br />

Zusammenhang auch von Skalierung.<br />

Das Skalenniveau gibt an<br />

1. welche Vergleichsaussagen und welche rechnerischen<br />

Operationen für die Skalenwerte<br />

sinnvoll und somit zulässig sind<br />

2. welche Transformationen von Skalenwerten<br />

die Messung erhalten (sogenannte zulässige<br />

Transformationen).<br />

StatSoz 32


Die verschiedenen Skalenniveaus (Übersicht):<br />

Qualitative Merkmale<br />

Nominalskala Ordinalskala<br />

Quantitative Merkmale<br />

Metrische Skala<br />

Intervallskala Verhältnisskala<br />

StatSoz 33


Nominalskala (Skala mit dem niedrigsten Niveau)<br />

Charakteristika:<br />

– keine natürliche Rangordnung der Skalenwerte<br />

– Zuordnung von Zahlen ist lediglich eine Kodierung<br />

der Merkmalsausprägungen<br />

– Anordnung hat keine inhaltliche Bedeutung<br />

Vergleichsaussagen: gleich (=), ungleich (�=)<br />

Rechnerische Operationen: Häufigkeiten<br />

Zulässige Transformationen: bijektive (eineindeutige)<br />

Abbildungen (siehe Aufgabe 3, Blatt<br />

1)<br />

StatSoz 34


Tabelle 2–2 Nominale Merkmale und Kodierungen<br />

Merkmal Merkmalsausprägungen Kodierung<br />

Familienstand ledig 1<br />

verheiratet 2<br />

geschieden 3<br />

verwitwet 4<br />

eheähnliche Partnerschaft 5<br />

Erwerbsstatus Selbstständige 1<br />

Beamte 2<br />

Angestellte 3<br />

Arbeiter 4<br />

Rentner 5<br />

Arbeitslose 6<br />

Sozialhilfeempfänger 7<br />

Geschlecht männlich 0<br />

weiblich 1<br />

Spezialfall nominalskalierter Merkmale sind<br />

binäre Merkmale (dichotome Merkmale):<br />

Merkmale mit nur zwei Ausprägungen (häufig<br />

0/1–kodiert).<br />

StatSoz 35


Ordinalskala (Rangskala)<br />

Charakteristika:<br />

Die Merkmalsausprägungen sind Kategorien, bei<br />

denen eine natürliche Rangordnung aufgrund<br />

ihrer Größe bzw. Intensität gegeben ist.<br />

Vergleichsaussagen: gleich (=), ungleich (�=)<br />

sowie kleiner ()<br />

Rechnerische Operationen: Häufigkeiten,<br />

Ränge<br />

Zulässige Transformationen: streng monotone<br />

(ordnungserhaltende) Abbildungen (siehe Aufgabe<br />

3, Blatt 1)<br />

StatSoz 36


Tabelle 2–3 Beispiele für ordinalskalierte Merkmale<br />

Merkmal Merkmalsausprägungen Skala<br />

politisches sehr stark 1<br />

Interesse stark 2<br />

mittel 3<br />

wenig 4<br />

überhaupt nicht 5<br />

Meinung Ablehnung −1 (1)<br />

neutral 0 (2)<br />

Zustimmung 1 (3)<br />

Beachte: Bei nominal– und ordinalskalierten<br />

Merkmalen haben Abstände (Differenzen) und<br />

Verhältnisse (Quotienten) von Skalenwerten<br />

keine inhaltliche Bedeutung, sind also nicht<br />

vergleichbar.<br />

StatSoz 37


Bei quantitativen Merkmalen verwendet man eine<br />

metrische Skala. Hier liegt Messbarkeit im<br />

engeren Sinne vor, wobei Skalenwerte im Allgemeinen<br />

eine Dimension haben (Minute, km,<br />

km 2 , e, usw.).<br />

Charakteristika:<br />

– Abstände zwischen Skalenwerten sind interpretierbar<br />

– natürliche Rangordnung durch die Größe der<br />

Merkmalswerte<br />

Bei der metrischen Skala wird zwischen Intervall–<br />

und Verhältnisskala unterschieden.<br />

StatSoz 38


Intervallskala (Differenzenskala)<br />

Charakteristika:<br />

Bezugspunkt dieser Skala (Nullpunkt, Durchschnittswert)<br />

ist willkürlich festgelegt. Konsequenz:<br />

Vergleich von Differenzen ist sinnvoll,<br />

nicht aber von Quotienten.<br />

Vergleichsaussagen: gleich (=), ungleich (�=)<br />

sowie kleiner ()<br />

Rechnerische Operationen: Häufigkeiten,<br />

Ränge, Subtraktionen<br />

Zulässige Transformationen: lineare Abbildungen<br />

(siehe Aufgabe 3, Blatt 1)<br />

Beispiele intervallskalierter Merkmale:<br />

– Intelligenzquotient (Wechsler–Skala)<br />

– Jahreszahlen<br />

StatSoz 39


Verhältnisskala (Ratioskala)<br />

Charakteristika:<br />

Natürlicher (absoluter) Nullpunkt ist gegeben,<br />

Vergleich von Verhältnissen (Quotienten) ist<br />

daher sinnvoll. Gleiche Quotienten drücken einen<br />

gleich großen Unterschied aus.<br />

Vergleichsaussagen: gleich (=), ungleich (�=)<br />

sowie kleiner ()<br />

Rechnerische Operationen: Häufigkeiten,<br />

Ränge, Subtraktionen, Divisionen<br />

Zulässige Transformationen: lineare homogene<br />

Abbildungen (siehe Aufgabe 3, Blatt 1)<br />

Beispiele verhältnisskalierter Merkmale:<br />

– Alter in Jahren<br />

– Einkommen in e<br />

– Entfernung in km<br />

StatSoz 40


Die verschiedenen Skalenniveaus stellen eine<br />

Hierachie dar:<br />

Tabelle 2–4 Sinnvoll interpretierbare Berechnungen<br />

Skala zählen ordnen subtrahieren dividieren<br />

Nominal ja nein nein nein<br />

Ordinal ja ja nein nein<br />

Intervall ja ja ja nein<br />

Verhältnis ja ja ja ja<br />

Bemerkung: Statistische Methoden, die für ein<br />

niedriges Skalenniveau geeignet sind, können<br />

auch für ein höheres Skalenniveau verwendet<br />

werden (zählen und ordnen ist stets für metrische<br />

Merkmale durchführbar). Die Umkehrung<br />

gilt nicht! Für metrische Merkmale kann etwa<br />

der Durchschnittswert (arithmetisches Mittel)<br />

berechnet werden, was für ordinal– und nominalskalierte<br />

Merkmale im Allgemeinen völlig<br />

sinnlos ist.<br />

StatSoz 41


Skalentransformationen<br />

Für die statistische Analyse kann es sinnvoll sein,<br />

metrische Daten so zu transformieren, dass ihre<br />

Ausprägungen ordinalskaliert sind, auch wenn<br />

solche Transformationen immer mit einem gewissen<br />

Informationsverlust verbunden sind (denn<br />

aus der Kenntnis der transformierten Werte<br />

können die ursprünglichen Werte nicht mehr<br />

zurückgewonnen werden).<br />

Die wichtigsten Transformationen sind der Übergang<br />

zu<br />

– Kategorien, Klassen (Klassenbildung ,,von<br />

... bis”, ,,Klassierung der Daten”)<br />

– Rängen (Daten werden der Größe nach geordnet,<br />

der kleinste Wert erhält Rang 1, der<br />

zweitkleinste Wert Rang 2, usw.)<br />

StatSoz 42


Beispiel: (i) Klassierung von Daten<br />

Tabelle 2–5 Einkommensklassen (monatl. Einkommen)<br />

von bis unter Skala<br />

1 2400 1<br />

2400 4800 2<br />

4800 7200 3<br />

7200 9600 4<br />

9600 12000 5<br />

12000 16000 6<br />

16000 20000 7<br />

20000 25000 8<br />

25000 36000 9<br />

36000 50000 10<br />

50000 75000 11<br />

75000 100000 12<br />

100000 und mehr 13<br />

StatSoz 43


(ii) Rangbildung<br />

Es wurden 12 Haushalte nach ihrem verfügbaren<br />

Einkommen (in e) befragt:<br />

Tabelle 2–6 Einkommens–Daten<br />

Haushalt Nr. Einkommen<br />

1 1240<br />

2 1700<br />

3 2040<br />

4 1990<br />

5 1240<br />

6 1350<br />

7 1060<br />

8 920<br />

9 1620<br />

10 1480<br />

11 1120<br />

12 1780<br />

StatSoz 44


Tabelle 2–7 Ränge der Einkommens–Daten<br />

Durchschnittsrang<br />

Einkommen Rang<br />

geordnet<br />

920 1<br />

1060 2<br />

1120 3<br />

1240 4.5<br />

1240 4.5<br />

1350 6<br />

1480 7<br />

1620 8<br />

1700 9<br />

1780 10<br />

1990 11<br />

2040 12<br />

Der Beobachtungswert 1240 kommt zweimal<br />

vor. Es sind die Ränge 4 und 5 zu vergeben.<br />

Man bildet den Durchschnittsrang:<br />

Rang(1240) =<br />

4 + 5<br />

2<br />

= 4.5<br />

StatSoz 45


2.3 Geordnete Stichproben und Ränge<br />

Gegeben seien Daten<br />

Bezeichne<br />

x1, x2, . . . , xn<br />

x (1) die kleinste der n Zahlen x1, . . . , xn<br />

x (2) die zweitkleinste der n Zahlen x1, . . . , xn<br />

.<br />

x (n) die größte der n Zahlen x1, . . . , xn<br />

x (k) heißt k–te Ordnungsgröße. Per Definition<br />

gilt stets<br />

x (1) ≤ x (2) ≤ . . . ≤ x (n)<br />

x (1), . . . , x (n) heißt geordnete Stichprobe.<br />

StatSoz 46


Tabelle 2–8 Einkommens–Daten, geordnet<br />

i xi x (i)<br />

1 1240 920<br />

2 1700 1060<br />

3 2040 1120<br />

4 1990 1240<br />

5 1240 1240<br />

6 1350 1350<br />

7 1060 1480<br />

8 920 1620<br />

9 1620 1700<br />

10 1480 1780<br />

11 1120 1990<br />

12 1780 2040<br />

Der Rang einer Zahl xi innerhalb einer Stichprobe<br />

gibt an, die wie–vielt–kleinste Zahl sie ist.<br />

Um den Rang einer Beobachtung zu bestimmen<br />

ist es sinnvoll, die Daten der Größe nach zu<br />

ordnen.<br />

Formaler versteht man unter einem Rang folgendes:<br />

StatSoz 47


1. Fall: Der Beobachtungswert xi kommt in der<br />

Stichprobe nur einmal vor. Dann ist der Rang<br />

von xi gleich 1 plus Anzahl der Beobachtungen<br />

die kleiner als xi sind:<br />

Rang(xi) = 1 + Anzahl der xj mit xj < xi<br />

2. Fall: Der Beobachtungswert xi kommt in der<br />

Stichprobe k–mal vor, k ≥ 2 (man spricht von<br />

einer Bindung der Länge k). Dann hat man für<br />

diese k gleichen Beobachtungswerte die Ränge<br />

zu vergeben, wobei<br />

ri, ri + 1, . . . , ri + (k − 1)<br />

ri = 1 + Anzahl der xj mit xj < xi<br />

Käme der Beobachtungswert xi nur einmal vor,<br />

so wäre die Zahl ri der Rang von xi.<br />

StatSoz 48


Diese k gleichen Beobachtungswerte bekommen<br />

alle den gleichen Rang, den Durchschnittsrang.<br />

Dieser ist definiert als das arithmetische Mittel<br />

der zu vergebenden Ränge:<br />

Rang(xi)<br />

= ri + (ri + 1) + . . . + [ri + (k − 1)]<br />

k<br />

(2.1)<br />

Formel (2.1) lässt sich vereinfachen (Aufgabe 5,<br />

Blatt 1).<br />

Beachte: Die Rang–Transformation<br />

xi → Rang(xi)<br />

einer Beobachtung xi ist immer nur in Bezug auf<br />

die Daten x1, . . . , xn festgelegt! (Vgl. Aufgabe<br />

6, Blatt 1)<br />

StatSoz 49

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!