27.10.2013 Aufrufe

Angewandte Statistik mit R - Quia

Angewandte Statistik mit R - Quia

Angewandte Statistik mit R - Quia

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

<strong>Angewandte</strong> <strong>Statistik</strong> <strong>mit</strong> 'R'<br />

für Ökonomen<br />

Reiner Peter Hellbrück<br />

1


© Reiner Hellbrück, alle Rechte vorbehalten. Ausschließlich Studenten an der FH Würzburg-<br />

Schweinfurt im Studiengang Betriebswirtschaft, die zudem im Sommersemester 2008 das <strong>Statistik</strong>-<br />

Seminar besuchen, ist die kostenfreie Nutzung dieses Skriptes erlaubt.<br />

Würzburg, 2008<br />

2


Vorwort<br />

Dieses Buch entstand im Zuge der Neustrukturierung meiner <strong>Statistik</strong>veranstaltungen an der FH<br />

Würzburg-Schweinfurt.<br />

3


Abbildungsverzeichnis<br />

Abbildung 1: Suche in vorhandenen Programmpaketen....................................................................15<br />

Abbildung 2: Graphische Veranschaulichung der absoluten Häufigkeit...........................................28<br />

Abbildung 3: Graphische Veranschaulichung der relativen Häufigkeiten.........................................31<br />

Abbildung 4: Graphische Veranschaulichung der empirischen Verteilungsfunktion.........................33<br />

Abbildung 5: Histogramm <strong>mit</strong> absoluten Häufigkeiten.....................................................................34<br />

Abbildung 6: Histogramm <strong>mit</strong> durchschnittlicher Häufigkeitsdichte................................................36<br />

Abbildung 7: Lorenz-Kurve...............................................................................................................42<br />

Abbildung 8: Lorenz-Kurve bei Konzentration auf ein Merkmal.....................................................44<br />

4


Tabellenverzeichnis<br />

Tabelle 1: Daten YX...........................................................................................................................17<br />

Tabelle 2: Ergebnis einer falschen Eingabe.......................................................................................17<br />

Tabelle 3: Daten..................................................................................................................................18<br />

Tabelle 4: Daten2................................................................................................................................21<br />

Tabelle 5: Gemeinsame Verteilung dargestellt in einer Kontingenztabelle.......................................37<br />

Tabelle 6: Randverteilung dargestellt in einer Kontingenztabelle.....................................................38<br />

Tabelle 7: 1. Schritt zur Erstellung einer Lorenz-Kurve-absolute Häufigkeitsverteilung.................40<br />

Tabelle 8: 2. Schritt zur Erstellung einer Lorenz-Kurve....................................................................40<br />

5


Abkürzungsverzeichnis<br />

Tragen Sie hier bitte die Verwendeten Abkürzungen ein.<br />

6


Inhaltsverzeichnis<br />

Abbildungsverzeichnis.........................................................................................................................4<br />

Tabellenverzeichnis..............................................................................................................................5<br />

Abkürzungsverzeichnis........................................................................................................................6<br />

A. Einleitung........................................................................................................................................9<br />

A.1. Gegenstand...............................................................................................................................9<br />

A.2. Aufbau....................................................................................................................................11<br />

B. Datenerhebung - ganz praktisch....................................................................................................12<br />

B.1. Erhebungsplan........................................................................................................................12<br />

B.1.1. Grundlagen.....................................................................................................................12<br />

B.1.2. Vollerhebung oder Teilerhebung?..................................................................................12<br />

B.1.3. Beispiel...........................................................................................................................13<br />

B.2. Software.................................................................................................................................13<br />

B.2.1. Grundlagen.....................................................................................................................13<br />

B.2.2. Beispiel...........................................................................................................................14<br />

B.3. Rohdaten auslesen..................................................................................................................15<br />

B.3.1. Grundlagen.....................................................................................................................15<br />

B.3.2. Beispiel...........................................................................................................................16<br />

B.4. Daten in <strong>Statistik</strong>programm einlesen.....................................................................................16<br />

B.4.1. Grundlagen.....................................................................................................................16<br />

B.4.2. Beispiel...........................................................................................................................16<br />

B.5. Plausibilitätsprüfung..............................................................................................................18<br />

B.5.1. Theoretische Aspekte.....................................................................................................18<br />

B.5.1.a. Grundlagen.............................................................................................................18<br />

B.5.1.b. Beispiel...................................................................................................................19<br />

B.5.2. Statistische Aspekte........................................................................................................19<br />

B.5.2.a. Einfache Datensätze................................................................................................19<br />

Grundlagen......................................................................................................................19<br />

Beispiel............................................................................................................................20<br />

B.5.2.b. Komplexe Datensätze.............................................................................................21<br />

Grundlagen......................................................................................................................21<br />

Beispiel............................................................................................................................22<br />

B.6. Kontrollfragen........................................................................................................................24<br />

B.7. Aufgaben................................................................................................................................25<br />

C. Datenaufbereitung..........................................................................................................................26<br />

C.1. Häufigkeitsverteilung.............................................................................................................26<br />

C.1.1. Absolute Häufigkeitsverteilung......................................................................................26<br />

C.1.1.a. Grundlagen.............................................................................................................26<br />

C.1.1.b. Beispiel...................................................................................................................26<br />

C.1.1.c. Maßzahlen...............................................................................................................27<br />

Arithmetisches Mittel.................................................................................................27<br />

Empirische Varianz.....................................................................................................27<br />

Beispiel.......................................................................................................................27<br />

C.1.1.d. Graphische Veranschaulichung...............................................................................28<br />

C.1.2. Relative Häufigkeitsverteilung.......................................................................................29<br />

C.1.2.a. Grundlagen.............................................................................................................29<br />

C.1.2.b. Beispiel...................................................................................................................29<br />

C.1.2.c. Maßzahlen...............................................................................................................30<br />

Arithmetisches Mittel......................................................................................................30<br />

7


Empirische Varianz..........................................................................................................30<br />

Quantile...........................................................................................................................30<br />

Beispiel............................................................................................................................30<br />

C.1.2.d. Graphische Veranschaulichung...............................................................................31<br />

C.2. Verteilungsfunktion................................................................................................................31<br />

C.2.1. Grundlagen.....................................................................................................................31<br />

C.2.2. Beispiel...........................................................................................................................32<br />

C.2.3. Graphische Veranschaulichung.....................................................................................32<br />

C.3. Histogramme..........................................................................................................................33<br />

C.3.1. Absolute Häufigkeit......................................................................................................33<br />

C.3.1.a. Grundlagen.............................................................................................................33<br />

C.3.1.b. Beispiel...................................................................................................................33<br />

C.3.2. Durchschnittliche Häufigkeitsdichte..............................................................................34<br />

C.3.2.a. Grundlagen.............................................................................................................34<br />

C.3.2.b. Beispiel...................................................................................................................35<br />

C.4. Kontingenztabelle..................................................................................................................36<br />

C.4.1. Gemeinsame Verteilung.................................................................................................36<br />

C.4.1.a. Grundlagen.............................................................................................................36<br />

C.4.1.b. Beispiel...................................................................................................................37<br />

C.4.2. Randverteilungen...........................................................................................................37<br />

C.4.2.a. Grundlagen.............................................................................................................37<br />

C.4.2.b. Beispiel...................................................................................................................38<br />

C.4.3. Bedingte Verteilung und statistische Unabhängigkeit....................................................39<br />

C.4.3.a. Grundlagen.............................................................................................................39<br />

C.4.3.b. Beispiel...................................................................................................................40<br />

C.5. Lorenz-Kurve.........................................................................................................................40<br />

C.5.1. Grundlagen.....................................................................................................................40<br />

C.5.2. Beispiel...........................................................................................................................41<br />

C.5.3. Maßzahlen......................................................................................................................43<br />

C.5.3.a. Gini-Koeffizient......................................................................................................43<br />

C.5.3.b. Beispiel...................................................................................................................43<br />

C.6. Kontrollfragen........................................................................................................................45<br />

C.7. Aufgaben................................................................................................................................46<br />

Literaturverzeichnis............................................................................................................................49<br />

8


A. Einleitung<br />

A.1. Gegenstand<br />

Ziel dieses Lehrbuches ist es, das in füheren Zeiten etwas verstaubte Image der <strong>Statistik</strong><br />

aufzupolieren. Es wird gezeigt, wie Daten online erhoben werden können, wie die so gewonnenen<br />

Rohdaten <strong>mit</strong> einem Tabellenkalkulationsprogramm nachbearbeitet und dann durch den Einsatz des<br />

<strong>Statistik</strong>programms 'R' ausgewertet werden. Die so gewonnenen Ergebnisse werden dann entweder<br />

<strong>mit</strong> 'R' oder einem Tabellenkalkulationsprogramm graphisch aufbereitet.<br />

Eine große Zahl an <strong>Statistik</strong>lehrbüchern gibt es und so stellt sich folgende Frage. Warum braucht<br />

die Welt ein weiteres? In vorliegendem Buch wird prozeß- und entscheidungsorientiert<br />

vorgegangen, wogegen die Vielzahl existierender Lehrbücher inhaltsbasiert sind. Was bedeutet<br />

‚prozeßbasiert’? Da<strong>mit</strong> ist gemeint, daß der Student entlang des Arbeitsablaufs geführt wird: von<br />

der Problemstellung, über Datenerhebung, Plausibilitätstests, Auswahl einer Auswertungsmethode,<br />

Datenauswertung und Datenaufbereitung.<br />

Warum erscheint die entscheidungsorientierte Vorgehensweise angebracht? Die Vielzahl der<br />

entwickelten statistischen Methoden macht es unmöglich, in einer Lehrveranstaltung alle in<br />

zufriedenstellender Weise anzusprechen. Vielmehr ist der Anwender stets <strong>mit</strong><br />

Entscheidungsproblemen konfrontiert: er hat zu entscheiden, welchen Weg er bei der Analyse<br />

beschreiten will. Aus diesem Grund wird hier versucht, dem Anwender Hilfestellungen zu geben.<br />

Es werden anhand von Beispielen Kriterien herausgearbeitet, <strong>mit</strong> Hilfe derer entschieden werden<br />

kann, welche Wege nicht beschritten werden sollten. Hierdurch verengt sich die Menge der<br />

statistischen Methoden und die Auswahl wird erleichtert.<br />

Zudem werden die Verfahren <strong>mit</strong> einem <strong>Statistik</strong>programm relativ leicht nachvollziehbar; selbst<br />

große Datenmengen können verarbeitet werden. Andererseits hat eine jede Software Eigenheiten,<br />

die der Anwender kennen muß, wenn er Fehler vermeiden will. Gelegentlich gibt es bei der<br />

Berechnung von Maßzahlen (beispielsweise bei Quantilen) keine eindeutigen Lösungen. In einem<br />

solchen Fall helfen allgemeine Hinweise, wie der <strong>Statistik</strong>er sich in solchen Situationen verhalten<br />

kann, nicht weiter. Man muß wissen, wie das verwendete Programm da<strong>mit</strong> umgeht, um korrekte<br />

Interpretationen liefern zu können.<br />

<strong>Statistik</strong> lebt von der Anwendung. Aus diesem Grund sind die Ausführungen so gestaltet, daß<br />

der Leser so schnell als möglich in der Lage ist, selbst Auswertungen vorzunehmen. Zur Anregung<br />

sind Beispiele eingeflochten, <strong>mit</strong> Fragestellungen aus dem wirtschaftswissenschaftlichen Bereich.<br />

Im Zuge ihrer Diskussion werden häufig auftretende praktische Probleme angesprochen und<br />

Lösungsmöglichkeiten unterbreitet.<br />

Die Datenverarbeitung hat in den letzten Jahren neue Möglichkeiten für Datenerhebung und<br />

-verarbeitung ermöglicht, Opensourcesoftware ist verfügbar, <strong>mit</strong> deren Hilfe praktisch zum<br />

Nulltarif Daten erhoben, aufbereitet, ausgewertet und die Ergebnisse graphisch aufbereitet werden<br />

können. So gibt es OpenOffice, zu erhalten über www.OpenOffice.org, eine komplettes Officepaket<br />

<strong>mit</strong> Textverarbeitung, Tabellenkalkulations-, Präsentations-, Zeichen- sowie einem<br />

Datenbankprogramm.<br />

Dieses Programm wird als Teil des Betriebssystems Linux üblicherweise <strong>mit</strong>geliefert. Linux,<br />

ebenfalls eine Opensourcesoftware und gelegentlich für ein paar Euro als Beilag zu einschlägigen<br />

Zeitschriten <strong>mit</strong> 'Linux' in der Titelleiste zu erwerben, kann parallel zu Windowsbetriebssystemen<br />

(z.B. Windows95, Windows98, WindowsXP) installiert werden. Bei dem Hochfahren des PC kann<br />

der Nutzer dann zwischen dem Windowssystem und Linux wählen. Die Installation ist<br />

beispielsweise über SUSE-Linux denkbar einfach: lege die Installations-DVD ein und automatisch<br />

9


wird ein Installationsvorschlag gemacht, der ggf. den eigenen Bedürfnissen angepaßt werden kann.<br />

OpenOffice gibt es für alle gängigen Betriebssysteme und gleiches gilt für das<br />

<strong>Statistik</strong>programm 'R', das über (www.statistiklabor.de und folge dem dort angegebenen Link für<br />

die englischsprachige Seite zum Download von 'R') aus dem Internet heruntergeladen werden kann.<br />

Gleiches gilt für moodle, einer serverbasierten Plattform, die für E-Learning geeignet ist, aber auch<br />

zur Online-Datenerhebung verwandt werden kann. Diese Software kann über www.moodle.de<br />

heruntergeladen werden. Der Vorteil dieser Software liegt darin, daß Studenten <strong>mit</strong> Software<br />

lernen, die sie später im Berufsleben ebenfalls nutzen können. Zudem ist es möglich, sich während<br />

des Studiums zu Hause <strong>mit</strong> der Software vertraut zu machen, zu üben und zu lernen. Die<br />

Lerneinheiten können auch <strong>mit</strong> kommerzieller Software bearbeitet werden, doch angesichts der<br />

beschriebenen Vorteile von Opensourceprodukten werden hier die genannten Produkte verwendet.<br />

Zudem sollte ein Umstieg auf kommerzielle oder andere Opensource Software ohne größere<br />

Probleme möglich sein.<br />

10


A.2. Aufbau<br />

<strong>Statistik</strong> ist mehr und mehr die Auseinandersetzung <strong>mit</strong> Software, Theorie, <strong>Statistik</strong> und<br />

Präsentation. Im Zentrum steht jedoch stets die Fragestellung. Da<strong>mit</strong> rückt unver<strong>mit</strong>tels die<br />

fachliche Orientierung in den Mittelpunkt des Interesses. Das Buch wendet sich vor allem an<br />

Ökonomen und so sind die hier verwendeten Beispiele ausschließlich den<br />

Wirtschaftswissenschaften entlehnt. Bei dem ersten Durcharbeiten können die <strong>mit</strong> „*“<br />

gekennzeichneten Kapitel übersprungen werden.<br />

Im zweiten Kapitel wird die Datenerhebung <strong>mit</strong> Hilfe von Onlinebefragungen beschrieben. Es<br />

wird deutlich, warum unterschiedliche Erhebungsmethoden verwendet werden und welche es gibt.<br />

Dem Leser werden Hilfestellungen bei der Auswahl der Methoden gegeben. Außerdem wird<br />

beschrieben, wie Rohdaten auf Plausibilität überprüft werden können.<br />

Methoden zur Datenaufbereitung, also zur Beschreibung von Datensätzen, werden im dritten<br />

Kapitel beschrieben. Die Ausführungen beginnen <strong>mit</strong> grundlegenden Bemerkungen und werden<br />

anschließend durch ökonomische Beispiele veranschaulicht. Es zeigt sich, daß <strong>mit</strong> einigen wenigen<br />

Befehlen auch größere Datensätze <strong>mit</strong> Maßzahlen charakterisiert und graphisch aufbereitet werden<br />

können.<br />

Statistisches Testen steht im Mittelpunkt des Kapitels vier. Wissen um die<br />

Wahrscheinlichkeitsrechnung wäre zwar wünschenswert, ist aber nicht unbedingt erforderlich.<br />

Anhand des Binomialtest über den Anteilswert werden die Prinzipien statistischer Tests erläutert.<br />

Hieran schließt sich die Beschreibung und der wichtigsten diskreten und stetigen theoretischen<br />

Verteilungen an.<br />

11


B. Datenerhebung - ganz praktisch<br />

B.1. Erhebungsplan<br />

B.1.1. Grundlagen<br />

Daten werden zur Gewinnung von Informationen erhoben. Einerseits können diese<br />

Informationen dazu dienen, dem Ökonomen einen Überblick über seinen Untersuchungsgegenstand<br />

(sein Interessengebiet) zu verschaffen oder um auf neue Ideen zu kommen. Andererseits können sie<br />

dazu dienen, die Richtigkeit einer Vermutung (Hypothese) zu überprüfen. In jedem Fall ist davon<br />

auszugehen, daß der Ökonom <strong>mit</strong> Vorverständnis an die Aufgabe herangeht. Völlig unstrukturiert<br />

und aufs Geradewohl wird kaum eine Datenerhebung erfolgen. Sei es offen gesagt (explizit) oder<br />

nicht (implizit): Daten werden im Hinblick auf ein bestimmtes Ziel erhoben.<br />

Ihre Auswertung wird sich an den Zielen der Datenerhebung orientieren. Die Ziele sollten so in<br />

Fragen (Hypothesen) gekleidet werden, daß sie entweder bejaht oder verneint werden können.<br />

Grundlage einer jeden statistischen Auswertung sind so<strong>mit</strong> empirisch überprüfbare Hypothesen. Sie<br />

können auf theoretischen Überlegungen basieren oder als Idee aus vorausgegangenen statistischen<br />

Auswertungen hervorgehen. In letzterem Fall spricht man von der induktiven Vorgehensweise, bei<br />

der ersteren von Deduktion. Wird induktiv vorgegangen, sollte vermieden werden „Daten zu<br />

quälen“. Da<strong>mit</strong> ist gemeint, die Daten, die zur Aufstellung einer neuen Hypothese geführt haben,<br />

nicht zur Überprüfung selbiger verwendet werden dürfen, da dies zu einem Zirkelschluß führen<br />

würde. Insbesondere im Falle der Deduktion ist darauf zu achten, daß die theoretischen Begriffe<br />

adäquat durch Daten abgebildet werden.<br />

B.1.2. Vollerhebung oder Teilerhebung?<br />

Eine der wichtigsten Entscheidungen einer jeden Erhebung ist die Entscheidung über die Art der<br />

Datenerhebung: Voll- oder Teilerhebung. Werden bei allen interessierenden Personen oder Objekten<br />

(Grundgesamtheit oder Population) Daten erhoben, so spricht und von einer Vollerhebung,<br />

andernfalls von einer Teilerhebung. Folgende Beispiele sollen wichtige Beurteilungskriterien<br />

verdeutlichen.<br />

Beispiel 1: Angenommen, ein Lehrer der Fachoberschule Marktheidenfeld möchte gerne wissen,<br />

wie alt seine Schüler in der Klasse 11b am 1.1.2008 durchschnittlich sind. Ihn interessieren also<br />

alle Schüler der Klasse 11b in Marktheidenfeld zum Stichtag 1.1.2008. Befragt er alle, so handelt<br />

es sich um eine Vollerhebung, denn die befragten Personen sind identisch <strong>mit</strong> der interessierenden<br />

Grundgesamtheit. Welche Personen zur Grundgesamtheit zählen, ergibt sich aus der Fragestellung.<br />

Beispiel 2: Angenommen, derselbe Lehrer möchte wissen, wie alt die Schüler in allen<br />

Klassenstufen 11 sind, wobei es die Klassen 11a, 11b gebe. Die interessierende Grundgesamtheit<br />

setzt sich aus den Schülern der Klassen 11a und 11b zusammen; sie bilden die Grundgesamtheit.<br />

Klasse 11b ist lediglich Teil der Grundgesamtheit und Daten über die Klasse 11b heißen deshalb<br />

Teilerhebung.<br />

Warum der Lehrer im ersten Fall nur Klasse 11b als Grundgesamtheit ansieht mag<br />

beispielsweise daran liegen, daß er wissen muß, ob er wegen eines Schulausfluges die<br />

Genehmigung der Eltern einholen muß oder nicht. Geht es um genau diese Fragestellung, so ist<br />

allerdings nicht das arithmetische Mittel entscheidend. Welche Maßzahl würden Sie stattdessen<br />

wählen? 1 Zudem wird durch diese Fragestellung die Erhebungsmethode bestimmt. Welche Methode<br />

1 Relevant wäre hier das minimale Alter innerhalb der Klasse 11b.<br />

12


kann hier nur angewandt werden? 2<br />

Will der Lehrer aber wissen, warum die Schüler der Klasse 11a in allen Fächern bessere Noten<br />

haben als in der 11b, obwohl dieselben Lehrer in beiden Klassen unterrichten, so könnte dies daran<br />

liegen, daß die Schüler der 11a älter sind als die der 11b und in geringerem Maße pubertäres<br />

Verhalten an den Tag legen, was die Leistungen tendenziell mindert. Beide Klassen bilden aufgrund<br />

dieser Fragestellung die Grundgesamtheit. Ist aber eine Voll- oder eine Teilerhebung sinnvoll?<br />

Bei dieser Fragestellung ist es nicht unbedingt wichtig, das Alter jedes Schülers in der<br />

Grundgesamtheit zu wissen. Da es sich um eine relativ kleine Grundgesamtheit handelt, bietet sich<br />

eine Vollerhebung an, zumal das Alter der Schüler üblicherweise der Schule bekannt ist und<br />

vorhandenen Unterlagen entnommen werden kann. Man spricht in diesem Falle von<br />

Sekundärdaten. Werden die Daten direkt bei allen Personen der Grundgesamtheit erhoben, so<br />

handelt es sich um Primärdaten. Ob also eine Vollerhebung oder Teilerhebung sinnvoll ist, ergibt<br />

sich aus der konkreten Situation.<br />

Würde es sich jedoch nicht um zwei Schulklassen, sondern um zwei sehr große<br />

Personengruppen handeln, deren Daten erst erhoben werden müßten, so wäre eine Vollerhebung<br />

möglicherweise <strong>mit</strong> hohen Kosten verbunden. In diesem Fall bietet sich die schließende <strong>Statistik</strong><br />

an, bei der <strong>mit</strong> Hilfe einer Teilerhebung möglichst gut auf die Situation in der Grundgesamtheit<br />

geschlossen werden soll. Hierdurch erklärt sich auch ihr Name „schließende“ <strong>Statistik</strong>. Bei dieser<br />

Art von Fragestellung bedarf es allerdings nicht Daten irgendeiner Teilerhebung, sondern von<br />

Stichproben, d.h. der Zufall spielt eine wichtige Rolle.<br />

B.1.3. Beispiel<br />

Hier wird der entwickelte Fragebogen für Medienmanagement diskutiert.<br />

B.2. Software<br />

B.2.1. Grundlagen<br />

Eine Vielzahl von Programmen ist <strong>mit</strong>tlerweile verfügbar, <strong>mit</strong> deren Hilfe Onlinebefragungen<br />

durchgeführt werden können. Einige wenige sollen im folgenden Kurz skizziert werden. Moodle ist<br />

eine E-Learningplattform, <strong>mit</strong> deren Hilfe allerdings auch Onlinebefragungen durchgeführt werden<br />

können. Über den Link www.moodle.dekann es bezogen werden. Zur Installationvon Version 1. 9<br />

genügt augenblicklich noch Webspace; es ist aber zu erwarten, daß künftig ein eigener moodle-<br />

Server notwendig wird. Der Server muß gemäß den Vorgaben des Programms konfiguriert sein,<br />

d.h. Myslq und PHP ist nötig. Ansonsten ist die Installation relativ einfach. Die Programmdateien<br />

befinden sich in einer komprimierten Datei (z.B. einer Zip-Datei), die auf den eigenen Rechner<br />

entpackt werden müssen. Nach Entpacken aller Dateien befinden sie sich dann in dem Ordner<br />

'moodle'. Über eine FTP-Verbindung wird dieser Ordner samt Inhalt auf den Webspace übertragen.<br />

Webspace erhält der Autor über www.bplaced.com, wo Anfang des Jahres kosten- und werbeloser<br />

Webspace angeboten wurde. Anmeldung und Eingabe der Emailadresse genügte, um die nötigen<br />

Voraussetzungen zur Installation von moodle zu schaffen.<br />

In Linux ist es möglich, eine FTP-Verbindung über das Programm Konqeror herzustellen.<br />

Dieses Programm dient der Dateiverwaltung, kann gleichzeitig aber auch als Internetbrowser<br />

genutzt werden. Wähle den Reiter 'Gehe zu' und wähle 'Netzwerkordner'. Dann erscheint eine Box<br />

'Netzwerkordner hinzufügen'. Klicke 'FTP' an und wähle 'weiter', um in der folgenden<br />

Eingabemaske die geforderten Daten eingeben zu können. Nachdem der Netzwerkordner erstellt<br />

wurde, können per drag and drop oder über die Kopierfunktion von Konqeror Daten auf den Server<br />

2 Möglich ist nur die Vollerhebung. Denn ist auch nur ein Schüler jünger als 18 Jahre, so wäre die Genehmigung<br />

der Eltern einzholen.<br />

13


übertragen und über die Löschfunktion auch ggf. gelöscht werden. Übertrage über einen dieser<br />

Wege den Ordner 'moodle' <strong>mit</strong> gesamtem Inhalt auf den Webspace und lege auf derselben Ebene,<br />

auf der auch der Ordner 'moodle' erstellt wurde einen zusätzlichen Ordner namens 'moodledata' und<br />

den Ordner 'nobody' an. Erstelle in dem Webspace eine Msql-Datenbank, in vorliegendem Fall<br />

heißt sie 'reinerhellbrueck'. Rufe nun einen Internetbrowser auf und gebe die Adresse<br />

http://reinerhellbrueck.bplaced.com/moodle in der Adreßzeile ein; anschließend beginnt die<br />

Installation des Programms. Folge den Anweisungen bis schließlich folgende Anzeige erscheint. Da<br />

die Installation in dem Webspace erfolgt, wird als Server 'localhost' eingegeben.<br />

Das <strong>Statistik</strong>programm 'R' ist vor allem im wissenschaftlichen Bereich verbreitet. Es kommt in<br />

zwei verschiedenen Versionen daher: a) <strong>mit</strong> einer grafischen Oberfläche als ‚<strong>Statistik</strong>labor’<br />

(www.statistiklabor.de) und b) ohne graphische Oberfläche unter dem Namen ‚R’. Letztere ist<br />

befehlsbasiert, wodurch der Einstieg für Anfänger erschwert wird. Das <strong>Statistik</strong>labor erleichtert<br />

dem Studenten den Zugang zur Software durch moderne Menüführung. Insbesondere gibt es die<br />

Möglichkeit, die durch Anklicken erzeugten Befehle anzeigen zulassen. Ansonsten sind die<br />

Funktionalitäten beider Versionen zwar nicht identisch, doch ganz ähnlich.<br />

In der praktischen Anwendung jedoch bevorzugt der Autor eindeutig die befehlsbasierte Version.<br />

Denn hier eröffnen sich dem Nutzer vielfältige Möglichkeiten, die das <strong>Statistik</strong>labor nicht bietet.<br />

Beispielsweise können eine Vielzahl statistischer Auswertungen ohne Eingreifen des Nutzers<br />

durchgeführt werden, wogegen im <strong>Statistik</strong>labor jeder einzelne Schritt durch Anklicken initialisiert<br />

werden muß. Zudem kann der Nutzer neue, bislang in ‚R’ nicht vorhandene Auswertungsmethoden<br />

programmieren. Aus diesen Gründen werden ausschließlich die für ‚R’ nötigen Befehle angegeben.<br />

B.2.2. Beispiel<br />

Bei der Anwendung ist zu beachten, daß die Programmiersprache englisch ist. Wie so häufig<br />

bringt dies Vor- wie auch Nachteile <strong>mit</strong> sich. Um beispielsweise den Mittelwert auszurechnen, wird<br />

nicht das deutsche Wort, sondern ‚mean’ verwendet. Das Schöne hierbei ist, daß die englischen<br />

Fachbegriffe erlernt und eingeübt werden. Daß im Englischen zur Angabe der Dezimalstelle der<br />

Punkt verwendet wird, kann zu Fehlern führen und ist so<strong>mit</strong> als Nachteil zu werden.<br />

‚R’ besteht aus verschiedenen Programmpaketen. Der Nutzer kann sie über drei Schritte<br />

verfügbar machen. A) Über den Reiter ‚Pakete’ können fehlende Pakete aus dem Internet<br />

heruntergeladen werden und auf dem lokalen Rechner als Zip-Dateien gespeichert werden. Als<br />

erstes wird der Server festgelegt, von dem die nötige Software heruntergeladen werden soll (setzte<br />

CRAN-Mirror). Dann wählt man ‚Pakete’ und ‚Installiere Pakete’. B) Über den Reiter ‚Pakete’ und<br />

die Auswahl ‚Installiere Pakete aus lokalen Zip-Dateien’ werden zusätzliche Pakete auf dem<br />

lokalen Rechner installiert und c) über ‚Pakete’ und ‚Lade Pakete’ kann benötigte Software<br />

verfügbar gemacht werden.<br />

Der Reiter ‚Hilfe’, Auswahl ‚Handbücher’ und ‚An Introduction to R’ liefert dem statistisch<br />

vorgebildeten Leser einen ersten Einblick über die Mächtigkeit des Programms. Dem Anfänger<br />

wird diese Lektüre nicht anempfohlen, da sie eher verwirrt als hilft. Nützlicher sind nach einem<br />

ersten Kennenlernen des Programms die Hilfeseiten, die, um Informationen über „mean“ zu<br />

erhalten, durch den Befehl<br />

help(„mean“)<br />

angesprochen werden können. Hierbei ist zu beachten, daß tunlichst auf Groß- und<br />

Kleinschreibung geachtet wird. Die Eingabe von<br />

> Help(mean)<br />

Fehler: konnte Funktion "Help" nicht finden<br />

14


führt zu einer Fehlermeldung. Findet ‚R’ in dem geladenen Programmpaket keine Hilfeseite, so<br />

wird ein Befehl angezeigt, <strong>mit</strong> Hilfe dessen innerhalb der installierten Pakete nach Hilfeseiten<br />

gesucht wird. Das Ergebnis einer solchen Suche nach dem Schlüsselwort „cluster“ sieht<br />

folgendermaßen aus.<br />

> help("cluster")<br />

No documentation for 'cluster' in specified packages and libraries:<br />

you could try 'help.search("cluster")'<br />

Die Eingabe des empfohlenen Befehls öffnet ein neues Fenster folgenden Inhalts:<br />

Help files with alias or concept or title matching 'cluster' using fuzzy matching:<br />

ordiClust(ade4TkGUI) Ordination and Cluster analysis<br />

clusthr(adehabitat)Estimation of Home Range by Clustering<br />

consensus(agricolae) consensus of clusters<br />

Kmeans(amap) K-Means Clustering<br />

Abbildung 1: Suche in vorhandenen Programmpaketen<br />

In der ersten Zeile gibt „ordiClust“ einen Befehl an, der in Programmpaket ‚ade4TkGUI’<br />

vorhanden ist, wobei „Ordination and Cluster analysis“ den Befehl umschreibt. Zu dem<br />

ursprünglichen Fenster kommt man über den Reiter ‚Windows’. Um den Befehl „ordiClust“ nutzen<br />

zu können, wäre im ursprünglichen Fenster über den Reiter ‚Pakete’ und ‚Lade Paket’ die Software<br />

„ade4TkGUI“ zu initialisieren.<br />

B.3. Rohdaten auslesen<br />

B.3.1. Grundlagen<br />

Die Daten können in Linux über Konqueror aus moodle ausgelesen werden, indem auf den<br />

zuvor erstellten Netzwerkordner, der nichts weiter als eine Verknüpfung <strong>mit</strong> dem Server ist,<br />

geklickt wird. Mit Hilfe eines Tabellenverarbeitungsprogramms (bspw. OpenOffice) werden die<br />

Daten einer ersten Sichtung auf Plausibilität unterworfen, indem folgende Fragen bearbeitet<br />

werden:<br />

a) Stimmen alle Formate? Mit anderen Worten interessieren folgende Fragen. Sind Zahlen<br />

auch dort, wo sie hingehören? Sind Felder, in denen ausschließlich Buchstaben erscheinen<br />

dürfen, auch genauso beschaffen? Gibt es bei alphanumerischen Einträgen keine<br />

unerlaubten Symbole?<br />

b) Fehlen Daten? Hier muß überprüft werden, ob alle 'missings' genau gleich gekennzeichnet<br />

worden sind.<br />

c) Sind die erhobenen Zahlen im vorab definierten Bereich bzw. sind sie im plausiblen<br />

Bereich? Diese Frage kann auch später <strong>mit</strong> Hilfe des <strong>Statistik</strong>programms beantwortet<br />

werden.<br />

Die Sichtung auf Plausibilität ist eine wichtige Aufgabe. Denn Fehler, die bei der Dateneingabe<br />

gemacht worden sind, können das Ergebnis so stark verfälschen, daß statistische Auswertungen zu<br />

falschen Schlußfolgerungen führen können.<br />

Um die Daten in das <strong>Statistik</strong>programm 'R' einlesen zu können, werden sie als Textdatei im csv-<br />

15


Format gesichert. Andere Formate können freilich auch verwendet werden, sollen aber hier nicht<br />

angesprochen werden. Besondere Aufmerksamkeit sollte dem Symbol zufallen, durch das ganze<br />

Zahlen von Dezimalstellen getrennt werden. Im folgenden wird davon ausgegangen, daß im<br />

verwendetenTabellenverarbeitungsprogramm als Trennzeichen das Komma verwendet wird. Zudem<br />

ist zu berücksichtigen, welcher Feldtrenner verwendet wird; hier bietet sich die Möglichkeit des<br />

Tabulators, des Semikolons oder des Kommas an. Die verwendeten Standardeinstellungen<br />

unterscheiden sich von Programm zu Programm. Um Fehler zu vermeiden, sollten bei der<br />

praktischen Arbeit stets dieselben Programmpakete verwendet werden und umgekehrt: nach jedem<br />

Programm-, ja sogar Versionswechsel, sollte geprüft werden, ob die Grundeinstellungen gleich<br />

geblieben sind, um ggf. Anpassungen vornehmen zu können.<br />

B.3.2. Beispiel<br />

Hier sollen die Daten aus Medienmanagement genutzt werden.<br />

B.4. Daten in <strong>Statistik</strong>programm einlesen<br />

B.4.1. Grundlagen<br />

Um sicher zu sein, daß in 'R' keine Variablen aus vorherigen Sitzungen vorhanden sind, sollte<br />

der folgende Befehl genutzt werden:<br />

rm ( list=ls() ),<br />

wobei 'rm' für remove steht. Mit dem Befehl<br />

setwd("g:/Auswertung")<br />

wird das Arbeitsverzeichnis gewählt (setwd ist zu interpretieren als ‚set working directory’). In<br />

vorliegendem Fall befindet es sich im Laufwerk 'g' und Ordner 'Auswertung'. Dies bedeutet, daß<br />

ohne Pfadangabe das Programm stets auf das Laufwerk g in Verzeichnis 'Auswertung' auf Dateien<br />

zugreift.<br />

Der Befehl<br />

YX


Y X<br />

10,5 500<br />

12,9 550<br />

33,85 300<br />

Tabelle 1: Daten YX<br />

Werden diese <strong>mit</strong> Hilfe des folgenden Befehls<br />

YX is.list(Daten)<br />

[1] TRUE<br />

wird überprüft, ob es sich tatsächlich um einen Datensatz des Typs Liste handelt. In der zweiten<br />

Zeile ist das Ergebnis diese Abfrage angegeben. Im folgenden werden Konsequenzen eines<br />

falschen Einlesens der Daten skizziert. Wird statt des Befehls<br />

YX 10.5*2<br />

17


[1] 21<br />

Die Symbole zur Durchführung einfacher Rechenoperationen sind die gleichem wie in<br />

Tabellenverarbeitungprogrammen. Probieren Sie es einfach aus.<br />

Wird bei dem Einlesen der Daten statt ‘header=TRUE’ ‚ header=FALSE’ eingegeben, so werden<br />

Y und X nicht zur Kennzeichnung der Variablen, sondern als Teil des Datensatzes behandelt. ‚R’<br />

ordnet den Spalten automatisch die Namen V1 bzw. V2 zu. Bezeichnen Y und X jedoch die<br />

Variablen, so führt diese Dateneingabe zu falschen Ergebnissen (hier erscheinen zusätzlich auch<br />

noch die Kommata anstatt von Punkten).<br />

> YX YXIn<br />

V1 V2<br />

1 Y X<br />

2 10,5 500<br />

3 12,9 550<br />

4 33,85 300<br />

B.5. Plausibilitätsprüfung<br />

B.5.1. Theoretische Aspekte<br />

B.5.1.a. Grundlagen<br />

Bei Plausibilitätsprüfungen sind zwei Aspekte zu beachten. Erstens ist zu prüfen, ob im<br />

Hinblick auf die interessierende Fragestellung die Daten geeignet sind, auch wirklich eine Antwort<br />

auf die gestellte Frage zu geben. Zudem ist eine Überprüfung auf Konsistenz der Daten<br />

durchzuführen. Zweitens ist zu prüfen, ob die Ausprägungen in dem Wertebereich liegen, den wir<br />

aus theoretischen Überlegungen oder praktischer Erfahrung erwarten (statistischer Aspekt). Zur<br />

Veranschaulichung der Zusammenhänge dient der folgende Datensatz.<br />

Einkommen Alter Ausbildungsjahre<br />

2000 30 12<br />

2500 42 13<br />

2900 50 10<br />

3300 28 18<br />

Tabelle 3: Daten<br />

In der ersten Zeile befinden sich die Merkmalsausprägungen der ersten Person, in der zweiten<br />

Zeile die der zweiten usw. Diesem Datensatz liegt die Vorstellung zugrunde, daß Einkommen, Alter<br />

und Ausbildungsjahre irgend etwas <strong>mit</strong>einander zu tun haben. Wird beispielsweise vermutetet, daß<br />

die Entlohnung nach dem Ancienitätsprinzip erfolgt, das heißt, daß <strong>mit</strong> steigendem Alter ein<br />

höherer Stundenlohn gezahlt wird, so müßte <strong>mit</strong> höherem Alter ein höheres Einkommen erzielt<br />

werden.<br />

Der „Teufel“ steckt jedoch, wie so oft, im Detail. Dieser Zusammenhang gilt nur, wenn alle<br />

Personen unabhängig vom Alter dieselbe monatliche Anzahl an Arbeitsstunden arbeiten. Häufig<br />

weisen jedoch ältere Personen eine geringere monatliche Zahl an Arbeitsstunden (beispielsweise<br />

18


wegen Altersteilzeitarbeit) auf als jüngere. Aus dieser Perspektive betrachtet wäre es sinnvoll, statt<br />

dem Einkommen den Stundenlohn und die monatliche Arbeitszeit zu erheben. Folglich wäre dieser<br />

Aspekt bereits bei der Planung der Datenerhebung zu berücksichtigen.<br />

In der Praxis wird dies jedoch häufig nicht möglich sein, sei es, weil die Datenerhebung bereits<br />

abgeschlossen ist oder Sekundärdaten verwendet werden und die erforderlichen Daten nicht<br />

enthalten sind. Aus diesem Grund stellt sich die Frage, ob durch die Verwendung geeigneter<br />

statistischer Verfahren das Problem vielleicht nicht gelöst, wohl aber gemildert werden kann. So<br />

könnte die Analyse einmal <strong>mit</strong> Personen im Alter von 50 bis 58 Jahren und zudem <strong>mit</strong> dem<br />

gesamten Datensatz erfolgen, um einen Hinweis darauf zu bekommen, ob der vermutete Effekt<br />

überhaupt von Bedeutung ist.<br />

Eine Überprüfung auf Konsistenz hat sich an der interessieren Fragestellung zu orientieren. Es<br />

ist zu prüfen, ob sich die Befragten bei der Beantwortung von Fragen möglicherweise<br />

widersprechen. Sollte dies der Fall sein, so ist zu entscheiden, ob solch inkonsistente Datensätze<br />

entfernt werden.<br />

B.5.1.b. Beispiel<br />

Hier sollen die Daten aus Medienmanagement genutzt werden.<br />

B.5.2. Statistische Aspekte<br />

B.5.2.a. Einfache Datensätze<br />

Grundlagen<br />

In Tabelle 3 sind jeder Person mehrerer Merkmalsausprägungen zugeordnet. Analysiert man<br />

statistisch mehrere Merkmale, so spricht man von multivariater <strong>Statistik</strong>, wogegen statistische<br />

Verfahren, bei denen lediglich ein Merkmal analysiert wird, <strong>mit</strong> dem Wort univariat gekennzeichnet<br />

werden. Wird also beispielsweise das Minimum des Merkmals Einkommen bestimmt, so spricht<br />

man von univariater Datenanalyse. Bei Prüfung auf statistische Plausibilität ist es sinnvoll, für jede<br />

Variable zumindest das Minimum, das Maximum, das arithmetische Mittel und die Varianz zu<br />

bestimmen.<br />

Das arithmetische Mittel (mean) ist bei Verwendung von Rohdaten definiert als:<br />

x := 1<br />

n ∑ n<br />

x . i<br />

i=1<br />

x i ist die Ausprägung des kardinale Merkmals „Einkommen“ bei Personen i, wobei i ein<br />

Laufindex ist, der im vorliegenden Fall von 1 bis 4 geht, und n ist die Anzahl an Beobachtungen (n<br />

ist hier gleich vier). Diese Formel wird bei Rohdaten (Urliste) genutzt, d.h. wenn in jeder Zeile der<br />

verwendeten Liste exakt die Merkmalsausprägungen für eine Person stehen.<br />

Die Formel, die in ‚R’ <strong>mit</strong> ‚var(Daten$Einkommen)’ zur Berechnung der Varianz auf Basis von<br />

Rohdaten genutzt wird ist gleich<br />

Var x= <br />

2 = 2<br />

1<br />

:=<br />

X<br />

n<br />

n−1 ∑ i =0<br />

x i−x 2 .<br />

19


Diese Formel dient zur Berechnung der korrigierten Stichprobenvarianz. Mit ihr soll aufgrund von<br />

Daten aus einer Stichprobe eine „erwartungstreue“ Schätzung der „wahren“, aber unbekannten<br />

Varianz in der Grundgesamtheit berechnet werden. Erwartungstreu bedeutet, daß die Varianz der<br />

Grundgesamtheit ohne systematische Verzerrung (Bias) geschätzt wird.<br />

Zur Beschreibung der Streuung, ganz gleich ob in einer Grundgesamtheit oder Stichprobe, wird<br />

aber die empirische Varianz, d.h. die Formel<br />

s 2 2 1<br />

=s X :=<br />

n<br />

n ∑ i =1<br />

x i−x 2<br />

verwendet. Der Index i läuft von 1 bis n, wobei n die Anzahl an Beobachtungen ist.<br />

Bei der empirischen Varianz werden die quadrierten Abweichungen der Beobachtungen vom<br />

arithmetischen Mittel aufsummiert und <strong>mit</strong> dem Faktor 1<br />

n<br />

multipliziert. Die empirische Varianz<br />

unterscheidet sich von der korrigierten Stichprobenvarianz <br />

2<br />

nur durch den verwendeten<br />

Faktor. Wird die korrigierte Stichprobenvarianz <strong>mit</strong><br />

empirische Varianz.<br />

n−1<br />

n<br />

multipliziert, so erhält man die<br />

Beispiel<br />

Die Berechnungen erfolgen beispielhaft <strong>mit</strong> Hilfe der in Tabelle 3 angegebenen Daten. Der<br />

folgende Befehl<br />

> min(Daten)<br />

[1] 10<br />

liefert als Minimum 10 und<br />

> max(Daten)<br />

[1] 3300<br />

ergibt den Maximalwert von 3300. Mit anderen Worten werden das Minimum und das Maximum<br />

des gesamten Datensatzes bestimmt. In vorliegendem Fall ist dieses Vorgehen zur Prüfung auf<br />

Plausibilität nicht angebracht. Stattdessen wäre zu prüfen, ob die Einkommen alle größer als 0 und<br />

nicht zu hoch, das Alter größer oder gleich 14 aber kleiner als 120 und die Ausbildungsjahre<br />

größer oder gleich 0 und nicht zu hoch sind. Denn bereits <strong>mit</strong> 14 könnte eine Person eigenständiges<br />

Einkommen erzielen. Ganz ausgeschlossen ist es allerdings nicht, daß eine Person unter 14 Jahren<br />

eigenes Einkommen aus beispielsweise eigenem Vermögen bezieht. Dies wäre jedoch sicher ein<br />

Sonderfall (Ausreißer) und es wäre im Hinblick auf die interessierende Fragestellung zu<br />

überlegen, ob dieser statistische Ausreißer überhaupt in die Untersuchung aufgenommen werden<br />

sollte.<br />

Die Variable Einkommen kann über folgenden Befehl angesprochen werden:<br />

> Daten$Einkommen<br />

[1] 2000 2500 2900 3300<br />

In der zweiten Zeile ist der erste Spaltenvektor (ja, Spaltenvektor ist richtig) der Liste ‚Daten’<br />

angegeben. Man beachte: obwohl die Anzeige in einer Zeile erfolgt, behandelt ‚R’<br />

Daten$Einkommen als Spaltenvektor. Als Ergebnis für das Minimum, das Maximum, das<br />

arithmetische Mittel und die Varianz liefert das <strong>Statistik</strong>programm folgende Anzeige.<br />

> min(Daten$Einkommen)<br />

20


[1] 2000<br />

> max(Daten$Einkommen)<br />

[1] 3300<br />

> mean(Daten$Einkommen)<br />

[1] 2675<br />

> var(Daten$Einkommen)<br />

[1] 309166.7<br />

Welche Varianz wird hier geschätzt? Ist sinnvoll? i<br />

B.5.2.b. Komplexe Datensätze<br />

Grundlagen<br />

In der Praxis sind Datensätze gewöhnlich mehrdimensional, wobei die Merkmale nicht alle<br />

gleichen Typs sind. In der nachfolgenden Tabelle „kleben“ fünf Merkmale an jeder Person. Bei<br />

dem Geschlecht handelt sich um eine nominal meßbare Größe, das heißt, dieses Merkmal zeigt nur<br />

Gleichheit oder Verschiedenartigkeit an. Es gibt an, ob eine Person oder Objekt im Hinblick auf<br />

einen bestimmten Aspekt gleich oder verschieden ist.<br />

Einkommen Alter Ausbildungsjahre Geschlecht Unternehmensgröße<br />

1000 30 12M K<br />

2500 42 13M K<br />

2900 50 10M G<br />

3300 28 18M G<br />

1500 30 12W K<br />

1900 42 13W M<br />

2111 50 10W M<br />

2700 28 18W M<br />

2900 50 10M g<br />

2111 50 10W m<br />

2000 30 12M m<br />

2000 30 12M m<br />

1900 42 13W k<br />

Tabelle 4: Daten2<br />

In der letzten Spalte ist die Unternehmensgröße abgetragen. Die Merkmalsausprägungen sind<br />

‚K’ für Kleinunternehmen, ‚M’ für <strong>mit</strong>telgroße Unternehmen und ‚G’ für Großunternehmen. Dieses<br />

Merkmal ist ein Beispiel für eine ordinale Größe. Solche Merkmale geben zusätzlich zu den<br />

Informationen eines nominalen Merkmals Auskunft über eine Reihenfolge. Streng genommen sind<br />

die hier gemachten Angaben zur Unternehmensgröße unvollständig. Denn es fehlt die exakte<br />

Definition dessen, <strong>mit</strong> Hilfe welcher Kriterien Unternehmen in große, <strong>mit</strong>tlere und kleine<br />

Unternehmen eingeteilt worden sind.<br />

So könnte beispielsweise eine Einteilung allein aufgrund der Anzahl an Beschäftigten erfolgen<br />

Alternativ hierzu wäre eine Gruppenbildung <strong>mit</strong> Hilfe zweier Merkmale, z. B. Anzahl an<br />

Beschäftigten und Umsatz, möglich. Bei einer großen Anzahl an Unternehmen und mehreren<br />

Gruppierungsmerkmalen ist eine solche Einteilung selbst <strong>mit</strong> Hilfe eines<br />

Tabellenverarbeitungprogramms sehr aufwendig. Die <strong>Statistik</strong> hat zwei Verfahren, die<br />

21


Diskriminanz- und Clusteranalyse, entwickelt, die die Bewältigung solcher Aufgaben erleichtern.<br />

Einkommen, Alter und Ausbildungsjahre sind Beispiele für kardinale Merkmale. Sie liefern<br />

dieselben Informationen wie nominale und ordinale Merkmale; darüber hinaus sind Differenzen<br />

zwischen Merkmalsausprägungen sinnvoll interpretierbar. Aus diesem Grund müssen kardinale<br />

Merkmale zahlenmäßig ausgedrückt werden. Sie werden zudem unterteilt in verhältnis- und<br />

intervallskalierte Merkmale. Bei ersteren gibt es einen sachlogischen absoluten Nullpunkt und es<br />

lassen sich sinnvoll Quotienten aus verschiedenen Merkmalsausprägungen bilden. Bei letzteren ist<br />

dies nicht möglich. Hier können nur Differenzen zwischen Merkmalsausprägungen sinnvoll<br />

interpretiert werden.<br />

Kardinale Merkmale müssen zwar in Zahlen ausgedrückt werden, doch der Umkehrschluß gilt<br />

nicht. Man hüte man sich davor, aus der Tatsache, daß alle Merkmalsausprägungen irgendeines<br />

Merkmals Zahlen sind, darauf zu schließen, daß es sich um ein kardinales Merkmal handelt. Die<br />

Merkmalsausprägungen des Merkmals Geschlecht können zum Beispiel sein ‚m’ und ‚w’, aber<br />

genauso gut könnte verwendet werden ‚1’ und ‚2’. Bei der Signierung des Geschlechts <strong>mit</strong> ‚1’ und<br />

‚2’ kann man zwar prinzipiell das arithmetische Mittel berechnen, doch das so erhaltene Ergebnis<br />

ist nicht interpretierbar. Signiert man jedoch männlich <strong>mit</strong> ‚0’ und weiblich <strong>mit</strong> ‚1’ und berechnet<br />

jetzt das arithmetische Mittel, so gibt es den Anteil der Frauen an.<br />

Beispiel<br />

Bei der Überprüfung auf statistische Plausibilität fällt nominalen und ordinalen Merkmalen die<br />

Aufgabe zu, den Datensatz sinnvoll in Gruppen einzuteilen, um sich einen ersten Überblick über<br />

die Daten zu verschaffen. Man beachte jedoch, daß zuvor das Programmpaket „doBy“ geladen<br />

werden muß. Mit dem folgenden Befehl (siehe unsere Tabelle) wird das Minimum und Maximum,<br />

der Mittelwert, die Varianz sowie die Anzahl an Beobachtungen des Merkmals Einkommen<br />

berechnet. Diese Größen werden im vorliegenden Fall geschlechtsspezifisch ausgewiesen. Der<br />

Befehl ‚data=Daten2’ bestimmt, daß die Daten, abgelegt unter dem Namen ‚Daten2’, verwendet<br />

werden. Dies hat auch zur Folge, daß die Merkmale durch ihren Namen (in vorliegenden Fall<br />

Einkommen und Geschlecht) und nicht durch voranstellen des relevanten Datensatzes (wie oben<br />

„Daten2$Einkommen“) angesprochen werden müssen.<br />

> summaryBy(Einkommen ~ Geschlecht, data=Daten2, FUN=c(min, max, mean,var,length))<br />

Geschlecht Einkommen.min Einkommen.max Einkommen.mean Einkommen.var<br />

Einkommen.length<br />

1 m 1000 3300 2371.429 599047.6 7<br />

2 w 1500 2700 2037.000 155285.6 6<br />

Soll Minimum und Maximum jeweils für Einkommen und Alter geschlechtsspezifisch<br />

ausgerechnet werden, so führt folgender Befehl zum Ziel.<br />

> summaryBy(Einkommen+Alter ~ Geschlecht, data=Daten2, FUN=c(min, max))<br />

Geschlecht Einkommen.min Alter.min Einkommen.max Alter.max<br />

1 m 1000 28 3300 50<br />

2 w 1500 28 2700 50<br />

Wenn der Mittelwert von Einkommen und Alter gegliedert nach Geschlecht und Betriebsgröße<br />

berechnet werden soll, dann gebe folgenden Befehl ein.<br />

> summaryBy(Einkommen+Alter ~ Geschlecht+Betriebsgröße, data=Daten2, FUN=c(mean))<br />

Geschlecht Betriebsgröße Einkommen.mean Alter.mean<br />

1 m g 3033.333 42.66667<br />

2 m k 1750.000 36.00000<br />

3 m m 2000.000 30.00000<br />

4 w k 1700.000 36.00000<br />

22


5 w m 2205.500 42.50000<br />

23


B.6. Kontrollfragen<br />

1. Erläutern Sie die Begriffe Deduktion und Induktion.<br />

2. Wie ruft man in 'R' Hilfeseiten auf?<br />

3. Es findet sich innerhalb der geladenen Programmpakete keine Hilfeseite. Was können Sie tun?<br />

4. Was bewirkt folgender Befehl:<br />

rm ( list=ls() )?<br />

5. Erläutern Sie folgende Anweisung: setwd("g:/Auswertung").<br />

6. Bei folgender Anweisung hat sich ein Fehler eingeschlichen: YX


B.7. Aufgaben<br />

1. Nutze die Daten aus Tabelle 4 und<br />

1. berechne von jeder Variable das arithmetische Mittel. Geht das?<br />

2. Ziehe zweitens von jedem Einkommen das arithmetische Mittel des Einkommens ab und<br />

bilde von den so gebildeten neuen Einkommen das arithmetische Mittel.<br />

3. Erhöhe schließlich alle Einkommen um 100 Euro und verdopple das Alter. Berechnen aus den<br />

so modifizierten Daten das arithmetische Mittel des Einkommens bzw des Alters.<br />

25


C. Datenaufbereitung<br />

C.1. Häufigkeitsverteilung<br />

C.1.1. Absolute Häufigkeitsverteilung<br />

C.1.1.a. Grundlagen<br />

Daten werden aufbereitet, um sich einen ersten Überblick zu verschaffen. Sie dient der<br />

Plausibilitätsprüfung und der Entscheidungsvorbereitung, ob aufgrund der Beschreibung des<br />

Datensatzes bereits Entscheidungen getroffen werden können oder nicht. In letzterem Fall stellt<br />

sich die Frage, ob die Daten adäquat sind oder nicht. Sind sie nicht adäquat, so ist zu überlegen, ob<br />

neue Daten erhoben werden sollten oder nicht. Sollten sie im Hinblick auf die interessierende<br />

Fragestellung als adäquat beurteilt werden, so stellt sich die Frage, wie die Daten ausgewertet<br />

werden sollten.<br />

In der betrieblichen Praxis genügt häufig eine adäquate Beschreibung (auch bekannt als<br />

deskriptive <strong>Statistik</strong>) der vorliegenden Daten zur Entscheidungsvorbereitung. Ganz gleich, ob eine<br />

Vollerhebung oder Teilerhebung vorliegt, ergibt sich die Aufgabe, sie aufzubereiten. Dabei geht es<br />

ausschließlich um die Beschreibung der vorliegenden Daten, ohne etwas erklären zu wollen. Bei<br />

Stichproben etwa ist nicht das Ziel, auf die Situation in der Grundgesamtheit zu schließen. Dies ist<br />

Aufgabe der schließenden <strong>Statistik</strong>.<br />

Nach Abschluß der Datenerhebung liegen Rohdaten vor, d. h., daß jeder Person (oder sonstigem<br />

interessierenden Objekt) eine oder mehrere Merkmalsausprägungen zugeordnet sind. Tabelle 4 ist<br />

ein Beispiel für einen Rohdatensatz. Rohdaten geben uns aber wenig Auskunft: der<br />

Informationsgehalt ist zwar hoch, aber wir können diese Informationen <strong>mit</strong> unserem Gehirn nicht<br />

sinnvoll verarbeiten. Aus diesem Grund ist der <strong>Statistik</strong>er bemüht, die Merkmalsausprägungen in<br />

geeigneter Weise zusammenzufassen. Die wichtigsten Verfahren sind die absolute und relative<br />

Häufigkeitsverteilung, die Verteilungsfunktion, sowie bei gruppierten Daten Histogramme, bei zwei<br />

Merkmalen die Kontingenztabelle sowie die Lorenz-Kurve zur Darstellung von Konzentration. Bei<br />

der absoluten Häufigkeitsverteilung wird jeder Merkmalsausprägung die absolute Häufigkeit<br />

zugeordnet, <strong>mit</strong> der sie vorkommt.<br />

C.1.1.b. Beispiel<br />

Mit 'R' können absolute Häufigkeiten über den Befehl 'table' bestimmt werden. Auf Grundlage<br />

der Rohdaten in Tabelle 4 wurden die absoluten Häufigkeiten für alle Merkmale bestimmt. In der<br />

ersten Zeile befinden sich die Merkmalsausprägungen und in der zweiten die absoluten<br />

Häufigkeiten ihres Vorkommens.<br />

> table(Daten2$Einkommen)<br />

1000 1500 1900 2000 2111 2500 2700 2900 3300<br />

1 1 2 2 2 1 1 2 1<br />

> table(Daten2$Alter)<br />

28 30 42 50<br />

2 4 3 4<br />

> table(Daten2$Ausbildungsjahre)<br />

26


10 12 13 18<br />

4 4 3 2<br />

> table(Daten2$Geschlecht)<br />

m w<br />

7 6<br />

> table(Daten2$Betriebsgröße)<br />

g k m<br />

3 4 6<br />

C.1.1.c. Maßzahlen<br />

Arithmetisches Mittel<br />

Wird auf der Basis absoluter Häufigkeiten das arithmetische Mittel berechnet, so ist folgende<br />

Formel zu verwenden<br />

x := 1<br />

n ∑ k<br />

n i⋅x i .<br />

i = 1<br />

x i bezeichnet die Ausprägung des interessierenden Merkmals, n i ist die absolute Häufigkeit<br />

und k die Anzahl unterschiedlicher Beobachtungen.<br />

Empirische Varianz<br />

Sie ist definiert als<br />

s 2 2 1<br />

=s X :=<br />

n ∑ n<br />

n i x i−x i = 1<br />

2<br />

.<br />

Welcher Datensatz muß folglich bei Anwendung dieser Formeln verwendet werden? ii Die Varianz<br />

ist ein Streuungsmaß, das heißt, sie gibt das Ausmaß an, indem die Beobachtungen in der<br />

Grundgesamtheit (bei einer Vollerhebung) bzw. einer Stichprobe herumvagabundieren. Ist die<br />

Varianz sehr groß, so liegen die Beobachtungen weit verstreut um das arithmetische Mittel herum.<br />

Je kleiner die Varianz wird, desto näher liegen die Beobachtungen um den Mittelwert herum. Ist die<br />

Varianz gleich 0, dann haben alle Beobachtungen exakt denselben Wert.<br />

Beispiel<br />

Wird auf der Basis der absoluten Häufigkeitsverteilung das arithmetische Mittel berechnet, so<br />

ergeben sich selbstverständlich dieselben Ergebnisse wie bei Berechnung auf der Basis von<br />

Rohdaten. Probieren Sie es zu Übungszwecken anhand einfacher Beispiele aus. Die Berechnung<br />

der empirischen Varianz kann in 'R' über die korrigierte Stichprobenvarianz erfolgen. Ausgegangen<br />

wird von dem Datensatz 3 <strong>mit</strong> den Variablen Einkommen, Alter, Bildungsjahre. Um zur<br />

(empirischen) Varianz zu gelangen, <strong>mit</strong> der die Varianz in der Grundgesamtheit berechnet wird, ist<br />

in ‚R’<br />

>(n-1) * var(Daten$Einkommen) /n<br />

bzw. in unserem speziellen Fall<br />

> (4-1)* var(Daten$Einkommen) /4<br />

27


[1] 231875<br />

einzugeben.<br />

C.1.1.d. Graphische Veranschaulichung<br />

Der Befehl<br />

> table(Daten2$Einkommen)<br />

gibt die absolute Häufigkeitsverteilung nur temporär an. Soll im weiteren Verlauf einer statistischen<br />

Auswertung auf die absolute Häufigkeit Bezug genommen werden, so kann man durch Zuweisung<br />

eines Variablennamens das Ergebnis permanent machen. Beispielsweise unter Verwendung von<br />

Daten2 durch folgende Befehl.<br />

>absoluteHäufigkeit absoluteHäufigkeit<br />

liefert als Ergebnis:<br />

1000 1500 1900 2000 2111 2500 2700 2900 3300<br />

1 1 2 2 2 1 1 2 1<br />

Durch die Anweisung<br />

> plot(absoluteHäufigkeit)<br />

erzeugt 'R' folgende Abbildung.<br />

Abbildung 2: Graphische Veranschaulichung der absoluten Häufigkeit<br />

28


An der Abszisse sind die Merkmalsausprägungen abgetragen und an der Ordinate die zugehörigen<br />

absoluten Häufigkeiten. Durch<br />

> plot(absoluteHäufigkeit, xlab = "Einkommen")<br />

wird die Abszisse <strong>mit</strong> „Einkommen“ beschriftet.<br />

C.1.2. Relative Häufigkeitsverteilung<br />

C.1.2.a. Grundlagen<br />

Werden die absoluten Häufigkeiten durch die Anzahl an Beobachtungen dividiert, so erhält man<br />

die relative Häufigkeiten. Bei der relativen Häufigkeitsverteilung werden in der ersten Zeile die<br />

Merkmalsausprägungen und in der zweiten die zugehörigen relative Häufigkeiten angegeben.<br />

Die relative Häufigkeitsverteilung kann auch als Funktion geschrieben werden:<br />

h x ={ h i für x =x i<br />

0 sonst }<br />

C.1.2.b. Beispiel<br />

Das Beispiel von S. 27 wird fortgeführt. Der Befehl<br />

> sum(absoluteHäufigkeit)<br />

[1] 13<br />

gibt die Anzahl der Beobachtungen, n, an. Die zuvor definierte Variable „absoluteHäufigkeit“ wird<br />

abgeändert zu<br />

> absoluteHäufigkeit/sum(absoluteHäufigkeit)<br />

1000 1500 1900 2000 2111 2500 2700 2900 3300<br />

0.07692308 0.07692308 0.15384615 0.15384615 0.15384615 0.07692308 0.07692308 0.15384615<br />

0.07692308<br />

und liefert dann die relative Häufigkeitsverteilung. Folgende Anweisung<br />

> relativeHäufigkeit sum(relativeHäufigkeit)<br />

[1] 1<br />

Als Häufigkeitsfunktion geschrieben erhält man:<br />

29


0.07692308<br />

0.15384615<br />

0.15384615<br />

0.15384615<br />

h x ={0.07692308<br />

0.07692308<br />

0.07692308<br />

0.15384615<br />

0.07692308<br />

für 1000<br />

für 1500<br />

für 1900<br />

für 2000<br />

für 2111<br />

für 2500<br />

für 2700<br />

für 2900<br />

für 3300}<br />

0 sonst<br />

C.1.2.c. Maßzahlen<br />

Arithmetisches Mittel<br />

Auf Grundlage der relativen Häufigkeitsverteilung errechnet sich das arithmetische Mittel über<br />

k<br />

x :=∑ h i⋅x i , <strong>mit</strong> h i :=n i /n ,<br />

i= 1<br />

wobei h i für relative Häufigkeit steht, n i die absolute Häufigkeit des Vorkommens des<br />

Merkmals i angibt, k die Anzahl unterschiedlicher Merkmalsausprägungen kennzeichnet.<br />

Empirische Varianz<br />

Mit der relative Häufigkeitsverteilung läßt sich ebenfalls die empirische Varianz berechnen:<br />

s 2 2<br />

=s X :=∑<br />

i = 1<br />

k<br />

h i x i −x 2<br />

,<br />

wobei die Variablen genauso definiert sind wie oben beim arithmetischen Mittel.<br />

Quantile<br />

Ein Quantil splittet einen Datensatz in zwei Teilbereiche auf. Angenommen, es wird das 0,25-<br />

Quantil gesucht, so ist die Ausprägung xi gesucht, bei der 25 Prozent der Ausprägungen kleiner<br />

oder gleich xi und 75 Prozent der Ausprägungen größer oder gleich xi sind. Das 0,25-Quantil heißt<br />

auch unteres Quartil, das 0,75-Quantil oberes Quartil und das 0,5-Quantil wird Median genannt.<br />

Beispiel<br />

Berechnet man auf Grundlage von Daten2 das arithmetische Mittel und die empirische Varianz<br />

<strong>mit</strong> Hilfe der relativen Häufigkeitsverteilung, so erhält man selbstverständlich dieselben Ergebnisse<br />

wie im Kapitel Absolute Häufigkeitsverteilung.<br />

Der Befehl „quantile(x)“ führt zu dem Ergebnis<br />

> quantile(Daten2$Einkommen)<br />

0% 25% 50% 75% 100%<br />

1000 1900 2111 2700 3300<br />

Dies bedeutet, daß 25 Prozent aller Ausprägungen kleiner oder gleich 1900 und 75 Prozent größer<br />

30


oder gleich 1900 sind.<br />

Alternativ hierzu kann der Median auch <strong>mit</strong> dem Befehl<br />

> median(Daten2$Einkommen, na.rm = FALSE)<br />

[1] 2111<br />

er<strong>mit</strong>telt werden.<br />

C.1.2.d. Graphische Veranschaulichung<br />

Der Befehl<br />

> plot(relativeHäufigkeit, xlab = "Einkommen",ylab="relative Häufigkeit")<br />

öffnet ein neues Fenster <strong>mit</strong> folgender Graphik. An der Waagerechten sind die<br />

Merkmalsausprägungen und an der Senkrechten die relativen Häufigkeiten abgetragen.<br />

Abbildung 3: Graphische Veranschaulichung der relativen Häufigkeiten<br />

C.2. Verteilungsfunktion<br />

C.2.1. Grundlagen<br />

Die empirische Verteilungsfunktion ist definiert als<br />

H x := ∑ x i x<br />

h x i ,<br />

<strong>mit</strong> relativer Häufigkeit h x i . Das bedeutet, daß an jeder Stelle, an der x =x i , H x i um<br />

den Wert h x i steigt. Dies führt dazu, daß man an solchen Sprungstellen dem Wert H x i<br />

31


von links nicht beliebig nahe kommen kann, man sagt, daß die Funktion linksseitig nicht stetig ist.<br />

Von rechts aber kann man einer Sprungstelle beliebig nahe kommen, sie ist also rechtsstetig.<br />

Diese Art der Darstellung kann bei Vollerhebungen wie Teilerhebungen eingesetzt werden. Sie<br />

dient lediglich der Beschreibung der vorliegenden Daten. Liegt eine Teilerhebung vor, so ist bei der<br />

Interpretation allerdings Vorsicht geboten: es kann nicht einfach von der Teilerhebung auf die<br />

Grundgesamtheit geschlossen werden. Wurden beispielsweise bei der Datenerhebung systematisch<br />

Fehler gemacht, so wird sich dies in einem Bias, einer systematischen Verzerrung, in der<br />

Teilerhebung niederschlagen. Zudem hat die Art und Weise der Datenerhebung ceteris paribus<br />

systematischen Einfluß auf die Verteilung. Zusammenhänge dieser Art werden bei der<br />

Datenaufbereitung ausgeblendet.<br />

C.2.2. Beispiel<br />

Lade zuerst das Paket QRMlib, um die Funktion „edf“ (empirical distribution function)<br />

verfügbar zu machen. Durch Eingabe von<br />

> Eink Eink<br />

[1] 1000 1500 1900 1900 2000 2000 2111 2111 2500 2700 2900 2900 3300<br />

das Ergebnis angezeigt. Die Zeile<br />

> edf(Eink)<br />

[1] 0.07692308 0.15384615 0.30769231 0.30769231 0.46153846 0.46153846 0.61538462<br />

0.61538462 0.69230769 0.76923077<br />

[11] 0.92307692 0.92307692 1.00000000<br />

führt schließlich zur Ausgabe der empirischen Verteilungsfunktion, wobei freilich nur die<br />

kumulierten relativen Häufigkeiten abgetragen werden. Welche Angabe fehlt? 3<br />

C.2.3. Graphische Veranschaulichung<br />

Durch<br />

> c(500, Eink, 3500)<br />

[1] 500 1000 1500 1900 1900 2000 2000 2111 2111 2500 2700 2900 2900 3300 3500<br />

wird (auch wenn die Anzeige in einer Zeile erfolgt, um Platz zu sparen) ein Spaltenvektor erzeugt.<br />

1<br />

Versuchen Sie es selbst und erzeugen Sie den Spaltenvektor<br />

2<br />

3<br />

4<br />

. iii Eingabe von<br />

> plot(c(500, Eink, 3500), c(0,edf(Eink),1),xlab = "Einkommen", ylab =<br />

"H(Einkommen)",type="s")<br />

öffnet die folgende Graphik in einem neuen Fenster. Der Eintrag „c(500, Eink, 3500)“ gibt die<br />

Werte an, die an der Abszisse abgetragen werden und „c(0,edf(Eink),1)“ die Werte der Ordinate an.<br />

Der Befehl „type=“s“ weist das Programm an, eine Treppenfunktion zu zeichnen. Man erkennt,<br />

daß die Funktion treppenförmig von links nach rechts steigend verläuft: sie beginnt bei x-Werten<br />

3 Es fehlen die zugehörigen Sprungstellen x i .<br />

32


von −∞ bei Null, steigt dann in Stufen an und erreicht bei ∞ die Eins. Aus der Graphik geht<br />

allerdings nicht hervor, daß sie an Sprungstellen zwar rechts-, aber nicht linksseitig stetig ist.<br />

Markiere in der empirischen Verteilungsfunktion der Abbildung 4 die Sprungstellen x i und<br />

kennzeichne den zugehörigen Wert H x i , der rechtsseitig stetig ist durch einen schwarzen<br />

Punkt und markiere die Unstetigkeitsstelle durch einen Kreis. iv<br />

Abbildung 4: Graphische Veranschaulichung der empirischen Verteilungsfunktion<br />

C.3. Histogramme<br />

C.3.1. Absolute Häufigkeit<br />

C.3.1.a. Grundlagen<br />

Häufig kommt es vor, daß bei Erhebungen keine exakten Angaben erhoben werden, sondern der<br />

Befragte sich für eine Gruppe entscheiden soll. Zum Beispiel kann es sein, daß nicht das exakte<br />

monatliche Einkommen des letzten Monats, sondern das monatliche Einkommen, das<br />

durchschnittlich im Verlauf eines Jahres erzielt wird, abgefragt wird. Solche Daten können<br />

graphisch durch Histogramme veranschaulicht werden. Auf der Abszisse werden dann die<br />

Klassengrenzen und an der Ordinate entweder die absolute Klassenhäufigkeit oder die<br />

durchschnittliche Häufigkeitsdichte h x angegeben.<br />

C.3.1.b. Beispiel<br />

Durch<br />

> hist(Daten2$Einkommen, main="Histogramm", xlab="Einkommen", ylab="absolute<br />

33


Häufigkeit")<br />

wird ein Histogramm <strong>mit</strong> dem Datensatz „Daten2“ und Spalte Einkommen gezeichnet. Zusätzlich<br />

wurden Befehle angegeben, <strong>mit</strong> Hilfe derer ein Titel und die Achsenbezeichnungen eingetragen<br />

werden können.<br />

Abbildung 5: Histogramm <strong>mit</strong> absoluten Häufigkeiten<br />

Die Interpretation dieses Histogramms fällt leichter, wenn man die Rohdaten der Größe nach<br />

sortiert.<br />

> sort(Daten2$Einkommen)<br />

[1] 1000 1500 1900 1900 2000 2000 2111 2111 2500 2700 2900 2900 3300<br />

An der Abszisse sind die Klassengrenzen eingetragen, sie werden in vorliegendem Fall durch das<br />

Programm selbsttätig erzeugt. An der Ordinate ist die absolute Häufigkeit der Beobachtungen<br />

abgetragen, die in die Klasse fällt. Ist eine Ausprägung identisch gleich der Klassenobergrenze, so<br />

wird sie der unteren Klasse zugeordnet. Beispielsweise fallen in das zweite Intervall die<br />

Ausprägungen „1900, 1900, 2000, 2000“, weshalb an der Ordinate die absolute Häufigkeit „4“<br />

abgetragen ist; die Ausprägung „1500“ ist der ersten Klasse zugeordnet.<br />

C.3.2. Durchschnittliche Häufigkeitsdichte<br />

C.3.2.a. Grundlagen<br />

Aus den absoluten Häufigkeiten jeder Klasse lassen sich die relativen Klassenhäufigkeiten<br />

berechnen, indem erstere durch die Anzahl an Beobachtungen, n, dividiert werden. Teilt man nun<br />

die relative Klassehäufigkeit von Klasse j durch die zugehörige Klassebreite, so erhält man die<br />

durchschnittliche Häufigkeitsdichte. Sie gibt an, <strong>mit</strong> welcher relativen Häufigkeit<br />

Merkmalsausprägungen in dieser Klasse vorkommen.<br />

34


Werden an der Abszisse die Klassenbreiten und der Ordinate die jeweilige durchschnittliche<br />

Häufigkeitsdichte abgetragen, so erhalten wir eine Abbildung, die als Histogramm <strong>mit</strong><br />

durchschnittlicher Häufigkeitsdichte oder einfach als Histogramm bekannt ist. Durch diese<br />

Darstellungsform wird kenntlich gemacht, wie viele Beobachtungen durchschnittlich in Klasse j zu<br />

liegen kommen, die genaue Verteilung innerhalb der einzelnen Klassen ist nicht ersichtlich.<br />

C.3.2.b. Beispiel<br />

Die Anweisung<br />

> hist(Daten2$Einkommen, plot=FALSE)<br />

führt zu folgender Anzeige. In der zweiten Zeile sind die Klassengrenzen angegeben und in der<br />

vierten Zeile die jeweiligen absoluten Klassenhäufigkeiten. Die Klassenbreiten sind über alle<br />

Klassen hinweg identisch gleich 500, sie sind äquidistant. Division der absoluten<br />

Klassenhäufigkeiten durch die Anzahl an Beobachtungen in Höhe von n=13 ergibt die relativen<br />

Klassenhäufigkeiten, die hier nicht angegeben sind. Die durchschnittlichen Häufigkeitsdichten sind<br />

nach der <strong>mit</strong> „$density“ gekennzeichneten Zeile abgetragen.<br />

$breaks<br />

[1] 1000 1500 2000 2500 3000 3500<br />

$counts<br />

[1] 2 4 3 3 1<br />

$intensities<br />

[1] 0.0003076922 0.0006153846 0.0004615385 0.0004615385 0.0001538462<br />

$density<br />

[1] 0.0003076922 0.0006153846 0.0004615385 0.0004615385 0.0001538462<br />

$mids<br />

[1] 1250 1750 2250 2750 3250<br />

$xname<br />

[1] "Daten2$Einkommen"<br />

$equidist<br />

[1] TRUE<br />

attr(,"class")<br />

[1] "histogram"<br />

Zur Erzeugung des Histogramms <strong>mit</strong> durchschnittlicher Häufigkeitsdichte ist nachfolgender<br />

Befehl nötig.<br />

> hist(Daten2$Einkommen, main="Histogramm", xlab="Einkommen",<br />

ylab="durchschnittliche Häufigkeitsdichte", freq=FALSE)<br />

35


Abbildung 6: Histogramm <strong>mit</strong> durchschnittlicher Häufigkeitsdichte<br />

An der Ordinate ist die durchschnittliche Häufigkeitsdichte der ersten Klasse <strong>mit</strong> 0,0003<br />

angegeben, das heißt, die durchschnittliche relative Häufigkeit, <strong>mit</strong> der in dieser Klasse<br />

Beobachtungen vorgefunden werden beträgt 2/13/500=2/13∗500 =0,0003076923≃0,0003 .<br />

Um zu der relativen Häufigkeit an Beobachtungen in dieser Klasse zu gelangen, ist die<br />

durchschnittliche Häufigkeitsdichte <strong>mit</strong> der zugehörigen Klassenbreite von fünfhundert (= 1500-<br />

1000) malzunehmen. Mit anderen Worten gibt die Fläche die relative Häufigkeit der Besetzung<br />

einer Klasse <strong>mit</strong> Beobachtungen an.<br />

C.4. Kontingenztabelle<br />

C.4.1. Gemeinsame Verteilung<br />

C.4.1.a. Grundlagen<br />

„Kleben“ an einer statistischen Einheit (bspw. einer Person) zwei Merkmale, so kann man die<br />

gemeinsame Verteilung beider Variablen in einer Kontingenztabelle (gelegentlich auch<br />

Korrelationstabelle genannt) darstellen. n ij soll die absolute Häufigkeit der<br />

Merkmalskombination angeben, <strong>mit</strong> der Merkmal x Ausprägung x i und Merkmal y<br />

Ausprägung y j aufweist. n 12 kennzeichnet dann beispielsweise die absolute Häufigkeit des<br />

Auftretens der Kombination x 1 und y 2 . Eine vier mal drei Kontigenztabelle hat folgende<br />

Gestalt.<br />

y1 y2 y3<br />

x1 n11 n12 n13<br />

36


y1 y2 y3<br />

x2 n21 n22 n23<br />

x3 n31 n32 n33<br />

x4 n41 n42 n43<br />

Tabelle 5: Gemeinsame Verteilung dargestellt in einer Kontingenztabelle<br />

In der waagerechten Tabellenüberschrift wird die Variable y <strong>mit</strong> den Ausprägungen y j und in der<br />

senkrechten die Variable x <strong>mit</strong> Ausprägungungen x i abgetragen. Alternativ zu dieser<br />

Darstellungsform können statt der absoluten Häufigkeiten die relativen Häufigkeiten genutzt<br />

werden.<br />

C.4.1.b. Beispiel<br />

Mit den Rohdaten in Tabelle 4 kann anhand der Merkmale Geschlecht und Betriebsgröße eine<br />

Kontingenztabelle erzeugt werden. In der ersten Zeile stehen die Merkmalsausprägungen des<br />

Merkmals „Betriebsgröße“ und in der ersten Spalte die des Geschlechtes.<br />

> table(Daten2$Geschlecht,Daten2$Betriebsgröße)<br />

g k m<br />

m 3 2 2<br />

w 0 2 4<br />

Zur Berechnung der Anzahl an Beobachtungen, n, führt:<br />

> sum(table(Daten2$Geschlecht,Daten2$Betriebsgröße))<br />

[1] 13<br />

Division der obigen Kontingenztabelle durch die Anzahl an Beobachtungen, n, führt zu einer<br />

Kontingenztabelle <strong>mit</strong> relativen Häufigkeiten.<br />

><br />

table(Daten2$Geschlecht,Daten2$Betriebsgröße)/sum(table(Daten2$Geschlecht,Daten2$Betri<br />

ebsgröße))<br />

g k m<br />

m 0.2307692 0.1538462 0.1538462<br />

w 0.0000000 0.1538462 0.3076923<br />

Die Summe aller relativen Häufigkeiten muß selbstverständlich wieder 1 ergeben.<br />

><br />

sum(table(Daten2$Geschlecht,Daten2$Betriebsgröße)/sum(table(Daten2$Geschlecht,Daten2$<br />

Betriebsgröße)))<br />

[1] 1<br />

C.4.2. Randverteilungen<br />

C.4.2.a. Grundlagen<br />

Summiert man in Tabelle 5 alle absoluten Häufigkeiten einer Zeile auf, so erhält man die<br />

37


absolute Häufigkeit der Merkmalsausprägung x i • . Der Punkt in x i • deutet an, daß bei<br />

gegebenem i über aller Ausprägungen des Merkmals y aufsummiert wird. Addition aller absoluten<br />

Häufigkeiten der Spalte j ergibt die absolute Häufigkeit der Merkmalsausprägung y • j . Mit<br />

anderen Worten steht in der letzten Spalte die absolute Häufigkeitsverteilung des Merkmals x und<br />

in der untersten Zeile jene des Merkmals y. Sind in der Kontingenztabelle relative Häufigkeiten<br />

abgetragen und errechnet man die Randverteilungen, so erhält man die relativen<br />

Häufigkeitsverteilungen des Merkmals x bzw. y.<br />

y1 y2 y3 Randverteilung<br />

x1 n11 n12 n13 n1•<br />

x2 n21 n22 n23 n2•<br />

x3 n31 n32 n33 n3•<br />

x4 n41 n42 n43 n4•<br />

Randverteilung<br />

Absolute<br />

Häufigkeitsverteilung<br />

y<br />

n•1 n•2 n•3<br />

Tabelle 6: Randverteilung dargestellt in einer Kontingenztabelle<br />

Absolute<br />

Häufigkeitsverteilung<br />

x<br />

In Kontingenztabelle 6 sind die absoluten Häufigkeiten abgetragen. Teilt man sie durch n, die<br />

Anzahl aller Merkmalsausprägungen, so erhält man die relative gemeinsame Häufigkeitsverteilung,<br />

bzw. die relativen Randverteilungen.<br />

C.4.2.b. Beispiel<br />

Durch folgende Zuordnung kann die Kontingenztabelle über „KT“ angesprochen werden.<br />

> KT KT<br />

g k m<br />

m 3 2 2<br />

w 0 2 4<br />

Über<br />

> KT[1,]<br />

g k m<br />

3 2 2<br />

wird die erste Zeile angesprochen und der Befehl<br />

> KT[2,]<br />

g k m<br />

38


0 2 4<br />

spricht Zeile zwei an. Im Gegensatz zu der oben angeführten mathematischen Notation fehlt bei<br />

„KT[2,]“ nach dem Komma der Punkt, doch die Interpretation ist ansonsten ähnlich: lese alle Daten<br />

der Zeile zwei aus. Anwendung der Anweisung<br />

> sum(KT[1,])<br />

[1] 7<br />

errechnet die absolute Häufigkeit der Merkmalsausprägung x 1 • und<br />

> sum(KT[2,])<br />

[1] 6<br />

ergibt die absolute Häufigkeit des anderen Merkmals. Mit dem folgenden Befehl wird die erste<br />

Spalte angesprochen und die Berechnung der absoluten Häufigkeiten von variable „Betriebsgröße“<br />

erfolgt analog.<br />

> KT[,1]<br />

m w<br />

3 0<br />

> KT[,2]<br />

m w<br />

2 2<br />

> KT[,3]<br />

m w<br />

2 4<br />

> sum(KT[,1])<br />

[1] 3<br />

> sum(KT[,2])<br />

[1] 4<br />

> sum(KT[,3])<br />

[1] 6<br />

C.4.3. Bedingte Verteilung und statistische Unabhängigkeit<br />

C.4.3.a. Grundlagen<br />

Die bedingte absolute Häufigkeitsverteilung von x unter y1 läßt sich in Tablle 6 aus ersten Spalte<br />

ablesen. Dividiert man sie durch n • 1 , so ergibt sich die bedingte relative Häuigkeitsverteilung:<br />

n 11 /n • 1 , n 21 /n • 1 , n 31 /n • 1 , n 41 /n • 1 . Hält man also bei zweidimensionalen Variablen x<br />

und y eine konstant (z.B. yi) und betrachtet die absolute Häufigkeiten der anderen Variablen x bei<br />

gegebener Ausprägung yi, so heißt diese bedingte absolute Häufigkeitsverteilung von x unter yi.<br />

Falls sich die gemeinsame Verteilung der Variablen x und y durch Multiplikation der<br />

Randverteilungen, also<br />

h i , j =h i • ∗h • j für alle i und j,<br />

39


ergibt, so sagen wir, die Variablen x und y sind statistisch unabhängig. In diesem Fall sind alle<br />

relativen bedingten Häufigkeiten von x wie auch y identisch und exakt gleich den jeweiligen<br />

Randverteilungen.<br />

C.4.3.b. Beispiel<br />

Ausgehend von folgender Kontingenztabelle<br />

g k m<br />

m 3 2 2<br />

w 0 2 4<br />

ergibt sich als bedingte absolute Häufigkeitsverteilung des Geschlechts bei großen Firmen folgende<br />

Verteilung: 3 männliche und keine weiblichen Beobachtungen. Die bedingte relative<br />

Häufigkeitsverteilung des Geschlechts bei großen Firmen ist: männlich 1, weiblich 0.<br />

C.5. Lorenz-Kurve<br />

C.5.1. Grundlagen<br />

Zur Konstruktion einer Lorenz-Kurve ist ein kardinales Merkmal nötig, das folgende<br />

Bedingungen erfüllt:<br />

a) ∀ i ∈ {1,2 ,3 , ... , i , ... , k } x i 0 und<br />

b) 0 x 1 x 2 ⋯ x k .<br />

Mit anderen Worten müssen die Merkmalsausprägungen größer oder gleich 0 und der Größe nach<br />

angeordnet sein. Der Index „k“ ist kleiner oder gleich der Anzahl an Beobachtungen n: falls alle<br />

Ausprägungen voneinander verschieden sind, so ist k=n, andernfalls gibt es mindestens zwei<br />

identische Ausprägungen. Unter der Voraussetzung, daß diese Bedingungen erfüllt sind, kann die<br />

absolute Häufigkeitsverteilung erstellt werden. Zwecks Vereinfachung der Darstellung wird davon<br />

ausgegangen, daß k=4 ist.<br />

Merkmalsausprägung<br />

absolute<br />

Häufigkeit<br />

x1 x2 x3 x4<br />

n1 n2 n3 n4<br />

Tabelle 7: 1. Schritt zur Erstellung einer Lorenz-Kurve-absolute Häufigkeitsverteilung<br />

Im zweiten Schritt wird die gesamte Merkmalsumme errechnet:<br />

gesamte Merkmalssumme =S :=∑ i = 1<br />

k<br />

n i∗x i .<br />

Drittens wird die absolute Häufigkeitsverteilung wie folgt verändert.<br />

Kumulierter<br />

Anteil an der<br />

Merkmalssumme<br />

Kumulierte<br />

Häufigkeit<br />

(n1* x1)/S (n1*<br />

x2)/S<br />

x1+n2*<br />

(n1* x1+n2* x2+n3*<br />

x3)/S<br />

(n1* x1+n2* x2+n3* x3+n4*<br />

x4)/S<br />

n1/n (n1+n2)/n (n1+n2+n3)/n (n1+n2+n3+n4)/n<br />

Tabelle 8: 2. Schritt zur Erstellung einer Lorenz-Kurve<br />

40


Der erste Eintrag dieser Tabelle ist folgendermaßen zu interpretieren. Auf n1/n der Population<br />

entfällt (n1* x1)/S des interessierenden Merkmals. Aufgrund dieser Tabelle läßt sich die Lorenz-<br />

Kurve erstellen, indem auf der Abszisse die kumulierte Häufigkeit und der Ordinate der kumulierte<br />

Anteil der Merkmalssumme abgetragen wird. Definitionsmenge und Wertebereich der Lorenz-<br />

Kurve sind deshalb identisch gleich dem Intervall [0,1]. Die Lorenz-Kurve besteht aus dem<br />

Streckenzug, der sich durch Verbindung der Punkte (0,0) und den Werten der Tabelle 8 ergeben.<br />

C.5.2. Beispiel<br />

Lade das Paket „ineq“, um die nötigen Befehle verfügbar zu machen. Die Anweisung<br />

> a a<br />

1000 1500 1900 2000 2111 2500 2700 2900 3300<br />

1 1 2 2 2 1 1 2 1<br />

führt zur Erstellung der absoluten Häufigkeitsverteilung. Der Befehl „Lc“ dient zur Erstellung der<br />

Lorenz-Kurve, wobei als erstes Argument die Merkmalsausprägungen als Spaltenvektor, c(1000,<br />

1500, 1900, 2000, 2111, 2500, 2700, 2900, 3300), und dann der Spaltenvektor <strong>mit</strong> den zugehörigen<br />

absoluten Häufigkeiten, c( 1,1,2,2,2,1,1,2,1), angegeben werden muß.<br />

> Lorenz Lorenz<br />

$p<br />

[1] 0.00000000 0.07692308 0.15384615 0.30769231 0.46153846 0.61538462 0.69230769 0.76923077 0.92307692<br />

1.00000000<br />

$L<br />

[1] 0.00000000 0.03469572 0.08673930 0.21858303 0.35736590 0.50385122 0.59059052 0.68426896 0.88550413<br />

1.00000000<br />

$L.general<br />

[1] 0.0000 111.1111 277.7778 700.0000 1144.4444 1613.5556 1891.3333 2191.3333 2835.7778 3202.4444<br />

attr(,"class")<br />

[1] "Lc"<br />

41


Abbildung 7: Lorenz-Kurve<br />

Die Korrektheit der Berechnungen können durch folgende Eingaben überprüft werden.<br />

> Summe Summe<br />

[1] 28822<br />

Die erste Merkmalsausprägung ist 1000, Division durch die gesamte Merkmalssumme ergibt:<br />

> 1000/Summe<br />

[1] 0.03469572<br />

Dieselbe Rechnung analog für die ersten beiden Merkmalsausprägungen durchgeführt macht:<br />

> 2500/Summe<br />

[1] 0.0867393<br />

Der Anteil der ersten Merkmalsausprägungen an allen Merkmalen ist<br />

> 1/13<br />

[1] 0.07692308<br />

und der der ersten beiden Merkmalsausprägungen<br />

> 2/13<br />

[1] 0.1538462<br />

Die restlichen Berechnungen sollten Sie zur Übung analog durchführen.<br />

42


C.5.3. Maßzahlen<br />

C.5.3.a. Gini-Koeffizient<br />

Die Lorenz-Kurve ver<strong>mit</strong>telt einen visuellen Eindruck von der Konzentration der<br />

Merkmalsausprägungen in einer Population. Um Konzentrationen verschiedener Populationen<br />

<strong>mit</strong>einander vergleichen zu können, wäre eine Maßzahl nützlich, die nur Werte innerhalb eines<br />

vorher bestimmten Bereiches annehmen kann, also normiert ist. Der Gini-Koeffizient ist eine<br />

solche Größe, <strong>mit</strong> der Konzentrationen in verschiedenen Grundgesamtheiten <strong>mit</strong>einander<br />

verglichen werden können.<br />

Er ist definiert als<br />

Konzentrationsfläche<br />

Gini :=<br />

Fläche zwischen Diagonalenund Abszisse<br />

= Konzentrationsfläche<br />

1<br />

2<br />

Die Konzentrationsfläche ist gleich der Fläche zwischen Diagnoale und Lorenz-Kurve. Ist die<br />

Lorenz-Kurve identisch <strong>mit</strong> der Diagonalen, so ist der Gini gleich Null: es gibt keine<br />

Konzentration.<br />

C.5.3.b. Beispiel<br />

Die Berechnung des Gini <strong>mit</strong> „Daten2“ und Merkmal „Einkommen“ kann <strong>mit</strong> den Rohdaten<br />

erfolgen, eine Sortierung nach der Größe ist in 'R' nicht nötig.<br />

> Gini(Daten2$Einkommen)<br />

[1] 0.1511185<br />

> Gini(sort(Daten2$Einkommen))<br />

[1] 0.1511185<br />

Die Situation bei Konzentration aller Merkmalsausprägungen auf eine statistische Einheit wird<br />

durch folgendes Beispiel illustriert. Es gibt insgesamt 5 Personen, allerdings verdienen 4 gar nichts<br />

und eine 3300 Euro. Da<strong>mit</strong> erhält man folgende Definitionsmenge und Wertebereich:<br />

> Lorenz Lorenz<br />

$p<br />

[1] 0.0 0.2 0.4 0.6 0.8 1.0<br />

$L<br />

[1] 0 0 0 0 0 1<br />

$L.general<br />

[1] 0 0 0 0 0 660<br />

attr(,"class")<br />

[1] "Lc"$p<br />

Die untere Graphik zeigt, daß bei Konzentration auf ein Merkmal, nicht die gesamte Fläche<br />

unterhalb der Diagonalen (= Seitenlänge∗Seitenlänge<br />

2<br />

43<br />

= 1∗1<br />

=1/ 2 ) , sondern nur aus<br />

2<br />

.


1 1<br />

−<br />

2 2∗5 <br />

oder allgemein 1 1 −1<br />

− =n<br />

2 2∗n 2∗n<br />

zusammensetzt. Man beachte dabei, daß der<br />

Flächeninhalt des kleinen Dreiecks sich errechnet über (Seitenlänge mal Seitenlänge)/2, also<br />

1∗1/5<br />

=<br />

2<br />

1<br />

2∗5 .<br />

> Lorenz Gini(c(0,0,0,0, 3300))<br />

[1] 0.8<br />

∗<br />

1<br />

2<br />

n−1<br />

n<br />

=Gini∗ n<br />

n−1 .<br />

und hieraus errechnet sich <strong>mit</strong> n=5 der Gininormiert als<br />

> 0.8*5/4<br />

[1] 1<br />

44


C.6. Kontrollfragen<br />

1. Wodurch unterscheiden sich deskriptive und schließende <strong>Statistik</strong>?<br />

2. Wovon hängt es ab, ob die deskriptive oder schließend <strong>Statistik</strong> zu Anwendung kommt?<br />

3. Was versteht man unter Vollerhebung, was unter Teilerhebung, was unter Stichprobe?<br />

4. Was versteht man unter einer statistischen Einheit?<br />

5. Bei welchen Daten nutzt man die empirische Varianz?<br />

6. Wie errechnen Sie die empirische Varianz<br />

1. bei Rohdaten,<br />

2. bei Vorliegen einer absoluten Häufigkeitsverteilung und wie<br />

3. bei einer relativen Häufigkeitsverteilung?<br />

7. Wie ist die korrigierte Stichprobenvarianz definiert?<br />

8. Wie können Sie die empirische Varianz aus der korrigierten Stichprobenvarianz berechnen?<br />

9. Was versteht man unter einem Quantil?<br />

10.Gegeben sei folgende Auswertung:<br />

0% 25% 50% 75% 100%<br />

1000 1900 2111 2700 3300<br />

Geben Sie den Median sowie das untere und obere Quartil an.<br />

11.Wie ist eine Verteilungsfunktion definiert?<br />

12.Welcher Eigenschaften hat eine Verteilungsfunktion?<br />

13.Was versteht man unter einer Kontingenztabelle?<br />

14.Geben Sie beispielhaft eine 2X2-Kontingenztabelle an und interpretieren Sie sie.<br />

15.Wie erhalten Sie aus einer Kontingenztabelle die zugehörigen Randverteilungen?<br />

16.Interpretieren Sie einen Punkt auf einer Lorenz-Kurve.<br />

17.Was versteht man unter dem Gini- und was unter dem normierten Gini-Koeffizienten?<br />

45


C.7. Aufgaben<br />

1. Zeige, daß die Summe aller relativen Häufigkeiten immer gleich 1 sein muß.<br />

2. Geben Sie Beispiele an, bei denen die deskriptive <strong>Statistik</strong> relevant ist, und begründen Sie Ihre<br />

Entscheidung. v<br />

3. Was ist der Unterschied zwischen der empirischen Varianz und der Stichprobenvarianz? vi<br />

4. In einem Warenhaus wurden von der ersten Person 20 Taschentücher, der zweiten 20, der dritten<br />

30 und der vierten 40 Taschentücher gekauft. vii<br />

1. Berechnen Sie <strong>mit</strong> 'R' die absolute Häufigkeitsverteilung,<br />

2. die relative Häufigkeitsverteilung,<br />

3. die 25%-, 50%- und 75%-Quantile und<br />

4. stellen Sie die Verteilungsfunktion graphisch dar.<br />

5. Erläutern Sie, warum 20 ein 25 Prozent Quantil, warum 25 der Median und 32,5 das obere<br />

Quartil ist.<br />

5. Die erste Person gibt in einem Geschäft 20, die zweite 30 und die dritte 40 Euro aus. Bestimmen<br />

Sie <strong>mit</strong> 'R' die 25%-, 50%- und 75%-Quantile und erläutern Sie das Ergebnis. viii<br />

46


Stichwortverzeichnis<br />

Ancienitätsprinzip 18<br />

Bias 20<br />

Deduktion 12<br />

Einheit<br />

statistische 43<br />

Gini-Koeffizient 43<br />

normiert 44<br />

Grundgesamtheit 12<br />

Häufigkeitsdichte<br />

durchschnittliche 34<br />

Häufigkeitsverteilung<br />

relative gemeinsame 38<br />

Histogramm 33<br />

absolute Klassenhäufigkeit 33<br />

Induktion 12<br />

Konsistenz 19<br />

Kontingenztabelle 36<br />

Korrelationstabelle 36<br />

Lorenz-Kurve 40<br />

Median 30<br />

Merkmal<br />

kardinal 22<br />

nominal 21<br />

ordinal21<br />

Mittel<br />

bei absoluten Häufigkeiten<br />

arithmetisches27<br />

bei relativen Häufigkeiten<br />

arithmetisches30<br />

bei Rohdaten<br />

arithmetisches19<br />

Plausibilität 15<br />

Plausibilitätsprüfung 18<br />

Programmpaket 14<br />

Quantil 30<br />

Quartil<br />

oberes 30<br />

unteres30<br />

Randverteilung 38<br />

relative 38<br />

Rohdaten 19<br />

<strong>Statistik</strong><br />

multivariate 19<br />

univariate 19<br />

Stichprobenvarianz<br />

korrigierte 20<br />

Streuungsmaß 27<br />

Teilerhebung 12<br />

Unabhängigkeit<br />

statistische 40<br />

Urliste 19<br />

Varianz<br />

empirische 30<br />

Grundgesamtheit<br />

empirische 20<br />

Stichprobe<br />

empirische 20<br />

Verteilung<br />

bedingte 39<br />

Verteilungsfunktion<br />

empirische 31<br />

Verzerrung<br />

systematische 20<br />

Vollerhebung 12<br />

47


Literaturverzeichnis<br />

Hinweis: Es gibt eine Vielzahl an <strong>Statistik</strong>lehrbüchern. Das Buch von Bamberg, Baur ist seit Jahren<br />

ein Klassiker. Schira, ein neueres Werk, gibt einen fundierten Einstieg, in die Theorie, ohne zu<br />

mathematisch daherzukommen. Zwerenz gibt einen Einstieg in die Auswertung <strong>mit</strong> Hilfe von Excel<br />

und SPSS, beides kommerzielle Standardsoftware.<br />

Bamberg, Günter, Baur, Franz, <strong>Statistik</strong>, Oldenbourg Verlag: München, Wien, 1984.<br />

Schira, Josef, Statistische Methoden der VWL und BWL, Theorie und Praxis, Pearson Studium:<br />

München, Boston, San Francisco, und andere Orte, 2005.<br />

Zwerenz, Karlheinz, <strong>Statistik</strong>, Datenanalyse <strong>mit</strong> Excel und SPSS, Oldenbourg Verlag: München,<br />

Wien, 2006.<br />

49


i Berechnet wird die korrigierte Stichprobenvarianz. Sie dient, bei Vorliegen von Daten aus einer Stichprobe <strong>mit</strong><br />

Zurücklegen, zur Schätzung der Streuung in der Grundgesamtheit. Bei Plausibilitätsprüfungen wäre die<br />

empirische Varianz (Stichprobenvarianz) und nicht die korrigierte zu berechnen. Denn die Plausibilitätsprüfung<br />

erstreckt sich auf die Daten in der (einfachen) Stichprobe.<br />

ii Rohdaten. Wird als Datengrundlage die absolute Häufigkeitsverteilung verwendet so wäre<br />

Var x= <br />

2 = 2<br />

1<br />

:=<br />

X<br />

k<br />

n−1 ∑ i =0<br />

n i xi −x 2 bzw. s 2 2 1<br />

=s X :=<br />

n ∑ k<br />

n i x i−x i = 1<br />

2 zu verwenden.<br />

iii c(1,2,3,4)<br />

iv Der Befehl > plot(c(500, Eink, 3500), c(0,edf(Eink),1),xlab = "Einkommen", ylab = "H(Einkommen)",type="p")<br />

zeigt die Sprungstellen an, bei denen H(x) rechtsseitig stetig ist.<br />

v Mögliche Antworten: Ausstehende Zahlungen<br />

vi Die empirische Varianz wird zur Beschreibung der Streuung in der Grundgesamtheit. Liegen Daten einer<br />

Stichprobe vor, so dient sie zur Beschreibung der Streuung in der Sichprobe. In diesem Fall heißt die empirische<br />

Varianz auch Stichprobenvarianz. Die korrigierte Stichprobenvarianz dient zur Schätzung der Varianz in der<br />

Grundgesamtheit <strong>mit</strong> Hilfe von Stichprobendaten.<br />

vii Die Dateneingabe kann über<br />

> b table(b)<br />

b<br />

20 30 40<br />

2 1 1<br />

Relative Häufigkeitsverteilung<br />

> table(b)/sum(table(b))<br />

b<br />

20 30 40<br />

0.50 0.25 0.25<br />

Die Quantile erhält man über<br />

> quantile(b)<br />

0% 25% 50% 75% 100%<br />

20.0 20.0 25.0 32.5 40.0<br />

Die Verteilungsfunktion erhält man über<br />

> plot(c(0,b,50),c(0, edf(b),1),type="s")<br />

Die Ausprägung 20 ist ein unteres Quartil, weil es insgesamt 4 Beobachtungen gibt: 20, 20, 30, 40. Zwischen den<br />

ersten beiden Ausprägungen liegt das 25%-Quantil (=Quartil), zwischen der zweiten und dritten Ausprägung liegt<br />

der Median. Er ist nicht eindeutig, nimmt das Programm die Mitte zwischen der zweiten Ausprägung (=20) und<br />

der dritten (= 30), also 25. Zwischen 30 und 40 ist das obere Quartil (=75%-Quantil), es ist ebenfalls nicht<br />

eindeutig bestimmt. 'R' nimmt das arithmetische Mittel zwischen dem Median und dem oberen Wert (=40), wie<br />

man leicht nachrechnen kann:<br />

> (25+40)/2<br />

[1] 32.5<br />

viii Dateneingabe<br />

> a quantile(a)<br />

0% 25% 50% 75% 100%<br />

20 25 30 35 40<br />

Der Median ist eindeutig bei Beobachtung 30. Unterhalb von 20 und oberhalb von 40 sind keine Ausprägungen und<br />

das untere und obere Quartil sind nicht eindeutig. Aus diesem Grund nimmt 'R' das arithmetische Mittel von<br />

Median und dem Wert 20 bzw. dem Wert 40, wodurch sich die Quartile, unteres 25 und oberes <strong>mit</strong> 35, erklären.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!