Angewandte Statistik mit R - Quia
Angewandte Statistik mit R - Quia
Angewandte Statistik mit R - Quia
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
<strong>Angewandte</strong> <strong>Statistik</strong> <strong>mit</strong> 'R'<br />
für Ökonomen<br />
Reiner Peter Hellbrück<br />
1
© Reiner Hellbrück, alle Rechte vorbehalten. Ausschließlich Studenten an der FH Würzburg-<br />
Schweinfurt im Studiengang Betriebswirtschaft, die zudem im Sommersemester 2008 das <strong>Statistik</strong>-<br />
Seminar besuchen, ist die kostenfreie Nutzung dieses Skriptes erlaubt.<br />
Würzburg, 2008<br />
2
Vorwort<br />
Dieses Buch entstand im Zuge der Neustrukturierung meiner <strong>Statistik</strong>veranstaltungen an der FH<br />
Würzburg-Schweinfurt.<br />
3
Abbildungsverzeichnis<br />
Abbildung 1: Suche in vorhandenen Programmpaketen....................................................................15<br />
Abbildung 2: Graphische Veranschaulichung der absoluten Häufigkeit...........................................28<br />
Abbildung 3: Graphische Veranschaulichung der relativen Häufigkeiten.........................................31<br />
Abbildung 4: Graphische Veranschaulichung der empirischen Verteilungsfunktion.........................33<br />
Abbildung 5: Histogramm <strong>mit</strong> absoluten Häufigkeiten.....................................................................34<br />
Abbildung 6: Histogramm <strong>mit</strong> durchschnittlicher Häufigkeitsdichte................................................36<br />
Abbildung 7: Lorenz-Kurve...............................................................................................................42<br />
Abbildung 8: Lorenz-Kurve bei Konzentration auf ein Merkmal.....................................................44<br />
4
Tabellenverzeichnis<br />
Tabelle 1: Daten YX...........................................................................................................................17<br />
Tabelle 2: Ergebnis einer falschen Eingabe.......................................................................................17<br />
Tabelle 3: Daten..................................................................................................................................18<br />
Tabelle 4: Daten2................................................................................................................................21<br />
Tabelle 5: Gemeinsame Verteilung dargestellt in einer Kontingenztabelle.......................................37<br />
Tabelle 6: Randverteilung dargestellt in einer Kontingenztabelle.....................................................38<br />
Tabelle 7: 1. Schritt zur Erstellung einer Lorenz-Kurve-absolute Häufigkeitsverteilung.................40<br />
Tabelle 8: 2. Schritt zur Erstellung einer Lorenz-Kurve....................................................................40<br />
5
Abkürzungsverzeichnis<br />
Tragen Sie hier bitte die Verwendeten Abkürzungen ein.<br />
6
Inhaltsverzeichnis<br />
Abbildungsverzeichnis.........................................................................................................................4<br />
Tabellenverzeichnis..............................................................................................................................5<br />
Abkürzungsverzeichnis........................................................................................................................6<br />
A. Einleitung........................................................................................................................................9<br />
A.1. Gegenstand...............................................................................................................................9<br />
A.2. Aufbau....................................................................................................................................11<br />
B. Datenerhebung - ganz praktisch....................................................................................................12<br />
B.1. Erhebungsplan........................................................................................................................12<br />
B.1.1. Grundlagen.....................................................................................................................12<br />
B.1.2. Vollerhebung oder Teilerhebung?..................................................................................12<br />
B.1.3. Beispiel...........................................................................................................................13<br />
B.2. Software.................................................................................................................................13<br />
B.2.1. Grundlagen.....................................................................................................................13<br />
B.2.2. Beispiel...........................................................................................................................14<br />
B.3. Rohdaten auslesen..................................................................................................................15<br />
B.3.1. Grundlagen.....................................................................................................................15<br />
B.3.2. Beispiel...........................................................................................................................16<br />
B.4. Daten in <strong>Statistik</strong>programm einlesen.....................................................................................16<br />
B.4.1. Grundlagen.....................................................................................................................16<br />
B.4.2. Beispiel...........................................................................................................................16<br />
B.5. Plausibilitätsprüfung..............................................................................................................18<br />
B.5.1. Theoretische Aspekte.....................................................................................................18<br />
B.5.1.a. Grundlagen.............................................................................................................18<br />
B.5.1.b. Beispiel...................................................................................................................19<br />
B.5.2. Statistische Aspekte........................................................................................................19<br />
B.5.2.a. Einfache Datensätze................................................................................................19<br />
Grundlagen......................................................................................................................19<br />
Beispiel............................................................................................................................20<br />
B.5.2.b. Komplexe Datensätze.............................................................................................21<br />
Grundlagen......................................................................................................................21<br />
Beispiel............................................................................................................................22<br />
B.6. Kontrollfragen........................................................................................................................24<br />
B.7. Aufgaben................................................................................................................................25<br />
C. Datenaufbereitung..........................................................................................................................26<br />
C.1. Häufigkeitsverteilung.............................................................................................................26<br />
C.1.1. Absolute Häufigkeitsverteilung......................................................................................26<br />
C.1.1.a. Grundlagen.............................................................................................................26<br />
C.1.1.b. Beispiel...................................................................................................................26<br />
C.1.1.c. Maßzahlen...............................................................................................................27<br />
Arithmetisches Mittel.................................................................................................27<br />
Empirische Varianz.....................................................................................................27<br />
Beispiel.......................................................................................................................27<br />
C.1.1.d. Graphische Veranschaulichung...............................................................................28<br />
C.1.2. Relative Häufigkeitsverteilung.......................................................................................29<br />
C.1.2.a. Grundlagen.............................................................................................................29<br />
C.1.2.b. Beispiel...................................................................................................................29<br />
C.1.2.c. Maßzahlen...............................................................................................................30<br />
Arithmetisches Mittel......................................................................................................30<br />
7
Empirische Varianz..........................................................................................................30<br />
Quantile...........................................................................................................................30<br />
Beispiel............................................................................................................................30<br />
C.1.2.d. Graphische Veranschaulichung...............................................................................31<br />
C.2. Verteilungsfunktion................................................................................................................31<br />
C.2.1. Grundlagen.....................................................................................................................31<br />
C.2.2. Beispiel...........................................................................................................................32<br />
C.2.3. Graphische Veranschaulichung.....................................................................................32<br />
C.3. Histogramme..........................................................................................................................33<br />
C.3.1. Absolute Häufigkeit......................................................................................................33<br />
C.3.1.a. Grundlagen.............................................................................................................33<br />
C.3.1.b. Beispiel...................................................................................................................33<br />
C.3.2. Durchschnittliche Häufigkeitsdichte..............................................................................34<br />
C.3.2.a. Grundlagen.............................................................................................................34<br />
C.3.2.b. Beispiel...................................................................................................................35<br />
C.4. Kontingenztabelle..................................................................................................................36<br />
C.4.1. Gemeinsame Verteilung.................................................................................................36<br />
C.4.1.a. Grundlagen.............................................................................................................36<br />
C.4.1.b. Beispiel...................................................................................................................37<br />
C.4.2. Randverteilungen...........................................................................................................37<br />
C.4.2.a. Grundlagen.............................................................................................................37<br />
C.4.2.b. Beispiel...................................................................................................................38<br />
C.4.3. Bedingte Verteilung und statistische Unabhängigkeit....................................................39<br />
C.4.3.a. Grundlagen.............................................................................................................39<br />
C.4.3.b. Beispiel...................................................................................................................40<br />
C.5. Lorenz-Kurve.........................................................................................................................40<br />
C.5.1. Grundlagen.....................................................................................................................40<br />
C.5.2. Beispiel...........................................................................................................................41<br />
C.5.3. Maßzahlen......................................................................................................................43<br />
C.5.3.a. Gini-Koeffizient......................................................................................................43<br />
C.5.3.b. Beispiel...................................................................................................................43<br />
C.6. Kontrollfragen........................................................................................................................45<br />
C.7. Aufgaben................................................................................................................................46<br />
Literaturverzeichnis............................................................................................................................49<br />
8
A. Einleitung<br />
A.1. Gegenstand<br />
Ziel dieses Lehrbuches ist es, das in füheren Zeiten etwas verstaubte Image der <strong>Statistik</strong><br />
aufzupolieren. Es wird gezeigt, wie Daten online erhoben werden können, wie die so gewonnenen<br />
Rohdaten <strong>mit</strong> einem Tabellenkalkulationsprogramm nachbearbeitet und dann durch den Einsatz des<br />
<strong>Statistik</strong>programms 'R' ausgewertet werden. Die so gewonnenen Ergebnisse werden dann entweder<br />
<strong>mit</strong> 'R' oder einem Tabellenkalkulationsprogramm graphisch aufbereitet.<br />
Eine große Zahl an <strong>Statistik</strong>lehrbüchern gibt es und so stellt sich folgende Frage. Warum braucht<br />
die Welt ein weiteres? In vorliegendem Buch wird prozeß- und entscheidungsorientiert<br />
vorgegangen, wogegen die Vielzahl existierender Lehrbücher inhaltsbasiert sind. Was bedeutet<br />
‚prozeßbasiert’? Da<strong>mit</strong> ist gemeint, daß der Student entlang des Arbeitsablaufs geführt wird: von<br />
der Problemstellung, über Datenerhebung, Plausibilitätstests, Auswahl einer Auswertungsmethode,<br />
Datenauswertung und Datenaufbereitung.<br />
Warum erscheint die entscheidungsorientierte Vorgehensweise angebracht? Die Vielzahl der<br />
entwickelten statistischen Methoden macht es unmöglich, in einer Lehrveranstaltung alle in<br />
zufriedenstellender Weise anzusprechen. Vielmehr ist der Anwender stets <strong>mit</strong><br />
Entscheidungsproblemen konfrontiert: er hat zu entscheiden, welchen Weg er bei der Analyse<br />
beschreiten will. Aus diesem Grund wird hier versucht, dem Anwender Hilfestellungen zu geben.<br />
Es werden anhand von Beispielen Kriterien herausgearbeitet, <strong>mit</strong> Hilfe derer entschieden werden<br />
kann, welche Wege nicht beschritten werden sollten. Hierdurch verengt sich die Menge der<br />
statistischen Methoden und die Auswahl wird erleichtert.<br />
Zudem werden die Verfahren <strong>mit</strong> einem <strong>Statistik</strong>programm relativ leicht nachvollziehbar; selbst<br />
große Datenmengen können verarbeitet werden. Andererseits hat eine jede Software Eigenheiten,<br />
die der Anwender kennen muß, wenn er Fehler vermeiden will. Gelegentlich gibt es bei der<br />
Berechnung von Maßzahlen (beispielsweise bei Quantilen) keine eindeutigen Lösungen. In einem<br />
solchen Fall helfen allgemeine Hinweise, wie der <strong>Statistik</strong>er sich in solchen Situationen verhalten<br />
kann, nicht weiter. Man muß wissen, wie das verwendete Programm da<strong>mit</strong> umgeht, um korrekte<br />
Interpretationen liefern zu können.<br />
<strong>Statistik</strong> lebt von der Anwendung. Aus diesem Grund sind die Ausführungen so gestaltet, daß<br />
der Leser so schnell als möglich in der Lage ist, selbst Auswertungen vorzunehmen. Zur Anregung<br />
sind Beispiele eingeflochten, <strong>mit</strong> Fragestellungen aus dem wirtschaftswissenschaftlichen Bereich.<br />
Im Zuge ihrer Diskussion werden häufig auftretende praktische Probleme angesprochen und<br />
Lösungsmöglichkeiten unterbreitet.<br />
Die Datenverarbeitung hat in den letzten Jahren neue Möglichkeiten für Datenerhebung und<br />
-verarbeitung ermöglicht, Opensourcesoftware ist verfügbar, <strong>mit</strong> deren Hilfe praktisch zum<br />
Nulltarif Daten erhoben, aufbereitet, ausgewertet und die Ergebnisse graphisch aufbereitet werden<br />
können. So gibt es OpenOffice, zu erhalten über www.OpenOffice.org, eine komplettes Officepaket<br />
<strong>mit</strong> Textverarbeitung, Tabellenkalkulations-, Präsentations-, Zeichen- sowie einem<br />
Datenbankprogramm.<br />
Dieses Programm wird als Teil des Betriebssystems Linux üblicherweise <strong>mit</strong>geliefert. Linux,<br />
ebenfalls eine Opensourcesoftware und gelegentlich für ein paar Euro als Beilag zu einschlägigen<br />
Zeitschriten <strong>mit</strong> 'Linux' in der Titelleiste zu erwerben, kann parallel zu Windowsbetriebssystemen<br />
(z.B. Windows95, Windows98, WindowsXP) installiert werden. Bei dem Hochfahren des PC kann<br />
der Nutzer dann zwischen dem Windowssystem und Linux wählen. Die Installation ist<br />
beispielsweise über SUSE-Linux denkbar einfach: lege die Installations-DVD ein und automatisch<br />
9
wird ein Installationsvorschlag gemacht, der ggf. den eigenen Bedürfnissen angepaßt werden kann.<br />
OpenOffice gibt es für alle gängigen Betriebssysteme und gleiches gilt für das<br />
<strong>Statistik</strong>programm 'R', das über (www.statistiklabor.de und folge dem dort angegebenen Link für<br />
die englischsprachige Seite zum Download von 'R') aus dem Internet heruntergeladen werden kann.<br />
Gleiches gilt für moodle, einer serverbasierten Plattform, die für E-Learning geeignet ist, aber auch<br />
zur Online-Datenerhebung verwandt werden kann. Diese Software kann über www.moodle.de<br />
heruntergeladen werden. Der Vorteil dieser Software liegt darin, daß Studenten <strong>mit</strong> Software<br />
lernen, die sie später im Berufsleben ebenfalls nutzen können. Zudem ist es möglich, sich während<br />
des Studiums zu Hause <strong>mit</strong> der Software vertraut zu machen, zu üben und zu lernen. Die<br />
Lerneinheiten können auch <strong>mit</strong> kommerzieller Software bearbeitet werden, doch angesichts der<br />
beschriebenen Vorteile von Opensourceprodukten werden hier die genannten Produkte verwendet.<br />
Zudem sollte ein Umstieg auf kommerzielle oder andere Opensource Software ohne größere<br />
Probleme möglich sein.<br />
10
A.2. Aufbau<br />
<strong>Statistik</strong> ist mehr und mehr die Auseinandersetzung <strong>mit</strong> Software, Theorie, <strong>Statistik</strong> und<br />
Präsentation. Im Zentrum steht jedoch stets die Fragestellung. Da<strong>mit</strong> rückt unver<strong>mit</strong>tels die<br />
fachliche Orientierung in den Mittelpunkt des Interesses. Das Buch wendet sich vor allem an<br />
Ökonomen und so sind die hier verwendeten Beispiele ausschließlich den<br />
Wirtschaftswissenschaften entlehnt. Bei dem ersten Durcharbeiten können die <strong>mit</strong> „*“<br />
gekennzeichneten Kapitel übersprungen werden.<br />
Im zweiten Kapitel wird die Datenerhebung <strong>mit</strong> Hilfe von Onlinebefragungen beschrieben. Es<br />
wird deutlich, warum unterschiedliche Erhebungsmethoden verwendet werden und welche es gibt.<br />
Dem Leser werden Hilfestellungen bei der Auswahl der Methoden gegeben. Außerdem wird<br />
beschrieben, wie Rohdaten auf Plausibilität überprüft werden können.<br />
Methoden zur Datenaufbereitung, also zur Beschreibung von Datensätzen, werden im dritten<br />
Kapitel beschrieben. Die Ausführungen beginnen <strong>mit</strong> grundlegenden Bemerkungen und werden<br />
anschließend durch ökonomische Beispiele veranschaulicht. Es zeigt sich, daß <strong>mit</strong> einigen wenigen<br />
Befehlen auch größere Datensätze <strong>mit</strong> Maßzahlen charakterisiert und graphisch aufbereitet werden<br />
können.<br />
Statistisches Testen steht im Mittelpunkt des Kapitels vier. Wissen um die<br />
Wahrscheinlichkeitsrechnung wäre zwar wünschenswert, ist aber nicht unbedingt erforderlich.<br />
Anhand des Binomialtest über den Anteilswert werden die Prinzipien statistischer Tests erläutert.<br />
Hieran schließt sich die Beschreibung und der wichtigsten diskreten und stetigen theoretischen<br />
Verteilungen an.<br />
11
B. Datenerhebung - ganz praktisch<br />
B.1. Erhebungsplan<br />
B.1.1. Grundlagen<br />
Daten werden zur Gewinnung von Informationen erhoben. Einerseits können diese<br />
Informationen dazu dienen, dem Ökonomen einen Überblick über seinen Untersuchungsgegenstand<br />
(sein Interessengebiet) zu verschaffen oder um auf neue Ideen zu kommen. Andererseits können sie<br />
dazu dienen, die Richtigkeit einer Vermutung (Hypothese) zu überprüfen. In jedem Fall ist davon<br />
auszugehen, daß der Ökonom <strong>mit</strong> Vorverständnis an die Aufgabe herangeht. Völlig unstrukturiert<br />
und aufs Geradewohl wird kaum eine Datenerhebung erfolgen. Sei es offen gesagt (explizit) oder<br />
nicht (implizit): Daten werden im Hinblick auf ein bestimmtes Ziel erhoben.<br />
Ihre Auswertung wird sich an den Zielen der Datenerhebung orientieren. Die Ziele sollten so in<br />
Fragen (Hypothesen) gekleidet werden, daß sie entweder bejaht oder verneint werden können.<br />
Grundlage einer jeden statistischen Auswertung sind so<strong>mit</strong> empirisch überprüfbare Hypothesen. Sie<br />
können auf theoretischen Überlegungen basieren oder als Idee aus vorausgegangenen statistischen<br />
Auswertungen hervorgehen. In letzterem Fall spricht man von der induktiven Vorgehensweise, bei<br />
der ersteren von Deduktion. Wird induktiv vorgegangen, sollte vermieden werden „Daten zu<br />
quälen“. Da<strong>mit</strong> ist gemeint, die Daten, die zur Aufstellung einer neuen Hypothese geführt haben,<br />
nicht zur Überprüfung selbiger verwendet werden dürfen, da dies zu einem Zirkelschluß führen<br />
würde. Insbesondere im Falle der Deduktion ist darauf zu achten, daß die theoretischen Begriffe<br />
adäquat durch Daten abgebildet werden.<br />
B.1.2. Vollerhebung oder Teilerhebung?<br />
Eine der wichtigsten Entscheidungen einer jeden Erhebung ist die Entscheidung über die Art der<br />
Datenerhebung: Voll- oder Teilerhebung. Werden bei allen interessierenden Personen oder Objekten<br />
(Grundgesamtheit oder Population) Daten erhoben, so spricht und von einer Vollerhebung,<br />
andernfalls von einer Teilerhebung. Folgende Beispiele sollen wichtige Beurteilungskriterien<br />
verdeutlichen.<br />
Beispiel 1: Angenommen, ein Lehrer der Fachoberschule Marktheidenfeld möchte gerne wissen,<br />
wie alt seine Schüler in der Klasse 11b am 1.1.2008 durchschnittlich sind. Ihn interessieren also<br />
alle Schüler der Klasse 11b in Marktheidenfeld zum Stichtag 1.1.2008. Befragt er alle, so handelt<br />
es sich um eine Vollerhebung, denn die befragten Personen sind identisch <strong>mit</strong> der interessierenden<br />
Grundgesamtheit. Welche Personen zur Grundgesamtheit zählen, ergibt sich aus der Fragestellung.<br />
Beispiel 2: Angenommen, derselbe Lehrer möchte wissen, wie alt die Schüler in allen<br />
Klassenstufen 11 sind, wobei es die Klassen 11a, 11b gebe. Die interessierende Grundgesamtheit<br />
setzt sich aus den Schülern der Klassen 11a und 11b zusammen; sie bilden die Grundgesamtheit.<br />
Klasse 11b ist lediglich Teil der Grundgesamtheit und Daten über die Klasse 11b heißen deshalb<br />
Teilerhebung.<br />
Warum der Lehrer im ersten Fall nur Klasse 11b als Grundgesamtheit ansieht mag<br />
beispielsweise daran liegen, daß er wissen muß, ob er wegen eines Schulausfluges die<br />
Genehmigung der Eltern einholen muß oder nicht. Geht es um genau diese Fragestellung, so ist<br />
allerdings nicht das arithmetische Mittel entscheidend. Welche Maßzahl würden Sie stattdessen<br />
wählen? 1 Zudem wird durch diese Fragestellung die Erhebungsmethode bestimmt. Welche Methode<br />
1 Relevant wäre hier das minimale Alter innerhalb der Klasse 11b.<br />
12
kann hier nur angewandt werden? 2<br />
Will der Lehrer aber wissen, warum die Schüler der Klasse 11a in allen Fächern bessere Noten<br />
haben als in der 11b, obwohl dieselben Lehrer in beiden Klassen unterrichten, so könnte dies daran<br />
liegen, daß die Schüler der 11a älter sind als die der 11b und in geringerem Maße pubertäres<br />
Verhalten an den Tag legen, was die Leistungen tendenziell mindert. Beide Klassen bilden aufgrund<br />
dieser Fragestellung die Grundgesamtheit. Ist aber eine Voll- oder eine Teilerhebung sinnvoll?<br />
Bei dieser Fragestellung ist es nicht unbedingt wichtig, das Alter jedes Schülers in der<br />
Grundgesamtheit zu wissen. Da es sich um eine relativ kleine Grundgesamtheit handelt, bietet sich<br />
eine Vollerhebung an, zumal das Alter der Schüler üblicherweise der Schule bekannt ist und<br />
vorhandenen Unterlagen entnommen werden kann. Man spricht in diesem Falle von<br />
Sekundärdaten. Werden die Daten direkt bei allen Personen der Grundgesamtheit erhoben, so<br />
handelt es sich um Primärdaten. Ob also eine Vollerhebung oder Teilerhebung sinnvoll ist, ergibt<br />
sich aus der konkreten Situation.<br />
Würde es sich jedoch nicht um zwei Schulklassen, sondern um zwei sehr große<br />
Personengruppen handeln, deren Daten erst erhoben werden müßten, so wäre eine Vollerhebung<br />
möglicherweise <strong>mit</strong> hohen Kosten verbunden. In diesem Fall bietet sich die schließende <strong>Statistik</strong><br />
an, bei der <strong>mit</strong> Hilfe einer Teilerhebung möglichst gut auf die Situation in der Grundgesamtheit<br />
geschlossen werden soll. Hierdurch erklärt sich auch ihr Name „schließende“ <strong>Statistik</strong>. Bei dieser<br />
Art von Fragestellung bedarf es allerdings nicht Daten irgendeiner Teilerhebung, sondern von<br />
Stichproben, d.h. der Zufall spielt eine wichtige Rolle.<br />
B.1.3. Beispiel<br />
Hier wird der entwickelte Fragebogen für Medienmanagement diskutiert.<br />
B.2. Software<br />
B.2.1. Grundlagen<br />
Eine Vielzahl von Programmen ist <strong>mit</strong>tlerweile verfügbar, <strong>mit</strong> deren Hilfe Onlinebefragungen<br />
durchgeführt werden können. Einige wenige sollen im folgenden Kurz skizziert werden. Moodle ist<br />
eine E-Learningplattform, <strong>mit</strong> deren Hilfe allerdings auch Onlinebefragungen durchgeführt werden<br />
können. Über den Link www.moodle.dekann es bezogen werden. Zur Installationvon Version 1. 9<br />
genügt augenblicklich noch Webspace; es ist aber zu erwarten, daß künftig ein eigener moodle-<br />
Server notwendig wird. Der Server muß gemäß den Vorgaben des Programms konfiguriert sein,<br />
d.h. Myslq und PHP ist nötig. Ansonsten ist die Installation relativ einfach. Die Programmdateien<br />
befinden sich in einer komprimierten Datei (z.B. einer Zip-Datei), die auf den eigenen Rechner<br />
entpackt werden müssen. Nach Entpacken aller Dateien befinden sie sich dann in dem Ordner<br />
'moodle'. Über eine FTP-Verbindung wird dieser Ordner samt Inhalt auf den Webspace übertragen.<br />
Webspace erhält der Autor über www.bplaced.com, wo Anfang des Jahres kosten- und werbeloser<br />
Webspace angeboten wurde. Anmeldung und Eingabe der Emailadresse genügte, um die nötigen<br />
Voraussetzungen zur Installation von moodle zu schaffen.<br />
In Linux ist es möglich, eine FTP-Verbindung über das Programm Konqeror herzustellen.<br />
Dieses Programm dient der Dateiverwaltung, kann gleichzeitig aber auch als Internetbrowser<br />
genutzt werden. Wähle den Reiter 'Gehe zu' und wähle 'Netzwerkordner'. Dann erscheint eine Box<br />
'Netzwerkordner hinzufügen'. Klicke 'FTP' an und wähle 'weiter', um in der folgenden<br />
Eingabemaske die geforderten Daten eingeben zu können. Nachdem der Netzwerkordner erstellt<br />
wurde, können per drag and drop oder über die Kopierfunktion von Konqeror Daten auf den Server<br />
2 Möglich ist nur die Vollerhebung. Denn ist auch nur ein Schüler jünger als 18 Jahre, so wäre die Genehmigung<br />
der Eltern einzholen.<br />
13
übertragen und über die Löschfunktion auch ggf. gelöscht werden. Übertrage über einen dieser<br />
Wege den Ordner 'moodle' <strong>mit</strong> gesamtem Inhalt auf den Webspace und lege auf derselben Ebene,<br />
auf der auch der Ordner 'moodle' erstellt wurde einen zusätzlichen Ordner namens 'moodledata' und<br />
den Ordner 'nobody' an. Erstelle in dem Webspace eine Msql-Datenbank, in vorliegendem Fall<br />
heißt sie 'reinerhellbrueck'. Rufe nun einen Internetbrowser auf und gebe die Adresse<br />
http://reinerhellbrueck.bplaced.com/moodle in der Adreßzeile ein; anschließend beginnt die<br />
Installation des Programms. Folge den Anweisungen bis schließlich folgende Anzeige erscheint. Da<br />
die Installation in dem Webspace erfolgt, wird als Server 'localhost' eingegeben.<br />
Das <strong>Statistik</strong>programm 'R' ist vor allem im wissenschaftlichen Bereich verbreitet. Es kommt in<br />
zwei verschiedenen Versionen daher: a) <strong>mit</strong> einer grafischen Oberfläche als ‚<strong>Statistik</strong>labor’<br />
(www.statistiklabor.de) und b) ohne graphische Oberfläche unter dem Namen ‚R’. Letztere ist<br />
befehlsbasiert, wodurch der Einstieg für Anfänger erschwert wird. Das <strong>Statistik</strong>labor erleichtert<br />
dem Studenten den Zugang zur Software durch moderne Menüführung. Insbesondere gibt es die<br />
Möglichkeit, die durch Anklicken erzeugten Befehle anzeigen zulassen. Ansonsten sind die<br />
Funktionalitäten beider Versionen zwar nicht identisch, doch ganz ähnlich.<br />
In der praktischen Anwendung jedoch bevorzugt der Autor eindeutig die befehlsbasierte Version.<br />
Denn hier eröffnen sich dem Nutzer vielfältige Möglichkeiten, die das <strong>Statistik</strong>labor nicht bietet.<br />
Beispielsweise können eine Vielzahl statistischer Auswertungen ohne Eingreifen des Nutzers<br />
durchgeführt werden, wogegen im <strong>Statistik</strong>labor jeder einzelne Schritt durch Anklicken initialisiert<br />
werden muß. Zudem kann der Nutzer neue, bislang in ‚R’ nicht vorhandene Auswertungsmethoden<br />
programmieren. Aus diesen Gründen werden ausschließlich die für ‚R’ nötigen Befehle angegeben.<br />
B.2.2. Beispiel<br />
Bei der Anwendung ist zu beachten, daß die Programmiersprache englisch ist. Wie so häufig<br />
bringt dies Vor- wie auch Nachteile <strong>mit</strong> sich. Um beispielsweise den Mittelwert auszurechnen, wird<br />
nicht das deutsche Wort, sondern ‚mean’ verwendet. Das Schöne hierbei ist, daß die englischen<br />
Fachbegriffe erlernt und eingeübt werden. Daß im Englischen zur Angabe der Dezimalstelle der<br />
Punkt verwendet wird, kann zu Fehlern führen und ist so<strong>mit</strong> als Nachteil zu werden.<br />
‚R’ besteht aus verschiedenen Programmpaketen. Der Nutzer kann sie über drei Schritte<br />
verfügbar machen. A) Über den Reiter ‚Pakete’ können fehlende Pakete aus dem Internet<br />
heruntergeladen werden und auf dem lokalen Rechner als Zip-Dateien gespeichert werden. Als<br />
erstes wird der Server festgelegt, von dem die nötige Software heruntergeladen werden soll (setzte<br />
CRAN-Mirror). Dann wählt man ‚Pakete’ und ‚Installiere Pakete’. B) Über den Reiter ‚Pakete’ und<br />
die Auswahl ‚Installiere Pakete aus lokalen Zip-Dateien’ werden zusätzliche Pakete auf dem<br />
lokalen Rechner installiert und c) über ‚Pakete’ und ‚Lade Pakete’ kann benötigte Software<br />
verfügbar gemacht werden.<br />
Der Reiter ‚Hilfe’, Auswahl ‚Handbücher’ und ‚An Introduction to R’ liefert dem statistisch<br />
vorgebildeten Leser einen ersten Einblick über die Mächtigkeit des Programms. Dem Anfänger<br />
wird diese Lektüre nicht anempfohlen, da sie eher verwirrt als hilft. Nützlicher sind nach einem<br />
ersten Kennenlernen des Programms die Hilfeseiten, die, um Informationen über „mean“ zu<br />
erhalten, durch den Befehl<br />
help(„mean“)<br />
angesprochen werden können. Hierbei ist zu beachten, daß tunlichst auf Groß- und<br />
Kleinschreibung geachtet wird. Die Eingabe von<br />
> Help(mean)<br />
Fehler: konnte Funktion "Help" nicht finden<br />
14
führt zu einer Fehlermeldung. Findet ‚R’ in dem geladenen Programmpaket keine Hilfeseite, so<br />
wird ein Befehl angezeigt, <strong>mit</strong> Hilfe dessen innerhalb der installierten Pakete nach Hilfeseiten<br />
gesucht wird. Das Ergebnis einer solchen Suche nach dem Schlüsselwort „cluster“ sieht<br />
folgendermaßen aus.<br />
> help("cluster")<br />
No documentation for 'cluster' in specified packages and libraries:<br />
you could try 'help.search("cluster")'<br />
Die Eingabe des empfohlenen Befehls öffnet ein neues Fenster folgenden Inhalts:<br />
Help files with alias or concept or title matching 'cluster' using fuzzy matching:<br />
ordiClust(ade4TkGUI) Ordination and Cluster analysis<br />
clusthr(adehabitat)Estimation of Home Range by Clustering<br />
consensus(agricolae) consensus of clusters<br />
Kmeans(amap) K-Means Clustering<br />
Abbildung 1: Suche in vorhandenen Programmpaketen<br />
In der ersten Zeile gibt „ordiClust“ einen Befehl an, der in Programmpaket ‚ade4TkGUI’<br />
vorhanden ist, wobei „Ordination and Cluster analysis“ den Befehl umschreibt. Zu dem<br />
ursprünglichen Fenster kommt man über den Reiter ‚Windows’. Um den Befehl „ordiClust“ nutzen<br />
zu können, wäre im ursprünglichen Fenster über den Reiter ‚Pakete’ und ‚Lade Paket’ die Software<br />
„ade4TkGUI“ zu initialisieren.<br />
B.3. Rohdaten auslesen<br />
B.3.1. Grundlagen<br />
Die Daten können in Linux über Konqueror aus moodle ausgelesen werden, indem auf den<br />
zuvor erstellten Netzwerkordner, der nichts weiter als eine Verknüpfung <strong>mit</strong> dem Server ist,<br />
geklickt wird. Mit Hilfe eines Tabellenverarbeitungsprogramms (bspw. OpenOffice) werden die<br />
Daten einer ersten Sichtung auf Plausibilität unterworfen, indem folgende Fragen bearbeitet<br />
werden:<br />
a) Stimmen alle Formate? Mit anderen Worten interessieren folgende Fragen. Sind Zahlen<br />
auch dort, wo sie hingehören? Sind Felder, in denen ausschließlich Buchstaben erscheinen<br />
dürfen, auch genauso beschaffen? Gibt es bei alphanumerischen Einträgen keine<br />
unerlaubten Symbole?<br />
b) Fehlen Daten? Hier muß überprüft werden, ob alle 'missings' genau gleich gekennzeichnet<br />
worden sind.<br />
c) Sind die erhobenen Zahlen im vorab definierten Bereich bzw. sind sie im plausiblen<br />
Bereich? Diese Frage kann auch später <strong>mit</strong> Hilfe des <strong>Statistik</strong>programms beantwortet<br />
werden.<br />
Die Sichtung auf Plausibilität ist eine wichtige Aufgabe. Denn Fehler, die bei der Dateneingabe<br />
gemacht worden sind, können das Ergebnis so stark verfälschen, daß statistische Auswertungen zu<br />
falschen Schlußfolgerungen führen können.<br />
Um die Daten in das <strong>Statistik</strong>programm 'R' einlesen zu können, werden sie als Textdatei im csv-<br />
15
Format gesichert. Andere Formate können freilich auch verwendet werden, sollen aber hier nicht<br />
angesprochen werden. Besondere Aufmerksamkeit sollte dem Symbol zufallen, durch das ganze<br />
Zahlen von Dezimalstellen getrennt werden. Im folgenden wird davon ausgegangen, daß im<br />
verwendetenTabellenverarbeitungsprogramm als Trennzeichen das Komma verwendet wird. Zudem<br />
ist zu berücksichtigen, welcher Feldtrenner verwendet wird; hier bietet sich die Möglichkeit des<br />
Tabulators, des Semikolons oder des Kommas an. Die verwendeten Standardeinstellungen<br />
unterscheiden sich von Programm zu Programm. Um Fehler zu vermeiden, sollten bei der<br />
praktischen Arbeit stets dieselben Programmpakete verwendet werden und umgekehrt: nach jedem<br />
Programm-, ja sogar Versionswechsel, sollte geprüft werden, ob die Grundeinstellungen gleich<br />
geblieben sind, um ggf. Anpassungen vornehmen zu können.<br />
B.3.2. Beispiel<br />
Hier sollen die Daten aus Medienmanagement genutzt werden.<br />
B.4. Daten in <strong>Statistik</strong>programm einlesen<br />
B.4.1. Grundlagen<br />
Um sicher zu sein, daß in 'R' keine Variablen aus vorherigen Sitzungen vorhanden sind, sollte<br />
der folgende Befehl genutzt werden:<br />
rm ( list=ls() ),<br />
wobei 'rm' für remove steht. Mit dem Befehl<br />
setwd("g:/Auswertung")<br />
wird das Arbeitsverzeichnis gewählt (setwd ist zu interpretieren als ‚set working directory’). In<br />
vorliegendem Fall befindet es sich im Laufwerk 'g' und Ordner 'Auswertung'. Dies bedeutet, daß<br />
ohne Pfadangabe das Programm stets auf das Laufwerk g in Verzeichnis 'Auswertung' auf Dateien<br />
zugreift.<br />
Der Befehl<br />
YX
Y X<br />
10,5 500<br />
12,9 550<br />
33,85 300<br />
Tabelle 1: Daten YX<br />
Werden diese <strong>mit</strong> Hilfe des folgenden Befehls<br />
YX is.list(Daten)<br />
[1] TRUE<br />
wird überprüft, ob es sich tatsächlich um einen Datensatz des Typs Liste handelt. In der zweiten<br />
Zeile ist das Ergebnis diese Abfrage angegeben. Im folgenden werden Konsequenzen eines<br />
falschen Einlesens der Daten skizziert. Wird statt des Befehls<br />
YX 10.5*2<br />
17
[1] 21<br />
Die Symbole zur Durchführung einfacher Rechenoperationen sind die gleichem wie in<br />
Tabellenverarbeitungprogrammen. Probieren Sie es einfach aus.<br />
Wird bei dem Einlesen der Daten statt ‘header=TRUE’ ‚ header=FALSE’ eingegeben, so werden<br />
Y und X nicht zur Kennzeichnung der Variablen, sondern als Teil des Datensatzes behandelt. ‚R’<br />
ordnet den Spalten automatisch die Namen V1 bzw. V2 zu. Bezeichnen Y und X jedoch die<br />
Variablen, so führt diese Dateneingabe zu falschen Ergebnissen (hier erscheinen zusätzlich auch<br />
noch die Kommata anstatt von Punkten).<br />
> YX YXIn<br />
V1 V2<br />
1 Y X<br />
2 10,5 500<br />
3 12,9 550<br />
4 33,85 300<br />
B.5. Plausibilitätsprüfung<br />
B.5.1. Theoretische Aspekte<br />
B.5.1.a. Grundlagen<br />
Bei Plausibilitätsprüfungen sind zwei Aspekte zu beachten. Erstens ist zu prüfen, ob im<br />
Hinblick auf die interessierende Fragestellung die Daten geeignet sind, auch wirklich eine Antwort<br />
auf die gestellte Frage zu geben. Zudem ist eine Überprüfung auf Konsistenz der Daten<br />
durchzuführen. Zweitens ist zu prüfen, ob die Ausprägungen in dem Wertebereich liegen, den wir<br />
aus theoretischen Überlegungen oder praktischer Erfahrung erwarten (statistischer Aspekt). Zur<br />
Veranschaulichung der Zusammenhänge dient der folgende Datensatz.<br />
Einkommen Alter Ausbildungsjahre<br />
2000 30 12<br />
2500 42 13<br />
2900 50 10<br />
3300 28 18<br />
Tabelle 3: Daten<br />
In der ersten Zeile befinden sich die Merkmalsausprägungen der ersten Person, in der zweiten<br />
Zeile die der zweiten usw. Diesem Datensatz liegt die Vorstellung zugrunde, daß Einkommen, Alter<br />
und Ausbildungsjahre irgend etwas <strong>mit</strong>einander zu tun haben. Wird beispielsweise vermutetet, daß<br />
die Entlohnung nach dem Ancienitätsprinzip erfolgt, das heißt, daß <strong>mit</strong> steigendem Alter ein<br />
höherer Stundenlohn gezahlt wird, so müßte <strong>mit</strong> höherem Alter ein höheres Einkommen erzielt<br />
werden.<br />
Der „Teufel“ steckt jedoch, wie so oft, im Detail. Dieser Zusammenhang gilt nur, wenn alle<br />
Personen unabhängig vom Alter dieselbe monatliche Anzahl an Arbeitsstunden arbeiten. Häufig<br />
weisen jedoch ältere Personen eine geringere monatliche Zahl an Arbeitsstunden (beispielsweise<br />
18
wegen Altersteilzeitarbeit) auf als jüngere. Aus dieser Perspektive betrachtet wäre es sinnvoll, statt<br />
dem Einkommen den Stundenlohn und die monatliche Arbeitszeit zu erheben. Folglich wäre dieser<br />
Aspekt bereits bei der Planung der Datenerhebung zu berücksichtigen.<br />
In der Praxis wird dies jedoch häufig nicht möglich sein, sei es, weil die Datenerhebung bereits<br />
abgeschlossen ist oder Sekundärdaten verwendet werden und die erforderlichen Daten nicht<br />
enthalten sind. Aus diesem Grund stellt sich die Frage, ob durch die Verwendung geeigneter<br />
statistischer Verfahren das Problem vielleicht nicht gelöst, wohl aber gemildert werden kann. So<br />
könnte die Analyse einmal <strong>mit</strong> Personen im Alter von 50 bis 58 Jahren und zudem <strong>mit</strong> dem<br />
gesamten Datensatz erfolgen, um einen Hinweis darauf zu bekommen, ob der vermutete Effekt<br />
überhaupt von Bedeutung ist.<br />
Eine Überprüfung auf Konsistenz hat sich an der interessieren Fragestellung zu orientieren. Es<br />
ist zu prüfen, ob sich die Befragten bei der Beantwortung von Fragen möglicherweise<br />
widersprechen. Sollte dies der Fall sein, so ist zu entscheiden, ob solch inkonsistente Datensätze<br />
entfernt werden.<br />
B.5.1.b. Beispiel<br />
Hier sollen die Daten aus Medienmanagement genutzt werden.<br />
B.5.2. Statistische Aspekte<br />
B.5.2.a. Einfache Datensätze<br />
Grundlagen<br />
In Tabelle 3 sind jeder Person mehrerer Merkmalsausprägungen zugeordnet. Analysiert man<br />
statistisch mehrere Merkmale, so spricht man von multivariater <strong>Statistik</strong>, wogegen statistische<br />
Verfahren, bei denen lediglich ein Merkmal analysiert wird, <strong>mit</strong> dem Wort univariat gekennzeichnet<br />
werden. Wird also beispielsweise das Minimum des Merkmals Einkommen bestimmt, so spricht<br />
man von univariater Datenanalyse. Bei Prüfung auf statistische Plausibilität ist es sinnvoll, für jede<br />
Variable zumindest das Minimum, das Maximum, das arithmetische Mittel und die Varianz zu<br />
bestimmen.<br />
Das arithmetische Mittel (mean) ist bei Verwendung von Rohdaten definiert als:<br />
x := 1<br />
n ∑ n<br />
x . i<br />
i=1<br />
x i ist die Ausprägung des kardinale Merkmals „Einkommen“ bei Personen i, wobei i ein<br />
Laufindex ist, der im vorliegenden Fall von 1 bis 4 geht, und n ist die Anzahl an Beobachtungen (n<br />
ist hier gleich vier). Diese Formel wird bei Rohdaten (Urliste) genutzt, d.h. wenn in jeder Zeile der<br />
verwendeten Liste exakt die Merkmalsausprägungen für eine Person stehen.<br />
Die Formel, die in ‚R’ <strong>mit</strong> ‚var(Daten$Einkommen)’ zur Berechnung der Varianz auf Basis von<br />
Rohdaten genutzt wird ist gleich<br />
Var x= <br />
2 = 2<br />
1<br />
:=<br />
X<br />
n<br />
n−1 ∑ i =0<br />
x i−x 2 .<br />
19
Diese Formel dient zur Berechnung der korrigierten Stichprobenvarianz. Mit ihr soll aufgrund von<br />
Daten aus einer Stichprobe eine „erwartungstreue“ Schätzung der „wahren“, aber unbekannten<br />
Varianz in der Grundgesamtheit berechnet werden. Erwartungstreu bedeutet, daß die Varianz der<br />
Grundgesamtheit ohne systematische Verzerrung (Bias) geschätzt wird.<br />
Zur Beschreibung der Streuung, ganz gleich ob in einer Grundgesamtheit oder Stichprobe, wird<br />
aber die empirische Varianz, d.h. die Formel<br />
s 2 2 1<br />
=s X :=<br />
n<br />
n ∑ i =1<br />
x i−x 2<br />
verwendet. Der Index i läuft von 1 bis n, wobei n die Anzahl an Beobachtungen ist.<br />
Bei der empirischen Varianz werden die quadrierten Abweichungen der Beobachtungen vom<br />
arithmetischen Mittel aufsummiert und <strong>mit</strong> dem Faktor 1<br />
n<br />
multipliziert. Die empirische Varianz<br />
unterscheidet sich von der korrigierten Stichprobenvarianz <br />
2<br />
nur durch den verwendeten<br />
Faktor. Wird die korrigierte Stichprobenvarianz <strong>mit</strong><br />
empirische Varianz.<br />
n−1<br />
n<br />
multipliziert, so erhält man die<br />
Beispiel<br />
Die Berechnungen erfolgen beispielhaft <strong>mit</strong> Hilfe der in Tabelle 3 angegebenen Daten. Der<br />
folgende Befehl<br />
> min(Daten)<br />
[1] 10<br />
liefert als Minimum 10 und<br />
> max(Daten)<br />
[1] 3300<br />
ergibt den Maximalwert von 3300. Mit anderen Worten werden das Minimum und das Maximum<br />
des gesamten Datensatzes bestimmt. In vorliegendem Fall ist dieses Vorgehen zur Prüfung auf<br />
Plausibilität nicht angebracht. Stattdessen wäre zu prüfen, ob die Einkommen alle größer als 0 und<br />
nicht zu hoch, das Alter größer oder gleich 14 aber kleiner als 120 und die Ausbildungsjahre<br />
größer oder gleich 0 und nicht zu hoch sind. Denn bereits <strong>mit</strong> 14 könnte eine Person eigenständiges<br />
Einkommen erzielen. Ganz ausgeschlossen ist es allerdings nicht, daß eine Person unter 14 Jahren<br />
eigenes Einkommen aus beispielsweise eigenem Vermögen bezieht. Dies wäre jedoch sicher ein<br />
Sonderfall (Ausreißer) und es wäre im Hinblick auf die interessierende Fragestellung zu<br />
überlegen, ob dieser statistische Ausreißer überhaupt in die Untersuchung aufgenommen werden<br />
sollte.<br />
Die Variable Einkommen kann über folgenden Befehl angesprochen werden:<br />
> Daten$Einkommen<br />
[1] 2000 2500 2900 3300<br />
In der zweiten Zeile ist der erste Spaltenvektor (ja, Spaltenvektor ist richtig) der Liste ‚Daten’<br />
angegeben. Man beachte: obwohl die Anzeige in einer Zeile erfolgt, behandelt ‚R’<br />
Daten$Einkommen als Spaltenvektor. Als Ergebnis für das Minimum, das Maximum, das<br />
arithmetische Mittel und die Varianz liefert das <strong>Statistik</strong>programm folgende Anzeige.<br />
> min(Daten$Einkommen)<br />
20
[1] 2000<br />
> max(Daten$Einkommen)<br />
[1] 3300<br />
> mean(Daten$Einkommen)<br />
[1] 2675<br />
> var(Daten$Einkommen)<br />
[1] 309166.7<br />
Welche Varianz wird hier geschätzt? Ist sinnvoll? i<br />
B.5.2.b. Komplexe Datensätze<br />
Grundlagen<br />
In der Praxis sind Datensätze gewöhnlich mehrdimensional, wobei die Merkmale nicht alle<br />
gleichen Typs sind. In der nachfolgenden Tabelle „kleben“ fünf Merkmale an jeder Person. Bei<br />
dem Geschlecht handelt sich um eine nominal meßbare Größe, das heißt, dieses Merkmal zeigt nur<br />
Gleichheit oder Verschiedenartigkeit an. Es gibt an, ob eine Person oder Objekt im Hinblick auf<br />
einen bestimmten Aspekt gleich oder verschieden ist.<br />
Einkommen Alter Ausbildungsjahre Geschlecht Unternehmensgröße<br />
1000 30 12M K<br />
2500 42 13M K<br />
2900 50 10M G<br />
3300 28 18M G<br />
1500 30 12W K<br />
1900 42 13W M<br />
2111 50 10W M<br />
2700 28 18W M<br />
2900 50 10M g<br />
2111 50 10W m<br />
2000 30 12M m<br />
2000 30 12M m<br />
1900 42 13W k<br />
Tabelle 4: Daten2<br />
In der letzten Spalte ist die Unternehmensgröße abgetragen. Die Merkmalsausprägungen sind<br />
‚K’ für Kleinunternehmen, ‚M’ für <strong>mit</strong>telgroße Unternehmen und ‚G’ für Großunternehmen. Dieses<br />
Merkmal ist ein Beispiel für eine ordinale Größe. Solche Merkmale geben zusätzlich zu den<br />
Informationen eines nominalen Merkmals Auskunft über eine Reihenfolge. Streng genommen sind<br />
die hier gemachten Angaben zur Unternehmensgröße unvollständig. Denn es fehlt die exakte<br />
Definition dessen, <strong>mit</strong> Hilfe welcher Kriterien Unternehmen in große, <strong>mit</strong>tlere und kleine<br />
Unternehmen eingeteilt worden sind.<br />
So könnte beispielsweise eine Einteilung allein aufgrund der Anzahl an Beschäftigten erfolgen<br />
Alternativ hierzu wäre eine Gruppenbildung <strong>mit</strong> Hilfe zweier Merkmale, z. B. Anzahl an<br />
Beschäftigten und Umsatz, möglich. Bei einer großen Anzahl an Unternehmen und mehreren<br />
Gruppierungsmerkmalen ist eine solche Einteilung selbst <strong>mit</strong> Hilfe eines<br />
Tabellenverarbeitungprogramms sehr aufwendig. Die <strong>Statistik</strong> hat zwei Verfahren, die<br />
21
Diskriminanz- und Clusteranalyse, entwickelt, die die Bewältigung solcher Aufgaben erleichtern.<br />
Einkommen, Alter und Ausbildungsjahre sind Beispiele für kardinale Merkmale. Sie liefern<br />
dieselben Informationen wie nominale und ordinale Merkmale; darüber hinaus sind Differenzen<br />
zwischen Merkmalsausprägungen sinnvoll interpretierbar. Aus diesem Grund müssen kardinale<br />
Merkmale zahlenmäßig ausgedrückt werden. Sie werden zudem unterteilt in verhältnis- und<br />
intervallskalierte Merkmale. Bei ersteren gibt es einen sachlogischen absoluten Nullpunkt und es<br />
lassen sich sinnvoll Quotienten aus verschiedenen Merkmalsausprägungen bilden. Bei letzteren ist<br />
dies nicht möglich. Hier können nur Differenzen zwischen Merkmalsausprägungen sinnvoll<br />
interpretiert werden.<br />
Kardinale Merkmale müssen zwar in Zahlen ausgedrückt werden, doch der Umkehrschluß gilt<br />
nicht. Man hüte man sich davor, aus der Tatsache, daß alle Merkmalsausprägungen irgendeines<br />
Merkmals Zahlen sind, darauf zu schließen, daß es sich um ein kardinales Merkmal handelt. Die<br />
Merkmalsausprägungen des Merkmals Geschlecht können zum Beispiel sein ‚m’ und ‚w’, aber<br />
genauso gut könnte verwendet werden ‚1’ und ‚2’. Bei der Signierung des Geschlechts <strong>mit</strong> ‚1’ und<br />
‚2’ kann man zwar prinzipiell das arithmetische Mittel berechnen, doch das so erhaltene Ergebnis<br />
ist nicht interpretierbar. Signiert man jedoch männlich <strong>mit</strong> ‚0’ und weiblich <strong>mit</strong> ‚1’ und berechnet<br />
jetzt das arithmetische Mittel, so gibt es den Anteil der Frauen an.<br />
Beispiel<br />
Bei der Überprüfung auf statistische Plausibilität fällt nominalen und ordinalen Merkmalen die<br />
Aufgabe zu, den Datensatz sinnvoll in Gruppen einzuteilen, um sich einen ersten Überblick über<br />
die Daten zu verschaffen. Man beachte jedoch, daß zuvor das Programmpaket „doBy“ geladen<br />
werden muß. Mit dem folgenden Befehl (siehe unsere Tabelle) wird das Minimum und Maximum,<br />
der Mittelwert, die Varianz sowie die Anzahl an Beobachtungen des Merkmals Einkommen<br />
berechnet. Diese Größen werden im vorliegenden Fall geschlechtsspezifisch ausgewiesen. Der<br />
Befehl ‚data=Daten2’ bestimmt, daß die Daten, abgelegt unter dem Namen ‚Daten2’, verwendet<br />
werden. Dies hat auch zur Folge, daß die Merkmale durch ihren Namen (in vorliegenden Fall<br />
Einkommen und Geschlecht) und nicht durch voranstellen des relevanten Datensatzes (wie oben<br />
„Daten2$Einkommen“) angesprochen werden müssen.<br />
> summaryBy(Einkommen ~ Geschlecht, data=Daten2, FUN=c(min, max, mean,var,length))<br />
Geschlecht Einkommen.min Einkommen.max Einkommen.mean Einkommen.var<br />
Einkommen.length<br />
1 m 1000 3300 2371.429 599047.6 7<br />
2 w 1500 2700 2037.000 155285.6 6<br />
Soll Minimum und Maximum jeweils für Einkommen und Alter geschlechtsspezifisch<br />
ausgerechnet werden, so führt folgender Befehl zum Ziel.<br />
> summaryBy(Einkommen+Alter ~ Geschlecht, data=Daten2, FUN=c(min, max))<br />
Geschlecht Einkommen.min Alter.min Einkommen.max Alter.max<br />
1 m 1000 28 3300 50<br />
2 w 1500 28 2700 50<br />
Wenn der Mittelwert von Einkommen und Alter gegliedert nach Geschlecht und Betriebsgröße<br />
berechnet werden soll, dann gebe folgenden Befehl ein.<br />
> summaryBy(Einkommen+Alter ~ Geschlecht+Betriebsgröße, data=Daten2, FUN=c(mean))<br />
Geschlecht Betriebsgröße Einkommen.mean Alter.mean<br />
1 m g 3033.333 42.66667<br />
2 m k 1750.000 36.00000<br />
3 m m 2000.000 30.00000<br />
4 w k 1700.000 36.00000<br />
22
5 w m 2205.500 42.50000<br />
23
B.6. Kontrollfragen<br />
1. Erläutern Sie die Begriffe Deduktion und Induktion.<br />
2. Wie ruft man in 'R' Hilfeseiten auf?<br />
3. Es findet sich innerhalb der geladenen Programmpakete keine Hilfeseite. Was können Sie tun?<br />
4. Was bewirkt folgender Befehl:<br />
rm ( list=ls() )?<br />
5. Erläutern Sie folgende Anweisung: setwd("g:/Auswertung").<br />
6. Bei folgender Anweisung hat sich ein Fehler eingeschlichen: YX
B.7. Aufgaben<br />
1. Nutze die Daten aus Tabelle 4 und<br />
1. berechne von jeder Variable das arithmetische Mittel. Geht das?<br />
2. Ziehe zweitens von jedem Einkommen das arithmetische Mittel des Einkommens ab und<br />
bilde von den so gebildeten neuen Einkommen das arithmetische Mittel.<br />
3. Erhöhe schließlich alle Einkommen um 100 Euro und verdopple das Alter. Berechnen aus den<br />
so modifizierten Daten das arithmetische Mittel des Einkommens bzw des Alters.<br />
25
C. Datenaufbereitung<br />
C.1. Häufigkeitsverteilung<br />
C.1.1. Absolute Häufigkeitsverteilung<br />
C.1.1.a. Grundlagen<br />
Daten werden aufbereitet, um sich einen ersten Überblick zu verschaffen. Sie dient der<br />
Plausibilitätsprüfung und der Entscheidungsvorbereitung, ob aufgrund der Beschreibung des<br />
Datensatzes bereits Entscheidungen getroffen werden können oder nicht. In letzterem Fall stellt<br />
sich die Frage, ob die Daten adäquat sind oder nicht. Sind sie nicht adäquat, so ist zu überlegen, ob<br />
neue Daten erhoben werden sollten oder nicht. Sollten sie im Hinblick auf die interessierende<br />
Fragestellung als adäquat beurteilt werden, so stellt sich die Frage, wie die Daten ausgewertet<br />
werden sollten.<br />
In der betrieblichen Praxis genügt häufig eine adäquate Beschreibung (auch bekannt als<br />
deskriptive <strong>Statistik</strong>) der vorliegenden Daten zur Entscheidungsvorbereitung. Ganz gleich, ob eine<br />
Vollerhebung oder Teilerhebung vorliegt, ergibt sich die Aufgabe, sie aufzubereiten. Dabei geht es<br />
ausschließlich um die Beschreibung der vorliegenden Daten, ohne etwas erklären zu wollen. Bei<br />
Stichproben etwa ist nicht das Ziel, auf die Situation in der Grundgesamtheit zu schließen. Dies ist<br />
Aufgabe der schließenden <strong>Statistik</strong>.<br />
Nach Abschluß der Datenerhebung liegen Rohdaten vor, d. h., daß jeder Person (oder sonstigem<br />
interessierenden Objekt) eine oder mehrere Merkmalsausprägungen zugeordnet sind. Tabelle 4 ist<br />
ein Beispiel für einen Rohdatensatz. Rohdaten geben uns aber wenig Auskunft: der<br />
Informationsgehalt ist zwar hoch, aber wir können diese Informationen <strong>mit</strong> unserem Gehirn nicht<br />
sinnvoll verarbeiten. Aus diesem Grund ist der <strong>Statistik</strong>er bemüht, die Merkmalsausprägungen in<br />
geeigneter Weise zusammenzufassen. Die wichtigsten Verfahren sind die absolute und relative<br />
Häufigkeitsverteilung, die Verteilungsfunktion, sowie bei gruppierten Daten Histogramme, bei zwei<br />
Merkmalen die Kontingenztabelle sowie die Lorenz-Kurve zur Darstellung von Konzentration. Bei<br />
der absoluten Häufigkeitsverteilung wird jeder Merkmalsausprägung die absolute Häufigkeit<br />
zugeordnet, <strong>mit</strong> der sie vorkommt.<br />
C.1.1.b. Beispiel<br />
Mit 'R' können absolute Häufigkeiten über den Befehl 'table' bestimmt werden. Auf Grundlage<br />
der Rohdaten in Tabelle 4 wurden die absoluten Häufigkeiten für alle Merkmale bestimmt. In der<br />
ersten Zeile befinden sich die Merkmalsausprägungen und in der zweiten die absoluten<br />
Häufigkeiten ihres Vorkommens.<br />
> table(Daten2$Einkommen)<br />
1000 1500 1900 2000 2111 2500 2700 2900 3300<br />
1 1 2 2 2 1 1 2 1<br />
> table(Daten2$Alter)<br />
28 30 42 50<br />
2 4 3 4<br />
> table(Daten2$Ausbildungsjahre)<br />
26
10 12 13 18<br />
4 4 3 2<br />
> table(Daten2$Geschlecht)<br />
m w<br />
7 6<br />
> table(Daten2$Betriebsgröße)<br />
g k m<br />
3 4 6<br />
C.1.1.c. Maßzahlen<br />
Arithmetisches Mittel<br />
Wird auf der Basis absoluter Häufigkeiten das arithmetische Mittel berechnet, so ist folgende<br />
Formel zu verwenden<br />
x := 1<br />
n ∑ k<br />
n i⋅x i .<br />
i = 1<br />
x i bezeichnet die Ausprägung des interessierenden Merkmals, n i ist die absolute Häufigkeit<br />
und k die Anzahl unterschiedlicher Beobachtungen.<br />
Empirische Varianz<br />
Sie ist definiert als<br />
s 2 2 1<br />
=s X :=<br />
n ∑ n<br />
n i x i−x i = 1<br />
2<br />
.<br />
Welcher Datensatz muß folglich bei Anwendung dieser Formeln verwendet werden? ii Die Varianz<br />
ist ein Streuungsmaß, das heißt, sie gibt das Ausmaß an, indem die Beobachtungen in der<br />
Grundgesamtheit (bei einer Vollerhebung) bzw. einer Stichprobe herumvagabundieren. Ist die<br />
Varianz sehr groß, so liegen die Beobachtungen weit verstreut um das arithmetische Mittel herum.<br />
Je kleiner die Varianz wird, desto näher liegen die Beobachtungen um den Mittelwert herum. Ist die<br />
Varianz gleich 0, dann haben alle Beobachtungen exakt denselben Wert.<br />
Beispiel<br />
Wird auf der Basis der absoluten Häufigkeitsverteilung das arithmetische Mittel berechnet, so<br />
ergeben sich selbstverständlich dieselben Ergebnisse wie bei Berechnung auf der Basis von<br />
Rohdaten. Probieren Sie es zu Übungszwecken anhand einfacher Beispiele aus. Die Berechnung<br />
der empirischen Varianz kann in 'R' über die korrigierte Stichprobenvarianz erfolgen. Ausgegangen<br />
wird von dem Datensatz 3 <strong>mit</strong> den Variablen Einkommen, Alter, Bildungsjahre. Um zur<br />
(empirischen) Varianz zu gelangen, <strong>mit</strong> der die Varianz in der Grundgesamtheit berechnet wird, ist<br />
in ‚R’<br />
>(n-1) * var(Daten$Einkommen) /n<br />
bzw. in unserem speziellen Fall<br />
> (4-1)* var(Daten$Einkommen) /4<br />
27
[1] 231875<br />
einzugeben.<br />
C.1.1.d. Graphische Veranschaulichung<br />
Der Befehl<br />
> table(Daten2$Einkommen)<br />
gibt die absolute Häufigkeitsverteilung nur temporär an. Soll im weiteren Verlauf einer statistischen<br />
Auswertung auf die absolute Häufigkeit Bezug genommen werden, so kann man durch Zuweisung<br />
eines Variablennamens das Ergebnis permanent machen. Beispielsweise unter Verwendung von<br />
Daten2 durch folgende Befehl.<br />
>absoluteHäufigkeit absoluteHäufigkeit<br />
liefert als Ergebnis:<br />
1000 1500 1900 2000 2111 2500 2700 2900 3300<br />
1 1 2 2 2 1 1 2 1<br />
Durch die Anweisung<br />
> plot(absoluteHäufigkeit)<br />
erzeugt 'R' folgende Abbildung.<br />
Abbildung 2: Graphische Veranschaulichung der absoluten Häufigkeit<br />
28
An der Abszisse sind die Merkmalsausprägungen abgetragen und an der Ordinate die zugehörigen<br />
absoluten Häufigkeiten. Durch<br />
> plot(absoluteHäufigkeit, xlab = "Einkommen")<br />
wird die Abszisse <strong>mit</strong> „Einkommen“ beschriftet.<br />
C.1.2. Relative Häufigkeitsverteilung<br />
C.1.2.a. Grundlagen<br />
Werden die absoluten Häufigkeiten durch die Anzahl an Beobachtungen dividiert, so erhält man<br />
die relative Häufigkeiten. Bei der relativen Häufigkeitsverteilung werden in der ersten Zeile die<br />
Merkmalsausprägungen und in der zweiten die zugehörigen relative Häufigkeiten angegeben.<br />
Die relative Häufigkeitsverteilung kann auch als Funktion geschrieben werden:<br />
h x ={ h i für x =x i<br />
0 sonst }<br />
C.1.2.b. Beispiel<br />
Das Beispiel von S. 27 wird fortgeführt. Der Befehl<br />
> sum(absoluteHäufigkeit)<br />
[1] 13<br />
gibt die Anzahl der Beobachtungen, n, an. Die zuvor definierte Variable „absoluteHäufigkeit“ wird<br />
abgeändert zu<br />
> absoluteHäufigkeit/sum(absoluteHäufigkeit)<br />
1000 1500 1900 2000 2111 2500 2700 2900 3300<br />
0.07692308 0.07692308 0.15384615 0.15384615 0.15384615 0.07692308 0.07692308 0.15384615<br />
0.07692308<br />
und liefert dann die relative Häufigkeitsverteilung. Folgende Anweisung<br />
> relativeHäufigkeit sum(relativeHäufigkeit)<br />
[1] 1<br />
Als Häufigkeitsfunktion geschrieben erhält man:<br />
29
0.07692308<br />
0.15384615<br />
0.15384615<br />
0.15384615<br />
h x ={0.07692308<br />
0.07692308<br />
0.07692308<br />
0.15384615<br />
0.07692308<br />
für 1000<br />
für 1500<br />
für 1900<br />
für 2000<br />
für 2111<br />
für 2500<br />
für 2700<br />
für 2900<br />
für 3300}<br />
0 sonst<br />
C.1.2.c. Maßzahlen<br />
Arithmetisches Mittel<br />
Auf Grundlage der relativen Häufigkeitsverteilung errechnet sich das arithmetische Mittel über<br />
k<br />
x :=∑ h i⋅x i , <strong>mit</strong> h i :=n i /n ,<br />
i= 1<br />
wobei h i für relative Häufigkeit steht, n i die absolute Häufigkeit des Vorkommens des<br />
Merkmals i angibt, k die Anzahl unterschiedlicher Merkmalsausprägungen kennzeichnet.<br />
Empirische Varianz<br />
Mit der relative Häufigkeitsverteilung läßt sich ebenfalls die empirische Varianz berechnen:<br />
s 2 2<br />
=s X :=∑<br />
i = 1<br />
k<br />
h i x i −x 2<br />
,<br />
wobei die Variablen genauso definiert sind wie oben beim arithmetischen Mittel.<br />
Quantile<br />
Ein Quantil splittet einen Datensatz in zwei Teilbereiche auf. Angenommen, es wird das 0,25-<br />
Quantil gesucht, so ist die Ausprägung xi gesucht, bei der 25 Prozent der Ausprägungen kleiner<br />
oder gleich xi und 75 Prozent der Ausprägungen größer oder gleich xi sind. Das 0,25-Quantil heißt<br />
auch unteres Quartil, das 0,75-Quantil oberes Quartil und das 0,5-Quantil wird Median genannt.<br />
Beispiel<br />
Berechnet man auf Grundlage von Daten2 das arithmetische Mittel und die empirische Varianz<br />
<strong>mit</strong> Hilfe der relativen Häufigkeitsverteilung, so erhält man selbstverständlich dieselben Ergebnisse<br />
wie im Kapitel Absolute Häufigkeitsverteilung.<br />
Der Befehl „quantile(x)“ führt zu dem Ergebnis<br />
> quantile(Daten2$Einkommen)<br />
0% 25% 50% 75% 100%<br />
1000 1900 2111 2700 3300<br />
Dies bedeutet, daß 25 Prozent aller Ausprägungen kleiner oder gleich 1900 und 75 Prozent größer<br />
30
oder gleich 1900 sind.<br />
Alternativ hierzu kann der Median auch <strong>mit</strong> dem Befehl<br />
> median(Daten2$Einkommen, na.rm = FALSE)<br />
[1] 2111<br />
er<strong>mit</strong>telt werden.<br />
C.1.2.d. Graphische Veranschaulichung<br />
Der Befehl<br />
> plot(relativeHäufigkeit, xlab = "Einkommen",ylab="relative Häufigkeit")<br />
öffnet ein neues Fenster <strong>mit</strong> folgender Graphik. An der Waagerechten sind die<br />
Merkmalsausprägungen und an der Senkrechten die relativen Häufigkeiten abgetragen.<br />
Abbildung 3: Graphische Veranschaulichung der relativen Häufigkeiten<br />
C.2. Verteilungsfunktion<br />
C.2.1. Grundlagen<br />
Die empirische Verteilungsfunktion ist definiert als<br />
H x := ∑ x i x<br />
h x i ,<br />
<strong>mit</strong> relativer Häufigkeit h x i . Das bedeutet, daß an jeder Stelle, an der x =x i , H x i um<br />
den Wert h x i steigt. Dies führt dazu, daß man an solchen Sprungstellen dem Wert H x i<br />
31
von links nicht beliebig nahe kommen kann, man sagt, daß die Funktion linksseitig nicht stetig ist.<br />
Von rechts aber kann man einer Sprungstelle beliebig nahe kommen, sie ist also rechtsstetig.<br />
Diese Art der Darstellung kann bei Vollerhebungen wie Teilerhebungen eingesetzt werden. Sie<br />
dient lediglich der Beschreibung der vorliegenden Daten. Liegt eine Teilerhebung vor, so ist bei der<br />
Interpretation allerdings Vorsicht geboten: es kann nicht einfach von der Teilerhebung auf die<br />
Grundgesamtheit geschlossen werden. Wurden beispielsweise bei der Datenerhebung systematisch<br />
Fehler gemacht, so wird sich dies in einem Bias, einer systematischen Verzerrung, in der<br />
Teilerhebung niederschlagen. Zudem hat die Art und Weise der Datenerhebung ceteris paribus<br />
systematischen Einfluß auf die Verteilung. Zusammenhänge dieser Art werden bei der<br />
Datenaufbereitung ausgeblendet.<br />
C.2.2. Beispiel<br />
Lade zuerst das Paket QRMlib, um die Funktion „edf“ (empirical distribution function)<br />
verfügbar zu machen. Durch Eingabe von<br />
> Eink Eink<br />
[1] 1000 1500 1900 1900 2000 2000 2111 2111 2500 2700 2900 2900 3300<br />
das Ergebnis angezeigt. Die Zeile<br />
> edf(Eink)<br />
[1] 0.07692308 0.15384615 0.30769231 0.30769231 0.46153846 0.46153846 0.61538462<br />
0.61538462 0.69230769 0.76923077<br />
[11] 0.92307692 0.92307692 1.00000000<br />
führt schließlich zur Ausgabe der empirischen Verteilungsfunktion, wobei freilich nur die<br />
kumulierten relativen Häufigkeiten abgetragen werden. Welche Angabe fehlt? 3<br />
C.2.3. Graphische Veranschaulichung<br />
Durch<br />
> c(500, Eink, 3500)<br />
[1] 500 1000 1500 1900 1900 2000 2000 2111 2111 2500 2700 2900 2900 3300 3500<br />
wird (auch wenn die Anzeige in einer Zeile erfolgt, um Platz zu sparen) ein Spaltenvektor erzeugt.<br />
1<br />
Versuchen Sie es selbst und erzeugen Sie den Spaltenvektor<br />
2<br />
3<br />
4<br />
. iii Eingabe von<br />
> plot(c(500, Eink, 3500), c(0,edf(Eink),1),xlab = "Einkommen", ylab =<br />
"H(Einkommen)",type="s")<br />
öffnet die folgende Graphik in einem neuen Fenster. Der Eintrag „c(500, Eink, 3500)“ gibt die<br />
Werte an, die an der Abszisse abgetragen werden und „c(0,edf(Eink),1)“ die Werte der Ordinate an.<br />
Der Befehl „type=“s“ weist das Programm an, eine Treppenfunktion zu zeichnen. Man erkennt,<br />
daß die Funktion treppenförmig von links nach rechts steigend verläuft: sie beginnt bei x-Werten<br />
3 Es fehlen die zugehörigen Sprungstellen x i .<br />
32
von −∞ bei Null, steigt dann in Stufen an und erreicht bei ∞ die Eins. Aus der Graphik geht<br />
allerdings nicht hervor, daß sie an Sprungstellen zwar rechts-, aber nicht linksseitig stetig ist.<br />
Markiere in der empirischen Verteilungsfunktion der Abbildung 4 die Sprungstellen x i und<br />
kennzeichne den zugehörigen Wert H x i , der rechtsseitig stetig ist durch einen schwarzen<br />
Punkt und markiere die Unstetigkeitsstelle durch einen Kreis. iv<br />
Abbildung 4: Graphische Veranschaulichung der empirischen Verteilungsfunktion<br />
C.3. Histogramme<br />
C.3.1. Absolute Häufigkeit<br />
C.3.1.a. Grundlagen<br />
Häufig kommt es vor, daß bei Erhebungen keine exakten Angaben erhoben werden, sondern der<br />
Befragte sich für eine Gruppe entscheiden soll. Zum Beispiel kann es sein, daß nicht das exakte<br />
monatliche Einkommen des letzten Monats, sondern das monatliche Einkommen, das<br />
durchschnittlich im Verlauf eines Jahres erzielt wird, abgefragt wird. Solche Daten können<br />
graphisch durch Histogramme veranschaulicht werden. Auf der Abszisse werden dann die<br />
Klassengrenzen und an der Ordinate entweder die absolute Klassenhäufigkeit oder die<br />
durchschnittliche Häufigkeitsdichte h x angegeben.<br />
C.3.1.b. Beispiel<br />
Durch<br />
> hist(Daten2$Einkommen, main="Histogramm", xlab="Einkommen", ylab="absolute<br />
33
Häufigkeit")<br />
wird ein Histogramm <strong>mit</strong> dem Datensatz „Daten2“ und Spalte Einkommen gezeichnet. Zusätzlich<br />
wurden Befehle angegeben, <strong>mit</strong> Hilfe derer ein Titel und die Achsenbezeichnungen eingetragen<br />
werden können.<br />
Abbildung 5: Histogramm <strong>mit</strong> absoluten Häufigkeiten<br />
Die Interpretation dieses Histogramms fällt leichter, wenn man die Rohdaten der Größe nach<br />
sortiert.<br />
> sort(Daten2$Einkommen)<br />
[1] 1000 1500 1900 1900 2000 2000 2111 2111 2500 2700 2900 2900 3300<br />
An der Abszisse sind die Klassengrenzen eingetragen, sie werden in vorliegendem Fall durch das<br />
Programm selbsttätig erzeugt. An der Ordinate ist die absolute Häufigkeit der Beobachtungen<br />
abgetragen, die in die Klasse fällt. Ist eine Ausprägung identisch gleich der Klassenobergrenze, so<br />
wird sie der unteren Klasse zugeordnet. Beispielsweise fallen in das zweite Intervall die<br />
Ausprägungen „1900, 1900, 2000, 2000“, weshalb an der Ordinate die absolute Häufigkeit „4“<br />
abgetragen ist; die Ausprägung „1500“ ist der ersten Klasse zugeordnet.<br />
C.3.2. Durchschnittliche Häufigkeitsdichte<br />
C.3.2.a. Grundlagen<br />
Aus den absoluten Häufigkeiten jeder Klasse lassen sich die relativen Klassenhäufigkeiten<br />
berechnen, indem erstere durch die Anzahl an Beobachtungen, n, dividiert werden. Teilt man nun<br />
die relative Klassehäufigkeit von Klasse j durch die zugehörige Klassebreite, so erhält man die<br />
durchschnittliche Häufigkeitsdichte. Sie gibt an, <strong>mit</strong> welcher relativen Häufigkeit<br />
Merkmalsausprägungen in dieser Klasse vorkommen.<br />
34
Werden an der Abszisse die Klassenbreiten und der Ordinate die jeweilige durchschnittliche<br />
Häufigkeitsdichte abgetragen, so erhalten wir eine Abbildung, die als Histogramm <strong>mit</strong><br />
durchschnittlicher Häufigkeitsdichte oder einfach als Histogramm bekannt ist. Durch diese<br />
Darstellungsform wird kenntlich gemacht, wie viele Beobachtungen durchschnittlich in Klasse j zu<br />
liegen kommen, die genaue Verteilung innerhalb der einzelnen Klassen ist nicht ersichtlich.<br />
C.3.2.b. Beispiel<br />
Die Anweisung<br />
> hist(Daten2$Einkommen, plot=FALSE)<br />
führt zu folgender Anzeige. In der zweiten Zeile sind die Klassengrenzen angegeben und in der<br />
vierten Zeile die jeweiligen absoluten Klassenhäufigkeiten. Die Klassenbreiten sind über alle<br />
Klassen hinweg identisch gleich 500, sie sind äquidistant. Division der absoluten<br />
Klassenhäufigkeiten durch die Anzahl an Beobachtungen in Höhe von n=13 ergibt die relativen<br />
Klassenhäufigkeiten, die hier nicht angegeben sind. Die durchschnittlichen Häufigkeitsdichten sind<br />
nach der <strong>mit</strong> „$density“ gekennzeichneten Zeile abgetragen.<br />
$breaks<br />
[1] 1000 1500 2000 2500 3000 3500<br />
$counts<br />
[1] 2 4 3 3 1<br />
$intensities<br />
[1] 0.0003076922 0.0006153846 0.0004615385 0.0004615385 0.0001538462<br />
$density<br />
[1] 0.0003076922 0.0006153846 0.0004615385 0.0004615385 0.0001538462<br />
$mids<br />
[1] 1250 1750 2250 2750 3250<br />
$xname<br />
[1] "Daten2$Einkommen"<br />
$equidist<br />
[1] TRUE<br />
attr(,"class")<br />
[1] "histogram"<br />
Zur Erzeugung des Histogramms <strong>mit</strong> durchschnittlicher Häufigkeitsdichte ist nachfolgender<br />
Befehl nötig.<br />
> hist(Daten2$Einkommen, main="Histogramm", xlab="Einkommen",<br />
ylab="durchschnittliche Häufigkeitsdichte", freq=FALSE)<br />
35
Abbildung 6: Histogramm <strong>mit</strong> durchschnittlicher Häufigkeitsdichte<br />
An der Ordinate ist die durchschnittliche Häufigkeitsdichte der ersten Klasse <strong>mit</strong> 0,0003<br />
angegeben, das heißt, die durchschnittliche relative Häufigkeit, <strong>mit</strong> der in dieser Klasse<br />
Beobachtungen vorgefunden werden beträgt 2/13/500=2/13∗500 =0,0003076923≃0,0003 .<br />
Um zu der relativen Häufigkeit an Beobachtungen in dieser Klasse zu gelangen, ist die<br />
durchschnittliche Häufigkeitsdichte <strong>mit</strong> der zugehörigen Klassenbreite von fünfhundert (= 1500-<br />
1000) malzunehmen. Mit anderen Worten gibt die Fläche die relative Häufigkeit der Besetzung<br />
einer Klasse <strong>mit</strong> Beobachtungen an.<br />
C.4. Kontingenztabelle<br />
C.4.1. Gemeinsame Verteilung<br />
C.4.1.a. Grundlagen<br />
„Kleben“ an einer statistischen Einheit (bspw. einer Person) zwei Merkmale, so kann man die<br />
gemeinsame Verteilung beider Variablen in einer Kontingenztabelle (gelegentlich auch<br />
Korrelationstabelle genannt) darstellen. n ij soll die absolute Häufigkeit der<br />
Merkmalskombination angeben, <strong>mit</strong> der Merkmal x Ausprägung x i und Merkmal y<br />
Ausprägung y j aufweist. n 12 kennzeichnet dann beispielsweise die absolute Häufigkeit des<br />
Auftretens der Kombination x 1 und y 2 . Eine vier mal drei Kontigenztabelle hat folgende<br />
Gestalt.<br />
y1 y2 y3<br />
x1 n11 n12 n13<br />
36
y1 y2 y3<br />
x2 n21 n22 n23<br />
x3 n31 n32 n33<br />
x4 n41 n42 n43<br />
Tabelle 5: Gemeinsame Verteilung dargestellt in einer Kontingenztabelle<br />
In der waagerechten Tabellenüberschrift wird die Variable y <strong>mit</strong> den Ausprägungen y j und in der<br />
senkrechten die Variable x <strong>mit</strong> Ausprägungungen x i abgetragen. Alternativ zu dieser<br />
Darstellungsform können statt der absoluten Häufigkeiten die relativen Häufigkeiten genutzt<br />
werden.<br />
C.4.1.b. Beispiel<br />
Mit den Rohdaten in Tabelle 4 kann anhand der Merkmale Geschlecht und Betriebsgröße eine<br />
Kontingenztabelle erzeugt werden. In der ersten Zeile stehen die Merkmalsausprägungen des<br />
Merkmals „Betriebsgröße“ und in der ersten Spalte die des Geschlechtes.<br />
> table(Daten2$Geschlecht,Daten2$Betriebsgröße)<br />
g k m<br />
m 3 2 2<br />
w 0 2 4<br />
Zur Berechnung der Anzahl an Beobachtungen, n, führt:<br />
> sum(table(Daten2$Geschlecht,Daten2$Betriebsgröße))<br />
[1] 13<br />
Division der obigen Kontingenztabelle durch die Anzahl an Beobachtungen, n, führt zu einer<br />
Kontingenztabelle <strong>mit</strong> relativen Häufigkeiten.<br />
><br />
table(Daten2$Geschlecht,Daten2$Betriebsgröße)/sum(table(Daten2$Geschlecht,Daten2$Betri<br />
ebsgröße))<br />
g k m<br />
m 0.2307692 0.1538462 0.1538462<br />
w 0.0000000 0.1538462 0.3076923<br />
Die Summe aller relativen Häufigkeiten muß selbstverständlich wieder 1 ergeben.<br />
><br />
sum(table(Daten2$Geschlecht,Daten2$Betriebsgröße)/sum(table(Daten2$Geschlecht,Daten2$<br />
Betriebsgröße)))<br />
[1] 1<br />
C.4.2. Randverteilungen<br />
C.4.2.a. Grundlagen<br />
Summiert man in Tabelle 5 alle absoluten Häufigkeiten einer Zeile auf, so erhält man die<br />
37
absolute Häufigkeit der Merkmalsausprägung x i • . Der Punkt in x i • deutet an, daß bei<br />
gegebenem i über aller Ausprägungen des Merkmals y aufsummiert wird. Addition aller absoluten<br />
Häufigkeiten der Spalte j ergibt die absolute Häufigkeit der Merkmalsausprägung y • j . Mit<br />
anderen Worten steht in der letzten Spalte die absolute Häufigkeitsverteilung des Merkmals x und<br />
in der untersten Zeile jene des Merkmals y. Sind in der Kontingenztabelle relative Häufigkeiten<br />
abgetragen und errechnet man die Randverteilungen, so erhält man die relativen<br />
Häufigkeitsverteilungen des Merkmals x bzw. y.<br />
y1 y2 y3 Randverteilung<br />
x1 n11 n12 n13 n1•<br />
x2 n21 n22 n23 n2•<br />
x3 n31 n32 n33 n3•<br />
x4 n41 n42 n43 n4•<br />
Randverteilung<br />
Absolute<br />
Häufigkeitsverteilung<br />
y<br />
n•1 n•2 n•3<br />
Tabelle 6: Randverteilung dargestellt in einer Kontingenztabelle<br />
Absolute<br />
Häufigkeitsverteilung<br />
x<br />
In Kontingenztabelle 6 sind die absoluten Häufigkeiten abgetragen. Teilt man sie durch n, die<br />
Anzahl aller Merkmalsausprägungen, so erhält man die relative gemeinsame Häufigkeitsverteilung,<br />
bzw. die relativen Randverteilungen.<br />
C.4.2.b. Beispiel<br />
Durch folgende Zuordnung kann die Kontingenztabelle über „KT“ angesprochen werden.<br />
> KT KT<br />
g k m<br />
m 3 2 2<br />
w 0 2 4<br />
Über<br />
> KT[1,]<br />
g k m<br />
3 2 2<br />
wird die erste Zeile angesprochen und der Befehl<br />
> KT[2,]<br />
g k m<br />
38
0 2 4<br />
spricht Zeile zwei an. Im Gegensatz zu der oben angeführten mathematischen Notation fehlt bei<br />
„KT[2,]“ nach dem Komma der Punkt, doch die Interpretation ist ansonsten ähnlich: lese alle Daten<br />
der Zeile zwei aus. Anwendung der Anweisung<br />
> sum(KT[1,])<br />
[1] 7<br />
errechnet die absolute Häufigkeit der Merkmalsausprägung x 1 • und<br />
> sum(KT[2,])<br />
[1] 6<br />
ergibt die absolute Häufigkeit des anderen Merkmals. Mit dem folgenden Befehl wird die erste<br />
Spalte angesprochen und die Berechnung der absoluten Häufigkeiten von variable „Betriebsgröße“<br />
erfolgt analog.<br />
> KT[,1]<br />
m w<br />
3 0<br />
> KT[,2]<br />
m w<br />
2 2<br />
> KT[,3]<br />
m w<br />
2 4<br />
> sum(KT[,1])<br />
[1] 3<br />
> sum(KT[,2])<br />
[1] 4<br />
> sum(KT[,3])<br />
[1] 6<br />
C.4.3. Bedingte Verteilung und statistische Unabhängigkeit<br />
C.4.3.a. Grundlagen<br />
Die bedingte absolute Häufigkeitsverteilung von x unter y1 läßt sich in Tablle 6 aus ersten Spalte<br />
ablesen. Dividiert man sie durch n • 1 , so ergibt sich die bedingte relative Häuigkeitsverteilung:<br />
n 11 /n • 1 , n 21 /n • 1 , n 31 /n • 1 , n 41 /n • 1 . Hält man also bei zweidimensionalen Variablen x<br />
und y eine konstant (z.B. yi) und betrachtet die absolute Häufigkeiten der anderen Variablen x bei<br />
gegebener Ausprägung yi, so heißt diese bedingte absolute Häufigkeitsverteilung von x unter yi.<br />
Falls sich die gemeinsame Verteilung der Variablen x und y durch Multiplikation der<br />
Randverteilungen, also<br />
h i , j =h i • ∗h • j für alle i und j,<br />
39
ergibt, so sagen wir, die Variablen x und y sind statistisch unabhängig. In diesem Fall sind alle<br />
relativen bedingten Häufigkeiten von x wie auch y identisch und exakt gleich den jeweiligen<br />
Randverteilungen.<br />
C.4.3.b. Beispiel<br />
Ausgehend von folgender Kontingenztabelle<br />
g k m<br />
m 3 2 2<br />
w 0 2 4<br />
ergibt sich als bedingte absolute Häufigkeitsverteilung des Geschlechts bei großen Firmen folgende<br />
Verteilung: 3 männliche und keine weiblichen Beobachtungen. Die bedingte relative<br />
Häufigkeitsverteilung des Geschlechts bei großen Firmen ist: männlich 1, weiblich 0.<br />
C.5. Lorenz-Kurve<br />
C.5.1. Grundlagen<br />
Zur Konstruktion einer Lorenz-Kurve ist ein kardinales Merkmal nötig, das folgende<br />
Bedingungen erfüllt:<br />
a) ∀ i ∈ {1,2 ,3 , ... , i , ... , k } x i 0 und<br />
b) 0 x 1 x 2 ⋯ x k .<br />
Mit anderen Worten müssen die Merkmalsausprägungen größer oder gleich 0 und der Größe nach<br />
angeordnet sein. Der Index „k“ ist kleiner oder gleich der Anzahl an Beobachtungen n: falls alle<br />
Ausprägungen voneinander verschieden sind, so ist k=n, andernfalls gibt es mindestens zwei<br />
identische Ausprägungen. Unter der Voraussetzung, daß diese Bedingungen erfüllt sind, kann die<br />
absolute Häufigkeitsverteilung erstellt werden. Zwecks Vereinfachung der Darstellung wird davon<br />
ausgegangen, daß k=4 ist.<br />
Merkmalsausprägung<br />
absolute<br />
Häufigkeit<br />
x1 x2 x3 x4<br />
n1 n2 n3 n4<br />
Tabelle 7: 1. Schritt zur Erstellung einer Lorenz-Kurve-absolute Häufigkeitsverteilung<br />
Im zweiten Schritt wird die gesamte Merkmalsumme errechnet:<br />
gesamte Merkmalssumme =S :=∑ i = 1<br />
k<br />
n i∗x i .<br />
Drittens wird die absolute Häufigkeitsverteilung wie folgt verändert.<br />
Kumulierter<br />
Anteil an der<br />
Merkmalssumme<br />
Kumulierte<br />
Häufigkeit<br />
(n1* x1)/S (n1*<br />
x2)/S<br />
x1+n2*<br />
(n1* x1+n2* x2+n3*<br />
x3)/S<br />
(n1* x1+n2* x2+n3* x3+n4*<br />
x4)/S<br />
n1/n (n1+n2)/n (n1+n2+n3)/n (n1+n2+n3+n4)/n<br />
Tabelle 8: 2. Schritt zur Erstellung einer Lorenz-Kurve<br />
40
Der erste Eintrag dieser Tabelle ist folgendermaßen zu interpretieren. Auf n1/n der Population<br />
entfällt (n1* x1)/S des interessierenden Merkmals. Aufgrund dieser Tabelle läßt sich die Lorenz-<br />
Kurve erstellen, indem auf der Abszisse die kumulierte Häufigkeit und der Ordinate der kumulierte<br />
Anteil der Merkmalssumme abgetragen wird. Definitionsmenge und Wertebereich der Lorenz-<br />
Kurve sind deshalb identisch gleich dem Intervall [0,1]. Die Lorenz-Kurve besteht aus dem<br />
Streckenzug, der sich durch Verbindung der Punkte (0,0) und den Werten der Tabelle 8 ergeben.<br />
C.5.2. Beispiel<br />
Lade das Paket „ineq“, um die nötigen Befehle verfügbar zu machen. Die Anweisung<br />
> a a<br />
1000 1500 1900 2000 2111 2500 2700 2900 3300<br />
1 1 2 2 2 1 1 2 1<br />
führt zur Erstellung der absoluten Häufigkeitsverteilung. Der Befehl „Lc“ dient zur Erstellung der<br />
Lorenz-Kurve, wobei als erstes Argument die Merkmalsausprägungen als Spaltenvektor, c(1000,<br />
1500, 1900, 2000, 2111, 2500, 2700, 2900, 3300), und dann der Spaltenvektor <strong>mit</strong> den zugehörigen<br />
absoluten Häufigkeiten, c( 1,1,2,2,2,1,1,2,1), angegeben werden muß.<br />
> Lorenz Lorenz<br />
$p<br />
[1] 0.00000000 0.07692308 0.15384615 0.30769231 0.46153846 0.61538462 0.69230769 0.76923077 0.92307692<br />
1.00000000<br />
$L<br />
[1] 0.00000000 0.03469572 0.08673930 0.21858303 0.35736590 0.50385122 0.59059052 0.68426896 0.88550413<br />
1.00000000<br />
$L.general<br />
[1] 0.0000 111.1111 277.7778 700.0000 1144.4444 1613.5556 1891.3333 2191.3333 2835.7778 3202.4444<br />
attr(,"class")<br />
[1] "Lc"<br />
41
Abbildung 7: Lorenz-Kurve<br />
Die Korrektheit der Berechnungen können durch folgende Eingaben überprüft werden.<br />
> Summe Summe<br />
[1] 28822<br />
Die erste Merkmalsausprägung ist 1000, Division durch die gesamte Merkmalssumme ergibt:<br />
> 1000/Summe<br />
[1] 0.03469572<br />
Dieselbe Rechnung analog für die ersten beiden Merkmalsausprägungen durchgeführt macht:<br />
> 2500/Summe<br />
[1] 0.0867393<br />
Der Anteil der ersten Merkmalsausprägungen an allen Merkmalen ist<br />
> 1/13<br />
[1] 0.07692308<br />
und der der ersten beiden Merkmalsausprägungen<br />
> 2/13<br />
[1] 0.1538462<br />
Die restlichen Berechnungen sollten Sie zur Übung analog durchführen.<br />
42
C.5.3. Maßzahlen<br />
C.5.3.a. Gini-Koeffizient<br />
Die Lorenz-Kurve ver<strong>mit</strong>telt einen visuellen Eindruck von der Konzentration der<br />
Merkmalsausprägungen in einer Population. Um Konzentrationen verschiedener Populationen<br />
<strong>mit</strong>einander vergleichen zu können, wäre eine Maßzahl nützlich, die nur Werte innerhalb eines<br />
vorher bestimmten Bereiches annehmen kann, also normiert ist. Der Gini-Koeffizient ist eine<br />
solche Größe, <strong>mit</strong> der Konzentrationen in verschiedenen Grundgesamtheiten <strong>mit</strong>einander<br />
verglichen werden können.<br />
Er ist definiert als<br />
Konzentrationsfläche<br />
Gini :=<br />
Fläche zwischen Diagonalenund Abszisse<br />
= Konzentrationsfläche<br />
1<br />
2<br />
Die Konzentrationsfläche ist gleich der Fläche zwischen Diagnoale und Lorenz-Kurve. Ist die<br />
Lorenz-Kurve identisch <strong>mit</strong> der Diagonalen, so ist der Gini gleich Null: es gibt keine<br />
Konzentration.<br />
C.5.3.b. Beispiel<br />
Die Berechnung des Gini <strong>mit</strong> „Daten2“ und Merkmal „Einkommen“ kann <strong>mit</strong> den Rohdaten<br />
erfolgen, eine Sortierung nach der Größe ist in 'R' nicht nötig.<br />
> Gini(Daten2$Einkommen)<br />
[1] 0.1511185<br />
> Gini(sort(Daten2$Einkommen))<br />
[1] 0.1511185<br />
Die Situation bei Konzentration aller Merkmalsausprägungen auf eine statistische Einheit wird<br />
durch folgendes Beispiel illustriert. Es gibt insgesamt 5 Personen, allerdings verdienen 4 gar nichts<br />
und eine 3300 Euro. Da<strong>mit</strong> erhält man folgende Definitionsmenge und Wertebereich:<br />
> Lorenz Lorenz<br />
$p<br />
[1] 0.0 0.2 0.4 0.6 0.8 1.0<br />
$L<br />
[1] 0 0 0 0 0 1<br />
$L.general<br />
[1] 0 0 0 0 0 660<br />
attr(,"class")<br />
[1] "Lc"$p<br />
Die untere Graphik zeigt, daß bei Konzentration auf ein Merkmal, nicht die gesamte Fläche<br />
unterhalb der Diagonalen (= Seitenlänge∗Seitenlänge<br />
2<br />
43<br />
= 1∗1<br />
=1/ 2 ) , sondern nur aus<br />
2<br />
.
1 1<br />
−<br />
2 2∗5 <br />
oder allgemein 1 1 −1<br />
− =n<br />
2 2∗n 2∗n<br />
zusammensetzt. Man beachte dabei, daß der<br />
Flächeninhalt des kleinen Dreiecks sich errechnet über (Seitenlänge mal Seitenlänge)/2, also<br />
1∗1/5<br />
=<br />
2<br />
1<br />
2∗5 .<br />
> Lorenz Gini(c(0,0,0,0, 3300))<br />
[1] 0.8<br />
∗<br />
1<br />
2<br />
n−1<br />
n<br />
=Gini∗ n<br />
n−1 .<br />
und hieraus errechnet sich <strong>mit</strong> n=5 der Gininormiert als<br />
> 0.8*5/4<br />
[1] 1<br />
44
C.6. Kontrollfragen<br />
1. Wodurch unterscheiden sich deskriptive und schließende <strong>Statistik</strong>?<br />
2. Wovon hängt es ab, ob die deskriptive oder schließend <strong>Statistik</strong> zu Anwendung kommt?<br />
3. Was versteht man unter Vollerhebung, was unter Teilerhebung, was unter Stichprobe?<br />
4. Was versteht man unter einer statistischen Einheit?<br />
5. Bei welchen Daten nutzt man die empirische Varianz?<br />
6. Wie errechnen Sie die empirische Varianz<br />
1. bei Rohdaten,<br />
2. bei Vorliegen einer absoluten Häufigkeitsverteilung und wie<br />
3. bei einer relativen Häufigkeitsverteilung?<br />
7. Wie ist die korrigierte Stichprobenvarianz definiert?<br />
8. Wie können Sie die empirische Varianz aus der korrigierten Stichprobenvarianz berechnen?<br />
9. Was versteht man unter einem Quantil?<br />
10.Gegeben sei folgende Auswertung:<br />
0% 25% 50% 75% 100%<br />
1000 1900 2111 2700 3300<br />
Geben Sie den Median sowie das untere und obere Quartil an.<br />
11.Wie ist eine Verteilungsfunktion definiert?<br />
12.Welcher Eigenschaften hat eine Verteilungsfunktion?<br />
13.Was versteht man unter einer Kontingenztabelle?<br />
14.Geben Sie beispielhaft eine 2X2-Kontingenztabelle an und interpretieren Sie sie.<br />
15.Wie erhalten Sie aus einer Kontingenztabelle die zugehörigen Randverteilungen?<br />
16.Interpretieren Sie einen Punkt auf einer Lorenz-Kurve.<br />
17.Was versteht man unter dem Gini- und was unter dem normierten Gini-Koeffizienten?<br />
45
C.7. Aufgaben<br />
1. Zeige, daß die Summe aller relativen Häufigkeiten immer gleich 1 sein muß.<br />
2. Geben Sie Beispiele an, bei denen die deskriptive <strong>Statistik</strong> relevant ist, und begründen Sie Ihre<br />
Entscheidung. v<br />
3. Was ist der Unterschied zwischen der empirischen Varianz und der Stichprobenvarianz? vi<br />
4. In einem Warenhaus wurden von der ersten Person 20 Taschentücher, der zweiten 20, der dritten<br />
30 und der vierten 40 Taschentücher gekauft. vii<br />
1. Berechnen Sie <strong>mit</strong> 'R' die absolute Häufigkeitsverteilung,<br />
2. die relative Häufigkeitsverteilung,<br />
3. die 25%-, 50%- und 75%-Quantile und<br />
4. stellen Sie die Verteilungsfunktion graphisch dar.<br />
5. Erläutern Sie, warum 20 ein 25 Prozent Quantil, warum 25 der Median und 32,5 das obere<br />
Quartil ist.<br />
5. Die erste Person gibt in einem Geschäft 20, die zweite 30 und die dritte 40 Euro aus. Bestimmen<br />
Sie <strong>mit</strong> 'R' die 25%-, 50%- und 75%-Quantile und erläutern Sie das Ergebnis. viii<br />
46
Stichwortverzeichnis<br />
Ancienitätsprinzip 18<br />
Bias 20<br />
Deduktion 12<br />
Einheit<br />
statistische 43<br />
Gini-Koeffizient 43<br />
normiert 44<br />
Grundgesamtheit 12<br />
Häufigkeitsdichte<br />
durchschnittliche 34<br />
Häufigkeitsverteilung<br />
relative gemeinsame 38<br />
Histogramm 33<br />
absolute Klassenhäufigkeit 33<br />
Induktion 12<br />
Konsistenz 19<br />
Kontingenztabelle 36<br />
Korrelationstabelle 36<br />
Lorenz-Kurve 40<br />
Median 30<br />
Merkmal<br />
kardinal 22<br />
nominal 21<br />
ordinal21<br />
Mittel<br />
bei absoluten Häufigkeiten<br />
arithmetisches27<br />
bei relativen Häufigkeiten<br />
arithmetisches30<br />
bei Rohdaten<br />
arithmetisches19<br />
Plausibilität 15<br />
Plausibilitätsprüfung 18<br />
Programmpaket 14<br />
Quantil 30<br />
Quartil<br />
oberes 30<br />
unteres30<br />
Randverteilung 38<br />
relative 38<br />
Rohdaten 19<br />
<strong>Statistik</strong><br />
multivariate 19<br />
univariate 19<br />
Stichprobenvarianz<br />
korrigierte 20<br />
Streuungsmaß 27<br />
Teilerhebung 12<br />
Unabhängigkeit<br />
statistische 40<br />
Urliste 19<br />
Varianz<br />
empirische 30<br />
Grundgesamtheit<br />
empirische 20<br />
Stichprobe<br />
empirische 20<br />
Verteilung<br />
bedingte 39<br />
Verteilungsfunktion<br />
empirische 31<br />
Verzerrung<br />
systematische 20<br />
Vollerhebung 12<br />
47
Literaturverzeichnis<br />
Hinweis: Es gibt eine Vielzahl an <strong>Statistik</strong>lehrbüchern. Das Buch von Bamberg, Baur ist seit Jahren<br />
ein Klassiker. Schira, ein neueres Werk, gibt einen fundierten Einstieg, in die Theorie, ohne zu<br />
mathematisch daherzukommen. Zwerenz gibt einen Einstieg in die Auswertung <strong>mit</strong> Hilfe von Excel<br />
und SPSS, beides kommerzielle Standardsoftware.<br />
Bamberg, Günter, Baur, Franz, <strong>Statistik</strong>, Oldenbourg Verlag: München, Wien, 1984.<br />
Schira, Josef, Statistische Methoden der VWL und BWL, Theorie und Praxis, Pearson Studium:<br />
München, Boston, San Francisco, und andere Orte, 2005.<br />
Zwerenz, Karlheinz, <strong>Statistik</strong>, Datenanalyse <strong>mit</strong> Excel und SPSS, Oldenbourg Verlag: München,<br />
Wien, 2006.<br />
49
i Berechnet wird die korrigierte Stichprobenvarianz. Sie dient, bei Vorliegen von Daten aus einer Stichprobe <strong>mit</strong><br />
Zurücklegen, zur Schätzung der Streuung in der Grundgesamtheit. Bei Plausibilitätsprüfungen wäre die<br />
empirische Varianz (Stichprobenvarianz) und nicht die korrigierte zu berechnen. Denn die Plausibilitätsprüfung<br />
erstreckt sich auf die Daten in der (einfachen) Stichprobe.<br />
ii Rohdaten. Wird als Datengrundlage die absolute Häufigkeitsverteilung verwendet so wäre<br />
Var x= <br />
2 = 2<br />
1<br />
:=<br />
X<br />
k<br />
n−1 ∑ i =0<br />
n i xi −x 2 bzw. s 2 2 1<br />
=s X :=<br />
n ∑ k<br />
n i x i−x i = 1<br />
2 zu verwenden.<br />
iii c(1,2,3,4)<br />
iv Der Befehl > plot(c(500, Eink, 3500), c(0,edf(Eink),1),xlab = "Einkommen", ylab = "H(Einkommen)",type="p")<br />
zeigt die Sprungstellen an, bei denen H(x) rechtsseitig stetig ist.<br />
v Mögliche Antworten: Ausstehende Zahlungen<br />
vi Die empirische Varianz wird zur Beschreibung der Streuung in der Grundgesamtheit. Liegen Daten einer<br />
Stichprobe vor, so dient sie zur Beschreibung der Streuung in der Sichprobe. In diesem Fall heißt die empirische<br />
Varianz auch Stichprobenvarianz. Die korrigierte Stichprobenvarianz dient zur Schätzung der Varianz in der<br />
Grundgesamtheit <strong>mit</strong> Hilfe von Stichprobendaten.<br />
vii Die Dateneingabe kann über<br />
> b table(b)<br />
b<br />
20 30 40<br />
2 1 1<br />
Relative Häufigkeitsverteilung<br />
> table(b)/sum(table(b))<br />
b<br />
20 30 40<br />
0.50 0.25 0.25<br />
Die Quantile erhält man über<br />
> quantile(b)<br />
0% 25% 50% 75% 100%<br />
20.0 20.0 25.0 32.5 40.0<br />
Die Verteilungsfunktion erhält man über<br />
> plot(c(0,b,50),c(0, edf(b),1),type="s")<br />
Die Ausprägung 20 ist ein unteres Quartil, weil es insgesamt 4 Beobachtungen gibt: 20, 20, 30, 40. Zwischen den<br />
ersten beiden Ausprägungen liegt das 25%-Quantil (=Quartil), zwischen der zweiten und dritten Ausprägung liegt<br />
der Median. Er ist nicht eindeutig, nimmt das Programm die Mitte zwischen der zweiten Ausprägung (=20) und<br />
der dritten (= 30), also 25. Zwischen 30 und 40 ist das obere Quartil (=75%-Quantil), es ist ebenfalls nicht<br />
eindeutig bestimmt. 'R' nimmt das arithmetische Mittel zwischen dem Median und dem oberen Wert (=40), wie<br />
man leicht nachrechnen kann:<br />
> (25+40)/2<br />
[1] 32.5<br />
viii Dateneingabe<br />
> a quantile(a)<br />
0% 25% 50% 75% 100%<br />
20 25 30 35 40<br />
Der Median ist eindeutig bei Beobachtung 30. Unterhalb von 20 und oberhalb von 40 sind keine Ausprägungen und<br />
das untere und obere Quartil sind nicht eindeutig. Aus diesem Grund nimmt 'R' das arithmetische Mittel von<br />
Median und dem Wert 20 bzw. dem Wert 40, wodurch sich die Quartile, unteres 25 und oberes <strong>mit</strong> 35, erklären.