Angewandte Statistik mit R - Quia

Angewandte Statistik mit 'R' 

für Ökonomen 

Reiner Peter Hellbrück 

1

© Reiner Hellbrück, alle Rechte vorbehalten. Ausschließlich Studenten an der FH Würzburg- 

Schweinfurt im Studiengang Betriebswirtschaft, die zudem im Sommersemester 2008 das Statistik- 

Seminar besuchen, ist die kostenfreie Nutzung dieses Skriptes erlaubt. 

Würzburg, 2008 

2

Vorwort 

Dieses Buch entstand im Zuge der Neustrukturierung meiner Statistikveranstaltungen an der FH 

Würzburg-Schweinfurt. 

3

Abbildungsverzeichnis 

Abbildung 1: Suche in vorhandenen Programmpaketen....................................................................15 

Abbildung 2: Graphische Veranschaulichung der absoluten Häufigkeit...........................................28 

Abbildung 3: Graphische Veranschaulichung der relativen Häufigkeiten.........................................31 

Abbildung 4: Graphische Veranschaulichung der empirischen Verteilungsfunktion.........................33 

Abbildung 5: Histogramm mit absoluten Häufigkeiten.....................................................................34 

Abbildung 6: Histogramm mit durchschnittlicher Häufigkeitsdichte................................................36 

Abbildung 7: Lorenz-Kurve...............................................................................................................42 

Abbildung 8: Lorenz-Kurve bei Konzentration auf ein Merkmal.....................................................44 

4

Tabellenverzeichnis 

Tabelle 1: Daten YX...........................................................................................................................17 

Tabelle 2: Ergebnis einer falschen Eingabe.......................................................................................17 

Tabelle 3: Daten..................................................................................................................................18 

Tabelle 4: Daten2................................................................................................................................21 

Tabelle 5: Gemeinsame Verteilung dargestellt in einer Kontingenztabelle.......................................37 

Tabelle 6: Randverteilung dargestellt in einer Kontingenztabelle.....................................................38 

Tabelle 7: 1. Schritt zur Erstellung einer Lorenz-Kurve-absolute Häufigkeitsverteilung.................40 

Tabelle 8: 2. Schritt zur Erstellung einer Lorenz-Kurve....................................................................40 

5

Abkürzungsverzeichnis 

Tragen Sie hier bitte die Verwendeten Abkürzungen ein. 

6

Inhaltsverzeichnis 

Abbildungsverzeichnis.........................................................................................................................4 

Tabellenverzeichnis..............................................................................................................................5 

Abkürzungsverzeichnis........................................................................................................................6 

A. Einleitung........................................................................................................................................9 

A.1. Gegenstand...............................................................................................................................9 

A.2. Aufbau....................................................................................................................................11 

B. Datenerhebung - ganz praktisch....................................................................................................12 

B.1. Erhebungsplan........................................................................................................................12 

B.1.1. Grundlagen.....................................................................................................................12 

B.1.2. Vollerhebung oder Teilerhebung?..................................................................................12 

B.1.3. Beispiel...........................................................................................................................13 

B.2. Software.................................................................................................................................13 

B.2.1. Grundlagen.....................................................................................................................13 

B.2.2. Beispiel...........................................................................................................................14 

B.3. Rohdaten auslesen..................................................................................................................15 

B.3.1. Grundlagen.....................................................................................................................15 

B.3.2. Beispiel...........................................................................................................................16 

B.4. Daten in Statistikprogramm einlesen.....................................................................................16 

B.4.1. Grundlagen.....................................................................................................................16 

B.4.2. Beispiel...........................................................................................................................16 

B.5. Plausibilitätsprüfung..............................................................................................................18 

B.5.1. Theoretische Aspekte.....................................................................................................18 

B.5.1.a. Grundlagen.............................................................................................................18 

B.5.1.b. Beispiel...................................................................................................................19 

B.5.2. Statistische Aspekte........................................................................................................19 

B.5.2.a. Einfache Datensätze................................................................................................19 

Grundlagen......................................................................................................................19 

Beispiel............................................................................................................................20 

B.5.2.b. Komplexe Datensätze.............................................................................................21 

Grundlagen......................................................................................................................21 

Beispiel............................................................................................................................22 

B.6. Kontrollfragen........................................................................................................................24 

B.7. Aufgaben................................................................................................................................25 

C. Datenaufbereitung..........................................................................................................................26 

C.1. Häufigkeitsverteilung.............................................................................................................26 

C.1.1. Absolute Häufigkeitsverteilung......................................................................................26 

C.1.1.a. Grundlagen.............................................................................................................26 

C.1.1.b. Beispiel...................................................................................................................26 

C.1.1.c. Maßzahlen...............................................................................................................27 

Arithmetisches Mittel.................................................................................................27 

Empirische Varianz.....................................................................................................27 

Beispiel.......................................................................................................................27 

C.1.1.d. Graphische Veranschaulichung...............................................................................28 

C.1.2. Relative Häufigkeitsverteilung.......................................................................................29 

C.1.2.a. Grundlagen.............................................................................................................29 

C.1.2.b. Beispiel...................................................................................................................29 

C.1.2.c. Maßzahlen...............................................................................................................30 

Arithmetisches Mittel......................................................................................................30 

7

Empirische Varianz..........................................................................................................30 

Quantile...........................................................................................................................30 

Beispiel............................................................................................................................30 

C.1.2.d. Graphische Veranschaulichung...............................................................................31 

C.2. Verteilungsfunktion................................................................................................................31 

C.2.1. Grundlagen.....................................................................................................................31 

C.2.2. Beispiel...........................................................................................................................32 

C.2.3. Graphische Veranschaulichung.....................................................................................32 

C.3. Histogramme..........................................................................................................................33 

C.3.1. Absolute Häufigkeit......................................................................................................33 

C.3.1.a. Grundlagen.............................................................................................................33 

C.3.1.b. Beispiel...................................................................................................................33 

C.3.2. Durchschnittliche Häufigkeitsdichte..............................................................................34 

C.3.2.a. Grundlagen.............................................................................................................34 

C.3.2.b. Beispiel...................................................................................................................35 

C.4. Kontingenztabelle..................................................................................................................36 

C.4.1. Gemeinsame Verteilung.................................................................................................36 

C.4.1.a. Grundlagen.............................................................................................................36 

C.4.1.b. Beispiel...................................................................................................................37 

C.4.2. Randverteilungen...........................................................................................................37 

C.4.2.a. Grundlagen.............................................................................................................37 

C.4.2.b. Beispiel...................................................................................................................38 

C.4.3. Bedingte Verteilung und statistische Unabhängigkeit....................................................39 

C.4.3.a. Grundlagen.............................................................................................................39 

C.4.3.b. Beispiel...................................................................................................................40 

C.5. Lorenz-Kurve.........................................................................................................................40 

C.5.1. Grundlagen.....................................................................................................................40 

C.5.2. Beispiel...........................................................................................................................41 

C.5.3. Maßzahlen......................................................................................................................43 

C.5.3.a. Gini-Koeffizient......................................................................................................43 

C.5.3.b. Beispiel...................................................................................................................43 

C.6. Kontrollfragen........................................................................................................................45 

C.7. Aufgaben................................................................................................................................46 

Literaturverzeichnis............................................................................................................................49 

8

A. Einleitung 

A.1. Gegenstand 

Ziel dieses Lehrbuches ist es, das in füheren Zeiten etwas verstaubte Image der Statistik 

aufzupolieren. Es wird gezeigt, wie Daten online erhoben werden können, wie die so gewonnenen 

Rohdaten mit einem Tabellenkalkulationsprogramm nachbearbeitet und dann durch den Einsatz des 

Statistikprogramms 'R' ausgewertet werden. Die so gewonnenen Ergebnisse werden dann entweder 

mit 'R' oder einem Tabellenkalkulationsprogramm graphisch aufbereitet. 

Eine große Zahl an Statistiklehrbüchern gibt es und so stellt sich folgende Frage. Warum braucht 

die Welt ein weiteres? In vorliegendem Buch wird prozeß- und entscheidungsorientiert 

vorgegangen, wogegen die Vielzahl existierender Lehrbücher inhaltsbasiert sind. Was bedeutet 

‚prozeßbasiert’? Damit ist gemeint, daß der Student entlang des Arbeitsablaufs geführt wird: von 

der Problemstellung, über Datenerhebung, Plausibilitätstests, Auswahl einer Auswertungsmethode, 

Datenauswertung und Datenaufbereitung. 

Warum erscheint die entscheidungsorientierte Vorgehensweise angebracht? Die Vielzahl der 

entwickelten statistischen Methoden macht es unmöglich, in einer Lehrveranstaltung alle in 

zufriedenstellender Weise anzusprechen. Vielmehr ist der Anwender stets mit 

Entscheidungsproblemen konfrontiert: er hat zu entscheiden, welchen Weg er bei der Analyse 

beschreiten will. Aus diesem Grund wird hier versucht, dem Anwender Hilfestellungen zu geben. 

Es werden anhand von Beispielen Kriterien herausgearbeitet, mit Hilfe derer entschieden werden 

kann, welche Wege nicht beschritten werden sollten. Hierdurch verengt sich die Menge der 

statistischen Methoden und die Auswahl wird erleichtert. 

Zudem werden die Verfahren mit einem Statistikprogramm relativ leicht nachvollziehbar; selbst 

große Datenmengen können verarbeitet werden. Andererseits hat eine jede Software Eigenheiten, 

die der Anwender kennen muß, wenn er Fehler vermeiden will. Gelegentlich gibt es bei der 

Berechnung von Maßzahlen (beispielsweise bei Quantilen) keine eindeutigen Lösungen. In einem 

solchen Fall helfen allgemeine Hinweise, wie der Statistiker sich in solchen Situationen verhalten 

kann, nicht weiter. Man muß wissen, wie das verwendete Programm damit umgeht, um korrekte 

Interpretationen liefern zu können. 

Statistik lebt von der Anwendung. Aus diesem Grund sind die Ausführungen so gestaltet, daß 

der Leser so schnell als möglich in der Lage ist, selbst Auswertungen vorzunehmen. Zur Anregung 

sind Beispiele eingeflochten, mit Fragestellungen aus dem wirtschaftswissenschaftlichen Bereich. 

Im Zuge ihrer Diskussion werden häufig auftretende praktische Probleme angesprochen und 

Lösungsmöglichkeiten unterbreitet. 

Die Datenverarbeitung hat in den letzten Jahren neue Möglichkeiten für Datenerhebung und 

-verarbeitung ermöglicht, Opensourcesoftware ist verfügbar, mit deren Hilfe praktisch zum 

Nulltarif Daten erhoben, aufbereitet, ausgewertet und die Ergebnisse graphisch aufbereitet werden 

können. So gibt es OpenOffice, zu erhalten über www.OpenOffice.org, eine komplettes Officepaket 

mit Textverarbeitung, Tabellenkalkulations-, Präsentations-, Zeichen- sowie einem 

Datenbankprogramm. 

Dieses Programm wird als Teil des Betriebssystems Linux üblicherweise mitgeliefert. Linux, 

ebenfalls eine Opensourcesoftware und gelegentlich für ein paar Euro als Beilag zu einschlägigen 

Zeitschriten mit 'Linux' in der Titelleiste zu erwerben, kann parallel zu Windowsbetriebssystemen 

(z.B. Windows95, Windows98, WindowsXP) installiert werden. Bei dem Hochfahren des PC kann 

der Nutzer dann zwischen dem Windowssystem und Linux wählen. Die Installation ist 

beispielsweise über SUSE-Linux denkbar einfach: lege die Installations-DVD ein und automatisch 

9

wird ein Installationsvorschlag gemacht, der ggf. den eigenen Bedürfnissen angepaßt werden kann. 

OpenOffice gibt es für alle gängigen Betriebssysteme und gleiches gilt für das 

Statistikprogramm 'R', das über (www.statistiklabor.de und folge dem dort angegebenen Link für 

die englischsprachige Seite zum Download von 'R') aus dem Internet heruntergeladen werden kann. 

Gleiches gilt für moodle, einer serverbasierten Plattform, die für E-Learning geeignet ist, aber auch 

zur Online-Datenerhebung verwandt werden kann. Diese Software kann über www.moodle.de 

heruntergeladen werden. Der Vorteil dieser Software liegt darin, daß Studenten mit Software 

lernen, die sie später im Berufsleben ebenfalls nutzen können. Zudem ist es möglich, sich während 

des Studiums zu Hause mit der Software vertraut zu machen, zu üben und zu lernen. Die 

Lerneinheiten können auch mit kommerzieller Software bearbeitet werden, doch angesichts der 

beschriebenen Vorteile von Opensourceprodukten werden hier die genannten Produkte verwendet. 

Zudem sollte ein Umstieg auf kommerzielle oder andere Opensource Software ohne größere 

Probleme möglich sein. 

10

A.2. Aufbau 

Statistik ist mehr und mehr die Auseinandersetzung mit Software, Theorie, Statistik und 

Präsentation. Im Zentrum steht jedoch stets die Fragestellung. Damit rückt unvermittels die 

fachliche Orientierung in den Mittelpunkt des Interesses. Das Buch wendet sich vor allem an 

Ökonomen und so sind die hier verwendeten Beispiele ausschließlich den 

Wirtschaftswissenschaften entlehnt. Bei dem ersten Durcharbeiten können die mit „*“ 

gekennzeichneten Kapitel übersprungen werden. 

Im zweiten Kapitel wird die Datenerhebung mit Hilfe von Onlinebefragungen beschrieben. Es 

wird deutlich, warum unterschiedliche Erhebungsmethoden verwendet werden und welche es gibt. 

Dem Leser werden Hilfestellungen bei der Auswahl der Methoden gegeben. Außerdem wird 

beschrieben, wie Rohdaten auf Plausibilität überprüft werden können. 

Methoden zur Datenaufbereitung, also zur Beschreibung von Datensätzen, werden im dritten 

Kapitel beschrieben. Die Ausführungen beginnen mit grundlegenden Bemerkungen und werden 

anschließend durch ökonomische Beispiele veranschaulicht. Es zeigt sich, daß mit einigen wenigen 

Befehlen auch größere Datensätze mit Maßzahlen charakterisiert und graphisch aufbereitet werden 

können. 

Statistisches Testen steht im Mittelpunkt des Kapitels vier. Wissen um die 

Wahrscheinlichkeitsrechnung wäre zwar wünschenswert, ist aber nicht unbedingt erforderlich. 

Anhand des Binomialtest über den Anteilswert werden die Prinzipien statistischer Tests erläutert. 

Hieran schließt sich die Beschreibung und der wichtigsten diskreten und stetigen theoretischen 

Verteilungen an. 

11

B. Datenerhebung - ganz praktisch 

B.1. Erhebungsplan 

B.1.1. Grundlagen 

Daten werden zur Gewinnung von Informationen erhoben. Einerseits können diese 

Informationen dazu dienen, dem Ökonomen einen Überblick über seinen Untersuchungsgegenstand 

(sein Interessengebiet) zu verschaffen oder um auf neue Ideen zu kommen. Andererseits können sie 

dazu dienen, die Richtigkeit einer Vermutung (Hypothese) zu überprüfen. In jedem Fall ist davon 

auszugehen, daß der Ökonom mit Vorverständnis an die Aufgabe herangeht. Völlig unstrukturiert 

und aufs Geradewohl wird kaum eine Datenerhebung erfolgen. Sei es offen gesagt (explizit) oder 

nicht (implizit): Daten werden im Hinblick auf ein bestimmtes Ziel erhoben. 

Ihre Auswertung wird sich an den Zielen der Datenerhebung orientieren. Die Ziele sollten so in 

Fragen (Hypothesen) gekleidet werden, daß sie entweder bejaht oder verneint werden können. 

Grundlage einer jeden statistischen Auswertung sind somit empirisch überprüfbare Hypothesen. Sie 

können auf theoretischen Überlegungen basieren oder als Idee aus vorausgegangenen statistischen 

Auswertungen hervorgehen. In letzterem Fall spricht man von der induktiven Vorgehensweise, bei 

der ersteren von Deduktion. Wird induktiv vorgegangen, sollte vermieden werden „Daten zu 

quälen“. Damit ist gemeint, die Daten, die zur Aufstellung einer neuen Hypothese geführt haben, 

nicht zur Überprüfung selbiger verwendet werden dürfen, da dies zu einem Zirkelschluß führen 

würde. Insbesondere im Falle der Deduktion ist darauf zu achten, daß die theoretischen Begriffe 

adäquat durch Daten abgebildet werden. 

B.1.2. Vollerhebung oder Teilerhebung? 

Eine der wichtigsten Entscheidungen einer jeden Erhebung ist die Entscheidung über die Art der 

Datenerhebung: Voll- oder Teilerhebung. Werden bei allen interessierenden Personen oder Objekten 

(Grundgesamtheit oder Population) Daten erhoben, so spricht und von einer Vollerhebung, 

andernfalls von einer Teilerhebung. Folgende Beispiele sollen wichtige Beurteilungskriterien 

verdeutlichen. 

Beispiel 1: Angenommen, ein Lehrer der Fachoberschule Marktheidenfeld möchte gerne wissen, 

wie alt seine Schüler in der Klasse 11b am 1.1.2008 durchschnittlich sind. Ihn interessieren also 

alle Schüler der Klasse 11b in Marktheidenfeld zum Stichtag 1.1.2008. Befragt er alle, so handelt 

es sich um eine Vollerhebung, denn die befragten Personen sind identisch mit der interessierenden 

Grundgesamtheit. Welche Personen zur Grundgesamtheit zählen, ergibt sich aus der Fragestellung. 

Beispiel 2: Angenommen, derselbe Lehrer möchte wissen, wie alt die Schüler in allen 

Klassenstufen 11 sind, wobei es die Klassen 11a, 11b gebe. Die interessierende Grundgesamtheit 

setzt sich aus den Schülern der Klassen 11a und 11b zusammen; sie bilden die Grundgesamtheit. 

Klasse 11b ist lediglich Teil der Grundgesamtheit und Daten über die Klasse 11b heißen deshalb 

Teilerhebung. 

Warum der Lehrer im ersten Fall nur Klasse 11b als Grundgesamtheit ansieht mag 

beispielsweise daran liegen, daß er wissen muß, ob er wegen eines Schulausfluges die 

Genehmigung der Eltern einholen muß oder nicht. Geht es um genau diese Fragestellung, so ist 

allerdings nicht das arithmetische Mittel entscheidend. Welche Maßzahl würden Sie stattdessen 

wählen? 1 Zudem wird durch diese Fragestellung die Erhebungsmethode bestimmt. Welche Methode 

1 Relevant wäre hier das minimale Alter innerhalb der Klasse 11b. 

12

kann hier nur angewandt werden? 2 

Will der Lehrer aber wissen, warum die Schüler der Klasse 11a in allen Fächern bessere Noten 

haben als in der 11b, obwohl dieselben Lehrer in beiden Klassen unterrichten, so könnte dies daran 

liegen, daß die Schüler der 11a älter sind als die der 11b und in geringerem Maße pubertäres 

Verhalten an den Tag legen, was die Leistungen tendenziell mindert. Beide Klassen bilden aufgrund 

dieser Fragestellung die Grundgesamtheit. Ist aber eine Voll- oder eine Teilerhebung sinnvoll? 

Bei dieser Fragestellung ist es nicht unbedingt wichtig, das Alter jedes Schülers in der 

Grundgesamtheit zu wissen. Da es sich um eine relativ kleine Grundgesamtheit handelt, bietet sich 

eine Vollerhebung an, zumal das Alter der Schüler üblicherweise der Schule bekannt ist und 

vorhandenen Unterlagen entnommen werden kann. Man spricht in diesem Falle von 

Sekundärdaten. Werden die Daten direkt bei allen Personen der Grundgesamtheit erhoben, so 

handelt es sich um Primärdaten. Ob also eine Vollerhebung oder Teilerhebung sinnvoll ist, ergibt 

sich aus der konkreten Situation. 

Würde es sich jedoch nicht um zwei Schulklassen, sondern um zwei sehr große 

Personengruppen handeln, deren Daten erst erhoben werden müßten, so wäre eine Vollerhebung 

möglicherweise mit hohen Kosten verbunden. In diesem Fall bietet sich die schließende Statistik 

an, bei der mit Hilfe einer Teilerhebung möglichst gut auf die Situation in der Grundgesamtheit 

geschlossen werden soll. Hierdurch erklärt sich auch ihr Name „schließende“ Statistik. Bei dieser 

Art von Fragestellung bedarf es allerdings nicht Daten irgendeiner Teilerhebung, sondern von 

Stichproben, d.h. der Zufall spielt eine wichtige Rolle. 

B.1.3. Beispiel 

Hier wird der entwickelte Fragebogen für Medienmanagement diskutiert. 

B.2. Software 


Eine Vielzahl von Programmen ist mittlerweile verfügbar, mit deren Hilfe Onlinebefragungen 

durchgeführt werden können. Einige wenige sollen im folgenden Kurz skizziert werden. Moodle ist 

eine E-Learningplattform, mit deren Hilfe allerdings auch Onlinebefragungen durchgeführt werden 

können. Über den Link www.moodle.dekann es bezogen werden. Zur Installationvon Version 1. 9 

genügt augenblicklich noch Webspace; es ist aber zu erwarten, daß künftig ein eigener moodle- 

Server notwendig wird. Der Server muß gemäß den Vorgaben des Programms konfiguriert sein, 

d.h. Myslq und PHP ist nötig. Ansonsten ist die Installation relativ einfach. Die Programmdateien 

befinden sich in einer komprimierten Datei (z.B. einer Zip-Datei), die auf den eigenen Rechner 

entpackt werden müssen. Nach Entpacken aller Dateien befinden sie sich dann in dem Ordner 

'moodle'. Über eine FTP-Verbindung wird dieser Ordner samt Inhalt auf den Webspace übertragen. 

Webspace erhält der Autor über www.bplaced.com, wo Anfang des Jahres kosten- und werbeloser 

Webspace angeboten wurde. Anmeldung und Eingabe der Emailadresse genügte, um die nötigen 

Voraussetzungen zur Installation von moodle zu schaffen. 

In Linux ist es möglich, eine FTP-Verbindung über das Programm Konqeror herzustellen. 

Dieses Programm dient der Dateiverwaltung, kann gleichzeitig aber auch als Internetbrowser 

genutzt werden. Wähle den Reiter 'Gehe zu' und wähle 'Netzwerkordner'. Dann erscheint eine Box 

'Netzwerkordner hinzufügen'. Klicke 'FTP' an und wähle 'weiter', um in der folgenden 

Eingabemaske die geforderten Daten eingeben zu können. Nachdem der Netzwerkordner erstellt 

wurde, können per drag and drop oder über die Kopierfunktion von Konqeror Daten auf den Server 

2 Möglich ist nur die Vollerhebung. Denn ist auch nur ein Schüler jünger als 18 Jahre, so wäre die Genehmigung 

der Eltern einzholen. 

13

übertragen und über die Löschfunktion auch ggf. gelöscht werden. Übertrage über einen dieser 

Wege den Ordner 'moodle' mit gesamtem Inhalt auf den Webspace und lege auf derselben Ebene, 

auf der auch der Ordner 'moodle' erstellt wurde einen zusätzlichen Ordner namens 'moodledata' und 

den Ordner 'nobody' an. Erstelle in dem Webspace eine Msql-Datenbank, in vorliegendem Fall 

heißt sie 'reinerhellbrueck'. Rufe nun einen Internetbrowser auf und gebe die Adresse 

http://reinerhellbrueck.bplaced.com/moodle in der Adreßzeile ein; anschließend beginnt die 

Installation des Programms. Folge den Anweisungen bis schließlich folgende Anzeige erscheint. Da 

die Installation in dem Webspace erfolgt, wird als Server 'localhost' eingegeben. 

Das Statistikprogramm 'R' ist vor allem im wissenschaftlichen Bereich verbreitet. Es kommt in 

zwei verschiedenen Versionen daher: a) mit einer grafischen Oberfläche als ‚Statistiklabor’ 

(www.statistiklabor.de) und b) ohne graphische Oberfläche unter dem Namen ‚R’. Letztere ist 

befehlsbasiert, wodurch der Einstieg für Anfänger erschwert wird. Das Statistiklabor erleichtert 

dem Studenten den Zugang zur Software durch moderne Menüführung. Insbesondere gibt es die 

Möglichkeit, die durch Anklicken erzeugten Befehle anzeigen zulassen. Ansonsten sind die 

Funktionalitäten beider Versionen zwar nicht identisch, doch ganz ähnlich. 

In der praktischen Anwendung jedoch bevorzugt der Autor eindeutig die befehlsbasierte Version. 

Denn hier eröffnen sich dem Nutzer vielfältige Möglichkeiten, die das Statistiklabor nicht bietet. 

Beispielsweise können eine Vielzahl statistischer Auswertungen ohne Eingreifen des Nutzers 

durchgeführt werden, wogegen im Statistiklabor jeder einzelne Schritt durch Anklicken initialisiert 

werden muß. Zudem kann der Nutzer neue, bislang in ‚R’ nicht vorhandene Auswertungsmethoden 

programmieren. Aus diesen Gründen werden ausschließlich die für ‚R’ nötigen Befehle angegeben. 


Bei der Anwendung ist zu beachten, daß die Programmiersprache englisch ist. Wie so häufig 

bringt dies Vor- wie auch Nachteile mit sich. Um beispielsweise den Mittelwert auszurechnen, wird 

nicht das deutsche Wort, sondern ‚mean’ verwendet. Das Schöne hierbei ist, daß die englischen 

Fachbegriffe erlernt und eingeübt werden. Daß im Englischen zur Angabe der Dezimalstelle der 

Punkt verwendet wird, kann zu Fehlern führen und ist somit als Nachteil zu werden. 

‚R’ besteht aus verschiedenen Programmpaketen. Der Nutzer kann sie über drei Schritte 

verfügbar machen. A) Über den Reiter ‚Pakete’ können fehlende Pakete aus dem Internet 

heruntergeladen werden und auf dem lokalen Rechner als Zip-Dateien gespeichert werden. Als 

erstes wird der Server festgelegt, von dem die nötige Software heruntergeladen werden soll (setzte 

CRAN-Mirror). Dann wählt man ‚Pakete’ und ‚Installiere Pakete’. B) Über den Reiter ‚Pakete’ und 

die Auswahl ‚Installiere Pakete aus lokalen Zip-Dateien’ werden zusätzliche Pakete auf dem 

lokalen Rechner installiert und c) über ‚Pakete’ und ‚Lade Pakete’ kann benötigte Software 

verfügbar gemacht werden. 

Der Reiter ‚Hilfe’, Auswahl ‚Handbücher’ und ‚An Introduction to R’ liefert dem statistisch 

vorgebildeten Leser einen ersten Einblick über die Mächtigkeit des Programms. Dem Anfänger 

wird diese Lektüre nicht anempfohlen, da sie eher verwirrt als hilft. Nützlicher sind nach einem 

ersten Kennenlernen des Programms die Hilfeseiten, die, um Informationen über „mean“ zu 

erhalten, durch den Befehl 

help(„mean“) 

angesprochen werden können. Hierbei ist zu beachten, daß tunlichst auf Groß- und 

Kleinschreibung geachtet wird. Die Eingabe von 

> Help(mean) 

Fehler: konnte Funktion "Help" nicht finden 

14

führt zu einer Fehlermeldung. Findet ‚R’ in dem geladenen Programmpaket keine Hilfeseite, so 

wird ein Befehl angezeigt, mit Hilfe dessen innerhalb der installierten Pakete nach Hilfeseiten 

gesucht wird. Das Ergebnis einer solchen Suche nach dem Schlüsselwort „cluster“ sieht 

folgendermaßen aus. 

> help("cluster") 

No documentation for 'cluster' in specified packages and libraries: 

you could try 'help.search("cluster")' 

Die Eingabe des empfohlenen Befehls öffnet ein neues Fenster folgenden Inhalts: 

Help files with alias or concept or title matching 'cluster' using fuzzy matching: 

ordiClust(ade4TkGUI) Ordination and Cluster analysis 

clusthr(adehabitat)Estimation of Home Range by Clustering 

consensus(agricolae) consensus of clusters 

Kmeans(amap) K-Means Clustering 

Abbildung 1: Suche in vorhandenen Programmpaketen 

In der ersten Zeile gibt „ordiClust“ einen Befehl an, der in Programmpaket ‚ade4TkGUI’ 

vorhanden ist, wobei „Ordination and Cluster analysis“ den Befehl umschreibt. Zu dem 

ursprünglichen Fenster kommt man über den Reiter ‚Windows’. Um den Befehl „ordiClust“ nutzen 

zu können, wäre im ursprünglichen Fenster über den Reiter ‚Pakete’ und ‚Lade Paket’ die Software 

„ade4TkGUI“ zu initialisieren. 

B.3. Rohdaten auslesen 


Die Daten können in Linux über Konqueror aus moodle ausgelesen werden, indem auf den 

zuvor erstellten Netzwerkordner, der nichts weiter als eine Verknüpfung mit dem Server ist, 

geklickt wird. Mit Hilfe eines Tabellenverarbeitungsprogramms (bspw. OpenOffice) werden die 

Daten einer ersten Sichtung auf Plausibilität unterworfen, indem folgende Fragen bearbeitet 

werden: 

a) Stimmen alle Formate? Mit anderen Worten interessieren folgende Fragen. Sind Zahlen 

auch dort, wo sie hingehören? Sind Felder, in denen ausschließlich Buchstaben erscheinen 

dürfen, auch genauso beschaffen? Gibt es bei alphanumerischen Einträgen keine 

unerlaubten Symbole? 

b) Fehlen Daten? Hier muß überprüft werden, ob alle 'missings' genau gleich gekennzeichnet 

worden sind. 

c) Sind die erhobenen Zahlen im vorab definierten Bereich bzw. sind sie im plausiblen 

Bereich? Diese Frage kann auch später mit Hilfe des Statistikprogramms beantwortet 

werden. 

Die Sichtung auf Plausibilität ist eine wichtige Aufgabe. Denn Fehler, die bei der Dateneingabe 

gemacht worden sind, können das Ergebnis so stark verfälschen, daß statistische Auswertungen zu 

falschen Schlußfolgerungen führen können. 

Um die Daten in das Statistikprogramm 'R' einlesen zu können, werden sie als Textdatei im csv- 

15

Format gesichert. Andere Formate können freilich auch verwendet werden, sollen aber hier nicht 

angesprochen werden. Besondere Aufmerksamkeit sollte dem Symbol zufallen, durch das ganze 

Zahlen von Dezimalstellen getrennt werden. Im folgenden wird davon ausgegangen, daß im 

verwendetenTabellenverarbeitungsprogramm als Trennzeichen das Komma verwendet wird. Zudem 

ist zu berücksichtigen, welcher Feldtrenner verwendet wird; hier bietet sich die Möglichkeit des 

Tabulators, des Semikolons oder des Kommas an. Die verwendeten Standardeinstellungen 

unterscheiden sich von Programm zu Programm. Um Fehler zu vermeiden, sollten bei der 

praktischen Arbeit stets dieselben Programmpakete verwendet werden und umgekehrt: nach jedem 

Programm-, ja sogar Versionswechsel, sollte geprüft werden, ob die Grundeinstellungen gleich 

geblieben sind, um ggf. Anpassungen vornehmen zu können. 


Hier sollen die Daten aus Medienmanagement genutzt werden. 

B.4. Daten in Statistikprogramm einlesen 


Um sicher zu sein, daß in 'R' keine Variablen aus vorherigen Sitzungen vorhanden sind, sollte 

der folgende Befehl genutzt werden: 

rm ( list=ls() ), 

wobei 'rm' für remove steht. Mit dem Befehl 

setwd("g:/Auswertung") 

wird das Arbeitsverzeichnis gewählt (setwd ist zu interpretieren als ‚set working directory’). In 

vorliegendem Fall befindet es sich im Laufwerk 'g' und Ordner 'Auswertung'. Dies bedeutet, daß 

ohne Pfadangabe das Programm stets auf das Laufwerk g in Verzeichnis 'Auswertung' auf Dateien 

zugreift. 

Der Befehl 

YX

Y X 

10,5 500 

12,9 550 

33,85 300 

Tabelle 1: Daten YX 

Werden diese mit Hilfe des folgenden Befehls 

YX is.list(Daten) 

[1] TRUE 

wird überprüft, ob es sich tatsächlich um einen Datensatz des Typs Liste handelt. In der zweiten 

Zeile ist das Ergebnis diese Abfrage angegeben. Im folgenden werden Konsequenzen eines 

falschen Einlesens der Daten skizziert. Wird statt des Befehls 

YX 10.5*2 

17

[1] 21 

Die Symbole zur Durchführung einfacher Rechenoperationen sind die gleichem wie in 

Tabellenverarbeitungprogrammen. Probieren Sie es einfach aus. 

Wird bei dem Einlesen der Daten statt ‘header=TRUE’ ‚ header=FALSE’ eingegeben, so werden 

Y und X nicht zur Kennzeichnung der Variablen, sondern als Teil des Datensatzes behandelt. ‚R’ 

ordnet den Spalten automatisch die Namen V1 bzw. V2 zu. Bezeichnen Y und X jedoch die 

Variablen, so führt diese Dateneingabe zu falschen Ergebnissen (hier erscheinen zusätzlich auch 

noch die Kommata anstatt von Punkten). 

> YX YXIn 

V1 V2 

1 Y X 

2 10,5 500 

3 12,9 550 

4 33,85 300 

B.5. Plausibilitätsprüfung 

B.5.1. Theoretische Aspekte 

B.5.1.a. Grundlagen 

Bei Plausibilitätsprüfungen sind zwei Aspekte zu beachten. Erstens ist zu prüfen, ob im 

Hinblick auf die interessierende Fragestellung die Daten geeignet sind, auch wirklich eine Antwort 

auf die gestellte Frage zu geben. Zudem ist eine Überprüfung auf Konsistenz der Daten 

durchzuführen. Zweitens ist zu prüfen, ob die Ausprägungen in dem Wertebereich liegen, den wir 

aus theoretischen Überlegungen oder praktischer Erfahrung erwarten (statistischer Aspekt). Zur 

Veranschaulichung der Zusammenhänge dient der folgende Datensatz. 

Einkommen Alter Ausbildungsjahre 

2000 30 12 

2500 42 13 

2900 50 10 

3300 28 18 

Tabelle 3: Daten 

In der ersten Zeile befinden sich die Merkmalsausprägungen der ersten Person, in der zweiten 

Zeile die der zweiten usw. Diesem Datensatz liegt die Vorstellung zugrunde, daß Einkommen, Alter 

und Ausbildungsjahre irgend etwas miteinander zu tun haben. Wird beispielsweise vermutetet, daß 

die Entlohnung nach dem Ancienitätsprinzip erfolgt, das heißt, daß mit steigendem Alter ein 

höherer Stundenlohn gezahlt wird, so müßte mit höherem Alter ein höheres Einkommen erzielt 

werden. 

Der „Teufel“ steckt jedoch, wie so oft, im Detail. Dieser Zusammenhang gilt nur, wenn alle 

Personen unabhängig vom Alter dieselbe monatliche Anzahl an Arbeitsstunden arbeiten. Häufig 

weisen jedoch ältere Personen eine geringere monatliche Zahl an Arbeitsstunden (beispielsweise 

18

wegen Altersteilzeitarbeit) auf als jüngere. Aus dieser Perspektive betrachtet wäre es sinnvoll, statt 

dem Einkommen den Stundenlohn und die monatliche Arbeitszeit zu erheben. Folglich wäre dieser 

Aspekt bereits bei der Planung der Datenerhebung zu berücksichtigen. 

In der Praxis wird dies jedoch häufig nicht möglich sein, sei es, weil die Datenerhebung bereits 

abgeschlossen ist oder Sekundärdaten verwendet werden und die erforderlichen Daten nicht 

enthalten sind. Aus diesem Grund stellt sich die Frage, ob durch die Verwendung geeigneter 

statistischer Verfahren das Problem vielleicht nicht gelöst, wohl aber gemildert werden kann. So 

könnte die Analyse einmal mit Personen im Alter von 50 bis 58 Jahren und zudem mit dem 

gesamten Datensatz erfolgen, um einen Hinweis darauf zu bekommen, ob der vermutete Effekt 

überhaupt von Bedeutung ist. 

Eine Überprüfung auf Konsistenz hat sich an der interessieren Fragestellung zu orientieren. Es 

ist zu prüfen, ob sich die Befragten bei der Beantwortung von Fragen möglicherweise 

widersprechen. Sollte dies der Fall sein, so ist zu entscheiden, ob solch inkonsistente Datensätze 

entfernt werden. 

B.5.1.b. Beispiel 

Hier sollen die Daten aus Medienmanagement genutzt werden. 

B.5.2. Statistische Aspekte 

B.5.2.a. Einfache Datensätze 

Grundlagen 

In Tabelle 3 sind jeder Person mehrerer Merkmalsausprägungen zugeordnet. Analysiert man 

statistisch mehrere Merkmale, so spricht man von multivariater Statistik, wogegen statistische 

Verfahren, bei denen lediglich ein Merkmal analysiert wird, mit dem Wort univariat gekennzeichnet 

werden. Wird also beispielsweise das Minimum des Merkmals Einkommen bestimmt, so spricht 

man von univariater Datenanalyse. Bei Prüfung auf statistische Plausibilität ist es sinnvoll, für jede 

Variable zumindest das Minimum, das Maximum, das arithmetische Mittel und die Varianz zu 

bestimmen. 

Das arithmetische Mittel (mean) ist bei Verwendung von Rohdaten definiert als: 

x := 1 

n ∑ n 

x . i 

i=1 

x i ist die Ausprägung des kardinale Merkmals „Einkommen“ bei Personen i, wobei i ein 

Laufindex ist, der im vorliegenden Fall von 1 bis 4 geht, und n ist die Anzahl an Beobachtungen (n 

ist hier gleich vier). Diese Formel wird bei Rohdaten (Urliste) genutzt, d.h. wenn in jeder Zeile der 

verwendeten Liste exakt die Merkmalsausprägungen für eine Person stehen. 

Die Formel, die in ‚R’ mit ‚var(Daten$Einkommen)’ zur Berechnung der Varianz auf Basis von 

Rohdaten genutzt wird ist gleich 

Var x= 

2 = 2 

1 

:= 

X 

n 

n−1 ∑ i =0 

x i−x 2 . 

19

Diese Formel dient zur Berechnung der korrigierten Stichprobenvarianz. Mit ihr soll aufgrund von 

Daten aus einer Stichprobe eine „erwartungstreue“ Schätzung der „wahren“, aber unbekannten 

Varianz in der Grundgesamtheit berechnet werden. Erwartungstreu bedeutet, daß die Varianz der 

Grundgesamtheit ohne systematische Verzerrung (Bias) geschätzt wird. 

Zur Beschreibung der Streuung, ganz gleich ob in einer Grundgesamtheit oder Stichprobe, wird 

aber die empirische Varianz, d.h. die Formel 

s 2 2 1 

=s X := 

n 

n ∑ i =1 

x i−x 2 

verwendet. Der Index i läuft von 1 bis n, wobei n die Anzahl an Beobachtungen ist. 

Bei der empirischen Varianz werden die quadrierten Abweichungen der Beobachtungen vom 

arithmetischen Mittel aufsummiert und mit dem Faktor 1 

n 

multipliziert. Die empirische Varianz 

unterscheidet sich von der korrigierten Stichprobenvarianz 

2 

nur durch den verwendeten 

Faktor. Wird die korrigierte Stichprobenvarianz mit 

empirische Varianz. 

n−1 

n 

multipliziert, so erhält man die 

Beispiel 

Die Berechnungen erfolgen beispielhaft mit Hilfe der in Tabelle 3 angegebenen Daten. Der 

folgende Befehl 

> min(Daten) 

[1] 10 

liefert als Minimum 10 und 

> max(Daten) 

[1] 3300 

ergibt den Maximalwert von 3300. Mit anderen Worten werden das Minimum und das Maximum 

des gesamten Datensatzes bestimmt. In vorliegendem Fall ist dieses Vorgehen zur Prüfung auf 

Plausibilität nicht angebracht. Stattdessen wäre zu prüfen, ob die Einkommen alle größer als 0 und 

nicht zu hoch, das Alter größer oder gleich 14 aber kleiner als 120 und die Ausbildungsjahre 

größer oder gleich 0 und nicht zu hoch sind. Denn bereits mit 14 könnte eine Person eigenständiges 

Einkommen erzielen. Ganz ausgeschlossen ist es allerdings nicht, daß eine Person unter 14 Jahren 

eigenes Einkommen aus beispielsweise eigenem Vermögen bezieht. Dies wäre jedoch sicher ein 

Sonderfall (Ausreißer) und es wäre im Hinblick auf die interessierende Fragestellung zu 

überlegen, ob dieser statistische Ausreißer überhaupt in die Untersuchung aufgenommen werden 

sollte. 

Die Variable Einkommen kann über folgenden Befehl angesprochen werden: 

> Daten$Einkommen 

[1] 2000 2500 2900 3300 

In der zweiten Zeile ist der erste Spaltenvektor (ja, Spaltenvektor ist richtig) der Liste ‚Daten’ 

angegeben. Man beachte: obwohl die Anzeige in einer Zeile erfolgt, behandelt ‚R’ 

Daten$Einkommen als Spaltenvektor. Als Ergebnis für das Minimum, das Maximum, das 

arithmetische Mittel und die Varianz liefert das Statistikprogramm folgende Anzeige. 

> min(Daten$Einkommen) 

20

[1] 2000 

> max(Daten$Einkommen) 

[1] 3300 

> mean(Daten$Einkommen) 

[1] 2675 

> var(Daten$Einkommen) 

[1] 309166.7 

Welche Varianz wird hier geschätzt? Ist sinnvoll? i 

B.5.2.b. Komplexe Datensätze 

Grundlagen 

In der Praxis sind Datensätze gewöhnlich mehrdimensional, wobei die Merkmale nicht alle 

gleichen Typs sind. In der nachfolgenden Tabelle „kleben“ fünf Merkmale an jeder Person. Bei 

dem Geschlecht handelt sich um eine nominal meßbare Größe, das heißt, dieses Merkmal zeigt nur 

Gleichheit oder Verschiedenartigkeit an. Es gibt an, ob eine Person oder Objekt im Hinblick auf 

einen bestimmten Aspekt gleich oder verschieden ist. 

Einkommen Alter Ausbildungsjahre Geschlecht Unternehmensgröße 

1000 30 12M K 

2500 42 13M K 

2900 50 10M G 

3300 28 18M G 

1500 30 12W K 

1900 42 13W M 

2111 50 10W M 

2700 28 18W M 

2900 50 10M g 

2111 50 10W m 

2000 30 12M m 

2000 30 12M m 

1900 42 13W k 

Tabelle 4: Daten2 

In der letzten Spalte ist die Unternehmensgröße abgetragen. Die Merkmalsausprägungen sind 

‚K’ für Kleinunternehmen, ‚M’ für mittelgroße Unternehmen und ‚G’ für Großunternehmen. Dieses 

Merkmal ist ein Beispiel für eine ordinale Größe. Solche Merkmale geben zusätzlich zu den 

Informationen eines nominalen Merkmals Auskunft über eine Reihenfolge. Streng genommen sind 

die hier gemachten Angaben zur Unternehmensgröße unvollständig. Denn es fehlt die exakte 

Definition dessen, mit Hilfe welcher Kriterien Unternehmen in große, mittlere und kleine 

Unternehmen eingeteilt worden sind. 

So könnte beispielsweise eine Einteilung allein aufgrund der Anzahl an Beschäftigten erfolgen 

Alternativ hierzu wäre eine Gruppenbildung mit Hilfe zweier Merkmale, z. B. Anzahl an 

Beschäftigten und Umsatz, möglich. Bei einer großen Anzahl an Unternehmen und mehreren 

Gruppierungsmerkmalen ist eine solche Einteilung selbst mit Hilfe eines 

Tabellenverarbeitungprogramms sehr aufwendig. Die Statistik hat zwei Verfahren, die 

21

Diskriminanz- und Clusteranalyse, entwickelt, die die Bewältigung solcher Aufgaben erleichtern. 

Einkommen, Alter und Ausbildungsjahre sind Beispiele für kardinale Merkmale. Sie liefern 

dieselben Informationen wie nominale und ordinale Merkmale; darüber hinaus sind Differenzen 

zwischen Merkmalsausprägungen sinnvoll interpretierbar. Aus diesem Grund müssen kardinale 

Merkmale zahlenmäßig ausgedrückt werden. Sie werden zudem unterteilt in verhältnis- und 

intervallskalierte Merkmale. Bei ersteren gibt es einen sachlogischen absoluten Nullpunkt und es 

lassen sich sinnvoll Quotienten aus verschiedenen Merkmalsausprägungen bilden. Bei letzteren ist 

dies nicht möglich. Hier können nur Differenzen zwischen Merkmalsausprägungen sinnvoll 

interpretiert werden. 

Kardinale Merkmale müssen zwar in Zahlen ausgedrückt werden, doch der Umkehrschluß gilt 

nicht. Man hüte man sich davor, aus der Tatsache, daß alle Merkmalsausprägungen irgendeines 

Merkmals Zahlen sind, darauf zu schließen, daß es sich um ein kardinales Merkmal handelt. Die 

Merkmalsausprägungen des Merkmals Geschlecht können zum Beispiel sein ‚m’ und ‚w’, aber 

genauso gut könnte verwendet werden ‚1’ und ‚2’. Bei der Signierung des Geschlechts mit ‚1’ und 

‚2’ kann man zwar prinzipiell das arithmetische Mittel berechnen, doch das so erhaltene Ergebnis 

ist nicht interpretierbar. Signiert man jedoch männlich mit ‚0’ und weiblich mit ‚1’ und berechnet 

jetzt das arithmetische Mittel, so gibt es den Anteil der Frauen an. 

Beispiel 

Bei der Überprüfung auf statistische Plausibilität fällt nominalen und ordinalen Merkmalen die 

Aufgabe zu, den Datensatz sinnvoll in Gruppen einzuteilen, um sich einen ersten Überblick über 

die Daten zu verschaffen. Man beachte jedoch, daß zuvor das Programmpaket „doBy“ geladen 

werden muß. Mit dem folgenden Befehl (siehe unsere Tabelle) wird das Minimum und Maximum, 

der Mittelwert, die Varianz sowie die Anzahl an Beobachtungen des Merkmals Einkommen 

berechnet. Diese Größen werden im vorliegenden Fall geschlechtsspezifisch ausgewiesen. Der 

Befehl ‚data=Daten2’ bestimmt, daß die Daten, abgelegt unter dem Namen ‚Daten2’, verwendet 

werden. Dies hat auch zur Folge, daß die Merkmale durch ihren Namen (in vorliegenden Fall 

Einkommen und Geschlecht) und nicht durch voranstellen des relevanten Datensatzes (wie oben 

„Daten2$Einkommen“) angesprochen werden müssen. 

> summaryBy(Einkommen ~ Geschlecht, data=Daten2, FUN=c(min, max, mean,var,length)) 

Geschlecht Einkommen.min Einkommen.max Einkommen.mean Einkommen.var 

Einkommen.length 

1 m 1000 3300 2371.429 599047.6 7 

2 w 1500 2700 2037.000 155285.6 6 

Soll Minimum und Maximum jeweils für Einkommen und Alter geschlechtsspezifisch 

ausgerechnet werden, so führt folgender Befehl zum Ziel. 

> summaryBy(Einkommen+Alter ~ Geschlecht, data=Daten2, FUN=c(min, max)) 

Geschlecht Einkommen.min Alter.min Einkommen.max Alter.max 

1 m 1000 28 3300 50 

2 w 1500 28 2700 50 

Wenn der Mittelwert von Einkommen und Alter gegliedert nach Geschlecht und Betriebsgröße 

berechnet werden soll, dann gebe folgenden Befehl ein. 

> summaryBy(Einkommen+Alter ~ Geschlecht+Betriebsgröße, data=Daten2, FUN=c(mean)) 

Geschlecht Betriebsgröße Einkommen.mean Alter.mean 

1 m g 3033.333 42.66667 

2 m k 1750.000 36.00000 

3 m m 2000.000 30.00000 

4 w k 1700.000 36.00000 

22

5 w m 2205.500 42.50000 

23

B.6. Kontrollfragen 

1. Erläutern Sie die Begriffe Deduktion und Induktion. 

2. Wie ruft man in 'R' Hilfeseiten auf? 

3. Es findet sich innerhalb der geladenen Programmpakete keine Hilfeseite. Was können Sie tun? 

4. Was bewirkt folgender Befehl: 

rm ( list=ls() )? 

5. Erläutern Sie folgende Anweisung: setwd("g:/Auswertung"). 

6. Bei folgender Anweisung hat sich ein Fehler eingeschlichen: YX

B.7. Aufgaben 

1. Nutze die Daten aus Tabelle 4 und 

1. berechne von jeder Variable das arithmetische Mittel. Geht das? 

2. Ziehe zweitens von jedem Einkommen das arithmetische Mittel des Einkommens ab und 

bilde von den so gebildeten neuen Einkommen das arithmetische Mittel. 

3. Erhöhe schließlich alle Einkommen um 100 Euro und verdopple das Alter. Berechnen aus den 

so modifizierten Daten das arithmetische Mittel des Einkommens bzw des Alters. 

25

C. Datenaufbereitung 

C.1. Häufigkeitsverteilung 

C.1.1. Absolute Häufigkeitsverteilung 

C.1.1.a. Grundlagen 

Daten werden aufbereitet, um sich einen ersten Überblick zu verschaffen. Sie dient der 

Plausibilitätsprüfung und der Entscheidungsvorbereitung, ob aufgrund der Beschreibung des 

Datensatzes bereits Entscheidungen getroffen werden können oder nicht. In letzterem Fall stellt 

sich die Frage, ob die Daten adäquat sind oder nicht. Sind sie nicht adäquat, so ist zu überlegen, ob 

neue Daten erhoben werden sollten oder nicht. Sollten sie im Hinblick auf die interessierende 

Fragestellung als adäquat beurteilt werden, so stellt sich die Frage, wie die Daten ausgewertet 

werden sollten. 

In der betrieblichen Praxis genügt häufig eine adäquate Beschreibung (auch bekannt als 

deskriptive Statistik) der vorliegenden Daten zur Entscheidungsvorbereitung. Ganz gleich, ob eine 

Vollerhebung oder Teilerhebung vorliegt, ergibt sich die Aufgabe, sie aufzubereiten. Dabei geht es 

ausschließlich um die Beschreibung der vorliegenden Daten, ohne etwas erklären zu wollen. Bei 

Stichproben etwa ist nicht das Ziel, auf die Situation in der Grundgesamtheit zu schließen. Dies ist 

Aufgabe der schließenden Statistik. 

Nach Abschluß der Datenerhebung liegen Rohdaten vor, d. h., daß jeder Person (oder sonstigem 

interessierenden Objekt) eine oder mehrere Merkmalsausprägungen zugeordnet sind. Tabelle 4 ist 

ein Beispiel für einen Rohdatensatz. Rohdaten geben uns aber wenig Auskunft: der 

Informationsgehalt ist zwar hoch, aber wir können diese Informationen mit unserem Gehirn nicht 

sinnvoll verarbeiten. Aus diesem Grund ist der Statistiker bemüht, die Merkmalsausprägungen in 

geeigneter Weise zusammenzufassen. Die wichtigsten Verfahren sind die absolute und relative 

Häufigkeitsverteilung, die Verteilungsfunktion, sowie bei gruppierten Daten Histogramme, bei zwei 

Merkmalen die Kontingenztabelle sowie die Lorenz-Kurve zur Darstellung von Konzentration. Bei 

der absoluten Häufigkeitsverteilung wird jeder Merkmalsausprägung die absolute Häufigkeit 

zugeordnet, mit der sie vorkommt. 

C.1.1.b. Beispiel 

Mit 'R' können absolute Häufigkeiten über den Befehl 'table' bestimmt werden. Auf Grundlage 

der Rohdaten in Tabelle 4 wurden die absoluten Häufigkeiten für alle Merkmale bestimmt. In der 

ersten Zeile befinden sich die Merkmalsausprägungen und in der zweiten die absoluten 

Häufigkeiten ihres Vorkommens. 

> table(Daten2$Einkommen) 

1000 1500 1900 2000 2111 2500 2700 2900 3300 

1 1 2 2 2 1 1 2 1 

> table(Daten2$Alter) 

28 30 42 50 

2 4 3 4 

> table(Daten2$Ausbildungsjahre) 

26

10 12 13 18 

4 4 3 2 

> table(Daten2$Geschlecht) 

m w 

7 6 

> table(Daten2$Betriebsgröße) 

g k m 

3 4 6 

C.1.1.c. Maßzahlen 

Arithmetisches Mittel 

Wird auf der Basis absoluter Häufigkeiten das arithmetische Mittel berechnet, so ist folgende 

Formel zu verwenden 

x := 1 

n ∑ k 

n i⋅x i . 

i = 1 

x i bezeichnet die Ausprägung des interessierenden Merkmals, n i ist die absolute Häufigkeit 

und k die Anzahl unterschiedlicher Beobachtungen. 

Empirische Varianz 

Sie ist definiert als 

s 2 2 1 

=s X := 

n ∑ n 

n i x i−x i = 1 

2 

. 

Welcher Datensatz muß folglich bei Anwendung dieser Formeln verwendet werden? ii Die Varianz 

ist ein Streuungsmaß, das heißt, sie gibt das Ausmaß an, indem die Beobachtungen in der 

Grundgesamtheit (bei einer Vollerhebung) bzw. einer Stichprobe herumvagabundieren. Ist die 

Varianz sehr groß, so liegen die Beobachtungen weit verstreut um das arithmetische Mittel herum. 

Je kleiner die Varianz wird, desto näher liegen die Beobachtungen um den Mittelwert herum. Ist die 

Varianz gleich 0, dann haben alle Beobachtungen exakt denselben Wert. 

Beispiel 

Wird auf der Basis der absoluten Häufigkeitsverteilung das arithmetische Mittel berechnet, so 

ergeben sich selbstverständlich dieselben Ergebnisse wie bei Berechnung auf der Basis von 

Rohdaten. Probieren Sie es zu Übungszwecken anhand einfacher Beispiele aus. Die Berechnung 

der empirischen Varianz kann in 'R' über die korrigierte Stichprobenvarianz erfolgen. Ausgegangen 

wird von dem Datensatz 3 mit den Variablen Einkommen, Alter, Bildungsjahre. Um zur 

(empirischen) Varianz zu gelangen, mit der die Varianz in der Grundgesamtheit berechnet wird, ist 

in ‚R’ 

>(n-1) * var(Daten$Einkommen) /n 

bzw. in unserem speziellen Fall 

> (4-1)* var(Daten$Einkommen) /4 

27

[1] 231875 

einzugeben. 

C.1.1.d. Graphische Veranschaulichung 

Der Befehl 

> table(Daten2$Einkommen) 

gibt die absolute Häufigkeitsverteilung nur temporär an. Soll im weiteren Verlauf einer statistischen 

Auswertung auf die absolute Häufigkeit Bezug genommen werden, so kann man durch Zuweisung 

eines Variablennamens das Ergebnis permanent machen. Beispielsweise unter Verwendung von 

Daten2 durch folgende Befehl. 

>absoluteHäufigkeit absoluteHäufigkeit 

liefert als Ergebnis: 

1000 1500 1900 2000 2111 2500 2700 2900 3300 

1 1 2 2 2 1 1 2 1 

Durch die Anweisung 

> plot(absoluteHäufigkeit) 

erzeugt 'R' folgende Abbildung. 

Abbildung 2: Graphische Veranschaulichung der absoluten Häufigkeit 

28

An der Abszisse sind die Merkmalsausprägungen abgetragen und an der Ordinate die zugehörigen 

absoluten Häufigkeiten. Durch 

> plot(absoluteHäufigkeit, xlab = "Einkommen") 

wird die Abszisse mit „Einkommen“ beschriftet. 

C.1.2. Relative Häufigkeitsverteilung 


Werden die absoluten Häufigkeiten durch die Anzahl an Beobachtungen dividiert, so erhält man 

die relative Häufigkeiten. Bei der relativen Häufigkeitsverteilung werden in der ersten Zeile die 

Merkmalsausprägungen und in der zweiten die zugehörigen relative Häufigkeiten angegeben. 

Die relative Häufigkeitsverteilung kann auch als Funktion geschrieben werden: 

h x ={ h i für x =x i 

0 sonst } 


Das Beispiel von S. 27 wird fortgeführt. Der Befehl 

> sum(absoluteHäufigkeit) 

[1] 13 

gibt die Anzahl der Beobachtungen, n, an. Die zuvor definierte Variable „absoluteHäufigkeit“ wird 

abgeändert zu 

> absoluteHäufigkeit/sum(absoluteHäufigkeit) 

1000 1500 1900 2000 2111 2500 2700 2900 3300 

0.07692308 0.07692308 0.15384615 0.15384615 0.15384615 0.07692308 0.07692308 0.15384615 

0.07692308 

und liefert dann die relative Häufigkeitsverteilung. Folgende Anweisung 

> relativeHäufigkeit sum(relativeHäufigkeit) 

[1] 1 

Als Häufigkeitsfunktion geschrieben erhält man: 

29

0.07692308 

0.15384615 

0.15384615 

0.15384615 

h x ={0.07692308 

0.07692308 

0.07692308 

0.15384615 

0.07692308 

für 1000 

für 1500 

für 1900 

für 2000 

für 2111 

für 2500 

für 2700 

für 2900 

für 3300} 

0 sonst 

C.1.2.c. Maßzahlen 

Arithmetisches Mittel 

Auf Grundlage der relativen Häufigkeitsverteilung errechnet sich das arithmetische Mittel über 

k 

x :=∑ h i⋅x i , mit h i :=n i /n , 

i= 1 

wobei h i für relative Häufigkeit steht, n i die absolute Häufigkeit des Vorkommens des 

Merkmals i angibt, k die Anzahl unterschiedlicher Merkmalsausprägungen kennzeichnet. 

Empirische Varianz 

Mit der relative Häufigkeitsverteilung läßt sich ebenfalls die empirische Varianz berechnen: 

s 2 2 

=s X :=∑ 

i = 1 

k 

h i x i −x 2 

, 

wobei die Variablen genauso definiert sind wie oben beim arithmetischen Mittel. 

Quantile 

Ein Quantil splittet einen Datensatz in zwei Teilbereiche auf. Angenommen, es wird das 0,25- 

Quantil gesucht, so ist die Ausprägung xi gesucht, bei der 25 Prozent der Ausprägungen kleiner 

oder gleich xi und 75 Prozent der Ausprägungen größer oder gleich xi sind. Das 0,25-Quantil heißt 

auch unteres Quartil, das 0,75-Quantil oberes Quartil und das 0,5-Quantil wird Median genannt. 

Beispiel 

Berechnet man auf Grundlage von Daten2 das arithmetische Mittel und die empirische Varianz 

mit Hilfe der relativen Häufigkeitsverteilung, so erhält man selbstverständlich dieselben Ergebnisse 

wie im Kapitel Absolute Häufigkeitsverteilung. 

Der Befehl „quantile(x)“ führt zu dem Ergebnis 

> quantile(Daten2$Einkommen) 

0% 25% 50% 75% 100% 

1000 1900 2111 2700 3300 

Dies bedeutet, daß 25 Prozent aller Ausprägungen kleiner oder gleich 1900 und 75 Prozent größer 

30

oder gleich 1900 sind. 

Alternativ hierzu kann der Median auch mit dem Befehl 

> median(Daten2$Einkommen, na.rm = FALSE) 

[1] 2111 

ermittelt werden. 

C.1.2.d. Graphische Veranschaulichung 

Der Befehl 

> plot(relativeHäufigkeit, xlab = "Einkommen",ylab="relative Häufigkeit") 

öffnet ein neues Fenster mit folgender Graphik. An der Waagerechten sind die 

Merkmalsausprägungen und an der Senkrechten die relativen Häufigkeiten abgetragen. 

Abbildung 3: Graphische Veranschaulichung der relativen Häufigkeiten 

C.2. Verteilungsfunktion 

C.2.1. Grundlagen 

Die empirische Verteilungsfunktion ist definiert als 

H x := ∑ x i x 

h x i , 

mit relativer Häufigkeit h x i . Das bedeutet, daß an jeder Stelle, an der x =x i , H x i um 

den Wert h x i steigt. Dies führt dazu, daß man an solchen Sprungstellen dem Wert H x i 

31

von links nicht beliebig nahe kommen kann, man sagt, daß die Funktion linksseitig nicht stetig ist. 

Von rechts aber kann man einer Sprungstelle beliebig nahe kommen, sie ist also rechtsstetig. 

Diese Art der Darstellung kann bei Vollerhebungen wie Teilerhebungen eingesetzt werden. Sie 

dient lediglich der Beschreibung der vorliegenden Daten. Liegt eine Teilerhebung vor, so ist bei der 

Interpretation allerdings Vorsicht geboten: es kann nicht einfach von der Teilerhebung auf die 

Grundgesamtheit geschlossen werden. Wurden beispielsweise bei der Datenerhebung systematisch 

Fehler gemacht, so wird sich dies in einem Bias, einer systematischen Verzerrung, in der 

Teilerhebung niederschlagen. Zudem hat die Art und Weise der Datenerhebung ceteris paribus 

systematischen Einfluß auf die Verteilung. Zusammenhänge dieser Art werden bei der 

Datenaufbereitung ausgeblendet. 

C.2.2. Beispiel 

Lade zuerst das Paket QRMlib, um die Funktion „edf“ (empirical distribution function) 

verfügbar zu machen. Durch Eingabe von 

> Eink Eink 

[1] 1000 1500 1900 1900 2000 2000 2111 2111 2500 2700 2900 2900 3300 

das Ergebnis angezeigt. Die Zeile 

> edf(Eink) 

[1] 0.07692308 0.15384615 0.30769231 0.30769231 0.46153846 0.46153846 0.61538462 

0.61538462 0.69230769 0.76923077 

[11] 0.92307692 0.92307692 1.00000000 

führt schließlich zur Ausgabe der empirischen Verteilungsfunktion, wobei freilich nur die 

kumulierten relativen Häufigkeiten abgetragen werden. Welche Angabe fehlt? 3 

C.2.3. Graphische Veranschaulichung 

Durch 

> c(500, Eink, 3500) 

[1] 500 1000 1500 1900 1900 2000 2000 2111 2111 2500 2700 2900 2900 3300 3500 

wird (auch wenn die Anzeige in einer Zeile erfolgt, um Platz zu sparen) ein Spaltenvektor erzeugt. 

1 

Versuchen Sie es selbst und erzeugen Sie den Spaltenvektor 

2 

3 

4 

. iii Eingabe von 

> plot(c(500, Eink, 3500), c(0,edf(Eink),1),xlab = "Einkommen", ylab = 

"H(Einkommen)",type="s") 

öffnet die folgende Graphik in einem neuen Fenster. Der Eintrag „c(500, Eink, 3500)“ gibt die 

Werte an, die an der Abszisse abgetragen werden und „c(0,edf(Eink),1)“ die Werte der Ordinate an. 

Der Befehl „type=“s“ weist das Programm an, eine Treppenfunktion zu zeichnen. Man erkennt, 

daß die Funktion treppenförmig von links nach rechts steigend verläuft: sie beginnt bei x-Werten 

3 Es fehlen die zugehörigen Sprungstellen x i . 

32

von −∞ bei Null, steigt dann in Stufen an und erreicht bei ∞ die Eins. Aus der Graphik geht 

allerdings nicht hervor, daß sie an Sprungstellen zwar rechts-, aber nicht linksseitig stetig ist. 

Markiere in der empirischen Verteilungsfunktion der Abbildung 4 die Sprungstellen x i und 

kennzeichne den zugehörigen Wert H x i , der rechtsseitig stetig ist durch einen schwarzen 

Punkt und markiere die Unstetigkeitsstelle durch einen Kreis. iv 

Abbildung 4: Graphische Veranschaulichung der empirischen Verteilungsfunktion 

C.3. Histogramme 

C.3.1. Absolute Häufigkeit 


Häufig kommt es vor, daß bei Erhebungen keine exakten Angaben erhoben werden, sondern der 

Befragte sich für eine Gruppe entscheiden soll. Zum Beispiel kann es sein, daß nicht das exakte 

monatliche Einkommen des letzten Monats, sondern das monatliche Einkommen, das 

durchschnittlich im Verlauf eines Jahres erzielt wird, abgefragt wird. Solche Daten können 

graphisch durch Histogramme veranschaulicht werden. Auf der Abszisse werden dann die 

Klassengrenzen und an der Ordinate entweder die absolute Klassenhäufigkeit oder die 

durchschnittliche Häufigkeitsdichte h x angegeben. 


Durch 

> hist(Daten2$Einkommen, main="Histogramm", xlab="Einkommen", ylab="absolute 

33

Häufigkeit") 

wird ein Histogramm mit dem Datensatz „Daten2“ und Spalte Einkommen gezeichnet. Zusätzlich 

wurden Befehle angegeben, mit Hilfe derer ein Titel und die Achsenbezeichnungen eingetragen 

werden können. 

Abbildung 5: Histogramm mit absoluten Häufigkeiten 

Die Interpretation dieses Histogramms fällt leichter, wenn man die Rohdaten der Größe nach 

sortiert. 

> sort(Daten2$Einkommen) 

[1] 1000 1500 1900 1900 2000 2000 2111 2111 2500 2700 2900 2900 3300 

An der Abszisse sind die Klassengrenzen eingetragen, sie werden in vorliegendem Fall durch das 

Programm selbsttätig erzeugt. An der Ordinate ist die absolute Häufigkeit der Beobachtungen 

abgetragen, die in die Klasse fällt. Ist eine Ausprägung identisch gleich der Klassenobergrenze, so 

wird sie der unteren Klasse zugeordnet. Beispielsweise fallen in das zweite Intervall die 

Ausprägungen „1900, 1900, 2000, 2000“, weshalb an der Ordinate die absolute Häufigkeit „4“ 

abgetragen ist; die Ausprägung „1500“ ist der ersten Klasse zugeordnet. 

C.3.2. Durchschnittliche Häufigkeitsdichte 


Aus den absoluten Häufigkeiten jeder Klasse lassen sich die relativen Klassenhäufigkeiten 

berechnen, indem erstere durch die Anzahl an Beobachtungen, n, dividiert werden. Teilt man nun 

die relative Klassehäufigkeit von Klasse j durch die zugehörige Klassebreite, so erhält man die 

durchschnittliche Häufigkeitsdichte. Sie gibt an, mit welcher relativen Häufigkeit 

Merkmalsausprägungen in dieser Klasse vorkommen. 

34

Werden an der Abszisse die Klassenbreiten und der Ordinate die jeweilige durchschnittliche 

Häufigkeitsdichte abgetragen, so erhalten wir eine Abbildung, die als Histogramm mit 

durchschnittlicher Häufigkeitsdichte oder einfach als Histogramm bekannt ist. Durch diese 

Darstellungsform wird kenntlich gemacht, wie viele Beobachtungen durchschnittlich in Klasse j zu 

liegen kommen, die genaue Verteilung innerhalb der einzelnen Klassen ist nicht ersichtlich. 


Die Anweisung 

> hist(Daten2$Einkommen, plot=FALSE) 

führt zu folgender Anzeige. In der zweiten Zeile sind die Klassengrenzen angegeben und in der 

vierten Zeile die jeweiligen absoluten Klassenhäufigkeiten. Die Klassenbreiten sind über alle 

Klassen hinweg identisch gleich 500, sie sind äquidistant. Division der absoluten 

Klassenhäufigkeiten durch die Anzahl an Beobachtungen in Höhe von n=13 ergibt die relativen 

Klassenhäufigkeiten, die hier nicht angegeben sind. Die durchschnittlichen Häufigkeitsdichten sind 

nach der mit „$density“ gekennzeichneten Zeile abgetragen. 

$breaks 

[1] 1000 1500 2000 2500 3000 3500 

$counts 

[1] 2 4 3 3 1 

$intensities 

[1] 0.0003076922 0.0006153846 0.0004615385 0.0004615385 0.0001538462 

$density 

[1] 0.0003076922 0.0006153846 0.0004615385 0.0004615385 0.0001538462 

$mids 

[1] 1250 1750 2250 2750 3250 

$xname 

[1] "Daten2$Einkommen" 

$equidist 

[1] TRUE 

attr(,"class") 

[1] "histogram" 

Zur Erzeugung des Histogramms mit durchschnittlicher Häufigkeitsdichte ist nachfolgender 

Befehl nötig. 

> hist(Daten2$Einkommen, main="Histogramm", xlab="Einkommen", 

ylab="durchschnittliche Häufigkeitsdichte", freq=FALSE) 

35

Abbildung 6: Histogramm mit durchschnittlicher Häufigkeitsdichte 

An der Ordinate ist die durchschnittliche Häufigkeitsdichte der ersten Klasse mit 0,0003 

angegeben, das heißt, die durchschnittliche relative Häufigkeit, mit der in dieser Klasse 

Beobachtungen vorgefunden werden beträgt 2/13/500=2/13∗500 =0,0003076923≃0,0003 . 

Um zu der relativen Häufigkeit an Beobachtungen in dieser Klasse zu gelangen, ist die 

durchschnittliche Häufigkeitsdichte mit der zugehörigen Klassenbreite von fünfhundert (= 1500- 

1000) malzunehmen. Mit anderen Worten gibt die Fläche die relative Häufigkeit der Besetzung 

einer Klasse mit Beobachtungen an. 

C.4. Kontingenztabelle 

C.4.1. Gemeinsame Verteilung 


„Kleben“ an einer statistischen Einheit (bspw. einer Person) zwei Merkmale, so kann man die 

gemeinsame Verteilung beider Variablen in einer Kontingenztabelle (gelegentlich auch 

Korrelationstabelle genannt) darstellen. n ij soll die absolute Häufigkeit der 

Merkmalskombination angeben, mit der Merkmal x Ausprägung x i und Merkmal y 

Ausprägung y j aufweist. n 12 kennzeichnet dann beispielsweise die absolute Häufigkeit des 

Auftretens der Kombination x 1 und y 2 . Eine vier mal drei Kontigenztabelle hat folgende 

Gestalt. 

y1 y2 y3 

x1 n11 n12 n13 

36

y1 y2 y3 

x2 n21 n22 n23 

x3 n31 n32 n33 

x4 n41 n42 n43 

Tabelle 5: Gemeinsame Verteilung dargestellt in einer Kontingenztabelle 

In der waagerechten Tabellenüberschrift wird die Variable y mit den Ausprägungen y j und in der 

senkrechten die Variable x mit Ausprägungungen x i abgetragen. Alternativ zu dieser 

Darstellungsform können statt der absoluten Häufigkeiten die relativen Häufigkeiten genutzt 

werden. 


Mit den Rohdaten in Tabelle 4 kann anhand der Merkmale Geschlecht und Betriebsgröße eine 

Kontingenztabelle erzeugt werden. In der ersten Zeile stehen die Merkmalsausprägungen des 

Merkmals „Betriebsgröße“ und in der ersten Spalte die des Geschlechtes. 

> table(Daten2$Geschlecht,Daten2$Betriebsgröße) 

g k m 

m 3 2 2 

w 0 2 4 

Zur Berechnung der Anzahl an Beobachtungen, n, führt: 

> sum(table(Daten2$Geschlecht,Daten2$Betriebsgröße)) 

[1] 13 

Division der obigen Kontingenztabelle durch die Anzahl an Beobachtungen, n, führt zu einer 

Kontingenztabelle mit relativen Häufigkeiten. 

> 

table(Daten2$Geschlecht,Daten2$Betriebsgröße)/sum(table(Daten2$Geschlecht,Daten2$Betri 

ebsgröße)) 

g k m 

m 0.2307692 0.1538462 0.1538462 

w 0.0000000 0.1538462 0.3076923 

Die Summe aller relativen Häufigkeiten muß selbstverständlich wieder 1 ergeben. 

> 

sum(table(Daten2$Geschlecht,Daten2$Betriebsgröße)/sum(table(Daten2$Geschlecht,Daten2$ 

Betriebsgröße))) 

[1] 1 

C.4.2. Randverteilungen 


Summiert man in Tabelle 5 alle absoluten Häufigkeiten einer Zeile auf, so erhält man die 

37

absolute Häufigkeit der Merkmalsausprägung x i • . Der Punkt in x i • deutet an, daß bei 

gegebenem i über aller Ausprägungen des Merkmals y aufsummiert wird. Addition aller absoluten 

Häufigkeiten der Spalte j ergibt die absolute Häufigkeit der Merkmalsausprägung y • j . Mit 

anderen Worten steht in der letzten Spalte die absolute Häufigkeitsverteilung des Merkmals x und 

in der untersten Zeile jene des Merkmals y. Sind in der Kontingenztabelle relative Häufigkeiten 

abgetragen und errechnet man die Randverteilungen, so erhält man die relativen 

Häufigkeitsverteilungen des Merkmals x bzw. y. 

y1 y2 y3 Randverteilung 

x1 n11 n12 n13 n1• 

x2 n21 n22 n23 n2• 

x3 n31 n32 n33 n3• 

x4 n41 n42 n43 n4• 

Randverteilung 

Absolute 

Häufigkeitsverteilung 

y 

n•1 n•2 n•3 

Tabelle 6: Randverteilung dargestellt in einer Kontingenztabelle 

Absolute 


x 

In Kontingenztabelle 6 sind die absoluten Häufigkeiten abgetragen. Teilt man sie durch n, die 

Anzahl aller Merkmalsausprägungen, so erhält man die relative gemeinsame Häufigkeitsverteilung, 

bzw. die relativen Randverteilungen. 


Durch folgende Zuordnung kann die Kontingenztabelle über „KT“ angesprochen werden. 

> KT KT 

g k m 

m 3 2 2 

w 0 2 4 

Über 

> KT[1,] 

g k m 

3 2 2 

wird die erste Zeile angesprochen und der Befehl 

> KT[2,] 

g k m 

38

0 2 4 

spricht Zeile zwei an. Im Gegensatz zu der oben angeführten mathematischen Notation fehlt bei 

„KT[2,]“ nach dem Komma der Punkt, doch die Interpretation ist ansonsten ähnlich: lese alle Daten 

der Zeile zwei aus. Anwendung der Anweisung 

> sum(KT[1,]) 

[1] 7 

errechnet die absolute Häufigkeit der Merkmalsausprägung x 1 • und 

> sum(KT[2,]) 

[1] 6 

ergibt die absolute Häufigkeit des anderen Merkmals. Mit dem folgenden Befehl wird die erste 

Spalte angesprochen und die Berechnung der absoluten Häufigkeiten von variable „Betriebsgröße“ 

erfolgt analog. 

> KT[,1] 

m w 

3 0 

> KT[,2] 

m w 

2 2 

> KT[,3] 

m w 

2 4 

> sum(KT[,1]) 

[1] 3 

> sum(KT[,2]) 

[1] 4 

> sum(KT[,3]) 

[1] 6 

C.4.3. Bedingte Verteilung und statistische Unabhängigkeit 


Die bedingte absolute Häufigkeitsverteilung von x unter y1 läßt sich in Tablle 6 aus ersten Spalte 

ablesen. Dividiert man sie durch n • 1 , so ergibt sich die bedingte relative Häuigkeitsverteilung: 

n 11 /n • 1 , n 21 /n • 1 , n 31 /n • 1 , n 41 /n • 1 . Hält man also bei zweidimensionalen Variablen x 

und y eine konstant (z.B. yi) und betrachtet die absolute Häufigkeiten der anderen Variablen x bei 

gegebener Ausprägung yi, so heißt diese bedingte absolute Häufigkeitsverteilung von x unter yi. 

Falls sich die gemeinsame Verteilung der Variablen x und y durch Multiplikation der 

Randverteilungen, also 

h i , j =h i • ∗h • j für alle i und j, 

39

ergibt, so sagen wir, die Variablen x und y sind statistisch unabhängig. In diesem Fall sind alle 

relativen bedingten Häufigkeiten von x wie auch y identisch und exakt gleich den jeweiligen 

Randverteilungen. 


Ausgehend von folgender Kontingenztabelle 

g k m 

m 3 2 2 

w 0 2 4 

ergibt sich als bedingte absolute Häufigkeitsverteilung des Geschlechts bei großen Firmen folgende 

Verteilung: 3 männliche und keine weiblichen Beobachtungen. Die bedingte relative 

Häufigkeitsverteilung des Geschlechts bei großen Firmen ist: männlich 1, weiblich 0. 

C.5. Lorenz-Kurve 

C.5.1. Grundlagen 

Zur Konstruktion einer Lorenz-Kurve ist ein kardinales Merkmal nötig, das folgende 

Bedingungen erfüllt: 

a) ∀ i ∈ {1,2 ,3 , ... , i , ... , k } x i 0 und 

b) 0 x 1 x 2 ⋯ x k . 

Mit anderen Worten müssen die Merkmalsausprägungen größer oder gleich 0 und der Größe nach 

angeordnet sein. Der Index „k“ ist kleiner oder gleich der Anzahl an Beobachtungen n: falls alle 

Ausprägungen voneinander verschieden sind, so ist k=n, andernfalls gibt es mindestens zwei 

identische Ausprägungen. Unter der Voraussetzung, daß diese Bedingungen erfüllt sind, kann die 

absolute Häufigkeitsverteilung erstellt werden. Zwecks Vereinfachung der Darstellung wird davon 

ausgegangen, daß k=4 ist. 

Merkmalsausprägung 

absolute 

Häufigkeit 

x1 x2 x3 x4 

n1 n2 n3 n4 

Tabelle 7: 1. Schritt zur Erstellung einer Lorenz-Kurve-absolute Häufigkeitsverteilung 

Im zweiten Schritt wird die gesamte Merkmalsumme errechnet: 

gesamte Merkmalssumme =S :=∑ i = 1 

k 

n i∗x i . 

Drittens wird die absolute Häufigkeitsverteilung wie folgt verändert. 

Kumulierter 

Anteil an der 

Merkmalssumme 

Kumulierte 

Häufigkeit 

(n1* x1)/S (n1* 

x2)/S 

x1+n2* 

(n1* x1+n2* x2+n3* 

x3)/S 

(n1* x1+n2* x2+n3* x3+n4* 

x4)/S 

n1/n (n1+n2)/n (n1+n2+n3)/n (n1+n2+n3+n4)/n 

Tabelle 8: 2. Schritt zur Erstellung einer Lorenz-Kurve 

40

Der erste Eintrag dieser Tabelle ist folgendermaßen zu interpretieren. Auf n1/n der Population 

entfällt (n1* x1)/S des interessierenden Merkmals. Aufgrund dieser Tabelle läßt sich die Lorenz- 

Kurve erstellen, indem auf der Abszisse die kumulierte Häufigkeit und der Ordinate der kumulierte 

Anteil der Merkmalssumme abgetragen wird. Definitionsmenge und Wertebereich der Lorenz- 

Kurve sind deshalb identisch gleich dem Intervall [0,1]. Die Lorenz-Kurve besteht aus dem 

Streckenzug, der sich durch Verbindung der Punkte (0,0) und den Werten der Tabelle 8 ergeben. 

C.5.2. Beispiel 

Lade das Paket „ineq“, um die nötigen Befehle verfügbar zu machen. Die Anweisung 

> a a 

1000 1500 1900 2000 2111 2500 2700 2900 3300 

1 1 2 2 2 1 1 2 1 

führt zur Erstellung der absoluten Häufigkeitsverteilung. Der Befehl „Lc“ dient zur Erstellung der 

Lorenz-Kurve, wobei als erstes Argument die Merkmalsausprägungen als Spaltenvektor, c(1000, 

1500, 1900, 2000, 2111, 2500, 2700, 2900, 3300), und dann der Spaltenvektor mit den zugehörigen 

absoluten Häufigkeiten, c( 1,1,2,2,2,1,1,2,1), angegeben werden muß. 

> Lorenz Lorenz 

$p 

[1] 0.00000000 0.07692308 0.15384615 0.30769231 0.46153846 0.61538462 0.69230769 0.76923077 0.92307692 

1.00000000 

$L 

[1] 0.00000000 0.03469572 0.08673930 0.21858303 0.35736590 0.50385122 0.59059052 0.68426896 0.88550413 

1.00000000 

$L.general 

[1] 0.0000 111.1111 277.7778 700.0000 1144.4444 1613.5556 1891.3333 2191.3333 2835.7778 3202.4444 


[1] "Lc" 

41

Abbildung 7: Lorenz-Kurve 

Die Korrektheit der Berechnungen können durch folgende Eingaben überprüft werden. 

> Summe Summe 

[1] 28822 

Die erste Merkmalsausprägung ist 1000, Division durch die gesamte Merkmalssumme ergibt: 

> 1000/Summe 

[1] 0.03469572 

Dieselbe Rechnung analog für die ersten beiden Merkmalsausprägungen durchgeführt macht: 

> 2500/Summe 

[1] 0.0867393 

Der Anteil der ersten Merkmalsausprägungen an allen Merkmalen ist 

> 1/13 

[1] 0.07692308 

und der der ersten beiden Merkmalsausprägungen 

> 2/13 

[1] 0.1538462 

Die restlichen Berechnungen sollten Sie zur Übung analog durchführen. 

42

C.5.3. Maßzahlen 

C.5.3.a. Gini-Koeffizient 

Die Lorenz-Kurve vermittelt einen visuellen Eindruck von der Konzentration der 

Merkmalsausprägungen in einer Population. Um Konzentrationen verschiedener Populationen 

miteinander vergleichen zu können, wäre eine Maßzahl nützlich, die nur Werte innerhalb eines 

vorher bestimmten Bereiches annehmen kann, also normiert ist. Der Gini-Koeffizient ist eine 

solche Größe, mit der Konzentrationen in verschiedenen Grundgesamtheiten miteinander 

verglichen werden können. 

Er ist definiert als 

Konzentrationsfläche 

Gini := 

Fläche zwischen Diagonalenund Abszisse 

= Konzentrationsfläche 

1 

2 

Die Konzentrationsfläche ist gleich der Fläche zwischen Diagnoale und Lorenz-Kurve. Ist die 

Lorenz-Kurve identisch mit der Diagonalen, so ist der Gini gleich Null: es gibt keine 

Konzentration. 


Die Berechnung des Gini mit „Daten2“ und Merkmal „Einkommen“ kann mit den Rohdaten 

erfolgen, eine Sortierung nach der Größe ist in 'R' nicht nötig. 

> Gini(Daten2$Einkommen) 

[1] 0.1511185 

> Gini(sort(Daten2$Einkommen)) 

[1] 0.1511185 

Die Situation bei Konzentration aller Merkmalsausprägungen auf eine statistische Einheit wird 

durch folgendes Beispiel illustriert. Es gibt insgesamt 5 Personen, allerdings verdienen 4 gar nichts 

und eine 3300 Euro. Damit erhält man folgende Definitionsmenge und Wertebereich: 

> Lorenz Lorenz 

$p 

[1] 0.0 0.2 0.4 0.6 0.8 1.0 

$L 

[1] 0 0 0 0 0 1 

$L.general 

[1] 0 0 0 0 0 660 


[1] "Lc"$p 

Die untere Graphik zeigt, daß bei Konzentration auf ein Merkmal, nicht die gesamte Fläche 

unterhalb der Diagonalen (= Seitenlänge∗Seitenlänge 

2 

43 

= 1∗1 

=1/ 2 ) , sondern nur aus 

2 

.

1 1 

− 

2 2∗5 

oder allgemein 1 1 −1 

− =n 

2 2∗n 2∗n 

zusammensetzt. Man beachte dabei, daß der 

Flächeninhalt des kleinen Dreiecks sich errechnet über (Seitenlänge mal Seitenlänge)/2, also 

1∗1/5 

= 

2 

1 

2∗5 . 

> Lorenz Gini(c(0,0,0,0, 3300)) 

[1] 0.8 

∗ 

1 

2 

n−1 

n 

=Gini∗ n 

n−1 . 

und hieraus errechnet sich mit n=5 der Gininormiert als 

> 0.8*5/4 

[1] 1 

44

C.6. Kontrollfragen 

1. Wodurch unterscheiden sich deskriptive und schließende Statistik? 

2. Wovon hängt es ab, ob die deskriptive oder schließend Statistik zu Anwendung kommt? 

3. Was versteht man unter Vollerhebung, was unter Teilerhebung, was unter Stichprobe? 

4. Was versteht man unter einer statistischen Einheit? 

5. Bei welchen Daten nutzt man die empirische Varianz? 

6. Wie errechnen Sie die empirische Varianz 

1. bei Rohdaten, 

2. bei Vorliegen einer absoluten Häufigkeitsverteilung und wie 

3. bei einer relativen Häufigkeitsverteilung? 

7. Wie ist die korrigierte Stichprobenvarianz definiert? 

8. Wie können Sie die empirische Varianz aus der korrigierten Stichprobenvarianz berechnen? 

9. Was versteht man unter einem Quantil? 

10.Gegeben sei folgende Auswertung: 

0% 25% 50% 75% 100% 

1000 1900 2111 2700 3300 

Geben Sie den Median sowie das untere und obere Quartil an. 

11.Wie ist eine Verteilungsfunktion definiert? 

12.Welcher Eigenschaften hat eine Verteilungsfunktion? 

13.Was versteht man unter einer Kontingenztabelle? 

14.Geben Sie beispielhaft eine 2X2-Kontingenztabelle an und interpretieren Sie sie. 

15.Wie erhalten Sie aus einer Kontingenztabelle die zugehörigen Randverteilungen? 

16.Interpretieren Sie einen Punkt auf einer Lorenz-Kurve. 

17.Was versteht man unter dem Gini- und was unter dem normierten Gini-Koeffizienten? 

45

C.7. Aufgaben 

1. Zeige, daß die Summe aller relativen Häufigkeiten immer gleich 1 sein muß. 

2. Geben Sie Beispiele an, bei denen die deskriptive Statistik relevant ist, und begründen Sie Ihre 

Entscheidung. v 

3. Was ist der Unterschied zwischen der empirischen Varianz und der Stichprobenvarianz? vi 

4. In einem Warenhaus wurden von der ersten Person 20 Taschentücher, der zweiten 20, der dritten 

30 und der vierten 40 Taschentücher gekauft. vii 

1. Berechnen Sie mit 'R' die absolute Häufigkeitsverteilung, 

2. die relative Häufigkeitsverteilung, 

3. die 25%-, 50%- und 75%-Quantile und 

4. stellen Sie die Verteilungsfunktion graphisch dar. 

5. Erläutern Sie, warum 20 ein 25 Prozent Quantil, warum 25 der Median und 32,5 das obere 

Quartil ist. 

5. Die erste Person gibt in einem Geschäft 20, die zweite 30 und die dritte 40 Euro aus. Bestimmen 

Sie mit 'R' die 25%-, 50%- und 75%-Quantile und erläutern Sie das Ergebnis. viii 

46

Stichwortverzeichnis 

Ancienitätsprinzip 18 

Bias 20 

Deduktion 12 

Einheit 

statistische 43 

Gini-Koeffizient 43 

normiert 44 

Grundgesamtheit 12 

Häufigkeitsdichte 

durchschnittliche 34 


relative gemeinsame 38 

Histogramm 33 

absolute Klassenhäufigkeit 33 

Induktion 12 

Konsistenz 19 

Kontingenztabelle 36 

Korrelationstabelle 36 

Lorenz-Kurve 40 

Median 30 

Merkmal 

kardinal 22 

nominal 21 

ordinal21 

Mittel 

bei absoluten Häufigkeiten 

arithmetisches27 

bei relativen Häufigkeiten 


bei Rohdaten 


Plausibilität 15 

Plausibilitätsprüfung 18 

Programmpaket 14 

Quantil 30 

Quartil 

oberes 30 

unteres30 

Randverteilung 38 

relative 38 

Rohdaten 19 

Statistik 

multivariate 19 

univariate 19 

Stichprobenvarianz 

korrigierte 20 

Streuungsmaß 27 

Teilerhebung 12 

Unabhängigkeit 

statistische 40 

Urliste 19 

Varianz 

empirische 30 

Grundgesamtheit 

empirische 20 

Stichprobe 

empirische 20 

Verteilung 

bedingte 39 

Verteilungsfunktion 

empirische 31 

Verzerrung 

systematische 20 

Vollerhebung 12 

47

Literaturverzeichnis 

Hinweis: Es gibt eine Vielzahl an Statistiklehrbüchern. Das Buch von Bamberg, Baur ist seit Jahren 

ein Klassiker. Schira, ein neueres Werk, gibt einen fundierten Einstieg, in die Theorie, ohne zu 

mathematisch daherzukommen. Zwerenz gibt einen Einstieg in die Auswertung mit Hilfe von Excel 

und SPSS, beides kommerzielle Standardsoftware. 

Bamberg, Günter, Baur, Franz, Statistik, Oldenbourg Verlag: München, Wien, 1984. 

Schira, Josef, Statistische Methoden der VWL und BWL, Theorie und Praxis, Pearson Studium: 

München, Boston, San Francisco, und andere Orte, 2005. 

Zwerenz, Karlheinz, Statistik, Datenanalyse mit Excel und SPSS, Oldenbourg Verlag: München, 

Wien, 2006. 

49

i Berechnet wird die korrigierte Stichprobenvarianz. Sie dient, bei Vorliegen von Daten aus einer Stichprobe mit 

Zurücklegen, zur Schätzung der Streuung in der Grundgesamtheit. Bei Plausibilitätsprüfungen wäre die 

empirische Varianz (Stichprobenvarianz) und nicht die korrigierte zu berechnen. Denn die Plausibilitätsprüfung 

erstreckt sich auf die Daten in der (einfachen) Stichprobe. 

ii Rohdaten. Wird als Datengrundlage die absolute Häufigkeitsverteilung verwendet so wäre 

Var x= 

2 = 2 

1 

:= 

X 

k 

n−1 ∑ i =0 

n i xi −x 2 bzw. s 2 2 1 

=s X := 

n ∑ k 

n i x i−x i = 1 

2 zu verwenden. 

iii c(1,2,3,4) 

iv Der Befehl > plot(c(500, Eink, 3500), c(0,edf(Eink),1),xlab = "Einkommen", ylab = "H(Einkommen)",type="p") 

zeigt die Sprungstellen an, bei denen H(x) rechtsseitig stetig ist. 

v Mögliche Antworten: Ausstehende Zahlungen 

vi Die empirische Varianz wird zur Beschreibung der Streuung in der Grundgesamtheit. Liegen Daten einer 

Stichprobe vor, so dient sie zur Beschreibung der Streuung in der Sichprobe. In diesem Fall heißt die empirische 

Varianz auch Stichprobenvarianz. Die korrigierte Stichprobenvarianz dient zur Schätzung der Varianz in der 

Grundgesamtheit mit Hilfe von Stichprobendaten. 

vii Die Dateneingabe kann über 

> b table(b) 

b 

20 30 40 

2 1 1 

Relative Häufigkeitsverteilung 

> table(b)/sum(table(b)) 

b 

20 30 40 

0.50 0.25 0.25 

Die Quantile erhält man über 

> quantile(b) 

0% 25% 50% 75% 100% 

20.0 20.0 25.0 32.5 40.0 

Die Verteilungsfunktion erhält man über 

> plot(c(0,b,50),c(0, edf(b),1),type="s") 

Die Ausprägung 20 ist ein unteres Quartil, weil es insgesamt 4 Beobachtungen gibt: 20, 20, 30, 40. Zwischen den 

ersten beiden Ausprägungen liegt das 25%-Quantil (=Quartil), zwischen der zweiten und dritten Ausprägung liegt 

der Median. Er ist nicht eindeutig, nimmt das Programm die Mitte zwischen der zweiten Ausprägung (=20) und 

der dritten (= 30), also 25. Zwischen 30 und 40 ist das obere Quartil (=75%-Quantil), es ist ebenfalls nicht 

eindeutig bestimmt. 'R' nimmt das arithmetische Mittel zwischen dem Median und dem oberen Wert (=40), wie 

man leicht nachrechnen kann: 

> (25+40)/2 

[1] 32.5 

viii Dateneingabe 

> a quantile(a) 

0% 25% 50% 75% 100% 

20 25 30 35 40 

Der Median ist eindeutig bei Beobachtung 30. Unterhalb von 20 und oberhalb von 40 sind keine Ausprägungen und 

das untere und obere Quartil sind nicht eindeutig. Aus diesem Grund nimmt 'R' das arithmetische Mittel von 

Median und dem Wert 20 bzw. dem Wert 40, wodurch sich die Quartile, unteres 25 und oberes mit 35, erklären.

Angewandte Statistik mit R - Quia

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?