01.09.2013 Aufrufe

buch.041116.pdf - PDF-Format

buch.041116.pdf - PDF-Format

buch.041116.pdf - PDF-Format

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

1.2. ANALYSE UNIVARIATER DATEN 45<br />

sollte, wie kann die Zahl dann interpretiert werden? Wie würde ein Bill Gates eine<br />

solche Statistik beeinflussen?<br />

Man hat das Gefühl, daß die bloße Angabe eines Mittelwertes oder auch eines<br />

Medians nicht ausreicht, um Aussagen über die Einkommensverhältnisse so vieler<br />

Menschen zu machen. Offensichtlich würde ein Boxplot in dieser Situation bereits<br />

für viel Klarheit sorgen. Es gibt eine Reihe von Maßzahlen, die versuchen, diese<br />

Unterschiede bei den Beobachtungen zu quantifizieren.<br />

Definition: Spannweite (range)<br />

Wie groß ist der Bereich, auf dem die Daten liegen? Wie breit machen sich die<br />

Daten auf der Merkmalsachse?<br />

sw = x(n) − x(1)<br />

Definition: Interquartilsabstand (iqd, iqr)<br />

Wie groß ist der Bereich, auf dem die zentralen 50% Daten liegen? Wie breit<br />

ist das Rechteck beim Boxplot?<br />

iqr = x0.75 − x0.25<br />

Diese beiden Maßzahlen zusammen betrachtet geben bereits erste Aufschlüsse<br />

über die Eigenarten eines Datensatzes. Sind nämlich die Unterschiede zwischen<br />

den beiden Maßzahlen außergewöhnlich groß — dabei ist natürlich die Maßeinheit<br />

zu berücksichtigen —, dann ist das ein erstes Indiz für Ausreißer im Datensatz.<br />

Bei der Stichprobe x und auch beim gesamten Datensatz buecher.stud scheint<br />

das gerade der Fall zu sein — vgl. Seite 41:<br />

> diff(range(x)); diff(range(buecher.stud))<br />

> iqd(x); iqd(buecher.stud) in:8<br />

795<br />

3000<br />

60<br />

80<br />

Die 795 ist wesentlich größer als die 60, und auch 3000 ist viel größer als 80.<br />

Die nächsten beiden Graphiken verallgemeinern nun diese Idee. Es werden<br />

die p%-zentralen Daten betrachtet, wobei p alle Werte zwischen 0% und 100%<br />

annimmt. Es wird jeweils die Spannweite ausgerechnet und gegen p abgetragen.<br />

Für p = 100 ergibt sich der range, für p = 0.5 der Interquartilsabstand.<br />

<br />

<br />

out:8

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!