buch.041116.pdf - PDF-Format
buch.041116.pdf - PDF-Format
buch.041116.pdf - PDF-Format
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
1.2. ANALYSE UNIVARIATER DATEN 45<br />
sollte, wie kann die Zahl dann interpretiert werden? Wie würde ein Bill Gates eine<br />
solche Statistik beeinflussen?<br />
Man hat das Gefühl, daß die bloße Angabe eines Mittelwertes oder auch eines<br />
Medians nicht ausreicht, um Aussagen über die Einkommensverhältnisse so vieler<br />
Menschen zu machen. Offensichtlich würde ein Boxplot in dieser Situation bereits<br />
für viel Klarheit sorgen. Es gibt eine Reihe von Maßzahlen, die versuchen, diese<br />
Unterschiede bei den Beobachtungen zu quantifizieren.<br />
Definition: Spannweite (range)<br />
Wie groß ist der Bereich, auf dem die Daten liegen? Wie breit machen sich die<br />
Daten auf der Merkmalsachse?<br />
sw = x(n) − x(1)<br />
Definition: Interquartilsabstand (iqd, iqr)<br />
Wie groß ist der Bereich, auf dem die zentralen 50% Daten liegen? Wie breit<br />
ist das Rechteck beim Boxplot?<br />
iqr = x0.75 − x0.25<br />
Diese beiden Maßzahlen zusammen betrachtet geben bereits erste Aufschlüsse<br />
über die Eigenarten eines Datensatzes. Sind nämlich die Unterschiede zwischen<br />
den beiden Maßzahlen außergewöhnlich groß — dabei ist natürlich die Maßeinheit<br />
zu berücksichtigen —, dann ist das ein erstes Indiz für Ausreißer im Datensatz.<br />
Bei der Stichprobe x und auch beim gesamten Datensatz buecher.stud scheint<br />
das gerade der Fall zu sein — vgl. Seite 41:<br />
> diff(range(x)); diff(range(buecher.stud))<br />
> iqd(x); iqd(buecher.stud) in:8<br />
795<br />
3000<br />
60<br />
80<br />
Die 795 ist wesentlich größer als die 60, und auch 3000 ist viel größer als 80.<br />
Die nächsten beiden Graphiken verallgemeinern nun diese Idee. Es werden<br />
die p%-zentralen Daten betrachtet, wobei p alle Werte zwischen 0% und 100%<br />
annimmt. Es wird jeweils die Spannweite ausgerechnet und gegen p abgetragen.<br />
Für p = 100 ergibt sich der range, für p = 0.5 der Interquartilsabstand.<br />
<br />
<br />
out:8