R-Workshop II - Inferenzstatistik
R-Workshop II - Inferenzstatistik
R-Workshop II - Inferenzstatistik
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
R-WORKSHOP <strong>II</strong><br />
<strong>Inferenzstatistik</strong><br />
Johannes Pfeffer<br />
Dresden, 25.1.2011
01 Outline<br />
Lösung der Übungsaufgabe<br />
Selbstdefinierte Funktionen<br />
<strong>Inferenzstatistik</strong><br />
t-Test<br />
Kruskal-Wallis Test<br />
Übungsaufgabe<br />
TU Dresden, 25.1.2011 R-<strong>Workshop</strong>: <strong>Inferenzstatistik</strong> Folie 2 von 26
02 Bartwuchs<br />
Lösung der Übungsaufgabe aus <strong>Workshop</strong> I<br />
Gerd Glatzel, der ein existenzielles Problem mit seinem Haarwuchs hat (den<br />
üppigsten Teil seiner Kopfbedeckung stellen die Augenbrauen dar), stößt bei der<br />
Lektüre seiner Lieblingszeitschrift „Mann vorm Spiegel“ auf das folgende Inserat<br />
der Rapunzel AG:<br />
„Doppel-Haar, das erfolgreichste Haarwuchsmittel, das es je gab! 50% der<br />
Anwender hatten einen monatlichen Haarwuchs von 0,8 cm oder mehr - innerhalb<br />
eines Monats durchschnittlich 1,4 cm längeres Haar.“<br />
Die Lösung seines Problems erhoffend, greift Glatzel sofort zu. Einen Monat später<br />
hat er auch noch die spärlichen Reste seiner „Kopfbedeckung“ verloren. Erbost<br />
sucht er die Rapunzel AG auf (die Blöße mit einem Hut bedeckend), um seinem<br />
Ärger Luft zu machen. Dort erhält er eine Tabelle mit Haarwuchsergebnissen von<br />
Testpersonen des Mittels Doppel-Haar (Haarwuchs innerhalb eines Monats in cm;<br />
negative Werte stehen für Haarausfall).<br />
2. Überprüfe die Herstellerangaben indem du den durchschnittlichen Haarwuchs<br />
sowie den Median, die Varianz und die Standardabweichung des<br />
Haarwuchses berechnest.<br />
3. Zeichne ein Boxplot des Haarwuchses.<br />
4. Zeichne ein Histogramm des Haarwuchses.<br />
5. Schätze mittels eines QQ-Plots ein, ob eine Normalverteilung vorliegt.
02 Bartwuchs<br />
Lösung der Übungsaufgabe aus <strong>Workshop</strong> I<br />
2. Überprüfe die Herstellerangaben indem du den durchschnittlichen Haarwuchs<br />
sowie den Median, die Varianz und die Standardabweichung des<br />
Haarwuchses berechnest.<br />
> haar install . packages (" pastecs ")<br />
> library ( pastecs )<br />
> stat . desc ( haar )<br />
Haarwuchs<br />
(...)<br />
min -4.2000000<br />
max 10.8000000<br />
range 15.0000000<br />
sum 56.0000000<br />
median 0.8000000 //
02 Bartwuchs<br />
Lösung der Übungsaufgabe aus <strong>Workshop</strong> I<br />
3. Zeichne ein Boxplot des Haarwuchses.<br />
> boxplot ( haar )<br />
0 5 10<br />
●<br />
Es wird sichtbar, dass ein extremer Ausreißer die Werbeaussage verzerrt.
02 Bartwuchs<br />
Lösung der Übungsaufgabe aus <strong>Workshop</strong> I<br />
4. Zeichne ein Histogramm des Haarwuchses.<br />
> hist ( haar Histogram $ Haarwuchs of haar$Haarwuchs )<br />
Frequency<br />
0 2 4 6 8<br />
−5 0 5 10<br />
haar$Haarwuchs<br />
Die Werte um den Nullpunkt weisen die höchste Häufigkeit auf. Der Ausreißer ist<br />
deutlich sichtbar. Negative Werte (Haarausfall) haben eine nicht zu<br />
vernachlässigende Häufigkeit.
02 Bartwuchs<br />
Lösung der Übungsaufgabe aus <strong>Workshop</strong> I<br />
4. Schätze mittels eines QQ-Plots ein, ob eine Normalverteilung vorliegt.<br />
> qqnorm ( haar $ Haarwuchs )<br />
> qqline ( haar $ Haarwuchs )<br />
Sample Quantiles<br />
0 5 10<br />
●<br />
● ●<br />
● ● ●<br />
●<br />
●●●●●<br />
●<br />
● ●<br />
Normal Q−Q Plot<br />
●<br />
● ●<br />
●●<br />
●<br />
●●<br />
● ●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●●<br />
●●<br />
●<br />
●<br />
●<br />
●<br />
−2 −1 0 1 2<br />
Theoretical Quantiles<br />
●<br />
Eine Normalverteilung der Daten ist wahrscheinlich. Aufgrund der Abweichungen<br />
von der Diagonalen im Anfangs- und Endbereich sollten zusätzlich weitere<br />
(inferenzstatistische) Tests auf Normalverteilung durchgeführt werden.<br />
●
03 Selbstdefinierte Funktionen<br />
Weiterführende R-Syntax – Übung<br />
Syntax<br />
Funktionsname
03 Selbstdefinierte Funktionen<br />
kleiner Hinweis<br />
> sumnm
03 Selbstdefinierte Funktionen<br />
Lösung<br />
> sumnm
04 <strong>Inferenzstatistik</strong><br />
Abgrenzung der schließenden Statistik<br />
TU Dresden, 25.1.2011 R-<strong>Workshop</strong>: <strong>Inferenzstatistik</strong> Folie 11 von 26
04 t-Test<br />
Voraussetzungen<br />
• Merkmal mindestens intervallskaliert - Ausprägungen lassen sich<br />
quantitativ mittels Zahlen darstellen. Rangunterschiede und Abstand<br />
zwischen Werten können gemessen werden. Beispiele für intervallskalierte<br />
Merkmale sind Temperatur auf der Celsius-Skala, Jahreszahlen, Zeitpunkte.<br />
• Stichproben müssen unabhängig sein - Ist z.B. nicht gegeben, wenn die<br />
gleichen Versuchspersonen direkt nacheinander zwei unterschiedliche GUIs<br />
bewerten.<br />
• Annähernde Gaußverteilung der Daten lässt sich aus den Boxplots der<br />
Daten ablesen: Der Median sollte mittig in der Box liegen und die beiden<br />
Whisker etwa gleich lang sein. Aus der Gauß-Verteilung ergibt sich die<br />
Stetigkeit der Daten, z.B. Temperaturen in Kelvin oder Längen in Metern.<br />
• Varianzhomogenität ist graphisch aus den Boxplots ersichtlich: Die<br />
verschiedenen Boxen nebst Whiskern sollten gleich lang sein. Ein<br />
statistischer Test kann diese Evaluation ergänzen (F-Test, Levene-Test).<br />
TU Dresden, 25.1.2011 R-<strong>Workshop</strong>: <strong>Inferenzstatistik</strong> Folie 12 von 26
04 t-Test<br />
Überprüfung der Voraussetzungen 1/2<br />
> data2 .1 data2 .1<br />
> summary ( data2 .2)<br />
> boxplot ( Aufgabenerf ~GUI , data2 .1 , xlab =" GUI ",ylab ="<br />
Aufgabenerfuellung ",col =" purple ")<br />
> qqnorm ( data2 .1$ Aufgabenerf ); qqline ( data2 .1$ Aufgabenerf )<br />
• Intervallskalliert - OK<br />
• Unabhängig - OK<br />
• Annähernde Gaußverteilung<br />
– Der Median sollte mittig in der Box liegen und die beiden Whisker etwa<br />
gleich lang sein. Die Punkte im QQ-Plot sollten ca. auf einer Linie<br />
liegen. - OK<br />
TU Dresden, 25.1.2011 R-<strong>Workshop</strong>: <strong>Inferenzstatistik</strong> Folie 13 von 26
04 t-Test<br />
Überprüfung der Voraussetzungen 2/2<br />
• Varianzhomogenität<br />
– Levene-Test<br />
> library ( car )<br />
> levene . test ( data2 .1$ Aufgabenerf , data2 .1$GUI )<br />
Wenn der p-Wert über a = 0.05 liegt, muss die Hypothese gleicher Varianzen<br />
beibehalten werden.<br />
D.h.: alle Voraussetzungen sind erfüllt.<br />
TU Dresden, 25.1.2011 R-<strong>Workshop</strong>: <strong>Inferenzstatistik</strong> Folie 14 von 26
04 t-Test<br />
Anwendung<br />
Die Nullhypothese für den t-Test lautet: „Die mittlere Aufgabenerfüllung ist für<br />
beide GUIs gleich.“ – H0: µ1 = µ2. Die Alternativhypothese lautet: „Die mittlere<br />
Aufgabenerfüllung ist für beide GUIs ungleich.“ Das Risiko 1. Art wird mit a =0.05<br />
festgelegt.<br />
> t. test ( data2 .1$ Aufgabenerf ~ data2 .1$GUI , alternative = "<br />
two . sided ", paired = FALSE , var . equal = TRUE , conf .<br />
level =0.95)<br />
Hier ist es wichtig, die richtige Alternativhypothese und das gewünschte Risiko 1.<br />
Art zu wählen. Da es sich um zwei unabhängige Stichproben handelt, ist bei ’paired’<br />
der Wert ’FALSE’ zu wählen. Je nachdem, ob die Varianzen homogen sind oder<br />
nicht, wird ’var.equal’ auf ’TRUE’ oder auf ’FALSE’ gesetzt. Die Tilde ’∼’ bedeutet,<br />
dass die Werte für „Aufgabenerfüllung“ nach dem Faktor „GUI“ gruppiert werden.<br />
Dies ist notwendig, weil jede Zeile des DataFrames einem eigenen Fall, hier also<br />
jeweils einer anderen Versuchsperson entspricht.<br />
TU Dresden, 25.1.2011 R-<strong>Workshop</strong>: <strong>Inferenzstatistik</strong> Folie 15 von 26
04 t-Test<br />
Interpretation<br />
Two Sample t-test<br />
data: data2.1$Aufgabenerf by data2.1$GUI<br />
t = 2.1612, df = 27, p-value = 0.03971<br />
alternative hypothesis: true difference in means is not equal to 0<br />
95 percent confidence interval:<br />
0.004327426 0.166720193<br />
sample estimates:<br />
mean in group A mean in group B<br />
0.7626667 0.6771429<br />
Der p-Wert (0.03971) liegt unter dem gewählten Risiko 1. Art a = 0.05, daher muss<br />
die Hypothese gleicher mittlerer Aufgabenerfüllung bei beiden GUIs verworfen<br />
werden.<br />
TU Dresden, 25.1.2011 R-<strong>Workshop</strong>: <strong>Inferenzstatistik</strong> Folie 16 von 26
04 t-Test<br />
Interpretation<br />
t = 2.1612, df = 27, p-value = 0.03971<br />
Die Teststatistik t beträgt 2.1612. Dies ist die Testgröße, die normalerweise mit dem Tabellenwert verglichen<br />
wird. Ist sie extremer, als der Tabellenwert des Quantils zum entsprechenden Freiheitsgrad (df), gilt der<br />
Mittelwertvergleich als signifikant.<br />
alternative hypothesis: true difference in means is not equal to 0<br />
Die abstrakte Alternativhypothese.<br />
95 percent confidence interval: 0.004327426 0.166720193<br />
Angenommen, man würde den Versuch unendlich oft indentisch wiederholen, dann läge die wahre Differenz in<br />
95% der Fälle im jeweiligen Konfidenzintervall. Praktische Anwendung: Wenn in einem Konfidenzintervall die<br />
Null eingeschlossen ist, gilt das Testergebnis als nicht signifikant. Im Falle einer Signifikanz stellt der Abstand<br />
von Null ein Maß für den Grad der Ablehnung der H0 dar.<br />
sample estimates: mean in group A mean in group B 0.7626667 0.6771429<br />
Die beiden Mittelwerte werden ausgegeben.
04 Daten aus <strong>Workshop</strong> I<br />
Eigenschaften der Daten 1/2<br />
> data2 .2 data2 .2<br />
> summary ( data2 .2)<br />
> boxplot (MW~GUI , data2 .2 , xlab =" GUI ",ylab ="<br />
Aufgabenerfuellung ",col =" orange ")<br />
> qqnorm ( data2 .2$MW); qqline ( data2 .2$MW)<br />
• Intervallskalliert - OK<br />
• Unabhängig - OK<br />
• Mehr als 2 Gruppen<br />
• Annähernde Gaußverteilung<br />
– Der Median sollte mittig in der Box liegen und die beiden Whisker etwa<br />
gleich lang sein. Die Punkte im QQ-Plot sollten ca. auf einer Linie<br />
liegen. - NICHT OK für t-Test<br />
TU Dresden, 25.1.2011 R-<strong>Workshop</strong>: <strong>Inferenzstatistik</strong> Folie 18 von 26
04 Daten aus <strong>Workshop</strong> I<br />
Eigenschaften der Daten 2/2<br />
• Varianzhomogenität<br />
– Levene-Test<br />
> levene . test ( data2 .2$MW , data2 .2$GUI )<br />
Wenn der p-Wert über a = 0.05 liegt, muss die Hypothese gleicher Varianzen<br />
beibehalten werden. - OK<br />
TU Dresden, 25.1.2011 R-<strong>Workshop</strong>: <strong>Inferenzstatistik</strong> Folie 19 von 26
04 Kruskal-Wallis Test<br />
Voraussetzungen<br />
Was tun, wenn Voraussetzungen für t-Test o.ä. nicht erfüllt sind?<br />
Es muss auf ein nichtparametrisches Testverfahren ausgewichen werden. Diese<br />
Testverfahren haben großzügigere Voraussetzungen - aber in der Regel eine<br />
geringere Teststärke (d.h. größeren Beta-Fehler). Als Beta-Fehler oder Fehler 2. Art<br />
wird beim statistischen Testen der Fehler bezeichnet, den man begeht, wenn man<br />
die Nullhypothese beibehält, obwohl die Alternativhypothese gilt.<br />
Typische Voraussetzungen für nichtparametrische Tests:<br />
• Varianzhomogenität - OK<br />
• Mindestens ordinale Skalierung - OK<br />
• Unabhängige Daten - OK<br />
TU Dresden, 25.1.2011 R-<strong>Workshop</strong>: <strong>Inferenzstatistik</strong> Folie 20 von 26
04 Kruskal-Wallis Test<br />
Anwendung<br />
Die Nullhypothese (H0) lautet:<br />
„Die unterschiedlichen Benutzeroberflächen haben keinen Einfluss auf den<br />
Mittelwert der Klassifizierungsgenauigkeit (MW)“. Die Nullhypothese wird mittels<br />
des Kruskal-Wallis Tests überprüft. Dieser nichtparametrische Test eignet sich für<br />
kleine Stichproben in Gruppen unterschiedlicher Größe, bei denen keine<br />
Normalverteilung nachgewiesen werden kann.<br />
> kruskal . test (MW~GUI , data2 .2)<br />
Wenn der p-Wert über a = 0.05 liegt, kann H0 nicht verworfen werden. Die<br />
Benutzeroberfläche hat dann also keine nachweisbare Auswirkung auf den<br />
Mittelwert der Klassifizierungsgenauigkeit.<br />
TU Dresden, 25.1.2011 R-<strong>Workshop</strong>: <strong>Inferenzstatistik</strong> Folie 21 von 26
05 Übungsaufgabe<br />
Dateneingabe<br />
20 Studenten wurden einem Stresstest unterzogen. Dabei wurden Paare gebildet<br />
die sich in ihren bisherigen Prüfungsergebnissen möglichst ähnlich waren. Eine<br />
Gruppe wurde vor dem Test starkem Stress ausgesetzt die andere diente als<br />
Kontrollgruppe. Ihre Ergebnisse auf einer Skala von 0-15 Punkten (15 = bestes<br />
Ergebnis), sehen Sie in folgender Tabelle (fiktive Daten).<br />
Geben Sie die Daten mittels des folgenden Befehls in R ein.<br />
> stress
05 Übungsaufgabe<br />
Auftrag<br />
Führen Sie einen geeigneten t-Test durch.<br />
Hinweise:<br />
• Formulieren Sie eine sinnvoll gerichtete unspezifische Hypothese<br />
• Achtung - es geht um die Differenzen der Paare<br />
• Überprüfen Sie die Voraussetzungen für den t-Test<br />
– Annähernde Gaußverteilung der Paardifferenzen, es wird Robustheit<br />
des Tests gegenüber dem schief in der Box liegenden Median<br />
angenommen<br />
• Schlagen Sie in der R-Hilfe die notwendigen Parameter für den t-Test nach<br />
– Gepaarte Daten, da Studentenpaare gebildet wurden, die sich<br />
möglichst ähnlich sein sollten.<br />
– Art der Alternativhypothese<br />
– ... ?<br />
TU Dresden, 25.1.2011 R-<strong>Workshop</strong>: <strong>Inferenzstatistik</strong> Folie 23 von 26
05 Übungsaufgabe<br />
Lösung<br />
=⇒ Gepaarter einseitiger t-Test (die eine Studentengruppe wurde einem<br />
Stressprogramm ausgesetzt, was schlechtere Testergebnisse erwarten lässt).<br />
H0: µ Stress >= µNormal - Die Stressbehandlung verschlechtert das Abschneiden der<br />
Probanden nicht.<br />
H1: µ Stress < µNormal - Das Abschneiden der Probanden ist nach der<br />
Stressbehandlung schlechter.<br />
> unterschiede boxplot ( unterschiede ) # schief liegender Median<br />
> t. test ( stress $ Stress , stress $ Normal , paired = TRUE ,<br />
alternative = " less ")<br />
# Achtung - Reihenfolge ist entscheidend , da einseitiger<br />
Test<br />
Der p-Wert (0.01568) ist kleiner als 0.05, deshalb ist das Ergebnis signifkant. Die<br />
Stressbehandlung bewirkt ein verschlechtertes Abschneiden im Test.<br />
(Achtung: für die Übung wurden fiktive Daten verwendet)
05 Übungsaufgabe<br />
Zusatzaufgabe<br />
• Warum können Sie ihre Hypothese nicht direkt mit einem Kruskal-Wallis-Test<br />
überpüfen?<br />
• Wie müssen Sie sie dazu verändern?<br />
• Führen Sie den Kruskal-Wallis Test durch.<br />
TU Dresden, 25.1.2011 R-<strong>Workshop</strong>: <strong>Inferenzstatistik</strong> Folie 25 von 26