R-Workshop II - Inferenzstatistik

R-WORKSHOP II 

Inferenzstatistik 

Johannes Pfeffer 

Dresden, 25.1.2011

01 Outline 

Lösung der Übungsaufgabe 

Selbstdefinierte Funktionen 

Inferenzstatistik 

t-Test 

Kruskal-Wallis Test 

Übungsaufgabe 

TU Dresden, 25.1.2011 R-Workshop: Inferenzstatistik Folie 2 von 26

02 Bartwuchs 

Lösung der Übungsaufgabe aus Workshop I 

Gerd Glatzel, der ein existenzielles Problem mit seinem Haarwuchs hat (den 

üppigsten Teil seiner Kopfbedeckung stellen die Augenbrauen dar), stößt bei der 

Lektüre seiner Lieblingszeitschrift „Mann vorm Spiegel“ auf das folgende Inserat 

der Rapunzel AG: 

„Doppel-Haar, das erfolgreichste Haarwuchsmittel, das es je gab! 50% der 

Anwender hatten einen monatlichen Haarwuchs von 0,8 cm oder mehr - innerhalb 

eines Monats durchschnittlich 1,4 cm längeres Haar.“ 

Die Lösung seines Problems erhoffend, greift Glatzel sofort zu. Einen Monat später 

hat er auch noch die spärlichen Reste seiner „Kopfbedeckung“ verloren. Erbost 

sucht er die Rapunzel AG auf (die Blöße mit einem Hut bedeckend), um seinem 

Ärger Luft zu machen. Dort erhält er eine Tabelle mit Haarwuchsergebnissen von 

Testpersonen des Mittels Doppel-Haar (Haarwuchs innerhalb eines Monats in cm; 

negative Werte stehen für Haarausfall). 

2. Überprüfe die Herstellerangaben indem du den durchschnittlichen Haarwuchs 

sowie den Median, die Varianz und die Standardabweichung des 

Haarwuchses berechnest. 

3. Zeichne ein Boxplot des Haarwuchses. 

4. Zeichne ein Histogramm des Haarwuchses. 

5. Schätze mittels eines QQ-Plots ein, ob eine Normalverteilung vorliegt.

02 Bartwuchs 


2. Überprüfe die Herstellerangaben indem du den durchschnittlichen Haarwuchs 

sowie den Median, die Varianz und die Standardabweichung des 

Haarwuchses berechnest. 

> haar install . packages (" pastecs ") 

> library ( pastecs ) 

> stat . desc ( haar ) 

Haarwuchs 

(...) 

min -4.2000000 

max 10.8000000 

range 15.0000000 

sum 56.0000000 

median 0.8000000 //

02 Bartwuchs 


3. Zeichne ein Boxplot des Haarwuchses. 

> boxplot ( haar ) 

0 5 10 

● 

Es wird sichtbar, dass ein extremer Ausreißer die Werbeaussage verzerrt.

02 Bartwuchs 


4. Zeichne ein Histogramm des Haarwuchses. 

> hist ( haar Histogram $ Haarwuchs of haar$Haarwuchs ) 

Frequency 

0 2 4 6 8 

−5 0 5 10 

haar$Haarwuchs 

Die Werte um den Nullpunkt weisen die höchste Häufigkeit auf. Der Ausreißer ist 

deutlich sichtbar. Negative Werte (Haarausfall) haben eine nicht zu 

vernachlässigende Häufigkeit.

02 Bartwuchs 


4. Schätze mittels eines QQ-Plots ein, ob eine Normalverteilung vorliegt. 

> qqnorm ( haar $ Haarwuchs ) 

> qqline ( haar $ Haarwuchs ) 

Sample Quantiles 

0 5 10 

● 

● ● 

● ● ● 

● 

●●●●● 

● 

● ● 

Normal Q−Q Plot 

● 

● ● 

●● 

● 

●● 

● ● 

● 

● 

● 

● 

● 

●● 

●● 

● 

● 

● 

● 

−2 −1 0 1 2 

Theoretical Quantiles 

● 

Eine Normalverteilung der Daten ist wahrscheinlich. Aufgrund der Abweichungen 

von der Diagonalen im Anfangs- und Endbereich sollten zusätzlich weitere 

(inferenzstatistische) Tests auf Normalverteilung durchgeführt werden. 

●

03 Selbstdefinierte Funktionen 

Weiterführende R-Syntax – Übung 

Syntax 

Funktionsname


kleiner Hinweis 

> sumnm


Lösung 

> sumnm

04 Inferenzstatistik 

Abgrenzung der schließenden Statistik 


04 t-Test 

Voraussetzungen 

• Merkmal mindestens intervallskaliert - Ausprägungen lassen sich 

quantitativ mittels Zahlen darstellen. Rangunterschiede und Abstand 

zwischen Werten können gemessen werden. Beispiele für intervallskalierte 

Merkmale sind Temperatur auf der Celsius-Skala, Jahreszahlen, Zeitpunkte. 

• Stichproben müssen unabhängig sein - Ist z.B. nicht gegeben, wenn die 

gleichen Versuchspersonen direkt nacheinander zwei unterschiedliche GUIs 

bewerten. 

• Annähernde Gaußverteilung der Daten lässt sich aus den Boxplots der 

Daten ablesen: Der Median sollte mittig in der Box liegen und die beiden 

Whisker etwa gleich lang sein. Aus der Gauß-Verteilung ergibt sich die 

Stetigkeit der Daten, z.B. Temperaturen in Kelvin oder Längen in Metern. 

• Varianzhomogenität ist graphisch aus den Boxplots ersichtlich: Die 

verschiedenen Boxen nebst Whiskern sollten gleich lang sein. Ein 

statistischer Test kann diese Evaluation ergänzen (F-Test, Levene-Test). 


04 t-Test 

Überprüfung der Voraussetzungen 1/2 

> data2 .1 data2 .1 

> summary ( data2 .2) 

> boxplot ( Aufgabenerf ~GUI , data2 .1 , xlab =" GUI ",ylab =" 

Aufgabenerfuellung ",col =" purple ") 

> qqnorm ( data2 .1$ Aufgabenerf ); qqline ( data2 .1$ Aufgabenerf ) 

• Intervallskalliert - OK 

• Unabhängig - OK 

• Annähernde Gaußverteilung 

– Der Median sollte mittig in der Box liegen und die beiden Whisker etwa 

gleich lang sein. Die Punkte im QQ-Plot sollten ca. auf einer Linie 

liegen. - OK 


04 t-Test 

Überprüfung der Voraussetzungen 2/2 

• Varianzhomogenität 

– Levene-Test 

> library ( car ) 

> levene . test ( data2 .1$ Aufgabenerf , data2 .1$GUI ) 

Wenn der p-Wert über a = 0.05 liegt, muss die Hypothese gleicher Varianzen 

beibehalten werden. 

D.h.: alle Voraussetzungen sind erfüllt. 


04 t-Test 

Anwendung 

Die Nullhypothese für den t-Test lautet: „Die mittlere Aufgabenerfüllung ist für 

beide GUIs gleich.“ – H0: µ1 = µ2. Die Alternativhypothese lautet: „Die mittlere 

Aufgabenerfüllung ist für beide GUIs ungleich.“ Das Risiko 1. Art wird mit a =0.05 

festgelegt. 

> t. test ( data2 .1$ Aufgabenerf ~ data2 .1$GUI , alternative = " 

two . sided ", paired = FALSE , var . equal = TRUE , conf . 

level =0.95) 

Hier ist es wichtig, die richtige Alternativhypothese und das gewünschte Risiko 1. 

Art zu wählen. Da es sich um zwei unabhängige Stichproben handelt, ist bei ’paired’ 

der Wert ’FALSE’ zu wählen. Je nachdem, ob die Varianzen homogen sind oder 

nicht, wird ’var.equal’ auf ’TRUE’ oder auf ’FALSE’ gesetzt. Die Tilde ’∼’ bedeutet, 

dass die Werte für „Aufgabenerfüllung“ nach dem Faktor „GUI“ gruppiert werden. 

Dies ist notwendig, weil jede Zeile des DataFrames einem eigenen Fall, hier also 

jeweils einer anderen Versuchsperson entspricht. 


04 t-Test 

Interpretation 

Two Sample t-test 

data: data2.1$Aufgabenerf by data2.1$GUI 

t = 2.1612, df = 27, p-value = 0.03971 

alternative hypothesis: true difference in means is not equal to 0 

95 percent confidence interval: 

0.004327426 0.166720193 

sample estimates: 

mean in group A mean in group B 

0.7626667 0.6771429 

Der p-Wert (0.03971) liegt unter dem gewählten Risiko 1. Art a = 0.05, daher muss 

die Hypothese gleicher mittlerer Aufgabenerfüllung bei beiden GUIs verworfen 

werden. 


04 t-Test 

Interpretation 

t = 2.1612, df = 27, p-value = 0.03971 

Die Teststatistik t beträgt 2.1612. Dies ist die Testgröße, die normalerweise mit dem Tabellenwert verglichen 

wird. Ist sie extremer, als der Tabellenwert des Quantils zum entsprechenden Freiheitsgrad (df), gilt der 

Mittelwertvergleich als signifikant. 

alternative hypothesis: true difference in means is not equal to 0 

Die abstrakte Alternativhypothese. 

95 percent confidence interval: 0.004327426 0.166720193 

Angenommen, man würde den Versuch unendlich oft indentisch wiederholen, dann läge die wahre Differenz in 

95% der Fälle im jeweiligen Konfidenzintervall. Praktische Anwendung: Wenn in einem Konfidenzintervall die 

Null eingeschlossen ist, gilt das Testergebnis als nicht signifikant. Im Falle einer Signifikanz stellt der Abstand 

von Null ein Maß für den Grad der Ablehnung der H0 dar. 

sample estimates: mean in group A mean in group B 0.7626667 0.6771429 

Die beiden Mittelwerte werden ausgegeben.

04 Daten aus Workshop I 

Eigenschaften der Daten 1/2 

> data2 .2 data2 .2 

> summary ( data2 .2) 

> boxplot (MW~GUI , data2 .2 , xlab =" GUI ",ylab =" 

Aufgabenerfuellung ",col =" orange ") 

> qqnorm ( data2 .2$MW); qqline ( data2 .2$MW) 

• Intervallskalliert - OK 

• Unabhängig - OK 

• Mehr als 2 Gruppen 

• Annähernde Gaußverteilung 

– Der Median sollte mittig in der Box liegen und die beiden Whisker etwa 

gleich lang sein. Die Punkte im QQ-Plot sollten ca. auf einer Linie 

liegen. - NICHT OK für t-Test 


04 Daten aus Workshop I 

Eigenschaften der Daten 2/2 

• Varianzhomogenität 

– Levene-Test 

> levene . test ( data2 .2$MW , data2 .2$GUI ) 

Wenn der p-Wert über a = 0.05 liegt, muss die Hypothese gleicher Varianzen 

beibehalten werden. - OK 


04 Kruskal-Wallis Test 

Voraussetzungen 

Was tun, wenn Voraussetzungen für t-Test o.ä. nicht erfüllt sind? 

Es muss auf ein nichtparametrisches Testverfahren ausgewichen werden. Diese 

Testverfahren haben großzügigere Voraussetzungen - aber in der Regel eine 

geringere Teststärke (d.h. größeren Beta-Fehler). Als Beta-Fehler oder Fehler 2. Art 

wird beim statistischen Testen der Fehler bezeichnet, den man begeht, wenn man 

die Nullhypothese beibehält, obwohl die Alternativhypothese gilt. 

Typische Voraussetzungen für nichtparametrische Tests: 

• Varianzhomogenität - OK 

• Mindestens ordinale Skalierung - OK 

• Unabhängige Daten - OK 


04 Kruskal-Wallis Test 

Anwendung 

Die Nullhypothese (H0) lautet: 

„Die unterschiedlichen Benutzeroberflächen haben keinen Einfluss auf den 

Mittelwert der Klassifizierungsgenauigkeit (MW)“. Die Nullhypothese wird mittels 

des Kruskal-Wallis Tests überprüft. Dieser nichtparametrische Test eignet sich für 

kleine Stichproben in Gruppen unterschiedlicher Größe, bei denen keine 

Normalverteilung nachgewiesen werden kann. 

> kruskal . test (MW~GUI , data2 .2) 

Wenn der p-Wert über a = 0.05 liegt, kann H0 nicht verworfen werden. Die 

Benutzeroberfläche hat dann also keine nachweisbare Auswirkung auf den 

Mittelwert der Klassifizierungsgenauigkeit. 


05 Übungsaufgabe 

Dateneingabe 

20 Studenten wurden einem Stresstest unterzogen. Dabei wurden Paare gebildet 

die sich in ihren bisherigen Prüfungsergebnissen möglichst ähnlich waren. Eine 

Gruppe wurde vor dem Test starkem Stress ausgesetzt die andere diente als 

Kontrollgruppe. Ihre Ergebnisse auf einer Skala von 0-15 Punkten (15 = bestes 

Ergebnis), sehen Sie in folgender Tabelle (fiktive Daten). 

Geben Sie die Daten mittels des folgenden Befehls in R ein. 

> stress


Auftrag 

Führen Sie einen geeigneten t-Test durch. 

Hinweise: 

• Formulieren Sie eine sinnvoll gerichtete unspezifische Hypothese 

• Achtung - es geht um die Differenzen der Paare 

• Überprüfen Sie die Voraussetzungen für den t-Test 

– Annähernde Gaußverteilung der Paardifferenzen, es wird Robustheit 

des Tests gegenüber dem schief in der Box liegenden Median 

angenommen 

• Schlagen Sie in der R-Hilfe die notwendigen Parameter für den t-Test nach 

– Gepaarte Daten, da Studentenpaare gebildet wurden, die sich 

möglichst ähnlich sein sollten. 

– Art der Alternativhypothese 

– ... ? 



Lösung 

=⇒ Gepaarter einseitiger t-Test (die eine Studentengruppe wurde einem 

Stressprogramm ausgesetzt, was schlechtere Testergebnisse erwarten lässt). 

H0: µ Stress >= µNormal - Die Stressbehandlung verschlechtert das Abschneiden der 

Probanden nicht. 

H1: µ Stress < µNormal - Das Abschneiden der Probanden ist nach der 

Stressbehandlung schlechter. 

> unterschiede boxplot ( unterschiede ) # schief liegender Median 

> t. test ( stress $ Stress , stress $ Normal , paired = TRUE , 

alternative = " less ") 

# Achtung - Reihenfolge ist entscheidend , da einseitiger 

Test 

Der p-Wert (0.01568) ist kleiner als 0.05, deshalb ist das Ergebnis signifkant. Die 

Stressbehandlung bewirkt ein verschlechtertes Abschneiden im Test. 

(Achtung: für die Übung wurden fiktive Daten verwendet)


Zusatzaufgabe 

• Warum können Sie ihre Hypothese nicht direkt mit einem Kruskal-Wallis-Test 

überpüfen? 

• Wie müssen Sie sie dazu verändern? 

• Führen Sie den Kruskal-Wallis Test durch.

R-Workshop II - Inferenzstatistik

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?