16.01.2013 Aufrufe

R-Workshop II - Inferenzstatistik

R-Workshop II - Inferenzstatistik

R-Workshop II - Inferenzstatistik

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

R-WORKSHOP <strong>II</strong><br />

<strong>Inferenzstatistik</strong><br />

Johannes Pfeffer<br />

Dresden, 25.1.2011


01 Outline<br />

Lösung der Übungsaufgabe<br />

Selbstdefinierte Funktionen<br />

<strong>Inferenzstatistik</strong><br />

t-Test<br />

Kruskal-Wallis Test<br />

Übungsaufgabe<br />

TU Dresden, 25.1.2011 R-<strong>Workshop</strong>: <strong>Inferenzstatistik</strong> Folie 2 von 26


02 Bartwuchs<br />

Lösung der Übungsaufgabe aus <strong>Workshop</strong> I<br />

Gerd Glatzel, der ein existenzielles Problem mit seinem Haarwuchs hat (den<br />

üppigsten Teil seiner Kopfbedeckung stellen die Augenbrauen dar), stößt bei der<br />

Lektüre seiner Lieblingszeitschrift „Mann vorm Spiegel“ auf das folgende Inserat<br />

der Rapunzel AG:<br />

„Doppel-Haar, das erfolgreichste Haarwuchsmittel, das es je gab! 50% der<br />

Anwender hatten einen monatlichen Haarwuchs von 0,8 cm oder mehr - innerhalb<br />

eines Monats durchschnittlich 1,4 cm längeres Haar.“<br />

Die Lösung seines Problems erhoffend, greift Glatzel sofort zu. Einen Monat später<br />

hat er auch noch die spärlichen Reste seiner „Kopfbedeckung“ verloren. Erbost<br />

sucht er die Rapunzel AG auf (die Blöße mit einem Hut bedeckend), um seinem<br />

Ärger Luft zu machen. Dort erhält er eine Tabelle mit Haarwuchsergebnissen von<br />

Testpersonen des Mittels Doppel-Haar (Haarwuchs innerhalb eines Monats in cm;<br />

negative Werte stehen für Haarausfall).<br />

2. Überprüfe die Herstellerangaben indem du den durchschnittlichen Haarwuchs<br />

sowie den Median, die Varianz und die Standardabweichung des<br />

Haarwuchses berechnest.<br />

3. Zeichne ein Boxplot des Haarwuchses.<br />

4. Zeichne ein Histogramm des Haarwuchses.<br />

5. Schätze mittels eines QQ-Plots ein, ob eine Normalverteilung vorliegt.


02 Bartwuchs<br />

Lösung der Übungsaufgabe aus <strong>Workshop</strong> I<br />

2. Überprüfe die Herstellerangaben indem du den durchschnittlichen Haarwuchs<br />

sowie den Median, die Varianz und die Standardabweichung des<br />

Haarwuchses berechnest.<br />

> haar install . packages (" pastecs ")<br />

> library ( pastecs )<br />

> stat . desc ( haar )<br />

Haarwuchs<br />

(...)<br />

min -4.2000000<br />

max 10.8000000<br />

range 15.0000000<br />

sum 56.0000000<br />

median 0.8000000 //


02 Bartwuchs<br />

Lösung der Übungsaufgabe aus <strong>Workshop</strong> I<br />

3. Zeichne ein Boxplot des Haarwuchses.<br />

> boxplot ( haar )<br />

0 5 10<br />

●<br />

Es wird sichtbar, dass ein extremer Ausreißer die Werbeaussage verzerrt.


02 Bartwuchs<br />

Lösung der Übungsaufgabe aus <strong>Workshop</strong> I<br />

4. Zeichne ein Histogramm des Haarwuchses.<br />

> hist ( haar Histogram $ Haarwuchs of haar$Haarwuchs )<br />

Frequency<br />

0 2 4 6 8<br />

−5 0 5 10<br />

haar$Haarwuchs<br />

Die Werte um den Nullpunkt weisen die höchste Häufigkeit auf. Der Ausreißer ist<br />

deutlich sichtbar. Negative Werte (Haarausfall) haben eine nicht zu<br />

vernachlässigende Häufigkeit.


02 Bartwuchs<br />

Lösung der Übungsaufgabe aus <strong>Workshop</strong> I<br />

4. Schätze mittels eines QQ-Plots ein, ob eine Normalverteilung vorliegt.<br />

> qqnorm ( haar $ Haarwuchs )<br />

> qqline ( haar $ Haarwuchs )<br />

Sample Quantiles<br />

0 5 10<br />

●<br />

● ●<br />

● ● ●<br />

●<br />

●●●●●<br />

●<br />

● ●<br />

Normal Q−Q Plot<br />

●<br />

● ●<br />

●●<br />

●<br />

●●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●●<br />

●●<br />

●<br />

●<br />

●<br />

●<br />

−2 −1 0 1 2<br />

Theoretical Quantiles<br />

●<br />

Eine Normalverteilung der Daten ist wahrscheinlich. Aufgrund der Abweichungen<br />

von der Diagonalen im Anfangs- und Endbereich sollten zusätzlich weitere<br />

(inferenzstatistische) Tests auf Normalverteilung durchgeführt werden.<br />


03 Selbstdefinierte Funktionen<br />

Weiterführende R-Syntax – Übung<br />

Syntax<br />

Funktionsname


03 Selbstdefinierte Funktionen<br />

kleiner Hinweis<br />

> sumnm


03 Selbstdefinierte Funktionen<br />

Lösung<br />

> sumnm


04 <strong>Inferenzstatistik</strong><br />

Abgrenzung der schließenden Statistik<br />

TU Dresden, 25.1.2011 R-<strong>Workshop</strong>: <strong>Inferenzstatistik</strong> Folie 11 von 26


04 t-Test<br />

Voraussetzungen<br />

• Merkmal mindestens intervallskaliert - Ausprägungen lassen sich<br />

quantitativ mittels Zahlen darstellen. Rangunterschiede und Abstand<br />

zwischen Werten können gemessen werden. Beispiele für intervallskalierte<br />

Merkmale sind Temperatur auf der Celsius-Skala, Jahreszahlen, Zeitpunkte.<br />

• Stichproben müssen unabhängig sein - Ist z.B. nicht gegeben, wenn die<br />

gleichen Versuchspersonen direkt nacheinander zwei unterschiedliche GUIs<br />

bewerten.<br />

• Annähernde Gaußverteilung der Daten lässt sich aus den Boxplots der<br />

Daten ablesen: Der Median sollte mittig in der Box liegen und die beiden<br />

Whisker etwa gleich lang sein. Aus der Gauß-Verteilung ergibt sich die<br />

Stetigkeit der Daten, z.B. Temperaturen in Kelvin oder Längen in Metern.<br />

• Varianzhomogenität ist graphisch aus den Boxplots ersichtlich: Die<br />

verschiedenen Boxen nebst Whiskern sollten gleich lang sein. Ein<br />

statistischer Test kann diese Evaluation ergänzen (F-Test, Levene-Test).<br />

TU Dresden, 25.1.2011 R-<strong>Workshop</strong>: <strong>Inferenzstatistik</strong> Folie 12 von 26


04 t-Test<br />

Überprüfung der Voraussetzungen 1/2<br />

> data2 .1 data2 .1<br />

> summary ( data2 .2)<br />

> boxplot ( Aufgabenerf ~GUI , data2 .1 , xlab =" GUI ",ylab ="<br />

Aufgabenerfuellung ",col =" purple ")<br />

> qqnorm ( data2 .1$ Aufgabenerf ); qqline ( data2 .1$ Aufgabenerf )<br />

• Intervallskalliert - OK<br />

• Unabhängig - OK<br />

• Annähernde Gaußverteilung<br />

– Der Median sollte mittig in der Box liegen und die beiden Whisker etwa<br />

gleich lang sein. Die Punkte im QQ-Plot sollten ca. auf einer Linie<br />

liegen. - OK<br />

TU Dresden, 25.1.2011 R-<strong>Workshop</strong>: <strong>Inferenzstatistik</strong> Folie 13 von 26


04 t-Test<br />

Überprüfung der Voraussetzungen 2/2<br />

• Varianzhomogenität<br />

– Levene-Test<br />

> library ( car )<br />

> levene . test ( data2 .1$ Aufgabenerf , data2 .1$GUI )<br />

Wenn der p-Wert über a = 0.05 liegt, muss die Hypothese gleicher Varianzen<br />

beibehalten werden.<br />

D.h.: alle Voraussetzungen sind erfüllt.<br />

TU Dresden, 25.1.2011 R-<strong>Workshop</strong>: <strong>Inferenzstatistik</strong> Folie 14 von 26


04 t-Test<br />

Anwendung<br />

Die Nullhypothese für den t-Test lautet: „Die mittlere Aufgabenerfüllung ist für<br />

beide GUIs gleich.“ – H0: µ1 = µ2. Die Alternativhypothese lautet: „Die mittlere<br />

Aufgabenerfüllung ist für beide GUIs ungleich.“ Das Risiko 1. Art wird mit a =0.05<br />

festgelegt.<br />

> t. test ( data2 .1$ Aufgabenerf ~ data2 .1$GUI , alternative = "<br />

two . sided ", paired = FALSE , var . equal = TRUE , conf .<br />

level =0.95)<br />

Hier ist es wichtig, die richtige Alternativhypothese und das gewünschte Risiko 1.<br />

Art zu wählen. Da es sich um zwei unabhängige Stichproben handelt, ist bei ’paired’<br />

der Wert ’FALSE’ zu wählen. Je nachdem, ob die Varianzen homogen sind oder<br />

nicht, wird ’var.equal’ auf ’TRUE’ oder auf ’FALSE’ gesetzt. Die Tilde ’∼’ bedeutet,<br />

dass die Werte für „Aufgabenerfüllung“ nach dem Faktor „GUI“ gruppiert werden.<br />

Dies ist notwendig, weil jede Zeile des DataFrames einem eigenen Fall, hier also<br />

jeweils einer anderen Versuchsperson entspricht.<br />

TU Dresden, 25.1.2011 R-<strong>Workshop</strong>: <strong>Inferenzstatistik</strong> Folie 15 von 26


04 t-Test<br />

Interpretation<br />

Two Sample t-test<br />

data: data2.1$Aufgabenerf by data2.1$GUI<br />

t = 2.1612, df = 27, p-value = 0.03971<br />

alternative hypothesis: true difference in means is not equal to 0<br />

95 percent confidence interval:<br />

0.004327426 0.166720193<br />

sample estimates:<br />

mean in group A mean in group B<br />

0.7626667 0.6771429<br />

Der p-Wert (0.03971) liegt unter dem gewählten Risiko 1. Art a = 0.05, daher muss<br />

die Hypothese gleicher mittlerer Aufgabenerfüllung bei beiden GUIs verworfen<br />

werden.<br />

TU Dresden, 25.1.2011 R-<strong>Workshop</strong>: <strong>Inferenzstatistik</strong> Folie 16 von 26


04 t-Test<br />

Interpretation<br />

t = 2.1612, df = 27, p-value = 0.03971<br />

Die Teststatistik t beträgt 2.1612. Dies ist die Testgröße, die normalerweise mit dem Tabellenwert verglichen<br />

wird. Ist sie extremer, als der Tabellenwert des Quantils zum entsprechenden Freiheitsgrad (df), gilt der<br />

Mittelwertvergleich als signifikant.<br />

alternative hypothesis: true difference in means is not equal to 0<br />

Die abstrakte Alternativhypothese.<br />

95 percent confidence interval: 0.004327426 0.166720193<br />

Angenommen, man würde den Versuch unendlich oft indentisch wiederholen, dann läge die wahre Differenz in<br />

95% der Fälle im jeweiligen Konfidenzintervall. Praktische Anwendung: Wenn in einem Konfidenzintervall die<br />

Null eingeschlossen ist, gilt das Testergebnis als nicht signifikant. Im Falle einer Signifikanz stellt der Abstand<br />

von Null ein Maß für den Grad der Ablehnung der H0 dar.<br />

sample estimates: mean in group A mean in group B 0.7626667 0.6771429<br />

Die beiden Mittelwerte werden ausgegeben.


04 Daten aus <strong>Workshop</strong> I<br />

Eigenschaften der Daten 1/2<br />

> data2 .2 data2 .2<br />

> summary ( data2 .2)<br />

> boxplot (MW~GUI , data2 .2 , xlab =" GUI ",ylab ="<br />

Aufgabenerfuellung ",col =" orange ")<br />

> qqnorm ( data2 .2$MW); qqline ( data2 .2$MW)<br />

• Intervallskalliert - OK<br />

• Unabhängig - OK<br />

• Mehr als 2 Gruppen<br />

• Annähernde Gaußverteilung<br />

– Der Median sollte mittig in der Box liegen und die beiden Whisker etwa<br />

gleich lang sein. Die Punkte im QQ-Plot sollten ca. auf einer Linie<br />

liegen. - NICHT OK für t-Test<br />

TU Dresden, 25.1.2011 R-<strong>Workshop</strong>: <strong>Inferenzstatistik</strong> Folie 18 von 26


04 Daten aus <strong>Workshop</strong> I<br />

Eigenschaften der Daten 2/2<br />

• Varianzhomogenität<br />

– Levene-Test<br />

> levene . test ( data2 .2$MW , data2 .2$GUI )<br />

Wenn der p-Wert über a = 0.05 liegt, muss die Hypothese gleicher Varianzen<br />

beibehalten werden. - OK<br />

TU Dresden, 25.1.2011 R-<strong>Workshop</strong>: <strong>Inferenzstatistik</strong> Folie 19 von 26


04 Kruskal-Wallis Test<br />

Voraussetzungen<br />

Was tun, wenn Voraussetzungen für t-Test o.ä. nicht erfüllt sind?<br />

Es muss auf ein nichtparametrisches Testverfahren ausgewichen werden. Diese<br />

Testverfahren haben großzügigere Voraussetzungen - aber in der Regel eine<br />

geringere Teststärke (d.h. größeren Beta-Fehler). Als Beta-Fehler oder Fehler 2. Art<br />

wird beim statistischen Testen der Fehler bezeichnet, den man begeht, wenn man<br />

die Nullhypothese beibehält, obwohl die Alternativhypothese gilt.<br />

Typische Voraussetzungen für nichtparametrische Tests:<br />

• Varianzhomogenität - OK<br />

• Mindestens ordinale Skalierung - OK<br />

• Unabhängige Daten - OK<br />

TU Dresden, 25.1.2011 R-<strong>Workshop</strong>: <strong>Inferenzstatistik</strong> Folie 20 von 26


04 Kruskal-Wallis Test<br />

Anwendung<br />

Die Nullhypothese (H0) lautet:<br />

„Die unterschiedlichen Benutzeroberflächen haben keinen Einfluss auf den<br />

Mittelwert der Klassifizierungsgenauigkeit (MW)“. Die Nullhypothese wird mittels<br />

des Kruskal-Wallis Tests überprüft. Dieser nichtparametrische Test eignet sich für<br />

kleine Stichproben in Gruppen unterschiedlicher Größe, bei denen keine<br />

Normalverteilung nachgewiesen werden kann.<br />

> kruskal . test (MW~GUI , data2 .2)<br />

Wenn der p-Wert über a = 0.05 liegt, kann H0 nicht verworfen werden. Die<br />

Benutzeroberfläche hat dann also keine nachweisbare Auswirkung auf den<br />

Mittelwert der Klassifizierungsgenauigkeit.<br />

TU Dresden, 25.1.2011 R-<strong>Workshop</strong>: <strong>Inferenzstatistik</strong> Folie 21 von 26


05 Übungsaufgabe<br />

Dateneingabe<br />

20 Studenten wurden einem Stresstest unterzogen. Dabei wurden Paare gebildet<br />

die sich in ihren bisherigen Prüfungsergebnissen möglichst ähnlich waren. Eine<br />

Gruppe wurde vor dem Test starkem Stress ausgesetzt die andere diente als<br />

Kontrollgruppe. Ihre Ergebnisse auf einer Skala von 0-15 Punkten (15 = bestes<br />

Ergebnis), sehen Sie in folgender Tabelle (fiktive Daten).<br />

Geben Sie die Daten mittels des folgenden Befehls in R ein.<br />

> stress


05 Übungsaufgabe<br />

Auftrag<br />

Führen Sie einen geeigneten t-Test durch.<br />

Hinweise:<br />

• Formulieren Sie eine sinnvoll gerichtete unspezifische Hypothese<br />

• Achtung - es geht um die Differenzen der Paare<br />

• Überprüfen Sie die Voraussetzungen für den t-Test<br />

– Annähernde Gaußverteilung der Paardifferenzen, es wird Robustheit<br />

des Tests gegenüber dem schief in der Box liegenden Median<br />

angenommen<br />

• Schlagen Sie in der R-Hilfe die notwendigen Parameter für den t-Test nach<br />

– Gepaarte Daten, da Studentenpaare gebildet wurden, die sich<br />

möglichst ähnlich sein sollten.<br />

– Art der Alternativhypothese<br />

– ... ?<br />

TU Dresden, 25.1.2011 R-<strong>Workshop</strong>: <strong>Inferenzstatistik</strong> Folie 23 von 26


05 Übungsaufgabe<br />

Lösung<br />

=⇒ Gepaarter einseitiger t-Test (die eine Studentengruppe wurde einem<br />

Stressprogramm ausgesetzt, was schlechtere Testergebnisse erwarten lässt).<br />

H0: µ Stress >= µNormal - Die Stressbehandlung verschlechtert das Abschneiden der<br />

Probanden nicht.<br />

H1: µ Stress < µNormal - Das Abschneiden der Probanden ist nach der<br />

Stressbehandlung schlechter.<br />

> unterschiede boxplot ( unterschiede ) # schief liegender Median<br />

> t. test ( stress $ Stress , stress $ Normal , paired = TRUE ,<br />

alternative = " less ")<br />

# Achtung - Reihenfolge ist entscheidend , da einseitiger<br />

Test<br />

Der p-Wert (0.01568) ist kleiner als 0.05, deshalb ist das Ergebnis signifkant. Die<br />

Stressbehandlung bewirkt ein verschlechtertes Abschneiden im Test.<br />

(Achtung: für die Übung wurden fiktive Daten verwendet)


05 Übungsaufgabe<br />

Zusatzaufgabe<br />

• Warum können Sie ihre Hypothese nicht direkt mit einem Kruskal-Wallis-Test<br />

überpüfen?<br />

• Wie müssen Sie sie dazu verändern?<br />

• Führen Sie den Kruskal-Wallis Test durch.<br />

TU Dresden, 25.1.2011 R-<strong>Workshop</strong>: <strong>Inferenzstatistik</strong> Folie 25 von 26

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!