03.06.2014 Aufrufe

Letzter Dienstag

Letzter Dienstag

Letzter Dienstag

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Wiederholung


Skalenniveau<br />

<br />

<br />

<br />

<br />

Nominalskala<br />

Ordinalskala<br />

Intervallskala<br />

Verhältnisskala


Wichtige Maße<br />

Maße der zentralen Tendenz<br />

AM, Modus, Median<br />

Maße der Dispersion<br />

SD, AD, Range, Varianz


Wahrscheinlichkeit<br />

Ziehen mit oder ohne Zurücklegen?<br />

Reihenfolge der Ziehung wichtig?<br />

Ziehen aus unterschiedl. Teilstichproben?


Bedingte Wahrscheinlichkeit<br />

Es ist bekannt, dass von 10.000 Personen,<br />

die sich einem Tumor-Screening<br />

unterziehen,100 einen Tumor aufweisen.<br />

Außerdem weiß man, dass von 10 Personen,<br />

die tatsächlich krank sind, 9 ein positives<br />

Testergebnis erhalten. Allerdings erhält auch<br />

1 von 10 gesunden Personen ein positives<br />

Resultat. Wie wahrscheinlich ist es, dass eine<br />

Person mit positivem Testergebnis krank ist?


Kombinatorik I


Kombinatorik II


Bsp. Binomialverteilung<br />

Wie hoch ist die Wahrscheinlichkeit, bei zehn<br />

Würfen dreimal eine Sechs zu würfeln?<br />

P ≈ 0,155<br />

Die Wahrscheinlichkeit liegt bei etwa 16%.


Binomialverteilung<br />

Aus Bernoulli-WS erzeugtes Ergebnis, das<br />

komplementäre Ereignisse betrachtet:<br />

Bsp. Kopf oder Zahl?<br />

Klausurraten bei Multiple Choice


Binomialverteilung


Grafische Darstellung<br />

Skalenniveau der Daten?<br />

Gruppierte/Kategorisierte Daten?<br />

Anschaulichkeit versus Genauigkeit ?


Standardfehler<br />

Die „Standardabweichung“ der<br />

Stichprobenkennwerteverteilung.<br />

Berechenbar für Maße der zentralen Tendenz<br />

und einige Dispersionsmaße – sinnvoll für<br />

den Mittelwert.<br />

→ Konfidenzintervall: Gehört der hiesige<br />

Mittelwert zu der definierten Population?


Hypothesenbildung<br />

H0: Nullhypothese<br />

→ (auf) diese (hin) wird stets getestet<br />

H1: Alternativhypothese<br />

→ meist das gewünschte Ergebnis(„Unterschied“)<br />

α-Fehler; β-Fehler


Einfluss auf den Beta-Fehler<br />

1. Alpha-Niveau<br />

2. (un)Abhängige Stichproben<br />

3. Teststärke(1-β)<br />

4. (un)gerichtete Testung<br />

5. Homogenität der Merkmalsverteilung<br />

6. Stichprobenumfang<br />

7. Größe des statistischen Effekts


Verteilungsformen<br />

Parametrische vs. Nonparametrische Tests<br />

z.B. z-Test, t-Tests<br />

Oder Chi-Quadrat-basierte Tests


Auswahl geeigneter Verfahren


Parametrische Testverfahren<br />

<br />

<br />

<br />

<br />

Verteilungsvoraussetzung (meist<br />

Normalverteilung) → Signifikanzprüfung<br />

anhand der theoretischen Verteilung!<br />

Bisher bekannte Testverfahren:<br />

Parametrisch: z-Test, t-Test<br />

Nonparametrisch: χ²-Test, F-Test


Wechselseitige Beeinflussung<br />

1. Signifikanzniveau (α)<br />

2. β-Fehler (ebenso Teststärke)<br />

3. Effektgröße<br />

4. Stichprobenumfang


Problem der Signifikanz<br />

Kleine Unterschiede werden bei großem<br />

Stichprobenumfang signifikant!<br />

Große Unterschiede werden bei zu<br />

kleinem Stichprobenumfang nicht<br />

signifikant!<br />

Daher:<br />

A priori: optimaler Stichprobenumfang<br />

A posteriori: Effektgrößenberechnung


Optimaler Stichprobenumfang<br />

Die benötigte Stichprobe ist gerade so groß,<br />

dass der erwartete statistische Effekt<br />

signifikant wird.<br />

Dafür müssen allerdings die<br />

Irrtumswahrscheinlichkeiten für die Fehler<br />

erster und zweiter Art bekannt sein.<br />

Außerdem muss eine Effektgröße antizipiert<br />

und ein Analyseverfahren gewählt werden!


Einfluss der Stichprobengröße<br />

Ø große Mittelwertsunterschiede werden bei<br />

kleiner Stichprobengröße nicht signifikant!<br />

Ø kleine Mittelwertsunterschiede werden bei<br />

großem Stichprobenumfang signifikant!<br />

→ Effektgrößen!


Effektgrößen<br />

Cohens d relativiert die Mittelwertsdifferenz<br />

an der Streuung(gepoolt, Post-SD o.ä.) !<br />

Kleiner Effekt ≥ 0,2<br />

Mittlerer Effekt ≥ 0,5<br />

Großer Effekt ≥ 0,8


Effektgröße<br />

Effektgrößenmaß Delta<br />

−<br />

Abstand der Mittelwerte, normiert an der<br />

Streuung (SD)<br />

Empirische Effektgröße d<br />

−<br />

Schätzer für die Streuung: Gepoolte<br />

Streuung beider Stichproben<br />

Effektgröße d wächst…<br />

−<br />

mit größerem Abstand der Mittelwerte<br />

1<br />

− mit kleinerer Streuung 2<br />

δ<br />

δˆ<br />

=<br />

mit<br />

µ<br />

σˆ<br />

1<br />

= d =<br />

−<br />

σ<br />

=<br />

µ<br />

y<br />

1<br />

σˆ<br />

2<br />

−<br />

σˆ<br />

+<br />

y<br />

2<br />

σˆ<br />

2


Effektgröße<br />

n<br />

strukturell<br />

bildhaft<br />

3<br />

Gesamt<br />

<br />

Beispiel: Effektgröße der<br />

bildhaften vs. strukturellen<br />

Verarbeitung:<br />

ONEWAY deskriptive Statistiken<br />

95%-Konfidenzintervall für<br />

Standardab Standardf den Mittelwert<br />

N Mittelwert weichung ehler Untergrenze Obergrenze Minimum Maximum<br />

27 8,15 3,666 ,706 6,70 9,60 4 23<br />

17 16,94 4,293 1,041 14,73 19,15 4 24<br />

27 15,41 2,859 ,550 14,28 16,54 9 21<br />

71 13,01 5,228 ,620 11,78 14,25 4 24<br />

Effektgröße d = 2.21<br />

σˆ<br />

=<br />

δˆ<br />

=<br />

σˆ<br />

ˆ<br />

1<br />

+ σ<br />

2<br />

=<br />

2<br />

4.29 + 3.67<br />

= 3.98<br />

2<br />

y1<br />

− y2<br />

= d =<br />

σˆ<br />

16.94 − 8.15<br />

= 2.21<br />

3.98


Zeichne Alpha-und Beta-Fehler für eine<br />

ungerichtete Hypothese ein!


Formeln für t-Tests<br />

Unabhängige Stichproben<br />

Varianz: Gepoolte Standardfehler<br />

der 2 Stichproben<br />

t<br />

( N<br />

1<br />

+ N<br />

2<br />

−2)<br />

x<br />

= σ<br />

1<br />

−x<br />

x −x<br />

1<br />

2<br />

2<br />

σ<br />

x −x<br />

=<br />

σ<br />

2<br />

1<br />

1 2<br />

N N<br />

1<br />

σ<br />

+<br />

2<br />

2<br />

2<br />

Abhängige Stichproben<br />

Varianz: Standardfehler der<br />

Mittelwertsdifferenzfunktion<br />

t<br />

= N − 1<br />

x<br />

σˆ<br />

d<br />

x d<br />

σˆ =<br />

x<br />

d<br />

σˆ<br />

x<br />

d<br />

N<br />

Eine Stichprobe<br />

Varianz: Standardfehler<br />

t<br />

N −1<br />

=<br />

x −<br />

σˆ<br />

x<br />

µ<br />

σˆ =<br />

x<br />

σˆ<br />

x<br />

N


t-Tabelle(Verteilungstabelle)


Aufgabe<br />

In einer Untersuchung zum Thema<br />

“Verkehrsteilnahme unter Alkoholeinfluss” wird nur<br />

die „alkoholisierte“ Bedingung durchgeführt. Es wird<br />

jedoch ein standardisiertes Verfahren zur Bestimmung<br />

der Reaktionsgeschwindigkeit verwendet, von dem<br />

bekannt ist, dass dabei nicht-alkoholisierte<br />

Teilnehmern im Mittel eine Reaktionszeit von 750 ms<br />

erreichen. Berechnen Sie mit einen Eingruppen-t-<br />

Test, ob die rt(Reaktionszeit) der alkoholisierten<br />

Probanden erhöht ist.<br />

Bestimmen Sie auch die Effektgröße.


VP<br />

rt (alkohol)<br />

1 1020<br />

2 750<br />

3 950<br />

4 1550<br />

5 1210


Lösung<br />

o Mittelwertsdifferenz: 1096-750 = 346<br />

o Gepoolte SD: (302,47+302,47) : 2 = 302,47<br />

o d = 1,14<br />

großer Effekt nach Cohen<br />

temp ≈ 2, 56<br />

tkrit (4) = 2,132<br />

Inhaltliche Interpretation?<br />

Die Reaktionszeiten der<br />

alkoholisierten<br />

Probanden sind<br />

signifikant erhöht!


Bitte nicht verwechseln!<br />

Effektgröße<br />

o Größe eines Effektes<br />

Teststärke (Power)<br />

d<br />

=<br />

x<br />

1 −<br />

σˆ<br />

x<br />

x<br />

2<br />

Teststärke:<br />

o Wahrscheinlichkeit, einen in der Population vorhanden<br />

Effekt in einer statistischen Untersuchung zu finden.<br />

o Damit ist die Teststärke ein „Gegenstück“ zum β-Fehler:<br />

o<br />

o Teststärke = 1 - β


Der F-Test


F-Test<br />

<br />

unabhängige Stichproben werden auf<br />

Gleichheit/Ähnlichkeit der Varianzen geprüft<br />

→ Varianzhomogenität<br />

<br />

wichtig: zwei Freiheitsgrade!<br />

<br />

die größere Varianz steht im Zähler<br />

→ positive Werte → einseitige Testung<br />

(immer im 95%-Intervall)


F-Werte-Berechnung


F-Werte-Berechnung


F-Werte-Berechnung<br />

Der empirische Wert beträgt 2,56.<br />

Fkrit(9,15) = 2,59<br />

→ Die H0 wird beibehalten, das bedeutet<br />

homogene Varianzen!<br />

!Dies ist einer der wenigen Fälle, in denen<br />

fehlende Signifikanz positiv wirkt!


Der t - Test


Voraussetzungen<br />

<br />

N < 30 (Bortz: N < 100)<br />

<br />

Zufallsstichprobe<br />

<br />

min. intervallskaliert<br />

<br />

normalverteilt(annähernd)


Formeln für t-Tests<br />

Unabhängige Stichproben<br />

Varianz: Gepoolte Standardfehler<br />

der 2 Stichproben<br />

t<br />

( N<br />

1<br />

+ N<br />

2<br />

−2)<br />

x<br />

= σ<br />

1<br />

−x<br />

x −x<br />

1<br />

2<br />

2<br />

σ<br />

x −x<br />

=<br />

σ<br />

2<br />

1<br />

1 2<br />

N N<br />

1<br />

σ<br />

+<br />

2<br />

2<br />

2<br />

Abhängige Stichproben<br />

Varianz: Standardfehler der<br />

Mittelwertsdifferenzfunktion<br />

t<br />

= N − 1<br />

x<br />

σˆ<br />

d<br />

x d<br />

σˆ =<br />

x<br />

d<br />

σˆ<br />

x<br />

d<br />

N<br />

Eine Stichprobe<br />

Varianz: Standardfehler<br />

t<br />

N −1<br />

=<br />

x −<br />

σˆ<br />

x<br />

µ<br />

σˆ =<br />

x<br />

σˆ<br />

x<br />

N


t-Tabelle(Verteilungstabelle)


Weiteres Vorgehen<br />

Formulierung der Hypothesen (gerichtet oder<br />

ungerichtet).<br />

Berechnung der Mittelwertsdifferenz und des<br />

zugehörigen Standardfehlers.<br />

→ Berechnung des empirischen t-Werts<br />

Vergleich von empirischem mit dem von den<br />

Freiheitsgraden und Art der Hypothese<br />

abhängigen kritischen t-Wert aus der t-<br />

Tabelle.<br />

→ Entscheidung für H0 bzw. H1.


Hypothesenbildung<br />

Ein Student will in seiner Diplomarbeit überprüfen,<br />

ob Hypnose einen bedeutsamen Einfluss auf die<br />

Gedächtnisleistung hat. Als Kontrollmessung<br />

verwendet er Altklausuren aus der<br />

Sozialpsychologie bei Studierenden des ersten und<br />

zweiten Semesters. Je mehr richtige Antworten<br />

behalten bzw. Gegeben wurden, desto besser.<br />

Wie sehen die Hypothesen aus ?<br />

Was ist methodisch und inhaltlich zu kritisieren?


Hypothesenbildung<br />

Johanna sitzt in der Institutsbibliothek. Sie liest<br />

Sozialpsychologie.<br />

Um sich vom Lernen abzulenken, schaut sie aus<br />

dem Fenster und zählt, wieviele Hundebesitzer mit<br />

ihren Tieren die Straße passieren.<br />

Sie überlegt, ob mehr Männer oder Frauen mit<br />

Hunden unterwegs sind. Da sie gut in Statistik ist,<br />

fällt es ihr leicht, ein Experiment aufzustellen.<br />

Wie sehen die Hypothesen aus?<br />

Was könnte man noch untersuchen?


Nominalskaliert<br />

Intervallskalliert<br />

Ordinalskaliert<br />

künstlich<br />

dichotom<br />

natürlich<br />

polytom<br />

Intervallskalliert<br />

•Produkt-<br />

Moment-<br />

Korrelation<br />

•Spearmans<br />

Rangkorrelation<br />

•Kendals τ<br />

•polychorische<br />

Korrelation*<br />

•punktbiseriale<br />

Korrelation<br />

•biseriale<br />

Korrelation*<br />

•punktbiseriale<br />

Korrelation<br />

•η-Koeffizient<br />

Ordinalskaliert<br />

•Spearmans<br />

Rangkorrelation<br />

•biseriale<br />

Rangkorrelation<br />

•biseriale<br />

Rangkorrelation<br />

•Cramérs Index<br />

•Kendals τ<br />

•polychorische<br />

Korrelation*<br />

•polychorische<br />

Korrelation*<br />

Nominalskaliert<br />

(künstlich dichotom)<br />

•Punkttetrachorische<br />

Korrelation<br />

(φ-Koeffizient)<br />

•Punkttetrachorische<br />

Korrelation<br />

(φ-Koeffizient)<br />

•Cramérs Index<br />

•Tetrachorische<br />

Korrelation*<br />

•ν-Koeffizient*<br />

Nominalskaliert<br />

(natürlich dichotom)<br />

•Punkttetrachorische<br />

Korrelation<br />

(φ-Koeffizient)<br />

•Cramérs Index<br />

•Yules Y<br />

Nominalskaliert<br />

(polytom)<br />

•Cramérs Index<br />

•Contingenz -<br />

koeffizient CC<br />

*Berechnung von latenten Zusammenhängen


Kovarianz und Korrelation<br />

o<br />

o<br />

o<br />

Kovarianz und Korrelation sind Maße für den<br />

(linearen) Zusammenhang zwischen zwei Variablen.<br />

Eine positive Korrelation (bzw. Kovarianz) ist dann<br />

gegeben, wenn ein hoher Wert auf einer Variable<br />

häufig mit einen hohen Wert auf der anderen Variable<br />

einhergeht (z.B. Optimismus und Risikobereitschaft).<br />

Eine negative Korrelation (bzw. Kovarianz) ist dann<br />

gegeben, wenn ein hoher Wert auf einer Variable<br />

häufig mit einen niedrigen Wert auf der anderen<br />

Variable einhergeht (z.B. Optimismus und<br />

Ängstlichkeit oder Intelligenz und Abi-Note).


Produkt - Moment - Korrelation<br />

Berechnung der Korrelation:<br />

r<br />

xy<br />

cov<br />

= cov xy<br />

bzw.<br />

sx<br />

⋅ sy<br />

xy<br />

= rxy<br />

⋅ sx<br />

⋅ s<br />

y<br />

Die Korrelation entspricht<br />

der<br />

Kovarianz der z-<br />

transformierten<br />

Variablen!<br />

r<br />

xy<br />

N<br />

i<br />

= ∑ = 1<br />

( x<br />

i<br />

−<br />

N ⋅<br />

x)<br />

⋅<br />

s<br />

x<br />

⋅<br />

( y<br />

s<br />

y<br />

i<br />

−<br />

y)


Korrelationskoeffizient<br />

Der Korrelationskoeffizient (r) hat einen möglichen<br />

Wertebereich von +1 bis -1.<br />

Es gilt:<br />

r = +1 perfekt positiver Zusammenhang<br />

r = 0 kein Zusammenhang<br />

r = -1 perfekt negativer Zusammenhang


Korrelation<br />

Grafisch kann man Zusammenhänge zwischen zwei Variablen in<br />

einem Scatterplot darstellen.<br />

positiver Zusammenhang<br />

negativer Zusammenhang<br />

50<br />

4.5<br />

4.0<br />

40<br />

3.5<br />

30<br />

3.0<br />

2.5<br />

20<br />

2.0<br />

10<br />

1.5<br />

RISIKO<br />

0<br />

60<br />

80<br />

100<br />

120<br />

140<br />

160<br />

180<br />

ABITUR<br />

1.0<br />

.5<br />

80<br />

90<br />

100<br />

110<br />

120<br />

130<br />

140<br />

OPT<br />

IQ


Signifikanztest<br />

Hypothesen:<br />

H0: ρ = 0<br />

H1: ρ ≠ 0 bzw. (ρ > 0 oder ρ < 0)<br />

Die H0 kann mit einem t-Test überprüft werden:<br />

t N − 2<br />

=<br />

r<br />

⋅<br />

N −<br />

1 − r<br />

2<br />

2


Der Determinationskoeffizient<br />

Der Determinations-Koeffizient (r²) ist die quadrierte<br />

Korrelation (r). Er beschreibt den relativen Anteil der<br />

gemeinsamen Varianz von zwei Merkmalen.<br />

Varianz von X<br />

Varianz von Y<br />

= .20 ⇒<br />

= .40 ⇒<br />

= .60 ⇒<br />

.80<br />

.64<br />

2<br />

Gemeinsame<br />

xy<br />

xy<br />

Varianz 2<br />

rxy<br />

= 1.0 ⇒ rxy<br />

= 1. 0<br />

r<br />

r<br />

r<br />

r<br />

xy<br />

xy<br />

xy<br />

=<br />

⇒<br />

r<br />

r<br />

r<br />

r<br />

2<br />

xy<br />

2<br />

xy<br />

2<br />

xy<br />

= .04<br />

= .16<br />

= .36<br />

=


Voraussetzungen der linearen<br />

Regression<br />

Folgende Voraussetzungen für die Berechnung einer<br />

linearen Regressionsanalyse gegeben sein:<br />

(1) Die Variablen x und y müssen intervallskaliert sein<br />

(2) Die Variablen x und y müssen normalverteilt sein.<br />

(3) Die Homoskedastizität der Variablen muss gegeben<br />

sein.<br />

(4) Die Regressionsresiduen müssen unabhängig und<br />

normalverteilt sein.


Restriction of range


Standardschätzfehler<br />

Die Standardabweichung der Residuen wird als Standardschätzfehler<br />

bezeichnet. Er gibt die Streuung der y-Werte um die Regressionsgerade<br />

an(≠ Standardfehler):<br />

s<br />

i i<br />

i = 1<br />

y. x<br />

=<br />

= sy<br />

⋅ 1<br />

Der so berechnete Standardschätzfehler ist kein erwartungstreuer<br />

Schätzer. Indem man anstelle von n durch (n - 2) teilt (bzw. den<br />

empirischen Standardschätzfehler mit √(n/n-2) multipliziert),<br />

erhält man einen erwartungstreuen Schätzer des<br />

Standardschätzfehlers:<br />

σˆ<br />

y.<br />

x<br />

=<br />

n<br />

∑<br />

n<br />

∑<br />

i = 1<br />

( y<br />

( y<br />

i<br />

n −<br />

n<br />

−<br />

−<br />

2<br />

yˆ<br />

yˆ<br />

i<br />

)²<br />

)²<br />

=<br />

n<br />

n − 2<br />

−<br />

⋅<br />

s<br />

r<br />

2<br />

xy<br />

y.<br />

x


Kreuzvalidierung<br />

Berechnung zweier Regressionen mittels<br />

zwei vergleichbaren Stichproben(z.B. Durch<br />

(Median)split aus einer entstanden).<br />

Vergleich der vorhergesagten mit den<br />

tatsächlichen Werten zur Überprüfung der<br />

Gültigkeit von Aussagen.


Gibt es noch Fragen, die euch<br />

nicht ruhen lassen?<br />

Oder Verständnisprobleme?<br />

Letzte Chance VOR der Klausur!


Dann war's das für dieses Semester.<br />

Viel Erfolg bei den Klausuren und einen<br />

gelungenen Semesterabschluss.<br />

Und natürlich gelungene Semesterferien.<br />

Wir sehen uns hoffentlich spätestens im<br />

Sommersemester wieder. Zu Statistik: Teil II!<br />

Bis dahin (noch relevante) Fragen an:<br />

S.Tomczyk@gmx.net

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!