Letzter Dienstag
Letzter Dienstag
Letzter Dienstag
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Wiederholung
Skalenniveau<br />
<br />
<br />
<br />
<br />
Nominalskala<br />
Ordinalskala<br />
Intervallskala<br />
Verhältnisskala
Wichtige Maße<br />
Maße der zentralen Tendenz<br />
AM, Modus, Median<br />
Maße der Dispersion<br />
SD, AD, Range, Varianz
Wahrscheinlichkeit<br />
Ziehen mit oder ohne Zurücklegen?<br />
Reihenfolge der Ziehung wichtig?<br />
Ziehen aus unterschiedl. Teilstichproben?
Bedingte Wahrscheinlichkeit<br />
Es ist bekannt, dass von 10.000 Personen,<br />
die sich einem Tumor-Screening<br />
unterziehen,100 einen Tumor aufweisen.<br />
Außerdem weiß man, dass von 10 Personen,<br />
die tatsächlich krank sind, 9 ein positives<br />
Testergebnis erhalten. Allerdings erhält auch<br />
1 von 10 gesunden Personen ein positives<br />
Resultat. Wie wahrscheinlich ist es, dass eine<br />
Person mit positivem Testergebnis krank ist?
Kombinatorik I
Kombinatorik II
Bsp. Binomialverteilung<br />
Wie hoch ist die Wahrscheinlichkeit, bei zehn<br />
Würfen dreimal eine Sechs zu würfeln?<br />
P ≈ 0,155<br />
Die Wahrscheinlichkeit liegt bei etwa 16%.
Binomialverteilung<br />
Aus Bernoulli-WS erzeugtes Ergebnis, das<br />
komplementäre Ereignisse betrachtet:<br />
Bsp. Kopf oder Zahl?<br />
Klausurraten bei Multiple Choice
Binomialverteilung
Grafische Darstellung<br />
Skalenniveau der Daten?<br />
Gruppierte/Kategorisierte Daten?<br />
Anschaulichkeit versus Genauigkeit ?
Standardfehler<br />
Die „Standardabweichung“ der<br />
Stichprobenkennwerteverteilung.<br />
Berechenbar für Maße der zentralen Tendenz<br />
und einige Dispersionsmaße – sinnvoll für<br />
den Mittelwert.<br />
→ Konfidenzintervall: Gehört der hiesige<br />
Mittelwert zu der definierten Population?
Hypothesenbildung<br />
H0: Nullhypothese<br />
→ (auf) diese (hin) wird stets getestet<br />
H1: Alternativhypothese<br />
→ meist das gewünschte Ergebnis(„Unterschied“)<br />
α-Fehler; β-Fehler
Einfluss auf den Beta-Fehler<br />
1. Alpha-Niveau<br />
2. (un)Abhängige Stichproben<br />
3. Teststärke(1-β)<br />
4. (un)gerichtete Testung<br />
5. Homogenität der Merkmalsverteilung<br />
6. Stichprobenumfang<br />
7. Größe des statistischen Effekts
Verteilungsformen<br />
Parametrische vs. Nonparametrische Tests<br />
z.B. z-Test, t-Tests<br />
Oder Chi-Quadrat-basierte Tests
Auswahl geeigneter Verfahren
Parametrische Testverfahren<br />
<br />
<br />
<br />
<br />
Verteilungsvoraussetzung (meist<br />
Normalverteilung) → Signifikanzprüfung<br />
anhand der theoretischen Verteilung!<br />
Bisher bekannte Testverfahren:<br />
Parametrisch: z-Test, t-Test<br />
Nonparametrisch: χ²-Test, F-Test
Wechselseitige Beeinflussung<br />
1. Signifikanzniveau (α)<br />
2. β-Fehler (ebenso Teststärke)<br />
3. Effektgröße<br />
4. Stichprobenumfang
Problem der Signifikanz<br />
Kleine Unterschiede werden bei großem<br />
Stichprobenumfang signifikant!<br />
Große Unterschiede werden bei zu<br />
kleinem Stichprobenumfang nicht<br />
signifikant!<br />
Daher:<br />
A priori: optimaler Stichprobenumfang<br />
A posteriori: Effektgrößenberechnung
Optimaler Stichprobenumfang<br />
Die benötigte Stichprobe ist gerade so groß,<br />
dass der erwartete statistische Effekt<br />
signifikant wird.<br />
Dafür müssen allerdings die<br />
Irrtumswahrscheinlichkeiten für die Fehler<br />
erster und zweiter Art bekannt sein.<br />
Außerdem muss eine Effektgröße antizipiert<br />
und ein Analyseverfahren gewählt werden!
Einfluss der Stichprobengröße<br />
Ø große Mittelwertsunterschiede werden bei<br />
kleiner Stichprobengröße nicht signifikant!<br />
Ø kleine Mittelwertsunterschiede werden bei<br />
großem Stichprobenumfang signifikant!<br />
→ Effektgrößen!
Effektgrößen<br />
Cohens d relativiert die Mittelwertsdifferenz<br />
an der Streuung(gepoolt, Post-SD o.ä.) !<br />
Kleiner Effekt ≥ 0,2<br />
Mittlerer Effekt ≥ 0,5<br />
Großer Effekt ≥ 0,8
Effektgröße<br />
Effektgrößenmaß Delta<br />
−<br />
Abstand der Mittelwerte, normiert an der<br />
Streuung (SD)<br />
Empirische Effektgröße d<br />
−<br />
Schätzer für die Streuung: Gepoolte<br />
Streuung beider Stichproben<br />
Effektgröße d wächst…<br />
−<br />
mit größerem Abstand der Mittelwerte<br />
1<br />
− mit kleinerer Streuung 2<br />
δ<br />
δˆ<br />
=<br />
mit<br />
µ<br />
σˆ<br />
1<br />
= d =<br />
−<br />
σ<br />
=<br />
µ<br />
y<br />
1<br />
σˆ<br />
2<br />
−<br />
σˆ<br />
+<br />
y<br />
2<br />
σˆ<br />
2
Effektgröße<br />
n<br />
strukturell<br />
bildhaft<br />
3<br />
Gesamt<br />
<br />
Beispiel: Effektgröße der<br />
bildhaften vs. strukturellen<br />
Verarbeitung:<br />
ONEWAY deskriptive Statistiken<br />
95%-Konfidenzintervall für<br />
Standardab Standardf den Mittelwert<br />
N Mittelwert weichung ehler Untergrenze Obergrenze Minimum Maximum<br />
27 8,15 3,666 ,706 6,70 9,60 4 23<br />
17 16,94 4,293 1,041 14,73 19,15 4 24<br />
27 15,41 2,859 ,550 14,28 16,54 9 21<br />
71 13,01 5,228 ,620 11,78 14,25 4 24<br />
Effektgröße d = 2.21<br />
σˆ<br />
=<br />
δˆ<br />
=<br />
σˆ<br />
ˆ<br />
1<br />
+ σ<br />
2<br />
=<br />
2<br />
4.29 + 3.67<br />
= 3.98<br />
2<br />
y1<br />
− y2<br />
= d =<br />
σˆ<br />
16.94 − 8.15<br />
= 2.21<br />
3.98
Zeichne Alpha-und Beta-Fehler für eine<br />
ungerichtete Hypothese ein!
Formeln für t-Tests<br />
Unabhängige Stichproben<br />
Varianz: Gepoolte Standardfehler<br />
der 2 Stichproben<br />
t<br />
( N<br />
1<br />
+ N<br />
2<br />
−2)<br />
x<br />
= σ<br />
1<br />
−x<br />
x −x<br />
1<br />
2<br />
2<br />
σ<br />
x −x<br />
=<br />
σ<br />
2<br />
1<br />
1 2<br />
N N<br />
1<br />
σ<br />
+<br />
2<br />
2<br />
2<br />
Abhängige Stichproben<br />
Varianz: Standardfehler der<br />
Mittelwertsdifferenzfunktion<br />
t<br />
= N − 1<br />
x<br />
σˆ<br />
d<br />
x d<br />
σˆ =<br />
x<br />
d<br />
σˆ<br />
x<br />
d<br />
N<br />
Eine Stichprobe<br />
Varianz: Standardfehler<br />
t<br />
N −1<br />
=<br />
x −<br />
σˆ<br />
x<br />
µ<br />
σˆ =<br />
x<br />
σˆ<br />
x<br />
N
t-Tabelle(Verteilungstabelle)
Aufgabe<br />
In einer Untersuchung zum Thema<br />
“Verkehrsteilnahme unter Alkoholeinfluss” wird nur<br />
die „alkoholisierte“ Bedingung durchgeführt. Es wird<br />
jedoch ein standardisiertes Verfahren zur Bestimmung<br />
der Reaktionsgeschwindigkeit verwendet, von dem<br />
bekannt ist, dass dabei nicht-alkoholisierte<br />
Teilnehmern im Mittel eine Reaktionszeit von 750 ms<br />
erreichen. Berechnen Sie mit einen Eingruppen-t-<br />
Test, ob die rt(Reaktionszeit) der alkoholisierten<br />
Probanden erhöht ist.<br />
Bestimmen Sie auch die Effektgröße.
VP<br />
rt (alkohol)<br />
1 1020<br />
2 750<br />
3 950<br />
4 1550<br />
5 1210
Lösung<br />
o Mittelwertsdifferenz: 1096-750 = 346<br />
o Gepoolte SD: (302,47+302,47) : 2 = 302,47<br />
o d = 1,14<br />
großer Effekt nach Cohen<br />
temp ≈ 2, 56<br />
tkrit (4) = 2,132<br />
Inhaltliche Interpretation?<br />
Die Reaktionszeiten der<br />
alkoholisierten<br />
Probanden sind<br />
signifikant erhöht!
Bitte nicht verwechseln!<br />
Effektgröße<br />
o Größe eines Effektes<br />
Teststärke (Power)<br />
d<br />
=<br />
x<br />
1 −<br />
σˆ<br />
x<br />
x<br />
2<br />
Teststärke:<br />
o Wahrscheinlichkeit, einen in der Population vorhanden<br />
Effekt in einer statistischen Untersuchung zu finden.<br />
o Damit ist die Teststärke ein „Gegenstück“ zum β-Fehler:<br />
o<br />
o Teststärke = 1 - β
Der F-Test
F-Test<br />
<br />
unabhängige Stichproben werden auf<br />
Gleichheit/Ähnlichkeit der Varianzen geprüft<br />
→ Varianzhomogenität<br />
<br />
wichtig: zwei Freiheitsgrade!<br />
<br />
die größere Varianz steht im Zähler<br />
→ positive Werte → einseitige Testung<br />
(immer im 95%-Intervall)
F-Werte-Berechnung
F-Werte-Berechnung
F-Werte-Berechnung<br />
Der empirische Wert beträgt 2,56.<br />
Fkrit(9,15) = 2,59<br />
→ Die H0 wird beibehalten, das bedeutet<br />
homogene Varianzen!<br />
!Dies ist einer der wenigen Fälle, in denen<br />
fehlende Signifikanz positiv wirkt!
Der t - Test
Voraussetzungen<br />
<br />
N < 30 (Bortz: N < 100)<br />
<br />
Zufallsstichprobe<br />
<br />
min. intervallskaliert<br />
<br />
normalverteilt(annähernd)
Formeln für t-Tests<br />
Unabhängige Stichproben<br />
Varianz: Gepoolte Standardfehler<br />
der 2 Stichproben<br />
t<br />
( N<br />
1<br />
+ N<br />
2<br />
−2)<br />
x<br />
= σ<br />
1<br />
−x<br />
x −x<br />
1<br />
2<br />
2<br />
σ<br />
x −x<br />
=<br />
σ<br />
2<br />
1<br />
1 2<br />
N N<br />
1<br />
σ<br />
+<br />
2<br />
2<br />
2<br />
Abhängige Stichproben<br />
Varianz: Standardfehler der<br />
Mittelwertsdifferenzfunktion<br />
t<br />
= N − 1<br />
x<br />
σˆ<br />
d<br />
x d<br />
σˆ =<br />
x<br />
d<br />
σˆ<br />
x<br />
d<br />
N<br />
Eine Stichprobe<br />
Varianz: Standardfehler<br />
t<br />
N −1<br />
=<br />
x −<br />
σˆ<br />
x<br />
µ<br />
σˆ =<br />
x<br />
σˆ<br />
x<br />
N
t-Tabelle(Verteilungstabelle)
Weiteres Vorgehen<br />
Formulierung der Hypothesen (gerichtet oder<br />
ungerichtet).<br />
Berechnung der Mittelwertsdifferenz und des<br />
zugehörigen Standardfehlers.<br />
→ Berechnung des empirischen t-Werts<br />
Vergleich von empirischem mit dem von den<br />
Freiheitsgraden und Art der Hypothese<br />
abhängigen kritischen t-Wert aus der t-<br />
Tabelle.<br />
→ Entscheidung für H0 bzw. H1.
Hypothesenbildung<br />
Ein Student will in seiner Diplomarbeit überprüfen,<br />
ob Hypnose einen bedeutsamen Einfluss auf die<br />
Gedächtnisleistung hat. Als Kontrollmessung<br />
verwendet er Altklausuren aus der<br />
Sozialpsychologie bei Studierenden des ersten und<br />
zweiten Semesters. Je mehr richtige Antworten<br />
behalten bzw. Gegeben wurden, desto besser.<br />
Wie sehen die Hypothesen aus ?<br />
Was ist methodisch und inhaltlich zu kritisieren?
Hypothesenbildung<br />
Johanna sitzt in der Institutsbibliothek. Sie liest<br />
Sozialpsychologie.<br />
Um sich vom Lernen abzulenken, schaut sie aus<br />
dem Fenster und zählt, wieviele Hundebesitzer mit<br />
ihren Tieren die Straße passieren.<br />
Sie überlegt, ob mehr Männer oder Frauen mit<br />
Hunden unterwegs sind. Da sie gut in Statistik ist,<br />
fällt es ihr leicht, ein Experiment aufzustellen.<br />
Wie sehen die Hypothesen aus?<br />
Was könnte man noch untersuchen?
Nominalskaliert<br />
Intervallskalliert<br />
Ordinalskaliert<br />
künstlich<br />
dichotom<br />
natürlich<br />
polytom<br />
Intervallskalliert<br />
•Produkt-<br />
Moment-<br />
Korrelation<br />
•Spearmans<br />
Rangkorrelation<br />
•Kendals τ<br />
•polychorische<br />
Korrelation*<br />
•punktbiseriale<br />
Korrelation<br />
•biseriale<br />
Korrelation*<br />
•punktbiseriale<br />
Korrelation<br />
•η-Koeffizient<br />
Ordinalskaliert<br />
•Spearmans<br />
Rangkorrelation<br />
•biseriale<br />
Rangkorrelation<br />
•biseriale<br />
Rangkorrelation<br />
•Cramérs Index<br />
•Kendals τ<br />
•polychorische<br />
Korrelation*<br />
•polychorische<br />
Korrelation*<br />
Nominalskaliert<br />
(künstlich dichotom)<br />
•Punkttetrachorische<br />
Korrelation<br />
(φ-Koeffizient)<br />
•Punkttetrachorische<br />
Korrelation<br />
(φ-Koeffizient)<br />
•Cramérs Index<br />
•Tetrachorische<br />
Korrelation*<br />
•ν-Koeffizient*<br />
Nominalskaliert<br />
(natürlich dichotom)<br />
•Punkttetrachorische<br />
Korrelation<br />
(φ-Koeffizient)<br />
•Cramérs Index<br />
•Yules Y<br />
Nominalskaliert<br />
(polytom)<br />
•Cramérs Index<br />
•Contingenz -<br />
koeffizient CC<br />
*Berechnung von latenten Zusammenhängen
Kovarianz und Korrelation<br />
o<br />
o<br />
o<br />
Kovarianz und Korrelation sind Maße für den<br />
(linearen) Zusammenhang zwischen zwei Variablen.<br />
Eine positive Korrelation (bzw. Kovarianz) ist dann<br />
gegeben, wenn ein hoher Wert auf einer Variable<br />
häufig mit einen hohen Wert auf der anderen Variable<br />
einhergeht (z.B. Optimismus und Risikobereitschaft).<br />
Eine negative Korrelation (bzw. Kovarianz) ist dann<br />
gegeben, wenn ein hoher Wert auf einer Variable<br />
häufig mit einen niedrigen Wert auf der anderen<br />
Variable einhergeht (z.B. Optimismus und<br />
Ängstlichkeit oder Intelligenz und Abi-Note).
Produkt - Moment - Korrelation<br />
Berechnung der Korrelation:<br />
r<br />
xy<br />
cov<br />
= cov xy<br />
bzw.<br />
sx<br />
⋅ sy<br />
xy<br />
= rxy<br />
⋅ sx<br />
⋅ s<br />
y<br />
Die Korrelation entspricht<br />
der<br />
Kovarianz der z-<br />
transformierten<br />
Variablen!<br />
r<br />
xy<br />
N<br />
i<br />
= ∑ = 1<br />
( x<br />
i<br />
−<br />
N ⋅<br />
x)<br />
⋅<br />
s<br />
x<br />
⋅<br />
( y<br />
s<br />
y<br />
i<br />
−<br />
y)
Korrelationskoeffizient<br />
Der Korrelationskoeffizient (r) hat einen möglichen<br />
Wertebereich von +1 bis -1.<br />
Es gilt:<br />
r = +1 perfekt positiver Zusammenhang<br />
r = 0 kein Zusammenhang<br />
r = -1 perfekt negativer Zusammenhang
Korrelation<br />
Grafisch kann man Zusammenhänge zwischen zwei Variablen in<br />
einem Scatterplot darstellen.<br />
positiver Zusammenhang<br />
negativer Zusammenhang<br />
50<br />
4.5<br />
4.0<br />
40<br />
3.5<br />
30<br />
3.0<br />
2.5<br />
20<br />
2.0<br />
10<br />
1.5<br />
RISIKO<br />
0<br />
60<br />
80<br />
100<br />
120<br />
140<br />
160<br />
180<br />
ABITUR<br />
1.0<br />
.5<br />
80<br />
90<br />
100<br />
110<br />
120<br />
130<br />
140<br />
OPT<br />
IQ
Signifikanztest<br />
Hypothesen:<br />
H0: ρ = 0<br />
H1: ρ ≠ 0 bzw. (ρ > 0 oder ρ < 0)<br />
Die H0 kann mit einem t-Test überprüft werden:<br />
t N − 2<br />
=<br />
r<br />
⋅<br />
N −<br />
1 − r<br />
2<br />
2
Der Determinationskoeffizient<br />
Der Determinations-Koeffizient (r²) ist die quadrierte<br />
Korrelation (r). Er beschreibt den relativen Anteil der<br />
gemeinsamen Varianz von zwei Merkmalen.<br />
Varianz von X<br />
Varianz von Y<br />
= .20 ⇒<br />
= .40 ⇒<br />
= .60 ⇒<br />
.80<br />
.64<br />
2<br />
Gemeinsame<br />
xy<br />
xy<br />
Varianz 2<br />
rxy<br />
= 1.0 ⇒ rxy<br />
= 1. 0<br />
r<br />
r<br />
r<br />
r<br />
xy<br />
xy<br />
xy<br />
=<br />
⇒<br />
r<br />
r<br />
r<br />
r<br />
2<br />
xy<br />
2<br />
xy<br />
2<br />
xy<br />
= .04<br />
= .16<br />
= .36<br />
=
Voraussetzungen der linearen<br />
Regression<br />
Folgende Voraussetzungen für die Berechnung einer<br />
linearen Regressionsanalyse gegeben sein:<br />
(1) Die Variablen x und y müssen intervallskaliert sein<br />
(2) Die Variablen x und y müssen normalverteilt sein.<br />
(3) Die Homoskedastizität der Variablen muss gegeben<br />
sein.<br />
(4) Die Regressionsresiduen müssen unabhängig und<br />
normalverteilt sein.
Restriction of range
Standardschätzfehler<br />
Die Standardabweichung der Residuen wird als Standardschätzfehler<br />
bezeichnet. Er gibt die Streuung der y-Werte um die Regressionsgerade<br />
an(≠ Standardfehler):<br />
s<br />
i i<br />
i = 1<br />
y. x<br />
=<br />
= sy<br />
⋅ 1<br />
Der so berechnete Standardschätzfehler ist kein erwartungstreuer<br />
Schätzer. Indem man anstelle von n durch (n - 2) teilt (bzw. den<br />
empirischen Standardschätzfehler mit √(n/n-2) multipliziert),<br />
erhält man einen erwartungstreuen Schätzer des<br />
Standardschätzfehlers:<br />
σˆ<br />
y.<br />
x<br />
=<br />
n<br />
∑<br />
n<br />
∑<br />
i = 1<br />
( y<br />
( y<br />
i<br />
n −<br />
n<br />
−<br />
−<br />
2<br />
yˆ<br />
yˆ<br />
i<br />
)²<br />
)²<br />
=<br />
n<br />
n − 2<br />
−<br />
⋅<br />
s<br />
r<br />
2<br />
xy<br />
y.<br />
x
Kreuzvalidierung<br />
Berechnung zweier Regressionen mittels<br />
zwei vergleichbaren Stichproben(z.B. Durch<br />
(Median)split aus einer entstanden).<br />
Vergleich der vorhergesagten mit den<br />
tatsächlichen Werten zur Überprüfung der<br />
Gültigkeit von Aussagen.
Gibt es noch Fragen, die euch<br />
nicht ruhen lassen?<br />
Oder Verständnisprobleme?<br />
Letzte Chance VOR der Klausur!
Dann war's das für dieses Semester.<br />
Viel Erfolg bei den Klausuren und einen<br />
gelungenen Semesterabschluss.<br />
Und natürlich gelungene Semesterferien.<br />
Wir sehen uns hoffentlich spätestens im<br />
Sommersemester wieder. Zu Statistik: Teil II!<br />
Bis dahin (noch relevante) Fragen an:<br />
S.Tomczyk@gmx.net