der multiplen Regression - Johannes Gutenberg-UniversitÃ¤t Mainz

Methoden der 

Psychologie 

Prof. Dr. G. Meinhardt 

6. Stock, TB II 

R. 06-206 (Persike) 

R. 06-321 (Meinhardt) 

Sprechstunde jederzeit 

nach Vereinbarung 

Forschungsstatistik I 

Dr. Malte Persike 

persike@uni-mainz.de 

http://psymet03.sowi.uni-mainz.de/ 

WS 2009/2010 

Fachbereich Sozialwissenschaften 

Psychologisches Institut 

Johannes Gutenberg Universität Mainz


Psychologie Multiple Regression I Multiple Regression II 

Grundlagen 

Gleichung 

Minimierung 

Normalgleichungen 

Multiple Regression 

Grundlagen 

Oft werden in psychologischen Untersuchungen nicht nur 

ein sondern mehrere UVn betrachtet. 

Beispiele: Abhängigkeit der Lebenszufriedenheit von 

sozialem, ökonomischem und Gesundheitsstatus; 

Beeinflussung sportlicher Leistung durch Trainingszustand 

und Anwesenheit von Zuschauern. 

Solche Fragestellungen werden auch als multifaktoriell 

bezeichnet 

Problem: Die Berechnung mehrerer Korrelationen 

vernachlässigt mögliche Zusammenhänge zwischen den 

Prädiktoren



Grundlagen 

Gleichung 

Minimierung 


Multiple Regression 

Grundgleichung 

Die Vorhersagegleichung der multiplen Regression mit k 

Prädiktoren wird geschrieben als 

yˆ = b + b ⋅ x + b ⋅ x + … + b ⋅x 

ˆ 

0 1 1 2 2 

k k 

Bei standardisierten disie ten Daten verwendet endet man das Symbol 

β für die k Regressionsparameter (bzw. „-gewichte“) 

ŷy = β ⋅ z + β ⋅ z + … 

+ β 

⋅ 

z 

1 1 2 2 k k 

Die vorhergesagte Variable (AV) wird als Kriterium 

bezeichnet, die vorhersagenden Variablen (UV) als 

Prädiktoren.



Grundlagen 

Regression 

Methode der kleinsten Quadrate (KQ-Kriterium) 

Gleichung Zur Minimierung des Vorhersagefehlers wird oft das 

Kleinste-Quadrate Kriterium verwendet (KQ; oder 

Ordinary Least Squares, OLS) 

Minimierung 

Parameter der multiplen Regressionsgleichung werden so 

gewählt, dass das Quadrat der Abweichungen von 

gemessenem und geschätztem Wert minimiert wird 


Für eine Versuchsperson i aus allen n gelte: 

y = yˆ 

+ e ⇔ e = y − yˆ 

i i i i i i 

Dann soll für alle n Datenwerte erreicht werden, dass 

n 

( ) 2 n 

y ˆ 

2 

i 

y ∑ 

i 

ei 

i= 1 i= 

1 

n n Minimierung der 

− = →min 

Varianz des 

Vorhersagefehlers 

∑



Grundlagen 


Methode der kleinsten Quadrate (KQ-Kriterium) 

Gleichung Mithilfe der Allgemeinen Gleichung der einfachen linearen 

Regression lässt sich für die Streuung des 

Vorhersagefehlers SS e also schreiben: 

Minimierung 

n 

n 

2 2 

SS = y − yˆ 

= y −b −b ⋅x −b x − −b x →min 

∑ ∑ … 

( ) ( ) 

e i i i 0 1 i1 2 i2 

k ik 

i= 1 i= 

1 


bzw. in der standardisierten Form 

n 

n 

( ˆ 

) ( β1 β2 

β 

) 

∑ ∑ … 

1 2 

2 2 

SS = z − z = z − ⋅ z − z − − z 

→ 

e y y y x x k x 

i= 1 i= 

1 

i i i i i ik 

min 

Die Minimierung der Regressionsparameter erfolgt über 

partielle Differenzierung nach jedem einzelnen der b- 

bzw. β-Gewichte



Grundlagen 

Gleichung 

Minimierung 



Normalgleichungen der multiplen Regression 

Die partielle Differenzierung der nichtstandardisierten 

Gleichung mit k Prädiktoren führt immer auf ein 

System von k+1 Normalgleichungen, das wie folgt 

aufgebaut ist: 

n n n n n 

∑ ∑ ∑ ∑ ∑ 

y = b + b x + b x + … + b x 

0 1 1 2 2 

k k 

i= 1 i= 1 i= 1 i= 1 i= 

1 

n n n n n 

2 

∑ yx1 = b0∑x1+ b1∑x 1 

+ b2∑x1x 2 

+ … + bk∑x1x 

k 

i= 1 i= 1 i= 1 i= 1 i= 

1 

n n n n n 

2 

∑yx2 = b0 ∑x2 + b1 ∑xx 1 2 

+ b2 ∑x2 + … + b k 

∑xx 

2 k 

i= 1 i= 1 i= 1 i= 1 i= 

1 

… 

n n n n 

∑yx = b ∑x + b ∑x x + b ∑x x + …+ b 

2 

k∑ 

xk 

k 0 k 1 1 k 2 2 k 

i= 1 i= 1 i= 1 i= 

1 

n 

i= 

1



Grundlagen 

Gleichung 

Minimierung 



Normalgleichungen der multiplen Regression 

In der standardisierten Form ergibt sich ein System 

von k Normalgleichungen: 

n n n n 

2 

zx z 

1 y 

= β1 zx + β 

1 2 

zx z 

1 x 

+ … + β 

2 k 

zx z 

1 xk 

i= 1 i= 1 i= 1 i= 

1 

n n n n 

2 

zx z 

2 y 

= β1 zx z 

1 x 

+ β 

2 2 

zx + … + β 

2 k 

zx z 

2 x k 

i= 1 i= 1 i= 1 i= 

1 

∑ ∑ ∑ ∑ 

∑ ∑ ∑ ∑ 

… 

n n n n 

2 

zx zy = β1 zx zx + β2 

zx zx + … + βk zx 

i= 1 i= 1 i= 1 i= 

1 

∑ ∑ ∑ ∑ 

k 1 k 2 k k



Grundlagen 

Gleichung 

Minimierung 



Multiple Regression - Zusammenfassung 

Die partielle Differenzierung einer multiplen 

Regressionsgleichung mit k Prädiktoren führt immer auf 

ein System von k+1 (bzw. k) Normalgleichungen 

Prinzip: Die summierte Ausgangsgleichung wird 

nacheinander mit jeder Prädiktorpotenz x 0 …x k (bzw. 

z 1 …z k ) multipliziert 

Die Normalgleichungen liefern dann für k+1 (bzw. k) 

unbekannte Regressionsparameter genau so viele 

Gleichungen. 

Di Gl i h t k d h S b tit ti 

Dieses Gleichungssystem kann nun durch Substitution 

oder Diagonalisierung für die Parameter gelöst werden



Interpretation 

der b und β 

Matrixalgebraische Berechnung 

Matrixalgebra- 

ische Berechnung 

der multiplen Regression 

Wir haben gesehen, dass die Normalgleichungen der 

multiplen Regression für standardisierte Daten lauteten: 

n n n n 

2 

zx z 

1 y 

= β1 zx + β 

1 2 

zx z 

1 x 

+ … + β 

2 k 

zx z 

1 x 

i= 1 i= 1 i= 1 i= 

1 

∑ ∑ ∑ ∑ 

n n n n 

2 

zx z 

2 y 

= β1 zx z 

1 x 

+ β 

2 2 

zx + … + β 

2 k 

zx z 

2 x 

i= 1 i= 1 i= 1 i= 

1 

∑ ∑ ∑ ∑ 

… 

n n n n 

2 

zx zy = β1 zx zx + β2 

zx zx + … + βk zx 

i= 1 i= 1 i= 1 i= 

1 

∑ ∑ ∑ ∑ 

k 1 k 2 k k 

k 

k 

Weiterhin ist die Korrelation zweier Variablen x m und x n : 

n 

1 1 

rx , , 

xm 

mx = ∑ z 

n ix 

z 

m ix 

= z × z 

n 

N 

N 

i= 

1 

x 

n







Damit reduziert sich das Normalgleichungssystem zu: 


r = β + β r + β r + … + β r 

x1y 1 2 x1x2 3 x1x3 k x1x k 

r = β r + β + β r + … + 

β 

r 


x2 y 1 x1x2 2 3 x2x3 k x2x 

r = β r + β r + β + … + β r 

x y 1 x x 2 x x 3 

k x x 

… 

3 1 3 2 3 3 

r = β r + β r + β r + … + β 

x y 1 x x 2 x x 3 x x k 

k 1 k 2 k 3 k 

k 

k 

In Matrixnotation ist dies: 

R 

xx 

1 T 

xy 

= ⋅ 

Z Z 

N 

× β = 

r mit 

Rxx










wobei: 

R 

xx 

× β = r 

1 xy 

mit R 

T 

xx 

= ⋅Z Z 

N 

Rxx 

= k× 

k 

Matrix der Prädiktorinterkorrelationen



Matrixalgebraische 

Berechnung 



Exkurs: Die Korrelationsmatrix R 

Aufbau und Bedeutung 

Die Korrelationsmatrix R stellt die Korrelationen 

zwischen k Variablen in Matrixschreibweise dar. 

Sie ist quadratisch und enthält k×k Korrelationen 

x 

x 

… 

x 

1 2 k 

x1 ⎛ 1 r12 r1 

k ⎞ 

⎜ 

⎟ 

x2 ⎜ 

r21 1 r2 

k 

⎟ 

⎜ ⎟ 

⎜ 

⎟ 

xk ⎝rk1 rk2 

1 ⎠ 

Die Hauptdiagonale 

enthält die 

Korrelationen der 

Variablen mit sich 

selbst (r xx = 1) 

Die untere und obere 

Dreiecksmatrix sind 

symmetrisch










wobei: 

R 

xx 

× β = r 

1 xy 

mit R 

T 

xx 

= ⋅Z Z 

N 

Rxx 

= k× 

k Matrix der Prädiktorinterkorrelationen 

 

r 

xy = k× 

1 Vektor der Kriteriumskorrelationen 

 

β = k × 1 Vektor der Regressionsgewichte 

Z = n × 

k 

Vektor der z-standardisierten Daten 

Lösung: Inverse Interkorrelationsmatrix vormultiplizieren 

R R 

 

× β = 

 

R r 

−1 −1 

xx xx xx xy 

⇔ 

I 

 

× β = 

 

R r 

−1 

xx 

xy



Matrixalgebraische 

Berechnung 




Rückrechnung der unstandardisierten Parameter 

Wurden die β-Parameter für die z-standardisierten 

Daten matrixalgebraisch bestimmt, kann die Berechnung 

der unstandardisierten b-Parameter vorgenommen 

werden über 

SDy 

bi 

= βi 

mit i = 1,2,..., k 

SD 

SD xi 

Die Konstante b 0 wird dann berechnet als 

b0 = y−bx 1 1−b2x2 −... −bkxk





Interpretation der Lösung 



b- und β-Gewichte 

Die Größe eines b-Gewichtes gibt an, um wieviele 

Einheiten sich der Wert des unstandardisierten 

Kriteriums verändert, wenn der Betrag des 

unstandardisierten Prädiktors um 1 steigt. 

Die Größe des β-Gewichtes gibt dasselbe für die 

standardisierten Variablen an 

Das b-Gewicht beantwortet die Frage: „Ich möchte 

einen der Prädiktoren um 1 erhöhen. Welchen sollte ich 

wählen, damit das Kriterium maximal steigt“ 

Das β-Gewicht beantwortet die Frage: „Mit welchem 

Prädiktor erhöhe ich das Kriterium am effizientesten“ 

Das b-Gewicht liefert also eine absolute, das β-Gewicht 

eine relative Information.



Kennwerte 

Test der 

Gewichte 

gegen Null 

Kennwerte der multiplen Regression 

1. Der multiple Korrelationskoeffizient R 

Definition: Der multiple Korrelationskoeffizient R 

repräsentiert die Korrelation zwischen dem Kriterium y 

und allen Prädiktoren x 1 …x k 

Dabei berücksichtigt R etwaige Interkorrelationen 

zwischen den Prädiktoren (und entfernt sie) 

Der multiple Korrelationskoeffizient R ist definiert als 

R 

yxx ⋅ 1 2… 

xk 

j xjy 

j=1= 

1 

k 

= ∑ β r 

Er ist mathematisch äquivalent zur Korrelation zwischen 

den gemessenen y-Werten und den vorhergesagten 

y dach -Werten, also 

R 

yxx ⋅ x 

= ryy 

1 2… 

k 

ˆ



Kennwerte 


Gewichte 

gegen Null 


2. Der multiple Determinationskoeffizient R² 

Definition: Der multiple Determinationskoeffizient 

R² repräsentiert die Varianzaufklärung, die alle 

Prädiktoren x 1 …x k am Kriterium y leisten 

Der multiple Determinationskoeffizient R² ist definiert als 

2 Erklärte Streuung Fehlerstreuung 

R = 

= 1− 

Gesamt-Streuung Gesamt-Streuung 

Rechnerisch: 

1 

Var( yˆ 

) Var( e) 

n 

Var( y) Var( y) 

1 

2 i= 

1 

R 

= = 1 

− = 

n 

n 

∑ 

∑ 

n i = 1 

( y− 

yˆ 

) 

( y− 

y) 

2 

2



Kennwerte 


Gewichte 

gegen Null 


3. Abhängigkeit 

a) Sind die Prädiktoren unabhängig, so sind die ß-Gewichte 

gleich den Kriteriumskorrelationen und die aufgeklärte 

Varianz ist die Summe der Quadrate der ß-Gewichte 

Erklärung: Bei perfekt unabhängigen 

Prädiktoren ist die 

Prädiktorinterkorrelationsmatrix 

R xx gleich der Identitätsmatrix t i I. 

 

β = I × r ⇔ β = r 

xy 

xy 

k 

Damit gilt für den multiplen 2 

R = ∑ 

⋅ 

Korrelationskoeffizienten R 

1 2… 

r 

k 

j 

Und R² ist einfach die Summe 

der quadrierten 

R 

Kriteriumskorrelationen 

⋅ 1 2 

∑ 

yxx x x y 

j= 

1 

k 

2 2 

yxx x 

= ∑ 

… 

r 

k xjy 

j= 

1



Kennwerte 


Gewichte 

gegen Null 


3. Abhängigkeit 

a) Sind die Prädiktoren unabhängig, so sind die ß-Gewichte 

gleich den Kriteriumskorrelationen und die aufgeklärte 

Varianz ist die Summe der Quadrate der ß-Gewichte 

b) Sind die Prädiktoren abhängig (interkorreliert), t) so sind 3 

Fälle zu unterscheiden: 

1. Der Prädiktor klärt zumindest Teile der Varianz am 

Kriterium auf, die andere Prädiktoren nicht 

aufklären: er ist nützlich. 

1. Der Prädiktor enthält Information, die bereits 

andere Prädiktoren enthalten: er ist redundant 

2. Der Prädiktor unterdrückt irrelevante Varianz in 

anderen Prädiktoren: er ist ein Suppressor



Kennwerte 


3a. Nützlichkeit 

Test der Nützlichkeit = Der Beitrag, den eine Variable zur 

Gewichte 

Varianzaufklärung des Kriteriums leistet, der von 

gegen Null 

den anderen Variablen nicht geleistet wird 

Die Nützlichkeit einer Variablen x j berechnet sich 

als 

U = R − R 

2 2 

j y, x y, 

x 

1,2,..., k + j 1,2,..., k − j 

U j it ist also der Betrag, Bt um den R² wächst, äht wenn die 

Variable x j in die multiple Regressionsgleichung 

aufgenommen wird.



Kennwerte 


Gewichte 

gegen Null 


3b. Redundanz 

Redundanz = die vielen Variablen messen Aspekte 

gemeinsam, so dass man prinzipiell weniger Prädiktoren 

benötigte → unerwünschter Aspekt 

Die Variable x j ist redundant zur Vorhersage von Variable y 

wenn gilt 

β ⋅ r < r 

2 

x x y x y 

j j j 

Prädiktoren enthalten empirisch nahezu immer 

gemeinsame Varianzanteile und sind somit „teilweise 

redundant“. d Echte Redundanz d liegt aber erst gemäß obiger 

Definition vor. 

Multikollinearität: Die Kovarianz eines Prädiktors mit 

dem Kriterium ist in den anderen Prädiktoren (fast) 

vollständig enthalten → extremer Fall von Redundanz.



Kennwerte 


Gewichte 

gegen Null 


3c. Suppression 

r x1 y 

x 1 

r x1 x2 

r x2 y =0 

x1 x2 

X 2 

Y 

x 2 „bindet“ irrelevante Prädiktorinformation 

x 2 hängt nicht mit y zusammen, trotzdem erhöht sie R²



Kennwerte 


3c. Suppression 

Test der Defintion: Eine Variable x j ist ein Suppressor, 

, 

Gewichte 

wenn gilt: 

gegen Null 

2 

Ux 

> rx y 

Die Zunahme der erklärten Varianz durch 

Aufnahme der Variable ist also größer als die 

einzelne Varianzaufklärung. 

j 

Vereinfachung: Bei nur zwei Prädiktoren x 1 und 

x 2 it ist x 2 ein Supressor, wenn gilt: 

r 

2 

1-r 

x 1 x 2 

xzx 

1 . 

> r 

2 xz 

⋅ 

1 

2 

1-rx z 

j 

2


Psychologie Lineare Regression Polynomische Regression 

Zusammenfassung 



Vereinfachung 

bei nur 1 UV 

Oft ist in der Psychologie die Vorhersage des Wertes 

einer bestimmten Variablen unter Kenntnis der 

Ausprägung anderer Variablen gefordert. 

Die bekannten Variablen wird dabei als Prädiktoren, 

Unabhängige Variablen (UVn) oder Erklärende 

Variablen bezeichnet 

Die vorherzusagende Variable wird als Kriterium, 

Abhängige Variable (AVn) oder Response bezeichnet






Vereinfachung 

bei nur 1 UV 

Drei Hauptfragestellungen der Regressionsrechnung: 

1. Gibt es eine statistische Beziehung zwischen zwei 

Variablen, die die Vorhersage der AV aus der UV erlaubt 

2. Kann eine möglichst einfache mathematische Regel 

formuliert werden, die diesen Zusammenhang beschreibt 

ˆ = 0 

+ 1⋅ 1+ 2⋅ 2 

+ … + k 

⋅ 

k 

y b b x b x b x 

3. Wie gut ist diese Regel im Hinblick auf die Vorhersage






Vereinfachung 

bei nur 1 UV 

Gründe für die Annahme einer linearen Gleichung: 

Lineare Zusammenhänge sind einfach zu verstehen 

Lineare Zusammenhänge sind mathematisch und 

statistisch einfach zu behandeln 

Lineare Gleichungen haben sich vielfach als gute 

Approximationen für komplexe Beziehungen erwiesen 

Achtung: Auch wenn die Beziehung zwischen zwei ZVn 

linear „aussieht“, muss es sich nicht zwangsläufig um 

einen linearen Zusammenhang handeln.






Vereinfachung 

bei nur 1 UV 

Vorsicht bei der Interpretation der Regressionsgleichung 

Bei der Korrelationsrechnung bedeutet ein 

Zusammenhang niemals Kausalität, lediglich 

Assoziation 

Bei der Regressionsrechnung g gilt zunächst dasselbe 

Die Kausalitätsvermutung wird (wenn überhaupt) schon 

bei der Aufstellung der Regressionsgleichung g g getroffen, 

nicht erst bei der Interpretation der Ergebnisse. 

Um tatsächlich Kausalität festzustellen, müssen weitere 

Randbedingungen vorliegen (z.B. zeitliche Antezedenz 

von Ursache vor Wirkung).





Vereinfachung bei nur einem Prädiktor 

Vereinfachung 

bei nur 1 UV 

Bei nur einem Prädiktor vereinfacht 

sich die Berechnung der Regressionsgewichte 

erheblich. 

ŷ = b0 + b1⋅x 

b 

1 

= r ⋅ 

1. Steigung: oder 

xy 

s 

y 

s x 

b 

1 

= 

cov( xy , ) 

s 

s x 

b = y − b ⋅x 

2. y-Achsenabschnitt: 0 1



Kennwerte 


Gewichte 

gegen Null 

Statistischer Test der Gewichte 

Fragestellung 

Neben der Aussage über die Nützlichkeit eines 

Prädiktors ist man oft daran interessiert, ob er 

überhaupt mit dem Kriterium zusammenhängt 

Grundgedanke: d Ein Prädiktor, der in keiner Verbindung 

zum Kriterium steht, sollte den Wert β j = 0 haben. Ein 

Prädiktor, der an der Veränderung des Kriteriums 

beteiligt ist, sollte einen Wert β j ≠ 0 haben. 

Problem: Allein aufgrund der zufälligen Auswahl der 

Merkmalsträger für die Stichprobe wird ein β-Gewicht 

niemals perfekt Null sein („Stichprobenfehler“). 

Frage: Wie unterschiedlich zu Null muss ein β-Gewicht 

Frage: Wie unterschiedlich zu Null muss ein β Gewicht 

sein, damit wir begründet annehmen können, dass diese 

Abweichung nicht zufällig ist



Kennwerte 


Gewichte 

gegen Null 


Grundannahmen 

Die Häufigkeitsverteilung einer Variablen ist oft nicht 

vollkommen zufällig, sondern folgt einer systematischen 

Form 

Beispiele: Körpergrößen, IQ, Augensummen beim Wurf 

zweier Würfel 

Oftmals lässt sich die Form einer solchen 

Häufigkeitsverteilung theoretisch durch eine 

mathematische Formel beschreiben. 

Beispiel Normalverteilung: 

f 

( x 

) 

1 

= ⋅e 

σ 2π 

1 ⎛ x−μ 

⎞ 

− ⋅ ⎜ ⎟ 

2 ⎝ σ ⎠ 

2



Kennwerte 


Gewichte 

gegen Null 


Grundannahmen 

Die Häufigkeitsverteilung einer Variablen ist oft nicht 

vollkommen zufällig, sondern folgt einer systematischen 

Form 

Beispiele: Körpergrößen, IQ, Augensummen beim Wurf 

zweier Würfel 

Oftmals lässt sich die Form einer solchen 

Häufigkeitsverteilung theoretisch durch eine 

mathematische Formel beschreiben. 

Beispiel χ²-Verteilung: 

f ( x ) 

= 

x 

2 

n x 

−1 

− 

2 2 

n 

2 

⋅e 

⋅Γ 

( 

n 

) 

2



Kennwerte 


Gewichte 

gegen Null 


Grundannahmen 

χ²-Verteilung 

Normalverteilung



Kennwerte 


Gewichte 

gegen Null 


Beispiel 

Körpergrößen von deutschen Frauen sind etwa wie folgt 

verteilt: 

Relative e Häufigkeit 

35% 

30% 

25% 

20% 

15% 

10% 

5% 

0% 

Körpergrößenverteilung deutscher Frauen 

Normalverteilung 

Körpergröße 

Ist eine Körpergröße von h=170cm typisch Wie ist es 

mit einer Körpergröße von h=120cm



Kennwerte 


Prinzip des Tests gegen Null 

Test der Wenn eine im Experiment beobachtete Ausprägung g „zu 

Gewichte 

unwahrscheinlich“ ist, um unter der gegebenen 

gegen Null 

Häufigkeitsverteilung zu entstehen, kann sie als nicht zu 

dieser Verteilung gehörig betrachtet werden. 

Dabei wird immer die theoretische Häufigkeitsverteilung 

(i.e. die mathematische Formel) benutzt, 

nicht die empirisch erhaltene (fehlerbehaftete) 

Bezogen auf die β-Gewichte fragen wir uns also: 

Angenommen, ein β itt ist tatsächlich t h Null, wie 

wahrscheinlich ist dann das an den Stichprobendaten 

gemessene β 

Problem: Wie gelangt man an die theoretische 

Häufigkeitsverteilung der β-Gewichte



Kennwerte 


Häufigkeitsverteilung transformierter Daten 

Test der Ausgangslage: g g Man habe am einer Stichprobe 

Gewichte 

Messwerte erhoben, die eine bestimmte 

gegen Null 

Häufigkeitsverteilung haben 

Transformation: Man bildet aus diesen Daten ein 

aggregiertes Maß 

Beispiele: Mittelwert, Standardabweichung, χ²-Wert, β- 

Gewichte 

Oft kann in einem solchen Fall die theoretische 

ti h 

Häufigkeitsverteilung des aggregierten Maßes 

bestimmt werden, teilweise erst nach einer weiteren 

mathematischen Transformation des Maßes



Kennwerte 


Berechnung der Auftretenswahrscheinlichkeit 

Test der Man berechne: „Prüfgröße“ 

Gewichte 

gegen Null 

n−k 

F 

( ) 

= ⋅ 

−1 

2 

β β j − 

1 2 

rjj 

( 1 

R 

) 

Regressionsgewicht Transformationsterm 

(Verteilung (hin unbekannt) 

zur F-Verteilung) 

mit = 1 

df Zähler 

⋅ − und 1 

d df = n −k 

−1 

Nenner 

n ist die Stichprobengröße, k die Anzahl der Prädiktoren 

r -1 jj ist das Diagonalelement j in der inversen 

Korrelationsmatrix, R² der multiple 

Determinationskoeffizient 

Die Prüfgröße folgt einer theoretischen 

Häufigkeitsverteilung, die F-Verteilung genannt wird 

Die F-Verteilung hat zwei Parameter, nämlich die so 

genannten Zähler- und Nenner-Freiheitsgrade



Kennwerte 


Gewichte 

gegen Null 


Die F-Verteilung 

Zähler‐FG 

Nenner‐FG



Kennwerte 


Gewichte 

gegen Null 


Bewertung der Auftretenswahrscheinlichkeit 

Die Freiheitsgrade sind einfach Zahlen, die die konkrete 

Form der theoretischen Häufigkeitsverteilung 

festlegen („Wie schief ist sie Wo ist sie zentriert“) 

Man berechnet zunächst die Prüfgröße F(β) 

Die F-Verteilung gibt nun an, welche Wahrscheinlichkeit 

p(F) das Auftreten der Prüfgröße hat 

Dies ist gleichzeitig die Wahrscheinlichkeit p(β) für den 

gemessenen oder einen noch extremeren Wert für β, unter 

der Annahme, dass das β in Wahrheit 0 ist. 

Die Aussage kann direkt auf das zugehörige b Gewicht 

Die Aussage kann direkt auf das zugehörige b-Gewicht 

übertragen werden.



Kennwerte 


Gewichte 

gegen Null 



Ist die berechnete Wahrscheinlichkeit zu klein, weicht der 

β-Parameter vermutlich eher nicht zufällig von 0 ab, 

sondern systematisch. 

Er ist dann statistisch signifikant von 0 verschieden. 

Problem: Wie klein ist „zu unwahrscheinlich“ 

Hier haben sich in der Praxis zwei Cut-Off Werte 

eingebürgert, die als α–Niveaus oder 

Signifikanzniveaus bezeichnet werden. 

Es gilt: α ≥0.05 → statistisch nicht signifikant 

α 

< 0.0505 → statistisch signifikant 

α < 0.01 → statistisch hochsignifikant



Kennwerte 


Gewichte 

gegen Null 



Angenommen, im Experiment erhalte man ein β=0.123. 

Für dieses berechnet man nun die Prüfgröße F und deren 

Auftretenswahrscheinlichkeit p(β) unter der Annahme, 

dass in Wahrheit gilt β=0. 

Es sei nun p=0.001. 

Nach unseren Konventionen würden wir auf jedem α- 

Niveau sagen, dass sich β signifikant von 0 unterscheidet. 

Aber Achtung: Das β=0.123 hat eine 

Auftretenswahrscheinlichkeit von p(β)=0.001. 

Mit dieser Wahrscheinlichkeit kann es also auch dann 

vorkommen, wenn in Wahrheit β=0 gilt.



Kennwerte 


Gewichte 

gegen Null 



Die Aussage, ein β sei signifikant von Null verschieden, ist 

eine Wahrscheinlichkeitsaussage bei der immer ein 

Restirrtum verbleibt, die Irrtumswahrscheinlichkeit. 

Diese Irrtumswahrscheinlichkeit hängt nicht von der 

konkret erhaltenen Wahrscheinlichkeit p ab, sondern vom 

gewählten Signifikanzniveau α. 

Bei α=0.05 beträgt die Irrtumswahrscheinlichkeit also 

5%, bei α=0.01 ist sie 1%. 

Praxis: In der Praxis wird α demzufolge entweder als 

α–Niveau, Signifikanzniveau oder auch 

Irrtumswahrscheinlichkeit bezeichnet.



Kennwerte 


Gewichte 

gegen Null 


Prinzip des Testens 

Beobachtung im Experiment: β=… 

Frage: Kann dieses β in Wahrheit Null sein 

Geht die Abweichung von 0 auf einen Stichprobenfehler zurück 

(1) Festlegung eines Signifikanzniveaus α 

(2) Berechnung der Prüfgröße: F(β) 

deren Häufigkeitsverteilung i il theoretisch h bekannt ist (F-Verteilung) 

(3) Berechnung der Wahrscheinlichkeit für 

diese Prüfgröße: p(F) 

(4) Rückschluss: p(F) = p(β) = p(b) Aber: Bei dieser Aus- 

sage irrt man sich mit 

(5) Vergleich von p mit α und einer Wahrscheinlichkeit 

von Treffen der Signifikanzaussage 

α·100%



Kennwerte 


Gewichte 

gegen Null 


Voraussetzungen 

Das zu wählende α-Niveau muss vor der Berechnung 

der Prüfgröße festgelegt werden (nicht: „Oh, p ist 

0.034, dann nehmen wir doch α=0.05“). 

Der statistische Test der Regressionsgewichte ist nur 

dann gültig, wenn die Prüfgröße tatsächlich einer F- 

Verteilung folgt. 

Dies kann immer dann angenommen werden wenn die 

Häufigkeitsverteilungen der Messwerte der Prädiktoren 

multivariat i t normalverteilt sind (statistisch ti ti sehr 

schwierige Prüfung) 

Als Faustregel gilt: Bei n >20undk k



Grundlagen 

Nichtlineare Regression 

Grundlagen 

Linearisierbare Bei einer Reihe psychologischer py Fragestellungen g ergeben 

Formen 

sich nichtlineare Zusammenhänge zwischen UV & AV. 

Polynome 

Beispiele: Reaktionszeit, Blutalkohol und 

psychomotorische Leistungen, Fehlerraten in 

Leistungstests bei verschiedenen 

Aufgabenschwierigkeiten 

Solche nichtlinearen Zusammenhänge lassen sich in zwei 

Klassen einteilen: 

1. Zusammenhänge, die sich durch eine einfache 

(nichtlineare) Transformationen in lineare 

Zusammenhänge überführen lassen 

2. Zusammenhänge, für die eine nichtlineare 

Regressionsgleichung gelöst werden muss.



Grundlagen 

Nichtlineare Regression 

Linearisierbare und polynomische Formen 

Linearisierbare Fall 1: Linearisierende Transformation, z.B. 

Formen 

ˆ 

( ) 

ln ˆ ln ln 

ln • 

0 0 1 

y = b ⋅xb1 

⎯⎯⎯→ y = b + b ⋅ x 

( ) ( ) ( ) 

Polynome 

(hier nicht behandelt) 

Fall 2: Nicht (einfach) linearisierbar 

ŷ = b + b ⋅ x+ b ⋅x 

0 1 2 

2



Grundlagen 

Nichtlineare Regression 1 

Beispiel: Logistische Regression 

0.8 

Linearisierbare 

Formen 

Gemessene Daten verlaufen 

ogivenförmig und variieren 

0.6 

04 0.4 

0.2 

Polynome 

zwischen 0 und 1 0 

Umformung der y-Werte durch 

Logarithmieren bewirkt eine 

Linearisierung der Daten 

Mithilfe dieser neuen y-Werte 

kann eine lineare Regression 

bestimmt werden, um die 

Parameter b 0 und b 1 zu 

errechnen 

0 10 20 30 40 

6 

4 

2 

0 

-20 

-2 

0 20 40 60 

-4 

-6 

-8



Grundlagen 


Formen 

Polynome 

Polynomische Regression 

Grundlagen und Durchführung 

Häufig können Merkmalszusammenhänge durch 

Polynome 2. oder 3. Ordnung gut beschrieben 

werden, d.h. 

oder 

ŷ = b + b ⋅ x+ b ⋅x 

0 1 2 

ŷ = b + b ⋅ x+ b ⋅ x + b ⋅x 

2 3 

0 1 2 3 

2 

Dies ist formal eine lineare multiple Regression, 

allerdings nicht mit mehreren Prädiktoren, sondern mit 

einem Prädiktor sowie Transformationen seiner selbst.



Grundlagen 


Formen 

Polynome 

Polynomische Regression 

Grundlagen und Durchführung 

Eine solche polynomische Regression wird 

berechnet, indem die transformierten Prädiktorterme 

bestimmt werden 

Dann wird eine übliche lineare multiple Regression 

durchgeführt 

Die Einträge der Korrelationsmatrix sind dabei dann die 

Korrelationen des Prädiktors mit sich selbst in den 

transformierten Formen 

Es können alle von Kennwerte und Gütemaße der 

multiplen Regression bestimmt werden. 

Die polyn. Regression ist auch über die KQ-Methode 

p y g Q 

(inkl. Normalgleichungen) herzuleiten. Dies führt auf 

dasselbe Ergebnis wie der hier verfolgte Ansatz.


Psychologie Spezielle Regressionen Partialkorrelation 

Dichotome UV 

Spezielle Regressionsvarianten 

Lineare Regression mit einem dichtomen Prädiktor 

Dichotome AV Bei psychologischen py Fragestellungen g interessiert häufig 

die Wirkung von dichotomen Prädiktoren. 

Polytome AV 

Kanonische 

Korrelation 

Beispiele: Akademiker und Lebenszufriedenheit, 

Morningness und Neurotizismus, Therapieerfahrung 

(ja/nein) und Therapiebereitschaft. 

Es soll hier bestimmt werden, wie stark sich die 

Ausprägung im dichotomen Prädiktor auf das 

intervallskalierte Kriterium auswirkt. 

Hier kann die übliche Berechnung eines linearen 

Regressionsmodells durchgeführt werden.



Dichotome UV 

Dichotome AV 

Polytome AV 



Die dichotome Variable wird hierzu per 

Dummykodierung erfasst 

Eine der beiden Ausprägungen erhält den Wert 0, die 

andere den Wert 1. 

Kanonische 

Geschlecht ht Kodierung 

Korrelation 

männlich 0 

weiblich 1 

weiblich 1 

männlich 0 

… 

…



Dichotome UV 

Dichotome AV 

Polytome AV 

Kanonische 

Korrelation 



Nach der Dummykodierung kann eine lineare Regression 

der intervallskalierten auf die dichotome ZV berechnet 

werden 

Der y-Achsenabschnitt ist der Mittelwert der 

Gruppe, die mit 0 kodiert wurde 

wegen y = a x + b ⇒ y = b für x = 0 

Die Steigung ist der Unterschied zwischen den beiden 

Gruppen 

yˆ 

− yˆ 

= a⋅ x + b− b= 

a 

wegen 1 0 1



Dichotome UV 



Dichotome AV 

Polytome AV 

Kanonische 

Korrelation



Dichotome UV 

Dichotome AV 

Polytome AV 

Kanonische 

Korrelation 


Regression mit einem dichtomen Kriterium 

In vielen Bereichen der Psychologie spielen dichotome 

Kriterien eine Rolle 

Beispiele: Bestehen eines Leistungstests abhängig vom 

IQ, Entdecken eines sehr leisen Tons abhängig von der 

Frequenz des Tons, Ausbildung einer Essstörung 

abhängig vom elterlichen Fürsorgeverhalten 

Durch die Prädiktoren muss dann ein 0/1-kodiertes 

/ 

Kriterium vorhergesagt werden. Zu diesem Zweck kommt 

die logistische Regression zum Einsatz 

(hier nicht behandelt)



Dichotome UV 

Dichtotome AV 

Polytome AV 

Kanonische 

Korrelation 


Regression mit einem polytomen Kriterium 

Liegt eine diskrete AV mit mehr als zwei Stufen vor, so 

spricht man von einem polytomen Kriterium 

Beispiele: Erreichter Schulabschluss abhängig vom IQ, 

Gewählter Leistungskurs abhängig vom Grad der 

Nerdiness, präferierte Automarke abhängig vom 

Neurotizismuswert 

Durch die Prädiktoren muss dann ein in k Stufen kodiertes 

Kriterium vorhergesagt werden. Zu diesem Zweck kommt 

die multinomiale logistische Regression zum Einsatz 




Dichotome UV 

Dichtotome AV 

Polytome AV 

Kanonische 

Korrelation 


Regression mit mehreren Kriterien 

Eine Reihe psychologischer Fragestellungen beinhaltet 

multiple Prädiktoren und multiple Kriterien 

Beispiele: Veränderung von Reaktionszeit und 

Fehlerhäufigkeit abhängig von Alkoholisierungsgrad, 

Geschlecht und Fahrpraxis; Beeinflussung von 

Schlafdauer, Schlafqualität und Erholungsgrad g durch 

Medikamentengabe, autogenes Training, Einschlafzeit und 

Zimmerhelligkeit 

Durch k Prädiktoren sollen dann m Kriterienwerte 

vorhergesagt werden. Zu diesem Zweck kommt die 

kanonische Korrelation (oder multivariate Regression) 

zum Einsatz 




Partialkorrelation 

Semipartialkorrelation 

Multiple Parti- 

alkorrelation 


Deutungsmöglichkeiten der einfachen Regression 

1. Zufall 

2. Kausalität: X → Y 

3. Latente Drittvariable(n) ξ 

x 1 

x 2 

4. Direkte und indirekte 

ξ 

Kausalität 

x 1 

x 2






im Fall zweier korrelierter Variablen 

Definition: Eine Partialkorrelation ist die Korrelation 

zweier Variablen, die vom Effekt anderer Variablen 

bereinigt wurden. 

Einsatzzweck: Prüfung einer Kausalvermutung G 

„Kommt r y1y2 dadurch zustande, dass eine Drittvariable x 

ursächlich auf y 1 und y 2 einwirkt“ 

x 

r x,y1 

G 

G 

r x , y2 

r y1,y2 

y 1 y 2 


alkorrelation 

„Scheinkorrelation“




Berechnung und Prüfung 



1. Sage y 1 aus x voraus und berechne Residuen e y1 


3. Berechne die Korrelation r ey1 e y2 Schreibe: r y1y2 12· 

x 


alkorrelation 

r ey1 e y2 

y 1 y 

r 2 

y1y2 

x 

x 

„ohne“ 

Ist Partialkorrelation nahe Null, so beruht die Korrelation 

Ist Partialkorrelation nahe Null, so beruht die Korrelation 

r y1y2 tatsächlich vor allem auf der Einwirkung von x. 

(Prüfung mit Korrelationstest)






alkorrelation 


Vereinfachte Berechnung 

Für die Varianz der Vorhersagefehler galt 

Var ( e ) = Var ( y ) ⋅ (1 −r 

) 

2 

Var ( e x, y 

) = Var( y1 ) ⋅(1 −rx, 

y 

) 

2 

xy , 2 xy , 

1 1 

2 2 

Die Korrelation der Fehler lässt sich schreiben als 

r 

e 

e 

xy , 1 xy , 1 

Man kann nun zeigen, dass gilt 

Cov( exy 

, 

e 

1 xy , 

) 

2 

= 

s s 

e 

e 

xy , 1 xy , 

2 

Cov ( e , e ) = Cov( y , y 

) −b ⋅b ⋅Var ( x 

) 

xy , xy , 1 2 xy , xy , 

1 2 1 2 

Und damit errechnet sich die Partialkorrelation als 

r 

y , y ⋅x 

1 2 

= 

r − 

r r 

y, y xy , xy , 

1 2 1 2 

1−r 

⋅ 1−r 

2 2 

x, y 

x, 

y 

1 2





alkorrelation 


Partialkor- 

relation 

im Fall zweier korrelierter Variablen 

Definition: Eine Semipartialkorrelation ist die 

Korrelation zweier Variablen, von denen eine vom Effekt 

einer anderen Variablen bereinigt wurden. 

Einsatzzweck: Prüfung der zusätzlichen Information 

eines Prädiktors bei der Erklärung des Kriteriums 

Die Semipartialkorrelation ist eng verbunden mit der 

Nützlichkeit. Es gilt nämlich U = r² x 1 y(x1 · x2) 

r ey1 y2 

y 1 y 2 

x 

r y1y2




Berechnung 




2. Berechne die Korrelation r y1 e y2 Schreibe: r y1(y2 · x) 

(analog für Auspartialisierung von x aus y1) 


alkorrelation 

3. Oder verwende die vereinfachte Formel 

„ohne“ 

r 

y ( y ⋅ x) 

= 

1 2 

r − r r 

y , y x , y x , 

y 

1 2 1 2 

1− 

r 

2 

xy , 

2






alkorrelation 

(Semi-)Partialkorrelation höherer Ordnung 

Prinzip 

Soll der Zusammenhang zwischen zwei Variablen um 

mehrere andere Variablen bereinigt werden, spricht 

man von (Semi-)Partialkorrelationen höherer Ordnung 

Die Berechnung verläuft analog zu den (Semi-)Partialkorrelationen 

bei nur einer auszupartialisierenden 

Variable 

x 1 x 2 

x 3 

r y1y2 

y 1 y 2



(Semi-)Partialkorrelation höherer Ordnung 

Berechnung über multiple Regression 




alkorrelation 

1. Sage y 1 aus den x 1 …x k voraus und berechne Residuen e y1 

2. Sage y 2 aus den x 1 …x k und berechne Residuen e y2 

3. Berechne die Korrelation r ey1 e y2 → r y 1y2 · x1…xk 

(Partialkorrelation) 

oder 

Berechne die Korrelation r y1 e y2 

(Semipartialkorrelation) 

→ r y 1(y2 · x1…xk)

der multiplen Regression - Johannes Gutenberg-UniversitÃ¤t Mainz

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?