Hintergrundmaterial zur Vorlesung Statistik 2
Hintergrundmaterial zur Vorlesung Statistik 2
Hintergrundmaterial zur Vorlesung Statistik 2
Verwandeln Sie Ihre PDFs in ePaper und steigern Sie Ihre Umsätze!
Nutzen Sie SEO-optimierte ePaper, starke Backlinks und multimediale Inhalte, um Ihre Produkte professionell zu präsentieren und Ihre Reichweite signifikant zu maximieren.
<strong>Hintergrundmaterial</strong> <strong>zur</strong> <strong>Vorlesung</strong> <strong>Statistik</strong> 2<br />
Kap. 15.2: Herleitung des Zerlegungssatzes der Gesamtstreuung<br />
bei linearer Regression<br />
Die Gleichung für die Zerlegung bei linearer Regression lautet bekanntlich:<br />
n∑<br />
n∑<br />
n∑<br />
(y i − ȳ) 2 = (y i − ŷ i ) 2 + (ŷ i − ȳ) 2 . (1)<br />
i=1<br />
i=1<br />
i=1<br />
Betrachten wir zunächst die Quadratsumme der Residualabweichung ∑ n<br />
i=1 (y i − ŷ i ) 2 :<br />
Einsetzen des Ergebnisses für die Ausgleichsgerade,<br />
ergibt zunächst:<br />
ŷ = a + bx = ȳ + b(x − ¯x),<br />
n∑<br />
n∑<br />
(y i − ŷ i ) 2 = (y i − ȳ − b(x i − ¯x)) 2<br />
i=1<br />
i=1<br />
n∑<br />
n∑<br />
= (y i − ȳ) 2 − 2b (y i − ȳ)(x i − ¯x) + b 2 ∑ n (x i − ¯x) 2<br />
i=1<br />
i=1<br />
i=1<br />
Setzt man nun auch für den Ausgleichskoeffizienten b das Regressionsergebnis b = s xy /s 2 x<br />
ein, ergibt sich für die Quadratsumme der Residualabweichung:<br />
n∑<br />
n∑<br />
(y i − ŷ i ) 2 = (y i − ȳ) 2 − n s2 xy<br />
.<br />
i=1<br />
i=1<br />
s 2 x<br />
Für die Quadratsumme der erklärten Abweichung (zweiter Summand der rechten Seite in<br />
Gl. (1)) ergibt sich analog:<br />
n∑<br />
(ŷ i − ȳ) 2 = b 2 ∑ n (x i − ¯x) 2 = n s2 xy<br />
.<br />
i=1<br />
i=1<br />
s 2 x<br />
Damit heben sich die Kovarianzterme ∝ s 2 xy weg und man erhält<br />
was zu beweisen war.<br />
n∑<br />
n∑<br />
n∑<br />
(y i − ȳ) 2 = (y i − ŷ i ) 2 + (ŷ i − ȳ) 2 ,<br />
i=1<br />
i=1<br />
i=1<br />
1
Zu 15.3 Herleitung des Zusammenhangs<br />
Rangkorrelation-Bestimmtheitsmaß im linearen Fall<br />
Das Bestimmtheitsmaß der Regression ŷ(x) eines Streudiagramms {(x i , y i ), i = 1, · · · , n}<br />
lautet bekanntlich<br />
n∑<br />
n∑<br />
n∑<br />
(y i − ŷ i ) 2 (y i − ȳ) 2 − (y i − ŷ i ) 2<br />
i=1<br />
i=1<br />
i=1<br />
B = 1 − U = 1 −<br />
=<br />
.<br />
n∑<br />
n∑<br />
(y i − ȳ) 2 (y i − ȳ) 2<br />
i=1<br />
i=1<br />
Mit dem für lineare Regressionen gültigen Zerlegungssatz (1) erhält man zunächst<br />
n∑<br />
(ŷ i − ȳ) 2<br />
B =<br />
i=1<br />
n∑<br />
i=1<br />
(y i − ȳ) 2 . (2)<br />
Damit nun die Korrelationsfunktion ins Spiel kommt, muss man die Regressionsfunktion<br />
irgendwie durch r xy ausdrücken:<br />
Dabei hat man<br />
ausgenutzt.<br />
ŷ(x) = a + bx = ȳ + b(x − ¯x) = ȳ + r xys y<br />
s x<br />
(x − ¯x). (3)<br />
b = s xy<br />
s 2 x<br />
=<br />
(<br />
sxy<br />
s x s y<br />
)<br />
sy<br />
s x<br />
= r xy<br />
s y<br />
s x<br />
Damit wird der Zähler von (2):<br />
n∑<br />
n∑<br />
(ŷ i − ȳ) 2 s 2<br />
=<br />
yrxy(x 2 i − ¯x) 2<br />
i=1<br />
i=1<br />
s 2 x<br />
= s2 yr 2 xy<br />
s 2 x<br />
n∑<br />
(x i − ¯x) 2 = ns 2 yrxy.<br />
2<br />
i=1<br />
Der Nenner von (2) ist ∑ n<br />
i=1 (y i − ȳ) 2 = ns 2 y und damit letztendlich<br />
was zu zeigen war.<br />
B = ns2 yr 2 xy<br />
ns 2 y<br />
= r 2 xy,<br />
Kap. 15.3(c): Herleitung des Rangkorrelationskoeffizienten nach<br />
Spearman aus dem Maßkorrelationskoeffizient nach Pearson<br />
Ausgangspunkt: Maßkorrelationskoeffizient für einen Scatter-Plot der Werte x i und y i ,<br />
i = 1, · · · , n, von kardinalskalierten Größen X und Y :<br />
r xy = s xy<br />
s x s y<br />
2
Erzeugen einer ordinalskalierten Rangfolgenliste der x i und y i :<br />
Sei R i ∈ {1, 2, · · · , n}, i = 1, 2, · · · , n die Rangfolge der Werte x i und S i ∈ {1, 2, · · · , n}, i =<br />
1, 2, · · · , n die Rangfolge der Werte y i . Alle Werte müssen voneinander verschieden sein,<br />
so dass die Reihenfolge genau von 1 bis n geht! (bzw. allgemeiner von (k + 1) bis (k + n)<br />
mit k einer beliebigen ganzen Zahl). Zum Beispiel gilt R j = 1 für den Index j, für den der<br />
zugehörige Wert x j am kleinsten ist und R k = n für den Index k, für den x k am größten<br />
ist. Falls zwei oder mehr der x i oder y i gleich sind, wählt man die Rangfolge willkürlich.<br />
Anwendung der Maßkorrelation auf die Rangfolgenlisten:<br />
r xy ⇒ r RS = s RS<br />
s R s S<br />
(4)<br />
mit<br />
s 2 R = 1 n∑<br />
(R i −<br />
n<br />
,<br />
i=1<br />
(5)<br />
s 2 S = 1 n∑<br />
(S i −<br />
n<br />
,<br />
i=1<br />
(6)<br />
s RS = 1 n∑<br />
(R i −<br />
n<br />
i − ¯S).<br />
i=1<br />
(7)<br />
Ausnutzen der speziellen Struktur der R i und S i :<br />
¯R = ¯S = n + 1 , (8)<br />
2<br />
n∑<br />
(R i − ¯R)<br />
n∑<br />
2 = (S i − ¯S)<br />
n∑<br />
2 = (i 2 − 2 ¯Ri + ¯R<br />
n∑<br />
( ) n + 1 2 2 ) = i 2 − n . (9)<br />
2<br />
i=1<br />
i=1<br />
i=1<br />
i=1<br />
Mit<br />
ergibt sich<br />
n∑<br />
i 2 = 1<br />
i=1<br />
6 (n + 3n2 + 2n 3 )<br />
Wir benötigen nun noch die Summe ∑ n<br />
i=1 (R i − ¯R)(S i − ¯S):<br />
s 2 R = s 2 s = (n2 − 1)<br />
. (10)<br />
12<br />
n∑<br />
(R i − ¯R)(S i − ¯S)<br />
n∑<br />
= i S i −R i ¯S − ¯RSi −<br />
i=1<br />
i=1(R ¯R ¯S)+ 1 n∑<br />
i −S i )<br />
2<br />
i=1(R 2 − 1 n∑<br />
(R i −S i ) 2 (11)<br />
2<br />
i=1<br />
3
Die letzten beiden Summanden wurden pro Forma hinzuaddiert; sie ergeben natürlich<br />
zusammen Null. Fasst man die beiden ersten Summanden zusammen und beachtet Gln.<br />
(8) und ∑ n<br />
i=1 R i = ∑ n<br />
i=1 S i , erhält man<br />
n∑<br />
(R i − ¯R)(S i − ¯S)<br />
n∑<br />
=<br />
i ¯R +<br />
i=1<br />
i=1(−2R ¯R2 + Ri 2 ) − 1 2<br />
= ns 2 R − 1 n∑<br />
(R i − S i ) 2 .<br />
2<br />
i=1<br />
n∑<br />
(R i − S i ) 2<br />
i=1<br />
Setzt man dies in Gl. (4) ein und beachtet man Gl. (7), s R s S = s 2 R und Gl. (10), erhält<br />
man den Rangkorrelationskoeffizienten nach Spearman:<br />
r RS = n n2 −1<br />
− 1 ∑ ni=1<br />
(R<br />
12 2<br />
i − S i ) 2<br />
n n2 −1<br />
12<br />
= 1 −<br />
6<br />
n(n 2 − 1)<br />
n∑<br />
(R i − S i ) 2 . (12)<br />
i=1<br />
Summa summarum: Der Rangkorrelationskoeffizienten nach Spearman ist der Maßkorrelationskoeffizient<br />
nach Pearson, angewandt auf die natürlichzahligen Rangfolgelisten R i<br />
und S i von ordinal- oder kardinalskalierten Werten x i und y i .<br />
4