Residuen und Diagnostikplots
Residuen und Diagnostikplots
Residuen und Diagnostikplots
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
<strong>Residuen</strong> <strong>und</strong><br />
<strong>Diagnostikplots</strong><br />
Vortrag im Rahmen des<br />
Seminars „Statistische Graphik“<br />
von Cornelia Spachtholz
1. Einleitung<br />
2. <strong>Residuen</strong>plots<br />
2.1 Definitionen<br />
Gliederung<br />
2.2 Verschiedene Varianten von <strong>Residuen</strong>plots<br />
2.3 Zielsetzung der Graphik<br />
2.4 Testverfahren auf Anpassungsfehler<br />
3. <strong>Diagnostikplots</strong><br />
3.1 Cook‘s Distance <strong>und</strong> studentisierte <strong>Residuen</strong><br />
3.2 Leverages<br />
3.3 Covratio, Dffits, Dfbetas<br />
3.4 Partielle Regressionsplots<br />
3.5 Testverfahren auf Ausreißer<br />
4. Beispiel Abalone Daten<br />
5. Zusammenfassung <strong>und</strong> Empfehlung<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 2
1. Einleitung<br />
• Diagnostiken helfen zu entscheiden, ob es Informationen gibt,<br />
die dem Modell widersprechen<br />
• Dass Diagnostiken gebraucht werden, zeigen vier beispielhafte<br />
Graphiken:<br />
Für alle Graphiken<br />
erhält man mittels<br />
Anpassung durch<br />
lineare Regression die<br />
gleichen Schätzer:<br />
η ˆ<br />
0 = 3.0, η ˆ1= 0.5,<br />
2<br />
ˆ σ =1.53 <strong>und</strong> R 2 = 0.667<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 3
Verschiedene <strong>Diagnostikplots</strong><br />
1. „Standard“ <strong>Residuen</strong>plots<br />
- <strong>Residuen</strong> gegen vorhergesagte Werte<br />
- <strong>Residuen</strong> gegen jede erklärende Variable...<br />
2. Leave-one-out <strong>Diagnostikplots</strong><br />
- Einflussplots ( Cook‘s Distance )<br />
- Leverages gegen studentisierte <strong>Residuen</strong><br />
3. <strong>Diagnostikplots</strong> für jede erklärende Variable<br />
- Partielle Regression Plots ( added variable plots )<br />
- Partielle <strong>Residuen</strong> Plots<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 4
⎜⎝⎛<br />
2. <strong>Residuen</strong>plots<br />
2.1 Definitionen:<br />
• Multiples lineares Regressionsmodell:<br />
y =η +<br />
e<br />
T i<br />
i<br />
| xi<br />
ui<br />
für i = 1,...,n<br />
der Vektor<br />
i<br />
w<br />
i<br />
u besteht aus k Termen u ( )<br />
j<br />
x i<br />
wobei p die Anzahl der erklärenden Variablen ist.<br />
es gilt: u ( x ) ∀i,<br />
u ( x ) = X ∀j<br />
2 k<br />
1 i<br />
= 1<br />
j i j−1,<br />
i<br />
= ,...,<br />
j = 1,...,k, k=p+1,<br />
Var<br />
( y | x )<br />
i<br />
i<br />
= Var<br />
e<br />
i<br />
w<br />
i<br />
|<br />
x<br />
i<br />
2<br />
σ<br />
=<br />
w<br />
i<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 5<br />
⎟⎠⎞
2.1 Definitionen<br />
• Wichtige Annahme: Die Fehler sind unabhängig von x<br />
2<br />
E( e x ) = E( e ) = 0 <strong>und</strong> ( ) ( )<br />
i i i<br />
⇒<br />
Var<br />
e<br />
i<br />
x<br />
i<br />
= Var ei<br />
• Problem: die Fehler müssen durch <strong>Residuen</strong> geschätzt werden<br />
Wenn<br />
durch einsetzen von y i<br />
=<br />
i<br />
= σ<br />
T<br />
yˆ i<br />
= ηˆ ui<br />
dann sind die <strong>Residuen</strong> eˆ<br />
i<br />
= wi<br />
( yi<br />
− yˆ<br />
i<br />
)<br />
T ei<br />
η u<br />
i<br />
+ <strong>und</strong> ŷ = ηˆT ui<br />
w<br />
i<br />
ˆ<br />
T T<br />
erhält man ei<br />
ei<br />
+ wi<br />
( η ui<br />
−η<br />
ui<br />
) = ei<br />
+<br />
i<br />
= ˆ<br />
• Es gilt: E( ε x ) = 0 E( e x ) = E( eˆ<br />
x ) <strong>und</strong> Var( e x ) ≈Var( eˆ<br />
x )<br />
i<br />
i<br />
i<br />
• Diese Resultate gelten auch für alle anderen Modelle, wo man<br />
annehmen kann, dass die Fehler normalverteilt sind.<br />
i<br />
i<br />
ε<br />
i<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 6<br />
⇒<br />
i<br />
i<br />
i<br />
i
2.2 Verschiedene Varianten von <strong>Residuen</strong>plots<br />
• Die nützlichsten <strong>Residuen</strong>plots in der Praxis sind:<br />
<strong>Residuen</strong> gegen<br />
e v.<br />
yˆ<br />
1. Angepasste Werte:<br />
i i<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 7
2.2 Verschiedene Varianten von <strong>Residuen</strong>plots<br />
2. individuelle Vorhersagewerte xk<br />
oder Paare von Vorhersagewerten<br />
in einem 3 D Plot:<br />
e v.<br />
x<br />
i<br />
k<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 8
2.2 Verschiedene Varianten von <strong>Residuen</strong>plots<br />
3. Potentielle Vorhersagewerte, die nicht im Modell repräsentiert<br />
sind<br />
4. gegen Reihenfolge der Daten, ID, etc..:<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 9
2.2 Verschiedene Varianten von <strong>Residuen</strong>plots<br />
5. Histogramm, Boxplot, Dotplot von e i<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 10
2.3 Zielsetzung der Graphik<br />
• Falls das Modell korrekt ist, ist in einem <strong>Residuen</strong>plot die<br />
Erwartungswertfunktion konstant 0 <strong>und</strong> die Varianzfunktion in<br />
etwa konstant<br />
• Beispiel:<br />
1. 2.<br />
Mittelwert <strong>und</strong> Varianz sind<br />
rel. konstant, d.h der Plot ist<br />
konsistent mit den Erwartungen<br />
unter unserem Modell<br />
Die Daten unterstützen das<br />
Modell nicht, da Eˆ<br />
( eˆ<br />
x)<br />
eindeutiges<br />
Kurvenverhalten aufweist<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 11
2.3 Zielsetzung der Graphik<br />
3. 4.<br />
Die Daten unterstützen<br />
das Modell nicht, die<br />
Varianz ist nicht konstant<br />
Die Daten scheinen bis auf einen<br />
einzelnen Ausreißer das Modell<br />
zu unterstützen<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 12
2.3 Zielsetzung der Graphik<br />
5.<br />
Kombination der Erscheinungsformen<br />
In den Graphiken 1-4. Hier ist offenbar<br />
Der Mittelwert <strong>und</strong> die Varianz nicht<br />
konstant<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 13
2.4 Testverfahren<br />
2.4.1 Test auf Kurvenverhalten<br />
Es gibt dafür zwei verschiedene Tests:<br />
1. Wenn h nicht zufällig ist, d.h die <strong>Residuen</strong> gegen eine<br />
konkrete Linearkombination der u-Terme geplottet werden<br />
• füge den Term ( h T u) 2<br />
zum Modell dazu<br />
T<br />
T<br />
• passe die Daten mit dem Modell i<br />
xi<br />
= η ui<br />
+ δ ( h ui<br />
)<br />
an<br />
y +<br />
• konstruiere den T-Test für die Hypothese, dass der<br />
Koeffizient δ=0 ist.<br />
• für einen kleinen p-Wert bestätigt sich der visuelle Eindruck<br />
• In der Praxis unwahrscheinlich, da h in der Regel unbekannt ist<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 14<br />
2<br />
e<br />
i<br />
w<br />
i
2.4.1 Test auf Kurvenverhalten<br />
2. Tukey‘s Test für Nichtadditivität<br />
Wenn h = ηˆ d.h. die <strong>Residuen</strong> gegen die angepassten Werte<br />
geplottet werden, testet man die Hypothese δ = 0 in dem Modell<br />
T<br />
( η u )<br />
T<br />
2<br />
y<br />
i<br />
xi<br />
= η ui<br />
+ δ<br />
i<br />
+<br />
hier wird der Test von Tukey verwendet:<br />
e<br />
i<br />
w<br />
i<br />
T<br />
• als erstes werden für die Nullhypothese δ = 0 die Werte yˆ i<br />
= ηˆ ui<br />
berechnet<br />
• dann ersetzt man den nichtlinearen Term durch die angepassten<br />
T<br />
T 2<br />
Werte <strong>und</strong> erhält: ( )<br />
e<br />
y<br />
i<br />
i<br />
xi<br />
= η ui<br />
+ δ ˆη ui<br />
+<br />
w<br />
• Die Teststatistik ist die gleiche wie beim T-Test, wird aber mit<br />
einer Standardnormalverteilung verglichen<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 15<br />
i
Beispiel Haystack Data<br />
Es sollte das Volumen von<br />
Heuballen geschätzt werden:<br />
dazu ist der Umfang des Ballens<br />
am Boden gemessen worden<br />
<strong>und</strong> die Länge vom Boden auf der<br />
einen Seite des Ballens zum<br />
Boden auf der anderen Seite.<br />
Variablen: C Ballenumfang<br />
Over „Überballenmessung“<br />
Vol Volumen d. Ballens<br />
Anzahl Fälle: 120<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 16
Haystack Data<br />
Regression für das Modell<br />
Data set = Haystacks, Name of Fit = L1<br />
Normal Regression<br />
Kernel mean function = Identity<br />
Response = Vol<br />
Terms = (C Over)<br />
Coefficient Estimates<br />
Label Estimate Std. Error t-value p-value<br />
Constant - 6555.08 303.659 -21.587 0.0000<br />
C 36.2675 5.67910 6.386 0.0000<br />
Over 195.660 7.58079 25.810 0.0000<br />
Vol x ηo + η 1<br />
C + η Over +<br />
=<br />
2<br />
e<br />
R Squared: 0.929782<br />
Sigma hat: 244.445<br />
Number of cases: 120<br />
Degrees of freedom: 117<br />
Summary Analysis of Variance Table<br />
Source df SS MS F p-value<br />
Regression 2 92572878. 46286439. 774.62 0.0000<br />
Residual 117 6991149. 59753.4<br />
Lack of fit 108 6768992. 62675.9 2.54 0.0643<br />
Pure Error 9 222157. 24684.2<br />
<strong>Residuen</strong> gegen Over: 7.87, p-Wert: .000<br />
gegen C: 3.78, p-Wert: .000<br />
Arc berechnet automatisch Tukey‘s Test auf Nichtadditivität,<br />
der Test bestätigt hier deutlich den visuellen Eindruck einer Kurve<br />
Die Teststatistik ist die übliche T-Statistik für den Koeffizienten<br />
2<br />
des hinzugefügten Terms Over<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 17
Haystack Data<br />
Man kann versuchen das Modell zu verbessern:<br />
2<br />
Vol x = ηo + η C + η Over + Over + e<br />
1 2<br />
η3<br />
Data set = Haystacks, Name of Fit = L2<br />
Normal Regression<br />
Kernel mean function = Identity<br />
Response = Vol<br />
Terms = (C Over Over^2)<br />
Coefficient Estimates<br />
Label Estimate Std. Error t-value p-value<br />
Constant 2067.90 1123.00 1.841 0.0681<br />
C 34.6453 4.60971 7.516 0.0000<br />
Over - 275.455 60.1766 -4.577 0.0000<br />
Over^2 6.44725 0.819213 7.870 0.0000<br />
R Squared: 0.954224<br />
Sigma hat: 198.217<br />
Number of cases: 120<br />
Degrees of freedom: 116<br />
Summary Analysis of Variance Table<br />
Source df SS MS F p-value<br />
Regression 3 95006400. 31668800. 806.03 0.0000<br />
Residual 116 4557627. 39289.9<br />
Lack of fit 107 4335470. 40518.4 1.64 0.2131<br />
Pure Error 9 222157. 24684.2<br />
<strong>Residuen</strong> gegen C: 1.89, p-Wert .059<br />
2<br />
gegen Over :1.15, p-Wert .252<br />
2<br />
gegen Over gibt es keinen Test, da Over<br />
bereits im Modell ist.<br />
Die tatsächl. Erwartungswertfkt. könnte hier sein: E( Vol C,<br />
Over)<br />
≈<br />
( C + Over)<br />
2<br />
3<br />
2<br />
12π<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 18
2.4.2 Test auf nicht konstante Varianz<br />
2<br />
• Die Varianzfunktion wird modelliert als: ( ) (<br />
T<br />
Var y x = σ exp α v)<br />
bzw. als log Var( y x)<br />
2 T<br />
( ) = log( σ ) + α v<br />
• Die Komponenten v<br />
j des Vektors v sind Funktionen des Vorhersagevektors<br />
x <strong>und</strong> werden v-Terme genannt.<br />
• Dabei kann gelten: v<br />
j<br />
( x) = x oder auch<br />
k<br />
v<br />
j<br />
( x) = u<br />
j<br />
( x)<br />
• für v = 0<br />
erhält man als Varianz von y den Parameter<br />
α ist ein Parametervektor, die Exponentialfunktion stellt sicher, dass<br />
T<br />
die Varianz für alle Werte von α v positiv ist. Die konstante Varianz<br />
ist ein Spezialfall der obigen Gleichung für α = 0<br />
• Oft ist die Varianz eine Funktion des Erwartungswert: mit v = u<br />
T T<br />
α v = γη u = γE<br />
log<br />
( y x)<br />
erhält man:<br />
(2)<br />
2 T<br />
2<br />
( Var( y x)<br />
) = log( σ ) + γη u = log( σ ) + γE( y x)<br />
(3)<br />
2<br />
σ<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 19<br />
(1)<br />
<strong>und</strong>
2.4.2 Test auf nicht konstante Varianz<br />
• testet man in (1) oder (2), ob α = 0 testet man die Hypothese einer<br />
konstanten Varianz, gegen die Alternativhypothese einer nicht konstanten<br />
Varianz.<br />
• benutzt wird dazu der sogenannte Score Test :<br />
T<br />
=<br />
SSreg<br />
Teststatitistik: (<br />
2<br />
) (<br />
2<br />
) 2<br />
eˆ<br />
onv<br />
• um einen p-Wert zu erhalten, vergleicht man T mit einer<br />
Verteilung<br />
2<br />
∑<br />
eˆ<br />
i<br />
n<br />
2<br />
χ<br />
df = Anzahl _ v−Terme<br />
• um in (3) zu testen, ob γ = 0 führt man die OLS Regression der auf<br />
ŷ durch. Die Teststatistik ist die gleiche wie oben. Das Ergebnis wird mit<br />
einer χ 2 Verteilung mit 1 df verglichen.<br />
1<br />
• Arc zeichnet<br />
2<br />
T<br />
ê gegen eine Schätzung von α v<br />
ê<br />
2<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 20
Beispiel Transaction Data<br />
Es gibt drei Variablen:<br />
Gesamttransaktionszeit,<br />
Anzahl Transaktionen von Typ 1,<br />
Anzahl Transaktionen von Typ 2<br />
Ziel: Die Gesamttransaktionszeit<br />
soll als Funktion der Anzahl<br />
der Transaktionen dargestellt<br />
werden.<br />
Data set = Transactions, Name of Fit = L1<br />
Normal Regression<br />
Kernel mean function = Identity<br />
Response = Time<br />
Terms = (T1 T2)<br />
Coefficient Estimates<br />
Label Estimate Std. Error t-value p-value<br />
Constant 144.369 170.544 0.847 0.3980<br />
T1 5.46206 0.433268 12.607 0.0000<br />
T2 2.03455 0.0943368 21.567 0.0000<br />
R Squared: 0.909053<br />
Sigma hat: 1142.56<br />
Number of cases: 261<br />
Degrees of freedom: 258<br />
Summary Analysis of Variance Table<br />
Source df SS MS F p-value<br />
Regression 2 3366491409. 1683245705. 1289.42 0.0000<br />
Residual 258 336801747. 1305433.<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 21
Transaction Data<br />
Modell (3)<br />
deutlich<br />
nach rechts<br />
ansteigend,<br />
Bestätigung<br />
durch Score<br />
Test<br />
Modell (2)<br />
Varianz<br />
als LK<br />
von T1<br />
<strong>und</strong> T2<br />
Da (3) ein Teilmodell von (2) ist,<br />
können die Teststatistiken zum<br />
Modellvergleich subtrahiert werden:<br />
82.93-61.66 = 21.27 bei 2-1 = 1 df<br />
χ<br />
2<br />
1,0.95<br />
= 3.841<br />
d.h. Modell (3) wird zugungsten<br />
Modell (2) abgelehnt.<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 22
3. <strong>Diagnostikplots</strong><br />
• Thema dieses Kapitels wird es sein, abgelegene Punkte zu finden, die<br />
gegebenenfalls großen Einfluss auf die Analyse unserer Daten haben.<br />
• Zum Beispiel wurde im Transaction Data Beispiel die allgemeinere<br />
Varianzfunktion<br />
log<br />
2 T<br />
( Var( y x)<br />
) = log( σ ) + α v<br />
bevorzugt.<br />
Löscht man Fall 160 aus den Daten <strong>und</strong> berechnet erneut die Varianzfunktionen,<br />
erhält man: (Mean) Score = 56.57 (1 df) p = 0.000<br />
(T1 T2) Score = 56.95 (2 df) p = 0.000<br />
d.h. ohne Fall 160 würde man Modell (3) nicht mehr ablehnen.<br />
• Punkte, die weit von den anderen Daten in der Hauptwolke entfernt stehen,<br />
sind immer Kandidaten für einflussreiche Fälle.<br />
• Die Effekte dieser Punkte können immer überprüft werden, indem man<br />
sie aus dem Modell löscht <strong>und</strong> die Veränderungen der Ergebnisse untersucht.<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 23
3.1 Cook‘s Distance <strong>und</strong> studentisierte <strong>Residuen</strong><br />
• Ist v.a. für Datensätze mit mehr als zwei erklärenden Variablen gedacht<br />
• Misst die Auswirkungen, wenn ein Fall gelöscht wird: dazu wird der<br />
quadrierte Abstand zwischen ηˆ ( i ) <strong>und</strong> ηˆ gewichtet mit einem skalaren<br />
Faktor berechnet.<br />
D i<br />
berechnet sich dann folgendermaßen:<br />
D<br />
i<br />
=<br />
T T<br />
( ˆ η( ) ˆ η) ( ) ˆ<br />
i<br />
− U U η( i)<br />
k ˆ σ<br />
T<br />
( − ˆ η) ( yˆ<br />
( ) yˆ<br />
) ( yˆ<br />
( ) yˆ<br />
i<br />
−<br />
i<br />
− )<br />
=<br />
kσ<br />
2 2<br />
ˆ<br />
wobei U für die n x k Matrix steht mit den Zeilen u<br />
T<br />
i i = 1,...,n<br />
y ˆ = Uηˆ den n x 1 Vektor der angepassten Daten für alle Daten<br />
mit j-ten Element ŷ<br />
j bezeichnet.<br />
yˆ ( i) = Uηˆ<br />
( i)<br />
den n x 1 Vektor der angepassten Daten bezeichnet,<br />
wenn η ohne den Fall i geschätzt wird, mit Element y ˆ ( i ) , j<br />
n<br />
1<br />
2<br />
• eine skalare Version ist: Di<br />
= ∑ ( yˆ<br />
( i ) j<br />
− yˆ<br />
, j<br />
)<br />
2<br />
kσˆ<br />
j = 1<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 24
3.1 Cook‘s Distance <strong>und</strong> studentisierte <strong>Residuen</strong><br />
• Es gibt viele verschiedene Möglichkeiten Cook‘s Distance darzustellen:<br />
Cook‘s Distance gegen Fälle, Boxplot, Histogramm...<br />
• Cook‘s Distance bietet eine Sortierung der Fälle nach ihrem Einfluss auf ηˆ<br />
der Plot kann als Anhaltspunkt zum Löschen von Punkten dienen:<br />
Faustregel: Es ist nützlich Fälle mit D i<br />
> 0.5 zu untersuchen, <strong>und</strong> es ist<br />
wichtig Fälle mit D i<br />
> 1 zu studieren.<br />
• Dies soll jedoch nur eine Hilfe sein <strong>und</strong> dient nicht als Test<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 25
3.1 Cook‘s Distance <strong>und</strong> studentisierte <strong>Residuen</strong><br />
• Studentisierte <strong>Residuen</strong>:<br />
2<br />
die Varianz der <strong>Residuen</strong> ist gleich Var( eˆ<br />
x ) = σ ( 1−<br />
h )<br />
• um die durch ungleiche Hebelwirkungen hervorgerufene unterschiedliche<br />
Varianz auszugleichen, werden die <strong>Residuen</strong> durch eine Schätzung ihrer<br />
Standardabweichung dividiert. eˆ<br />
r<br />
i<br />
=<br />
ˆ σ<br />
i<br />
i<br />
1−<br />
h<br />
ri<br />
hi<br />
• Cook‘s Distance lässt sich damit schreiben als: Di<br />
= ×<br />
k 1−<br />
hi<br />
hi<br />
• Der Faktor wird groß, wenn die Hebelwirkung nahe bei 1 liegt<br />
1− hi<br />
Di<br />
kann aber auch aufgr<strong>und</strong> des i-ten studentisierten Residuums groß<br />
sein.<br />
• Also kann ein Punkt einflussreich sein, weil er entweder vertikal,<br />
oder horizontal oder in beiden Richtungen weit von den anderen<br />
Punkten entfernt liegt.<br />
i<br />
i<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 26<br />
i<br />
2
• Der Leverage<br />
3.2 Leverages<br />
h i eines Punktes misst, wie weit der Punkt horizontal<br />
von den anderen Daten entfernt liegt<br />
• hi<br />
ist dabei das i-te Diagonalelement von H ( Hutmatrix)<br />
T T<br />
Zur Erinnerung: ( )<br />
Es gilt: 0 h ≤1<br />
≤ i<br />
H<br />
=<br />
X<br />
X<br />
X<br />
−1<br />
<strong>und</strong> ∑ h i<br />
= k<br />
X<br />
X<br />
1<br />
1<br />
1<br />
1<br />
1<br />
X<br />
X<br />
X<br />
.<br />
.<br />
11<br />
12<br />
1n<br />
X<br />
21<br />
...<br />
.<br />
.<br />
...<br />
...<br />
.<br />
.<br />
X<br />
X<br />
X<br />
p1<br />
p2<br />
.<br />
.<br />
pn<br />
⎟ ⎜ =⎛ ⎞<br />
• Um die Leverages graphisch darzustellen gibt es die gleichen Möglichkeiten<br />
wie für Cook‘s Distance: Histogramm, Boxplot, gegen Reihenfolge..<br />
⎝ ⎠<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 27
3.2 Leverages<br />
Beispiel Transaction Data:<br />
Daumenregel: Fälle<br />
deren<br />
Hebelwirkung unter<br />
0.2 liegt sind kein<br />
Problem, Fälle mit<br />
Hebelwirkung<br />
größer 0.5 sollten<br />
untersucht werden.<br />
• Das Problem von Cook‘s Distance als<br />
auch von den Leverages ist, dass<br />
immer nur Einzelfälle betrachtet<br />
werden.<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 28
3.3 Covratio, Dffits, Dfbetasj<br />
• Covratio: misst die Veränderung der Determinante der Kovarianzmatrix<br />
der Schätzer, durch Entfernen der Beobachtung i<br />
COVRATIO<br />
[( ( ( )<br />
) ( ( ( )<br />
)]<br />
2 T −1<br />
2 T −<br />
det s X X det s X<br />
1<br />
= X<br />
( i ) ( i ) ( i )<br />
es wird empfohlen, Fälle mit<br />
COVRATIO<br />
−1 ≥<br />
3p<br />
n<br />
zu untersuchen.<br />
• Dffits: Messung der Veränderung für die Vorhersage für Fall i<br />
DFFITS<br />
=<br />
yˆ −<br />
s<br />
i<br />
yˆ<br />
h<br />
( i)<br />
( i ) ( i)<br />
Ein großer Wert signalisiert großen Einfluss, angegebene Grenze: 2<br />
größenangepasste Variante: 2 p n<br />
• Dfbetasj: Messung der Veränderung für jeden Parameterschätzer<br />
b<br />
j<br />
− b( i)<br />
j<br />
DFBETAS<br />
j<br />
=<br />
T<br />
s X X die Grenzen sind hier: 2 bzw. 2 n<br />
( i) ( ) jj<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 29
3.4 Added variable Plots<br />
• bei mehr als einer unabhängigen Variablen, ist ein Scatterplot der<br />
abhängigen Variable gegen jede der erklärenden Variablen nützlich,<br />
jedoch sieht man nicht den Einfluss, den mehrere erklärende Variablen<br />
zusammen haben<br />
• Added variable Plots (oder Partial regression Plots) versuchen diesen<br />
Effekt, den das Hinzufügen einer neuen Variablen in das Modell hat,<br />
aufzuweisen.<br />
• Vorgehensweise:<br />
1. Berechne die <strong>Residuen</strong> aus der Regression der abhängigen<br />
Variablen gegen die erklärenden Variablen, aber ohne X i<br />
2. Berechne die <strong>Residuen</strong> aus der Regression von X i<br />
gegen<br />
die verbleibenden erklärenden Variablen<br />
3. Plotte die <strong>Residuen</strong> aus (1) gegen die <strong>Residuen</strong> aus (2)<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 30
3.4 Added variable Plots<br />
• es können zusätzlich zwei Linien in den Plot eingefügt werden:<br />
die Horizontale Y=0 <strong>und</strong> die Regressionslinie gleich dem korrespondierenden<br />
Parameterschätzer.<br />
• je geringer die Abweichung zwischen den Linien, umso weniger Effekt hat<br />
die Variable<br />
• Vorteile: 1. Die <strong>Residuen</strong> aus der KQ Anpassung an<br />
diesen Plot sind identisch mit den <strong>Residuen</strong><br />
aus der KQ Anpassung des Originalmodells<br />
2. Der Einfluss von Datenwerten auf die<br />
Schätzung eines Parameters kann leicht<br />
erkannt werden<br />
3. Die KQ Anpassung an diesen Plot hat Steigung β i<br />
• Verwendungszweck: werden meistens benutzt um Hebelwirkungspunkte<br />
<strong>und</strong> einflussreiche Punkte ohne Hebelwirkung zu<br />
finden.<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 31
3.7 Testverfahren<br />
3.7.1 Test für einzelne Ausreißer<br />
• Wir haben wieder unser bekanntes Modell: (<br />
i i<br />
)<br />
i<br />
E<br />
y<br />
x<br />
= σ<br />
T<br />
2<br />
= η u <strong>und</strong> ( )<br />
Var<br />
y i<br />
x i<br />
H<br />
0<br />
H1<br />
Fall l liegt nicht außerhalb der Erwartungswertfunktion<br />
Fall l liegt außerhalb der Erwartungswertfunktion<br />
• Vorgehen:<br />
ηˆ<br />
1. Schätze ( l ) mittels OLS<br />
2. Bestimme den Vorhersagewert für den l-ten Fall ~ T<br />
y = l<br />
ηˆ ( l ) ul<br />
yl<br />
− ~ yl<br />
3. Berechne die Teststatistik t<br />
l<br />
= ~<br />
( y )<br />
se<br />
l<br />
4. Vergleiche t l<br />
mit den Quantilen einer T-Verteilung mit<br />
n-k-1 Freiheitsgraden<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 32
δ ≠ 0<br />
3.7.1 Test für einzelne Ausreißer<br />
• die Teststatistik erhält man auch durch Addition eines weiteren Terms zum<br />
Modell: definiere<br />
( l )<br />
u = 1 falls i = l ansonsten 0<br />
i<br />
• Die Teststatistik t l<br />
ist die gleiche wie beim üblichen T-Test basierend auf<br />
allen Daten für die Hypothese, dass δ =0 in dem Modell:<br />
E<br />
T<br />
( l )<br />
( y x ) η u + δu<br />
i<br />
i<br />
= für δ ≠ 0<br />
i<br />
i<br />
ist Fall l ein Ausreißer<br />
⎜⎝⎛<br />
• für die multiple lineare Regression gibt es für δˆ <strong>und</strong> t l einfache Formeln:<br />
1/ 2<br />
eˆ<br />
l<br />
n − k −<br />
δˆ = t<br />
l=<br />
rl<br />
2<br />
1 − h<br />
n − k − r<br />
l<br />
l<br />
• Die Stärke des Ausreißer T-Tests, um δ ≠ 0<br />
1⎟⎠⎞<br />
( − h )<br />
δ<br />
2 1<br />
l<br />
λ =<br />
2<br />
(Nichtzentralitätsparameter)<br />
σ<br />
aufzudecken, hängt ab von<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 33
3.7.1 Test für einzelne Ausreißer<br />
• Die Stärke nimmt mitλ zu, auch wenn die Stärke selber eine ziemlich<br />
komplizierte Funktion von λ ist.<br />
2<br />
• Für feste Werte von δ <strong>und</strong> σ wird ein Ausreißer mit diesem Test am<br />
schwersten zu identifizieren sein, wenn er eine hohe Hebelwirkung hat,<br />
d.h gerade dann, wenn er den größten Schaden anrichten kann.<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 34
3.7.2 Test für alle Daten<br />
• in dem eben vorgestellten Test, wurde angenommen, dass der Index l<br />
bereits im Vorfeld gewählt wurde<br />
• Man möchte aber oft auf einzelne Ausreißer testen, ohne vorher den<br />
Index l zu bestimmen<br />
• Um auf Ausreißer mit unbekanntem Index zu testen, nimmt man<br />
t<br />
max<br />
= max t<br />
1≤l<br />
≤n<br />
l<br />
• Da t max das Maximum über viele Teststatistiken ist, ist es unter der Null-<br />
Hypothese nicht mehr t-verteilt. Der exakte p-Wert ist schwer zu<br />
berechnen<br />
• Stattdessen verwendet man eine Bonferroni Ungleichung:<br />
p − value<br />
( t ) ≤ 2n×<br />
Pr( t t )<br />
max<br />
n − k−1<br />
><br />
max<br />
= n x p-Wert von t n-k-1<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 35
4. Beispiel Abalone Daten<br />
• Die Daten wurden 1995 in Tasmanien für die Marine Forschungslaboratorien<br />
erhoben<br />
• Ziel der Erhebung war es, das Alter von Abalone Muscheln anhand<br />
physikalischer Messungen zu bestimmen.<br />
Dazu schneidet man die Schale der Muschel auf, trocknet die Muschel<br />
<strong>und</strong> zählt die „Altersringe“ durch ein Mikroskop<br />
• Die Variablen: Sex<br />
Length<br />
Diameter<br />
Height<br />
Whole weight<br />
Shucked weight<br />
Viscera weight<br />
Shell weight<br />
Rings<br />
M,F,I<br />
Länge der Muschel<br />
Breite der Muschel<br />
Höhe mit dem Tier<br />
Gewicht der gesamten Muschel<br />
Gewicht des Tieres<br />
Gewicht der Innereien<br />
Gewicht nach dem Trocknen<br />
+1.5 gibt das Alter an<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 36
4. Beispiel Abalone Daten<br />
• Der Datensatz hat 4177 Fälle <strong>und</strong> keine fehlenden Werte<br />
• Der Wertebereich der stetigen Daten wurde durch 200 geteilt<br />
• Die vorherzusagende Variable ist die Anzahl Ringe, entweder als<br />
stetige Variable oder als Klassifizierungsproblem<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 37
4. Beispiel Abalone Daten<br />
• Um überhaupt erst mal ein Modell zu finden, welches näher untersucht<br />
werden soll, als erstes Scatterplotmatrizen der abhängigen Variablen<br />
gegen die einzelnen erklärenden Variablen<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 38
4. Beispiel Abalone Daten<br />
Modell bei dem alle Variablen signifikant sind <strong>und</strong> welches höchstes R 2 hat:<br />
Data set = Abalone, Name of Fit = L2<br />
Normal Regression<br />
Kernel mean function = Identity<br />
Response = RINGS<br />
Terms = (DIAM HEIGHT SHELL SHUCKED WHOLE VISCERA)<br />
Coefficient Estimates<br />
Label Estimate Std. Error t-value p-value<br />
Constant 2.89555 0.248203 11.666 0.0000<br />
DIAM 11.6337 0.991940 11.728 0.0000<br />
HEIGHT 11.7899 1.54751 7.619 0.0000<br />
SHELL 8.60617 1.13617 7.575 0.0000<br />
SHUCKED -20.2711 0.820606 -24.703 0.0000<br />
WHOLE 9.25618 0.732551 12.636 0.0000<br />
VISCERA -9.93132 1.29862 -7.648 0.0000<br />
R Squared: 0.527546<br />
Sigma hat: 2.21774<br />
Number of cases: 4177<br />
Degrees of freedom: 4170<br />
Summary Analysis of Variance Table<br />
Source df SS MS F p-value<br />
Regression 6 22901.1 3816.85 776.04 0.0000<br />
Residual 4170 20509.5 4.91835<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 39
4. Beispiel Abalone Daten<br />
Ein R 2 von nur 52.7% ist nicht sehr befriedigend, so dass es auf jeden Fall<br />
Sinn macht, das Modell auf Anpassungsmängel, Fehler, <strong>und</strong> einflussreiche<br />
Punkte zu untersuchen.<br />
Dazu als erstes die verschiedenen Varianten von <strong>Residuen</strong>plots:<br />
Bei allen anderen Variablen bis auf Shucked, ist der Kurventest auch<br />
jedesmal hoch signifikant ( für Height ohne Ausreißer –7.05 )<br />
In allen <strong>Residuen</strong>plots kann man erkennen, dass die Varianz wohl nicht<br />
konstant ist, dies möchte ich im Folgenden testen:<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 40
4. Beispiel Abalone Daten<br />
Hier die Plots für Modell (3) <strong>und</strong> Modell (2):<br />
Anhand der ersten beiden Graphiken,<br />
würde man Modell (3) zugunsten Modell<br />
(2) Ablehnen ( 174.5 bei 4 df ),<br />
jedoch ohne den Ausreißer nicht mehr.<br />
In beiden Fällen, ist die Varianz aber<br />
nicht konstant.<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 41
4. Beispiel Abalone Daten<br />
In den Added Variable Plots, sowie den <strong>Residuen</strong>plots <strong>und</strong> bei den Tests<br />
auf nicht konstante Varianz, wurden bereits einige Punkte entdeckt, die<br />
vermutlich Ausreißer sind. Deshalb nun die Betrachtung unserer Diagnostik-<br />
Plots:<br />
Cook‘s Distance:<br />
Leverages:<br />
2051: 7.23 2627: 0.055 2051: 0.501 1417: 0.052<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 42
4. Beispiel Abalone Daten<br />
Der gef<strong>und</strong>ene Fall soll nun darauf getestet werden, ob er tatsächlich ein<br />
Ausreißer ist:<br />
Test auf alle Daten:<br />
(outlier-pvalue -7.14 4170 4177)<br />
4.57712e-09<br />
= 4177 x p-Wert =><br />
p-Wert = 1.35×<br />
10<br />
−7<br />
2051: -7.14<br />
tn−k<br />
−1 ,0.95<br />
= t4177−(6+<br />
1) −1,0.95<br />
= t4169,0.95<br />
=<br />
1.645<br />
d.h. der Wert ist hoch signifikant <strong>und</strong> damit ein Ausreißer<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 43
4. Beispiel Abalone Daten<br />
Löscht man jetzt alle gef<strong>und</strong>enen Ausreißer aus dem Modell erhält man:<br />
Data set = Abalone, Name of Fit = L3<br />
Deleted cases are<br />
(M F)<br />
Normal Regression<br />
Kernel mean function = Identity<br />
Response = RINGS<br />
Terms = (DIAM HEIGHT SHELL SHUCKED WHOLE VISCERA)<br />
Coefficient Estimates<br />
Label Estimate Std. Error t-value p-value<br />
Constant 2.55052 0.250472 10.183 0.0000<br />
DIAM 8.82387 1.04951 8.408 0.0000<br />
HEIGHT 24.9910 2.28583 10.933 0.0000<br />
SHELL 7.50900 1.13699 6.604 0.0000<br />
SHUCKED -19.8517 0.816844 -24.303 0.0000<br />
WHOLE 9.11839 0.727649 12.531 0.0000<br />
VISCERA -10.5822 1.29228 -8.189 0.0000<br />
R Squared: 0.534306<br />
Sigma hat: 2.20225<br />
Number of cases: 4177<br />
Number of cases used: 4175<br />
Degrees of freedom: 4168<br />
Das Modell der linearen<br />
Regression bleibt also auch<br />
ohne die markanten Ausreißer<br />
in seiner Anpassung<br />
sehr schlecht für die Daten.<br />
Alle Tests sind nach wie vor<br />
signifikant.<br />
Eine eventuelle Verbesserung<br />
bringt die Aufteilung der Daten<br />
nach männlich <strong>und</strong> weiblich.<br />
Summary Analysis of Variance Table<br />
Source df SS MS F p-value<br />
Regression 6 23192.6 3865.43 797.01 0.0000<br />
Residual 4168 20214.3 4.84988<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 44
4. Beispiel Abalone Daten<br />
Das Modell für die männlichen Muscheln:<br />
Data set = AbaloneM, Name of Fit = L5<br />
Deleted cases are<br />
(M M)<br />
Normal Regression<br />
Kernel mean function = Identity<br />
Response = RINGS<br />
Terms = (HEIGHT SHELL SHUCKED WHOLE VISCERA)<br />
Coefficient Estimates<br />
Label Estimate Std. Error t-value p-value<br />
Constant 6.20509 0.315781 19.650 0.0000<br />
HEIGHT 17.3213 3.29133 5.263 0.0000<br />
SHELL 11.4286 1.76046 6.492 0.0000<br />
SHUCKED -18.4222 1.24963 -14.742 0.0000<br />
WHOLE 8.79859 1.13758 7.734 0.0000<br />
VISCERA -9.70079 1.98334 -4.891 0.0000<br />
R Squared: 0.435769<br />
Sigma hat: 2.27524<br />
Number of cases: 1528<br />
Number of cases used: 1526<br />
Degrees of freedom: 1520<br />
Summary Analysis of Variance Table<br />
Source df SS MS F p-value<br />
Regression 5 6077.12 1215.42 234.79 0.0000<br />
Residual 1520 7868.62 5.17672<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 45
4. Beispiel Abalone Daten<br />
Der Erwartungswert<br />
ist jetzt<br />
konstant, die<br />
Varianz jedoch<br />
nach wie vor nicht!<br />
Sie ist in diesem<br />
Fall wieder eine<br />
Fkt. der erkl.<br />
Variablen<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 46
4. Beispiel Abalone Daten<br />
Sowohl Cook‘s Distance als auch die Leverages markieren Fall 531 als<br />
„Ausreißer“. Bei der Ausreißerstatistik ist er jedoch relativ unauffällig.<br />
(outlier-pvalue 5.22 1520 1526 )<br />
0.000310766<br />
t<br />
−k<br />
−1 ,0.95<br />
= t1526−(5+<br />
1) −1,0.95<br />
= t1519,0.95<br />
=<br />
n⇒Fall 531 ist Ausreißer, da man als<br />
Teststatistik –2.59 erhält.<br />
Löscht man die Punkte erhält man ein R 2 von 44.3 %<br />
1.645<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 47
4. Beispiel Abalone Daten<br />
Das Modell für die weiblichen Muscheln <strong>und</strong> für die Kinder/Baby‘s:<br />
Data set = AbaloneFI, Name of Fit = L3<br />
Deleted cases are<br />
(F)<br />
Normal Regression<br />
Kernel mean function = Identity<br />
Response = RINGS<br />
Terms = (DIAM HEIGHT SHELL SHUCKED WHOLE VISCERA)<br />
Coefficient Estimates<br />
Label Estimate Std. Error t-value p-value<br />
Constant 2.26808 0.287037 7.902 0.0000<br />
DIAM 14.0680 1.20360 11.688 0.0000<br />
HEIGHT 10.1102 1.71192 5.906 0.0000<br />
SHELL 6.96888 1.48566 4.691 0.0000<br />
SHUCKED -21.2677 1.08616 -19.581 0.0000<br />
WHOLE 9.74969 0.952953 10.231 0.0000<br />
VISCERA -9.46914 1.72009 -5.505 0.0000<br />
R Squared: 0.557679<br />
Sigma hat: 2.16513<br />
Number of cases: 2649<br />
Number of cases used: 2648<br />
Degrees of freedom: 2641<br />
Summary Analysis of Variance Table<br />
Source df SS MS F p-value<br />
Regression 6 15609.2 2601.54 554.96 0.0000<br />
Residual 2641 12380.4 4.68777<br />
Man bevorzugt auch hier wieder<br />
Varianzmodell (2).<br />
Es gibt einen extremen Ausreißer.<br />
Wenn man ihn löscht erhält man ein<br />
R 2 von 56.6%<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 48
4. Beispiel Abalone Daten<br />
• Die erhaltenen Ergebnisse sind schwer zu interpretieren, da die Tests<br />
eigentlich nicht viel aussagen, da jeweils die zugr<strong>und</strong>eliegenden Annahmen<br />
verletzt sind.<br />
• Dennoch kann man wohl davon ausgehen, dass die lineare Regression für<br />
die gegebenen Daten, sowohl für männliche wie weibliche Exemplare, nicht<br />
das geeignete Modell ist, da auch das Löschen von Punkten, die von<br />
Cook‘s Distance oder den Leverages als einflussreich erkannt worden sind,<br />
keine besondere Verbesserung der Anpassung liefert.<br />
• Man könnte sich noch überlegen, ob man eventuell die Varianz anders<br />
modellieren kann, da bei den Teilmodellen wenigstens der Erwartungswert<br />
einigermaßen konstant war. Aber wie gesagt, hier muss berücksichtigt<br />
werden, dass der Test keine klare Aussage liefert.<br />
• Ich weiß nicht welches Modell ich alternativ vorschlagen würde, da ich in<br />
den Daten z.B. auch kein polynomiales Verhalten sehe.<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 49
Umsetzung in anderen Software Paketen<br />
Zuguterletzt möchte ich noch einen kurzen Überblick geben, wie die von<br />
mir vorgestellten Tools in R ( Data Desk ) berechnet werden können:<br />
M1
Umsetzung in anderen Software Paketen<br />
Es gibt auch eine Art zusammenfassende Funktion für die eben<br />
vorgestellten Einflussstatistiken:<br />
inflmM1
Umsetzung in anderen Software Paketen<br />
dfb.1_ dfb.Diam dfb.Hght dfb.Whol dfb.Shck dfb.Vscr dfb.Shll dffit<br />
1 0.00 0.04 -0.05 0.01 -0.01 -0.02 -0.01 0.08<br />
7 0.00 0.00 0.00 -0.01 -0.02 -0.03 0.07 0.13_*<br />
8 -0.01 0.03 -0.03 0.01 -0.01 -0.02 0.01 0.06<br />
10 -0.01 0.02 0.00 0.03 -0.04 -0.06 0.01 0.10<br />
32 0.00 0.00 0.00 -0.01 0.01 0.01 0.01 -0.01<br />
33 -0.02 0.03 -0.03 -0.01 -0.03 0.09 -0.03 0.13_*...<br />
cov.r cook.d hat<br />
1 0.99_* 0.00 0.00<br />
7 0.99_* 0.00 0.00<br />
8 0.99_* 0.00 0.00<br />
10 0.99_* 0.00 0.00<br />
32 1.01_* 0.00 0.01_*<br />
33 0.99_* 0.00 0.00 ...<br />
• Zu den Tests ( Kurvenverhalten, nicht konstante Varianz, Ausreißer ) habe<br />
ich leider nichts gef<strong>und</strong>en. Ebenso nicht für Partial regression plots.<br />
• In Data Desk, kann man sich nach Aufstellung des Modells ebenfalls im<br />
Hypermenu die standardisierten <strong>und</strong> studentisierten <strong>Residuen</strong> ausgeben<br />
lassen. Dffits, Cook‘s Distance <strong>und</strong> die Leverages werden berechnet.<br />
• Die Dfbetas sowie Covratio fehlen, dafür kann man sich aber für jeden<br />
Modellparameter den zugehörigen Partial regression plot zeichnen lassen.<br />
• Testverfahren fehlen allerdings auch hier.<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 52
5. Zusammenfassung <strong>und</strong> Empfehlung<br />
• Zur Modellauswahl nimmt man einfache Scatterplots der abhängigen<br />
Variable gegen die einzelnen erklärenden Variablen zur Hand <strong>und</strong><br />
versucht die wichtigsten Abhängigkeiten zu erkennen. Vorwärtsselektion!<br />
• Den Effekt den das Hinzunehmen einer Variablen zum Modell hat kann<br />
anhand Added Variable Plots überprüft werden.<br />
• Die Parameterschätzung beeinflussende Punkte können dabei erkannt<br />
werden <strong>und</strong> gegebenenfalls gleich gelöscht werden.<br />
• Andern falls untersucht man Diagnostiken wie Cook‘s Distance oder<br />
Leverages, um entsprechende Punkte zu identifizieren, aus den Daten<br />
zu löschen <strong>und</strong> die folgenden Veränderungen im Modell zu untersuchen.<br />
• der Test für einzelne Ausreißer überprüft die Ergebnisse von Cook‘s<br />
Distance oder den Leverages auf Signifikanz.<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 53
5. Zusammenfassung <strong>und</strong> Empfehlung<br />
• Möchte man ohne vorherige Wahl des Index l testen, ob es Ausreißer<br />
gibt, hilft der Test auf alle Daten mit der Bonferroni Ungleichung weiter.<br />
• Die gef<strong>und</strong>enen Ausreißer können einen signifikanten Kurventest in<br />
einem <strong>Residuen</strong>plot gegen vorhergesagte Werte oder Reihenfolge<br />
etc..hervorrufen, oder dafür verantwortlich sein, dass die Varianz<br />
nicht konstant ist.<br />
• Bei derartigen Erscheinungen hat man Anzeichen, dass in diesen Daten<br />
die Modellannahmen der linearen Regression nicht erfüllt sind.<br />
• Entweder muss dann ein anderes Modell eingesetzt werden,<br />
oder man muss sich über seine Zielsetzungen klar werden, ob die aus<br />
dem falschen Modell erhaltenen Resultate dennoch nützlich sind.<br />
• Man kann auch Variablen Transformationen durchführen oder<br />
Variablen höherer Ordnung mit in das Modell auf nehmen.<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 54
5. Zusammenfassung <strong>und</strong> Empfehlung<br />
Empfehlungen:<br />
• Es wären Tests wünschenswert, welche unabhängig von der Annahme,<br />
dass entweder die Erwartungswertfunktion oder die Varianzfunktion<br />
korrekt ist, richtige interpretierbare Ergebnisse liefern.<br />
• In Arc wäre es gut, wenn man nicht nur Fälle löschen könnte, sondern<br />
auch nach Variablengruppen trennen. In meinem Beispiel nach männlich<br />
<strong>und</strong> weiblich.<br />
• Desweiteren wäre es schön, wenn man die Achsenskalierung ändern<br />
könnte <strong>und</strong> wenn bei der Deaktivierung der Option „Show plot controls“<br />
trotzdem die Testergebnisse stehen bleiben würden.<br />
• In Mondrian sollte es auch möglich sein Modelle für stetige Daten aufzustellen<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 55
5. Zusammenfassung <strong>und</strong> Empfehlung<br />
• aus einem <strong>Residuen</strong>plot könnte man z.B. anhand der Steigung einer<br />
Lowessanpassung testen, ob der Erwartungswert konstant ist. Gleiches<br />
gilt für die Varianz.<br />
• Weit entfernt liegende Punkte, sollte man bereits durch markieren interaktiv<br />
testen können, ob sie Ausreißer sind<br />
• In R <strong>und</strong> Datadesk, wären natürlich auch entsprechende Tests<br />
wünschenswert<br />
• Um Tests evtl. zu umgehen, wäre es auch eine Möglichkeit die Modellanpassung<br />
in verschiedenen Projektionen der Daten zu überprüfen, indem<br />
man sie mit einer Lowessschätzung in dieser Projektion vergleicht. Allerdings<br />
besteht hier das Problem darin, eine sinnvolle Auswahl der<br />
Projektionen zu finden.<br />
<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 56