30.10.2013 Aufrufe

Residuen und Diagnostikplots

Residuen und Diagnostikplots

Residuen und Diagnostikplots

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

<strong>Residuen</strong> <strong>und</strong><br />

<strong>Diagnostikplots</strong><br />

Vortrag im Rahmen des<br />

Seminars „Statistische Graphik“<br />

von Cornelia Spachtholz


1. Einleitung<br />

2. <strong>Residuen</strong>plots<br />

2.1 Definitionen<br />

Gliederung<br />

2.2 Verschiedene Varianten von <strong>Residuen</strong>plots<br />

2.3 Zielsetzung der Graphik<br />

2.4 Testverfahren auf Anpassungsfehler<br />

3. <strong>Diagnostikplots</strong><br />

3.1 Cook‘s Distance <strong>und</strong> studentisierte <strong>Residuen</strong><br />

3.2 Leverages<br />

3.3 Covratio, Dffits, Dfbetas<br />

3.4 Partielle Regressionsplots<br />

3.5 Testverfahren auf Ausreißer<br />

4. Beispiel Abalone Daten<br />

5. Zusammenfassung <strong>und</strong> Empfehlung<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 2


1. Einleitung<br />

• Diagnostiken helfen zu entscheiden, ob es Informationen gibt,<br />

die dem Modell widersprechen<br />

• Dass Diagnostiken gebraucht werden, zeigen vier beispielhafte<br />

Graphiken:<br />

Für alle Graphiken<br />

erhält man mittels<br />

Anpassung durch<br />

lineare Regression die<br />

gleichen Schätzer:<br />

η ˆ<br />

0 = 3.0, η ˆ1= 0.5,<br />

2<br />

ˆ σ =1.53 <strong>und</strong> R 2 = 0.667<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 3


Verschiedene <strong>Diagnostikplots</strong><br />

1. „Standard“ <strong>Residuen</strong>plots<br />

- <strong>Residuen</strong> gegen vorhergesagte Werte<br />

- <strong>Residuen</strong> gegen jede erklärende Variable...<br />

2. Leave-one-out <strong>Diagnostikplots</strong><br />

- Einflussplots ( Cook‘s Distance )<br />

- Leverages gegen studentisierte <strong>Residuen</strong><br />

3. <strong>Diagnostikplots</strong> für jede erklärende Variable<br />

- Partielle Regression Plots ( added variable plots )<br />

- Partielle <strong>Residuen</strong> Plots<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 4


⎜⎝⎛<br />

2. <strong>Residuen</strong>plots<br />

2.1 Definitionen:<br />

• Multiples lineares Regressionsmodell:<br />

y =η +<br />

e<br />

T i<br />

i<br />

| xi<br />

ui<br />

für i = 1,...,n<br />

der Vektor<br />

i<br />

w<br />

i<br />

u besteht aus k Termen u ( )<br />

j<br />

x i<br />

wobei p die Anzahl der erklärenden Variablen ist.<br />

es gilt: u ( x ) ∀i,<br />

u ( x ) = X ∀j<br />

2 k<br />

1 i<br />

= 1<br />

j i j−1,<br />

i<br />

= ,...,<br />

j = 1,...,k, k=p+1,<br />

Var<br />

( y | x )<br />

i<br />

i<br />

= Var<br />

e<br />

i<br />

w<br />

i<br />

|<br />

x<br />

i<br />

2<br />

σ<br />

=<br />

w<br />

i<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 5<br />

⎟⎠⎞


2.1 Definitionen<br />

• Wichtige Annahme: Die Fehler sind unabhängig von x<br />

2<br />

E( e x ) = E( e ) = 0 <strong>und</strong> ( ) ( )<br />

i i i<br />

⇒<br />

Var<br />

e<br />

i<br />

x<br />

i<br />

= Var ei<br />

• Problem: die Fehler müssen durch <strong>Residuen</strong> geschätzt werden<br />

Wenn<br />

durch einsetzen von y i<br />

=<br />

i<br />

= σ<br />

T<br />

yˆ i<br />

= ηˆ ui<br />

dann sind die <strong>Residuen</strong> eˆ<br />

i<br />

= wi<br />

( yi<br />

− yˆ<br />

i<br />

)<br />

T ei<br />

η u<br />

i<br />

+ <strong>und</strong> ŷ = ηˆT ui<br />

w<br />

i<br />

ˆ<br />

T T<br />

erhält man ei<br />

ei<br />

+ wi<br />

( η ui<br />

−η<br />

ui<br />

) = ei<br />

+<br />

i<br />

= ˆ<br />

• Es gilt: E( ε x ) = 0 E( e x ) = E( eˆ<br />

x ) <strong>und</strong> Var( e x ) ≈Var( eˆ<br />

x )<br />

i<br />

i<br />

i<br />

• Diese Resultate gelten auch für alle anderen Modelle, wo man<br />

annehmen kann, dass die Fehler normalverteilt sind.<br />

i<br />

i<br />

ε<br />

i<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 6<br />

⇒<br />

i<br />

i<br />

i<br />

i


2.2 Verschiedene Varianten von <strong>Residuen</strong>plots<br />

• Die nützlichsten <strong>Residuen</strong>plots in der Praxis sind:<br />

<strong>Residuen</strong> gegen<br />

e v.<br />

yˆ<br />

1. Angepasste Werte:<br />

i i<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 7


2.2 Verschiedene Varianten von <strong>Residuen</strong>plots<br />

2. individuelle Vorhersagewerte xk<br />

oder Paare von Vorhersagewerten<br />

in einem 3 D Plot:<br />

e v.<br />

x<br />

i<br />

k<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 8


2.2 Verschiedene Varianten von <strong>Residuen</strong>plots<br />

3. Potentielle Vorhersagewerte, die nicht im Modell repräsentiert<br />

sind<br />

4. gegen Reihenfolge der Daten, ID, etc..:<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 9


2.2 Verschiedene Varianten von <strong>Residuen</strong>plots<br />

5. Histogramm, Boxplot, Dotplot von e i<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 10


2.3 Zielsetzung der Graphik<br />

• Falls das Modell korrekt ist, ist in einem <strong>Residuen</strong>plot die<br />

Erwartungswertfunktion konstant 0 <strong>und</strong> die Varianzfunktion in<br />

etwa konstant<br />

• Beispiel:<br />

1. 2.<br />

Mittelwert <strong>und</strong> Varianz sind<br />

rel. konstant, d.h der Plot ist<br />

konsistent mit den Erwartungen<br />

unter unserem Modell<br />

Die Daten unterstützen das<br />

Modell nicht, da Eˆ<br />

( eˆ<br />

x)<br />

eindeutiges<br />

Kurvenverhalten aufweist<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 11


2.3 Zielsetzung der Graphik<br />

3. 4.<br />

Die Daten unterstützen<br />

das Modell nicht, die<br />

Varianz ist nicht konstant<br />

Die Daten scheinen bis auf einen<br />

einzelnen Ausreißer das Modell<br />

zu unterstützen<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 12


2.3 Zielsetzung der Graphik<br />

5.<br />

Kombination der Erscheinungsformen<br />

In den Graphiken 1-4. Hier ist offenbar<br />

Der Mittelwert <strong>und</strong> die Varianz nicht<br />

konstant<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 13


2.4 Testverfahren<br />

2.4.1 Test auf Kurvenverhalten<br />

Es gibt dafür zwei verschiedene Tests:<br />

1. Wenn h nicht zufällig ist, d.h die <strong>Residuen</strong> gegen eine<br />

konkrete Linearkombination der u-Terme geplottet werden<br />

• füge den Term ( h T u) 2<br />

zum Modell dazu<br />

T<br />

T<br />

• passe die Daten mit dem Modell i<br />

xi<br />

= η ui<br />

+ δ ( h ui<br />

)<br />

an<br />

y +<br />

• konstruiere den T-Test für die Hypothese, dass der<br />

Koeffizient δ=0 ist.<br />

• für einen kleinen p-Wert bestätigt sich der visuelle Eindruck<br />

• In der Praxis unwahrscheinlich, da h in der Regel unbekannt ist<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 14<br />

2<br />

e<br />

i<br />

w<br />

i


2.4.1 Test auf Kurvenverhalten<br />

2. Tukey‘s Test für Nichtadditivität<br />

Wenn h = ηˆ d.h. die <strong>Residuen</strong> gegen die angepassten Werte<br />

geplottet werden, testet man die Hypothese δ = 0 in dem Modell<br />

T<br />

( η u )<br />

T<br />

2<br />

y<br />

i<br />

xi<br />

= η ui<br />

+ δ<br />

i<br />

+<br />

hier wird der Test von Tukey verwendet:<br />

e<br />

i<br />

w<br />

i<br />

T<br />

• als erstes werden für die Nullhypothese δ = 0 die Werte yˆ i<br />

= ηˆ ui<br />

berechnet<br />

• dann ersetzt man den nichtlinearen Term durch die angepassten<br />

T<br />

T 2<br />

Werte <strong>und</strong> erhält: ( )<br />

e<br />

y<br />

i<br />

i<br />

xi<br />

= η ui<br />

+ δ ˆη ui<br />

+<br />

w<br />

• Die Teststatistik ist die gleiche wie beim T-Test, wird aber mit<br />

einer Standardnormalverteilung verglichen<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 15<br />

i


Beispiel Haystack Data<br />

Es sollte das Volumen von<br />

Heuballen geschätzt werden:<br />

dazu ist der Umfang des Ballens<br />

am Boden gemessen worden<br />

<strong>und</strong> die Länge vom Boden auf der<br />

einen Seite des Ballens zum<br />

Boden auf der anderen Seite.<br />

Variablen: C Ballenumfang<br />

Over „Überballenmessung“<br />

Vol Volumen d. Ballens<br />

Anzahl Fälle: 120<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 16


Haystack Data<br />

Regression für das Modell<br />

Data set = Haystacks, Name of Fit = L1<br />

Normal Regression<br />

Kernel mean function = Identity<br />

Response = Vol<br />

Terms = (C Over)<br />

Coefficient Estimates<br />

Label Estimate Std. Error t-value p-value<br />

Constant - 6555.08 303.659 -21.587 0.0000<br />

C 36.2675 5.67910 6.386 0.0000<br />

Over 195.660 7.58079 25.810 0.0000<br />

Vol x ηo + η 1<br />

C + η Over +<br />

=<br />

2<br />

e<br />

R Squared: 0.929782<br />

Sigma hat: 244.445<br />

Number of cases: 120<br />

Degrees of freedom: 117<br />

Summary Analysis of Variance Table<br />

Source df SS MS F p-value<br />

Regression 2 92572878. 46286439. 774.62 0.0000<br />

Residual 117 6991149. 59753.4<br />

Lack of fit 108 6768992. 62675.9 2.54 0.0643<br />

Pure Error 9 222157. 24684.2<br />

<strong>Residuen</strong> gegen Over: 7.87, p-Wert: .000<br />

gegen C: 3.78, p-Wert: .000<br />

Arc berechnet automatisch Tukey‘s Test auf Nichtadditivität,<br />

der Test bestätigt hier deutlich den visuellen Eindruck einer Kurve<br />

Die Teststatistik ist die übliche T-Statistik für den Koeffizienten<br />

2<br />

des hinzugefügten Terms Over<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 17


Haystack Data<br />

Man kann versuchen das Modell zu verbessern:<br />

2<br />

Vol x = ηo + η C + η Over + Over + e<br />

1 2<br />

η3<br />

Data set = Haystacks, Name of Fit = L2<br />

Normal Regression<br />

Kernel mean function = Identity<br />

Response = Vol<br />

Terms = (C Over Over^2)<br />

Coefficient Estimates<br />

Label Estimate Std. Error t-value p-value<br />

Constant 2067.90 1123.00 1.841 0.0681<br />

C 34.6453 4.60971 7.516 0.0000<br />

Over - 275.455 60.1766 -4.577 0.0000<br />

Over^2 6.44725 0.819213 7.870 0.0000<br />

R Squared: 0.954224<br />

Sigma hat: 198.217<br />

Number of cases: 120<br />

Degrees of freedom: 116<br />

Summary Analysis of Variance Table<br />

Source df SS MS F p-value<br />

Regression 3 95006400. 31668800. 806.03 0.0000<br />

Residual 116 4557627. 39289.9<br />

Lack of fit 107 4335470. 40518.4 1.64 0.2131<br />

Pure Error 9 222157. 24684.2<br />

<strong>Residuen</strong> gegen C: 1.89, p-Wert .059<br />

2<br />

gegen Over :1.15, p-Wert .252<br />

2<br />

gegen Over gibt es keinen Test, da Over<br />

bereits im Modell ist.<br />

Die tatsächl. Erwartungswertfkt. könnte hier sein: E( Vol C,<br />

Over)<br />

≈<br />

( C + Over)<br />

2<br />

3<br />

2<br />

12π<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 18


2.4.2 Test auf nicht konstante Varianz<br />

2<br />

• Die Varianzfunktion wird modelliert als: ( ) (<br />

T<br />

Var y x = σ exp α v)<br />

bzw. als log Var( y x)<br />

2 T<br />

( ) = log( σ ) + α v<br />

• Die Komponenten v<br />

j des Vektors v sind Funktionen des Vorhersagevektors<br />

x <strong>und</strong> werden v-Terme genannt.<br />

• Dabei kann gelten: v<br />

j<br />

( x) = x oder auch<br />

k<br />

v<br />

j<br />

( x) = u<br />

j<br />

( x)<br />

• für v = 0<br />

erhält man als Varianz von y den Parameter<br />

α ist ein Parametervektor, die Exponentialfunktion stellt sicher, dass<br />

T<br />

die Varianz für alle Werte von α v positiv ist. Die konstante Varianz<br />

ist ein Spezialfall der obigen Gleichung für α = 0<br />

• Oft ist die Varianz eine Funktion des Erwartungswert: mit v = u<br />

T T<br />

α v = γη u = γE<br />

log<br />

( y x)<br />

erhält man:<br />

(2)<br />

2 T<br />

2<br />

( Var( y x)<br />

) = log( σ ) + γη u = log( σ ) + γE( y x)<br />

(3)<br />

2<br />

σ<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 19<br />

(1)<br />

<strong>und</strong>


2.4.2 Test auf nicht konstante Varianz<br />

• testet man in (1) oder (2), ob α = 0 testet man die Hypothese einer<br />

konstanten Varianz, gegen die Alternativhypothese einer nicht konstanten<br />

Varianz.<br />

• benutzt wird dazu der sogenannte Score Test :<br />

T<br />

=<br />

SSreg<br />

Teststatitistik: (<br />

2<br />

) (<br />

2<br />

) 2<br />

eˆ<br />

onv<br />

• um einen p-Wert zu erhalten, vergleicht man T mit einer<br />

Verteilung<br />

2<br />

∑<br />

eˆ<br />

i<br />

n<br />

2<br />

χ<br />

df = Anzahl _ v−Terme<br />

• um in (3) zu testen, ob γ = 0 führt man die OLS Regression der auf<br />

ŷ durch. Die Teststatistik ist die gleiche wie oben. Das Ergebnis wird mit<br />

einer χ 2 Verteilung mit 1 df verglichen.<br />

1<br />

• Arc zeichnet<br />

2<br />

T<br />

ê gegen eine Schätzung von α v<br />

ê<br />

2<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 20


Beispiel Transaction Data<br />

Es gibt drei Variablen:<br />

Gesamttransaktionszeit,<br />

Anzahl Transaktionen von Typ 1,<br />

Anzahl Transaktionen von Typ 2<br />

Ziel: Die Gesamttransaktionszeit<br />

soll als Funktion der Anzahl<br />

der Transaktionen dargestellt<br />

werden.<br />

Data set = Transactions, Name of Fit = L1<br />

Normal Regression<br />

Kernel mean function = Identity<br />

Response = Time<br />

Terms = (T1 T2)<br />

Coefficient Estimates<br />

Label Estimate Std. Error t-value p-value<br />

Constant 144.369 170.544 0.847 0.3980<br />

T1 5.46206 0.433268 12.607 0.0000<br />

T2 2.03455 0.0943368 21.567 0.0000<br />

R Squared: 0.909053<br />

Sigma hat: 1142.56<br />

Number of cases: 261<br />

Degrees of freedom: 258<br />

Summary Analysis of Variance Table<br />

Source df SS MS F p-value<br />

Regression 2 3366491409. 1683245705. 1289.42 0.0000<br />

Residual 258 336801747. 1305433.<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 21


Transaction Data<br />

Modell (3)<br />

deutlich<br />

nach rechts<br />

ansteigend,<br />

Bestätigung<br />

durch Score<br />

Test<br />

Modell (2)<br />

Varianz<br />

als LK<br />

von T1<br />

<strong>und</strong> T2<br />

Da (3) ein Teilmodell von (2) ist,<br />

können die Teststatistiken zum<br />

Modellvergleich subtrahiert werden:<br />

82.93-61.66 = 21.27 bei 2-1 = 1 df<br />

χ<br />

2<br />

1,0.95<br />

= 3.841<br />

d.h. Modell (3) wird zugungsten<br />

Modell (2) abgelehnt.<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 22


3. <strong>Diagnostikplots</strong><br />

• Thema dieses Kapitels wird es sein, abgelegene Punkte zu finden, die<br />

gegebenenfalls großen Einfluss auf die Analyse unserer Daten haben.<br />

• Zum Beispiel wurde im Transaction Data Beispiel die allgemeinere<br />

Varianzfunktion<br />

log<br />

2 T<br />

( Var( y x)<br />

) = log( σ ) + α v<br />

bevorzugt.<br />

Löscht man Fall 160 aus den Daten <strong>und</strong> berechnet erneut die Varianzfunktionen,<br />

erhält man: (Mean) Score = 56.57 (1 df) p = 0.000<br />

(T1 T2) Score = 56.95 (2 df) p = 0.000<br />

d.h. ohne Fall 160 würde man Modell (3) nicht mehr ablehnen.<br />

• Punkte, die weit von den anderen Daten in der Hauptwolke entfernt stehen,<br />

sind immer Kandidaten für einflussreiche Fälle.<br />

• Die Effekte dieser Punkte können immer überprüft werden, indem man<br />

sie aus dem Modell löscht <strong>und</strong> die Veränderungen der Ergebnisse untersucht.<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 23


3.1 Cook‘s Distance <strong>und</strong> studentisierte <strong>Residuen</strong><br />

• Ist v.a. für Datensätze mit mehr als zwei erklärenden Variablen gedacht<br />

• Misst die Auswirkungen, wenn ein Fall gelöscht wird: dazu wird der<br />

quadrierte Abstand zwischen ηˆ ( i ) <strong>und</strong> ηˆ gewichtet mit einem skalaren<br />

Faktor berechnet.<br />

D i<br />

berechnet sich dann folgendermaßen:<br />

D<br />

i<br />

=<br />

T T<br />

( ˆ η( ) ˆ η) ( ) ˆ<br />

i<br />

− U U η( i)<br />

k ˆ σ<br />

T<br />

( − ˆ η) ( yˆ<br />

( ) yˆ<br />

) ( yˆ<br />

( ) yˆ<br />

i<br />

−<br />

i<br />

− )<br />

=<br />

kσ<br />

2 2<br />

ˆ<br />

wobei U für die n x k Matrix steht mit den Zeilen u<br />

T<br />

i i = 1,...,n<br />

y ˆ = Uηˆ den n x 1 Vektor der angepassten Daten für alle Daten<br />

mit j-ten Element ŷ<br />

j bezeichnet.<br />

yˆ ( i) = Uηˆ<br />

( i)<br />

den n x 1 Vektor der angepassten Daten bezeichnet,<br />

wenn η ohne den Fall i geschätzt wird, mit Element y ˆ ( i ) , j<br />

n<br />

1<br />

2<br />

• eine skalare Version ist: Di<br />

= ∑ ( yˆ<br />

( i ) j<br />

− yˆ<br />

, j<br />

)<br />

2<br />

kσˆ<br />

j = 1<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 24


3.1 Cook‘s Distance <strong>und</strong> studentisierte <strong>Residuen</strong><br />

• Es gibt viele verschiedene Möglichkeiten Cook‘s Distance darzustellen:<br />

Cook‘s Distance gegen Fälle, Boxplot, Histogramm...<br />

• Cook‘s Distance bietet eine Sortierung der Fälle nach ihrem Einfluss auf ηˆ<br />

der Plot kann als Anhaltspunkt zum Löschen von Punkten dienen:<br />

Faustregel: Es ist nützlich Fälle mit D i<br />

> 0.5 zu untersuchen, <strong>und</strong> es ist<br />

wichtig Fälle mit D i<br />

> 1 zu studieren.<br />

• Dies soll jedoch nur eine Hilfe sein <strong>und</strong> dient nicht als Test<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 25


3.1 Cook‘s Distance <strong>und</strong> studentisierte <strong>Residuen</strong><br />

• Studentisierte <strong>Residuen</strong>:<br />

2<br />

die Varianz der <strong>Residuen</strong> ist gleich Var( eˆ<br />

x ) = σ ( 1−<br />

h )<br />

• um die durch ungleiche Hebelwirkungen hervorgerufene unterschiedliche<br />

Varianz auszugleichen, werden die <strong>Residuen</strong> durch eine Schätzung ihrer<br />

Standardabweichung dividiert. eˆ<br />

r<br />

i<br />

=<br />

ˆ σ<br />

i<br />

i<br />

1−<br />

h<br />

ri<br />

hi<br />

• Cook‘s Distance lässt sich damit schreiben als: Di<br />

= ×<br />

k 1−<br />

hi<br />

hi<br />

• Der Faktor wird groß, wenn die Hebelwirkung nahe bei 1 liegt<br />

1− hi<br />

Di<br />

kann aber auch aufgr<strong>und</strong> des i-ten studentisierten Residuums groß<br />

sein.<br />

• Also kann ein Punkt einflussreich sein, weil er entweder vertikal,<br />

oder horizontal oder in beiden Richtungen weit von den anderen<br />

Punkten entfernt liegt.<br />

i<br />

i<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 26<br />

i<br />

2


• Der Leverage<br />

3.2 Leverages<br />

h i eines Punktes misst, wie weit der Punkt horizontal<br />

von den anderen Daten entfernt liegt<br />

• hi<br />

ist dabei das i-te Diagonalelement von H ( Hutmatrix)<br />

T T<br />

Zur Erinnerung: ( )<br />

Es gilt: 0 h ≤1<br />

≤ i<br />

H<br />

=<br />

X<br />

X<br />

X<br />

−1<br />

<strong>und</strong> ∑ h i<br />

= k<br />

X<br />

X<br />

1<br />

1<br />

1<br />

1<br />

1<br />

X<br />

X<br />

X<br />

.<br />

.<br />

11<br />

12<br />

1n<br />

X<br />

21<br />

...<br />

.<br />

.<br />

...<br />

...<br />

.<br />

.<br />

X<br />

X<br />

X<br />

p1<br />

p2<br />

.<br />

.<br />

pn<br />

⎟ ⎜ =⎛ ⎞<br />

• Um die Leverages graphisch darzustellen gibt es die gleichen Möglichkeiten<br />

wie für Cook‘s Distance: Histogramm, Boxplot, gegen Reihenfolge..<br />

⎝ ⎠<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 27


3.2 Leverages<br />

Beispiel Transaction Data:<br />

Daumenregel: Fälle<br />

deren<br />

Hebelwirkung unter<br />

0.2 liegt sind kein<br />

Problem, Fälle mit<br />

Hebelwirkung<br />

größer 0.5 sollten<br />

untersucht werden.<br />

• Das Problem von Cook‘s Distance als<br />

auch von den Leverages ist, dass<br />

immer nur Einzelfälle betrachtet<br />

werden.<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 28


3.3 Covratio, Dffits, Dfbetasj<br />

• Covratio: misst die Veränderung der Determinante der Kovarianzmatrix<br />

der Schätzer, durch Entfernen der Beobachtung i<br />

COVRATIO<br />

[( ( ( )<br />

) ( ( ( )<br />

)]<br />

2 T −1<br />

2 T −<br />

det s X X det s X<br />

1<br />

= X<br />

( i ) ( i ) ( i )<br />

es wird empfohlen, Fälle mit<br />

COVRATIO<br />

−1 ≥<br />

3p<br />

n<br />

zu untersuchen.<br />

• Dffits: Messung der Veränderung für die Vorhersage für Fall i<br />

DFFITS<br />

=<br />

yˆ −<br />

s<br />

i<br />

yˆ<br />

h<br />

( i)<br />

( i ) ( i)<br />

Ein großer Wert signalisiert großen Einfluss, angegebene Grenze: 2<br />

größenangepasste Variante: 2 p n<br />

• Dfbetasj: Messung der Veränderung für jeden Parameterschätzer<br />

b<br />

j<br />

− b( i)<br />

j<br />

DFBETAS<br />

j<br />

=<br />

T<br />

s X X die Grenzen sind hier: 2 bzw. 2 n<br />

( i) ( ) jj<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 29


3.4 Added variable Plots<br />

• bei mehr als einer unabhängigen Variablen, ist ein Scatterplot der<br />

abhängigen Variable gegen jede der erklärenden Variablen nützlich,<br />

jedoch sieht man nicht den Einfluss, den mehrere erklärende Variablen<br />

zusammen haben<br />

• Added variable Plots (oder Partial regression Plots) versuchen diesen<br />

Effekt, den das Hinzufügen einer neuen Variablen in das Modell hat,<br />

aufzuweisen.<br />

• Vorgehensweise:<br />

1. Berechne die <strong>Residuen</strong> aus der Regression der abhängigen<br />

Variablen gegen die erklärenden Variablen, aber ohne X i<br />

2. Berechne die <strong>Residuen</strong> aus der Regression von X i<br />

gegen<br />

die verbleibenden erklärenden Variablen<br />

3. Plotte die <strong>Residuen</strong> aus (1) gegen die <strong>Residuen</strong> aus (2)<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 30


3.4 Added variable Plots<br />

• es können zusätzlich zwei Linien in den Plot eingefügt werden:<br />

die Horizontale Y=0 <strong>und</strong> die Regressionslinie gleich dem korrespondierenden<br />

Parameterschätzer.<br />

• je geringer die Abweichung zwischen den Linien, umso weniger Effekt hat<br />

die Variable<br />

• Vorteile: 1. Die <strong>Residuen</strong> aus der KQ Anpassung an<br />

diesen Plot sind identisch mit den <strong>Residuen</strong><br />

aus der KQ Anpassung des Originalmodells<br />

2. Der Einfluss von Datenwerten auf die<br />

Schätzung eines Parameters kann leicht<br />

erkannt werden<br />

3. Die KQ Anpassung an diesen Plot hat Steigung β i<br />

• Verwendungszweck: werden meistens benutzt um Hebelwirkungspunkte<br />

<strong>und</strong> einflussreiche Punkte ohne Hebelwirkung zu<br />

finden.<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 31


3.7 Testverfahren<br />

3.7.1 Test für einzelne Ausreißer<br />

• Wir haben wieder unser bekanntes Modell: (<br />

i i<br />

)<br />

i<br />

E<br />

y<br />

x<br />

= σ<br />

T<br />

2<br />

= η u <strong>und</strong> ( )<br />

Var<br />

y i<br />

x i<br />

H<br />

0<br />

H1<br />

Fall l liegt nicht außerhalb der Erwartungswertfunktion<br />

Fall l liegt außerhalb der Erwartungswertfunktion<br />

• Vorgehen:<br />

ηˆ<br />

1. Schätze ( l ) mittels OLS<br />

2. Bestimme den Vorhersagewert für den l-ten Fall ~ T<br />

y = l<br />

ηˆ ( l ) ul<br />

yl<br />

− ~ yl<br />

3. Berechne die Teststatistik t<br />

l<br />

= ~<br />

( y )<br />

se<br />

l<br />

4. Vergleiche t l<br />

mit den Quantilen einer T-Verteilung mit<br />

n-k-1 Freiheitsgraden<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 32


δ ≠ 0<br />

3.7.1 Test für einzelne Ausreißer<br />

• die Teststatistik erhält man auch durch Addition eines weiteren Terms zum<br />

Modell: definiere<br />

( l )<br />

u = 1 falls i = l ansonsten 0<br />

i<br />

• Die Teststatistik t l<br />

ist die gleiche wie beim üblichen T-Test basierend auf<br />

allen Daten für die Hypothese, dass δ =0 in dem Modell:<br />

E<br />

T<br />

( l )<br />

( y x ) η u + δu<br />

i<br />

i<br />

= für δ ≠ 0<br />

i<br />

i<br />

ist Fall l ein Ausreißer<br />

⎜⎝⎛<br />

• für die multiple lineare Regression gibt es für δˆ <strong>und</strong> t l einfache Formeln:<br />

1/ 2<br />

eˆ<br />

l<br />

n − k −<br />

δˆ = t<br />

l=<br />

rl<br />

2<br />

1 − h<br />

n − k − r<br />

l<br />

l<br />

• Die Stärke des Ausreißer T-Tests, um δ ≠ 0<br />

1⎟⎠⎞<br />

( − h )<br />

δ<br />

2 1<br />

l<br />

λ =<br />

2<br />

(Nichtzentralitätsparameter)<br />

σ<br />

aufzudecken, hängt ab von<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 33


3.7.1 Test für einzelne Ausreißer<br />

• Die Stärke nimmt mitλ zu, auch wenn die Stärke selber eine ziemlich<br />

komplizierte Funktion von λ ist.<br />

2<br />

• Für feste Werte von δ <strong>und</strong> σ wird ein Ausreißer mit diesem Test am<br />

schwersten zu identifizieren sein, wenn er eine hohe Hebelwirkung hat,<br />

d.h gerade dann, wenn er den größten Schaden anrichten kann.<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 34


3.7.2 Test für alle Daten<br />

• in dem eben vorgestellten Test, wurde angenommen, dass der Index l<br />

bereits im Vorfeld gewählt wurde<br />

• Man möchte aber oft auf einzelne Ausreißer testen, ohne vorher den<br />

Index l zu bestimmen<br />

• Um auf Ausreißer mit unbekanntem Index zu testen, nimmt man<br />

t<br />

max<br />

= max t<br />

1≤l<br />

≤n<br />

l<br />

• Da t max das Maximum über viele Teststatistiken ist, ist es unter der Null-<br />

Hypothese nicht mehr t-verteilt. Der exakte p-Wert ist schwer zu<br />

berechnen<br />

• Stattdessen verwendet man eine Bonferroni Ungleichung:<br />

p − value<br />

( t ) ≤ 2n×<br />

Pr( t t )<br />

max<br />

n − k−1<br />

><br />

max<br />

= n x p-Wert von t n-k-1<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 35


4. Beispiel Abalone Daten<br />

• Die Daten wurden 1995 in Tasmanien für die Marine Forschungslaboratorien<br />

erhoben<br />

• Ziel der Erhebung war es, das Alter von Abalone Muscheln anhand<br />

physikalischer Messungen zu bestimmen.<br />

Dazu schneidet man die Schale der Muschel auf, trocknet die Muschel<br />

<strong>und</strong> zählt die „Altersringe“ durch ein Mikroskop<br />

• Die Variablen: Sex<br />

Length<br />

Diameter<br />

Height<br />

Whole weight<br />

Shucked weight<br />

Viscera weight<br />

Shell weight<br />

Rings<br />

M,F,I<br />

Länge der Muschel<br />

Breite der Muschel<br />

Höhe mit dem Tier<br />

Gewicht der gesamten Muschel<br />

Gewicht des Tieres<br />

Gewicht der Innereien<br />

Gewicht nach dem Trocknen<br />

+1.5 gibt das Alter an<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 36


4. Beispiel Abalone Daten<br />

• Der Datensatz hat 4177 Fälle <strong>und</strong> keine fehlenden Werte<br />

• Der Wertebereich der stetigen Daten wurde durch 200 geteilt<br />

• Die vorherzusagende Variable ist die Anzahl Ringe, entweder als<br />

stetige Variable oder als Klassifizierungsproblem<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 37


4. Beispiel Abalone Daten<br />

• Um überhaupt erst mal ein Modell zu finden, welches näher untersucht<br />

werden soll, als erstes Scatterplotmatrizen der abhängigen Variablen<br />

gegen die einzelnen erklärenden Variablen<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 38


4. Beispiel Abalone Daten<br />

Modell bei dem alle Variablen signifikant sind <strong>und</strong> welches höchstes R 2 hat:<br />

Data set = Abalone, Name of Fit = L2<br />

Normal Regression<br />

Kernel mean function = Identity<br />

Response = RINGS<br />

Terms = (DIAM HEIGHT SHELL SHUCKED WHOLE VISCERA)<br />

Coefficient Estimates<br />

Label Estimate Std. Error t-value p-value<br />

Constant 2.89555 0.248203 11.666 0.0000<br />

DIAM 11.6337 0.991940 11.728 0.0000<br />

HEIGHT 11.7899 1.54751 7.619 0.0000<br />

SHELL 8.60617 1.13617 7.575 0.0000<br />

SHUCKED -20.2711 0.820606 -24.703 0.0000<br />

WHOLE 9.25618 0.732551 12.636 0.0000<br />

VISCERA -9.93132 1.29862 -7.648 0.0000<br />

R Squared: 0.527546<br />

Sigma hat: 2.21774<br />

Number of cases: 4177<br />

Degrees of freedom: 4170<br />

Summary Analysis of Variance Table<br />

Source df SS MS F p-value<br />

Regression 6 22901.1 3816.85 776.04 0.0000<br />

Residual 4170 20509.5 4.91835<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 39


4. Beispiel Abalone Daten<br />

Ein R 2 von nur 52.7% ist nicht sehr befriedigend, so dass es auf jeden Fall<br />

Sinn macht, das Modell auf Anpassungsmängel, Fehler, <strong>und</strong> einflussreiche<br />

Punkte zu untersuchen.<br />

Dazu als erstes die verschiedenen Varianten von <strong>Residuen</strong>plots:<br />

Bei allen anderen Variablen bis auf Shucked, ist der Kurventest auch<br />

jedesmal hoch signifikant ( für Height ohne Ausreißer –7.05 )<br />

In allen <strong>Residuen</strong>plots kann man erkennen, dass die Varianz wohl nicht<br />

konstant ist, dies möchte ich im Folgenden testen:<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 40


4. Beispiel Abalone Daten<br />

Hier die Plots für Modell (3) <strong>und</strong> Modell (2):<br />

Anhand der ersten beiden Graphiken,<br />

würde man Modell (3) zugunsten Modell<br />

(2) Ablehnen ( 174.5 bei 4 df ),<br />

jedoch ohne den Ausreißer nicht mehr.<br />

In beiden Fällen, ist die Varianz aber<br />

nicht konstant.<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 41


4. Beispiel Abalone Daten<br />

In den Added Variable Plots, sowie den <strong>Residuen</strong>plots <strong>und</strong> bei den Tests<br />

auf nicht konstante Varianz, wurden bereits einige Punkte entdeckt, die<br />

vermutlich Ausreißer sind. Deshalb nun die Betrachtung unserer Diagnostik-<br />

Plots:<br />

Cook‘s Distance:<br />

Leverages:<br />

2051: 7.23 2627: 0.055 2051: 0.501 1417: 0.052<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 42


4. Beispiel Abalone Daten<br />

Der gef<strong>und</strong>ene Fall soll nun darauf getestet werden, ob er tatsächlich ein<br />

Ausreißer ist:<br />

Test auf alle Daten:<br />

(outlier-pvalue -7.14 4170 4177)<br />

4.57712e-09<br />

= 4177 x p-Wert =><br />

p-Wert = 1.35×<br />

10<br />

−7<br />

2051: -7.14<br />

tn−k<br />

−1 ,0.95<br />

= t4177−(6+<br />

1) −1,0.95<br />

= t4169,0.95<br />

=<br />

1.645<br />

d.h. der Wert ist hoch signifikant <strong>und</strong> damit ein Ausreißer<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 43


4. Beispiel Abalone Daten<br />

Löscht man jetzt alle gef<strong>und</strong>enen Ausreißer aus dem Modell erhält man:<br />

Data set = Abalone, Name of Fit = L3<br />

Deleted cases are<br />

(M F)<br />

Normal Regression<br />

Kernel mean function = Identity<br />

Response = RINGS<br />

Terms = (DIAM HEIGHT SHELL SHUCKED WHOLE VISCERA)<br />

Coefficient Estimates<br />

Label Estimate Std. Error t-value p-value<br />

Constant 2.55052 0.250472 10.183 0.0000<br />

DIAM 8.82387 1.04951 8.408 0.0000<br />

HEIGHT 24.9910 2.28583 10.933 0.0000<br />

SHELL 7.50900 1.13699 6.604 0.0000<br />

SHUCKED -19.8517 0.816844 -24.303 0.0000<br />

WHOLE 9.11839 0.727649 12.531 0.0000<br />

VISCERA -10.5822 1.29228 -8.189 0.0000<br />

R Squared: 0.534306<br />

Sigma hat: 2.20225<br />

Number of cases: 4177<br />

Number of cases used: 4175<br />

Degrees of freedom: 4168<br />

Das Modell der linearen<br />

Regression bleibt also auch<br />

ohne die markanten Ausreißer<br />

in seiner Anpassung<br />

sehr schlecht für die Daten.<br />

Alle Tests sind nach wie vor<br />

signifikant.<br />

Eine eventuelle Verbesserung<br />

bringt die Aufteilung der Daten<br />

nach männlich <strong>und</strong> weiblich.<br />

Summary Analysis of Variance Table<br />

Source df SS MS F p-value<br />

Regression 6 23192.6 3865.43 797.01 0.0000<br />

Residual 4168 20214.3 4.84988<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 44


4. Beispiel Abalone Daten<br />

Das Modell für die männlichen Muscheln:<br />

Data set = AbaloneM, Name of Fit = L5<br />

Deleted cases are<br />

(M M)<br />

Normal Regression<br />

Kernel mean function = Identity<br />

Response = RINGS<br />

Terms = (HEIGHT SHELL SHUCKED WHOLE VISCERA)<br />

Coefficient Estimates<br />

Label Estimate Std. Error t-value p-value<br />

Constant 6.20509 0.315781 19.650 0.0000<br />

HEIGHT 17.3213 3.29133 5.263 0.0000<br />

SHELL 11.4286 1.76046 6.492 0.0000<br />

SHUCKED -18.4222 1.24963 -14.742 0.0000<br />

WHOLE 8.79859 1.13758 7.734 0.0000<br />

VISCERA -9.70079 1.98334 -4.891 0.0000<br />

R Squared: 0.435769<br />

Sigma hat: 2.27524<br />

Number of cases: 1528<br />

Number of cases used: 1526<br />

Degrees of freedom: 1520<br />

Summary Analysis of Variance Table<br />

Source df SS MS F p-value<br />

Regression 5 6077.12 1215.42 234.79 0.0000<br />

Residual 1520 7868.62 5.17672<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 45


4. Beispiel Abalone Daten<br />

Der Erwartungswert<br />

ist jetzt<br />

konstant, die<br />

Varianz jedoch<br />

nach wie vor nicht!<br />

Sie ist in diesem<br />

Fall wieder eine<br />

Fkt. der erkl.<br />

Variablen<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 46


4. Beispiel Abalone Daten<br />

Sowohl Cook‘s Distance als auch die Leverages markieren Fall 531 als<br />

„Ausreißer“. Bei der Ausreißerstatistik ist er jedoch relativ unauffällig.<br />

(outlier-pvalue 5.22 1520 1526 )<br />

0.000310766<br />

t<br />

−k<br />

−1 ,0.95<br />

= t1526−(5+<br />

1) −1,0.95<br />

= t1519,0.95<br />

=<br />

n⇒Fall 531 ist Ausreißer, da man als<br />

Teststatistik –2.59 erhält.<br />

Löscht man die Punkte erhält man ein R 2 von 44.3 %<br />

1.645<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 47


4. Beispiel Abalone Daten<br />

Das Modell für die weiblichen Muscheln <strong>und</strong> für die Kinder/Baby‘s:<br />

Data set = AbaloneFI, Name of Fit = L3<br />

Deleted cases are<br />

(F)<br />

Normal Regression<br />

Kernel mean function = Identity<br />

Response = RINGS<br />

Terms = (DIAM HEIGHT SHELL SHUCKED WHOLE VISCERA)<br />

Coefficient Estimates<br />

Label Estimate Std. Error t-value p-value<br />

Constant 2.26808 0.287037 7.902 0.0000<br />

DIAM 14.0680 1.20360 11.688 0.0000<br />

HEIGHT 10.1102 1.71192 5.906 0.0000<br />

SHELL 6.96888 1.48566 4.691 0.0000<br />

SHUCKED -21.2677 1.08616 -19.581 0.0000<br />

WHOLE 9.74969 0.952953 10.231 0.0000<br />

VISCERA -9.46914 1.72009 -5.505 0.0000<br />

R Squared: 0.557679<br />

Sigma hat: 2.16513<br />

Number of cases: 2649<br />

Number of cases used: 2648<br />

Degrees of freedom: 2641<br />

Summary Analysis of Variance Table<br />

Source df SS MS F p-value<br />

Regression 6 15609.2 2601.54 554.96 0.0000<br />

Residual 2641 12380.4 4.68777<br />

Man bevorzugt auch hier wieder<br />

Varianzmodell (2).<br />

Es gibt einen extremen Ausreißer.<br />

Wenn man ihn löscht erhält man ein<br />

R 2 von 56.6%<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 48


4. Beispiel Abalone Daten<br />

• Die erhaltenen Ergebnisse sind schwer zu interpretieren, da die Tests<br />

eigentlich nicht viel aussagen, da jeweils die zugr<strong>und</strong>eliegenden Annahmen<br />

verletzt sind.<br />

• Dennoch kann man wohl davon ausgehen, dass die lineare Regression für<br />

die gegebenen Daten, sowohl für männliche wie weibliche Exemplare, nicht<br />

das geeignete Modell ist, da auch das Löschen von Punkten, die von<br />

Cook‘s Distance oder den Leverages als einflussreich erkannt worden sind,<br />

keine besondere Verbesserung der Anpassung liefert.<br />

• Man könnte sich noch überlegen, ob man eventuell die Varianz anders<br />

modellieren kann, da bei den Teilmodellen wenigstens der Erwartungswert<br />

einigermaßen konstant war. Aber wie gesagt, hier muss berücksichtigt<br />

werden, dass der Test keine klare Aussage liefert.<br />

• Ich weiß nicht welches Modell ich alternativ vorschlagen würde, da ich in<br />

den Daten z.B. auch kein polynomiales Verhalten sehe.<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 49


Umsetzung in anderen Software Paketen<br />

Zuguterletzt möchte ich noch einen kurzen Überblick geben, wie die von<br />

mir vorgestellten Tools in R ( Data Desk ) berechnet werden können:<br />

M1


Umsetzung in anderen Software Paketen<br />

Es gibt auch eine Art zusammenfassende Funktion für die eben<br />

vorgestellten Einflussstatistiken:<br />

inflmM1


Umsetzung in anderen Software Paketen<br />

dfb.1_ dfb.Diam dfb.Hght dfb.Whol dfb.Shck dfb.Vscr dfb.Shll dffit<br />

1 0.00 0.04 -0.05 0.01 -0.01 -0.02 -0.01 0.08<br />

7 0.00 0.00 0.00 -0.01 -0.02 -0.03 0.07 0.13_*<br />

8 -0.01 0.03 -0.03 0.01 -0.01 -0.02 0.01 0.06<br />

10 -0.01 0.02 0.00 0.03 -0.04 -0.06 0.01 0.10<br />

32 0.00 0.00 0.00 -0.01 0.01 0.01 0.01 -0.01<br />

33 -0.02 0.03 -0.03 -0.01 -0.03 0.09 -0.03 0.13_*...<br />

cov.r cook.d hat<br />

1 0.99_* 0.00 0.00<br />

7 0.99_* 0.00 0.00<br />

8 0.99_* 0.00 0.00<br />

10 0.99_* 0.00 0.00<br />

32 1.01_* 0.00 0.01_*<br />

33 0.99_* 0.00 0.00 ...<br />

• Zu den Tests ( Kurvenverhalten, nicht konstante Varianz, Ausreißer ) habe<br />

ich leider nichts gef<strong>und</strong>en. Ebenso nicht für Partial regression plots.<br />

• In Data Desk, kann man sich nach Aufstellung des Modells ebenfalls im<br />

Hypermenu die standardisierten <strong>und</strong> studentisierten <strong>Residuen</strong> ausgeben<br />

lassen. Dffits, Cook‘s Distance <strong>und</strong> die Leverages werden berechnet.<br />

• Die Dfbetas sowie Covratio fehlen, dafür kann man sich aber für jeden<br />

Modellparameter den zugehörigen Partial regression plot zeichnen lassen.<br />

• Testverfahren fehlen allerdings auch hier.<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 52


5. Zusammenfassung <strong>und</strong> Empfehlung<br />

• Zur Modellauswahl nimmt man einfache Scatterplots der abhängigen<br />

Variable gegen die einzelnen erklärenden Variablen zur Hand <strong>und</strong><br />

versucht die wichtigsten Abhängigkeiten zu erkennen. Vorwärtsselektion!<br />

• Den Effekt den das Hinzunehmen einer Variablen zum Modell hat kann<br />

anhand Added Variable Plots überprüft werden.<br />

• Die Parameterschätzung beeinflussende Punkte können dabei erkannt<br />

werden <strong>und</strong> gegebenenfalls gleich gelöscht werden.<br />

• Andern falls untersucht man Diagnostiken wie Cook‘s Distance oder<br />

Leverages, um entsprechende Punkte zu identifizieren, aus den Daten<br />

zu löschen <strong>und</strong> die folgenden Veränderungen im Modell zu untersuchen.<br />

• der Test für einzelne Ausreißer überprüft die Ergebnisse von Cook‘s<br />

Distance oder den Leverages auf Signifikanz.<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 53


5. Zusammenfassung <strong>und</strong> Empfehlung<br />

• Möchte man ohne vorherige Wahl des Index l testen, ob es Ausreißer<br />

gibt, hilft der Test auf alle Daten mit der Bonferroni Ungleichung weiter.<br />

• Die gef<strong>und</strong>enen Ausreißer können einen signifikanten Kurventest in<br />

einem <strong>Residuen</strong>plot gegen vorhergesagte Werte oder Reihenfolge<br />

etc..hervorrufen, oder dafür verantwortlich sein, dass die Varianz<br />

nicht konstant ist.<br />

• Bei derartigen Erscheinungen hat man Anzeichen, dass in diesen Daten<br />

die Modellannahmen der linearen Regression nicht erfüllt sind.<br />

• Entweder muss dann ein anderes Modell eingesetzt werden,<br />

oder man muss sich über seine Zielsetzungen klar werden, ob die aus<br />

dem falschen Modell erhaltenen Resultate dennoch nützlich sind.<br />

• Man kann auch Variablen Transformationen durchführen oder<br />

Variablen höherer Ordnung mit in das Modell auf nehmen.<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 54


5. Zusammenfassung <strong>und</strong> Empfehlung<br />

Empfehlungen:<br />

• Es wären Tests wünschenswert, welche unabhängig von der Annahme,<br />

dass entweder die Erwartungswertfunktion oder die Varianzfunktion<br />

korrekt ist, richtige interpretierbare Ergebnisse liefern.<br />

• In Arc wäre es gut, wenn man nicht nur Fälle löschen könnte, sondern<br />

auch nach Variablengruppen trennen. In meinem Beispiel nach männlich<br />

<strong>und</strong> weiblich.<br />

• Desweiteren wäre es schön, wenn man die Achsenskalierung ändern<br />

könnte <strong>und</strong> wenn bei der Deaktivierung der Option „Show plot controls“<br />

trotzdem die Testergebnisse stehen bleiben würden.<br />

• In Mondrian sollte es auch möglich sein Modelle für stetige Daten aufzustellen<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 55


5. Zusammenfassung <strong>und</strong> Empfehlung<br />

• aus einem <strong>Residuen</strong>plot könnte man z.B. anhand der Steigung einer<br />

Lowessanpassung testen, ob der Erwartungswert konstant ist. Gleiches<br />

gilt für die Varianz.<br />

• Weit entfernt liegende Punkte, sollte man bereits durch markieren interaktiv<br />

testen können, ob sie Ausreißer sind<br />

• In R <strong>und</strong> Datadesk, wären natürlich auch entsprechende Tests<br />

wünschenswert<br />

• Um Tests evtl. zu umgehen, wäre es auch eine Möglichkeit die Modellanpassung<br />

in verschiedenen Projektionen der Daten zu überprüfen, indem<br />

man sie mit einer Lowessschätzung in dieser Projektion vergleicht. Allerdings<br />

besteht hier das Problem darin, eine sinnvolle Auswahl der<br />

Projektionen zu finden.<br />

<strong>Residuen</strong> <strong>und</strong> <strong>Diagnostikplots</strong> 56

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!