Residuen und Diagnostikplots

Residuen und 

Diagnostikplots 

Vortrag im Rahmen des 

Seminars „Statistische Graphik“ 

von Cornelia Spachtholz

1. Einleitung 

2. Residuenplots 

2.1 Definitionen 

Gliederung 

2.2 Verschiedene Varianten von Residuenplots 

2.3 Zielsetzung der Graphik 

2.4 Testverfahren auf Anpassungsfehler 

3. Diagnostikplots 

3.1 Cook‘s Distance und studentisierte Residuen 

3.2 Leverages 

3.3 Covratio, Dffits, Dfbetas 

3.4 Partielle Regressionsplots 

3.5 Testverfahren auf Ausreißer 

4. Beispiel Abalone Daten 

5. Zusammenfassung und Empfehlung 

Residuen und Diagnostikplots 2

1. Einleitung 

• Diagnostiken helfen zu entscheiden, ob es Informationen gibt, 

die dem Modell widersprechen 

• Dass Diagnostiken gebraucht werden, zeigen vier beispielhafte 

Graphiken: 

Für alle Graphiken 

erhält man mittels 

Anpassung durch 

lineare Regression die 

gleichen Schätzer: 

η ˆ 

0 = 3.0, η ˆ1= 0.5, 

2 

ˆ σ =1.53 und R 2 = 0.667 


Verschiedene Diagnostikplots 

1. „Standard“ Residuenplots 

- Residuen gegen vorhergesagte Werte 

- Residuen gegen jede erklärende Variable... 

2. Leave-one-out Diagnostikplots 

- Einflussplots ( Cook‘s Distance ) 

- Leverages gegen studentisierte Residuen 

3. Diagnostikplots für jede erklärende Variable 

- Partielle Regression Plots ( added variable plots ) 

- Partielle Residuen Plots 


⎜⎝⎛ 

2. Residuenplots 

2.1 Definitionen: 

• Multiples lineares Regressionsmodell: 

y =η + 

e 

T i 

i 

| xi 

ui 

für i = 1,...,n 

der Vektor 

i 

w 

i 

u besteht aus k Termen u ( ) 

j 

x i 

wobei p die Anzahl der erklärenden Variablen ist. 

es gilt: u ( x ) ∀i, 

u ( x ) = X ∀j 

2 k 

1 i 

= 1 

j i j−1, 

i 

= ,..., 

j = 1,...,k, k=p+1, 

Var 

( y | x ) 

i 

i 

= Var 

e 

i 

w 

i 

| 

x 

i 

2 

σ 

= 

w 

i 

Residuen und Diagnostikplots 5 

⎟⎠⎞

2.1 Definitionen 

• Wichtige Annahme: Die Fehler sind unabhängig von x 

2 

E( e x ) = E( e ) = 0 und ( ) ( ) 

i i i 

⇒ 

Var 

e 

i 

x 

i 

= Var ei 

• Problem: die Fehler müssen durch Residuen geschätzt werden 

Wenn 

durch einsetzen von y i 

= 

i 

= σ 

T 

yˆ i 

= ηˆ ui 

dann sind die Residuen eˆ 

i 

= wi 

( yi 

− yˆ 

i 

) 

T ei 

η u 

i 

+ und ŷ = ηˆT ui 

w 

i 

ˆ 

T T 

erhält man ei 

ei 

+ wi 

( η ui 

−η 

ui 

) = ei 

+ 

i 

= ˆ 

• Es gilt: E( ε x ) = 0 E( e x ) = E( eˆ 

x ) und Var( e x ) ≈Var( eˆ 

x ) 

i 

i 

i 

• Diese Resultate gelten auch für alle anderen Modelle, wo man 

annehmen kann, dass die Fehler normalverteilt sind. 

i 

i 

ε 

i 


⇒ 

i 

i 

i 

i


• Die nützlichsten Residuenplots in der Praxis sind: 

Residuen gegen 

e v. 

yˆ 

1. Angepasste Werte: 

i i 



2. individuelle Vorhersagewerte xk 

oder Paare von Vorhersagewerten 

in einem 3 D Plot: 

e v. 

x 

i 

k 



3. Potentielle Vorhersagewerte, die nicht im Modell repräsentiert 

sind 

4. gegen Reihenfolge der Daten, ID, etc..: 



5. Histogramm, Boxplot, Dotplot von e i 



• Falls das Modell korrekt ist, ist in einem Residuenplot die 

Erwartungswertfunktion konstant 0 und die Varianzfunktion in 

etwa konstant 

• Beispiel: 

1. 2. 

Mittelwert und Varianz sind 

rel. konstant, d.h der Plot ist 

konsistent mit den Erwartungen 

unter unserem Modell 

Die Daten unterstützen das 

Modell nicht, da Eˆ 

( eˆ 

x) 

eindeutiges 

Kurvenverhalten aufweist 



3. 4. 

Die Daten unterstützen 

das Modell nicht, die 

Varianz ist nicht konstant 

Die Daten scheinen bis auf einen 

einzelnen Ausreißer das Modell 

zu unterstützen 



5. 

Kombination der Erscheinungsformen 

In den Graphiken 1-4. Hier ist offenbar 

Der Mittelwert und die Varianz nicht 

konstant 


2.4 Testverfahren 

2.4.1 Test auf Kurvenverhalten 

Es gibt dafür zwei verschiedene Tests: 

1. Wenn h nicht zufällig ist, d.h die Residuen gegen eine 

konkrete Linearkombination der u-Terme geplottet werden 

• füge den Term ( h T u) 2 

zum Modell dazu 

T 

T 

• passe die Daten mit dem Modell i 

xi 

= η ui 

+ δ ( h ui 

) 

an 

y + 

• konstruiere den T-Test für die Hypothese, dass der 

Koeffizient δ=0 ist. 

• für einen kleinen p-Wert bestätigt sich der visuelle Eindruck 

• In der Praxis unwahrscheinlich, da h in der Regel unbekannt ist 


2 

e 

i 

w 

i

2.4.1 Test auf Kurvenverhalten 

2. Tukey‘s Test für Nichtadditivität 

Wenn h = ηˆ d.h. die Residuen gegen die angepassten Werte 

geplottet werden, testet man die Hypothese δ = 0 in dem Modell 

T 

( η u ) 

T 

2 

y 

i 

xi 

= η ui 

+ δ 

i 

+ 

hier wird der Test von Tukey verwendet: 

e 

i 

w 

i 

T 

• als erstes werden für die Nullhypothese δ = 0 die Werte yˆ i 

= ηˆ ui 

berechnet 

• dann ersetzt man den nichtlinearen Term durch die angepassten 

T 

T 2 

Werte und erhält: ( ) 

e 

y 

i 

i 

xi 

= η ui 

+ δ ˆη ui 

+ 

w 

• Die Teststatistik ist die gleiche wie beim T-Test, wird aber mit 

einer Standardnormalverteilung verglichen 


i

Beispiel Haystack Data 

Es sollte das Volumen von 

Heuballen geschätzt werden: 

dazu ist der Umfang des Ballens 

am Boden gemessen worden 

und die Länge vom Boden auf der 

einen Seite des Ballens zum 

Boden auf der anderen Seite. 

Variablen: C Ballenumfang 

Over „Überballenmessung“ 

Vol Volumen d. Ballens 

Anzahl Fälle: 120 


Haystack Data 

Regression für das Modell 

Data set = Haystacks, Name of Fit = L1 

Normal Regression 

Kernel mean function = Identity 

Response = Vol 

Terms = (C Over) 

Coefficient Estimates 

Label Estimate Std. Error t-value p-value 

Constant - 6555.08 303.659 -21.587 0.0000 

C 36.2675 5.67910 6.386 0.0000 

Over 195.660 7.58079 25.810 0.0000 

Vol x ηo + η 1 

C + η Over + 

= 

2 

e 

R Squared: 0.929782 

Sigma hat: 244.445 

Number of cases: 120 

Degrees of freedom: 117 

Summary Analysis of Variance Table 

Source df SS MS F p-value 

Regression 2 92572878. 46286439. 774.62 0.0000 

Residual 117 6991149. 59753.4 

Lack of fit 108 6768992. 62675.9 2.54 0.0643 

Pure Error 9 222157. 24684.2 

Residuen gegen Over: 7.87, p-Wert: .000 

gegen C: 3.78, p-Wert: .000 

Arc berechnet automatisch Tukey‘s Test auf Nichtadditivität, 

der Test bestätigt hier deutlich den visuellen Eindruck einer Kurve 

Die Teststatistik ist die übliche T-Statistik für den Koeffizienten 

2 

des hinzugefügten Terms Over 


Haystack Data 

Man kann versuchen das Modell zu verbessern: 

2 

Vol x = ηo + η C + η Over + Over + e 

1 2 

η3 

Data set = Haystacks, Name of Fit = L2 



Response = Vol 

Terms = (C Over Over^2) 



Constant 2067.90 1123.00 1.841 0.0681 

C 34.6453 4.60971 7.516 0.0000 

Over - 275.455 60.1766 -4.577 0.0000 

Over^2 6.44725 0.819213 7.870 0.0000 







Regression 3 95006400. 31668800. 806.03 0.0000 

Residual 116 4557627. 39289.9 

Lack of fit 107 4335470. 40518.4 1.64 0.2131 

Pure Error 9 222157. 24684.2 

Residuen gegen C: 1.89, p-Wert .059 

2 

gegen Over :1.15, p-Wert .252 

2 

gegen Over gibt es keinen Test, da Over 

bereits im Modell ist. 

Die tatsächl. Erwartungswertfkt. könnte hier sein: E( Vol C, 

Over) 

≈ 

( C + Over) 

2 

3 

2 

12π 


2.4.2 Test auf nicht konstante Varianz 

2 

• Die Varianzfunktion wird modelliert als: ( ) ( 

T 

Var y x = σ exp α v) 

bzw. als log Var( y x) 

2 T 

( ) = log( σ ) + α v 

• Die Komponenten v 

j des Vektors v sind Funktionen des Vorhersagevektors 

x und werden v-Terme genannt. 

• Dabei kann gelten: v 

j 

( x) = x oder auch 

k 

v 

j 

( x) = u 

j 

( x) 

• für v = 0 

erhält man als Varianz von y den Parameter 

α ist ein Parametervektor, die Exponentialfunktion stellt sicher, dass 

T 

die Varianz für alle Werte von α v positiv ist. Die konstante Varianz 

ist ein Spezialfall der obigen Gleichung für α = 0 

• Oft ist die Varianz eine Funktion des Erwartungswert: mit v = u 

T T 

α v = γη u = γE 

log 

( y x) 

erhält man: 

(2) 

2 T 

2 

( Var( y x) 

) = log( σ ) + γη u = log( σ ) + γE( y x) 

(3) 

2 

σ 


(1) 

und

2.4.2 Test auf nicht konstante Varianz 

• testet man in (1) oder (2), ob α = 0 testet man die Hypothese einer 

konstanten Varianz, gegen die Alternativhypothese einer nicht konstanten 

Varianz. 

• benutzt wird dazu der sogenannte Score Test : 

T 

= 

SSreg 

Teststatitistik: ( 

2 

) ( 

2 

) 2 

eˆ 

onv 

• um einen p-Wert zu erhalten, vergleicht man T mit einer 

Verteilung 

2 

∑ 

eˆ 

i 

n 

2 

χ 

df = Anzahl _ v−Terme 

• um in (3) zu testen, ob γ = 0 führt man die OLS Regression der auf 

ŷ durch. Die Teststatistik ist die gleiche wie oben. Das Ergebnis wird mit 

einer χ 2 Verteilung mit 1 df verglichen. 

1 

• Arc zeichnet 

2 

T 

ê gegen eine Schätzung von α v 

ê 

2 


Beispiel Transaction Data 

Es gibt drei Variablen: 

Gesamttransaktionszeit, 

Anzahl Transaktionen von Typ 1, 

Anzahl Transaktionen von Typ 2 

Ziel: Die Gesamttransaktionszeit 

soll als Funktion der Anzahl 

der Transaktionen dargestellt 

werden. 

Data set = Transactions, Name of Fit = L1 



Response = Time 

Terms = (T1 T2) 



Constant 144.369 170.544 0.847 0.3980 

T1 5.46206 0.433268 12.607 0.0000 

T2 2.03455 0.0943368 21.567 0.0000 







Regression 2 3366491409. 1683245705. 1289.42 0.0000 

Residual 258 336801747. 1305433. 


Transaction Data 

Modell (3) 

deutlich 

nach rechts 

ansteigend, 

Bestätigung 

durch Score 

Test 

Modell (2) 

Varianz 

als LK 

von T1 

und T2 

Da (3) ein Teilmodell von (2) ist, 

können die Teststatistiken zum 

Modellvergleich subtrahiert werden: 

82.93-61.66 = 21.27 bei 2-1 = 1 df 

χ 

2 

1,0.95 

= 3.841 

d.h. Modell (3) wird zugungsten 

Modell (2) abgelehnt. 


3. Diagnostikplots 

• Thema dieses Kapitels wird es sein, abgelegene Punkte zu finden, die 

gegebenenfalls großen Einfluss auf die Analyse unserer Daten haben. 

• Zum Beispiel wurde im Transaction Data Beispiel die allgemeinere 

Varianzfunktion 

log 

2 T 

( Var( y x) 

) = log( σ ) + α v 

bevorzugt. 

Löscht man Fall 160 aus den Daten und berechnet erneut die Varianzfunktionen, 

erhält man: (Mean) Score = 56.57 (1 df) p = 0.000 

(T1 T2) Score = 56.95 (2 df) p = 0.000 

d.h. ohne Fall 160 würde man Modell (3) nicht mehr ablehnen. 

• Punkte, die weit von den anderen Daten in der Hauptwolke entfernt stehen, 

sind immer Kandidaten für einflussreiche Fälle. 

• Die Effekte dieser Punkte können immer überprüft werden, indem man 

sie aus dem Modell löscht und die Veränderungen der Ergebnisse untersucht. 



• Ist v.a. für Datensätze mit mehr als zwei erklärenden Variablen gedacht 

• Misst die Auswirkungen, wenn ein Fall gelöscht wird: dazu wird der 

quadrierte Abstand zwischen ηˆ ( i ) und ηˆ gewichtet mit einem skalaren 

Faktor berechnet. 

D i 

berechnet sich dann folgendermaßen: 

D 

i 

= 

T T 

( ˆ η( ) ˆ η) ( ) ˆ 

i 

− U U η( i) 

k ˆ σ 

T 

( − ˆ η) ( yˆ 

( ) yˆ 

) ( yˆ 

( ) yˆ 

i 

− 

i 

− ) 

= 

kσ 

2 2 

ˆ 

wobei U für die n x k Matrix steht mit den Zeilen u 

T 

i i = 1,...,n 

y ˆ = Uηˆ den n x 1 Vektor der angepassten Daten für alle Daten 

mit j-ten Element ŷ 

j bezeichnet. 

yˆ ( i) = Uηˆ 

( i) 

den n x 1 Vektor der angepassten Daten bezeichnet, 

wenn η ohne den Fall i geschätzt wird, mit Element y ˆ ( i ) , j 

n 

1 

2 

• eine skalare Version ist: Di 

= ∑ ( yˆ 

( i ) j 

− yˆ 

, j 

) 

2 

kσˆ 

j = 1 



• Es gibt viele verschiedene Möglichkeiten Cook‘s Distance darzustellen: 

Cook‘s Distance gegen Fälle, Boxplot, Histogramm... 

• Cook‘s Distance bietet eine Sortierung der Fälle nach ihrem Einfluss auf ηˆ 

der Plot kann als Anhaltspunkt zum Löschen von Punkten dienen: 

Faustregel: Es ist nützlich Fälle mit D i 

> 0.5 zu untersuchen, und es ist 

wichtig Fälle mit D i 

> 1 zu studieren. 

• Dies soll jedoch nur eine Hilfe sein und dient nicht als Test 



• Studentisierte Residuen: 

2 

die Varianz der Residuen ist gleich Var( eˆ 

x ) = σ ( 1− 

h ) 

• um die durch ungleiche Hebelwirkungen hervorgerufene unterschiedliche 

Varianz auszugleichen, werden die Residuen durch eine Schätzung ihrer 

Standardabweichung dividiert. eˆ 

r 

i 

= 

ˆ σ 

i 

i 

1− 

h 

ri 

hi 

• Cook‘s Distance lässt sich damit schreiben als: Di 

= × 

k 1− 

hi 

hi 

• Der Faktor wird groß, wenn die Hebelwirkung nahe bei 1 liegt 

1− hi 

Di 

kann aber auch aufgrund des i-ten studentisierten Residuums groß 

sein. 

• Also kann ein Punkt einflussreich sein, weil er entweder vertikal, 

oder horizontal oder in beiden Richtungen weit von den anderen 

Punkten entfernt liegt. 

i 

i 


i 

2

• Der Leverage 

3.2 Leverages 

h i eines Punktes misst, wie weit der Punkt horizontal 

von den anderen Daten entfernt liegt 

• hi 

ist dabei das i-te Diagonalelement von H ( Hutmatrix) 

T T 

Zur Erinnerung: ( ) 

Es gilt: 0 h ≤1 

≤ i 

H 

= 

X 

X 

X 

−1 

und ∑ h i 

= k 

X 

X 

1 

1 

1 

1 

1 

X 

X 

X 

. 

. 

11 

12 

1n 

X 

21 

... 

. 

. 

... 

... 

. 

. 

X 

X 

X 

p1 

p2 

. 

. 

pn 

⎟ ⎜ =⎛ ⎞ 

• Um die Leverages graphisch darzustellen gibt es die gleichen Möglichkeiten 

wie für Cook‘s Distance: Histogramm, Boxplot, gegen Reihenfolge.. 

⎝ ⎠ 


3.2 Leverages 

Beispiel Transaction Data: 

Daumenregel: Fälle 

deren 

Hebelwirkung unter 

0.2 liegt sind kein 

Problem, Fälle mit 

Hebelwirkung 

größer 0.5 sollten 

untersucht werden. 

• Das Problem von Cook‘s Distance als 

auch von den Leverages ist, dass 

immer nur Einzelfälle betrachtet 

werden. 


3.3 Covratio, Dffits, Dfbetasj 

• Covratio: misst die Veränderung der Determinante der Kovarianzmatrix 

der Schätzer, durch Entfernen der Beobachtung i 

COVRATIO 

[( ( ( ) 

) ( ( ( ) 

)] 

2 T −1 

2 T − 

det s X X det s X 

1 

= X 

( i ) ( i ) ( i ) 

es wird empfohlen, Fälle mit 

COVRATIO 

−1 ≥ 

3p 

n 

zu untersuchen. 

• Dffits: Messung der Veränderung für die Vorhersage für Fall i 

DFFITS 

= 

yˆ − 

s 

i 

yˆ 

h 

( i) 

( i ) ( i) 

Ein großer Wert signalisiert großen Einfluss, angegebene Grenze: 2 

größenangepasste Variante: 2 p n 

• Dfbetasj: Messung der Veränderung für jeden Parameterschätzer 

b 

j 

− b( i) 

j 

DFBETAS 

j 

= 

T 

s X X die Grenzen sind hier: 2 bzw. 2 n 

( i) ( ) jj 


3.4 Added variable Plots 

• bei mehr als einer unabhängigen Variablen, ist ein Scatterplot der 

abhängigen Variable gegen jede der erklärenden Variablen nützlich, 

jedoch sieht man nicht den Einfluss, den mehrere erklärende Variablen 

zusammen haben 

• Added variable Plots (oder Partial regression Plots) versuchen diesen 

Effekt, den das Hinzufügen einer neuen Variablen in das Modell hat, 

aufzuweisen. 

• Vorgehensweise: 

1. Berechne die Residuen aus der Regression der abhängigen 

Variablen gegen die erklärenden Variablen, aber ohne X i 

2. Berechne die Residuen aus der Regression von X i 

gegen 

die verbleibenden erklärenden Variablen 

3. Plotte die Residuen aus (1) gegen die Residuen aus (2) 


3.4 Added variable Plots 

• es können zusätzlich zwei Linien in den Plot eingefügt werden: 

die Horizontale Y=0 und die Regressionslinie gleich dem korrespondierenden 

Parameterschätzer. 

• je geringer die Abweichung zwischen den Linien, umso weniger Effekt hat 

die Variable 

• Vorteile: 1. Die Residuen aus der KQ Anpassung an 

diesen Plot sind identisch mit den Residuen 

aus der KQ Anpassung des Originalmodells 

2. Der Einfluss von Datenwerten auf die 

Schätzung eines Parameters kann leicht 

erkannt werden 

3. Die KQ Anpassung an diesen Plot hat Steigung β i 

• Verwendungszweck: werden meistens benutzt um Hebelwirkungspunkte 

und einflussreiche Punkte ohne Hebelwirkung zu 

finden. 


3.7 Testverfahren 

3.7.1 Test für einzelne Ausreißer 

• Wir haben wieder unser bekanntes Modell: ( 

i i 

) 

i 

E 

y 

x 

= σ 

T 

2 

= η u und ( ) 

Var 

y i 

x i 

H 

0 

H1 

Fall l liegt nicht außerhalb der Erwartungswertfunktion 

Fall l liegt außerhalb der Erwartungswertfunktion 

• Vorgehen: 

ηˆ 

1. Schätze ( l ) mittels OLS 

2. Bestimme den Vorhersagewert für den l-ten Fall ~ T 

y = l 

ηˆ ( l ) ul 

yl 

− ~ yl 

3. Berechne die Teststatistik t 

l 

= ~ 

( y ) 

se 

l 

4. Vergleiche t l 

mit den Quantilen einer T-Verteilung mit 

n-k-1 Freiheitsgraden 


δ ≠ 0 


• die Teststatistik erhält man auch durch Addition eines weiteren Terms zum 

Modell: definiere 

( l ) 

u = 1 falls i = l ansonsten 0 

i 

• Die Teststatistik t l 

ist die gleiche wie beim üblichen T-Test basierend auf 

allen Daten für die Hypothese, dass δ =0 in dem Modell: 

E 

T 

( l ) 

( y x ) η u + δu 

i 

i 

= für δ ≠ 0 

i 

i 

ist Fall l ein Ausreißer 

⎜⎝⎛ 

• für die multiple lineare Regression gibt es für δˆ und t l einfache Formeln: 

1/ 2 

eˆ 

l 

n − k − 

δˆ = t 

l= 

rl 

2 

1 − h 

n − k − r 

l 

l 

• Die Stärke des Ausreißer T-Tests, um δ ≠ 0 

1⎟⎠⎞ 

( − h ) 

δ 

2 1 

l 

λ = 

2 

(Nichtzentralitätsparameter) 

σ 

aufzudecken, hängt ab von 



• Die Stärke nimmt mitλ zu, auch wenn die Stärke selber eine ziemlich 

komplizierte Funktion von λ ist. 

2 

• Für feste Werte von δ und σ wird ein Ausreißer mit diesem Test am 

schwersten zu identifizieren sein, wenn er eine hohe Hebelwirkung hat, 

d.h gerade dann, wenn er den größten Schaden anrichten kann. 


3.7.2 Test für alle Daten 

• in dem eben vorgestellten Test, wurde angenommen, dass der Index l 

bereits im Vorfeld gewählt wurde 

• Man möchte aber oft auf einzelne Ausreißer testen, ohne vorher den 

Index l zu bestimmen 

• Um auf Ausreißer mit unbekanntem Index zu testen, nimmt man 

t 

max 

= max t 

1≤l 

≤n 

l 

• Da t max das Maximum über viele Teststatistiken ist, ist es unter der Null- 

Hypothese nicht mehr t-verteilt. Der exakte p-Wert ist schwer zu 

berechnen 

• Stattdessen verwendet man eine Bonferroni Ungleichung: 

p − value 

( t ) ≤ 2n× 

Pr( t t ) 

max 

n − k−1 

> 

max 

= n x p-Wert von t n-k-1 



• Die Daten wurden 1995 in Tasmanien für die Marine Forschungslaboratorien 

erhoben 

• Ziel der Erhebung war es, das Alter von Abalone Muscheln anhand 

physikalischer Messungen zu bestimmen. 

Dazu schneidet man die Schale der Muschel auf, trocknet die Muschel 

und zählt die „Altersringe“ durch ein Mikroskop 

• Die Variablen: Sex 

Length 

Diameter 

Height 

Whole weight 

Shucked weight 

Viscera weight 

Shell weight 

Rings 

M,F,I 

Länge der Muschel 

Breite der Muschel 

Höhe mit dem Tier 

Gewicht der gesamten Muschel 

Gewicht des Tieres 

Gewicht der Innereien 

Gewicht nach dem Trocknen 

+1.5 gibt das Alter an 



• Der Datensatz hat 4177 Fälle und keine fehlenden Werte 

• Der Wertebereich der stetigen Daten wurde durch 200 geteilt 

• Die vorherzusagende Variable ist die Anzahl Ringe, entweder als 

stetige Variable oder als Klassifizierungsproblem 



• Um überhaupt erst mal ein Modell zu finden, welches näher untersucht 

werden soll, als erstes Scatterplotmatrizen der abhängigen Variablen 

gegen die einzelnen erklärenden Variablen 



Modell bei dem alle Variablen signifikant sind und welches höchstes R 2 hat: 

Data set = Abalone, Name of Fit = L2 



Response = RINGS 

Terms = (DIAM HEIGHT SHELL SHUCKED WHOLE VISCERA) 



Constant 2.89555 0.248203 11.666 0.0000 

DIAM 11.6337 0.991940 11.728 0.0000 

HEIGHT 11.7899 1.54751 7.619 0.0000 

SHELL 8.60617 1.13617 7.575 0.0000 

SHUCKED -20.2711 0.820606 -24.703 0.0000 

WHOLE 9.25618 0.732551 12.636 0.0000 

VISCERA -9.93132 1.29862 -7.648 0.0000 







Regression 6 22901.1 3816.85 776.04 0.0000 

Residual 4170 20509.5 4.91835 



Ein R 2 von nur 52.7% ist nicht sehr befriedigend, so dass es auf jeden Fall 

Sinn macht, das Modell auf Anpassungsmängel, Fehler, und einflussreiche 

Punkte zu untersuchen. 

Dazu als erstes die verschiedenen Varianten von Residuenplots: 

Bei allen anderen Variablen bis auf Shucked, ist der Kurventest auch 

jedesmal hoch signifikant ( für Height ohne Ausreißer –7.05 ) 

In allen Residuenplots kann man erkennen, dass die Varianz wohl nicht 

konstant ist, dies möchte ich im Folgenden testen: 



Hier die Plots für Modell (3) und Modell (2): 

Anhand der ersten beiden Graphiken, 

würde man Modell (3) zugunsten Modell 

(2) Ablehnen ( 174.5 bei 4 df ), 

jedoch ohne den Ausreißer nicht mehr. 

In beiden Fällen, ist die Varianz aber 

nicht konstant. 



In den Added Variable Plots, sowie den Residuenplots und bei den Tests 

auf nicht konstante Varianz, wurden bereits einige Punkte entdeckt, die 

vermutlich Ausreißer sind. Deshalb nun die Betrachtung unserer Diagnostik- 

Plots: 

Cook‘s Distance: 

Leverages: 

2051: 7.23 2627: 0.055 2051: 0.501 1417: 0.052 



Der gefundene Fall soll nun darauf getestet werden, ob er tatsächlich ein 

Ausreißer ist: 

Test auf alle Daten: 

(outlier-pvalue -7.14 4170 4177) 

4.57712e-09 

= 4177 x p-Wert => 

p-Wert = 1.35× 

10 

−7 

2051: -7.14 

tn−k 

−1 ,0.95 

= t4177−(6+ 

1) −1,0.95 

= t4169,0.95 

= 

1.645 

d.h. der Wert ist hoch signifikant und damit ein Ausreißer 



Löscht man jetzt alle gefundenen Ausreißer aus dem Modell erhält man: 

Data set = Abalone, Name of Fit = L3 

Deleted cases are 

(M F) 







Constant 2.55052 0.250472 10.183 0.0000 

DIAM 8.82387 1.04951 8.408 0.0000 

HEIGHT 24.9910 2.28583 10.933 0.0000 

SHELL 7.50900 1.13699 6.604 0.0000 

SHUCKED -19.8517 0.816844 -24.303 0.0000 

WHOLE 9.11839 0.727649 12.531 0.0000 

VISCERA -10.5822 1.29228 -8.189 0.0000 




Number of cases used: 4175 


Das Modell der linearen 

Regression bleibt also auch 

ohne die markanten Ausreißer 

in seiner Anpassung 

sehr schlecht für die Daten. 

Alle Tests sind nach wie vor 

signifikant. 

Eine eventuelle Verbesserung 

bringt die Aufteilung der Daten 

nach männlich und weiblich. 



Regression 6 23192.6 3865.43 797.01 0.0000 

Residual 4168 20214.3 4.84988 



Das Modell für die männlichen Muscheln: 

Data set = AbaloneM, Name of Fit = L5 


(M M) 




Terms = (HEIGHT SHELL SHUCKED WHOLE VISCERA) 



Constant 6.20509 0.315781 19.650 0.0000 

HEIGHT 17.3213 3.29133 5.263 0.0000 

SHELL 11.4286 1.76046 6.492 0.0000 

SHUCKED -18.4222 1.24963 -14.742 0.0000 

WHOLE 8.79859 1.13758 7.734 0.0000 

VISCERA -9.70079 1.98334 -4.891 0.0000 








Regression 5 6077.12 1215.42 234.79 0.0000 

Residual 1520 7868.62 5.17672 



Der Erwartungswert 

ist jetzt 

konstant, die 

Varianz jedoch 

nach wie vor nicht! 

Sie ist in diesem 

Fall wieder eine 

Fkt. der erkl. 

Variablen 



Sowohl Cook‘s Distance als auch die Leverages markieren Fall 531 als 

„Ausreißer“. Bei der Ausreißerstatistik ist er jedoch relativ unauffällig. 

(outlier-pvalue 5.22 1520 1526 ) 

0.000310766 

t 

−k 

−1 ,0.95 

= t1526−(5+ 

1) −1,0.95 

= t1519,0.95 

= 

n⇒Fall 531 ist Ausreißer, da man als 

Teststatistik –2.59 erhält. 

Löscht man die Punkte erhält man ein R 2 von 44.3 % 

1.645 



Das Modell für die weiblichen Muscheln und für die Kinder/Baby‘s: 

Data set = AbaloneFI, Name of Fit = L3 


(F) 







Constant 2.26808 0.287037 7.902 0.0000 

DIAM 14.0680 1.20360 11.688 0.0000 

HEIGHT 10.1102 1.71192 5.906 0.0000 

SHELL 6.96888 1.48566 4.691 0.0000 

SHUCKED -21.2677 1.08616 -19.581 0.0000 

WHOLE 9.74969 0.952953 10.231 0.0000 

VISCERA -9.46914 1.72009 -5.505 0.0000 








Regression 6 15609.2 2601.54 554.96 0.0000 

Residual 2641 12380.4 4.68777 

Man bevorzugt auch hier wieder 

Varianzmodell (2). 

Es gibt einen extremen Ausreißer. 

Wenn man ihn löscht erhält man ein 

R 2 von 56.6% 



• Die erhaltenen Ergebnisse sind schwer zu interpretieren, da die Tests 

eigentlich nicht viel aussagen, da jeweils die zugrundeliegenden Annahmen 

verletzt sind. 

• Dennoch kann man wohl davon ausgehen, dass die lineare Regression für 

die gegebenen Daten, sowohl für männliche wie weibliche Exemplare, nicht 

das geeignete Modell ist, da auch das Löschen von Punkten, die von 

Cook‘s Distance oder den Leverages als einflussreich erkannt worden sind, 

keine besondere Verbesserung der Anpassung liefert. 

• Man könnte sich noch überlegen, ob man eventuell die Varianz anders 

modellieren kann, da bei den Teilmodellen wenigstens der Erwartungswert 

einigermaßen konstant war. Aber wie gesagt, hier muss berücksichtigt 

werden, dass der Test keine klare Aussage liefert. 

• Ich weiß nicht welches Modell ich alternativ vorschlagen würde, da ich in 

den Daten z.B. auch kein polynomiales Verhalten sehe. 


Umsetzung in anderen Software Paketen 

Zuguterletzt möchte ich noch einen kurzen Überblick geben, wie die von 

mir vorgestellten Tools in R ( Data Desk ) berechnet werden können: 

M1


Es gibt auch eine Art zusammenfassende Funktion für die eben 

vorgestellten Einflussstatistiken: 

inflmM1


dfb.1_ dfb.Diam dfb.Hght dfb.Whol dfb.Shck dfb.Vscr dfb.Shll dffit 

1 0.00 0.04 -0.05 0.01 -0.01 -0.02 -0.01 0.08 

7 0.00 0.00 0.00 -0.01 -0.02 -0.03 0.07 0.13_* 

8 -0.01 0.03 -0.03 0.01 -0.01 -0.02 0.01 0.06 

10 -0.01 0.02 0.00 0.03 -0.04 -0.06 0.01 0.10 

32 0.00 0.00 0.00 -0.01 0.01 0.01 0.01 -0.01 

33 -0.02 0.03 -0.03 -0.01 -0.03 0.09 -0.03 0.13_*... 

cov.r cook.d hat 

1 0.99_* 0.00 0.00 

7 0.99_* 0.00 0.00 

8 0.99_* 0.00 0.00 

10 0.99_* 0.00 0.00 

32 1.01_* 0.00 0.01_* 

33 0.99_* 0.00 0.00 ... 

• Zu den Tests ( Kurvenverhalten, nicht konstante Varianz, Ausreißer ) habe 

ich leider nichts gefunden. Ebenso nicht für Partial regression plots. 

• In Data Desk, kann man sich nach Aufstellung des Modells ebenfalls im 

Hypermenu die standardisierten und studentisierten Residuen ausgeben 

lassen. Dffits, Cook‘s Distance und die Leverages werden berechnet. 

• Die Dfbetas sowie Covratio fehlen, dafür kann man sich aber für jeden 

Modellparameter den zugehörigen Partial regression plot zeichnen lassen. 

• Testverfahren fehlen allerdings auch hier. 



• Zur Modellauswahl nimmt man einfache Scatterplots der abhängigen 

Variable gegen die einzelnen erklärenden Variablen zur Hand und 

versucht die wichtigsten Abhängigkeiten zu erkennen. Vorwärtsselektion! 

• Den Effekt den das Hinzunehmen einer Variablen zum Modell hat kann 

anhand Added Variable Plots überprüft werden. 

• Die Parameterschätzung beeinflussende Punkte können dabei erkannt 

werden und gegebenenfalls gleich gelöscht werden. 

• Andern falls untersucht man Diagnostiken wie Cook‘s Distance oder 

Leverages, um entsprechende Punkte zu identifizieren, aus den Daten 

zu löschen und die folgenden Veränderungen im Modell zu untersuchen. 

• der Test für einzelne Ausreißer überprüft die Ergebnisse von Cook‘s 

Distance oder den Leverages auf Signifikanz. 



• Möchte man ohne vorherige Wahl des Index l testen, ob es Ausreißer 

gibt, hilft der Test auf alle Daten mit der Bonferroni Ungleichung weiter. 

• Die gefundenen Ausreißer können einen signifikanten Kurventest in 

einem Residuenplot gegen vorhergesagte Werte oder Reihenfolge 

etc..hervorrufen, oder dafür verantwortlich sein, dass die Varianz 

nicht konstant ist. 

• Bei derartigen Erscheinungen hat man Anzeichen, dass in diesen Daten 

die Modellannahmen der linearen Regression nicht erfüllt sind. 

• Entweder muss dann ein anderes Modell eingesetzt werden, 

oder man muss sich über seine Zielsetzungen klar werden, ob die aus 

dem falschen Modell erhaltenen Resultate dennoch nützlich sind. 

• Man kann auch Variablen Transformationen durchführen oder 

Variablen höherer Ordnung mit in das Modell auf nehmen. 



Empfehlungen: 

• Es wären Tests wünschenswert, welche unabhängig von der Annahme, 

dass entweder die Erwartungswertfunktion oder die Varianzfunktion 

korrekt ist, richtige interpretierbare Ergebnisse liefern. 

• In Arc wäre es gut, wenn man nicht nur Fälle löschen könnte, sondern 

auch nach Variablengruppen trennen. In meinem Beispiel nach männlich 

und weiblich. 

• Desweiteren wäre es schön, wenn man die Achsenskalierung ändern 

könnte und wenn bei der Deaktivierung der Option „Show plot controls“ 

trotzdem die Testergebnisse stehen bleiben würden. 

• In Mondrian sollte es auch möglich sein Modelle für stetige Daten aufzustellen 



• aus einem Residuenplot könnte man z.B. anhand der Steigung einer 

Lowessanpassung testen, ob der Erwartungswert konstant ist. Gleiches 

gilt für die Varianz. 

• Weit entfernt liegende Punkte, sollte man bereits durch markieren interaktiv 

testen können, ob sie Ausreißer sind 

• In R und Datadesk, wären natürlich auch entsprechende Tests 

wünschenswert 

• Um Tests evtl. zu umgehen, wäre es auch eine Möglichkeit die Modellanpassung 

in verschiedenen Projektionen der Daten zu überprüfen, indem 

man sie mit einer Lowessschätzung in dieser Projektion vergleicht. Allerdings 

besteht hier das Problem darin, eine sinnvolle Auswahl der 

Projektionen zu finden.

Residuen und Diagnostikplots

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?