Test av antaganden: Residualanalys - IDA
Test av antaganden: Residualanalys - IDA
Test av antaganden: Residualanalys - IDA
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
<strong>Test</strong> <strong>av</strong> <strong>antaganden</strong>: <strong>Residualanalys</strong><br />
Residualerna (feltermen) ε antas<br />
1. Ha medelvärde 0<br />
2. Ha konstant varians σ 2<br />
3. Vara normalfördelad<br />
4. Vara oberoende <strong>av</strong> andra ε<br />
<strong>Residualanalys</strong> undersöker om dessa <strong>antaganden</strong> kan anses hålla.
<strong>Residualanalys</strong>: Enkel linjär regression<br />
Beräkna residualerna enligt<br />
Residualerna analyseras genom att plottas mot<br />
1. Den oberoende variabeln x<br />
2. Prediktionen<br />
3. Ev. tidsserie<br />
yˆ<br />
e y yˆ<br />
i<br />
i<br />
i
Antagandet om konstant varians<br />
Den konstanta variansen testas genom att plotta residualerna mot x el.<br />
Residualerna ska fluktuera jämnt runt 0,<br />
ökande eller minskande mönster är tecken på ökande eller miskande<br />
varians<br />
yˆ
Antagandet om normalfördelade residualer<br />
Ett enkelt histogram eller s.k. stem-and-leaf plot visar om residualerna<br />
följer formen <strong>av</strong> en normalfördelning, och är centrerade runt 0<br />
Frequency<br />
0 50 100 150 200<br />
Histogram of Residuals<br />
-3 -2 -1 0 1 2 3<br />
Residuals
Antagandet om normalfördelade residualer<br />
En alternativ plot för att kontrollera normaliteten är normalplotten (även<br />
kallad Q-Q plot). Plotten visar de funna residualerna, sorterade i<br />
storleks ordning, mot förväntade värden från normalfördelningen. Om<br />
residualerna är normalfördelade ska de bilda en rak linje mot de<br />
förväntade värdena. Avvikelse från linjen indikerar <strong>av</strong>vikelse från<br />
normalfördelningen.<br />
Formella tester<br />
(ex. Anderson-Darling testet)<br />
kan användas för att pröva<br />
normaliteten.
Antagandet om oberoende residualer<br />
Antagandet om oberoende residualer är viktigast att kontrollera i<br />
tidsserier. Residualerna ska uppvisa ett slumpmässigt mönster över<br />
tiden. Autokorrelation mellan närliggande residualer leder till<br />
systematiska (ofta vågformade) mönster. Även här kan plottar <strong>av</strong>slöja<br />
mönster och autokorrelationen kan beräknas.<br />
Positiv autokorrelation Negativ autokorrelation
Transformation <strong>av</strong> responsen<br />
Transformation <strong>av</strong> den oberoende variabeln y kan ibland förbättra med<br />
<strong>av</strong>seende på <strong>av</strong>vikande från normalitet, konstant varians och korrekt<br />
residualform. De två vanligaste transformationerna är<br />
1. Logaritm transformation:<br />
2. Kvadratrot transformation:<br />
y* lny<br />
y* <br />
y
<strong>Residualanalys</strong>: Multipel linjär regression<br />
Beräkna residualerna på samma sätt som för enkel regression<br />
Residualerna analyseras även här genom att plottas mot<br />
1. Alla oberoende variabler x j<br />
2. Prediktionen<br />
3. Ev. tidsserie<br />
yˆ<br />
e y yˆ<br />
i<br />
i<br />
i
<strong>Test</strong>er för att detektera enstaka <strong>av</strong>vikande observationer<br />
Starkt <strong>av</strong>vikande värden på x och/eller y kan påverka hela resultatet<br />
från regressionsanalysen.<br />
Regression och residualplottar kan <strong>av</strong>slöja <strong>av</strong>vikande värden.<br />
Man bör överväga om sådana observationer ska tas bort.
C1<br />
40<br />
30<br />
20<br />
10<br />
70<br />
80<br />
90<br />
Regression Plot<br />
C1 = -7.36044 + 0.246037 C2<br />
S = 5.09830 R-Sq = 46.4 % R-Sq(adj) = 44.9 %<br />
100<br />
110<br />
C2<br />
120<br />
130<br />
140<br />
150<br />
Avvikande i yled<br />
10
C1<br />
40<br />
30<br />
20<br />
10<br />
100<br />
Regression Plot<br />
C1 = 4.26261 + 0.129932 C2<br />
S = 4.74175 R-Sq = 40.0 % R-Sq(adj) = 38.4 %<br />
150<br />
C2<br />
200<br />
250<br />
Leverage<br />
point, <strong>av</strong>viker i<br />
x- led<br />
12
<strong>Test</strong>er för att detektera enstaka <strong>av</strong>vikande observationer<br />
Följande mått kan användas för att identifiera <strong>av</strong>vikande observationer<br />
(outliers)<br />
1. ”Leverage values” HI1 i Minitab<br />
2. ”Studentized residuals” SRES1 i Minitab<br />
3. ”Cook’s Distance Measure” COOK1 i Minitab
<strong>Test</strong>er för att detektera enstaka <strong>av</strong>vikande observationer<br />
Data från boken
<strong>Test</strong>er för att detektera enstaka <strong>av</strong>vikande observationer<br />
Resultat<br />
Avviker i y- led<br />
Student Res > 2<br />
Avviker i x- led<br />
Lev val > 2(k + 1)/n<br />
Inflytelserik obs<br />
Cook’s D > F [0.5]
Följande datamaterial innehåller uppgifter om 150<br />
slumpmässigt valda fastigheter i USA<br />
Column Name Count Description Modell Översättning<br />
C1 Price 150 Price y pris<br />
C2 Area 150 Area in square feet x1 bostadsyta<br />
C3 Acres 150 Acres x2 tomtyta<br />
C4 Rooms 150 Number of rooms x3 antal rum<br />
C5 Baths 150 Number of baths x4 antal badrum<br />
Källa: ”MTBWIN”/Student12/HOMES.MTW<br />
17
Price<br />
Pris mot bostadsyta<br />
300000<br />
200000<br />
100000<br />
500<br />
1500<br />
Area<br />
2500<br />
3500<br />
18
Price<br />
Pris mot tomtyta<br />
300000<br />
200000<br />
100000<br />
0<br />
10<br />
Acres<br />
20<br />
19
Price<br />
Pris mot antal rum<br />
300000<br />
200000<br />
100000<br />
3<br />
8<br />
Rooms<br />
13<br />
20
Price<br />
Pris mot antal badrum<br />
300000<br />
200000<br />
100000<br />
1<br />
2<br />
Baths<br />
3<br />
4<br />
21
Om vi t.ex bara har bostadsytan som förklarande variabel:<br />
Prediktioner utanför området där vi har observationer är inte<br />
tillförlitliga<br />
Regression Plot<br />
Price<br />
300000<br />
200000<br />
100000<br />
500<br />
S = 29945.6 R-Sq = 48.6 % R-Sq(adj) = 48.2 %<br />
1500<br />
Price = 63745.2 + 49.3747 Area<br />
Area<br />
2500<br />
3500<br />
Regression<br />
95% CI<br />
22
Price<br />
Pris mot bostadsyta<br />
300000<br />
200000<br />
100000<br />
500<br />
1500<br />
Area<br />
2500<br />
3500<br />
Få observation med bostadsyta 3000 ft2 eller större, men<br />
ändå väl inom området där vi har observation<br />
23
Price<br />
Pris mot antal rum<br />
300000<br />
200000<br />
100000<br />
3<br />
8<br />
Rooms<br />
13<br />
24
Vad är då problemet?<br />
Om vi tittar på datamaterialet så ser<br />
vi att de fastigheter som ingår och har<br />
exakt 6 rum har en bostadsyta mellan<br />
1008 och 1900 ft2.<br />
Det är alltså kombinationen 3000 ft2<br />
och 6 rum som är extrem och vi<br />
måste fundera över om det är rimligt<br />
att anta att modellen är giltig även<br />
för denna typ <strong>av</strong> fastighet.<br />
pris area rooms<br />
117000 1008 6<br />
108000 1036 6<br />
126500 1092 6<br />
133000 1100 6<br />
116000 1100 6<br />
98000 1165 6<br />
129000 1200 6<br />
126000 1232 6<br />
117000 1248 6<br />
110000 1289 6<br />
117500 1300 6<br />
121900 1300 6<br />
100000 1338 6<br />
128500 1344 6<br />
135000 1400 6<br />
140000 1403 6<br />
152000 1450 6<br />
110000 1450 6<br />
142500 1552 6<br />
150000 1564 6<br />
120500 1600 6<br />
141900 1632 6<br />
145900 1680 6<br />
144900 1900 6<br />
25
Residual<br />
100000<br />
Frequency<br />
0<br />
-100000<br />
60<br />
50<br />
40<br />
30<br />
20<br />
10<br />
0<br />
Normal Plot of Residuals<br />
-3 -2 -1 0 1 2 3<br />
Normal Score<br />
Histogram of Residuals<br />
-100000 0<br />
Residual<br />
100000<br />
Residual Model Diagnostics<br />
Residual<br />
Residual<br />
150000<br />
100000<br />
50000<br />
0<br />
-50000<br />
-100000<br />
100000<br />
0<br />
-100000<br />
1<br />
I Chart of Residuals<br />
1<br />
1<br />
1<br />
7 7 7<br />
0 50 100 150<br />
Observ ation Number<br />
Residuals vs. Fits<br />
100000 150000 200000 250000<br />
Fit<br />
1<br />
1<br />
1<br />
6<br />
6<br />
UCL=80640<br />
Mean=-1,3E-10<br />
LCL=-80640<br />
26