Test av antaganden: Residualanalys - IDA

Test av antaganden: Residualanalys 

Residualerna (feltermen) ε antas 

1. Ha medelvärde 0 

2. Ha konstant varians σ 2 

3. Vara normalfördelad 

4. Vara oberoende av andra ε 

Residualanalys undersöker om dessa antaganden kan anses hålla.

Residualanalys: Enkel linjär regression 

Beräkna residualerna enligt 

Residualerna analyseras genom att plottas mot 

1. Den oberoende variabeln x 

2. Prediktionen 

3. Ev. tidsserie 

yˆ 

e y yˆ 

i 

i 

i

Antagandet om konstant varians 

Den konstanta variansen testas genom att plotta residualerna mot x el. 

Residualerna ska fluktuera jämnt runt 0, 

ökande eller minskande mönster är tecken på ökande eller miskande 

varians 

yˆ

Antagandet om normalfördelade residualer 

Ett enkelt histogram eller s.k. stem-and-leaf plot visar om residualerna 

följer formen av en normalfördelning, och är centrerade runt 0 

Frequency 

0 50 100 150 200 

Histogram of Residuals 

-3 -2 -1 0 1 2 3 

Residuals

Antagandet om normalfördelade residualer 

En alternativ plot för att kontrollera normaliteten är normalplotten (även 

kallad Q-Q plot). Plotten visar de funna residualerna, sorterade i 

storleks ordning, mot förväntade värden från normalfördelningen. Om 

residualerna är normalfördelade ska de bilda en rak linje mot de 

förväntade värdena. Avvikelse från linjen indikerar avvikelse från 

normalfördelningen. 

Formella tester 

(ex. Anderson-Darling testet) 

kan användas för att pröva 

normaliteten.

Antagandet om oberoende residualer 

Antagandet om oberoende residualer är viktigast att kontrollera i 

tidsserier. Residualerna ska uppvisa ett slumpmässigt mönster över 

tiden. Autokorrelation mellan närliggande residualer leder till 

systematiska (ofta vågformade) mönster. Även här kan plottar avslöja 

mönster och autokorrelationen kan beräknas. 

Positiv autokorrelation Negativ autokorrelation

Transformation av responsen 

Transformation av den oberoende variabeln y kan ibland förbättra med 

avseende på avvikande från normalitet, konstant varians och korrekt 

residualform. De två vanligaste transformationerna är 

1. Logaritm transformation: 

2. Kvadratrot transformation: 

y* lny 

y* 

y

Residualanalys: Multipel linjär regression 

Beräkna residualerna på samma sätt som för enkel regression 

Residualerna analyseras även här genom att plottas mot 

1. Alla oberoende variabler x j 

2. Prediktionen 

3. Ev. tidsserie 

yˆ 

e y yˆ 

i 

i 

i

Tester för att detektera enstaka avvikande observationer 

Starkt avvikande värden på x och/eller y kan påverka hela resultatet 

från regressionsanalysen. 

Regression och residualplottar kan avslöja avvikande värden. 

Man bör överväga om sådana observationer ska tas bort.

C1 

40 

30 

20 

10 

70 

80 

90 

Regression Plot 

C1 = -7.36044 + 0.246037 C2 

S = 5.09830 R-Sq = 46.4 % R-Sq(adj) = 44.9 % 

100 

110 

C2 

120 

130 

140 

150 

Avvikande i yled 

10

C1 

40 

30 

20 

10 

100 


C1 = 4.26261 + 0.129932 C2 

S = 4.74175 R-Sq = 40.0 % R-Sq(adj) = 38.4 % 

150 

C2 

200 

250 

Leverage 

point, avviker i 

x- led 

12


Följande mått kan användas för att identifiera avvikande observationer 

(outliers) 

1. ”Leverage values” HI1 i Minitab 

2. ”Studentized residuals” SRES1 i Minitab 

3. ”Cook’s Distance Measure” COOK1 i Minitab


Data från boken


Resultat 

Avviker i y- led 

Student Res > 2 

Avviker i x- led 

Lev val > 2(k + 1)/n 

Inflytelserik obs 

Cook’s D > F [0.5]

Följande datamaterial innehåller uppgifter om 150 

slumpmässigt valda fastigheter i USA 

Column Name Count Description Modell Översättning 

C1 Price 150 Price y pris 

C2 Area 150 Area in square feet x1 bostadsyta 

C3 Acres 150 Acres x2 tomtyta 

C4 Rooms 150 Number of rooms x3 antal rum 

C5 Baths 150 Number of baths x4 antal badrum 

Källa: ”MTBWIN”/Student12/HOMES.MTW 

17

Price 

Pris mot bostadsyta 

300000 

200000 

100000 

500 

1500 

Area 

2500 

3500 

18

Price 

Pris mot tomtyta 

300000 

200000 

100000 

0 

10 

Acres 

20 

19

Price 

Pris mot antal rum 

300000 

200000 

100000 

3 

8 

Rooms 

13 

20

Price 

Pris mot antal badrum 

300000 

200000 

100000 

1 

2 

Baths 

3 

4 

21

Om vi t.ex bara har bostadsytan som förklarande variabel: 

Prediktioner utanför området där vi har observationer är inte 

tillförlitliga 


Price 

300000 

200000 

100000 

500 

S = 29945.6 R-Sq = 48.6 % R-Sq(adj) = 48.2 % 

1500 

Price = 63745.2 + 49.3747 Area 

Area 

2500 

3500 

Regression 

95% CI 

22

Price 

Pris mot bostadsyta 

300000 

200000 

100000 

500 

1500 

Area 

2500 

3500 

Få observation med bostadsyta 3000 ft2 eller större, men 

ändå väl inom området där vi har observation 

23

Price 

Pris mot antal rum 

300000 

200000 

100000 

3 

8 

Rooms 

13 

24

Vad är då problemet? 

Om vi tittar på datamaterialet så ser 

vi att de fastigheter som ingår och har 

exakt 6 rum har en bostadsyta mellan 

1008 och 1900 ft2. 

Det är alltså kombinationen 3000 ft2 

och 6 rum som är extrem och vi 

måste fundera över om det är rimligt 

att anta att modellen är giltig även 

för denna typ av fastighet. 

pris area rooms 

117000 1008 6 

108000 1036 6 

126500 1092 6 

133000 1100 6 

116000 1100 6 

98000 1165 6 

129000 1200 6 

126000 1232 6 

117000 1248 6 

110000 1289 6 

117500 1300 6 

121900 1300 6 

100000 1338 6 

128500 1344 6 

135000 1400 6 

140000 1403 6 

152000 1450 6 

110000 1450 6 

142500 1552 6 

150000 1564 6 

120500 1600 6 

141900 1632 6 

145900 1680 6 

144900 1900 6 

25

Residual 

100000 

Frequency 

0 

-100000 

60 

50 

40 

30 

20 

10 

0 

Normal Plot of Residuals 

-3 -2 -1 0 1 2 3 

Normal Score 

Histogram of Residuals 

-100000 0 

Residual 

100000 

Residual Model Diagnostics 

Residual 

Residual 

150000 

100000 

50000 

0 

-50000 

-100000 

100000 

0 

-100000 

1 

I Chart of Residuals 

1 

1 

1 

7 7 7 

0 50 100 150 

Observ ation Number 

Residuals vs. Fits 

100000 150000 200000 250000 

Fit 

1 

1 

1 

6 

6 

UCL=80640 

Mean=-1,3E-10 

LCL=-80640 

26

Test av antaganden: Residualanalys - IDA

Create successful ePaper yourself

Delete template?

Save as template?