29.08.2013 Views

Test av antaganden: Residualanalys - IDA

Test av antaganden: Residualanalys - IDA

Test av antaganden: Residualanalys - IDA

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Test</strong> <strong>av</strong> <strong>antaganden</strong>: <strong>Residualanalys</strong><br />

Residualerna (feltermen) ε antas<br />

1. Ha medelvärde 0<br />

2. Ha konstant varians σ 2<br />

3. Vara normalfördelad<br />

4. Vara oberoende <strong>av</strong> andra ε<br />

<strong>Residualanalys</strong> undersöker om dessa <strong>antaganden</strong> kan anses hålla.


<strong>Residualanalys</strong>: Enkel linjär regression<br />

Beräkna residualerna enligt<br />

Residualerna analyseras genom att plottas mot<br />

1. Den oberoende variabeln x<br />

2. Prediktionen<br />

3. Ev. tidsserie<br />

yˆ<br />

e y yˆ<br />

i<br />

i<br />

i


Antagandet om konstant varians<br />

Den konstanta variansen testas genom att plotta residualerna mot x el.<br />

Residualerna ska fluktuera jämnt runt 0,<br />

ökande eller minskande mönster är tecken på ökande eller miskande<br />

varians<br />


Antagandet om normalfördelade residualer<br />

Ett enkelt histogram eller s.k. stem-and-leaf plot visar om residualerna<br />

följer formen <strong>av</strong> en normalfördelning, och är centrerade runt 0<br />

Frequency<br />

0 50 100 150 200<br />

Histogram of Residuals<br />

-3 -2 -1 0 1 2 3<br />

Residuals


Antagandet om normalfördelade residualer<br />

En alternativ plot för att kontrollera normaliteten är normalplotten (även<br />

kallad Q-Q plot). Plotten visar de funna residualerna, sorterade i<br />

storleks ordning, mot förväntade värden från normalfördelningen. Om<br />

residualerna är normalfördelade ska de bilda en rak linje mot de<br />

förväntade värdena. Avvikelse från linjen indikerar <strong>av</strong>vikelse från<br />

normalfördelningen.<br />

Formella tester<br />

(ex. Anderson-Darling testet)<br />

kan användas för att pröva<br />

normaliteten.


Antagandet om oberoende residualer<br />

Antagandet om oberoende residualer är viktigast att kontrollera i<br />

tidsserier. Residualerna ska uppvisa ett slumpmässigt mönster över<br />

tiden. Autokorrelation mellan närliggande residualer leder till<br />

systematiska (ofta vågformade) mönster. Även här kan plottar <strong>av</strong>slöja<br />

mönster och autokorrelationen kan beräknas.<br />

Positiv autokorrelation Negativ autokorrelation


Transformation <strong>av</strong> responsen<br />

Transformation <strong>av</strong> den oberoende variabeln y kan ibland förbättra med<br />

<strong>av</strong>seende på <strong>av</strong>vikande från normalitet, konstant varians och korrekt<br />

residualform. De två vanligaste transformationerna är<br />

1. Logaritm transformation:<br />

2. Kvadratrot transformation:<br />

y* lny<br />

y* <br />

y


<strong>Residualanalys</strong>: Multipel linjär regression<br />

Beräkna residualerna på samma sätt som för enkel regression<br />

Residualerna analyseras även här genom att plottas mot<br />

1. Alla oberoende variabler x j<br />

2. Prediktionen<br />

3. Ev. tidsserie<br />

yˆ<br />

e y yˆ<br />

i<br />

i<br />

i


<strong>Test</strong>er för att detektera enstaka <strong>av</strong>vikande observationer<br />

Starkt <strong>av</strong>vikande värden på x och/eller y kan påverka hela resultatet<br />

från regressionsanalysen.<br />

Regression och residualplottar kan <strong>av</strong>slöja <strong>av</strong>vikande värden.<br />

Man bör överväga om sådana observationer ska tas bort.


C1<br />

40<br />

30<br />

20<br />

10<br />

70<br />

80<br />

90<br />

Regression Plot<br />

C1 = -7.36044 + 0.246037 C2<br />

S = 5.09830 R-Sq = 46.4 % R-Sq(adj) = 44.9 %<br />

100<br />

110<br />

C2<br />

120<br />

130<br />

140<br />

150<br />

Avvikande i yled<br />

10


C1<br />

40<br />

30<br />

20<br />

10<br />

100<br />

Regression Plot<br />

C1 = 4.26261 + 0.129932 C2<br />

S = 4.74175 R-Sq = 40.0 % R-Sq(adj) = 38.4 %<br />

150<br />

C2<br />

200<br />

250<br />

Leverage<br />

point, <strong>av</strong>viker i<br />

x- led<br />

12


<strong>Test</strong>er för att detektera enstaka <strong>av</strong>vikande observationer<br />

Följande mått kan användas för att identifiera <strong>av</strong>vikande observationer<br />

(outliers)<br />

1. ”Leverage values” HI1 i Minitab<br />

2. ”Studentized residuals” SRES1 i Minitab<br />

3. ”Cook’s Distance Measure” COOK1 i Minitab


<strong>Test</strong>er för att detektera enstaka <strong>av</strong>vikande observationer<br />

Data från boken


<strong>Test</strong>er för att detektera enstaka <strong>av</strong>vikande observationer<br />

Resultat<br />

Avviker i y- led<br />

Student Res > 2<br />

Avviker i x- led<br />

Lev val > 2(k + 1)/n<br />

Inflytelserik obs<br />

Cook’s D > F [0.5]


Följande datamaterial innehåller uppgifter om 150<br />

slumpmässigt valda fastigheter i USA<br />

Column Name Count Description Modell Översättning<br />

C1 Price 150 Price y pris<br />

C2 Area 150 Area in square feet x1 bostadsyta<br />

C3 Acres 150 Acres x2 tomtyta<br />

C4 Rooms 150 Number of rooms x3 antal rum<br />

C5 Baths 150 Number of baths x4 antal badrum<br />

Källa: ”MTBWIN”/Student12/HOMES.MTW<br />

17


Price<br />

Pris mot bostadsyta<br />

300000<br />

200000<br />

100000<br />

500<br />

1500<br />

Area<br />

2500<br />

3500<br />

18


Price<br />

Pris mot tomtyta<br />

300000<br />

200000<br />

100000<br />

0<br />

10<br />

Acres<br />

20<br />

19


Price<br />

Pris mot antal rum<br />

300000<br />

200000<br />

100000<br />

3<br />

8<br />

Rooms<br />

13<br />

20


Price<br />

Pris mot antal badrum<br />

300000<br />

200000<br />

100000<br />

1<br />

2<br />

Baths<br />

3<br />

4<br />

21


Om vi t.ex bara har bostadsytan som förklarande variabel:<br />

Prediktioner utanför området där vi har observationer är inte<br />

tillförlitliga<br />

Regression Plot<br />

Price<br />

300000<br />

200000<br />

100000<br />

500<br />

S = 29945.6 R-Sq = 48.6 % R-Sq(adj) = 48.2 %<br />

1500<br />

Price = 63745.2 + 49.3747 Area<br />

Area<br />

2500<br />

3500<br />

Regression<br />

95% CI<br />

22


Price<br />

Pris mot bostadsyta<br />

300000<br />

200000<br />

100000<br />

500<br />

1500<br />

Area<br />

2500<br />

3500<br />

Få observation med bostadsyta 3000 ft2 eller större, men<br />

ändå väl inom området där vi har observation<br />

23


Price<br />

Pris mot antal rum<br />

300000<br />

200000<br />

100000<br />

3<br />

8<br />

Rooms<br />

13<br />

24


Vad är då problemet?<br />

Om vi tittar på datamaterialet så ser<br />

vi att de fastigheter som ingår och har<br />

exakt 6 rum har en bostadsyta mellan<br />

1008 och 1900 ft2.<br />

Det är alltså kombinationen 3000 ft2<br />

och 6 rum som är extrem och vi<br />

måste fundera över om det är rimligt<br />

att anta att modellen är giltig även<br />

för denna typ <strong>av</strong> fastighet.<br />

pris area rooms<br />

117000 1008 6<br />

108000 1036 6<br />

126500 1092 6<br />

133000 1100 6<br />

116000 1100 6<br />

98000 1165 6<br />

129000 1200 6<br />

126000 1232 6<br />

117000 1248 6<br />

110000 1289 6<br />

117500 1300 6<br />

121900 1300 6<br />

100000 1338 6<br />

128500 1344 6<br />

135000 1400 6<br />

140000 1403 6<br />

152000 1450 6<br />

110000 1450 6<br />

142500 1552 6<br />

150000 1564 6<br />

120500 1600 6<br />

141900 1632 6<br />

145900 1680 6<br />

144900 1900 6<br />

25


Residual<br />

100000<br />

Frequency<br />

0<br />

-100000<br />

60<br />

50<br />

40<br />

30<br />

20<br />

10<br />

0<br />

Normal Plot of Residuals<br />

-3 -2 -1 0 1 2 3<br />

Normal Score<br />

Histogram of Residuals<br />

-100000 0<br />

Residual<br />

100000<br />

Residual Model Diagnostics<br />

Residual<br />

Residual<br />

150000<br />

100000<br />

50000<br />

0<br />

-50000<br />

-100000<br />

100000<br />

0<br />

-100000<br />

1<br />

I Chart of Residuals<br />

1<br />

1<br />

1<br />

7 7 7<br />

0 50 100 150<br />

Observ ation Number<br />

Residuals vs. Fits<br />

100000 150000 200000 250000<br />

Fit<br />

1<br />

1<br />

1<br />

6<br />

6<br />

UCL=80640<br />

Mean=-1,3E-10<br />

LCL=-80640<br />

26

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!