Regressionsanalys Mats Wilhelmsson Priserna inom en region

lantm.lth.se
  • No tags were found...

Regressionsanalys Mats Wilhelmsson Priserna inom en region

RegressionsanalysMats Wilhelmssonmatsw@infra.kth.se08-790 92 25KTH1Mats Wilhelmsson• Tekn. Doktor, 2000– ”Traffic Noise and Property Values”• Docent i bygg- och fastighetsekonomi– KTH, Inst. för Fastigheter och Byggande– Enhetschef för bygg- och fastighetsekonomi• Forskning– Värdepåverkande attribut– Högskolor/universitet och ekonomisk tillväxt– Byggandet och dess bestämningsfaktorer2Priserna inom en region• Varför skiljer sig priserna åt inom en region?– Dvs vad är det som förklarar prisvariationen vid nyttjandet avtvärsnittsdata?• Värdepåverkande egenskaper– Fastigheten• Yta, kvalitet, ålder– Området• Positiva och negativa externa effekter• Segmenterad marknad• Relationen mellan pris och fastighetens värdepåverkandeegenskaper skattas mha den sk hedoniska metodiken.31


Den hedoniska prisekvationenPr is = α + β1F+ β2O+ β3T+ ε• Fastighetsknutna egenskaper (F)• Områdesknutna egenskaper (O)• Tidsberoende egenskaper (T)4Stockholm stad, 2000-01Unit Average Standard deviation Maximum MinimumPrice (P) SEK 2,663,185 1,311,842 14,000,000 640,000Living area (LA) Square meters 119 44 296 35Quality (Q) Index 27 6 54 7Age (A) Year 53 18 72 1Age > 60 year Binary 46%Lot size (LS) Square meters 737 311 4,313 288Other area (OA) Square meters 61 31 227 0Distance (D) Meters from 8,615 2,688 16,266 4,246CBDSea view (SV) Binary 1%Q1 2000 Binary 16%Q2 2000 Binary 20%Q3 2000 Binary 19%Q4 2000 Binary 20%Q1 2001 Binary 17%Q2 2001 Binary 7%Brännkyrka Binary 16%Bromma Binary 14%Enskede Binary 6%Essinge Binary 3%Farsta Binary 9%Hägersten Binary 4%Hässelby Binary 12%Skärholmen Binary 2%Skarpnäck Binary 4%Spånga Binary 11%Vällingby Binary 4%Vantör Binary 4%Västerled Binary 14%5Estimeringar (exempel)Koeff. t-värdeBostadsyta .532 22.3Biyta .022 3.5Ålder -.061 -3.1Ålder (>60) .185 10.6Sjönära .330 5.1Tomtareal .137 5.3Std.poäng .267 6.9Avst. CBD -.424 -9.7Q1 2000 -.131 -5.3Q2 2000 -.015 -.6Q3 2000 .020 .8Q4 2000 .092 3.8Q1 2001 .092 3.7•Ökar bostadsytan med 1% så ökarpriset med 0,5%•Sjöutsikt ökar priset med upp till30%•Ökar tomtstorleken med 1 % ökarpriset med 0,1%•Ökar avståndet från city med 1%så sjunker priset med 0,4%•Ca 65 % av prisvariationen kanförklaras av modellen62


Pris och avstånd från CBD0%-10%250 2750 5250 7750 10250 12750 15250Avstånd(meter)-20%-30%Västerort-40%-50%-60%Söderort-70%-80%-90%Priseffekt(procent)7Fler attribut….•Antal rum•Renoveringsbehov•Inre/yttre•Byte av vitvaror/tvätt/el•Dränering av grund•Kabel-tv,bredband,Centraldammsugare•Garage, bastu, bad, bubbelbad, pool,sjöutsikt•Kakelugn/öppen spis•3-glasfönster, snålspolandetoaletter/blandare•Vatten/fuktskadat•Fasad/tak•Ventilationssystem•Värmesystem•Produktion/Distribution•Närhet till•Allm. Kommunikationer•Service•Betyg av område•Störning av•Väg, tåg, flyg, kraftledningar8BetalningsviljanBetalningsviljan för olika attribut (kronor)8000007000006000005000004000003000002000001000000ytterligare ett rum ej biltrafik kakelugn ej direktverkande el sjöutsikt93


BetalningsviljanBetalningsvilja för ytterligare enkvm (kronor)14000140001200010000WTPWTP u.inter12000100008000800060006000400040002000200002 3 4 5 6 70Antal rum10Underhåll av fastighetenPriseffekt (%)403020priseffektpriseffekt (inre renoveringsbehov)priseffekt (yttre och inre renoveringsbehov)1001 11 21 31 41 51 61 71 81 91Ålder (år)-10-20-30-4011Betyg av områden• Toppen– Ålsten (7,83)– Höglandet– Smedslätten– Stora Mossen– Södra Ängby– Bagarmossen (7,67)• Botten– Eneby (6,30)– Långsjö– Bällsta– Mariehäll– Solberga– Fagersjö (4,00)124


Statistikteori• Population - parametrar• Urval - skattningar• Statistiska slutsatser– Skatta parametrar– Testa hypoteserPopulationSamtliga fastigheterMedelvärde, µUrvalSålda fastigheterMedelvärde, E(X)13Regressionsmodell• Det “betingade medelvärdet”• Modell: y i =a+bx i +e i• där– y beroende variabel– x oberoende variabel (variabler), förklarande variabler– a intercept, konstant– b riktningskoefficient– e residual• a, b och e är det som skall skattas.• Skattningen sker genom att minimera e.14Härledning av a och b• OLS (ordinary least square)a=y − bxkov(xy)b =var( x)155


Pris, kkrExempel, Excel-utskrift1800160014001200y = 7,2192x - 70,556R 2 = 0,6269100080060040020000 20 40 60 80 100 120 140 160 180 16 200BostadsytaUTDATASAMMANFATTNINGRegressionsstatistikMultipel-R 0,79R-kvadrat 0,63Justerad R-kvadrat 0,58Standardfel 201Observationer 10Exempel, Excel-utskriftANOVAfg KvS MKv F p-värde för FRegression 1 545808 545808 13,44 0,006342Residual 8 324815 40602Totalt 9 870623Koefficienter Standardfel t-kvot p-värde Nedre 95% Övre 95%Konstant -70,56 292,33 -0,24 0,815 -745 604BOSTADSYTA 7,22 1,97 3,67 0,006 3 1217• Verbal tolkningEkonomisk tolkning– a det förväntade värdet av y om x är likamed noll– b om x ökar med en enhet så ökar y medb enheter186


Exempel, Excel-utskriftUTDATASAMMANFATTNINGRegressionsstatistikMultipel-R 0,79R-kvadrat 0,63Justerad R-kvadrat 0,58Standardfel 201Observationer 10ANOVAfg KvS MKv F p-värde för F545808 545808 0,006342Regression 1 13,44Residual 8 324815 40602Totalt 9 870623Koefficienter Standardfel t-k vot p-värde Nedre 95% Övre 95%Konstant -70,56 292,33 -0,24 0,815 -745 604BOSTADSYTA 7,22 1,97 3,67 0,006 3 12Tolkning: om bostadsytan ökar med 1 kvadratmeter ökar prisetmed 7000 kronor.En fastighet utan bostadsyta betingar ett pris på –70000 kronor.19• Precision– Standardavvikelsen• HypotestestStatistisk tolkning– Är b statistiskt skilt från noll?20Precision• Säkerheten hos modellen kan bl.a. mätas med hurstor spridningen i modellen är. Ju mindrespridning desto bättre modell. Spridningen mätsmed variansen och standardavvikelsen.• Variansen hos a och b beror på modellens varians,antalet observationer samt medelvärdet ochspridningen i den oberoende variabeln.217


2ePrecision• Standardfel hos skattningen av y: s e2 1 n2 1 ns( ˆe= ∑ei= ∑ yi− yi)n − 2 i=1 n − 2 i=1se=s2• Standardfelet hos skattningarna a och b:s a och s b22 1sb= var( b)= se( )2∑ ( x − x)222 1 xsa= var( a)= se( + )2n ∑ ( x − x)22Exempel, Excel-utskriftUTDATASAMMANFATTNINGRegressionsstatistikMultipel-R 0,79R-kvadrat 0,63Justerad R-kvadrat 0,58Standardfel 201Observationer 10ANOVAfg KvS MKv F p-värde för F545808 545808 0,006342Regression 1 13,44Residual 8 324815 40602Totalt 9 870623Koefficienter Standardfel t-k vot p-värde Nedre 95% Övre 95%Konstant -70,56 292,33 -0,24 0,815 -745 604BOSTADSYTA 7,22 1,97 3,67 0,006 3 12Tolkning: om bostadsytan ökar med 1 kvadratmeter så ökarpriset med 7000 kronor plus/minus 2000.Det genomsnittliga felet i skattningarna är 200000 kronor.23Förklaringsgrad• Determinationskoefficienten, ”goodness of fit”,R-square, R 2• TSS: Total variation i den beroende variabeln• RSS: Variation som kan förklaras av modellen• ESS: Oförklarad variation• TSS=RSS+ESS• R 2 =RSS/TSS=1-ESS/TSS248


Förklaringsgrad• Determinationkoefficient (R 2 )R2n∑ ( yˆi− y)i=1=n∑ ( y − y)i=1i2225UTDATASAMMANFATTNINGExempel, Excel-utskriftRegressionsstatistikMultipel-R 0,79R-kvadrat 0,63Justerad R-kvadrat 0,58Standardfel 201Observationer 10ANOVAfg KvS MKv F p-värde för FRegression 1 545808 545808 13,44 0,006342Residual 8 324815 40602Totalt 9 870623Koefficienter Standardfel t-kvot p-värde Nedre 95% Övre 95%Konstant -70,56 292,33 -0,24 0,815 -745 604BOSTADSYTA 7,22 1,97 3,67 0,006 3 12Tolkning: Cirka 60 procent av den totala variationen i priset kanförklaras av variationen i bostadsytan.26• Enskilda parametrarHypotestest– Är en skattning signifikant skild från noll?– Om teststorheten är större än det kritiska värdetförkastas nollhypotesen att koefficientskattningenär lika med noll, dvs den oberoendevariabeln (x) har en inverkan på den beroendevariabeln (y)279


Hypotestest• DVS kan vi dra några slutsatser angåendepopulationen med hjälp av urvalet?• Till vår hjälp använder vi både lägesmått(medelvärdet) och spridning(standardavvikelsen).• Genom att skatta en teststorhet och jämfördet mot ett kritiskt värde kan vi förkastaeller acceptera en hypotes.28Hypotestest• Nollhypotes– En hypotes som vi antar är sann och som vi sedan med hjälp avdata försöker få tillräckligt med bevis mot hypotesen.• Alternativ hypotes– Mot vilken nollhypotesen testat mot.• Teststorhet– En regel med vars hjälp vi testar hypotesen och där varje urvalproducerar ett numeriskt värde.• Kritiskt värde– Det värde som teststorheten jämförs med för att bestämma omnollhypotesen skall förkastas eller ej.29HypotestestModell: y = a + b 1 *x 1 + b 2 *x 2Hypotes: H 0 : β 1 = 0H 1 : β 1 ≠ 0Vi antar att parametrarna har en normalfördelning med detförväntade värdet β och variansen σ 2 b, dvsb 1 ∼ N(β 1 ,σ 2 b1)Normaliserab − β 1 1∈ N (0,1)σb13010


HypotestestOm, σ b1 är okänd använder vi oss av skattningen s b1 istället, vilketinnebär att kvoten är t-fördelad istället för normalfördelad, dvsb − βb11=sb s1bqt c = 1 1= [ om β = 0 i enlighet med hypotesen ]∼ t n-k (α)t c är teststorhetent n-k (α) är det kritiska värdetFörkasta H 0 if t c > t n-k (α)Teststorheten t c är t-kvoten i MSExcel.31HypotestestProbability0,450,40,350,30,250,20,150,10,05032-4-3,8-3,5-3,3-3-2,8-2,5-2,3-2-1,8-1,5-1,3-1-0,8-0,5-0,3-00,20,50,71,21,51,72,22,52,73,23,53,71234High probability: accept H0Low probablity: reject H0Hypotestest• Om teststorheten är större än det kritiskavärdet ⇒ förkasta nollhypotesen.• Kritiskt värde: t α/2 (n-1)– där α är signifikansnivån och (n-1) antaletfrihetsgrader. Vanligtvis använder man sig avsignifikansnivån 95% och 99%.3311


UTDATASAMMANFATTNINGExempel, Excel-utskriftRegressionsstatistikMultipel-R 0,79R-kvadrat 0,63Justerad R-kvadrat 0,58Standardfel 201Observationer 10ANOVAfg KvS MKv F p-värde för F545808 545808 0,006342Regression 1 13,44Residual 8 324815 40602Totalt 9 870623Koefficienter Standardfel t-k vot p-värde Nedre 95% Övre 95%Konstant -70,56 292,33 -0,24 0,815 -745 604BOSTADSYTA 7,22 1,97 3,67 0,006 3 12Tolkning: t-värdet avseende konstanten är lika med –0,24, dvs nollhypotesenkan inte förkastas. Däremot är t-värdet avseende bostadsytan lika med 3,67vilket är högre än det kritiska värdet, dvs nollhypotesen kan förkastas på en95%-ig signifikansnivå. Det innebär att bostadsytan har en effekt på priset. 34Dummyvariabel• En binär variabel som indikerar om en vissenskild observation (objekt) har en vissegenskap eller ej.• Om koefficientskattningen är signifikantskild från noll så innebär det attregressionsmodellen skiftar• Går att kombinera dummyvariabeln medkontinuerliga variabler.35ExempelPRIS BOSTADSYTA POOL875 167 0875 151 0925 135 0525 64 0885 130 01000 143 11100 164 0720 134 01150 175 01700 186 13612


Exempel, Excel-utskriftUTDATASAMMANFATTNINGRegressionsstatistikMultipel-R 0,89R-kvadrat 0,80Justerad R-kvadrat 0,74Standardfel 158Observationer 10ANOVAfg KvS MKv F p-värde för F695239 347619,5 0,004Regression 2 13,87Residual 7 175383 25054,8Totalt 9 870623Koefficienter Standardfel t-kvot p-värde Nedre 95% Övre 95%Konstant 39,23 234,00 0,168 0,8716 -514,095 592,547BOSTADSYTA 6,02 1,62 3,709 0,0076 2,181 9,857POOL 320,66 131,30 2,442 0,0446 10,182 631,141Tolkning: om fastigheten har pool ökar priset med 320000 kronor,allt annat lika. Förklaringsgraden ökar från 58% till 74%.37Transformering av variablernaBeroende Oberoende Tolkningy x ∆y=b∆xy ln(x) ∆y=(b/100)% ∆xln(y) x %∆y=(100b) ∆xln(y) ln(x) %∆y=b%∆x38Exempel, Excel-utskriftUTDATASAMMANFATTNINGRegressionsstatistikMultipel-R 0,912R-kvadrat 0,832Justerad R-kvadrat 0,784Standardfel 0,142Observationer 10Koefficienter Standardfel t-kvot p-värde Nedre 95% Övre 95%3,08 0,80 3,82 0,01 1,17 4,98Konstantlnboyta 0,75 0,16 4,58 0,00 0,36 1,14pool 0,27 0,12 2,34 0,05 0,00 0,55Tolkning: om bostadsytan ökar med 1% så ökar priset med 0,75%.Om fastigheten har en pool ökar priset med 27%.Observera: (1) förklaringsgraden ökar från 74% till 78% pgatransformeringen. (2) t-värdet avseende bostadsytan ökar, dvsskattningen har en högre precision. (3) den genomsnittliga felskattningenhar nu sjunkit till 14%.3913


Sammanfattning av exempelGenomsnittligt fel• Bara pris 32%• Bostadsyta 21%• Bostadsyta+pool 16%• Transf. variabler 14%40Residualanalys• Heteroskedasticitet - ej konstant varians• Autokorrelation - variansen är korreleradöver tiden• Multikollinearitet - hög inbördes korrelationmellan olika oberoende variabler41Heteroskedasticitetlnboyta residualdiagram0,20,150,1Residualer0,0504 4,5 5 5,5-0,05-0,1-0,15-0,2lnboyta4214