12.07.2015 Aufrufe

Regressionsanalyse - Universität Rostock

Regressionsanalyse - Universität Rostock

Regressionsanalyse - Universität Rostock

MEHR ANZEIGEN
WENIGER ANZEIGEN
  • Keine Tags gefunden...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

<strong>Regressionsanalyse</strong>‣ Einführung, Allgemeines‣ Methode der kleinsten Quadrate zurBestimmung der Parameter der linearenEinfachregression‣ Eigenschaften der linearen Kleinst-Quadrate-Einfachregression‣ Lineares BestimmtheitsmaßProf. Kück / Dr. Ricabal DelgadoLehrstuhl StatistikRegression I1Bibliografie:‣ Prof. Dr. KückUniversität <strong>Rostock</strong>Statistik, Vorlesungsskript, Abschnitt 8.3.1‣ Bleymüller / Gehlert / GülicherVerlag Vahlen 2004Statistik für Wirtschaftswissenschaftler‣ http://www.wiwi.uni-rostock.de/~stat/download.htmProf. Kück / Dr. Ricabal DelgadoLehrstuhl StatistikRegression I21


<strong>Regressionsanalyse</strong> -Aufgabenstellung-Unabhängige Merkmale(Regressoren)Aufgabe: Bestimmung einer mathematischenFunktion f, welche die durchschnittliche Tendenz derAbhängigkeit der Variablen Y von den Variablen X 1 ,X 2 , . . . , X k möglichst gut beschreibt.Abhängiges Merkmal(Regressand)YX 1X 2...X kˆ = β + β XY1 2Mathematische Funktion(Regressionsfunktion)Yˆ=lineare Einfachregressionf ( X, X, K,X1 2 k)lineare MehrfachregressionY ˆ = β + β X + β X + K+β12233k X kLinearisierbarnichtlineare RegressionNicht linearisierbarProf. Kück / Dr. Ricabal DelgadoLehrstuhl StatistikRegression I3Beispiel: Zusammenhang zwischen Verkaufsflächeund UmsatzFilialnr.1234567Verkaufsfläche(in m²)15018042048066010001300Umsatz (Y)(in Mill. EUR)381922314248Umsatz in Mill. EURStreudiagram7060504030201000 200 400 600 800 1000 1200 1400 1600 1800Fläche in m²8910SummeMittelwert150016001710900090052546134034Man erkennt eine starken linearenZusammenhang zwischen Verkaufsflächeund Umsatz.ˆ = f ( X)= β + β XY0 1Prof. Kück / Dr. Ricabal DelgadoLehrstuhl StatistikRegression I42


Beispiel: Abhängigkeit zwischen Geburtsgewicht undKörperhöhe der MutterProf. Kück / Dr. Ricabal DelgadoLehrstuhl StatistikRegression I5Beispiel: Abhängigkeit zwischen Geburtsgewichtund Körpergewicht der MutterProf. Kück / Dr. Ricabal DelgadoLehrstuhl StatistikRegression I63


Beispiel: Abhängigkeit zwischen Geburtsgewichtund Alter der MutterProf. Kück / Dr. Ricabal DelgadoLehrstuhl StatistikRegression I7Beispiel: Zusammenhang zwischen Verbrauchund LeistungKraftstoffverbrauch durchschnittlich [l/100km]161412108640100200300400Enger Zusammenhang zwischenVerbrauch des Autos und Leistung desMotors in (grafischer) Auswertung der250 Fahrzeuge. Welche mathematischeFunktion beschreibt am besten dieAbhängigkeit des Verbrauches von derLeistung des Motors?Daten: auto_250.savLeistung [PS]Prof. Kück / Dr. Ricabal DelgadoLehrstuhl StatistikRegression I84


Beispiel: Abhängigkeit zwischen Verbrauch undLeistung16Kraftstoffverbrauch durchschnittlich [l/100km]141210yˆ = f1 ( x)= b1+ b2xy ˆ = f ( x)= b1+ b2x + b32xyˆ = f3( x)= b1+ b2ln x²8Beobachtet640100200300400LinearLogarithmischQuadratischRegressionLinearQuadratischRsq (B)0,7590,770Leistung [PS]Logarithmisch0,744Prof. Kück / Dr. Ricabal DelgadoLehrstuhl StatistikRegression I9Beispiel: Zusammenhang zwischen Preis undLeistung140000Preis [EURO]1200001000008000060000400002000000100200300400Enger Zusammenhang zwischen Preisdes Autos und Leistung des Motors in(grafischer) Auswertung der 250Fahrzeuge. Welche mathematischeFunktion beschreibt am besten dieAbhängigkeit des Preises von derLeistung des Motors?Leistung [PS]Daten: auto_250.savProf. Kück / Dr. Ricabal DelgadoLehrstuhl StatistikRegression I105


Beispiel: Abhängigkeit zwischen Preis undLeistungPreis [EURO]140000120000yˆ = f1( x)= b1+ b2x10000080000y ˆ=f ( x)= b1+ b2x+b32x²600004000020000BeobachtetLinearQuadratisch1 2yˆ = f 3( x)= eRegression Rsq (B)Linear0,839b + b x00100Leistung [PS]200300400ExponentiellQuadratischExponential0,8970,859Prof. Kück / Dr. Ricabal DelgadoLehrstuhl StatistikRegression I11Lineare EinfachregressionResiduen : Abweichungen zwischenBeobachtungen und geschätzten WertenP( x i, yi)y iŷ ie = y − yˆiiiRegressionsgeradeyˆ = f ( x)= b1+ b2xb 1 : Ordinatenabschnittb 2 : Steigungb = 2tan θθx [1]x ix [n]Regressionsfunktionb 1 und b 2 : Koeffizienten oder Parameter der RegressionProf. Kück / Dr. Ricabal DelgadoLehrstuhl StatistikRegression I126


Methode der kleinsten Quadrate (MKQ)e = y − yˆiResidueniiP( x i, yi)Residuenquadraty iŷ iyˆ = b1+ b2xMinimierung der Summe derAbweichungsquadrate SAQSAQ(b , b ) =12n2∑eii=1=n∑i=12( y − yˆ)iix [1]x ix [n]=n∑i=1( y − bi1− b x )2i2Prof. Kück / Dr. Ricabal DelgadoLehrstuhl StatistikRegression I13Normalgleichungen der MKQMinimierung der Summe der Abweichungsquadrate SAQSAQ(bn nn2221, b2) = ∑ei= ∑(yi− yˆi) = ∑(yi− b1− b2xi)i=1 i=1i=1Notwendige BedingungδSAQ(b1, b2) δSAQ(b1, b2)== 0δbδb12ˆ +yi = b1b2x iNormalgleichungen:δSAQ(b1, b2)= −2δb1δSAQ(b1, b2)= −2δb2n∑i=1n∑i=1( y − biii1x ( y − b− b x ) = 0 ⇒12in∑i=1− b x ) = 0 ⇒2iy − nbni∑i=1ii1− bx y − bn∑2i=1n∑1i=1x = 0 ⇒ nbiix − bn∑2i=1x2i1+ b= 0n∑2i=1xi=n∑i=1yi⇒ bn∑1i=1x + bin∑2i=12i=∑i=1Prof. Kück / Dr. Ricabal DelgadoLehrstuhl Statistikxnx yiiRegression I147


8Prof. Kück / Dr. Ricabal DelgadoLehrstuhl StatistikRegression I15Lösung des Normalgleichungssystemsxbynxbnybyxbnbniiniiniinii 212111121 −=−=⇒=+∑∑∑∑====2112111111211111211211112211122121122121112212112211)()(⎟⎠⎞⎜⎝⎛−−=−−=−−=⇒−=−⇒−=+⇒ −=+−⇒=+−⇒=+∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑=================================niiniiniiniiniiiniiniiniiniiniiniiiniiniiniiniiiniiniiiniiniiniiniiiniiniiniiiniiniiniiniiiniiniiniiiniiniixxnxyyxnnxxxnxyyxxxxxyyxbxyyxxxxbxyyxxbxxbyxxbxxbxyyxxbxxbyyxxbxbProf. Kück / Dr. Ricabal DelgadoLehrstuhl StatistikRegression I16Andere Formeln für die Parameter derlinearen Einfachregression2112111121⎟⎠⎞⎜⎝⎛−−=∑∑∑∑∑∑======niiniiniiiniiniiniixxnyxxyxb21121112⎟⎠⎞⎜⎝⎛−−=∑∑∑∑∑=====niiniiniiniiniiixxnyxyxnbxbyb 21 −=xyxxyssrssxxyxxyb⋅==−⋅−= 2222Für die Steigung:Für den Ordinatenschnittpunkt:xbby 21ˆ +=


Beispiel: Zusammenhang zwischen Verkaufsflächeund UmsatzFür 10 Filialen einer Handelskette soll untersucht werden, welcher Zusammenhangzwischen Verkaufsfläche (in m²) und Umsatz (in Mill. EUR) besteht.Filialnr.FlächeUmsatz (Y)Streudiagram12345678910SummeMittelwert15018042048066010001300150016001710900090038192231424852546134034r xyUmsatz in Mill. EUR70605040302010= 0,916yˆ = b1+ b2x00 200 400 600 800 1000 1200 1400 1600 1800Fläche in m²Man erkennt eine starken linearenZusammenhang zwischen Verkaufsfläche undUmsatz. Diese Abhängigkeit lässt sich durchlineare Einfachregression erklären.Prof. Kück / Dr. Ricabal DelgadoLehrstuhl StatistikRegression I17Beispiel: Berechnung der Parameter derEinfachregressionFiliale Nr.1Fläche(x i)150Umsatz(y i)322500y² i9x iy i450yˆ = b1+ b2xx² i15288234567818042048066010001300150081922314248523240017640023040043560010000001690000225000064361484961176423042704144079801056020460420006240078000nb =2n∑ii=1nx yn∑i=1i−n∑2 ⎛xi− ⎜⎝i ii=1 i=1n2∑i=1∑⎞xi⎟⎠10 ⋅ 414000 − 9000 ⋅ 340== 0,0335210 ⋅11321400−xny( 9000)910SummeMittelwert16001710900090054613403425600002924100113214002916372186400104310414000b1= y − b x2= 34 − 0,0335 ⋅ 900 = 3,8268yˆ = 3,8268 + 0, 0335xProf. Kück / Dr. Ricabal DelgadoLehrstuhl StatistikRegression I189


Eigenschaften der linearen Kleinst-Quadrate-Einfachregression (1)1. Die Summe der Residuen ist Nullnn(1,2)= −2∑(− ) 0 ( ˆ1−2= ⇒ ∑ − ) = ∑nδSAQ b byib b xiyiyieiδb1i=1i=1i=1= 02. Die Summe der Produkte x ie i(i=1, 2, . . . , n) ist Nullnn(1,2)= −2∑( − ) 0 ( ˆ1−2= ⇒ ∑ − ) = ∑nδSAQ b bxiyib b xixiyiyixieiδb2i=1i=1i=1= 03. Das arithmetische Mittel der beobachteten Werte y iist gleichdem arithmetischen Mittel der geschätzten Werte y i-Dachn∑eii=1=n∑i=1( y − yˆ) = 0 ⇒iin∑i=1yi−n∑i=1yˆi= 0 ⇒n∑i=1yi=n∑i=1yˆ⇒in∑i=1nyi=n∑i=1nyˆi⇒ y = yˆProf. Kück / Dr. Ricabal DelgadoLehrstuhl StatistikRegression I19Eigenschaften der linearen Kleinst-Quadrate-Einfachregression (2)4. Die Regressionsgerade verläuft durch den Datenschwerpunktxn∑x=ii=nyi− yˆi= ei⇒ yi= b1+ b2xinn nn⇒ ∑ yi= nb1+ b2∑xi+ ∑∑ yii=1i=1 i=1i=Streudiagramn7060P( x,y)50ei⇒ y = b1+ b2xy = 1y = 34Umsatz in Mill. EUR40302010+ e00 200 400 600 800 1000 1200 1400 1600 1800Fläche in m²x = 900iProf. Kück / Dr. Ricabal DelgadoLehrstuhl StatistikRegression I2010


Zerlegung der Abweichungsquadratsummey iŷ iyP( x i, yi)y i−yˆi−yyZu erklärendeAbweichungDurch das Modellerklärte Abweichungyˆ = f ( x)= b1+ b2xx iXei=yi− yˆiResiduenodernichterklärteAbweichungenProf. Kück / Dr. Ricabal DelgadoLehrstuhl StatistikRegression I21Zerlegung der Abweichungsquadratsummey in∑n( yi− y)²= ( yi− yˆi)² + ( yˆi− y)²i=1i=1i=114243 14243 14243SQT∑SQRn∑SQEŷ iySQT: Quadratsumme der zu erklärendenAbweichung (SQ y )SQR: Quadratsumme der nicht erklärten= Abweichung (Restabweichung, Residuen)+SQE: Quadratsumme der durch dieRegression erklärten AbweichungProf. Kück / Dr. Ricabal DelgadoLehrstuhl StatistikRegression I2211


Zerlegung der Abweichungsquadratsummey − y = y − yˆ+ yˆ− y ⇒ ( y − y)²= ( y − yˆ)² + 2( y − yˆ)( yˆ− y)+ ( yˆ− y)²in∑n⇒ ( yi− y)²= ( yi− yˆi)² + 2 ( yi− yˆi)( yˆi− y)+ ( yˆi− y)²i=1i=1i=1i=114243 14243 14442444314243SQTiii∑SQRin∑i2 A=0iin∑iSQEiiA ===n∑i=1n∑i=1n∑i=1e yˆ− yii( y − yˆ)( yˆiiin∑i=1ieii− y)==n∑i=1e ( b + b x ) = b12ni∑1i=1iin∑i=1e yˆ− 0 =e + be ( yˆ− y)in∑2i=1in∑i=1ie yˆiie x = 0i( a + b)²= a²+ 2ab+ b²1. Eigenschaft2. EigenschaftGeschätzteWerten∑i = 1n∑i = 1ei=0x e i i= 0ˆ +yi= b1b2x iProf. Kück / Dr. Ricabal DelgadoLehrstuhl StatistikRegression I23Bestimmtheitsmaß der Einfachregressionn∑n( yi− y)²= ( yi− yˆi)² + ( yˆi− y)²i=1i=1i=114243 14243 14243BSQTSQESQTn∑i=1= =n∑i=1∑iiSQR( yˆ− y)²( y − y)²n∑SQEBSQT − SQRSQTSQT = SQR +SQE = SQTSQRSQT∑i=1= = 1−= 1−ndurch die Regression erklärte AbweichungsquadratsummeB =zu erklärende gesamte AbweichungsquadratsummeSQE− SQRn∑i=1( y − yˆ)²i( y − y)²iiInterpretation: Das Bestimmtheitsmaß ist der Anteil der durch dieRegressionsfunktion erklärten Abweichungsquadratsumme an der zuerklärenden gesamten Abweichungsquadratsumme. Es kann auch alsProzentwert angegeben werden.Prof. Kück / Dr. Ricabal DelgadoLehrstuhl StatistikRegression I2412


Bestimmtheitsmaß der EinfachregressionWertebereich des Bestimmtheitsmaßes0 ≤ B ≤ 1Wird die Summe der Abweichungsquadrate für den Fehler (SQR) unmittelbarim Zähler der Verhältniszahl verwendet, dann drückt dieses Verhältnis dieUnbestimmtheit aus.UnbestimmtheitsmaßDas Quadrat des Korrelationskoeffizientenist das Bestimmtheitsmaß (B = r²).USQRSQTn∑i=1= =n∑i=1( y − yˆ)²i( y − y)²iiLinearerKorrelationskoeffizientr xy= Vorzeichen (b2)⋅BProf. Kück / Dr. Ricabal DelgadoLehrstuhl StatistikRegression I25Beispiel: Berechnung des linearen BestimmtheitsmaßesFiliale Nr.iSumme12345678910MittelwertFläche(x i)150180420480660100013001500160017109000900Umsatz(y i)38192231424852546134034yˆ = 3,8268 + 0, 0335xy² iResiduen Residuen²ŷiyi− yˆi( y ˆi− yi)²9 8,8557 -5,8557 34,288764 9,8614 -1,8614 3,4649361 17,9076 1,0924 1,1933484 19,9192 2,0808 4,3299961 25,9538 5,0462 25,46401764 37,3526 4,6474 21,59852304 47,4103 0,5897 0,34772704 54,1155 -2,1155 4,47522916 57,4681 -3,4681 12,02743721 61,1559 -0,1559 0,024315288107,2140Berechnung mit Excel, gerundetB = 1−= 1−= 1−n∑i=1SQRSQT∑i=1( y2i107,214015288 −= 1−⎛⎜y −⎝− yˆ)²∑i=1( 340)10∑i=1n∑i=1= 1−0,0288 = 0,9712n2( y( y2⎞yi⎟⎠nInterpretation: 97,71 % der gesamten Abweichungsquadratsummeist durch die lineare Einfachregression erklärt.niinii− yˆ)²i− y)²Prof. Kück / Dr. Ricabal DelgadoLehrstuhl StatistikRegression I2613


Vielen Dank für Ihre Aufmerksamkeit!Bananenschalen, Papier und …herunter gefallen? Dann schnell aufhebenund in die Tonne damit!Prof. Kück / Dr. Ricabal DelgadoLehrstuhl StatistikRegression I2714

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!