13.07.2015 Aufrufe

Teil: lineare Regression

Teil: lineare Regression

Teil: lineare Regression

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

<strong>Teil</strong>: <strong>lineare</strong> <strong>Regression</strong>1 Einführung2 Prüfung der <strong>Regression</strong>sfunktion3 Die Modellannahmen zur Durchführung einer <strong>lineare</strong>n <strong>Regression</strong>4 Dummyvariablen


1 Einführungo Eine statistische Methode um Zusammenhänge zwischen einer abhängigen und einer oder mehrerenunabhängigen Variablen zu untersuchen. Alle einbezogenen Variablen müssen metrisch skaliert sein. Esbesteht die Option dichotome Variablen auch metrisch zu interpretieren (Dummy-Variablen).o Die Entscheidung, welche Variable als abhängige (AV) und welche als unabhängige Variable (UV) in dieAnalysen einbezogen werden, muss vorab aus einem theoretischen Bezugsrahmen abgeleitet werden.o Es geht bei der <strong>Regression</strong> nicht nur um die Feststellung der Stärke eines Zusammenhangs. Die zugrundeliegenden Annahmen gehen über die einer Korrelationsanalyse hinaus. Bei der Zuordnung von UV und AVwerden kausale Beziehungen unterstellt.o Anwendung: Prognosen und Kausalanalyseno Bezeichnung der UV: exogene Variable, erklärende Variable, Prädiktorvariableo Bezeichnung der AV: endogene Variable, erklärte Variable, Prognosevariable2


Ansatz der einfachen <strong>lineare</strong>n <strong>Regression</strong>Punktwolke der AV und UV.o Dabei soll x die UV sein und y die AV.3


o Linear soll in diesem Kontext bezogen auf x und y heißen:4


Ziel der <strong>Regression</strong>o Zurückführen von y auf x.o Ziel ist es nun, mit Hilfe eines Modellansatzes, die Punktwolke zu beschreiben.5


ParametersucheDie grundsätzliche Frage besteht nun darin, wie findet man die beiden relevanten Parametera und b und wie findet man die optimale <strong>Regression</strong>sgerade durch die Punktwolke? Lösung: a und b optimal bestimmen!6


o WIE: Methode der kleinsten Quadrate7


Methode der kleinsten QuadrateMit dieser Methode versucht man die Summe der quadratischen Abweichungen in Bezugauf die beiden Parameter a und b zu minimieren!8


Allgemeiner Ansatz9


y = Einkommen/100x = Berufserfahrung in Jahren10


Person mit 5 Jahren Berufserfahrung:11


o b ist die Konstanteo a der <strong>Regression</strong>skoeffizient12


Formales Vorgehen1. Ermittlung eines theoretischen Bezugsrahmens2. Formulierung von Hypothesen3. Operationalisierung4. Formulierung des Modells5. Schätzung der <strong>Regression</strong>sfunktion6. Prüfung der <strong>Regression</strong>sfunktion (Modellannahmen, Parameter, Verallgemeinerbarkeit)13


DurchführungFragestellung: Gibt es einen Zusammenhang von Alter und Einkommen?14


1. Ermittlung eines theoretischen Bezugsrahmenso Humankapitaltheorie2. Formulierung von Hypotheseno Mit zunehmendem Alter steigt die Berufserfahrung, was sich direkt in steigendem Einkommeno bemerkbar macht. Ein Zugewinn an Bildung führt über eine gesteigerte Produktivität zu mehr Einkommen.3. Operationalisierung4. Formulierung des Modelso Einkommen = b + a*Bildungsjahre5. Schätzung der FunktionAnalysieren <strong>Regression</strong> Linear6. Prüfung der <strong>Regression</strong>sfunktion und Annahmen15


2 Prüfung der <strong>Regression</strong>sfunktionAusgehend von der Schätzung der Parameter mit Hilfe der Methode der kleinsten Quadrate stellt sich jetzt dieFrage, wie gut das Modell zur Erklärung der Realität beiträgt. Dabei wird in 2 grundsätzliche Bereicheunterschieden:o Globale Prüfung der <strong>Regression</strong>sfunktion: Wird die abhängige Variable durch die in das Modelleinbezogene(n) Variable(n) erklärt? Wenn ja, wie gut ist diese Erklärung?o Prüfung der einzelnen <strong>Regression</strong>skoeffizienten Tragen die Variablen einzeln zur Erklärung bei? Wennja, wie gut?Was bedeutet Güte eines Modells: Welcher Anteil der Streuung der AV kann mit dem verwendeten<strong>Regression</strong>smodellaufgeklärt werden?16


Globale PrüfungBestimmtheitsmaß (Determinationskoeffizient) R²Der Anteil, der durch die <strong>Regression</strong> aufgeklärten Streuung ist das Bestimmtheitsmaß R². Es misst die Güte derAnpassung der <strong>Regression</strong>sfunktion an die empirischen Daten (goodness of fit).17


Interpretationsbeispielo Wird zur Erklärung oder Vorhersage der AV Einkommen nicht nur der Mittelwert sondern auch die UV Alterverwendet, wird die Summe des quadrierten Vorhersagefehlers um 14,4 % gesenkt, als wenn nur derMittelwert genutzt würde.o Alter erklärt etwa 14 % der Streuung von Einkommen (in der untersuchten Population).19


Prüfung der einzelnen <strong>Regression</strong>skoeffizienten<strong>Regression</strong>skoeffizienteno Geben das Ausmaß der Steigerung der AV an, für den Fall, dass die UV um eine Einheit steigt.20


Weitere MaßeKorrigiertes Bestimmtheitsmaßo Aus einer „Gewinn maximierenden Perspektive“ wäre es sinnvoll, R² zu erhöhen, und damit immer mehrVarianz der AV zu erklären. Der einfachste Weg besteht in der Berücksichtigung weiterer UVs.o Das korrigierte Bestimmtheitsmaß berücksichtigt die Anzahl der Regressoren. Damit besteht auch dieMöglichkeit eines sinkenden R².n = Anzahl der Beobachtungenk = Anzahl der Regressoren21


Standardisierte <strong>Regression</strong>skoeffizientenBei der Verwendung unterschiedlicher metrischer Variablen werden in der Regel auch unterschiedliche Skalen indas Modell eingehen. Um die <strong>Regression</strong>skoeffizienten vergleichen zu können, kann man auf eineStandardisierung zurückgreifen.Interpretation: wird die UV um eine Standardabweichung erhöht, gibt der Standardisierte <strong>Regression</strong>skoeffizientan, um wie viele Standardabweichungen die AV steigt (oder bei negativem Vorzeichen sinkt).22


Anwendung datensatz14.savVariablennameAlterBildungEinkommenBedeutungAlter in JahrenBildungsjahreEinkommen in Jahren1. Schätzen Sie eine <strong>Regression</strong>sfunktion von Einkommen auf Alter und Bildungsjahre.2. Interpretieren Sie die Ergebnisse.Zusatz: Überzeugen Sie sich über den Zusammenhag anhand einer Grafik (z.B. Streudiagramm).23


Von der Grundgesamtheit zur StichprobeF Statistiko Werden Daten aus Stichproben verwendet, stellt sich die Frage, in wie weit das geschätzte Modell auchGültigkeit für die Grundgesamtheit hat. Aufgrund der Stichprobendaten enthalten die geschätztenParameter zufällige Streuung.Der p-Wert der F-Statistik gibt Auskunft über die Wahrscheinlichkeit der Daten, unter der Annahme der H0 (alle<strong>Regression</strong>skoeffizienten sind = 0. In der Grundgesamtheit besteht kein Zusammenhang der UVs mit der AV).t-Testo Die F-Statistik, testet das Gesamtmodell, der t-Test die einzelnen Koeffizienten auf Zufälligkeit.o Der p-Wert des t-Tests, gibt Auskunft über die Wahrscheinlichkeit der Daten, unter der Annahme der H0 (Dereinzelne <strong>Regression</strong>skoeffizient = 0).24


Was beinhaltet der Fehlerterm?o Messfehlero Stichprobenfehlero Nicht aufgeklärte Varianz25


3 Die Modellannahmen zur Durchführung einer <strong>lineare</strong>n <strong>Regression</strong>Die Verwendung des stochastischen Modells der <strong>Regression</strong>sanalyse, beruht auf einer Reihe von Annahmen.o Linearität: Das Modell ist linear in den <strong>Regression</strong>skoeffizienten. Die Anzahl der UV´s muss kleiner sein alsdie Anzahl der Fälle im Datensatz.o Unabhängigkeit der Fehler: Es darf keine Autokorrelation bestehen.o Homoscedastizität: Die Störgrößen haben konstante Varianzeno keine Multikollinearität: Zwischen den UV´s besteht keine perfekte <strong>lineare</strong> Abhängigkeito Vollständigkeit des Modells: Die einzelnen Fehler haben den Erwartungswerto Normalverteilung: Die Fehler sind normal verteilt. Gegenstand von Vertiefungskursen26


Diagnostik der Modellannahmeno Linearität: Vor allem über die Plots der einzelnen UV´s gegen die AV.o Unabhängigkeit der Fehler: Durbin Watson Testo Homoscedastizität: Standardmethode hierfür sind die Plots der Residuen gegen die vorhergesagten Werteo keine Multikollinearität: Toleranzwerteo Vollständigkeit des Modells: overfitting versus underfittingo Normalverteilung: Nur bei sehr kleinen Stichproben relevant, visuelle Überprüfung Gegenstand von Vertiefungskursen27


Ausgewählte Lösungsmöglichkeiten bei Verletzungen der Annahmen28


Anwendung und InterpretationSuche nach einflussreichen Fällen (Ausreißern)29


a) Analysieren deskriptive Statistik explorative Datenanalyse31


4 DummyvariablenVorteil:o Es können auch kategoriale Variablen im Modell berücksichtigt werdeno Es können nicht <strong>lineare</strong> Zusammenhänge aufgedeckt werdenEine mögliche Strategie zur Anpassung des Modells an nicht<strong>lineare</strong> Beziehungen in Daten ist die Konstruktion vonDummy-Variablen. Dabei müssen immer n¡-1 Variablen im Modell integriert werden (n = Anzahl der Kategorien).Interpretation:o Bei dichotomen Variablen (z.B. Geschlecht 0 = männlich und 1 = weiblich) steht der <strong>Regression</strong>skoeffizientfür den Unterschied zwischen den beiden Ausprägungen.o Bei mehr als 2 Ausprägungen wird eine als Referenzkategorie deklariert. Diese wird nicht mit ins Modelleinbezogen Gegenstand von Vertiefungskursen32


Anwendung datensatz14a.savVariablennameAlterBildungEinkommenGeschlechtBedeutungAlter in JahrenBildungsjahreEinkommen in JahrenMännlich oder weiblich1. Schätzen Sie eine <strong>Regression</strong>sfunktion von Einkommen auf Geschlecht. Wie interpretieren Sie den<strong>Regression</strong>skoeffizienten?2. Verwenden Sie nun auch die anderen Variablen zur Erklärung von Einkommen. Diskutieren Sie das Modell.33

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!