Lineare Regression (Kap. 1-5) (pdf) - Seminar für Statistik - ETH Zürich
Lineare Regression (Kap. 1-5) (pdf) - Seminar für Statistik - ETH Zürich
Lineare Regression (Kap. 1-5) (pdf) - Seminar für Statistik - ETH Zürich
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
3.3. MULTIPLE REGRESSION IST MEHR ALS VIELE EINFACHE 293.3 Multiple <strong>Regression</strong> ist viel mehr als viele einfache <strong>Regression</strong>enabcDie multiple <strong>Regression</strong> wurde eingeführt, um den Einfluss mehrerer erklärender Grössenauf eine Zielgrösse zu erfassen. Ein verlockender, einfacherer Ansatz zum gleichenZiel besteht darin, für jede erklärende Variable eine einfache <strong>Regression</strong> durchzuführen.Man erhält so ebenfalls je einen geschätzten Koeffizienten mit Vertrauensintervall. In derComputer-Ausgabe der multiplen <strong>Regression</strong> stehen die Koeffizienten in einer einzigenTabelle. Ist das der wesentliche Vorteil?Die Überschrift über diesen Abschnitt behauptet, dass der Unterschied der beiden Ansätze– mehrere einfache gegen eine multiple <strong>Regression</strong>sanalyse – viel grundlegender ist. Dassoll im Folgenden begründet werden.⊲ An künstlichen Beispielen lassen sich solche Effekte noch klarer veranschaulichen. InAbbildung 3.3.b sind für den Fall einer kontinuierlichen erklärenden Variablen X (1) undeiner Gruppierungsvariablen X (2) vier mögliche Fälle aufgezeichnet. Die gestrichelten Geradenzeigen das Modell, nach dem die Beobachtungen erzeugt wurden: Zwei paralleleGeraden mit Steigung β 1 und einem vertikalen Abstand von β 2 . Die Beobachtungen derbeiden Gruppen tragen verschiedene Symbole. Die ausgezogene Gerade stellt das Resultateiner einfachen <strong>Regression</strong> von Y auf X (1) dar; das schmale Rechteck am rechten Randzeigt den Unterschied zwischen den Gruppenmittelwerten der Zielgrösse, was der einfachen<strong>Regression</strong> von Y gegen X (2) entspricht. Die Gerade und das Rechteck zeigen alsodas Resultat, das man erhält, wenn man die beiden Regressoren X (1) und X (2) je miteinfacher <strong>Regression</strong> ”abhandelt“.Die Ergebnisse der multiplen <strong>Regression</strong> sind nicht eingezeichnet; sie widerspiegeln dasModell ziemlich genau. Die vier Fälle zeigen die Schwierigkeiten der Interpretation voneinfachen <strong>Regression</strong>en drastisch:(A) Beide Variablen haben einen positiven Effekt, β 1 > 0, β 2 > 0. Die geschätzteSteigung und der Unterschied der Gruppenmittelwerte werden zu gross.(B)Kein Effekt der kontinuierlichen erklärenden Variablen X (1) . Die geschätzte Geradeerhält ihre Steigung durch den Unterschied zwischen den Gruppen.(C) Entgegengesetzte Effekte, β 1 < 0, β 2 > 0. Die geschätzte Steigung zeigt einenpositiven Effekt der kontinuierlichen erklärenden Variablen X (1) auf die Zielgrösse,während er in Wirklichkeit negativ ist!(D)Hier sind die Effekte so eingerichtet, dass sie sich gegenseitig aufheben. Man wirdfälschlicherweise schliessen, dass keine der beiden Variablen einen Einfluss auf Yhat. ⊳Wenn wir uns das Modell der multiplen <strong>Regression</strong> vergegenwärtigen, wird klar, wie derUnterschied zu den Ergebnissen der einfachen <strong>Regression</strong> entsteht: Der Koeffizient β 1 beispielsweisegibt an, um wie viel sich der erwartete Wert der Zielgrösse erhöht, wenn X (1)um 1 erhöht wird – und alle anderen erklärenden Variablen gleich bleiben. Im Beispielbleibt die Ladung und die Stelle gleich; wir erhalten also die Steigung der Geraden innerhalbder Stelle bei konstanter Ladung – und gehen, wenn die Wechselwirkung im Modellfehlt, davon aus, dass diese für beide Stellen gleich ist.Betrachten wir die einfache <strong>Regression</strong> der Zielgrösse auf X (1) , dann wird sich die Bedeutungvon β 1 ändern. Die zweite ausgewählte Stelle wurde bei grösseren Distanzen erfasstals die erste und führte trotzdem tendenziell zu gleich hohen Erschütterungen. Teilweise