12.07.2015 Aufrufe

Lineare Regression (Kap. 1-5) (pdf) - Seminar für Statistik - ETH Zürich

Lineare Regression (Kap. 1-5) (pdf) - Seminar für Statistik - ETH Zürich

Lineare Regression (Kap. 1-5) (pdf) - Seminar für Statistik - ETH Zürich

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

22 3 MULTIPLE LINEARE REGRESSIONbcdEine Ausgangs-Variable kann beispielsweise binär, also auf die Werte 0 und 1 beschränktsein. Ist sie die einzige X -Variable, dann wird das Modell zu Y i = β 0 + E i fürx i = 0 und Y i = β 0 + β 1 + E i für x i = 1. Das <strong>Regression</strong>smodell ist dann äquivalentzum Modell von zwei unabhängigen Stichproben, von denen ein allfälliger Unterschiedder Lage interessiert – eine sehr übliche, einfache Fragestellung in der <strong>Statistik</strong>.Das sieht man folgendermassen: Oft werden bei zwei Stichproben die Beobachtungen mitzwei Indices versehen: Y ki ist die ite Beobachtung der kten Gruppe (k = 1 oder 2) undY ki ∼ N 〈 µ k , σ 2 〉 . Es sei nun x ki = 0, falls k = 1 ist, und x ki = 1 für k = 2. Dann istY ki ∼ N 〈 β 0 + β 1 x ki , σ 2 〉 , mit β 0 = µ 1 und β 1 = µ 2 − µ 1 . Wenn man die Beobachtungenwieder mit einem einzigen Index durchnummeriert, ergibt sich das <strong>Regression</strong>smodell mitder binären x-Variablen.⊲ Im Beispiel der Sprengungen wurde die Messstelle je nach Arbeitsfortschritt verändert.Es ist plausibel, dass die örtlichen Gegebenheiten bei den Messstellen einen Einflussauf die Erschütterung haben.Betrachten wir zunächst den Fall von nur zwei Messstellen! Ein einfaches Modell lautetwie in 3.1.bY i = β 0 + β 1 x (1)i+ β 2 x (2)i+ E i ,wobei X (1) die logarithmierte Distanz sei und X (2) die binäre Variable, die die Messstellebezeichnet, beispielsweise durch die Werte 0 für die erste und 1 für die zweite Messstelle.Das Modell beschreibt zwei Geraden y = β 0 + β 1 x (1) für die erste und y = (β 0 + β 2 ) +β 1 x (1) für die zweite Messstelle. Für beide Messstellen ist die gleiche Steigung β 1 wirksam;deshalb sind die beiden Geraden parallel. Dass die Geraden parallel sein sollen, ist eineAnnahme, die in unserem Beispiel recht plausibel erscheint. Auf den allgemeineren Fallkommen wir zurück (3.2.t).⊲ Nun waren es aber vier Stellen, die wie üblich in einer willkürlichen Reihenfolge durchnummeriertwurden. Es ist sinnlos, die so entstehende Variable Stellennummer“ als Ausgangs-”Variable X (j) ins Modell aufzunehmen, da eine lineare Abhängigkeit der Erschütterungvon der Stellen-Nummer kaum plausibel ist. ⊳Eine solche Ausgangs-Variable mit nominalem oder kategoriellem Wertebereichwird auch Faktor genannt. Um sie in ein <strong>Regression</strong>smodell einzubeziehen, führt manfür jeden möglichen Wert (jede Stelle) eine ”Indikatorvariable“ ein,{x (j) 1 falls i te Beobachtung aus der j ten Gruppe,i=0 sonst..Ein Modell für mehrere Gruppen j von Beobachtungen mit verschiedenen Erwartungswertenµ j (aber sonst gleicher Verteilung) kann man schreiben alsY i = µ 1 x (1)i+ µ 2 x (2)i+ . . . + E imit unabhängigen, gleich verteilten E i . Setzt man µ j = β j , so steht das multiple<strong>Regression</strong>smodell da, allerdings ohne Achsenabschnitt β 0 .Eine binäre Variable, die eine Gruppenzugehörigkeit ausdrückt, wird als dummy variablebezeichnet. Eine nominale Ausgangs-Variable führt so zu einem ”Block“ vondummy Variablen.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!