Lineare Regression (Kap. 1-5) (pdf) - Seminar fÃ¼r Statistik - ETH ZÃ¼rich

Weitere Magazine

Empfehlungen

Info

10 2 EINFACHE LINEARE REGRESSIONbDer statistische Test soll die NullhypotheseH 0 :β = β 0 = −2prüfen. Die vollständige Nullhypothese lautet: Die Beobachtungen folgen dem Modell dereinfachen linearen Regression mit β = −2 und beliebigem α und σ .Als Alternative H A zieht man in Betracht, dass β ≠ −2 sei, während die anderenAnnahmen (Fehlerverteilung, Unabhängigkeit) der Nullhypothese weiterhin gelten. DieAlternative β ≠ −2 umfasst also die Modelle mit allen Parameterwerten ausser dem Wertβ 0 , der durch die Nullhypothese festgelegt ist; es sind die Parameterwerte auf beidenSeiten des Wertes β 0 durch die Alternative abgedeckt. Diese heisst daher zweiseitigeAlternative.In gewissen Anwendungen ist man bloss an Alternativen auf einer Seite interessiert –beispielsweise, wenn Abweichungen auf die eine Seite sowieso nicht auftreten können. Dannzieht man nur die entsprechende einseitige Alternative – hier β > −2 (oder β < −2)– in Betracht. Als Nullhypothese prüft man dann nicht nur den Grenzfall, sondern auchdie andere Seite – hier β ≤ −2 (oder β ≥ −2).Als Teststatistik eignet sich (wie üblich) eine standardisierte Form der Differenz zwischenSchätzung und postuliertem Wert des Parameters,T = ̂β √− β 0se (β) , se (β) = ̂σ 2 /SSQ (X) .Die Grösse se (β) entspricht σ (β) von 2.2.h; da der Parameter σ in jener Formel nichtals bekannt angenommen werden kann, wird er durch seine Schätzung ̂σ ersetzt. se (β)(manchmal auch σ (β) ) wird Standardfehler genannt.Die Teststatistik T hat, falls das Modell der Nullhypothese gilt, eine so genannte t-Verteilung mit n − 2 Freiheitsgraden. Dies ist der ”t-Test“ für den Koeffizienten β .cP-Wert. Der P-Wert ist ein standardisiertes Mass dafür, ”wie typisch“ ein Wert der Teststatistikist oder wie gut die Daten mit dem Modell der Nullhypothese übereinstimmen.Man braucht dazu die kumulative Verteilungsfunktion F (T ) der Teststatistik, die der Nullhypotheseentspricht. Abbildung 2.3.c veranschaulicht die Rechnung für den Fall eineszweiseitigen Tests. (Der Anschaulichkeit halber wurde ̂β als Teststatistik verwendet. Daswäre sinnvoll, wenn man σ kennen würde.)Der P-Wert ist, anschaulich gesprochen, die Fläche unter der Dichtekurve für den Bereichvon Werten der Teststatistik, die extremer“ sind als der beobachtete Wert. Er misst also”die Wahrscheinlichkeit, extremere Werte der Teststatistik als den beobachteten zu erhalten,falls die Nullhypothese stimmt. (Im Falle von diskreten Teststatistiken muss extremer“ ”durch mindestens so extrem“ ersetzt werden.) Wenn er klein genug ist, dann sagt man,”” die Daten weichen signifikant von der Nullhypothese ab“, oder, falls β 0 = 0 getestet wird,der Einfluss der Ausgangsgrösse auf die Zielgrösse ist statistisch gesichert“ oder Ähnliches.”Klein genug“ heisst nach üblicher Konvention kleiner als 0.05.”Die gewählte Grenze von 0.05=5% wird Niveau des Tests genannt. Sie ist gleich der Wahrscheinlichkeiteines Fehlers erster Art“, der darin besteht, die Nullhypothese zu verwerfen,”falls sie gilt. Falls Sie diesen Begriff noch nicht kennen, ist wohl eine Erklärung nützlich:
2.3. TESTS UND VERTRAUENSINTERVALLE 110.9750 0.2 0.4 0.6 0.8P−v./20.025P−value/2P−value/20.025 0.025−2.4 −2.2 −2.0 −1.8 −1.6 β^Verwerfungsbereich c 1 Annahme− β 0 t −bereich c 2 VerwerfungsbereichAbbildung 2.3.c: Veranschaulichung des P-Wertes und des Verwerfungsbereiches für einenzweiseitigen Test. Die obere Kurve stellt die kumulative Verteilungsfunktion, die unteredie Dichte der Verteilung der Teststatistik dar.Wahrscheinlichkeiten gibt es nur unter der Annahme eines bestimmten Modells für dieBeobachtungen. Wir setzen dafür die Annahmen der Nullhypothese ein und berechnendann die Wahrscheinlichkeit, dass die Test-Entscheidung ”signifikante Abweichung vonder Nullhypothese“ lautet, was unter der gemachten Annahme eine Fehlentscheidung ist.Das ist der Fall, wenn der P-Wert unter 5% liegt. Die Grösse ”P-Wert“ ist gerade sokonstruiert, dass für die Entscheidungsregel ”signifikant falls P-Wert ≤ 0.05“ die obigeWahrscheinlichkeit 5% beträgt. Gleiches gilt natürlich auch für andere Niveaus; der P-Wert erlaubt es, für beliebige Niveaus die Entscheidung über signifikante Abweichung vonder Nullhypothese sofort abzulesen. (Genaueres zum Thema siehe Stahel, 2000, Kap. 8.7).deStatt einer Schranke für den P-Wert kann man eine entsprechenden Schranke c für dieTeststatistik angeben. Das erspart die Umrechnung der Teststatistik in den P-Wert undwar deshalb früher üblich. Die Schranke erhält man aus Tabellen. Für die t-Verteilung wiefür die F-Verteilung, die wir später noch antreffen werden, sind solche Tabellen verbreitetund entsprechende Funktionen sind in Computer-Umgebungen verfügbar. Der P-Wert, dervon Statistik-Programmen ebenfalls angegeben wird, kann aber, wie gesagt, ohne Tabellenbeurteilt werden und ist deshalb handlicher.⊲ Einen Computer-Output für das Beispiel der Sprengungen zeigt Tabelle 2.3.e. Fürden Test der Nullhypothese β = 0 (und für α = 0) sind der Wert der Teststatistik T =T (β) (und die analog gebildete Teststatistik T (α) ) und der zugehörige P-Wert angegeben.Die Teststatistiken sind unter der Nullhypothese t-verteilt; wir prüfen also die Steigung
Seite 1 und 2: Statistische RegressionsmodelleTeil
Seite 3 und 4: 1.1. BEISPIELE ZUR LINEAREN REGRESS
Seite 5 und 6: 2.1. DAS MODELL 3cdIm Beispiel sche
Seite 7 und 8: 2.1. DAS MODELL 5iAls zweite Verans
Seite 9 und 10: 2.2. SCHÄTZUNG DER PARAMETER 7sie
Seite 11: 2.3. TESTS UND VERTRAUENSINTERVALLE
Seite 15 und 16: 2.4. VERTRAUENS- UND VORHERSAGE-BER
Seite 17 und 18: 2.S. S-FUNKTIONEN 15Abweichung der
Seite 19 und 20: 3 Multiple lineare Regression3.1 Mo
Seite 21 und 22: 3.1. MODELL UND STATISTIK 19gDie Gr
Seite 23 und 24: 3.2. VIELFALT DER FRAGESTELLUNGEN 2
Seite 31 und 32: 3.3. MULTIPLE REGRESSION IST MEHR A
Seite 33 und 34: 3.S. S-FUNKTIONEN 313.S S-Funktione
Seite 35 und 36: 3.S. S-FUNKTIONEN 33geschätzten Ko
Seite 37 und 38: 4 Residuen-Analyse4.1 Problemstellu
Seite 39 und 40: 4.2. RESIDUEN UND ANGEPASSTE WERTE
Seite 41 und 42: 4.2. RESIDUEN UND ANGEPASSTE WERTE
Seite 43 und 44: 4.3. VERTEILUNG DER FEHLER 41R iWur
Seite 45 und 46: 4.4. ZIELGRÖSSE TRANSFORMIEREN? 43
Seite 47 und 48: 4.4. ZIELGRÖSSE TRANSFORMIEREN? 45
Seite 49 und 50: 4.5. AUSREISSER UND LANGSCHWÄNZIGE
Seite 51 und 52: 4.6. RESIDUEN UND AUSGANGS-VARIABLE
Seite 53 und 54: 4.7. UNABHÄNGIGKEIT 51log(Ladung)0
Seite 55 und 56: 4.8. EINFLUSSREICHE BEOBACHTUNGEN 5
Seite 57 und 58: 4.8. EINFLUSSREICHE BEOBACHTUNGEN 5
Seite 59 und 60: 5.2. WICHTIGKEIT EINES EINZELNEN TE
Seite 61 und 62: 5.3. AUTOMATISIERTE VERFAHREN ZUR M
Seite 63 und 64:
5.3. AUTOMATISIERTE VERFAHREN ZUR M
Seite 65 und 66:
5.3. AUTOMATISIERTE VERFAHREN ZUR M
Seite 67 und 68:
5.S. S-FUNKTIONEN 65Analog zu drop1
Seite 69:
8 13 MODELL-ENTWICKLUNGFox, J. and
Alle anzeigen

Lineare Regression (Kap. 1-5) (pdf) - Seminar fÃ¼r Statistik - ETH ZÃ¼rich

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?