03.06.2014 Aufrufe

12. Lineare Regression

12. Lineare Regression

12. Lineare Regression

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

TERMIN 12<br />

<strong>Lineare</strong> <strong>Regression</strong>


Wie lauten die<br />

Voraussetzungen der PMK?<br />

- min. intervallskalierte<br />

- Normalverteilte Daten<br />

- Homoskedastizität<br />

- <strong>Lineare</strong>r Zusammenhang


Welche Korrelation sollte<br />

berechnet werden?<br />

<br />

<br />

Reaktionszeit und<br />

Position ?<br />

<br />

Spearmans<br />

Rangkorrelation<br />

PMK oder<br />

Spearman/Kendall<br />

<br />

Schulnote und IQ?<br />

<br />

<br />

Geschlecht und<br />

Ängstlichkeit<br />

(hoch – niedrig)?<br />

Punkttetrachorische<br />

Korrelation


<strong>Lineare</strong> <strong>Regression</strong>


Methode der linearen <strong>Regression</strong><br />

o<br />

Ziel ist die Vorhersage einer Variablen (Kriterium) durch<br />

eine andere Variable (Prädiktor)<br />

o<br />

Voraussetzung :<br />

o<br />

Zwischen beiden (intervallskalierten und normalverteilten)<br />

Variablen besteht ein linearer Zusammenhang – d.h. die<br />

Variablen (nach Pearson) korrelieren.<br />

Anwendungsbeispiele:<br />

o<br />

Werte von x wurden bereits erhoben, Werte von y sind nicht<br />

bekannt<br />

o<br />

x kann zum jetzigen Zeitpunkt erfasst werden, y erst viel<br />

später<br />

o<br />

x ist leicht (einfach, preiswert, schnell) zu erfassen, y nur<br />

durch teure, aufwändige Untersuchung zu erheben


Voraussetzungen der linearen<br />

<strong>Regression</strong><br />

Folgende Voraussetzungen für die Berechnung einer<br />

linearen <strong>Regression</strong>sanalyse gegeben sein:<br />

(1) Die Variablen x und y müssen intervallskaliert sein<br />

(2) Die Variablen x und y müssen normalverteilt sein.<br />

(3) Die Homoskedastizität der Variablen muss gegeben<br />

sein.<br />

(4) Die <strong>Regression</strong>sresiduen müssen unabhängig und<br />

normalverteilt sein.


Abhängigkeit der Residuen


<strong>Lineare</strong> <strong>Regression</strong><br />

Prinzip: Es wird eine<br />

Gerade ermittelt, die<br />

den Zusammenhang<br />

zwischen x und y<br />

beschreibt.<br />

50<br />

40<br />

30<br />

20<br />

Mit einer solchen<br />

Gerade kann zu jedem<br />

Wert von x ein Wert von<br />

y vorausgesagt werden.<br />

RISIKO<br />

10<br />

0<br />

60<br />

80<br />

100<br />

120<br />

140<br />

160<br />

180<br />

Zum Beispiel:<br />

OPT<br />

x=119 ; y=31<br />

x=83 ; y=18


Methode der kleinsten Quadrate<br />

Für einen Datensatz (eine Punktewolke) wird die<br />

Position der <strong>Regression</strong>sgerade so gewählt, dass der<br />

quadrierte Vorhersagefehler über alle Probanden<br />

minimal ist:<br />

∑<br />

N<br />

2<br />

i = 1 i i<br />

=<br />

( y − yˆ<br />

) min<br />

Aus der Gleichung zur Methode der<br />

kleinsten Quadrate wird die<br />

allgemeine Gleichung der linearen<br />

<strong>Regression</strong> hergeleitet :<br />

s<br />

yˆ<br />

= r ⋅<br />

y<br />

⋅ − +<br />

i xy i<br />

s<br />

x<br />

( x x ) y


Die Gleichung der linearen <strong>Regression</strong><br />

<strong>Regression</strong>sgerade:<br />

ˆ +<br />

y<br />

i<br />

= by.<br />

x<br />

⋅ xi<br />

ay.<br />

x<br />

Wenn Streuungen, Mittelwerte sowie die Korrelation von zwei<br />

Variablen bekannt sind, kann daraus das <strong>Regression</strong>sgewicht (b)<br />

und die additive Konstante (a) bestimmt werden:<br />

b<br />

yˆ<br />

yx<br />

i<br />

=<br />

=<br />

r<br />

r<br />

xy<br />

xy<br />

⋅<br />

⋅<br />

s<br />

s<br />

s<br />

s<br />

y<br />

x<br />

y<br />

x<br />

⋅<br />

x<br />

i<br />

+<br />

und<br />

( y<br />

−<br />

r<br />

xy<br />

a<br />

⋅<br />

yx<br />

s<br />

s<br />

y<br />

x<br />

=<br />

⋅<br />

y<br />

x)<br />

−<br />

=<br />

b<br />

yx<br />

r<br />

xy<br />

⋅<br />

⋅<br />

x<br />

s<br />

s<br />

y<br />

x<br />

⋅ ( x<br />

i<br />

−<br />

x)<br />

+<br />

y


Standardschätzfehler: Herleitung<br />

Der Standardschätzfehler ist die<br />

Standardabweichung der Vorhersage durch<br />

eine <strong>Regression</strong>.<br />

→ Je geringer der Fehler, desto genauer die<br />

Vorhersage.<br />

Die Herleitung erfolgt durch<br />

Varianzzerlegung der <strong>Regression</strong>sformel:


Standardschätzfehler: Formel<br />

Die Standardabweichung der Residuen wird als<br />

Standardschätzfehler bezeichnet. Er gibt die Streuung der y-Werte<br />

um die <strong>Regression</strong>sgerade an:<br />

s<br />

y.<br />

x<br />

n<br />

∑<br />

( y<br />

yˆ<br />

)²<br />

i i<br />

i = 1<br />

y. x<br />

=<br />

= sy<br />

⋅ 1<br />

Der so berechnete Standardschätzfehler ist kein erwartungstreuer<br />

Schätzer. Indem man anstelle von n durch (n - 2) teilt (bzw. den<br />

empirischen Standardschätzfehler mit √(n/n-2) multipliziert),<br />

erhält man einen erwartungstreuen Schätzer des<br />

Standardschätzfehlers:<br />

σˆ<br />

=<br />

n<br />

∑<br />

i = 1<br />

( y<br />

i<br />

n −<br />

−<br />

n<br />

2<br />

−<br />

yˆ<br />

i<br />

)²<br />

=<br />

n<br />

n − 2<br />

⋅<br />

−<br />

s<br />

r<br />

y.<br />

x<br />

2<br />

xy


Konfidenzintervalle<br />

Der Standardschätzfehler ist ein Maß dafür, wie stark<br />

die wahren Kriteriumswerte (y-Werte) von den<br />

vorhergesagten Werten abweichen.<br />

Bei einer normalverteilten Variablen liegen 95% aller<br />

Werte in einem Bereich von Mittelwert ± 1.96 SD (→ z-<br />

Tabelle).<br />

Somit kann mittels des Standardschätzfehlers ein<br />

Konfidenzintervall berechnet werden, in dem mit<br />

festgelegter WS der wahre Kriteriumswert liegt:<br />

KI = yˆ<br />

± 1.96 ⋅ σˆ<br />

i<br />

y.<br />

x


<strong>Regression</strong> zur Mitte<br />

Die Wahrscheinlichkeitsrechnung sagt<br />

vorher, dass ein extremer Wert zu Zeitpunkt<br />

A sich zu Zeitpunkt B überzufällig häufig zu<br />

einem weniger extremen Wert verändern<br />

wird.<br />

Für Prognosen wird oft die aktuelle<br />

Ausprägung eines Merkmals verwendet, um<br />

die künftige Ausprägung selbigen Merkmals<br />

per Autoregression vorherzusagen.<br />

Wir bekommen Änderungen in den<br />

Messwerten, die ein rein statistisches<br />

Artefakt sind. Diese inhaltlich zu<br />

interpretieren ist ein schwerer methodischer<br />

Kunstfehler!


Kreuzvalidierung<br />

İst ein Verfahren zur Validierung einer<br />

<strong>Regression</strong>sgeraden.<br />

Dabei werden die Werte einer Untersuchung<br />

oder Stichprobe zur Vorhersage für eine<br />

andere, konvergente genutzt.


Kreuzvalidierung<br />

(1) Berechnung der ersten<br />

<strong>Regression</strong>sgeraden<br />

(2) Vorhersage der Werte der 2.Stichprobe<br />

(3) Überprüfung der ermittelten Werte<br />

(4) Wiederholung der ersten drei Schritte für<br />

die 2.Stichprobe


Kreuzvalidierung<br />

<br />

Welcher <strong>Regression</strong>swert ist gültig(bei<br />

unterschiedlich hohen Ergebnissen)?<br />

<br />

Was bedeutet die Differenz der<br />

vorhergesagten Werte(bei signifikanten<br />

Unterschieden)?


Restriction of range<br />

<br />

Bei Begrenzung der Streuung eines<br />

Merkmals (im Rahmen einer Untersuchung)<br />

sinkt meist die Korrelation mit einem<br />

anderen Merkmal.<br />

<br />

İm Zuge dessen erfolgt eine<br />

Unterschätzung der Populationskorrelation:<br />

DENN:


Restriction of range<br />

Verletzung der Normalverteilung?<br />

Oder Berechnung eines linearen(je größer, desto<br />

größer/kleiner) Zusammenhangs erschwert?


Arbeitsblatt:<br />

lineare <strong>Regression</strong>


Vielen Dank...<br />

... für die Aufmerksamkeit!<br />

Fragen an:<br />

S.Tomczyk@gmx.net

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!