Termin 3 (18.11.2011)

psychologie.uni.freiburg.de

Termin 3 (18.11.2011)

Grundlagen der Datenanalyse am Beispiel von SPSS

Dipl.‐Psych. Fabian Hölzenbein

hoelzenbein@psychologie.uni‐freiburg.de

Termin 3 (18.11.2011)

Inhalt

I. Kursplan ........................................................................................................................................ 1

II. Einfache Regression ...................................................................................................................... 1

III. Grafische Darstellung der Regression ........................................................................................... 4

IV. Aufgabe einfache Regression ........................................................................................................ 7

V. Multiple Regression ...................................................................................................................... 8

VI. Aufgabe multiple Regression ...................................................................................................... 11

VII. Explorative Datenanalyse ............................................................................................................ 12

I. Kursplan

28.10.2011 Dateneingabe/‐import, Deskriptive Statistik, Diagramme

04.11.2011 Inferenzstatistik, t‐Test, Manuskriptgestaltung, Korrelation

18.11.2011 Einfache/multiple Regression, explorative Datenanalyse

02.12.2011 ANOVA

16.12.2011 Teststärke, Wiederholung

Abgabe Forschungsbericht: 31.01.2012

II.

Einfache Regression

Bei der Regression handelt es sich im Prinzip um eine Erweiterung der Korrelation.

Zur Erinnerung: Die Korrelation berechnet, ob es einen Zusammenhang zwischen

zwei Variablen gibt, ob diese sich also gegenseitig beeinflussen. Besteht ein solcher

Zusammenhang, kann die Regression eine der Variablen verwenden, um die andere

vorherzusagen. In der Regel wird dabei die einfach zu messende Variable verwendet,

um die schwerer zu messende vorauszusagen bzw. eine aktuell messbare, um eine

zukünftige Variable vorherzusagen.


Grundlagen der Datenanalyse

Termin 3: Regression, explorative Datenanalyse

Im Beispiel vom letzen Termin haben wir einen signifikanten Zusammenhang

zwischen der Größe einer Testperson und der Größe ihres Vaters gefunden. Man

könnte nun ausgehend von der Größe des Vaters die Größe seiner zukünftigen Kinder

vorhersagen.

Bei der einfachen Regression sieht die Formel für eine Vorhersage folgendermaßen

aus:

Mit:

ŷ = b 0 + b 1 * X 1

ŷ = die vorherzusagende oder Kriteriumsvariable

X 1 = die vorhersagende oder Prädiktorvariable

b 0 = der Y‐Achsenabschnitt und

b 1 = die Steigung der Regressionsgeraden

Die einfache Regression in SPSS

2


Grundlagen der Datenanalyse

Termin 3: Regression, explorative Datenanalyse

=> Abhängige Variable (=

vorhergesagte = Kriterium)

=> Unabhängige Variable (=

vorhersagende = Prädiktor)

Aufgenommene/Entfernte Variablen b

Modell

Aufgenommene

Variablen

Entfernte

Variablen Methode

1 Größe des . Einschluß

Vaters

a. Alle gewünschten Variablen wurden eingegeben.

b. Abhängige Variable: Größe in cm

=> welche Variablen wurden

in das Modell aufgenommen

(wichtig für die multiple

Regression, s.u.)

Modellzusammenfassung

Modell R R-Quadrat

Korrigiertes R-

Quadrat

Standardfehler

des Schätzers

1 ,318 a ,101 ,101 8,117

a. Einflußvariablen : (Konstante), Größe des Vaters

=> R gibt den

Korrelationskoeffizient an

=> R 2 gibt den

Determinationskoeffizient an

Der Determinationskoeffizient gibt an, welcher Anteil an Varianz der abhängigen

Variablen von der unabhängigen aufgeklärt wird (hier: 10,1 %). Der Rest (hier: 1 –

0,101 = 89,9%) der Varianz der Größe des Kindes wird also durch andere Faktoren

bestimmt.

3


Grundlagen der Datenanalyse

Termin 3: Regression, explorative Datenanalyse

Modell

Koeffizienten a

Nicht standardisierte Koeffizienten

Standardisierte

Koeffizienten

Regressionskoe

ffizient B Standardfehler Beta

T

Sig.

1 (Konstante) 102,343 5,152 19,866 ,000

Größe des Vaters ,397 ,029 ,318 13,716 ,000

a. Abhängige Variable: Größe in cm

Die wichtigste Tabelle, hier kann man die einzelnen Komponenten der

Regressionsgleichung, sowie die Signifikanz ablesen (erst bei der multiplen Regression

relevant).

Damit ergibt sich:

Ŷ Kind = b 0 + b 1 * X Vater Ŷ Kind = 102,343 + 0,397* X Vater

Für einen 180 cm großen Vater würde man also vorhersagen:

Ŷ Kind = 102,343 + 0,397 * 180 Ŷ Kind = 173,803 cm

III.

Grafische Darstellung der Regression

Im Diagrammmenü (siehe Handout 1) gibt es einen speziell für Korrelationen und

Regressionen geeigneten Diagrammtyp, das Streu‐/Punktdiagramm.

4


Grundlagen der Datenanalyse

Termin 3: Regression, explorative Datenanalyse

Man kann bereits deutlich den positiven Trend erkennen, je größer der Vater, desto

größer das Kind. Zusätzlich kann die eben berechnete Regressionsgerade auch

eingeblendet werden:

5


Grundlagen der Datenanalyse

Termin 3: Regression, explorative Datenanalyse

Doppelklick auf das Diagramm, im Diagramm‐Editor ein Klick auf

Regressionsgerade ein:

blendet die

6


Grundlagen der Datenanalyse

Termin 3: Regression, explorative Datenanalyse

IV. Aufgabe einfache Regression

In dem Datensatz Eign2.sav, einer Studie zur Eignungsdiagnostik von Bürokräften,

sind folgende Variablen vorhanden:

vp

krit

masch

steno

edv

sozial

= Versuchspersonennummer

= Expertenschätzung der Arbeitszeugnisse

= Leistung beim Maschinenschreiben

= Leistung beim Stenographiertest

= Computerkenntnisse

= Umgangsformen

Aufgaben

1. Die Variable krit soll durch eine der anderen Variablen (außer VP‐Nummer)

vorhergesagt werden. Welche Variable wurdest Du dazu nehmen?

2. Wie lautet die Regressionsgleichung der Vorhersage der Zeugnisbeurteilung

durch Deine Wunschvariable?

3. Wie viel Varianz kann aufgeklärt werden?

4. Wie beurteilst Du die Gute dieser Vorhersage?

5. Fertige zum Schluss noch das Streudiagramm inklusive Regressionsgerade an!

7


Grundlagen der Datenanalyse

Termin 3: Regression, explorative Datenanalyse

V. Multiple Regression

Bei der einfachen Regression wird ein Kriterium mit Hilfe eines Prädiktors

vorhergesagt. Die multiple Regression sagt ein Kriterium mit Hilfe von mehreren

Prädiktoren vorher. Im Idealfall „ergänzen“ sich die Prädiktoren, um eine bessere

Vorhersage des Kriteriums zu ermöglichen. Im Beispiel von oben ist es z.B.

naheliegend, neben der Größe des Vaters auch die Größe der Mutter zur Vorhersage

der Größe des Kindes heranzuziehen. Die entsprechende Regressionsgleichung lautet

dann:

ŷ = b 0 + b 1 * X 1 + b 2 * X 2

Mit:

ŷ = die vorherzusagende oder Kriteriumsvariable

b 0 = der Y‐Achsenabschnitt

X 1 = die erste Prädiktorvariable

b 1 = der Koeffizient der ersten Prädiktorvariablen

X 2 = die zweite Prädiktorvariable

b 2 = der Koeffizient der zweiten Prädiktorvariablen

Die multiple Regression in SPSS

Die Durchführung erfolgt analog zur einfachen Regression. In das Feld „Unabhängige“

werden jetzt einfach mehrere Variablen eingefügt. Ein wichtiger Unterschied zu

einfachen Regression ist die Auswahl der Methode. Die Standardauswahl,

„Einschluss“, bedeutet, dass alle Prädiktoren ins Modell aufgenommen werden,

unabhängig davon, ob sie tatsächlich etwas zur Vorhersage beitragen. Alternativ kann

man nur die Variablen aufnehmen, die sich empirisch (nicht inhaltlich!) zur

Vorhersage eignen. Dazu bietet SPSS verschiedene Methoden, die sich aber nur

geringfügig unterscheiden:

„Vorwärts“ beginnt mit dem Prädiktor, der die beste Vorhersage aufweist und fügt so

lange weitere Prädiktoren hinzu, bis das Modell sich nicht mehr signifikant

verbessert. „Rückwärts“ beginnt mit allen Prädiktoren und eliminiert nach und nach

die schlechtesten, bis das Modell sich signifikant verschlechtert. „Schrittweise“

kombiniert beide Ansätze.

8


Grundlagen der Datenanalyse

Termin 3: Regression, explorative Datenanalyse

Diesmal gibt SPSS zwei Modelle aus: Im ersten wurde die Größe der Mutter

aufgenommen (der beste Prädiktor), im zweiten zusätzlich die Größe des Vaters.

Aufgenommene/Entfernte Variablen a

Aufgenommene

Entfernte

Modell

Variablen

Variablen

Methode

1 Größe der

Mutter

2 Größe des

Vaters

. Schrittweise Selektion (Kriterien: Wahrscheinlichkeit

von F-Wert für Aufnahme =

,100).

. Schrittweise Selektion (Kriterien: Wahrscheinlichkeit

von F-Wert für Aufnahme =

,100).

a. Abhängige Variable: Größe in cm

9


Grundlagen der Datenanalyse

Termin 3: Regression, explorative Datenanalyse

Modellzusammenfassung

Modell R R-Quadrat

Korrigiertes R-

Quadrat

Standardfehler

des Schätzers

1 ,362 a ,131 ,131 7,959

2 ,430 b ,185 ,184 7,710

a. Einflußvariablen : (Konstante), Größe der Mutter

b. Einflußvariablen : (Konstante), Größe der Mutter, Größe des Vaters

Wie man sehen kann, hat das zweite Modell das größere R und klärt mit 18,5% auch

mehr Varianz auf als das erste.

Koeffizienten a

Nicht standardisierte Koeffizienten

Standardisierte

Koeffizienten

Regressionskoe

Modell

ffizientB Standardfehler Beta

T

Sig.

1 (Konstante) 88,264 5,362 16,461 ,000

Größe der Mutter ,509 ,032 ,362 15,794 ,000

2 (Konstante) 49,836 6,363 7,832 ,000

Größe der Mutter ,421 ,032 ,299 13,017 ,000

Größe des Vaters ,299 ,029 ,241 10,457 ,000

a. Abhängige Variable: Größe in cm

Hier werden jetzt für beide Modelle einzeln die Koeffizienten ausgegeben. Für das

Modell mit beidem Prädiktoren lautet die Regressionsgleichung

Ŷ Kind = 49,836 + 0,421* X Mutter + 0,299 * X Vater

10


Grundlagen der Datenanalyse

Termin 3: Regression, explorative Datenanalyse

VI. Aufgabe multiple Regression

Noch einmal sollen die Ergebnisse der Eignungsdiagnostik von Bürokräften verwendet

werden (Eign2.sav). Variablen:

vp

krit

masch

steno

edv

sozial

= Versuchspersonennummer

= Expertenschätzung der Arbeitszeugnisse

= Leistung beim Maschinenschreiben

= Leistung beim Stenographiertest

= Computerkenntnisse

= Umgangsformen

Aufgaben

1. Rechne eine Regressionsanalyse, um krit mit allen anderen Variablen (außer

vp) vorherzusagen. Verwende dabei einmal die Methode Einschluss, einmal

Schrittweise

2. Wie groß ist jeweils die multiple Korrelation zwischen dem Kriterium und den

aufgenommenen Prädiktoren?

3. Wie viel Prozent der Varianz des Kriteriums wird durch alle (aufgenommenen)

Prädiktoren erklärt?

4. Wie lauten die Regressionsgleichungen?

5. Um wie viel Prozent unterscheit sich der Anteil der erklärten Varianz am

Kriterium zwischen den verschiedenen Modellen bei der Methode

Schrittweise?

11


Grundlagen der Datenanalyse

Termin 3: Regression, explorative Datenanalyse

VII. Explorative Datenanalyse

Nachdem alle Variablen definiert und die Messwerte eingegeben wurden, lohnt es

sich, diese Eingaben auf Plausibilität zu überprüfen. Anhand dieser explorativen

Datenanalyse sind wir in der Lage, Auffälligkeiten (z. B. Fehleingaben, Ausreißer)

bereits im Vorfeld der statistischen Analysen zu erkennen und gegebenenfalls zu

korrigieren. Unter anderem können mit der explorativen Datenanalyse Ausreißer/

Extremwerte gefunden werden, also Werte die deutlich über oder unter dem Mittel

liegen und möglicherweise durch Falscheingaben zustande gekommen sind.

Die explorative Datenanalyse in SPSS

12


Grundlagen der Datenanalyse

Termin 3: Regression, explorative Datenanalyse

Im vorliegenden Datensatz einer Autoversicherung

sind Geschlecht, Alter der Versicherten und Anzahl

der Unfälle in den letzten fünf Jahren aufgeführt.

Hier sollen beispielhaft das Geschlecht und das

Alter untersucht werden.

Unter Statistiken wählt man Ausreißer aus. Der

Rest der Einstellungen kann beim Standard

belassen werden.

Unter der Vielzahl der Tabellen und Grafiken, die nun ausgegeben werden, sind vor

allem die Ausreißertabelle und die Boxplots interessant:

Extremwerte

Fallnummer

Wert

Geschlecht der Versicherten Größte Werte 1 362 3

2 376 3

3 251 2

4 252 2

5 253 2 a

Kleinste Werte 1 250 1

2 249 1

3 248 1

4 247 1

5 246 1 b

Alter der Versicherten Größte Werte 1 68 388

2 205 68

3 227 64

4 454 64

5 457 64

Kleinste Werte 1 257 22

2 22 22

3 266 23

4 7 23

5 1 23

a. Nur eine partielle Liste von Fällen mit dem Wert 2 wird in der Tabelle der oberen

Extremwerte angezeigt.

b. Nur eine partielle Liste von Fällen mit dem Wert 1 wird in der Tabelle der unteren

Extremwerte angezeigt.

13


Grundlagen der Datenanalyse

Termin 3: Regression, explorative Datenanalyse

Hier geht hervor, dass zwei Personen (Fallnummer = Nummer der Zeile in SPSS) das

Geschlecht 3 haben – offensichtlich eine Fehleingabe. Außerdem hat eine Person ein

Alter von 388 Jahren, ebenfalls ein Fehler.

Die Boxplots (hier um die fehlerhaften Eingaben bereinigt) stellen die Verteilung der

Werte noch einmal grafisch dar, hier das Alter:

Die Box schließt die mittleren 50% der Werte ein, der Strich innerhalb der Box teilt

die Stichprobe in die oberen und unteren 50%. Die „Schnurrhaare“ geben den

Normalbereich der Werte an (1,5 * die Höhe der Box), alle Werte ober‐ und unterhalb

gelten als Ausreißer (hier Person Nr. 205 mit einem Alter von 68 Jahren). In vielen

Untersuchungen werden diese Ausreißer gesondert behandelt oder von der

Auswertung ausgeschlossen.

14

Weitere Magazine dieses Users
Ähnliche Magazine