Kommentierter SPSS-Ausdruck zur logistischen Regression

R.Niketta Logistische Regression 

Daten: POK V – AG 3 (POKV_AG3_V07.SAV) 

Kommentierter SPSS-Ausdruck zur logistischen Regression 

Fragestellung: Welchen Einfluss hat die Fachnähe und das Geschlecht auf die interpersonale Attraktion einer Stimulusperson, bei der nur das 

Studienfach variiert wurde? 

AV: ipa_dicho 1 (interpersonale Attraktion -dichotomisiert über einen Mediansplit; 1 = niedrig, 2 = hoch) 

UV: fachinter (Fachinteresse, ein hoher Wert bedeutet hohes Interesse an dem Studienfach der Stimulusperson), geschl (Geschlecht; 1 = weiblich 

2 = männlich) 

1 SPSS Version 12 akzeptiert auch Variablenbezeichnungen mit mehr als acht Zeichen, wie ipa_dicho. In den Ausgaben wurde aber die Variable wieder auf acht 

Zeichen reduziert, damit die Variablenbenennungen mit anderen Programmen kompatibel sind. 

Beispiel_logistische_Regression.doc


Über „Regression“ wird die Prozedur „Binär logistisch“ aufgerufen Die Variablen werden in die jeweiligen Fenster übertragen. Die Prädiktoren 

(unabhängige Variablen) heißen hier „Kovariaten“. 

Es ist eine kategoriale Variable, das Geschlecht vorhanden. 

Es wird die Indikator-Kodierung gewählt (Voreinstellung). 

Dies entspricht der „Dummy-Codierung“ bei der 

Regressionsanalyse. 

Es kann auch gewählt werden, ob die erste oder die letzte 

Kategorie als Referenzkategorie gewählt wird, d.h. mit 

welcher Stufe verglichen wird. 

Unter den „Optionen“ sind die Klassifikationsdiagramme 

und die Hosmer-Lemeshow-Anpassungsstatistik von 

Interesse. Auch sollten Sie, wenn Sie keine schrittweise 

logistische Regression rechnen, nur die die Ergebnisse 

beim letzten Schritt anzeigen lassen. 

Für eine etwaige logistische Funktionskurve können die 

Wahrscheinlichkeiten der vorhergesagten Werte gespeichert 

werden. 



Zusammenfassung der Fallverarbeitung 

Ungewichtete Fälle(a) N Prozent 

Ausgewählte Fälle Einbezogen in Analyse 149 89.8 

Fehlende Fälle 17 10.2 

Gesamt 166 100.0 

Nicht ausgewählte Fälle 0 .0 

Gesamt 166 100.0 

a Wenn die Gewichtung wirksam ist, finden Sie die Gesamtzahl der Fälle in der Klassifizierungstabelle. 

Codierung abhängiger Variablen 

Ursprünglicher Wert Interner Wert 

1 niedrig 0 

2 hoch 1 

Geschl Geschlecht 

der 

Stimulusperson 

_ 

Codierungen kategorialer Variablen 

Parametercodierung 

Häufigkeit (1) 

1 weiblich 77 1.000 

2 männlich 72 .000 

Durch fehlende Werte reduziert sich der Datensatz 

auf 149 Personen. 

Protokoll der Kodierung der AV. Wenn die abhängige 

Variable nicht 0-1 codiert ist, wählt SPSS automatisch 

die erste Stufe als Referenzkategorie. Es 

können auch andere Originalcodes als 0 und 1 gewählt 

werden (Rekodierung in eine neue Variable). 

Protokollierung der kategorialen Variablen Geschlecht. 

Die Stufe „männlich“ ist die Referenzkategorie. 



Schritt 1 

Omnibus-Tests der Modellkoeffizienten 

Chi-Quadrat df Sig. 

Schritt 9.053 2 .011 

Block 9.053 2 .011 

Modell 9.053 2 .011 

Modellzusammenfassung 

-2 Log- Cox & Snell Nagelkerkes 

Schritt Likelihood R-Quadrat R-Quadrat 

1 196.961(a) .059 .079 

a Schätzung beendet bei Iteration Nummer 3, weil die Parameterschätzer sich um weniger als .001 änderten. 

Hosmer-Lemeshow-Test 

Schritt Chi-Quadrat df Sig. 

1 9.934 7 .192 

Der Modell-Chi-Quadrat-Wert ist die Differenz 

zwischen dem Null-Modell und dem Prädiktoren-Modell. 

Es wird die H0 überprüft, dass die 

Prädiktoren gleich null sind. Die H0 muss abgelehnt 

werden (p < .05). Die Prädiktoren 

liefern einen signifikanten Zuwachs bei der 

Modellanpassung. Das untersuchte Modell ist 

also besser als das „Null-Modell“ nur mit der 

Konstanten. 

„Block“ und „Schritt“ sind bei schrittweisen 

Regressionsanalysen von Bedeutung. 

Die Ableitungen für die ML-Schätzwerte sind 

nicht linear, daher ist eine iterative Schätzung 

notwendig, die abbricht, wenn der Zuwachs 

ein voreingestelltes Kriterium unterschreitet. 

Dies ist der Wert für das Modell, das die Prädiktoren 

einschließt. 

Die R 2 -Werte setzen das „Nullmodell“ mit dem 

gewählten Modell in Beziehung, sie können in 

etwa als PRE-Koeffizienten aufgefasst werden 

und geben die proportionale Fehlerreduktion 

an. Sie sind selten hoch. Nagelkerke 

R 2 sollte interpretiert werden (korr. R 2 ). Die 

Fehlerreduktion („erklärte Varianz“) beträgt 

also 7.9 %. 

Der Hosmer-Lemeshow-Test teilt die Stichprobe 

in max. 10 Gruppen und überprüft die 

Differenzen zwischen beobachteten und erwarteten 

Werten. Je geringer die Differenz, 

umso besser die Modellanpassung. Gesucht 

wird daher eine Bestätigung der H0 (also kein 

signifikantes Ergebnis). Dies ist hier der Fall. 



Schritt 

1 

Schritt 1 

Kontingenztabelle für Hosmer-Lemeshow-Test 

ipa_dich Interpersonale 

Attraktion ((Mediansplit) = 

1 niedrig 


Attraktion ((Mediansplit) = 

2 hoch 

Beobachtet Erwartet Beobachtet Erwartet Gesamt 

1 12 13.849 8 6.151 20 

2 14 11.606 4 6.394 18 

3 18 15.245 7 9.755 25 

4 11 11.150 9 8.850 20 

5 3 5.724 8 5.276 11 

6 5 6.532 9 7.468 14 

7 4 3.436 4 4.564 8 

8 4 6.044 12 9.956 16 

9 8 5.414 9 11.586 17 

a Der Trennwert lautet .500 

Interpersonale 

Attraktion ((Mediansplit) 

Klassifizierungstabelle(a) 

niedrig 

Vorhergesagt 

Interpersonale Attraktion 

((Mediansplit) 

niedrig hoch 

Prozentsatz 

der Richtigen 

58 21 73.4 

hoch 36 34 48.6 

Gesamtprozentsatz 61.7 

Diese Tabelle zeigt die neun Stufen des 

Hosmer-Lemeshow-Tests mit den beobachteten 

und erwarteten Häufigkeiten in der Tradition 

des klassischen chi²-Tests. 

Tabelle der korrekten Zuordnungen (Vorhersagen) 

Die Gruppen sind nicht gleich verteilt (79 vs. 

70), die maximale Zufallswahrscheinlichkeit 

beträgt 79/149 = 53 %. Das Ergebnis ist nicht 

sonderlich gut (62 %), vor allem in der Bedingung 

hohe Attraktion werden mehr Personen 

falsch als richtig vorhergesagt. 



RegressionskoeffizientB 

Variablen in der Gleichung 

Standardfehler 

Wald df Sig. Exp(B) 

Schritt 

1(a) 

Geschl(1) 

fachinter 

.215 

.365 

.340 

.131 

.401 

7.780 

1 

1 

.527 

.005 

1.240 

1.441 

Konstante 

-.812 .311 6.810 1 .009 .444 

a In Schritt 1 eingegebene Variablen: Geschl, fachinter. 

Dies ist neben der Überprüfung des Gesamtmodells (Modell-Chi² und Nagelkerke R²) die 

wichtigste Tabelle, da hier überprüft wird, welche Prädiktoren für das statistisch signifikante 

Modell verantwortlich sind. 

Die logistische Regressionsgleichung sieht also wie folgt aus: 

logit = -0.812 + 0.215 · Geschlecht + 0.365 · fachinter 

Die b-Koeffizienten können aber nur schlecht interpretiert werden, da es sich hier um logits 

handelt. Ein Wert von null würde „kein Einfluss“ bedeuten. Innerhalb der Regressionsgleichung 

kann ausgerechnet werden, was eine Veränderung um eine Einheit für die Wahrscheinlichkeit, 

die Stimulusperson als attraktiv zu bewerten, bedeuten würde. Über den Antilogarithmus 

kann die Zuordnungswahrscheinlichkeit einer Person berechnet werden 

(e logit /(1+e logit )) 

Die statistische Absicherung geht über den Wald-Test, der dem t-Test äquivalent ist. Über 

den Standardfehler prüft der Wald-Test, ob die einzelnen Prädiktoren einen signifikanten 

Einfluss haben. Über den Wald-Test können auch die Prädiktoren des Modells untereinander 

verglichen werden. Im vorliegenden Falle kann der Einfluss des Geschlechts nicht gegen 

den Zufall abgesichert werden (p > .05). Der Einfluss des Fachinteresses kann hingegen 

statistisch signifikant abgesichert werden. 

Die Exp(B) geben die entlogarithmierten logit- 

Koeffizienten als Odd ratios wieder. Eine 1 

bedeutet keine Veränderung, somit kein Einfluss 

des Prädiktors. So verbessert sich das 

Wahrscheinlichkeitsverhältnis zwischen Niedrig- 

und Hochbewerten um das 1.4fache, 

wenn eine Veränderung um eine Skaleneinheit 

eintritt (hier 5er-Skala).Also: Die Wahrscheinlichkeit, 

die Stimulusperson als hoch 

attraktiv einzuschätzen, steigt mit jeder Skaleneinheit 

des Fachinteresses um das 

1.4fache. Die Chancen steigen demnach um 

100 * (1.1441 – 1) = 44 %. Die Änderungen 

hängen von den Skalenbreiten ab. 

Dass das Geschlecht keine Rolle spielt, lässt 

sich auch an der einfachen Kreuztabelle ablesen: 

ipa_dich Interpersonale Attraktion ((Mediansplit) * Geschl Geschlecht der 

Stimulusperson Kreuztabelle 

Anzahl 


Attraktion ((Mediansplit) 

Gesamt 

1 niedrig 

2 hoch 

Geschl Geschlecht der 

Stimulusperson 

1 weiblich 2 männlich Gesamt 

44 43 87 

40 34 74 

84 77 161 



Das Histogramm der vorhergesagten Wahrscheinlichkeiten 

zeigt links die Gruppe der 

niedrig Attraktiven und rechts die der hoch 

Attraktiven. Eine falsche Zuordnung ist dann 

zu erkennen, wenn ein “hoch” Attraktiver (h) 

im Feld der niedrig Attraktiven auftaucht. 



p_attrak 

0,80 

0,60 

0,40 

0,20 

-1,00000 0,00000 1,00000 2,00000 

Z-Wert(logits) 

Über den Antilogarithmus kann die Zuordnungswahrscheinlichkeit 

einer Person berechnet 

werden (e logit /(1+e logit )). Es werden 

über die Regressionsgleichung die logits berechnet 

und z-transformiert. Diese z-logits 

werden dann in die obige Formel eingesetzt 

und die Zuordnungswahrscheinlichkeiten berechnet. 

Die Syntaxdatei: 

** Berechnung der Zuordnungswahrscheinlichkeiten. 

COMPUTE logits = -0.812 + 0.215 * 

Geschl + 0.365 * fachinter. 

execute. 

DESCRIPTIVES 

VARIABLES=logits /SAVE 

/STATISTICS=MEAN STDDEV MIN MAX . 

Diese Variable muss nur berechnet werden, 

wenn Sie die Wahrscheinlichkeiten der vorhergesagten 

Werte nicht speichern ließen. 

COMPUTE p_attrak = 

EXP(zlogits)/(1+EXP(zlogits)) . 

EXECUTE . 

Das Streudiagramm zeigt die zu erwartende 

logistische Funktionskurve. Das Ergebnis ist 

nicht eindeutig, da eher nur geringe Abweichungen 

von der Linearität zu verzeichnen 

sind.

Kommentierter SPSS-Ausdruck zur logistischen Regression

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?