Mosaic Plots (mit einer Zielvariable)

Mosaic Plots 

(mit einer Zielvariable) 

Seminar „Statistische Graphik“ 

Martina Güntner 

19.01.2005

Gliederung 

1. Einführendes Beispiel: Mosaic Plots 

2. Logistische Regression 

2.1. Modellgleichung 

2.2. Schätzung der Koeffizienten 

2.3. Interpretation der Koeffizienten 

3. Tests 

3.1. Likelihood Ratio Test 

3.2. Wald Test 

3.3. Score Test 

4. Beispiel: Titanic Datensatz 

5. Zusammenfassung 

6. Empfehlungen 

19.01.2005 Mosaic Plots (mit einer Zielvariable) 2

1. Einführendes Beispiel 

Titanic Datensatz 

2201 Passagiere 

Variablen: Survived (Yes, No) 

Sex 

Class 

Age 

(Male, Female) 

(First, Second, Third, Crew) 

(Adult, Child) 

keine fehlenden Werte 



Spineplots 

Durch Highlighting kann die bedingte Verteilung 

der Überlebenden dargestellt werden 



• Überlebensrate der Frauen 

in allen Klassen höher als 

die der Männer 

• alle Kinder aus der 1. und 

2. Klasse haben überlebt 

• in der 3. Klasse ist die 

Überlebensrate der 

Mädchen höher als die der 

Jungen 

• Anteil der Kinder steigt von 

der 1. zur 3. Klasse an 

• keine Kinder in der Crew 



Durch unterschiedliche Anordnung der einzelnen Variablen 

werden verschiedene Aspekte der Daten betont: 

Vergleich der Überlebensraten 

zwischen Männern und Frauen 

(aufgeteilt nach den Klassen) 

Vergleich der Überlebensraten 

innerhalb den Klassen 

(aufgeteilt nach dem Geschlecht) 



• bei den Frauen: sehr hohe 

Überlebensraten in der 1. und 

2. Klasse; deutlich geringere 

in der 3. Klasse 

• höchste Überlebensrate bei 

den Männern in der 1. Klasse 

• überraschenderweise 

Überlebensrate in der 3. Klasse 

höher als in der 2. Klasse 

• Welche Stellung hatte die Crew? 


2. Logistische Regression 

Logistische Regression 

Welchen Einfluss haben eine oder mehrere erklärende Variablen 

auf eine binäre Zielvariable? 

Variablen 

Zielvariable Y: binär (dichotom) 

erklärende Variablen X: stetig oder kategoriell 

Logistische Regression = indirektes Modell 

Es wird nicht der Einfluss auf die Zielvariable, sondern auf die 

Wahrscheinlichkeit, dass diese den Wert 1 annimmt, geschätzt. 



Bei einer Interpretation als Wahrscheinlichkeit sind nur 

Prognosewerte zwischen 0 und 1 sinnvoll 

→ linearer Ansatz (analog zur linearen Regression) nicht 

möglich! 

Statt das lineare Modell auf die ursprüngliche Variable mit 

begrenztem Wertebereich anzuwenden, ließe es sich problemlos 

auf eine transformierte Zielvariable mit unendlichem 

Wertebereich anwenden. 

Diese Transformation erfolgt in 2 Schritten: 



1. Betrachtung der Odds 

Als Odds bezeichnet man den Quotienten aus zwei 

Wahrscheinlichkeiten – nämlich der Wahrscheinlichkeit, dass 

das Ereignis eintritt (Y=1) und der Wahrscheinlichkeit, dass das 

Ereignis nicht eintritt (Y=0). 

Odds 

= 

P(Y = 1 | X) 

1− 

P(Y = 1| 

X) 

= 

π 

1− 

π 

Der Wertebereich der Odds liegt nun zwischen 0 und + ∞ , 

d.h. er ist immer noch nach unten begrenzt. 



2. Betrachtung der Log Odds (Logit) 

Durch Logarithmieren wird die nun auch die untere Begrenzung 

aufgehoben, d.h. der Wertebereich wird auf ( −∞, 

+∞) 

ausgeweitet. 

logit(π) 

= 

⎛ π 

ln⎜ 

⎝1− 

π 

⎞ 

⎟ 

⎠ 

Im Gegensatz zur linearen Regression wird also nicht die 

Ausprägung der Zielvariable als Linearkombination der 

erklärenden Variablen betracht, sondern der logit: 

logit 

⎛ π ⎞ 

π ) = ln⎜ 

⎟ = 

π 

Xβ 

= β + β X + ... + 

⎝1− 

⎠ 

β 

0 1 

( 

1 

p X p 



Auflösen nach der Eintrittswahrscheinlichkeit π ergibt: 

1 

π = 1 

Xβ 

+ e − 

(Logit-Modell) 

wobei 

F( 

x) 

1 

= 1 + e 

−x 

die logistische Verteilungsfunktion ist. 

Man verbindet also π über eine sogenannte Linkfunktion F mit 

Xβ 

dem linearen Prediktor : 

π = 

F ( Xβ ) 



Überblick 

Wahrscheinlichkeit Odds Logit 

1 π Xβ 

π = = e 

1 

Xβ 

+ e − 

1−π 

⎛ π ⎞ 

ln⎜ 

⎟ 

⎝1−π 

⎠ 

= 

Xβ 



Die Parameter β werden mit der Maximum - Likelihood Methode 

geschätzt. 

Idee der ML-Schätzung: 

Bestimme die Parameter so, dass das Auftreten der gegebenen 

Stichprobe am Wahrscheinlichsten ist. 

Yi 

ist binomialverteilt: 

Y 

i 

~ 

B( 1 ,π 

i 

) 

mit 

π 

i 

1 

= 1 + e 

− X 

i 

β 

Likelihoodfunktion: 

L 

= 

n 

∏ 

i= 

1 

π 

Yi 

i 

( 1−π 

) 

i 

(1−Y 

) 

i 



Da das Maximum der Likelihoodfunktion schwierig zu bestimmen 

ist (Produkt!), führt man eine Logarithmustransformation durch: 

ln 

L 

= 

n 

∑ 

∑ 

Y i 

⋅lnπ 

+ (1 −Y 

i 

i= 1 i= 

1 

n 

i 

) ⋅ln(1 

−π 

) 

i 

Um das Maximum zu finden muss diese Funktion für jede 

Komponente j des β - Vektors abgeleitet werden 

(die Ableitung nennt man Score-Funktion): 

∂ ln L 

∂β 

0 

= − 

n 

∑ 

i= 

1 

(1 − 

Y i 

) + 

n 

∑ 

i= 

1 

(1 −π 

) = 0 

i 

! 

∂ ln L 

= X 

ij 

( Yi 

−π 

i 

) = 

! 

0 , 

∂β 

j 

j 

= 1,..., 

p 



Es muss also ein kompliziertes nichtlineares Gleichungssystem 

gelöst werden. 

meistens nicht exakt lösbar 

→ iterative Verfahren (z.B.: Newton Raphson Algorithmus) 



Interpretation oft schwierig: 

Die Nicht-Linearität der logistischen Funktion bewirkt, dass sich 

eine Zu- bzw. Abnahme von X in unterschiedlichen Regionen 

verschieden auswirkt. 

„Sättigungseffekt“ 

Kaum Veränderung 

der vorhergesagten 

Wahrscheinlichkeit in 

den „Extrembereichen“ 

des X-Wertes 



Logit (additives Modell) 

Eine Erhöhung von X i 

um eine Einheit bewirkt eine Erhöhung 

des logit um den konstante Wert 

(analog zur linearen Regression) 

Problem: Was bedeutet aber eine Veränderung des logits? 

β i 

Richtung des Effekts: 

β > 

i 

βi 

< 

β = 

i 

0 

0 

0 

positiver Effekt 

negativer Effekt 

kein Effekt 



Odds (multiplikatives Modell) 

Der Exponent des Koeffizienten i gibt den Faktor an, um den 

sich die Odds bei einem Anstieg der erklärenden Variablen X i um 

eine Einheit verändern. 

e β 

e β 

Den Faktor i nennt man Effektkoeffizient. 

Richtung des Effekts: 

e 

β 

i 

> 1 

positiver 

Effekt 

e 

β 

i 

< 1 

negativer 

Effekt 

e 

β 

i 

= 1 

kein Effekt 



Beispiel (Titanic Datensatz) 

Call: 

glm(formula = Survived ~ Sex, family = binomial) 

Coefficients: 

Estimate Std. Error z value Pr(>|z|) 

(Intercept) 1.0044 0.1041 9.645

2.3. Interpretation der Koeffzienten 

Beispiel (Fortsetzung) 

odds ( Yes | 

Female) 

= e 

1.0044 

= 

2.73 

≈ 

3:1 

Odds = Wahrscheinlichkeitsverhältnis 

Wahrscheinlichkeit zu Überleben im Verhältnis zur Wahrscheinlichkeit 

nicht zu Überleben 

Für eine Frau waren die Wahrscheinlichkeit zu überleben in etwa 

dreimal so hoch wie nicht zu überleben. 




Bei binären erklärenden Variablen gibt der Effektkoeffizient an, 

um welchen Faktor sich die Odds ändern, wenn man von der 

Gruppe, die mit 0 kodiert (Female) wurde, zu der Gruppe 

wechselt, die mit 1 (Male) kodiert wurde. 

odds ( Yes | 

Male) 

= 

odds 

( Yes | 

Female) 

⋅e 

−2.3172 

= 

2.73⋅0.09855 

= 

0.27 

Für einen Mann standen die Chancen bei 0,27 : 1. 

Oder anders ausgedrückt: Für einen Mann war es also fast 

viermal so wahrscheinlich zu sterben wie zu überleben. 

1 

odds ( No | Male) 

= = 3.72 

0.27 




Um nun die Überlebenschancen von Frauen und Männern 

vergleichen zu können, bildet man das Odds Ratio. 

Das Odds Ratio ist also ein Maß für die Stärke des Unterschieds 

zwischen zwei Gruppen, hier Frauen und Männern. 

OddsRatio = 

odds( 

Yes | Female) 

odds( 

Yes | Male) 

= 

2,73 

0,27 

= 10,1 

d.h. die Odds einer Frau zu überleben waren ungefähr 10-mal so 

groß, wie die der Männer. 



allgemein: Odds Ratio 

Vergleich der i-ten Beobachtung (mit den erklärenden Variablen 

X 

i 

= ( X 

i 

, X 

i2,..., 

X 

1 ip 

) ) mit der j-ten Beobachtung (mit den 

erklärenden Variablen X = X , X ,..., X ) ): 

j 

( 

j1 j2 

jp 

β0 

+ ∑βk 

X ik 

p 

k 1 

Odds X 

∑ 

i 

) e 

k= 

1 

OddsRatio = = 

p 

= e 

Odds( 

X 

j 

) β0 

+ ∑βk 

X jk 

k= 

1 

e 

p 

( 

β 

= k ( X ik − 

X 

jk 

) 


3. Tests 

allgemeine lineare Hypothese: 

H Cβ 

= ξ gegen H : Cβ 

≠ ξ 

0 

: 

1 

wobei C eine r × p Matrix mit rang ( C) 

= r und ξ ein Vektor ist 

r: Anzahl der Restriktionen unter H o 

p: Anzahl der geschätzten Parameter 

• simultane Tests 

• Tests über Linearkombinationen von Parameter 


3. Tests 

konkrete Beispiele: 

• Test, ob die Variable X i 

einen signifikanten Einfluss auf hat: 

H0 : β 0 gegen H1 

: β ≠ 

i 

= 

i 

• Test auf Gleichheit zweier Koeffizienten: 

0 

äquivalent zur allgemeinen Form mit C = ( 0...1...0) und ξ = 0 

i-te Stelle 

π 

H 

β = β 

: β ≠ 

0 

: 

i j 

gegen H1 

⇔ H 

0 

: β 

i 

− β 

j 

= 0 gegen H1 

: βi 

− β 

j 

≠ 0 

C = 

( 0 L 0 1 0 L 0 −1 

0 L 0) 

i 

β 

j 

ξ = 0 

i-te Stelle 

j-te Stelle 


3. Tests 

• Test, ob r ≤ p der Koeffizienten signifikant von Null 

verschieden sind (Annahme: die r ersten Koeffizienten): 

C 

= 

⎛1 

⎜ 

⎜0 

⎜ M 

⎜ 

⎝0 

0 

1 

0 

L 

L 

O 

L 

L 

K 

1 

L 

L 

L 

L 

L 

L 

0⎞ 

⎟ 

0⎟ 

M ⎟ 

⎟ 

0 

⎠ 

ξ = 

⎛0⎞ 

⎜ ⎟ 

⎜0⎟ 

⎜ M ⎟ 

⎜ ⎟ 

⎝0⎠ 

Achtung: 

H 

∃ βi 

: βi 

≠ 0, i = 1,..,r 

nicht H : ∀βi 

: βi 

≠ 0, i 1,.., 

r 

1 

: 

1 

= 

d.h. zur Ablehnung der Nullhypothese ist es nicht erforderlich, 

dass alle Koeffizienten ungleich Null sind! 



Idee des Test: 

Vergleich des Wertes der Loglikelihoodfunktion an der Stelle des 

unrestringierten Schätzers βˆ mit dem Wert an der Stelle des 

ˆβ 0 

restringierten Schätzers . 

Anpassung zweier Modelle erforderlich: 

• M1: Modell ohne Restriktionen → Schätzung von βˆ 

• M0: Modell mit Restriktionen → Schätzung von 

ˆβ 0 

ˆβ 0 

Man erhält also durch Maximierung der Loglikelihoodfunktion 

Cβ = ξ 

unter den linearen Nebenbedingungen . 



Teststatistik 

LR 

= − 

⎛ 

⎜ 

⎝ 

L 

⎞ 

⎟ 

⎠ 

2 

( ln L − ln L ) = −2( 

l − l ~ a χ 

0 

2ln⎜ 

= −2 

0 1 

0 1) 

r 

L ⎟ 

1 

(r = Anzahl der Restriktionen unter H 0 ) 

wobei: ln L 0 

: Loglikelihood des Modells unter der Nullhypothese 

ln L 1 : Loglikelihood des Modells ohne Restriktionen 

Testentscheidung 

α 

Lehne H 0 zum Signifikantniveau ab, wenn: 

LR > χ r 

2 

; 1 − α 



Idee des Test: 

Schätzung der Modells ohne Restriktionen 

Prüfung, inwieweit die quadrierten und varianzgewichteten 

Abweichungen von der Restriktion so erheblich sind, dass 

verworfen werden muss. 

H 0 



Teststatistik 

• Matrixschreibweise: 

H : Cβ = ξ 

0 

W 

= 

ˆ β 

ξ 

ˆ) β 

ˆ β 

−1 

2 

( C − )'( C Cov( 

C') 

( C − ) ~ a 

r 

ξ 

χ 

• Spezialfall: 

W = 

ˆ β 

ˆ σ 

2 

i 

2 

i 

a 

~ 

χ 

2 

1 

H 

0 

: β i 

= 

0 


Lehne H 0 

zum Signifikantniveau ab, wenn: 

α 

W > r 

2 

χ 

; 1 − α 



Idee des Tests 

Schätzung des Modells mit Restriktionen 

Wenn H 0 

zutrifft, dann sollte die Steigung der Loglikelihood- 

Funktion an der Stelle nicht signifikant von Null verschieden 

sein. 

ˆβ 0 



Teststatistik 

U 

= 

s 

ˆ 

ˆ 

2 

( β 

0 

)' Cov( 

β 

0) 

s( 

β0) 

~ χr 

ˆ 

wobei 

s( 

ˆ β ) 

0 

= 

∂ ln L 

∂β 

β = ˆ β 

0 

(Scorevektor) 


2 

Lehne H 0 

zum Signifikantniveau ab, wenn: U > r 

α 

χ 

; 1 − α 


Tests - Vergleich 

Beziehungen zwischen den drei Teststatistiken 

Alle drei Testmethoden können zur Prüfung der gleichen 

Hypothesen verwendet werden. 

Die Wald – und Score – Statistik sind eine quadratische 

Approximation der LR – Statistik. 

Alle drei Tests asymptotisch äquivalent, d.h. sie führen für große 

Stichprobenumfänge zum gleichen Ergebnis. 


Tests - Vergleich 

Welchen Test wann verwenden? 

• LR-Test: ist zuverlässiger als der Wald- und Score-Test. 

Nachteil: Anpassung zweier Modelle notwendig 

• Wald-Test: nur Anpassung des Modells ohne Restriktionen 

→ Rückwärtsselektion: Variable mit der kleinsten Wald- 

Statistik aus dem Modell nehmen 

• Score-Test: nur Anpassung des Modells mit Restriktionen 

→ Vorwärtsselektion: Variable mit der größten Score-Statistik 

ins Modell aufnehmen 



Mögliche Fragestellungen: 

• Waren die Überlebensraten 

der Männer in der 2. und 3. 

Klasse gleich groß? 

• War die Überlebensrate 

der männlichen Crew 

genauso hoch wie die der 

Männer in der 3. Klasse? 

• Hatten die Frauen in der 

Crew genauso hohe 

Überlebensraten wie in der 

1. und 2. Klasse? 

















zunächst: welches Modell verwenden? 

(Modell mit oder ohne Interaktion zwischen Class und Sex) 

Modell 

m1: Survived ~ Sex + Class 

m2: Survived ~ Sex * Class 

Devianz 

2228.9 

2163.7 

df 

2196 

2193 

Likelihood Ratio Test 

LR = 2228.9 

− 2163.7 = 65.2 > 7.8147 = χ 

2 

3;0.95 

d.h. das Modell m2 ist signifikant besser als m1 



Call: 

glm(formula = Survived ~ Sex * Class, family = binomial) 

Coefficients: 


(Intercept) 1.89712 0.61914 3.064 0.00218 ** 

SexMale -3.14690 0.62453 -5.039 4.68e-07 *** 

ClassFirst 1.66535 0.80026 2.081 0.03743 * 

ClassSecond 0.07053 0.68630 0.103 0.91815 

ClassThird -2.06075 0.63551 -3.243 0.00118 ** 

SexMale:ClassFirst -1.05911 0.81959 -1.292 0.19627 

SexMale:ClassSecond -0.63882 0.72402 -0.882 0.37760 

SexMale:ClassThird 1.74286 0.65139 2.676 0.00746 ** 

--- 

Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 

(Dispersion parameter for binomial family taken to be 1) 

Null deviance: 2769.5 on 2200 degrees of freedom 

Residual deviance: 2163.7 on 2193 degrees of freedom 

AIC: 2179.7 

Number of Fisher Scoring iterations: 6 


Koeffizienten des Modells m2 


(Intercept) 1.89712 SexMale:ClassFirst -1.05911 

SexMale -3.14690 SexMale:ClassSecond -0.63882 

ClassFirst 1.66535 SexMale:ClassThird 1.74286 

ClassSecond 0.07053 

ClassThird -2.06075 

Überlebenswahrscheinlichkeit eines Mannes der 2. Klasse: 

1 

P ( Y = 1| Male, 

Second) 

= 

− 1.89712−3.14690+ 

0.07053 0.63882 

1+ 

e 

− ) 

( 

= 

0.13967 


1 

P ( Y = 1| Male, 

Third ) = 

− 1.89712−3.14690−2.06075 

1.74286 

1+ 

e 

+ ) 

( 

= 

0.17255 


Koeffizienten des Modells m2 


(Intercept) 1.89712 SexMale:ClassFirst -1.05911 

SexMale -3.14690 SexMale:ClassSecond -0.63882 

ClassFirst 1.66535 SexMale:ClassThird 1.74286 

ClassSecond 0.07053 

ClassThird -2.06075 


1 

P ( Y = 1| Male, 

Second) 

= 

− 1.89712−3.14690+ 

0.07053 0.63882 

1+ 

e 

− ) 

( 

= 

0.13967 


1 

P ( Y = 1| Male, 

Third ) = 

− 1.89712−3.14690−2.06075 

1.74286 

1+ 

e 

+ ) 

( 

= 

0.17255 



Modellgleichung 

logit 

= 

β + β ⋅ Male + β ⋅ First + β ⋅ Second + β ⋅Third 

+ 

0 

+ β ⋅ MaleFirst + β ⋅ MaleSecond + β ⋅ MaleThird 

5 

1 

2 

6 

3 

7 

4 

Aufstellen der Hypothesen 

H 0 : Die Überlebenswahrscheinlichkeiten der Männer in der 

zweiten und dritten Klasse sind gleich 

⇔ 

H 

: β β β β 

β + β ≠ β + β 

0 3 

+ 

6 

= 

4 

+ 

7 

gegen H1 

: 

3 

6 

4 

7 

⇔ 

H 

0 

: β3 

− β4 

+ β6 

− β7 

= 0 gegen H1 

: β3 

− β4 

+ β6 

− β7 

≠ 

0 



Wald Test 

• Definition der Matrix C und der rechten Seite 

allgemeine Nullhypothese: 

in diesem Beispiel: 

H : 

0 

Cβ = ξ 

H : β − β 

0 3 4 

+ β 6 

− β 7 

= 0 

also: 

C 

( 0 0 0 1 -1 0 1 -1) = 0 

= ξ 

in R: 

C


• Funktion waldtest: 

waldtest


> waldtest(C,r,m2) 

$Teststatstik 

[1] 1.041136 

$Quantil 

[1] 3.841459 

$pWert 

[1] 0.3075574 

Die Nullhypothese wird nicht verworfen. Es besteht also kein 

signifikanter Unterschied in der Überlebensraten der Männer in der 2. 

und 3. Klasse! 




Es müssen zwei verschiedene Modelle angepasst werden: 

• m2: Es werden keine Restriktionen an die Parameter gestellt 

• m3: Modell unter der Nullhypothese, d.h. es wird 

angenommen, dass gilt: β + β = β + 

m2 

logit = β 

0 

3 6 4 

β7 

+ β ⋅ Male + β ⋅ First + β ⋅ Second + β ⋅Third 

+ 


5 

1 

2 

6 

3 

7 

4 

m3 ( 

β 

3 

= β4 

+ β7 

− β6 

+ β ⋅( 

MaleSecond 

6 

0 

1 

2 

in m2 einsetzen) 

logit = β + β ⋅ Male + β ⋅ First + β ⋅( 

Third 

− Second) 

+ β ⋅( 

MaleThird 

7 

4 

+ Second) 

+ β ⋅ MaleFirst 

+ Second) 

5 

+ 



Schätzung der Modells m3: 

dazu: Definition neuer Variablen (in Excel): 

First: 

1, falls Class = First 

0, sonst 

Second: 

1, falls Class = Second 

0, sonst 

Third: 

1, falls Class = Third 

0, sonst 



MaleFirst: 

1, falls Class = First und Sex = Male 

0, sonst 

MaleSecond: 1, falls Class = Second und Sex = Male 

0, sonst 

MaleThird: 

1, falls Class = Third und Sex = Male 

0, sonst 

in R: 

> X1 X2 X3

4. Beispiel: Titanic 

Call: 

glm(formula = Survived ~ Sex + First + X1 + MaleFirst + X2 + X3, 

family = binomial) 

Coefficients: 


(Intercept) 1.8971 0.6191 3.064 0.00218 ** 

SexMale -3.1469 0.6245 -5.039 4.68e-07 *** 

First 1.6653 0.8003 2.081 0.03743 * 

X1 -2.0607 0.6355 -3.243 0.00118 ** 

MaleFirst -1.0591 0.8196 -1.292 0.19627 

X2 -0.4495 0.6988 -0.643 0.52008 

X3 1.6818 0.6490 2.592 0.00956 ** 

--- 

Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 




AIC: 2178.8 




in R: 

lrtest


andere Möglichkeit: Chi - Quadrat - Test 

Class 

Male 

Female 

No Yes No Yes 

Crew 670 192 3 20 

First 118 62 4 141 

Second 154 25 13 93 

Third 422 88 106 90 

Pearson's Chi-squared test 

data: t 

X-squared = 1.045, df = 1, p-value = 0.3067 

















Ausgangspunkt ist wieder das Modell: Survived ~ Sex * Class 

logit 

= β + β ⋅ Male + β ⋅ First + β ⋅ Second + β ⋅Third 

+ 

0 


5 

1 

2 

6 

3 

7 

4 

Crew ist Referenzgruppe! 

H 0 : Die Überlebenswahrscheinlichkeiten der Männer in der Crew 

und in der dritten Klasse sind gleich 

⇔ 

⇔ 

H 

0 

: β4 

+ β7 

= 0 gegen H1 

: β4 

+ β7 

≠ 0 

H 

0 

: Cβ 

= 0 gegen H1 

mit C = 

: Cβ 

≠ 

( 0 0 0 0 1 0 0 1) und ξ = 0 

0 



Wald Test 

> C r waldtest(C,r,m2) 

$Teststatstik 

[1] 4.945226 

$Quantil 

[1] 3.841459 

$pWert 

[1] 0.02616282 

Die Nullhypothese wird zum 

Signifikanzniveau von 5% 

verworfen. 

Es besteht also ein signifikanter 

Unterschied zwischen den 

Überlebensraten der Männer in 

der 3. Klasse und in der Crew. 




m2 

logit = β 

0 

+ β ⋅ Male + β ⋅ First + β ⋅ Second + β ⋅Third 

+ 


5 

1 

2 

6 

3 

7 

4 

m4 ( 

β 

= 

− 

4 

β 7 

in m2 einsetzen): 

logit 

= β + β ⋅ Male + β ⋅ First + β ⋅ Second + β ⋅ MaleFirst 

0 

6 

1 

2 

+ β ⋅ MaleSecond + β ⋅( 

MaleThird 

7 

3 

5 

−Third) 

+ 

X


glm(formula = Survived ~ Sex + First + Second + MaleFirst + 

MaleSecond + X, family = binomial) 

Coefficients: 


(Intercept) 1.89712 0.61914 3.064 0.00218 ** 

SexMale -3.25810 0.62275 -5.232 1.68e-07 *** 

First 1.66535 0.80026 2.081 0.03743 * 

Second 0.07053 0.68630 0.103 0.91815 

MaleFirst -0.94792 0.81824 -1.158 0.24667 

MaleSecond -0.52763 0.72249 -0.730 0.46521 

X 2.06075 0.63551 3.243 0.00118 ** 

--- 

Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 




AIC: 2182.8 




> lrtest(m2,m4) 

$Teststatistik 

> waldtest(C,r,m2) 


[1] 5.059706 [1] 4.945226 

$Quantil 

$Quantil 

[1] 3.841459 [1] 3.841459 

$pWert 

$pWert 

[1] 0.02448839 [1] 0.02616282 

LR – Test und Wald – Test liefern beide ähnliche Ergebnisse: 

Beide lehnen die Nullhypothese ab, d.h. es besteht ein 

signifikanter Unterschied zwischen den Überlebensraten der 

Männer in der Crew und in der 3. Klasse. 

















Ausgangspunkt ist wieder das Modell: Survived ~ Sex * Class 

logit 

= β + β ⋅ Male + β ⋅ First + β ⋅ Second + β ⋅Third 

+ 

0 


5 

1 

2 

6 

3 

7 

4 

H 0 : Die Überlebenswahrscheinlichkeiten der Frauen in der Crew 

in der zweiten und in der dritten Klasse sind gleich 

Die Nullhypothese enthält nun zwei Restriktionen, nämlich: 

H β = β = 0 gegen : β ≠ 0 und/oder β 

0 

H 

: 2 3 

1 2 

3 ≠ 

0 

⎛ β2 

⎞ 

⎛ β2 

⎞ 

H 

0 

: 

⎜ 

⎟ = 0 gegen H1 

: 

⎜ 

⎟ ≠ 

⎝ β3 

⎠ 

⎝ β3 

⎠ 

0 



also: 

C 

= 

⎛0 

⎜ 

⎝0 

0 

0 

1 

0 

0 

1 

0 

0 

0 

0 

0 

0 

0⎞ 

⎟ 

0⎠ 

ξ = 

⎛0⎞ 

⎜ ⎟ 

⎝0⎠ 

Wald Test 

> C r waldtest(C,r,m1) 

$Teststatstik 

[1] 7.882447 

$Quantil 

[1] 5.991465 

$pWert 

[1] 0.01942443 




m5 

logit 

= β + β ⋅ Male + β ⋅Third 

0 

+ β ⋅ MaleThird 

7 

1 

4 

+ β ⋅ MaleFirst 

5 

+ β ⋅ MaleSecond 

6 

+ 

> lrtest(m2,m5) 


[1] 9.878294 

$Quantil 

[1] 5.991465 

$pWert 

[1] 0.007160703 

Sowohl der Waldtest als auch der LR-Test 

lehnt die Nullhypothese ab, 

d.h. es besteht ein signifikanter Unterschied 

zwischen den Überlebensraten der Frauen in 

der 1., 2. Klasse und der Crew. 

Der LR-Test lehnt die Nullhypothese noch 

etwas deutlicher ab als der Waldtest. 



Die Ablehnung der Nullhypothese beruht hierbei auf dem 

signifikanten Unterschied zwischen der 1. Klasse und den 

beiden anderen Klassen! 

Ein alleiniger Test der 2. 

Klasse gegen die Crew 

ergibt nämlich, dass die 

Überlebensraten dieser 

beiden Klassen als gleich 

angenommen werden 

können. 

(p-Wert: 0.9181 Wald Test 

0.9186 LR-Test) 



Mosaic Plots 

• Mosaic Plot = multidimensionaler Spineplot 

=ˆ 

• Highlighting Hinzufügen einer zusätzlichen binären Variable 

(aber ohne Lücke zwischen den beiden Kategorien) 

• Durch eine Veränderung der Reihenfolge der Variablen 

können verschiedene Aspekte der Daten verdeutlicht werden 

• Interaktive Abfrage 

• Leere Zellen werden gekennzeichnet (Mondrian: rote Linie, 

Manet: 0) → gut unterscheidbar von Zellen mit sehr wenigen 

Werten 

• Leere Zellen werden nicht mehr weiter unterteilt 



Tests 

• Zum Test linearer Hypothesen eignen sich sowohl der 

Likelihood-Ratio-Test als auch der Wald- und Score-Test 

• Alle 3 Tests sind asymptotisch - verteilt. 

• Die Wald- und Score-Statistik stellt eine quadratische 

Approximation der LR-Statistik dar. 

• Die 3 Tests sind asymptotisch äquivalent. 

• Führen die Tests zu unterschiedlichen Ergebnissen, so sollte 

man den LR-Test bevorzugen. 

2 

χ 



• Beim LR-Test muss sowohl das unrestringierte als auch das 

restringierte Modell angepasst werden. 

• Der Wald-Test kommt mit der Anpassung des unrestringierten 

Modells aus. 

• Der Score-Test verwendet nur das restringierte Modell. 



Probleme bei der Schätzung eines logistischen Modells 

glm(formula = Survived ~ Class * Age + Class * Sex, family = binomial) 

Coefficients: (1 not defined because of singularities) 


... 

AgeChild 0.33791 0.26920 1.255 0.209391 

SexMale -3.14690 0.62453 -5.039 4.68e-07 *** 

ClassFirst:AgeChild 16.51217 858.44954 0.019 0.984654 

ClassSecond:AgeChild 17.28628 367.06861 0.047 0.962439 

ClassThird:AgeChild NA NA NA NA 

ClassFirst:SexMale -1.13608 0.82048 -1.385 0.166162 

... 

• Leere Zellen 

• Eintrittswahrscheinlichkeit nahe 0 oder 1 



Schätzung des Modells 

• Warnung, wenn Eintrittswahrscheinlichkeiten nahe 0 oder 1 

vorkommen 

Mosaicplots 

• (ein- und ausblendbare) Beschriftung des Mosaicplots 

• schnellere und einfachere Veränderung der Reihenfolge der 

Variablen 

• Speicherung der Plots in gängigen Grafikformaten 



Tests 

• Likelihood Ratio Test ist ausreichend, da der Wald Test und 

der Score Test nur eine Approximation darstellen 

• Auswahl der Zellen im Mosaic Plot → geeignetes Aufstellen 

der Nullhypothese, Anpassung des Modells unter der 

Nullhypothese und Berechnung des Likelihood Ratio Tests 

durch die Software

Mosaic Plots (mit einer Zielvariable)

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?