05.12.2012 Aufrufe

Vorlesung:Multivariate Analyseverfahren

Vorlesung:Multivariate Analyseverfahren

Vorlesung:Multivariate Analyseverfahren

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

<strong>Vorlesung</strong>:<strong>Multivariate</strong> <strong>Analyseverfahren</strong><br />

Josef Brüderl, Oktober 2004<br />

<strong>Multivariate</strong> Verfahren sind statistische Verfahren zur Analyse<br />

der Beziehungsstruktur mehrerer Variablen. Man kann<br />

multivariate Verfahren in drei große Gruppen unterteilen<br />

• Verfahren, die mehrdimensionale Datenstrukturen auf wenige<br />

Dimensionen reduzieren (Faktorenanalyse)<br />

• Verfahren, die Beobachtungen anhand mehrerer Variablen<br />

klassifizieren (Clusteranalyse)<br />

• Verfahren, die den Einfluß von unabhängigen Variablen auf<br />

die abhängigen Variablen erfassen (Regressionsanalyse)<br />

In dieser <strong>Vorlesung</strong> können aus Zeitgründen nur Verfahren der<br />

Regressionsanalyse behandelt werden (ergänzend wird in die<br />

Faktorenanalyse eingeführt). Der Grund für die Betonung der<br />

Regressionsverfahren ist, daß die große Mehrzahl der sozialwissenschaftlichen<br />

Forschungsarbeiten an der Identifikation<br />

,,kausaler“ Effekte anhand nicht-experimenteller Daten interessiert<br />

ist, wozu Regressionsverfahren besonders geeignet sind.<br />

Regressionsmodelle mit einer abhängigen und mehreren<br />

unabhängigen Variablen bezeichnet man als multiple Modelle.<br />

Von multivariater Regression spricht man, wenn mehrere<br />

abhängige Variablen gemeinsam betrachtet werden. Nach dieser<br />

Unterscheidung sind die meisten Modelle dieser <strong>Vorlesung</strong><br />

multipler Natur, nur an einigen Stellen werden wir multivariate<br />

Modelle behandeln.<br />

Zum Begriff ,,Regression“: Sir Francis Galton untersuchte<br />

1889 den Zusammenhang der Körpergröße von Vätern und<br />

Söhnen. Dabei ,,erfand“ er die Regression. Er schätzte<br />

Gs � 85. 7 � 0. 56Gv.<br />

Da dies bedeutet, daß die Größe des Sohns zum Mittel ,,zurückschreitet“<br />

nannte er dieses Verfahren Regression. Der Name des<br />

Verfahrens rührt somit von der ersten Anwendung her!


<strong>Multivariate</strong> Verfahren, Brüderl 2<br />

1) Was ist eine Regression?<br />

Wir betrachten zwei Variablen (Y, X). Unsere Daten sind die<br />

realisierten Werte dieser Variablen<br />

�y1,x1�, … , �yn,xn�<br />

bzw.<br />

�yi,xi�, für i � 1, … ,n.<br />

In einer Regression betrachtet man im Prinzip die bedingte<br />

Verteilung von Y in Abhängigkeit von den Werten von X<br />

(Regression von Y auf X). Y wird als abhängige Variable<br />

bezeichnet und X als unabhängige. In der Regressionsanalyse<br />

beschäftigt man sich also mit den bedingten Verteilungen<br />

f�Y � y|X� x�.<br />

Wir ordnen damit jedem Merkmalswert von X eine Funktion zu,<br />

und zwar die bedingte Verteilung von Y. Dies ist die allgemeine<br />

Idee einer Regression.<br />

Dies ist praktisch nur schwer darstellbar. Die primäre Funktion<br />

statistischer Verfahren, nämlich die in den Daten enthaltene<br />

Information auf wenige Kennzahlen zu reduzieren, ist hier nicht<br />

erfüllt. Deshalb charakterisiert man die bedingten Verteilungen<br />

durch idealerweise nur eine Kennzahl:<br />

• Y metrisch: bedingtes arithmetisches Mittel<br />

• Y metrisch, ordinal: bedingtes Quantil<br />

• Y nominal: bedingte Häufigkeiten (Kreuztabelle!)<br />

Es hängt vom Meßniveau von Y ab, welche Kennzahl man verwenden<br />

kann. Aber selbst für nominales Y läßt sich die bedingte<br />

Verteilung durch Kennzahlen beschreiben. Damit ist eine<br />

Regression für jedes Y-Meßniveau durchführbar.


<strong>Multivariate</strong> Verfahren, Brüderl 3<br />

Regression mit diskretem X<br />

In diesem Fall errechnet man für jeden vorkommenden X-Wert<br />

die Kennzahl der bedingten Verteilung.<br />

Beispiel: ALLBUS 1994<br />

Y ist das monatliche Nettoeinkommen und X die Bildung. Da Y<br />

metrisch ist, können wir für jedes Bildungsniveau E�Y|x�, das<br />

bedingte arithmetische Mittel, berechnen. Ein Vergleich dieser<br />

Mittelwerte liefert uns Information über den ,,Effekt“ der Bildung<br />

auf das Einkommen. Im Prinzip handelt es sich hierbei um eine<br />

Varianzanalyse.<br />

Bei der folgenden Graphik handelt es sich um ein Streudiagramm<br />

der Daten. Da Bildung nur 4 Werte annimmt, würden<br />

sich die Einkommenswerte stark überdecken. Deshalb wurden<br />

die Werte ,,gejittered“. Die bedingten Mittelwerte wurden mit<br />

einer Linie verbunden, um die Art des Zusammenhangs visuell<br />

besser erkennen zu können.<br />

Einkommen in DM<br />

10000<br />

8000<br />

6000<br />

4000<br />

2000<br />

Nur Vollzeit, unter 10.000 DM (N=1459)<br />

0<br />

Haupt Real Abitur Uni<br />

Bildung


<strong>Multivariate</strong> Verfahren, Brüderl 4<br />

Regression mit stetigem X<br />

In diesem Fall ist die direkte Errechnung der Kennzahl nicht<br />

praktikabel, weil für die meisten X-Werte nur wenige Y-Werte<br />

vorliegen werden. Es kommen zwei Verfahren in Betracht.<br />

Nicht-Parametrische Regression<br />

Für jeden (im Prinzip) möglichen X-Wert werden die Y-Werte in<br />

einer Umgebung von x benutzt, um die Kennzahl zu berechnen<br />

(local averaging). Bildlich gesprochen läßt man eine Fenster<br />

konstanter Breite über den Wertebereich von X gleiten. Über alle<br />

Datenpunkte in dem Fenster errechnet man dann z.B. das<br />

Y-Mittel. Diese Werte verbindet man dann mit einer Linie. Je<br />

größer man die Umgebung wählt, desto glatter wird die<br />

Regressionsfunktion.<br />

Beispiele: Lokale Mean (Median) Regression, Lowess Smoother<br />

Parametrische Regressionsmodelle<br />

Man nimmt an, daß die Kennzahlen einer Funktion folgen: g�x;��.<br />

Man unterstellt also ein parametrisches Regressions- modell.<br />

Gegeben die Daten und das gewählte Modell, schätzt man die<br />

Parameter � so, daß die Regressionsfunktion am besten auf die<br />

Daten paßt. Man muß sich also zusätzlich noch für ein<br />

Schätzkriterium entscheiden.<br />

Beispiel: OLS-Regression<br />

Man nimmt ein lineares Modell für den bedingten Mittelwert an.<br />

E�Y|x� � g�x;�, �� ����x.<br />

Als Schätzkriterium verwendet man üblicherweise OLS<br />

n<br />

min ∑<br />

�,�<br />

i�1<br />

�yi − g�xi;�, ��� 2 .<br />

Es sei betont, daß die OLS-Regression nur eines der möglichen<br />

Regressionsmodelle darstellt. Es gibt viele weitere Modelle<br />

(quadratisch, logarithmisch, ...) und auch alternative Schätzkriterien<br />

(LAD, ML, ...). OLS ist so beliebt, weil die Schätzer<br />

leicht zu errechnen und anschaulich zu interpretieren sind.


<strong>Multivariate</strong> Verfahren, Brüderl 5<br />

Ein Vergleich von lokaler und modellhafter Regression<br />

Die Daten stammen aus dem ALLBUS 1994. Y ist das monatliche<br />

Nettoeinkommen und X das Alter. Wir berechnen:<br />

1) eine lokale Mean Regression (rot)<br />

2) eine (naive) lokale Median Regression (grün)<br />

3) eine OLS-Regression (blau)<br />

DM<br />

10000<br />

8000<br />

6000<br />

4000<br />

2000<br />

0<br />

Nur Vollzeit, unter 10.000 DM (N=1461)<br />

15 25 35 45 55 65<br />

Alter<br />

Alle drei Regressionskurven sagen uns, daß das mittlere<br />

(bedingte) Einkommen mit dem Alter ansteigt. Die beiden lokalen<br />

Regressionen deuten zusätzlich eine gewisse Nicht- Linearität<br />

an. Sie können die Daten besser anpassen, weil sie kein<br />

idealisierendes Modell mit wenigen Parametern unter- stellen.<br />

Dafür läßt sich die Information, die die OLS-Regression liefert,<br />

viel einfacher interpretieren (� �37. 3).<br />

Zur Interpretation einer Regression<br />

Statistisch gesehen sind Regressionen Verfahren, mit denen<br />

man Zusammenhänge zwischen Verteilungen sichtbar machen<br />

kann, in dem wir die bedingte Verteilung (bzw. Kennzahlen) als<br />

Funktion bedingender Variablen darstellen. Ob diese Regressionsfunktion<br />

kausal interpretiert werden kann, muß inhaltlich<br />

entschieden werden (d.h. man braucht eine Theorie, s.<br />

Goldthorpe, 2000, On Sociology).


<strong>Multivariate</strong> Verfahren, Brüderl 6<br />

2) Explorative Datenanalyse<br />

Im folgenden sollen graphische Verfahren zum ,,Erforschen“ von<br />

Daten vorgestellt werden. Diese Verfahren sind sehr hilfreich, um<br />

ein ,,Gefühl“ für die Daten zu bekommen (Exploration). Wir<br />

benötigen sie insbesondere für die Regressionsdiagnostik.<br />

Beispiel: Anscombes Quartett<br />

Dieses Beispiel verdeutlicht, daß ein und dieselbe Regression<br />

von völlig unterschiedlichen Daten erzeugt werden kann. Eine<br />

graphische Inspektion der Daten kann solchen Fehlschlüssen<br />

vorbeugen.


<strong>Multivariate</strong> Verfahren, Brüderl 7<br />

Univariate Verteilungen<br />

Beispiel: Wir betrachten die V423 (monatliches Nettoeinkommen<br />

des Befragten in DM). Wir nehmen nur Vollzeiterwerbstätige<br />

(V25�1) bis zum Alter 65 (V247≤65). N�1475.<br />

Anteil<br />

.4<br />

.3<br />

.2<br />

.1<br />

0<br />

0 3000 6000 9000<br />

DM<br />

12000 15000 18000<br />

Histogramm<br />

DM<br />

18000<br />

15000<br />

12000<br />

9000<br />

6000<br />

3000<br />

0<br />

eink<br />

394 828 952<br />

1128 1157 1180 1353 224 260 267 803 851 871<br />

724 779<br />

1023 1029 279 407 493 523 534 656 17<br />

1166 1351 281 643<br />

1048 1054 1083 1085 1119 1130 1399 100 108 113 152 166 342 348 408 444 454 571 682 711 812 955 40 57 60<br />

1051 1059 258 341<br />

1101 103<br />

114<br />

253 290<br />

370 405<br />

506 543<br />

616<br />

658<br />

708<br />

1123 723 755 762 841 856 865 924 930<br />

Box-Plot<br />

Das Histogramm ist mit 18 Intervallen (,,bins“) gezeichnet. Man<br />

erkennt die deutlich rechtsschiefe Verteilung. Über 8000,- DM<br />

finden sich nur noch wenige Beobachtungen. Aber: Verteilung ist<br />

nur diskret und hängt von der Zahl der Intervalle ab.<br />

Das Box-Plot zeigt die drei Quartile. Die Whisker sind 1.5 mal<br />

den IQR lang. Die Rechtsschiefe erkennt man daran, daß der<br />

untere Whisker kürzer ist. Weiterhin kann man in einem Box-Plot<br />

sehr schön die Ausreißer identifizieren.<br />

Eine nicht-parametrische Dichteschätzung erhält man mittels der<br />

Kerndichteschätzer. An einer festgelegten Zahl von Stellen (n)<br />

wird in Intervallen der Breite 2w mittels einer Gewichtungsfunktion<br />

(,,Kern“) die Dichte geschätzt. Folgende Plots<br />

verwenden den Epanechnikov-Kern mit n�100.<br />

.0004<br />

.0003<br />

.0002<br />

.0001<br />

0<br />

0 3000 6000 9000 12000 15000 18000<br />

DM<br />

Kerndichteschätzer, w=100<br />

.0004<br />

.0003<br />

.0002<br />

.0001<br />

0<br />

0 3000 6000 9000 12000 15000 18000<br />

DM<br />

Kerndichteschätzer, w=300


<strong>Multivariate</strong> Verfahren, Brüderl 8<br />

Vergleich von Verteilungen<br />

Häufig will man feststellen, ob die Daten einer Normalverteilung<br />

folgen. Dazu kann man eine Normalverteilungskurve in den<br />

Dichteplot einzeichnen oder einen statistischen Test durchführen.<br />

Einen graphischen Vergleich ermöglichen Normal-<br />

Probability Plots (o. Normal-Quantile). Die Quantile der Daten<br />

werden gegen die Quantile der theoretischen Normalverteilung<br />

aufgetragen. Abweichungen von der Geraden mit Steigung 1<br />

zeigen Abweichungen von der Normalverteilung an.<br />

DM<br />

18000<br />

15000<br />

12000<br />

9000<br />

6000<br />

3000<br />

0<br />

-3000 0 3000<br />

Inverse Normal<br />

6000 9000<br />

Man erkennt eine deutliche Abweichung von der Normalverteilung.<br />

Die Datenpunkte liegen nicht auf der blauen Gerade. Zu<br />

Beginn sind die beobachteten Einkommenswerte höher als nach<br />

der Normalverteilung zu erwarten wäre. In der Mitte stimmts in<br />

etwa. Am Ende sind die Werte wieder größer (Rechtsschiefe).<br />

Deutlich setzen sich die Ausreißer ab.


<strong>Multivariate</strong> Verfahren, Brüderl 9<br />

Bivariate Daten<br />

Bivariate Zusammenhänge veranschaulicht man am besten mit<br />

einem Streudiagramm. Überdecken sich die Daten stark, so<br />

,,jittered“ man am besten (überlagert Daten mit einer Zufallsstreuung).<br />

Einen Eindruck von der Art des Zusammenhangs<br />

bekommt man mittels einer nicht-parametrischen Regression.<br />

Bewährt hat sich hierfür der Lowess-Smoother (locally weighted<br />

scatterplot smoother). An der Stelle xi wird eine lineare<br />

Regression berechnet, in die die Daten in der Umgebung<br />

gewichtet eingehen. Die Breite der Umgebung ist steuerbar<br />

durch ,,bandwidth“ (z.B. bwidth�0.8). Es wird trikubisch<br />

gewichtet. Anhand der Regressionsparameter wird dann � y i<br />

berechnet. Dies wird für alle X-Werte gemacht. Die Verbindung<br />

der (xi, � y i ) ergibt die Lowess-Kurve. Je kleiner die Umgebung,<br />

desto näher an den Daten ist die Kurve.<br />

Beispiel: Einkommen in Abhängigkeit von Bildung<br />

Einkommen wie oben. Schulbildung plus Berufsbildung<br />

(V12-V23) wird umgerechnet in Bildungsjahre. N�1471.<br />

DM<br />

18000<br />

15000<br />

12000<br />

9000<br />

6000<br />

3000<br />

0<br />

Lowess smoother, bandwidth = .8<br />

8 10 12 14 16<br />

Bildung<br />

18 20 22 24<br />

DM<br />

18000<br />

15000<br />

12000<br />

9000<br />

6000<br />

3000<br />

0<br />

Lowess smoother, bandwidth = .3<br />

8 10 12 14 16<br />

Bildung<br />

18 20 22 24<br />

Links ist nicht gejittered, es kommt zu starker Überdeckung.<br />

Rechts ist gejittered (j(2)�2% der Zeichenfläche).<br />

Die blaue Kurve ist der Lowess-Smoother. Links werden zur Berechnung<br />

jeweils 80% der Fälle in der Umgebung verwendet,<br />

rechts nur 30%. Die rechte Kurve folgt deshalb wesentlich genauer<br />

den Daten, ist dafür aber unregelmäßiger. In beiden Fällen<br />

erkennt man leichte Nicht-Linearität ab 19 Bildungsjahre.


<strong>Multivariate</strong> Verfahren, Brüderl 10<br />

Datentransformation<br />

Schiefe und Ausreißer sind insbesondere für Mean-Regressionen<br />

ein Problem. Glücklicherweise kann man aber durch<br />

Potenz-Transformationen Schiefe reduzieren und Ausreißer<br />

,,heranziehen“. Tukeys ,,ladder of powers“:<br />

10<br />

8<br />

6<br />

4<br />

2<br />

0<br />

-2<br />

1 2 3 4 5<br />

x<br />

Beispiel: Einkommensverteilung<br />

.0004<br />

.0003<br />

.0002<br />

.0001<br />

0<br />

0 3000 6000 9000 12000 15000 18000<br />

DM<br />

Kerndichteschätzer, w=300<br />

q�1<br />

.960101<br />

.002133<br />

x 3 q � 3 produziert<br />

x 1.5 q � 1. 5 cyan Rechtsschiefe<br />

x q � 1 schwarz<br />

x .5 q �.5 grün produziert<br />

ln x q � 0 rot Linksschiefe<br />

−x −.5 q � −.5 blau<br />

5.6185 9.85524<br />

lneink<br />

Kernel Density Estimate<br />

q�0<br />

2529.62<br />

0<br />

-.003368 -.000022<br />

inveink<br />

Kernel Density Estimate<br />

q�-1<br />

Exkurs: Potenzfunktionen, ln- und e-Funktion<br />

x0.5 � x 1<br />

2 � 2 x , x−0.5 � 1<br />

x0.5 � 1<br />

2 x , x0�1 Mit ln notieren wir den (natürlichen) Logarithmus zur Basis e � 2, 71828. . . :<br />

y � ln x � ey � x<br />

Daraus folgt ln�ey� � eln y � y.<br />

4<br />

2<br />

-4 -2 0 2x 4<br />

-2<br />

-4<br />

Rechenregeln<br />

exe y � ex�y ln�xy� � ln x � ln y<br />

ex /ey � ex−y ln�x/y� � ln x − ln y<br />

�ex� y � exy ln xy � ylnx


<strong>Multivariate</strong> Verfahren, Brüderl 11<br />

3) Das einfache Regressionsmodell<br />

Im einfachen Regressionsmodell unterstellt man ein lineares<br />

Modell für den bedingten Mittelwert:<br />

E�Y|x� ����x.<br />

Daraus ergibt sich das Modell zur Beschreibung der Daten:<br />

• A1: yi ����xi��i, i � 1, … ,n.<br />

� und � sind zu schätzende Parameter (Regressionskoeffizienten)<br />

und � ist ein Fehlerterm. A1 enthält insbesondere folgende<br />

Annahmen: Die Beziehung zwischen X und Y ist linear und die<br />

Parameter � und � sind identisch für alle Beobachtungen.<br />

Das Streudiagramm gibt eine graphische Darstellung des<br />

Modells. Die Punkte repräsentieren jeweils eine Beobachtung.<br />

Die Gerade ist die (Modell-)Regressionsgerade mit Achsenabschnitt<br />

� und Steigung �. � gibt den Y-Wert an, wenn X � 0. �<br />

gibt an, um wieviele Einheiten sich Y verändert, wenn X um eine<br />

Einheit steigt. Meist werden die Daten natürlich nicht exakt auf<br />

der Regressionsgeraden liegen, so wie z.B. Beobachtung i. Der<br />

laut Modell zu erwartende Wert (E�yi|xi� ����xi), stimmt nicht<br />

mit dem beobachteten Wert (yi) überein. Die Differenz ist der<br />

Fehler �i.<br />

Über die stochastischen Eigenschaften dieses Fehlerterms<br />

macht man einige weitere Annahmen:<br />

• A2: E��i� � 0, für alle i; im ,,Mittel“ ist der Fehler null<br />

• A3: V��i� �� 2 , für alle i; die Fehlervarianz ist konstant<br />

(Homoskedastizität)


<strong>Multivariate</strong> Verfahren, Brüderl 12<br />

• A4: Cov��i,�j� � 0, für alle i ≠ j; die Fehlerkovarianzen sind<br />

null (keine Autokorrelation)<br />

• A5: Cov�xi,�j� � 0, für alle i und j; Regressor und Fehler sind<br />

unkorreliert<br />

A5 impliziert unter anderem: der Regressor darf keine Meßfehler<br />

enthalten und er darf mit keinen weiteren unbeobachteten<br />

Variablen (die ja laut A1 im Fehlerterm zusammengefaßt sind)<br />

korreliert sein.<br />

Will man Hypothesen über die Parameter des Modells testen, so<br />

ist eine weitere Annahme nötig:<br />

• A6: �i � N�0, �2�; die Fehler sind normalverteilt<br />

Es ist zu beachten, daß die Normalverteilungsannahme nicht zur<br />

Schätzung der Parameter erforderlich ist. Da in der<br />

Sozialforschung aber praktisch immer Hypothesentests<br />

durchgeführt werden, muß auch A6 üblicherweise gelten.<br />

Schätzung der Modellparameter<br />

Dieses Modell enthält die unbekannten Parameter �, � und �2 .<br />

Anhand der beobachteten Daten können die Parameter<br />

geschätzt werden. Die Schätzer notieren wir mit �̂, �̂ und �̂ 2 .<br />

Insbesondere �̂ interessiert den Sozialforscher, weil dieser<br />

Schätzer Auskunft über den Zusammenhang von X und Y gibt.<br />

Doch nach welchem Kriterium schätzt man? Ein sinnvoller<br />

Ansatz will möglichst gute Prognosen � y i ��̂ ��̂ xi erhalten. Die<br />

Fehler sollten möglichst klein sein. ∑�yi − � y i� ist nicht geeignet,<br />

weil jede Gerade durch ( x,y ) diese Abweichungssumme<br />

minimiert (�0). Deshalb fordert man üblicherweise, daß die<br />

Summe der Abweichungsquadrate<br />

n<br />

∑�yi −<br />

i�1<br />

� y i� 2 n<br />

� ∑<br />

i�1<br />

minimiert wird. � � i nennt man Residuen.<br />

� � i 2 � RSS


<strong>Multivariate</strong> Verfahren, Brüderl 13<br />

Dies ist die Methode der kleinsten Quadrate (Ordinary Least<br />

Squares, OLS):<br />

min<br />

�̂,�̂ ∑ n<br />

i�1<br />

2 �̂ i � min<br />

�̂,�̂ ∑ n<br />

�yi − �̂ − �<br />

i�1<br />

̂xi� 2 .<br />

Um die Schätzformeln zu erhalten, muß man ableiten:<br />

∂ RSS � 2∑�yi − �̂ − � ∂ �̂ ̂xi��−1� ∂ RSS<br />

∂ �̂ � 2∑�yi − �̂ − �̂ xi��−xi� .<br />

Durch Nullsetzen und Umformen erhält man die sogenannten<br />

Normalgleichungen:<br />

∑ yi � �̂n �� ̂ ∑ xi<br />

∑ xiyi � �̂ ∑ xi �� ̂ ∑ x i 2 .<br />

Aus der ersten Gleichung folgt unmittelbar:<br />

�̂ � ȳ − � ̂ x̄.<br />

Einsetzen in die zweite Gleichung und Umformen ergibt:<br />

� ̂ � ∑ xiyi − n x y<br />

∑ x i 2 − n x 2<br />

� ∑�xi − x̄��yi − ȳ�<br />

∑�xi − x̄� 2<br />

� sXY<br />

s X 2 .<br />

Eigenschaften der Residuen<br />

Aus der Schätzformel für �̂ folgt, daß die Regressionsgerade<br />

durch den Punkt ( x,y ) geht. Mithin gilt immer:<br />

∑ � � i � 0.<br />

Weiterhin folgt aus der zweiten Normalgleichung<br />

∑ xi � � i � 0.<br />

Außerdem gilt:<br />

∑ � �<br />

y i � i � 0.<br />

Residuen unkorreliert mit X-Werten und Prognosewerten.


<strong>Multivariate</strong> Verfahren, Brüderl 14<br />

Schätzung der Residualvarianz<br />

Die Varianz der Residuen notieren wir mit �̂ 2 . Sie ergibt sich als:<br />

�̂ 2 � 1<br />

n − 2 ∑ �̂ i 2 − �̂ 2 � ∑ �̂ i 2<br />

n − 2 .<br />

n − 2 ist die Zahl der Freiheitsgrade der Residuen (2�Zahl der<br />

Modellparameter, die zu ihrer Berechnung nötig sind).<br />

Eigenschaften der OLS-Schätzer<br />

Die OLS-Schätzer haben bei Gültigkeit von A1-A5 gewisse<br />

wünschenswerte Eigenschaften: Sie sind<br />

• unverzerrt (erwartungstreu: E��̂ � ��)<br />

• in der Klasse der linearen, unverzerrten Schätzer die mit der<br />

kleinsten Stichprobenvarianz (best linear unbiased estimate,<br />

BLUE; Gauß -Markov Theorem)<br />

Will man einen linearen und unverzerrten Schätzer verwenden,<br />

so besagt das Gauß-Markov Theorem, daß die OLS-Schätzer in<br />

dieser Klasse die präzisesten sind.<br />

Außerdem sind sie bei Gültigkeit der Normalverteilungsannahme<br />

(A6) die Maximum-Likelihood (ML) Schätzer und besitzen<br />

somit auch deren Eigenschaften (Konsistenz, Effizienz,<br />

asymptotisch normalverteilt).<br />

Modellfit<br />

Neben der Schätzung der Parameter ist es weiterhin wichtig zu<br />

wissen, wie gut das Modell auf die Daten paßt.<br />

Standardfehler der Regression<br />

Der Fit ist umso besser, je geringer die Streuung der Residuen<br />

ist. Deshalb liegt es nahe, � � (Root MSE in STATA) als Fitmaß zu<br />

verwenden. Da � � in der gleichen Einheit wie Y gemessen ist,<br />

erlaubt der Vergleich von � � und y eine Abschätzung des Fits (im<br />

Bereich 0 � 2 � � liegen 95% der Residuen).<br />

Bestimmtheitsmaß R2 Berechnung ausgehend von der Streuungszerlegung:<br />

�yi − y � � �yi − � y i � � � � y i − y �.


<strong>Multivariate</strong> Verfahren, Brüderl 15<br />

Quadrieren und Summieren auf beiden Seiten ergibt:<br />

∑�yi − y � 2 � ∑�yi − � y i � 2 � ∑� � y i − y � 2 � ∑ � � i� � y i − y �.<br />

Der letzte Term fällt weg. Damit ergibt sich:<br />

∑�yi − y � 2 � ∑ � � i 2 � ∑� � y i − y � 2<br />

TSS � RSS � ESS<br />

R2 wird nun als Quotient von erklärter zu gesamter Streuung<br />

(Varianz) definiert:<br />

R2 � ESS<br />

TSS � s2 Y � 1 − RSS<br />

2 sY TSS .<br />

Ist R2 � 0, so bedeutet dies, daß das Modell nichts zur Erklärung<br />

der Varianz von Y beiträgt. R2 � 1 dagegen zeigt an, daß<br />

das Modell die Daten vollkommen beschreibt.<br />

Es ist zu beachten, daß R2 den Fit eines linearen Modells beschreibt.<br />

Ein niedriges R2 kann somit auch aus der Nicht-<br />

Linearität der Beziehung resultieren.<br />

Hypothesentests<br />

Im einfachsten Fall wird die Nullhypothese H0 : ���0 gegen die<br />

Alternative H1 : � ≠ �0 getestet (zweiseitiger Test).<br />

Dazu muß zuerst der Standardfehler von �̂ berechnet werden:<br />

�̂ �̂ � �̂<br />

.<br />

n − 1 sx<br />

Die Schätzung von � wird präziser (der Standardfehler kleiner),<br />

wenn das Modell gut fittet und die X-Werte stark streuen.<br />

Dann wird die Testgröße (t-Wert)<br />

t � �̂ − � 0<br />

�̂ � ̂<br />

errechnet. Sie ist t-verteilt mit n − 2 Freiheitsgraden. Die<br />

Nullhypothese wird abgelehnt, wenn der Betrag der Testgröße<br />

größer als der kritische Wert der t-Verteilung ist (bei gegebenem<br />

Signifikanzniveau).


<strong>Multivariate</strong> Verfahren, Brüderl 16<br />

Meist jedoch ist man nur daran interessiert, ob X überhaupt<br />

einen Einfluß auf Y ausübt (H0 : ��0). Dann lautet die<br />

Testgröße t �� ̂ /�̂ � ̂. Auf dem 95%-Niveau bei großen Fallzahlen<br />

(n � 500) beträgt der kritische Wert 1.96. Ist somit |t|� 1. 96,<br />

können wir die Nullhypothese ablehnen und sprechen von einem<br />

signifikanten Effekt der Variable X.<br />

Beispiel: Einkommen in Abhängigkeit von Bildung<br />

Source | SS df MS Number of obs � 1471<br />

---------�------------------------------ F( 1, 1469) � 216.89<br />

Model | 560447243 1 560447243 Prob � F � 0.0000<br />

Residual | 3.7959e�09 1469 2584014.63 R-squared � 0.1287<br />

---------�------------------------------ Adj R-squared � 0.1281<br />

Total | 4.3564e�09 1470 2963513.43 Root MSE � 1607.5<br />

----------------------------------------------------------------------eink<br />

| Coef. Std. Err. t P�|t| [95% Conf. Interval]<br />

-----�----------------------------------------------------------------bild<br />

| 227.7948 15.46764 14.727 0.000 197.4538 258.1358<br />

cons | -41.24655 197.0808 -0.209 0.834 -427.8364 345.3433<br />

-----------------------------------------------------------------------<br />

Der Modellfit fällt mit R 2 � 0. 13 für sozialwissenschaftliche<br />

Verhältnisse gut aus. Allerdings zeigt � ��1608 DM, daß die<br />

Residuen stark um die Regressionsgerade streuen. Für<br />

Prognosezwecke wäre dieses Modell unbrauchbar.<br />

Inhaltlich sehen wir, daß das Einkommen um 228,- DM pro<br />

Bildungsjahr steigt (genauer: der bedingte Erwartungswert).<br />

Hilfreich ist es, die Regressionsgerade in ein Streudiagramm<br />

einzuzeichnen (blau). Ein Vergleich mit der Lowess-Kurve (grün)<br />

zeigt nur zum Schluß hin Abweichungen.<br />

DM<br />

18000<br />

15000<br />

12000<br />

9000<br />

6000<br />

3000<br />

0<br />

8 10 12 14 16<br />

Bildung<br />

18 20 22 24


<strong>Multivariate</strong> Verfahren, Brüderl 17<br />

4) Das multiple Regressionsmodell<br />

Die Regression wird zu einem multivariaten <strong>Analyseverfahren</strong>,<br />

wenn man mehr als eine uV einbezieht. Man spricht dann von<br />

multipler Regression:<br />

yi ��0 ��1xi1 ��2xi2 �… ��pxip ��i , i � 1, … ,n.<br />

�0 heißt Regressionskonstante. Die anderen Regressionskoeffizienten<br />

definieren eine p-dimensionale Regressionsebene.<br />

Interpretation: �j gibt an, um wieviel Einheiten sich Y ändert,<br />

wenn sich Xj um eine Einheit erhöht, unter Kontrolle der<br />

anderen im Modell enthaltenen X-Variablen. �j sagt uns,<br />

welcher Effekt verbleibt, wenn wir für die anderen uVs<br />

kontrollieren. Damit ist die multiple Regression das ideale<br />

multivariate <strong>Analyseverfahren</strong>: wir fügen dem Modell einfach alle<br />

uVs hinzu, von denen wir vermuten, daß von ihnen eine<br />

Scheinkorrelation bzw. Intervention ausgehen könnte.<br />

Beispiel: Statuszuweisungsmodell (ALLBUS 94)<br />

Blau/Duncan (1967) ”The American Occupational Structure”. Wie<br />

erlangt man seine soziale Position? Durch ”achievement” oder<br />

Statusvererbung?<br />

Abhängige Variable ist ”Einkommen” (nur Westdeutsche, Vollzeit).<br />

Der Status des Vaters wird mit der Magnitudeprestigeskala<br />

gemessen (Werte von 20-190), das ”achievement” durch<br />

die eigene Schul- und Berufsbildung (Werte von 9-22).<br />

Fehler 1<br />

Das Statuszuweisungsmodell<br />

Fehler 2<br />

(1) (2)<br />

Konstante 2387 -132<br />

Prestige Vater 12,7 3,4<br />

Bildung 246<br />

R 2 0,05 0,19<br />

N 828 828


<strong>Multivariate</strong> Verfahren, Brüderl 18<br />

Der bivariate Effekt (Gesamteffekt) des Prestiges des Vaters<br />

wird deutlich kleiner, wenn man für Bildung kontrolliert (Intervention).<br />

Offensichtlich ist ein großer Teil des Herkunftseffektes<br />

über Bildung vermittelt (indirekter Effekt). Der direkte Effekt ist<br />

nicht mehr allzu groß. Zur Verdeutlichung des Gesamtmodells<br />

kann man die standardisierten Regressionskoeffizienten in das<br />

Kausalmodell eintragen (Pfaddiagramm). Die standardisierten<br />

Koeffizienten können verglichen werden.<br />

Fehler 1<br />

0,42 0,40<br />

0,06<br />

Das Pfaddiagramm<br />

Das Regressionsmodell (2)<br />

Fehler 2


<strong>Multivariate</strong> Verfahren, Brüderl 19<br />

Standardisierte (einfache) Regressionskoeffizienten<br />

Will man die �j vergleichen, so standardisiert man Y und X<br />

(Z-Transformation):<br />

y i ∗ � yi − y<br />

sY<br />

Die Regressionsgleichung lautet nun<br />

, x i ∗ � xi − x<br />

sX<br />

y i ∗ �� ∗ �� ∗ xi ∗ ��i ∗ .<br />

Gesucht sind � ∗ und � ∗ die standardisierten Regressionskoeffizienten.<br />

Es ergibt sich<br />

� ∗ � y ∗ − � ∗ x ∗ � 0,<br />

�∗ � sX ∗Y∗ � 2 sX ∗<br />

sXY<br />

sXsY<br />

� r.<br />

Dies zeigt, daß r gleich dem standardisierten Regressionskoeffizienten<br />

ist (gilt nur bei der einfachen Regression!).<br />

Beziehung von � ∗ und � �: Es gilt � ∗ � � � sX<br />

sY .<br />

"Mechanik" der Drittvariablenkontrolle<br />

Um zu verstehen, was bei der Kontrolle einer weiteren uV<br />

passiert, betrachten wir den Spezialfall mit zwei uVs.<br />

Korrelieren X1 und X2, so müssen die wechselseitigen indirekten<br />

Effekte ”herausgerechnet” werden. Im Prinzip werden dazu die<br />

tatsächlichen Werte von Xj ersetzt durch die Residuen, die man<br />

aus einer Regression mit Xj als Regressand und den anderen<br />

uVs als Regressoren erhält. Es resultieren diese Schätzformeln:<br />

� ∗ 0<br />

� 0<br />

�∗ 1 � ryx1−ryx2rx 1x2 1−rx<br />

2<br />

1x2 �∗ 2 � ryx2−ryx1rx 1x2 1−rx<br />

2<br />

1x2 � � 0 � y − � � 1 x 1 − � � 2 x 2<br />

� � 1 � � ∗ 1<br />

� � 2 � � ∗ 2<br />

Man erkennt, daß für rx1x2 � 0 die selbe Formel wie im bivariaten<br />

Fall resultiert. Für rx1x2 ≠ 0 wird die bivariate Korrelation<br />

”korrigiert” um den indirekten Effekt.<br />

sy<br />

sx 1<br />

sy<br />

sx 2<br />

.<br />

.


<strong>Multivariate</strong> Verfahren, Brüderl 20<br />

5) Das Regressionsmodell in Matrix-Notation<br />

y �<br />

y1<br />

y2<br />

�<br />

yn<br />

,X �<br />

1 x11 … x1p<br />

1 x21 … x2p<br />

� � �<br />

1 xn1 … xnp<br />

y � X� � �.<br />

Annahmen der Regressionsanalyse<br />

� � Nn�0, �2I� Cov�x, �� � 0<br />

rg�X� � p � 1<br />

, � �<br />

.<br />

�0<br />

�1<br />

�<br />

�p<br />

, � �<br />

Schätzung<br />

Mittels der KQ-Methode erhält man die Schätzer für �,<br />

� ′ � � �X X�−1 ′ X y.<br />

Mit denen kann man die gefitteten Werte schätzen<br />

� � ′ y � X� � X�X X�−1 ′ X y � Hy.<br />

Die geschätzten Fehlerterme (die Residuen) sind<br />

� �<br />

� � y − y � y − Hy � �I − H�y.<br />

Die Residualvarianz ergibt sich aus<br />

�<br />

�<br />

2<br />

� �<br />

�<br />

′�<br />

�<br />

n − p − 1 � y′ y − y ′ X � �<br />

n − p − 1 .<br />

Zum Testen der Regressionskoeffizienten benötigt man deren<br />

Stichprobenvarianzen ( � �j 2 stehen auf der Hauptdiagonalen):<br />

Das Bestimmtheitsmaß ist<br />

R 2 � ESS<br />

TSS<br />

� 1 − RSS<br />

TSS<br />

V� � �� � � � 2 �X ′ X� −1 .<br />

� 1 −<br />

∑<br />

�2 � i<br />

� 1 −<br />

2 ∑�yi − y �<br />

�<br />

�<br />

′�<br />

�<br />

y ′ .<br />

2 y − n y<br />

�1<br />

�2<br />

�<br />

�n<br />

.


<strong>Multivariate</strong> Verfahren, Brüderl 21<br />

Exkurs: Matrixalgebra<br />

Eine Matrix A der Dimension 3 � 2:<br />

A �<br />

3 11<br />

19 11<br />

77 80<br />

, A ′ �<br />

Ein Spaltenvektor y und der Zeilenvektor y ′ :<br />

y �<br />

2<br />

1<br />

5<br />

3 19 77<br />

11 11 80<br />

, y ′ � 2 1 5 .<br />

Spezielle Matrizen:<br />

• Quadratische Matrizen: Zeilenzahl gleich Spaltenzahl<br />

• Symmetrische Matrizen: Elemente unter und über der<br />

Hauptdiagonalen entsprechen sich (nur quadratische<br />

Matrizen)<br />

• Diagonalmatrix: nur auf der Hauptdiagonalen Elemente<br />

ungleich 0<br />

• Einheitsmatrix: Diagonalmatrix mit Elementen gleich eins (I)<br />

• Nullmatrix: alle Elemente gleich null (0)<br />

• Skalar: 1 � 1 Matrix (Zahl)<br />

Matrixoperationen<br />

Gleichheit: Alle Elemente sind gleich<br />

Matrixaddition: Die Summe zweier Matrizen A � B (gleiche<br />

Dimension) ist die Summe der einzelnen Elemente<br />

3 11<br />

19 11<br />

77 80<br />

Es gilt: A � B � B � A.<br />

Skalarmultiplikation: 2 � B<br />

�<br />

2 5<br />

1 1<br />

3 0<br />

�<br />

5 16<br />

20 12<br />

80 80<br />

.<br />

.


<strong>Multivariate</strong> Verfahren, Brüderl 22<br />

2<br />

3 5<br />

2 1<br />

�<br />

6 10<br />

4 2<br />

Matrixmultiplikation: AB � C (r � s � s � t � r � t)<br />

2 1<br />

3 4<br />

1 2<br />

�<br />

3 5<br />

2 1<br />

�<br />

2 � 3 � 1 � 2 2 � 5 � 1 � 1<br />

3 � 3 � 4 � 2 3 � 5 � 4 � 1<br />

1 � 3 � 2 � 2 1 � 5 � 2 � 1<br />

.<br />

�<br />

8 11<br />

17 19<br />

7 7<br />

Es gilt: AB ≠ BA (geht sowieso nur bei quadratischen Matrizen).<br />

Es gilt: AI � IA � A.<br />

Es gilt: �A � B� ′ � B ′ � A ′ .<br />

Skalarprodukt: a ′ b � b ′ a � ∑ aibi, (y ′ y �∑y i 2 )<br />

2 1 5<br />

3<br />

1<br />

2<br />

� 2 � 3 � 1 � 1 � 5 � 2 � 17.<br />

Determinanten<br />

Nur bei quadratischen Matrizen. Am einfachsten bei 2 � 2<br />

2 3<br />

1 5<br />

� 2 � 5 − 3 � 1 � 7.<br />

Bei höheren Dimensionen: Man bildet die gewichtete Summe der<br />

Elemente einer Zeile (oder Spalte). Die Gewichte sind die<br />

Kofaktoren (Determinanten der Elemente der Matrix, die nicht in<br />

der gleichen Zeile und Spalte stehen). Das Vorzeichen der<br />

Kofaktoren ergibt sich aus der Summe der Zeilen- und<br />

Spaltenindizes des Elements (gerade��, ungerade�-).<br />

3 1 9<br />

2 0 2<br />

4 6 4<br />

� 3<br />

0 2<br />

6 4<br />

− 2<br />

1 9<br />

6 4<br />

� 4<br />

1 9<br />

0 2<br />

� 72.<br />

Eine Matrix mit Determinante von 0 bezeichnet man als<br />

singuläre Matrix. Dies resultiert daraus, daß sich eine Zeile<br />

.


<strong>Multivariate</strong> Verfahren, Brüderl 23<br />

(Spalte) als Linearkombination einer oder mehrerer Zeilen<br />

(Spalten) darstellen läß t.<br />

1 4 4<br />

2 6 7<br />

1 2 3<br />

� 0.<br />

Der Rang einer quadratischen Matrix rg�A� ist die maximale Zahl<br />

der linear unabhängigen Zeilen. Sind alle Zeilen unabhängig, so<br />

hat die Matrix vollen Rang. Es gilt: rg�A ′ A� � rg�A�<br />

Eigenschaften:<br />

• |A|� |A ′ |<br />

• |AB|� |A|�|B|<br />

Matrixinversion<br />

Nur bei quadratischen Matrizen: AA −1 � A −1 A � I.<br />

A−1 � 1<br />

|A| adj�A�.<br />

Die adjunkte Matrix von A ist die Matrix, bei der alle Elemente<br />

durch ihre Kofaktoren ersetzt werden und anschließend<br />

transponiert wird.<br />

3 2<br />

1 4<br />

−1<br />

� 1 10<br />

�4 −1<br />

−2 �3<br />

′<br />

�<br />

4<br />

10<br />

− 1<br />

10<br />

2 − 10<br />

3<br />

10<br />

Eigenschaften:<br />

• Inverse nur bei Matrizen mit vollem Rang (� |A|≠ 0)<br />

• �A ′ � −1 � �A −1 � ′<br />

• �AB� −1 � B −1 A −1<br />

• Gilt AA ′ � I, so heißt A orthogonal<br />

.


<strong>Multivariate</strong> Verfahren, Brüderl 24<br />

Lineare Gleichungssysteme<br />

Mittels der Matrixinversion kann man lineare Gleichungssysteme<br />

lösen<br />

Setzen wir<br />

A �<br />

1 2 −1<br />

3 −1 1<br />

4 3 −2<br />

x1 � 2x2 − x3 � 1<br />

3x1 − x2 � x3 � 5<br />

4x1 � 3x2 − 2x3 � 2<br />

, x �<br />

x1<br />

x2<br />

x3<br />

.<br />

, c �<br />

so können wir das Gleichungssystem schreiben als<br />

Ax � c.<br />

Die Lösung erhalten wir durch Vormultiplikation mit der Inversen<br />

Daraus ergibt sich<br />

x �<br />

A −1 Ax � A −1 c � x � A −1 c.<br />

− 1<br />

6<br />

5<br />

3<br />

13<br />

6<br />

1<br />

6<br />

1<br />

3<br />

5<br />

6<br />

1<br />

6<br />

2 − 3<br />

7 − 6<br />

Eigenwerte und Eigenvektoren<br />

A sei n � n. � heißt Eigenwert und x Eigenvektor, wenn folgende<br />

Gleichung erfüllt ist<br />

Ax ��x � �A − �I�x � 0.<br />

Es gibt n, nicht notwendig verschiedene Eigenwerte und<br />

dazugehörende Eigenvektoren.<br />

Quadratische Form<br />

A sei n � n, dann heißt x ′ Ax quadratische Form. Es gilt<br />

∂x ′ Ax � 2Ax.<br />

∂x<br />

1<br />

5<br />

2<br />

�<br />

1<br />

2<br />

4<br />

.<br />

1<br />

5<br />

2<br />

,


<strong>Multivariate</strong> Verfahren, Brüderl 25<br />

Ableitung der OLS-Schätzer<br />

Das Regressionsmodell lautet<br />

y � X� � �.<br />

Die OLS-Schätzer von � erhalten wir, indem wir die Summe der<br />

Residuenquadrate minimieren<br />

�<br />

�<br />

′�<br />

�.<br />

Es gilt<br />

min<br />

�̂ ∑ 2 �̂ i � min<br />

�̂ �<br />

�<br />

′� � �<br />

′ � � �y − X�� �y − X�� �<br />

� �′ y ′ y − y ′ X� − � X ′ y � � � ′<br />

�X ′ X� � �<br />

� y ′ y − �2y ′ X� � � � � � ′<br />

�X ′ X� � �<br />

Jedes Produkt der rechten Gleichungen ist ein Skalar, weshalb<br />

�′ � X ′ y � y ′ X � �. Leiten wir nun ab, so erhalten wir<br />

∂ � � ′� �<br />

∂ � � 0 − 2X<br />

�<br />

′ y � 2�X ′ X� � �.<br />

Nullsetzen und umformen liefert die Normalgleichungen<br />

�X ′ X� � � � X ′ y.<br />

Hat X vollen Rang, so können wir dieses lineare Gleichungssystem<br />

eindeutig lösen �� � �X ′ X� −1 X ′ y.<br />

Normalgleichungen für p�2:<br />

n ∑ x1 ∑ x2<br />

∑ x1 ∑ x 1 2 ∑ x2x1<br />

∑ x2 ∑ x1x2 ∑ x 2 2<br />

� � 0<br />

� � 1<br />

� � 2<br />

�<br />

∑ y<br />

∑ yx1<br />

∑ yx2<br />

Hieran erkennt man, daß sich hinter der Matrixform der Normalgleichungen<br />

ein Gleichungssystem verbirgt, daß analog wie bei<br />

der einfachen Regression aufgebaut ist.<br />

.<br />

.


<strong>Multivariate</strong> Verfahren, Brüderl 26<br />

6) Praktische Regressionsanalyse<br />

In diesem Kapitel werden einige Ergänzungen besprochen, die<br />

für den praktischen Umgang mit Regressionen wichtig sind.<br />

Signifikanztests<br />

Test der Signifikanz des Gesamtmodells (overall F-Test)<br />

Man kann testen, ob alle X-Variablen zusammen zur Erklärung<br />

von Y beitragen. Die H0 ist, daß keine X-Variable einen Einfluß<br />

auf Y zeigt:<br />

H0 : �1 ��2 �… � �p � 0, H1 : �j ≠ 0, für mind. ein j.<br />

Man berechnet hierzu folgende F-Teststatistik:<br />

F � ESS<br />

RSS<br />

n − p − 1<br />

p � R 2<br />

1 − R 2<br />

n − p − 1<br />

p<br />

Die H0 wird abgelehnt, falls<br />

F � F1−��p, n − p − 1�.<br />

� F�p, n − p − 1�.<br />

Wird die H0 abgelehnt, so spricht man oft salopp von der<br />

,,Signifikanz des Regressionsmodells“<br />

Test der Signifikanz mehrerer Effekte (incremental F-Fest)<br />

Manchmal will man testen, ob eine Teilmenge der<br />

Regressionskoeffizienten einen signifikanten Einfluß hat:<br />

H0 : �1 ��2 �… � �k � 0, mit 1 ≤ k ≤ p.<br />

Gilt die H0, so hat man ein Regressionsmodell, in dem die ersten<br />

k uVs fehlen (Nullmodell). Man verwendet auch hier einen<br />

F-Test, bei dem man im Prinzip das R2 2 aus dem Nullmodell (R0) 2 mit dem aus dem Vollmodell (R1) vergleicht<br />

F � R 1 2 − R 0 2<br />

1 − R 1 2<br />

n − p − 1<br />

k<br />

� F�k, n − p − 1�.<br />

Man testet im Prinzip den Anstieg von R 2 vom Null- zum<br />

Vollmodell (beim overall F-Test ist das Nullmodell das Modell mit<br />

nur der Konstanten, also R 0 2 � 0, k � p). Im Fall k�1, ist der<br />

incremental F-Test äquivalent zum t-Test ( F � t).


<strong>Multivariate</strong> Verfahren, Brüderl 27<br />

Test der Signifikanz eines Regressionskoeffizienten (t-Test)<br />

Die H0 ist, daß die Variable Xj keinen Einfluß auf Y hat<br />

H0 : �j � 0, H1 : �j ≠ 0.<br />

Die Teststatistik ist<br />

t �<br />

� � j<br />

� � � � j<br />

� t�n − p − 1�.<br />

Die H0 wird abgelehnt, falls<br />

|t|� t1−�/2�n − p − 1�.<br />

Für n�500 können wir das entsprechende z-Quantil verwenden.<br />

Können wir die H0 verwerfen, so sprechen wir davon, daß die<br />

Variable Xj einen signifikanten Einfluß auf Y zeigt.<br />

Beispiel: Einkommensregression<br />

Die Humankapitaltheorie sagt voraus, daß das Einkommen<br />

abhängt vom allgemeinen Humankapital (Schulbildung,<br />

Berufserfahrung) und vom spezifischen Humankapital (Erfahrung<br />

im gegenwärtigen Job).<br />

Einkommen ist das monatliche Nettoeinkommen des Befragten<br />

in DM. Indikator für allg. HK ist ”Zahl der Schuljahre” (BILD).<br />

”Jahre der Berufserfahrung” (EXP) mißt allg. und spez. HK. Wir<br />

engen die Stichprobe ein auf 1) ganztägig hauptberufliche, 2)<br />

18-65 jährige und 3) nicht in Ausbildung befindliche<br />

Erwerbstätige.<br />

Source | SS df MS Number of obs � 1240<br />

---------�------------------------------ F( 3, 1236) � 79.32<br />

Model | 573265388 3 191088463 Prob � F � 0.0000<br />

Residual | 2.9778e�09 1236 2409207.55 R-squared � 0.1614<br />

---------�------------------------------ Adj R-squared � 0.1594<br />

Total | 3.5510e�09 1239 2866058.05 Root MSE � 1552.2<br />

----------------------------------------------------------------------eink<br />

| Coef. Std. Err. t P�|t| [95% Conf. Interval]<br />

---------�------------------------------------------------------------bild<br />

| 197.6759 17.73214 11.148 0.000 162.8875 232.4643<br />

exp | 34.37167 4.034096 8.520 0.000 26.45724 42.28611<br />

prest | 5.427125 1.591809 3.409 0.001 2.30418 8.550071<br />

_cons | -603.5128 235.2317 -2.566 0.010 -1065.01 -142.0152<br />

-----------------------------------------------------------------------


<strong>Multivariate</strong> Verfahren, Brüderl 28<br />

Exkurs: Die Stichprobenverteilung von � � (einf. Regression)<br />

Die Formel des Standardfehlers von �̂ lautet:<br />

�̂ �̂ � �̂<br />

.<br />

n − 1 sx<br />

Das STATA-Ado "betasim.ado" (auf Kursverzeichnis) simuliert<br />

Stichprobenverteilung. Damit sieht man sehr schön, wie �̂ �̂ von<br />

den drei Parametern, n, � und sx abhängt. ��1 im folgenden.<br />

density<br />

density<br />

density<br />

4.5<br />

4<br />

3.5<br />

3<br />

2.5<br />

2<br />

1.5<br />

1<br />

.5<br />

0<br />

4.5<br />

4<br />

3.5<br />

3<br />

2.5<br />

2<br />

1.5<br />

1<br />

.5<br />

0<br />

4.5<br />

4<br />

3.5<br />

3<br />

2.5<br />

2<br />

1.5<br />

1<br />

.5<br />

0<br />

0 .2 .4 .6 .8 1 1.2 1.4 1.6 1.8 2<br />

estimate of beta<br />

Red: Kernel Density; Blue: Normal<br />

n�10, ��1, sX � 1<br />

0 .2 .4 .6 .8 1 1.2 1.4 1.6 1.8 2<br />

estimate of beta<br />

Red: Kernel Density; Blue: Normal<br />

n�100, ��1, sX � 1<br />

0 .2 .4 .6 .8 1 1.2 1.4 1.6 1.8 2<br />

estimate of beta<br />

Red: Kernel Density; Blue: Normal<br />

n�100, ��4, sX � 1<br />

density<br />

density<br />

density<br />

4.5<br />

4<br />

3.5<br />

3<br />

2.5<br />

2<br />

1.5<br />

1<br />

.5<br />

0<br />

4.5<br />

4<br />

3.5<br />

3<br />

2.5<br />

2<br />

1.5<br />

4.5<br />

1<br />

.5<br />

4<br />

3.5<br />

3<br />

2.5<br />

2<br />

1.5<br />

1<br />

.5<br />

0<br />

0<br />

0 .2 .4 .6 .8 1 1.2 1.4 1.6 1.8 2<br />

estimate of beta<br />

Red: Kernel Density; Blue: Normal<br />

n�50, ��1, sX � 1<br />

0 .2 .4 .6 .8 1 1.2 1.4 1.6 1.8 2<br />

estimate of beta<br />

Red: Kernel Density; Blue: Normal<br />

n�100, ��2, sX � 1<br />

0 .2 .4 .6 .8 1 1.2 1.4 1.6 1.8 2<br />

estimate of beta<br />

Red: Kernel Density; Blue: Normal<br />

n�100, ��4, sX � 4


<strong>Multivariate</strong> Verfahren, Brüderl 29<br />

Modellspezifikation<br />

Es gelte folgendes Modell<br />

y ��0��1x1 ��2x2 ��.<br />

Wir begehen einen Spezifikationsfehler, wenn wir stattdessen<br />

′ ′ y ��0 ��1 x1 �� ′<br />

schätzen. Da � ′ ����2x2ist A5 verletzt (falls X1 und X2<br />

korreliert sind). Folge ist, daß E� �′ � 1�<br />

≠ �1. Der Schätzer ist<br />

verzerrt (bias). Ein Teil des Effekts von X2 wird irrtümlicherweise<br />

X1 zugerechnet (genauer Fox, S. 126ff).<br />

Dieser Bias (unbeobachtete Heterogenität, omitted variable bias)<br />

ist eins der zentralen Probleme der nicht-experimentellen<br />

Sozialforschung! Denn man kann sich nie sicher sein, dass man<br />

ihm nicht unterliegt. Es ist deshalb sehr wichtig, sich genau zu<br />

überlegen, welche Variablen im Modell sein müssen (Theorie!).<br />

Variablenselektion<br />

Für prognostische Zwecke mag es sinnvoll erscheinen, ein<br />

,,bestes“ Modell aus der Menge der vorhandenen Variablen zu<br />

suchen. Hierfür gibt es verschiedene Selektionsverfahren. Die<br />

meisten beruhen auf schrittweisem Vorgehen, wo z.B. bei jedem<br />

Schritt die Variable in das Modell eingeführt wird, die von den<br />

verbliebenen Variablen den höchsten R2-Zuwachs erzeugt. Dies<br />

wird solange fortgesetzt, bis alle noch nicht im Modell enthaltenen<br />

Variablen einen R2-Zuwachs aufweisen, der unter einer<br />

vorgegebenen Schwelle liegt.<br />

R2 hat hierbei den Nachteil, daß es mit jeder Variable steigt, da<br />

jede weitere Variable mindestens einen Fall ,,erklären“ kann. Mit<br />

n − 1 Variablen wird R2 � 1. Deshalb wird zur Variablenselektion<br />

ein adjustiertes R2 verwendet:<br />

R2 2 p<br />

a � R −<br />

n − p − 1 �1 − R2�. Bsp. oben: Ra 2 � 0. 1614 − 3 0. 8386 � 0. 1594.<br />

1236<br />

Nach einer Variablenselektion sind Signifikanztests sinnlos, da ja<br />

bewußt nur die stärksten Prädiktoren selektiert wurden.


<strong>Multivariate</strong> Verfahren, Brüderl 30<br />

Kategoriale uVs<br />

In einer Regression muß X metrisch sein. Doch auch kategoriale<br />

(nominal- oder ordinalskalierte) X können einbezogen werden.<br />

X mit 2 Ausprägungen<br />

Man kodiert X sinnvollerweise als 0/1 Variable (Dummy). Eine<br />

Regression mit Dummy nennt man auch Kovarianzanalyse.<br />

Beispiel: Einkommensregression � Mann/Frau, West/Ost<br />

Source | SS df MS Number of obs � 1240<br />

---------�------------------------------ F( 5, 1234) � 107.17<br />

Model | 1.0752e�09 5 215033685 Prob � F � 0.0000<br />

Residual | 2.4759e�09 1234 2006383.71 R-squared � 0.3028<br />

---------�------------------------------ Adj R-squared � 0.3000<br />

Total | 3.5510e�09 1239 2866058.05 Root MSE � 1416.5<br />

----------------------------------------------------------------------eink<br />

| Coef. Std. Err. t P�|t| [95% Conf. Interval]<br />

------�---------------------------------------------------------------bild<br />

| 218.9533 16.30217 13.431 0.000 186.9703 250.9363<br />

exp | 32.07012 3.694454 8.681 0.000 24.82201 39.31823<br />

prest | 4.908546 1.45477 3.374 0.001 2.054449 7.762643<br />

frau | -702.0169 88.11401 -7.967 0.000 -874.8867 -529.1471<br />

ost | -1119.518 87.63039 -12.775 0.000 -1291.439 -947.5969<br />

_cons | -229.1536 217.5792 -1.053 0.292 -656.0197 197.7124<br />

-----------------------------------------------------------------------\medskip<br />

Fiktives Beispiel: Geschlecht und Einkommen (Frau�0, Mann�1)<br />

Einkommen<br />

5000<br />

4000<br />

3000<br />

2000<br />

1000<br />

0<br />

-1<br />

0<br />

Geschlecht<br />

Wie muß die Regressionsgerade liegen? Offensichtlich minimiert<br />

man die Residuenquadratsumme, wenn man wählt<br />

� y 0 � y 0 � 2000 und � y 1 � y 1 � 3000. Hieraus können wir nun � �<br />

und � � bestimmen, denn es gilt ja � y 0 � � � und � y 1 � � �� � �.Damit<br />

ergibt sich � ��y 0 � 2000 und � ��y 1 − y 0 � 1000.<br />

Eine Regression mit Dummy ist äquivalent mit einer Varianzanalyse<br />

(also � 2 � R 2 ). Interpretation: � � ist das mittlere Einkommen<br />

der Frauen. � � sagt uns, was Männer im Mittel mehr verdienen.<br />

1<br />

2


<strong>Multivariate</strong> Verfahren, Brüderl 31<br />

X mit mehr als 2 Ausprägungen (Dummy-Kodierung)<br />

Wir müssen für jede Ausprägung eine Dummy bilden. Damit die<br />

Regression schätzbar ist, muß man eine Dummy weglassen.<br />

berufliche Stellung D1 D2 D3 D4<br />

Arbeiter 1 0 0 0<br />

Design-Matrix: Angestellter 0 1 0 0<br />

Beamter 0 0 1 0<br />

Selbständiger 0 0 0 1<br />

Lassen wir D1 weg, so sind die Regressionskoeffizienten in<br />

Bezug auf die Arbeiter zu interpretieren.<br />

Beispiel: Einkommensregression � berufliche Stellung<br />

Source | SS df MS Number of obs � 1240<br />

---------�------------------------------ F( 8, 1231) � 78.61<br />

Model | 1.2007e�09 8 150092007 Prob � F � 0.0000<br />

Residual | 2.3503e�09 1231 1909268.78 R-squared � 0.3381<br />

---------�------------------------------ Adj R-squared � 0.3338<br />

Total | 3.5510e�09 1239 2866058.05 Root MSE � 1381.8<br />

----------------------------------------------------------------------eink<br />

| Coef. Std. Err. t P�|t| [95% Conf. Interval]<br />

------�---------------------------------------------------------------bild<br />

| 182.9042 17.45326 10.480 0.000 148.6628 217.1456<br />

exp | 26.71962 3.671445 7.278 0.000 19.51664 33.9226<br />

prest | 4.163393 1.423944 2.924 0.004 1.369768 6.957019<br />

frau | -797.7655 92.52803 -8.622 0.000 -979.2956 -616.2354<br />

ost | -1059.817 86.80629 -12.209 0.000 -1230.122 -889.5123<br />

angest| 379.9241 102.5203 3.706 0.000 178.7903 581.058<br />

beamt | 419.7903 172.6672 2.431 0.015 81.03569 758.5449<br />

selbst| 1163.615 143.5888 8.104 0.000 881.9094 1445.321<br />

_cons | 52.905 217.8507 0.243 0.808 -374.4947 480.3047<br />

-----------------------------------------------------------------------<br />

Die t-Tests testen die Differenz zur Bezugsgruppe! Sie sagen<br />

damit nichts über die Signifikanz der Variable.<br />

Will man die Signifikanz der Variable insgesamt testen, so kann<br />

man einen inkrementellen F-Test verwenden. Hier<br />

F � 0.3381 − 0. 3028 1231 � 21. 9.<br />

1 − 0. 3381 3<br />

Der kritische Wert bei ��0. 05 ist 2.61. Damit zeigt die berufliche<br />

Stellung einen signifikanten Effekt auf das Einkommen.


<strong>Multivariate</strong> Verfahren, Brüderl 32<br />

Interaktionseffekte<br />

Man spricht von einer Interaktion, wenn der Effekt einer Variablen vom Wert einer anderen<br />

abhängt. Meist multipliziert man die beiden Variablen, von denen eine Interaktion ausgeht<br />

(multiplikative Interaktion). Generell gilt: das Modell sollte neben den Interaktionseffekten auch<br />

die Haupteffekte enthalten.<br />

Dummy-Interaktion<br />

Frau Ost Frau/Ost<br />

Mann West 0 0 0<br />

Mann Ost 0 1 0<br />

Frau West 1 0 0<br />

Frau Ost 1 1 1<br />

Beispiel: Einkommensregression � Interaktion Frau/Ost<br />

Number of obs � 1240 R-squared � 0.3523<br />

----------------------------------------------------------------------eink<br />

| Coef. Std. Err. t P�|t| [95% Conf. Interval]<br />

-------�--------------------------------------------------------------bild<br />

| 188.4242 17.30503 10.888 0.000 154.4736 222.3749<br />

exp | 24.64689 3.655269 6.743 0.000 17.47564 31.81815<br />

prest | 3.89539 1.410127 2.762 0.006 1.12887 6.66191<br />

frau | -1123.29 110.9954 -10.120 0.000 -1341.051 -905.5285<br />

ost | -1380.968 105.8774 -13.043 0.000 -1588.689 -1173.248<br />

angest | 361.5235 101.5193 3.561 0.000 162.3533 560.6937<br />

beamt | 392.3995 170.9586 2.295 0.022 56.99687 727.8021<br />

selbst | 1134.405 142.2115 7.977 0.000 855.4014 1413.409<br />

fr_ost | 930.7147 179.355 5.189 0.000 578.8392 1282.59<br />

_cons | 143.9125 216.3042 0.665 0.506 -280.4535 568.2786<br />

------------------------------------------------------------------------<br />

Conditional-Effect Plots sind das beste Mittel zur Veranschaulichung<br />

von Interaktionseffekten: EXP�0, PREST�50, Arbeiter.<br />

Einkommen<br />

4000<br />

3000<br />

2000<br />

1000<br />

0<br />

m_west m_ost<br />

f_west f_ost<br />

8 10 12 14 16 18<br />

Bildung<br />

Ohne Interaktionseffekt<br />

Einkommen<br />

4000<br />

3000<br />

2000<br />

1000<br />

0<br />

m_west m_ost<br />

f_west f_ost<br />

8 10 12 14 16 18<br />

Bildung<br />

Mit Interaktionseffekt


<strong>Multivariate</strong> Verfahren, Brüderl 33<br />

Slope-Interaktion<br />

Frau Ost Frau/Ost Bild Bild/Ost<br />

Mann West 0 0 0 x 0<br />

Mann Ost 0 1 0 x x<br />

Frau West 1 0 0 x 0<br />

Frau Ost 1 1 1 x x<br />

Beispiel: Einkommensregression � Interaktion Bildung/Ost<br />

Number of obs � 1240 R-squared � 0.3568<br />

------------------------------------------------------------------------eink<br />

| Coef. Std. Err. t P�|t| [95% Conf. Interval]<br />

---------�--------------------------------------------------------------bild<br />

| 218.8579 20.15265 10.860 0.000 179.3205 258.3953<br />

exp | 24.74317 3.64427 6.790 0.000 17.59349 31.89285<br />

prest | 3.651288 1.408306 2.593 0.010 .888338 6.414238<br />

frau | -1136.907 110.7549 -10.265 0.000 1354.197 -919.6178<br />

ost | -239.3708 404.7151 -0.591 0.554 -1033.38 554.6381<br />

angest | 382.5477 101.4652 3.770 0.000 183.4837 581.6118<br />

beamt | 360.5762 170.7848 2.111 0.035 25.51422 695.6382<br />

selbst | 1145.624 141.8297 8.077 0.000 867.3686 1423.879<br />

fr_ost | 906.5249 178.9995 5.064 0.000 555.3465 1257.703<br />

ost_bild | -88.43585 30.26686 -2.922 0.004 -147.8163 -29.05542<br />

_cons | -225.3985 249.9567 -0.902 0.367 -715.7875 264.9905<br />

-------------------------------------------------------------------------<br />

Einkommen<br />

4000<br />

3000<br />

2000<br />

1000<br />

0<br />

m_west m_ost<br />

f_west f_ost<br />

8 10 12 14 16 18<br />

Bildung<br />

Der t-Wert von ost_bild sagt uns, daß der Slope-Unterschied<br />

zwischen West und Ost signifikant ist.


<strong>Multivariate</strong> Verfahren, Brüderl 34<br />

Allerdings ist jetzt die Ost-Dummy nicht mehr sinnvoll zu<br />

interpretieren, denn die gibt den Unterschied bei Bild�0 an! Der<br />

ist so klein, weil die Westprofile steiler sind als die Ostprofile.<br />

Abhilfe: ANCOVA-Parametrisierung (s. Fox S. 194).<br />

Vollständige Interaktion<br />

Wir testen, ob sich alle Koeffizienten nach West/Ost<br />

unterscheiden: �o ≠ �w. Man berechnet eine Regression mit<br />

allen Interaktionseffekten. Dieses Vollmodell enthält 7 uVs, 7<br />

Interaktionen, den Ost-Haupteffekt und eine Konstante<br />

(R2 � 0.3704). Das Nullmodell ebenso, aber ohne die 7<br />

Interaktionen (R2 � 0. 3381, s. S. 31). Der F-Test ergibt<br />

F � 0.3704 − 0. 3381 1224 � 8. 97<br />

1 − 0. 3704<br />

Der kritische Wert ist 2.02. Damit können wir die H0 identischer<br />

Effekte zurückweisen. Wir sollten deshalb getrennte Modelle für<br />

West- und Ostdeutschland berechnen.<br />

Anmerkung: Dieser Test beruht auf der Annahme, daß die<br />

Fehlervarianz in beiden Gruppen gleich ist (�o 2 �� w 2 ). Für den<br />

Fall, daß dies nicht zutrifft, gibt es alternative Testverfahren.<br />

West Ost<br />

� t � t<br />

Konstante -293 -378<br />

Bild 210 9.11 163 7.22<br />

Exp 29 6.16 11 1.99<br />

Prest 3 1.56 3 1.87<br />

Frau -1159 9.49 -40 0.33<br />

Angest 567 4.34 -32 0.23<br />

Beamt 520 2.53 27 0.09<br />

Selbst 1529 8.20 235 1.24<br />

N 849 391<br />

R2 33.3 20,0<br />

7


<strong>Multivariate</strong> Verfahren, Brüderl 35<br />

7) Regressionsdiagnostik<br />

Wie bei jedem statistischen Modell beruht auch die Konsistenz<br />

der OLS-Schätzer auf der Gültigkeit der getroffenen Annahmen.<br />

Deshalb sollte man die Gültigkeit dieser Annahmen testen.<br />

Von den 6 Annahmen können 2 nicht getestet werden. A2 nicht,<br />

weil immer gilt E� � �� � 0. A5 nicht, weil immer gilt Cov�X, � �� � 0<br />

(Problem: Fehlspezifikation). Zusätzlich sind Multikollinearität<br />

und Einfluß Probleme, die man diagnostizieren kann.<br />

Multikollinearität<br />

Korrelieren zwei Regressoren vollständig, so liegt lineare Abhängigkeit<br />

vor und �X ′ X� −1 existiert nicht. Dieses Problem tritt<br />

bereits bei nicht perfekter Korrelation auf (bei r � 0, 99 wird es<br />

kritisch). Bei extremer Multikollinearität sind somit die OLS-<br />

Schätzer nicht berechenbar. Bei geringerer Multikollinearität sind<br />

die OLS-Schätzer schätzbar und auch konsistent, allerdings<br />

erhöht Multikollinearität die Standardfehler der OLS-Schätzer,<br />

die Schätzungen sind weniger präzise. Dies sieht man, wenn<br />

man die geschätzte Varianz für � � j schreibt als:<br />

V̂ � � � j� � �̂ 2 1<br />

�n − 1�s2 2<br />

xj 1 − Rj ,<br />

2 wobei Rj das Bestimmtheitsmaß einer Regression aller anderen<br />

Regressoren auf Xj ist. Korreliert Xj hoch mit den anderen<br />

2 Kovariaten (Rj nahe eins), so wird der zweite Faktor sehr groß<br />

(Varianz-Inflations-Faktor, VIF) und der Schätzfehler wächst an.<br />

Ist z.B. Rj�0,9, so ist VIF �2,29, der Standardfehler des<br />

Schätzers erhöht sich um etwas mehr als das Doppelte und der<br />

t-Wert wird halbiert.<br />

Betroffene Variablen einfach wegzulassen, ist keine gute<br />

Lösung. Besser erscheint es, aus den multikollinearen Variablen<br />

einen Index zu bilden, denn meist werden diese Variablen<br />

sowieso ähnliche Konstrukte messen.<br />

Beispiel: Einkommensregression (West)<br />

VIFmax � 1.65. Multikollinearität ist kein Problem.


<strong>Multivariate</strong> Verfahren, Brüderl 36<br />

A1: Linearität<br />

Problem: Nicht-Linearität verzerrt die Schätzer.<br />

Nicht-Linearitäten erkennt man in den Residuen-Plots.<br />

Abhilfe: Transformationen. Am einfachsten durch Hinzufügen<br />

weiterer X-Terme. Beobachtet man etwa U-förmige Nicht-<br />

Linearität, so nimmt man eine quadrierte X-Variable in die<br />

Regression auf:<br />

yi ��0 ��1xi ��2x i 2 ��i , i � 1, … ,n.<br />

Ist � � 1 � 0 und � � 2 � 0 erhalten wir eine umgekehrt U-förmige<br />

Regressionskurve. Ist � � 1 � 0 und � � 2 � 0 erhalten wir eine<br />

U-förmige Regressionskurve. Das Maximum (Minimum) liegt bei<br />

�<br />

� 1<br />

Xmax � −<br />

2 � .<br />

� 2<br />

Beispiel: Einkommensregression (West)<br />

Die Humankapitaltheorie sagt einen abflachenden Effekt von<br />

EXP voraus. Dies testet man mittels Partiellem-Residuen Plot.<br />

Bei diesem Plot wird zu den Residuen jeweils �̂ jxij hinzuaddiert.<br />

Diese partiellen Residuen trägt man gegen Xj auf. Man addiert<br />

zu den Residuen die Regressionsgerade hinzu, um die Form<br />

einer eventuellen Nicht-Linearität besser erkennen zu können.<br />

e( eink | X,exp ) + b*exp<br />

12000<br />

8000<br />

4000<br />

0<br />

-4000<br />

0 10 20 30 40 50<br />

exp<br />

� t<br />

Con -293<br />

EXP<br />

... s.o.<br />

29 6.16<br />

N 849<br />

R2 33.3<br />

Blau: Regressionsgerade, grün: Lowess. Man erkennt eine deutliche<br />

Nicht-Linearität. Deshalb fügen wir EXP 2 in das Modell ein.


<strong>Multivariate</strong> Verfahren, Brüderl 37<br />

e( eink | X,exp ) + b*exp<br />

16000 � t<br />

12000<br />

Con -1257<br />

8000<br />

EXP 155 9.10<br />

4000<br />

EXP<br />

0<br />

-4000<br />

0 10 20 30<br />

exp<br />

40 50<br />

2 -2.8 7.69<br />

...<br />

N 849<br />

R2 37.7<br />

Das Partielle-Residuen Plot paßt nun. Sowohl EXP, wie auch<br />

EXP 2 zeigen signifikante Effekte. Wir haben somit tatsächlich<br />

eine umgekehrt U-förmige Beziehung vorliegen. Das Maximum<br />

liegt bei 27 Berufserfahrungsjahren.<br />

A3: Homoskedastizität<br />

Problem: Unter Heteroskedastizität sind die OLS-Schätzer nicht<br />

mehr effizient und die Standardfehler der Schätzer sind verzerrt.<br />

Heteroskedastizität erkennt man am besten, wenn man � � gegen<br />

� y aufträgt. Trichterförmige Muster bedeuten Heteroskedastizität.<br />

Beispiel: Einkommensregression (West)<br />

Residuals<br />

12000<br />

8000<br />

4000<br />

0<br />

-4000<br />

0 1000 2000 3000 4000 5000 60007000<br />

Fitted values<br />

Man erkennt einen Trichter, die Residualvarianz steigt mit � y.<br />

Abhilfe: Transformation (s.u.), GLS, White-Schätzer (s. Skript).


<strong>Multivariate</strong> Verfahren, Brüderl 38<br />

A4: Autokorrelation<br />

Problem: Unter Autokorrelation sind die OLS-Schätzer nicht<br />

mehr effizient und die Standardfehler der Schätzer sind verzerrt.<br />

Autokorrelation tritt insbesondere bei Zeitreihen und räumlichen<br />

Daten auf. Bei Surveys eher unwahrscheinlich. Man kann<br />

Autokorrelation mittels der Durbin-Watson Teststatistik<br />

diagnostizieren (s. Hamilton, S. 118ff).<br />

Abhilfe: Für Zeitreihen wurden spezielle Regressionsverfahren<br />

entwickelt. Auch der White-Schätzer ist einsetzbar.<br />

A6: Normalverteilung<br />

Problem: Die Signifikanztests sind nicht mehr begründet, falls<br />

die Normalverteilungsannahme verletzt ist. Asymptotisch, d.h.<br />

bei großem n, sind die Tests aber auch dann noch gültig.<br />

Graphisch diagnostizierbar mittels Normal-Probability Plot.<br />

Beispiel: Einkommensregression (West)<br />

Residuals<br />

12000<br />

8000<br />

4000<br />

0<br />

-4000<br />

-4000 -2000 0 2000 4000<br />

Inverse Normal<br />

Man erkennt deutliche Abweichungen am rechten Rand der<br />

Residuenverteilung (rechtsschief).<br />

Abhilfe: Am einfachsten durch Transformation.<br />

Wir sahen in Kapitel 2, daß die Einkommensverteilung rechtsschief<br />

ist. Dies ist der Grund für unser Problem. Eine Transformation<br />

mit q�0 sollte das Problem beheben. Wir bilden also<br />

LNEINK�LN(EINK). Mit dieser neuen aV sehen die obigen Plots<br />

nun folgendermaßen aus:


<strong>Multivariate</strong> Verfahren, Brüderl 39<br />

Residuals<br />

1.5<br />

1<br />

.5<br />

0<br />

-.5<br />

-1<br />

-1.5<br />

7 7.5 8<br />

Fitted values<br />

8.5 9<br />

Residuals<br />

1.5<br />

1<br />

.5<br />

0<br />

-.5<br />

-1<br />

-1.5<br />

-1 -.5 0<br />

Inverse Normal<br />

.5 1<br />

Mit dieser Transformation haben wir beide Probleme (fast)<br />

beseitigt: die Heteroskedastizität fällt geringer aus, auch die<br />

NVannahme ist besser erfüllt (nur mehr heavy tails).<br />

Wir erhalten folgendes Ergebnis:<br />

Source | SS df MS Number of obs � 849<br />

---------�------------------------------ F( 8, 840) � 82.80<br />

Model | 81.4123948 8 10.1765493 Prob � F � 0.0000<br />

Residual | 103.237891 840 .122902251 R-squared � 0.4409<br />

---------�------------------------------ Adj R-squared � 0.4356<br />

Total | 184.650286 848 .217747978 Root MSE � .35057<br />

----------------------------------------------------------------------lneink<br />

| Coef. Std. Err. t P�|t| 95% Conf. Interval]<br />

-------�--------------------------------------------------------------bild<br />

| .0591425 .0054807 10.791 0.000 .048385 .0699<br />

exp | .0496282 .0041655 11.914 0.000 .0414522 .0578041<br />

exp2 | -.0009166 .0000908 -10.092 0.000 -.0010949 -.0007383<br />

prest | .000618 .0004518 1.368 0.172 -.0002689 .0015048<br />

frau | -.3577554 .0291036 -12.292 0.000 -.4148798 -.3006311<br />

angest | .1714642 .0310107 5.529 0.000 .1105966 .2323318<br />

beamt | .1705233 .0488323 3.492 0.001 .0746757 .2663709<br />

selbst | .2252737 .0442668 5.089 0.000 .1383872 .3121601<br />

_cons | 6.669825 .0734731 90.779 0.000 6.525613 6.814038<br />

-----------------------------------------------------------------------<br />

N.B.: R2 kann nicht mit dem aus der Regr auf eink verglichen werden!<br />

Interpretation: Wir haben ein semi-logarithmisches<br />

Regressionsmodell vorliegen.<br />

ln�yi� ��0��1xi ��i.<br />

Die Koeffizienten sind Effekte auf ln�y�. Das versteht niemand.<br />

Man braucht eine Interpretation in Bezug auf Y. Dazu notieren<br />

wir das Modell als<br />

E�y|x� � e�0��1x .<br />

Der Einheitseffekt (um wieviel verändert sich Y, wenn sich X um<br />

eine Einheit erhöht; bei Long: dicrete unit change) ist<br />

E�y|x � 1� − E�y|x� � E�y|x��e�1 − 1�.


<strong>Multivariate</strong> Verfahren, Brüderl 40<br />

Der Einheitseffekt ist jedoch von X abhängig, was die<br />

Interpretation erschwert. Eine von X unabhängige Interpretation<br />

erhält man aus:<br />

E�y|x � 1� − E�y|x�<br />

� e<br />

E�y|x�<br />

�1 − 1.<br />

Dies ist die prozentuale Veränderung von Y bei Erhöhung von X<br />

um eine Einheit. Diese Interpretation der Koeffizienten als<br />

Ertragsrate ist sehr anschaulich.<br />

Ist �1 � 0.1, so gilt e�1 − 1 ≈ �1, weshalb in diesem Fall der<br />

Regressionskoeffizient direkt als Ertragsrate interpretiert werden<br />

kann.<br />

Beispiel: Der Effekt von Frau ist e −.358 − 1 � −. 30. Frauen<br />

verdienen also um 30% weniger als Männer. Graphisch kann<br />

man diesen Efekt mit einem Conditional-Effekt Plot<br />

veranschaulichen (Exp variiert, Prest�50, Bild�13, Arbeiter).<br />

Einkommen<br />

4000<br />

3000<br />

2000<br />

1000<br />

0<br />

0 10 20 30 40 50<br />

Berufserfahrung<br />

blau: Frau, rot: Mann<br />

Der Einheitseffekt des Geschlechts (absolute Abstand) verändert<br />

sich mit EXP. Der relative Abstand bleibt aber gleich! Analoges<br />

gilt für den Effekt der Berufserfahrung.


<strong>Multivariate</strong> Verfahren, Brüderl 41<br />

Einflußreiche Datenpunkte<br />

Ein Datenpunkt ist einflußreich, wenn seine Beseitigung die<br />

Ergebnisse der Regression deutlich verändert.<br />

Problem: (Nur in extremen Fällen) Das Modell repräsentiert<br />

nicht den Großteil der Daten, sondern einen einzelnen Fall.<br />

Ein einflußreicher Datenpunkt ist immer ein Ausreißer.<br />

Insbesondere Fälle mit ungewöhnlichem X- und Y-Wert<br />

beeinflussen die Regression.<br />

Partielles-Regressions Streudiagramm<br />

Streudiagramme sind geeignet, um einflußreiche Datenpunkte<br />

visuell zu identifizieren. Im multiplen Fall muß man sogenannte<br />

Partielle-Regressions Streudiagramme einsetzen (in STATA<br />

”added-variable plot”). Man trägt nicht Y gegen Xj, sondern das<br />

Residuum aus der Regression von Y auf alle anderen X gegen<br />

das Residuum aus der Regression von Xj auf alle anderen X<br />

auf. Bildlich gesprochen wird dadurch aus Y und Xj der Effekt<br />

der anderen Variablen herausgerechnet. Ausreißer im<br />

Partiellen-Regressions Streudiagramm sind somit<br />

ungewöhnliche Datenpunkte, selbst wenn man für die anderen<br />

Variablen kontrolliert. Die Steigung der Regressionsgerade<br />

dieser beiden Residuen ist im übrigen identisch mit dem<br />

multiplen Regressionskoeffizienten der jeweiligen Variable.<br />

Einfluß Statistiken<br />

Man kann den Einfluß einer Beobachtung direkt messen. Dazu<br />

wird untersucht, wie sich �̂ j verändert, wenn Beobachtung i<br />

weggelassen wird (�̂ j�−i�). Das Maß<br />

DFBETASij � �̂ j − � ̂ j�−i�<br />

�̂ � ̂ j�−i�<br />

zeigt an, wie groß der (standardisierte!) Einfluß der Beobachtung<br />

i auf einen Koeffizienten j ist.<br />

DFBETASij � 0, Fallizieht � ̂ j<br />

DFBETASij � 0, Fallizieht � ̂ j<br />

nach oben<br />

nach unten<br />

.


<strong>Multivariate</strong> Verfahren, Brüderl 42<br />

Da in großen Stichproben eine einzelne Beobachtung kaum<br />

große Veränderungen der Schätzer bewirken kann, wird in der<br />

Literatur eine fallzahlabhängige Schwelle vorgeschlagen: Ist der<br />

Betrag von DFBETASij größer 2/ n , so ist Vorsicht geboten.<br />

Weil für jeden Koeffizienten und für jede Beobachtung ein<br />

DFBETASij berechnet werden kann, empfiehlt sich ein<br />

graphisches Vorgehen. Für jede Variable wird ein Plot erstellt, in<br />

dem DFBETAS gegen die Fallnummer aufgetragen wird (ein<br />

sogenannter Indexplot). Zeichnet man dann die Schwelle als<br />

Linie in dieses Diagramm, so kann man schnell prekäre Fälle<br />

ausfindig machen.<br />

Dies ist relativ umständlich. Cook’s D ist ein Maß, das die<br />

DFBETAS ”mittelt” (genauer s. Skript). Fälle mit besonders<br />

hohem D beeinflussen die Regression stark. Als Schwelle wir<br />

hier 4/n genannt.<br />

Beispiel: Einkommensregression (West)<br />

Wir betrachten die Regression auf EINK (ist einfacher). Widmen<br />

wir uns zuerst dem Effekt von SELBST.<br />

e( eink | X)<br />

12000<br />

8000<br />

4000<br />

0<br />

-4000<br />

coef = 1590.4996, se = 180.50053, t = 8.81<br />

-.4 -.2 0 .2<br />

e( selbst | X )<br />

.4 .6 .8<br />

Partielles-Regressions Plot für Selbst<br />

DFBETAS(Selbst)<br />

.6<br />

.4<br />

.2<br />

0<br />

-.2<br />

16<br />

209<br />

203<br />

172<br />

218<br />

302<br />

393<br />

590<br />

640<br />

13<br />

4<br />

2<br />

56 11 12 13 14 8910 17 18 19<br />

7<br />

15<br />

20 21<br />

22<br />

23<br />

49<br />

24 25 2852<br />

26 27 29 30 31 32 33 34<br />

55 61<br />

36 37 38<br />

39 40 41 42 43 44 45 46 47 48 50 53 54 56 57 58 59 60 62 63 65<br />

5166<br />

68 69<br />

67<br />

3564<br />

70<br />

71 72<br />

81<br />

74<br />

75 76<br />

78 80 82 83<br />

77<br />

79<br />

73<br />

84<br />

90<br />

370<br />

746<br />

93<br />

197 219 314 335 408<br />

683<br />

258<br />

684 801<br />

85<br />

86 87 88 89 91 92 100 94 102 95 98 99<br />

96 103 104<br />

105 106 107 108<br />

109 110 113<br />

111 112<br />

114 115 116 124<br />

117 118 120<br />

119<br />

121<br />

122 123 125 126 127 128 129 130 131<br />

133 134 135 137<br />

140<br />

138 141<br />

139 142 145 146 147 148 150 151 152 153 154<br />

156 157 159 164<br />

158 160 162 163<br />

144 155 161<br />

165 166 167 168 169 170<br />

171<br />

173 174 175 176 177 178<br />

179 181 195<br />

180 182 183 184 185<br />

186 188 189<br />

187 191 193 194 196<br />

198 199<br />

201<br />

200 202 204 205<br />

206 207 210 211 212<br />

213 224<br />

214 215<br />

208 216 217 220 221 222 223 225 227 228 229<br />

230<br />

231 232 234 235 236<br />

233 237 238 239 240 241 242 243 244<br />

249<br />

245 246 247<br />

250 253 259 260<br />

248 251 254 255<br />

261<br />

285<br />

256 257 262 265 266 267<br />

97 190226<br />

263 269 270 272<br />

264<br />

273 274 275<br />

277 278 279 280 282 287 293<br />

281<br />

268 283<br />

284 288 289<br />

295 296<br />

286 290 291 292 294 297 298 299 315<br />

300 301 303 304 305 306<br />

307 308 309 310 311 312 316 317 318 319 321 323 325<br />

326 334<br />

327 328 329 330 332 333 336 337 339 342 343 346<br />

252 271 276313<br />

324<br />

331 338 344<br />

341 345<br />

347 348 349 350 351 353 355 358<br />

363<br />

352 354 356<br />

359 360 361<br />

357 362 364 365 367 368 369 371<br />

372 373 374 376 377 378<br />

382<br />

379 380 381 383 384 385<br />

391<br />

387 388 389 392 394 395 396 398 401<br />

397 400 402 403 404<br />

386<br />

399<br />

406<br />

411 413<br />

407 410<br />

409<br />

412 414 416 417<br />

420 421 444<br />

415<br />

418<br />

419 423 424 426 427 428<br />

425 429 430 431 433 434 435 436 437 439 441 442 443 445 446 447 449 450 451 452<br />

453<br />

454<br />

457<br />

455 459<br />

482<br />

456 458 460 461 462 463 464<br />

465 466 467 468 470 471 472 473 474 475 476 477 478<br />

479 480 481 483<br />

484 486 487 488<br />

485 490 491 492 496 497<br />

493 494 495 498<br />

499 500<br />

501 507<br />

502 504 508 509<br />

505 506 510<br />

511<br />

512<br />

513 514 516 517 518 519 520 521 522 525 526 527 529<br />

532<br />

523 530<br />

533 534<br />

531<br />

535 536 537 538 539 540 543<br />

541 542 544 545 546 547 548 549 550 551 552 553 554 555 556 557 558<br />

559 560 562 563 564 565 566 567 568 575 587 613<br />

569 570 571 572 573 574 577<br />

576 580 581 582 583 584 585 586 592<br />

591<br />

593<br />

597<br />

594<br />

595 596 599 600 601 602 603 604 605 606 607 608 609 610 611 612 614 615 616 617 618<br />

619 620 621 622 623 624 630<br />

626<br />

625<br />

628 629<br />

631<br />

632<br />

635 636 648<br />

779<br />

633 634 638 639 641 642 643 644 645 647 649 650 651 652 653 655<br />

654 656 657 658 659 660 661 663 665 666 667 668 669 670 671 672 673 674 675 680<br />

676 677 681 682 685 686<br />

678 687 688 689 690 691<br />

693 694 695 696 697 698 699 702 709 712<br />

703 704 705 706 707 710 711 713 714 715 716 717 718 719 720 722 723<br />

724 725<br />

726<br />

727 728 730<br />

731 732 734<br />

735<br />

736 738 740 741 742<br />

743 744 745 747 748 749 750<br />

751 752 753 754<br />

756<br />

757<br />

758 759 760 761 762<br />

764 766 767 768 770 771 772 773 774 775 776 777 778 780<br />

390422<br />

469 598 733 737 739 763 765 781 782 783<br />

784 793<br />

785 786 788 790 794<br />

792 796 797 798<br />

787 789 791 799 800<br />

802<br />

803 804 805 806 809 833<br />

807 808 810 811 812 813 814 815 816 817 819 820 821<br />

822 823 824 826 829 830 831 832<br />

825 834 835 836 837 838 839<br />

818 828<br />

840 841<br />

842 843 844 845 846 847 848 849<br />

375<br />

192 320 448<br />

579 637<br />

489<br />

101<br />

503 528 589<br />

827<br />

646<br />

132 143<br />

340 432<br />

662<br />

679<br />

366405438<br />

440 515<br />

524561<br />

578 664700<br />

701 708 729<br />

322<br />

588<br />

755<br />

795<br />

136 149<br />

721<br />

0 200 400<br />

Fallnummer<br />

600 800<br />

627<br />

692<br />

Indexplot für DFBETAS(Selbst)<br />

Im linken Plot erkennt man einige einlußreiche Datenpunkte:<br />

einige Selbständige mit großen positiven Einkommensresiduen<br />

ziehen die Regressionsgerade hoch. Dies zeigt auch der Indexplot.<br />

Insgesamt 8 Fälle ziehen den Effekt der Selbständigkeit um<br />

jeweils mind. 0.4 Standardfehler hoch. Man erkennt auch, daß<br />

die Schwelle (~�0.07) viel zu niedrig ist.<br />

769


<strong>Multivariate</strong> Verfahren, Brüderl 43<br />

Diese Prozedur müßte man nun für alle Kovariaten durchmachen.<br />

Einfacher geht’s, wenn man das zusammenfassende<br />

Maß D betrachtet.<br />

Cooks D<br />

.14<br />

.12<br />

.1<br />

.08<br />

.06<br />

.04<br />

.02<br />

0<br />

209<br />

203<br />

172<br />

302<br />

627<br />

590<br />

1 2 34 11 5678910 12 13 14 15<br />

16<br />

17 18 19 20 21 22 23 24<br />

25<br />

35<br />

26 27 28 29 30 31 32 33 34 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63<br />

64<br />

65 66 67 68 69<br />

70<br />

71 72<br />

73<br />

74 75 76 77 78<br />

79<br />

80 81 82 83 84 85 86 87 88 89<br />

90 91<br />

322 393 438<br />

93 136 143 218<br />

489<br />

531<br />

721<br />

588<br />

149<br />

313 370<br />

92 100 94 101<br />

95 102 103 96 104 97 98 105 99 106 107 108 109 110 111 112 113 114 115 116 117 118 119<br />

120 121 122 123 124 125 126 127 128 129 130 131<br />

132 133 134 135 137 138 139 140 141 142 144 145 146 147 148 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198<br />

199 200 201 202<br />

204 205 206 207 208 210 211 212 213 214 215 216 217 219 220 221 222 223 224 226<br />

225 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266<br />

268<br />

267 269 270 271 272 273 274 275 276<br />

286<br />

277 278 279 280 281 282 283 284 285 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301 303 304 305 306 307 308 309 310 311 312 314 315<br />

316 317 318 319 320 321 323 324 325 326 327 328 329 330 331 332 333 334 335<br />

340 363<br />

336 337 338 339 341<br />

344<br />

366<br />

401 405 420<br />

342 343 345 346 347 348 349 350 351 352 353 354 355 356 357 358 359 360 361 362 364 365 367 368 369 371 372 373 374<br />

375 376 377 378 379 380 381 382 383 384 385 386 387 388 389 390 391 392 394 395 396 397 398 399 400 402 403 404 406<br />

408<br />

407 409 410 411 412 413 414 415 416 417 418 419 421 422<br />

429 440 523 524 573 664700<br />

769<br />

423 424 425 426 427 428 430 431<br />

432 505<br />

433 434 435 436 437 439 441 442 443 444 445 446 447 448 449 450 451 452 453 454 455 456 457 458 459 460 461 462 463 464 465 466 467 468 469 470 471 472 473 474 475 476 477 478 479 480 481 482 483 484 485 486 487 488 490 491 492 493 494 495 496 497 498 499 500 501 502 503 504 506 507 508<br />

509<br />

515 561 578 662<br />

510 511 512 513 514 516 517 518 519 520 521 522 525 526 527<br />

528<br />

529 530 532 533 534 535 536 537 538 539 540 541 542 543 544 545 546 547 548 549 550 551 552 553 554 555 556 557 558 559 560 562 563 564 565 566 567 568 569 570 571 572 574 575 576 577 579 580 581 582 583 584 585 586 587 589 597637<br />

591 592 593 594 595 596 598 599 600 601 602 603 604 605 606 607 608 609 610 611 612 613 614 615 616 617 618 619 620 621 622 623 624 625 626 628 629 630 631 632 633 634 635 638<br />

636 639 641 642 643 644 645 646 647 648 649 650 651 652 653 654 655 656 657 658 659 660 661 663 665 666 667<br />

671<br />

668 669 670 672 673 674 675 676 677 678 680 681 682 683 684 693 701<br />

708 729 746 755<br />

763 787 789 795<br />

685 686 687 688 689 690 691 694 695 696 697 698 699 702 703 704 705 706 707 709 710 711 712 713 714 715 716 717 718 719 720 722 723 724 725 726 727 728 730 731 732 733 734 735 736 737 738 739 740 741 742 743 744 745 747 748 749 750 751 752 753 754 756 757 758 759 760 761 762 764 765 766 767 768 770 771 772 773 774 775 776 777 778 779 780 781 782 783 784 785 786 788 790 791 792 793 794 796 797 798 799 800<br />

801 818<br />

802 803 804 805 806 807 808 809 810 811 812 813 814 815 816 817 819 820 821 822<br />

828<br />

823 824 825 826 829 830 831 832 833 834 835 836 837 838 839 840 841 842 843 844 845 846 847 848 849<br />

0 200 400<br />

Fallnummer<br />

600 800<br />

Die Schwelle (~0.005) ist auch hier viel zu niedrig angesetzt.<br />

Man erkennt aber zwei Fälle, die sich deutlich vom Rest<br />

absetzen. Sie üben relativ gesehen sehr starken Einfluß aus. Es<br />

lohnt sich, diese beiden Fälle anzusehen:<br />

eink ydach exp frau selbst D<br />

302. 17500 5808.125 31.5 0 1 .1492927<br />

692. 17500 5735.749 28.5 0 1 .1075122<br />

Es handelt sich um die beiden Großverdiener (Männer, Selbständige).<br />

Sie beeinflussen mehrere Schätzer stark (u.a. Exp,<br />

Frau, Selbst). Zusammen verändern sie die Regression deutlich.<br />

Abhilfe: Als erstes sollte man die identifizierten Datenpunkte auf<br />

Korrektheit überprüfen. Sind die Daten korrekt, so muß man sich<br />

überlegen, was die Punkte gemeinsam haben. Anhand dieser<br />

Überlegungen kommt man evtl. zu einer Verbesserung der<br />

Modellspezifikation. Weglassen ist keine Lösung, dies ist<br />

Manipulation!<br />

Beispiel: Einkommensregression (West)<br />

Was machen wir mit den beiden Großverdienern? Die 17.500,-<br />

DM sind ein zugewiesener Wert (�15.000,- DM). Von daher<br />

haben wir offensichtlich ein Problem. Generell ist die Einkommensangabe<br />

bei Selbständigen problematisch. Deshalb ist es<br />

eine mögliche Lösung, die Selbständigen generell aus dem<br />

Modell auszuschließen. Diese Überlegung führt schließlich zu<br />

folgendem Modell (wieder mit LN(EINK)):<br />

640<br />

692<br />

679<br />

827


<strong>Multivariate</strong> Verfahren, Brüderl 44<br />

Source | SS df MS Number of obs � 756<br />

---------�------------------------------ F( 7, 748) � 105.47<br />

Model | 60.6491102 7 8.66415861 Prob � F � 0.0000<br />

Residual | 61.4445399 748 .082145107 R-squared � 0.4967<br />

---------�------------------------------ Adj R-squared � 0.4920<br />

Total | 122.09365 755 .161713444 Root MSE � .28661<br />

----------------------------------------------------------------------lneink<br />

| Coef. Std. Err. t P�|t| [95% Conf. Interval]<br />

-------�--------------------------------------------------------------bild<br />

| .057521 .0047798 12.034 0.000 .0481377 .0669044<br />

exp | .0433609 .0037117 11.682 0.000 .0360743 .0506475<br />

exp2 | -.0007881 .0000834 -9.455 0.000 -.0009517 -.0006245<br />

prest | .0005446 .0003951 1.378 0.168 -.000231 .0013203<br />

frau | -.3211721 .0249711 -12.862 0.000 -.370194 -.2721503<br />

angest | .1630886 .0258418 6.311 0.000 .1123575 .2138197<br />

beamt | .1790793 .0402933 4.444 0.000 .0999779 .2581807<br />

_cons | 6.743215 .0636083 106.012 0.000 6.618343 6.868087<br />

-----------------------------------------------------------------------<br />

Durch die Überlegungen in Kapitel 6 und 7 haben wir schließlich<br />

ein sehr gutes Modell gefunden (R2 � 50%). Eine erneute<br />

Überprüfung mittels D zeigt, daß in diesem Modell kein Fall<br />

auffallenden Einfluß hat.<br />

N.B. 1: Die nun gefundene Spezifikation der Einkommensregression<br />

entspricht dem Standard in der einschlägigen<br />

Forschungsliteratur.<br />

N.B. 2: Führt man die Einflußanalyse gleich mit LN(EINK) durch,<br />

so sind die Großverdiener nicht einflußreich. Dafür bekommt<br />

man aber Probleme mit Selbständigen, die ganz wenig verdienen.<br />

Dies legt ebenfalls den Ausschluß der Selbständigen<br />

nahe.<br />

Regressionsdiagnostik als iterativer Prozeß<br />

Da wir das Modell im letzten Schritt deutlich verändert haben,<br />

müßte man eigentlich wieder von vorne beginnen und auf<br />

Linearität, Homoskedastie und Normalverteilung testen.<br />

Verändert man aufgrund dieser Überprüfungen wieder etwas, so<br />

müßte man wiederum die Einflußdiagnose wiederholen. ...


<strong>Multivariate</strong> Verfahren, Brüderl 45<br />

8) Rekursive Systeme und Pfadanalyse<br />

Die soziale Welt ist komplex und entsprechend postulieren<br />

theoretische Ansätze oft Kausalstrukturen, die nicht mehr nur mit<br />

einer Gleichung modelliert werden können. Man benötigt<br />

Mehrgleichungssysteme. Ein Mehrgleichungssystem besteht aus<br />

mindestens zwei sogenannten Strukturgleichungen, die die<br />

theoretische Kausalstruktur abbilden.<br />

Graphisch stellt man solche Systeme übersichtlich in einem<br />

Kausaldiagramm dar. Die Variablen stehen in rechteckigen<br />

Kästen, die mittels Pfeilen verbunden sind. Gerade Pfeile<br />

symbolisieren einen gerichteten Kausaleffekt. Gebogene Pfeile<br />

mit zwei Spitzen stehen für eine Korrelation. Exogene Variablen<br />

(X) sind solche Variablen, auf die kein Kausalpfeil zeigt. Endogene<br />

Variablen (Y) sind Ziel mindestens eines Kausalpfeils. Jede<br />

endogene Variable ist zusätzlich mit einem Residualpfeil<br />

markiert. Die Pfeile sind mit Gewichten versehen, die die relative<br />

Stärke des Effektes (bzw. die Korrelation) angeben. Diese<br />

Gewichte nennt man Pfadkoeffizienten (Pfaddiagramm).<br />

Pfadanalyse<br />

Die Pfadanalyse ist ein Verfahren zur Bestimmung der Pfadkoeffizienten<br />

(Wright, 1934). Klassischerweise berechnet man<br />

dieselben aus der Korrelationsmatrix. Es zeigt sich allerdings,<br />

daß dieselben den standardisierten Regressionskoeffizienten<br />

entsprechen. Man berechnet also für jede endogene Variable<br />

eine Regression und trägt die standardisierten Koeffizienten in<br />

das Kausaldiagramm ein.<br />

Beispiel: Statuszuweisungsmodell von Blau/Duncan (1967)<br />

Das Statuszuweisungsmodell postuliert, daß das Berufsprestige<br />

und die Bildung des Vaters einen Einfluß auf das Bildungsniveau<br />

einer Person haben. Dieses wiederum bestimmt<br />

zusammen mit den beiden Herkunftsvariablen das Einkommen<br />

(original das Berufsprestige).<br />

Wir schätzen dieses Modell mit dem ALLBUS 94 (nur Männer,<br />

West, N�591). Wir verwenden ln(EINK) und die Bildung des<br />

Vaters messen wir in Jahren (v219-v230).


<strong>Multivariate</strong> Verfahren, Brüderl 46<br />

. correlate lneink bild prestv bildv<br />

| lneink bild prestv bildv<br />

---------�-----------------------------------lneink<br />

| 1.0000<br />

bild | 0.4382 1.0000<br />

prestv | 0.2379 0.4551 1.0000<br />

bildv | 0.1955 0.4618 0.7117 1.0000<br />

. regress bild prestv bildv, beta<br />

R-squared � 0.2457<br />

----------------------------------------------------------------bild<br />

| Coef. Std. Err. t P�|t| Beta<br />

---------�------------------------------------------------------prestv<br />

| .022751 .0045259 5.027 0.000 .2562869<br />

bildv | .3026322 .0552227 5.480 0.000 .2794015<br />

_cons | 7.638318 .4821284 15.843 0.000 .<br />

-----------------------------------------------------------------<br />

. regress lneink bild prestv bildv, beta<br />

R-squared � 0.1960<br />

----------------------------------------------------------------lneink<br />

| Coef. Std. Err. t P�|t| Beta<br />

---------�------------------------------------------------------bild<br />

| .070636 .0070377 10.037 0.000 .4276933<br />

prestv | .0013262 .0007888 1.681 0.093 .0904558<br />

bildv | -.0118746 .0096618 -1.229 0.220 -.0663803<br />

_cons | 7.247333 .0982824 73.740 0.000 .<br />

-----------------------------------------------------------------<br />

Anhand dieser Ergebnisse können wir das Pfaddiagramm<br />

erstellen. Bei den Residualpfeilen trägt man üblicherweise<br />

1 − R 2 ab.<br />

0,71<br />

0,26<br />

0,28<br />

Bildung Vater<br />

X 3<br />

0.87<br />

0,09<br />

0,43<br />

-0,07<br />

0.90


<strong>Multivariate</strong> Verfahren, Brüderl 47<br />

Annahmen<br />

1) Die üblichen Regressionsannahmen<br />

2) Rekursivität<br />

Obiges Modell ist ein sogenanntes rekursives Simultangleichungssystem,<br />

weil der erste Kausalprozeß (Bildungsteilnahme)<br />

zwar den zweiten Kausalprozeß (Statuszuweisung) beeinflußt,<br />

nicht aber umgekehrt. Das Modell wäre nicht-rekursiv, wenn<br />

zusätzlich ein Pfeil von Y2 nach Y1 enthalten wäre. Der<br />

stufenförmige Aufbau eines rekursiven Systems wird besonders<br />

deutlich, wenn man die Regressionsgleichungen niederschreibt<br />

(Personenindex i weggelassen):<br />

y1 � �11 ��12x2 ��13x3 ��1<br />

y2 � �21y1 ��21 ��22x2 ��23x3 ��2 .<br />

Dieses Modell ist ein Simultangleichungssystem, weil die<br />

abhängige Variable Y1 gleichzeitig unabhängige Variable ist. Y1<br />

selbst hängt aber nur von exogenen Größen ab. Ist deshalb Y1<br />

bestimmt, so ergibt sich Y2 rekursiv, indem man die erste<br />

Gleichung in die zweite einsetzt.<br />

Für nicht-rekursive Systeme gibt’s spezielle Schätzverfahren.<br />

3) Fehler der Gleichungen unkorreliert<br />

�1 und �2 dürfen nicht korreliert sein. Dies ist eine eher unrealistische<br />

Annahme. Naheliegend wäre etwa, daß ”ability” in beiden<br />

Fehlern steckt.<br />

Bei korrelierten Fehlern sind die OLS-Schätzer inkonsistent und<br />

nicht identifiziert.<br />

Was bringt Pfadanalyse?<br />

• Übersichtliche Darstellung der Ergebnisse<br />

• Zerlegung des Gesamteffektes in direkten und indirekte<br />

Effekte.<br />

Beispiel ”Bildung Vater” ”Einkommen”:<br />

− 0.07 � 0.28 � 0. 43 � −0. 07 � 0. 12 � 0. 05.


<strong>Multivariate</strong> Verfahren, Brüderl 48<br />

• Korrelationszerlegung. Die Korrelation einer vorausgehenden<br />

mit einer endogenen Variable ergibt sich als Summe aus dem<br />

Gesamteffekt (Kausaleffekt) und den nicht-kausalen Effekten.<br />

Dazu muß man ”Wrights Rules” beachten (keine Schleifen,<br />

kein Rückwärtsgehen nach Vorwärtsgehen, höchstens ein<br />

gebogener Pfeil).<br />

Beispiel: ”Bildung Vater” ”Einkommen” (unanalyzed effects)<br />

−.066 �.279 �.428 �.71�.09�.71�.256 �.428 �.195<br />

Beispiel: ”Bildung” ”Einkommen” (spurious effects)<br />

.428 −.279 �.066 �.256 �.09−. 256 �.71�. 066 �. 279 �.71�.09 �.438.<br />

Mittels dieser Korrelationszerlegung kann man auch die Pfadkoeffizienten<br />

bestimmen: Man hat fünf Gleichungen in fünf<br />

Unbekannten (Modell ist exakt identifiziert).<br />

Kausalanalyse?<br />

Ursprünglich verband man mit der Pfadanalyse die Hoffnung,<br />

daß sie kausale Effekte zutage fördern kann (daher die<br />

Terminologie). Diese Hoffnung ist natürlich unbegründet. Statistik<br />

(insbesondere mit Querschnittsdaten) ist keine Kausalanalyse.<br />

Hauptprobleme:<br />

• Fehlspezifikation<br />

• Selbstselektion<br />

• zeitliche Reihenfolge<br />

Erweiterungen<br />

Für nicht-rekursive Systeme existieren spezielle Schätzverfahren<br />

(ILS, 2SLS).<br />

Man kann in Mehrgleichungsmodellen auch Meßfehler und<br />

latente Variablen zulassen (LISREL-Modelle, Strukturgleichungsmodelle).<br />

All diese Erweiterungen benötigen allerdings eine Vielzahl von<br />

weiteren, häufig nicht überprüfbarer Annahmen, so daß nicht klar<br />

ist, ob deren Ergebnisse ”besser” sind, als die simplen<br />

OLS-Schätzer.


<strong>Multivariate</strong> Verfahren, Brüderl 49<br />

9) Das logistische Regressionsmodell<br />

Ist die aV nominal, so sind Mittelwert-Regressionen nicht<br />

sinnvoll. Man kann jedoch die relativen Häufigkeiten betrachten,<br />

und untersuchen, wie dieselben von den Werten der uV bedingt<br />

werden. Y kann mind. 2 mögliche Werte annehmen, dann<br />

besteht eine Regression aus den J�1 Funktionen<br />

�j�x� � f�Y � j|X � x� für j � 0, 1, … ,J.<br />

Ist X diskret, so beschreibt dies eine Kreuztabelle mit den<br />

bedingten relativen Häufigkeiten. Eine Kreuztabelle kann mithin<br />

als Regression aufgefaßt werden!<br />

Haben wir viele uVs und/oder stetige uVs, so ist es allerdings<br />

sinnvoll, parametrische Regressionsmodelle zu konstruieren. Die<br />

gewählte Funktion muß folgende Eigenschaften haben:<br />

0 ≤ �0�x;��, … , �J�x;�� ≤ 1<br />

J<br />

∑ �j�x;�� � 1<br />

j�0<br />

Damit ist die Klasse der für diesen Fall brauchbaren<br />

Regressionsmodelle deutlich eingeschränkt. In der Praxis<br />

verwendet man meist Verteilungsfunktionen.<br />

Das binäre Logit-Modell<br />

Ist Y dichotom (J�1) und wählen wir die logistische Verteilung<br />

��z� � exp�z�/�1 � exp�z��, so erhalten wir das binäre Logit-<br />

Modell (logistische Regression). Man wählt eine lineare<br />

Parametrisierung (�0 ��1x1 �… ��pxp � � ′ x) und erhält<br />

P�Y � 1� � e �′ x<br />

1 � e �′ x � 1<br />

1 � e −�′ x<br />

P�Y � 0� � 1 − P�Y � 1� �<br />

.<br />

1<br />

1 � e �′ x .<br />

Die Regressionskoeffizienten dieses Modells sind nicht einfach<br />

zu interpretieren. Am einfachsten ist die Vorzeicheninterpretation:<br />

ein positiver (negativer) Koeffizient sagt uns, daß mit<br />

steigendem X P(Y�1) zunimmt (abnimmt). Geschätzt werden die<br />

Koeffizienten mit der ML-Methode (OLS nicht sinnvoll).


<strong>Multivariate</strong> Verfahren, Brüderl 50<br />

Beispiel 1: Wahlverhalten und Wohnort (diskretes X)<br />

Im ALLBUS ist eine Sonntagsfrage enthalten (v329). Wir<br />

dichotomisieren: CDU/CSU�1, andere Parteien�0 (nur Wähler).<br />

Wir untersuchen ob Ost/West einen Einfluß hat. Wir erhalten<br />

folgende Kreuztabelle:<br />

| ost<br />

cdu | 0 1 | Total<br />

-----------�----------------------�----------<br />

0 | 1043 563 | 1606<br />

| 66.18 77.98 | 69.89<br />

-----------�----------------------�----------<br />

1 | 533 159 | 692<br />

| 33.82 22.02 | 30.11<br />

-----------�----------------------�----------<br />

Total | 1576 722 | 2298<br />

| 100.00 100.00 | 100.00<br />

Die logistische Regression liefert folgendes Ergebnis:<br />

. logit cdu ost<br />

Iteration 0: log likelihood � -1405.9621<br />

Iteration 1: log likelihood � -1389.1023<br />

Iteration 2: log likelihood � -1389.0067<br />

Iteration 3: log likelihood � -1389.0067<br />

Logit estimates Number of obs � 2298<br />

LR chi2(1) � 33.91<br />

Prob � chi2 � 0.0000<br />

Log likelihood � -1389.0067 Pseudo R2 � 0.0121<br />

-------------------------------------------------------------------cdu<br />

| Coef. Std. Err. z P�|z| [95% Conf. Interval]<br />

-----�-------------------------------------------------------------ost<br />

| -.5930404 .1044052 -5.680 0.000 -.7976709 -.3884099<br />

cons | -.671335 .0532442 -12.609 0.000 -.7756918 -.5669783<br />

--------------------------------------------------------------------<br />

Der negative Koeffizientenschätzer sagt uns, daß die<br />

Ostdeutschen (signifikant) seltener CDU wählen. Diese Schätzer<br />

reproduzieren die Kreuztabelle, denn:<br />

P�Y � 1|X � Ost� � 1 �. 220<br />

−�−.671−.593�<br />

1 � e<br />

P�Y � 1|X � West� � 1 �. 338.<br />

1 � e−�−.671� Wir sehen, daß das Logit-Modell die Information der Kreuztabelle<br />

nur umformt. Der Vorteil des Logit-Modells kommt erst bei einer<br />

multivariaten Anwendung zum Tragen (d.h., wenn wir mehrere<br />

Kovariaten (uVs) berücksichtigen).


<strong>Multivariate</strong> Verfahren, Brüderl 51<br />

Warum nicht OLS?<br />

Man könnte versucht sein, einfach das lineare Regressionsmodell<br />

auf eine 0/1 Y-Variable anzuwenden:<br />

E�Y|x� � P�Y � 1|x� � � ′ x.<br />

Dies ist das lineare Wahrscheinlichkeitsmodell. Dieses Modell<br />

hat nicht-normalverteilte und heteroskedastische Fehler. Außerdem<br />

kann es Prognosen außerhalb �0, 1� liefern. Dennoch<br />

funktioniert es häufig ganz gut. In unserem Beispiel liefert es für<br />

praktische Zwecke äquivalente und dazu noch leichter interpretierbare<br />

Ergebnisse (Einheitseffekt auf P(Y�1)):<br />

. regr cdu ost<br />

R-squared � 0.0143<br />

----------------------------------------------------------------------cdu<br />

| Coef. Std. Err. t P�|t| [95% Conf. Interval]<br />

-----�----------------------------------------------------------------ost<br />

| -.1179764 .0204775 -5.761 0.000 -.1581326 -.0778201<br />

cons | .338198 .0114781 29.465 0.000 .3156894 .3607065<br />

-----------------------------------------------------------------------<br />

Beispiel 2: Wahlverhalten und Alter (stetige X)<br />

. logit cdu alter<br />

Iteration 0: log likelihood � -1405.2452<br />

Iteration 3: log likelihood � -1364.6916<br />

Logit estimates Number of obs � 2296<br />

LR chi2(1) � 81.11<br />

Prob � chi2 � 0.0000<br />

Log likelihood � -1364.6916 Pseudo R2 � 0.0289<br />

-----------------------------------------------------cdu<br />

| Coef. Std. Err. z P�|z|<br />

---------�-------------------------------------------alter<br />

| .0245216 .002765 8.869 0.000<br />

_cons | -2.010266 .1430309 -14.055 0.000<br />

------------------------------------------------------<br />

. regress cdu alter<br />

R-squared � 0.0353<br />

-----------------------------------------------------cdu<br />

| Coef. Std. Err. t P�|t|<br />

---------�-------------------------------------------alter<br />

| .0051239 .000559 9.166 0.000<br />

_cons | .0637782 .0275796 2.313 0.021<br />

------------------------------------------------------<br />

Mit steigendem Alter steigt P(CDU). Das lineare Wahrscheinlichkeitsmodell<br />

kommt zu praktisch identischen Ergebnissen.


<strong>Multivariate</strong> Verfahren, Brüderl 52<br />

CDU<br />

1<br />

.8<br />

.6<br />

.4<br />

.2<br />

0<br />

10 20 30 40 50 60 70 80 90 100<br />

Alter<br />

Dieses Streudiagramm enthält die geschätzten Regressionen:<br />

OLS (blau), Logit (grün), Lowess (braun). Der Grund für die hohe<br />

Übereinstimmung ist die annähernde Linearität der logistischen<br />

Funktion im Intervall �0.2,0. 8�. Der Lowess zeigt eine<br />

Abweichung von der Logit-Funktion bei den Jungen.<br />

Interpretation von Logit-Effekten<br />

Als Effekte auf eine latente Variable<br />

Man kann das Logit-Modell als Schwellenwertmodell mittels<br />

einer stetigen, latenten Variable Y ∗ formulieren. Obiges Bsp.: Y ∗<br />

ist die (unbeobachtete) Differenz des Nutzens einer CDU-<br />

Regierung zu einer anderen Regierung. Wir spezifizieren ein<br />

Regressionsmodell für Y ∗ :<br />

y ∗ � � ′ x ��,<br />

wobei wir allerdings Y ∗ nicht kennen. Wir kennen nur die<br />

resultierende binäre Variable Y, die sich aus dem folgenden<br />

Schwellenwertmodell ergibt:<br />

y � 1, für y ∗ � 0,<br />

y � 0, für y∗ ≤ 0.<br />

Nunmußmanfür�eine Verteilungsannahme treffen. Bei Annahme<br />

einer logistischen Verteilung erhalten wir das Logit-<br />

Modell. Damit können die Koeffizienten als Effekte auf die latente<br />

Variable interpretiert werden. Diese Interpretation findet sich in<br />

der Literatur jedoch nur selten.


<strong>Multivariate</strong> Verfahren, Brüderl<br />

Diese Formulierung als Schwellenwertmodell macht klar, daß<br />

das Logit-Modell durchaus einen Fehlerterm enthält!<br />

Wahrscheinlichkeiten, Odds und Logits<br />

53<br />

Einfachheitshalber gehen wir nun von nur einem stetigen X aus.<br />

Das Logit-Modell hat drei äquivalente Formulierungen:<br />

Wahrscheinlichkeitsformulierung:<br />

P�Y � 1|x� � e���x .<br />

1 � e���x Oddsformulierung:<br />

P�Y � 1|x�<br />

P�Y � 0|x� � e���x .<br />

"Odds" ist ein Wahrscheinlichkeitsverhältnis (Glücksspiele: die<br />

Gewinnchance, Versicherungswissenschaft: das Risiko).<br />

Logitformulierung (Log-Odds):<br />

ln<br />

P�Y � 1|x�<br />

P�Y � 0|x�<br />

����x.<br />

Beispiel: Folgende Plots mit ��−4, ��0. 8 :<br />

1<br />

0.9<br />

0.8<br />

0.7<br />

0.6<br />

P 0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

0<br />

1 2 3 4 5 6 7 8 9 10<br />

X<br />

Wahrscheinlichkeit<br />

5<br />

4.5<br />

4<br />

3.5<br />

3<br />

O 2.5<br />

2<br />

1.5<br />

1<br />

0.5<br />

0<br />

1 2 3 4 5 6 7 8 9 10<br />

X<br />

Odds<br />

L<br />

5<br />

4<br />

3<br />

2<br />

1<br />

0<br />

-1<br />

-2<br />

-3<br />

-4<br />

-5<br />

1 2 3 4 5 6 7 8 9 10<br />

X<br />

Logit<br />

Logit-Interpretation<br />

� ist der Einheitseffekt auf das Logit. Das versteht niemand.<br />

Odds-Interpretation<br />

Erhöht sich X um eine Einheit, so verändert sich das Odds um<br />

den Faktor e � (e ����x�1� � e ���x e � ). e � ist somit als (multiplikativer)<br />

Einheitseffekt auf die Odds zu interpretieren. Diese Interpretation<br />

ist zwar ebenfalls nicht sehr anschaulich, findet sich aber häufig<br />

in der Literatur.


<strong>Multivariate</strong> Verfahren, Brüderl 54<br />

Beispiel 1: e −.593 �.55. Damit ist das Odds CDU vs. Andere im<br />

Osten um den Faktor 0.55 kleiner. Kontrolle:<br />

Oddsost �. 22/.78 �.282, Oddswest �.338/. 662 �.510, und damit<br />

.510 �.55 �.281.<br />

Vorsicht: Nicht die P(CDU) ist im Osten rund die Hälfte kleiner,<br />

sondern die Odds!<br />

Beispiel 2: e .0245 � 1.0248. Mit jedem Jahr steigt das Odds um<br />

2.5%. Also bei 10 Jahren um 25%? Nein, denn<br />

e .0245�10 � 1.024810 � 1.278, also um 28%.<br />

Andere Formulierung (X Dummy):<br />

P�Y�1|x�1�<br />

P�Y�0|x�1�<br />

P�Y�1|x�0�<br />

P�Y�0|x�0�<br />

�<br />

P�Y � 1|x � 1�P�Y � 0|x � 0�<br />

P�Y � 0|x � 1�P�Y � 1|x � 0� � e� .<br />

e� ist also die bekannte Odds-Ratio.<br />

Wahrscheinlichkeitsinterpretation<br />

Welchen Effekt auf P�Y � 1� hat eine Erhöhung von X um eine<br />

Einheit? Leider hängt dieser Einheitseffekt von X ab (s. obigen<br />

Plot). Deshalb wählt man einen bestimmten X-Wert (meist x )<br />

und errechnet an dieser Stelle<br />

���� x �1�<br />

P�Y � 1| x � 1� − P�Y � 1| x � � e<br />

1 � e���� x �1� − ��� x e .<br />

1 � e��� x<br />

Dies ist die anschaulichste Interpretation der Logit-Effekte.<br />

Normalerweise muß man die Einheitseffekte von Hand<br />

ausrechnen. In STATA gibt es allerdings ein Ado, welches das<br />

macht.<br />

Beispiel 1: Der Einheitseffekt (ausgehend von West) ist<br />

.338 −.220 � −.118, also -12 Prozentpunkte.<br />

Beispiel 2: Das mittlere Alter ist 46.374. damit ist der<br />

Einheitseffekt<br />

1<br />

1 � e2.01−.0245�47.374 − 1 � 0. 00512.<br />

1 � e2.01−.0245�46.374 Das 47. Lebensjahr erhöht die P(CDU) um 0.5 Prozentpunkte.<br />

Man beachte, daß in beiden Beispielen das lineare Wahrscheinlichkeitsmodell<br />

die Einheitseffekte (fast) exakt trifft!


<strong>Multivariate</strong> Verfahren, Brüderl 55<br />

ML-Schätzung<br />

Man hat Daten �yi,xi� und ein Regressionsmodell<br />

f�Y � y|X � x; ��. Nun muß man die Parameter � so schätzen,<br />

daß das Modell die Daten am besten anpaßt. Dazu gibt es<br />

verschiedene mögliche Kriterien. Das verbreitetste Kriterium ist<br />

das Maximum-Likelihood Prinzip (ML).<br />

Die Idee ist, � � so zu wählen, daß die Likelihood für die beobachteten<br />

Daten maximal wird. Gegeben das Modell und unabhängige<br />

Stichprobenziehungen aus dem Modell ist die Likelihood<br />

n<br />

L��� � � i�1<br />

f�yi,xi; ��.<br />

Der ML-Schätzer wird bestimmt durch Maximierung der Likelihood.<br />

Für die Berechnung ist es vorteilhaft die Log-Likelihood zu<br />

maximieren<br />

n<br />

l��� � ∑ i�1<br />

ln f�yi,xi; ��.<br />

Man bildet die ersten Ableitungen und setzt diese gleich 0.<br />

Die ML-Schätzer haben einige wünschenswerte statistischen<br />

Eigenschaften (gelten nur asymptotisch)<br />

• Konsistenz: E� � � ML � � �<br />

• Normalverteilt: � � ML � N��, I��� −1 �, wobei I��� � −E� ∂2 ln L<br />

∂� ∂� ′ �<br />

• Effizienz: die ML-Schätzer haben minimale Varianz<br />

(Rao-Cramer Schranke)


<strong>Multivariate</strong> Verfahren, Brüderl 56<br />

ML-Schätzer des binären Logit-Modells<br />

Die Whs. für eine Beobachtung mit Y�1 ist P(Y�1).<br />

Entsprechend für Y�0. Damit lautet die Likelihood<br />

n<br />

L��� � � i�1<br />

e �′ xi<br />

1 � e �′ xi<br />

Die Log-Likelihood ist damit<br />

l��� �<br />

n<br />

∑<br />

i�1<br />

�<br />

n<br />

∑<br />

i�1<br />

�<br />

n<br />

∑ yi�<br />

i�1<br />

′ n<br />

xi − ∑<br />

i�1<br />

yi ln e �′ x i<br />

1�e �′ x i<br />

Ableiten nach � liefert :<br />

yi<br />

�<br />

� �1 − yi� ln<br />

1<br />

1 � e �′ xi<br />

1<br />

1�e �′ x i<br />

�1−yi�<br />

yi ln e �′ xi − yi ln�1 � e �′ xi� − ln�1 � e �′ xi� � yi ln�1 � e �′ xi�<br />

∂l���<br />

∂�<br />

ln�1 � e �′ xi�.<br />

� ∑ yixi − ∑ e�′ xi<br />

1 � e �′ xi<br />

Nullsetzen liefert die Schätzgleichungen:<br />

∑ yixi � ∑ e� � ′ xi<br />

1 � e � � ′ xi<br />

Im Gegensatz zu den OLS-Normalgleichungen sind dies<br />

nicht-lineare Gleichungen, die mittels iterativer Algorithmen<br />

gelöst werden müssen.<br />

xi.<br />

xi.<br />

.


<strong>Multivariate</strong> Verfahren, Brüderl 57<br />

Signifikanztests und Modellfit<br />

Problem ist, daß die Streuungszerlegung nicht sinnvoll ist.<br />

Deshalb muß man hier anders vorgehen.<br />

Signifikanz des Gesamtmodells<br />

Man vergleicht die Likelihood des Gesamtmodells (ln L1) mit der<br />

des restringierten Modells mit nur der Konstanten (ln L0). Man<br />

berechnet die Likelihood-Ratio Testgröße<br />

�2 � −2ln L0 � 2�ln L1 − ln L0�.<br />

L1<br />

Unter der Nullhypothese H0 : �1 ��2 �… � �p � 0 ist diese<br />

Statistik asymptotisch �2 p-verteilt. Beispiel 2: ln L1 � −1364.7 und ln L0 � −1405.2 (Iteration 0).<br />

�2 � 2�−1364. 7 � 1405. 2� � 81. 0.<br />

Bei einem Freiheitsgrad können wir die H0 zurückweisen.<br />

Signifikanz eines Regressionskoeffizienten<br />

Aus der Informationsmatrix erhält man den Standardfehler jedes<br />

Regressionskoeffizienten. Man berechnet den t-Wert, welcher<br />

asymptotisch normalverteilt ist.<br />

Man kann auch den Likelihood-Ratio Test einsetzen, um<br />

einzelne Koeffizienten oder eine Menge derselben zu testen<br />

(LR-Test vorziehen bei Diskrepanzen).<br />

Modellfit<br />

Der Likelihood-Ratio Test ist kein Fitmaß. Aber auf seiner Basis<br />

haben verschiedene Autoren in Analogie zur linearen Regression<br />

sogenannte Pseudo-R 2 Maße vorgeschlagen. Dies sind<br />

Maße dafür, wieviel von der restringierten Likelihood (das Modell<br />

mit nur einer Konstanten) durch das unrestringierte Modell<br />

”erklärt” werden kann. Sie sind null, wenn die zusätzlichen<br />

Koeffizienten des Modells die Likelihood nicht verbessern.<br />

Anders als im linearen Regressionsmodell ist ihre Obergrenze<br />

allerdings meist nicht eins, sondern liegt darunter.


<strong>Multivariate</strong> Verfahren, Brüderl 58<br />

Das McFadden Pseudo-R 2 ist definiert als:<br />

2 RMF �<br />

ln L0 − ln L1<br />

ln L0<br />

Es erfaßt die relative Log-Likelihood Verbesserung des<br />

unrestringierten Modells gegenüber dem Modell mit nur einer<br />

Konstanten. Erfahrungsgemäß fällt es eher kleiner aus, als das<br />

R2 des linearen Wahrscheinlichkeitsmodells.<br />

Beispiel 2: R2 � 0.035 und damit etwas größer als<br />

2 RMF � 1405. 2 − 1364. 7 � 0. 029.<br />

1405. 2<br />

Diagnostik<br />

Wie bei der OLS-Regression sollte man auch beim Logit-Modell<br />

Diagnostik betreiben.<br />

Perfekte Diskriminierung<br />

Hat bei diskretem X eine Kategorie nur 0 oder 1, so ist das Logit<br />

Unendlich. Folglich ist das Modell mit dieser Variable nicht<br />

schätzbar. Ähnliches passiert bei stetigen Variablen, wenn ein<br />

Wert perfekt die 0 von der 1 trennt. Manche Programme<br />

erkennen dieses Problem nicht (STATA schon!) und liefern ein<br />

Schätzergebnis. Man erkennt das Problem im Output, wenn<br />

nämlich sehr große Koeffizienten mit sehr großen Standardfehlern<br />

auftauchen.<br />

Funktionale Form<br />

Überprüfbar mit dem Lowess im Streudiagramm (s. obige Abb.).<br />

.


<strong>Multivariate</strong> Verfahren, Brüderl 59<br />

Beispiel: Ein multivariates Logit-Modell<br />

Wir erweitern unser Wahlmodell um Bildung, Geschlecht und<br />

berufliche Stellung.<br />

. logit cdu bild alter ost frau angest beamt selbst azubi<br />

Iteration 0: log likelihood � -757.23006<br />

Iteration 1: log likelihood � -718.71868<br />

Iteration 2: log likelihood � -718.25208<br />

Iteration 3: log likelihood � -718.25194<br />

Logit estimates Number of obs � 1262<br />

LR chi2(8) � 77.96<br />

Prob � chi2 � 0.0000<br />

Log likelihood � -718.25194 Pseudo R2 � 0.0515<br />

---------------------------------------------------------cdu<br />

| Coef. Std. Err. z P�|z| Odds Eineff<br />

-------�-------------------------------------------------bild<br />

| -.04362 .0264973 -1.646 0.100 .957 -.009<br />

alter | .0351726 .0059116 5.950 0.000 1.035 .007<br />

ost | -.4910153 .1510739 -3.250 0.001 .612 -.094<br />

frau | -.1647772 .1421791 -1.159 0.246 .848 -.033<br />

angest | .1342369 .1687518 0.795 0.426 1.143 .027<br />

beamt | .396132 .2790057 1.420 0.156 1.486 .085<br />

selbst | .6567997 .2148196 3.057 0.002 1.928 .144<br />

azubi | .4691257 .4937517 0.950 0.342 1.598 .102<br />

_cons | -1.783349 .4114883 -4.334 0.000<br />

-----------------------------------------------------------<br />

Die Einheitseffekte sind mit dem Ado "prchange" von Scott Long<br />

berechnet. Sie geben an, um wieviel sich die<br />

Wahlwahrscheinlichkeit der CDU erhöht, wenn X um eine Einheit<br />

steigt (wobei alle Variablen jeweils auf dem Mittelwert sind). Bei<br />

Dummies ist es der Effekt einer Änderung von 0 auf 1.<br />

Ablesebeispiele:<br />

Pro Bildungsjahr sinkt P(CDU) um etwa 1 Prozentpunkt (n.s.)<br />

Selbständige wählen die CDU um 14 Punkte häufiger.


<strong>Multivariate</strong> Verfahren, Brüderl 60<br />

10) Multinomiale logistische Regression<br />

Mit J � 1 und der multivariaten logistischen Verteilung erhält man<br />

′ exp��<br />

′ jx�<br />

�j�� jx�<br />

�<br />

.<br />

J<br />

′ ∑ exp�� k�0 kx�<br />

Eine dieser Funktionen ist aber redundant, weil die Summe 1<br />

ergeben muß. Deshalb wird normalisiert mit �0 � 0 und das<br />

multinomiale Logit-Modell lautet damit<br />

P�Y � j|X � x� �<br />

P�Y � 0|X � x� �<br />

e �j ′ x<br />

J<br />

1 � ∑ e k�1<br />

�k ′ x<br />

1<br />

J<br />

1 � ∑ e k�1<br />

�k ′ x .<br />

, für j � 1, 2, … ,J<br />

Das binäre Logit-Modell ist offensichtlich der Spezialfall J � 1.<br />

Die Schätzung der Parameter erfolgt mit ML.<br />

Beispiel 1: Wahlverhalten und Wohnort (diskretes X)<br />

Wir unterscheiden nun 6 Parteien: Andere�0, CDU�1, SPD�2,<br />

FDP�3, Grüne�4, PDS�5.<br />

| ost<br />

partei | 0 1 | Total<br />

-----------�----------------------�----------<br />

Andere | 82 31 | 113<br />

| 5.21 4.31 | 4.93<br />

-----------�----------------------�----------<br />

CDU | 533 159 | 692<br />

| 33.88 22.11 | 30.19<br />

-----------�----------------------�----------<br />

SPD | 595 258 | 853<br />

| 37.83 35.88 | 37.22<br />

-----------�----------------------�----------<br />

FDP | 135 65 | 200<br />

| 8.58 9.04 | 8.73<br />

-----------�----------------------�----------<br />

Gruene | 224 91 | 315<br />

| 14.24 12.66 | 13.74<br />

-----------�----------------------�----------<br />

PDS | 4 115 | 119<br />

| 0.25 15.99 | 5.19<br />

-----------�----------------------�----------<br />

Total | 1573 719 | 2292<br />

| 100.00 100.00 | 100.00<br />

. mlogit partei ost, base(0)<br />

Iteration 0: log likelihood � -3476.897


<strong>Multivariate</strong> Verfahren, Brüderl 61<br />

....<br />

Iteration 6: log likelihood � -3346.3997<br />

Multinomial regression Number of obs � 2292<br />

LR chi2(5) � 260.99<br />

Prob � chi2 � 0.0000<br />

Log likelihood � -3346.3997 Pseudo R2 � 0.0375<br />

---------------------------------------------------partei<br />

| Coef. Std. Err. z P�|z|<br />

---------�------------------------------------------<br />

CDU |<br />

ost | -.2368852 .2293876 -1.033 0.302<br />

_cons | 1.871802 .1186225 15.779 0.000<br />

---------�------------------------------------------<br />

SPD |<br />

ost | .1371302 .2236288 0.613 0.540<br />

_cons | 1.981842 .1177956 16.824 0.000<br />

---------�------------------------------------------<br />

FDP |<br />

ost | .2418445 .2593168 0.933 0.351<br />

_cons | .4985555 .140009 3.561 0.000<br />

---------�------------------------------------------<br />

Gruene |<br />

ost | .0719455 .244758 0.294 0.769<br />

_cons | 1.004927 .1290713 7.786 0.000<br />

---------�------------------------------------------<br />

PDS |<br />

ost | 4.33137 .5505871 7.867 0.000<br />

_cons | -3.020425 .5120473 -5.899 0.000<br />

----------------------------------------------------<br />

(Outcome partei��Andere is the comparison group)<br />

Das mlogit reproduziert wieder die Kreuztabelle (nachrechnen!).<br />

Das "fatale" ist aber, dass die Vorzeichen der Logit-Effekte beim<br />

mlogit nicht mehr unbedingt mit dem Vorzeichen der<br />

Wahrscheinlichkeitseffekte übereinstimmen!! Dies sieht man an<br />

diesem Beispiel, denn z.B. würden wir anhand der Vorzeichen<br />

der Logit-Effekte schließen, daß die Ossis häufiger SPD und<br />

Grüne wählen. Dies ist aber nicht der Fall, wie wir aus der<br />

Kreuztabelle sehen.


<strong>Multivariate</strong> Verfahren, Brüderl 62<br />

Interpretation der multinomialen Logit-Effekte<br />

Auf Grund der vielen Koeffizienten noch schwieriger.<br />

Logit-Interpretation<br />

Kürzen wir P�Y � j� mit Pj ab, so impliziert das Modell<br />

ln Pj<br />

P0<br />

′<br />

� �jx. Ebenso wie im binären Modell sind die Parameter als Effekte auf<br />

die Log-Odds im Vergleich zum Null-Ereignis interpretierbar.<br />

Diese Interpretation ist aber wenig hilfreich.<br />

Odds-Interpretation<br />

Auch die Odds-Formulierung gibt es im multinomialen Fall<br />

Pj<br />

� e � ′<br />

j x.<br />

P0<br />

e�jk ist der multiplikative Einheitseffekt der Variable Xk auf die<br />

Odds (immer in Bezug auf das 0-Ereignis). Das Vorzeichen von<br />

�jk kann mithin als Richtung des Odds-Effektes interpretiert<br />

werden.<br />

Beispiel 1: Für die SPD ist das Ost-Odds um den Faktor<br />

e .137 � 1.147 größer als das West-Odds.<br />

Kontrolle: OddsOst �.359/.043 � 8. 35,<br />

OddsWest �.378/.052 � 7.27, also 8. 35/7. 27 � 1. 149.<br />

In der Literatur findet man meist diese Interpretation. Außer<br />

wenigen Spezialisten kann diese Interpretation niemand<br />

verstehen. Auch die meisten Wissenschaftler denken nicht in<br />

"Odds", sondern in "Wahrscheinlichkeiten". Deshalb sieht man in<br />

vielen Artikeln, dass Odds-Effekte berichtet werden, im Text aber<br />

im Sinne von Whs.effekten interpretiert werden. Das ist ein<br />

Fehler und kann gewaltig in die Irre führen (s. folgendes Bsp.).<br />

Wahrscheinlichkeitsinterpretation<br />

Die Einheitseffekte sind nicht im Standard-Output enthalten.<br />

Aber man kann sie ausrechnen. Hilfreich ist hier wieder das Ado<br />

"prchange". Es berechnet sie in verschiedenen Varianten. Die<br />

Whs.effekte haben den Nachteil, dass sie vom Wert der uVs<br />

abhängen. Meist setzt man die uVs auf ihren Mittelwert. Am<br />

informativsten sind jedoch Conditional-Effect Plots (s.u.).<br />

Beispiel 1: Rechnet man anhand obigen STATA-Outputs die


<strong>Multivariate</strong> Verfahren, Brüderl 63<br />

Einheitseffekte aus (Ost verändert sich jeweils von 0 auf 1), so<br />

erhält man exakt die Prozentsatzdifferenzen der Kreuztabelle.<br />

Beispiel: Ein multivariates multinomiales Logit-Modell<br />

uVs: Alter, Bildung und Ost (Konstanten aus Output entfernt).<br />

. mlogit partei bild alter ost, base(0)<br />

Iteration 0: log likelihood � -3476.897<br />

Iteration 6: log likelihood � -3224.9672<br />

Multinomial regression Number of obs � 2292<br />

LR chi2(15) � 503.86<br />

Prob � chi2 � 0.0000<br />

Log likelihood � -3224.9672 Pseudo R2 � 0.0725<br />

-----------------------------------------------------partei<br />

| Coef. Std. Err. z Einh.Eff.<br />

---------�--------------------------------------------<br />

ANDERE |<br />

bild | -0.0078<br />

alter | -0.0012<br />

ost | -0.0041<br />

---------�--------------------------------------------<br />

CDU |<br />

bild | .157302 .0496189 3.170 -0.0035<br />

alter | .0437526 .0065036 6.727 0.0055<br />

ost | -.3697796 .2332663 -1.585 -0.1290<br />

---------�--------------------------------------------<br />

SPD |<br />

bild | .1460051 .0489286 2.984 -0.0092<br />

alter | .0278169 .006379 4.361 0.0006<br />

ost | .0398341 .2259598 0.176 -0.0217<br />

---------�--------------------------------------------<br />

FDP |<br />

bild | .2160018 .0535364 4.035 0.0046<br />

alter | .0215305 .0074899 2.875 -0.0005<br />

ost | .1414316 .2618052 0.540 0.0042<br />

---------�--------------------------------------------<br />

Gruene |<br />

bild | .2911253 .0508252 5.728 0.0148<br />

alter | -.0106864 .0073624 -1.451 -0.0045<br />

ost | .0354226 .2483589 0.143 -0.0068<br />

---------�--------------------------------------------<br />

PDS |<br />

bild | .2715325 .0572754 4.741 0.0010<br />

alter | .0240124 .008752 2.744 -0.0001<br />

ost | 4.209456 .5520359 7.625 0.1574<br />

------------------------------------------------------<br />

(Outcome partei��Andere is the comparison group)<br />

Teilweise haben die Logit- und damit die Odds-Effekte ein<br />

anderes Vorzeichen, als die Einheitseffekte! Ein schönes<br />

Beispiel dafür, wie die Logit-Effekte bei naiver Interpretation in<br />

die Irre führen können, ist der Bild-Effekt bei der SPD. Der<br />

Odds-Effekt ist deutlich positiv und signifikant. Das heißt aber<br />

nicht, daß die P(SPD) mit der Bildung steigt. Im Gegenteil, sie<br />

sinkt sogar! Die Odds steigen, weil mit höherer Bildung die


<strong>Multivariate</strong> Verfahren, Brüderl 64<br />

Anderen Parteien (die Reps) noch seltener gewählt werden.<br />

Die Einheitseffekte sind aber von X abhängig. Deshalb<br />

Conditional-Effect Plots:<br />

Zuerst nach Alter (Bildung�12):<br />

P(Partei=j)<br />

.5<br />

.4<br />

.3<br />

.2<br />

.1<br />

0<br />

20 30 40 50 60 70<br />

Alter<br />

West<br />

Dann nach Bildung (Alter�46):<br />

P(Partei=j)<br />

.5<br />

.4<br />

.3<br />

.2<br />

.1<br />

0<br />

8 9 10 11 12 13 14 15 16 17 18<br />

Bildung<br />

West<br />

P(Partei=j)<br />

P(Partei=j)<br />

.5<br />

.4<br />

.3<br />

.2<br />

.1<br />

0<br />

.5<br />

.4<br />

.3<br />

.2<br />

.1<br />

0<br />

20 30 40 50 60 70<br />

Alter<br />

Ost<br />

8 9 10 11 12 13 14 15 16 17 18<br />

Bildung<br />

Braun: Andere, schwarz: CDU, rot: SPD, blau: FDP, grün:<br />

Grüne, violett: PDS.<br />

Mit diesen Graphen kann man jedem Laien die Ergebnisse<br />

erläutern! Z.B. negativer Alterseffekt bei den Grünen, positiver<br />

bei der CDU. Bei der SPD ist der Alterseffekt nicht-monoton,<br />

obwohl wir nur einen linearen Term im Modell haben! Mlogit ist<br />

ein komplexes Modell! Ohne Conditional-Effect Plots wird man<br />

diese Komplexität übersehen.<br />

Der Bildungseffekt ist positiv für die Grünen. Für die PDS<br />

ebenso, aber nur im Osten. Negative Bildungseffekte haben wir<br />

für SPD, CDU und Andere.<br />

Allerdings hängen die Plots von den nicht berücksichtigten<br />

Variablen ab. Da sie in STATA leicht zu produzieren sind, kann<br />

Ost


<strong>Multivariate</strong> Verfahren, Brüderl 65<br />

man aber schnell viele Kombinationen durchspielen.<br />

Bemerkung zu Interaktionseffekten<br />

Obiges Modell ist ohne Interaktionseffekte spezifiziert. Dies gilt<br />

aber nur für die Logit- bzw. Odds-Effekte. Wie wir oben sehen,<br />

können in den Whs.-Effekten dennoch Interaktionen auftreten!<br />

Der Bildungseffekt auf PDS ist im Westen null, im Osten positiv!<br />

Dies gilt generell für nicht-lineare Regressionsmodelle: Sie<br />

können Interaktionseffekte modellieren, obwohl keine<br />

Produktterme im Modell sind. Umgekehrt bedeutet dies, dass die<br />

Koeffizienten der Produktterme nicht-linearer Regressionen nicht<br />

den ganzen Interaktionseffekt erfassen (s. Ai/Norton,<br />

STATA-Journal 2004). Man muss also sehr vorsichtig sein, wenn<br />

man in eine nicht-lineare Regression Produktterme einführt!<br />

Viele Anwender tun dies aber bei logit und mlogit dennoch. In<br />

diesem Fall kann man sich auf die Odds-Interpretation<br />

zurückziehen: exponiert man den Koeffizienten des<br />

Produktterms, so ist dies ein multiplikativer Interaktionseffekt auf<br />

die Odds. Wie oben erwähnt, sind bereits Odds schwer zu<br />

verstehen. Deshalb dürften Aussagen wie "im Osten ist das<br />

Odds doppelt so hoch, wie im Westen" nur wenigen Menschen<br />

verständlich sein.<br />

Signifikanztests und Modellfit<br />

Eine Besonderheit ist der Signifikanztest für eine Variable, denn<br />

für jedes X gibt es mehrere Koeffizienten. Deshalb LR-Test:<br />

. mlogtest, lr<br />

**** Likelihood-ratio tests for independent variables<br />

Ho: All coefficients associated with given variable(s) are 0.<br />

party | chi2 df P�chi2<br />

---------�------------------------educ<br />

| 66.415 5 0.000<br />

age | 164.806 5 0.000<br />

east | 255.860 5 0.000<br />

-----------------------------------


<strong>Multivariate</strong> Verfahren, Brüderl 66<br />

11) Ereignisdatenanalyse<br />

In der Ereignisdatenanalyse ist die Zeitdauer bis zum Eintritt<br />

eines Ereignisses (T) die abhängige Variable.<br />

Bsp.: Lebensdauer von Patienten, Dauer der Arbeitslosigkeit,<br />

Heiratsalter, Ehedauer bis Scheidung, Dauer bis Beförderung.<br />

Zentrale Ziele: Beschreibung der Verteilung von T; Analyse der<br />

bedingten Verteilungen (Regression).<br />

Verteilung der Ereigniszeiten T:<br />

• Dichtefunktion f�t�: Wahrscheinlichkeit für Ereignis zu t.<br />

• Überlebensfunktion S�t� � 1 − F�t�: Anteil der Überlebenden<br />

zu t (Anteil ohne Ereignis zu t).<br />

• Ratenfunktion r�t� � f�t�/S�t�: Bedingte Whs., daß Ereignis im<br />

nächsten Zeitintervall eintritt, wenn es bisher noch nicht<br />

eingetreten ist.<br />

Beispiel: Jobsuchdauer von Hochschulabsolventen<br />

• Fragestellung: Wie lange dauert es, bis Hochschulabsolventen<br />

nach dem Examen eine Stellung finden? Welche<br />

Faktoren beeinflussen die Dauer?<br />

• Daten: Retrospektivbefragung ehemaliger Gymnasiasten in<br />

NRW 1984 (N�451).<br />

• Methode: Nicht-parametrische Sterbetafelschätzer<br />

0.02<br />

0.015<br />

0.01<br />

0.005<br />

0<br />

0 100 200 300 400 500<br />

Suchdauer in Tagen<br />

Ratenfunktion<br />

1<br />

0.8<br />

0.6<br />

0.4<br />

0.2<br />

0<br />

WIWI<br />

SOZ<br />

0 100 200 300 400 500<br />

Suchdauer in Tagen<br />

Überlebensfunktionen


<strong>Multivariate</strong> Verfahren, Brüderl 67<br />

Die Struktur von Ereignisdaten<br />

Zustand Y(t)<br />

Geschieden: 2<br />

Verheiratet: 1<br />

Ledig: 0<br />

Episode 1<br />

(Spell)<br />

Episode 2<br />

Episode 3<br />

Episode 4<br />

Zensierung<br />

Interview<br />

14 19 22 26 29<br />

Eheverlauf einer Person<br />

In der Datenmatrix sieht dieser Verlauf so aus:<br />

�14,0��19, 1��22, 2��26, 1��29, 1�.<br />

Aus solchen Ereignisdaten kann man dann die Verweildauern für<br />

das interessierende Ereignis errechnen. T�5 für Heirat, T�3 für<br />

die Scheidung, T�3 für die 2. Ehe. Man beachte aber, daß<br />

letztere Verweildauer (rechts-) zensiert ist.<br />

Die Sterbetafel-Methode<br />

Für explorative Analysen setzt man sinnvollerweise nichtparametrische<br />

Schätzverfahren ein. Ein solches Verfahren ist die<br />

Sterbetafelmethode. Hierzu gruppiert man die Verweildauern in<br />

Intervalle. Sei ni die Zahl der Personen, die in Intervall i eintritt<br />

(noch kein Ereignis oder keine Zensierung hatte). ci sei die<br />

Anzahl der Zensierungen in i. Nimmt man Gleichverteilung der<br />

Zensierungen an, so ergibt sich die Anzahl der dem Risiko<br />

ausgesetzten Fälle (Risikomenge) als<br />

Ri � ni − 1 2 ci.<br />

Sei di die Anzahl der Ereignisse in dem Intervall, dann ist die<br />

bedingte Ereigniswahrscheinlichkeit<br />

�<br />

q i � di .<br />

Die bedingte Überlebenswahrscheinlichkeit ist damit � p i � 1 − � q i .<br />

Ri<br />

T


<strong>Multivariate</strong> Verfahren, Brüderl 68<br />

Sei hi die Intervallbreite, dann ist der Sterbetafel-Ratenschätzer<br />

� 2<br />

r i �<br />

� q i<br />

hi�1 � � p i� .<br />

Beispiel: Heiratsprozeß, ALLBUS 1980-88<br />

Heiratsrate<br />

.25<br />

.20<br />

.15<br />

.10<br />

.05<br />

0.00<br />

0<br />

5<br />

10<br />

15<br />

Alter-14<br />

20<br />

25<br />

Heiratsraten - Männer<br />

30<br />

Kohorte<br />

1955-60<br />

1935-40<br />

Anteil Ledige<br />

1.0<br />

.9<br />

.8<br />

.7<br />

.6<br />

.5<br />

.4<br />

.3<br />

.2<br />

.1<br />

0.0<br />

0<br />

5<br />

10<br />

15<br />

Alter-14<br />

20<br />

25<br />

30<br />

Überlebensfunktionen - Männer<br />

Kohorte<br />

Proportional Hazard Regressionsmodell<br />

Wir nehmen an, daß X-Variablen (uVs) die Rate proportional<br />

verschieben. Damit können wir das PH-Regressionsmodell<br />

spezifizieren als<br />

r�t|X� � r0�t� ��X .<br />

1955-60<br />

1935-40<br />

r0�t� ist die Basisrate, die laut Modell identisch ist für alle X. � ist<br />

der Regressionseffekt, der als relatives Risiko interpretierbar ist:<br />

Erhöht sich X um eine Einheit, so ist die Rate um das �-fache<br />

höher (0 ����).<br />

Exponential-Modell: Modell mit konstanter Rate<br />

r0�t� ��0.


<strong>Multivariate</strong> Verfahren, Brüderl 69<br />

Weibull-Modell: Modell mit monotonen Raten (p: shape)<br />

r0�t� � ptp−1�0. 0.03<br />

0.025<br />

0.02<br />

0.015<br />

0.01<br />

0.005<br />

0<br />

5 10 15 20<br />

t<br />

�0 � 0. 01<br />

blau: p�0.8<br />

rot: p�1<br />

grün: p�1.1<br />

magenta: p�2<br />

Generalisiertes log-logistische Modell: Auch glockenförmige<br />

Raten (p: shape, �: scale)<br />

0.03<br />

0.025<br />

0.02<br />

0.015<br />

0.01<br />

0.005<br />

0<br />

5 10 15 20<br />

t<br />

r0�t� � p��t�p−1<br />

1 � ��t�p �0.<br />

�0 � 0. 01, ��0. 2<br />

grün: p�0.5<br />

rot: p�1<br />

blau: p�2<br />

magenta: p�3<br />

ML-Schätzung<br />

Hierbei gibt es ein Problem. Regelmäßig hat man auch zensierte<br />

Beobachtungen. Von denen weiß man nur, daß bis t kein<br />

Ereignis aufgetreten ist. Diese Info ist bei der ML-Schätzung zu<br />

berücksichtigen (z�1 für Ereignis, z�0 für Zensierung). Die<br />

Likelihood Funktion lautet dann<br />

n<br />

L��� � � i�1<br />

f�ti;�� zi � S�ti;�� 1−zi � � i�1<br />

n<br />

r�ti;�� zi � S�ti;��.


<strong>Multivariate</strong> Verfahren, Brüderl 70<br />

Beispiel: Scheidung nach Religion<br />

• Fragestellung: Wie hängt die Scheidungsrate von der Religion<br />

(Katholisch�1, Evangelisch�0) ab?<br />

• Daten: DJI-Familiensurvey 1988, Erstehen 1949-88,<br />

retrospektiv erfragte Ehedauern<br />

• Methode: Vergleich von Sterbetafelschätzer und ML-Schätzer<br />

Scheidungsrate<br />

.014<br />

.012<br />

.010<br />

.008<br />

.006<br />

.004<br />

.002<br />

0.000<br />

0<br />

5<br />

10<br />

15<br />

20<br />

Ehedauer in Jahren<br />

25<br />

30<br />

Kath. (Loglog)<br />

Evang. (Loglog)<br />

Kath. (Sterbet.)<br />

Evang. (Sterbet.)<br />

��0,65, d.h. das relative Scheidungsrisiko für Katholiken ist<br />

0,65 im Vgl. zu den Protestanten. Prozentinterpretation:<br />

Scheidungsrate der Katholiken ist 35% niedriger.<br />

Alternativ findet man auch folgende Parametrisierung<br />

r�t|X� � r0�t� ��X � r0�t� �e�X , wobei ��e� .<br />

� ist nicht anschaulich zu interpretieren. Das Vorzeichen sagt<br />

uns aber, ob X die Rate erhöht oder senkt. In unserem Beispiel<br />

ist ��−0,43.


<strong>Multivariate</strong> Verfahren, Brüderl 71<br />

Partial-Likelihood (Cox-Modell)<br />

Bei einem parametrischen Ereignisratenmodell sind Annahmen<br />

über die funktionale Form der Basisrate notwendig. Problem ist,<br />

daß man häufig keine Information über die funktionale Form hat.<br />

Im semi-parametrischen Cox-Modell läßt man die Basisrate<br />

unspezifiziert. Das Cox-Modell enthält damit nur mehr die<br />

Proportionalitätsannahme.<br />

Schätzverfahren<br />

ML ist wegen der unspezifizierten Basisrate nicht anwendbar.<br />

Cox (1972) schlug deshalb vor, nur den Teil der Likelihood zur<br />

Schätzung der Parameter zu verwenden, in dem die unbekannte<br />

Basisrate nicht enthalten ist (Partial-Likelihood).<br />

Analyse der Effekte von Ereignissen<br />

Das PL-Verfahren ermöglicht eine einfache Berücksichtigung<br />

zeitveränderlicher Kovariate.<br />

Ein Hauptvorteil der Ereignisdatenanalyse ist, daß es möglich ist,<br />

zeitveränderliche Kovariate zu berücksichtigen. Damit kann man<br />

untersuchen, welche Effekte zeitlich vorgelagerte Ereignisse auf<br />

spätere Ereignisse haben. Damit können Ereignis-Regressionen<br />

die zeitliche Ordnung - eine wichtige Kausalitätsbedingung -<br />

mitberücksichtigen.


<strong>Multivariate</strong> Verfahren, Brüderl 72<br />

Beispiel: Cox-Regression mit zeitveränderlicher Kovariate<br />

• Fragestellung: Welche Faktoren beeinflussen die<br />

Scheidungsrate?<br />

• Daten: DJI-Familiensurvey 1988, nur katholische und<br />

evangelische Paare (N�4118)<br />

• Methode: <strong>Multivariate</strong>s Cox-Modell<br />

�-Effekt S.E. t-Wert �-Effekt<br />

HeiKoh 61-70 0,58 0,15 3,89 1,78<br />

HeiKoh 71-80 0,86 0,16 5,22 2,36<br />

HeiKoh 81-88 0,87 0,26 3,37 2,39<br />

Heialter Frau -0,12 0,02 6,39 0,89<br />

Bildung Mann -0,11 0,05 2,40 0,89<br />

Bildung Frau 0,07 0,05 1,31 1,07<br />

Katholisch -0,40 0,10 3,87 0,67<br />

Kohabitation 0,62 0,13 4,92 1,85<br />

Kind (zeitv.) -0,79 0,11 7,36 0,45<br />

Pseudo-R2 3,1%<br />

Referenzgruppe: Evang. Paare, ohne Kohab, ohne Kind, der HeiKoh 49-60.


<strong>Multivariate</strong> Verfahren, Brüderl 73<br />

12) Hauptkomponenten- und Faktorenanalyse<br />

Nun verlassen wir das Reich der Regressionsanalyse und<br />

wenden uns Verfahren der Datenreduktion zu. Wir versuchen,<br />

eine Menge beobachteter Variablen auf eine geringe Zahl von<br />

unbeobachteten Dimensionen (Faktoren) zu reduzieren.<br />

Das Modell einer Faktorenanalyse ist (ohne Personenindex):<br />

x1 � a11F1 �… �a1JFJ � u1<br />

�<br />

xK � aK1F1 �… �aKJFJ � uK<br />

Xk sind die beobachteten Variablen, die in einem linearem<br />

Modell durch die Faktoren Fj (J � K) ”erklärt” werden. akj sind die<br />

Faktorladungen und uk Fehlerterme. In einem Pfaddiagramm<br />

(K�5, J�2) sieht das so aus:<br />

r 12<br />

F 1<br />

F 2<br />

a 11<br />

a 21<br />

a 32<br />

a 42<br />

a 52<br />

X 1<br />

X 2<br />

X 3<br />

X 4<br />

X 5<br />

.<br />

sqrt(1-h 1 2 )<br />

sqrt(1-h 2 2 )<br />

sqrt(1-h 3 2 )<br />

sqrt(1-h 4 2 )<br />

sqrt(1-h 5 2 )<br />

In diesem Modell wird angenommen, daß einige Faktorladungen<br />

2 2 gleich Null sind. hk heißt Kommunalität und entspricht R in der<br />

Regression. Es ist eine Korrelation zwischen den Faktoren<br />

zugelassen. Im folgenden ist aber r12 � 0.<br />

Schreibt man die Variablen und Faktoren nebeneinander<br />

(Datenmatrix) so kann man das Modell in Matrix-Notation<br />

aufschreiben:<br />

X � FA ′ � U.<br />

u 1<br />

u 2<br />

u 3<br />

u 4<br />

u 5


<strong>Multivariate</strong> Verfahren, Brüderl 74<br />

Hauptkomponentenanalyse<br />

Hier wird kein Modell unterstellt sondern eine rein mathematische<br />

Zerlegung der X-Matrix durchgeführt. Dies ist möglich,<br />

wenn J � K:<br />

X � FA ′ .<br />

Daraus folgt<br />

F � X�A ′ � −1 .<br />

Es kann gezeigt werden, daß A � V� 1/2 , wobei V die Matrix der<br />

Eigenvektoren der Korrelationsmatrix R ist, und � die Diagonalmatrix<br />

mit den Eigenwerten �j.<br />

Die Faktoren sind dann unkorreliert. Es ist ∑ �j � K. Der durch<br />

einen Faktor erklärte Anteil an der Gesamtvarianz ist �j/K. Die akj<br />

geben die Stärke des Zusammenhangs von Xk und Fj.<br />

Hauptkomponenten Faktorenanalyse<br />

Läßt man die erklärungsschwächeren Faktoren weg, so ist man<br />

wieder bei der Faktorenanalyse. Übliches Kriterium ist, nur<br />

Faktoren beizubehalten deren Eigenwert über eins liegt.<br />

Die Kommunalität sagt für jedes Xk, welchen Anteil an seiner<br />

Varianz die beibehaltenen Faktoren erklären. Sie ist<br />

J<br />

2 hk � ∑j�1 2 akj. Die ”Uniqueness” ist definiert als 1 − h k 2 .<br />

Beispiel: Einstellungen zu Staat und Wirtschaft<br />

Im ALLBUS 94 wurden hierzu 8 Items erhoben (v79-v86).<br />

. factor v79-v86, pcf<br />

(obs�2845)<br />

(principal component factors; 2 factors retained)<br />

Factor Eigenvalue Difference Proportion Cumulative<br />

-------------------------------------------------------------<br />

1 2.34234 0.97202 0.2928 0.2928<br />

2 1.37032 0.37972 0.1713 0.4641<br />

3 0.99060 0.14906 0.1238 0.5879<br />

4 0.84155 0.07590 0.1052 0.6931<br />

5 0.76564 0.13058 0.0957 0.7888<br />

6 0.63506 0.05608 0.0794 0.8682<br />

7 0.57899 0.10349 0.0724 0.9406<br />

8 0.47550 . 0.0594 1.0000


<strong>Multivariate</strong> Verfahren, Brüderl 75<br />

Factor Loadings<br />

Variable | 1 2 Uniqueness<br />

----------�-------------------------------v79<br />

| 0.24560 0.52474 0.66433<br />

v80 | 0.61271 0.27328 0.54991<br />

v81 | -0.48909 0.69191 0.28205<br />

v82 | -0.47573 0.65234 0.34813<br />

v83 | 0.55617 0.18114 0.65787<br />

v84 | 0.55894 0.08467 0.68042<br />

v85 | 0.68550 0.06762 0.52552<br />

v86 | 0.59114 0.26730 0.57911<br />

Zwei Faktoren erfüllen das Eigenwertkriterium. Das 2-Faktorenmodell<br />

erklärt aber nur wenig Varianz.<br />

Eigenvalues<br />

2.5<br />

2<br />

1.5<br />

1<br />

.5<br />

0 2 4<br />

Factor Number<br />

6 8<br />

Der dritte Faktor liegt nur knapp unter eins. Der Scree-Plot kann<br />

die Entscheidung über die Zahl der beizubehaltenden Faktoren<br />

unterstützen. Wo die Kurve abflacht, sollte man die Grenze<br />

ziehen. In unserem Fall ist unklar, ob 2 oder 3 Faktoren sinnvoll<br />

sind. Wegen der geringen erklärten Varianz entscheiden wir uns<br />

für drei Faktoren.<br />

factor v79-v86, pcf mineigen(0.9)<br />

Factor Loadings<br />

Variable | 1 2 3 Uniqueness<br />

----------�------------------------------------------v79<br />

| 0.24560 0.52474 -0.67614 0.20716<br />

v80 | 0.61271 0.27328 0.12025 0.53545<br />

v81 | -0.48909 0.69191 0.11773 0.26820<br />

v82 | -0.47573 0.65234 0.34255 0.23079<br />

v83 | 0.55617 0.18114 -0.14147 0.63786<br />

v84 | 0.55894 0.08467 0.58430 0.33901<br />

v85 | 0.68550 0.06762 0.14946 0.50318<br />

v86 | 0.59114 0.26730 -0.06334 0.57509


<strong>Multivariate</strong> Verfahren, Brüderl 76<br />

Rotation<br />

Diese Lösung ist aber noch nicht besonders anschaulich. Auf<br />

Faktor 1 lädt so ziemlich alles (bis auf v79). Auf Faktor 2 laden<br />

insbesondere v79, v81, v82 und auf Faktor 3 laden v79, v84.<br />

Man kann die Interpretierbarkeit einer Faktoranalyse verbessern,<br />

indem man rotiert (im Prinzip das Koordinatensystem<br />

dreht). Dies darf man, weil jede Linearkombination der Faktoren<br />

wieder eine Lösung des obigen Gleichungssystems darstellt<br />

(insofern ist jede Faktorlösung beliebig!!). Ein beliebtes<br />

Verfahren ist die Varimax-Rotation.<br />

Fiktives Beispiel<br />

F 2R<br />

X 4<br />

F 2<br />

X 1<br />

X2<br />

X3<br />

F 1R<br />

F 1<br />

akj vor Varimax<br />

F1<br />

F2<br />

X1 .50 .50<br />

X2 .50 -.40<br />

X3 .70 .70<br />

X4 -.60 .60<br />

Beispiel: Einstellungen zu Staat und Wirtschaft<br />

. rotate<br />

(varimax rotation)<br />

Rotated Factor Loadings<br />

Variable | 1 2 3 Uniqueness<br />

----------�-----------------------------------------v79<br />

| -0.01972 0.06131 -0.88809 0.20716<br />

v80 | 0.62919 -0.05167 -0.25689 0.53545<br />

v81 | -0.13495 0.83570 -0.12325 0.26820<br />

v82 | -0.01507 0.87431 0.06761 0.23079<br />

v83 | 0.41850 -0.18548 -0.39064 0.63786<br />

v84 | 0.78201 -0.01570 0.22181 0.33901<br />

v85 | 0.64572 -0.24151 -0.14674 0.50318<br />

v86 | 0.51214 -0.10817 -0.38848 0.57509<br />

akj nach Varimax<br />

F1R F2R<br />

X1 .71 -.02<br />

X2 .05 -.64<br />

X3 .99 -.03<br />

X4 .02 .85<br />

Nun sind die Faktoren leichter interpretierbar. Auf Faktor 1 laden<br />

v80, v84, v85 (wirtschaftliche Ungerechtigkeit). Auf Faktor 2 v81,<br />

v82 (kein Wohlfahrtsstaat). Auf Faktor 3 v79 (Individualis- mus:<br />

Achtung Vorzeichen!). v83 und v86 passen nicht so recht.


<strong>Multivariate</strong> Verfahren, Brüderl 77<br />

Faktorscores<br />

Anhand der Faktorlösung kann man für jede Beobachtung die<br />

geschätzten Faktorwerte berechnen. Diese kann man dann in<br />

weiteren Analysen verwenden.<br />

. score f1 f2 f3<br />

(based on rotated factors)<br />

Scoring Coefficients<br />

Variable | 1 2 3<br />

----------�-------------------------------v79<br />

| -0.17488 0.01776 -0.76982<br />

v80 | 0.32909 0.06746 -0.10040<br />

v81 | 0.03732 0.54631 -0.11323<br />

v82 | 0.15521 0.59798 0.07600<br />

v83 | 0.14985 -0.06382 -0.26023<br />

v84 | 0.52302 0.12978 0.34392<br />

v85 | 0.32793 -0.05716 -0.00644<br />

v86 | 0.22142 0.00541 -0.23827<br />

. summ f1 f2 f3<br />

Variable | Obs Mean Std. Dev. Min Max<br />

---------�-------------------------------------------------f1<br />

| 2845 3.21e-10 1 -2.73211 3.450658<br />

f2 | 2845 -1.06e-10 1 -1.458208 3.57989<br />

f3 | 2845 -6.91e-11 1 -2.72251 2.928601<br />

. corr f1 f2 f3<br />

(obs�2845)<br />

| f1 f2 f3<br />

---------�--------------------------f1<br />

| 1.0000<br />

f2 | 0.0000 1.0000<br />

f3 | 0.0000 0.0000 1.0000<br />

. regress f2 eink<br />

Source | SS df MS Number of obs � 2557<br />

---------�------------------------------ F( 1, 2555) � 160.44<br />

Model | 144.090999 1 144.090999 Prob � F � 0.0000<br />

Residual | 2294.66405 2555 .898107261 R-squared � 0.0591<br />

---------�------------------------------ Adj R-squared � 0.0587<br />

Total | 2438.75505 2556 .954129519 Root MSE � .94769<br />

---------------------------------------------------------------------f2<br />

| Coef. Std. Err. t P�|t| [95% Conf. Interval]<br />

-----�---------------------------------------------------------------eink<br />

| .0001423 .0000112 12.666 0.000 .0001203 .0001643<br />

cons | -.3186571 .0295908 -10.769 0.000 -.3766815 -.2606327<br />

----------------------------------------------------------------------<br />

Befragte mit höherem Einkommen sind eher gegen den<br />

Wohlfahrtsstaat.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!