Handout - Institut für Statistik

Messfehler in der Lebensdaueranalyse 

Seminar: Analyse fehlerbehafteter Daten 

Matthias Hunger 

30. Juni 2008 

1

Inhaltsverzeichnis 

1 Einleitung 3 

2 Lebensdaueranalyse: 

Notation und Modelle 3 

2.1 Notation und Begriffe . . . . . . . . . . . . . . . . . . . . . . . 3 

2.2 Regressionsmodelle in der Lebensdaueranalyse . . . . . . . . . 4 

2.2.1 Parametrische Transformationsmodelle . . . . . . . . . 4 

2.2.2 Das Proportional-Hazard-Modell von Cox . . . . . . . 5 

3 Messfehler in den Lebensdauermodellen 7 

3.1 Grundannahmen . . . . . . . . . . . . . . . . . . . . . . . . . 8 

3.2 Die Hazardrate im Cox-Modell mit Messfehlern . . . . . . . . 8 

4 Korrekturmöglichkeiten im Cox-Modell 8 

4.1 Unterscheidung strukturelle - funktionale Ansätze . . . . . . . 8 

4.2 Die induzierte Hazardrate im Cox-Modell . . . . . . . . . . . . 9 

4.3 Regressionskalibrierung . . . . . . . . . . . . . . . . . . . . . . 11 

4.3.1 Funktionale Regressionskalibrierung . . . . . . . . . . . 11 

4.3.2 Strukturelle Regressionskalibrierung . . . . . . . . . . . 12 

4.4 Die korrigierte Scorefunktion . . . . . . . . . . . . . . . . . . . 13 

5 Berkson-Fehler im Cox-Modell 16 

5.1 Modellannahmen . . . . . . . . . . . . . . . . . . . . . . . . . 16 

5.2 Additiver Berkson-Fehler . . . . . . . . . . . . . . . . . . . . . 17 

5.3 Weitere Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . 19 

6 Frailty-Modelle 19 

6.1 Messfehler in frailty-Modellen . . . . . . . . . . . . . . . . . . 20 

6.2 Likelihood Inferenz für frailty-Modelle mit Messfehlern . . . . 20 

7 Fazit 21 

2

1 Einleitung 

Die Ereigniszeit- oder Survivalanalyse ist eine statistische Analyse, bei der die 

Zeitspanne T bis zum Eintreffen eines wohldefinierten Ereignisses betrachtet 

wird. Sie erfreut sich interdisziplinärer Beliebtheit, dementsprechend gibt es 

zahlreiche Bezeichnungen die oft synonym verwendet werden. So wird in der 

Statistik - geprägt durch die medizinische Anwendung - meist von ” 

Survival 

Analyse“ (Überlebensanalyse) oder Lebensdaueranalyse gesprochen, wohingegen 

in der empirischen Sozialforschung der Begriff ” 

Verweildaueranalyse“ 

vorherrscht. Bekannte Modelle in der Wirtschafts- und Sozialforschung 

modellieren die Dauer bis zur Heirat (Diekmann, Mitter) oder die Dauer 

der Arbeitslosigkeit (IAB - Institut für Arbeitsmarkt- und Berufsforschung). 

Aus der medizinischen Anwendung abgeleitet, wird die Zeitdauer T meist 

als Lebenszeit oder Lebensdauer (survival time, duration) sowie das Ereignis 

als Tod (failure) bezeichnet. Dementsprechend ist auch der Name ” 

Time-tofailure“-Analyse 

gängig. Regressionsmodelle zur Modellierung der nichtnegativen 

Zufallsvariablen benötigen eine eigene Theorie bzw. Modellbildung, da 

oft Realisationen von T nicht vollständig beobachtbar sind, z.B. kommt es 

vor, dass das Ereignis bei Ende der Studie noch nicht eingetreten ist. Dies 

führt zur Zensierungsproblematik (censoring). Desweiteren ist bei der Analyse 

von Überlebensdauern die Rolle der sog. Hazardrate ungewöhnlich: Über 

sie lässt sich vieles anschaulicher erklären und sie stellt die zentrale Größe 

des so genannten Cox-Modells dar, auf dem der Schwerpunkt dieser Arbeit 

liegt. 

Gerade in der Biostatistik - einem der Hauptanwendungsgebiete der Survivalanalyse 

- stellt sich oft das Problem fehlerbehafteter Daten: Interessierende 

Variablen können in der biometrischen Anwendung oft nur mit einem 

nicht-vernachlässigbaren Fehler gemessen werden oder sie sind generell nicht 

verfügbar. Als Beispiel sei hier der in Ernährungsstudien oft verwendete aufgenommene 

Proteingehalt der letzten fünf Jahre genannt. Es müssen Surrogate 

verwendet werden, die als fehlerbehaftete Variablen aufgefasst werden, 

sodass Analysemodelle dementsprechend angepasst werden müssen. 

2 Lebensdaueranalyse: 

Notation und Modelle 

2.1 Notation und Begriffe 

Der gängigen Notation folgend, betrachten wir in der Lebensdaueranalyse 

folgendes grundlegendes Modell: 

3

Für jedes Individuum i, i=1,...n, wirken zwei latente Größen im Hintergrund: 

Die wahre Lebensdauer T i und die maximale Beobachtungsdauer C i (Zensierungszeit). 

Tatsächlich beobachtet wird nur die jeweils kürzere der beiden 

Zeiten, also Y i = min(T i , C i ). 

Darüber hinaus ist bekannt, ob es sich bei einem Individuum um die tatsächliche 

Lebensdauer handelt, oder ob bei Person i eine Zensierung vorliegt. 

Dies geschieht über den Zensierungsindikator - eine Zufallsvariable die wie 

folgt definiert ist: δ i = I(T i < C i ) Die Risikomenge R i = {j : Y j ≥ Y i } entspricht 

der Menge an Individuen, die zum Todes- bzw. Zensierungszeitpunkt 

von Individuum i noch leben und unzensiert sind. 

Lebensdauerverteilungen können über unterschiedliche Funktionen beschrieben 

werden, wobei sich jede dieser Funktionen (fast sicher) eineindeutig aus 

der anderen herleiten lässt: Diese Funktionen sind Dichte, Verteilungsfunktion, 

Survivorfunktion, Hazardrate und kumulierte Hazardrate. 

Die zentrale Kenngröße in der Survivalanalyse ist die Hazardrate (Ausfallrate). 

Sie ist definiert als 

λ(t) := lim 

∆t→0 

1 

P(t ≤ T < t + ∆t|T ≥ t) (1) 

∆t 

und entspricht dem infinitesimalen Risiko, im nächsten Moment zu sterben, 

gegeben man hat bis zu diesem Moment überlebt. Die Hazardrate ist 

meist am besten geeignet, Eigenschaften einer Lebensdauerverteilung anschaulich 

darzustellen. 

So hat beispielsweise die Exponentialverteilung, deren zentrale Eigenschaft 

die sog. Gedächtnislosigkeit ist, eine konstante Hazardrate, d.h. das Risiko 

zu sterben ist in jedem Moment gleich und hängt nicht von der bisherigen 

Überlebensdauer ab. 

2.2 Regressionsmodelle in der Lebensdaueranalyse 

Zusätzlich zu den Daten (t i , δ i ) liegt für jedes Individuum ein Vektor mit 

(zeitunabhängigen) Kovariablen x i vor. i=1,...,n 

2.2.1 Parametrische Transformationsmodelle 

Parametrische Transformationsmodelle sind an der üblichen Regression orientiert 

und modellieren die Überlebensdauer in Abhängigkeit der Kovariablen. 

Wegen der Nicht-Negativität von T wird jedoch als Zielgröße die logtransformierte 

Überlebensdauer gewählt: 

4

ǫ ∼ N(0, 1), was äquivalent ist zu 

log(T) = x ′ β + σ · ǫ, 

T = exp (β 0 ) exp (β 1 x 1 ) · ... · exp (β p x p ) · exp (σǫ) 

Die individuelle Zeit bis zum Tod,T i , wird mit dem Faktor exp (ß 1 x i1 ) ” 

beschleunigt“, 

weswegen diese Modelle auch ” 

Accelerated-Failure-Time-Modelle“ 

(AFT-Modelle) heißen. AFT-Modelle sind parametrische Modelle, d.h. die 

Fehlerverteilung muss voll spezifiziert sein. Wie die Lebensdauer T modelliert 

wird, hängt davon ab, welche Fehlerverteilung zu Grunde gelegt wird. 

Die wichtigsten Zusammenhänge zwischen der Verteilung von ǫ und der Verteilung 

von T zeigt folgende Tabelle. 

Verteilung von ǫ bzw. log T 

ǫ ∼ N(0,1) normal 

Extremwert 

logistisch 

log-Gamma 

log-gen. Gamma 

Verteilung von T 

lognormal 

Weibull 

log-logistisch 

Gamma 

Generalisierte Gamma 

Die Wahl der Extremwertverteilung als Verteilung für den Fehler ist hierbei 

hervorzuheben, da dadurch für T eine Weibullverteilung modelliert wird 

und das AFT-Modell auch die Eigenschaft proportionaler Hazards gemäß (3) 

hat. 

2.2.2 Das Proportional-Hazard-Modell von Cox 

Das Cox-Modell ist die gängigste Regressionsmethode zur Analyse von Überlebensdaten 

und basiert auf einem anderen Ansatz, um die Überlebenszeit 

mit einem Kovariablenvektor in Verbindung zu setzen. Die Modellgleichung 

wird formuliert als 

λ(t, x) = λ 0 (t) · exp (x ′ β) (2) 

Dabei ist λ 0 (t) die sog. Baseline-Hazardrate (der Wert der Hazardrate für 

ein Individuum bei dem die Ausprägungen aller Merkmale des Kovariablenvektors 

0 sind). x ′ β enthält keine Konstante (diese steckt sozusagen schon in 

λ 0 (t)). 

5

Die Hazardfunktion kann also geschrieben werden als ein Produkt aus unbekannter 

Baseline-Hazardrate und einem Term, der nur von den Parametern 

abhängt. 

Die Baseline-Hazardrate wird nicht spezifiziert und als ” 

Nuisance-Parameter“ 

aufgefasst, so dass das Cox-Modell als semiparametrisch bezeichnet werden 

kann. Stattdessen steht im Coxmodell die Schätzung der Effekte β im Vordergrund. 

Man sieht schnell, dass exp (β k ) angibt, wie sich die Hazardrate 

(also das ” 

Risiko“ zu sterben) ändert, wenn die Kovariable x k um eine Einheit 

erhöht wird (Wobei alle anderen Kovariablen konstant gehalten werden). 

Die charakteristische Eigenschaft des Cox-Modells ist die Proportionalität 

der Hazardraten. Für zwei Individuen mit Kovariablen x 1 und x ∗ 1 und ansonst 

gleichen Kovariablen gilt für das Verhältnis der Hazardraten: 

λ(t, x 1 ) 

λ(t, x ∗ 1) = λ 0(t) 

λ 0 (t) · exp (x′ 1β) 

exp (x ∗ 1 ′ β) = exp ((x 1 − x 1 ∗ ) ′ β) (3) 

Das Verhältnis hängt also nicht vom Zeitpunkt t ab. 

Inferenz im Cox-Modell 

Die Schätzung der Modellparameter stützt sich auf die so genannte ” 

Partial 

Likelihood“, in der die Baseline-Hazardrate nicht vorkommt. Die Partial 

Likelihood lautet: 

PL(β) = 

k∏ 

i=1 

x ′ (i) β 

∑j∈R(t (i) ) exp (x′ j β) (4) 

k: Anzahl der Ausfälle (ohne Zensierungen) 

R(t): Risikomenge, also Menge der Individuen die unmittelbar vor t noch 

beobachtbar sind 

t (1) < ... < t (i) < ...t (k) : Zeitdauern der Individuen die nicht zensiert sind. 

Der Parameterschätzer ˆβ PL ergibt sich als Lösung von 

k∑ 

(x i − 

i=1 

∑ 

j∈R(t (i) ) x j · exp (x ′ jβ) 

∑j∈R(t (i) ) exp (x′ j β) ) = 0 (5) 

Die Partial Likelihood kann auf zwei verschiedene Weisen motiviert werden: 

6

1. Der Likelihoodbeitrag eines (unzensierten) Individuums wird aufgefasst 

als die Wahrscheinlichkeit, dass zur Zeit t (i) das Individuum mit Kovariablenvektor 

x (i) stirbt, gegeben eines der Individuen aus der Risikomenge 

R(t (i) ) stirbt. 

2. Als Profilelikelihood nachdem λ 0 (t) als stückweise konstant zwischen 

den Todeszeitpunkten der unzensierten Individuen angenommen und 

herausintegriert“ wird. (Breslow 1974) 

” 

Tatsächlich lautet unter der Annahme unabhängiger Zensierung (random 

censoring) die Likelihood der beobachteten Daten 

L = 

n∏ 

((λ 0 (t i ) exp (X iβ)) ′ δ i 

exp (− exp (X iβ) ′ · 

∫ ti 

i=1 

0 

λ 0 (u)du)). (6) 

Wenn nun die Baseline-Hazardrate als stückweise konstant angesehen 

wird auf dem Gitter 

0 = t (0) < t (1) < t (2) < ... < t (i) < ... < t (k) 

mit λ 0 (t) = λ i für t (i−1) < t ≤ t (i) 

(k: Anzahl der Ausfälle - ohne Zensierungen), so kann das Integral der 

Baselinehazardrate in (6) als Summe geschrieben werden. Die (Log- 

)Likelihood der beobachteten Daten vereinfacht sich entsprechend zu 

ln L = 

k∑ 

(d i ln λ i + ∑ 

∑ 

X jβ ′ − λ i (t (i) − t (i−1) ) exp (X jβ)) ′ (7) 

i=1 

j∈D(t (i) ) 

j∈R(t (i) ) 

und heißt ” 

Breslow-(Log-)Likelihood“. Wird nun β fixiert und bezüglich 

der Parameter λ 1 , ...,λ k maximiert, so erhält man in der Tat die Partial 

Likelihood. 

Der besondere Charakter der Partial-Likelihood im Cox-Modell gilt als 

Hauptursache, warum Messfehler in den Survivalmodellen einer eigenen Betrachtung 

bedürfen. 

3 Messfehler in den Lebensdauermodellen 

Im Folgenden nehmen wir an, dass die Überlebensdauer jedes Individuums 

von stetigen Kovariablen X i abhängt, die mit Messfehler gemessen wurden 

sowie von stetigen Kovariablen Z i , die fehlerfrei gemessen wurden. 

7

3.1 Grundannahmen 

Mit Ausnahme des Kapitels 5 legen wir das klassische, homoskedastische 

Messfehlermodell zugrunde, d.h. 

X ∗ i = X i + U i , 

wobei die Fehlerterme U i i.i.d. normalverteilt sind mit Mittelwert Null 

und bekannter oder konsistent geschätzter Kovarianzmatrix Σ U . Die Zensierungszeiten 

C i seien unabhängig von (T i , X i ) und U i sei unabhängig von (T i , 

X i , C i ). Die beobachteten Daten seien (Y i , δ i , X ∗ i , Z i ). 

Wir gehen also von einem nicht-differenziellen Messfehler aus: Bei gegebenem 

wahren Wert von X i sind die Variablen T i und X ∗ i bedingt unabhängig, 

oder anders formuliert: Bei gegebenem X i enthält der gemessene Wert X ∗ i 

keine weitere Information über die Lebensdauer. 

3.2 Die Hazardrate im Cox-Modell mit Messfehlern 

Die Hazardrate im Coxmodell mit den ” 

wahren“ Kovariablen X i und Z i 

lautet: 

λ i (t|X i , Z i ) = λ 0 (t) · exp (β ′ xX i + β ′ zZ i ), 

wobei λ 0 die unspezifizierte Baseline-Hazardfunktion ist, die nicht von den 

Werten der Kovariablen abhängt. 

Wenn X i allerdings nicht beobachtbar ist und stattdessen X ∗ i verwendet wird, 

muss also ein passendes Modell gefunden werden, das die Hazardrate λ(t|X ∗ i ) 

modelliert. 

4 Korrekturmöglichkeiten im Cox-Modell 

Die im folgenden vorgeschlagenen Korrekturmöglichkeiten beziehen sich alle 

auf das Proportional-Hazard-Modell von Cox. 

4.1 Unterscheidung strukturelle - funktionale Ansätze 

Eine grobe Unterscheidung der Korrekturmöglichkeiten für Messfehler im 

Cox-Modell ergibt sich über die Frage nach der Verteilungsannahme für die 

wahre, nicht beobachtete Kovariable X. Treffen wir die Annahme, dass die 

8

Verteilung von X zu einer bestimmten, bekannten Klasse von Verteilungen 

gehört, so sprechen wir von strukturellen Ansätzen. Methoden die den Einfluss 

fehlerbehafteter Kovariablen ohne Verteilungsannahme korrigieren bezeichnet 

man hingegen als funktionale Ansätze (vgl. Handout Shchekaturina). 

4.2 Die induzierte Hazardrate im Cox-Modell 

Ein grundlegender struktureller Ansatz, dem Problem fehlerbehafteter Daten 

im Cox-Modell zu begegnen, besteht darin, die bedingte Verteilung von X i 

gegeben X ∗ i zu verwenden und unter der Annahme eines nicht-differentiellen 

Messfehlers den Einfluss des Messfehlers herauszuintegrieren. Da wir eine 

Verteilung für X i annehmen, handelt es sich hier also um eine strukturelle 

Methode. 

Allerdings kann dieser Ansatz nicht ohne weiteres auf das Coxmodell angewendet 

werden, was in folgender Herleitung gezeigt wird: 

Wenn X i nicht beobachtbar ist und stattdessen das Surrogat X ∗ i beobachtet 

wird, betrachten wir die Hazardrate λ(t|Z i , X ∗ i ). Wegen des nicht-differenziellen 

Messfehlers gilt λ(t|X i , X ∗ i , Z i ) = λ(t|X i , Z i ) 1 , sodass wir erhalten: 

λ(t|X ∗ i ) = lim 

ǫ→0 

ǫ −1 · P({T i ≤ t + ǫ}|{T i ≥ t}, X ∗ i ) 

= lim 

ǫ→0 

ǫ −1 · E(P({T i ≤ t + ǫ}|X i , {T i ≥ t}, X ∗ i )|{T i ≥ t}, X ∗ i ) 

= lim 

ǫ→0 

ǫ −1 · E(P({T i ≤ t + ǫ}|{T i ≥ t}, X i )|{T i ≥ t}, X ∗ i ) 

= E(λ(t|X i )|{T i ≥ t}, X ∗ i ) 

Über (2) ergibt sich als so genannte ” 

induzierte Hazardfunktion“ im Cox- 

Modell: 

λ(t|X ∗ i ) = λ 0 (t) · E(exp (β ′ X i )|X ∗ i , {T i ≥ t}) (8) 

, 

Die Problematik besteht nun darin, dass obige bedingte Erwartung durch 

das Ereignis {T i ≥ t} in der Bedingung von der Geschichte des Prozesses 

und damit von der unbekannten Baseline-Hazardfunktion abhängt. Folglich 

kann die Hazardrate nicht mehr einfach geschrieben werden als ein Produkt 

aus unbekannter Baseline-Hazardrate und einem Ausdruck, der nur von den 

1 O.B.d.A. nehmen wir aus Notationsgründen im Weiteren an, dass es keine korrekt 

gemessen Variablen Z i gibt 

9

Parametern abhängt. Dies hat zur Folge, dass die charakteristische Faktorisierung 

der Hazardfunktion (2) im Cox-Modell verloren geht und Inferenz 

mittels partieller Likelihood nicht mehr ohne weiteres betrieben werden kann. 

Eine wichtige Einschränkung, damit dieser Effekt vernachlässigt werden kann, 

besteht in der Annahme, dass die Ereignisse selten sind. Dann nämlich ist 

die Wahrscheinlichkeit P(T i ≥ t), den Zeitpunkt t zu überleben, nahe bei 

1. Diese Annahme wird als ” 

Rare Disease Assumption“ bezeichnet. Ist die 

Annahme gerechtfertigt, so kann (8) durch 

approximiert werden. 

λ ∗ (t|X ∗ i ) = λ 0 (t) · E(exp (β ′ X i )|X ∗ i ) (9) 

Es stellt sich als nächstes die Frage, wie der Term E(exp (β ′ X i )|X ∗ i ) berechnet 

werden kann. Dies ist relativ einfach im Fall dass X i |X ∗ i normalverteilt 

ist (mit Mittelwert ¯µ i und gemeinsamer Kovarianz ¯Σ). Dann nämlich lässt 

sich (9) mit Hilfe des Erwartungswerts lognormalverteilter Zufallsgrößen vereinfachen 

zu 

λ(t|X ∗ i ) = λ 0 (t) · exp (β ′¯µ i + 0.5β ′¯Σβ) =: λ 

∗ 

0 (t) · exp (β ′¯µ i ) (10) 

Als wichtigstes Beispiel für die Normalverteilung von X i |Xi 

∗ 2 von gilt der 

Fall, wenn die X i selbst i.i.d. normalverteilt sind mit Erwartungsert µ X 

und Kovarianz-Matrix Σ X . Dann nämlich ist Xi 

∗ ∼ N(µ X ;Σ X + Σ U ) und 

tatsächlich gilt X i |Xi ∗ ∼ N(¯µ i , ¯Σ) mit 

¯µ i = µ X + Σ X · (Σ X + Σ U ) −1 · (X ∗ i − µ X ) (11) 

und ¯Σ = Σ X − Σ X · (Σ X + Σ U ) −1 Σ X , sodass (10) jetzt geschrieben werden 

kann als 

λ(t|X ∗ i ) = λ ∗ 0(t) · exp (β ′ µ X + β ′ Σ X · (Σ X + Σ U ) −1 · (X ∗ i − µ X )) 

=: λ ∗∗ 

0 (t) · exp (β ′ · Σ X · (Σ X + Σ U ) −1 · X ∗ i ) (12) 

Betrachtet man den Ausdruck exp (β ′ · Σ X · (Σ X + Σ U ) −1 · X ∗ i ), so erkennt 

man, dass sich daraus die aus der linearen Regression bekannte Abschwächung 

des Schätzers ˆβ ergibt. 

ˆβ korrigiert = Σ −1 

X · (Σ X + Σ U ) · ˆβ naiv 

3 

(13) 

2 Die Normalverteilung X i |Xi ∗ ist typisch für den Berkson-Fehler; vergleiche hierzu auch 

die Idee der Umwandlung eines klassischen Fehlers in einen Berkson-Fehler: Skript Shchekaturina 

10

Dies ist allerdings nur der Fall, falls die oben getroffenen Annahmen (insbesondere 

” 

Rare Disease Assumption“ und Normalverteilung der X i ) zutreffen. 

In einer Reihe von Simulationsstudien [4] wurde beobachtet, dass starke 

Abhängigkeiten zwischen dem Bias und dem wahren Wert β, sowie zwischen 

dem Bias und dem Anteil der Zensierungen bestehen. Dies führt uns erneut 

auf die Wichtigkeit der ” 

Rare Disease Assumption“ zurück: Je kleiner 

nämlich der wahre Wert β und je höher der Anteil zensierter Beobachtungen 

ist, desto näher kommen wir der ” 

Rare Disease Assumption“. 

4.3 Regressionskalibrierung 

Einer der gängigsten Ansätze, um dem Problem fehlerbehafteter Daten in 

der Regressionsanalyse zu begegnen, ist die so genannte Regressionskalibrierung, 

die im Vortrag von O. Shchekaturina vorgestellt wurde. Ihr liegt die 

Idee zu Grunde, für die nicht beobachteten Variablen Werte einzusetzen, die 

über die beobachteten Daten vorhergesagt werden. Konkret wird die unbeobachtete 

Variable X i über ihre bedingten Erwartung gegeben X ∗ i , also durch 

ˆX i =E(X|Z,X ∗ i ) ersetzt. 

Die Inferenz basiert dann auf der Verwendung gängiger Software für die auf 

diese Weise gewonnenen Daten. 

4.3.1 Funktionale Regressionskalibrierung 

In vorherigen Seminarsitzungen haben wir die Regressionskalibrierung als 

funktionalen Ansatz kennen gelernt. Diese Idee kann auch auf Regressionsmodelle 

in der Lebensdaueranalyse übertragen werden. Hier wird dann wie 

folgt verfahren: 

1. Ersetze X i durch den bedingten Erwartungswert von X i gegeben X ∗ i 

2. Maximiere die Partial Likelihood des Cox-Modells, wobei statt X i der 

bedingte Erwartungswert ˆX i eingesetzt wird. 

Über die Regressionskalibrierung approximieren wir also das Cox-Modell, 

indem wir annehmen, dass die Hazardfunktion der beobachteten Daten hinreichend 

gut modelliert wird, wenn wir im Regressionsmodell statt der wah- 

3 Wenn die Kovarianz Σ U des Messfehlers bekannt ist, so können µ X und Σ X konsistent 

aus den Beobachtungen W 1 , ...,W n geschätzt werden 

11

en X i die bedingten Erwartungswerte verwenden - wir also von folgendem 

Modell ausgehen: 

λ(t|m(X ∗ i , γ)) = λ ∗ 0(t) exp (β ∗′ m(X ∗ i , γ)) (14) 

Dabei ist m(X ∗ i ,γ) der (wahre) bedingte Erwartungswert von X i gegeben X ∗ i 

und γ; γ ist der Regressionsparameter von X auf X ∗ . 

In Wirklichkeit muss bei einem funktionalen Ansatz die bedingte Erwartung 

von X i gegeben X ∗ i jedoch geschätzt werden. Hierbei wird zunächst das unbeobachtete 

X i durch eine Regression von X auf X ∗ geschätzt (vgl. Handout 

Shchekaturina). Anstatt X i wird dann der daraus gewonnene Schätzer ˆX i = 

m X (X ∗ i ,ˆγ) verwendet. ˆXi ist also nur ein Schätzer. In Gleichung (14) taucht 

jedoch der (wahre) bedingte Erwartungswert von X i gegeben X ∗ i und γ auf; 

β ∗ ist dementsprechend der (wahre) Parameter der den Einfluss des (wahren) 

bedingten Erwartungswerts m(X ∗ i ,γ) auf die Überlebenswahrscheinlichkeit 

modelliert. 

Setzen wir nun statt dem (wahren) bedingten Erwartungswert m(X ∗ i ,γ) seine 

Schätzung ˆX i ein, so kann gezeigt werden, dass unter Regularitätsbedingungen 

der über die Maximierung der Partial Likelihood erhaltene Schätzer konsistent 

und asymptotisch normal für β ∗ ist. Allerdings ist β ∗ ja nur eine Approximation 

des wahren Parameters β, da wir im Regressionsmodell (14) ja den 

bedingten Erwartungswert statt des wahren (unbekannten) X i einsetzen. In 

der Praxis, wird (9) aber oft gut durch die obige Gleichung (14) approximiert. 

4.3.2 Strukturelle Regressionskalibrierung 

In den vorherigen Seminarsitzungen wurde bereits erwähnt, dass die Regressionskalibrierung 

auch als strukturelle Methode gesehen werden kann, 

nämlich dann, wenn wir Verteilungsannahmen für X i |X ∗ i treffen. Im einfachsten 

Fall - wenn die X i wiederum i.i.d. normalverteilt sind - entspricht die 

Regressionskalibrierung exakt dem bereits in 4.2 kennen gelernten Verfahren: 

Wenn die X i i.i.d. normalverteilt sind, so muss der bedingte Erwartungswert 

von X i gegeben X ∗ i nicht wie bei der funktionalen Regressionskalibrierung 

geschätzt werden. Stattdessen kann er direkt als 

¯µ i = µ X + Σ X · (Σ X + Σ U ) −1 · (X ∗ i − µ X ) 

berechnet werden (vgl. (11)). Wird nun in der Score-Gleichung (5) X i durch 

eben dieses ¯µ i ersetzt, so lautet die ” 

neue“ Score-Gleichung 

k∑ 

(¯µ i − 

i=1 

∑ 

j∈R(t (i) ) ¯µ j · exp (¯µ ′ jβ) 

∑j∈R(t (i) ) exp (¯µ′ j β) ) = 0 (15) 

12

Wird nun für ¯µ i der Term µ X + Σ X · (Σ X + Σ U ) −1 · (X ∗ i − µ X ) eingesetzt, 

die Gleichung entsprechend vereinfacht und anschließend mit (Σ X · (Σ X + 

Σ U ) −1 ) −1 multipliziert, so ergibt sich 

k∑ 

(Xi ∗ − 

i=1 

∑j∈R(t (i) ) X∗ j · exp (Σ X · (Σ X + Σ U ) −1 X ∗′ 

j β) 

∑j∈R(t (i) ) exp (Σ X · (Σ X + Σ U ) −1 X ∗′ 

j β) ) = 0 (16) 

was in der Tat wieder zum selben korrigierten Schätzer (13) führt. 

Der Vorteil der Regressionskalibrierung liegt vor allem in seiner einfachen 

Implementierung: Nach einer geeigneten Modellierung der bedingten Erwartung, 

kann die übliche Standardsoftware für Lebensdauermodelle (R: coxph(), 

survreg(); SAS: PROC PHREG) für die Inferenz verwendet werden. 

4.4 Die korrigierte Scorefunktion 

Während bei den oben vorgestellten strukturellen Vorgehensweisen eine Verteilungsannahme 

für die unbeobachtete Kovariable X getroffen wird, erlauben 

es funktionale Ansätze, auf solche Annahmen zu verzichten. Die bekannteste 

funktionale Methode, um Messfehler im Regressionsmodell zu berücksichtigen, 

ist die von Nakamura eingeführte korrigierte Scorefunktion [7], bzw. korrigierte 

Likelihoodfunktion. 

Sei Y der in einem Regressionsmodell beobachtete Vektor der Zielgröße, X 

der Vektor der unbeobachteten Kovariable und X ∗ der Vektor des für X verwendeten 

Surrogats. 

Wir bezeichnen mit l X (Y, X, θ) und mit s X (Y, X, θ) die Log-Likelihood bzw. 

Scorefunktion von θ gegeben der wahren Kovariablen X. Da X jedoch nicht 

beobachtbar ist, kennen wir diese Funktionen nicht - wir bezeichen s X (Y, X, θ) 

daher als ideale Scorefunktion. Dementsprechend seien l X (Y, X ∗ , θ) und s X (Y, X ∗ , θ) 

die entsprechenden Likelihood- bzw. Scorefunktionen, wenn wir statt der 

Werte für X einfach die Werte der Surrogatvariablen X ∗ einsetzen. Wir bezeichen 

s X (Y, X ∗ , θ) als naive Scorefunktion. 

Für die ideale Scorefunktion gilt (vgl. Statistik III), dass der Erwartungswert 

der Scorefunktion an der Stelle des wahren Parameters θ 0 null ist: 

E(s X (Y, X, θ)) = 0. Allerdings geht diese Eigenschaft (selbst bei unendlich 

großen Stichproben) verloren, wenn wir die naive Scorefunktion verwenden, 

also statt X einfach das Surrogat X ∗ verwenden. Als Konsequenz ergibt sich, 

dass die Nullstelle der Scorefunktion (über die wir den ML-Schätzer berechnen) 

kein konsistenter Schätzer mehr für θ ist. 

13

Die Idee der korrigierten Scorefunktion besteht nun darin, unverzerrte Schätzgleichungen 

zu konstruieren: Man sucht nach einer Funktion s W (Y, X ∗ , θ) in 

den beobachteten Daten Y und X ∗ , mit der Eigenschaft, dass die bedingte 

Erwartung dieser Funktion gegeben X wieder der originalen Scorefunktion 

entspricht: 

E(s X∗ (Y, X ∗ , θ)|X, Y ) = s X (Y, X, θ) (17) 

Eine solche Funktion nennt man dann ” 

korrigierte Scorefunktion“. Tatsächlich 

ist ihr Erwartungswert Null, was über den Satz der iterierten Erwartung gezeigt 

wird: 

E(s X∗ (Y, X ∗ , θ)) = E(E(s X∗ (Y, X ∗ , θ)|X, Y )) = E(s X (Y, X, θ)) = 0 (18) 

Daraus kann dann unter Annahme schwacher Regularitätsbedingungen geschlossen 

werden, dass die Schätzung für θ konstistent und asymptotisch 

normal ist. 

Die korrigierte Scorefunktion im Cox-Modell 

Erneut ist die Übertragung dieser Idee auf die Survivalanalyse nicht ohne 

weitere Überlegungen zu leisten. Sie kann nicht direkt auf die Partial- 

Scorefunktion im Coxmodell 

∑ 

k∑ 

j∈R(t (i) ) 

(x i − 

x j · exp (x ′ jβ) 

∑j∈R(t (i) ) exp (x′ j β) ) = 0 (5) 

i=1 

übertragen werden. 

Der Beweis dafür ist sehr komplex: Er beruht darauf, dass für die Existenz 

korrigierter Scorefunktionen die Scorefunktion vollständig in der Ebene der 

komplexen Zahlen liegen muss. Der Nenner in (5) kann jedoch komplexe Nullstellen 

haben, was dieser Bedingung widerspricht: Exakte korrigierte Scorefunktionen 

gibt es für die Partial-Likelihood im Cox-Modell also nicht! (vgl. 

[9]) 

Bei der Herleitung der Partial-Likelihood haben wir die sog. Breslow-(Log- 

)Likelihood kennengelernt, deren Form hier in Erinnerung gerufen werden 

soll: 

ln L Br = 

k∑ 

(d i ln λ i + ∑ 

∑ 

X jβ ′ − λ i (t (i) − t (i−1) ) exp (X jβ)) 

′ 

i=1 

j∈D(t (i) ) 

j∈R(t (i) ) 

14

Da hier kein Nenner mit komplexen Nullstellen auftaucht, liegt die Idee nahe, 

eine korrigierte log-Likelihood basierend auf der Breslow-Likelihood zu 

suchen. Tatsächlich liegen bei der Breslow-Likelihood - im Gegensatz zur 

Partial-Likelihood - keine Singularitäten mehr vor, die die Existenz einer 

korrigierten Likelihoodfunktion unmöglich machen könnten. 

Über die Breslow-Likelihood kann jetzt die allemeine Theorie korrigierter 

Score- und Likelihoodfunktionen auch im Cox-Modell angewendet werden: 

Das Cox-Modell bedarf keiner gesonderten Handhabung mehr. 

Daher wird zwar im folgenden die Gestalt der korrigierten log-Likelihood- 

Funktion speziell für das Cox-Modell vorgestellt; das Prinzip gilt jedoch allgemein 

für alle nicht-linearen Regressionen. 

Satz 

k∑ ((d i ln λ i + ∑ 

i=1 

j∈D(t (i) ) 

X ∗′ 

j β − λ i (t (i) − t (i−1) ) · 

∑ 

j∈R(t (i) ) 

exp (Xj ∗′ β) 

M Uj (β) 

) ) 

|X, Y 

ist eine korrigierte Log-Likelihood für die Breslow-Log-Likelihood. 

Dabei ist M Uj (β) = E(exp (U ′ jβ)) die Momentenerzeugende Funktion der Zufallsvariablen 

U j . 

Beweis 

E ( l X∗ (Y, X ∗ , θ|X, Y ) ) = 

∑k 

(( 

E( 

i=1 

d i ln λ i + ∑ ) )) 

j∈D(t (i) ) X∗′ j β − λ i (t (i) − t (i−1) ) · ∑j∈R(t 

exp (Xj ∗′ β) 

(i) ) M Uj 

|X, Y = 

(β) 

∑k 

( 

E( 

i=1 

d i ln λ i + ∑ j∈D(t (i) ) (X j + U j ) ′ β − λ i (t (i) − t (i−1) )· 

∑ 

) ) 

exp ((X j +U j ) ′ β) 

j∈R(t (i) ) M Uj 

|X, Y = 

(β) 

∑ ( 

k 

i=1 

d i ln λ i + ∑ j∈D(t (i) ) X jβ ′ + ∑ j∈D(t (i) ) E((U jβ)|X, ′ Y ) − λ i (t (i) − t (i−1) )· 

∑ 

) 

exp (X ′ j β) 

j∈R(t (i) ) 

E(exp (U ′ M Uj (β) jβ)|X, Y ) 

Da U j unabhängig von X ist, folgt: 

E(exp (U ′ jβ)|X, Y ) = E(exp (U ′ jβ)) = M Uj (β) 

und 

E(U ′ jβ|X, Y ) = E(U ′ jβ) = 0. 

und es folgt letzlich: 

( 

) 

E l X∗ (Y, X ∗ , θ|X, Y ) = 

∑ k 

i=1( 

d i ln λ i + ∑ j∈D(t (i) ) X jβ ′ − λ i (t (i) − t (i−1) ) ∑ ) 

j∈R(t (i) ) exp (X jβ) 

′ 

q.e.d 

15 

= ln L Br

Aus dieser korrigierten Scorefunktion kann dann die entsprechende korrigierte 

Scorefunktion hergeleitet werden, über die dann korrigierte Regressionsschätzer 

für β erhalten werden. 

5 Berkson-Fehler im Cox-Modell 

In den vorhergehenden Kapiteln wurde dem Problem fehlerhafter Daten das 

klassische Messfehlermodell zu Grunde gelegt. In der Tat gehen die meisten 

wissenschaftlichen Artikel über Messfehler im Coxmodell von dieser Fehlerstruktur 

aus. (vgl. [5]) Dennoch werden gerade in epidemiologischen Studien 

häufig Variablen erhoben, bei denen Messfehler vom Berkson-Typ auftreten. 

Speziell bei der Erhebung individueller Dosen eines Medikaments oder einer 

Strahlenbelastung wird häufig der mittlere Wert einer vergleichbaren Population 

verwendet, sodass von einem Berksonfehler ausgegangen werden kann. 

Als Beispiel sei hier die ” 

European Study of Cancer Risks among Airline 

Pilots and Cabin Crew (ESCAPE)“ (vgl. [5]) genannt, bei der die Krebsmortalität 

des Cockpit- und Kabinenpersonals untersucht wird. Als Einflussgröße 

wird dort die individuelle Strahlenbelastung verwendet, die geschätzt wird 

über die individuelle Anzahl der bisherigen Flugstunden sowie einer durchschnittlichen 

Strahlungsbelastung die nach Flugzeugtyp, Jahren, Ländern 

und Beruf gemittelt wird. 

5.1 Modellannahmen 

Wir betrachten ein einfaches Cox-Modell mit einer einzigen Variablen X. Der 

Zusammenhang zwischen X und der Lebensdauer T ist durch die wahre Survivorfunktion 

und die wahre Hazardrate gegeben. Die wahre Survivorfunktion 

lautet 

S wahr (t, x) = P(T ≥ t|X = x) 

Wiederum kann X nicht direkt beobachtet werden; stattdessen wird das Surrogat 

X ∗ erhoben. Im Gegensatz zum klassischen Fehlermodell, besteht zwischen 

X und X ∗ nun der Zusammenhang 

X = X ∗ + U 

für den additiven Berkson Fehler und 

X = X ∗ · V 

für den multiplikativen Berkson Fehler. 

Hierbei sind U und V die Berkson-Fehlervariablen. 

16

5.2 Additiver Berkson-Fehler 

Wir nehmen an, dass der Messfehler eine Zuvallsvariable mit Dichte f u und 

unabhängig von X ∗ und T ist. Bei Annahme eines additiven Berkson-Fehlers 

sei die beobachtete Survivorfunktion definiert als 

S beob (t, w) := P(T ≥ t|W = w) und wird wie folgt berechnet: 

∫ 

S beob (t, x ∗ ) = E(S wahr (t, x)|X ∗ = x ∗ ) = 

S wahr (t, x ∗ + u)f u (u)du. (19) 

Die beobachete Survivorfunktion S beob (t, x ∗ ) ergibt sich also als ” 

Mittel“ 

der wahren Survivorfunktion S wahr (t, .) über einem Intervall, dessen Mittelpunkt 

x ∗ ist. Um einen Eindruck zu erhalten, wie ein Berksonfehler in der 

Kovariablen den Parameterschätzer für β im Coxmodell beeinflusst, werden 

im Folgenden Messfehler in einem möglichst einfachen Modell simuliert. Anschließend 

werden die wahren Survivorfunktionen und Hazardraten mit den 

beobachteten über Plots verglichen. 

Wir legen ein einfaches Coxmodell mit einer fehlerbehafteten Kovariablen 

X zu Grunde. Die Baseline-Hazardrate sei konstant und habe den Wert 

exp(−2). Der wahre Parameter sei β = 1 und der Messfehler U sei standardnormalverteilt. 

Mit den hierbei simulierten Daten wird die beobachtete 

Survivorfunktion über das Integral (siehe (19)) numerisch berechnet. 

Es muss beachtet werden, dass die Survivorfunktion sowohl von x bzw. x ∗ als 

auch von t abhängt. Daher wird im ersten Plot von Abbildung 1 x ∗ (bei 3) 

festgehalten und die Survivorfunktion in Abhängigkeit der Zeit t gezeichnet. 

Im zweiten Plot von Abbildung 1 wird der Zeitpunkt festgehalten (t=1) und 

die Survivorfunktion in Abhängigkeit von x ∗ gezeichnet. 

Man erkennt in Abbildung 1, dass der Messfehler ähnlich wie bei anderen 

Regressionsmodellen zu einer flacheren Survivorfunktion führt. Der Bias ist 

aber im Coxmodell wesentlich schwieriger zu berechnen als in anderen Regressionsmodellen. 

Zu welchem Bias Fehler in der Kovariaten führen, lässt 

sich daher einfacher beschreiben, wenn wir uns die Hazardrate genauer ansehen. 

Wegen (2) besteht im Coxmodell für Kovariaten X ohne Messfehler ein loglinearer 

Zusammenhang mit der Hazardrate. 

log (λ(t, x)) = log λ 0 (t) + x ′ β 

Plottet man die wahren Kovariablenwerte x gegen den Logarithmus der 

Hazardrate, ergibt sich also eine Gerade. Die Geradensteigung entspricht dem 

17

Abbildung 1: Vergleich der beobachteten Survivorfunktion S beob (t, .) (gestrichelte 

Linie) mit der wahren Survivorfunktion S wahr (t, .) (durchgezogene Linie) 

Parameter β. Das Ausmaß des Bias kann nun graphisch bewertet werden, 

indem wir den beobachteten Wert x ∗ gegen die logarithmierte beobachtete 

Hazardrate plotten und überprüfen, inwiefern sich die Form dieser Kurve von 

einer Geraden unterscheidet. 

Dazu verwenden wir weiterhin die oben simulierten Werte und erstellen in 

Abbildung 2 zwei solcher Plots - Plot 1 bei festgehaltenem t=1 und Plot 2 

bei festgehaltenem t=0.1. 

Abbildung 2: Vergleich des beobachteten log. Hazards λ beob (t, .) (gestrichelte 

Linie) mit dem wahren Hazard λ wahr (t, .) (durchgezogene Linie) 

Man erkennt, dass in Abbildung 2 beim ersten Plot der Zusammenhang zwischen 

x und der Log-Hazardrate nicht mehr linear ist: Der Parameter β, der 

der ” 

Geraden“-Steigung entspricht - wird unterschätzt. Anders sieht es beim 

zweiten Plot aus: Die gefittete Kurve mit Messfehlern kommt einer Gera- 

18

den sehr nahe; die Geradensteigungen unterscheiden sich kaum. β wird also 

nahezu unverzerrt geschätzt. 

Die Tatsache, dass wir t bei 0.1 festgehalten haben, kann erneut als 

Gewährleistung der “Rare-Disease-Assumption“ angesehen werden, die auch 

schon im klassischen Messfehlermodell für wenig verzerrte Schätzer gesorgt 

hat. Dies kann auch theoretisch begründet werden. Der Effekt von fehlerbehafteten 

Daten auf die Parameterschätzung ist also auch im Berkson-Modell 

bei Vorliegen der ” 

Rare-Disease-Assumption“ sehr gering. 

5.3 Weitere Ergebnisse 

1. Der Effekt eines multiplikativen Berksonfehlers hängt stark von der 

Fehlervarianz ab. Für große Fehlervarianzen kann der Bias nicht ignoriert 

werden; auch nicht bei Vorliegen der ” 

Rare-Disease-Assumption“. 

2. Eine fehlerbehaftete Variable kann auch die Parameter weiterer, fehlerfrei 

gemessenener Kovariablen unterschätzen. 

3. Ein Ignorieren der Messfehlerproblematik führt zu einer inkonsistenten 

Schätzung der Baseline-Hazardrate, da die Proportionalität der 

Hazards meist verletzt wird. Tests auf Proportionalität der Hazards 

können verfälscht sein. 

6 Frailty-Modelle 

Im medizinischen Anwendungsbereich liegen Daten oft in sog. Clustern vor, 

woraus sich gruppenspezifische Effekte ergeben können. Solche Effekte werden 

als Zufallseffekte in den Prädiktor miteinbezogen. Clusterspezifische Effekte 

können z.B. sein: 

1. Klinikeffekte einer Klinik i mit n i Patienten in einer Studie mit m 

beteiligten Kliniken 

2. Familieneffekte für n i Mitglieder der Familie i 

3. Räumliche Effekte für n i erkrankte Personen aus der Region i, i=1,...,m 

in einer epidemiologischen Studie 

Der gemeinsame clusterspezifische Effekt führt dazu, dass Inidividuen aus 

dem gleichen Cluster positiv korreliert sind. In der linearen Regression, wird 

19

ei der Aufnahme von Zufallseffekten in den Prädiktor meist von ” 

Gemischten 

Modellen“ gesprochen, in der Lebensdaueranalyse spricht man hingegen 

von ” 

Frailty-Modellen“. Wir betrachten frailties im Cox-Modell. 

6.1 Messfehler in frailty-Modellen 

Wir nehmen an, dass die Daten in I Clustern vorliegen, wobei X ij der Wert 

der Kovariablen X des j-ten Individuums im i-ten Cluster ist. Völlig analog 

wie bei den gemischten linearen Modellen, fügen wir im linearen Prädiktor 

des Regressionsmodells einen Zufallseffekt b i für das i-te Cluster hinzu. 

Es ergibt sich für das j-te Individuum des i-ten Clusters - bedingt auf das 

clusterspezifische frailty - folgende Hazardfunktion: 

λ ij (t|X ij , Z ij , b i ) = λ 0 (t) · exp (β ′ xX ij + β ′ zZ ij + b i ), (20) 

wobei wiederum X ij mit Messfehlern beobachtet wurde, Z ij ohne Fehler gemessen 

wurde und b i der clusterspezifische Zufallseffekt ist, wobei wir annehmen, 

dass b i i.i.d. N(0,σb 2 ) verteilt und unabhängig von Zensierung, Messfehler 

und Eventzeitpunkt ist. Weiterhin gelte das klassische additive Fehlermodell 

mit den entsprechenden Unabhängigkeiten wie in 3.1 spezifiziert. 

6.2 Likelihood Inferenz für frailty-Modelle mit Messfehlern 

Li und Lin (2000) [6] schlagen einen vollen Likeliood-Ansatz vor, um das 

Modell (Formel oben) zu fitten, wobei sie zu Grunde legen, dass [X|X ∗ ,Z] 

normalverteilt ist. 

Um die Likelihood zu maximieren, verwenden sie den EM-Algorithmus, 

die am häufigsten verwendete Methode beim Vorliegen von fehlenden Daten. 

Tatsächlich werden die (unbekannten) frailties sowie die wahren aber unbekannten 

Werte der Variablen X als ” 

fehlende Daten“ aufgefasst. Die ” 

komplette“ 

Likelihood für das i-te Cluster beinhaltet die beobachteten Werte 

(Z ij , X ∗ ij) und unbeobachteten Werte (X ij , b i ) und lautet: 

{ 

· exp − 

∫ Yi 

0 

L i (Θ;X ij , b i , Z ij , Xij) ∗ = {λ ij (t|X ij , Z ij , b i )} δ ij 

} 

λ(u|X ij , Z ij , b i )du φ(b i , σb)φ(X 2 ij |Xij, ∗ Z ij , θ) (21) 

hierbei ist φ(b i , σ 2 b ) die normalverteilte Dichte von b i und φ(X ij |X ∗ ij, Z ij , θ) 

die bedingte normalverteilte Dichte von X ij gegeben (X ∗ ij, Z ij ). Θ ist der Vektor 

aller Parameter und beinhaltet hier die Parameter der proportionalen 

20

Hazardfunktion, die Parameter (β x , β z ) den Parameter σb 2 aus dem frailty- 

Modell, die Parameter θ der bedingten Verteilung [X|X ∗ ,Z] sowie weitere 

Parameter die sich auf die Integration der Baseline Hazardfunktion beziehen. 

Diese vollständige“ Likelihood kann nicht direkt für die Schätzung der Parameter 

verwendet werden, da sie unbeobachtete Daten enthält. Stattdessen 

” 

wird die marginale Likelihood der beobachteten Daten verwendet, die sich 

ergibt , wenn man die unbeobachteten Daten herausintegriert. 

Hier kommt der EM-Algorithmus ins Spiel: Beim EM-Algorithmus wird zunächst 

ein Startwert θ (0) für den unbekannten Parameter festgelegt. Anschließend 

besteht jeder Iterationsschritt aus zwei Schritten, dem E-Schritt und dem 

M-Schritt. 

1. E-Schritt: Berechne den bedingten Erwartungswert der Log-Likelihood 

l(θ, x) im vollständigen Datensatz, gegeben den derzeitigen Schätzwert 

θ (n) 

2. M-Schritt: Maximiere diesen bedingten Erwartungswert und erhalte 

eine neue Schätzung θ (n+1) 

Der von Li und Lin vorgeschlagene EM-Algorithmus verwendet Monte-Carlo- 

Simulationen im E-Schritt. Gleichzeitig wird dort die Baseline-Hazardrate 

nonparametrisch geschätzt. Weitere Details siehe dort. 

7 Fazit 

Gerade in der Biostatistik mit der Lebensdaueranalyse als eines ihrer wichtigsten 

Anwendungsgebiete, tritt häufig das Problem fehlerbehafteter Daten 

auf. Es ist daher notwendig, Methoden zu finden, mit denen Messfehler in 

der Lebensdaueranalyse adäquat behandelt werden können. 

Diese Arbeit hat in einem einführenden Teil die grundlegenden Notationen 

und Modelle der Lebensdaueranalyse vorgestellt, um dann anschließend mehrere 

Verfahren vorzustellen, wie Schätzungen beim Vorliegen von Messfehlern 

korrigiert werden können. Die vorgestellten Methoden beziehen sich ausnahmslos 

auf das Proportional-Hazards-Modell von Cox. 

Es wurde festgehalten, dass beim Vorliegen von Messfehlern die auf den beobachteten 

Daten basierende sog. Induzierte Hazardfunktion nicht mehr als 

ein Produkt aus beliebiger Baseline-Hazardrate und einem Term, der nur 

21

von den Parametern abhängt, geschrieben werden kann. Dies gilt als Hauptgrund, 

warum die Methodik der Cox-Regression nicht mehr ohne Modifikationen 

verwendet werden kann. Mit der sog. ” 

Rare-Disease-Assumption“ - 

der Annahme seltener Ereignisse - wurde eine wichtige Vereinfachung kennengelernt, 

um diesen Effekt abzuschwächen. 

Es wurde ein Verfahren vorgestellt, wie der Einfluss des Messfehlers aus der 

Hazardfunktion herausintegriert werden kann, das, unter Annahme der Normalverteilung 

für die unbeobachtete Variable X, zur bekannten Abschwächung 

des Parameterschätzers aus der linearen Regression führt. 

Das Konzept der Regressionskalibrierung wurde sowohl als funktionaler als 

auch als struktureller Ansatz eingeführt, wobei letzterer in einem speziellen 

Fall mit dem obigen Verfahren übereinstimmt. 

Nakamuras Verfahren der korrigierten Scorefunktionen wurde auf das Cox- 

Modell übertragen. Dabei wurde aufgezeigt, dass dieses Konzept nicht auf 

die Partial-Likelihood des Cox-Modells angewendet werden kann, wohl aber 

auf die Breslow-Likelihood. Dann ist das Vorgehen nahezu identisch wie bei 

allen anderen nicht-linearen Regressionen. 

In einem weiteren Abschnitt wurde der Einfluss eines Berkson-Fehlers auf die 

Parameterschätzer im Cox-Modell untersucht und mit Hilfe der Ergebnisse 

von externen Simulationen und darauf beruhenden Graphiken ein Eindruck 

über das Ausmaß möglicher Verzerrungen gegeben. 

Ein letzter Abschnitt stellt theoretisch eine Vorgehensweise dar, wie Messfehlern 

in der Lebensdaueranalyse begegnet wird, wenn die beobachteten Daten 

in Clustern vorliegen. 

22

Literatur 

[1] Carroll, R.J., Ruppert, D., Stefanski L.A. and Crainiceanu, 

C.M., (2006) Measurement Error in Nonlinear Models: A Modern 

Perspective, Chapman and Hall, London. 

[2] Augustin T. & Schwarz R. Cox’s proportional hazards model 

under covariate measurement error - A review and comparison 

of methods. In Total least squares and errors-in-variables modeling: 

analysis, algorithms and applications (eds S. Van Huffel 

& P. Lemmerling). Kluwer, Dordrecht, S. 175-184., 2002 

[3] Augustin T. An exact corrected log-likelihood function for 

Cox’s proportional hazards model under measurement error 

and some extensions. In Scandinavian Jorunal of Statistics, 

31:43-50, 2004 

[4] Hughes M.D. Regression dilution in the proportional hazards 

model. In Biometrics, 49:1056-1066, 1993 

[5] Kuechenhoff T., Bender R., Langner I. Effect of Berkson measurement 

error on parameter estimates in Cox regression models. 

In Lifetime Data Analysis, 13:261-272, 2007 

[6] Li Y. & Lin X. Covariate measurement errors in frailty models 

for clustered survival data. In Biometrika, 87(4):849-866, 2000 

[7] Nakamura T. Corrected score function of errors-in-variables 

models: Methodology and application to generalized linear 

models. In Biometrika, 77:127-137, 1990 

[8] Nakamura T. Proportional hazards model with covariates 

subject to measurement error. In Biometrics, 48:829-838, 1992 

[9] Stefanski L. A. Unbiased estimation of a nonlinear function of 

a normal mean with application to measurement error models. 

In Commun. Statist. Theory Methods, 18:4335-4358, 1989 

23

Handout - Institut für Statistik

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?