Handout - Institut für Statistik
Handout - Institut für Statistik
Handout - Institut für Statistik
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Messfehler in der Lebensdaueranalyse<br />
Seminar: Analyse fehlerbehafteter Daten<br />
Matthias Hunger<br />
30. Juni 2008<br />
1
Inhaltsverzeichnis<br />
1 Einleitung 3<br />
2 Lebensdaueranalyse:<br />
Notation und Modelle 3<br />
2.1 Notation und Begriffe . . . . . . . . . . . . . . . . . . . . . . . 3<br />
2.2 Regressionsmodelle in der Lebensdaueranalyse . . . . . . . . . 4<br />
2.2.1 Parametrische Transformationsmodelle . . . . . . . . . 4<br />
2.2.2 Das Proportional-Hazard-Modell von Cox . . . . . . . 5<br />
3 Messfehler in den Lebensdauermodellen 7<br />
3.1 Grundannahmen . . . . . . . . . . . . . . . . . . . . . . . . . 8<br />
3.2 Die Hazardrate im Cox-Modell mit Messfehlern . . . . . . . . 8<br />
4 Korrekturmöglichkeiten im Cox-Modell 8<br />
4.1 Unterscheidung strukturelle - funktionale Ansätze . . . . . . . 8<br />
4.2 Die induzierte Hazardrate im Cox-Modell . . . . . . . . . . . . 9<br />
4.3 Regressionskalibrierung . . . . . . . . . . . . . . . . . . . . . . 11<br />
4.3.1 Funktionale Regressionskalibrierung . . . . . . . . . . . 11<br />
4.3.2 Strukturelle Regressionskalibrierung . . . . . . . . . . . 12<br />
4.4 Die korrigierte Scorefunktion . . . . . . . . . . . . . . . . . . . 13<br />
5 Berkson-Fehler im Cox-Modell 16<br />
5.1 Modellannahmen . . . . . . . . . . . . . . . . . . . . . . . . . 16<br />
5.2 Additiver Berkson-Fehler . . . . . . . . . . . . . . . . . . . . . 17<br />
5.3 Weitere Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . 19<br />
6 Frailty-Modelle 19<br />
6.1 Messfehler in frailty-Modellen . . . . . . . . . . . . . . . . . . 20<br />
6.2 Likelihood Inferenz <strong>für</strong> frailty-Modelle mit Messfehlern . . . . 20<br />
7 Fazit 21<br />
2
1 Einleitung<br />
Die Ereigniszeit- oder Survivalanalyse ist eine statistische Analyse, bei der die<br />
Zeitspanne T bis zum Eintreffen eines wohldefinierten Ereignisses betrachtet<br />
wird. Sie erfreut sich interdisziplinärer Beliebtheit, dementsprechend gibt es<br />
zahlreiche Bezeichnungen die oft synonym verwendet werden. So wird in der<br />
<strong>Statistik</strong> - geprägt durch die medizinische Anwendung - meist von ”<br />
Survival<br />
Analyse“ (Überlebensanalyse) oder Lebensdaueranalyse gesprochen, wohingegen<br />
in der empirischen Sozialforschung der Begriff ”<br />
Verweildaueranalyse“<br />
vorherrscht. Bekannte Modelle in der Wirtschafts- und Sozialforschung<br />
modellieren die Dauer bis zur Heirat (Diekmann, Mitter) oder die Dauer<br />
der Arbeitslosigkeit (IAB - <strong>Institut</strong> <strong>für</strong> Arbeitsmarkt- und Berufsforschung).<br />
Aus der medizinischen Anwendung abgeleitet, wird die Zeitdauer T meist<br />
als Lebenszeit oder Lebensdauer (survival time, duration) sowie das Ereignis<br />
als Tod (failure) bezeichnet. Dementsprechend ist auch der Name ”<br />
Time-tofailure“-Analyse<br />
gängig. Regressionsmodelle zur Modellierung der nichtnegativen<br />
Zufallsvariablen benötigen eine eigene Theorie bzw. Modellbildung, da<br />
oft Realisationen von T nicht vollständig beobachtbar sind, z.B. kommt es<br />
vor, dass das Ereignis bei Ende der Studie noch nicht eingetreten ist. Dies<br />
führt zur Zensierungsproblematik (censoring). Desweiteren ist bei der Analyse<br />
von Überlebensdauern die Rolle der sog. Hazardrate ungewöhnlich: Über<br />
sie lässt sich vieles anschaulicher erklären und sie stellt die zentrale Größe<br />
des so genannten Cox-Modells dar, auf dem der Schwerpunkt dieser Arbeit<br />
liegt.<br />
Gerade in der Biostatistik - einem der Hauptanwendungsgebiete der Survivalanalyse<br />
- stellt sich oft das Problem fehlerbehafteter Daten: Interessierende<br />
Variablen können in der biometrischen Anwendung oft nur mit einem<br />
nicht-vernachlässigbaren Fehler gemessen werden oder sie sind generell nicht<br />
verfügbar. Als Beispiel sei hier der in Ernährungsstudien oft verwendete aufgenommene<br />
Proteingehalt der letzten fünf Jahre genannt. Es müssen Surrogate<br />
verwendet werden, die als fehlerbehaftete Variablen aufgefasst werden,<br />
sodass Analysemodelle dementsprechend angepasst werden müssen.<br />
2 Lebensdaueranalyse:<br />
Notation und Modelle<br />
2.1 Notation und Begriffe<br />
Der gängigen Notation folgend, betrachten wir in der Lebensdaueranalyse<br />
folgendes grundlegendes Modell:<br />
3
Für jedes Individuum i, i=1,...n, wirken zwei latente Größen im Hintergrund:<br />
Die wahre Lebensdauer T i und die maximale Beobachtungsdauer C i (Zensierungszeit).<br />
Tatsächlich beobachtet wird nur die jeweils kürzere der beiden<br />
Zeiten, also Y i = min(T i , C i ).<br />
Darüber hinaus ist bekannt, ob es sich bei einem Individuum um die tatsächliche<br />
Lebensdauer handelt, oder ob bei Person i eine Zensierung vorliegt.<br />
Dies geschieht über den Zensierungsindikator - eine Zufallsvariable die wie<br />
folgt definiert ist: δ i = I(T i < C i ) Die Risikomenge R i = {j : Y j ≥ Y i } entspricht<br />
der Menge an Individuen, die zum Todes- bzw. Zensierungszeitpunkt<br />
von Individuum i noch leben und unzensiert sind.<br />
Lebensdauerverteilungen können über unterschiedliche Funktionen beschrieben<br />
werden, wobei sich jede dieser Funktionen (fast sicher) eineindeutig aus<br />
der anderen herleiten lässt: Diese Funktionen sind Dichte, Verteilungsfunktion,<br />
Survivorfunktion, Hazardrate und kumulierte Hazardrate.<br />
Die zentrale Kenngröße in der Survivalanalyse ist die Hazardrate (Ausfallrate).<br />
Sie ist definiert als<br />
λ(t) := lim<br />
∆t→0<br />
1<br />
P(t ≤ T < t + ∆t|T ≥ t) (1)<br />
∆t<br />
und entspricht dem infinitesimalen Risiko, im nächsten Moment zu sterben,<br />
gegeben man hat bis zu diesem Moment überlebt. Die Hazardrate ist<br />
meist am besten geeignet, Eigenschaften einer Lebensdauerverteilung anschaulich<br />
darzustellen.<br />
So hat beispielsweise die Exponentialverteilung, deren zentrale Eigenschaft<br />
die sog. Gedächtnislosigkeit ist, eine konstante Hazardrate, d.h. das Risiko<br />
zu sterben ist in jedem Moment gleich und hängt nicht von der bisherigen<br />
Überlebensdauer ab.<br />
2.2 Regressionsmodelle in der Lebensdaueranalyse<br />
Zusätzlich zu den Daten (t i , δ i ) liegt <strong>für</strong> jedes Individuum ein Vektor mit<br />
(zeitunabhängigen) Kovariablen x i vor. i=1,...,n<br />
2.2.1 Parametrische Transformationsmodelle<br />
Parametrische Transformationsmodelle sind an der üblichen Regression orientiert<br />
und modellieren die Überlebensdauer in Abhängigkeit der Kovariablen.<br />
Wegen der Nicht-Negativität von T wird jedoch als Zielgröße die logtransformierte<br />
Überlebensdauer gewählt:<br />
4
ǫ ∼ N(0, 1), was äquivalent ist zu<br />
log(T) = x ′ β + σ · ǫ,<br />
T = exp (β 0 ) exp (β 1 x 1 ) · ... · exp (β p x p ) · exp (σǫ)<br />
Die individuelle Zeit bis zum Tod,T i , wird mit dem Faktor exp (ß 1 x i1 ) ”<br />
beschleunigt“,<br />
weswegen diese Modelle auch ”<br />
Accelerated-Failure-Time-Modelle“<br />
(AFT-Modelle) heißen. AFT-Modelle sind parametrische Modelle, d.h. die<br />
Fehlerverteilung muss voll spezifiziert sein. Wie die Lebensdauer T modelliert<br />
wird, hängt davon ab, welche Fehlerverteilung zu Grunde gelegt wird.<br />
Die wichtigsten Zusammenhänge zwischen der Verteilung von ǫ und der Verteilung<br />
von T zeigt folgende Tabelle.<br />
Verteilung von ǫ bzw. log T<br />
ǫ ∼ N(0,1) normal<br />
Extremwert<br />
logistisch<br />
log-Gamma<br />
log-gen. Gamma<br />
Verteilung von T<br />
lognormal<br />
Weibull<br />
log-logistisch<br />
Gamma<br />
Generalisierte Gamma<br />
Die Wahl der Extremwertverteilung als Verteilung <strong>für</strong> den Fehler ist hierbei<br />
hervorzuheben, da dadurch <strong>für</strong> T eine Weibullverteilung modelliert wird<br />
und das AFT-Modell auch die Eigenschaft proportionaler Hazards gemäß (3)<br />
hat.<br />
2.2.2 Das Proportional-Hazard-Modell von Cox<br />
Das Cox-Modell ist die gängigste Regressionsmethode zur Analyse von Überlebensdaten<br />
und basiert auf einem anderen Ansatz, um die Überlebenszeit<br />
mit einem Kovariablenvektor in Verbindung zu setzen. Die Modellgleichung<br />
wird formuliert als<br />
λ(t, x) = λ 0 (t) · exp (x ′ β) (2)<br />
Dabei ist λ 0 (t) die sog. Baseline-Hazardrate (der Wert der Hazardrate <strong>für</strong><br />
ein Individuum bei dem die Ausprägungen aller Merkmale des Kovariablenvektors<br />
0 sind). x ′ β enthält keine Konstante (diese steckt sozusagen schon in<br />
λ 0 (t)).<br />
5
Die Hazardfunktion kann also geschrieben werden als ein Produkt aus unbekannter<br />
Baseline-Hazardrate und einem Term, der nur von den Parametern<br />
abhängt.<br />
Die Baseline-Hazardrate wird nicht spezifiziert und als ”<br />
Nuisance-Parameter“<br />
aufgefasst, so dass das Cox-Modell als semiparametrisch bezeichnet werden<br />
kann. Stattdessen steht im Coxmodell die Schätzung der Effekte β im Vordergrund.<br />
Man sieht schnell, dass exp (β k ) angibt, wie sich die Hazardrate<br />
(also das ”<br />
Risiko“ zu sterben) ändert, wenn die Kovariable x k um eine Einheit<br />
erhöht wird (Wobei alle anderen Kovariablen konstant gehalten werden).<br />
Die charakteristische Eigenschaft des Cox-Modells ist die Proportionalität<br />
der Hazardraten. Für zwei Individuen mit Kovariablen x 1 und x ∗ 1 und ansonst<br />
gleichen Kovariablen gilt <strong>für</strong> das Verhältnis der Hazardraten:<br />
λ(t, x 1 )<br />
λ(t, x ∗ 1) = λ 0(t)<br />
λ 0 (t) · exp (x′ 1β)<br />
exp (x ∗ 1 ′ β) = exp ((x 1 − x 1 ∗ ) ′ β) (3)<br />
Das Verhältnis hängt also nicht vom Zeitpunkt t ab.<br />
Inferenz im Cox-Modell<br />
Die Schätzung der Modellparameter stützt sich auf die so genannte ”<br />
Partial<br />
Likelihood“, in der die Baseline-Hazardrate nicht vorkommt. Die Partial<br />
Likelihood lautet:<br />
PL(β) =<br />
k∏<br />
i=1<br />
x ′ (i) β<br />
∑j∈R(t (i) ) exp (x′ j β) (4)<br />
k: Anzahl der Ausfälle (ohne Zensierungen)<br />
R(t): Risikomenge, also Menge der Individuen die unmittelbar vor t noch<br />
beobachtbar sind<br />
t (1) < ... < t (i) < ...t (k) : Zeitdauern der Individuen die nicht zensiert sind.<br />
Der Parameterschätzer ˆβ PL ergibt sich als Lösung von<br />
k∑<br />
(x i −<br />
i=1<br />
∑<br />
j∈R(t (i) ) x j · exp (x ′ jβ)<br />
∑j∈R(t (i) ) exp (x′ j β) ) = 0 (5)<br />
Die Partial Likelihood kann auf zwei verschiedene Weisen motiviert werden:<br />
6
1. Der Likelihoodbeitrag eines (unzensierten) Individuums wird aufgefasst<br />
als die Wahrscheinlichkeit, dass zur Zeit t (i) das Individuum mit Kovariablenvektor<br />
x (i) stirbt, gegeben eines der Individuen aus der Risikomenge<br />
R(t (i) ) stirbt.<br />
2. Als Profilelikelihood nachdem λ 0 (t) als stückweise konstant zwischen<br />
den Todeszeitpunkten der unzensierten Individuen angenommen und<br />
herausintegriert“ wird. (Breslow 1974)<br />
”<br />
Tatsächlich lautet unter der Annahme unabhängiger Zensierung (random<br />
censoring) die Likelihood der beobachteten Daten<br />
L =<br />
n∏<br />
((λ 0 (t i ) exp (X iβ)) ′ δ i<br />
exp (− exp (X iβ) ′ ·<br />
∫ ti<br />
i=1<br />
0<br />
λ 0 (u)du)). (6)<br />
Wenn nun die Baseline-Hazardrate als stückweise konstant angesehen<br />
wird auf dem Gitter<br />
0 = t (0) < t (1) < t (2) < ... < t (i) < ... < t (k)<br />
mit λ 0 (t) = λ i <strong>für</strong> t (i−1) < t ≤ t (i)<br />
(k: Anzahl der Ausfälle - ohne Zensierungen), so kann das Integral der<br />
Baselinehazardrate in (6) als Summe geschrieben werden. Die (Log-<br />
)Likelihood der beobachteten Daten vereinfacht sich entsprechend zu<br />
ln L =<br />
k∑<br />
(d i ln λ i + ∑<br />
∑<br />
X jβ ′ − λ i (t (i) − t (i−1) ) exp (X jβ)) ′ (7)<br />
i=1<br />
j∈D(t (i) )<br />
j∈R(t (i) )<br />
und heißt ”<br />
Breslow-(Log-)Likelihood“. Wird nun β fixiert und bezüglich<br />
der Parameter λ 1 , ...,λ k maximiert, so erhält man in der Tat die Partial<br />
Likelihood.<br />
Der besondere Charakter der Partial-Likelihood im Cox-Modell gilt als<br />
Hauptursache, warum Messfehler in den Survivalmodellen einer eigenen Betrachtung<br />
bedürfen.<br />
3 Messfehler in den Lebensdauermodellen<br />
Im Folgenden nehmen wir an, dass die Überlebensdauer jedes Individuums<br />
von stetigen Kovariablen X i abhängt, die mit Messfehler gemessen wurden<br />
sowie von stetigen Kovariablen Z i , die fehlerfrei gemessen wurden.<br />
7
3.1 Grundannahmen<br />
Mit Ausnahme des Kapitels 5 legen wir das klassische, homoskedastische<br />
Messfehlermodell zugrunde, d.h.<br />
X ∗ i = X i + U i ,<br />
wobei die Fehlerterme U i i.i.d. normalverteilt sind mit Mittelwert Null<br />
und bekannter oder konsistent geschätzter Kovarianzmatrix Σ U . Die Zensierungszeiten<br />
C i seien unabhängig von (T i , X i ) und U i sei unabhängig von (T i ,<br />
X i , C i ). Die beobachteten Daten seien (Y i , δ i , X ∗ i , Z i ).<br />
Wir gehen also von einem nicht-differenziellen Messfehler aus: Bei gegebenem<br />
wahren Wert von X i sind die Variablen T i und X ∗ i bedingt unabhängig,<br />
oder anders formuliert: Bei gegebenem X i enthält der gemessene Wert X ∗ i<br />
keine weitere Information über die Lebensdauer.<br />
3.2 Die Hazardrate im Cox-Modell mit Messfehlern<br />
Die Hazardrate im Coxmodell mit den ”<br />
wahren“ Kovariablen X i und Z i<br />
lautet:<br />
λ i (t|X i , Z i ) = λ 0 (t) · exp (β ′ xX i + β ′ zZ i ),<br />
wobei λ 0 die unspezifizierte Baseline-Hazardfunktion ist, die nicht von den<br />
Werten der Kovariablen abhängt.<br />
Wenn X i allerdings nicht beobachtbar ist und stattdessen X ∗ i verwendet wird,<br />
muss also ein passendes Modell gefunden werden, das die Hazardrate λ(t|X ∗ i )<br />
modelliert.<br />
4 Korrekturmöglichkeiten im Cox-Modell<br />
Die im folgenden vorgeschlagenen Korrekturmöglichkeiten beziehen sich alle<br />
auf das Proportional-Hazard-Modell von Cox.<br />
4.1 Unterscheidung strukturelle - funktionale Ansätze<br />
Eine grobe Unterscheidung der Korrekturmöglichkeiten <strong>für</strong> Messfehler im<br />
Cox-Modell ergibt sich über die Frage nach der Verteilungsannahme <strong>für</strong> die<br />
wahre, nicht beobachtete Kovariable X. Treffen wir die Annahme, dass die<br />
8
Verteilung von X zu einer bestimmten, bekannten Klasse von Verteilungen<br />
gehört, so sprechen wir von strukturellen Ansätzen. Methoden die den Einfluss<br />
fehlerbehafteter Kovariablen ohne Verteilungsannahme korrigieren bezeichnet<br />
man hingegen als funktionale Ansätze (vgl. <strong>Handout</strong> Shchekaturina).<br />
4.2 Die induzierte Hazardrate im Cox-Modell<br />
Ein grundlegender struktureller Ansatz, dem Problem fehlerbehafteter Daten<br />
im Cox-Modell zu begegnen, besteht darin, die bedingte Verteilung von X i<br />
gegeben X ∗ i zu verwenden und unter der Annahme eines nicht-differentiellen<br />
Messfehlers den Einfluss des Messfehlers herauszuintegrieren. Da wir eine<br />
Verteilung <strong>für</strong> X i annehmen, handelt es sich hier also um eine strukturelle<br />
Methode.<br />
Allerdings kann dieser Ansatz nicht ohne weiteres auf das Coxmodell angewendet<br />
werden, was in folgender Herleitung gezeigt wird:<br />
Wenn X i nicht beobachtbar ist und stattdessen das Surrogat X ∗ i beobachtet<br />
wird, betrachten wir die Hazardrate λ(t|Z i , X ∗ i ). Wegen des nicht-differenziellen<br />
Messfehlers gilt λ(t|X i , X ∗ i , Z i ) = λ(t|X i , Z i ) 1 , sodass wir erhalten:<br />
λ(t|X ∗ i ) = lim<br />
ǫ→0<br />
ǫ −1 · P({T i ≤ t + ǫ}|{T i ≥ t}, X ∗ i )<br />
= lim<br />
ǫ→0<br />
ǫ −1 · E(P({T i ≤ t + ǫ}|X i , {T i ≥ t}, X ∗ i )|{T i ≥ t}, X ∗ i )<br />
= lim<br />
ǫ→0<br />
ǫ −1 · E(P({T i ≤ t + ǫ}|{T i ≥ t}, X i )|{T i ≥ t}, X ∗ i )<br />
= E(λ(t|X i )|{T i ≥ t}, X ∗ i )<br />
Über (2) ergibt sich als so genannte ”<br />
induzierte Hazardfunktion“ im Cox-<br />
Modell:<br />
λ(t|X ∗ i ) = λ 0 (t) · E(exp (β ′ X i )|X ∗ i , {T i ≥ t}) (8)<br />
,<br />
Die Problematik besteht nun darin, dass obige bedingte Erwartung durch<br />
das Ereignis {T i ≥ t} in der Bedingung von der Geschichte des Prozesses<br />
und damit von der unbekannten Baseline-Hazardfunktion abhängt. Folglich<br />
kann die Hazardrate nicht mehr einfach geschrieben werden als ein Produkt<br />
aus unbekannter Baseline-Hazardrate und einem Ausdruck, der nur von den<br />
1 O.B.d.A. nehmen wir aus Notationsgründen im Weiteren an, dass es keine korrekt<br />
gemessen Variablen Z i gibt<br />
9
Parametern abhängt. Dies hat zur Folge, dass die charakteristische Faktorisierung<br />
der Hazardfunktion (2) im Cox-Modell verloren geht und Inferenz<br />
mittels partieller Likelihood nicht mehr ohne weiteres betrieben werden kann.<br />
Eine wichtige Einschränkung, damit dieser Effekt vernachlässigt werden kann,<br />
besteht in der Annahme, dass die Ereignisse selten sind. Dann nämlich ist<br />
die Wahrscheinlichkeit P(T i ≥ t), den Zeitpunkt t zu überleben, nahe bei<br />
1. Diese Annahme wird als ”<br />
Rare Disease Assumption“ bezeichnet. Ist die<br />
Annahme gerechtfertigt, so kann (8) durch<br />
approximiert werden.<br />
λ ∗ (t|X ∗ i ) = λ 0 (t) · E(exp (β ′ X i )|X ∗ i ) (9)<br />
Es stellt sich als nächstes die Frage, wie der Term E(exp (β ′ X i )|X ∗ i ) berechnet<br />
werden kann. Dies ist relativ einfach im Fall dass X i |X ∗ i normalverteilt<br />
ist (mit Mittelwert ¯µ i und gemeinsamer Kovarianz ¯Σ). Dann nämlich lässt<br />
sich (9) mit Hilfe des Erwartungswerts lognormalverteilter Zufallsgrößen vereinfachen<br />
zu<br />
λ(t|X ∗ i ) = λ 0 (t) · exp (β ′¯µ i + 0.5β ′¯Σβ) =: λ<br />
∗<br />
0 (t) · exp (β ′¯µ i ) (10)<br />
Als wichtigstes Beispiel <strong>für</strong> die Normalverteilung von X i |Xi<br />
∗ 2 von gilt der<br />
Fall, wenn die X i selbst i.i.d. normalverteilt sind mit Erwartungsert µ X<br />
und Kovarianz-Matrix Σ X . Dann nämlich ist Xi<br />
∗ ∼ N(µ X ;Σ X + Σ U ) und<br />
tatsächlich gilt X i |Xi ∗ ∼ N(¯µ i , ¯Σ) mit<br />
¯µ i = µ X + Σ X · (Σ X + Σ U ) −1 · (X ∗ i − µ X ) (11)<br />
und ¯Σ = Σ X − Σ X · (Σ X + Σ U ) −1 Σ X , sodass (10) jetzt geschrieben werden<br />
kann als<br />
λ(t|X ∗ i ) = λ ∗ 0(t) · exp (β ′ µ X + β ′ Σ X · (Σ X + Σ U ) −1 · (X ∗ i − µ X ))<br />
=: λ ∗∗<br />
0 (t) · exp (β ′ · Σ X · (Σ X + Σ U ) −1 · X ∗ i ) (12)<br />
Betrachtet man den Ausdruck exp (β ′ · Σ X · (Σ X + Σ U ) −1 · X ∗ i ), so erkennt<br />
man, dass sich daraus die aus der linearen Regression bekannte Abschwächung<br />
des Schätzers ˆβ ergibt.<br />
ˆβ korrigiert = Σ −1<br />
X · (Σ X + Σ U ) · ˆβ naiv<br />
3<br />
(13)<br />
2 Die Normalverteilung X i |Xi ∗ ist typisch <strong>für</strong> den Berkson-Fehler; vergleiche hierzu auch<br />
die Idee der Umwandlung eines klassischen Fehlers in einen Berkson-Fehler: Skript Shchekaturina<br />
10
Dies ist allerdings nur der Fall, falls die oben getroffenen Annahmen (insbesondere<br />
”<br />
Rare Disease Assumption“ und Normalverteilung der X i ) zutreffen.<br />
In einer Reihe von Simulationsstudien [4] wurde beobachtet, dass starke<br />
Abhängigkeiten zwischen dem Bias und dem wahren Wert β, sowie zwischen<br />
dem Bias und dem Anteil der Zensierungen bestehen. Dies führt uns erneut<br />
auf die Wichtigkeit der ”<br />
Rare Disease Assumption“ zurück: Je kleiner<br />
nämlich der wahre Wert β und je höher der Anteil zensierter Beobachtungen<br />
ist, desto näher kommen wir der ”<br />
Rare Disease Assumption“.<br />
4.3 Regressionskalibrierung<br />
Einer der gängigsten Ansätze, um dem Problem fehlerbehafteter Daten in<br />
der Regressionsanalyse zu begegnen, ist die so genannte Regressionskalibrierung,<br />
die im Vortrag von O. Shchekaturina vorgestellt wurde. Ihr liegt die<br />
Idee zu Grunde, <strong>für</strong> die nicht beobachteten Variablen Werte einzusetzen, die<br />
über die beobachteten Daten vorhergesagt werden. Konkret wird die unbeobachtete<br />
Variable X i über ihre bedingten Erwartung gegeben X ∗ i , also durch<br />
ˆX i =E(X|Z,X ∗ i ) ersetzt.<br />
Die Inferenz basiert dann auf der Verwendung gängiger Software <strong>für</strong> die auf<br />
diese Weise gewonnenen Daten.<br />
4.3.1 Funktionale Regressionskalibrierung<br />
In vorherigen Seminarsitzungen haben wir die Regressionskalibrierung als<br />
funktionalen Ansatz kennen gelernt. Diese Idee kann auch auf Regressionsmodelle<br />
in der Lebensdaueranalyse übertragen werden. Hier wird dann wie<br />
folgt verfahren:<br />
1. Ersetze X i durch den bedingten Erwartungswert von X i gegeben X ∗ i<br />
2. Maximiere die Partial Likelihood des Cox-Modells, wobei statt X i der<br />
bedingte Erwartungswert ˆX i eingesetzt wird.<br />
Über die Regressionskalibrierung approximieren wir also das Cox-Modell,<br />
indem wir annehmen, dass die Hazardfunktion der beobachteten Daten hinreichend<br />
gut modelliert wird, wenn wir im Regressionsmodell statt der wah-<br />
3 Wenn die Kovarianz Σ U des Messfehlers bekannt ist, so können µ X und Σ X konsistent<br />
aus den Beobachtungen W 1 , ...,W n geschätzt werden<br />
11
en X i die bedingten Erwartungswerte verwenden - wir also von folgendem<br />
Modell ausgehen:<br />
λ(t|m(X ∗ i , γ)) = λ ∗ 0(t) exp (β ∗′ m(X ∗ i , γ)) (14)<br />
Dabei ist m(X ∗ i ,γ) der (wahre) bedingte Erwartungswert von X i gegeben X ∗ i<br />
und γ; γ ist der Regressionsparameter von X auf X ∗ .<br />
In Wirklichkeit muss bei einem funktionalen Ansatz die bedingte Erwartung<br />
von X i gegeben X ∗ i jedoch geschätzt werden. Hierbei wird zunächst das unbeobachtete<br />
X i durch eine Regression von X auf X ∗ geschätzt (vgl. <strong>Handout</strong><br />
Shchekaturina). Anstatt X i wird dann der daraus gewonnene Schätzer ˆX i =<br />
m X (X ∗ i ,ˆγ) verwendet. ˆXi ist also nur ein Schätzer. In Gleichung (14) taucht<br />
jedoch der (wahre) bedingte Erwartungswert von X i gegeben X ∗ i und γ auf;<br />
β ∗ ist dementsprechend der (wahre) Parameter der den Einfluss des (wahren)<br />
bedingten Erwartungswerts m(X ∗ i ,γ) auf die Überlebenswahrscheinlichkeit<br />
modelliert.<br />
Setzen wir nun statt dem (wahren) bedingten Erwartungswert m(X ∗ i ,γ) seine<br />
Schätzung ˆX i ein, so kann gezeigt werden, dass unter Regularitätsbedingungen<br />
der über die Maximierung der Partial Likelihood erhaltene Schätzer konsistent<br />
und asymptotisch normal <strong>für</strong> β ∗ ist. Allerdings ist β ∗ ja nur eine Approximation<br />
des wahren Parameters β, da wir im Regressionsmodell (14) ja den<br />
bedingten Erwartungswert statt des wahren (unbekannten) X i einsetzen. In<br />
der Praxis, wird (9) aber oft gut durch die obige Gleichung (14) approximiert.<br />
4.3.2 Strukturelle Regressionskalibrierung<br />
In den vorherigen Seminarsitzungen wurde bereits erwähnt, dass die Regressionskalibrierung<br />
auch als strukturelle Methode gesehen werden kann,<br />
nämlich dann, wenn wir Verteilungsannahmen <strong>für</strong> X i |X ∗ i treffen. Im einfachsten<br />
Fall - wenn die X i wiederum i.i.d. normalverteilt sind - entspricht die<br />
Regressionskalibrierung exakt dem bereits in 4.2 kennen gelernten Verfahren:<br />
Wenn die X i i.i.d. normalverteilt sind, so muss der bedingte Erwartungswert<br />
von X i gegeben X ∗ i nicht wie bei der funktionalen Regressionskalibrierung<br />
geschätzt werden. Stattdessen kann er direkt als<br />
¯µ i = µ X + Σ X · (Σ X + Σ U ) −1 · (X ∗ i − µ X )<br />
berechnet werden (vgl. (11)). Wird nun in der Score-Gleichung (5) X i durch<br />
eben dieses ¯µ i ersetzt, so lautet die ”<br />
neue“ Score-Gleichung<br />
k∑<br />
(¯µ i −<br />
i=1<br />
∑<br />
j∈R(t (i) ) ¯µ j · exp (¯µ ′ jβ)<br />
∑j∈R(t (i) ) exp (¯µ′ j β) ) = 0 (15)<br />
12
Wird nun <strong>für</strong> ¯µ i der Term µ X + Σ X · (Σ X + Σ U ) −1 · (X ∗ i − µ X ) eingesetzt,<br />
die Gleichung entsprechend vereinfacht und anschließend mit (Σ X · (Σ X +<br />
Σ U ) −1 ) −1 multipliziert, so ergibt sich<br />
k∑<br />
(Xi ∗ −<br />
i=1<br />
∑j∈R(t (i) ) X∗ j · exp (Σ X · (Σ X + Σ U ) −1 X ∗′<br />
j β)<br />
∑j∈R(t (i) ) exp (Σ X · (Σ X + Σ U ) −1 X ∗′<br />
j β) ) = 0 (16)<br />
was in der Tat wieder zum selben korrigierten Schätzer (13) führt.<br />
Der Vorteil der Regressionskalibrierung liegt vor allem in seiner einfachen<br />
Implementierung: Nach einer geeigneten Modellierung der bedingten Erwartung,<br />
kann die übliche Standardsoftware <strong>für</strong> Lebensdauermodelle (R: coxph(),<br />
survreg(); SAS: PROC PHREG) <strong>für</strong> die Inferenz verwendet werden.<br />
4.4 Die korrigierte Scorefunktion<br />
Während bei den oben vorgestellten strukturellen Vorgehensweisen eine Verteilungsannahme<br />
<strong>für</strong> die unbeobachtete Kovariable X getroffen wird, erlauben<br />
es funktionale Ansätze, auf solche Annahmen zu verzichten. Die bekannteste<br />
funktionale Methode, um Messfehler im Regressionsmodell zu berücksichtigen,<br />
ist die von Nakamura eingeführte korrigierte Scorefunktion [7], bzw. korrigierte<br />
Likelihoodfunktion.<br />
Sei Y der in einem Regressionsmodell beobachtete Vektor der Zielgröße, X<br />
der Vektor der unbeobachteten Kovariable und X ∗ der Vektor des <strong>für</strong> X verwendeten<br />
Surrogats.<br />
Wir bezeichnen mit l X (Y, X, θ) und mit s X (Y, X, θ) die Log-Likelihood bzw.<br />
Scorefunktion von θ gegeben der wahren Kovariablen X. Da X jedoch nicht<br />
beobachtbar ist, kennen wir diese Funktionen nicht - wir bezeichen s X (Y, X, θ)<br />
daher als ideale Scorefunktion. Dementsprechend seien l X (Y, X ∗ , θ) und s X (Y, X ∗ , θ)<br />
die entsprechenden Likelihood- bzw. Scorefunktionen, wenn wir statt der<br />
Werte <strong>für</strong> X einfach die Werte der Surrogatvariablen X ∗ einsetzen. Wir bezeichen<br />
s X (Y, X ∗ , θ) als naive Scorefunktion.<br />
Für die ideale Scorefunktion gilt (vgl. <strong>Statistik</strong> III), dass der Erwartungswert<br />
der Scorefunktion an der Stelle des wahren Parameters θ 0 null ist:<br />
E(s X (Y, X, θ)) = 0. Allerdings geht diese Eigenschaft (selbst bei unendlich<br />
großen Stichproben) verloren, wenn wir die naive Scorefunktion verwenden,<br />
also statt X einfach das Surrogat X ∗ verwenden. Als Konsequenz ergibt sich,<br />
dass die Nullstelle der Scorefunktion (über die wir den ML-Schätzer berechnen)<br />
kein konsistenter Schätzer mehr <strong>für</strong> θ ist.<br />
13
Die Idee der korrigierten Scorefunktion besteht nun darin, unverzerrte Schätzgleichungen<br />
zu konstruieren: Man sucht nach einer Funktion s W (Y, X ∗ , θ) in<br />
den beobachteten Daten Y und X ∗ , mit der Eigenschaft, dass die bedingte<br />
Erwartung dieser Funktion gegeben X wieder der originalen Scorefunktion<br />
entspricht:<br />
E(s X∗ (Y, X ∗ , θ)|X, Y ) = s X (Y, X, θ) (17)<br />
Eine solche Funktion nennt man dann ”<br />
korrigierte Scorefunktion“. Tatsächlich<br />
ist ihr Erwartungswert Null, was über den Satz der iterierten Erwartung gezeigt<br />
wird:<br />
E(s X∗ (Y, X ∗ , θ)) = E(E(s X∗ (Y, X ∗ , θ)|X, Y )) = E(s X (Y, X, θ)) = 0 (18)<br />
Daraus kann dann unter Annahme schwacher Regularitätsbedingungen geschlossen<br />
werden, dass die Schätzung <strong>für</strong> θ konstistent und asymptotisch<br />
normal ist.<br />
Die korrigierte Scorefunktion im Cox-Modell<br />
Erneut ist die Übertragung dieser Idee auf die Survivalanalyse nicht ohne<br />
weitere Überlegungen zu leisten. Sie kann nicht direkt auf die Partial-<br />
Scorefunktion im Coxmodell<br />
∑<br />
k∑<br />
j∈R(t (i) )<br />
(x i −<br />
x j · exp (x ′ jβ)<br />
∑j∈R(t (i) ) exp (x′ j β) ) = 0 (5)<br />
i=1<br />
übertragen werden.<br />
Der Beweis da<strong>für</strong> ist sehr komplex: Er beruht darauf, dass <strong>für</strong> die Existenz<br />
korrigierter Scorefunktionen die Scorefunktion vollständig in der Ebene der<br />
komplexen Zahlen liegen muss. Der Nenner in (5) kann jedoch komplexe Nullstellen<br />
haben, was dieser Bedingung widerspricht: Exakte korrigierte Scorefunktionen<br />
gibt es <strong>für</strong> die Partial-Likelihood im Cox-Modell also nicht! (vgl.<br />
[9])<br />
Bei der Herleitung der Partial-Likelihood haben wir die sog. Breslow-(Log-<br />
)Likelihood kennengelernt, deren Form hier in Erinnerung gerufen werden<br />
soll:<br />
ln L Br =<br />
k∑<br />
(d i ln λ i + ∑<br />
∑<br />
X jβ ′ − λ i (t (i) − t (i−1) ) exp (X jβ))<br />
′<br />
i=1<br />
j∈D(t (i) )<br />
j∈R(t (i) )<br />
14
Da hier kein Nenner mit komplexen Nullstellen auftaucht, liegt die Idee nahe,<br />
eine korrigierte log-Likelihood basierend auf der Breslow-Likelihood zu<br />
suchen. Tatsächlich liegen bei der Breslow-Likelihood - im Gegensatz zur<br />
Partial-Likelihood - keine Singularitäten mehr vor, die die Existenz einer<br />
korrigierten Likelihoodfunktion unmöglich machen könnten.<br />
Über die Breslow-Likelihood kann jetzt die allemeine Theorie korrigierter<br />
Score- und Likelihoodfunktionen auch im Cox-Modell angewendet werden:<br />
Das Cox-Modell bedarf keiner gesonderten Handhabung mehr.<br />
Daher wird zwar im folgenden die Gestalt der korrigierten log-Likelihood-<br />
Funktion speziell <strong>für</strong> das Cox-Modell vorgestellt; das Prinzip gilt jedoch allgemein<br />
<strong>für</strong> alle nicht-linearen Regressionen.<br />
Satz<br />
k∑ ((d i ln λ i + ∑<br />
i=1<br />
j∈D(t (i) )<br />
X ∗′<br />
j β − λ i (t (i) − t (i−1) ) ·<br />
∑<br />
j∈R(t (i) )<br />
exp (Xj ∗′ β)<br />
M Uj (β)<br />
) )<br />
|X, Y<br />
ist eine korrigierte Log-Likelihood <strong>für</strong> die Breslow-Log-Likelihood.<br />
Dabei ist M Uj (β) = E(exp (U ′ jβ)) die Momentenerzeugende Funktion der Zufallsvariablen<br />
U j .<br />
Beweis<br />
E ( l X∗ (Y, X ∗ , θ|X, Y ) ) =<br />
∑k<br />
((<br />
E(<br />
i=1<br />
d i ln λ i + ∑ ) ))<br />
j∈D(t (i) ) X∗′ j β − λ i (t (i) − t (i−1) ) · ∑j∈R(t<br />
exp (Xj ∗′ β)<br />
(i) ) M Uj<br />
|X, Y =<br />
(β)<br />
∑k<br />
(<br />
E(<br />
i=1<br />
d i ln λ i + ∑ j∈D(t (i) ) (X j + U j ) ′ β − λ i (t (i) − t (i−1) )·<br />
∑<br />
) )<br />
exp ((X j +U j ) ′ β)<br />
j∈R(t (i) ) M Uj<br />
|X, Y =<br />
(β)<br />
∑ (<br />
k<br />
i=1<br />
d i ln λ i + ∑ j∈D(t (i) ) X jβ ′ + ∑ j∈D(t (i) ) E((U jβ)|X, ′ Y ) − λ i (t (i) − t (i−1) )·<br />
∑<br />
)<br />
exp (X ′ j β)<br />
j∈R(t (i) )<br />
E(exp (U ′ M Uj (β) jβ)|X, Y )<br />
Da U j unabhängig von X ist, folgt:<br />
E(exp (U ′ jβ)|X, Y ) = E(exp (U ′ jβ)) = M Uj (β)<br />
und<br />
E(U ′ jβ|X, Y ) = E(U ′ jβ) = 0.<br />
und es folgt letzlich:<br />
(<br />
)<br />
E l X∗ (Y, X ∗ , θ|X, Y ) =<br />
∑ k<br />
i=1(<br />
d i ln λ i + ∑ j∈D(t (i) ) X jβ ′ − λ i (t (i) − t (i−1) ) ∑ )<br />
j∈R(t (i) ) exp (X jβ)<br />
′<br />
q.e.d<br />
15<br />
= ln L Br
Aus dieser korrigierten Scorefunktion kann dann die entsprechende korrigierte<br />
Scorefunktion hergeleitet werden, über die dann korrigierte Regressionsschätzer<br />
<strong>für</strong> β erhalten werden.<br />
5 Berkson-Fehler im Cox-Modell<br />
In den vorhergehenden Kapiteln wurde dem Problem fehlerhafter Daten das<br />
klassische Messfehlermodell zu Grunde gelegt. In der Tat gehen die meisten<br />
wissenschaftlichen Artikel über Messfehler im Coxmodell von dieser Fehlerstruktur<br />
aus. (vgl. [5]) Dennoch werden gerade in epidemiologischen Studien<br />
häufig Variablen erhoben, bei denen Messfehler vom Berkson-Typ auftreten.<br />
Speziell bei der Erhebung individueller Dosen eines Medikaments oder einer<br />
Strahlenbelastung wird häufig der mittlere Wert einer vergleichbaren Population<br />
verwendet, sodass von einem Berksonfehler ausgegangen werden kann.<br />
Als Beispiel sei hier die ”<br />
European Study of Cancer Risks among Airline<br />
Pilots and Cabin Crew (ESCAPE)“ (vgl. [5]) genannt, bei der die Krebsmortalität<br />
des Cockpit- und Kabinenpersonals untersucht wird. Als Einflussgröße<br />
wird dort die individuelle Strahlenbelastung verwendet, die geschätzt wird<br />
über die individuelle Anzahl der bisherigen Flugstunden sowie einer durchschnittlichen<br />
Strahlungsbelastung die nach Flugzeugtyp, Jahren, Ländern<br />
und Beruf gemittelt wird.<br />
5.1 Modellannahmen<br />
Wir betrachten ein einfaches Cox-Modell mit einer einzigen Variablen X. Der<br />
Zusammenhang zwischen X und der Lebensdauer T ist durch die wahre Survivorfunktion<br />
und die wahre Hazardrate gegeben. Die wahre Survivorfunktion<br />
lautet<br />
S wahr (t, x) = P(T ≥ t|X = x)<br />
Wiederum kann X nicht direkt beobachtet werden; stattdessen wird das Surrogat<br />
X ∗ erhoben. Im Gegensatz zum klassischen Fehlermodell, besteht zwischen<br />
X und X ∗ nun der Zusammenhang<br />
X = X ∗ + U<br />
<strong>für</strong> den additiven Berkson Fehler und<br />
X = X ∗ · V<br />
<strong>für</strong> den multiplikativen Berkson Fehler.<br />
Hierbei sind U und V die Berkson-Fehlervariablen.<br />
16
5.2 Additiver Berkson-Fehler<br />
Wir nehmen an, dass der Messfehler eine Zuvallsvariable mit Dichte f u und<br />
unabhängig von X ∗ und T ist. Bei Annahme eines additiven Berkson-Fehlers<br />
sei die beobachtete Survivorfunktion definiert als<br />
S beob (t, w) := P(T ≥ t|W = w) und wird wie folgt berechnet:<br />
∫<br />
S beob (t, x ∗ ) = E(S wahr (t, x)|X ∗ = x ∗ ) =<br />
S wahr (t, x ∗ + u)f u (u)du. (19)<br />
Die beobachete Survivorfunktion S beob (t, x ∗ ) ergibt sich also als ”<br />
Mittel“<br />
der wahren Survivorfunktion S wahr (t, .) über einem Intervall, dessen Mittelpunkt<br />
x ∗ ist. Um einen Eindruck zu erhalten, wie ein Berksonfehler in der<br />
Kovariablen den Parameterschätzer <strong>für</strong> β im Coxmodell beeinflusst, werden<br />
im Folgenden Messfehler in einem möglichst einfachen Modell simuliert. Anschließend<br />
werden die wahren Survivorfunktionen und Hazardraten mit den<br />
beobachteten über Plots verglichen.<br />
Wir legen ein einfaches Coxmodell mit einer fehlerbehafteten Kovariablen<br />
X zu Grunde. Die Baseline-Hazardrate sei konstant und habe den Wert<br />
exp(−2). Der wahre Parameter sei β = 1 und der Messfehler U sei standardnormalverteilt.<br />
Mit den hierbei simulierten Daten wird die beobachtete<br />
Survivorfunktion über das Integral (siehe (19)) numerisch berechnet.<br />
Es muss beachtet werden, dass die Survivorfunktion sowohl von x bzw. x ∗ als<br />
auch von t abhängt. Daher wird im ersten Plot von Abbildung 1 x ∗ (bei 3)<br />
festgehalten und die Survivorfunktion in Abhängigkeit der Zeit t gezeichnet.<br />
Im zweiten Plot von Abbildung 1 wird der Zeitpunkt festgehalten (t=1) und<br />
die Survivorfunktion in Abhängigkeit von x ∗ gezeichnet.<br />
Man erkennt in Abbildung 1, dass der Messfehler ähnlich wie bei anderen<br />
Regressionsmodellen zu einer flacheren Survivorfunktion führt. Der Bias ist<br />
aber im Coxmodell wesentlich schwieriger zu berechnen als in anderen Regressionsmodellen.<br />
Zu welchem Bias Fehler in der Kovariaten führen, lässt<br />
sich daher einfacher beschreiben, wenn wir uns die Hazardrate genauer ansehen.<br />
Wegen (2) besteht im Coxmodell <strong>für</strong> Kovariaten X ohne Messfehler ein loglinearer<br />
Zusammenhang mit der Hazardrate.<br />
log (λ(t, x)) = log λ 0 (t) + x ′ β<br />
Plottet man die wahren Kovariablenwerte x gegen den Logarithmus der<br />
Hazardrate, ergibt sich also eine Gerade. Die Geradensteigung entspricht dem<br />
17
Abbildung 1: Vergleich der beobachteten Survivorfunktion S beob (t, .) (gestrichelte<br />
Linie) mit der wahren Survivorfunktion S wahr (t, .) (durchgezogene Linie)<br />
Parameter β. Das Ausmaß des Bias kann nun graphisch bewertet werden,<br />
indem wir den beobachteten Wert x ∗ gegen die logarithmierte beobachtete<br />
Hazardrate plotten und überprüfen, inwiefern sich die Form dieser Kurve von<br />
einer Geraden unterscheidet.<br />
Dazu verwenden wir weiterhin die oben simulierten Werte und erstellen in<br />
Abbildung 2 zwei solcher Plots - Plot 1 bei festgehaltenem t=1 und Plot 2<br />
bei festgehaltenem t=0.1.<br />
Abbildung 2: Vergleich des beobachteten log. Hazards λ beob (t, .) (gestrichelte<br />
Linie) mit dem wahren Hazard λ wahr (t, .) (durchgezogene Linie)<br />
Man erkennt, dass in Abbildung 2 beim ersten Plot der Zusammenhang zwischen<br />
x und der Log-Hazardrate nicht mehr linear ist: Der Parameter β, der<br />
der ”<br />
Geraden“-Steigung entspricht - wird unterschätzt. Anders sieht es beim<br />
zweiten Plot aus: Die gefittete Kurve mit Messfehlern kommt einer Gera-<br />
18
den sehr nahe; die Geradensteigungen unterscheiden sich kaum. β wird also<br />
nahezu unverzerrt geschätzt.<br />
Die Tatsache, dass wir t bei 0.1 festgehalten haben, kann erneut als<br />
Gewährleistung der “Rare-Disease-Assumption“ angesehen werden, die auch<br />
schon im klassischen Messfehlermodell <strong>für</strong> wenig verzerrte Schätzer gesorgt<br />
hat. Dies kann auch theoretisch begründet werden. Der Effekt von fehlerbehafteten<br />
Daten auf die Parameterschätzung ist also auch im Berkson-Modell<br />
bei Vorliegen der ”<br />
Rare-Disease-Assumption“ sehr gering.<br />
5.3 Weitere Ergebnisse<br />
1. Der Effekt eines multiplikativen Berksonfehlers hängt stark von der<br />
Fehlervarianz ab. Für große Fehlervarianzen kann der Bias nicht ignoriert<br />
werden; auch nicht bei Vorliegen der ”<br />
Rare-Disease-Assumption“.<br />
2. Eine fehlerbehaftete Variable kann auch die Parameter weiterer, fehlerfrei<br />
gemessenener Kovariablen unterschätzen.<br />
3. Ein Ignorieren der Messfehlerproblematik führt zu einer inkonsistenten<br />
Schätzung der Baseline-Hazardrate, da die Proportionalität der<br />
Hazards meist verletzt wird. Tests auf Proportionalität der Hazards<br />
können verfälscht sein.<br />
6 Frailty-Modelle<br />
Im medizinischen Anwendungsbereich liegen Daten oft in sog. Clustern vor,<br />
woraus sich gruppenspezifische Effekte ergeben können. Solche Effekte werden<br />
als Zufallseffekte in den Prädiktor miteinbezogen. Clusterspezifische Effekte<br />
können z.B. sein:<br />
1. Klinikeffekte einer Klinik i mit n i Patienten in einer Studie mit m<br />
beteiligten Kliniken<br />
2. Familieneffekte <strong>für</strong> n i Mitglieder der Familie i<br />
3. Räumliche Effekte <strong>für</strong> n i erkrankte Personen aus der Region i, i=1,...,m<br />
in einer epidemiologischen Studie<br />
Der gemeinsame clusterspezifische Effekt führt dazu, dass Inidividuen aus<br />
dem gleichen Cluster positiv korreliert sind. In der linearen Regression, wird<br />
19
ei der Aufnahme von Zufallseffekten in den Prädiktor meist von ”<br />
Gemischten<br />
Modellen“ gesprochen, in der Lebensdaueranalyse spricht man hingegen<br />
von ”<br />
Frailty-Modellen“. Wir betrachten frailties im Cox-Modell.<br />
6.1 Messfehler in frailty-Modellen<br />
Wir nehmen an, dass die Daten in I Clustern vorliegen, wobei X ij der Wert<br />
der Kovariablen X des j-ten Individuums im i-ten Cluster ist. Völlig analog<br />
wie bei den gemischten linearen Modellen, fügen wir im linearen Prädiktor<br />
des Regressionsmodells einen Zufallseffekt b i <strong>für</strong> das i-te Cluster hinzu.<br />
Es ergibt sich <strong>für</strong> das j-te Individuum des i-ten Clusters - bedingt auf das<br />
clusterspezifische frailty - folgende Hazardfunktion:<br />
λ ij (t|X ij , Z ij , b i ) = λ 0 (t) · exp (β ′ xX ij + β ′ zZ ij + b i ), (20)<br />
wobei wiederum X ij mit Messfehlern beobachtet wurde, Z ij ohne Fehler gemessen<br />
wurde und b i der clusterspezifische Zufallseffekt ist, wobei wir annehmen,<br />
dass b i i.i.d. N(0,σb 2 ) verteilt und unabhängig von Zensierung, Messfehler<br />
und Eventzeitpunkt ist. Weiterhin gelte das klassische additive Fehlermodell<br />
mit den entsprechenden Unabhängigkeiten wie in 3.1 spezifiziert.<br />
6.2 Likelihood Inferenz <strong>für</strong> frailty-Modelle mit Messfehlern<br />
Li und Lin (2000) [6] schlagen einen vollen Likeliood-Ansatz vor, um das<br />
Modell (Formel oben) zu fitten, wobei sie zu Grunde legen, dass [X|X ∗ ,Z]<br />
normalverteilt ist.<br />
Um die Likelihood zu maximieren, verwenden sie den EM-Algorithmus,<br />
die am häufigsten verwendete Methode beim Vorliegen von fehlenden Daten.<br />
Tatsächlich werden die (unbekannten) frailties sowie die wahren aber unbekannten<br />
Werte der Variablen X als ”<br />
fehlende Daten“ aufgefasst. Die ”<br />
komplette“<br />
Likelihood <strong>für</strong> das i-te Cluster beinhaltet die beobachteten Werte<br />
(Z ij , X ∗ ij) und unbeobachteten Werte (X ij , b i ) und lautet:<br />
{<br />
· exp −<br />
∫ Yi<br />
0<br />
L i (Θ;X ij , b i , Z ij , Xij) ∗ = {λ ij (t|X ij , Z ij , b i )} δ ij<br />
}<br />
λ(u|X ij , Z ij , b i )du φ(b i , σb)φ(X 2 ij |Xij, ∗ Z ij , θ) (21)<br />
hierbei ist φ(b i , σ 2 b ) die normalverteilte Dichte von b i und φ(X ij |X ∗ ij, Z ij , θ)<br />
die bedingte normalverteilte Dichte von X ij gegeben (X ∗ ij, Z ij ). Θ ist der Vektor<br />
aller Parameter und beinhaltet hier die Parameter der proportionalen<br />
20
Hazardfunktion, die Parameter (β x , β z ) den Parameter σb 2 aus dem frailty-<br />
Modell, die Parameter θ der bedingten Verteilung [X|X ∗ ,Z] sowie weitere<br />
Parameter die sich auf die Integration der Baseline Hazardfunktion beziehen.<br />
Diese vollständige“ Likelihood kann nicht direkt <strong>für</strong> die Schätzung der Parameter<br />
verwendet werden, da sie unbeobachtete Daten enthält. Stattdessen<br />
”<br />
wird die marginale Likelihood der beobachteten Daten verwendet, die sich<br />
ergibt , wenn man die unbeobachteten Daten herausintegriert.<br />
Hier kommt der EM-Algorithmus ins Spiel: Beim EM-Algorithmus wird zunächst<br />
ein Startwert θ (0) <strong>für</strong> den unbekannten Parameter festgelegt. Anschließend<br />
besteht jeder Iterationsschritt aus zwei Schritten, dem E-Schritt und dem<br />
M-Schritt.<br />
1. E-Schritt: Berechne den bedingten Erwartungswert der Log-Likelihood<br />
l(θ, x) im vollständigen Datensatz, gegeben den derzeitigen Schätzwert<br />
θ (n)<br />
2. M-Schritt: Maximiere diesen bedingten Erwartungswert und erhalte<br />
eine neue Schätzung θ (n+1)<br />
Der von Li und Lin vorgeschlagene EM-Algorithmus verwendet Monte-Carlo-<br />
Simulationen im E-Schritt. Gleichzeitig wird dort die Baseline-Hazardrate<br />
nonparametrisch geschätzt. Weitere Details siehe dort.<br />
7 Fazit<br />
Gerade in der Biostatistik mit der Lebensdaueranalyse als eines ihrer wichtigsten<br />
Anwendungsgebiete, tritt häufig das Problem fehlerbehafteter Daten<br />
auf. Es ist daher notwendig, Methoden zu finden, mit denen Messfehler in<br />
der Lebensdaueranalyse adäquat behandelt werden können.<br />
Diese Arbeit hat in einem einführenden Teil die grundlegenden Notationen<br />
und Modelle der Lebensdaueranalyse vorgestellt, um dann anschließend mehrere<br />
Verfahren vorzustellen, wie Schätzungen beim Vorliegen von Messfehlern<br />
korrigiert werden können. Die vorgestellten Methoden beziehen sich ausnahmslos<br />
auf das Proportional-Hazards-Modell von Cox.<br />
Es wurde festgehalten, dass beim Vorliegen von Messfehlern die auf den beobachteten<br />
Daten basierende sog. Induzierte Hazardfunktion nicht mehr als<br />
ein Produkt aus beliebiger Baseline-Hazardrate und einem Term, der nur<br />
21
von den Parametern abhängt, geschrieben werden kann. Dies gilt als Hauptgrund,<br />
warum die Methodik der Cox-Regression nicht mehr ohne Modifikationen<br />
verwendet werden kann. Mit der sog. ”<br />
Rare-Disease-Assumption“ -<br />
der Annahme seltener Ereignisse - wurde eine wichtige Vereinfachung kennengelernt,<br />
um diesen Effekt abzuschwächen.<br />
Es wurde ein Verfahren vorgestellt, wie der Einfluss des Messfehlers aus der<br />
Hazardfunktion herausintegriert werden kann, das, unter Annahme der Normalverteilung<br />
<strong>für</strong> die unbeobachtete Variable X, zur bekannten Abschwächung<br />
des Parameterschätzers aus der linearen Regression führt.<br />
Das Konzept der Regressionskalibrierung wurde sowohl als funktionaler als<br />
auch als struktureller Ansatz eingeführt, wobei letzterer in einem speziellen<br />
Fall mit dem obigen Verfahren übereinstimmt.<br />
Nakamuras Verfahren der korrigierten Scorefunktionen wurde auf das Cox-<br />
Modell übertragen. Dabei wurde aufgezeigt, dass dieses Konzept nicht auf<br />
die Partial-Likelihood des Cox-Modells angewendet werden kann, wohl aber<br />
auf die Breslow-Likelihood. Dann ist das Vorgehen nahezu identisch wie bei<br />
allen anderen nicht-linearen Regressionen.<br />
In einem weiteren Abschnitt wurde der Einfluss eines Berkson-Fehlers auf die<br />
Parameterschätzer im Cox-Modell untersucht und mit Hilfe der Ergebnisse<br />
von externen Simulationen und darauf beruhenden Graphiken ein Eindruck<br />
über das Ausmaß möglicher Verzerrungen gegeben.<br />
Ein letzter Abschnitt stellt theoretisch eine Vorgehensweise dar, wie Messfehlern<br />
in der Lebensdaueranalyse begegnet wird, wenn die beobachteten Daten<br />
in Clustern vorliegen.<br />
22
Literatur<br />
[1] Carroll, R.J., Ruppert, D., Stefanski L.A. and Crainiceanu,<br />
C.M., (2006) Measurement Error in Nonlinear Models: A Modern<br />
Perspective, Chapman and Hall, London.<br />
[2] Augustin T. & Schwarz R. Cox’s proportional hazards model<br />
under covariate measurement error - A review and comparison<br />
of methods. In Total least squares and errors-in-variables modeling:<br />
analysis, algorithms and applications (eds S. Van Huffel<br />
& P. Lemmerling). Kluwer, Dordrecht, S. 175-184., 2002<br />
[3] Augustin T. An exact corrected log-likelihood function for<br />
Cox’s proportional hazards model under measurement error<br />
and some extensions. In Scandinavian Jorunal of Statistics,<br />
31:43-50, 2004<br />
[4] Hughes M.D. Regression dilution in the proportional hazards<br />
model. In Biometrics, 49:1056-1066, 1993<br />
[5] Kuechenhoff T., Bender R., Langner I. Effect of Berkson measurement<br />
error on parameter estimates in Cox regression models.<br />
In Lifetime Data Analysis, 13:261-272, 2007<br />
[6] Li Y. & Lin X. Covariate measurement errors in frailty models<br />
for clustered survival data. In Biometrika, 87(4):849-866, 2000<br />
[7] Nakamura T. Corrected score function of errors-in-variables<br />
models: Methodology and application to generalized linear<br />
models. In Biometrika, 77:127-137, 1990<br />
[8] Nakamura T. Proportional hazards model with covariates<br />
subject to measurement error. In Biometrics, 48:829-838, 1992<br />
[9] Stefanski L. A. Unbiased estimation of a nonlinear function of<br />
a normal mean with application to measurement error models.<br />
In Commun. Statist. Theory Methods, 18:4335-4358, 1989<br />
23