29.07.2014 Aufrufe

Handout - Institut für Statistik

Handout - Institut für Statistik

Handout - Institut für Statistik

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Messfehler in der Lebensdaueranalyse<br />

Seminar: Analyse fehlerbehafteter Daten<br />

Matthias Hunger<br />

30. Juni 2008<br />

1


Inhaltsverzeichnis<br />

1 Einleitung 3<br />

2 Lebensdaueranalyse:<br />

Notation und Modelle 3<br />

2.1 Notation und Begriffe . . . . . . . . . . . . . . . . . . . . . . . 3<br />

2.2 Regressionsmodelle in der Lebensdaueranalyse . . . . . . . . . 4<br />

2.2.1 Parametrische Transformationsmodelle . . . . . . . . . 4<br />

2.2.2 Das Proportional-Hazard-Modell von Cox . . . . . . . 5<br />

3 Messfehler in den Lebensdauermodellen 7<br />

3.1 Grundannahmen . . . . . . . . . . . . . . . . . . . . . . . . . 8<br />

3.2 Die Hazardrate im Cox-Modell mit Messfehlern . . . . . . . . 8<br />

4 Korrekturmöglichkeiten im Cox-Modell 8<br />

4.1 Unterscheidung strukturelle - funktionale Ansätze . . . . . . . 8<br />

4.2 Die induzierte Hazardrate im Cox-Modell . . . . . . . . . . . . 9<br />

4.3 Regressionskalibrierung . . . . . . . . . . . . . . . . . . . . . . 11<br />

4.3.1 Funktionale Regressionskalibrierung . . . . . . . . . . . 11<br />

4.3.2 Strukturelle Regressionskalibrierung . . . . . . . . . . . 12<br />

4.4 Die korrigierte Scorefunktion . . . . . . . . . . . . . . . . . . . 13<br />

5 Berkson-Fehler im Cox-Modell 16<br />

5.1 Modellannahmen . . . . . . . . . . . . . . . . . . . . . . . . . 16<br />

5.2 Additiver Berkson-Fehler . . . . . . . . . . . . . . . . . . . . . 17<br />

5.3 Weitere Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . 19<br />

6 Frailty-Modelle 19<br />

6.1 Messfehler in frailty-Modellen . . . . . . . . . . . . . . . . . . 20<br />

6.2 Likelihood Inferenz <strong>für</strong> frailty-Modelle mit Messfehlern . . . . 20<br />

7 Fazit 21<br />

2


1 Einleitung<br />

Die Ereigniszeit- oder Survivalanalyse ist eine statistische Analyse, bei der die<br />

Zeitspanne T bis zum Eintreffen eines wohldefinierten Ereignisses betrachtet<br />

wird. Sie erfreut sich interdisziplinärer Beliebtheit, dementsprechend gibt es<br />

zahlreiche Bezeichnungen die oft synonym verwendet werden. So wird in der<br />

<strong>Statistik</strong> - geprägt durch die medizinische Anwendung - meist von ”<br />

Survival<br />

Analyse“ (Überlebensanalyse) oder Lebensdaueranalyse gesprochen, wohingegen<br />

in der empirischen Sozialforschung der Begriff ”<br />

Verweildaueranalyse“<br />

vorherrscht. Bekannte Modelle in der Wirtschafts- und Sozialforschung<br />

modellieren die Dauer bis zur Heirat (Diekmann, Mitter) oder die Dauer<br />

der Arbeitslosigkeit (IAB - <strong>Institut</strong> <strong>für</strong> Arbeitsmarkt- und Berufsforschung).<br />

Aus der medizinischen Anwendung abgeleitet, wird die Zeitdauer T meist<br />

als Lebenszeit oder Lebensdauer (survival time, duration) sowie das Ereignis<br />

als Tod (failure) bezeichnet. Dementsprechend ist auch der Name ”<br />

Time-tofailure“-Analyse<br />

gängig. Regressionsmodelle zur Modellierung der nichtnegativen<br />

Zufallsvariablen benötigen eine eigene Theorie bzw. Modellbildung, da<br />

oft Realisationen von T nicht vollständig beobachtbar sind, z.B. kommt es<br />

vor, dass das Ereignis bei Ende der Studie noch nicht eingetreten ist. Dies<br />

führt zur Zensierungsproblematik (censoring). Desweiteren ist bei der Analyse<br />

von Überlebensdauern die Rolle der sog. Hazardrate ungewöhnlich: Über<br />

sie lässt sich vieles anschaulicher erklären und sie stellt die zentrale Größe<br />

des so genannten Cox-Modells dar, auf dem der Schwerpunkt dieser Arbeit<br />

liegt.<br />

Gerade in der Biostatistik - einem der Hauptanwendungsgebiete der Survivalanalyse<br />

- stellt sich oft das Problem fehlerbehafteter Daten: Interessierende<br />

Variablen können in der biometrischen Anwendung oft nur mit einem<br />

nicht-vernachlässigbaren Fehler gemessen werden oder sie sind generell nicht<br />

verfügbar. Als Beispiel sei hier der in Ernährungsstudien oft verwendete aufgenommene<br />

Proteingehalt der letzten fünf Jahre genannt. Es müssen Surrogate<br />

verwendet werden, die als fehlerbehaftete Variablen aufgefasst werden,<br />

sodass Analysemodelle dementsprechend angepasst werden müssen.<br />

2 Lebensdaueranalyse:<br />

Notation und Modelle<br />

2.1 Notation und Begriffe<br />

Der gängigen Notation folgend, betrachten wir in der Lebensdaueranalyse<br />

folgendes grundlegendes Modell:<br />

3


Für jedes Individuum i, i=1,...n, wirken zwei latente Größen im Hintergrund:<br />

Die wahre Lebensdauer T i und die maximale Beobachtungsdauer C i (Zensierungszeit).<br />

Tatsächlich beobachtet wird nur die jeweils kürzere der beiden<br />

Zeiten, also Y i = min(T i , C i ).<br />

Darüber hinaus ist bekannt, ob es sich bei einem Individuum um die tatsächliche<br />

Lebensdauer handelt, oder ob bei Person i eine Zensierung vorliegt.<br />

Dies geschieht über den Zensierungsindikator - eine Zufallsvariable die wie<br />

folgt definiert ist: δ i = I(T i < C i ) Die Risikomenge R i = {j : Y j ≥ Y i } entspricht<br />

der Menge an Individuen, die zum Todes- bzw. Zensierungszeitpunkt<br />

von Individuum i noch leben und unzensiert sind.<br />

Lebensdauerverteilungen können über unterschiedliche Funktionen beschrieben<br />

werden, wobei sich jede dieser Funktionen (fast sicher) eineindeutig aus<br />

der anderen herleiten lässt: Diese Funktionen sind Dichte, Verteilungsfunktion,<br />

Survivorfunktion, Hazardrate und kumulierte Hazardrate.<br />

Die zentrale Kenngröße in der Survivalanalyse ist die Hazardrate (Ausfallrate).<br />

Sie ist definiert als<br />

λ(t) := lim<br />

∆t→0<br />

1<br />

P(t ≤ T < t + ∆t|T ≥ t) (1)<br />

∆t<br />

und entspricht dem infinitesimalen Risiko, im nächsten Moment zu sterben,<br />

gegeben man hat bis zu diesem Moment überlebt. Die Hazardrate ist<br />

meist am besten geeignet, Eigenschaften einer Lebensdauerverteilung anschaulich<br />

darzustellen.<br />

So hat beispielsweise die Exponentialverteilung, deren zentrale Eigenschaft<br />

die sog. Gedächtnislosigkeit ist, eine konstante Hazardrate, d.h. das Risiko<br />

zu sterben ist in jedem Moment gleich und hängt nicht von der bisherigen<br />

Überlebensdauer ab.<br />

2.2 Regressionsmodelle in der Lebensdaueranalyse<br />

Zusätzlich zu den Daten (t i , δ i ) liegt <strong>für</strong> jedes Individuum ein Vektor mit<br />

(zeitunabhängigen) Kovariablen x i vor. i=1,...,n<br />

2.2.1 Parametrische Transformationsmodelle<br />

Parametrische Transformationsmodelle sind an der üblichen Regression orientiert<br />

und modellieren die Überlebensdauer in Abhängigkeit der Kovariablen.<br />

Wegen der Nicht-Negativität von T wird jedoch als Zielgröße die logtransformierte<br />

Überlebensdauer gewählt:<br />

4


ǫ ∼ N(0, 1), was äquivalent ist zu<br />

log(T) = x ′ β + σ · ǫ,<br />

T = exp (β 0 ) exp (β 1 x 1 ) · ... · exp (β p x p ) · exp (σǫ)<br />

Die individuelle Zeit bis zum Tod,T i , wird mit dem Faktor exp (ß 1 x i1 ) ”<br />

beschleunigt“,<br />

weswegen diese Modelle auch ”<br />

Accelerated-Failure-Time-Modelle“<br />

(AFT-Modelle) heißen. AFT-Modelle sind parametrische Modelle, d.h. die<br />

Fehlerverteilung muss voll spezifiziert sein. Wie die Lebensdauer T modelliert<br />

wird, hängt davon ab, welche Fehlerverteilung zu Grunde gelegt wird.<br />

Die wichtigsten Zusammenhänge zwischen der Verteilung von ǫ und der Verteilung<br />

von T zeigt folgende Tabelle.<br />

Verteilung von ǫ bzw. log T<br />

ǫ ∼ N(0,1) normal<br />

Extremwert<br />

logistisch<br />

log-Gamma<br />

log-gen. Gamma<br />

Verteilung von T<br />

lognormal<br />

Weibull<br />

log-logistisch<br />

Gamma<br />

Generalisierte Gamma<br />

Die Wahl der Extremwertverteilung als Verteilung <strong>für</strong> den Fehler ist hierbei<br />

hervorzuheben, da dadurch <strong>für</strong> T eine Weibullverteilung modelliert wird<br />

und das AFT-Modell auch die Eigenschaft proportionaler Hazards gemäß (3)<br />

hat.<br />

2.2.2 Das Proportional-Hazard-Modell von Cox<br />

Das Cox-Modell ist die gängigste Regressionsmethode zur Analyse von Überlebensdaten<br />

und basiert auf einem anderen Ansatz, um die Überlebenszeit<br />

mit einem Kovariablenvektor in Verbindung zu setzen. Die Modellgleichung<br />

wird formuliert als<br />

λ(t, x) = λ 0 (t) · exp (x ′ β) (2)<br />

Dabei ist λ 0 (t) die sog. Baseline-Hazardrate (der Wert der Hazardrate <strong>für</strong><br />

ein Individuum bei dem die Ausprägungen aller Merkmale des Kovariablenvektors<br />

0 sind). x ′ β enthält keine Konstante (diese steckt sozusagen schon in<br />

λ 0 (t)).<br />

5


Die Hazardfunktion kann also geschrieben werden als ein Produkt aus unbekannter<br />

Baseline-Hazardrate und einem Term, der nur von den Parametern<br />

abhängt.<br />

Die Baseline-Hazardrate wird nicht spezifiziert und als ”<br />

Nuisance-Parameter“<br />

aufgefasst, so dass das Cox-Modell als semiparametrisch bezeichnet werden<br />

kann. Stattdessen steht im Coxmodell die Schätzung der Effekte β im Vordergrund.<br />

Man sieht schnell, dass exp (β k ) angibt, wie sich die Hazardrate<br />

(also das ”<br />

Risiko“ zu sterben) ändert, wenn die Kovariable x k um eine Einheit<br />

erhöht wird (Wobei alle anderen Kovariablen konstant gehalten werden).<br />

Die charakteristische Eigenschaft des Cox-Modells ist die Proportionalität<br />

der Hazardraten. Für zwei Individuen mit Kovariablen x 1 und x ∗ 1 und ansonst<br />

gleichen Kovariablen gilt <strong>für</strong> das Verhältnis der Hazardraten:<br />

λ(t, x 1 )<br />

λ(t, x ∗ 1) = λ 0(t)<br />

λ 0 (t) · exp (x′ 1β)<br />

exp (x ∗ 1 ′ β) = exp ((x 1 − x 1 ∗ ) ′ β) (3)<br />

Das Verhältnis hängt also nicht vom Zeitpunkt t ab.<br />

Inferenz im Cox-Modell<br />

Die Schätzung der Modellparameter stützt sich auf die so genannte ”<br />

Partial<br />

Likelihood“, in der die Baseline-Hazardrate nicht vorkommt. Die Partial<br />

Likelihood lautet:<br />

PL(β) =<br />

k∏<br />

i=1<br />

x ′ (i) β<br />

∑j∈R(t (i) ) exp (x′ j β) (4)<br />

k: Anzahl der Ausfälle (ohne Zensierungen)<br />

R(t): Risikomenge, also Menge der Individuen die unmittelbar vor t noch<br />

beobachtbar sind<br />

t (1) < ... < t (i) < ...t (k) : Zeitdauern der Individuen die nicht zensiert sind.<br />

Der Parameterschätzer ˆβ PL ergibt sich als Lösung von<br />

k∑<br />

(x i −<br />

i=1<br />

∑<br />

j∈R(t (i) ) x j · exp (x ′ jβ)<br />

∑j∈R(t (i) ) exp (x′ j β) ) = 0 (5)<br />

Die Partial Likelihood kann auf zwei verschiedene Weisen motiviert werden:<br />

6


1. Der Likelihoodbeitrag eines (unzensierten) Individuums wird aufgefasst<br />

als die Wahrscheinlichkeit, dass zur Zeit t (i) das Individuum mit Kovariablenvektor<br />

x (i) stirbt, gegeben eines der Individuen aus der Risikomenge<br />

R(t (i) ) stirbt.<br />

2. Als Profilelikelihood nachdem λ 0 (t) als stückweise konstant zwischen<br />

den Todeszeitpunkten der unzensierten Individuen angenommen und<br />

herausintegriert“ wird. (Breslow 1974)<br />

”<br />

Tatsächlich lautet unter der Annahme unabhängiger Zensierung (random<br />

censoring) die Likelihood der beobachteten Daten<br />

L =<br />

n∏<br />

((λ 0 (t i ) exp (X iβ)) ′ δ i<br />

exp (− exp (X iβ) ′ ·<br />

∫ ti<br />

i=1<br />

0<br />

λ 0 (u)du)). (6)<br />

Wenn nun die Baseline-Hazardrate als stückweise konstant angesehen<br />

wird auf dem Gitter<br />

0 = t (0) < t (1) < t (2) < ... < t (i) < ... < t (k)<br />

mit λ 0 (t) = λ i <strong>für</strong> t (i−1) < t ≤ t (i)<br />

(k: Anzahl der Ausfälle - ohne Zensierungen), so kann das Integral der<br />

Baselinehazardrate in (6) als Summe geschrieben werden. Die (Log-<br />

)Likelihood der beobachteten Daten vereinfacht sich entsprechend zu<br />

ln L =<br />

k∑<br />

(d i ln λ i + ∑<br />

∑<br />

X jβ ′ − λ i (t (i) − t (i−1) ) exp (X jβ)) ′ (7)<br />

i=1<br />

j∈D(t (i) )<br />

j∈R(t (i) )<br />

und heißt ”<br />

Breslow-(Log-)Likelihood“. Wird nun β fixiert und bezüglich<br />

der Parameter λ 1 , ...,λ k maximiert, so erhält man in der Tat die Partial<br />

Likelihood.<br />

Der besondere Charakter der Partial-Likelihood im Cox-Modell gilt als<br />

Hauptursache, warum Messfehler in den Survivalmodellen einer eigenen Betrachtung<br />

bedürfen.<br />

3 Messfehler in den Lebensdauermodellen<br />

Im Folgenden nehmen wir an, dass die Überlebensdauer jedes Individuums<br />

von stetigen Kovariablen X i abhängt, die mit Messfehler gemessen wurden<br />

sowie von stetigen Kovariablen Z i , die fehlerfrei gemessen wurden.<br />

7


3.1 Grundannahmen<br />

Mit Ausnahme des Kapitels 5 legen wir das klassische, homoskedastische<br />

Messfehlermodell zugrunde, d.h.<br />

X ∗ i = X i + U i ,<br />

wobei die Fehlerterme U i i.i.d. normalverteilt sind mit Mittelwert Null<br />

und bekannter oder konsistent geschätzter Kovarianzmatrix Σ U . Die Zensierungszeiten<br />

C i seien unabhängig von (T i , X i ) und U i sei unabhängig von (T i ,<br />

X i , C i ). Die beobachteten Daten seien (Y i , δ i , X ∗ i , Z i ).<br />

Wir gehen also von einem nicht-differenziellen Messfehler aus: Bei gegebenem<br />

wahren Wert von X i sind die Variablen T i und X ∗ i bedingt unabhängig,<br />

oder anders formuliert: Bei gegebenem X i enthält der gemessene Wert X ∗ i<br />

keine weitere Information über die Lebensdauer.<br />

3.2 Die Hazardrate im Cox-Modell mit Messfehlern<br />

Die Hazardrate im Coxmodell mit den ”<br />

wahren“ Kovariablen X i und Z i<br />

lautet:<br />

λ i (t|X i , Z i ) = λ 0 (t) · exp (β ′ xX i + β ′ zZ i ),<br />

wobei λ 0 die unspezifizierte Baseline-Hazardfunktion ist, die nicht von den<br />

Werten der Kovariablen abhängt.<br />

Wenn X i allerdings nicht beobachtbar ist und stattdessen X ∗ i verwendet wird,<br />

muss also ein passendes Modell gefunden werden, das die Hazardrate λ(t|X ∗ i )<br />

modelliert.<br />

4 Korrekturmöglichkeiten im Cox-Modell<br />

Die im folgenden vorgeschlagenen Korrekturmöglichkeiten beziehen sich alle<br />

auf das Proportional-Hazard-Modell von Cox.<br />

4.1 Unterscheidung strukturelle - funktionale Ansätze<br />

Eine grobe Unterscheidung der Korrekturmöglichkeiten <strong>für</strong> Messfehler im<br />

Cox-Modell ergibt sich über die Frage nach der Verteilungsannahme <strong>für</strong> die<br />

wahre, nicht beobachtete Kovariable X. Treffen wir die Annahme, dass die<br />

8


Verteilung von X zu einer bestimmten, bekannten Klasse von Verteilungen<br />

gehört, so sprechen wir von strukturellen Ansätzen. Methoden die den Einfluss<br />

fehlerbehafteter Kovariablen ohne Verteilungsannahme korrigieren bezeichnet<br />

man hingegen als funktionale Ansätze (vgl. <strong>Handout</strong> Shchekaturina).<br />

4.2 Die induzierte Hazardrate im Cox-Modell<br />

Ein grundlegender struktureller Ansatz, dem Problem fehlerbehafteter Daten<br />

im Cox-Modell zu begegnen, besteht darin, die bedingte Verteilung von X i<br />

gegeben X ∗ i zu verwenden und unter der Annahme eines nicht-differentiellen<br />

Messfehlers den Einfluss des Messfehlers herauszuintegrieren. Da wir eine<br />

Verteilung <strong>für</strong> X i annehmen, handelt es sich hier also um eine strukturelle<br />

Methode.<br />

Allerdings kann dieser Ansatz nicht ohne weiteres auf das Coxmodell angewendet<br />

werden, was in folgender Herleitung gezeigt wird:<br />

Wenn X i nicht beobachtbar ist und stattdessen das Surrogat X ∗ i beobachtet<br />

wird, betrachten wir die Hazardrate λ(t|Z i , X ∗ i ). Wegen des nicht-differenziellen<br />

Messfehlers gilt λ(t|X i , X ∗ i , Z i ) = λ(t|X i , Z i ) 1 , sodass wir erhalten:<br />

λ(t|X ∗ i ) = lim<br />

ǫ→0<br />

ǫ −1 · P({T i ≤ t + ǫ}|{T i ≥ t}, X ∗ i )<br />

= lim<br />

ǫ→0<br />

ǫ −1 · E(P({T i ≤ t + ǫ}|X i , {T i ≥ t}, X ∗ i )|{T i ≥ t}, X ∗ i )<br />

= lim<br />

ǫ→0<br />

ǫ −1 · E(P({T i ≤ t + ǫ}|{T i ≥ t}, X i )|{T i ≥ t}, X ∗ i )<br />

= E(λ(t|X i )|{T i ≥ t}, X ∗ i )<br />

Über (2) ergibt sich als so genannte ”<br />

induzierte Hazardfunktion“ im Cox-<br />

Modell:<br />

λ(t|X ∗ i ) = λ 0 (t) · E(exp (β ′ X i )|X ∗ i , {T i ≥ t}) (8)<br />

,<br />

Die Problematik besteht nun darin, dass obige bedingte Erwartung durch<br />

das Ereignis {T i ≥ t} in der Bedingung von der Geschichte des Prozesses<br />

und damit von der unbekannten Baseline-Hazardfunktion abhängt. Folglich<br />

kann die Hazardrate nicht mehr einfach geschrieben werden als ein Produkt<br />

aus unbekannter Baseline-Hazardrate und einem Ausdruck, der nur von den<br />

1 O.B.d.A. nehmen wir aus Notationsgründen im Weiteren an, dass es keine korrekt<br />

gemessen Variablen Z i gibt<br />

9


Parametern abhängt. Dies hat zur Folge, dass die charakteristische Faktorisierung<br />

der Hazardfunktion (2) im Cox-Modell verloren geht und Inferenz<br />

mittels partieller Likelihood nicht mehr ohne weiteres betrieben werden kann.<br />

Eine wichtige Einschränkung, damit dieser Effekt vernachlässigt werden kann,<br />

besteht in der Annahme, dass die Ereignisse selten sind. Dann nämlich ist<br />

die Wahrscheinlichkeit P(T i ≥ t), den Zeitpunkt t zu überleben, nahe bei<br />

1. Diese Annahme wird als ”<br />

Rare Disease Assumption“ bezeichnet. Ist die<br />

Annahme gerechtfertigt, so kann (8) durch<br />

approximiert werden.<br />

λ ∗ (t|X ∗ i ) = λ 0 (t) · E(exp (β ′ X i )|X ∗ i ) (9)<br />

Es stellt sich als nächstes die Frage, wie der Term E(exp (β ′ X i )|X ∗ i ) berechnet<br />

werden kann. Dies ist relativ einfach im Fall dass X i |X ∗ i normalverteilt<br />

ist (mit Mittelwert ¯µ i und gemeinsamer Kovarianz ¯Σ). Dann nämlich lässt<br />

sich (9) mit Hilfe des Erwartungswerts lognormalverteilter Zufallsgrößen vereinfachen<br />

zu<br />

λ(t|X ∗ i ) = λ 0 (t) · exp (β ′¯µ i + 0.5β ′¯Σβ) =: λ<br />

∗<br />

0 (t) · exp (β ′¯µ i ) (10)<br />

Als wichtigstes Beispiel <strong>für</strong> die Normalverteilung von X i |Xi<br />

∗ 2 von gilt der<br />

Fall, wenn die X i selbst i.i.d. normalverteilt sind mit Erwartungsert µ X<br />

und Kovarianz-Matrix Σ X . Dann nämlich ist Xi<br />

∗ ∼ N(µ X ;Σ X + Σ U ) und<br />

tatsächlich gilt X i |Xi ∗ ∼ N(¯µ i , ¯Σ) mit<br />

¯µ i = µ X + Σ X · (Σ X + Σ U ) −1 · (X ∗ i − µ X ) (11)<br />

und ¯Σ = Σ X − Σ X · (Σ X + Σ U ) −1 Σ X , sodass (10) jetzt geschrieben werden<br />

kann als<br />

λ(t|X ∗ i ) = λ ∗ 0(t) · exp (β ′ µ X + β ′ Σ X · (Σ X + Σ U ) −1 · (X ∗ i − µ X ))<br />

=: λ ∗∗<br />

0 (t) · exp (β ′ · Σ X · (Σ X + Σ U ) −1 · X ∗ i ) (12)<br />

Betrachtet man den Ausdruck exp (β ′ · Σ X · (Σ X + Σ U ) −1 · X ∗ i ), so erkennt<br />

man, dass sich daraus die aus der linearen Regression bekannte Abschwächung<br />

des Schätzers ˆβ ergibt.<br />

ˆβ korrigiert = Σ −1<br />

X · (Σ X + Σ U ) · ˆβ naiv<br />

3<br />

(13)<br />

2 Die Normalverteilung X i |Xi ∗ ist typisch <strong>für</strong> den Berkson-Fehler; vergleiche hierzu auch<br />

die Idee der Umwandlung eines klassischen Fehlers in einen Berkson-Fehler: Skript Shchekaturina<br />

10


Dies ist allerdings nur der Fall, falls die oben getroffenen Annahmen (insbesondere<br />

”<br />

Rare Disease Assumption“ und Normalverteilung der X i ) zutreffen.<br />

In einer Reihe von Simulationsstudien [4] wurde beobachtet, dass starke<br />

Abhängigkeiten zwischen dem Bias und dem wahren Wert β, sowie zwischen<br />

dem Bias und dem Anteil der Zensierungen bestehen. Dies führt uns erneut<br />

auf die Wichtigkeit der ”<br />

Rare Disease Assumption“ zurück: Je kleiner<br />

nämlich der wahre Wert β und je höher der Anteil zensierter Beobachtungen<br />

ist, desto näher kommen wir der ”<br />

Rare Disease Assumption“.<br />

4.3 Regressionskalibrierung<br />

Einer der gängigsten Ansätze, um dem Problem fehlerbehafteter Daten in<br />

der Regressionsanalyse zu begegnen, ist die so genannte Regressionskalibrierung,<br />

die im Vortrag von O. Shchekaturina vorgestellt wurde. Ihr liegt die<br />

Idee zu Grunde, <strong>für</strong> die nicht beobachteten Variablen Werte einzusetzen, die<br />

über die beobachteten Daten vorhergesagt werden. Konkret wird die unbeobachtete<br />

Variable X i über ihre bedingten Erwartung gegeben X ∗ i , also durch<br />

ˆX i =E(X|Z,X ∗ i ) ersetzt.<br />

Die Inferenz basiert dann auf der Verwendung gängiger Software <strong>für</strong> die auf<br />

diese Weise gewonnenen Daten.<br />

4.3.1 Funktionale Regressionskalibrierung<br />

In vorherigen Seminarsitzungen haben wir die Regressionskalibrierung als<br />

funktionalen Ansatz kennen gelernt. Diese Idee kann auch auf Regressionsmodelle<br />

in der Lebensdaueranalyse übertragen werden. Hier wird dann wie<br />

folgt verfahren:<br />

1. Ersetze X i durch den bedingten Erwartungswert von X i gegeben X ∗ i<br />

2. Maximiere die Partial Likelihood des Cox-Modells, wobei statt X i der<br />

bedingte Erwartungswert ˆX i eingesetzt wird.<br />

Über die Regressionskalibrierung approximieren wir also das Cox-Modell,<br />

indem wir annehmen, dass die Hazardfunktion der beobachteten Daten hinreichend<br />

gut modelliert wird, wenn wir im Regressionsmodell statt der wah-<br />

3 Wenn die Kovarianz Σ U des Messfehlers bekannt ist, so können µ X und Σ X konsistent<br />

aus den Beobachtungen W 1 , ...,W n geschätzt werden<br />

11


en X i die bedingten Erwartungswerte verwenden - wir also von folgendem<br />

Modell ausgehen:<br />

λ(t|m(X ∗ i , γ)) = λ ∗ 0(t) exp (β ∗′ m(X ∗ i , γ)) (14)<br />

Dabei ist m(X ∗ i ,γ) der (wahre) bedingte Erwartungswert von X i gegeben X ∗ i<br />

und γ; γ ist der Regressionsparameter von X auf X ∗ .<br />

In Wirklichkeit muss bei einem funktionalen Ansatz die bedingte Erwartung<br />

von X i gegeben X ∗ i jedoch geschätzt werden. Hierbei wird zunächst das unbeobachtete<br />

X i durch eine Regression von X auf X ∗ geschätzt (vgl. <strong>Handout</strong><br />

Shchekaturina). Anstatt X i wird dann der daraus gewonnene Schätzer ˆX i =<br />

m X (X ∗ i ,ˆγ) verwendet. ˆXi ist also nur ein Schätzer. In Gleichung (14) taucht<br />

jedoch der (wahre) bedingte Erwartungswert von X i gegeben X ∗ i und γ auf;<br />

β ∗ ist dementsprechend der (wahre) Parameter der den Einfluss des (wahren)<br />

bedingten Erwartungswerts m(X ∗ i ,γ) auf die Überlebenswahrscheinlichkeit<br />

modelliert.<br />

Setzen wir nun statt dem (wahren) bedingten Erwartungswert m(X ∗ i ,γ) seine<br />

Schätzung ˆX i ein, so kann gezeigt werden, dass unter Regularitätsbedingungen<br />

der über die Maximierung der Partial Likelihood erhaltene Schätzer konsistent<br />

und asymptotisch normal <strong>für</strong> β ∗ ist. Allerdings ist β ∗ ja nur eine Approximation<br />

des wahren Parameters β, da wir im Regressionsmodell (14) ja den<br />

bedingten Erwartungswert statt des wahren (unbekannten) X i einsetzen. In<br />

der Praxis, wird (9) aber oft gut durch die obige Gleichung (14) approximiert.<br />

4.3.2 Strukturelle Regressionskalibrierung<br />

In den vorherigen Seminarsitzungen wurde bereits erwähnt, dass die Regressionskalibrierung<br />

auch als strukturelle Methode gesehen werden kann,<br />

nämlich dann, wenn wir Verteilungsannahmen <strong>für</strong> X i |X ∗ i treffen. Im einfachsten<br />

Fall - wenn die X i wiederum i.i.d. normalverteilt sind - entspricht die<br />

Regressionskalibrierung exakt dem bereits in 4.2 kennen gelernten Verfahren:<br />

Wenn die X i i.i.d. normalverteilt sind, so muss der bedingte Erwartungswert<br />

von X i gegeben X ∗ i nicht wie bei der funktionalen Regressionskalibrierung<br />

geschätzt werden. Stattdessen kann er direkt als<br />

¯µ i = µ X + Σ X · (Σ X + Σ U ) −1 · (X ∗ i − µ X )<br />

berechnet werden (vgl. (11)). Wird nun in der Score-Gleichung (5) X i durch<br />

eben dieses ¯µ i ersetzt, so lautet die ”<br />

neue“ Score-Gleichung<br />

k∑<br />

(¯µ i −<br />

i=1<br />

∑<br />

j∈R(t (i) ) ¯µ j · exp (¯µ ′ jβ)<br />

∑j∈R(t (i) ) exp (¯µ′ j β) ) = 0 (15)<br />

12


Wird nun <strong>für</strong> ¯µ i der Term µ X + Σ X · (Σ X + Σ U ) −1 · (X ∗ i − µ X ) eingesetzt,<br />

die Gleichung entsprechend vereinfacht und anschließend mit (Σ X · (Σ X +<br />

Σ U ) −1 ) −1 multipliziert, so ergibt sich<br />

k∑<br />

(Xi ∗ −<br />

i=1<br />

∑j∈R(t (i) ) X∗ j · exp (Σ X · (Σ X + Σ U ) −1 X ∗′<br />

j β)<br />

∑j∈R(t (i) ) exp (Σ X · (Σ X + Σ U ) −1 X ∗′<br />

j β) ) = 0 (16)<br />

was in der Tat wieder zum selben korrigierten Schätzer (13) führt.<br />

Der Vorteil der Regressionskalibrierung liegt vor allem in seiner einfachen<br />

Implementierung: Nach einer geeigneten Modellierung der bedingten Erwartung,<br />

kann die übliche Standardsoftware <strong>für</strong> Lebensdauermodelle (R: coxph(),<br />

survreg(); SAS: PROC PHREG) <strong>für</strong> die Inferenz verwendet werden.<br />

4.4 Die korrigierte Scorefunktion<br />

Während bei den oben vorgestellten strukturellen Vorgehensweisen eine Verteilungsannahme<br />

<strong>für</strong> die unbeobachtete Kovariable X getroffen wird, erlauben<br />

es funktionale Ansätze, auf solche Annahmen zu verzichten. Die bekannteste<br />

funktionale Methode, um Messfehler im Regressionsmodell zu berücksichtigen,<br />

ist die von Nakamura eingeführte korrigierte Scorefunktion [7], bzw. korrigierte<br />

Likelihoodfunktion.<br />

Sei Y der in einem Regressionsmodell beobachtete Vektor der Zielgröße, X<br />

der Vektor der unbeobachteten Kovariable und X ∗ der Vektor des <strong>für</strong> X verwendeten<br />

Surrogats.<br />

Wir bezeichnen mit l X (Y, X, θ) und mit s X (Y, X, θ) die Log-Likelihood bzw.<br />

Scorefunktion von θ gegeben der wahren Kovariablen X. Da X jedoch nicht<br />

beobachtbar ist, kennen wir diese Funktionen nicht - wir bezeichen s X (Y, X, θ)<br />

daher als ideale Scorefunktion. Dementsprechend seien l X (Y, X ∗ , θ) und s X (Y, X ∗ , θ)<br />

die entsprechenden Likelihood- bzw. Scorefunktionen, wenn wir statt der<br />

Werte <strong>für</strong> X einfach die Werte der Surrogatvariablen X ∗ einsetzen. Wir bezeichen<br />

s X (Y, X ∗ , θ) als naive Scorefunktion.<br />

Für die ideale Scorefunktion gilt (vgl. <strong>Statistik</strong> III), dass der Erwartungswert<br />

der Scorefunktion an der Stelle des wahren Parameters θ 0 null ist:<br />

E(s X (Y, X, θ)) = 0. Allerdings geht diese Eigenschaft (selbst bei unendlich<br />

großen Stichproben) verloren, wenn wir die naive Scorefunktion verwenden,<br />

also statt X einfach das Surrogat X ∗ verwenden. Als Konsequenz ergibt sich,<br />

dass die Nullstelle der Scorefunktion (über die wir den ML-Schätzer berechnen)<br />

kein konsistenter Schätzer mehr <strong>für</strong> θ ist.<br />

13


Die Idee der korrigierten Scorefunktion besteht nun darin, unverzerrte Schätzgleichungen<br />

zu konstruieren: Man sucht nach einer Funktion s W (Y, X ∗ , θ) in<br />

den beobachteten Daten Y und X ∗ , mit der Eigenschaft, dass die bedingte<br />

Erwartung dieser Funktion gegeben X wieder der originalen Scorefunktion<br />

entspricht:<br />

E(s X∗ (Y, X ∗ , θ)|X, Y ) = s X (Y, X, θ) (17)<br />

Eine solche Funktion nennt man dann ”<br />

korrigierte Scorefunktion“. Tatsächlich<br />

ist ihr Erwartungswert Null, was über den Satz der iterierten Erwartung gezeigt<br />

wird:<br />

E(s X∗ (Y, X ∗ , θ)) = E(E(s X∗ (Y, X ∗ , θ)|X, Y )) = E(s X (Y, X, θ)) = 0 (18)<br />

Daraus kann dann unter Annahme schwacher Regularitätsbedingungen geschlossen<br />

werden, dass die Schätzung <strong>für</strong> θ konstistent und asymptotisch<br />

normal ist.<br />

Die korrigierte Scorefunktion im Cox-Modell<br />

Erneut ist die Übertragung dieser Idee auf die Survivalanalyse nicht ohne<br />

weitere Überlegungen zu leisten. Sie kann nicht direkt auf die Partial-<br />

Scorefunktion im Coxmodell<br />

∑<br />

k∑<br />

j∈R(t (i) )<br />

(x i −<br />

x j · exp (x ′ jβ)<br />

∑j∈R(t (i) ) exp (x′ j β) ) = 0 (5)<br />

i=1<br />

übertragen werden.<br />

Der Beweis da<strong>für</strong> ist sehr komplex: Er beruht darauf, dass <strong>für</strong> die Existenz<br />

korrigierter Scorefunktionen die Scorefunktion vollständig in der Ebene der<br />

komplexen Zahlen liegen muss. Der Nenner in (5) kann jedoch komplexe Nullstellen<br />

haben, was dieser Bedingung widerspricht: Exakte korrigierte Scorefunktionen<br />

gibt es <strong>für</strong> die Partial-Likelihood im Cox-Modell also nicht! (vgl.<br />

[9])<br />

Bei der Herleitung der Partial-Likelihood haben wir die sog. Breslow-(Log-<br />

)Likelihood kennengelernt, deren Form hier in Erinnerung gerufen werden<br />

soll:<br />

ln L Br =<br />

k∑<br />

(d i ln λ i + ∑<br />

∑<br />

X jβ ′ − λ i (t (i) − t (i−1) ) exp (X jβ))<br />

′<br />

i=1<br />

j∈D(t (i) )<br />

j∈R(t (i) )<br />

14


Da hier kein Nenner mit komplexen Nullstellen auftaucht, liegt die Idee nahe,<br />

eine korrigierte log-Likelihood basierend auf der Breslow-Likelihood zu<br />

suchen. Tatsächlich liegen bei der Breslow-Likelihood - im Gegensatz zur<br />

Partial-Likelihood - keine Singularitäten mehr vor, die die Existenz einer<br />

korrigierten Likelihoodfunktion unmöglich machen könnten.<br />

Über die Breslow-Likelihood kann jetzt die allemeine Theorie korrigierter<br />

Score- und Likelihoodfunktionen auch im Cox-Modell angewendet werden:<br />

Das Cox-Modell bedarf keiner gesonderten Handhabung mehr.<br />

Daher wird zwar im folgenden die Gestalt der korrigierten log-Likelihood-<br />

Funktion speziell <strong>für</strong> das Cox-Modell vorgestellt; das Prinzip gilt jedoch allgemein<br />

<strong>für</strong> alle nicht-linearen Regressionen.<br />

Satz<br />

k∑ ((d i ln λ i + ∑<br />

i=1<br />

j∈D(t (i) )<br />

X ∗′<br />

j β − λ i (t (i) − t (i−1) ) ·<br />

∑<br />

j∈R(t (i) )<br />

exp (Xj ∗′ β)<br />

M Uj (β)<br />

) )<br />

|X, Y<br />

ist eine korrigierte Log-Likelihood <strong>für</strong> die Breslow-Log-Likelihood.<br />

Dabei ist M Uj (β) = E(exp (U ′ jβ)) die Momentenerzeugende Funktion der Zufallsvariablen<br />

U j .<br />

Beweis<br />

E ( l X∗ (Y, X ∗ , θ|X, Y ) ) =<br />

∑k<br />

((<br />

E(<br />

i=1<br />

d i ln λ i + ∑ ) ))<br />

j∈D(t (i) ) X∗′ j β − λ i (t (i) − t (i−1) ) · ∑j∈R(t<br />

exp (Xj ∗′ β)<br />

(i) ) M Uj<br />

|X, Y =<br />

(β)<br />

∑k<br />

(<br />

E(<br />

i=1<br />

d i ln λ i + ∑ j∈D(t (i) ) (X j + U j ) ′ β − λ i (t (i) − t (i−1) )·<br />

∑<br />

) )<br />

exp ((X j +U j ) ′ β)<br />

j∈R(t (i) ) M Uj<br />

|X, Y =<br />

(β)<br />

∑ (<br />

k<br />

i=1<br />

d i ln λ i + ∑ j∈D(t (i) ) X jβ ′ + ∑ j∈D(t (i) ) E((U jβ)|X, ′ Y ) − λ i (t (i) − t (i−1) )·<br />

∑<br />

)<br />

exp (X ′ j β)<br />

j∈R(t (i) )<br />

E(exp (U ′ M Uj (β) jβ)|X, Y )<br />

Da U j unabhängig von X ist, folgt:<br />

E(exp (U ′ jβ)|X, Y ) = E(exp (U ′ jβ)) = M Uj (β)<br />

und<br />

E(U ′ jβ|X, Y ) = E(U ′ jβ) = 0.<br />

und es folgt letzlich:<br />

(<br />

)<br />

E l X∗ (Y, X ∗ , θ|X, Y ) =<br />

∑ k<br />

i=1(<br />

d i ln λ i + ∑ j∈D(t (i) ) X jβ ′ − λ i (t (i) − t (i−1) ) ∑ )<br />

j∈R(t (i) ) exp (X jβ)<br />

′<br />

q.e.d<br />

15<br />

= ln L Br


Aus dieser korrigierten Scorefunktion kann dann die entsprechende korrigierte<br />

Scorefunktion hergeleitet werden, über die dann korrigierte Regressionsschätzer<br />

<strong>für</strong> β erhalten werden.<br />

5 Berkson-Fehler im Cox-Modell<br />

In den vorhergehenden Kapiteln wurde dem Problem fehlerhafter Daten das<br />

klassische Messfehlermodell zu Grunde gelegt. In der Tat gehen die meisten<br />

wissenschaftlichen Artikel über Messfehler im Coxmodell von dieser Fehlerstruktur<br />

aus. (vgl. [5]) Dennoch werden gerade in epidemiologischen Studien<br />

häufig Variablen erhoben, bei denen Messfehler vom Berkson-Typ auftreten.<br />

Speziell bei der Erhebung individueller Dosen eines Medikaments oder einer<br />

Strahlenbelastung wird häufig der mittlere Wert einer vergleichbaren Population<br />

verwendet, sodass von einem Berksonfehler ausgegangen werden kann.<br />

Als Beispiel sei hier die ”<br />

European Study of Cancer Risks among Airline<br />

Pilots and Cabin Crew (ESCAPE)“ (vgl. [5]) genannt, bei der die Krebsmortalität<br />

des Cockpit- und Kabinenpersonals untersucht wird. Als Einflussgröße<br />

wird dort die individuelle Strahlenbelastung verwendet, die geschätzt wird<br />

über die individuelle Anzahl der bisherigen Flugstunden sowie einer durchschnittlichen<br />

Strahlungsbelastung die nach Flugzeugtyp, Jahren, Ländern<br />

und Beruf gemittelt wird.<br />

5.1 Modellannahmen<br />

Wir betrachten ein einfaches Cox-Modell mit einer einzigen Variablen X. Der<br />

Zusammenhang zwischen X und der Lebensdauer T ist durch die wahre Survivorfunktion<br />

und die wahre Hazardrate gegeben. Die wahre Survivorfunktion<br />

lautet<br />

S wahr (t, x) = P(T ≥ t|X = x)<br />

Wiederum kann X nicht direkt beobachtet werden; stattdessen wird das Surrogat<br />

X ∗ erhoben. Im Gegensatz zum klassischen Fehlermodell, besteht zwischen<br />

X und X ∗ nun der Zusammenhang<br />

X = X ∗ + U<br />

<strong>für</strong> den additiven Berkson Fehler und<br />

X = X ∗ · V<br />

<strong>für</strong> den multiplikativen Berkson Fehler.<br />

Hierbei sind U und V die Berkson-Fehlervariablen.<br />

16


5.2 Additiver Berkson-Fehler<br />

Wir nehmen an, dass der Messfehler eine Zuvallsvariable mit Dichte f u und<br />

unabhängig von X ∗ und T ist. Bei Annahme eines additiven Berkson-Fehlers<br />

sei die beobachtete Survivorfunktion definiert als<br />

S beob (t, w) := P(T ≥ t|W = w) und wird wie folgt berechnet:<br />

∫<br />

S beob (t, x ∗ ) = E(S wahr (t, x)|X ∗ = x ∗ ) =<br />

S wahr (t, x ∗ + u)f u (u)du. (19)<br />

Die beobachete Survivorfunktion S beob (t, x ∗ ) ergibt sich also als ”<br />

Mittel“<br />

der wahren Survivorfunktion S wahr (t, .) über einem Intervall, dessen Mittelpunkt<br />

x ∗ ist. Um einen Eindruck zu erhalten, wie ein Berksonfehler in der<br />

Kovariablen den Parameterschätzer <strong>für</strong> β im Coxmodell beeinflusst, werden<br />

im Folgenden Messfehler in einem möglichst einfachen Modell simuliert. Anschließend<br />

werden die wahren Survivorfunktionen und Hazardraten mit den<br />

beobachteten über Plots verglichen.<br />

Wir legen ein einfaches Coxmodell mit einer fehlerbehafteten Kovariablen<br />

X zu Grunde. Die Baseline-Hazardrate sei konstant und habe den Wert<br />

exp(−2). Der wahre Parameter sei β = 1 und der Messfehler U sei standardnormalverteilt.<br />

Mit den hierbei simulierten Daten wird die beobachtete<br />

Survivorfunktion über das Integral (siehe (19)) numerisch berechnet.<br />

Es muss beachtet werden, dass die Survivorfunktion sowohl von x bzw. x ∗ als<br />

auch von t abhängt. Daher wird im ersten Plot von Abbildung 1 x ∗ (bei 3)<br />

festgehalten und die Survivorfunktion in Abhängigkeit der Zeit t gezeichnet.<br />

Im zweiten Plot von Abbildung 1 wird der Zeitpunkt festgehalten (t=1) und<br />

die Survivorfunktion in Abhängigkeit von x ∗ gezeichnet.<br />

Man erkennt in Abbildung 1, dass der Messfehler ähnlich wie bei anderen<br />

Regressionsmodellen zu einer flacheren Survivorfunktion führt. Der Bias ist<br />

aber im Coxmodell wesentlich schwieriger zu berechnen als in anderen Regressionsmodellen.<br />

Zu welchem Bias Fehler in der Kovariaten führen, lässt<br />

sich daher einfacher beschreiben, wenn wir uns die Hazardrate genauer ansehen.<br />

Wegen (2) besteht im Coxmodell <strong>für</strong> Kovariaten X ohne Messfehler ein loglinearer<br />

Zusammenhang mit der Hazardrate.<br />

log (λ(t, x)) = log λ 0 (t) + x ′ β<br />

Plottet man die wahren Kovariablenwerte x gegen den Logarithmus der<br />

Hazardrate, ergibt sich also eine Gerade. Die Geradensteigung entspricht dem<br />

17


Abbildung 1: Vergleich der beobachteten Survivorfunktion S beob (t, .) (gestrichelte<br />

Linie) mit der wahren Survivorfunktion S wahr (t, .) (durchgezogene Linie)<br />

Parameter β. Das Ausmaß des Bias kann nun graphisch bewertet werden,<br />

indem wir den beobachteten Wert x ∗ gegen die logarithmierte beobachtete<br />

Hazardrate plotten und überprüfen, inwiefern sich die Form dieser Kurve von<br />

einer Geraden unterscheidet.<br />

Dazu verwenden wir weiterhin die oben simulierten Werte und erstellen in<br />

Abbildung 2 zwei solcher Plots - Plot 1 bei festgehaltenem t=1 und Plot 2<br />

bei festgehaltenem t=0.1.<br />

Abbildung 2: Vergleich des beobachteten log. Hazards λ beob (t, .) (gestrichelte<br />

Linie) mit dem wahren Hazard λ wahr (t, .) (durchgezogene Linie)<br />

Man erkennt, dass in Abbildung 2 beim ersten Plot der Zusammenhang zwischen<br />

x und der Log-Hazardrate nicht mehr linear ist: Der Parameter β, der<br />

der ”<br />

Geraden“-Steigung entspricht - wird unterschätzt. Anders sieht es beim<br />

zweiten Plot aus: Die gefittete Kurve mit Messfehlern kommt einer Gera-<br />

18


den sehr nahe; die Geradensteigungen unterscheiden sich kaum. β wird also<br />

nahezu unverzerrt geschätzt.<br />

Die Tatsache, dass wir t bei 0.1 festgehalten haben, kann erneut als<br />

Gewährleistung der “Rare-Disease-Assumption“ angesehen werden, die auch<br />

schon im klassischen Messfehlermodell <strong>für</strong> wenig verzerrte Schätzer gesorgt<br />

hat. Dies kann auch theoretisch begründet werden. Der Effekt von fehlerbehafteten<br />

Daten auf die Parameterschätzung ist also auch im Berkson-Modell<br />

bei Vorliegen der ”<br />

Rare-Disease-Assumption“ sehr gering.<br />

5.3 Weitere Ergebnisse<br />

1. Der Effekt eines multiplikativen Berksonfehlers hängt stark von der<br />

Fehlervarianz ab. Für große Fehlervarianzen kann der Bias nicht ignoriert<br />

werden; auch nicht bei Vorliegen der ”<br />

Rare-Disease-Assumption“.<br />

2. Eine fehlerbehaftete Variable kann auch die Parameter weiterer, fehlerfrei<br />

gemessenener Kovariablen unterschätzen.<br />

3. Ein Ignorieren der Messfehlerproblematik führt zu einer inkonsistenten<br />

Schätzung der Baseline-Hazardrate, da die Proportionalität der<br />

Hazards meist verletzt wird. Tests auf Proportionalität der Hazards<br />

können verfälscht sein.<br />

6 Frailty-Modelle<br />

Im medizinischen Anwendungsbereich liegen Daten oft in sog. Clustern vor,<br />

woraus sich gruppenspezifische Effekte ergeben können. Solche Effekte werden<br />

als Zufallseffekte in den Prädiktor miteinbezogen. Clusterspezifische Effekte<br />

können z.B. sein:<br />

1. Klinikeffekte einer Klinik i mit n i Patienten in einer Studie mit m<br />

beteiligten Kliniken<br />

2. Familieneffekte <strong>für</strong> n i Mitglieder der Familie i<br />

3. Räumliche Effekte <strong>für</strong> n i erkrankte Personen aus der Region i, i=1,...,m<br />

in einer epidemiologischen Studie<br />

Der gemeinsame clusterspezifische Effekt führt dazu, dass Inidividuen aus<br />

dem gleichen Cluster positiv korreliert sind. In der linearen Regression, wird<br />

19


ei der Aufnahme von Zufallseffekten in den Prädiktor meist von ”<br />

Gemischten<br />

Modellen“ gesprochen, in der Lebensdaueranalyse spricht man hingegen<br />

von ”<br />

Frailty-Modellen“. Wir betrachten frailties im Cox-Modell.<br />

6.1 Messfehler in frailty-Modellen<br />

Wir nehmen an, dass die Daten in I Clustern vorliegen, wobei X ij der Wert<br />

der Kovariablen X des j-ten Individuums im i-ten Cluster ist. Völlig analog<br />

wie bei den gemischten linearen Modellen, fügen wir im linearen Prädiktor<br />

des Regressionsmodells einen Zufallseffekt b i <strong>für</strong> das i-te Cluster hinzu.<br />

Es ergibt sich <strong>für</strong> das j-te Individuum des i-ten Clusters - bedingt auf das<br />

clusterspezifische frailty - folgende Hazardfunktion:<br />

λ ij (t|X ij , Z ij , b i ) = λ 0 (t) · exp (β ′ xX ij + β ′ zZ ij + b i ), (20)<br />

wobei wiederum X ij mit Messfehlern beobachtet wurde, Z ij ohne Fehler gemessen<br />

wurde und b i der clusterspezifische Zufallseffekt ist, wobei wir annehmen,<br />

dass b i i.i.d. N(0,σb 2 ) verteilt und unabhängig von Zensierung, Messfehler<br />

und Eventzeitpunkt ist. Weiterhin gelte das klassische additive Fehlermodell<br />

mit den entsprechenden Unabhängigkeiten wie in 3.1 spezifiziert.<br />

6.2 Likelihood Inferenz <strong>für</strong> frailty-Modelle mit Messfehlern<br />

Li und Lin (2000) [6] schlagen einen vollen Likeliood-Ansatz vor, um das<br />

Modell (Formel oben) zu fitten, wobei sie zu Grunde legen, dass [X|X ∗ ,Z]<br />

normalverteilt ist.<br />

Um die Likelihood zu maximieren, verwenden sie den EM-Algorithmus,<br />

die am häufigsten verwendete Methode beim Vorliegen von fehlenden Daten.<br />

Tatsächlich werden die (unbekannten) frailties sowie die wahren aber unbekannten<br />

Werte der Variablen X als ”<br />

fehlende Daten“ aufgefasst. Die ”<br />

komplette“<br />

Likelihood <strong>für</strong> das i-te Cluster beinhaltet die beobachteten Werte<br />

(Z ij , X ∗ ij) und unbeobachteten Werte (X ij , b i ) und lautet:<br />

{<br />

· exp −<br />

∫ Yi<br />

0<br />

L i (Θ;X ij , b i , Z ij , Xij) ∗ = {λ ij (t|X ij , Z ij , b i )} δ ij<br />

}<br />

λ(u|X ij , Z ij , b i )du φ(b i , σb)φ(X 2 ij |Xij, ∗ Z ij , θ) (21)<br />

hierbei ist φ(b i , σ 2 b ) die normalverteilte Dichte von b i und φ(X ij |X ∗ ij, Z ij , θ)<br />

die bedingte normalverteilte Dichte von X ij gegeben (X ∗ ij, Z ij ). Θ ist der Vektor<br />

aller Parameter und beinhaltet hier die Parameter der proportionalen<br />

20


Hazardfunktion, die Parameter (β x , β z ) den Parameter σb 2 aus dem frailty-<br />

Modell, die Parameter θ der bedingten Verteilung [X|X ∗ ,Z] sowie weitere<br />

Parameter die sich auf die Integration der Baseline Hazardfunktion beziehen.<br />

Diese vollständige“ Likelihood kann nicht direkt <strong>für</strong> die Schätzung der Parameter<br />

verwendet werden, da sie unbeobachtete Daten enthält. Stattdessen<br />

”<br />

wird die marginale Likelihood der beobachteten Daten verwendet, die sich<br />

ergibt , wenn man die unbeobachteten Daten herausintegriert.<br />

Hier kommt der EM-Algorithmus ins Spiel: Beim EM-Algorithmus wird zunächst<br />

ein Startwert θ (0) <strong>für</strong> den unbekannten Parameter festgelegt. Anschließend<br />

besteht jeder Iterationsschritt aus zwei Schritten, dem E-Schritt und dem<br />

M-Schritt.<br />

1. E-Schritt: Berechne den bedingten Erwartungswert der Log-Likelihood<br />

l(θ, x) im vollständigen Datensatz, gegeben den derzeitigen Schätzwert<br />

θ (n)<br />

2. M-Schritt: Maximiere diesen bedingten Erwartungswert und erhalte<br />

eine neue Schätzung θ (n+1)<br />

Der von Li und Lin vorgeschlagene EM-Algorithmus verwendet Monte-Carlo-<br />

Simulationen im E-Schritt. Gleichzeitig wird dort die Baseline-Hazardrate<br />

nonparametrisch geschätzt. Weitere Details siehe dort.<br />

7 Fazit<br />

Gerade in der Biostatistik mit der Lebensdaueranalyse als eines ihrer wichtigsten<br />

Anwendungsgebiete, tritt häufig das Problem fehlerbehafteter Daten<br />

auf. Es ist daher notwendig, Methoden zu finden, mit denen Messfehler in<br />

der Lebensdaueranalyse adäquat behandelt werden können.<br />

Diese Arbeit hat in einem einführenden Teil die grundlegenden Notationen<br />

und Modelle der Lebensdaueranalyse vorgestellt, um dann anschließend mehrere<br />

Verfahren vorzustellen, wie Schätzungen beim Vorliegen von Messfehlern<br />

korrigiert werden können. Die vorgestellten Methoden beziehen sich ausnahmslos<br />

auf das Proportional-Hazards-Modell von Cox.<br />

Es wurde festgehalten, dass beim Vorliegen von Messfehlern die auf den beobachteten<br />

Daten basierende sog. Induzierte Hazardfunktion nicht mehr als<br />

ein Produkt aus beliebiger Baseline-Hazardrate und einem Term, der nur<br />

21


von den Parametern abhängt, geschrieben werden kann. Dies gilt als Hauptgrund,<br />

warum die Methodik der Cox-Regression nicht mehr ohne Modifikationen<br />

verwendet werden kann. Mit der sog. ”<br />

Rare-Disease-Assumption“ -<br />

der Annahme seltener Ereignisse - wurde eine wichtige Vereinfachung kennengelernt,<br />

um diesen Effekt abzuschwächen.<br />

Es wurde ein Verfahren vorgestellt, wie der Einfluss des Messfehlers aus der<br />

Hazardfunktion herausintegriert werden kann, das, unter Annahme der Normalverteilung<br />

<strong>für</strong> die unbeobachtete Variable X, zur bekannten Abschwächung<br />

des Parameterschätzers aus der linearen Regression führt.<br />

Das Konzept der Regressionskalibrierung wurde sowohl als funktionaler als<br />

auch als struktureller Ansatz eingeführt, wobei letzterer in einem speziellen<br />

Fall mit dem obigen Verfahren übereinstimmt.<br />

Nakamuras Verfahren der korrigierten Scorefunktionen wurde auf das Cox-<br />

Modell übertragen. Dabei wurde aufgezeigt, dass dieses Konzept nicht auf<br />

die Partial-Likelihood des Cox-Modells angewendet werden kann, wohl aber<br />

auf die Breslow-Likelihood. Dann ist das Vorgehen nahezu identisch wie bei<br />

allen anderen nicht-linearen Regressionen.<br />

In einem weiteren Abschnitt wurde der Einfluss eines Berkson-Fehlers auf die<br />

Parameterschätzer im Cox-Modell untersucht und mit Hilfe der Ergebnisse<br />

von externen Simulationen und darauf beruhenden Graphiken ein Eindruck<br />

über das Ausmaß möglicher Verzerrungen gegeben.<br />

Ein letzter Abschnitt stellt theoretisch eine Vorgehensweise dar, wie Messfehlern<br />

in der Lebensdaueranalyse begegnet wird, wenn die beobachteten Daten<br />

in Clustern vorliegen.<br />

22


Literatur<br />

[1] Carroll, R.J., Ruppert, D., Stefanski L.A. and Crainiceanu,<br />

C.M., (2006) Measurement Error in Nonlinear Models: A Modern<br />

Perspective, Chapman and Hall, London.<br />

[2] Augustin T. & Schwarz R. Cox’s proportional hazards model<br />

under covariate measurement error - A review and comparison<br />

of methods. In Total least squares and errors-in-variables modeling:<br />

analysis, algorithms and applications (eds S. Van Huffel<br />

& P. Lemmerling). Kluwer, Dordrecht, S. 175-184., 2002<br />

[3] Augustin T. An exact corrected log-likelihood function for<br />

Cox’s proportional hazards model under measurement error<br />

and some extensions. In Scandinavian Jorunal of Statistics,<br />

31:43-50, 2004<br />

[4] Hughes M.D. Regression dilution in the proportional hazards<br />

model. In Biometrics, 49:1056-1066, 1993<br />

[5] Kuechenhoff T., Bender R., Langner I. Effect of Berkson measurement<br />

error on parameter estimates in Cox regression models.<br />

In Lifetime Data Analysis, 13:261-272, 2007<br />

[6] Li Y. & Lin X. Covariate measurement errors in frailty models<br />

for clustered survival data. In Biometrika, 87(4):849-866, 2000<br />

[7] Nakamura T. Corrected score function of errors-in-variables<br />

models: Methodology and application to generalized linear<br />

models. In Biometrika, 77:127-137, 1990<br />

[8] Nakamura T. Proportional hazards model with covariates<br />

subject to measurement error. In Biometrics, 48:829-838, 1992<br />

[9] Stefanski L. A. Unbiased estimation of a nonlinear function of<br />

a normal mean with application to measurement error models.<br />

In Commun. Statist. Theory Methods, 18:4335-4358, 1989<br />

23

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!