13.07.2015 Views

Slides

Slides

Slides

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Estimation de la densité conditionnelledans un modèle à direction révélatriceunique avec données censuréesOlivier Bouaziz 1 et Olivier Lopez 21Laboratoire de Statistique Théorique et Appliquée2Crest-Ensai, Irmar, and Weierstrass Institute (Berlin)40 ème journées de Statistique de la SFDS36 ème journées de Statistique de la SSCOttawa, 28-05-08O. Bouaziz et O. Lopez Estimation dans un SIM avec données censurées SFDS 28-05-08 1 / 24


Méthode d'estimation Propriétés asymptotiques de ˆθ Ingrédients principaux de preuve Simulations et données réellesIntroductionGrees de coeur (Standford) :Y i variable réponse : durée de vie du patient i.vecteur de variables explicatives (âge et carré de l'âge)X iObservations censurées : pour certains patients Y i n'est pasobservée.Causes possibles :Censure administrativeMort du patient d'une cause diérente de celle étudiée...Modèle de régression sur ces données : Miller et Halpern(1982), Wei et al. (1990), Stute et al (2000)...O. Bouaziz et O. Lopez Estimation dans un SIM avec données censurées SFDS 28-05-08 2 / 24


Méthode d'estimation Propriétés asymptotiques de ˆθ Ingrédients principaux de preuve Simulations et données réellesModèle semiparamétriqueEstimation de la densité conditionnelle de Y sachant X = x :f (Y |x).Problème du éau de la dimension .Approche semi-paramétrique de réduction de la dimension.Hypothèse S.I.M.∃ θ 0 ∈ Θ ⊂ R d t.q. f (y|x) = f θ0(y,x ′ θ 0 )où f θ (y,u) représente la densité de Y conditionnellement àX ′ θ = u évaluée en Y = y.O. Bouaziz et O. Lopez Estimation dans un SIM avec données censurées SFDS 28-05-08 3 / 24


Méthode d'estimation Propriétés asymptotiques de ˆθ Ingrédients principaux de preuve Simulations et données réellesObservations censuréesOn s'intéresse à Y 1 ,...,Y n (non observées).C 1 ,...,C n v.a. de censure.Observations⎧⎨⎩Z i = Y i ∧ C i 1 ≤ i ≤ nδ i = 1 Yi ≤C i1 ≤ i ≤ nX i ∈ χ ⊂ R d 1 ≤ i ≤ n.Hypothèses de Koul et al.(1981), Stute (1996), Stute (1999),Stute et al.(2000), Sellero et al.(2005)... Pour i = 1...n,P(Y i = C i ) = 0Y i ⊥⊥ C iP(Y i ≤ C i |X i ,Y i ) = P(Y i ≤ C i |Y i ).O. Bouaziz et O. Lopez Estimation dans un SIM avec données censurées SFDS 28-05-08 4 / 24


Méthode d'estimation Propriétés asymptotiques de ˆθ Ingrédients principaux de preuve Simulations et données réellesPlan1 Méthode d'estimation2 Propriétés asymptotiques de ˆθ3 Ingrédients principaux de preuve4 Simulations et données réellesO. Bouaziz et O. Lopez Estimation dans un SIM avec données censurées SFDS 28-05-08 5 / 24


Méthode d'estimation Propriétés asymptotiques de ˆθ Ingrédients principaux de preuve Simulations et données réellesMéthode d'estimationSi on suppose f θ connue, on peut dénir pour toute fonction J ≥ 0,L(θ,J) = E [ log f θ (Y ,θ ′ X )J(X ) ]∫= log f θ (y,θ ′ x)J(x)dF X ,Y (x,y)où F X ,Y (x,y) = P(X ≤ x,Y ≤ y). Alorsθ 0 = arg maxL(θ,J).θ∈ΘProblèmesEstimation de F X ,Y (x,y)Estimation de f θO. Bouaziz et O. Lopez Estimation dans un SIM avec données censurées SFDS 28-05-08 6 / 24


Méthode d'estimation Propriétés asymptotiques de ˆθ Ingrédients principaux de preuve Simulations et données réellesMéthode d'estimationSi on suppose f θ connue, on peut dénir pour toute fonction J ≥ 0,L(θ,J) = E [ log f θ (Y ,θ ′ X )J(X ) ]∫= log f θ (y,θ ′ x)J(x)dF X ,Y (x,y)où F X ,Y (x,y) = P(X ≤ x,Y ≤ y). Alorsθ 0 = arg maxL(θ,J).θ∈ΘProblèmesEstimation de F X ,Y (x,y)Estimation de f θO. Bouaziz et O. Lopez Estimation dans un SIM avec données censurées SFDS 28-05-08 6 / 24


Méthode d'estimation Propriétés asymptotiques de ˆθ Ingrédients principaux de preuve Simulations et données réellesEstimation de F X ,YEstimateur de F X ,YStute (1993) propose comme estimateur de F X ,Y :ˆF (x,y) =n∑i=1δ i W in 1 Zi ≤y,X i ≤x1où W in = et Ĝ représente l'estimateur de Kaplan Meiern(1−Ĝ(Z i −))(K-M) de G(·) = P(C ≤ ·).O. Bouaziz et O. Lopez Estimation dans un SIM avec données censurées SFDS 28-05-08 7 / 24


Méthode d'estimation Propriétés asymptotiques de ˆθ Ingrédients principaux de preuve Simulations et données réellesEstimation de fθOn utilise un estimateur à noyau non paramétrique pourl'estimer. Soient K un noyau et h une fenêtre vériant deshypothèses classiques.Estimateur de f θˆf hθ (z,θ ′ x) =∫Kh (θ ′ x − θ ′ u)K h (z − y)d ˆF (u,y)∫ ,Kh (θ ′ x − θ ′ u)d ˆFX (u)où K h (·) = h −1 K(·/h) et ˆFX est l'estimateur empirique de F X .O. Bouaziz et O. Lopez Estimation dans un SIM avec données censurées SFDS 28-05-08 8 / 24


Méthode d'estimation Propriétés asymptotiques de ˆθ Ingrédients principaux de preuve Simulations et données réellesPremier estimateur de θOn utilise la pseudo-vraisemblance suivante :Pseudo vraisemblance∫L n (θ,ˆf θ h ,J) ==n∑i=1Et notre estimateur est le suivant :log ˆf hθ (y,θ ′ x)J(x)d ˆFX ,Y (x,y)δ i W in log ˆf hθ (Z i ,θ ′ X i )J(X i )O. Bouaziz et O. Lopez Estimation dans un SIM avec données censurées SFDS 28-05-08 9 / 24


Méthode d'estimation Propriétés asymptotiques de ˆθ Ingrédients principaux de preuve Simulations et données réellesPremier estimateur de θOn utilise la pseudo-vraisemblance suivante :Pseudo vraisemblance∫L n (θ,ˆf θ h ,J) ==n∑i=1Et notre estimateur est le suivant :Estimateur de θlog ˆf hθ (y,θ ′ x)J(x)d ˆFX ,Y (x,y)δ i W in log ˆf hθ (Z i ,θ ′ X i )J(X i )ˆθ(h) = arg maxL n (θ,ˆf θ h ,J).θ∈ΘO. Bouaziz et O. Lopez Estimation dans un SIM avec données censurées SFDS 28-05-08 9 / 24


Méthode d'estimation Propriétés asymptotiques de ˆθ Ingrédients principaux de preuve Simulations et données réellesPremier estimateur de θOn utilise la pseudo-vraisemblance suivante :Pseudo vraisemblance∫L n (θ,ˆf θ h ,J) ==n∑i=1Et notre estimateur est le suivant :Estimateur de θlog ˆf hθ (y,θ ′ x)J(x)d ˆFX ,Y (x,y)δ i W in log ˆf hθ (Z i ,θ ′ X i )J(X i )ˆθ(ĥ) = arg maxθ∈ΘL n (θ,ˆf ĥθ ,J).O. Bouaziz et O. Lopez Estimation dans un SIM avec données censurées SFDS 28-05-08 9 / 24


Méthode d'estimation Propriétés asymptotiques de ˆθ Ingrédients principaux de preuve Simulations et données réellesChoix adaptatif de τL'estimateur de Kaplan-Meier n'estime pas bien dans lesqueues de distributions.Troncation : on ne garde que les observations plus petites quela borne τ.Hypothèse SIMPour tout τ, L (Y |X ,Y ≤ τ) = L (Y |X ′ θ 0 ,Y ≤ τ)Comment choisir τ à partir des données ?Critère asymptotique :O. Bouaziz et O. Lopez Estimation dans un SIM avec données censurées SFDS 28-05-08 10 / 24


Méthode d'estimation Propriétés asymptotiques de ˆθ Ingrédients principaux de preuve Simulations et données réellesChoix adaptatif de τL'estimateur de Kaplan-Meier n'estime pas bien dans lesqueues de distributions.Troncation : on ne garde que les observations plus petites quela borne τ.Hypothèse SIMPour tout τ, L (Y |X ,Y ≤ τ) = L (Y |X ′ θ 0 ,Y ≤ τ)Comment choisir τ à partir des données ?Critère asymptotique :O. Bouaziz et O. Lopez Estimation dans un SIM avec données censurées SFDS 28-05-08 10 / 24


Méthode d'estimation Propriétés asymptotiques de ˆθ Ingrédients principaux de preuve Simulations et données réellesChoix adaptatif de τL'estimateur de Kaplan-Meier n'estime pas bien dans lesqueues de distributions.Troncation : on ne garde que les observations plus petites quela borne τ.Hypothèse SIMPour tout τ, L (Y |X ,Y ≤ τ) = L (Y |X ′ θ 0 ,Y ≤ τ)Comment choisir τ à partir des données ?Critère asymptotique :O. Bouaziz et O. Lopez Estimation dans un SIM avec données censurées SFDS 28-05-08 10 / 24


Méthode d'estimation Propriétés asymptotiques de ˆθ Ingrédients principaux de preuve Simulations et données réellesChoix adaptatif de τL'estimateur de Kaplan-Meier n'estime pas bien dans lesqueues de distributions.Troncation : on ne garde que les observations plus petites quela borne τ.Hypothèse SIMPour tout τ, L (Y |X ,Y ≤ τ) = L (Y |X ′ θ 0 ,Y ≤ τ)Comment choisir τ à partir des données ?Critère asymptotique :O. Bouaziz et O. Lopez Estimation dans un SIM avec données censurées SFDS 28-05-08 10 / 24


Méthode d'estimation Propriétés asymptotiques de ˆθ Ingrédients principaux de preuve Simulations et données réellesChoix adaptatif de τL'estimateur de Kaplan-Meier n'estime pas bien dans lesqueues de distributions.Troncation : on ne garde que les observations plus petites quela borne τ.Hypothèse SIMPour tout τ, L (Y |X ,Y ≤ τ) = L (Y |X ′ θ 0 ,Y ≤ τ)Comment choisir τ à partir des données ?Critère asymptotique :E 2 (τ) := limnE(‖ˆθ τ (ĥτ ) − θ 0 ‖ 2)O. Bouaziz et O. Lopez Estimation dans un SIM avec données censurées SFDS 28-05-08 10 / 24


Méthode d'estimation Propriétés asymptotiques de ˆθ Ingrédients principaux de preuve Simulations et données réellesChoix adaptatif de τL'estimateur de Kaplan-Meier n'estime pas bien dans lesqueues de distributions.Troncation : on ne garde que les observations plus petites quela borne τ.Hypothèse SIMPour tout τ, L (Y |X ,Y ≤ τ) = L (Y |X ′ θ 0 ,Y ≤ τ)Comment choisir τ à partir des données ?Critère asymptotique :Ê 2 (τ) := limnÊ(‖ˆθ τ (ĥτ ) − θ 0 ‖ 2)O. Bouaziz et O. Lopez Estimation dans un SIM avec données censurées SFDS 28-05-08 10 / 24


Méthode d'estimation Propriétés asymptotiques de ˆθ Ingrédients principaux de preuve Simulations et données réellesEstimateur nalNotre estimateur nal est donc obtenu après estimation de h et τ :ĥ adaptatifˆτ adaptatifEstimateur nalˆθˆτ(ĥ) = arg maxθ∈Θ= arg maxθ∈ΘLˆτ n(θ,ˆf ĥ,ˆτθ,J)n∑i=1ĥ,ˆτδ i 1 Zi ≤ˆτW in log ˆfθ(Z i ,θ ′ X i )J(X i ).ˆτ ˆθ := ˆθ (ĥ)O. Bouaziz et O. Lopez Estimation dans un SIM avec données censurées SFDS 28-05-08 11 / 24


Méthode d'estimation Propriétés asymptotiques de ˆθ Ingrédients principaux de preuve Simulations et données réellesPlan1 Méthode d'estimation2 Propriétés asymptotiques de ˆθ3 Ingrédients principaux de preuve4 Simulations et données réellesO. Bouaziz et O. Lopez Estimation dans un SIM avec données censurées SFDS 28-05-08 12 / 24


Méthode d'estimation Propriétés asymptotiques de ˆθ Ingrédients principaux de preuve Simulations et données réellesConsistence et normalité asymptotiqueConsistencesup |L τ n(θ,ˆf h,τθ,J) − L(θ,J)| = o P (1)θ,h,τet doncˆθ → P θ 0 .ThéorèmeSous certaines conditions,En conséquence,L τ n(θ,ˆf h,τθ,J) = L τ n(θ,f θ ,J) + termes négligeables.√ n (ˆθ − θ 0 ) =⇒ N (0,Σ τopt).O. Bouaziz et O. Lopez Estimation dans un SIM avec données censurées SFDS 28-05-08 13 / 24


Méthode d'estimation Propriétés asymptotiques de ˆθ Ingrédients principaux de preuve Simulations et données réellesPlan1 Méthode d'estimation2 Propriétés asymptotiques de ˆθ3 Ingrédients principaux de preuve4 Simulations et données réellesO. Bouaziz et O. Lopez Estimation dans un SIM avec données censurées SFDS 28-05-08 14 / 24


Méthode d'estimation Propriétés asymptotiques de ˆθ Ingrédients principaux de preuve Simulations et données réellesConvergence de ˆfet de ses dérivées partiellesA l'aide des résultats de Einhmal et Mason (2005), on obtient lesrésultats suivants de convergence uniforme en h et en τ :Vitesses de convergence∣sup ∣ˆf θ h0(y,θ ′ x) − f θ0(y,θ ′ ∣x) ∣1 y≤τ J n (x) = O P (n −1/2 h −1 [log n] 1/2 ),x,y,h,τ∣ h∣sup ∣∇ θ ˆf θ0(y,x) − ∇ θ f θ0(y,x) ∣1 y≤τ J n (x) = O P (n −1/2 h −2 [log n] 1/2 ),∣sup ∣∇ 2 ˆf θ θ h (y,x) − ∇ 2 θ f ∣θ (y,x) ∣1 y≤τ J n (x) = o P (1).x,y,h,τx,y,h,τ,θO. Bouaziz et O. Lopez Estimation dans un SIM avec données censurées SFDS 28-05-08 15 / 24


Méthode d'estimation Propriétés asymptotiques de ˆθ Ingrédients principaux de preuve Simulations et données réellesHypothèse de régularité du modèleSoient Y le support de la loi de Y , M > 0. On dénitH 1 = C 1+δ (θ ′ 0X × Y ,M),H 2 = xC 1+δ (θ ′ 0X × Y ,M) + C 1+δ (θ ′ 0X × Y ,M)où C 1+δ (θ 0 ′ X × Y ,M) représente la classe des fonctionsbornées dont les dérivées partielles sont δ-Hölderienne surθ 0 ′ X × Y par M.On a (résultat de van der Vaart et Wellner) :log N ( ε,C 1+δ (θ 0X ′ × Y ,M) ) ( ) 1 2/(1+δ)≤ K.εO. Bouaziz et O. Lopez Estimation dans un SIM avec données censurées SFDS 28-05-08 16 / 24


Méthode d'estimation Propriétés asymptotiques de ˆθ Ingrédients principaux de preuve Simulations et données réellesHypothèse de régularité du modèleH 1 et H 2 sont des classes de Donsker.Classes de DonskerHypothèse : on suppose f θ0∈ H 1 et ∇ θ f θ0∈ H 2 .Proposition : alors ˆf θ hh0∈ H 1 et ∇ θ ˆfθ0∈ H 2{ˆfθ h0∈ H 1h∇ θ ˆfθ0∈ H 2avec probabilité tendant vers 1.Résultats sur les processus empiriques pour prouver notrethéorème.O. Bouaziz et O. Lopez Estimation dans un SIM avec données censurées SFDS 28-05-08 17 / 24


Méthode d'estimation Propriétés asymptotiques de ˆθ Ingrédients principaux de preuve Simulations et données réellesPlan1 Méthode d'estimation2 Propriétés asymptotiques de ˆθ3 Ingrédients principaux de preuve4 Simulations et données réellesO. Bouaziz et O. Lopez Estimation dans un SIM avec données censurées SFDS 28-05-08 18 / 24


Méthode d'estimation Propriétés asymptotiques de ˆθ Ingrédients principaux de preuve Simulations et données réellesModèle de simulationModèle de régressionY i = θ ′ 0 X i + ε i ,i = 1,...,nY i ∈ Ri = 1,...,nC i ∼ Exp(λ), λ = 0.3,1θ 0 = (1,0.5,1.4,0.2) ′i = 1,...,nX i ∈ R 4X ij ∼ 0.2N (0,1) + 0.8N (0.25,2) i = 1,...,n j = 1,...,4ε i ∼ N (0,|θ ′ 0 X i|)i = 1,...,nˆθ ADE : estimateur de Lu et Burke (2005).O. Bouaziz et O. Lopez Estimation dans un SIM avec données censurées SFDS 28-05-08 19 / 24


Méthode d'estimation Propriétés asymptotiques de ˆθ Ingrédients principaux de preuve Simulations et données réellesSimulationsˆθ ADEˆθ ∞ˆθ τ⎛⎝⎛⎝⎛⎝Biais Variance MSE⎞ ⎛⎞−0.1120.14 0.005 −0.022−0.551 ⎠ ⎝ 0.005 0.075 0.016 ⎠ 0.6714181−0.155−0.022 0.016 0.1160.0570.2150.0480.070.2210.028⎞⎠⎞⎠⎛0.033 0.012 0.001⎝ 0.012 0.073 −0.004 ⎠ 0.18412270.001 −0.004 0.027⎛⎞0.034 0.002 0.002⎝ 0.002 0.074 0 ⎠ 0.18259800.002 0 0.02⎞100 simulations d'échantillons de taille n = 10025% de censureˆτ : en moyenne on garde les 90 plus petites observationsO. Bouaziz et O. Lopez Estimation dans un SIM avec données censurées SFDS 28-05-08 20 / 24


Méthode d'estimation Propriétés asymptotiques de ˆθ Ingrédients principaux de preuve Simulations et données réellesSimulationsˆθ ADEˆθ ∞ˆθ τ⎛⎝⎛⎝⎛⎝Biais Variance MSE⎞ ⎛⎞−0.3340.159 0.009 −0.014−0.743 ⎠ ⎝ 0.009 0.268 0.048 ⎠ 1.280163−0.158−0.014 0.048 0.1650.1270.2960.0960.0740.1760.061⎞⎠⎞⎠⎛⎝⎛⎝0.11 −0.034 −0.01−0.034 0.101 0.021−0.01 0.021 0.0590.064 −0.005 −0.004−0.005 0.051 0.014−0.004 0.014 0.069⎞⎠ 0.3829797⎞⎠ 0.2239023100 simulations d'échantillons de taille n = 10040% de censureˆτ : en moyenne on garde les 87 plus petites observationsO. Bouaziz et O. Lopez Estimation dans un SIM avec données censurées SFDS 28-05-08 21 / 24


Méthode d'estimation Propriétés asymptotiques de ˆθ Ingrédients principaux de preuve Simulations et données réellesDonnées réellesEstimateurs de θ 0,2 /θ 0,1Miller et Halpern -0.01588785Wei et al. 63.75Stute et al. -0.01367034ˆθ ∞ -0.07351351ˆθ τ -0.0421508n = 15755 observations ont été censuréesˆτ : on a gardé les 90 plus petites observationsMerci de votre attention !O. Bouaziz et O. Lopez Estimation dans un SIM avec données censurées SFDS 28-05-08 22 / 24


Méthode d'estimation Propriétés asymptotiques de ˆθ Ingrédients principaux de preuve Simulations et données réellesDonnées réellesEstimateurs de θ 0,2 /θ 0,1Miller et Halpern -0.01588785Wei et al. 63.75Stute et al. -0.01367034ˆθ ∞ -0.07351351ˆθ τ -0.0421508n = 15755 observations ont été censuréesˆτ : on a gardé les 90 plus petites observationsMerci de votre attention !O. Bouaziz et O. Lopez Estimation dans un SIM avec données censurées SFDS 28-05-08 22 / 24


Méthode d'estimation Propriétés asymptotiques de ˆθ Ingrédients principaux de preuve Simulations et données réellesBibliographieM. Delecroix, W. Härdle et M. Hristache. Ecient estimationin conditional single-index regression. J. Multivariate Anal.,86(2) : 213-226, 2003.X. Lu et M. D. Burke. Censored multiple regression by themethod of average derivatives. J. Multivariate Anal., 95(1) :182-205, 2005.R. Miller et J. Halpern. Regression with censored data.Biometrika, 69(3) : 521-531, 1982.C. Sánchez Sellero, W. González Manteiga et I. Van Keilegom.Uniform representation of product-limit integrals withapplications. Scand. J. Statist., 32(4) : 563-581, 2005.O. Bouaziz et O. Lopez Estimation dans un SIM avec données censurées SFDS 28-05-08 23 / 24


Méthode d'estimation Propriétés asymptotiques de ˆθ Ingrédients principaux de preuve Simulations et données réellesBibliographieW. Stute. Distributional convergence under random censorshipwhen covariables are present. Scand. J. Statist., 23(4) :461-471, 1996.W. Stute. Nonlinear censored regression. Statist. Sinica, 9(4) :1089-1102, 1999.W. Stute, W. González Manteiga et C. Sánchez Sellero.Nonparametric model checks in censored regression. Comm.Statist. Theory Methods, 29(7) : 1611-1629, 2000.L. J. Wei, Z. Ying et D. Y. Lin. Linear regression analysis ofcensored survival data based on rank tests. Biometrika, 77(4) :845-851, 1990.O. Bouaziz et O. Lopez Estimation dans un SIM avec données censurées SFDS 28-05-08 24 / 24

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!