10.07.2015 Views

Télécharger le texte intégral

Télécharger le texte intégral

Télécharger le texte intégral

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Université Victor Sega<strong>le</strong>n - Bordeaux 2Année 2000 Thèse n ◦ 719THÈSEpour <strong>le</strong>DOCTORAT DE L’UNIVERSITÉ DE BORDEAUX 2Mention : Sciences Biologiques et Médica<strong>le</strong>sOption :Épidémiologie et Intervention en Santé Publiqueprésentée et soutenue publiquement <strong>le</strong>31 Mars 2000parMel<strong>le</strong> Virginie RONDEAUANALYSE PAR VRAISEMBLANCE PENALISEEDE DONNEES DE SURVIE GROUPEES :APPLICATION A LA RELATION ENTREALUMINIUM ET DEMENCE.Membres du JuryMonsieur <strong>le</strong> Professeur R. SALAMON PrésidentMonsieur <strong>le</strong> Docteur D. HEMON RapporteurMonsieur <strong>le</strong> Docteur JH. PETERSEN RapporteurMadame <strong>le</strong> Professeur C. HUBER ExaminateurMonsieur <strong>le</strong> Professeur JF. DARTIGUES ExaminateurMonsieur <strong>le</strong> Docteur D. COMMENGES Directeur de thèse


A mes parentsA ma famil<strong>le</strong>A mes amis


A Monsieur <strong>le</strong> Professeur Roger Salamon :Je vous remercie d’avoir accepté de présider ce jury. J’ai eu la chance d’être accueilliedans votre laboratoire et ceci a été pour moi l’occasion d’un grand enrichissement. Pourvotre soutien à ma carrière et la confiance que vous m’accordez, soyez-en ici remercié ettrouvez ici <strong>le</strong> témoignage de ma plus profonde gratitude.A Monsieur <strong>le</strong> Docteur Denis Hémon :Vous me faites un grand honneur en acceptant de consacrer votre temps précieux pourjuger cette thèse. J’ai été très touché par l’intérêt que vous avez porté à ce travail. Le fruitde vos ref<strong>le</strong>xions et votre rigueur scientifique ont contribué à compléter ce document demanière pertinente. Veuil<strong>le</strong>z recevoir mes plus vifs remerciements et l’expression de masincère considération.A Monsieur <strong>le</strong> Docteur Jørgen Holm Petersen :You honore me to judge this work. I have much admiration for the quality of yourwork. I am very grateful for your presence among my judges.A Monsieur <strong>le</strong> Professeur Jean François Dartigues :J’ai eu la chance d’être éga<strong>le</strong>ment accueillie au sein de votre équipe. Votre enthousiasme,votre optimisme, vos conseils précieux en épidémiologie et la confiance que vousm’avez accordée m’ont permis de mener à bien ce travail. Je tiens à vous communiquertoute mon admiration et mes remerciements.A Madame <strong>le</strong> Professeur Catherine Huber :Je suis très sensib<strong>le</strong> à l’honneur que vous me faites en acceptant de juger cette thèseet je vous en remercie très vivement.


A Monsieur <strong>le</strong> Docteur Daniel Commenges :Je vous remercie de m’avoir confié ce(s) sujet(s) de recherche. Votre disponibilité et<strong>le</strong>s remarques constructives que vous avez su me prodiguer m’ont permis de mener à bience travail et d’améliorer mes connaissances. Trouvez ici <strong>le</strong> témoignage de ma profondereconnaissance pour la confiance que vous m’avez accordée dans la conduite de ces diverstravaux.


Mes remerciements <strong>le</strong>s plus cha<strong>le</strong>ureux vont aussi à :Hélène, Luc et Pierre pour <strong>le</strong>ur re<strong>le</strong>cture attentive et constructive. Un grand mercipour tout <strong>le</strong> temps que vous m’avez consacré et pour tous vos conseils précieux.l’équipe Paquid pour <strong>le</strong>ur sympathie, <strong>le</strong>ur gaieté et <strong>le</strong>ur grand soutien et plus particulièrementAnnick, Catherine, Christophe, Marie-Hélène, Muriel et <strong>le</strong>s psychologues.tous <strong>le</strong>s membres de l’Unité INSERM 330, pour <strong>le</strong>ur sympathie et <strong>le</strong>ur aide, notammentAlioum, Alphonse, Franck, Marie-Noël<strong>le</strong>, Marthe-Aline, Réza, Sébastien, Valérie.Aline, Bene, Cathy, Caro, Chocho, Denis, Flo, JC, Laurent, Nadia, Nath, Olivier, Sophiemes amis, mes confidents, ceux qui me font rire et qui ont su me soutenir dans tous<strong>le</strong>s moments. Cette thèse est enfin l’occasion de vous exprimer mon profond attachement.maman, papa, Bibiche, Katia, Rejane, Olivier, Philippe, Hugo, Toinou, et toute mafamil<strong>le</strong> qui ont contribué à <strong>le</strong>ur manière à la réalisation de ce travail ...Mes remercients vont éga<strong>le</strong>ment à la Fondation pour la Recherche Médica<strong>le</strong> qui m’aaidée financièrement pour terminer cette thèse.


Tab<strong>le</strong> des matières1 Introduction 21.1 Problématique épidémiologique . . . . . . . . . . . . . . . . . . . . . . . . 21.2 Différentes situations de données hétérogènes . . . . . . . . . . . . . . . . . 41.3 Schémas de données corrélées . . . . . . . . . . . . . . . . . . . . . . . . . 51.3.1 Données groupées . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.3.2 Données répétées . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.3.3 Données récurrentes . . . . . . . . . . . . . . . . . . . . . . . . . . 61.3.4 Différents événements . . . . . . . . . . . . . . . . . . . . . . . . . . 71.4 Objectifs et plan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 Modè<strong>le</strong>s de survie pour données hétérogènes 92.1 Définitions et notations en analyse de survie . . . . . . . . . . . . . . . . . 92.1.1 Différence entre données censurées et tronquées . . . . . . . . . . . 92.1.2 Fonction associée aux distributions de survie . . . . . . . . . . . . . 132.1.3 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.1.4 Modè<strong>le</strong>s de régression . . . . . . . . . . . . . . . . . . . . . . . . . . 172.2 Analyse de données multivariées : approche margina<strong>le</strong> . . . . . . . . . . . . 202.2.1 Le modè<strong>le</strong> . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.2.2 Matrice de variance-covariance corrigée . . . . . . . . . . . . . . . . 212.3 Analyse de données multivariées : modè<strong>le</strong> à fragilité . . . . . . . . . . . . . 232.3.1 Le modè<strong>le</strong> simp<strong>le</strong> à fragilité . . . . . . . . . . . . . . . . . . . . . . 232.3.2 Le modè<strong>le</strong> à fragilité partagée . . . . . . . . . . . . . . . . . . . . . 272.3.3 Modè<strong>le</strong> à fragilité corrélée . . . . . . . . . . . . . . . . . . . . . . . 312.3.4 Estimations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326


3 Approche par vraisemblance pénalisée 413.1 Vraisemblance pénalisée et modè<strong>le</strong> à fragilité . . . . . . . . . . . . . . . . . 413.2 Approximation par splines de la fonction de risque . . . . . . . . . . . . . . 453.3 Estimation du paramètre de lissage . . . . . . . . . . . . . . . . . . . . . . 473.3.1 Validation croisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483.3.2 Méthode à degrés de liberté fixé . . . . . . . . . . . . . . . . . . . . 493.4 Variance des paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503.5 Estimateurs sans biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543.6 Tests statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 553.7 Bandes de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 563.7.1 Approche classique . . . . . . . . . . . . . . . . . . . . . . . . . . . 563.7.2 Approche bayesienne . . . . . . . . . . . . . . . . . . . . . . . . . . 574 Etude par simulations 594.1 Comparaison avec l’algorithme EM . . . . . . . . . . . . . . . . . . . . . . 594.1.1 Schéma d’étude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 594.1.2 Programme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 614.1.3 Résultats des simulations . . . . . . . . . . . . . . . . . . . . . . . . 624.2 Simulations illustratives . . . . . . . . . . . . . . . . . . . . . . . . . . . . 724.2.1 Schéma d’étude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 724.2.2 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 755 Etude de la relation aluminium-démence 805.1 Démence et maladie d’Alzheimer . . . . . . . . . . . . . . . . . . . . . . . 805.2 Hypothèse de la relation aluminium et démence . . . . . . . . . . . . . . . 815.2.1 Mécanisme d’action possib<strong>le</strong> de l’aluminium . . . . . . . . . . . . . 815.2.2 Etudes épidémiologiques . . . . . . . . . . . . . . . . . . . . . . . . 815.2.3 Précédents travaux sur l’étude Paquid - ALMA . . . . . . . . . . . 825.3 Méthodologie de l’étude ALMA . . . . . . . . . . . . . . . . . . . . . . . . 835.4 Analyse des données groupées dans Paquid . . . . . . . . . . . . . . . . . . 855.4.1 Méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 855.4.2 Résultats des analyses . . . . . . . . . . . . . . . . . . . . . . . . . 875.4.3 Estimation des fonctions de risque conditionnel<strong>le</strong>s et margina<strong>le</strong>s . . 905.4.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91


6 Conclusion généra<strong>le</strong> 94Bibliographie 104A Taux d’incidence de la démence par commune dans Paquid 105Index des notations 108


RésuméLes modè<strong>le</strong>s classiquement utilisés en analyse de survie supposent l’indépendance destemps de survie. Cette hypothèse peut être remise en cause lorsque l’on étudie des donnéesgroupées. Les modè<strong>le</strong>s de survie à fragilité partagée permettent de traiter l’hétérogénéitédes temps de survie entre groupes.Nous proposons une nouvel<strong>le</strong> méthode d’estimation par vraisemblance pénalisée dans unmodè<strong>le</strong> stratifié à fragilité gamma partagée dans un cadre de données censurées à droiteet tronquées à gauche. Cette méthode permet d’estimer simultanément une mesure decorrélation intra-groupe et des paramètres de régression et de corriger la variance desparamètres de régression spécifiques aux groupes. Cette méthode permet aussi d’estimernon-paramétriquement la fonction de risque.Les résultats de l’application n’ont pas mis en évidence une hétérogénéité significative destaux d’incidence de la démence entre <strong>le</strong>s 70 zones géographiques de la cohorte Paquid. Deplus, <strong>le</strong>s résultats supportent l’hypothèse d’une association positive entre des concentrationsé<strong>le</strong>vées d’aluminium dans l’eau et un risque accru de démence.Mots clés : Modè<strong>le</strong>s à fragilité, temps de survie corrélés, aluminium, démence.AbstractThe models classically used in survival analysis assume the independence of survivaltimes. This assumption can be cal<strong>le</strong>d into question when grouped data are studied. Theshared frailty models make it possib<strong>le</strong> to treat the heterogeneity of survival times betweengroups.Our contribution is to show how the maximum penalized likelihood estimation can be appliedto estimate non-parametrically the hazard function in a shared gamma frailty modelwith a framework of right censored and <strong>le</strong>ft truncated data. We examine the prob<strong>le</strong>m ofobtaining variance estimators for regression coefficients and frailty parameter.The results of the application did not show a significant heterogeneity of the incidencerates of dementia between the 70 geographical areas of the Paquid cohort. Moreover, theresults support the assumption of a positive association between high aluminium concentrationsin tap water and an increased risk of dementia.Key words : Frailty models, correlated survival times, aluminium, dementia.


Chapitre 1IntroductionL’analyse des données de survie étudie <strong>le</strong> délai jusqu’à l’apparition d’un événementpour un ensemb<strong>le</strong> d’individus. A l’origine, cet événement désignait <strong>le</strong> “décès” mais d’autresévénements peuvent être considérés tels que la survenue d’une maladie en épidémiologie, lasurvenue d’une panne dans <strong>le</strong>s applications industriel<strong>le</strong>s, l’acceptation d’une offre d’emploipour une personne au chômage en économie, ou <strong>le</strong> mariage en démographie. Lesmodè<strong>le</strong>s classiquement utilisés en analyse de survie supposent l’indépendance des tempsde survie (au moins conditionnel<strong>le</strong>ment à un ensemb<strong>le</strong> de variab<strong>le</strong>s explicatives observées).Il est raisonnab<strong>le</strong> de penser que cette hypothèse peut être remise en cause lorsque l’onétudie des groupes de sujets (famil<strong>le</strong>s, hôpitaux, zones géographiques) qui partagent unmême environnement (alimentation, niveau de radon, sty<strong>le</strong> de vie) ou qui ont en commundes facteurs de risque génétiques. La présente recherche en biostatistique a été motivéepar une étude épidémiologique particulière qui présente des données groupées en zonesgéographiques, l’enquête Paquid réalisée dans l’Unité INSERM 330.1.1 Problématique épidémiologiqueLes connaissances sur l’étiologie de la démence ou plus particulièrement de la maladied’Alzheimer sont encore très incomplètes. Dans cette maladie multifactoriel<strong>le</strong>, denombreux facteurs de risque ont été étudiés et certains facteurs de risque génétiques ontété identifiés, mais ils sont loin d’expliquer l’ensemb<strong>le</strong> des cas de démence. L’aluminium,de part sa neurotoxicité, pourrait être un facteur de risque environnemental associé à ladémence. En effet, l’hypothèse d’un rô<strong>le</strong> toxique de l’aluminium dans la démence reposesur plusieurs arguments [83]. Il a été montré en particulier chez <strong>le</strong>s personnes dialysées, que2


l’aluminium de l’eau du dialysat pouvait pénétrer dans <strong>le</strong> cerveau de patients et conduiredans <strong>le</strong>s cas <strong>le</strong>s plus graves à des encéphalopathies [5]. Plusieurs études épidémiologiquesont été éga<strong>le</strong>ment menées sur l’effet de l’aluminium dans la démence mais el<strong>le</strong>s n’ont paspermis de conduire à un consensus [64, 66, 65, 33].Un objectif de la cohorte Paquid est d’étudier <strong>le</strong>s facteurs de risque associés à ladémence, chez 3777 personnes de plus de 65 ans domiciliées dans <strong>le</strong>s départements deDordogne et de Gironde. La cohorte Paquid, réalisée dans 75 sites géographiques, renfermaitune structure d’échantillon unique et très adaptée pour analyser la relation entre ladémence et un facteur environnemental comme l’aluminium de l’eau de boisson. En effet,dans cette cohorte nous disposions d’une grande variabilité géographique de la mesured’exposition environnementa<strong>le</strong>.Nous souhaitions donc réaliser une analyse de survie sur <strong>le</strong>s démences incidentes dans lacohorte Paquid. Cependant une des caractéristiques de l’échantillon de la cohorte Paquidest un regroupement des individus en zones géographiques (ou communes). Ainsi, <strong>le</strong>ssujets d’un même groupe qui peuvent partager la même exposition environnementa<strong>le</strong>,ou une même structure socio-démographique (rural vs urbain) ou des mêmes facteursgénétiques (sur des grandes famil<strong>le</strong>s) risquent d’être plus semblab<strong>le</strong>s que des sujets degroupes différents. Il existait donc une potentiel<strong>le</strong> corrélation ou dépendance des tempsde survie dans chaque groupe de la cohorte, ou une hétérogénéité des temps de survie entregroupes. Le modè<strong>le</strong> de Cox, classiquement utilisé en analyse de survie, fait une hypothèsed’indépendance des temps de survie or cette hypothèse risque de ne plus être valide dans<strong>le</strong> cas des données groupées. L’utilisation sur des données corrélées d’un modè<strong>le</strong> de Coxconçu pour l’analyse de données indépendantes peut biaiser <strong>le</strong>s paramètres de régressionet lorsque la variab<strong>le</strong> explicative est spécifique à chaque groupe, el<strong>le</strong> conduit à une sousestimationde la variance de l’estimateur du paramètre. La structure de l’échantillon dela cohorte Paquid nous a donc amené à considérer des méthodes d’analyses de survieadaptées aux données corrélées. Dans la suite de l’exposé nous par<strong>le</strong>rons de temps desurvie pour désigner des temps de survenue d’une maladie ou des temps de décès.


1.2 Différentes situations de données hétérogènesLe risque de développer une maladie ou de décéder diffère pour différents individusd’une population. Cette hétérogénéité entre individus peut refléter des différences biologiquesprésentes dès la naissance (tel<strong>le</strong> qu’une prédisposition génétique), mais el<strong>le</strong> peutaussi provenir d’une fragilité acquise au cours du temps (tel<strong>le</strong> que <strong>le</strong> tabagisme, <strong>le</strong> stress,<strong>le</strong>s habitudes de vie, une exposition environnementa<strong>le</strong>).Les études épidémiologiques, par des modè<strong>le</strong>s de régression, cherchent à mesurerdifférents facteurs de risque pour étudier <strong>le</strong>ur influence sur la survenue de maladies. Lesvariab<strong>le</strong>s qui sont observées ne représentent souvent qu’une partie des facteurs de risquepertinents. De plus, il est possib<strong>le</strong> que certains facteurs ne soient pas inclus dans <strong>le</strong>sanalyses, puisqu’ils ne sont pas suspectés d’avoir une influence. Cela peut être <strong>le</strong> cas defacteurs génétiques, <strong>le</strong>s différents gènes qui ont une influence n’étant pas tous connus.Ainsi, certains individus en raison de l’exposition à des facteurs non observés, seront plusfragi<strong>le</strong>s que d’autres. Deux sources de variations peuvent expliquer l’hétérogénéité de lapopulation : des variab<strong>le</strong>s individuel<strong>le</strong>s négligées ou des variab<strong>le</strong>s négligées, communes àun groupe de sujets.Lorsque l’hétérogénéité provient d’un ensemb<strong>le</strong> de facteurs individuels non mesurés <strong>le</strong>stemps de survie considérés sont bien indépendants. Un modè<strong>le</strong> de Cox classique peut doncêtre utilisé pour analyser <strong>le</strong>s données. Cependant, pour tenir compte de l’hétérogénéitédes observations, un modè<strong>le</strong> de survie à fragilité corrélée sera préférab<strong>le</strong>. Ces modè<strong>le</strong>sseront exposés dans <strong>le</strong> chapitre (2).Lorsque l’on considère des données groupées, l’hétérogénéité entre groupes peut êtreexpliquée par un ensemb<strong>le</strong> de facteurs liés à chaque groupe. Cependant même après avoirconsidéré cette information il peut quand même subsister une corrélation des temps desurvie dans chaque groupe liée à un ensemb<strong>le</strong> de facteurs non observés. On va donc chercherà expliquer cette corrélation résiduel<strong>le</strong>. Une première solution serait d’inclure unevariab<strong>le</strong> indicatrice propre à chaque groupe, cependant on se retrouve face à un problèmed’estimation d’un grand nombre de paramètres qui ne sont pas toujours identifiab<strong>le</strong>s si <strong>le</strong>nombre de groupes est é<strong>le</strong>vé. L’autre solution est donc d’inclure dans <strong>le</strong> modè<strong>le</strong> de survieun effet aléatoire, c’est à dire une variab<strong>le</strong> de fragilité partagée par tous <strong>le</strong>s membres d’un


même groupe pour expliquer cette hétérogénéité.Ces deux phénomènes d’hétérogénéité sont traités différemment dans <strong>le</strong>s analyses. Laproblématique épidémiologique sur laquel<strong>le</strong> nous souhaitions travail<strong>le</strong>r nous a amenés àconsidérer essentiel<strong>le</strong>ment l’hétérogénéité entre groupes en la traitant par des modè<strong>le</strong>s desurvie à fragilité partagée.1.3 Schémas de données corréléesNous allons exposer <strong>le</strong>s différentes structures de données dans <strong>le</strong>squel<strong>le</strong>s <strong>le</strong>s donnéespeuvent être corrélées.1.3.1 Données groupéesDans <strong>le</strong> cas des données groupées, on suit différents groupes de sujets simultanément.Les temps de survie sont notés T ij , i = 1, ..., G, j = 1, ..., n i où i indice <strong>le</strong> groupe et j indiceun individu du groupe i. Les temps de survie de deux sujets de groupes différents (T ij etT i ′ j ′) sont supposés indépendants, alors que <strong>le</strong>s temps de survie de deux sujets d’un mêmegroupe peuvent être dépendants.Le nombre de temps d’observations (n i ) dans chaque groupe est supposé pré-spécifié,mais comme certains temps correspondent à des temps d’événements et d’autres à destemps de censure, <strong>le</strong> nombre d’événements dans chaque groupe n’est pas spécifié. Dans cetype de données, <strong>le</strong>s temps de survie ne sont pas ordonnés.Les groupes de sujets considérés peuvent être des famil<strong>le</strong>s qui ont des gènes en commun,des usines dont <strong>le</strong>s employés partagent la même exposition professionnel<strong>le</strong>, ou deshôpitaux dans <strong>le</strong> cadre d’essais cliniques multicentriques.Un exemp<strong>le</strong> de données groupées est l’exemp<strong>le</strong> de l’étude de l’efficacité d’un traitementchez des patients atteints de rétinopathie diabétique. Pour cela, chez chaque patient, unœil est sé<strong>le</strong>ctionné aléatoirement pour être traité et l’autre œil reste non traité. Les patientssont suivis plusieurs années jusqu’à la survenue d’une cécité tota<strong>le</strong>. Dans cette étudeune dépendance entre <strong>le</strong>s durées de survie des deux yeux d’un même patient sera présente.


1.3.2 Données répétéesDans <strong>le</strong> cas des données répétées, on étudie pour chaque sujet un même événementplusieurs fois, avec un nombre fixe de temps d’observations pour chaque sujet. L’unité (i)considérée ici est donc <strong>le</strong> sujet lui-même. Le j ième temps de survie pour <strong>le</strong> i ième sujet estnoté T ij avec i = 1, ..., G, j = 1, ..., n i . Les temps de survie entre deux sujets (T ij et T i ′ j)sont supposés indépendants, par contre <strong>le</strong>s différents temps de survie pour un même sujetpeuvent être dépendants.Comme dans <strong>le</strong>s données groupées, <strong>le</strong> nombre de temps d’observations (n i ) pour chaqueindividu est supposé pré-spécifié, par contre <strong>le</strong>s temps de survie peuvent être ordonnés.Dans <strong>le</strong> cas des données répétées, on étudie pour chaque sujet un même événementplusieurs fois, avec un nombre fixe de temps d’observations pour chaque sujet. L’unité iconsidérée ici est donc <strong>le</strong> sujet lui-même. Une étude expérimenta<strong>le</strong>, “<strong>le</strong> labyrinthe aquatique”peut illustrer ce type de données. Cette étude consiste en un test d’apprentissageet de mémoire réalisé sur des rats. Ces derniers sont plongés dans un bassin contenantune plate-forme immergée et invisib<strong>le</strong> qu’ils doivent retrouver. Pour chaque rat, <strong>le</strong> tempsnécessaire pour retrouver la plate-forme est mesuré. Cette expérience est renouvelée plusieursfois sur chaque rat avec un nombre limité d’épreuves. On se trouve typiquement enprésence de données dépendantes pour un même sujet.1.3.3 Données récurrentesEn présence de données récurrentes, on étudie éga<strong>le</strong>ment pour chaque sujet un mêmeévénement plusieurs fois, mais avec un nombre aléatoire de temps d’observations pourchaque sujet. Le j ième temps de survie pour <strong>le</strong> i ième sujet est noté T ij avec i = 1, ..., G, j =1, ..., n i .L’ordre d’apparition des temps de survie peut être à considérer dans ce type dedonnées. Cette structure de données est différente de cel<strong>le</strong> des données répétées puisque<strong>le</strong> nombre de temps d’observations (n i ) pour chaque individu est aléatoire.


Dans des essais thérapeutiques, on peut par exemp<strong>le</strong> étudier <strong>le</strong> délai jusqu’à la survenuede différentes crises d’épi<strong>le</strong>psie chez un même sujet, ou <strong>le</strong>s différents épisodes d’hypoglycémiechez des sujets diabétiques.1.3.4 Différents événementsSur des données récurrentes on s’intéresse pour chaque sujet à la survenue d’événementsdu même type, mais il peut être éga<strong>le</strong>ment intéressant d’étudier différents types d’événementspour un même sujet. On peut par exemp<strong>le</strong> étudier pour un même sujet trois états, sain,malade et décédé. Il sera alors intéressant de savoir comment la survenue d’un événementinfluence la survenue d’un autre événement pour chaque personne. Pour cette structure dedonnées, <strong>le</strong>s modè<strong>le</strong>s multi-états sont plus adaptés ; ce type de modè<strong>le</strong> ne sera pas traitédans cette thèse.Le tab<strong>le</strong>au (1.1) résume <strong>le</strong>s caractéristiques de ces différentes structures de données desurvie corrélées. Ces données sont souvent appelées données de survie multivariées. Uneunité sera définie soit par un groupe de sujets (dans <strong>le</strong> cadre des données groupées), soitpar un seul sujet (dans <strong>le</strong> cadre des données récurrentes ou répétées). C’est au sein dechaque unité que l’on aura une dépendance des temps d’observation.Tab. 1.1 – Caractéristiques des différentes structures de données corréléesniveau de nb de tempsregroupement d’observationsgroupées un groupe de sujets fixerépétées un sujet fixerécurrentes un sujet aléatoire1.4 Objectifs et planL’objectif de notre travail était de proposer une nouvel<strong>le</strong> méthode d’estimation semiparamétriquedans des modè<strong>le</strong>s de survie pour données hétérogènes. Cette méthode devait


permettre d’analyser des données incomplètes, censurées à droite et tronquées à gaucheen répondant simultanément aux trois objectifs suivants :– Un premier objectif était d’évaluer directement dans <strong>le</strong>s modè<strong>le</strong>s une mesure decorrélation intra-groupe et de déterminer si cette corrélation peut s’expliquer pardes facteurs environnementaux liés au groupe (ex : l’aluminium) ou s’il el<strong>le</strong> persistaitmême après ajustement sur ces facteurs.– Un second objectif consistait à estimer des paramètres de régression et surtout desvariances de ces paramètres correctement, notamment pour <strong>le</strong>s variab<strong>le</strong>s explicativesspécifiques à chaque groupe.– Un troisième objectif de la méthode était de pouvoir estimer une fonction de risquelisse adaptée au cas des données censurées à droite et tronquées à gauche.Le chapitre (2) sera consacré à l’exposé des procédures existantes en analyse de surviepour données hétérogènes. Nous insisterons sur <strong>le</strong>s modè<strong>le</strong>s à effets aléatoires quisemb<strong>le</strong>nt <strong>le</strong>s plus adaptés à notre application. Dans <strong>le</strong> chapitre (3) nous présenterons uneméthode semi-paramétrique d’estimation des paramètres de régression, d’un paramètre decorrélation et de la fonction de risque. Cette méthode est basée sur la maximisation d’unevraisemblance pénalisée. Des simulations seront présentées pour valider cette approchedans <strong>le</strong> chapitre (4). Le chapitre (5) sera dédié à l’étude de l’association entre des facteursde risque environnementaux et la survenue d’une démence sur la cohorte Paquid à l’aidede la méthode d’estimation proposée.


Chapitre 2Modè<strong>le</strong>s de survie pour donnéeshétérogènes2.1 Définitions et notations en analyse de surviePlusieurs ouvrages sont consacrés à l’analyse de survie [51, 27, 44, 4, 54]. Dans cechapitre nous rappel<strong>le</strong>rons quelques définitions et notations uti<strong>le</strong>s pour la suite de l’exposé.2.1.1 Différence entre données censurées et tronquéesLa spécifité des durées de survie est de correspondre à des variab<strong>le</strong>s aléatoires positiveset de comporter des observations incomplètes dues en particulier à la censure ou à latroncature.Censure à droiteLorsque à la fin de la durée d’observation, un sujet n’a pas connu l’événement d’intérêt,son délai d’apparition de l’événement sera dit censuré à droite et sa durée d’observationconstituera <strong>le</strong> délai de censure C j . Si <strong>le</strong> délai de censure C j est une variab<strong>le</strong> aléatoiresupposée indépendante de la durée de survie T j , alors la censure à droite est aléatoire quiest <strong>le</strong> cas <strong>le</strong> plus fréquent en épidémiologie et qui est <strong>le</strong> cas que nous considèrerons par lasuite. Si T j est la durée de survie, qui est définie comme une variab<strong>le</strong> aléatoire positive,alors on observera pour chaque individu j, <strong>le</strong> coup<strong>le</strong> (Y j , δ j ) relié à la variab<strong>le</strong> T j par :Y j = min(T j , C j )9


et⎧⎨ 1 si T j ≤ C jδ j =⎩ 0 si T j > C joù δ j est un indicateur de censure à droite égal à 1, si la variab<strong>le</strong> de vie T j du sujet j estobservée, et δ j = 0 si la variab<strong>le</strong> T j est censurée à droite.Censure à gaucheUne donnée est censurée à gauche si l’on sait seu<strong>le</strong>ment que l’événement s’est produitavant une certaine date, sans qu’il soit possib<strong>le</strong> d’en connaître la date exacte. Dans <strong>le</strong>cadre de données censurées à gauche, si T j est la durée de survie, alors on observera pourchaque individu j, <strong>le</strong> coup<strong>le</strong> (Y j , δ j ) relié à la variab<strong>le</strong> T j par :etY j = max(T j , C j )⎧⎨ 1 si T j ≥ C jδ j =⎩ 0 si T j < C jOn définit δ j un indicateur de censure à gauche égal à 1, si la variab<strong>le</strong> de vie T j dusujet j est observée, et δ j = 0 si la variab<strong>le</strong> T j est censurée à gauche.Censure par interval<strong>le</strong>La variab<strong>le</strong> durée de vie T j sera dite censurée par interval<strong>le</strong> si au lieu d’observer la variab<strong>le</strong>durée de vie T j , on observe deux va<strong>le</strong>urs L j et R j (avec L j < R j ) tel<strong>le</strong>s que la seu<strong>le</strong>information dont on dispose sur T j est que L j < T j < R j . Dans <strong>le</strong>s enquêtes de cohorte, i<strong>le</strong>st courant que <strong>le</strong>s sujets ne soient pas suivis en temps continu mais plutôt à des visitessuccessives. Si l’événement s’est produit entre deux visites, on peut parfois connaître ladate exacte de survenue de l’événement, dans d’autres cas cela n’est pas possib<strong>le</strong>. Lesdélais de survenue de l’événement seront alors censurés par interval<strong>le</strong>.Tous <strong>le</strong>s modè<strong>le</strong>s de survie supposent l’indépendance entre <strong>le</strong>s temps de survie T jet <strong>le</strong>s temps de censure C j . Cette hypothèse ne serait pas vérifiée si, par exemp<strong>le</strong> despersonnes n’étaient plus suivies à cause d’une aggravation de <strong>le</strong>ur état. Les personnes <strong>le</strong>splus à risque de connaître l’événement ne seraient plus dans l’échantillon. L’hypothèsed’indépendance des variab<strong>le</strong>s C j et T j est fondamenta<strong>le</strong> afin d’obtenir une vraisemblancesimp<strong>le</strong>. Si on ne fait pas cette hypothèse, la distribution des délais de censure intervient


dans la vraisemblance. De plus la censure est supposée non-informative, si sa distributionne dépend pas des paramètres qui interviennent dans la distribution de la variab<strong>le</strong> duréede survie [4]. La censure sera par exemp<strong>le</strong> non informative lorsque <strong>le</strong>s “perdus de vue”(c’est à dire des sujets qui ont quitté l’étude avant la fin) ont la même probabilité d’avoirl’événement après <strong>le</strong>ur temps de censure que ceux restant observés. Dans la suite dece travail ces hypothèses sont supposées valides. Ces hypothèses sont raisonnab<strong>le</strong>s si <strong>le</strong>sdonnées censurées sont dues à des sujets qui n’ont pas connus l’événement à la fin del’étude (sujets “exclus-vivants”). El<strong>le</strong>s sont moins clairement vérifiées quand <strong>le</strong>s donnéescensurées correspondent à des sujets “perdus de vue”.Troncature à gaucheEn analyse de survie, <strong>le</strong> cas de troncature <strong>le</strong> plus courant est celui de la troncatureà gauche. La troncature à gauche se produit lorsque <strong>le</strong>s sujets ne sont pas suivis depuisla date d’origine choisie ; on par<strong>le</strong> alors d’entrée retardée dans une cohorte. Choisir l’âgecomme <strong>le</strong> temps de base produit souvent des données tronquées à gauche puisque <strong>le</strong>s sujetssont rarement suivis dès <strong>le</strong>ur naissance (mise à part dans <strong>le</strong>s études pédiatriques) et<strong>le</strong>s sujets qui ont déjà subi l’événement à l’entrée dans l’étude ne sont généra<strong>le</strong>ment passé<strong>le</strong>ctionnés pour participer à l’étude.La troncature à gauche signifie que si <strong>le</strong> temps de survie T j est inférieur au tempsd’entrée dans la cohorte L j , <strong>le</strong> sujet n’appartient pas à l’échantillon d’étude, c’est à direla durée de survie T j n’est observab<strong>le</strong> que conditionnel<strong>le</strong>ment au fait que T j > L j ; la variab<strong>le</strong>L j appelée variab<strong>le</strong> de troncature gauche, est supposée indépendante de la variab<strong>le</strong>durée de vie T j .Il faut noter la différence entre la censure à gauche, dans laquel<strong>le</strong> on ne dispose qued’une information partiel<strong>le</strong> sur <strong>le</strong>s individus qui ont eu l’événement d’intérêt avant uncertain temps d’entrée dans l’étude, et la troncature à gauche, où ces individus ne serontpas inclus dans l’étude. Dans l’application présentée dans <strong>le</strong> chapitre (5), <strong>le</strong>s démentsincidents dans une cohorte de sujets de plus de 65 sont étudiés. L’événement d’intérêtest l’apparition d’une démence et <strong>le</strong> temps de base considéré est l’âge du sujet. A l’inclusiondans l’étude certains sujets sont déjà déments ; si l’on choisit d’inclure dans <strong>le</strong>sanalyses ces déments préva<strong>le</strong>nts, <strong>le</strong>ur âge de passage à la démence est censuré à gauche


car l’événement s’est produit avant l’inclusion. Ces cas préva<strong>le</strong>nts sont en fait retirés del’échantillon d’étude, car ils ne sont pas représentatifs des déments préva<strong>le</strong>nts de plus de 65ans ; en particulier, <strong>le</strong>s sujets de la cohorte étaient inia<strong>le</strong>ment à domici<strong>le</strong>, or on sait qu’environ50% des déments de plus de 65 ans sont en institution. Cette sé<strong>le</strong>ction implique unetroncature à gauche car <strong>le</strong>s sujets ne font partie de l’échantillon que conditionnel<strong>le</strong>mentau fait qu’ils n’ont pas développé une démence avant <strong>le</strong>ur âge à l’inclusion (âge de 65 ansou plus). S’il y a troncature, un certain nombre d’individus ne sont pas observab<strong>le</strong>s et onn’étudie qu’un sous-échantillon. Ce phénomène est aussi appelé entrée retardée (delayedentry), car la date d’origine est antérieure à la date d’entrée dans l’étude. Notons que sidans cette étude <strong>le</strong> temps de base considéré est <strong>le</strong> temps du ca<strong>le</strong>ndrier, c’est à dire si l’onétudie <strong>le</strong> délai entre l’entrée dans l’étude et la survenue d’une démence, <strong>le</strong> problème dela troncature à gauche ne se pose plus car la condition de troncature à gauche T j > 0 esttoujours vérifiée.De façon similaire, même si cela peut semb<strong>le</strong>r évident, on ne considère <strong>le</strong> risque dedécès à un âge donné que pour <strong>le</strong>s personnes qui sont encore en vie. En effet, si on souhaiteétudier la mortalité dans cette même cohorte, <strong>le</strong> temps de base <strong>le</strong> plus pertinent est l’âgedu sujet puisqu’il est lié à la mortalité. En plus de la censure classique liée à la natureprospective de l’étude, l’âge de survenue du décès est tronqué à gauche par l’âge d’entréedans l’étude.Troncature à droite et troncature par interval<strong>le</strong>La troncature à droite se produit lorsque l’on inclut dans l’échantillon uniquement <strong>le</strong>spersonnes qui ont subi l’événement, et un individu qui n’a pas encore subi l’événement nesera pas observé. Ainsi, la durée de vie T j est tronquée à droite si T j n’est observée queconditionnel<strong>le</strong>ment au fait que T j < R j ; la variab<strong>le</strong> R j appelée variab<strong>le</strong> de troncaturedroite, est supposée indépendante de la variab<strong>le</strong> durée de vie T j .Le problème de troncature à droite se pose par exemp<strong>le</strong> lorsque l’on étudie des registres.Les sujets figurent dans ces registres qu’à partir du moment où ils ont connul’événement d’intérêt. Ainsi, lorsque l’on s’intéresse à la durée d’incubation du SIDA ;des informations concernant <strong>le</strong>s durées d’incubation de certains sujets infectés lors d’unetransfusion sanguine, par exemp<strong>le</strong>, sont disponib<strong>le</strong>s dans des registres. Ces informations


sont tronquées à droite car <strong>le</strong>s sujets porteurs du virus mais qui n’ont pas encore développéla maladie ne sont pas observés ; en d’autres termes, un individu n’est observé que conditionnel<strong>le</strong>mentau fait que son temps de survenue de l’événement soit inférieur à un certaintemps d’entrée dans <strong>le</strong> registre.Si l’observation de la variab<strong>le</strong> durée de vie T j est conditionnée par <strong>le</strong> fait que L j < T j


La fonction de répartition est la probabilité de décéder entre 0 et t :F (t) = P r(T ≤ t) =La fonction de répartition est croissante et on a :∫ t0f(u)duLa fonction de survieF (0) = 0 et limt→+∞ F (t) = 1La fonction de survie S(t) est la probabilité de survivre au-delà de t :S(t) = P r(T > t) = 1 − F (t)Si T est une variab<strong>le</strong> aléatoire continue, alors, S(t) est une fonction décroissante, tel<strong>le</strong> queS(0) = 1 et limt→+∞ S(t) = 0Cette fonction est très utilisée dans la littérature pour décrire la survie des personnes.La fonction de risqueUne fonction fondamenta<strong>le</strong> en analyse de survie est la fonction de risque, qui est aussiappelé risque instantané de décès.P r(t ≤ T < t + ∆t|T ≥ t)λ(t) = lim∆t↘0∆tλ(t) = f(t)S(t)= −∂ln S(t)/∂tλ(t)∆t peut être vu quand ∆t est petit comme la probabilité “approchée” pour un sujetde décéder au temps t, conditionnel<strong>le</strong>ment au fait que ce sujet était vivant juste avant t.La fonction de risque cumuléeil s’ensuit queΛ(t) =∫ t0λ(u)duS(t) = exp(−Λ(t))La distribution de la durée de vie T j peut être décrite par l’une quelconque des fonctionsf, F, S, λ ou Λ.


2.1.3 EstimationConstruction de la vraisemblanceL’estimation des paramètres inconnus (θ) d’un modè<strong>le</strong> peut être obtenue par la méthodedu maximum de vraisemblance. Comme nous l’avons vu précédemment <strong>le</strong>s études d’analysede survie incluent un mélange de données censurées et tronquées, dont il va falloirtenir compte dans l’écriture des fonctions de vraisemblance. La principa<strong>le</strong> hypothèse seral’indépendance entre des temps de survies et des temps de censure.Supposons que l’on étudie N sujets. Soit T j la durée exacte de survie du sujet j. Onpeut représenter <strong>le</strong>s données par un coup<strong>le</strong> de variab<strong>le</strong>s aléatoires (Y j , δ j ), où δ j indique si<strong>le</strong> temps T j est observé (δ j = 1) ou non (δ j = 0), et Y j est égal à T j si <strong>le</strong> temps de survieest observé.Un échantillon (Y 1 , Y 2 , ..., Y n ) étant défini comme une suite de variab<strong>le</strong>s aléatoiresindépendantes, on peut définir la vraisemblance comme <strong>le</strong> produit des contributions dechaque observation (décès ou censure) :n∏V (θ; Y 1 , Y 2 , ..., Y n ) = V i (θ; Y i )On peut définir <strong>le</strong>s contributions individuel<strong>le</strong>s à la vraisemblance, selon <strong>le</strong>s différentstypes d’observation :– si <strong>le</strong> temps d’observation considéré est un temps exact d’événement, la contributionà la vraisemblance sera :V j = f(T j )– si <strong>le</strong> temps d’observation considéré est un temps de censure à droite, on sait seu<strong>le</strong>mentque <strong>le</strong> temps d’événement est plus grand que <strong>le</strong> temps de censure,V j = S(C j )– si <strong>le</strong> temps d’observation considéré est un temps de censure à gauche, on sait seu<strong>le</strong>mentque <strong>le</strong> temps d’événement s’est déjà produit,V j = F (C j ) = 1 − S(C j )– si <strong>le</strong> temps considéré est censuré par interval<strong>le</strong>, on sait seu<strong>le</strong>ment que l’événements’est produit dans un interval<strong>le</strong> ]L j , R j [,V j = S(L j ) − S(R j )i=1


– si <strong>le</strong> temps considéré est un temps exact et tronqué à gauche,V j = f(T j )/S(L j )– si <strong>le</strong> temps considéré est un temps exact et tronqué à droite,V j = f(T j )/(1 − S(R j ))Par exemp<strong>le</strong>, sur un échantillon de temps de survie tronqués à gauche (Y 1 , Y 2 , ..., Y n ) quipeuvent être des temps de survie exacts (T 1 , T 2 , ..., T n ) ou des temps de censures à droite(C 1 , C 2 , ..., C n ), la vraisemblance tota<strong>le</strong> sera :Approche paramétriqueV (θ, T 1 , T 2 , ..., T n ) =n∏j=1( ) δj( ) 1−δjf(Tj ) S(Cj )S(L j ) S(L j )L’approche paramétrique en analyse de survie consiste à modéliser par une distributionthéorique connue la distribution de la durée de survie étudiée (ex : modè<strong>le</strong> exponentiel oumodè<strong>le</strong> de Weibull). Un modè<strong>le</strong> de survie paramétrique est donc un modè<strong>le</strong> dans <strong>le</strong>quella fonction de risque dépend d’un vecteur de paramètres inconnus [51, 27]. L’avantageréel des modè<strong>le</strong>s paramétriques est de pouvoir ajuster une distribution donnée, mais enfaisant une hypothèse forte sur la distribution des temps de survie.Approche non-paramétriqueAfin d’éviter de faire des hypothèses trop fortes sur <strong>le</strong>s distributions des temps de survie,on peut utiliser des méthodes non-paramétriques. L’estimateur non-paramétrique <strong>le</strong>plus simp<strong>le</strong> de la fonction de distribution est la distribution empirique. C’est l’estimateurnon-paramétrique du maximum de vraisemblance pour des observations complètes. Ainsi,même si on suppose que la vraie distribution est continue on l’estime par une distributiondiscrète. Kaplan et Meier [52] puis Nelson [69] et Aa<strong>le</strong>n [1] ont proposé un estimateur dela fonction de survie dans <strong>le</strong> cas des données censurées. Un inconvénient majeur de l’estimateurnon-paramétrique du maximum de vraisemblance est que la distribution estiméeest discrète et on ne peut pas en déduire directement la fonction de risque. La fonctionde risque est souvent plus intéressante et plus pertinente que la fonction de survie oula fonction de risque cumulé. En particulier si l’âge est choisi comme temps de base, lafonction de risque peut être assimilée à l’incidence d’une maladie en fonction de l’âge


(lorsque <strong>le</strong>s interval<strong>le</strong>s de temps pour calcu<strong>le</strong>r l’incidence sont petits). Dans l’approchenon-paramétrique la fonction de risque est diffici<strong>le</strong> à estimer puisqu’il est nécessaire delisser <strong>le</strong>s masses discrètes des estimateurs de Kaplan Meier [52], ou de Nelson [69] et Aa<strong>le</strong>n[1] par une méthode de lissage à noyaux pour obtenir une distribution continue.Méthodes d’estimation par vraisemblance pénaliséeUne autre approche non-paramétrique a été proposée pour estimer la fonction derisque : l’approche par vraisemblance pénalisée [85]. Cette méthode permet d’obtenir unefonction de risque lisse sans faire d’hypothèse forte sur la forme de la distribution destemps de survie. La log-vraisemblance est donc pénalisée par un terme qui est d’autantplus grand que la fonction de risque est peu lisse :∫pl(λ 0 (.)) = l(λ 0 (.)) − κλ ′′0(u) 2 du (2.1)où l est <strong>le</strong> logarithme de la vraisemblance, λ 0 (.) la fonction de risque de base et κ est<strong>le</strong> paramètre de lissage. Dans <strong>le</strong> terme de pénalisation ∫ (λ ′′0(u)) 2 du = ||λ ′′0(.)|| 2 est <strong>le</strong> carréde la norme L 2 de la dérivée seconde de la fonction de risque.Dans la suite de l’exposé, nous développerons cette méthode d’estimation par vraisemblancepénalisée.2.1.4 Modè<strong>le</strong>s de régressionLe modè<strong>le</strong> à risques proportionnels de CoxLe modè<strong>le</strong> à risques proportionnels de Cox [24] permet d’établir une relation paramétriqueentre <strong>le</strong>s facteurs de risque de “décès” et la distribution des durées de surviesans donner à cel<strong>le</strong>-ci une forme paramétrique. L’analyse qui en décou<strong>le</strong> présente donc uncaractère semi-paramétrique. Le modè<strong>le</strong> de Cox est devenu <strong>le</strong> modè<strong>le</strong> de référence pourl’analyse statistique des enquêtes de cohorte en épidémiologie [51, 27, 44].Le modè<strong>le</strong> à risques proportionnels exprime une relation entre la fonction de risqueλ et un vecteur de variab<strong>le</strong>s explicatives x = (x 1 , x 2 , ..., x p ), ces variab<strong>le</strong>s pouvant êtrespécifiques à chaque sujet ou communes à un ensemb<strong>le</strong> de sujets.λ(t, x) = λ 0 (t)r(β, x)


où β est <strong>le</strong> vecteur des coefficients de régression et λ 0 (t) est la fonction de risque de base.Plus précisément, λ 0 (t) est <strong>le</strong> risque instantané de décès des sujets pour <strong>le</strong>squels toutes <strong>le</strong>svariab<strong>le</strong>s explicatives x i sont éga<strong>le</strong>s à 0. La fonction r(β, x) dépend des caractéristiquesx du sujet, et cette dépendance est mesurée par <strong>le</strong>s coefficients β. En général on choisitr(β, x) = exp(β ′ x) de façon à obtenir une fonction de risque positive sans contraintes sur<strong>le</strong>s coefficients β et quel<strong>le</strong>s que soient <strong>le</strong>s va<strong>le</strong>urs de x. Le modè<strong>le</strong> s’écrit alors :λ(t, x) = λ 0 (t) exp(β ′ x)Ceci conduit à l’expression suivante pour la fonction de survieS(t, x) = S 0 (t) exp(β′ x)Le modè<strong>le</strong> à risques proportionnels de Cox fait plusieurs hypothèses sous-jacentes :Il est appelé modè<strong>le</strong> à risques proportionnels, car si on considère deux individus j etj ′ ayant deux va<strong>le</strong>urs du vecteur des p variab<strong>le</strong>s explicatives x j et x ∗ j ′, <strong>le</strong> rapport de <strong>le</strong>ur(λ(trisque est constant et il ne dépend pas de t,j |x j )= exp [∑ pλ(t j ′|x ∗ j ′) k=1 β k(x jk − x ∗ j ′ k )]) .La méthode d’estimation est basée sur l’hypothèse que <strong>le</strong>s temps de survie d’individusdistincts sont indépendants <strong>le</strong>s uns par rapport aux autres, conditionnel<strong>le</strong>ment auxvariab<strong>le</strong>s explicatives. Bien que cette hypothèse puisse être valide dans certaines études,el<strong>le</strong> peut être fausse dans d’autres, notamment lorsque <strong>le</strong>s données sont groupées. Nousprésentons dans <strong>le</strong> reste de l’exposé des modè<strong>le</strong>s ou des approches utilisés lorsque cettehypothèse n’est plus vérifiée.Estimation et testsPour estimer l’effet des variab<strong>le</strong>s explicatives x sur la survie, on doit estimer <strong>le</strong>s coefficientsde régression β. On dispose d’un échantillon de N sujets. Pour chaque sujetj, on observe une durée de survie, éventuel<strong>le</strong>ment censurée à droite, et un vecteur de pvariab<strong>le</strong>s explicatives x j = x j1 , x j2 , ..., x jp . Soit T la variab<strong>le</strong> durée de survie étudiée. Onnote t 1 , t 2 , ..., t k <strong>le</strong>s différents temps de décès observés dans l’échantillon, n l <strong>le</strong> nombrede décès observés en t l et D l l’ensemb<strong>le</strong> des indices des sujets décédés en t l . On indicepar (1), (2), ..., (k) <strong>le</strong>s sujets décédés respectivement en t 1 , t 2 , ..., t k . Soit R j l’ensemb<strong>le</strong> desindices des sujets à risque au temps t j et N j <strong>le</strong> nombre de ces sujets. Connaissant l’effectif


à risque en t j , et sachant qu’un individu est décédé en t j , la probabilité conditionnel<strong>le</strong> que<strong>le</strong> sujet (j) décède en t j parmi <strong>le</strong>s sujets à risque au temps t j est éga<strong>le</strong> àV j = λ(t j, x (j) )∑l∈R jλ(t j , x l ) = exp(β′ x (j) )∑l∈R jexp(β ′ x l )(2.2)Cette probabilité ne dépend pas de la fonction de base λ 0 (t) considérée comme un paramètrede nuisance. La vraisemblance partiel<strong>le</strong> de Cox [26] est <strong>le</strong> produit des probabilitésconditionnel<strong>le</strong>s calculées à chaque temps de décès t j (1 ≤ j ≤ k).V (β) =k∏j=1exp(β ′ x (j) )∑l∈R jexp(β ′ x l )Pour tenir compte de la présence de cas ex aequo, on peut utiliser l’expression approchéede la vraisemblance :V (β) =k∏j=1exp(β ′ y j )[ ∑ l∈R jexp(β ′ x l )] n joù, y j = ∑ i∈D jx j est la somme des vecteurs des variab<strong>le</strong>s explicatives des n j sujetsdécédés au temps t j . Cette approximation est satisfaisante lorsque <strong>le</strong> nombre d’ex aequon’est pas é<strong>le</strong>vé.La vraisemblance partiel<strong>le</strong> de Cox peut être utilisée pour analyser des données tronquéesà gauche et censurées à droite. La différence avec <strong>le</strong> modè<strong>le</strong> de Cox classique pour donnéescensurées à droite réside dans la définition du nombre de sujets à risque. Le nombre desujets à risque au temps t j est N j = ∑ nj=1 I(L i ≤ t j ≤ Y i ) et R ∗ j est l’ensemb<strong>le</strong> des indicesdes sujets à risques au temps t j (où L i est <strong>le</strong> temps de troncature gauche ).L’estimateur du vecteur des coefficients de régression β est obtenu en maximisantcette vraisemblance partiel<strong>le</strong>. Plus précisément, on définit la fonction de score U(β) =∂ ln V (β)/∂β (<strong>le</strong> vecteur des dérivées premières de ln V (β)). L’estimateur ˆβ ′ = ( ˆβ 1 , ˆβ 2 , ..., ˆβ p )est la solution de l’équation U(β) = 0. Cette solution peut être calculée en utilisant uneprocédure itérative de maximisation. Les estimateurs ˆβ j suivent approximativement uneloi norma<strong>le</strong>. La matrice de variance-covariance des estimateurs de ˆβ est estimée par I −1 ( ˆβ),où I(β) = E(− ∂2 ln V (β)) est la matrice d’information de Fisher.∂ 2 βL’utilisation de la vraisemblance partiel<strong>le</strong> élimine la fonction de nuisance λ 0 (t). Onpeut néanmoins utiliser l’estimateur ˆβ pour construire un estimateur (de Breslow) de la


fonction de risque cumulé de base ˆΛ 0 (t) et en déduire la fonction de survie S(t, x) pourune va<strong>le</strong>ur donnée du vecteur des variab<strong>le</strong>s explicatives x :̂Λ 0 (t j ) = ∑l:t l ≤t jn l∑k∈R <strong>le</strong>xp( ˆβ ′ x k )Ŝ(t) = exp[−ˆΛ 0 (t) exp( ˆβ ′ x)]Tests statistiquesOn note β 0 ′ <strong>le</strong> vecteur (β 01 , ..., β 0p ). Pour tester l’hypothèse nul<strong>le</strong> H 0 : β = β 0 , contrel’hypothèse alternative H 1 : β i = β 0i pour au moins un i, on peut utiliser l’un des troistests statistiques suivants :– <strong>le</strong> test du score :U ′ (β 0 )[I −1 (β 0 )]U(β 0 )– <strong>le</strong> test du rapport de vraisemblance : −2[ln(V (β 0 )) − ln(V ( ˆβ))]– <strong>le</strong> test de Wald : ( ˆβ − β 0 ) ′ [I β ( ˆβ)]( ˆβ − β 0 ), où I β est la sous-matrice de la matriced’information de Fisher correspondant au vecteur des coefficients de régression β.Sous l’hypothèse nul<strong>le</strong>, <strong>le</strong>s statistiques des trois tests suivent asympotiquement desdistributions de chi-deux à p degrés de liberté. Les trois tests donnent en général <strong>le</strong>smêmes résultats. Le test du score est <strong>le</strong> plus faci<strong>le</strong> à calcu<strong>le</strong>r parce qu’il ne nécessite pasde maximiser la vraisemblance. Le test de Wald décou<strong>le</strong> directement des estimations desparamètres et de <strong>le</strong>ur variance. Néanmoins, <strong>le</strong> test du rapport des vraisemblances serait<strong>le</strong> plus robuste et <strong>le</strong> plus fiab<strong>le</strong> des trois.2.2 Analyse de données multivariées : approche margina<strong>le</strong>L’approche margina<strong>le</strong> a été développée par Lin et Wei [60] et par Wei et al [94] quise sont tout d’abord intéressés à un modè<strong>le</strong> dans <strong>le</strong>quel <strong>le</strong>s individus subissaient desévénements répétés, puis par Lee, Wei et Amato [56] qui s’intéressaient davantage auxdonnées groupées. Cette approche consiste à spécifier la fonction de risque margina<strong>le</strong> destemps de survie corrélés sans modéliser de façon explicite la structure de dépendance entre<strong>le</strong>s temps de survie. Cette méthode traite ainsi la dépendance des temps de survie commeune nuisance.


2.2.1 Le modè<strong>le</strong>On considère T ij <strong>le</strong> temps de survie du j ieme sujet (j = 1, ..., n i ) du i ieme groupe(i = 1, ..., G), et C ij <strong>le</strong> temps de censure correspondant. Les temps de survie observésseront alors Y ij = min(T ij , C ij ) et l’indicateur δ ij = I(T ij ≤ C ij ) permettra de déterminersi <strong>le</strong> temps de survie observé Y ij est un temps de censure ou d’événement. Si X ij =(X 1ij , ..., X pij ) ′ correspond au vecteur des p variab<strong>le</strong>s explicatives, alors <strong>le</strong> vecteur destemps de survie T i = (T i1 , ..., T ini ) ′ et <strong>le</strong> vecteur des temps de censure C i = (C i1 , ..., C ini ) ′sont supposés être indépendants conditionnel<strong>le</strong>ment au vecteur des variab<strong>le</strong>s explicativesX i = (X i1, ′ ..., X in ′ i). Dans cette approche, la distribution margina<strong>le</strong> pour chaque tempsde survie est modélisée par un modè<strong>le</strong> à risques proportionnels, et la fonction de risquemargina<strong>le</strong> en un temps t s’exprime par :λ ij (t; X ij ) = λ 0 (t) exp{β ′ X ij } (2.3)On peut noter que dans ce modè<strong>le</strong>, nous n’avons pas d’estimateur de la force de l’associationentre <strong>le</strong>s individus dans chaque groupe. Le vecteur des coefficients de régressionβ ′ = (β 1 , ..., β p ) est estimé par maximisation de la vraisemblance partiel<strong>le</strong> classique deCox construite à partir du modè<strong>le</strong> “de travail” précédent (2.3) dans <strong>le</strong>quel on supposeral’indépendance des temps de survie.Dans <strong>le</strong> cas d’événements récurrents où l’on observe n i types d’événements pour unmême sujet i, il est nécessaire de permettre à la fonction de risque de base d’être différentepour chaque type d’événement. La fonction de risque pour <strong>le</strong> j ieme type d’événement dusujet i est donnée par λ ij (t; X ij ) = λ 0j (t) exp{β ′ X ij }. Ce modè<strong>le</strong> a été proposé par Weiet al [94]. Pour <strong>le</strong>s données groupées il est généra<strong>le</strong>ment suffisant d’estimer une fonctionde risque de base commune à tous <strong>le</strong>s sujets comme dans <strong>le</strong> modè<strong>le</strong> (2.3). Cependantdans chacune des situations, une modification de la matrice de variance-covariance estnécessaire.2.2.2 Matrice de variance-covariance corrigéeLee et al [56] ont montré que lorsque l’on avait des données corrélées, <strong>le</strong>s estimateursdes coefficients de régression du modè<strong>le</strong> de Cox classique obtenus par maximisation dela vraisemblance partiel<strong>le</strong> sont convergents et asymptotiquement normaux. Cependant,l’estimateur correspondant de variance-covariance ˆV n’est plus valide en raison de la


dépendance intra-groupe. Ainsi, ils proposent d’utiliser Ṽ = ˆV C ˆV un estimateur corrigéet “robuste” de la matrice de variance-covariance pour ˆβ (dit estimateur “sandwich”) quiajuste la matrice de variance-covariance usuel<strong>le</strong> ˆV en tenant compte des possib<strong>le</strong>s associationsintra-groupes des événements. L’estimateur de variance-covariance est dit robustedans <strong>le</strong> sens où même si <strong>le</strong> modè<strong>le</strong> de Cox est mal spécifié, (avec par exemp<strong>le</strong> des variab<strong>le</strong>sexplicatives importantes omises) l’estimateur de variance-covariance des paramètres derégression est quand même consistant [60].Pour construire la matrice de variance-covariance corrigée, on considère ˆV la matrice devariance covariance usuel<strong>le</strong> p × p pour β, basé sur <strong>le</strong> modè<strong>le</strong> de travail (sous l’hypothèsed’indépendance des données), ˆV = I −1 ( ˆβ), avec I la matrice d’information de Fisher.Pour estimer la matrice de correction C, on considère <strong>le</strong>s temps de survie (Y ij , δ ij , X ij ) etN ij (t) = I(Y j ≥ t) indique si l’individu j du groupe i est à risque juste avant t ou non.Lin et al [60] puis Wei et al [94] démontrent que U(β) la fonction de score est asymptotiquementéquiva<strong>le</strong>nte à une somme de vecteurs aléatoires indépendants et identiquementdistribués, c’est à dire n −1/2 U(β) ≃ n −1/2 ∑ Gi=1∑ nij=1∑ nil=1 W ijW ′il. Ils déduisent alors, enappliquant <strong>le</strong> théorème de la limite centra<strong>le</strong>, que l’estimateur ˆβ suit asymptotiquement uneloi norma<strong>le</strong> multivariée de moyenne β et d’estimateur de la matrice de variance-covariancecorrigée et robuste :Ṽ = ˆV C ˆVavec, c h,k l’élément de la matrice C définie par : c h,k = ∑ G ∑ ni∑ nii=1 j=1 l=1 W ijhW ilk et pourk = 1, ..., p[W ijk = δ ij X ijk − S ]1k(Y ij )−S 0 (Y ij )G∑ ∑n ig=1 h=1Pour cela, on introduit <strong>le</strong>s notations suivantesδ gh N ij (Y gh ) exp(β ′ X ij )S 0 (Y gh )[X ijk − S ]1k(Y gh )S 0 (Y gh )S 0 (t) =G∑ ∑n iN ij (t) exp(β ′ X ij )i=1 j=1et,G∑ ∑n iS 1k (t) = N ij (t)X ijk exp(β ′ X ij ) pour k = 1, ..., pi=1 j=1On peut montrer que si <strong>le</strong>s temps de survie dans un même groupe sont indépendantsalors C est asymptotiquement équiva<strong>le</strong>nte à ˆV −1 , et la matrice de variance-covariance


pour ˆβ devient ˆV , l’estimateur classique de la matrice de variance-covariance (ou estimateurnaïf) [60]. Un programme Fortran mettant en œuvre cette méthode a été écrit par Lin[61]. Nous avons appliqué cette méthode à l’analyse des données d’un essai multicentrique(sur 19 services hospitaliers) dont <strong>le</strong> but était d’étudier <strong>le</strong>s effets d’une supplémentationnutritionnel<strong>le</strong> sur la survenue d’escarres chez des personnes âgées atteintes d’affectionsaiguës [80, 12].Une autre approche margina<strong>le</strong> a été proposée par Liang et al [59] pour traiter <strong>le</strong>sdonnées groupées. Les auteurs proposent, à partir d’un modè<strong>le</strong> marginal, de tenir comptedu regroupement des données directement dans l’expression des fonctions de score. Ainsi,ils obtiennent par maximisation d’équations d’estimation modifiées des estimateurs corrigésdes paramètres de régression et de <strong>le</strong>ur variance et un estimateur de la fonction derisque cumulé de base. Les éléments de probabilités utilisés pour construire <strong>le</strong>s équationsd’estimation impliquent un conditionnement sur <strong>le</strong>s individus ; l’approche implique descalculs comp<strong>le</strong>xes si l’on souhaite comparer plus de deux individus à la fois.2.3 Analyse de données multivariées : modè<strong>le</strong> à fragilité2.3.1 Le modè<strong>le</strong> simp<strong>le</strong> à fragilitéToutes <strong>le</strong>s variab<strong>le</strong>s pertinentes ne sont pas toujours incluses dans un modè<strong>le</strong>, soitparce qu’el<strong>le</strong>s ne sont pas suspectées d’avoir une influence sur l’événement observé soitparce qu’el<strong>le</strong>s n’étaient pas mesurées. Comme nous l’avons vu dans <strong>le</strong> chapitre (1.2) cesvariab<strong>le</strong>s omises vont créer une hétérogénéité dans la population. L’hétérogénéité entreindividus, résultant de variab<strong>le</strong>s individuel<strong>le</strong>s non observées va conduire à une sé<strong>le</strong>ctionde la population : <strong>le</strong>s sujets <strong>le</strong>s plus fragi<strong>le</strong>s vont décéder en premier et la populationsurvivante, plus robuste, sera différente de la population d’origine [89, 90, 2, 46]. Ceci créeun problème fondamental pour étudier <strong>le</strong> vieillissement ou la mortalité, car au fur et àmesure que <strong>le</strong> temps passe, la structure de la population va se modifier : <strong>le</strong>s sujets fragi<strong>le</strong>set exposés à un facteur de risque vont décéder en premier laissant une population de sujetssoit exposés et résistants soit non exposés et résistants ou non exposés et fragi<strong>le</strong>s (ou sensib<strong>le</strong>s).Il en résulte une apparente diminution du risque de maladie, c’est à dire un risque


apparent plus faib<strong>le</strong> qu’il ne serait dans une population homogène. Dans <strong>le</strong>s analyses desurvie, si ces variations non observées sont ignorées, el<strong>le</strong>s peuvent créer un biais importantsur l’estimation des paramètres et sur l’estimateur de la fonction de risque [14]. En effet sicertains individus ont un risque é<strong>le</strong>vé de développer l’événement en raison de certaines variab<strong>le</strong>snon observées, ils vont décéder rapidement et <strong>le</strong>s individus restant à risque auronttendance a être un groupe sé<strong>le</strong>ctionné avec un risque associé plus faib<strong>le</strong>. Une estimation dela fonction de risque sans tenir compte de ces variab<strong>le</strong>s non observées va conduire en unesous-estimation du risque réel et ceci de plus en plus au fur et à mesure que <strong>le</strong> temps passe.Nous pouvons supposer par exemp<strong>le</strong> que certaines variab<strong>le</strong>s explicatives sont connuesx 1 , ..., x p mais d’autres variab<strong>le</strong>s explicatives éga<strong>le</strong>ment importantes w 1 , ..., w m sont inconnues.En supposant qu’el<strong>le</strong>s ont toutes une influence sur <strong>le</strong> risque, <strong>le</strong>s temps de survieseront modélisés par un modè<strong>le</strong> à risques proportionnels de Cox :λ j (t) = λ 0 (t) exp(β jX ′ j + Ψ ′ jW j )Le vecteur W étant inconnu, ce modè<strong>le</strong> ne peut pas être utilisé en pratique. On vadonc supposer que exp(Ψ ′ jW j ) est un effet aléatoire, et <strong>le</strong> modè<strong>le</strong> devientλ j (t, X j , |Z j ) = Z j λ 0 (t) exp(β ′ jX j ) (2.4)Ce modè<strong>le</strong> est une extension du modè<strong>le</strong> à risques proportionnels de Cox, dans <strong>le</strong>quel onintroduit un effet aléatoire Z j spécifique à chaque sujet, appelée variab<strong>le</strong> de fragilité, quiagit multiplicativement sur <strong>le</strong> risque. Cette quantité décrit <strong>le</strong>s facteurs de risque, mesurab<strong>le</strong>sou non mesurab<strong>le</strong>s, non inclus dans <strong>le</strong> modè<strong>le</strong>.Ce modè<strong>le</strong> de survie à effets aléatoires a été proposé par Vaupel et al [89]. Plusgénéra<strong>le</strong>ment ce modè<strong>le</strong> à fragilité s’écritλ j (t, X j |Z j ) = Z j λ j (t, X j ) (2.5)où, λ j (t, X j ) est la fonction de risque pour un individu j, et λ j (t, X j |Z j ) est la fonctionde risque conditionnel<strong>le</strong> à l’effet aléatoire Z j . Cette fonction de risque individuel<strong>le</strong> estnon observée. Les effets aléatoires Z j sont supposés identiquement et indépendammentdistribués.


La fonction de risque margina<strong>le</strong> (ou observée), s’obtient en intégrant sur Z la fonctionde risque conditionnel<strong>le</strong>, et sera notée λ j (t, X j ). Une formu<strong>le</strong> généra<strong>le</strong> pour la fonction derisque margina<strong>le</strong> peut être obtenue par la transformation de Laplace.La transformation de Laplace pour une variab<strong>le</strong> aléatoire Z est définie par L(s) =E[exp(−Zs)]. La fonction de survie conditionnel<strong>le</strong> s’écrit :S(t, X|Z) = exp(−ZΛ(t, X))et la fonction de survie margina<strong>le</strong> peut alors s’exprimer en fonction de la transformationde Laplace :S(t, X) = E[exp(−ZΛ(t, X))] = L(Λ(t, X))La fonction de risque margina<strong>le</strong> (ou risque dans la population) peut éga<strong>le</strong>ment s’exprimeren fonction de la transformation de la Laplaceλ(t, X) =∫ ∞0( )Zλ(t, X)g(z)dz = λ(t, X) − L′ (Λ(t))L(Λ(t))(2.6)λ(t, X) = λ(t, X)E[(Z|T ≥ t)] (2.7)où g(z) est la fonction de densité de la variab<strong>le</strong> de fragilité. Ainsi, <strong>le</strong> risque dans la population(ou risque observé) est <strong>le</strong> risque moyen parmi <strong>le</strong>s sujets survivants, à un temps donné.Les individus fragi<strong>le</strong>s avec des va<strong>le</strong>urs é<strong>le</strong>vées de Z auront tendance à décéder en premier.Ainsi, E(Z|T ≥ t) la fragilité moyenne dans la cohorte des survivants, va décroître avecl’âge. L’équation (2.7) montre que <strong>le</strong> risque de décès dans la cohorte (λ(t, X)) augmentemoins vite que <strong>le</strong> risque de décès pour un individu de la cohorte (λ(t, X)). La nature dela relation entre <strong>le</strong> vieillissement individuel et celui dans la cohorte va dépendre de ladistribution des variab<strong>le</strong>s de fragilité.Distribution de la variab<strong>le</strong> de fragilitéIl semb<strong>le</strong>rait raisonnab<strong>le</strong> de choisir une loi log-norma<strong>le</strong> pour la distribution des variab<strong>le</strong>sde fragilité, car cela correspondrait à une variab<strong>le</strong> explicative norma<strong>le</strong>ment distribuée.Cependant cette distribution est moins faci<strong>le</strong>ment utilisab<strong>le</strong> que d’autres distributions.La distribution qui est la plus utilisée reste la loi gamma. L’utilisation de cetteloi a été cependant critiquée par Hougaard [46]. Les modè<strong>le</strong>s gamma à fragilité imposent


une restriction : la dépendance entre <strong>le</strong>s temps de survie est plus importante pour <strong>le</strong>sévénements tardifs. La distribution gamma a une large queue de distribution à gauche,conduisant à une dépendance plus é<strong>le</strong>vée tardivement. D’autres distributions tel<strong>le</strong>s quedes distributions positives stab<strong>le</strong>s introduites par Hougaard [45] semb<strong>le</strong>nt applicab<strong>le</strong>s ;el<strong>le</strong>s permettent notamment de préserver la proportionnalité des risques des distributionsmargina<strong>le</strong>s, mais el<strong>le</strong>s sont plus diffici<strong>le</strong>s à mettre en œuvre [76].Dans <strong>le</strong> modè<strong>le</strong> (2.5), la fonction de densité g(z) et la fonction de risque λ(t) peuventêtre identifiées si E(Z) est finie et si des variab<strong>le</strong>s explicatives sont incluses dans <strong>le</strong> modè<strong>le</strong>[29]. Si on ne souhaite pas spécifier une forme paramétrique pour la densité de probabilitéde Z, on peut choisir d’utiliser un estimateur non-paramétrique du maximum devraisemblance pour g(z) [8].Modè<strong>le</strong> à fragilité gammaLa distribution gamma pour <strong>le</strong>s variab<strong>le</strong>s z est souvent utilisée en raison de ses propriétésmathématiques. En particulier, la distribution des variab<strong>le</strong>s de fragilité parmi <strong>le</strong>ssurvivants à un âge donné est encore une distribution gamma avec <strong>le</strong> même paramètrede forme, mais avec un paramètre d’échel<strong>le</strong> différent. Ainsi, la distribution conditionnel<strong>le</strong>des variab<strong>le</strong>s de fragilité pour des temps de survie tronqués à gauche, reste dans la mêmefamil<strong>le</strong> de distribution.Dans ce cas la fonction de densité de probabilité pour Z s’écrit :g(z) = z(c−1) exp(−z/θ)Γ(c)θ cavec c > 0 <strong>le</strong> paramètre de forme et θ > 0 <strong>le</strong> paramètre d’échel<strong>le</strong> ; ainsi E(Z) = cθ etvar(Z) = cθ 2 . Nous avons représenté sur la figure (2.1) la fonction de densité de probabilitépour une loi gamma pour un paramètre d’échel<strong>le</strong> égal à 1 et différentes va<strong>le</strong>urs duparamètre de forme. A partir de cette densité de probabilité, on peut déduire faci<strong>le</strong>ment :S(t, X) =1(1 + θΛ(t, X)) c λ(t, X) =λ(t, X)cθ1 + θΛ(t, X)(2.8)et E(Z|T ≥ t) =c(1/θ + Λ(t, X))(2.9)


D’après l’équation (2.9) il apparaît que la fragilité moyenne dans la cohorte décroît lorsque<strong>le</strong> risque cumulé augmente.Fig. 2.1 – Fonction de densité de probabilité pour une loi gamma(1,c).1.81.6c=5c=2c=1c=0.51.41.210.80.60.40.200 2 4 6 8 10Quanti<strong>le</strong> zLes fonctions de risque margina<strong>le</strong> (2.8) ne sont plus proportionnel<strong>le</strong>s pour différentesva<strong>le</strong>urs de X. Le rapport des fonctions de risque margina<strong>le</strong> pour deux individus de variab<strong>le</strong>sexplicatives X 1 et X 2 est égal àλ(t, X 1 )λ(t, X 2 ) = exp(β(X 1 − X 2 )) 1 + θΛ 0(t) exp(βX 1 )1 + θΛ 0 (t) exp(βX 2 )Lorsque t = 0, <strong>le</strong> rapport des risques est égal à exp(β(X 1 − X 2 )), mais lorsque t → ∞, <strong>le</strong>rapport des risque converge vers 1.2.3.2 Le modè<strong>le</strong> à fragilité partagéeDans <strong>le</strong> paragraphe précédent, nous avons présenté des modè<strong>le</strong>s de fragilités pour traiterdes problèmes d’hétérogénéité ou de surdispersion dus à des variab<strong>le</strong>s explicatives nonobservées. Une autre utilisation de ces modè<strong>le</strong>s et des modè<strong>le</strong>s à effets aléatoires en généra<strong>le</strong>st de modéliser la dépendance statistique [17]. Cette dépendance peut être présente dansl’étude de données groupées, répétées ou récurrentes (cf Chapitre (1.2)). La dépendancepeut être entre des événements récurrents ou différents événements pour un même sujet,


ou el<strong>le</strong> peut être entre différents sujets d’un même groupe (ex : une famil<strong>le</strong>, un hôpital).Lorsque <strong>le</strong>s données sont groupées, l’utilisation d’un modè<strong>le</strong> à risques proportionnelsde Cox classique pour estimer l’effet de variab<strong>le</strong>s explicatives risque de conduire à desestimateurs sous-estimés de la variance des paramètres de régression spécifiques à chaquegroupe. De plus <strong>le</strong>s tests statistiques pour tester l’effet des variab<strong>le</strong>s explicatives risquentd’être anti-conservatif, c’est à dire significatif à tort.Le modè<strong>le</strong> pour données groupées avec variab<strong>le</strong>s explicatives en effet fixeUne solution pour tenir compte des effets groupes est d’inclure directement dans <strong>le</strong>modè<strong>le</strong> <strong>le</strong> groupe en tant que variab<strong>le</strong> explicative en effet fixe. Ainsi, lorsque l’on disposede n groupes dans l’échantillon on inclura n − 1 variab<strong>le</strong>s indicatrices comme varia dugroupe ib<strong>le</strong>s d’ajustement dans un modè<strong>le</strong> à risques proportionnels. Dans cette approcheun groupe de référence est choisi, puis des variab<strong>le</strong>s indicatrices sont inclues pour <strong>le</strong>s autresgroupes. Si on note X ij <strong>le</strong> vecteur des variab<strong>le</strong>s explicatives pour chaque sujet et W ij = {1si <strong>le</strong> sujet j appartient au groupe i ; 0 sinon}, pour i = 1, ..., G, où G représente <strong>le</strong> nombrede groupes contribuant à l’étude. La fonction de risque pour <strong>le</strong> sujet j du groupe i estalorsλ ij (t, X ij , W ij ) = λ 0 (t) exp(β ′ X ij + ψ ′ W j )où W j = (W 1j , ..., W G−1j ). Si nous n’avons pas d’effet spécifique à chaque groupe dans <strong>le</strong>modè<strong>le</strong> alors ψ 1 = ψ 2 = ... = ψ G−1 = 0 . Pour tester cette hypothèse on pourra utiliserun test de Wald, un test du rapport de vraisemblance ou un test du score.Cependant plusieurs inconvénients apparaissent dans cette approche. Tout d’abord,pour tester l’hypothèse de l’absence d’un effet groupe, on va devoir maximiser une logvraisemblancequi sera une fonction de p + G − 1 paramètres, où p est <strong>le</strong> nombre devariab<strong>le</strong>s explicatives spécifiques à chaque patient. Lorsque <strong>le</strong> nombre de groupes dansl’étude est é<strong>le</strong>vé, <strong>le</strong> nombre de paramètres à estimer peut devenir grand et des problèmesnumériques peuvent survenir. De plus si <strong>le</strong> nombre de paramètres à estimer augmente avecla tail<strong>le</strong> de l’échantillon, <strong>le</strong>s conditions asymptotiques ne sont plus strictement respectées.De plus, dans un modè<strong>le</strong> à risques proportionnels à effets fixes, il est nécessaire d’avoirau moins un événement dans chaque groupe, sinon <strong>le</strong>s estimateurs des effets groupes


n’existent pas.Enfin, lorsque tous <strong>le</strong>s événements dans un groupe se produisent avant (ou après) tous<strong>le</strong>s événements d’un autre groupe, alors l’estimateur de cet effet groupe sera égal à +∞(ou −∞).Dans un récent artic<strong>le</strong>, Andersen et al [7] ont comparé deux modélisations de l’effetgroupe, cel<strong>le</strong> utilisant des effets fixes et cel<strong>le</strong> utilisant un effet aléatoire (modè<strong>le</strong> à fragilité).Ils comparent par simulations de Monte Carlo des tests basés sur <strong>le</strong>s modè<strong>le</strong>s à effets fixes(test de Wald, test du rapport de vraisemblance et test du score) au test du score basésur un modè<strong>le</strong> à effets aléatoires. Les résultats des simulations suggéraient qu’à moinsd’avoir des tail<strong>le</strong>s de groupes é<strong>le</strong>vées ou des tail<strong>le</strong>s d’échantillons é<strong>le</strong>vées, <strong>le</strong>s tests sur<strong>le</strong>s modè<strong>le</strong>s à effets fixes ne doivent pas être utilisés, car ils sont anti-conservatifs. Eneffet dans ces situations, l’utilisation d’un modè<strong>le</strong> à effets fixes conduit trop souvent à lanécessité d’ajuster sur un effet centre alors qu’en fait il n’existe pas d’effet centre. Cesproblèmes de tests anti-conservatifs ne se posaient pas pour <strong>le</strong> test du score basé sur unmodè<strong>le</strong> à effet aléatoire. La puissance des tests sur <strong>le</strong>s effets fixes semblait dans tous <strong>le</strong>scas plus é<strong>le</strong>vée que cel<strong>le</strong> obtenue par <strong>le</strong> test du score sur <strong>le</strong>s effets aléatoires. Cependant,ceci est sûrement une fausse impression, provenant du fait que <strong>le</strong> risque de première espècepour <strong>le</strong>s tests sur <strong>le</strong>s effets fixes est supérieur à 5%.Le modè<strong>le</strong>L’approche qui a été proposée par Clayton [17] pour tenir compte des corrélationsintra-groupe est cel<strong>le</strong> utilisant un modè<strong>le</strong> à fragilité partagée. Ce modè<strong>le</strong> est une extensiondu modè<strong>le</strong> classique de Cox dans <strong>le</strong>quel on rajoute un effet aléatoire Z i spécifique à chaquegroupe. La fonction de risque conditionnel<strong>le</strong> pour <strong>le</strong> sujet j (j = 1, ..., n i ) du groupe i(i = 1, ..., G) s’exprime alors parλ ij (t, X ij |Z i ) = Z i λ(t, X ij ) (2.10)Dans ce modè<strong>le</strong>, la variab<strong>le</strong> de fragilité Z i est une variab<strong>le</strong> aléatoire spécifique à chaquegroupe ; el<strong>le</strong> est donc partagée par tous <strong>le</strong>s individus d’un même groupe.Plus généra<strong>le</strong>ment, <strong>le</strong> modè<strong>le</strong> stratifié à fragilité partagée pour <strong>le</strong> sujet j (j = 1, ..., n ih ),


de la strate h (h = 1, .., K) et du groupe i (i = 1, ..., G) s’écritλ ihj (t, X ihj |Z i ) = Z i λ 0h (t) exp(β ′ X ihj ) (2.11)Dans ce modè<strong>le</strong>, la fonction de risque de base λ 0h (t) indexée par h est la fonction de risquede base au temps t pour <strong>le</strong>s sujets de la strate h. Ainsi, ce modè<strong>le</strong> permet d’attribuer unefonction de risque de base différente pour <strong>le</strong>s sujets des différentes strates (par exemp<strong>le</strong>pour des sexes différents). Dans ce type de modè<strong>le</strong> stratifié on suppose que l’effet desvariab<strong>le</strong>s explicatives est <strong>le</strong> même (même β) pour deux individus de strates différentes,alors que <strong>le</strong>ur risque de base est différent.Le modè<strong>le</strong> fait une hypothèse d’indépendance des temps de survie entre groupes.D’autre part il fait l’hypothèse d’indépendance des temps de survie dans chaque groupeconditionnel<strong>le</strong>ment aux effets aléatoires z i .Cette variab<strong>le</strong> de fragilité va représenter l’ensemb<strong>le</strong> des facteurs de risque non observéset commun à un même groupe, qui vont fragiliser <strong>le</strong>s individus d’un même groupe et êtreresponsab<strong>le</strong>s de la dépendance dans <strong>le</strong> groupe. Les sujets des groupes avec une va<strong>le</strong>uré<strong>le</strong>vée de la variab<strong>le</strong> de fragilité subiront l’événement plus tôt en moyenne que ceux desgroupes ayant une faib<strong>le</strong> va<strong>le</strong>ur de l’effet aléatoire. Ainsi <strong>le</strong>s individus <strong>le</strong>s plus fragi<strong>le</strong>sdécèderont plus tôt. On voit bien dans ce modè<strong>le</strong> que si la va<strong>le</strong>ur de l’effet aléatoire pourun groupe est supérieur à 1, <strong>le</strong>s sujets de ce groupe auront un risque plus é<strong>le</strong>vé que dansun modè<strong>le</strong> à risques proportionnels classique où Z i est égal à 1 avec une probabilité de1. Inversement, si Z i est inférieure à 1, <strong>le</strong>s individus du groupe i auront une survie pluslongue que cel<strong>le</strong> prédite sous <strong>le</strong> modè<strong>le</strong> à risques proportionnels classique.Ce modè<strong>le</strong> de survie à effets aléatoires va nous permettre de quantifier la variabilitéentre groupes (ou la dépendance intra-groupe), ce que nous ne pouvions pas évaluerdans un modè<strong>le</strong> à effets fixes ou par une approche margina<strong>le</strong>. D’autre part, il va êtreintéressant de tester l’hypothèse d’indépendance des temps de survie après la prise encompte de certaines variab<strong>le</strong>s explicatives. On va chercher à savoir si certaines variab<strong>le</strong>speuvent expliquer une partie de la dépendance intra-groupe.Une approche par processus de comptage sur <strong>le</strong>s modè<strong>le</strong>s à fragilités a été éga<strong>le</strong>mentconsidérée par Gill [34] sur une discussion de l’artic<strong>le</strong> de Clayton et Cuzick [18] et a étéreprise par plusieurs auteurs [70, 74].


2.3.3 Modè<strong>le</strong> à fragilité corréléeUne autre structure de modè<strong>le</strong> à fragilité a été proposée pour tenir compte à la foisd’une hétérogénéité due à des variab<strong>le</strong>s individuel<strong>le</strong>s non observées et d’une corrélationentre certains individus. Ce modè<strong>le</strong>, dit à fragilité corrélée, a été développé par plusieursauteurs [75, 95, 74, 55] qui cherchaient à distinguer l’effet des facteurs de risque environnementauxpar rapport aux facteurs génétiques sur la survie des jumeaux. Dans ce modè<strong>le</strong>on fait une décomposition de la variab<strong>le</strong> de fragilité en une somme de deux variab<strong>le</strong>s de fragilité,une partagée par plusieurs individus d’un même groupe, l’autre étant non partagée.Le modè<strong>le</strong> conditionnel à fragilité corrélée se présente de la manière suivante pour <strong>le</strong>sujet j (j = 1, ..., n i ), de la strate h (h = 1, .., K) et du groupe i (i = 1, ..., G)λ ihj (t|Z (j)i ) = Z (j)i λ 0h (t) exp(β ′ X ij )où λ 0h (t) est la fonction de risque de base en un temps t pour <strong>le</strong>s sujets de la strate h etZ (j)iest une variab<strong>le</strong> aléatoire spécifique au sujet j du groupe i. Ces variab<strong>le</strong>s aléatoiresdans chaque groupe sont corrélées selon une structure de corrélation additive de la manièresuivante :Z (1)iZ (2)i= Z i0 + Z i1= Z i0 + Z i2..où Z i0 , Z i1 , . . . , Z iniZ (n i)i= Z i0 + Z inisont des variab<strong>le</strong>s aléatoires indépendantes et distribuées selon uneloi gamma de paramètres (c, θ), (c ∗ , θ),. . . , (c ∗ , θ) respectivement. Ainsi, <strong>le</strong>s variab<strong>le</strong>saléatoires Z (j)isuivront une loi gamma de paramètres (c + c ∗ , θ). Comme précédemment,pour rendre λ 0h (t) identifiab<strong>le</strong> on suppose 1/θ = c + c ∗ , ainsi l’espérance des fragilitéssera éga<strong>le</strong> à 1 (soit E(Z j i ) = (c + c∗ )θ = 1) et la variance des Z (j)isera éga<strong>le</strong> à θ (soit(c + c ∗ )θ 2 = θ). Lorsque var(Z ij ) = 0 (pour j ≠ 0) <strong>le</strong> modè<strong>le</strong> devient <strong>le</strong> modè<strong>le</strong> à fragilitépartagée.La variab<strong>le</strong> Z i0 va induire une corrélation des individus dans chaque groupe et peutrefléter l’ensemb<strong>le</strong> des facteurs de risque génétiques ou environnementaux communs auxindividus d’un même groupe. Les variab<strong>le</strong>s Z ij (pour j ≠ 0) vont traduire une éventuel<strong>le</strong>


hétérogénéité entre individus même après avoir pris en compte des facteurs de risquegénétiques ou environnementaux communs. Cela peut correspondre par exemp<strong>le</strong> à un environnementnon-partagé (ex : habitudes alimentaires).2.3.4 EstimationsEstimation dans <strong>le</strong> modè<strong>le</strong> à fragilité partagéeDans ce paragraphe nous allons considérer un modè<strong>le</strong> à fragilité partagée avec destemps de survie Y ihj pour un sujet j de la strate h et du groupe i. Ces temps de surviepourront être censurés à droite (δ ihj sera l’indicateur de censure) ou tronqués à gauche(L ihj sera <strong>le</strong> temps de troncature gauche). Nous considérons <strong>le</strong> même modè<strong>le</strong> stratifié àfragilité partagée que celui du paragraphe 2.3.2 (modè<strong>le</strong> 2.11).λ ihj (t, X ihj |Z i ) = Z i λ 0h (t) exp(β ′ X ihj )Nous supposerons que la variab<strong>le</strong> de fragilité suit une loi gamma de paramètre deforme c > 0 , et de paramètre d’échel<strong>le</strong> θ > 0. Une restriction qui est souvent apportéeau modè<strong>le</strong> à fragilité afin de rendre la fonction de risque identifiab<strong>le</strong>, est d’imposer quel’espérance des effets aléatoires soit éga<strong>le</strong> à 1 (en posant c = 1/θ) ; ainsi E(Z) = 1 etvar(Z) = θ. Par conséquent, λ(t, X) = λ 0h (t) exp(β ′ X ihj ) s’interprète comme la fonctionde risque pour un individu “moyen”, c’est à dire pour une va<strong>le</strong>ur moyenne de variab<strong>le</strong>sexplicatives non observées.La fonction de survie conjointe pour l’ensemb<strong>le</strong> des temps de survie du groupe i estéga<strong>le</strong> à :(S(t i11 , ..., t i1ni1 , ..., t iK1 , ..., t iKniK ) = 1 + θK∑ ∑n ihΛ 0 (t ihj ) exp(β ′ X ihj )h=1 j=1On ne va pas chercher à estimer directement <strong>le</strong>s effets aléatoires mais plutôt la variancedes effets aléatoires. De larges va<strong>le</strong>urs de la variance θ de l’effet aléatoire reflèteront uneforte hétérogénéité entre <strong>le</strong>s unités et une forte corrélation entre <strong>le</strong>s observations d’unemême unité. Lorsque la variance θ des effets aléatoires (dont la moyenne est éga<strong>le</strong> à 1) tendvers 0, alors <strong>le</strong> modè<strong>le</strong> devient un modè<strong>le</strong> de Cox classique sous l’hypothèse d’indépendancedes données.) 1/θ


Dans <strong>le</strong> modè<strong>le</strong> à fragilité, <strong>le</strong>s paramètres sont estimés par maximisation d’une vraisemblanceet non par maximisation d’une vraisemblance partiel<strong>le</strong> de Cox. Nous allonsdonc avoir trois types de paramètres d’intérêt à estimer : <strong>le</strong>s coefficients de régression β,la variance des effets aléatoires θ et <strong>le</strong>s fonctions de risque de base λ 0h (t).Comme l’ont mentionné Nielsen et al [70], nous supposerons dans <strong>le</strong> modè<strong>le</strong> à fragilitéque conditionnel<strong>le</strong>ment à la variab<strong>le</strong> Z et aux variab<strong>le</strong>s explicatives, la censureest indépendante et non-informative pour Z ′ = (Z 1 , ..., Z G ). De plus on va supposerune indépendance des temps de survie dans chaque groupe conditionnel<strong>le</strong>ment aux effetsaléatoires Z i .A partir de ces hypothèses et si Z était observée, on pourrait effectuer des inférencesstatistiques à partir de la contribution à la vraisemblance conjointe de Y i et Z i pour <strong>le</strong>groupe i :V i (Y i , X ihj |Z i ) =K∏ ∏n ihh=1 j=1λ ihj (Y ihj , X ihj |Z i ) δ ihj S ihj(Y ihj , X ihj |Z i )S ihj (L ihj , X ihj |Z i ) g(z i) (2.12)où g(z) est la fonction de densité de la variab<strong>le</strong> de fragilité. Cette vraisemblance n’étantpas observée, on travail<strong>le</strong> sur la vraisemblance margina<strong>le</strong> obtenue par intégration de lavraisemblance conjointe.V i (Y i , X ihj ) =∫ +∞0K∏ ∏n ihh=1 j=1λ ihj (Y ihj , X ihj |Z i ) δ ihj S ihj(Y ihj , X ihj |Z i )S ihj (L ihj , X ihj |Z i ) g(z i)∂z iPuis par indépendence des G groupes on obtient la vraisemblance sur l’échantillon :V (Y, X) =G∏i=1∫ +∞0K∏ ∏n ihh=1 j=1λ ihj (Y ihj , X ihj |Z i ) δ ihj S ihj(Y ihj , X ihj |Z i )S ihj (L ihj , X ihj |Z i ) g(z i)∂z iSi g(z) est la fonction de densité d’une loi gamma éga<strong>le</strong> à :alors la vraisemblance sera éga<strong>le</strong> à :g(z) = z(1/θ−1) exp(−z/θ)Γ(1/θ)θ 1/θ


V (Y, X) ={G∏ ∏ K∏n ih(λihj (Y ihj , X ihj )ihj)δi=1h=1 j=1}Γ(m i + 1/θ)×Γ(1/θ)θ 1/θ ( ∑ n ihj=1 [Λ ihj(Y ihj , X ihj ) − Λ ihj (L ihj , X ihj )] + 1/θ) m i+1/θoù m i = ∑ K ∑ nihh=1 j=1 I{δ ihj = 1}, est <strong>le</strong> nombre d’événements dans <strong>le</strong> groupe i.Il est plus faci<strong>le</strong> de travail<strong>le</strong>r sur <strong>le</strong> logarithme de la vraisemblance, qui prend la formesuivante :{G∑ ∑ K∑n ihln(V (Y, X)) =δ ihj {β ′ X ihj + ln(λ 0h (Y ihj ))} (2.13)i=1 h=1 j=1[−(1/θ + m i ) ln 1 + θ]K∑ ∑n ih(Λ 0h (Y ihj ) − Λ 0h (L ihj )) exp(β ′ X ihj )h=1 j=1+m i ln θ + ln [Γ(1/θ + m i )] − ln Γ(1/θ)}Cette expression a été proposée par Nielsen et al [70] qui utilisaient une approche parprocessus de comptage puis par K<strong>le</strong>in et al [53]. Nous avons proposé une simplification dela dernière ligne de cette expression, cette nouvel<strong>le</strong> formulation mathématique équiva<strong>le</strong>ntene fait plus intervenir de fonctions gamma et la log-vraisemblance devient éga<strong>le</strong> à :{G∑ ∑ K∑n ihln(V (Y, X)) =δ ihj {β ′ X ihj + ln(λ 0h (Y ihj ))} (2.14)i=1 h=1 j=1[−(1/θ + m i ) ln 1 + θ]K∑ ∑n ih(Λ 0h (Y ihj ) − Λ 0h (L ihj )) exp(β ′ X ihj )h=1 j=1}∑m i+I{m i ≠ 0} [ln(1 + θ(m i − k))]k=1A partir de cette vraisemblance nous sommes en présence de trois paramètres d’intérêtinconnus :– la variance des effets aléatoires θ,– <strong>le</strong>s coefficients de régression β traduisant l’effet des variab<strong>le</strong>s explicatives,– et la fonction de risque de base (et la fonction de risque cumulée de base) en chaquetemps de survie ou de censure.Plusieurs approches ont été proposées pour estimer ces paramètres. El<strong>le</strong>s vont être exposéesdans <strong>le</strong>s paragraphes suivants.


Le schéma d’estimation peut être simplifié si on utilise une forme paramétrique pourla fonction de risque de base [23], puisque <strong>le</strong>s estimateurs des paramètres sont directementobtenus par maximisation du modè<strong>le</strong>.Murphy [67, 68] a démontré la consistance et la normalité asymptotique des estimateursnon-paramétriques du maximum de vraisemblance dans <strong>le</strong> modè<strong>le</strong> à fragilité partagéesans variab<strong>le</strong>s explicatives, c’est à dire lorsque <strong>le</strong>s paramètres à estimer sont la fonctionde risque cumulée de base et la variance des variab<strong>le</strong>s de fragilité (de loi gamma). Plusrécemment, Parner [73] a étendu ces résultats au modè<strong>le</strong> de fragilité corrélée avec desvariab<strong>le</strong>s explicatives.Une autre mesure de la dépendance intra-groupe peut être utilisée, en estimant <strong>le</strong> taude Kendall qui est égal à τ =θθ+2dans <strong>le</strong> cas d’une fragilité gamma. Lorsque cette va<strong>le</strong>urest éga<strong>le</strong> à 0, on est en présence d’une indépendance intra-groupe.Approche semi-paramétrique : algorithme EML’approche qui est la plus utilisée actuel<strong>le</strong>ment pour maximiser la vraisemblance estl’approche semi-paramétrique qui s’appuie sur l’agorithme EM. Cette approche a étédéveloppée par Gill [34], puis par Nielsen et al [70], puis par K<strong>le</strong>in et al [53] qui ont appliquéce modè<strong>le</strong> sur <strong>le</strong>s données de l’étude Framingham pour tester un effet aléatoire surla survie des famil<strong>le</strong>s ou des coup<strong>le</strong>s.L’algorithme EM alterne entre deux étapes :– Une première étape (“Expectation step”) consiste à remplacer <strong>le</strong> terme de fragilitépar son espérance sachant <strong>le</strong>s temps d’observations.– La seconde étape (“Maximization step”) estime à partir d’une vraisemblance partiel<strong>le</strong>la variance des effets aléatoires, l’effet des variab<strong>le</strong>s explicatives en utilisantune technique de “profi<strong>le</strong>-likelihood”.L’algorithme itère entre ces deux étapes jusqu’à la convergence des estimateurs.Nous allons détail<strong>le</strong>r cet algorithme mais pour simplifier <strong>le</strong>s notations, nous allonsconsidérer un modè<strong>le</strong> non stratifié et dans <strong>le</strong>quel <strong>le</strong>s données ne sont pas tronquées à


gauche.Cette approche utilise la fonction de vraisemblance que nous aurions si <strong>le</strong>s variab<strong>le</strong>sde fragilité avaient été observées ; cette expression se déduit de l’expression (2.12).avec,L F ull = L 1 (θ) + L 2 (β, Λ 0 )L 1 (θ) = −G [(1/θ) ln θ + ln Γ(1/θ)] +G∑[1/θ + m i − 1] ln(z i ) − z i /θ (2.15)i=1L 2 (β, Λ 0 ) =G∑ ∑n iδ ij [β ′ X ij + ln λ 0 (y ij )] − z i Λ 0 (y ij ) exp(β ′ X ij ) (2.16)i=1 j=1– Etape 0 :Des va<strong>le</strong>urs initia<strong>le</strong>s sont attribuées à β, θ et λ 0k pour k = 1, ..., M (M étant <strong>le</strong>nombre de décès dans l’échantillon).– Etape 1 : “E-step”On peut montrer que sachant <strong>le</strong>s données et <strong>le</strong>s estimateurs courants des paramètres,<strong>le</strong>s effets alétoires z i sont des variab<strong>le</strong>s aléatoires indépendantes qui suivent une loigamma de paramètres A i et C i , avec, A i = [1/θ+m i ] et C i = [1/θ+ ∑ Gi=1 Λ 0(y ij ) exp(β ′ X ij )].On a donc, E[Z i |données] = A i /C i et E[ln Z i |données] = [ψ(A i ) − ln C i ], avec ψreprésentant la fonction digamma. Ces va<strong>le</strong>urs moyennes sont calculées et vont remplacerz i et ln z i dans <strong>le</strong>s expressions (2.15) et (2.16).– Etape 2 : “M-step”– Mettre à jour l’estimation de β, θ et de λ k0 pour (k = 1, ..., D) en utilisant lalog-vraisemblance partiel<strong>le</strong> suivante :⎧⎡⎤⎫D∑ ⎨L 3 (β) =⎩ S (k) − m (k) ln ⎣ ∑⎬ẑ l exp(β ′ X l ) ⎦⎭k=1l∈R(t (k) )pour cela, t (k) sont <strong>le</strong>s temps de décès ordonnés, avec k = 1, ..., D et D <strong>le</strong> nombrede décès,m (k) <strong>le</strong> nombre de décès au temps t (k) , R(t (k) ) est l’ensemb<strong>le</strong> des indices des sujetsà risque au temps t (k) ,


ẑ l <strong>le</strong>s va<strong>le</strong>urs moyennes des variab<strong>le</strong>s de fragilité pour <strong>le</strong> l ième individu,et S (k) est la somme des variab<strong>le</strong>s explicatives des individus décédés en t (k) .Cette vraisemblance est cel<strong>le</strong> utilisée dans un modè<strong>le</strong> de Cox classique (cf vraisemblance(2.2)), dans laquel<strong>le</strong> on introduit une variab<strong>le</strong> explicative spécifiqueà chaque groupe (ln(A i /C i ) = ẑ i ). La fonction de risque cumulée de base seraestimée par :ˆΛ 0 (t) = ∑t (k) ≤tλ k0 = ∑t (k) ≤tm (k)∑l∈R(t (k) ) ẑl exp(β ′ X l )– Mettre à jour l’estimation de θ basée sur la vraisemblance L 4 = E[L 1 (θ)|données],c’est à dire dans <strong>le</strong>s équations (2.15) et (2.16) remplacer z i par A i /C i et ln z i parψ(A i ) − ln(C i ).L 4 (θ) = −G [(1/θ)lnθ + lnΓ[1/θ]] +G∑[1/θ + m i − 1][ψ(A i ) − lnC i ] − A i /C i θi=1c’est à dire dans <strong>le</strong>s équations 2.15 et (2.16) , on remplace z i par A i /C i et ln z ipar ψ(A i ) − ln(C i ).L’algorithme itère entre ces étapes 1 et 2 jusqu’à la convergence.L’algorithme EM est simp<strong>le</strong> et faci<strong>le</strong> à programmer, ce sont <strong>le</strong>s principa<strong>le</strong>s raisons de sapopularité. Cependant il nécessite un grand nombre d’itérations. Des variantes de l’algorithmeEM ont été proposées par Nielsen et al [70] et Petersen et al [74].La log-vraisemblance (équation (2.13)) décrite dans <strong>le</strong> paragraphe (2.3.4) sera utiliséepour estimer la variance des paramètres de régression et la variance des effets aléatoires.Des schémas d’estimation équiva<strong>le</strong>nts ont été développés en utilisant une distributionpositive stab<strong>le</strong> [93], ou une gaussienne inverse [53] pour la variab<strong>le</strong> de fragilité.Estimation par vraisemblance pénalisée sur <strong>le</strong>s effets aléatoiresL’approche par vraisemblance pénalisée sur <strong>le</strong>s modè<strong>le</strong>s à fragilité partagée a été proposéepar Therneau [88]. Il démontre qu’il existe une connexion intéressante entre <strong>le</strong>smodè<strong>le</strong>s de régression pénalisés et <strong>le</strong>s modè<strong>le</strong>s à fragilité. Il apparaît que <strong>le</strong> modè<strong>le</strong> à fragilitégamma peut être représenté comme un modè<strong>le</strong> de régression pénalisée ; il en est de


même pour <strong>le</strong> modè<strong>le</strong> à fragilité gaussienne.La méthode d’estimation comporte des similitudes avec l’algorithme EM. El<strong>le</strong> est baséesur une modification de la vraisemblance partiel<strong>le</strong> de Cox, c’est à dire sur une “profi<strong>le</strong>likelihood” dans laquel<strong>le</strong> on remplace Λ 0 (t) par son estimateur de Breslow.Le modè<strong>le</strong> considéré est celui à risques proportionnels avec des variab<strong>le</strong>s de fragilité,la fonction de risque pour <strong>le</strong> sujet j du groupe i étant représentée par :λ ij (t|z i ) = λ 0 (t) exp(β ′ X ij + z ′ i W j )où β ′ = (β 1 , ..., β p ) est <strong>le</strong> vecteur des p effets fixes, et z ′ = (z 1 , ..., z G ) est <strong>le</strong> vecteur des Geffets aléatoires, <strong>le</strong> vecteur X ij = (X ij1 , ..., X ijp ) ′ va contenir des variab<strong>le</strong>s explicatives mesuréeset W j = (W 1j , ..., W Gj ) sera un vecteur (du schéma d’étude) qui va décrire comment<strong>le</strong>s effets aléatoires s’appliquent à chaque individu, W ij sera égal à 1 si <strong>le</strong> sujet j appartientau groupe i, 0 sinon. Dans ce modè<strong>le</strong>, on suppose que Z suit une distribution p(z, D),de moyenne 0 et de matrice de covariance D = D(θ), avec θ un vecteur de paramètresinconnus. Une autre notation du modè<strong>le</strong> qui se rapproche plus des modè<strong>le</strong>s à fragilitédécrits dans <strong>le</strong>s chapitres précédents est de définir Z i = exp(z ′ W i ) comme la variab<strong>le</strong> defragilité pour chaque unité, et la contrainte imposée ne sera plus E(Z) = 0 mais E(Z) = 1.La vraisemblance prend la forme d’une vraisemblance partiel<strong>le</strong> pénalisée, représentéepar une différence entre deux termes :P P L = P L(β, z; t) − f(z; θ) (2.17)Ici, P L est la vraisemblance partiel<strong>le</strong> de Cox usuel<strong>le</strong> et f est un terme de pénalisation quiprend des va<strong>le</strong>urs é<strong>le</strong>vées pour des va<strong>le</strong>urs extrêmes de la variab<strong>le</strong> z et évite des différencesimportantes entre <strong>le</strong>s fragilités des différents groupes. La va<strong>le</strong>ur du terme de pénalisationva dépendre de la distribution des variab<strong>le</strong>s de fragilité. Les estimateurs ˆβ(θ) et ẑ(θ) sontdéfinis comme <strong>le</strong>s estimateurs de la vraisemblance pénalisée (2.17).Cette procédure inclut des équations d’estimation simp<strong>le</strong>s, mais el<strong>le</strong> résulte en unesous-estimation des variances des paramètres des effets fixes ( ˆβ) car el<strong>le</strong> ne tient pascompte de la variabilité θ des effets aléatoires (θ étant un paramètre fixé). Ces méthodessont encore récentes et méritent d’être développés.


Estimation dans <strong>le</strong> modè<strong>le</strong> à fragilité corréléeLe modè<strong>le</strong> à fragilité corrélée (paragraphe(2.3.3)) résulte d’une expression de la vraisemblanceplus compliquée que cel<strong>le</strong> utilisée dans <strong>le</strong> modè<strong>le</strong> à fragilité partagée [74].Rappelons la forme du modè<strong>le</strong> à fragilité corrélée :avec, Z (j)iλ ij (t|Z (j)i ) = Z (j)i λ 0 (t) exp(β ′ X ij ) (2.18)= Z i0 +Z ij et Z ′ = (Z i0 , Z i1 , ..., Z ini ) sont des variab<strong>le</strong>s aléatoires indépendanteset non observab<strong>le</strong>s distribuées selon une loi gamma de paramètres respectifs (c, θ), (c ∗ , θ),. . . , (c ∗ , θ).On supposera 1/θ = c + c ∗ , ainsi l’espérance des fragilités sera éga<strong>le</strong> à 1 (soit E(Z (j)i ) = 1)et la variance des Z (j)isera éga<strong>le</strong> à θ. Pour simplifier <strong>le</strong>s notations, nous ne considèreronspar la suite que des temps de survie éventuel<strong>le</strong>ment censurés à droite (mais pas tronquésà gauche) et un modè<strong>le</strong> non stratifié.En supposant que la censure est indépendante et non informative pour Z, la vraisemblancesur <strong>le</strong>s données non observées prend la forme :V (Y, X|Z) = (2.19){G∏ ∏ ni}[() ]λ ij (Y ij , X ij |Z (j)i ) δ ijexp −Z (j)i Λ ij (Y ij , X ij ) p(z ij ; c ∗ , θ) p(z i0 ; c, θ)i=1j=1où p(., c, θ) est la densité de probabilité d’une loi gamma de paramètres (c, θ).La difficulté de la vraisemblance réside dans <strong>le</strong> produit des termes de fragilité. Enutilisant la formu<strong>le</strong> du binome ((x + y) n = ∑ ni=0 Ci nx n−i y i ) on obtient la relation :∏n ij=1De plus on utilise <strong>le</strong> fait que :(z i0 + z ij ) δ ij=∑δ i1k 1 =0...δ ini∑∏n ik ni =0 j=1z k ji0 Zδ ij−k jij∫ ∞0z m ij exp(−z ij Λ ij )p(z ij )∂z ij = Γ(m + c∗ )Γ(c ∗ )1θ c∗ (Λ ij + 1/θ) m+c∗Si on note m i <strong>le</strong> nombre de décès dans <strong>le</strong> groupe i, la vraisemblance margina<strong>le</strong> s’obtientpar intégration de la vraisemblance conditionnel<strong>le</strong> précédente :V (Y, X) = (2.20){G∏ ∏ ni[λij (Y ij , X ij ) ] [∏n i ( ) ] c ∗ δ 1 ∑m i[] }ijC (m i) Γ(c + j) 1jθ(1/θ + Λ ij )Γ(c) θ c (Λ i. + 1/θ) c+ji=1j=1j=1j=1


avec, Λ i. = ∑ m ij=1 Λ ijet <strong>le</strong>s C (m)rC (r)r = 1C (r)jsont définis récursivement par= C (r−1)j−1C (r)0 = c r C (r−1)0+ c r C (r−1)j , pour j = 1, ..., r − 1en commençant par C (0)0 = 1 et pour r = 1, ..., n ic r =c ∗(Λ ir + 1/θ)L’algorithme EM peut être éga<strong>le</strong>ment utilisé pour estimer <strong>le</strong>s paramètres selon lamême procédure décrite pour <strong>le</strong>s modè<strong>le</strong>s à fragilité partagée. Il faudra cependant utiliserdes calculs récursifs pour évaluer des espérances conditionnel<strong>le</strong>s des variab<strong>le</strong>s de fragilité(utilisée dans l’étape E).Une approche par vraisemblance pénalisée a été éga<strong>le</strong>ment proposée par Ripatti [79]qui s’intéressait à une structure additive multivariée des variab<strong>le</strong>s de fragilité.


Chapitre 3Approche par vraisemblancepénaliséeLa méthode d’estimation la plus utilisée sur <strong>le</strong>s modè<strong>le</strong>s à fragilité est une méthodesemi-paramétrique utilisant l’algorithme EM qui peut être utilisée pour des schémas dedonnées censurées à droite et tronquées à gauche. Cependant, même si cette méthode estrelativement simp<strong>le</strong> à mettre en œuvre, el<strong>le</strong> demande des temps de calcul relativementlongs. D’autre part cette méthode ne fournit pas directement un estimateur lisse de lafonction de risque, or il est raisonnab<strong>le</strong> de contraindre l’estimateur de la fonction derisque à être continu et à avoir de faib<strong>le</strong>s variations loca<strong>le</strong>s. De plus en épidémiologie,cette fonction a une interprétation intéressante ; en particulier si l’âge est choisi commetemps de base, la fonction de risque représente l’incidence d’une maladie en fonction del’âge. Nous proposons donc d’utiliser une méthode d’estimation semi-paramétrique parvraisemblance pénalisée sur des modè<strong>le</strong>s à fragilité, afin d’imposer à la fonction de risqued’être lisse.3.1 Vraisemblance pénalisée et modè<strong>le</strong> à fragilitéLa méthode d’estimation par vraisemblance pénalisée a été utilisée dans <strong>le</strong> cadre desmodè<strong>le</strong>s de survie classiques, sous l’hypothèse d’indépendance des temps de survie [72, 50].Nous nous sommes inspirés de cette approche pour l’étendre au cas des données corréléesafin d’estimer la variance des effets aléatoires θ, <strong>le</strong>s coefficients de régression β et la fonctionde risque de base λ 0 (.) (et par conséquent la fonction de risque cumulée de base Λ 0 (.) ).41


Nous présentons la méthode d’estimation semi-paramétrique sur des modè<strong>le</strong>s stratifiésà fragilité partagée :λ ihj (t, X ihj |Z i ) = Z i λ 0h (t) exp(β ′ X ihj )Le temps de survie Y ihj pour un sujet j de la strate h et du groupe i peut être censuréà droite (δ ihj =indicateur de censure) et tronqué à gauche (L ihj =<strong>le</strong> temps de troncaturegauche). Nous supposerons dans ce modè<strong>le</strong> que conditionnel<strong>le</strong>ment à la variab<strong>le</strong>Z iet aux variab<strong>le</strong>s explicatives, la censure est indépendante et non-informative pourZ ′ = (Z 1 , ..., Z G ). De plus on suppose une indépendance des temps de survie dans chaquegroupe conditionnel<strong>le</strong>ment aux effets aléatoires Z i .Initia<strong>le</strong>ment nous supposons que la fonction de risque à estimer a une certaine régularité.Un moyen d’utiliser cette connaissance a priori est de pénaliser la vraisemblance par unterme qui prendra des va<strong>le</strong>urs é<strong>le</strong>vées lorsque la fonction à estimer est peu lisse. Ainsi,il est naturel d’introduire dans <strong>le</strong> terme de pénalisation la dérivée seconde de la fonctionde risque qui reflète <strong>le</strong>s changements de pente de la fonction de risque. Pour obtenir cetestimateur lisse nous utilisons la log-vraisemblance pénalisée suivante :pl(λ 0h (.), β, θ) = l(λ 0h (.), β, θ) −K∑∫ ∞κ hh=10λ ′′0h(u) 2 du (3.1)où, l(λ 0h (.), β, θ) est la log-vraisemblance obtenue par l’équation (2.14) du paragraphe(2.3.4), κ h est <strong>le</strong> paramètre de lissage positif pour la strate h et ∫ λ ′′0h (u)2 du = ||λ ′′0h (.)||2<strong>le</strong> carré de la norme L 2 de la dérivée seconde de la fonction de risque de base pour la strateh. La fonction de risque de base λ 0h (.) doit appartenir à la classe des fonctions continues,deux fois différentiab<strong>le</strong>s et dont la dérivée seconde est de carré intégrab<strong>le</strong>. En pratique ilsuffit de calcu<strong>le</strong>r ∫ max(T ihj )0λ ′′0h (u)2 du car la solution de (3.1) satisfait λ ′′0h (u)2 = 0 lorsqueu ≥ max(T ihj ).Cette expression représente, pour un paramètre de lissage donné, un compromis entreun ajustement sur <strong>le</strong>s données, représentée par l(λ 0h (.), β, θ) et une contrainte de régularité,représentée par <strong>le</strong> carré de la norme de la dérivée seconde de la fonction de risque de base.La log-vraisemblance impose à l’estimateur de refléter <strong>le</strong>s données, alors que <strong>le</strong> terme depénalisation cherche à réduire <strong>le</strong>s variations importantes de la fonction de risque λ ; <strong>le</strong>paramètre de lissage κ h doit permettre d’établir un équilibre entre ces deux objectifs.Ainsi, une fonction de risque λ 0 (t) peu lisse aura des changements de pente importants et


une va<strong>le</strong>ur é<strong>le</strong>vée de ∫ λ ′′0(u) 2 du, et par conséquent une faib<strong>le</strong> va<strong>le</strong>ur de la vraisemblancepénalisée.Dans <strong>le</strong> cadre du modè<strong>le</strong> à fragilité partagée avec des temps de survie censurés àdroite et tronqués à gauche et une variab<strong>le</strong> de fragilité Z i qui suit une loi gamma, lalog-vraisemblance pénalisée prend la forme :pl(λ 0h (.), β, θ) ={G∑ ∑ K∑n ihδ ihj {β ′ X ihj + ln(λ 0h (Y ihj ))} (3.2)i=1h=1 j=1−(1/θ + m i ) ln[1 + θ]K∑ ∑n ih(Λ 0h (Y ihj ) − Λ 0h (L ihj )) exp(β ′ X ihj )h=1 j=1}∑m i+I{m i ≠ 0} [ln(1 + θ(m i − k))] −k=1K∑∫κ hh=1λ ′′0h(u) 2 duoù, I{.} est la fonction indicatrice.A partir de cette expression (3.2), nous sommes en présence de trois paramètres d’intérêtinconnus :– la variance des effets aléatoires θ,– <strong>le</strong>s coefficients de régression β traduisant l’effet des variab<strong>le</strong>s explicatives,– la fonction de risque de base (et la fonction de risque cumulée de base) pour chaquestrate.La maximisation de la log-vraisemblance pénalisée (3.2) dans la classe de fonctions désiréedéfinit <strong>le</strong>s estimateurs du maximum de vraisemblance pénalisée (MPnLE) ˆλ 0h (.) des fonctionsde risque de base et par conséquent des fonctions de risque cumulées de base ˆΛ 0h (.).L’estimateur de la fonction de risque reste non-paramétrique, car aucune autre hypothèsen’est faite quant à la forme de la fonction de risque. Les estimateurs ˆθ de la variance deseffets aléatoires et <strong>le</strong>s estimateurs ˆβ des paramètres de régression seront éga<strong>le</strong>ment définiscomme <strong>le</strong>s estimateurs du maximum de vraisemblance pénalisée.L’approche par vraisemblance pénalisée peut éga<strong>le</strong>ment s’adapter aux modè<strong>le</strong>s à fragilitécorrélée. Dans l’expression de la log-vraisemblance pénalisée (3.1), la log-vraisemblancel(.) devient <strong>le</strong> logarithme de la vraisemblance pour un modè<strong>le</strong> à fragilité corrélée présentéedans l’expression (2.20). Dans <strong>le</strong> reste de l’exposé nous ne présenterons que l’estimationsur un modè<strong>le</strong> à fragilité partagée, pour répondre à notre problématique épidémiologiqueinitia<strong>le</strong> sur <strong>le</strong>s données groupées de la cohorte Paquid.


Autres utilisations de la vraisemblance pénaliséeLa littérature la plus abondante sur la pénalisation est trouvée sur l’étude des modè<strong>le</strong>sde régression. Contrairement à notre approche, la vraisemblance pénalisée est utiliséepour estimer non-paramétriquement l’effet de variab<strong>le</strong>s explicatives en fonction du temps.Hastie et Tibshirani [43] proposent de remplacer <strong>le</strong>s paramètres de régression β j par desfonctions du temps β j (t) (pour j = 1, ..., p). Les fonctions β j (t) sont lissées en utilisantune vraisemblance pénalisée et une approximation par des splines cubiques. Le terme depénalisation est égal à :− 1 2p∑∫κ jj=1β ′′j (r) 2 drCuzick dans une discussion de l’artic<strong>le</strong> d’Hastie et Tibshirani [43] propose d’utiliser unmodè<strong>le</strong> à fragilité dans <strong>le</strong>quel l’effet des variab<strong>le</strong>s de fragilité et l’effet de variab<strong>le</strong>s explicativesen fonction du temps λ(t|z) = λ 0 (t) exp{g(z)β(t)} sont estimés non-paramétriquement.Cette approche par vraisemblance pénalisée a éga<strong>le</strong>ment été étudiée par Ripatti et al [79]pour étudier non-paramétriquement l’effet des variab<strong>le</strong>s de fragilité dans un modè<strong>le</strong> àfragilité corrélée.Une approche bayesienne a été éga<strong>le</strong>ment utilisée par Sinha pour estimer <strong>le</strong>s fonctionsde risque lisse dans un modè<strong>le</strong> à fragilité partagée [86]. La vraisemblance a posterioribasée sur <strong>le</strong>s données ainsi que sur <strong>le</strong> processus a priori est une vraisemblance pénaliséediscrétisée. Dans cette approche, l’estimateur de la fonction de risque cumulée de base estun estimateur discrétisé du maximum de vraisemblance pénalisée.Une autre approche par vraisemblance pénalisée différente de la nôtre a été proposéepar Huh [47] pour étudier l’hétérogénéité individuel<strong>le</strong> non observée. El<strong>le</strong> consiste à estimerdans un modè<strong>le</strong> à fragilité, la fonction de densité conjointe entre <strong>le</strong>s temps de survie et <strong>le</strong>svariab<strong>le</strong>s de fragilité, sans faire d’hypothèse paramétrique sur la distribution de la variab<strong>le</strong>de fragilité. Une démonstration de l’existence et de l’unicité de l’estimateur du maximumde vraisemblance pénalisée y est présentée.


3.2 Approximation par splines de la fonction de risqueLa première difficulté de l’approche par vraisemblance pénalisée est que <strong>le</strong>s calculsexacts de l’estimateur de la fonction de risque de base ˆλ 0 (.) et de l’estimateur de la fonctionde risque cumulée de base ˆΛ 0 (.) sont numériquement impossib<strong>le</strong>s ; ces estimateursdoivent donc être approchés. La solution est d’approcher ces estimateurs sur une base desplines. Nous présentons brièvement <strong>le</strong>s splines utilisés, cette approximation par splines aété utilisée par Ramsay [77] et Joly et al [50].Les splines sont des fonctions polynomia<strong>le</strong>s par morceaux, à support compact, qui sontcombinées linéairement pour approcher une fonction sur un interval<strong>le</strong>. Nous utilisons desM-splines et des I-splines, qui sont une variante des B-splines. Ces splines sont faci<strong>le</strong>s àmanipu<strong>le</strong>r puisqu’ils sont différentiab<strong>le</strong>s ou dérivab<strong>le</strong>s aisément.Nous utilisons des B-splines normalisés, qui sont communément notés M-splines et desI-splines, qui sont des M-splines intégrés. Cette approximation est utilisée par Ramsay[77].M i (x|k) =kt i+k − t iB i (x|k)Le choix des nœuds t 1 , ..., t i , ..., t N définissant <strong>le</strong>s interval<strong>le</strong>s supports des splines est décritplus bas.Un M-spline d’ordre k est défini par une récurrence sur l’ordre :⎧⎨ k[(x−t i )M i (x|k−1)+(t i+k −x)M i+1 (x|k−1)](k−1)(tM i (x|k) =i+k −t i, t) i ≤ x < t i+k ,⎩ 0 sinon,avecM i (x|1) =⎧⎨⎩1(t i+1 −t isi t) i ≤ x < t i+1 ,0 sinon.Chaque M i (x|k) est nul en dehors de l’interval<strong>le</strong> [t i , t i+k ], et non nul sur k interval<strong>le</strong>s et surchaque interval<strong>le</strong> il y a k M-splines non nuls. Puisque <strong>le</strong>s M-splines sont positifs ou nulset continus, on obtient en <strong>le</strong>s intégrant des fonctions monotones croissantes : <strong>le</strong>s I-splines.A chaque M-spline est associé un I-spline :I i (x|k) =∫ xt 1M i (u|k)du.


Ces splines monotones sont utilisés pour obtenir une approximation de l’estimateur ˆΛ.Tous <strong>le</strong>s M i sont polynomiaux par morceaux de degré k − 1 et chaque I i associé estpolynomial par morceaux, de degré k, et défini (avec t i ≤ x < t i+1 ) par :⎧0 si j > i,⎪⎨ i∑I j (x|k) = (t m+k+1 − t m ) M m(x|k + 1)si i − k + 1 ≤ j ≤ i,k + 1m=j⎪⎩1 si i < j − k + 1Une fonction spline est complètement définie par une séquence croissante de nœuds(t 1 , ..., t l ) et par un vecteur de coefficients des splines η ′ = (η 1 , ..., η m ). Ainsi, dans chaquestrate nous avons m = l + 2 paramètres pour estimer la fonction de risque. Dans notreapplication nous utilisons des M-splines d’ordre 4 et des I-splines associés du même ordre(ces splines sont non nuls sur 4 interval<strong>le</strong>s définis par 5 nœuds). Les M-splines sont dedegré 3 (on par<strong>le</strong>ra de splines cubiques) et <strong>le</strong>s I-splines sont de degré 4.La fonction de risque cumulée de base est approchée sur une base de I-splines :m∑˜Λ 0 (.) = η i I i (.) et η i ≥ 0i=1par différentiation, on obtient la fonction de risque de base qui est approchée par unecombinaison linéaire de M-splines :m∑˜λ 0 (.) = ηi 2 M i (.) et η i ≥ 0i=1Dans ces expressions <strong>le</strong>s M-splines sont des fonctions non-négatives et <strong>le</strong>s I-splines sont desfonctions monotones croissantes. La contrainte de monotonicité de Λ 0 (.) et de positivité deλ 0 (.) est remplie en imposant des coefficients de splines (ηi 2 ) positifs. La fonction de risqueet la fonction de risque cumulé sont ainsi approchées par deux bases de splines différentes(M-splines et I-splines), mais avec <strong>le</strong> même vecteur des coefficients η ′ = (η 1 , ..., η m ).Pour définir la séquence des nœuds (t 1 , ..., t l ) on pourrait mettre un nœud à chaque datemais <strong>le</strong> coût numérique serait trop é<strong>le</strong>vé, notamment pour une grande tail<strong>le</strong> d’échantillon.Nous avons choisi de placer un nœud au premier et au dernier temps de survie et de placer<strong>le</strong>s autres nœuds de façon équidistante entre ces deux dates. On peut noter que plus onaura de nœuds, meil<strong>le</strong>ure sera l’approximation ; cependant une fois qu’un nombre suffisantde nœuds est établi, nous n’avons aucun intérêt à en rajouter. De plus, en rajoutant


des nœuds on augmente <strong>le</strong> nombre de paramètres donc <strong>le</strong> temps de calcul. L’algorithmed’optimisation du nombre de nœuds a été déterminé selon une méthode graphique : lafonction de risque estimée est représentée graphiquement pour un nombre donné de nœuds,puis <strong>le</strong> nombre de nœuds est augmenté jusqu’à ce que <strong>le</strong> graphique de la fonction de risquereste inchangé ; <strong>le</strong> nombre de nœuds obtenu est alors considéré comme suffisant.3.3 Estimation du paramètre de lissageLe paramètre de lissage κ contrô<strong>le</strong> l’équilibre entre l’ajustement aux données et larégularité de la fonction estimée. Dans un but pratique, il est parfois suffisant de choisir<strong>le</strong>s paramètres de lissage de façon heuristique, en traçant plusieurs courbes et en choisissantcel<strong>le</strong> qui semb<strong>le</strong> la plus réaliste. Nous allons présenter brièvement deux autresapproches pour déterminer <strong>le</strong>s paramètres de lissage. Une première approche est de sedonner une connaissance a priori, en fixant <strong>le</strong> nombre de degrés de liberté pour estimerla courbe. Cependant il peut être plus satisfaisant d’utiliser une méthode automatique duchoix du paramètre de lissage puisqu’el<strong>le</strong> est moins subjective, cette seconde approche estcel<strong>le</strong> de la validation croisée.La méthode à degré de liberté fixé est relativement simp<strong>le</strong> à mettre en œuvre unefois que l’on a une bonne connaissance a priori de la forme de la fonction à estimer ;nous avons choisi de l’utiliser dans l’étude par simulations. Nous avons choisi d’utiliserla méthode par validation croisée uniquement dans l’application (chapitre 5) puisqu’el<strong>le</strong>demande des temps de calcul relativement longs. D’autre part nous n’avons pas adaptéla méthode de validation croisée au cas des modè<strong>le</strong>s à fragilité, el<strong>le</strong> est donc utilisée sousl’hypothèse d’indépendance des données.Nous nous sommes placés dans <strong>le</strong> cadre d’un modè<strong>le</strong> stratifié. Dans chaque souséchantillonou dans chaque strate un paramètre de lissage différent va être estimé.Notons tout d’abord que <strong>le</strong> terme de pénalisation peut éga<strong>le</strong>ment s’écrire :∫κ λ ′′0(u) 2 du = κη ′ Ωη (3.3)où Ω = ∫ M ′′ (u)M ′′ (u)du est la matrice des dérivées secondes des splines intégrés si <strong>le</strong>vecteur des paramètres est ζ ′ = η ′ = (η 1 , ..., η m ). Lorsque <strong>le</strong> vecteur des paramètres est


ζ ′= (η 1 , ..., η m ; β 1 , ..., β p ; θ) la matrice Ω est nul<strong>le</strong> pour <strong>le</strong>s indices correspondant auxparamètres (β 1 , ..., β p ; θ).3.3.1 Validation croiséeNous présentons ici brièvement la méthode par validation croisée qui permet d’estimerun paramètre de lissage sans faire intervenir des variab<strong>le</strong>s explicatives.La méthode par validation croisée est fréquemment mise en œuvre pour estimer unparamètre de lissage [85, 72]. Supposons que pour une va<strong>le</strong>ur donnée du paramètre delissage κ, il soit possib<strong>le</strong> d’obtenir un estimateur de la fonction inconnue ˆλ(κ). Le principede la validation croisée est de mesurer comment <strong>le</strong> modè<strong>le</strong> ajusté sur toutes <strong>le</strong>s observationsexceptée la j ième peut prédire l’observation j. Ainsi, une donnée est retirée de l’échantilloninitial, la fonction d’intérêt est alors estimée sur <strong>le</strong> reste de l’échantillon et la vraisemblancede cette observation est calculée à partir de la fonction estimée, et ceci pour chaqueobservation. Le paramètre de lissage est choisi en optimisant la prédiction des donnéespar cette méthode. Cela revient à maximiser la fonction de score suivante :CV (κ) = 1 n∑n ihj=1l j (ˆη −j (κ))où ˆη −j (κ) est l’estimateur du maximum de vraisemblance pénalisée de η pour l’échantillonprivé du j ième individu et l j (.) est la log-vraisemblance pour <strong>le</strong> sujet j.Le temps de calcul nécessaire est très important dans cette méthode puisqu’il faut estimerune fonction pour chaque observation retirée et pour chaque va<strong>le</strong>ur de κ. Nous utilisonsdonc une approximation de la fonction CV (κ). El<strong>le</strong> est basée sur un développementdu premier ordre de l j (ˆη −j (κ)) autour de l j (ˆη(κ)) puisque l j (ˆη −j (κ)) est proche de l j (ˆη(κ)).Ceci conduit à une expression de la forme :où I(η) = ECV (κ) = 1 n l j(ˆη(κ)) − 1 n trace ( [Î(ˆη) + 2κΩ] −1Î(ˆη))( )− ∂2 l(η)∂η 2(3.4)est la matrice d’information (Î(ˆη) = − ∂2 l(ˆη)), et H(η) = I(η)+2κΩ∂η 2est moins <strong>le</strong> hessien de la log-vraisemblance pénalisée (Ĥ(ˆη) = Î(ˆη) + 2κΩ).On peut remarquer(que cette approximation (3.4) est éga<strong>le</strong> à un critère d’Akaike [3]] )−1si on interprète trace[Î(ˆη) + 2κΩ Î(ˆη) comme <strong>le</strong> nombre de degrés de liberté du


modè<strong>le</strong>. Ainsi, <strong>le</strong> nombre de degré de liberté est la somme des va<strong>le</strong>urs propres de la matrice(H −1 (η)I(η)).Cette méthode d’estimation approchée comporte éga<strong>le</strong>ment de nombreux calculs, desmaximisations et des approximations et n’est donc peut être pas non plus la méthode laplus adaptée.3.3.2 Méthode à degrés de liberté fixéL’approche consiste à se donner une connaissance a priori, en fixant <strong>le</strong> nombre dedegrés de liberté (ddl) pour estimer la fonction de risque. Cette approche a été proposéedans plusieurs artic<strong>le</strong>s (par exemp<strong>le</strong> Buja et al [15], Gray [38]). En effet, il est plus faci<strong>le</strong>de spécifier un nombre de degré de liberté (ou un nombre de paramètres) pour estimerune courbe donnée, plutôt que de spécifier un paramètre de lissage. Si l’on souhaite parexemp<strong>le</strong> que la fonction estimée soit une droite, on choisira un nombre de degré de libertéégal à 2. Il existe une relation entre <strong>le</strong> nombre de degré de liberté dans <strong>le</strong> modè<strong>le</strong> et <strong>le</strong>paramètre de lissage κ :( ) )−1ddl = trace(Î(ˆη) (Ĥ−1 )+ 2κΩ Î(ˆη) = trace (ˆη)Î(ˆη)Ainsi, <strong>le</strong> nombre de degré de liberté est la somme des va<strong>le</strong>urs propres de la matrice(Ĥ−1 (ˆη)Î(ˆη) ). Cette relation nous permet de déduire à partir d’un nombre de degré deliberté fixé la va<strong>le</strong>ur du paramètre de lissage et de résoudre <strong>le</strong>s équations d’estimationpour la va<strong>le</strong>ur correspondante du paramètre de lissage.On peut noter que <strong>le</strong> nombre de degrés de liberté est égal à la dimension du vecteurη quand il n’y a pas de pénalisation (κ = 0), il est inférieur à la dimension de η quand(κ > 0) et lorsque κ tend vers l’infini, il devient égal à deux et non pas à zéro car lamatrice Ω a deux va<strong>le</strong>urs propres nul<strong>le</strong>s. Dans l’équation de la vraisemblance pénalisée(3.1), quand n augmente, la part de la contribution apportée par la log-vraisemblance(non pénalisée) augmente, alors que Ω reste fixe ; on peut alors montrer que <strong>le</strong> paramètrede lissage κ n est en o p (n).m,Plus formel<strong>le</strong>ment, pour avoir un estimateur consistant ˆλ 0 (.), on veut que limn→∞ddl =


() −1c’est à dire lim trace 1 + 2κ n ΩÎ(ˆη)−1 = m.n→∞ ( )– Si lim 2κ n ΩÎ(ˆη)−1 = C, où C est une limite finie.n→∞() −1– soit C = 0 et lim trace 1 + 2κ n ΩÎ(ˆη)−1 = mn→∞– soit C ≠ 0 et limn→∞trace– Si limn→∞(2κ n ΩÎ(ˆη)−1 )= +∞. alors, lim(1 + 2κ n ΩÎ(ˆη)−1 ) −1< m (car C > 0)n→∞(Donc une condition nécessaire pour avoir lim ddl = m) n→∞c’est d’avoir lim 2κ n ΩÎ(ˆη)−1 = 0n→∞(2κ n ΩÎ(ˆη)−1 ) −1= 2or si on suppose que Î(ˆζ) est en O p (n) alors κ n doit être en o p (n), c’est à dire, κ n ne doitpas croître aussi vite que n.3.4 Variance des paramètresNous nous sommes inspirés des travaux de Gray [38, 39] pour estimer la variance desparamètres estimés. Gray a utilisé une approche par vraisemblance pénalisée pour estimerl’effet des variab<strong>le</strong>s explicatives non-paramétriquement dans un modè<strong>le</strong> de survie classiquepour données censurées. Notre approche sera différente de la sienne pour deux raisons : <strong>le</strong>modè<strong>le</strong> considéré est un modè<strong>le</strong> à fragilité pour données groupées, et la pénalisation portesur la fonction de risque et non pas sur l’effet des variab<strong>le</strong>s explicatives. Nous proposonsun estimateur pour la variance des trois paramètres d’intérêt du modè<strong>le</strong> : <strong>le</strong>s coefficientsdes splines, <strong>le</strong>s paramètres de régression et la variance des effets aléatoires. Nous notonsces paramètres du modè<strong>le</strong> par <strong>le</strong> vecteur : ζ ′ = (η 1 , ..., η m ; β 1 , ..., β p ; θ).Lorsque l’on utilise une vraisemblance classique (non pénalisée), la matrice de variancecovariancedes paramètres s’estime directement par I −1n(ˆζ) où I n (ˆζ) = E(− ∂2 l(ˆζ)). Parcontre, lorsque l’on utilise une vraisemblance pénalisée, la matrice de variance-covarianceprend une forme différente. En s’inspirant des travaux de Gray [38] qui s’intéressait àmodéliser par vraisemblance pénalisée la forme de la fonction représentant l’effet desvariab<strong>le</strong>s explicatives, l’estimateur de la matrice de variance-covariance des paramètresestimés devient :var(ˆζ) = Ĥn−1(ˆζ) Î n (ˆζ)Ĥn−1 (ˆζ) = ˆV (ˆζ) (3.5)où −H n est l’espérance de la hessienne de la vraisemblance pénalisée.∂ζ 2


Dans un modè<strong>le</strong> à risques proportionnelsNous présentons ici la démonstration permettant de définir un estimateur de la matricede variance-covariance des paramètres estimés. Dans un premier temps nous présentonsune démonstration sur un modè<strong>le</strong> à risques proportionnels, non stratifié et sans effetsaléatoires. Les paramètres considérés sont donc ζ ′ = (η 1 , ..., η m ; β 1 , ..., β p ) et n représente<strong>le</strong> nombre d’individus dans l’échantillon.Afin de simplifier <strong>le</strong>s notations nous nous plaçons dans <strong>le</strong> cadre d’un modè<strong>le</strong> non stratifié,d’autre part la log-vraisemblance l n (.) qui dépend de n sera écrite sous la forme l(.). Lalog-vraisemblance pénalisée s’écrit sous la forme généra<strong>le</strong> suivante :pl(λ 0 (.), β) = l(λ 0 (.), β) − κ n ||λ ′′0(.)|| 2 = l(ζ) − P n (ζ)où P n (ζ) est <strong>le</strong> terme de pénalisation, qui peut dépendre de n par l’intermédiaire du paramètrede lissage κ n .Nous supposons que lorsque n augmente, l(ζ) = O p (n) il en est de même pour pl(ζ) =O p (n), ∂pl(ζ)∂ζ= O p (n) et ∂2 pl(ζ)∂ζ 2 = O p (n). Sous certaines conditions de régularités [25],l’estimateur ˆζ est consistant pour ζ (c’est à dire ˆζ = ζ + o p (1)) et on peut effectuer undéveloppement limité d’ordre 1 de la fonction de score autour de ζ :∂pl(ˆζ)∂ζ= ∂pl(ζ)∂ζ+ ∂2 pl(ζ)∂ζ 2 (ˆζ − ζ) + o p ( √ n) (3.6)Les estimateurs du maximum de vraisemblance pénalisée sont définis par : ∂pl(ˆζ)∂ζl’équation (3.6) est équiva<strong>le</strong>nte à := 0, donc( ) ∂ 2 −1pl(ζ) ∂pl(ζ)(ˆζ − ζ) = −+ o∂ζ 2p ( √ n/n)∂ζ⇐⇒⇐⇒(√ n(ˆζ − ζ) = − 1 )∂ 2 −1 ( )pl(ζ) 1 ∂pl(ζ) √n + on ∂ζ 2 p (1)∂ζ(√ n(ˆζ − ζ) ≃ − 1 )∂ 2 −1 ( )pl(ζ) 1 ∂pl(ζ) √nn ∂ζ 2 ∂ζ1 ∂ 2n∑On peut réécrire − 1 pl(ζ) par − 1 nn ∂ζ 2 n ∂ζ 2 i=1 l ∑i(ζ) + 1 Pn ∂ζ 2 n (ζ) = − 1 n ∂n i=1U ∂ζ i(ζ) +∂ 2∂ζ 2 P n (ζ) où <strong>le</strong>s scores U i∂ 2∂ 2= ∂l i(ζ) sont des variab<strong>le</strong>s aléatoires indépendantes. Sous∂ζ


certaines conditions ([84] page 27), on peut appliquer la loi faib<strong>le</strong> des grands nombres (deChebyshev) et obtenir :Donc,− 1 nn∑ ∂)∂ζ U i(ζ)−−−→P(− E 1 ∂ 2l(ζ)n ∂ζ 2i=1− 1 ∂ 2n ∂ζ pl(ζ) −−−→P 1n H n(ζ)De plus, on a √ 1 ∂l(ζ) = ∑√ 1 ∂ nn ∂ζ n ∂ζ i=1 l ∑i(ζ) = √ 1 nn i=1 U i(ζ).= In(ζ)nSous certaines conditions ([84], page 29), on peut appliquer <strong>le</strong> théorème de la limitecentra<strong>le</strong> (de Lindeberg-Fel<strong>le</strong>r) qui implique que √ 1 ∂nl(ζ) suit asymptotiquement une loi∂ζnorma<strong>le</strong> multivariée :( )1– d’espérance E √ ∂l(ζ) n= 0 (car E( ∂l ) = 0)∂ζ ∂ζ( )1– et de matrice de variance-covariance var √ ∂l(ζ) n ∂ζ( )1Deux estimateurs de var √ ∂l(ζ) npeuvent être utilisés :∂ζ– soit În(ˆζ)n– soit Ĵn(ˆζ)n= 1 ∂ 2 l(ˆζ)n ∂ζ= 1 nqui suppose que <strong>le</strong> modè<strong>le</strong> est correctement spécifié,∑ ni=1 ( ∂l i(ˆζ)∂ ˆζ)( ∂l i(ˆζ)∂ ˆζ ) ′ . Cet estimateur robuste, proposé par Royall [82]peut être utilisé lorsque <strong>le</strong> modè<strong>le</strong> est mal spécifié. Il suppose l’indépendance destemps de survie entre chaque individu.Dans cette expression J n(ˆζ)n= 1 n E[∑ ni=1 ( ∂l i(ˆζ)∂ ˆζ)( ∂l i(ˆζ)∂ ˆζ ) ′ ]Donc, quand n → ∞√ n(ˆζ − ζ) ≃ (1n H n(ζ)) −1 1 √ n∂∂ζ pl(ζ)suit asymptotiquement une loi norma<strong>le</strong> multivariée( ( ))– d’espérance −( 1 H n n) −1 √1∂Pn(ζ)n– et de matrice de variance-covariance∂ζvar( √ ( ( ) −1 ( ) 1n(ˆζ − ζ)) =n(ζ)) ( ( ) ) −1n H 1 ∂ 1n var ∂ζ l(ζ) n H n(ζ)( ) ∂= nHn−1 (ζ)var∂ζ l(ζ) Hn−1 (ζ)


On peut donc approcher la matrice de variance-covariance de ˆζ par :( ) ∂var(ˆζ) = Hn −1 (ˆζ)var∂ζ l(ˆζ) Hn −1 (ˆζ) (3.7)que l’on estimera par :̂var 1 (ˆζ) = Ĥn−1(ˆζ) Î n (ˆζ)Ĥn−1 (ˆζ) = ˆV1 (ˆζ)ou,̂var 2 (ˆζ) = Ĥn−1(ˆζ) Ĵ n (ˆζ)Ĥn−1 (ˆζ) = ˆV2 (ˆζ)La variance de chaque paramètre correspond aux termes diagonaux des matrices var ̂1 (ˆζ)et var ̂2 (ˆζ).En résuméˆζ suit asymptotiquement une loi norma<strong>le</strong> multivariée :[ ( )]– d’espérance ζ − Hn−1 ∂Pn (ζ)(ζ)∂ζ– et de matrice de variance-covariance estimée par :Ĥ n−1(ˆζ) Î n (ˆζ)Ĥn−1 (ˆζ) = ˆV1 (ˆζ) ou Ĥn−1(ˆζ) Ĵ n (ˆζ)Ĥn−1 (ˆζ) = ˆV2 (ˆζ)Un estimateur alternatif pour la matrice de variance-covariance peut être d’utiliser−1directement Ĥ n (ˆζ) (moins l’inverse de la matrice hessienne de la log vraisemblancepénalisée) ; cet estimateur déduit d’une approche bayesienne a été proposé par O’Sullivan[72]. On peut constater que I ≤ I +2κΩ, ce qui implique H −1 IH −1 ≤ H −1 (I +2κΩ)H −1 =H −1 , et la matrice de variance-covariance Ĥn−1(ˆζ) est supérieure à ˆV1 (ˆζ). Ainsi, un estimateurl ′ ˆV1 (ˆζ)l de la variance de la forme linéaire l ′ ˆζ est inférieur à l’estimateur de lavariance l ′ Ĥ n (ˆζ)l.Dans un modè<strong>le</strong> à fragilitéDans un modè<strong>le</strong> à fragilité <strong>le</strong> raisonnement asymptotique s’appuie non plus sur n maissur G, <strong>le</strong> nombre de groupes. Le vecteur des paramètres est ζ ′ = (η 1 , ..., η m ; β 1 , ..., β p ; θ).


On travail<strong>le</strong> sur :(√G(ˆζ − ζ) ≃ − 1 )∂ 2 −1 ( )pl(ζ) 1 ∂pl(ζ)√G ∂ζ 2 G ∂ζ∑De même on peut appliquer la loi faib<strong>le</strong> des grands nombres sur − 1 GG ∂ζ 2 i=1 l i(ζ) =− 1 G∑ Gi=1∂U ∂ζ i(ζ) ou <strong>le</strong>s U i pour i = 1, ..., G (<strong>le</strong>s fonctions de score de la log-vraisemblance)sont des variab<strong>le</strong>s aléatoires indépendantes.Puis on applique <strong>le</strong> théorème de la limite centra<strong>le</strong> sur1 √G∂∂ζ l(ζ) = 1 √G∂∂ζ∑ Gi=1 l i(ζ) =1 √G∑ Gi=1 U i(ζ). En particulier, si on note σ 2 iσG2G→∞ BG2<strong>le</strong>s variances des U i (ζ) et B 2 G = ∑ Gi=1 σ2 i , <strong>le</strong>sconditions du théorème sont lim = 0 et lim B G = +∞ . Les conditions d’applicationG→∞de ce théorème reviennent à imposer des tail<strong>le</strong>s de groupes peu différentes <strong>le</strong>s unes parrapport aux autres. Nous obtenons de même deux estimateurs de la matrice de variancecovariancedes paramètres :∂ 2̂var 1 (ˆζ) = Ĥ−1 G (ˆζ)ÎG(ˆζ)Ĥ−1 G (ˆζ) = ˆV 1 (ˆζ)ou,̂var 2 (ˆζ) = Ĥ−1 G (ˆζ)ĴG(ˆζ)Ĥ−1 G (ˆζ) = ˆV 2 (ˆζ)3.5 Estimateurs sans biaisDans un modè<strong>le</strong> à risques proportionnelsest :Un estimateur asymptotiquement sans biais du vecteur des paramètres ζ ′ = (η 1 , ..., η m ; β 1 , ..., β p )∨ζ = ˆζ + H −1n( ) ∂Pn (ζ)(ζ)∂ζDès <strong>le</strong> début de la démonstration, l’estimateur était supposé consistant,donc, ˆζ = ζ + o p (1)or, on a montré que E(ˆζ) = ζ + Hn−1 (ζ))donc, Hn−1 (ζ) = o p (1)⇐⇒(∂Pn(ζ)∂ζ( )∂Pn(ζ)∂ζ(I n (ζ) + 2κ n Ω) −1 (2κ n ζ ′ Ω) = o p (1) d’après l’écriture (3.3) du terme de pénalisation.Si H n est en O p (n) alorsκ n = o p (n)


Par exemp<strong>le</strong>, si κ n = o p (n) = √ nκ 0 où κ 0 est fixe,alors, avec I n (ζ) = O p (n) et κ n = o p (n), on a(I n (ζ) + 2κ n Ω) −1 = O p (n) et 2κ n ζ ′ Ω = o p (n)donc −(I n (ζ) + 2κ n Ω) −1 (2κ n ζ ′ Ω) = o p (1) et l’estimateur ˆζ est asymptotiquement sansbiais.Dans un modè<strong>le</strong> à fragilitéUn estimateur asymptotiquement sans biais de ζ ′ = (η 1 , ..., η m ; β 1 , ..., β p ; θ) est :( )∨ζ = ˆζ + H −1G (ζ) ∂PG (ζ)∂ζPour obtenir un estimateur consistant de ζ avec H G = O p (G)il faut, ˆζ( )= ζ + o p (1) = ζ + H −1G (ζ) ∂PG (ζ)∂ζ( )soit, H −1G (ζ) ∂PG (ζ)= (I∂ζG (ζ) + 2κ G Ω) −1 (2κ G ζ ′ Ω) = o p (1),donc, il faut que κ G = o p (G).3.6 Tests statistiquesLa première hypothèse nul<strong>le</strong> que l’on souhaite tester concerne l’effet des variab<strong>le</strong>s explicatives.El<strong>le</strong> s’exprime par H 0 : β j = βj ∗ pour (j = 1, ..., p).L’autre hypothèse nul<strong>le</strong> que l’on souhaite tester est H 0 : θ = 0, c’est à dire une hypothèsed’indépendance entre <strong>le</strong>s effets aléatoires.Nous pouvons définir une statistique de test pour ces paramètres, à partir des estimateursde la variance définis dans <strong>le</strong> paragraphe (3.4). Nous avons vu que <strong>le</strong> vecteurdes paramètres ζ ′ = (η 1 , ..., η m ; β 1 , ..., β p ; θ) suivait asymptotiquement une loi norma<strong>le</strong>d’espérance ζ et de matrice de variance-covariance un estimateur sandwich ̂var(ˆζ) =Ĥ −1 (ˆζ)Î(ˆζ)Ĥ−1 (ˆζ).Pour tester H 0 : β j = β ∗ j pour (j = 1, ..., p), on peut donc définir la statistique de testqui s’apparente à une statistique de test de Wald :oùW =ˆβ j − βj∗ √H −1 ̂IH −1 iî H−1 IH −1 ii est l’estimateur de la variance du coefficient de régression β j ;̂ H−1 IH −1 iiest un élément diagonal ii de la matrice Ĥ−1 (ˆζ)Î(ˆζ)Ĥ−1 (ˆζ) pour i = m + 1, ..., m + p.


Cette statistique de test suit asymptotiquement une loi norma<strong>le</strong> centrée réduite sous H 0 .L’interval<strong>le</strong> de confiance pour ˆβ j est égal à ˆβ j ± 1.96√ˆV ( ˆβj ), où ˆV ( ˆβ j ) est l’estimateurde la variance des paramètres qui peut être estimé par Ĥ−1 ,̂ H−1 IH −1 ou ̂ H−1 JH −1 .Pour tester H 0 : θ = 0 on peut donc définir la statistique de test suivante :W =ˆθ√H −1 ̂IH −1 iioù̂ H−1 IH −1 ii est l’estimateur de la variance de la variance θ des effets aléatoires. Il correspondà l’élément diagonal ii de la matrice Ĥ−1 (ˆζ)Î(ˆζ)Ĥ−1 (ˆζ) pour i = m + p + 1.Cette statistique de test suit asymptotiquement une loi norma<strong>le</strong> centrée réduite sous H 0 .L’interval<strong>le</strong> de confiance pour ˆθ est égal à ˆθ√± 1.96 ˆV (ˆθ), où ˆV (ˆθ) est l’estimateur de lavariance des paramètres qui peut être estimé par Ĥ−1 ,̂ H−1 IH −1 ou ̂ H−1 JH −1 .Nous utiliserons uniquement ce test de Wald. Nous n’avons pas défini un test équiva<strong>le</strong>ntau test du rapport de vraisemblance ; des travaux supplémentaires mériteraient d’êtreeffectués pour déterminer une statistique de test adaptée (utilisant une vraisemblancepénalisée ou non) et sa loi. Gray [39] a proposé d’utiliser un test du rapport de vraisemblancepénalisée et il a donné une distribution de cette statistique de test, cependant<strong>le</strong> problème qu’il traite est différent du nôtre puisqu’il cherche à estimer nonparamétriquementl’effet de variab<strong>le</strong>s explicatives en utilisant une vraisemblance pénaliséedont <strong>le</strong> terme de pénalisation est une fonction des paramètres de régression.3.7 Bandes de confianceNous présentons deux approches possib<strong>le</strong>s pour définir des bandes de confiance dela fonction de risque. Une illustration de ces méthodes sera présentée dans l’étude parsimulations (chapitre 4).3.7.1 Approche classiqueL’approche classique consiste à utiliser directement l’estimateur (3.7) de la variancedes paramètres des coefficients des splines pour en déduire des bandes de confiance parune méthode point par point sur <strong>le</strong>s courbes lissées de la fonction de risque. Les fonctions


de risque en tout temps étant approchées par des combinaisons linéaires de splines de laforme : ˜λ0 (.) = ∑ mi=1 η2 i M i (.), <strong>le</strong>s va<strong>le</strong>urs de la bande de confiance à 95 % pour ˜λ 0 (t) entout point t sont définies par :√˜λ 0 (t) ± 1.96 M(t) ′ [ ̂ H−1 IH −1 ] ηη M(t)où, [ ̂ H−1 IH −1 ] ηη est <strong>le</strong> bloc m × m correspondant aux paramètres des splines dans lamatrice de covariancetemps t.̂ H−1 IH −1 et M(t) = (M 1 (t), ..., M m (t)) <strong>le</strong> vecteur des splines au3.7.2 Approche bayesienneWahba [91] a décrit une technique bayesienne point par point pour générer des bandesde confiance des approximations des estimateurs de la fonction de risque. Cette approche aensuite été reprise par Silverman [85] et O’Sullivan [72]. Cela semb<strong>le</strong> naturel de considérerce problème par une méthode bayesienne dans la mesure où <strong>le</strong> choix du lissage correspondà une information a priori.La formulation bayesienne consiste à considérer <strong>le</strong> vecteur η comme une variab<strong>le</strong>aléatoire et de prendre <strong>le</strong> terme de pénalisation comme la log-vraisemblance a priori,avec une structure multivariée norma<strong>le</strong>. En utilisant la notation = c signifiant “égal à uneconstante près”, on al prior (η) = c −κη ′ Ωη (3.8)Ω étant la matrice des dérivées secondes des splines intégrés, qui a deux va<strong>le</strong>urs propresnul<strong>le</strong>s. En combinant (3.8) avec la densité des temps d’observation sachant η, on obtient lalog-vraisemblance a posteriori (par une manipulation bayesienne standard), qui représentela log-vraisemblance pénalisée :pl post (η) = c l(η) − κ||λ ′′ (.)|| 2 = l(η) − κη ′ ΩηEn effectuant un développement de Taylor à l’ordre 2 de l(η) autour de ˆη (l’estimateurdu maximum de vraisemblance pénalisé) on obtient :pl post (η)c= l(η) − κη ′ Ωη≃l(ˆη) + ∂l∂η (ˆη)(η − ˆη) + 1 2 (η − ˆη)′ ∂2 l∂η 2 (ˆη)(η − ˆη) − κη′ Ωη


En tenant compte du fait que <strong>le</strong> gradient de la log vraisemblance pénalisée est nul, onpeut montrer que la distribution a posteriori de η est multivariée norma<strong>le</strong> de moyenne ˆηet de matrice de covariance ([Î + 2κΩ]−1 ) où Î est la matrice d’information de Fisher surla vraisemblance non pénalisée.Ainsi en notant M(t) ′ = (M 1 (t), ..., M m (t)) <strong>le</strong> vecteur des splines au temps t et[Î + 2κΩ]−1 ηη<strong>le</strong> bloc m × m correspondant aux paramètres des splines dans la matrice(Î + 2κΩ)−1 et si on définitˆσ(t) =√M(t) ′ [Î + 2κΩ]−1 ηη M(t)Les va<strong>le</strong>urs de la bande de confiance bayesienne à 95 % pour ˜λ 0 (t) en tout point t sontdéfinies par :˜λ 0 (t) ± 1.96ˆσ(t)On peut constater que I ≤ I + 2κΩ, ce qui implique H −1 IH −1 ≤ H −1 (I + 2κΩ)H −1 =H −1 , et ainsi l’approche bayesienne donne des bandes de confiance plus large que l’approcheclassique, mais centrées sur <strong>le</strong> même point [42].


Chapitre 4Etude par simulations4.1 Comparaison avec l’algorithme EML’objectif de ces premières simulations est d’évaluer la qualité de l’estimateur de lavariance des effets aléatoires et de comparer cet estimateur du maximum de vraisemblancepénalisée à l’estimateur obtenu par l’algorithme EM.4.1.1 Schéma d’étudeNous avons choisi de réaliser des simulations comparab<strong>le</strong>s à cel<strong>le</strong>s réalisées par Nielsen[70]. En adoptant une approche par processus de comptage, Nielsen a proposé uneméthode d’estimation par l’algorithme EM dans un modè<strong>le</strong> à fragilité. Dans ces simulationsnous ne traitons pas <strong>le</strong> cas des variab<strong>le</strong>s explicatives ni la troncature à gauche.Le modè<strong>le</strong> généré est un modè<strong>le</strong> stratifié à fragilité partagée :λ ihj (t|Z i ) = Z i λ 0h (t) (4.1)où, i = 1, ..., G indice chaque groupe (ou paire d’individus) et h = 1, 2 indice <strong>le</strong>s strates,j = 1, ..., n ih indice <strong>le</strong> sujet, λ 0h (.) est la fonction de risque de base spécifique à chaquestrate et Z i est la variab<strong>le</strong> de fragilité spécifique à chaque groupe.Procédure de génération des temps de survieNous considérons pour chaque échantillon, G paires d’individus (G = 100 à 1000) et deuxstrates (qui pourraient correspondre aux hommes et aux femmes). Pour un échantillondonné et une variance des effets aléatoires θ fixée, nous générons G paires de temps de59


survie (t i11 , t i21 ) de la manière suivante :t ihj = v ihjz i– où, v ihj , pour i = 1, ..., G, h = 1, 2, et j = 1 sont des variab<strong>le</strong>s aléatoires i.i.d. de loiexponentiel<strong>le</strong> et de paramètre 1– et Z i pour i = 1, ..., G sont des variab<strong>le</strong>s aléatoires i.i.d. de loi gamma d’espérance1 et de variance θDans une première série de simulations <strong>le</strong>s données n’étaient pas censurées, puis dansune seconde série de simulations <strong>le</strong>s données ont été artificiel<strong>le</strong>ment censurées à t=2 correspondantà 10% de données censurées.Estimation de la variance des effets aléatoires :Nous avons estimé ˆθ et ∨ θ, <strong>le</strong>s deux estimateurs de la variance (avec ou sans biais) des effets√ ∑Mi=1 (¯θ−ˆθ i ) 2aléatoires Z i , puis <strong>le</strong>s écarts-types empiriques correspondants : SD(ˆθ) =√M−1(où ¯θ∑ Mi=1=ˆθ ∑i) et MM SD(∨ i=1θ) =(¯θ− ∨ θ i ) 2(où ¯θ∑ ∨ Mi=1 θi= ). Puis nous avons calculéM−1 √Ĥ−1 M√<strong>le</strong>s écarts-types estimés de θ par deux estimateurs : et ̂ H−1 IH −1 . Un test deWald unilatéral à 5% a été utilisé pour tester H 0: θ = 0, une va<strong>le</strong>ur de θ négativen’ayant aucun sens dans notre modè<strong>le</strong>. Nous présentons <strong>le</strong> risque de 1ère espèce de cestests calculé sur la base de M= 500 échantillons et la puissance calculé sur M= 200échantillons. Nous avons éga<strong>le</strong>ment calculé <strong>le</strong> taux de recouvrement de l’interval<strong>le</strong> deconfiance[à 95% du paramètre θ, qui correspond à la proportion de simulations tel<strong>le</strong>s que√θ ∈ ˆθ − 1.96 var(ˆθ); ˆθ√ ]+ 1.96 var(ˆθ) . Ce taux de recouvrement a été calculé pourl’estimateur ˆθ et l’estimateur ∨ θ et pour <strong>le</strong>s différents estimateurs de la variance de ˆθ et ∨ θ(Ĥ−1 et̂ H−1 IH −1 ).Fonctions de risque :Dans ce modè<strong>le</strong> on estime par maximisation d’une vraisemblance pénalisée une fonctionde risque de base propre à chaque strate ; el<strong>le</strong> est approchée sur une base de M-splines cubiques.Pour un seul échantillon de chaque série de simulations (θ fixé, tail<strong>le</strong> d’échantillonfixée), nous avons estimé dans chaque strate une va<strong>le</strong>ur de κ par la méthode du nombre dedegrés de liberté fixé. Cette va<strong>le</strong>ur de κ était ensuite la même pour tous <strong>le</strong>s échantillons dela même série de simulations. La fonction de risque de base étant une fonction constanteéga<strong>le</strong> à 1, on cherchait une va<strong>le</strong>ur de κ correspondant à un ddl compris entre 2.001 et 2.5.


Le nombre de nœuds était fixé à 8, pour l’ensemb<strong>le</strong> des simulations.Nous avons illustré graphiquement <strong>le</strong>s résultats des estimations des fonctions de risquethéoriques et estimées, margina<strong>le</strong>s ou conditionnel<strong>le</strong>s.– La fonction de risque de base λ 0h (t) théorique est une fonction constante éga<strong>le</strong> à1. El<strong>le</strong> peut s’interpréter comme la fonction de risque conditionnel<strong>le</strong> pour un effetaléatoire moyen (pour Z = E[Z] = 1).Nous avons estimé la fonction de risque de base correspondante sur une base desplines ̂λ 0h (t) et <strong>le</strong>s bandes de confiance de cette fonction par la variance ( ̂ H−1 IH −1 ).– La fonction de risque margina<strong>le</strong> théorique est éga<strong>le</strong> à :λ(t) =∫ ∞0λ 0h (t)zg(z)dz =1(1 + θt)La fonction de risque margina<strong>le</strong> peut être estimée par deux estimateurs :oûλ(t) =1(1 + ˆθt)̂λ(t) ∗ = λ ∗ 0h(t)où λ ∗ 0h (t) est la fonction de risque de base obtenue dans un modè<strong>le</strong> à risques proportionnels(sans effets aléatoires), par maximisation d’une vraisemblance pénalisée.4.1.2 ProgrammeLes simulations ont été réalisées à partir d’un programme Fortran implémentant laméthode. Les estimateurs des paramètres ont été obtenus par l’algorithme de Marquardt[63], qui est une combinaison entre l’algorithme de Newton-Raphson et l’algorithme à pasdescendant. Cet algorithme a l’avantage d’accélérer la procédure de convergence par rapportà l’algorithme de Newton-Raphson. Nous nous sommes fixé trois critères de convergencepour une itération k donnée : sur la variation des coefficients ||η k − η k−1 || 2 < ɛ 1 , surla variation de la log-vraisemblance |logV k −logV k−1 | < ɛ 2 et sur <strong>le</strong> gradient || ∂logV∂η i(ˆη k )|| 2


de la vraisemblance lorsque l’on est en présence d’un ˆθ proche de 0 (soit ˆθ ≤ 10 −6 ).Pour cela nous avons effectué un développement limité d’ordre 3 du second terme dansl’expression de la log-vraisemblance (3.2) :−(1/θ + m i )ln [1 + θ∆ i ] ≃ −∆ i(1 − θ(Z/2 − mi ) + θ 2 (∆ 2 i /3 − m i ∆ i /2) + m i θ 3 ∆ 2 i /3 )avec , ∆ i = ∑ K ∑ nihh=1 j=1 (Λ 0h(Y ihj ) − Λ 0h (L ihj )) exp(β ′ X ihj )4.1.3 Résultats des simulationsLa figure (4.1) illustre pour un échantillon de 400 sujets et un paramètre de variancefixé à θ = 0.4, <strong>le</strong>s fonctions de risque de base théorique et estimée et la fonction derisque margina<strong>le</strong> estimée (λ ∗ 0h (t)). Les bandes de confiance de la fonction de risque debase estimée sont ici obtenues par l’estimateur ̂ H−1 IH −1 de la variance des paramètresdes coefficients des splines. Nous avons pu vérifier que ces bandes de confiance étaientplus étroites que cel<strong>le</strong>s utilisant l’estimateur Ĥ−1 de la variance.Fig. 4.1 – Fonctions de risque de base théorique et estimée et fonction de risquemargina<strong>le</strong> estimée pour une variance θ = 0.4 des variab<strong>le</strong>s de fragilité.2Fonction de risque de base theoriqueFonction de risque de base estimeebandes de confiance inferieurebandes de confiance superieureFonction de risque margina<strong>le</strong> estimee1.5Fonctions de risque10.500 1 2 3 4 5Temps de survieL’ensemb<strong>le</strong> des résultats de ces simulations obtenus par vraisemblance pénalisée figurentdans <strong>le</strong>s tab<strong>le</strong>aux (4.1 à 4.4). Nous présentons éga<strong>le</strong>ment <strong>le</strong>s résultats des mêmes


simulations obtenus par Nielsen [70] en utilisant une procédure d’estimation par l’algorithmeEM (Tab<strong>le</strong>aux (4.5) et (4.6)).Dans <strong>le</strong> cas non censuré– Estimation de θ par ˆθ :On constate pour <strong>le</strong>s échantillons de petites tail<strong>le</strong>s (G=100), un biais négatif de lavariance des effets aléatoires, inversement lorsque la tail<strong>le</strong> de l’échantillon augmenteon obtient une sur-estimation de θ (Tab<strong>le</strong>au (4.1)). Cependant <strong>le</strong> biais décroît quandG, <strong>le</strong> nombre de groupes augmente ; on a donc une assez bonne consistance denos estimateurs. Ce biais reste plus faib<strong>le</strong> que celui obtenu dans <strong>le</strong>s simulations deNielsen [70], qui obtenait systématiquement un biais négatif (Tab<strong>le</strong>au 4.5).– Estimation de la variance de ˆθ :Les écarts-types estimés par√̂ H−1 IH −1 et √Ĥ−1 sous-estiment l’écart-type empiriqueSD(ˆθ). L’estimation obtenue par√̂ H−1 IH −1 est comme prévu plus faib<strong>le</strong>que cel<strong>le</strong> obtenue par √Ĥ−1 (Tab<strong>le</strong>au (4.1)).– Tests statistiques :Sous l’hypothèse nul<strong>le</strong>, la va<strong>le</strong>ur du risque de 1ère espèce obtenue par <strong>le</strong> test de Waldˆθ/√Ĥ−1 est proche de la va<strong>le</strong>ur nomina<strong>le</strong> de 5%. Lorsque la tail<strong>le</strong> de l’échantillonest faib<strong>le</strong>, <strong>le</strong> test devient légèrement anti-conservatif (Tab<strong>le</strong>au (4.1)). Nielsen utilisaitun test du rapport de vraisemblance pour tester l’hypothèse nul<strong>le</strong>. Il s’estavéré que son test était nettement anti-conservatif, notamment lorsque la tail<strong>le</strong> deséchantillons était faib<strong>le</strong> (ex : pour G=100 et θ = 0 il obtenait un risque de premièreespèce de 0.1060). La puissance de nos tests augmente quand <strong>le</strong> nombre de groupescroît ; el<strong>le</strong> reste meil<strong>le</strong>ure que cel<strong>le</strong> obtenue par Nielsen (Tab<strong>le</strong>au 4.5).√ ˆθ/√La sous-estimation de l’écart-type ̂ H−1 IH −1 a conduit à un test de Wald ̂ H−1 IH −1anti-conservatif.Dans <strong>le</strong> cas censuréNous obtenons globa<strong>le</strong>ment <strong>le</strong>s mêmes tendances lorsque <strong>le</strong>s données sont censurées(Tab<strong>le</strong>au 4.2 vs Tab<strong>le</strong>au 4.1). Cependant la va<strong>le</strong>ur moyenne de ˆθ reste systématiquementsupérieur à θ dans <strong>le</strong> cas censuré, quel<strong>le</strong> que soit la tail<strong>le</strong> de l’échantillon. Le biais (enva<strong>le</strong>ur absolue) obtenu sur ˆθ reste dans <strong>le</strong> cas censuré, très proche de celui obtenu par


Nielsen (Tab<strong>le</strong>au 4.6).Comme on pouvait s’y attendre, <strong>le</strong>s écarts-types estimés sont plus é<strong>le</strong>vés dans <strong>le</strong> cascensuré, par rapport au cas non censuré (car on a plus d’incertitude ou moins d’informationdans <strong>le</strong> cas censuré). La puissance de nos tests est légèrement plus faib<strong>le</strong> dans <strong>le</strong> cascensuré.– Estimateur√̂ H−1 JH −1 (Tab<strong>le</strong>au 4.3)Les résultats des simulations obtenus par l’estimateur√̂ H−1 JH −1 de la variancede ˆθ sont très proches de ceux obtenus par l’estimateur√̂ H−1 IH −1 . A nouveaul’estimateur proposé√̂ H−1 JH −1 sous-estime l’estimateur empirique de l’écart-typede ˆθ.– Estimation de θ par θ ∨ (Tab<strong>le</strong>au 4.4) [ ( )]L’estimation de θ par l’estimateur θ ∨ = ˆθ + H −1G (ˆζ) ∂P G (ˆζ)∂ ˆζ, théoriquementsans biais, n’a en fait pas été améliorée. Les résultats obtenus sur ˆθ et ∨ θ étaientpratiquement identiques.– Taux de couvertureDans <strong>le</strong>s tab<strong>le</strong>aux (4.2 et 4.1) figurent éga<strong>le</strong>ment <strong>le</strong>s taux de couverture pour ˆθcalculés à partir des trois estimateurs des écarts-type de ˆθ√ (√Ĥ−1 , ̂ H−1 IH −1 et√√Ĥ−1 ̂ H−1 JH −1 ). Les interval<strong>le</strong>s de confiance basés sur fournissent un meil<strong>le</strong>urtaux de couverture que ceux basés sur√̂ H−1 IH −1 et√̂ H−1 JH −1 . Notons quel’estimateur ˆθ ne peut être inférieur à zéro, <strong>le</strong>s taux de couverture calculés sous H 0ne sont donc pas strictement exacts, et dépassent la va<strong>le</strong>ur nomina<strong>le</strong> de 95 %.En résumé– Les estimateurs ˆθ étaient meil<strong>le</strong>urs dans notre approche par vraisemblance pénaliséeque ceux obtenus par l’algorithme EM.– La variance des estimateurs qui semb<strong>le</strong> la plus correcte dans notre approche est lavariance Ĥ−1 et non paŝ H−1 IH −1 nî H−1 JH −1 . Le problème majeur qui ressortde nos simulations est l’écart important entre la variance empirique et la varianceestimée.– Le test de Wald ˆθ/√Ĥ−1 a néanmoins une puissance plus é<strong>le</strong>vée que cel<strong>le</strong> du testde rapport de vraisemblance obtenu obtenue par Nielsen. Ce test a un risque deˆθ


première espèce très proche de 5% et il semb<strong>le</strong> moins sensib<strong>le</strong> aux petits effectifs,que <strong>le</strong> test du rapport de vraisemblance obtenu par l’algorithme EM.Les résultats théoriques du chapitre (3) ne se sont pas avérés concluant au niveaudes simulations. Ainsi, <strong>le</strong>s estimateurŝ H−1 IH −1 et̂ H−1 JH −1 de la variance deseffets aléatoires sous-estiment la variance empirique ; de plus l’estimateur sans biaisproposé ∨ θ n’a pas permis de corriger <strong>le</strong> biais sur ˆθ.


Tab. 4.1 – Estimations de ˆθ pour G paires de temps de survie non-censurés et Méchantillons (avec θ, la vraie va<strong>le</strong>ur de la variance des variab<strong>le</strong>s de fragilité). Risque de1ère espèce (M=500) et puissance (M=200) du test de Wald unilatéral à 5%.Temps de survie non-censurésG θ Moyenne S.D.(ˆθ) Moyenne Moyenne Puissance√ √(ˆθ) empirique Ĥ −1 (ˆθ) H −1 ̂IH −1 (ˆθ) * **1000 0.0 0.0127 0.0186 0.0154 0.0143 0.044 0.0580.1 0.1036 0.0340 0.0352 0.0334 0.950 0.9600.2 0.2023 0.0357 0.0408 0.0394 1.000 1.000500 0.0 0.0187 0.0275 0.0209 0.0190 0.056 0.0790.2 0.2053 0.0558 0.0565 0.0574 0.995 0.9950.4 0.3979 0.0660 0.0660 0.0644 1.000 1.000200 0.0 0.0278 0.0454 0.0311 0.0276 0.064 0.0850.2 0.2064 0.0867 0.0774 0.0697 0.880 0.9150.4 0.4060 0.1086 0.1057 0.1322 0.990 0.948100 0.0 0.0379 0.0636 0.0412 0.0351 0.068 0.1060.2 0.1944 0.1270 0.1098 0.1017 0.475 0.5380.4 0.3898 0.1628 0.1866 0.2235 0.799 0.7790.6 0.5614 0.1870 0.1613 0.1744 0.989 0.9510.8 0.7523 0.2001 0.1648 0.1612 1.000 0.9781.0 0.9183 0.1909 0.1819 0.1809 1.000 0.995∗ utilisant l’estimateur Ĥ−1 (ˆθ) de la variance de ˆθ,∗∗ utilisant l’estimateur̂ H−1 IH −1 (ˆθ) de la variance de ˆθ.


Tab. 4.2 – Estimations de ˆθ pour G paires de temps de survie censurés et Méchantillons (avec θ, la vraie va<strong>le</strong>ur de la variance des variab<strong>le</strong>s de fragilité). Risque de1ère espèce (M=500) et puissance (M=200) du test de Wald unilatéral à 5%.Temps de survie censurésG θ Moyenne S.D.(ˆθ) Moyenne Moyenne Puissance Recouvrement√ √(ˆθ) empirique Ĥ −1 (ˆθ) H −1 ̂IH −1 (ˆθ) * ** * **1000 0.0 0.0208 0.0285 0.0225 0.0216 0.071 0.071 93.0 93.00.1 0.1036 0.0406 0.0313 0.0285 0.930 0.940 88.0 86.00.2 0.2081 0.0481 0.0466 0.0443 1.000 1.000 93.0 92.0500 0.0 0.0253 0.0363 0.0261 0.0246 0.070 0.090 97.0 95.00.2 0.2039 0.0709 0.0654 0.0621 0.950 0.960 94.0 92.00.4 0.4089 0.0961 0.0803 0.0754 1.000 1.000 90.0 87.0200 0.0 0.0370 0.0559 0.0432 0.0409 0.054 0.067 96.8 94.60.2 0.2104 0.1145 0.0991 0.0920 0.640 0.678 91.5 91.00.4 0.4153 0.1478 0.1218 0.1119 0.985 0.985 92.5 91.0100 0.0 0.0529 0.0784 0.0614 0.0560 0.052 0.082 97.2 93.00.2 0.2178 0.1583 0.1331 0.1228 0.420 0.445 87.0 86.00.4 0.4284 0.2023 0.1767 0.1638 0.795 0.839 92.5 87.50.6 0.6254 0.2442 0.2120 0.1970 0.960 0.970 92.0 89.00.8 0.8388 0.2602 0.2492 0.2319 0.990 0.995 93.5 89.51.0 1.0129 0.3029 0.2812 0.2633 0.990 0.995 91.0 90.0∗ utilisant l’estimateur Ĥ−1 (ˆθ) de la variance de ˆθ,∗∗ utilisant l’estimateur̂ H−1 IH −1 (ˆθ) de la variance de ˆθ.


Tab. 4.3 – Estimation de l’écart-type corrigé√̂ H−1 JH −1 des paramètres ˆθ pour G pairesde temps de survie censurés et M échantillons. Risque de 1ère espèce (M=500) etpuissance (M=200) du test de Wald unilatéral à 5%.Temps de survie censurésG θ S.D.(ˆθ) Moyenne√Puissance Recouvrementempirique H −1 ̂JH (ˆθ) * *1000 0.0 0.0285 0.0216 0.071 93.00.1 0.0406 0.0285 0.940 87.00.2 0.0481 0.0443 1.000 92.0500 0.0 0.0363 0.0248 0.100 95.00.2 0.0709 0.0622 0.960 90.00.4 0.0961 0.0754 1.000 88.0200 0.0 0.0563 0.0413 0.069 94.40.2 0.1145 0.0919 0.673 91.00.4 0.1441 0.1174 0.965 91.5100 0.0 0.0784 0.0567 0.088 93.00.2 0.1583 0.1242 0.440 86.50.4 0.2023 0.1655 0.834 88.00.6 0.2442 0.2001 0.970 89.00.8 0.2602 0.2359 0.980 90.01.0 0.3131 0.2679 0.995 90.5∗ utilisant l’estimateur̂ H−1 JH −1 (ˆθ) de la variance de ˆθ.


Tab. 4.4 – Estimations de θ pour G paires de temps de survie censurés et Méchantillons.Temps de survie censurésG θ Moyenne Moyenne ∗ S.D.( θ)∨(ˆθ) ( θ) ∨ empirique1000 0.0 0.2083 0.2084 0.02890.1 0.1036 0.1035 0.04040.2 0.2081 0.2078 0.0477500 0.0 0.0253 0.0256 0.03610.2 0.2039 0.2033 0.07070.4 0.4089 0.4090 0.0973200 0.0 0.0370 0.0368 0.05580.2 0.2104 0.2087 0.11320.4 0.4153 0.4139 0.1423100 0.0 0.0529 0.0519 0.07930.2 0.2178 0.2167 0.15950.4 0.4284 0.4262 0.19840.6 0.6254 0.6231 0.24360.8 0.8388 0.8365 0.25991.0 1.0129 1.0118 0.3125[ ( )]∗ où θ ∨ = ˆθ + H −1G (ˆζ) ∂P G (ˆζ)∂ ˆζˆθ


Tab. 4.5 – Résultats des simulations obtenus par Nielsen [70] en utilisant l’algorithmeEM, pour des temps de survie non censurés. (500 simulations réalisées sous H 0 et 200sous H 1 ).Temps de survie censurésG θ Moyenne S.D.(ˆθ) Moyenne Puissance(ˆθ) empirique S.E.(ˆθ)̂1000 0.0 -0.0047 0.0311 0.0313 0.0520.1 0.0903 0.0357 0.0370 0.7600.2 0.1934 0.0421 0.0425 0.995500 0.0 -0.0170 0.0429 0.0433 0.0580.2 0.1836 0.0570 0.0595 0.9350.4 0.3811 0.0709 0.0735 1.000200 0.0 -0.0290 0.0715 0.0649 0.0940.2 0.1702 0.0956 0.0921 0.5250.4 0.3623 0.1091 0.1147 0.980100 0.0 -0.0524 0.0905 0.0821 0.1060.2 0.1364 0.1368 0.1245 0.2400.4 0.3058 0.1578 0.1539 0.6700.6 0.5146 0.1947 0.1851 0.9300.8 0.7146 0.2086 0.2142 0.9901.0 0.8828 0.2276 0.2388 1.000


Tab. 4.6 – Résultats des simulations obtenus par Nielsen [70] en utilisant l’algorithmeEM, pour des temps de survie censurés. (500 simulations réalisées sous H 0 et 200 sousH 1 ).Temps de survie censurésG θ Moyenne S.D.(ˆθ) Moyenne Puissance(ˆθ) empirique S.E.(ˆθ)̂1000 0.0 -0.0008 0.0345 0.0365 0.0420.1 0.0970 0.0403 0.0426 0.6750.2 0.1973 0.0504 0.0488 1.000500 0.0 -0.0086 0.0497 0.0511 0.0440.2 0.1955 0.0665 0.0689 0.8950.4 0.3982 0.0831 0.0862 1.000200 0.0 -0.0136 0.0830 0.0803 0.0720.2 0.1937 0.1040 0.1083 0.5100.4 0.4031 0.1310 0.1373 0.945100 0.0 -0.0227 0.1133 0.1120 0.0540.2 0.1711 0.1635 0.1505 0.2450.4 0.3588 0.1822 0.1872 0.6050.6 0.5830 0.2332 0.2293 0.8750.8 0.8002 0.2542 0.2730 0.9901.0 0.9829 0.3097 0.3115 0.990


4.2 Simulations illustrativesL’objectif de ces simulations est de générer un échantillon proche de celui de la cohortePaquid, avec des tail<strong>le</strong>s de groupes variab<strong>le</strong>s (entre 13 et 232 sujets par groupe). Ainsi,nous souhaitions évaluer la qualité de l’estimation d’une fonction de risque non constante,puis l’estimation de paramètres de régression de variab<strong>le</strong>s explicatives spécifique à chaquegroupe et de paramètres de régression de variab<strong>le</strong>s explicatives individuel<strong>le</strong>s. Nous cherchionséga<strong>le</strong>ment à évaluer l’influence des effets aléatoires sur <strong>le</strong>s estimateurs des coefficientsde régression et de <strong>le</strong>ur variance. Nous nous placions en présence de donnéescensurées à droite et tronquées à gauche.4.2.1 Schéma d’étudeNous travaillons à nouveau sur un modè<strong>le</strong> stratifié à fragilité partagée mais avec variab<strong>le</strong>sexplicatives :λ ihj (t, X ihj |Z i ) = Z i λ 0h (t) exp(β ′ X ihj ) (4.2)Procédure de génération des temps de survie :Nous utilisons <strong>le</strong>s données du suivi à 8 ans de la cohorte Paquid (décrites dans <strong>le</strong> chapitre5). Les temps de survie sont générés selon une loi de Weibull de paramètres a h et b h ; ilsont été générés selon la relation suivante :T ihj = 1 (− exp(−β ) 1/ah1ALU i − β 2 EDUC ihj )ln(1 − U ihj )b h Z ioù U ihj suit une loi uniforme (0,1). La variab<strong>le</strong> explicative ALU i est une variab<strong>le</strong> propreà chaque groupe (ALU i = 1 pour tout sujet du groupe i, lorsque <strong>le</strong> taux d’aluminiumdans l’eau d’adduction de la commune i est supérieur à 0,100 mg/l, ALU i = 0 sinon). Lavariab<strong>le</strong> explicative EDUC ihj est une variab<strong>le</strong> individuel<strong>le</strong> éga<strong>le</strong> à 1 si <strong>le</strong> sujet j a obtenuun certificat d’étude, 0 sinon. Ces variab<strong>le</strong>s ne sont pas générées, el<strong>le</strong>s sont éga<strong>le</strong>s à cel<strong>le</strong>sutilisées dans la cohorte Paquid. En s’inspirant des résultats obtenus sur la cohorte Paquidon fixe β 1 = ln(2) (correspondant à un risque relatif de 2) et β 2 = ln(1.8) (correspondantà un risque relatif de 1.8).Les paramètres a h et b h ont été estimés dans chaque strate à partir des données de lacohorte Paquid, la stratification s’effectue ici sur <strong>le</strong> sexe. Sur cette cohorte, la fonction de


isque de base a été estimée à partir d’un modè<strong>le</strong> à risques proportionnels et une méthoded’estimation par vraisemblance pénalisée. Nous avons ainsi déterminé dans chaque strate,la va<strong>le</strong>ur de la fonction de risque de base pour deux âges de survie, 75 ans et 80 ans, (chez<strong>le</strong>s hommes, ˆλ 01 (70) = 0.00526 et ˆλ 01 (85) = 0.02314, chez <strong>le</strong>s femmes, ˆλ 01 (70) = 0.00354et ˆλ 01 (85) = 0.03417). La fonction de risque de base théorique suit une loi de Weibullde paramètres a h et b h , el<strong>le</strong> est éga<strong>le</strong> à λ 0h (t) = a h b a hh ta h−1 . Les paramètres de la distributionsont donc égaux à a 1 = 8.63011 et b 1 = 0.00099 dans la strate des hommes eta 2 = 12.67732 et b 2 = 0.01081 dans la strate des femmes.Les données observées dans la cohorte Paquid sont (Yihj P , δP Pihj ), avec Yihj = min(T ihj P , CP ihj )et avec δ P ihjP= 1 si <strong>le</strong> temps de survie Yihj est un temps d’événement et δP ihj = 0 si <strong>le</strong> tempsde survie Y Pihj est un temps de censure. Les âges d’entrée dans l’étude, T 0ihj sont ceux dela cohorte Paquid et n’ont pas été regénérés. Les nouveaux temps de survie Ỹ Sihj et ˜δ S ihjsont simulés de la manière suivante :– Si δ P ihj = 0,<strong>le</strong> temps de censure simulé est C S ihj = CP ihj = Y Pihjet <strong>le</strong> temps d’événement T Sihjest généré selon une distribution de Weibull (de paramètresa h et b h ), si T Sihj < Y 0ihj alors T Sihjest regénéré,<strong>le</strong> temps de survie simulé devient alors égal à Ỹ Sihj = min(T Sihj , CS ihj )et ˜δ S ihj = I{T Sihj , CS ihj }– Si δ P ihj = 1<strong>le</strong> temps de censure simulé C S ihjet <strong>le</strong> temps d’événement T Sihjest généré selon une distribution de Weibull (de paramètresa h et b h ), si T Sihj < T 0ihj alors T Sihjest égal à l’âge du sujet au suivi à 8 ans,est regénéré,<strong>le</strong> temps de survie simulé devient alors égal à Ỹ Sihj = min(T Sihj , CS ihj )et ˜δ S ihj = I{T Sihj , CS ihj }.Fonctions de risque :Dans ce modè<strong>le</strong> on estime par maximisation d’une vraisemblance pénalisée une fonctionde risque de base propre à chaque strate qui est approchée sur une base de M-splinescubiques. Pour une variance θ fixée et pour une tail<strong>le</strong> d’échantillon donnée, nous avonsestimé dans chaque strate une va<strong>le</strong>ur de κ par validation croisée. Le nombre de nœuds


était fixé à 8.Nous avons illustré graphiquement <strong>le</strong>s résultats des estimations des fonctions de risquethéoriques et estimées, margina<strong>le</strong>s ou conditionnel<strong>le</strong>s.– La fonction de risque de base théorique est égal à λ 0h (t) = a h b a hh ta h−1 . El<strong>le</strong> peut s’interprétercomme la fonction de risque conditionnel<strong>le</strong> pour un effet aléatoire moyen(Z = E[Z] = 1).Nous avons estimé la fonction de risque de base correspondante sur une base desplines ̂λ 0h (t) et <strong>le</strong>s bandes de confiance de cette fonction.– La fonction de risque de base margina<strong>le</strong> théorique est éga<strong>le</strong> à :λ(t) =∫ ∞0hλ 0h (t)zg(z)dz =λ 0h (t)(1 + θΛ 0h (t)) = a hb a hh ta h−1(1 + θ(tb h ) a h )La fonction de risque de base margina<strong>le</strong> peut être estimée par deux estimateurs :oûλ(t) =̂λ 0h (t)(1 + θ ̂Λ 0h (t))̂λ(t) ∗ = λ ∗ 0h(t)où λ ∗ 0h (t) est la fonction de risque de base obtenue dans un modè<strong>le</strong> à risques proportionnels(sans effets aléatoires), par maximisation d’une vraisemblance pénalisée.


Fig. 4.2 – Fonction de risque margina<strong>le</strong> théorique λ(t) pour une fonction derisque de base de Weibull (a=8.63,b=0.01), et une variab<strong>le</strong> de fragilité quisuit une distribution gamma de moyenne 1 et de variance θ.0.12theta=0theta=0.4theta=0.9theta=1.50.10.080.060.040.02065 70 75 80 85 90 95 100TempsLa figure (4.2) représente la fonction de risque margina<strong>le</strong> théorique pour différentesva<strong>le</strong>urs de la variance des effets aléatoires θ. Cette fonction est aussi appelée, fonction derisque dans la population, par opposition à la fonction de risque individuel<strong>le</strong> (ou conditionnel<strong>le</strong>)[2]. Lorsque θ = 0, il n’existe pas de corrélation intra-groupe et la fonction derisque dans la population λ(t) est éga<strong>le</strong> à la fonction de risque de base λ 0 (t).4.2.2 RésultatsLa simulation a été réalisée sur un seul échantillon de 2698 personnes, réparties dans70 zones géographiques, de tail<strong>le</strong>s variab<strong>le</strong>s (entre 13 et 232 personnes par zone). Lesdonnées ont été générées en fixant la variance des effets aléatoires à la va<strong>le</strong>ur θ = 0.6 etβ 1 = 0.69 (c’est à dire un risque relatif égal à 2), β 2 = 0.59 (c’est à dire un risque relatifégal à 1.8).Les résultats ont fourni un estimateur ˆθ = 0.419 (SE(ˆθ) = √Ĥ−1 (ˆθ) = 0.139) significativementdifférent de zéro (Wald=2.99). Les paramètres ont tout d’abord été estimés par


un modè<strong>le</strong> à risques proportionnels : pour la variab<strong>le</strong> explicative X 1 propre aux groupesˆβ 1 = 1.320, SE( ˆβ 1 ) = 0.224 ; IC95% = [0.880; 1.758] et pour la variab<strong>le</strong> explicativeindividuel<strong>le</strong> X 2 , ˆβ2 = 0.599, SE( ˆβ 2 ) = 0.110 ; IC95% = [0.383; 0.815]. Les résultats obtenuspar un modè<strong>le</strong> à fragilité étaient différents, notamment pour la variab<strong>le</strong> explicativeliée aux groupes : ˆβ1 = 1.253, SE( ˆβ 1 ) = 0.398, IC95% = [0.473; 2.033] et ˆβ 2 = 0.581,SE( ˆβ 2 ) = 0.124, IC95% = [0.337; 0.825]. Les interval<strong>le</strong>s de confiance contiennent <strong>le</strong>svraies va<strong>le</strong>urs β 1 et β 2 . On constate sur cet exemp<strong>le</strong> que l’utilisation d’un modè<strong>le</strong> à risquesproportionnels lorsqu’il existe une corrélation intra-groupe, fourni des estimateurs sousestimésde la variance des coefficients de régression propre au groupe. Par conséquent, <strong>le</strong>sinterval<strong>le</strong>s de confiance obtenus sur <strong>le</strong> modè<strong>le</strong> à risques proportionnels sont plus étroitsque ceux obtenus par <strong>le</strong> modè<strong>le</strong> à fragilité partagée.La figure (4.3) permet de comparer la fonction de risque de base théorique à la fonctionde risque de base estimée. La fonction de risque de base estimée (sur une base de splines)par vraisemblance pénalisée est très proche de la fonction de risque de base théorique.Ces deux fonctions sont comprises entre <strong>le</strong>s bandes de confiance classiques, obtenues parla variancê H−1 IH −1 .La fonction de risque de base estimée ̂λ 0 (t) est souvent appelée fonction de risque debase individuel<strong>le</strong>. El<strong>le</strong> peut éga<strong>le</strong>ment s’interpréter comme la fonction de risque de baseconditionnel<strong>le</strong> pour une va<strong>le</strong>ur moyenne de la variab<strong>le</strong> de fragilité (soit Z = E[Z] = 1).


Fig. 4.3 – Fonction de risque de base théorique et fonction de risque de baseestimée pour une distribution de Weibull des temps de survie.0.25Fonction de risque de base theoriqueFonction de risque de base estimeebande de confiance inferieurebande de confiance superieure0.20.150.10.05065 70 75 80 85 90 95 100TempsLa figure (4.4) permet de comparer la fonction de risque margina<strong>le</strong> théorique aux deuxestimateurs de la fonction de risque margina<strong>le</strong>, celui obtenu par intégration de la fonctionde risque conditionnel<strong>le</strong> ̂λ(t) =̂λ 0h (t)(1+θ ̂ Λ 0h (t))et celui obtenu par un modè<strong>le</strong> à risques proportionnels,sans variab<strong>le</strong>s de fragilité. Ces deux estimateurs approchent bien la fonction derisque margina<strong>le</strong>. La fonction de risque margina<strong>le</strong> s’apparente à un risque moyen dans lapopulation, il correspond au risque des individus pour une va<strong>le</strong>ur moyenne des variab<strong>le</strong>sde fragilité.


Fig. 4.4 – Fonction de risque margina<strong>le</strong> théorique et estimée correspondant àune distribution de Weibull et une variab<strong>le</strong> de fragilité gamma (θ = 0.6).0.1Fonction de risque margina<strong>le</strong> theoriqueFonction de risque margina<strong>le</strong> estimee (Mode<strong>le</strong> a fragilite)Fonction de risque margina<strong>le</strong> estimee (Mode<strong>le</strong> a risques proportionnels)Fonctions de risque margina<strong>le</strong>s0.080.060.040.02065 70 75 80 85 90 95 100Temps de survieLa figure (4.5) montre la différence existant entre deux estimateurs de la fonction derisque de base, l’une estimée par un modè<strong>le</strong> à fragilité partagée l’autre par un modè<strong>le</strong>à risques proportionnels. Dans cet exemp<strong>le</strong> la corrélation intra-groupe (θ = 0.6) est significativementdifférente de zéro. On constate que lorsque <strong>le</strong>s données sont corrélées,l’utilisation d’un modè<strong>le</strong> à risques proportionnels biaise l’estimation de la fonction derisque. El<strong>le</strong> sous-estime la fonction de risque de base obtenue par un modè<strong>le</strong> à fragilité.Ces fonctions illustrent aussi la différence existant entre un risque dans la population (ourisque marginal) et un risque individuel (ou risque de base), ainsi <strong>le</strong> risque dans la cohorteaugmente moins rapidement que <strong>le</strong> risque pour un individu de la cohorte, lorsqu’il existeune hétérogénéité entre groupes.


Fig. 4.5 – Fonction de risque de base estimée et fonction de risque margina<strong>le</strong>estimée.0.14Fonction de risque de base estimeeFonction de risque margina<strong>le</strong> estimee (Mode<strong>le</strong> a risques proportionnels)0.120.10.080.060.040.02065 70 75 80 85 90 95 100Temps


Chapitre 5Etude de la relationaluminium-démence5.1 Démence et maladie d’AlzheimerLa démence est une maladie qui touche essentiel<strong>le</strong>ment <strong>le</strong>s personnes âgées, et qui semanifeste par des troub<strong>le</strong>s de la mémoire et des fonctions cognitives supérieures. Cettemaladie est fréquente dans la population avec un taux de préva<strong>le</strong>nce d’environ 5% chez<strong>le</strong>s plus de 65 ans [57].Les connaissances sur l’étiologie de cette maladie multifactoriel<strong>le</strong> sont encore très incomplètes.Des gènes causant la maladie d’alzheimer, la plus fréquente des démences, ontété identifiés. Cependant, ils seraient essentiel<strong>le</strong>ment impliqués dans <strong>le</strong>s formes familia<strong>le</strong>set précoces de la maladie d’Alzheimer (MA) et représenteraient moins de 10% des casde MA. Une association a été montré entre l’allè<strong>le</strong> ɛ4 du gène de l’apolipoprotéine Eet la survenue d’une démence tardive de type Alzheimer [22]. Plusieurs facteurs se sontrévélés associés à un risque accru de MA, en particulier l’âge, un faib<strong>le</strong> niveau d’étude,<strong>le</strong>s antécédents de traumatismes crâniens [28]. D’autres facteurs seraient plutôt associésà un risque moindre de MA, <strong>le</strong>s activités de loisir, la consommation de vin [71], <strong>le</strong> traitementsubstitutif à base d’œstrogènes, <strong>le</strong>s anti-inflamatoires non stéroïdiens. Cependantces facteurs n’expliquent pas l’ensemb<strong>le</strong> des cas de démence.80


5.2 Hypothèse de la relation aluminium et démenceL’aluminium, de part sa neurotoxicité, est un facteur de risque candidat. En effet, l’hypothèsed’un rô<strong>le</strong> toxique de l’aluminium dans la démence repose sur plusieurs arguments[83]. Des études expérimenta<strong>le</strong>s sur des animaux et sur des êtres humains ont montré quel’aluminium pouvait franchir la barrière hémato-méningée qui protège <strong>le</strong> système nerveuxcentral [92]. Il a été montré en particulier chez <strong>le</strong>s personnes dialysées, que l’aluminiumde l’eau du dialysat pouvait pénétrer dans <strong>le</strong> cerveau de patients et conduire dans <strong>le</strong>s cas<strong>le</strong>s plus graves à des encéphalopathies [5]. Ainsi la norme de qualité d’eau de la pharmacopéepour l’hémodialyse doit être ramenée à 0.03 mg d’aluminium par litre, au lieu de0.2 mg/l (va<strong>le</strong>ur limite selon la loi française). De plus, certains auteurs ont montré quel’aluminium pouvait être présent dans <strong>le</strong>s plaques séni<strong>le</strong>s [16] et dans <strong>le</strong>s neurones porteursde dégénérescences neurofibrillaires [35], <strong>le</strong>s deux lésions retrouvées dans la maladied’Alzheimer (MA), la forme la plus fréquente de démence.5.2.1 Mécanisme d’action possib<strong>le</strong> de l’aluminiumLes recherches <strong>le</strong>s plus récentes rendent de plus en plus évident <strong>le</strong> rô<strong>le</strong> central jouépar <strong>le</strong> dépôt de protéines β−Amyloïde (βA) dans <strong>le</strong> processus d’intoxication neurona<strong>le</strong> etdans la genèse de la maladie d’Alzheimer. Cependant il reste à comprendre la formationet l’agrégation en dépôts pré-amyloïdes du dérivé insolub<strong>le</strong> (β-A4) à partir du précurseurde la protéine amyloïde (APP). Il existe presque une certitude que l’aluminium contribueà la formation d’amyloïde dans <strong>le</strong> cerveau des individus atteints d’une hyperaluminémie àla suite d’un traitement contre une insuffisance réna<strong>le</strong> [41]. Plusieurs artic<strong>le</strong>s ont confirméune influence de l’aluminium sur la conformation et l’agrégation de la βA [40].5.2.2 Etudes épidémiologiquesDifférentes sources d’exposition à l’aluminium ont été examinées ; cependant il existetoujours une très grande controverse concernant ces résultats. Rifat et al [78] ont étudiédes mineurs exposés à des poudres d’aluminium utilisées comme prophylactique contrela silicose. Il a montré une association positive entre l’inhalation de poudre d’aluminiumet une altération des fonctions intel<strong>le</strong>ctuel<strong>le</strong>s (mesurées par <strong>le</strong> MMSE). Plus récemmentGraves et al [37] n’ont pas trouvé de relation entre l’exposition professionnel<strong>le</strong> à l’aluminiumet la survenue d’une MA. Des études sur <strong>le</strong> rô<strong>le</strong> de produits contenant de l’aluminium


(antiacides, antiperspirants) dans la maladie d’Alzheimer ont conduit à des résultats positifset négatifs [36, 19].La source d’exposition à l’aluminium qui reste la plus étudiée est cel<strong>le</strong> de l’eau de boisson.L’argument avancé est une plus grande biodisponibilité de l’aluminium dans l’eaude boisson comparé à l’aluminium provenant de l’ensemb<strong>le</strong> de l’alimentation. Des étudesépidémiologiques ont suggéré une association entre l’aluminium dans l’eau de boisson et ladémence [64, 31, 66], avec un risque relatif de maladie d’Alzheimer compris entre 1.5 et 1.7pour des taux d’aluminium supérieurs à 0.1 mg/l. Cependant ces résultats sont éga<strong>le</strong>menttrès controversés et de récentes études épidémiologiques n’ont pas trouvé d’association[33, 65]. Il faut cependant noter certaines faib<strong>le</strong>sses méthodologiques de ces études. El<strong>le</strong>ssouffraient d’une faib<strong>le</strong> puissance statistique en raison d’un échantillon relativement restreint.De plus la majorité des enquêtes sur <strong>le</strong> sujet sont des enquêtes écologiques avecpeu de facteurs d’ajustement et un diagnostic de démence peu précis. Enfin, <strong>le</strong>s deuxdernières études négatives publiées [33, 65] examinaient des sujets relativement jeunes(43 à 75 ans) pour <strong>le</strong>squels des facteurs génétiques seraient prédominants, limitant ainsil’influence potentiel<strong>le</strong> de facteurs environnementaux. D’autre part, l’effet de l’aluminiumserait plus important chez <strong>le</strong>s personnes de plus de 75 ans ; comme l’a suggéré Taylor[87], l’absorption d’aluminium augmente avec l’âge et la toxicité pourrait provenir d’uneaccumulation de l’aluminium dans <strong>le</strong> cerveau.Plusieurs auteurs [11, 30, 10] en s’appuyant sur des résultats biologiques et biochimiquesont montré que la silice dans l’eau pouvait interagir avec l’aluminium en formantun comp<strong>le</strong>xe d’hydroxyaluminosilicates ; ainsi la silice de l’eau pourrait protéger contrel’effet de l’aluminium provenant de l’ensemb<strong>le</strong> de l’alimentation, et pas seu<strong>le</strong>ment del’aluminium contenu dans l’eau de boisson.5.2.3 Précédents travaux sur l’étude Paquid - ALMAEn 1991 un projet spécifique à l’étude de la relation entre l’aluminium dans l’eau deboisson et la maladie d’Alzheimer (ALMA) a débuté sur <strong>le</strong>s données de la cohorte Paquid.Cette cohorte créée en 1988 en Gironde et en Dordogne, portait sur <strong>le</strong> vieillissementcérébral normal et pathologique chez <strong>le</strong>s sujets de 65 ans et plus. Les premières analysesétaient basées sur des données préva<strong>le</strong>ntes issues de la visite initia<strong>le</strong> des 3777 sujets de la


cohorte Paquid et el<strong>le</strong>s étudiaient <strong>le</strong> déficit cognitif (évalué par <strong>le</strong> MMSE), dont <strong>le</strong> taux depréva<strong>le</strong>nce est de 25 % chez <strong>le</strong>s plus de 65 ans. Les résultats ont montré une relation entrela qualité de l’eau de boisson et <strong>le</strong> déficit cognitif mesuré par un test neuropsychologique,<strong>le</strong> MMSE [48, 49]. Ces premières analyses ont suggéré que l’association entre <strong>le</strong> déficitcognitif et l’aluminium dépendait non seu<strong>le</strong>ment du pH, mais aussi de la concentrationen silice : une concentration é<strong>le</strong>vée d’aluminium ne serait associée à une augmentationdu risque de déficit cognitif que lorsque la concentration en silice et <strong>le</strong> pH de l’eau sontfaib<strong>le</strong>s. Cependant un effet protecteur de l’aluminium a été constaté lorsque <strong>le</strong> pH de l’eauet <strong>le</strong> taux de silice étaient é<strong>le</strong>vés. Ce dernier résultat n’ayant pas d’explication biologiqueclaire, il restait diffici<strong>le</strong> à interpréter.5.3 Méthodologie de l’étude ALMA– Echantillon et données médica<strong>le</strong>sL’étude ALMA repose sur l’échantillon de l’étude Paquid. La cohorte Paquid a étéconçue en 1988-1989 pour étudier de façon prospective un échantillon représentatif de3777 personnes âgées de 65 ans et plus, domiciliées dans <strong>le</strong>s départements de Dordogne etde Gironde. Les sujets ont été tirés selon une procédure en trois étapes. L’ensemb<strong>le</strong> descommunes des deux départements a été classé en 4 strates (communes de plus de 50 000habitants, de 10000 à 49999 habitants, de 2000 à 9999 habitants et moins de 2000 habitants).Dans chaque strate, 37 communes de Gironde et 38 communes de Dordogne ontété tirées au sort avec une probabilité proportionnel<strong>le</strong> à <strong>le</strong>ur tail<strong>le</strong>. Dans chaque communesé<strong>le</strong>ctionnée <strong>le</strong>s sujets ont été tirés au sort sur <strong>le</strong>s listes é<strong>le</strong>ctora<strong>le</strong>s, avec une stratificationsur l’âge et <strong>le</strong> sexe.Les sujets ayant accepté de participer ont suivi un entretien d’environ une heure à<strong>le</strong>ur domici<strong>le</strong> avec une enquêtrice psychologue. Les cas de démence préva<strong>le</strong>ntes puis incidentesont été détectés selon une procédure en deux étapes. Premièrement, la psychologuecomplétait un questionnaire standardisé afin d’obtenir <strong>le</strong>s critères de démence selon <strong>le</strong>DSM-III-R [6]. Deuxièmement, <strong>le</strong>s sujets positifs pour ces critères étaient examinés à <strong>le</strong>urdomici<strong>le</strong> par un neurologue qui confirmait ou non <strong>le</strong> diagnostic et appliquait <strong>le</strong>s critèresNINCDS-ADRDA [62] pour la maladie d’Alzheimer.


Les sujets ont été réévalués selon la même procédure qu’initia<strong>le</strong>ment, un an, trois,cinq et huit ans après la visite initia<strong>le</strong> en Gironde et trois, cinq et huit ans après la visiteinitia<strong>le</strong> en Dordogne.– Mesures d’expositions aux minéraux de l’eauLa cohorte Paquid concernant 75 communes de Dordogne et de Gironde, il semblaitintéressant, en raison de cette variabilité géographique, d’étudier la relation entre l’aluminiumdans l’eau de boisson et la survenue d’une démence. L’étude ALMA a donc étéinitiée en 1991 pour analyser la relation entre l’aluminium dans l’eau de boisson et la maladied’Alzheimer sur <strong>le</strong>s sujets de la cohorte Paquid. Après une investigation sur <strong>le</strong> réseaude distribution d’eau, l’échantillon a été divisé en 77 zones géographiques de distributiond’eau d’adduction (la plus grosse commune de l’étude, Bordeaux, a été divisée en 3 zones).Deux campagnes de prélèvements (aux ressources) et de dosages, une en hiver l’autre enété ont été conduites en 1991 pour mesurer la concentration d’aluminium dans chaque zonede distribution d’eau, mais surtout pour étudier la variabilité des mesures (en particuliertemporel<strong>le</strong>). Ces campagnes de prélèvements ont mis en évidence une réel<strong>le</strong> variabilité dela concentration d’aluminium dans <strong>le</strong> temps ; cette variabilité pouvant être la conséquencede modifications réel<strong>le</strong>s des taux d’aluminium au niveau des captages ou de l’utilisationde ressources différentes selon la saison. Pour remédier en partie à ce problème, nousavons recueilli entre 1991 et 1994, tous <strong>le</strong>s résultats des analyses chimiques d’eau d’adductioneffectuées par <strong>le</strong>s DDASS de Dordogne et de Gironde. Lorsque <strong>le</strong>s prélèvementsne pouvaient être réalisés sur une ressource qui fournissait à une commune plus de 20% de ces besoins en eau potab<strong>le</strong>, la commune était exclue de l’étude. Six communesont ainsi étaient exclues. A partir de l’ensemb<strong>le</strong> de ces mesures recueillies entre 1991 et1994, pour chaque commune nous avons pu calcu<strong>le</strong>r une moyenne pondérée d’expositionà l’aluminium. La pondération a permis de prendre en compte l’évolution du réseau dedistribution d’eau sur <strong>le</strong>s 10 années qui ont précédé <strong>le</strong> début de l’étude (1981 à 1991).Ainsi, la contribution relative de chaque ressource et la période d’utilisation de chaqueressource ont été considérées. Les niveaux d’exposition au pH, à la silice au calcium et aufluor de l’eau ont été calculées selon la même procédure. La présente étude s’appuie sur70 zones géographiques pour <strong>le</strong>squel<strong>le</strong>s des mesures d’exposition étaient disponib<strong>le</strong>s.


5.4 Analyse des données groupées dans Paquid5.4.1 MéthodeNotre objectif était d’établir si il existait dans la cohorte Paquid une réel<strong>le</strong> hétérogénéitédes taux d’incidence de la démence entre communes et si c’était <strong>le</strong> cas d’essayer de l’expliquerpar des variab<strong>le</strong>s individuel<strong>le</strong>s ou groupées. Les taux d’incidence bruts de la démenceà 8 ans dans <strong>le</strong>s différentes communes de Paquid sont représentés en annexes (Annexes 1 et2). Ces cartes illustrent la dispersion géographique dans l’étude Paquid, avec un mélangede communes rura<strong>le</strong>s et urbaines, de plus une première description des données semb<strong>le</strong>ntmontrer une hétérogénéité entre communes des taux d’incidence bruts. D’autre part, unscore test d’homogénéité appliqué sur <strong>le</strong>s données de préva<strong>le</strong>nce de la cohorte Paquid arévélé une hétérogénéité apparente du déficit cognitif préva<strong>le</strong>nt entre <strong>le</strong>s différentes communes[20]. Cette hétérogénéité disparaissait après ajustement sur des facteurs de risqueindividuels, l’âge, <strong>le</strong> sexe, <strong>le</strong> niveau d’étude et la profession.La relation entre l’aluminium dans l’eau et la survenue d’une démence a déjà étépréalab<strong>le</strong>ment analysée par un modè<strong>le</strong> de Cox à entrée retardée ; cette analyse a faitl’objet d’une publication [81]. Nous avons souhaité réanalyser <strong>le</strong>s données par un modè<strong>le</strong>à fragilité partagée avec une distribution gamma pour <strong>le</strong>s variab<strong>le</strong>s de fragilité. Les paramètresont été estimés par vraisemblance pénalisée. L’analyse par un modè<strong>le</strong> à fragilitédes données de la cohorte Paquid avait plusieurs intérêts. Tout d’abord il s’agissaitd’évaluer une éventuel<strong>le</strong> corrélation géographique des démences incidentes. Puis, s’il existaitune hétérogénéité géographique, nous souhaitions chercher à l’expliquer par des variab<strong>le</strong>sd’ajustement individuel<strong>le</strong>s ou spécifiques aux groupes et nous souhaitions corrigerla variance des estimateurs des coefficients de régression. Par contre, s’il n’existait pasde corrélation intra-communes cela justifiait l’utilisation de méthodes d’analyse de survieclassiques.Une précédente analyse [21] sur <strong>le</strong>s données de Paquid a montré que l’hypothèse desrisques proportionnels n’était pas vérifiée pour <strong>le</strong> sexe, nous avons donc choisi d’effectuerune analyse stratifiée sur <strong>le</strong> sexe. Ainsi l’effet des variab<strong>le</strong>s explicatives est <strong>le</strong> même pour<strong>le</strong>s deux sexes, mais <strong>le</strong>s fonctions de risque de base estimées sont différentes pour <strong>le</strong>sfemmes et pour <strong>le</strong>s hommes.


L’âge a été choisi comme temps de base dans <strong>le</strong>s analyses, ainsi <strong>le</strong> risque de démenceest ajusté non-paramétriquement sur l’âge. Ceci nous permettait d’étudier un facteur derisque très important, l’âge, sans faire d’hypothèses paramétriques sur la forme de soneffet. De plus, <strong>le</strong>s fonctions de risque estimées représentaient l’incidence de la démence enfonction de l’âge. Les sujets déments à l’entrée dans l’étude ont été exclus de l’échantillond’analyse car ils n’étaient pas représentatifs de l’ensemb<strong>le</strong> des déments préva<strong>le</strong>nts de plusde 65 ans. En effet, <strong>le</strong>s sujets dans Paquid étaient initia<strong>le</strong>ment des sujets vivant à domici<strong>le</strong>,or environ 50% des déments de plus de 65 ans vivent en institution ; <strong>le</strong>s déments préva<strong>le</strong>ntsreprésentent donc une population se<strong>le</strong>ctionnée. L’échantillon que l’on considère inclu unecondition de troncature à gauche car <strong>le</strong>s sujets ne font partie de l’échantillon que conditionnel<strong>le</strong>mentau fait qu’ils n’ont pas subi l’événement avant <strong>le</strong>ur âge d’entrée dans l’étude.Les sujets décédés qui étaient non déments à la dernière visite étaient censurés à droiteà cette dernière visite. Pour un sujet dément nous n’avons pas traité <strong>le</strong> problème de censurepar interval<strong>le</strong> et nous avons considéré <strong>le</strong> milieu de l’interval<strong>le</strong> défini par la dernièrevisite à laquel<strong>le</strong> <strong>le</strong> sujet est vu non dément et la première visite à laquel<strong>le</strong> <strong>le</strong> sujet a étévu dément. Cette imputation du point médian semb<strong>le</strong> raisonnab<strong>le</strong> lorsque l’interval<strong>le</strong> detemps considéré n’est pas trop grand [21].En plus de l’âge et du sexe, nous avons choisi d’étudier trois types de variab<strong>le</strong>s explicatives: <strong>le</strong> niveau d’étude, l’aluminium et la silice dans l’eau de boisson. En effetde précédentes analyses sur <strong>le</strong>s données de Paquid ont mis en évidence un risque plusé<strong>le</strong>vé de démence incidente chez <strong>le</strong>s personnes n’ayant pas <strong>le</strong> certificat d’étude [58]. Ilsemb<strong>le</strong>rait que ce soit la capacité à acquérir un certain niveau d’éducation, plus qu’uncumul d’années d’études, qui soit associée à une diminution du risque de démence. Deplus, cette variab<strong>le</strong>, bien qu’étant spécifique aux sujets, est distribuée de manière trèshétérogène entre <strong>le</strong>s communes. Nous avons éga<strong>le</strong>ment ajusté sur l’aluminium en tant quevariab<strong>le</strong> binaire avec un seuil à 0.1 mg/l ce codage ayant déjà été utilisé dans des étudesprécédentes [64, 66]. La variab<strong>le</strong> silice a été utilisée en variab<strong>le</strong> binaire avec un point decoupure à 11.25 mg/l correspondant à la médiane de distribution sur <strong>le</strong>s données groupées.Le tirage au sort des sujets de l’échantillon ayant été stratifié sur <strong>le</strong> sexe et l’âge,


ces deux variab<strong>le</strong>s sont distribuées de façon homogène entre <strong>le</strong>s communes ; el<strong>le</strong>s nepeuvent donc pas constituer des facteurs explicatifs des variations géographiques de ladémence incidente, el<strong>le</strong>s seront néanmoins des variab<strong>le</strong>s d’ajustement traitées de façonnon-paramétrique.5.4.2 Résultats des analysesParmi <strong>le</strong>s 3777 sujets qui ont accepté initia<strong>le</strong>ment de participer, 102 sujets démentspréva<strong>le</strong>nts ont été retirés de l’échantillon. Les mesures d’exposition aux composants étaientdisponib<strong>le</strong>s pour 3401 sujets non déments initia<strong>le</strong>ment. Parmi <strong>le</strong>s 3401 sujets, 703 (20.6%)sujets n’ont pas participé au suivi soit parce qu’ils sont décédés avant toute visite de suivi(n=383, 11.3%), soit parce qu’ils ont refusé de participer aux visites de suivi (n=320,9.4%) ; ces pourcentages n’étaient pas significativement différents entre <strong>le</strong>s exposés à l’aluminiumet <strong>le</strong>s non exposés (décès p=0.42 ; refus p=0.27). Au moins une visite après lavisite initia<strong>le</strong> a été obtenue sur 2698 sujets. Durant <strong>le</strong>s huit années de suivi de ces sujets,253 personnes ont été diagnostiquées démentes ; parmi el<strong>le</strong>s 17 étaient exposées à des teneursé<strong>le</strong>vées en aluminium (≥ 0.1 mg/l). Le taux d’incidence global de la démence a étéestimé a 1.69 pour 100 personnes années.Les taux d’aluminium dans l’eau étaient compris entre 0.001 et 0.459 mg/l, avec uneva<strong>le</strong>ur médiane de 0.009 mg/l. Parmi <strong>le</strong>s 2698 sujets revus au moins une fois après la visiteinitia<strong>le</strong>, seu<strong>le</strong>ment 63 personnes (réparties dans 4 communes) étaient exposées à plus de0.1 mg/l d’aluminium. Les taux de silice étaient compris entre 4.2 et 22.4 mg/l et étaientinversement reliés aux concentrations d’aluminium. Cependant cette corrélation négativeétait faib<strong>le</strong> dans notre étude (coefficient de corrélation de Spearman=-0.18, p=0.13). Initia<strong>le</strong>ment,91 % des sujets étaient restés plus de 10 ans dans la même commune, et lamoyenne de résidence dans la commune était de 41 ans. Sur <strong>le</strong>s 1449 personnes revues à 8ans, seu<strong>le</strong>ment 35 avaient changé de communes (2.4%). La mobilité des personnes âgéesde Paquid est donc faib<strong>le</strong>, ce qui justifiait l’utilisation de mesures des composants de l’eausur la période 1981-1994.Les analyses ajustées paramétriquement sur <strong>le</strong> taux de silice et d’aluminium dans l’eauet non-paramétriquement sur l’âge et <strong>le</strong> sexe sont décrites dans <strong>le</strong> tab<strong>le</strong>au (5.1). Nousavons tout d’abord estimé <strong>le</strong>s paramètres à partir d’un modè<strong>le</strong> à risque proportionnel,


sans tenir compte du regroupement des données et en utilisant une méthode d’estimationpar vraisemblance pénalisée. Les résultats ont confirmé une association significative entre<strong>le</strong> niveau d’étude et <strong>le</strong> risque de démence, avec un risque de démence plus é<strong>le</strong>vé pour<strong>le</strong>s personnes n’ayant pas obtenu <strong>le</strong> certificat d’étude (RR = 1.85, IC95% = [1.48; 2.33]).Les personnes vivant dans des communes où <strong>le</strong> taux d’aluminium dans l’eau est supérieurà 0.1 mg/l auraient deux fois plus de risque de développer une démence par rapport àcel<strong>le</strong>s exposées à moins de 0.1 mg/l (RR = 2.17, IC95% = [1.33; 3.53]). Inversement <strong>le</strong>sanalyses ont montré un risque moindre chez <strong>le</strong>s personnes exposées à des teneurs é<strong>le</strong>véesen silice (≥ 11.25mg/l) (RR = 0.76, IC95% = [0.62; 0.94]). Les analyses ont éga<strong>le</strong>mentmontré une sensib<strong>le</strong> modification de l’effet de l’aluminium après ajustement sur la silice,ce résultat est en accord avec l’hypothèse émise par Birchall [11].Nous avons comparé ces résultats à ceux obtenus par un modè<strong>le</strong> de Cox classique etune méthode d’estimation par vraisemblance partiel<strong>le</strong> de Cox (par <strong>le</strong> logiciel EGRET).Ces méthodes d’estimation estiment des paramètres très proches, cependant la variancedes paramètres de régression estimée est plus faib<strong>le</strong> par la vraisemblance pénalisée.Nous avons comparé <strong>le</strong> modè<strong>le</strong> à risque proportionnel et <strong>le</strong> modè<strong>le</strong> à fragilité partagée(Tab<strong>le</strong>au 5.1) en utilisant une procédure d’estimation par vraisemblance pénalisée pour<strong>le</strong>s deux modè<strong>le</strong>s. Les résultats n’ont pas mis en évidence une hétérogénéité significativeentre communes des taux d’incidence de la démence dans la cohorte Paquid ; sans ajustementparamétrique la variance des effets aléatoires est estimée à (ˆθ = 0.071, p=0.089).Cependant cette va<strong>le</strong>ur diminue sensib<strong>le</strong>ment lorsque l’on ajuste sur <strong>le</strong> niveau d’étude, <strong>le</strong>taux de silice et <strong>le</strong> taux d’aluminium dans l’eau (ˆθ = 0.036, p=0.177).L’hétérogénéité entre communes est très faib<strong>le</strong>, cependant el<strong>le</strong> a une influence sur<strong>le</strong>s paramètres estimés et en particulier <strong>le</strong>s écarts-types estimés pour <strong>le</strong>s paramètres derégression de l’aluminium et de la silice sont plus faib<strong>le</strong>s avec <strong>le</strong> modè<strong>le</strong> à risques proportionnelspar rapport au modè<strong>le</strong> à fragilité. Cette sous-estimation des écarts-types n’a paseu d’influence sur <strong>le</strong>s conclusions des tests statistiques, même si <strong>le</strong>s statistiques de testétaient plus faib<strong>le</strong>s dans <strong>le</strong> modè<strong>le</strong> à fragilité.


Tab. 5.1 – Comparaison entre <strong>le</strong> modè<strong>le</strong> à fragilité partagée et <strong>le</strong> modè<strong>le</strong> pour donnéesindépendantes sur <strong>le</strong>s données d’incidence de la démence dans Paquid, après 8 ans desuivi de la cohorte.Variab<strong>le</strong>s Modè<strong>le</strong> à fragilité Modè<strong>le</strong>s pour données indépendantesV ∗∗ . pénalisée V ∗∗ . pénalisée V ∗∗ . partiel<strong>le</strong>ˆβ(S.E. ∗ )∗ ˆβ/S.E. ˆβ(S.E. ∗ )∗ ˆβ/S.E. ˆβ(S.E ∗ )∗ ˆβ/S.E.sans ajustementˆθ = 0.071 S.E.(ˆθ) = 0.053 Wald=1.345sans certificat d’étude † 0.636(0.112) 5.578 0.624(0.109) 5.749 0.599(0.127) 4.717ˆθ = 0.065 S.E.(ˆθ) = 0.052 Wald=1.271aluminium ‡ 0.879(0.274) 3.206 0.873(0.248) 3.524 0.849(0.249) 3.410ˆθ = 0.051 S.E.(ˆθ) = 0.044 Wald=1.166silice ♦ -0.303(0.126) -2.415 -0.304(0.112) -2.716 -0.341(0.126) -2.698ˆθ = 0.050 S.E.(ˆθ) = 0.046 Wald=1.089sans certificat d’étude † 0.621(0.111) 5.564 0.616(0.109) 5.657 0.594(0.127) 4.675aluminium ‡ 0.860(0.275) 3.129 0.838(0.249) 3.369 0.824(0.252) 3.269ˆθ = 0.050 S.E.(ˆθ) = 0.043 Wald=1.158sans certificat d’étude † 0.623(0.118) 5.286 0.617(0.116) 5.320 0.589(0.127) 4.642aluminium ‡ 0.783(0.267) 2.931 0.774(0.249) 3.113 0.751(0.254) 2.956silice ♦ -0.267(0.119) -2.246 -0.270(0.109) -2.487 -0.293(0.127) -2.303ˆθ = 0.036 S.E.(ˆθ) = 0.038 Wald=0.928∗ écarts-types estimés par √ (H −1 )∗∗ vraisemblance† versus avec certificat d’étude‡ ≥ 0.1 vs


5.4.3 Estimation des fonctions de risque conditionnel<strong>le</strong>s et margina<strong>le</strong>sNous avons représenté sur la figure 5.1 <strong>le</strong>s fonctions de risque de base de la démencechez <strong>le</strong>s hommes et chez <strong>le</strong>s femmes, sans ajustement. El<strong>le</strong>s s’interprètent éga<strong>le</strong>mentcomme l’incidence de la démence en fonction de l’âge. La corrélation intra-communesétant très faib<strong>le</strong>, la fonction de risque de base estimée (par vraisemblance pénalisée) par<strong>le</strong> modè<strong>le</strong> à fragilité est très proche de cel<strong>le</strong> estimée (par vraisemblance pénalisée) par <strong>le</strong>modè<strong>le</strong> à risques proportionnels (ou fonction de risque margina<strong>le</strong>).Fig. 5.1 – Incidence de la démence chez <strong>le</strong>s hommes et chez <strong>le</strong>s femmes de Paquid,estimée par un modè<strong>le</strong> à fragilité ou un modè<strong>le</strong> à risques proportionnels.0.14Fonction de risque de base (femmes)(hommes)Fonction de risque margina<strong>le</strong> (femmes)(hommes)0.120.10.080.060.040.02060 65 70 75 80 85 90 95AgesL’incidence de la démence chez <strong>le</strong>s personnes exposées à l’aluminium et chez <strong>le</strong>s nonexposées est représentée sur la figure (5.2). Ces fonctions de risque de base ont été obtenuespar un modè<strong>le</strong> à fragilité partagée, en ajustant sur l’aluminium. Ces fonctions de risquede base ajustées correspondent aux fonctions de risque de base pour une va<strong>le</strong>ur de lavariab<strong>le</strong> explicative éga<strong>le</strong> à 0. Pour obtenir la fonction de risque chez <strong>le</strong>s exposées, lavariab<strong>le</strong> aluminium a été codée 0 lorsque <strong>le</strong> taux d’aluminium était supérieur à 0.1 mg/l,1 sinon ; pour obtenir la fonction de risque chez <strong>le</strong>s non exposées ce codage était inversé.


Fig. 5.2 – Incidence de la démence estimée par un modè<strong>le</strong> à fragilité partagéechez <strong>le</strong>s hommes et chez <strong>le</strong>s femmes de Paquid, exposés à des taux é<strong>le</strong>vésd’aluminium (≥ 0.1 mg/l) ou non exposés (aluminium < 0.1 mg/l).0.160.14incidence for nonexposed womenincidence for exposed womenincidence for exposed menincidence for exposed men0.120.10.080.060.040.02060 65 70 75 80 85 90 95Ages5.4.4 DiscussionNotre étude n’a pas montré d’hétérogénéité significative du risque de démence incidenteentre <strong>le</strong>s différentes communes de la cohorte Paquid. On a cependant constaté une sousestimationde la variance des paramètres de régression des variab<strong>le</strong>s spécifiques aux communes(aluminium et silice) lors de l’utilisation d’un modè<strong>le</strong> pour données indépendantespar rapport au modè<strong>le</strong> à fragilité. On peut conclure que si certaines variab<strong>le</strong>s explicativesintéressantes sont spécifiques aux groupes <strong>le</strong> fait de trouver une corrélation nonsignificative ne suffit pas à assurer qu’un modè<strong>le</strong> pour données indépendantes donnera<strong>le</strong>s mêmes résultats qu’un modè<strong>le</strong> à fragilité partagée. Dans la cohorte Paquid il semb<strong>le</strong>donc préférab<strong>le</strong> d’utiliser un modè<strong>le</strong> à fragilité partagée lorsque l’on souhaite étudier desvariab<strong>le</strong>s explicatives liées à la zone géographique.Nous avons éga<strong>le</strong>ment essayé d’estimer <strong>le</strong>s paramètres par une approche margina<strong>le</strong> enutilisant <strong>le</strong> modè<strong>le</strong> MULCOX2 de Lin [61]. Cependant nous avons rencontré des problèmesde convergence sur <strong>le</strong>s données de la cohorte Paquid. Ceci provenant probab<strong>le</strong>ment dela forte variabilité des tail<strong>le</strong>s de groupes dans notre échantillon (entre 13 et 232 per-


sonnes par zone géographique). En effet, nous disposions d’une structure d’échantillontrès déséquilibrée, puisque 6 zones géographiques (soient 3 communes et Bordeaux) regroupaient42.6 % de notre effectif total. Les conditions asymptotiques ne sont donc passtrictement respectées, dans l’approche margina<strong>le</strong> comme dans l’approche conditionnel<strong>le</strong>.En particulier, la variance de la fonction de score U i pour certains groupes n’est probab<strong>le</strong>mentpas négligeab<strong>le</strong> par rapport à la variance tota<strong>le</strong> de U. Nous avons alors retiré 6zones géographiques dont <strong>le</strong>s tail<strong>le</strong>s étaient <strong>le</strong>s plus importantes. Les résultats du modè<strong>le</strong>à fragilité restaient très proches de ceux obtenus précédemment sur l’échantillon total,avec cependant une corrélation intra-zone beaucoup plus faib<strong>le</strong> (ˆθ = 5.10 −18 ). Nous avonsobtenu une variance robuste plus faib<strong>le</strong> pour la variab<strong>le</strong> aluminium dans l’approche margina<strong>le</strong>par rapport à l’approche conditionnel<strong>le</strong>.Nous pouvons noter qu’en terme d’interprétation des résultats et de procédure d’estimation,<strong>le</strong>s deux approches, margina<strong>le</strong>s ou conditionnel<strong>le</strong>s sont très différentes. L’approcheconditionnel<strong>le</strong> par <strong>le</strong> modè<strong>le</strong> à fragilité partagée a l’avantage de raisonner en terme derisque individuel, alors que l’approche margina<strong>le</strong> estime un risque moyen dans la population.Ainsi dans l’approche conditionnel<strong>le</strong> un risque relatif mesure l’effet d’une variab<strong>le</strong>explicative d’un individu par rapport à un autre individu du même groupe (ou d’un autregroupe ayant <strong>le</strong>s mêmes caractéristiques), alors que dans l’approche margina<strong>le</strong> <strong>le</strong> risquerelatif estimé compare l’effet moyen d’une population par rapport à une autre population.La littérature est abondante sur <strong>le</strong>s modè<strong>le</strong>s à fragilité, ils sont cependant encore peuutilisés dans <strong>le</strong>s applications. Ceci provient certainement du fait que peu de logiciels proposentce type de modélisation, mis à part S-plus et SAS. Nous avons choisi de comparernos résultats à ceux obtenus par une macro SAS. Cette procédure écrite par K<strong>le</strong>in (disponib<strong>le</strong>sur <strong>le</strong> site World Wide Web http ://biostat.mcw.edu/Software.html) utilise uneestimation des paramètres par l’algorithme EM pour des données éventuel<strong>le</strong>ment censuréesà droite. Cependant cette macro ne traite pas la troncature à gauche. Nous avons alorsutilisé l’âge d’entrée dans l’étude comme variab<strong>le</strong> d’ajustement de façon paramétrique.Les estimateurs des coefficients de régression et de <strong>le</strong>ur écart-type étaient très voisinsdes résultats précédents, de même pour la variance des variab<strong>le</strong>s de fragilité (ˆθ = 0.0401,SE(ˆθ) = 0.0416 et Wald= 0.9271). Nous avons pu constater que ce logiciel avait un tempsde calcul plus é<strong>le</strong>vé que notre programme.


Nous n’avons pas envisagé de dépendance entre des communes voisines qui irait àl’encontre de l’indépendance des effets aléatoires que nous avons faite lors de l’estimationdu modè<strong>le</strong>. Cependant, étant donné que la corrélation intra-zone est négligeab<strong>le</strong> il est peuprobab<strong>le</strong> qu’il existe une forte corrélation entre des communes ou zones voisines.Dans cette étude, des taux é<strong>le</strong>vés d’aluminium dans l’eau de boisson (≥ 0.1 mg/l)étaient associés à un risque accru de démence. Nous pouvons constater que la mesured’exposition à l’aluminium ne reflète pas une mesure d’exposition individuel<strong>le</strong> mais unemesure d’exposition col<strong>le</strong>ctive qui est la même pour tous <strong>le</strong>s sujets d’une même commune.Les données du suivi 8 ans de la cohorte Paquid ne nous permettaient pas d’affinercette mesure d’exposition en tenant compte de la quantité quotidienne d’eau du robinetingérée. Cependant, au suivi trois ans nous disposions de la consommation individuel<strong>le</strong>d’eau minéra<strong>le</strong>. Ainsi, nous avons examiné <strong>le</strong> sous-échantillon des 1638 sujets non démentsvus à trois ans, et nous nous sommes interessés aux 105 cas incidents de démence entre <strong>le</strong>suivi trois ans et <strong>le</strong> suivi huit ans. L’analyse réalisée à partir d’un modè<strong>le</strong> de Cox classique,a révélé une augmentation de l’effet de l’aluminium après ajustement sur la consommationd’eau minéra<strong>le</strong> (consommation quotienne d’eau minéra<strong>le</strong> versus consommation occationnel<strong>le</strong>ou inexistante d’eau minéra<strong>le</strong>). Ainsi, <strong>le</strong> risque relatif pour l’aluminium sans ajustementsur la consommation d’eau minéra<strong>le</strong> était égal à 2,89 (IC 95% 1,51-5,52, p < 0.001) ;il était égal à 3,36 (IC 95% 1,74-6,49, p < 0.001) après ajustement sur la consommationd’eau minéra<strong>le</strong>.Une relation dose-effet n’était pas apparente dans <strong>le</strong>s analyses, même si une associationlinéaire entre l’exposition à l’aluminium et <strong>le</strong> risque de démence était présente [81]. Cesrésultats reposaient cependant sur un faib<strong>le</strong> nombre de sujets exposés à des taux é<strong>le</strong>vésd’aluminium (soient 63 sujets sur 2698). En effet l’échantillon Paquid n’avait pas étéconçu initia<strong>le</strong>ment pour étudier spécifiquement <strong>le</strong>s composants de l’eau de boisson et ilne comportait que 4 communes exposées sur <strong>le</strong>s 70 pour <strong>le</strong>squel<strong>le</strong>s des données fiab<strong>le</strong>ssur l’aluminium étaient disponib<strong>le</strong>s. Pour confirmer la stabilité de ces résultats, il estdonc nécessaire de <strong>le</strong>s vérifier sur un échantillon incluant un plus grand nombre de sujetsexposés répartis dans un plus grand nombre de communes.


Chapitre 6Conclusion généra<strong>le</strong>Les méthodes classiques d’analyse de survie supposent l’indépendance des temps desurvie. Cette hypothèse risque de ne plus être valide dans <strong>le</strong> cas des données de surviegroupées. Les modè<strong>le</strong>s à fragilité partagée, ou modè<strong>le</strong>s de survie à effets aléatoires permettentalors de traiter ce type de données hétérogènes.Nous avons proposé une nouvel<strong>le</strong> méthode d’estimation dans un modè<strong>le</strong> à fragilitépartagée permettant d’estimer simultanément des paramètres de régression et <strong>le</strong>ur écarttype,une mesure de corrélation intra-groupe mais aussi une fonction de risque lisse. Cesestimateurs sont définis comme <strong>le</strong>s estimateurs du maximum de vraisemblance pénalisée.Cette nouvel<strong>le</strong> méthode d’estimation permet de répondre à trois catégories d’objectifs.La première catégorie d’objectifs est d’estimer et de tester une hétérogénéité entregroupes. Nous avons montré par simulations que cette méthode estimait correctement lavariance des effets aléatoires du modè<strong>le</strong> à fragilité. Lorsqu’une corrélation intra-groupeest présente el<strong>le</strong> pourra dans certains cas être expliquée par des facteurs de risque liés auxgroupes. Dans d’autres cas cette corrélation intra-groupe ne peut être expliquée par desfacteurs de risque mais el<strong>le</strong> peut ouvrir à d’autres hypothèses de recherche : par exemp<strong>le</strong>dans une étude de concentration familia<strong>le</strong>, une corrélation intra-famil<strong>le</strong> non expliquée peutlaisser penser à des facteurs génétiques.La seconde catégorie d’objectifs pour laquel<strong>le</strong> cette méthode est uti<strong>le</strong> est l’examen del’hypothèse d’un facteur de risque lié aux groupes. Cette méthode permet d’estimer unevariance corrigée des paramètres de régression spécifiques aux groupes qui seront sous estiméspar des modè<strong>le</strong>s à risques proportionnels. Par exemp<strong>le</strong> dans une étude de variabilité94


géographique comme cel<strong>le</strong> de Paquid, on va pouvoir estimer correctement la variabilitédes facteurs de risque environnementaux.La troisième catégorie d’objectifs est d’estimer une fonction de risque lisse. En effet enpénalisant la vraisemblance par un terme qui est d’autant plus grand que la fonction derisque est peu lisse, on impose à la fonction de risque d’être continue et d’avoir de faib<strong>le</strong>svariations loca<strong>le</strong>s. Nous montrons sur une simulation l’intérêt d’estimer une fonction derisque de base, aussi appelée fonction de risque individuel<strong>le</strong>. Cette fonction a l’avantaged’avoir une interprétation intéressante en épidémiologie. En particulier si l’âge est choisicomme temps de base, la fonction de risque peut être assimilée à l’incidence d’une maladieen fonction de l’âge.L’application présentée est consacrée à l’étude de la relation entre des facteurs derisque environnementaux et la survenue d’une démence chez <strong>le</strong>s sujets de plus de 65 ansdans la cohorte Paquid. L’approche proposée n’a pas mis en évidence de corrélation significativeintra-commune du taux de démence incidente à 8 ans dans Paquid. Les résultatsont montré après la prise en compte du sexe, de l’âge et du niveau d’étude des sujets,un risque de démence multiplié par deux chez <strong>le</strong>s personnes exposées à des taux é<strong>le</strong>vésd’aluminium dans l’eau (≥ 0.1 mg/l) par rapport à cel<strong>le</strong>s exposées à de faib<strong>le</strong>s taux d’aluminium(< 0.1 mg/l). Inversement des concentrations é<strong>le</strong>vées de silice dans l’eau étaientassociées à une réduction de près de 25 % du risque de démence. Ces résultats méritentd’être confirmés sur un échantillon incluant un plus grand nombre de sujets exposés à destaux é<strong>le</strong>vés d’aluminium.Les perspectives de recherche dans ce domaine sont de plusieurs ordres. Jusqu’àprésent, nous ne traitions que des variab<strong>le</strong>s explicatives fixes, or il serait probab<strong>le</strong>mentintéressant d’inclure des variab<strong>le</strong>s explicatives dépendantes du temps. Ceci nous permettraitpar exemp<strong>le</strong> d’étudier des facteurs environnementaux qui évoluent dans <strong>le</strong> temps.Une autre perspective serait d’étendre cette méthode pour traiter la censure par interval<strong>le</strong>dans <strong>le</strong>s modè<strong>le</strong>s à fragilité.Dans ce travail nous nous sommes uniquement intéressés à une distribution gammapour <strong>le</strong>s variab<strong>le</strong>s de fragilité. Il serait uti<strong>le</strong> d’examiner d’autres distributions et d’étudier


l’influence du choix de la distribution des effets aléatoires sur l’estimation des paramètres.Nous nous sommes intéressés dans cette application à une seu<strong>le</strong> source d’hétérogénéitédans la population, cel<strong>le</strong> provenant de facteurs de risque non observés communs à ungroupe d’individus (tels que des facteurs de risque génétiques ou environnnementaux).Or il peut exister une autre source d’hétérogénéité dans la population qui peut provenirde variab<strong>le</strong>s individuel<strong>le</strong>s négligées. Le modè<strong>le</strong> à fragilité corrélée permet de traiter cesdeux sources d’hétérogénéité, il serait possib<strong>le</strong> d’appliquer une méthode d’estimation parvraisemblance pénalisée sur ce type de modè<strong>le</strong>s.Une autre extension possib<strong>le</strong> du modè<strong>le</strong> à fragilité serait de pouvoir traiter simultanémentdeux états (par exemp<strong>le</strong> dément et décédé) ou deux causes de décès compétitives,et de déterminer s’il existe une fragilité commune à ces deux événements.Cette méthode d’estimation par vraisemblance pénalisée associée aux modè<strong>le</strong>s à fragilitéest prometteuse et <strong>le</strong>s applications épidémiologiques sont nombreuses. Nous noussommes appuyés sur un problème épidémiologique de données groupées pour illustrer laméthode, mais cette méthode peut éga<strong>le</strong>ment s’appliquer à toute structure d’échantillonoù il existe une potentiel<strong>le</strong> corrélation des données.


Bibliographie[1] Aa<strong>le</strong>n OO. Nonparametric inference for a family of counting processes. The Annalsof Statistics 1975 :6 ;534-545.[2] Aa<strong>le</strong>n OO. Effects of frailty in survival analysis. Statistical methods in medical research1994 ;3 :227-243.[3] Akaike H. A new look at the statistical model identification. IEEE Transactions onautomatic Control 1974 ;6 :716-723.[4] Andersen PK, Borgan O, Gill RD and Keiding N. Statistical models based on countingprocess. Springer-Verlag, New-York 1993.[5] Alfrey AC, Legendre GR, Kaehny WD. The dialysis encephalopathy syndrome : possib<strong>le</strong>aluminium intoxication. The New England Journal of Medecine 1976 ;294 :184-188.[6] American Psychiatric Association. Diagnostic and Statistical Manual of mental disorders,Edition III revised (DSM-III-R). Washington DC : American PsychiatricAssociation, 1987.[7] Andersen K, K<strong>le</strong>in JP, Zhang MJ. Testing for center effects in multicenters survivalstudies : a Monte Carlo comparison of fixed and random effects tests. Statistics inMedicine 1999 :18 ;1489-1500.[8] Anderson JE, Louis TA, Holm NV, Harvald B. Time-dependent association measuresfor bivariate survival distributions. Journal of the American Statistical Association1992 ;87 :641-650.[9] Bandeen-Roche KJ, Liang KY. Modelling failure-time associations in data with multip<strong>le</strong><strong>le</strong>vels of clustering. Biometrika 1996 ;83 :29-39.[10] Bel<strong>le</strong>s M, Sanchez DJ, Gomez M, Corbella J, Domingo JL. Silicon reduces aluminiumaccumulation in rats : re<strong>le</strong>vance to the aluminium hypothesis of Alzheimer’s Disease.Alzheimer’s Disease and Associated Disorders 1998 ;12 :83-87.97


[11] Birchall JD. The interrelationship between silicon and aluminium in the biologica<strong>le</strong>ffects of aluminium. Wi<strong>le</strong>y, Chichester (Ciba Foundation Symposium 169) 1992 ;50-68.[12] Bourdel-Marchasson I, Barateau M, Rondeau V. A multicentric trial of the effects oforal nutritional supp<strong>le</strong>mentation in critically ill older inpatients. Nutrition 2000 ;16 :1-5.[13] Breslow NE. Covariance analysis of censored survival data. Biometrics 1974 ;30 :89-99.[14] Bretagnol<strong>le</strong> J, Huber-Carol C. Effects of omitting covariates in Cox’s model for survivaldata. Scandinavian Journal of Statistics 1988 ;15 :125-138.[15] Buja A, Hastie T, Tibshirani R. Linear smoothers and additive models. The Annalsof Statistics 1989 ;17 :453-555.[16] Candy JM, McArthur FK, Oak<strong>le</strong>y AE et al. Aluminium accumulation in relation toseni<strong>le</strong> plaque and neurofibrillary tang<strong>le</strong> formation in the brains of patients with renalfailure. Journal of the Neurological Sciences 1992 ;107 :210-218.[17] Clayton DG. A model for association in bivariate life tab<strong>le</strong>s and its application inepidemiological studies of familial tendency in chronic disease incidence. Biometrika1978 ;65 :141-151.[18] Clayton D, Cuzick J. Multivariate generalizations of the proportional hazards model(with discussion). Journal of the Royal Statistical Society A 1985 ;148 :82-117.[19] Colin-Jones D, Langman MJS, Lawson DH, Vessey MP. Alzheimer’s disease in antacidusers. Lancet 1989 ;1453.[20] Commenges D, Letenneur L, Jacqmin H, Moreau T, Dartigues J.F. Test of Homogeneityof binary Data with Explanatory Variab<strong>le</strong>s. Biometrics 1994 ;50 :613-620.[21] Commenges D, Letenneur L, Joly P, Alioum A and Dartigues JF. Modelling agespecificrisk : application to dementia. Statistics in Medicine 1998 ;17 :1973-1988.[22] Corder EH, Saunders AM, Strittmatter WJ et al. Gene dose of apolipoprotein E type4 al<strong>le</strong><strong>le</strong> and the risk of Alzheimer’s disease in late onset families. Science 1993 ; 261 :921-925.[23] Costigan TM, K<strong>le</strong>in JP. Multivariate survival analysis based on frailty models. Advancesin reliability, New-York : North Holland 43-58.


[24] Cox DR. Regression models and life tab<strong>le</strong>s (with discussion). Journal of the RoyalStatistical Society B 1972 ;34 :187-220.[25] Cox DR, Hink<strong>le</strong>y DV. Theoretical statistics. Chapman Hall, London 1974.[26] Cox DR. Partial likelihood. Biometrika 1975 ;62 :269-276.[27] Cox DR, Oakes D. Analysis of survival data. Chapman Hall, London 1984.[28] Cummings JL. Current perspectives in Alzheimer’s disease. Neurology 1998 ;51 :s2-s17.[29] Elbers C, Ridder G. True and spurious duration dependence : the identifiability ofthe proportional hazard model. Review of economic studies XLIX 1982 ;403-409.[30] Ex<strong>le</strong>y C, Pinnegar JK, Taylor H. Hydroxyaluminosilicates and acute aluminium toxicityin fish. Journal of Theoretical Biology 1997 ;189 :133-139.[31] Flaten TP. Geographical associations between aluminium in drinking water anddeath rates with dementia (including Alzheimer’s disease), Parkinson’s disease andamyotrophic lateral sc<strong>le</strong>rosis in Norway. Environmental Geochemistry and Health1990 ;12 :152-167.[32] F<strong>le</strong>ming TR, Harrington DP. Counting processes and survival analysis. Wi<strong>le</strong>y, New-York 1991.[33] Forster DP, Newens AJ, Kay DWK, Edwardson JA. Risk factors in clinically diagnosedpreseni<strong>le</strong> dementia of the Alzheimer type : a case-control study in northernEngland. Journal of Epidemiology and Community Health 1995 ;49 :253-258.[34] Gill RD. Discussion of the paper by D.Clayton and J.Cuzick. Journal of the RoyalStatistical Society A 1985 ;148 :108-109.[35] Good PF, Perl DP, Bierer LM, Schmeid<strong>le</strong>r J. Se<strong>le</strong>ctive accumulation of aluminiumand iron in the neurofibrillary tang<strong>le</strong>s of Alzheimer’s disease : A laser microprobe(LAMMA) study. Annals of Neurology 1992 ;31 :286-292.[36] Graves AB, White E, Koepsel<strong>le</strong> TD et al. The association between aluminium containingproducts and Alzheimer’s disease. Journal of Clinical Epidemiology 1990 ;43 :35-44.[37] Graves AB, Rosner D, Echeverria D, Mortiner JA, Larson EB. Occupationa<strong>le</strong>xposures to solvents and aluminium and estimated risk of Alzheimer’s disease.Occupationaland Environmental Medicine 1998 ;55 :627-633.


[38] Gray RJ. F<strong>le</strong>xib<strong>le</strong> methods for analyzing survival data using splines, with applicationsto breast cancer prognosis. Journal of the American Statistical Association1992 ;87 :942-951.[39] Gray RJ. Spline-based tests in survival analysis. Biometrics 1994 ;50 :640-652.[40] Fasman GD, Perczel A, Moore CD. Solubilization of β-amyloid-(1-42)-peptide : Reversingthe β-sheet conformation induced by aluminum with silicates. Proceedings ofthe National Academy of Sciences USA 1995 ;92 :369-371.[41] Harrington CR, Wischick CM, McArthur FK, Taylor GA, Edwardson JA, Candy JM.Alzheimer’s disease like changes in tau protein processing : association with aluminumaccumulation in brains of renal dialysis patients. Lancet 1994 ;343 :993-997.[42] Hastie TJ, Tibshirani RJ. Generalized additive models. Chapman Hall, London 1990.[43] Hastie TJ, Tibshirani RJ. Varying-coefficient models (with discussion). Journal ofthe Royal Statistical Association, series B 1993 ;55 :757-796.[44] Hill C, Com-Nougué C, Kromar A et al. Analyse statistique des données de survie.Flammarion, Paris 1990.[45] Hougaard P. Survival models for heterogeneous populations derived from stab<strong>le</strong> distributions.Biometrika 1986a ;73 :387-96.[46] Hougaard P. Frailty models for survival data. Lifetime data analysis 1995 ;255-273.[47] Huh K, Postert AK, Sick<strong>le</strong>s RC. Maximum penalized likelihood estimation of mixedproportional hazard models. Commununications in Statistics - Theory and Methods1998 ;27 :2143-2164.[48] Jacqmin-Gadda H, Commenges D, Letenneur L, Barberger-Gateau P, Dartigues J.F.Components of Drinking Water and risk of Cognitive Impairment in the elderly.American Journal of Epidemiology 1994 ;139 :48-57.[49] Jacqmin-Gadda H, Commenges D, Letenneur L, Dartigues JF. Silica and Aluminiumin drinking water and cognitive impairment in the eldery. Epidemiology 1996 ;7 :281-285.[50] Joly P, Commenges D, Letenneur L. A penalized likelihood approach for arbitrarilycensored and truncated data : application to age-specific incidence of dementia.Biometrics 1998 ;54 :185-194.[51] Kalbf<strong>le</strong>isch JD, Prentice RL. The statistical analysis of failure time data. Wi<strong>le</strong>y,New-York 1980.


[52] Kaplan EL, Meier P. Nonparametric estimation from incomp<strong>le</strong>te observations. Journalof the American Statistical Association 1958 ;53 :457-481.[53] K<strong>le</strong>in JP, Moeschberger ML, Li YH, Wang ST. Estimating random effects in theFramingham heart study. Survival analysis : State of the art, Kluwer Academic,boston, Massachusetts 1992 ;99-120.[54] K<strong>le</strong>in JP, Moeschberger ML. Survival analysis : techniques for censored and truncateddata.Springer-Verlag, New-York 1997.[55] Korsgaard IR, Andersen AH. The additive genetic gamma frailty model. ScandinavianJournal of Statistics 1998 ;25 :255-269.[56] Lee EW, Wei LJ, Amato DA. Cox-type regression analysis for large numbers of smallgroups of correlated failure time observations. Survival Analysis : State of the arts,JP K<strong>le</strong>in, PK Goel eds 1992 ;237-247.[57] Letenneur L, Dequae L, Jacqmin H et al. Préva<strong>le</strong>nce de la démence en Gironde(France). Revue d’Epidémiologie et de Santé Publique 1993 ;41 :139-145.[58] Letenneur L, Gil<strong>le</strong>ron V, Commenges D, Helmer C, Orgogozo JM, Dartigues JF.Are sex and educational <strong>le</strong>vel independent predictors of dementia and Alzheimer’sdisease ? Incidence data from the Paquid project. Journal of Neurology Neurosurgeryand Psychiatry 1999 ;6 :177-183.[59] Liang KY, Self SG, Chang YC. Modelling marginal hazards in multivariate failuretime data. Journal of the Royal Statistical Society B 1993 ;55 :441-453.[60] Lin DY, Wei LJ. The robust inference for the Cox proportional hazards model. Journalof the American Statistical Association 1989 ;84 :1074-1078.[61] Lin DY. MULCOX2 : a general computer program for the Cox regression analysisof multivariate failure time data. Computer Methods and programs in Biomedicine1993 ;40 :279-293.[62] McKhann G, Drachman D, Folstein M, Katzmann R, Price D, Stadlan E M. Clinicaldiagnosis of Alzheimer’s disease : report of the NINCDS-ADRDA work group underthe auspices of the department of health and human services task force on Alzheimer’sdisease. Neurology 1984 ;34 :939-944.[63] Marquardt D. An algorithm for <strong>le</strong>ast-squares estimation of nonlinear parameters.SIAM Journal of Applied Mathematics 1963 ;431-441.


[64] Martyn CN, Barker DJP, Osmond C, Harris EC, Edwardson JA, Lacey RF. Geographicalrelation between Alzheimer’s disease and Aluminium in drinking water. Lancet1989 ;1 :59-62.[65] Martyn CN, Coggon DN, Lacey RF, Young WF. Aluminum concentrations in drinkingwater and risk of Alzheimer’s disease. Epidemiology 1997 ;8 :281-286.[66] McLachlan DRC, Bergeron MD, Smith JE et al. Risk for neuropathologically confirmedAlzheimer’s disease and residual aluminium in municipal drinking water employingweighted residential histories. Neurology 1996 ;46 :401-405.[67] Murphy SA. Consistency in a proportional hazards model incorporating a randomeffect.The Annals of Statistics 1994 ;22 :712-731.[68] Murphy SA. Asymptotic theory for the frailty model. The Annals of Statistics1995 ;23 :182-198.[69] Nelson W. Theory and applications of hazard plotting for censored failure data.Technometrics 1972 ;14 :265-275.[70] Nielsen GG, Gill RD, Andersen PK, Sorensen THIA. A counting process approach tomaximum likelihood estimation in frailty models. Scandinavian Journal of Statistics1992 ;19 :25-43.[71] Orgogozo JM, Dartigues JF, Lafont S et al. Wine consumption and dementia in theelderly : a prospective community study in the Bordeaux area. Revue Neurologique1997 ;153 :185-192.[72] O’Sullivan F. Fast computation of fully automated log-density and log-hazard estimators.SIAM Journal SCi. Stat. Comput. 1988 ;9 :363-379.[73] Parner E. Asymptotic theory for the correlated gamma-frailty model. The annals ofStatistics 1998 ;26 :183-214.[74] Petersen JH, Andersen PK, Gill RD. Variance components models for survival data.Statistica Neerlandica 1996 ;50 :193-211.[75] Pick<strong>le</strong>s A, Crouch<strong>le</strong>y R. Survival models for developmental genetic data : age of onsetof puberty and antisocial behavior in twins. Genetic Epidemiology 1994 ;11 :155-170.[76] Qiou Z, Ravishander N, Dey DK. Multivariate survival analysis with positive stab<strong>le</strong>frailties. Biometrics 1999 ;55 :637-644.[77] Ramsay JO. Monotone regression splines in action. Statistical Science 1988 ;3 :425-461.


[78] Rifat S, Eastwood MR, McLachlan DRC et al. Effect of exposure of miners to aluminiumpowder. Lancet 1990 ;336 :1162-1165.[79] Ripatti S, Palmgren J. Estimation of multivariate frailty models using penalizedpartial likelihood.Research report, University of Copenhagen 99/1.[80] Rondeau V, Commenges D, Bourdel-Marchasson I. Etude multicentrique de la survenued’escarres par un modè<strong>le</strong> de Cox basé sur une approche margina<strong>le</strong>. Revued’Epidémiologie et de Santé Publique 1999 ;47 :555-561.[81] Rondeau V, Commenges D, Jacqmin-Gadda H, Dartigues JF. Relationship betweenaluminum concentrations in drinking water and Alzheimer’s disease : an 8-year followupstudy. American Journal of Epidemiology, in press 2000.[82] Royall RM. Model robust confidence intervals using maximum likelihood estimators.International Statistical Review 1986 ;54 :221-226.[83] Savory J, Ex<strong>le</strong>y C, Forbes WF et al. Can the controversy of the ro<strong>le</strong> of aluminum inAlzheimer’s disease be resolved ? What are the suggested approaches to this controversyand methodological issues to be considered ? Journal of Toxicology and EnvironmentalHealth 1996 ;6 :615-635.[84] Serfling RJ. Approximation theorems of mathematical statistics. Wi<strong>le</strong>y, New-York1980.[85] Silverman BW. Some aspects of the spline smoothing approach to non-parametricregression curve fitting. Journal of the Royal Statistical Society B 1985 ;47 :1-52.[86] Sinha D. Posterior likelihood methods for multivariate survival data. Biometrics1998 ;54 :1463-1474.[87] Taylor GA, Ferrier IN, McLoughlin IJ et al. Gastrointestinal absorption of aluminiumin Alzheimer’s disease : response to aluminium citrate. Age and ageing 1992 ;21 :81-90.[88] Therneau TM, Grambsch PM. Penalized Cox models and frailty. S-plus documentation1998.[89] Vaupel JW, Manton KG, Stallard E. The impact of heterogeneity in individual frailtyon the dynamics of mortality. Demography 1979 ;16 :439-454.[90] Vaupel JW, Yashin AI. Heterogeneity’s ruses : Some suprising effects of se<strong>le</strong>ction onpopulation. Journal of the American Statistical Association 1985 :39 ;176-185.


[91] Wahba G. Bayesian “confidence intervals” for the cross-validated smoothing spline.Journal of the Royal Statistical Society B 1983 ;45 :133-150.[92] Walton J, Tuniz C, Fink D, Jacobsen G, Wilcox D. Uptake of trace of aluminum intothe brain from drinking water. Neurotoxicology 1995 ;16 :187-190.[93] Wang ST, K<strong>le</strong>in JP. Semi-parametric estimation of covariate effects using the positivestab<strong>le</strong> frailty model. Applied stochastic models and data analysis 1995 ;11 :121-133.[94] Wei LJ, Lin DY, Weissfeld L. Regression analysis of multivariate incomp<strong>le</strong>te failuretime data by modeling marginal distributions. Journal of the American StatisticalAssociation 1989 ;84 :1065-1073.[95] Yashin AI, Vaupel JW, Iachine IA. Correlated individual frailty : an advantageousapproach to survival analysis of bivariate data. Mathematical Population studies1995 ;5 :145-159.


Annexe ATaux d’incidence de la démence parcommune dans Paquid105


Index des notationsi = indice un groupe (G = nombre de groupes)j = indice un sujet (n i = nombre de sujets dans <strong>le</strong> groupe i)h = indice chaque strate (K = nombre de strates)n i = nombre de sujets dans la strate h du groupe iN = nombre total de sujetsl = nombre de nœudsT = temps de survenue de l’événementC = temps de censureY = temps d’observation (Y = min(T, C))δ = indicateur de censureL j = temps de troncature gauche pour <strong>le</strong> sujet jx ′ = (x 1 , x 2 , ..., x p ) = variab<strong>le</strong>s explicativesβ ′ = (β 1 , β 2 , ..., β p ) = coefficients de régressionZ = variab<strong>le</strong> de fragilitéθ = variance des variab<strong>le</strong>s de fragilitéη ′ = (η 1 , η 2 , ..., η m ) = coefficients des splinesζ ′ = (η 1 , ..., η m ; β 1 , ..., β p ; θ) = ensemb<strong>le</strong> des coefficientsκ n = paramètre de lissageλ 0 (t) = fonction de risque de baseλ(t|Z i ) = fonction de risque conditionnel<strong>le</strong>λ(t) = fonction de risque margina<strong>le</strong>S 0 (t) = fonction de survie de baseS(t|Z i ) = fonction de survie conditionnel<strong>le</strong>S(t, Z i ) = fonction de survie margina<strong>le</strong>V (.) = vraisemblancel(.) = log vraisemblancepl(.) = log vraisemblance pénaliséeI(.) = matrice d’information de FisherH(.) = esperance de moins la matrice hessienne de la log-vraisemblance pénalisée

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!