12.07.2015 Views

Télécharger le texte intégral - ISPED-Enseignement à distance

Télécharger le texte intégral - ISPED-Enseignement à distance

Télécharger le texte intégral - ISPED-Enseignement à distance

SHOW MORE
SHOW LESS
  • No tags were found...

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Université Victor Sega<strong>le</strong>n Bordeaux 2Année 2006 Thèse n o 1373THESEpour <strong>le</strong>DOCTORAT DE L’UNIVERSITE BORDEAUX 2Mention : Sciences Biologiques et Médica<strong>le</strong>sOption : Epidémiologie et Intervention en Santé PubliquePrésentée et soutenue publiquementLe 19 décembre 2006ParCéci<strong>le</strong> PROUST-LIMANée <strong>le</strong> 27 janvier 1979 <strong>à</strong> PoitiersModè<strong>le</strong>s mixtes <strong>à</strong> structure latente pour donnéeslongitudina<strong>le</strong>s multivariées hétérogènes :application <strong>à</strong> l’étude du vieillissement cognitif etde la démenceMembres du juryMonsieur Jean-Louis Foul<strong>le</strong>y, Directeur de recherche, Jouy-en-JosasMonsieur Michel Chavance, Directeur de recherche, Vil<strong>le</strong>juifMonsieur Christian Lavergne, Professeur, MontpellierMonsieur Jean-François Dartigues, Professeur, BordeauxMadame Hélène Jacqmin-Gadda, Chargée de recherche, BordeauxPrésidentRapporteurRapporteurMembre invitéDirectrice de thèse


2A mon papa parti trop vite


3RemerciementsA Monsieur Jean-Louis Foul<strong>le</strong>yJe vous remercie d’avoir accepté de présider ce jury. Vous êtes <strong>le</strong> premier <strong>à</strong> m’avoirenseigné <strong>le</strong>s modè<strong>le</strong>s mixtes et <strong>le</strong> traitement des données corrélées. Peut-être n’auraisjepas pris cette voie sans vous. Trouvez ici l’expression de ma gratitude.A Monsieur Michel ChavanceVous m’avez fait un grand honneur en acceptant de juger ce travail. Votre grandeexpérience en modélisation des données longitudina<strong>le</strong>s et des données incomplètesm’apporteront beaucoup. Je vous remercie sincèrement d’avoir accepté d’être <strong>le</strong> rapporteurde ma thèse.A Monsieur Christian LavergneJe suis très honorée que vous ayez accepté de juger ce travail. Votre grande connaissancedes modè<strong>le</strong>s de mélange et votre regard sur <strong>le</strong>s méthodes d’estimation m’apporterontassurément un éclairage nouveau sur mon travail. Je vous remercie vivementd’avoir accepter d’être <strong>le</strong> rapporteur de ma thèse.


4A Monsieur Jean-François DartiguesVous me faites un grand honneur et un grand bonheur en participant <strong>à</strong> ce jury. J’aiété ravie et très touchée de collaborer avec vous ces dernières années. Vous m’avezsoutenue et avez été des plus motivants voyant toujours l’intérêt épidémiologique desméthodes que nous développions. Votre grand enthousiasme et votre soutien m’ontbeaucoup aidée <strong>à</strong> réaliser ce travail. Je vous en suis profondément reconnaissante.A Madame Hélène Jacqmin-GaddaJe ne pourrai jamais assez te remercier pour tout ce que tu m’as apporté. Tu m’aspris sous ton ai<strong>le</strong> il y a maintenant près de 5 ans, m’as accordé toute ta confianceet m’as appris peut-être tout ce que je sais aujourd’hui. Ce fut un réel bonheur detravail<strong>le</strong>r avec toi. Ta rigueur, ta vivacité d’esprit et ta gentil<strong>le</strong>sse m’ont beaucoupapporté et motivé. Pendant <strong>le</strong>s coups dûrs et <strong>le</strong>s moments de doute, tu as su aussitrouver <strong>le</strong>s bons mots et ça m’a énormément touchée. Merci infiniment pour tout çaet <strong>le</strong> reste.


5Un immense merci <strong>à</strong> tous ceux que j’ai eu <strong>le</strong> plaisir de croiser <strong>à</strong> l’<strong>ISPED</strong>A l’équipe biostat dans son ensemb<strong>le</strong>. Merci <strong>à</strong> vous tous de m’avoir accueillie. Caa été un plaisir de travail<strong>le</strong>r dans une équipe aussi unie et motivée. Un merci toutparticulier <strong>à</strong> Daniel pour tes idées et ton regard critique, et <strong>à</strong> Rodolophe pour tesconseils. Merci aussi Guillaume pour <strong>le</strong>s mil<strong>le</strong> et un sauvetages d’ordi ... 4614 <strong>à</strong> larescousse.A l’équipe PAQUID. Ce fut un plaisir de découvrir cette petite famil<strong>le</strong> et notammentses deux mamans Marie-Hélène et Annick. Je remercie aussi cha<strong>le</strong>ureusement Luc,pour tes jeux de mots drô<strong>le</strong>s ... ou pas ! Merci surtout pour ton soutien et tes idées(l’apoe, mais bien sûr).A tous <strong>le</strong>s enseignants de l’<strong>ISPED</strong> qui m’ont appris un bien joli métier. A Pierred’abord, mon tuteur préféré, merci pour tes conseils, ton expérience et ta grandedisponibilité. Merci <strong>à</strong> Alioum pour la confiance que tu m’as accordée pendant cestrois années, j’en ai été très touchée. Merci aussi <strong>à</strong> l’équipe de P1, Marianne, Sylvieet Pasca<strong>le</strong> pour m’avoir fait partager votre passion.A messieurs Roger Salamon et Rachid Salmi pour ce qu’est l’<strong>ISPED</strong>, cette grandefamil<strong>le</strong> où il fait si bon travail<strong>le</strong>r dans la joie et la bonne humeur.Au bureau 45 et tous ses habitants plus ou moins permanents. A Ben, Seb, Sophie,Jérémie, Sandy, Julien, Elisabeth, Reza, Julia et Marianne, et ceux que j’oublie.Mais surtout, aux discussions sans fin avec Sophie, aux fous rires devant <strong>le</strong>s netsendset aux powerpoints des reines du craquage, Sophie et Sandy ... quel<strong>le</strong> bonneépoque !Au ex-bureau 30A, <strong>à</strong> Delphine, Renaud, Charlotte, Eric, Djoana et tous ceux depassage. Votre bureau était une deuxième maison pour moi. Merci pour votre bonnehumeur, <strong>le</strong>s nombreuses rigolades et <strong>le</strong>s goûters improvisés devant un gateau, unebrioche, des chocolats apportés par la gourmande Charlotte.Aux copines de piscine, Anne, Valérie, Gaël<strong>le</strong> et Delphine pour ces sorties ludiquesmais néanmoins sportives. Merci pour tous ces moments de détente.


6A l’<strong>ISPED</strong> dans son ensemb<strong>le</strong>, <strong>à</strong> tous ceux et cel<strong>le</strong>s que j’ai croisés dans un couloir,la caféteria, <strong>le</strong> salon où causent <strong>le</strong>s fil<strong>le</strong>s ...A Barbara pour <strong>le</strong>s longues discussions <strong>à</strong> l’accueil lorsque j’avais un fax <strong>à</strong> envoyer,<strong>à</strong> Nadia pour sa gentil<strong>le</strong>sse et sa douceur, <strong>à</strong> Marie-Pierre pour sa patience et sadisponibilité si précieuses.Aux conversations inattendues <strong>le</strong> midi ou en p<strong>le</strong>in après-midi. Et surtout surtout,au rire de Marthe-Aline, <strong>à</strong> cet anti-dépresseur, ce baume de joie de vivre.Merci <strong>à</strong> tous et <strong>à</strong> toutes.Et biensûr des énormes merci <strong>à</strong> tous ceux que j’aime et qui sont l<strong>à</strong> quoiqu’il arriveA mes trois très chers amis sots. Merci pour ces soirées délurées, ces voyages improviséset ces moments de franche rigolade. Merci Eric pour ta joie de vivre etton petit décalage. Garde ce côté f<strong>le</strong>ur b<strong>le</strong>ue devenu légendaire, il te va si bien. Ungros gros merci au plus sot parmi <strong>le</strong>s sots, Reno. Merci d’avoir été l<strong>à</strong> avec ta doucefolie. Ton amitié compte énormément pour moi. Et ton âme de chercheur et ta rigueurscientifique sont aussi des exemp<strong>le</strong>s que j’essaie tant bien que mal de suivre.Quand va t-on enfin travail<strong>le</strong>r ensemb<strong>le</strong> ? Et bien sûr ma chère et tendre Sophie, lapétillante et p<strong>le</strong>ine de vie Sophie. Quel bonheur de t’avoir rencontrée. De collègues,nous sommes devenues amies. Merci pour toutes ces années et <strong>le</strong>s prochaines.A Charlotte, sa joie de vivre et sa bonne humeur. J’ai pris beaucoup de plaisir <strong>à</strong> discuter“stats” avec toi. Tu es vive d’esprit et intuitive, deux grandes qualités. Mercipour ton amitié toutes ces années et merci en particulier d’avoir été l<strong>à</strong> aussi auxmoments diffici<strong>le</strong>s.A ma soeur de promo, Gaël<strong>le</strong>. J’ai été ravie de partager ces années avec toi, du DEAaux derniers mois de rédaction en passant par <strong>le</strong>s après-midi où la motivation n’étaitvraisemblab<strong>le</strong>ment pas au rendez-vous. Merci pour tout. On se retrouvera pour <strong>le</strong>champagne !


7A Delphine et ses mil<strong>le</strong> et une histoires savoureuses. Merci pour ces breaks autourde la piscine dès <strong>le</strong>s beaux jours arrivés et pour tous <strong>le</strong>s récits épiques des nuitsd’Aglaé ou de l’achat de la maison qui m’ont bien changé <strong>le</strong>s idées.A Audrey et Karine. Merci <strong>à</strong> toutes <strong>le</strong>s deux pour votre amitié, pour nos soirées fil<strong>le</strong>soù nous étions loin, bien loin des préoccupations professionnel<strong>le</strong>s. Et merci Audreypour ce petit amour Cé<strong>le</strong>ste que tu m’as fait connaître et qui me rappel<strong>le</strong> qu’il n’ya vraiment pas que <strong>le</strong> travail dans la vie.A ma très très chère Karine. Très loin de Bordeaux et du travail, tu sais toujoursme changer <strong>le</strong>s idées pendant nos papotages sans fin. Merci d’être l<strong>à</strong>, merci d’êtretoi.A ma petit soeur Hélène et ses nombreux encouragements. J’espère que tu trouverasta voie comme j’ai trouvé la mienne. A mon grand frère, Olivier. Merci pour toutesces très bonnes soirées autour du “gros tube” ou <strong>à</strong> refaire <strong>le</strong> monde <strong>à</strong> Margonnet.A mes parents Bernard et Sylvie, amoureux des mathématiques et de l’enseignementqui m’avez donné envie d’al<strong>le</strong>r l<strong>à</strong> où je suis aujourd’hui. Merci <strong>à</strong> tous <strong>le</strong>s deuxpour vos encouragements, votre soutien et votre amour. Merci pour ce que vousreprésentez et représenterez toujours pour moi, même absents.Et parce qu’on garde toujours <strong>le</strong> meil<strong>le</strong>ur pour la fin. Mil<strong>le</strong> millions de mercis <strong>à</strong> monpetit mari chéri, Bruno, pour sa patience et sa tendresse. Tout au long de ces années,tu m’as supportée, réconfortée et câlinée même pendant mes pires moments d’angoisseet de mauvaise humeur. Tu es un amour, mon amour. Merci d’être l<strong>à</strong> avec moi.


Tab<strong>le</strong> des matières1 Introduction 121.1 Epidémiologie du vieillissement cognitif . . . . . . . . . . . . . . . . . 121.1.1 Facteurs de risque potentiels de démence . . . . . . . . . . . . 131.1.2 Histoire naturel<strong>le</strong> du vieillissement cognitif . . . . . . . . . . . 141.1.3 Questions ouvertes sur <strong>le</strong> vieillissement cognitif et la démence 151.2 Problèmes méthodologiques liés <strong>à</strong> l’étude du vieillissement . . . . . . 171.2.1 Multiplicité des mesures de cognition . . . . . . . . . . . . . . 171.2.2 Hétérogénéité des déclins cognitifs . . . . . . . . . . . . . . . . 181.2.3 Association entre déclin cognitif et démence . . . . . . . . . . 191.2.4 Sortie d’étude informative . . . . . . . . . . . . . . . . . . . . 191.3 Objectif et plan du mémoire . . . . . . . . . . . . . . . . . . . . . . . 212 Etat des connaissances 232.1 Le modè<strong>le</strong> linéaire mixte . . . . . . . . . . . . . . . . . . . . . . . . . 232.2 Modè<strong>le</strong>s pour données longitudina<strong>le</strong>s multivariées . . . . . . . . . . . 252.2.1 Modè<strong>le</strong>s linéaires mixtes pour données longitudina<strong>le</strong>s multivariées. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.2.2 Modè<strong>le</strong>s <strong>à</strong> variab<strong>le</strong>s latentes pour données longitudina<strong>le</strong>s multivariées. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312.3 Modélisation des données hétérogènes . . . . . . . . . . . . . . . . . . 372.3.1 Définition d’un modè<strong>le</strong> de mélange . . . . . . . . . . . . . . . 378


TABLE DES MATIÈRES 92.3.2 Estimation d’un modè<strong>le</strong> de mélange . . . . . . . . . . . . . . . 382.3.3 Modè<strong>le</strong>s de mélanges pour données longitudina<strong>le</strong>s . . . . . . . 432.4 Modélisation conjointe de marqueurs longitudinaux et d’un événement 512.4.1 Modè<strong>le</strong>s <strong>à</strong> effets aléatoires partagés . . . . . . . . . . . . . . . 522.4.2 Modè<strong>le</strong>s conjoints <strong>à</strong> classes latentes . . . . . . . . . . . . . . . 562.4.3 Cas particulier : modélisation de la sortie d’étude informative 613 Modè<strong>le</strong> nonlinéaire <strong>à</strong> processus latent pour des données longitudina<strong>le</strong>smultivariées 643.1 Artic<strong>le</strong> méthodologique . . . . . . . . . . . . . . . . . . . . . . . . . . 653.2 Etudes de simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . 773.2.1 Méthodologie des études de simulation . . . . . . . . . . . . . 773.2.2 Première étude : paramétrisation de la fonction Beta . . . . . 783.2.3 Deuxième étude : situation proche du jeu de données PAQUID 813.3 Applications épidémiologiques . . . . . . . . . . . . . . . . . . . . . . 833.3.1 Propriétés métrologiques des tests psychométriques . . . . . . 833.3.2 Effet du sexe et du niveau d’études sur <strong>le</strong>s mesures de déclincognitif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 873.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 904 Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes pour l’analyse conjointe deplusieurs marqueurs quantitatifs et d’une variab<strong>le</strong> binaire 935 Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes pour l’analyse conjointe deplusieurs marqueurs quantitatifs et d’un temps d’événement 1125.1 Formulation du modè<strong>le</strong> conjoint paramétrique . . . . . . . . . . . . . 1135.1.1 Modè<strong>le</strong> pour <strong>le</strong>s données longitudina<strong>le</strong>s . . . . . . . . . . . . . 1135.1.2 Modè<strong>le</strong> de survie conjoint . . . . . . . . . . . . . . . . . . . . 1145.2 Estimation du modè<strong>le</strong> . . . . . . . . . . . . . . . . . . . . . . . . . . 1175.2.1 Vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . 117


TABLE DES MATIÈRES 105.2.2 Troncature <strong>à</strong> gauche . . . . . . . . . . . . . . . . . . . . . . . 1185.2.3 Classification et probabilité a posteriori de l’événement . . . . 1185.3 Modélisation semi-paramétrique de la survie . . . . . . . . . . . . . . 1205.3.1 Risque d’événement modélisé par des fonctions splines . . . . 1215.3.2 Vraisemblance pénalisée . . . . . . . . . . . . . . . . . . . . . 1225.3.3 Choix du critère de lissage . . . . . . . . . . . . . . . . . . . . 1235.4 Analyse de l’adéquation . . . . . . . . . . . . . . . . . . . . . . . . . 1245.4.1 Qualité de classification . . . . . . . . . . . . . . . . . . . . . 1245.4.2 Prédictions dans l’échel<strong>le</strong> des marqueurs . . . . . . . . . . . . 1255.4.3 Courbes de survie prédites . . . . . . . . . . . . . . . . . . . . 1255.5 Etude de simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . 1265.5.1 Génération des données . . . . . . . . . . . . . . . . . . . . . 1265.5.2 Résultats de l’étude de simulation . . . . . . . . . . . . . . . . 1285.6 Application : profils de déclin cognitif associés au risque de démence . 1285.6.1 Objectif de l’étude . . . . . . . . . . . . . . . . . . . . . . . . 1285.6.2 Les données d’application . . . . . . . . . . . . . . . . . . . . 1305.6.3 Spécification du modè<strong>le</strong> conjoint . . . . . . . . . . . . . . . . . 1305.6.4 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1325.6.5 Adéquation du modè<strong>le</strong> . . . . . . . . . . . . . . . . . . . . . . 1406 Discussion et perspectives 1496.1 Forces de l’approche . . . . . . . . . . . . . . . . . . . . . . . . . . . 1496.1.1 Modélisation de plusieurs marqueurs non Gaussiens . . . . . . 1496.1.2 Hétérogénéité des évolutions et association avec la survenued’un événement . . . . . . . . . . . . . . . . . . . . . . . . . . 1516.1.3 Prise en compte des variab<strong>le</strong>s explicatives . . . . . . . . . . . 1526.1.4 Outil de diagnostic de démence . . . . . . . . . . . . . . . . . 1546.2 Modè<strong>le</strong> <strong>à</strong> classes latentes et sortie d’étude informative . . . . . . . . . 1556.3 Limites de l’approche et développements futurs . . . . . . . . . . . . 156


TABLE DES MATIÈRES 116.3.1 Adéquation du modè<strong>le</strong> <strong>à</strong> classes latentes . . . . . . . . . . . . 1566.3.2 Transformations nonlinéaires des marqueurs . . . . . . . . . . 1616.3.3 Multiplicité des événements . . . . . . . . . . . . . . . . . . . 1626.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1637 Bibliographie 1648 Annexes 1808.1 Liste des publications et communications scientifiques . . . . . . . . . 1808.2 Artic<strong>le</strong>s scientifiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 182


Chapitre 1IntroductionAvec l’allongement de la durée de vie, l’étude du vieillissement cognitif et de lasurvenue d’une démence a suscité un intérêt croissant chez <strong>le</strong>s épidémiologistes. Maisl’étude du vieillissement pose certains problèmes méthodologiques qui nécessitentdes développements statistiques. Le présent travail a pour objet de répondre <strong>à</strong> desproblèmes actuels de recherche sur <strong>le</strong> vieillissement cognitif par <strong>le</strong> développement denouvel<strong>le</strong>s méthodes statistiques pour l’analyse de données longitudina<strong>le</strong>s.1.1 Epidémiologie du vieillissement cognitifLe nombre de personnes atteintes de troub<strong>le</strong>s cognitifs liés <strong>à</strong> l’âge ne cesse d’augmenteravec <strong>le</strong> vieillissement de la population. Ces troub<strong>le</strong>s se traduisent par uneperte progressive de la mémoire, du langage, de l’attention, de la capacité d’abstractionou de l’orientation dans <strong>le</strong> temps et l’espace. La plupart du temps, ces troub<strong>le</strong>srestent légers, liés <strong>à</strong> un processus de vieillissement cognitif normal mais lorsque <strong>le</strong>déclin cognitif devient plus important, ils peuvent donner lieu <strong>à</strong> une démence.La démence est définie par une altération de la mémoire et d’au moins une autrefonction cognitive avec des répercussions sur la vie quotidienne du malade. La maladied’Alzheimer représente la démence la plus fréquente chez <strong>le</strong> sujet âgé. En France,on estime aujourd’hui <strong>à</strong> plus de 855 000 <strong>le</strong> nombre de personnes âgées de plus de 6512


Introduction 13ans atteintes d’une maladie d’Alzheimer ou d’un autre syndrome démentiel et <strong>à</strong> prèsde 225 000 <strong>le</strong> nombre de nouveaux cas chaque année (OPEPS, 2006). Après 75 ans,la préva<strong>le</strong>nce de la maladie d’Alzheimer et des syndromes apparentés a été estimée<strong>à</strong> 13.2% chez <strong>le</strong>s hommes et 20.5% chez <strong>le</strong>s femmes, soit une préva<strong>le</strong>nce tota<strong>le</strong> de17.8% après 75 ans (Ramaroson et al., 2003).1.1.1 Facteurs de risque potentiels de démenceLes premiers travaux épidémiologiques sur la démence réalisés <strong>à</strong> partir de donnéesde cohortes prospectives ont consisté, outre <strong>à</strong> estimer l’incidence et la préva<strong>le</strong>nce dela démence (Letenneur et al., 1994 ; Lobo et al., 2000 ; Ramaroson et al., 2003), <strong>à</strong>évaluer l’impact de facteurs biologiques, environnementaux ou socio-démographiquessur <strong>le</strong> risque de démence et de maladie d’Alzheimer. Il a ainsi été montré qu’un âgeavancé (Letenneur et al., 1994), <strong>le</strong> sexe féminin (Fratiglioni et al., 2000), un basniveau d’études (Letenneur et al., 1999) et des facteurs génétiques (génotype del’apolipoprotéine E - Farrer et al., 1997) représentaient des facteurs de risques dela maladie. Depuis, d’autres facteurs de risque de survenue de démence ont aussiété suspectés comme <strong>le</strong>s facteurs sociaux (peu d’activités de loisir ou socia<strong>le</strong>s -Fabrigou<strong>le</strong> et al., 1995), <strong>le</strong>s facteurs de risque vasculaires (l’hyper-tension artériel<strong>le</strong>,l’hypercho<strong>le</strong>stérolémie, <strong>le</strong> diabète ou <strong>le</strong> statut tabagique - Cowppli-Bony et al., 2006 ;de la Torre, 2004) et des facteurs nutritionnels (faib<strong>le</strong> consommation de poisson oude vitamines - Larrieu et al., 2004 ; Luchsinger et Mayeux, 2004).Aujourd’hui, la recherche de facteurs protecteurs d’une démence sur <strong>le</strong>squels i<strong>le</strong>st possib<strong>le</strong> d’agir préventivement représente un réel enjeu de santé publique etune part importante des travaux épidémiologiques. Cependant, la démence étantun processus de dégradation progressif et continu, l’étude de l’association entre cesfacteurs et <strong>le</strong> diagnostic de démence ne permet pas de comprendre entièrement <strong>le</strong>mécanisme d’implication de ces facteurs dans <strong>le</strong> développement d’une démence. En


Introduction 14effet, <strong>le</strong> diagnostic de démence ne représente qu’un point arbitraire dans l’histoirede la maladie (Morris et al., 1999) et il est donc primordial d’étudier <strong>le</strong> déclin desfonctions cognitives au cours du temps en plus du risque de démence, afin de mieuxcomprendre l’histoire naturel<strong>le</strong> de la maladie et d’évaluer <strong>le</strong>s mécanismes faisantintervenir <strong>le</strong>s facteurs de risque.1.1.2 Histoire naturel<strong>le</strong> du vieillissement cognitifLa démence s’inscrit dans un processus continu de détérioration cognitive et onsait aujourd’hui que <strong>le</strong> symptome prédictif <strong>le</strong> plus sensib<strong>le</strong> d’une démence est <strong>le</strong>déficit cognitif. Des études pronostiques ont d’abord montré que, 3 <strong>à</strong> 6 ans avant<strong>le</strong> diagnostic de démence, <strong>le</strong> niveau cognitif des sujets déments était plus faib<strong>le</strong>que celui des sujets non-déments (Backman et al., 2001 ; Dartigues et al., 1997). Desétudes longitudina<strong>le</strong>s ont ensuite permis de mettre en évidence que ce déficit cognitifaccru chez <strong>le</strong>s sujets déments venait d’un déclin cognitif pré-diagnostique.En effet, il a été montré que plusieurs années avant <strong>le</strong>ur diagnostic cliniquede démence, <strong>le</strong>s sujets déments souffraient déj<strong>à</strong> d’un déclin pathologique de <strong>le</strong>ursperformances cognitives (Hall et al., 2000 ; Joseph et al., 1999). Ce déclin d’abordassez <strong>le</strong>nt s’accélèrerait entre 5 et 8 ans avant <strong>le</strong> diagnostic clinique de démence, ladate du changement de pente variant selon <strong>le</strong>s études et <strong>le</strong> type de fonction cognitiveétudiée (Hall et al., 2000 ; Hall et al., 2001 ; Hall et al., 2003). Des travaux plus récentsont aussi permis de montrer que la forme du déclin cognitif précédant <strong>le</strong> diagnosticclinique de démence variait suivant <strong>le</strong> niveau d’éducation du patient (Jacqmin-Gaddaet al., 2006 ; Amieva et al., 2005 ; Scarmeas et al., 2006), <strong>le</strong>s sujets de haut niveaud’études ayant une accélération plus bruta<strong>le</strong> de <strong>le</strong>ur déclin cognitif dans <strong>le</strong>s dernièresannées précédant <strong>le</strong> diagnostic que <strong>le</strong>s sujets de bas niveau d’études.La distinction entre déclin cognitif normal et déclin cognitif pathologique estdéterminante pour comprendre <strong>le</strong> processus de dégradation pathologique vers ladémence et la recherche d’outils permettant de détecter plus précocément une démence.


Introduction 15Mais, pour l’instant, <strong>le</strong>s études menées sur <strong>le</strong> vieillissement cognitif normal ont abouti<strong>à</strong> des résultats assez variab<strong>le</strong>s. En effet, l’existence d’un déclin des fonctions cognitivesvarie suivant la mesure de cognition étudiée (Jacqmin-Gadda et al., 1997a ;Ganguli et al., 1996) et notamment suivant qu’el<strong>le</strong> possède ou non une composantede vitesse (Jacqmin-Gadda et al., 1997b ; Salthouse, 1996).1.1.3 Questions ouvertes sur <strong>le</strong> vieillissement cognitif et ladémenceAujourd’hui, de nombreuses questions de recherche restent encore sans réponseconcernant <strong>à</strong> la fois la description du vieillissement cognitif, qu’il soit normal oupathologique, et <strong>le</strong>s mécanismes d’implication des facteurs de risque d’un déclincognitif et d’une démence.Tout d’abord, l’histoire naturel<strong>le</strong> du vieillissement cognitif reste encore malconnue. Le déclin cognitif survenant en phase pré-diagnostique de démence a étédécrit dans la littérature (Amieva et al., 2005 ; Hall et al., 2000 ; Hall et al., 2001)mais sa forme et la manière dont il se distingue du déclin cognitif normal ne sont pasencore clairement établies. De nouveaux approfondissements sont nécessaires afin demieux comprendre <strong>le</strong> processus de vieillissement cognitif normal et notamment sonlien avec <strong>le</strong> déclin cognitif menant <strong>à</strong> une démence.Ensuite, avec l’arrivée de traitements permettant d’améliorer <strong>le</strong>s performancescognitives des patients déments (Ringman et Cummings, 2006), diagnostiquer précocémentune démence est devenu primordial afin d’initier <strong>le</strong>s traitements <strong>le</strong> plustôt possib<strong>le</strong> dans <strong>le</strong> processus de dégradation pré-démentiel. Mais pour cela, il estnécessaire de développer des méthodes permettant de distinguer au plus tôt undéclin pathologique associé <strong>à</strong> une démence d’un déclin cognitif s’incrivant dans unprocessus de vieillissement normal.Dans la perspective de mettre en place des campagnes de prévention auprès du


Introduction 16grand public, il est aussi nécessaire de préciser <strong>le</strong>s mécanismes d’action de facteursde risque tels que <strong>le</strong>s facteurs vasculaires, nutritionnels ou environnementaux sur <strong>le</strong>déclin cognitif et sur <strong>le</strong> diagnostic d’une démence.Enfin, parmi <strong>le</strong>s facteurs de risque de déclin cognitif et de démence séni<strong>le</strong>,<strong>le</strong>s mécanismes d’action du sexe et du niveau d’éducation restent encore assezflous. D’après plusieurs études d’incidence, <strong>le</strong>s sujets ayant un bas niveau d’étudessemb<strong>le</strong>nt avoir un risque accru de démence par rapport aux sujets <strong>à</strong> haut niveaud’études (Letenneur et al., 1999 ; Stern et al., 1994). Il a été montré depuis que laforme du déclin cognitif pouvait varier suivant <strong>le</strong> niveau d’éducation, faisant émergerl’hypothèse d’une capacité de réserve retardant <strong>le</strong> retentissement clinique de la maladiechez <strong>le</strong>s sujets <strong>à</strong> haut niveau d’éducation (Amieva et al., 2005 ; Stern et al.,1994). En effet, <strong>le</strong>s sujets <strong>à</strong> haut niveau d’éducation garderaient un niveau cognitifstab<strong>le</strong> plus longtemps que <strong>le</strong>s sujets <strong>à</strong> bas niveau d’études mais auraient undéclin plus rapide de <strong>le</strong>urs fonctions cognitives juste avant <strong>le</strong> diagnostic de démence(Jacqmin-Gadda et al., 2006) et après <strong>le</strong> diagnostic (Scarmeas et al., 2006 ; Mendiondoet al., 2000). Ce phénomène est encore discuté aujourd’hui et, en général, <strong>le</strong>smécanismes d’action possib<strong>le</strong>s du niveau d’éducation sur <strong>le</strong> déclin cognitif normalou pathologique doivent encore être approfondis.L’effet du sexe sur la démence et <strong>le</strong> déclin cognitif est aussi controversé. Plusieursétudes ont montré que <strong>le</strong>s incidences de démence chez <strong>le</strong>s hommes et <strong>le</strong>s femmessont différentes, <strong>le</strong>s hommes ayant un risque accru de démence avant 80 ans et cettetendance s’inversant après 80 ans (Letenneur et al., 1999 ; Andersen et al., 1999).Cependant, d’autres études n’ont pas retrouvé ce résultat (Barnes et al., 2003) etn’ont pas non plus trouvé de différence entre <strong>le</strong> déclin cognitif des hommes et desfemmes (Barnes et al., 2003 ; Mendiondo et al., 2000).


Introduction 171.2 Problèmes méthodologiques liés <strong>à</strong> l’étude duvieillissementL’étude de l’histoire naturel<strong>le</strong> de la démence et de ses facteurs de risque nécessitentl’utilisation de méthodes statistiques pour l’analyse de données longitudina<strong>le</strong>s. Deplus, el<strong>le</strong> suscite des problèmes méthodologiques, la plupart du temps liés au besoinde réduire <strong>le</strong>s biais des analyses et de prendre en compte toute l’information disponib<strong>le</strong>.1.2.1 Multiplicité des mesures de cognitionLa cognition est la quantité d’intérêt dans l’étude du vieillissement cognitif. Cependant,el<strong>le</strong> n’est pas directement observée : il s’agit d’une quantité latente. Deplus, el<strong>le</strong> est constituée de plusieurs dimensions tel<strong>le</strong>s que la mémoire (épisodique,de travail, sémantique, court terme, long terme, etc), <strong>le</strong> langage, l’attention, l’abstractionet <strong>le</strong>s fonctions éxécutives (raisonnement logique, inhibition, etc). Dans <strong>le</strong>sétudes épidémiologiques, la cognition est donc mesurée par plusieurs échel<strong>le</strong>s, <strong>le</strong>stests psychométriques, qui constituent <strong>le</strong>s marqueurs de la maladie.Un test psychométrique est une échel<strong>le</strong> ordina<strong>le</strong> ou quantitative discrète qui mesureune ou plusieurs dimensions de la cognition. Le test psychométrique <strong>le</strong> plusconnu est <strong>le</strong> Mini Mental State Examination (MMSE) introduit par Folstein et al.(1975). C’est un score composite constitué de 30 items évaluant principa<strong>le</strong>ment lamémoire mais aussi l’orientation dans <strong>le</strong> temps et l’espace, <strong>le</strong> langage et <strong>le</strong>s capacitésvisuo-constructives. Les tests psychométriques n’ont pas <strong>le</strong>s mêmes propriétésmétrologiques et mesurent des atteintes cognitives avec une sensiblité différente (Galaskoet al., 2000 ; Yesavage et Brooks, 1991 ; Morris et al., 1999). Choisir un de cestests comme mesure de la cognition est arbitraire et peut faire varier <strong>le</strong>s résultatstrouvés (Amieva et al., 2005 ; Jacqmin-Gadda et al., 1997b ; Morris et al., 1999). Par


Introduction 18contre, ils peuvent être considérés comme des mesures bruitées de la même quantitélatente : la cognition.Aujourd’hui, il apparaît nécessaire, d’une part d’étudier conjointement plusieurstests psychométriques pour mesurer l’impact des facteurs de risque sur <strong>le</strong> niveaucognitif global plutôt que sur un test en particulier et augmenter la quantité d’information,et d’autre part d’explorer <strong>le</strong>s caractéristiques de chaque test psychométriqueet ses limites.1.2.2 Hétérogénéité des déclins cognitifsOn sait que <strong>le</strong>s sujets en phase pré-diagnostique de démence souffrent déj<strong>à</strong> d’undéclin pathologique de <strong>le</strong>urs performances cognitives plusieurs années avant <strong>le</strong> diagnosticclinique de démence (Hall et al., 2000 ; Jacqmin-Gadda et al., 2006). Ainsi, <strong>le</strong>déclin cognitif d’un échantillon représentatif de sujets âgés est hétérogène puisqu’ilpeut inclure <strong>à</strong> la fois des sujets normaux et des sujets en phase pré-diagnostique dedémence.Depuis quelques années, des travaux suggèrent que la démence ne serait pasla seu<strong>le</strong> source d’hétérogénéité du vieillissement. Même au sein d’une populationde sujets en phase pré-diagnostique de démence, il existerait une hétérogénéité desdéclins cognitifs (Hall et al., 2000 ; Brooks et Yesavage, 1995 ; Valdois et al., 1990).Il est éga<strong>le</strong>ment possib<strong>le</strong> qu’il existe différents profils de vieillissement cognitif nonpathologique.Pour mieux comprendre l’histoire naturel<strong>le</strong> de la démence et distinguer un processusde vieillissement normal d’un processus de vieillissement pathologique pouvantmener <strong>à</strong> une démence, il est donc nécessaire de prendre en compte l’hétérogénéitédes déclins cognitifs.


Introduction 191.2.3 Association entre déclin cognitif et démenceL’étude du vieillissement cognitif normal et l’étude du déclin cognitif pendantla phase pré-diagnostique de démence sont souvent réalisées sur des échantillonsdifférents en sé<strong>le</strong>ctionnant soit des sujets normaux <strong>à</strong> une date donnée, soit des sujetsdéments <strong>à</strong> une date donnée. Cependant ce type d’analyse peut souffrir de biais desé<strong>le</strong>ction.En effet, dans une population de sujets non diagnostiqués déments <strong>à</strong> une datedonnée, il peut exister une part non négligeab<strong>le</strong> de sujets en phase pré-diagnostiquede démence qui peut induire une sur-estimation du déclin cognitif lié au processus devieillissement normal et une augmentation de la variance des estimations (Sliwinskiet al., 1996 ; Sliwinski et al., 2003). Il s’agit d’un problème de censure <strong>à</strong> droite de ladémence (Jacqmin-Gadda et al., 2006).D’autre part, lorsque l’on sé<strong>le</strong>ctionne un échantillon de sujets déments ou desujets non-déments <strong>à</strong> une date donnée, on ne conserve que <strong>le</strong>s sujets vus <strong>à</strong> cette dateafin de connaître <strong>le</strong>ur statut démentiel. On exclut donc <strong>le</strong>s sujets sortis de l’étudeprématurément. Si <strong>le</strong> processus de sortie d’étude est associé au déclin cognitif, celapeut entraîner un biais dans <strong>le</strong>s analyses (Jacqmin-Gadda et al., 1997a).Une façon de corriger ces problèmes de sé<strong>le</strong>ction est d’étudier conjointementl’évolution cognitive et la survenue d’une démence ou d’une sortie d’étude. Cettemodélisation conjointe permet aussi de proposer des outils de diagnostic basés sur<strong>le</strong>s mesures répétées du marqueur (Henderson et al., 2002 ; Lin et al., 2002a), dedistinguer l’effet de facteurs de risque sur <strong>le</strong> déclin cognitif et sur <strong>le</strong> risque de démenceet d’envisager plusieurs modélisations de l’association entre <strong>le</strong> déclin cognitif et lasurvenue de la démence (Ganiayre et al., 2006 ; Jacqmin-Gadda et al., 2006).1.2.4 Sortie d’étude informativeLes études de cohortes qui consistent <strong>à</strong> suivre des patients sur une longue duréesouffrent souvent d’une part importante de données manquantes. Ces données man-


Introduction 20quantes sont dues <strong>à</strong> des sujets qui refusent de continuer dans la cohorte ou qui sontperdus de vue par <strong>le</strong>s investigateurs. Lorsqu’un sujet disparait de l’étude définitivement,on par<strong>le</strong> de sortie d’étude. Dans <strong>le</strong>s cohortes sur <strong>le</strong> vieillissement cognitif, <strong>le</strong>processus de sortie d’étude est particulièrement important puisqu’en plus du processususuel, une part non négligeab<strong>le</strong> de sujets décède au cours du suivi.Les processus de sortie d’étude ont beaucoup été étudiés et une classification dessorties d’étude et des données manquantes en général a été établie (Litt<strong>le</strong> et Rubin,1987) :- La sortie d’étude est dite complètement aléatoire si la probabilité de nonréponseest indépendante de la variab<strong>le</strong> étudiée, qu’el<strong>le</strong> soit observée ou non.Dans <strong>le</strong> vieillissement cognitif, cela impliquerait que <strong>le</strong> fait qu’un sujet remplisseou ne remplisse pas un test psychométrique <strong>à</strong> un temps t ne dépendepas des scores obtenus précédemment ni de celui qu’il aurait obtenu au tempst.- La sortie d’étude est dite aléatoire si la probabilité de non-réponse ne dépendque des va<strong>le</strong>urs observées précédemment sur la variab<strong>le</strong> étudiée. Dans <strong>le</strong> vieillissementcognitif, ce serait <strong>le</strong> cas si <strong>le</strong> fait qu’un sujet remplisse ou ne remplissepas un test psychométrique <strong>à</strong> un temps t ne dépendait que des scores obtenusprécédemment (pas de son score au temps t).- La sortie d’étude est dite non-ignorab<strong>le</strong> ou informative lorsque la probabilitéde réponse dépend des va<strong>le</strong>urs non-observées de la variab<strong>le</strong> étudiée. Dans <strong>le</strong>vieillissement cognitif, cela signifierait que <strong>le</strong> fait qu’un sujet réponde ou neréponde pas <strong>à</strong> un test psychométrique <strong>à</strong> un temps t serait dépendant du scorenon observé <strong>à</strong> ce même temps t.Dans <strong>le</strong>s deux premiers cas, <strong>le</strong>s estimateurs du maximum de vraisemblance desmodè<strong>le</strong>s pour données longitudina<strong>le</strong>s ne sont pas biaisés. Par contre, dans <strong>le</strong> derniercas, la probabilité de non-réponse doit être modélisée conjointement <strong>à</strong> l’évolution dela variab<strong>le</strong> d’intérêt afin de corriger <strong>le</strong>s biais sur <strong>le</strong>s estimations (Litt<strong>le</strong>, 1995).Une étude précédente du déclin cognitif sur la cohorte de personnes âgées PA-


Introduction 21QUID suggère que <strong>le</strong>s sorties d’étude ne sont pas ignorab<strong>le</strong>s car el<strong>le</strong>s semb<strong>le</strong>ntdépendre du score cognitif manquant (Jacqmin-Gadda et al., 1999 ; Jacqmin-Gaddaet al., 1997a). Cependant, dans cette analyse, l’impact des sorties d’étude sur <strong>le</strong>sestimations obtenues était assez faib<strong>le</strong>.1.3 Objectif et plan du mémoireFace <strong>à</strong> ces questionnements épidémiologiques et aux problèmes statistiques qu’ilssoulèvent, l’objectif de notre travail a été de proposer des modè<strong>le</strong>s statistiques permettantde prendre en compte :- l’information issue de plusieurs marqueurs de l’évolution de la maladie,- l’hétérogénéité des déclins cognitifs,- l’association entre <strong>le</strong>s marqueurs de déclin cognitif et la survenue de l’événement“démence”dans la perspective de :- décrire l’évolution des fonctions cognitives chez <strong>le</strong>s personnes âgées afin demieux comprendre <strong>le</strong> processus de vieillissement cognitif, qu’il soit normal ouqu’il mène <strong>à</strong> une démence séni<strong>le</strong>,- d’approfondir l’étude des facteurs de risque de déclin cognitif et de survenuede démence.Dans <strong>le</strong> chapitre II, nous proposons une revue de la littérature traitant destrois points statistiques développés dans ce travail. D’une part, nous décrivons<strong>le</strong>s modè<strong>le</strong>s pour l’analyse conjointe de données longitudina<strong>le</strong>s multivariées. Nousexposons ensuite la méthodologie des modè<strong>le</strong>s <strong>à</strong> classes latentes (ou modè<strong>le</strong>s demélange) permettant de prendre en compte une structure hétérogène des donnéeset enfin, nous présentons <strong>le</strong>s modè<strong>le</strong>s statistiques développés pour étudier conjointementl’évolution d’un marqueur quantitatif et la survenue d’un événement.


Introduction 22Le chapitre III présente un modè<strong>le</strong> nonlinéaire <strong>à</strong> processus latent pour étudierconjointement plusieurs marqueurs longitudinaux dans <strong>le</strong> cas où ils sont des mesuresd’une même quantité sous-jacente. Une originalité de ce travail est que <strong>le</strong>modè<strong>le</strong> permet de traiter des marqueurs quantitatifs longitudinaux pour <strong>le</strong>squelsl’hypothèse de normalité n’est pas valide. Dans l’étude du vieillissement cognitif, cetravail permet <strong>à</strong> la fois de mettre en évidence des propriétés métrologiques des testspsychométriques utilisés pour mesurer <strong>le</strong>s changements cognitifs et de distinguerl’effet des variab<strong>le</strong>s explicatives sur <strong>le</strong> déclin cognitif latent de <strong>le</strong>ur effet spécifiquesur <strong>le</strong>s outils de mesure.Dans <strong>le</strong> chapitre IV, nous proposons une approche pour modéliser conjointementplusieurs marqueurs longitudinaux corrélés et un événement clinique par un modè<strong>le</strong><strong>à</strong> classes latentes. Ce modè<strong>le</strong> conjoint combine <strong>le</strong> modè<strong>le</strong> non-linéaire <strong>à</strong> processuslatent présenté précédemment pour décrire l’évolution des marqueurs et un modè<strong>le</strong>logistique pour prédire la probabilité de l’événement en fonction des classes latentesmises en évidence. Ce modè<strong>le</strong> appliqué <strong>à</strong> l’étude du vieillissement cognitif et <strong>à</strong> lasurvenue d’une démence permet <strong>à</strong> la fois de décrire <strong>le</strong>s profils d’évolution cognitiveassociés <strong>à</strong> la survenue d’une démence et de proposer un outil de diagnostic d’unedémence en utilisant l’information sur <strong>le</strong> déclin cognitif.Le chapitre V présente une extension du modè<strong>le</strong> conjoint <strong>à</strong> classes latentesprésenté au chapitre précédent pour prendre en compte non plus la probabilité dedémence <strong>à</strong> un temps donné mais <strong>le</strong> risque de démence au cours du temps par l’introductiond’un modè<strong>le</strong> de survie <strong>à</strong> risques proportionnels. Ce modè<strong>le</strong> appliqué <strong>à</strong> l’étudedu vieillissement cognitif et <strong>à</strong> la survenue d’une démence permet de décrire <strong>le</strong>s profilsde déclin associés au risque de démence et de proposer des outils de diagnostic.Dans <strong>le</strong> chapitre VI, nous discutons <strong>le</strong>s méthodes proposées d’un point de vuestatistique en insistant sur <strong>le</strong>urs forces et <strong>le</strong>urs faib<strong>le</strong>sses. Nous replaçons aussi cetravail dans <strong>le</strong> cadre de la recherche épidémiologique actuel<strong>le</strong> sur <strong>le</strong> vieillissementcognitif et la démence séni<strong>le</strong>.


Chapitre 2Etat des connaissancesCe chapitre présente un état des lieux des recherches statistiques réalisées dans lamodélisation des données longitudina<strong>le</strong>s multivariées, la prise en compte de donnéeshétérogènes et la modélisation conjointe de marqueurs longitudinaux et de la survenued’un événement. La plupart des méthodes décrites dans ce chapitre étant desextensions du modè<strong>le</strong> linéaire mixte classique, nous commençons par présenter cemodè<strong>le</strong>.2.1 Le modè<strong>le</strong> linéaire mixteLe modè<strong>le</strong> linéaire mixte introduit par Laird et Ware (1982) est la méthode laplus utilisée pour étudier l’évolution d’un marqueur au cours du temps. Il consiste<strong>à</strong> prendre en compte la corrélation entre <strong>le</strong>s mesures répétées des sujets dans l’estimationdes paramètres de population, c’est <strong>à</strong> dire de l’évolution moyenne au coursdu temps et de l’association avec des variab<strong>le</strong>s explicatives. Dans une population deN sujets, considérons <strong>le</strong> vecteur de réponses Y i = (Y i1 , ..., Y ini ) correspondant auxn i mesures répétées du marqueur pour <strong>le</strong> sujet i. Le modè<strong>le</strong> linéaire mixte s’écrit dela manière suivante :Y i = X i β + Z i u i + ɛ i (2.1)23


Etat des connaissances 24où X i est la matrice de tail<strong>le</strong> n i ×p contenant <strong>le</strong>s variab<strong>le</strong>s explicatives (et notamment<strong>le</strong> temps) et associée au vecteur d’effets fixes β. Z ijest une sous-matrice de X ide tail<strong>le</strong> n i × q associée aux effets aléatoires u i propres <strong>à</strong> chaque sujet et ɛ i est <strong>le</strong>vecteur d’erreurs. Les erreurs ɛ i sont indépendantes des effets aléatoires u i . Les effetsaléatoires u i sont distribués suivant une loi norma<strong>le</strong> d’espérance 0 et de matrice devariance-covariance D : u i ∼ N (0, D). Les erreurs ɛ ij contenues dans <strong>le</strong> vecteur ɛ isont norma<strong>le</strong>s centrées de variance Σ i . La plupart du temps, <strong>le</strong>s erreurs de mesuressont indépendantes entre el<strong>le</strong>s et de même variance (Σ i= σ 2 I ni ) mais on peutaussi <strong>le</strong>s supposer corrélées entre el<strong>le</strong>s afin de tenir compte de la corrélation entre<strong>le</strong>s mesures répétées d’un même sujet. Une structure de corrélation classique est lastructure auto-régressive <strong>à</strong> l’ordre p dans laquel<strong>le</strong> l’erreur de mesure au temps t ijdépend des p précédentes erreurs de mesures.Le modè<strong>le</strong> linéaire mixte peut s’écrire de manière margina<strong>le</strong> :Y i ∼ N ( X i β, V i = Z i DZ T i + Σ i)(2.2)C’est cette écriture margina<strong>le</strong> qui est utilisée pour estimer <strong>le</strong> vecteur de paramètresdu modè<strong>le</strong> θ contenant <strong>le</strong> vecteur d’effets fixes β, <strong>le</strong>s éléments de D et <strong>le</strong>séléments de Σ i . En effet, <strong>à</strong> partir de l’expression (2.2) la vraisemblance du modè<strong>le</strong>s’écrit :L(θ) =N∏i=1( ) ni /2 (1|V i | −1/2 exp − 1 )2π2 (Y i − X i β) T V −1i (Y i − X i β)(2.3)Les estimateurs du maximum de vraisemblance des paramètres θ sont obtenusen maximisant <strong>le</strong> logarithme de la vraisemblance (2.3) par une méthode itérative.Deux algorithmes sont très utilisés : l’algorithme EM (Dempster et al., 1978) et l’algorithmede Newton-Raphson (F<strong>le</strong>tcher, 2000, chapitre 3). L’algorithme de Newton-Raphson est souvent préféré pour sa rapidité de convergence comparée <strong>à</strong> cel<strong>le</strong> del’EM (Lindstrom et Bates, 1988). Aujourd’hui, <strong>le</strong> modè<strong>le</strong> linéaire mixte est devenula méthode classique pour étudier <strong>le</strong>s changements au cours du temps des variab<strong>le</strong>squantitatives et des procédures d’estimation sont disponib<strong>le</strong>s dans tous <strong>le</strong>s logicielsde statistiques, la plus connue étant la procédure MIXED sous SAS.


Etat des connaissances 25Plusieurs travaux ont testé la robustesse de ce modè<strong>le</strong> <strong>à</strong> des écart aux hypothèses.Ainsi, Verbeke et Lesaffre (1997) ont montré que <strong>le</strong>s estimateurs des effets fixesétaient consistants dans <strong>le</strong> cas où <strong>le</strong>s effets aléatoires n’étaient pas distribués norma<strong>le</strong>mentet Jacqmin-Gadda et al. (2006) ont montré que <strong>le</strong>s estimateurs des effetsfixes étaient robustes dans <strong>le</strong> cas d’erreurs non Gaussiennes ou hétéroscédastiquesmais ne l’étaient plus dans <strong>le</strong> cas d’erreurs corrélées entre el<strong>le</strong>s.2.2 Modè<strong>le</strong>s pour données longitudina<strong>le</strong>s multivariéesLe modè<strong>le</strong> linéaire mixte permet d’analyser <strong>le</strong>s mesures répétées d’un seul marqueurlongitudinal. Or, il est très fréquent de disposer de plusieurs marqueurs longitudinauxet de vouloir <strong>le</strong>s analyser conjointement. En effet, analyser conjointementplusieurs marqueurs permet d’une part de mieux comprendre <strong>le</strong> lien qui existeentre eux et d’autre part d’exploiter <strong>le</strong>ur structure de dépendance pour augmenterla puissance des analyses, notamment lorsqu’on étudie l’effet d’une variab<strong>le</strong> explicativesur l’évolution des marqueurs. Nous allons présenter maintenant deux typesd’approches pour étudier conjointement plusieurs marqueurs longitudinaux, l’extensiondes modè<strong>le</strong>s linéaires mixtes aux données multivariées et <strong>le</strong>s modè<strong>le</strong>s <strong>à</strong> variab<strong>le</strong>latente ou processus latent.2.2.1 Modè<strong>le</strong>s linéaires mixtes pour données longitudina<strong>le</strong>smultivariéesDans un souci de clarté, nous considérons uniquement <strong>le</strong> cas bivarié, c’est <strong>à</strong> direavec deux marqueurs longitudinaux, mais la méthodologie est la même pour unnombre plus important de marqueurs.


Etat des connaissances 26Présentation du modè<strong>le</strong> linéaire mixte bivariéPour chaque sujet i, on dispose des vecteurs d’observation Y 1i = (Y 1i1, ..., Y 1in i1)et Y 2i = (Y 2i1, ..., Y 2in i2). Le modè<strong>le</strong> linéaire mixte défini en (2.1) s’écrit pour chaquemarqueur k = 1, 2 :Y ki = X k i β k + Z k i u k i + ɛ k i (2.4)où <strong>le</strong>s matrices X k i et Z k i sont des matrices de variab<strong>le</strong>s explicatives associées respectivementau vecteur d’effets fixes β k et au vecteur d’effets aléatoires u k i ; ɛ k i est <strong>le</strong>vecteur d’erreurs. En considérant <strong>le</strong> vecteur de réponses conjoint Y i = (Yi1T , Yi 2T ) T ,<strong>le</strong> modè<strong>le</strong> linéaire mixte bivarié est défini de la manière suivante :⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛Y i = ⎝ Y i1⎠ = ⎝ X1 i 0⎠ ⎝ β1⎠ + ⎝ Z1 i 0⎠ ⎝ u1 i⎠ +Yi2 0 Xi2 β 2 0 Zi2 u 2 i⎝ ɛ1 iɛ 2 i⎞⎠ (2.5)Par cette écriture du modè<strong>le</strong> bivarié, on retrouve l’expression d’un modè<strong>le</strong> linéairemixte classique Y i = X i β + Z i u i + ɛ i dans <strong>le</strong>quel :⎛ ⎞ ⎛ ⎞ ⎛ ⎞X i = ⎝ X1 i 0⎠ , Z i = ⎝ Z1 i 0⎠ , β = ⎝ β1⎠ , u i =0 Xi2 0 Zi2 β 2⎛⎝ u1 iu 2 i⎞⎠ et ɛ i =⎛⎝ ɛ1 iɛ 2 i⎞⎠Estimation du modè<strong>le</strong>La vraisemblance de ce modè<strong>le</strong> s’écrit de manière analogue <strong>à</strong> cel<strong>le</strong> d’un modè<strong>le</strong>linéaire mixte simp<strong>le</strong> donnée en (2.3). L’estimation des paramètres peut donc êtreréalisée par <strong>le</strong> même type de procédure de maximisation de la vraisemblance quedans <strong>le</strong> cas univarié. Dans <strong>le</strong> cadre multivarié, plusieurs algorithmes ont été proposés: un algorithme EM (Shah et al., 1997), un algorithme de Fisher-scoring (Syet Taylor, 1997) ou un algorihtme de type Newton-Raphson (Thiébaut et al., 2002).Une approche Bayésienne a aussi été proposée (Matsuyama et Ohashi, 1997). Enutilisant l’analogie avec <strong>le</strong> modè<strong>le</strong> linéaire mixte univarié, ce modè<strong>le</strong> peut aussi êtreimplémenté dans <strong>le</strong>s logiciels statistiques classiques (Thiébaut et al., 2002).


Etat des connaissances 27Prise en compte de la corrélation entre <strong>le</strong>s marqueursLa particularité du modè<strong>le</strong> linéaire mixte multivarié est qu’il permet d’étudierspécifiquement la structure de corrélation des marqueurs. En effet, dans <strong>le</strong> casbivarié, <strong>le</strong>s effets aléatoires ⎛u i sont normaux ⎞ d’espérance nul<strong>le</strong> et de matrice devariance-covariance D = ⎝ D1 D 12⎠. Suivant cette décomposition et dansD 12T D 2<strong>le</strong> cas où <strong>le</strong>s erreurs de mesure sont indépendantes entre el<strong>le</strong>s (Σ i diagona<strong>le</strong>), <strong>le</strong>smatrices de variance-covariance D 1 et D 2 capturent <strong>le</strong>s structures de corrélationpropres <strong>à</strong> chaque marqueur alors que la matrice de variance-covariance D 12 capturela corrélation qui existe entre <strong>le</strong>s deux marqueurs longitudinaux. En particulier, si<strong>le</strong>s marqueurs sont indépendants, D 12 = 0. C’est donc en évaluant la matrice devariance-covariance D 12 que l’on peut d’une part évaluer s’il existe une corrélationentre <strong>le</strong>s marqueurs et d’autre part tenir compte de cette corrélation pour améliorerla description des marqueurs et l’évaluation de l’association avec des variab<strong>le</strong>s explicatives.La prise en compte de la corrélation entre <strong>le</strong>s marqueurs peut aussi être assouplieen introduisant dans <strong>le</strong> modè<strong>le</strong> (2.5) des structures de corrélation entre <strong>le</strong>s erreurs demesures (dans la matrice Σ i ), <strong>le</strong> plus souvent <strong>à</strong> travers des processus stochastiquescorrélés. Sy et Taylor (1997) ont ainsi introduit des processus d’Ornstein-Uh<strong>le</strong>nbeckintégrés dans <strong>le</strong> modè<strong>le</strong> (2.5) et Thiébaut et al. (2002), des processus autorégressifsd’ordre 1. Ces processus permettent <strong>à</strong> la fois d’assouplir la trajectoire de chaquemarqueur par l’introduction d’une corrélation entre <strong>le</strong>s mesures répétées d’un mêmemarqueur et d’assouplir la relation entre <strong>le</strong>s marqueurs par l’introduction d’unecorrélation entre <strong>le</strong>s processus stochastiques, c’est <strong>à</strong> dire entre <strong>le</strong>s mesures répétéesdes deux marqueurs.


Etat des connaissances 28Applications des modè<strong>le</strong>s linéaires mixtes multivariésPlusieurs études ont consisté <strong>à</strong> explorer la structure de corrélation entre desmarqueurs longitudinaux. Dans <strong>le</strong> vieillissement cognitif, ce type de modè<strong>le</strong> a permisde mettre en évidence une très forte corrélation entre des mesures de différentesdimensions de la cognition (Sliwinski et al., 2003 ; Anstey et al., 2003 ; Beckettet al., 2004) et de prendre en compte ce lien entre plusieurs mesures de cognition pourcomparer <strong>le</strong>urs formes de déclin (Hall et al., 2001 ; Harvey et al., 2003). Dans l’étudedu Virus de l’Immuno-déficience Humaine (VIH), l’analyse conjointe de la chargevira<strong>le</strong> et des CD4 (Thiébaut et al., 2003) ou bien des CD4 et des microglobulinesβ 2 (Sy et Taylor, 1997) ont permis de comprendre comment <strong>le</strong>s évolutions de cesmarqueurs dépendaient <strong>le</strong>s unes des autres sans faire d’hypothèse a priori sur <strong>le</strong>sens des dépendances.Prendre en compte la corrélation entre des marqueurs permet non seu<strong>le</strong>ment decomprendre <strong>le</strong> lien qui existe entre eux ou de comparer <strong>le</strong>urs évolutions mais aussid’améliorer <strong>le</strong>s estimations des effets fixes du modè<strong>le</strong>, notamment de préciser l’associationavec des variab<strong>le</strong>s explicatives et de corriger des biais. Ainsi, dans un essaiclinique d’efficacité, Todem et al. (2006) ont modélisé un marqueur de tolérance autraitement conjointement au marqueur d’efficacité, marqueur principal de l’étude.Cela <strong>le</strong>ur a permis d’obtenir une estimation plus précise de l’efficacité du traitement.Dans un autre essai clinique, Matsuyama et Ohashi (1997) ont utilisé la modélisationconjointe de plusieurs marqueurs pour prendre en compte la sortie d’étude informative.La sortie d’étude étant liée au niveau d’un marqueur secondaire, ils ont modéliséconjointement l’évolution de ce marqueur et cel<strong>le</strong> du marqueur principal pour évaluerl’effet d’un traitement. Par cette modélisation conjointe, ils ont respecté l’hypothèsede données manquantes aléatoires (car ne dépendant que de données observées) et<strong>le</strong>s estimateurs du maximum de vraisemblance étaient donc non biaisés.


Etat des connaissances 29Extensions du modè<strong>le</strong> linéaire mixte multivariéDes extensions du modè<strong>le</strong> linéaire mixte multivarié ont été proposées pour prendreen compte des données non Gaussiennes. Ainsi Shelton et al. (2004) ont proposé unemacro SAS permettant d’estimer des modè<strong>le</strong>s mixtes pour plusieurs marqueurs longitudinauxbinaires. Chaque marqueur est modélisé par une régression logistique <strong>à</strong>intercept aléatoire, <strong>le</strong>s intercepts aléatoires étant corrélées entre el<strong>le</strong>s. Todem et al.(2006) ont proposé un modè<strong>le</strong> mixte pour étudier conjointement plusieurs marqueurslongitudinaux ordinaux. Les auteurs associent une variab<strong>le</strong> latente continue <strong>à</strong> chaquemarqueur ordinal par un modè<strong>le</strong> <strong>à</strong> seuils et modélisent <strong>le</strong>s variab<strong>le</strong>s latentes sousjacentessuivant <strong>le</strong> modè<strong>le</strong> linéaire mixte pour données multivariées défini en (2.5).Hall et Clutter (2004) suivis de Marshall et al. (2006) ont aussi proposé des modè<strong>le</strong>snon linéaires mixtes multivariés. Dans ces approches, <strong>le</strong> principe est <strong>le</strong> même quedans un modè<strong>le</strong> linéaire multivarié classique ; <strong>le</strong>s effets aléatoires, intervenant demanière non linéaire, capturent la corrélation entre <strong>le</strong>s marqueurs.Limites de l’approcheLes modè<strong>le</strong>s mixtes multivariés ont reçu un intérêt croissant ces dernières années.En effet, ils offrent un cadre soup<strong>le</strong> pour étudier conjointement plusieurs marqueurset permettent <strong>à</strong> la fois d’étudier spécifiquement la structure de corrélation des marqueurset de la prendre en compte pour augmenter la puissance des analyses etcorriger des possib<strong>le</strong>s biais. Cependant, cette approche a certaines limites.Tout d’abord, en spécifiant un modè<strong>le</strong> différent pour chaque marqueur (2.4),<strong>le</strong> nombre de paramètres <strong>à</strong> estimer devient vite très grand. Si cela ne pose pasde problème en ce qui concerne <strong>le</strong>s effets fixes, <strong>le</strong> grand nombre de paramètres devariance-covariance des effets aléatoires peut engendrer des problèmes numériques(O’Brien et Fitzmaurice, 2005). Les applications se limitent donc souvent <strong>à</strong> peude marqueurs et/ou font des hypothèses sur la structure de corrélation des effets


Etat des connaissances 30aléatoires afin de réduire <strong>le</strong> nombre de paramètres.Ensuite, Fieuws et Verbeke (2004) ont montré que <strong>le</strong>s estimateurs de la corrélationentre <strong>le</strong>s effets aléatoires reliant deux marqueurs dans un modè<strong>le</strong> mixte bivarié pouvaientêtre biaisés lorsque la structure de variance-covariance des erreurs n’étaitpas bien spécifiée. Lorsque l’objectif est d’étudier spécifiquement la structure decorrélation entre plusieurs marqueurs, <strong>le</strong>s auteurs recommandent donc d’explorer lastructure de corrélation des erreurs en même temps que la structure de corrélationdes effets aléatoires et d’interpréter <strong>le</strong>s résultats avec prudence. Néanmoins, lorsquel’objectif est de gagner de la puissance dans l’estimation des effets fixes, une mauvaisespécification des erreurs n’engendre pas de biais.Le modè<strong>le</strong> mixte multivarié peut être utilisé pour modéliser conjointement plusieursmesures d’une même quantité sous-jacente afin d’augmenter la puissance dansl’estimation de l’effet global d’une variab<strong>le</strong> explicative sur tous <strong>le</strong>s marqueurs. Dans<strong>le</strong> modè<strong>le</strong> bivarié (2.5), cela consiste <strong>à</strong> considérer que <strong>le</strong> paramètre associé <strong>à</strong> la variab<strong>le</strong>explicative est commun dans β 1 et β 2 . Le problème majeur est que, la plupartdu temps, <strong>le</strong>s marqueurs utilisés, même s’ils mesurent la même quantité sous-jacente,n’ont pas la même unité ni la même échel<strong>le</strong>. Or, considérer un paramètre commun<strong>à</strong> tous <strong>le</strong>s marqueurs n’est possib<strong>le</strong> que si l’effet a la même amplitude et la mêmeinterprétation pour tous <strong>le</strong>s marqueurs, c’est <strong>à</strong> dire si <strong>le</strong>s marqueurs ont la mêmeéchel<strong>le</strong> et la même unité (O’Brien et Fitzmaurice, 2005). Pour étudier l’effet globald’une variab<strong>le</strong> explicative sur des marqueurs ayant des dimensions différentes, Grayet Brookmeyer (1998) ont proposé un modè<strong>le</strong> de régression margina<strong>le</strong> estimé par uneapproche par GEE (Generalized Equation Estimation). L’idée est de paramétrer l’effetde la variab<strong>le</strong> explicative pour qu’il soit sans dimension (indépendant des unitésdes marqueurs) et qu’il puisse varier suivant l’échel<strong>le</strong> de temps de la trajectoire dechaque marqueur. Gray et Brookmeyer (2000) ont ensuite étendu ce modè<strong>le</strong> pourprendre en compte des données de plusieurs types : ordina<strong>le</strong>s, binaires ou quantitatives.Cette approche qui consiste <strong>à</strong> étudier la composante commune de plusieursmarqueurs en s’affranchissant des problèmes d’unité ou de différents types de


Etat des connaissances 31données se rapproche beaucoup des modè<strong>le</strong>s <strong>à</strong> variab<strong>le</strong> latente.2.2.2 Modè<strong>le</strong>s <strong>à</strong> variab<strong>le</strong>s latentes pour données longitudina<strong>le</strong>smultivariéesDeux approches basées sur <strong>le</strong>s variab<strong>le</strong>s latentes ont été proposées dans la littératurepour étudier conjointement des marqueurs longitudinaux lorsqu’ils sont desmesures bruitées d’une ou plusieurs quantités latentes : <strong>le</strong>s modè<strong>le</strong>s <strong>à</strong> équations structurel<strong>le</strong>set <strong>le</strong>s modè<strong>le</strong>s mixtes <strong>à</strong> variab<strong>le</strong> latente. Dans cette section, nous présentonsces deux approches et discutons <strong>le</strong>urs différences, <strong>le</strong>urs avantages et <strong>le</strong>urs limites.Les modè<strong>le</strong>s <strong>à</strong> équations structurel<strong>le</strong>sL’utilisation d’une variab<strong>le</strong> latente pour modéliser une quantité non observéemais mesurée par plusieurs marqueurs est née dans <strong>le</strong> domaine de la psychologie. Cetype d’approche nommé SEM pour Structural Equation Modelling (Muthén, 2002)consiste <strong>à</strong> relier des marqueurs observés <strong>à</strong> des quantités latentes dans <strong>le</strong> modè<strong>le</strong>d’observation puis <strong>à</strong> expliquer la relation entre <strong>le</strong>s quantités latentes par des autorégressionsdans <strong>le</strong> modè<strong>le</strong> structurel.Le modè<strong>le</strong> d’observation permet de définir <strong>le</strong> nombre de variab<strong>le</strong>s latentes ainsique la manière dont el<strong>le</strong> sont liées aux données observées. Chaque marqueur observéest une combinaison linéaire avec erreur d’une partie des variab<strong>le</strong>s latentes (Sánchezet al., 2005). Le modè<strong>le</strong> structurel consiste <strong>à</strong> régresser <strong>le</strong>s variab<strong>le</strong>s latentes <strong>le</strong>s unessur <strong>le</strong>s autres. Classiquement, <strong>le</strong> modè<strong>le</strong> structurel est une régression linéaire desvariab<strong>le</strong>s latentes sur <strong>le</strong>s autres mais, ces dernières années, beaucoup de travauxont permis de considérer des relations plus comp<strong>le</strong>xes, notamment en introduisantdes produits de variab<strong>le</strong>s latentes ou des polynômes de variab<strong>le</strong>s latentes (Song etLee, 2004 ; Wall et Amemiya, 2000). Une grande partie des développements récentsen SEM s’est focalisée sur l’assouplissement du modè<strong>le</strong> structurel. En effet, en psychologie,<strong>le</strong> grand intérêt des SEM réside dans la possibilité d’étudier <strong>le</strong> lien entre


Etat des connaissances 32des variab<strong>le</strong>s latentes. Nettement moins de travaux ont donc porté sur l’assouplissementde la relation entre <strong>le</strong>s variab<strong>le</strong>s latentes et <strong>le</strong>s données observées. Néanmoins,comme il est très fréquent en psychologie d’avoir des données de types différentset notamment des données binaires ou ordina<strong>le</strong>s, des travaux ont permis d’étendre<strong>le</strong>s modè<strong>le</strong>s classiques <strong>à</strong> la prise en compte de plusieurs types de données (Dunson,2003 ; Lee et Song, 2004 ; Rabe-Hesketh et al., 2004). Cela se fait par l’introductionde fonctions de lien dans <strong>le</strong> modè<strong>le</strong> d’observation, de la même manière que dans <strong>le</strong>smodè<strong>le</strong>s linéaires généralisés.Jusqu’<strong>à</strong> récemment, l’approche par équations structurel<strong>le</strong>s s’était limitée auxdonnées transversa<strong>le</strong>s mais quelques travaux ont depuis permis d’étendre ces modè<strong>le</strong>saux données groupées (Song et Lee, 2004) puis aux données répétées (Dunson,2003 ; Rabe-Hesketh et al., 2004 ; Skrondal et Rabe-Hesketh, 2004). Dunson (2003)a ainsi proposé un modè<strong>le</strong> issu de la théorie des modè<strong>le</strong>s <strong>à</strong> équations structurel<strong>le</strong>spour modéliser l’évolution d’une quantité non-observée mais mesurée par plusieursmarqueurs de nature différente. Dans <strong>le</strong> cas de données continues, chaque mesurerépétée d’un marqueur est une combinaison linéaire de q variab<strong>le</strong>s latentesξ ij = (ξ ij1 , ..., ξ ijq ) T définies <strong>à</strong> chaque temps de mesure j et pour chaque sujet i :où Z T ijkY ijk = Z T ijkγ k + ξ T ijλ jk + ζ ik (2.6)est un vecteur de variab<strong>le</strong>s explicatives associé au vecteur d’effets fixespropres <strong>à</strong> chaque marqueur γ k , λ jkest <strong>le</strong> vecteur de facteurs (“loading factors”)reliant la mesure Y ijk aux vecteur de variab<strong>le</strong>s latentes ξ ij et ζ ik est une interceptaléatoire spécifique <strong>à</strong> chaque sujet et <strong>à</strong> chaque marqueur pour assouplir la relation.Les facteurs λ jk modélisent <strong>le</strong> lien entre <strong>le</strong>s données observées et <strong>le</strong>s variab<strong>le</strong>slatentes. Dans la majorité des cas, ils ne sont pas estimés pour des raisons d’identifiabilité,mais plutôt définis a priori.La corrélation entre <strong>le</strong>s données répétées des sujets est prise en compte dans <strong>le</strong>modè<strong>le</strong> structurel qui relie <strong>le</strong>s q variab<strong>le</strong>s latentes (ξ ijl , l = 1, q) au temps j aux q


Etat des connaissances 33variab<strong>le</strong>s latentes aux temps précédents j ′ = 1, ..., j − 1 :j−1∑ξ ijl = x T ijν l + (ξij ′T − Zijk T − x T ij ′ν)φ jj ′ + δ ijl (2.7)j ′ =1où x ij est un vecteur de variab<strong>le</strong>s explicatives associé au vecteur de paramètres ν lpour la variab<strong>le</strong>s latente l, φ jj ′ est un vecteur de paramètres de transition et δ ijl estune erreur indépendante Gaussienne centrée réduite.Ce modè<strong>le</strong>, proposé dans une approche Bayésienne, inclut des effets de variab<strong>le</strong>sexplicatives <strong>à</strong> la fois dans <strong>le</strong> modè<strong>le</strong> structurel permettant ainsi de fairede l’inférence <strong>à</strong> chaque temps de mesure (ν l ) mais aussi des variab<strong>le</strong>s explicativesdans <strong>le</strong> modè<strong>le</strong> d’observation, permettant d’étudier l’effet spécifique de variab<strong>le</strong>s explicativessur chaque marqueur (γ k ). En prenant en compte la corrélation entre <strong>le</strong>smesures répétées des marqueurs par <strong>le</strong> biais des variab<strong>le</strong>s latentes, <strong>le</strong> modè<strong>le</strong> proposépar Dunson (2003) fait <strong>le</strong> lien entre <strong>le</strong> modè<strong>le</strong> <strong>à</strong> équations structurel<strong>le</strong>s et <strong>le</strong>modè<strong>le</strong> <strong>à</strong> effets aléatoires incluant une variab<strong>le</strong> latente tel que Roy et Lin (2000)l’ont proposé.Le modè<strong>le</strong> mixte multivarié <strong>à</strong> variab<strong>le</strong> latenteRoy et Lin (2000) ont proposé un modè<strong>le</strong> linéaire mixte pour données multivariéespermettant de modéliser conjointement plusieurs marqueurs dans <strong>le</strong> cas où<strong>le</strong>s marqueurs sont des mesures de la même quantité non-observée. A la différencedes modè<strong>le</strong>s linéaires mixtes multivariés présentés dans au paragraphe 2.2.1, la quantiténon-observée est modélisée <strong>à</strong> part entière. Il s’agit d’une variab<strong>le</strong> latente U ij (ipour <strong>le</strong> sujet et j pour <strong>le</strong> temps de mesure) définie suivant un modè<strong>le</strong> linéaire mixteclassique (2.1) :U ij = Xijα T + Zija T i + ɛ ij (2.8)où X ij et Z ij sont respectivement un vecteur de variab<strong>le</strong>s explicatives et un sousvecteurde variab<strong>le</strong>s explicatives incluant <strong>le</strong> temps associé au vecteur d’effets fixes αet au vecteur d’effets aléatoires Gaussiens a i . Les erreurs ɛ ij sont indépendantes norma<strong>le</strong>scentrées réduites. Le modè<strong>le</strong> permet ainsi d’estimer l’évolution de la variab<strong>le</strong>


Etat des connaissances 34latente et d’évaluer <strong>le</strong>s déterminants de cette évolution. Comme dans l’approchepar équations structurel<strong>le</strong>s, un modè<strong>le</strong> d’observation relie la variab<strong>le</strong> latente auxmarqueurs observés. Chaque mesure d’un même marqueur k est une combinaisonlinéaire (β ok , β 1k ) de la variab<strong>le</strong> latente <strong>à</strong> ce temps de mesure plus des erreurs :Y ijk = β 0k + U ij β 1k + b ik + e ijk (2.9)où b ik est une intercept aléatoire spécifique <strong>à</strong> chaque marqueur permettant d’assouplirla relation linéaire avec la variab<strong>le</strong> latente et e ijk sont des erreurs de mesureGaussiennes indépendantes. Dans ce modè<strong>le</strong>, chaque marqueur a sa propre combinaisonlinéaire (β ok , β 1k ) qui permet de modéliser son niveau et son échel<strong>le</strong>. Lavariab<strong>le</strong> latente U ij n’a donc pas de dimension.Ce modè<strong>le</strong> estimé par un algorithme EM classique permet d’estimer l’effet globald’une variab<strong>le</strong> explicative <strong>à</strong> travers <strong>le</strong>s paramètres α. En effet, <strong>le</strong>s paramètres α ontune interprétation globa<strong>le</strong> puisqu’ils représentent <strong>le</strong>s effets des variab<strong>le</strong>s explicativessur la variab<strong>le</strong> latente sous-jacente <strong>à</strong> tous <strong>le</strong>s marqueurs après prise en compte de<strong>le</strong>urs unités différentes.Différences et similitudes entre <strong>le</strong>s deux approchesPar l’introduction de variab<strong>le</strong>s latentes représentant la quantité non-observée,<strong>le</strong>s deux approches de Dunson (2003) et de Roy et Lin (2000) permettent de décrirel’évolution de la quantité non observée en s’affranchissant du problème d’unitésdifférentes des marqueurs. Ce problème sou<strong>le</strong>vé par O’Brien et Fitzmaurice (2005)était une des limites principa<strong>le</strong>s des modè<strong>le</strong>s linéaires mixtes multivariés. Ainsi, <strong>le</strong>sdeux approches permettent d’estimer l’effet global d’une variab<strong>le</strong> explicative surtous <strong>le</strong>s marqueurs même s’ils n’ont pas la même échel<strong>le</strong>, <strong>le</strong> niveau et l’échel<strong>le</strong> dechaque marqueur étant modélisés dans <strong>le</strong> modè<strong>le</strong> d’observation. Le modè<strong>le</strong> proposépar Dunson (2003) permet même d’utiliser simultanément des données de plusieurstypes (ordina<strong>le</strong>s, binaires, continues) alors que <strong>le</strong> modè<strong>le</strong> proposé par Roy et Lin


Etat des connaissances 35(2000) ne traite que <strong>le</strong>s marqueurs quantitatifs Gaussiens.Cependant, une limite du modè<strong>le</strong> de Dunson (2003) est que l’effet global de lavariab<strong>le</strong> explicative n’est pas directement estimé dans <strong>le</strong> modè<strong>le</strong>. En effet, Dunson(2003) définit une variab<strong>le</strong> latente différente <strong>à</strong> chaque temps de mesure, et relie <strong>le</strong>svariab<strong>le</strong>s latentes <strong>à</strong> différents temps de mesure entre el<strong>le</strong>s. L’effet d’une variab<strong>le</strong>explicative sur <strong>le</strong>s variab<strong>le</strong>s latentes est donc conditionnel aux variab<strong>le</strong>s latentesaux temps précédents. Cela rend compliquée l’inférence sur l’effet marginal d’unevariab<strong>le</strong> explicative alors que, dans l’approche de Roy et Lin (2000), l’évolution dela variab<strong>le</strong> latente étant modélisée suivant un modè<strong>le</strong> mixte, l’effet global d’unevariab<strong>le</strong> explicative est obtenu directement.La manière de modéliser la dépendance sériel<strong>le</strong> des données par un modè<strong>le</strong> derégression entre variab<strong>le</strong>s latentes constitue la particularité des modè<strong>le</strong>s <strong>à</strong> équationsstructurel<strong>le</strong>s. Cependant, dans <strong>le</strong> cadre de données répétées, cela pose certainsproblèmes. Outre la difficulté d’obtenir l’effet marginal d’une variab<strong>le</strong> explicative,cette approche n’est utilisab<strong>le</strong> qu’avec des données équilibrées, c’est <strong>à</strong> dire des tempsde mesure égaux pour tous <strong>le</strong>s sujets et tous <strong>le</strong>s marqueurs, ce qui restreint son applicabilité.Pour pallier <strong>le</strong> problème de données équilibrées tout en conservant laf<strong>le</strong>xibilité des modè<strong>le</strong>s <strong>à</strong> équations structurel<strong>le</strong>s, Rabe-Hesketh et al. (2004) ont proposéune nouvel<strong>le</strong> classe de modè<strong>le</strong>s : <strong>le</strong>s modè<strong>le</strong>s linéaires généralisés latents etmixtes (GLLAMM pour Generalized Linear Latent and Mixed Modeling). Cetteclasse de modè<strong>le</strong>s généralise <strong>à</strong> la fois <strong>le</strong> modè<strong>le</strong> mixte <strong>à</strong> variab<strong>le</strong> latente proposé parRoy et Lin (2000) et <strong>le</strong> modè<strong>le</strong> longitudinal <strong>à</strong> équations structurel<strong>le</strong>s proposé parDunson (2003).Cependant, même dans l’approche de Rabe-Hesketh et al. (2004), deux pointsparticuliers ne sont pas traités. Bien que <strong>le</strong>s marqueurs soient mesurés <strong>à</strong> des tempsdiscrets, la quantité d’intérêt sous-jacente n’a pas de raison d’être définie seu<strong>le</strong>mentaux temps d’observation. Cette quantité est un processus défini en temps continudont on n’observe des mesures qu’en certains temps discrets. Ensuite, bien que Rabe-Hesketh et al. (2004) et Dunson (2003) traitent plusieurs types de données, lorsque


Etat des connaissances 36<strong>le</strong>s données sont quantitatives, l’hypothèse de normalité est faite comme dans unmodè<strong>le</strong> linéaire mixte classique. Or il est très courant que des marqueurs quantitatifsne respectent pas l’hypothèse de normalité, notamment dans <strong>le</strong> vieillissementcognitif.Dans ce travail de thèse, nous souhaitons étudier conjointement plusieurs marqueursquantitatifs non Gaussiens d’un même processus latent. Nous développeronsdonc pour cela des modè<strong>le</strong>s mixtes <strong>à</strong> processus latent dans <strong>le</strong>squels <strong>le</strong>s marqueursquantitatifs ne seront pas forcément distribués norma<strong>le</strong>ment.


Etat des connaissances 372.3 Modélisation des données hétérogènesTraiter <strong>le</strong>s mélanges de population est une question courante en statistique eta fait l’objet de beaucoup de travaux ces dernières décennies (Bohning et Seidel,2003 ; Richardson et Green, 1997 ; Redner et Walker, 1984). Cet intérêt pour <strong>le</strong>smodè<strong>le</strong>s de mélange vient en grande partie de <strong>le</strong>ur construction intuitive et de <strong>le</strong>ursnombreuses applications dans des domaines variés de la statistique. Bien que cesmodè<strong>le</strong>s posent encore des problèmes méthodologiques et fassent l’objet de travauxthéoriques, ils sont beaucoup utilisés en médecine, en psychologie ou en génétiqueavec des structures de modè<strong>le</strong> assez comp<strong>le</strong>xes incluant notamment des donnéeslongitudina<strong>le</strong>s. Dans cette section, nous présentons <strong>le</strong>s développements et problèmesméthodologiques des mélanges de population. Nous décrivons ensuite l’extension deces modè<strong>le</strong>s <strong>à</strong> la prise en compte des données longitudina<strong>le</strong>s, ce qui correspond <strong>à</strong>notre problématique dans l’étude du vieillissement cognitif.2.3.1 Définition d’un modè<strong>le</strong> de mélangeLe problème de mélange de populations ou de données hétérogènes survient lorsqu’uneou plusieurs caractéristiques de la population étudiée ne sont pas observées.La population est alors constituée de sous-populations au sein desquel<strong>le</strong>s <strong>le</strong>s observationsont la même distribution (Bohning, 2000).Lorsque l’on est en présence d’un mélange de G sous-populations non-observées,il n’est pas correct de supposer que toutes <strong>le</strong>s observations de la population sontidentiquement distribuées suivant f(x|λ). Chaque sous-population a sa propre distributionf g (x|λ g ), g = 1, ..., G. Cependant l’appartenance d’une observation x i ,i = 1, ..., N <strong>à</strong> une certaine sous-population ou classe latente est inconnue ; il s’agitd’une variab<strong>le</strong> latente c ig qui vaut 1 si <strong>le</strong> sujet i appartient <strong>à</strong> la classe latente g et0 sinon. En notant π g = P (c ig = 1) la probabilité de chaque classe latente g, ladistribution conjointe d’un sujet et de sa classe latente est f(x, c g ) = π g f g (x|λ g ) et


Etat des connaissances 38la distribution margina<strong>le</strong> des observations est alors de la forme :f(x|λ) =G∑π g f g (x|λ g ) (2.10)g=1Les distributions f g envisagées sont des lois binomia<strong>le</strong>s, des lois de Poisson ou deslois exponentiel<strong>le</strong>s mais <strong>le</strong> plus fréquemment, <strong>le</strong>s modè<strong>le</strong>s de mélange font intervenirdes mélanges de lois norma<strong>le</strong>s et <strong>le</strong>s principaux développements méthodologiquesont été proposés dans ce cas.Si la construction d’un tel modè<strong>le</strong> dans l’optique de capturer l’hétérogénéité nonobservée dans une population parait simp<strong>le</strong> et naturel<strong>le</strong>, son traitement statistiquepose certains problèmes et a donné lieu <strong>à</strong> de nombreux travaux concernant toutparticulièrement l’estimation des paramètres et notamment l’estimation du nombrede classes latentes G. Nous allons maintenant revenir sur ces développements.2.3.2 Estimation d’un modè<strong>le</strong> de mélangeUne des grandes difficultés dans l’estimation d’un modè<strong>le</strong> de mélange est que<strong>le</strong> nombre de paramètres <strong>à</strong> estimer, <strong>à</strong> savoir λ = (λ g ) g=1,...,G et π = (π g ) g=1,...,G−1 ,dépend du nombre G de classes latentes considéré. Il est donc diffici<strong>le</strong> d’utiliser desméthodes classiques d’estimation pour estimer simultanément <strong>le</strong>s paramètres λ, πet <strong>le</strong> nombre de classes latentes G. La plupart des méthodes envisagées se sont doncfocalisées sur une estimation en deux temps, avec une estimation des paramètres <strong>à</strong>nombre de composantes fixe et une détermination du nombre optimal de composantespar des tests statistiques ou des critères de sé<strong>le</strong>ction de type AIC.Estimation d’un modè<strong>le</strong> de mélange <strong>à</strong> nombre de composantes fixéLorsque <strong>le</strong> nombre de composantes dans un mélange de population est connu,<strong>le</strong>s méthodes d’estimation des paramètres sont <strong>le</strong> plus souvent basées sur la maximisationde la vraisemblance. Plusieurs algorithmes de type Newton (F<strong>le</strong>tcher, 2000,


Etat des connaissances 39chapitre 3) ont été proposés donnant de bons résultats (Haughton, 1997) mais l’algorithme<strong>le</strong> plus utilisé est de loin l’algorithme EM (Dempster et al., 1977 ; Redneret Walker, 1984). Il est faci<strong>le</strong> <strong>à</strong> implémenter et propose une manière intuitive detraiter <strong>le</strong>s données manquantes que sont <strong>le</strong>s variab<strong>le</strong>s d’appartenance aux classes.L’idée de cet algorithme est de considérer la log-vraisemblance des donnéescomplètes c’est <strong>à</strong> dire la log-vraisemblance conjointe des observations x et des variab<strong>le</strong>slatentes d’appartenance c = (c g ) g=1,G :L(θ|x, c) =N∑ G∑c ig (ln(f(x i |λ g )) + ln(π g )) (2.11)i=1 g=1Les estimateurs du maximum de vraisemblance ˆθ = (ˆπ, ˆλ) sont ensuite obtenus enrépétant <strong>le</strong>s étapes E et M suivantes. L’étape E (expectation) consiste <strong>à</strong> prédirel’espérance de la log-vraisemblance complète <strong>à</strong> partir des estimations courantes. Parlinéarité de l’expression, cela revient <strong>à</strong> prédire la probabilité que chaque sujet ad’appartenir <strong>à</strong> une classe latente soit, <strong>à</strong> l’itération k + 1 :ˆπ (k+1)ig = E(c ig |x i , ˆθ (k) ) =ˆπ g(k) f(x i |ˆλ (k)g )∑ Gl=1 ˆπ(k) lf(x i |ˆλ (k)l)(2.12)L’étape M (maximisation) consiste ensuite <strong>à</strong> obtenir <strong>le</strong>s estimations courantesˆθ(k+1)qui maximisent l’espérance de la log-vraisemblance <strong>à</strong> partir des estimations de l’étapeprécédente. Cette maximisation est faite en deux temps, d’une part la mise <strong>à</strong> jourdes probabilités ˆπ (k+1)g= ∑ Ni=1 ˆπ(k+1) ig(k+1) ˆλ get <strong>le</strong>s autres estimations courantes/N est directement issue de l’étape précédenteen sont déduites.L’implémentation de cet algorithme est particulièrement faci<strong>le</strong> <strong>à</strong> mettre en oeuvre,offre une assurance de convergence (Dempster et al., 1977) et <strong>le</strong>s estimateurs ont debonnes propriétés asymptotiques (Nityasuddhi et Bohning, 2003). C’est ce qui luia valu sa grande notoriété dans <strong>le</strong> domaine du mélange de distributions. Il est enparticulier préféré aux algorithmes de type Newton car il a de meil<strong>le</strong>urs propriétésde convergence globa<strong>le</strong> (Redner et Walker, 1984). Néanmoins, il est aussi connu pouravoir une convergence très <strong>le</strong>nte. Il a donc été proposé de combiner <strong>le</strong>s performances


Etat des connaissances 40de l’algorithme EM en début d’optimisation avec la convergence quadratique d’un algorithmede type Newton-Raphson afin d’accélérer la convergence vers <strong>le</strong> maximum(Redner et Walker, 1984). Cela étant, avec la puissance des ordinateurs actuels, ceproblème de rapidité s’est révélé secondaire dans des problèmes simp<strong>le</strong>s de mélange.Nous verrons que ce n’est plus <strong>le</strong> cas pour l’extension de ces modè<strong>le</strong>s aux donnéeslongitudina<strong>le</strong>s.L’estimation des modè<strong>le</strong>s de mélange <strong>à</strong> nombre de composantes fixé par <strong>le</strong> maximumde vraisemblance est cependant compliquée par l’existence de maxima locaux.Pour pallier cette multimodalité, des méthodes basées sur l’exploration de l’espacedes paramètres avant l’optimisation fina<strong>le</strong> ont été proposées : l’idée est d’effectuerquelques itérations d’un algorithme de type EM <strong>à</strong> plusieurs endroits de l’espacedes paramètres, de comparer l’avancement de chacun en terme de vraisemblance etd’utiliser <strong>le</strong>s va<strong>le</strong>urs des paramètres obtenues dans <strong>le</strong> meil<strong>le</strong>ur cas comme va<strong>le</strong>ursinitia<strong>le</strong>s de l’estimation fina<strong>le</strong> réalisée par <strong>le</strong> même type d’algorithme (Biernackiet al., 2003 ; Karlis et Xekalaki, 2003 ; Berchtold, 2004). Plus généra<strong>le</strong>ment, quel quesoit l’algorithme utilisé, l’exploration de l’espace des paramètres par des gril<strong>le</strong>s deva<strong>le</strong>urs initia<strong>le</strong>s permet généra<strong>le</strong>ment de trouver <strong>le</strong> maximum global.Méthodes d’estimation pour un nombre de composantes inconnuPour éviter ces problèmes de multimodalité et d’estimation en deux temps desparamètres d’un modè<strong>le</strong> de mélange, quelques méthodes ont été proposées pourestimer simultanément <strong>le</strong>s paramètres λ, π et <strong>le</strong> nombre de classes latentes G. Richardsonet Green (1997) ont par exemp<strong>le</strong> proposé une approche bayésienne. L’idéede l’algorithme est de pouvoir passer d’un espace de paramètres <strong>à</strong> l’autre par dessauts, permettant ainsi au cours de la procédure d’estimation de varier <strong>le</strong> nombrepossib<strong>le</strong> de classes latentes. Ceci se fait par des étapes de division ou de fusion declasses. Récemment, cette idée de division et fusion de classes a été reprise dansune méthode d’estimation basée sur <strong>le</strong> maximum de vraisemblance (Wang et al.,2004). Il s’agit d’itérer deux étapes jusqu’<strong>à</strong> convergence : (1) l’estimation du modè<strong>le</strong>


Etat des connaissances 41de mélange avec un nombre fixe de composantes par un algorithme EM et (2) ladivision des classes trop hétérogènes et la fusion des classes trop proches par descritères.Parallè<strong>le</strong>ment <strong>à</strong> ces approches, Bohning (1995) a proposé un algorithme permettantd’obtenir en deux temps l’estimateur non-paramétrique du maximum de vraisemblances’il existe. Dans un premier temps, <strong>à</strong> partir d’une gril<strong>le</strong> fictive de classes(λ g ) g=1,G où G est pris très grand, il estime <strong>le</strong>s probabilités (π g ) j=1,G associées et nesé<strong>le</strong>ctionne que cel<strong>le</strong>s qui sont positives, obtenant ainsi un estimateur du nombre declasses latentes Ĝ. La deuxième étape consiste <strong>à</strong> estimer <strong>le</strong>s paramètres du modè<strong>le</strong>pour <strong>le</strong> nombre estimé de composantes Ĝ par un algorithme EM classique. Schlattmann(2003) a depuis amélioré l’estimation du nombre de composantes dans cetteméthode par une technique de Bootstrap.Ces méthodes demandent beaucoup de calcul numérique et <strong>le</strong> plus souvent, <strong>le</strong>nombre de composantes est considéré comme un paramètre qu’il faut traiter <strong>à</strong> part.Ce sont <strong>le</strong>s raisons pour <strong>le</strong>squel<strong>le</strong>s, dans la plupart des applications des modè<strong>le</strong>s demélange, l’estimation des paramètres <strong>à</strong> nombre de composantes fixé et la sé<strong>le</strong>ctiondu nombre de composantes a posteriori ont été préférées.Sé<strong>le</strong>ction du nombre de composantesLe test du nombre de composantes dans un modè<strong>le</strong> de mélange a fait l’objet d’ungrand nombre de travaux. En effet, la théorie du rapport de vraisemblance pourtester un modè<strong>le</strong> <strong>à</strong> G 0 composantes versus un modè<strong>le</strong> <strong>à</strong> G 1 composantes ne satisfaitpas <strong>le</strong>s conditions de régularité usuel<strong>le</strong>s et <strong>le</strong>s résultats asymptotiques classiques nes’appliquent pas : la distribution asymptotique du rapport de vraisemblance n’est pasun X 2 . Le problème vient du fait que l’hypothèse nul<strong>le</strong> est en bordure de l’espace desparamètres et que sous l’hypothèse nul<strong>le</strong>, <strong>le</strong> modè<strong>le</strong> n’est pas identifiab<strong>le</strong>. En effet,considérons un mélange simp<strong>le</strong> de deux distributions <strong>à</strong> un paramètre. La densité de


Etat des connaissances 42probabilité du mélange s’écrit :πf(x, θ 1 ) + (1 − π)f(x, θ 2 ) (2.13)L’hypothèse nul<strong>le</strong> selon laquel<strong>le</strong> la population est homogène avec une densité f(x, θ)peut s’écrire sous la forme H 0 : π = 0 et θ 2 n’est alors pas identifiab<strong>le</strong>, ou de façonéquiva<strong>le</strong>nte : H 0 :θ 1 = θ 2 et π n’est donc pas identifiab<strong>le</strong>.Dans <strong>le</strong> cas de la comparaison d’un modè<strong>le</strong> de mélange <strong>à</strong> deux composantesvs. une composante, la distribution asymptotique de la statistique du rapport devraisemblance (SRV) a cependant été calculée pour des lois norma<strong>le</strong>s avec un seulparamètre de moyenne (Ghosh et Sen, 1985) et deux paramètres de moyenne (Chenet Chen, 2001). Mais ces distributions asymptotiques dépendent entièrement de laspécification du modè<strong>le</strong> et sont diffici<strong>le</strong>ment calculab<strong>le</strong>s autrement que par Bootstrap(McLachlan, 1987 ; Chen et Chen, 2001). Chen et al. (2001) ont proposé un testbasé sur une vraisemblance pénalisée offrant de bonnes propriétés asymptotiques,<strong>le</strong> problème majeur étant que la pénalité doit être spécifiée différemment suivant <strong>le</strong>modè<strong>le</strong> de mélange étudié et notamment suivant <strong>le</strong> nombre de composantes et <strong>le</strong>nombre de paramètres inconnus (Chen et Kalbf<strong>le</strong>isch, 2005). D’autres tests statistiquesou critères ont été proposés, basés sur la <strong>distance</strong> L 2 (Charnigo et Sun, 2004 ;Miloslavsky et van der Laan, 2003), sur une mesure de distorsion (Sugar et James,2003), sur une extension du test de Kolmogorov-Smirnov (Zhang et Cheng, 2004)ou sur <strong>le</strong> facteur bayésien (Moreno et Liseo, 2003) mais aucune méthode ne s’estavérée meil<strong>le</strong>ure que <strong>le</strong>s autres ni plus faci<strong>le</strong> <strong>à</strong> utiliser. Lo et al. (2001) ont proposéun test de type SRV avec de bonnes propriétés asymptotiques mais <strong>le</strong>s conditionsrequises pour l’application de <strong>le</strong>ur test ne sont pas satisfaites la plupart du temps(Jeffries, 2003). Le développement d’un test de type SRV qui pourrait s’appliquerdans tous <strong>le</strong>s cas de mélange quels que soient la distribution envisagée, <strong>le</strong> nombre decomposantes et la comp<strong>le</strong>xité du modè<strong>le</strong> nécessite encore des recherches, la plupartdes travaux ci-dessus étant limités pour l’instant <strong>à</strong> des mélanges de lois avec un seulparamètre inconnu.


Etat des connaissances 43Hawkins et al. (2001) ont comparé une vingtaine de critères de sé<strong>le</strong>ction proposésdans la littérature et ont montré que <strong>le</strong> Bayesian Information Criterion (BIC)(Schwartz, 1978) donnait de très bons résultats. Les tests et critères proposés depuiset comparés au BIC ont confirmé ces conclusions (Zhang et Cheng, 2004 ; Miloslavskyet van der Laan, 2003 ; Bauer et Curran, 2003a). Ses bonnes propriétéset son écriture simp<strong>le</strong> quel que soit <strong>le</strong> modè<strong>le</strong> considéré (et notamment <strong>le</strong> modè<strong>le</strong>incluant des données longitudina<strong>le</strong>s) en ont fait depuis plusieurs années <strong>le</strong> critèreclassique pour déterminer <strong>le</strong> nombre de composantes dans <strong>le</strong>s modè<strong>le</strong>s de mélange.2.3.3 Modè<strong>le</strong>s de mélanges pour données longitudina<strong>le</strong>sVerbeke et Lesaffre (1996) ont proposé d’étendre <strong>le</strong>s modè<strong>le</strong>s de mélange auxdonnées longitudina<strong>le</strong>s. Ils ont ainsi étendu l’idée de populations hétérogènes <strong>à</strong> desprofils d’évolution hétérogènes.DéfinitionLe modè<strong>le</strong> de mélange pour données longitudina<strong>le</strong>s peut être vu comme une extensiondu modè<strong>le</strong> linéaire mixte proposé par Laird et Ware (1982) et présenté dans lapremière partie de ce chapitre. Cependant, pour simplifier la présentation du modè<strong>le</strong>de mélange pour données longitudina<strong>le</strong>s, nous partons d’une écriture du modè<strong>le</strong> deLaird et Ware (1982) légèrement différente de cel<strong>le</strong> présentée précédemment :Y i = X i β + Z i u i + ɛ i (2.14)où la matrice de variab<strong>le</strong>s explicative Z i n’est plus une sous-matrice de X i mais unematrice distincte. Les effets fixes (vecteur µ) des variab<strong>le</strong>s explicatives inclues dans Z isont spécifiés directement dans la distribution des effets aléatoires u i : u i ∼ N (µ, D).Les deux définitions (2.14) et (2.1) sont équiva<strong>le</strong>ntes.Dans <strong>le</strong> cas de données hétérogènes, on fait l’hypothèse que <strong>le</strong>s données sontissues de G populations ayant des profils d’évolution différents. L’hétérogénéité est


Etat des connaissances 44alors prise en compte dans la distribution des effets aléatoires définie comme unmélange de G lois norma<strong>le</strong>s : u i ∼ ∑ Gg=1 π gN (µ g , D g ). Chaque sous-population a sonpropre profil d’évolution moyen défini par Zµ g et a une probabilité π g ; la sommede ces probabilités sur <strong>le</strong>s G classes valant 1 ( ∑ Gg=1 π g = 1). Dans <strong>le</strong>s modè<strong>le</strong>s demélange pour données longitudina<strong>le</strong>s, la matrice de variance-covariance des effetsaléatoires est la plupart du temps supposée invariante selon <strong>le</strong>s classes de mélange(D g = D, ∀g) car cela permet d’éviter des problèmes numériques dans la procédured’estimation (Bauer et Curran, 2003a ; Leg<strong>le</strong>r et al., 2004 ; Verbeke et Mo<strong>le</strong>nberghs,2000). En effet, dans <strong>le</strong> cas où la matrice de variance-covariance est spécifique <strong>à</strong>chaque classe, la log-vraisemblance peut se retrouver infiniment grande au bord del’espace des paramètres ce qui induit une non-identifiabilité du modè<strong>le</strong>. Ce problèmen’est pas spécifique aux modè<strong>le</strong>s de mélange pour données longitudina<strong>le</strong>s (Redneret Walker, 1984). Il a été étudié en univarié dans <strong>le</strong> cas d’un mélange de deux loisnorma<strong>le</strong>s et il semb<strong>le</strong> que l’algorithme EM, grâce <strong>à</strong> son caractère local ne soit pas tropattiré vers <strong>le</strong> point de singularité de l’espace des paramètres où la log-vraisemblanceest infinie comparé <strong>à</strong> d’autre algorithmes aux propriétés de convergence globa<strong>le</strong>(Nityasuddhi et Bohning, 2003).A l’origine, ce modè<strong>le</strong> pour données longitudina<strong>le</strong>s hétérogènes a été développépour prendre en compte et tester un écart <strong>à</strong> l’hypothèse de normalité des effetsaléatoires (Verbeke et Lesaffre, 1996 ; Verbeke et Lesaffre, 1997), mais il est depuislargement utilisé et étendu pour traiter des données hétérogènes issues de plusieurssous-populations non observées (Bauer et Curran, 2003a) : dans des essais cliniquespour étudier la non compliance (Pau<strong>le</strong>r et Laird, 2000) ou la réponse au traitement(Xu et Hedeker, 2001), en génétique pour faire de la classification de gènes (Ce<strong>le</strong>uxet al., 2005) ou en psychologie pour étudier <strong>le</strong>s profils de comportement (Muthén etShedden, 1999 ; Muthén et al., 2002).Ces dernières années, la plupart des développement sur <strong>le</strong>s modè<strong>le</strong>s de mélangepour données longitudina<strong>le</strong>s ont été réalisés par l’équipe de Muthén (Muthén etShedden, 1999 ; Muthén, 2001 ; Muthén et al., 2002 ; Muthén, 2004) dans l’op-


Etat des connaissances 45tique de décrire des sous-populations non-observées. Muthén et Shedden (1999) ontainsi proposé d’étendre la première version du modè<strong>le</strong> de Verbeke et Lesaffre (1996)afin de prédire la probabilité d’appartenir <strong>à</strong> une classe latente en fonction des caractéristiquesdu sujet. En définissant la variab<strong>le</strong> latente d’appartenance aux classesc i qui vaut g si <strong>le</strong> sujet i appartient <strong>à</strong> la classe g, ils ont exprimé la probabilitéd’appartenir <strong>à</strong> la classe g par un modè<strong>le</strong> multinomial :π ig = P (c i = g|X 2i ) =eξ 0g+X T 2i ξ 1g∑ Gl=1 eξ 0l+X T 2i ξ 1l(2.15)où ξ 0g représente l’intercept de la classe g et ξ 1g <strong>le</strong> vecteur de paramètres spécifiques<strong>à</strong> la classe g associé aux variab<strong>le</strong>s explicatives X 2i . Pour des raisons d’identifiabilité,ξ 0g = 0 et ξ 1g = 0.Muthén et Shedden (1999) ont aussi proposé de prendre en compte, conjointementaux profils hétérogènes d’évolution, un événement clinique sous forme de variab<strong>le</strong>binaire prédite par l’appartenance aux classes latentes. Par cette modélisationconjointe, Muthén et Shedden (1999) suivis d’autres travaux (Lin et al., 2000 ; Linet al., 2002a ; Muthén et al., 2002) ont introduit l’approche par classes latentes dansl’étude conjointe d’un marqueur longitudinal et d’un événement clinique. Nous reviendronssur ce développement particulier des modè<strong>le</strong>s <strong>à</strong> classes latentes conjointsdans la dernière section de ce chapitre.Estimation des paramètresComme dans <strong>le</strong>s modè<strong>le</strong>s de mélange simp<strong>le</strong>s, l’estimation des paramètres dans<strong>le</strong>s modè<strong>le</strong>s de mélange pour données longitudina<strong>le</strong>s pose certains problèmes. Anotre connaissance, tous <strong>le</strong>s travaux réalisés dans ce domaine se sont basés sur uneestimation <strong>à</strong> nombre fixé de composantes étant donné la comp<strong>le</strong>xité engendrée par <strong>le</strong>modè<strong>le</strong> mixte seul. Le plus souvent, une estimation par maximum de vraisemblancevia l’algorithme EM présenté en sous-section 2.3.2 a été utilisée (Verbeke et Lesaffre,1996 ; Muthén et Shedden, 1999 ; Xu et Hedeker, 2001 ; Muthén et al., 2002). Dansson logiciel M+, Muthén (Muthén et Muthén, 2001) a développé un algorithme


Etat des connaissances 46EM pour traiter <strong>le</strong>s modè<strong>le</strong>s de mélange pour données longitudina<strong>le</strong>s dans <strong>le</strong> casoù <strong>le</strong>s temps de mesure sont identiques pour tous <strong>le</strong>s sujets. Komarek (2001) ontdéveloppé une macro SAS gratuite utilisant l’algorithme EM et la procédure MIXEDpuis Spiessens et al. (2002) l’ont étendue aux modè<strong>le</strong>s mixtes généralisés en utilisantla procédure NLMIXED.Dans un modè<strong>le</strong> de mélange pour données longitudina<strong>le</strong>s, l’étape M de l’algorithmeEM nécessite l’estimation des modè<strong>le</strong>s linéaires mixtes classiques obtenusconditionnel<strong>le</strong>ment aux classes latentes. Cette estimation doit donc se faire par unalgorithme itératif de type Newton-Raphson. L’algorithme EM étant connu pour sa<strong>le</strong>nteur, l’estimation d’un modè<strong>le</strong> linéaire mixte dans la phase M rend la procédured’estimation globa<strong>le</strong> encore plus lourde. Dans un travail préparatoire au présenttravail, nous avons donc proposé une alternative <strong>à</strong> l’algorithme EM basée sur unemaximisation directe de la log-vraisemblance observée par un algorithme de Marquardtlégèrement amélioré (Proust et Jacqmin-Gadda, 2005 en annexe). En effet,la densité du vecteur d’observation y i s’écrit :G∑G∑f i (y i ) = π g f(y i |c i = g) = π g φ ig (y i ) (2.16)g=1g=1où φ ig est la densité multivariée Gaussienne d’espérance E ig = X i β + Z i µ g et devariance V i = Z i DZiT + σ 2 I ni . De l<strong>à</strong>, la log-vraisemblance des données observéesdans un modè<strong>le</strong> de mélange pour données longitudina<strong>le</strong>s se décompose suivant <strong>le</strong>sclasses latentes de la manière suivante :N∑N∑ G∑L(Y; θ) = ln(f i (y i )) = ln( π g φ ig (y i )) (2.17)i=1i=1 g=1Cette log-vraisemblance peut être maximisée directement comme décrit dans Proustet Jacqmin-Gadda (2005, en annexe) par un algorithme de Marquardt. L’algorithmede Marquardt est plus robuste que l’algorithme de Newton-Raphson car il consiste <strong>à</strong>gonf<strong>le</strong>r la diagona<strong>le</strong> de la matrice Hessienne lorsqu’el<strong>le</strong> n’est pas définie positive. Deplus, une recherche unidimensionnel<strong>le</strong> sur <strong>le</strong> pas utilisé dans la mise <strong>à</strong> jour permetd’assurer l’amélioration systématique de la vraisemblance <strong>à</strong> chaque itération.


Etat des connaissances 47L’estimation d’un modè<strong>le</strong> de mélange par un algorithme de Newton-Raphson a étécritiquée (Redner et Walker, 1984 ; Verbeke et Mo<strong>le</strong>nberghs, 2000). Malgré sa vitessede convergence quadratique (donc plus rapide que l’algorithme EM), cet algorithme atendance <strong>à</strong> avoir plus de problèmes de convergence que l’algorithme EM. Dans notretravail préparatoire, nous avons donc comparé <strong>le</strong>s performances de notre algorithmede Marquardt amélioré avec cel<strong>le</strong>s de l’algorithme EM sur deux échantillons. Lesdeux algorithmes ont convergé vers <strong>le</strong> maximum global un nombre équiva<strong>le</strong>nt de foismais l’algorithme de Marquardt convergeait beaucoup plus rapidement (10 minutesvs. 2 heures pour un modè<strong>le</strong> avec une fonction quadratique du temps et 2 classes demélange estimé sur un échantillon de 1392 sujets).Nous avons vu précédemment que <strong>le</strong>s modè<strong>le</strong>s de mélange patissaient d’une multimodalitéet devaient donc être estimés avec plusieurs jeux de va<strong>le</strong>urs initia<strong>le</strong>s pours’assurer de la convergence vers <strong>le</strong> maximum global. D’autre part, un modè<strong>le</strong> demélange doit être estimé pour toute une série de nombres de composantes différentsafin de sé<strong>le</strong>ctionner <strong>le</strong> nombre optimal de classes. Par conséquent, étant donné lanécessité de multiplier <strong>le</strong>s estimations du modè<strong>le</strong> de mélange dans une analyse, i<strong>le</strong>st primordial d’utiliser un algorithme rapide.Classification a posterioriUne des particularités des modè<strong>le</strong>s de mélange est qu’ils permettent de réaliserune classification a posteriori des sujets suivant <strong>le</strong>s classes latentes estimées dans <strong>le</strong>modè<strong>le</strong>. Après l’estimation des paramètres du modè<strong>le</strong> et la détermination du nombreoptimal de classes, il est possib<strong>le</strong> de calcu<strong>le</strong>r a posteriori la probabilité que chaquesujet appartienne <strong>à</strong> chaque classe latente ˆπ ig , g = 1, G, par <strong>le</strong> théorème de Bayes :ˆπ ig = P (c i = g|Y i , ˆθ) =ˆπ gφ ig (y i ; ˆθ)∑ Gl=1 ˆπ lφ il (y i ; ˆθ)(2.18)où φ il (y i ; ˆθ) est la densité multivariée Gaussienne définie au paragraphe précédentprise aux va<strong>le</strong>urs estimées des paramètres ˆθ. Pour chaque sujet, on dispose alors de


Etat des connaissances 48ses probabilités a posteriori d’appartenir <strong>à</strong> chacune des classes latentes. En affectant<strong>à</strong> chaque sujet, la classe latente <strong>à</strong> laquel<strong>le</strong> il a la plus grande probabilité d’appartenir,on obtient une classification a posteriori des sujets suivant <strong>le</strong>s classes latentesestimées dans <strong>le</strong> modè<strong>le</strong>. Cette classification peut ensuite être utilisée pour évaluerl’association entre <strong>le</strong>s classes latentes des profils d’évolution et <strong>le</strong>s caractéristiquesdes sujets (Verbeke et Lesaffre, 1996 ; Xu et Hedeker, 2001).Adéquation du modè<strong>le</strong>Avec l’intérêt croissant qu’ont reçu <strong>le</strong>s modè<strong>le</strong>s de mélange pour données longitudina<strong>le</strong>set notamment d’un point de vue appliqué (Bauer et Curran, 2003a), <strong>le</strong> testd’adéquation est devenu un point crucial du développement de ce type de modè<strong>le</strong>.En effet, s’agissant de modè<strong>le</strong>s paramétriques comp<strong>le</strong>xes, il est nécessaire d’évaluer<strong>le</strong>urs hypothèses sous-jacentes.Comme pour <strong>le</strong>s modè<strong>le</strong>s de mélange classiques, <strong>le</strong> nombre de composantes dans<strong>le</strong> modè<strong>le</strong> de mélange pour données longitudina<strong>le</strong>s constitue l’hypothèse la plusimportante. Dans la plupart des travaux sur <strong>le</strong>s modè<strong>le</strong>s de mélange pour donnéeslongitudina<strong>le</strong>s (Verbeke et Lesaffre, 1996 ; Muthén et Shedden, 1999 ; Muthén et al.,2002 ; Bauer et Curran, 2003a), l’évaluation du nombre de composantes est faite par<strong>le</strong> Bayesian Information Criterion (BIC) (Schwartz, 1978) qui consiste <strong>à</strong> pénaliserla déviance du modè<strong>le</strong> par <strong>le</strong> nombre de paramètres multiplié par <strong>le</strong> logarithme dunombre de sujets dans l’échantillon. Ce critère est préféré au critère d’Akaike (AIC)qui pénalise la déviance par deux fois <strong>le</strong> nombre de paramètres et a tendance <strong>à</strong>surestimer <strong>le</strong> nombre de composantes (Hawkins et al., 2001 ; Wang et al., 2005).Cependant, si <strong>le</strong> BIC permet de déterminer <strong>le</strong> nombre optimal de classes latentessous l’hypothèse de mélange de population, il ne permet pas d’évaluer l’adéquationdu modè<strong>le</strong> obtenu (Muthén, 2004). D’autres travaux ont donc consisté <strong>à</strong> explorerl’adéquation d’un modè<strong>le</strong> de mélange en confrontant <strong>le</strong>s prédictions du modè<strong>le</strong> finalaux données observées. Verbeke et Mo<strong>le</strong>nberghs (2000) ont ainsi proposé d’évaluersi la distribution margina<strong>le</strong> des prédictions était bien <strong>le</strong> mélange de distributions


Etat des connaissances 49norma<strong>le</strong>s supposé dans <strong>le</strong> modè<strong>le</strong>. Cette méthode est basée sur <strong>le</strong> principe que si<strong>le</strong> modè<strong>le</strong> est correct, la transformation des données observées par la fonction derépartition estimée du modè<strong>le</strong> doit être uniforme. Muthén (2004) a proposé, dans <strong>le</strong>cas de données équilibrées et sans données manquantes, de comparer <strong>à</strong> chaque tempsde mesure <strong>le</strong>s indicateurs d’aplatissement (Kurtosis) et d’asymétrie (Skewness) desprédictions obtenus par simulations avec ceux des données observées. Wang et al.(2004) ont de <strong>le</strong>ur côté utilisé des méthodes basées sur <strong>le</strong> calcul des résidus spécifiques<strong>à</strong> chaque classe. En utilisant une technique d’affectation aléatoire des sujets auxclasses latentes (Bandeen-Roche et al., 1997) <strong>à</strong> partir des probabilités a posteriorid’appartenance aux classes, ils calcu<strong>le</strong>nt <strong>le</strong>s résidus prédits dans chaque classe latente.Cette approche <strong>le</strong>ur permet <strong>à</strong> la fois d’évaluer <strong>le</strong> nombre de composantes, lamauvaise spécification de la trajectoire moyenne ou la structure de covariance dumodè<strong>le</strong>. Cependant, tout comme la méthode de Muthén (2004), cette technique estdéveloppée uniquement dans <strong>le</strong> cas de données équilibrées sans données manquantes.De manière généra<strong>le</strong> en modélisation, une approche simp<strong>le</strong> pour évaluer l’adéquationd’un modè<strong>le</strong> aux données consiste <strong>à</strong> comparer la courbe d’évolution prédite <strong>à</strong> lacourbe d’évolution observée. La particularité dans <strong>le</strong>s modè<strong>le</strong>s de mélange est qu’i<strong>le</strong>xiste une partie latente liée <strong>à</strong> l’appartenance de chaque sujet aux classes latentes.Muthén (2001) a donc proposé de pondérer <strong>le</strong>s vecteurs d’évolution prédite et observéepar la probabilité a posteriori que chaque sujet a d’appartenir <strong>à</strong> chaque classelatente. Cette astuce permet de comparer pour chaque classe latente, <strong>le</strong>s évolutionsprédite et observée.Evaluer la précision de la classification a posteriori obtenue par <strong>le</strong> modè<strong>le</strong> demélange peut aussi donner des indications sur l’adéquation du modè<strong>le</strong>. Selon Muthén(2001), une classification a posteriori est bonne (c’est <strong>à</strong> dire bien discriminante)lorsque, pour <strong>le</strong>s sujets classés dans une certaine classe a posteriori, la moyenne de<strong>le</strong>urs probabilités d’appartenir <strong>à</strong> cette classe est proche de 1 alors que <strong>le</strong>s moyennesde <strong>le</strong>urs probabilités d’appartenir aux autres classes sont proches de 0.Enfin, Bauer et Curran (2003a) ont initié une discussion sur la difficulté de distin-


Etat des connaissances 50guer par un modè<strong>le</strong> de mélange une structure hétérogène des données d’une structurehomogène mais non norma<strong>le</strong> des données. Toutes <strong>le</strong>s méthodes proposées ci-dessuspermettent d’évaluer si <strong>le</strong> modè<strong>le</strong> s’adapte bien aux données mais ne permettent pasde distinguer un mélange de lois norma<strong>le</strong>s qui exprime une structure hétérogène d’unmélange de lois norma<strong>le</strong>s qui approxime une loi plus comp<strong>le</strong>xe. La discussion qui asuivi ce travail (Rindskopf, 2003 ; Muthén, 2003 ; Cudeck et Henly, 2003 ; Bauer etCurran, 2003b) montre la difficulté de l’interprétation des modè<strong>le</strong>s statistiques etnotamment des composantes dans un modè<strong>le</strong> de mélange. Lorsque l’on estime unmodè<strong>le</strong> de mélange, il faut toujours garder en tête la possiblité que <strong>le</strong>s composantesobtenues ne traduisent qu’une approximation d’une distribution homogène.Dans ce travail de thèse, nous n’étudierons pas spécifiquement <strong>le</strong>s modè<strong>le</strong>s demélange pour données longitudina<strong>le</strong>s mais plutôt <strong>le</strong>ur extension <strong>à</strong> l’étude conjointed’un marqueur et d’un événement présentée dans la section suivante. Cependant,<strong>le</strong>s méthodes, limites et recommandations données ici seront toujours valab<strong>le</strong>s.


Etat des connaissances 512.4 Modélisation conjointe de marqueurs longitudinauxet d’un événementIl est très fréquent dans <strong>le</strong>s études de cohortes ou <strong>le</strong>s essais thérapeutiques de col<strong>le</strong>cter<strong>à</strong> la fois des mesures répétées de marqueurs et un délai jusqu’<strong>à</strong> un événement.Les marqueurs mesurent la plupart du temps la progression de la maladie et <strong>le</strong> délaimesure <strong>le</strong> laps de temps jusqu’au diagnostic de la maladie, jusqu’au décès ou bienjusqu’<strong>à</strong> une sortie d’étude.Les mesures répétées des marqueurs et <strong>le</strong> délai jusqu’<strong>à</strong> l’événement ont souventune association et il peut être intéressant, voire nécessaire, de <strong>le</strong>s étudier conjointementdans <strong>le</strong> but de :- prendre en compte l’événement pour faire de l’inférence sur <strong>le</strong>s mesures longitudina<strong>le</strong>sdu marqueur. C’est <strong>le</strong> cas dans <strong>le</strong>s études longitudina<strong>le</strong>s lorsque l’onsouhaite par exemp<strong>le</strong> prendre en compte la sortie d’étude informative pourobtenir des estimateurs sans biais de l’évolution du marqueur.- utiliser <strong>le</strong>s mesures répétées du marqueur pour pronostiquer l’événement. C’est<strong>le</strong> cas dans <strong>le</strong>s études de survie lorsque l’on souhaite par exemp<strong>le</strong> évaluer si unmarqueur longitudinal est un bon marqueur de substitution d’un événementclinique.- comprendre <strong>le</strong> mécanisme de l’association entre l’évolution du marqueur et lasurvenue de l’événement.La modélisation simultanée de la distribution conjointe f(Y, T ) des deux processusque sont <strong>le</strong>s mesures répétées d’un marqueur Y et <strong>le</strong> délai jusqu’<strong>à</strong> un événementT permet de répondre <strong>à</strong> ces objectifs. De manière usuel<strong>le</strong>, <strong>le</strong> modè<strong>le</strong> <strong>à</strong> effets aléatoirespartagés est utilisé. Les effets aléatoires caractérisant l’évolution du marqueur sontinclus en tant que variab<strong>le</strong>s explicatives dans <strong>le</strong> modè<strong>le</strong> du risque d’événement etreprésentent l’unique lien entre <strong>le</strong> marqueur et <strong>le</strong> délai d’événement. Récemment,une nouvel<strong>le</strong> approche a été proposée basée sur des classes latentes associées <strong>à</strong> la


Etat des connaissances 52fois <strong>à</strong> l’évolution du marqueur et au risque d’événement.Dans cette section, nous présentons ces deux types de modélisation et discutons<strong>le</strong>urs avantages et <strong>le</strong>urs limites. Enfin, nous présentons <strong>le</strong> cas particulier de la priseen compte de la sortie d’étude informative dans <strong>le</strong>s études longitudina<strong>le</strong>s qui a faitl’objet de nombreux développements en modélisation conjointe.2.4.1 Modè<strong>le</strong>s <strong>à</strong> effets aléatoires partagésLe modè<strong>le</strong> <strong>à</strong> effets aléatoires partagés associe l’évolution du marqueur et la survenuede l’événement <strong>à</strong> travers des effets aléatoires communs (Wulfsohn et Tsiatis,1997 ; Henderson et al., 2000). L’hypothèse est que l’évolution du marqueur et <strong>le</strong>délai d’événement sont indépendants conditionnel<strong>le</strong>ment aux effets aléatoires :∫f(Y i , T i ) =f(Y i | u i )f(T i |u i )f(u i )du i (2.19)Les effets aléatoires u i représentent donc l’unique lien qui existe entre <strong>le</strong>s deuxprocessus.Spécification du modè<strong>le</strong>Plus précisément, l’évolution du marqueur est modélisée par <strong>le</strong> modè<strong>le</strong> linéairemixte présenté en section 2.1. Pour <strong>le</strong> sujet i, i = 1, ..., N et la mesure répétée j,j = 1, ..., n i , la mesure Y ij du marqueur est définie de la manière suivante :Y ij = X ij β + Z ij u i + ɛ ij (2.20)où X ij et Z ij sont <strong>le</strong>s vecteurs de variab<strong>le</strong>s explicatives associés aux effets fixes β etaux effets aléatoires Gaussiens u i .Le risque d’événement λ(t) est <strong>le</strong> plus souvent défini par un modè<strong>le</strong> <strong>à</strong> risquesproportionnels dans <strong>le</strong>quel des fonctions des effets aléatoires g(u i , t) sont introduites


Etat des connaissances 53en tant que variab<strong>le</strong>s explicatives :λ(t|x i ; u i ) = λ 0 (t) exp(x i γ + g(u i , t)δ) (2.21)où λ 0 (t) est <strong>le</strong> risque instantané de base (paramétrique ou non), x i est <strong>le</strong> vecteurde variab<strong>le</strong>s explicatives associé au vecteur d’effets fixes γ, et δ est <strong>le</strong> vecteur deparamètres reliant <strong>le</strong> marqueur au risque instantané d’événement. En particulier, siδ = 0 alors <strong>le</strong> marqueur et l’événement sont indépendants l’un de l’autre.Le plus souvent, <strong>le</strong>s fonctions des effets aléatoires sont des combinaisons linéairesdes effets aléatoires traduisant l’association entre l’événement et une caractéristiquede l’évolution du marqueur tel<strong>le</strong> que la va<strong>le</strong>ur courante ou la pente courante du marqueur(Yu et al., 2004). Un exemp<strong>le</strong> consiste <strong>à</strong> introduire dans <strong>le</strong> modè<strong>le</strong> de survie lava<strong>le</strong>ur réel<strong>le</strong> du marqueur : g(u i , t) = E(Y i | u i ) = X ij β +Z ij u i (Wulfsohn et Tsiatis,1997 ; Law et al., 2002). Henderson et al. (2000) ont aussi généralisé cette approcheen introduisant des processus Gaussiens corrélés dans <strong>le</strong> modè<strong>le</strong> longitudinal et dans<strong>le</strong> modè<strong>le</strong> de survie.Estimation des paramètresDans <strong>le</strong> modè<strong>le</strong> <strong>à</strong> effets aléatoires partagés, l’hypothèse d’indépendance du marqueuret de l’événement conditionnel<strong>le</strong>ment aux effets aléatoires permet d’écrire ladistribution conjointe du marqueur et de l’événement :∫f(Y, T ) = f(Y, T |u)f(u)duu∫(2.22)= f(Y |u)f(T |u)f(u)duuEn notant E i l’indicateur binaire d’événement, la vraisemblance du modè<strong>le</strong> s’écriten utilisant cette décomposition (Hogan et Laird, 1997) :N∏∫L(θ; (Y, T )) = f(Y i |u i ; θ)λ(T i |u i ; θ) E iS(T i | u i ; θ)f(u i ; θ)du i (2.23)u ii=1où f(Y i |u i ) est une densité multivariée norma<strong>le</strong> d’espérance E(Y i | u i ) = X ij β+Z ij u iet de variance σ 2 I ni , f(u i ) est une densité norma<strong>le</strong> d’espérance nul<strong>le</strong> et de variance


Etat des connaissances 54D et <strong>le</strong> risque instantané λ(t) est estimé de manière paramétrique ou non (Wulfsohnet Tsiatis, 1997 ; Henderson et al., 2000).La vraisemblance du modè<strong>le</strong> <strong>à</strong> effets aléatoires partagés inclut une intégra<strong>le</strong> multip<strong>le</strong>sur <strong>le</strong>s effets aléatoires sans solution analytique. La maximisation de la vraisemblancenécessite donc l’approximation d’intégra<strong>le</strong>s réalisée <strong>le</strong> plus souvent parquadrature Gaussienne. Ceci complique nettement l’estimation des modè<strong>le</strong>s <strong>à</strong> effetsaléatoires partagés et notamment restreint <strong>le</strong> nombre d’effets aléatoires possib<strong>le</strong>s.Dans la plupart des travaux, <strong>le</strong>s paramètres du maximum de vraisemblance sont estiméspar un algorithme EM qui consiste <strong>à</strong> maximiser l’espérance de la vraisemblancecomplète, <strong>le</strong>s effets aléatoires étant considérés comme des données non-observées(Wulfsohn et Tsiatis, 1997 ; Henderson et al., 2000 ; Lin et al., 2002b). Cependant,cette formulation nécessite aussi l’évaluation numérique d’intégra<strong>le</strong>s sur <strong>le</strong>s effetsaléatoires. Récemment, des approches Bayésiennes ont aussi été proposées (Xu etZeger, 2001 ; Chi et Ibrahim, 2006).Extension du modè<strong>le</strong> <strong>à</strong> effets aléatoires partagésLa principa<strong>le</strong> extension des modè<strong>le</strong>s <strong>à</strong> effets aléatoires partagés a consisté <strong>à</strong>prendre en compte conjointement plusieurs marqueurs d’évolution soit par des modè<strong>le</strong>smixtes multivariés présentés en section 2.2.1 soit par des modè<strong>le</strong>s mixtes <strong>à</strong> variab<strong>le</strong>slatentes présentés en section 2.2.2. Ainsi, Thiébaut et al. (2005) ont combinéun modè<strong>le</strong> linéaire mixte multivarié pour décrire l’évolution de la charge vira<strong>le</strong> etdes CD4 en prenant en compte conjointement la sortie d’étude informative. Brownet al. (2005) ont quant <strong>à</strong> eux étudié l’évolution conjointe des deux marqueurs et<strong>le</strong>ur association avec la survenue du stade SIDA ou du décès. Dans ce travail, ilsont aussi assoupli la modélisation des marqueurs en introduisant un modè<strong>le</strong> linéairemixte bivarié non paramétrique basé sur des splines cubiques. Lin et al. (2002b)ont aussi modélisé plusieurs marqueurs longitudinaux conjointement <strong>à</strong> l’événementpour caractériser <strong>à</strong> la fois <strong>le</strong>s interactions entre <strong>le</strong>s marqueurs et l’événement, et <strong>le</strong>s


Etat des connaissances 55interactions directes entre <strong>le</strong>s marqueurs.En utilisant des modè<strong>le</strong>s mixtes <strong>à</strong> variab<strong>le</strong>s latentes, Xu et Zeger (2001) ontévalué l’intérêt d’utiliser plusieurs marqueurs longitudinaux plutôt qu’un seul commemarqueurs de substitution d’un événement final dans un essai clinique sur la schizophrénie.Ils ont pour cela introduit en variab<strong>le</strong> explicative du modè<strong>le</strong> de survie<strong>le</strong>s variab<strong>le</strong>s latentes sous-jacentes aux marqueurs. Roy et Lin (2002) ont quant<strong>à</strong> eux étendu <strong>le</strong>ur modè<strong>le</strong> mixte <strong>à</strong> variab<strong>le</strong> latente proposé en 2000 pour prendreen compte la sortie d’étude informative, la variab<strong>le</strong> latente sous-jacente <strong>à</strong> tous <strong>le</strong>smarqueurs étant prédictrice de la sortie d’étude. Enfin, Chi et Ibrahim (2006) ontmodélisé conjointement plusieurs marqueurs d’évolution indépendants entre eux pardes modè<strong>le</strong>s mixtes et <strong>le</strong>ur association avec deux événements corrélés. Les variab<strong>le</strong>slatentes sous-jacentes aux marqueurs étaient entrées en variab<strong>le</strong>s explicatives dans<strong>le</strong>s deux modè<strong>le</strong>s de survie, la corrélation entre <strong>le</strong>s événements étant définie par unparamètre de fragilité commun.Limites de l’approcheLa principa<strong>le</strong> limite des modè<strong>le</strong>s <strong>à</strong> effets aléatoires partagés réside dans la difficultéde calcu<strong>le</strong>r <strong>le</strong>s intégra<strong>le</strong>s multip<strong>le</strong>s sur <strong>le</strong>s effets aléatoires (Henderson et al.,2000). L’extension <strong>à</strong> l’étude de plusieurs marqueurs corrélés renforce <strong>le</strong> problèmepuisque comme nous l’avons vu en section 2.2.1, la corrélation entre <strong>le</strong>s marqueursest prise en compte par des effets aléatoires corrélés. En considérant que tous <strong>le</strong>s marqueurssont des mesures d’une même variab<strong>le</strong> latente, <strong>le</strong> nombre d’effets aléatoiresest réduit mais, même dans ce cas, Roy et Lin (2002) évoquent <strong>le</strong>s difficultés d’estimationliées aux intégra<strong>le</strong>s numériques sur <strong>le</strong>s effets aléatoires.Une deuxième limite de ces modè<strong>le</strong>s vient des hypothèses paramétriques. Eneffet, l’association entre l’événement et <strong>le</strong>s marqueurs est entièrement spécifiée etil est diffici<strong>le</strong> d’évaluer l’impact de cette hypothèse sur <strong>le</strong>s estimations du modè<strong>le</strong>.En particulier, des études de sensibilité sont nécessaires (Hogan et Laird, 1997 ;Fitzmaurice et al., 2001).


Etat des connaissances 56Une troisième limite concerne l’interprétation assez comp<strong>le</strong>xe de l’associationentre <strong>le</strong> marqueur et l’événement. En effet, cette association s’exprime <strong>le</strong> plus souventsous forme de corrélation entre <strong>le</strong>s effets aléatoires du marqueur et <strong>le</strong> risqued’événement. En plus, la corrélation entre <strong>le</strong>s mesures répétées du marqueur et lacorrélation entre l’événement et <strong>le</strong> marqueur ne sont pas différenciées (Roy, 2003).Enfin, lorsqu’on étudie l’association entre l’évolution d’un marqueur et la survenued’un événement, on peut s’attendre <strong>à</strong> avoir au moins deux types d’évolutionsdifférentes suivant que l’événement a lieu ou pas. Or, dans un modè<strong>le</strong> <strong>à</strong> effetsaléatoires partagés, on fait l’hypothèse que l’évolution du marqueur est homogène :<strong>le</strong>s effets aléatoires qui prédisent l’événement sont supposés Gaussiens.Les hypothèses paramétriques diffici<strong>le</strong>s <strong>à</strong> vérifier, <strong>le</strong>s difficultés numériques et l’interprétationcomp<strong>le</strong>xe de l’association entre <strong>le</strong>s deux processus dans <strong>le</strong>s modè<strong>le</strong>s <strong>à</strong>effets aléatoires partagés ont conduit <strong>à</strong> considérer une autre approche pour modéliserconjointement des marqueurs et un événement : <strong>le</strong>s modè<strong>le</strong>s conjoints <strong>à</strong> classes latentes.2.4.2 Modè<strong>le</strong>s conjoints <strong>à</strong> classes latentesCes modè<strong>le</strong>s sont des extensions des modè<strong>le</strong>s de mélange pour données longitudina<strong>le</strong>sprésentés en section 2.3.3. L’hypothèse est qu’il existe dans la populationun nombre inconnu de sous-populations homogènes <strong>à</strong> la fois pour l’événement et <strong>le</strong>marqueur. Chaque sous-population peut avoir sa propre distribution du marqueuret sa propre distribution de l’événement.Spécification du modè<strong>le</strong>Faisons l’hypothèse qu’il existe G classes latentes dans la population. La variab<strong>le</strong>latente c i décrit l’appartenance aux classes latentes : c i = g si <strong>le</strong> sujet i appartient<strong>à</strong> la classe g. L’appartenance <strong>à</strong> chaque classe, c’est <strong>à</strong> dire π ig = P (c i = g), peut être


Etat des connaissances 57décrite par <strong>le</strong> modè<strong>le</strong> multinomial comme défini en (2.15). Conditionnel<strong>le</strong>ment <strong>à</strong> laclasse latente g, <strong>le</strong> marqueur Y i est supposé suivre un modè<strong>le</strong> linéaire mixte :Y i | ci =g = X i β + W i α g + Z i u ig + ɛ ig (2.24)où X i est la matrice de variab<strong>le</strong>s explicatives indépendante de la classe et associéeau vecteur d’effets fixes β communs <strong>à</strong> toutes <strong>le</strong>s classes. La matrice W i contientdes variab<strong>le</strong>s explicatives distinctes de X i et est associée au vecteur d’effets fixes α gdifférents dans chaque classe du mélange. La matrice Z i est une sous-matrice de W iassociée au vecteur d’effets aléatoires u ig distribué suivant une N (0, D). Les erreursɛ ig sont indépendantes et distribuées suivant une N (0, σ 2 I ni ).Par rapport <strong>à</strong> un modè<strong>le</strong> de mélange pour données longitudina<strong>le</strong>s classique,l’événement est maintenant aussi prédit par <strong>le</strong>s classes de mélange. Muthén et Shedden(1999) suivi de Lin et al. (2000) ont défini la probabilité d’événement T i danschaque classe de mélange g par un modè<strong>le</strong> logistique :P (T i = 1| ci =g) = exp(δ 0g + x i δ 1g )1 + exp(δ 0g + x i δ 1g )(2.25)où δ 0g est l’intercept spécifique <strong>à</strong> chaque classe et x i est <strong>le</strong> vecteur de variab<strong>le</strong>s explicativesassocié au vecteur de paramètres δ 1g potentiel<strong>le</strong>ment différent dans chaqueclasse latente.Lin et al. (2002a) et McCulloch et al. (2002) ont ensuite étendu ce modè<strong>le</strong> pourprendre en compte <strong>le</strong> délai jusqu’<strong>à</strong> l’événement plutôt que la probabilité d’événement<strong>à</strong> un temps donné. Le risque d’événement est défini par un modè<strong>le</strong> <strong>à</strong> risques proportionnels:λ(t)| ci =g = λ 0g (t)exp(x i δ 1g ) (2.26)où λ 0g (t) est <strong>le</strong> risque instantané de base de l’événement spécifique ou non <strong>à</strong> chaqueclasse latente.Dans <strong>le</strong> modè<strong>le</strong> conjoint <strong>à</strong> classes latentes, la variab<strong>le</strong> de classes c i représente <strong>le</strong>seul lien entre l’évolution du marqueur et l’événement. Ce modè<strong>le</strong> est donc similaireaux modè<strong>le</strong>s <strong>à</strong> effets aléatoires partagés sauf que dans <strong>le</strong> cas présent l’effet aléatoire


Etat des connaissances 58est discret.Estimation des paramètresLa variab<strong>le</strong> latente représentant <strong>le</strong> seul lien entre <strong>le</strong>s distributions du marqueuret de l’événement, la distribution conjointe de Y i et T i s’écrit de la manière suivante :f(Y i , T i ) = ∑ gf(Y i |c i = g)f(T i |c i = g)f(c i = g) (2.27)La contribution de chaque sujet <strong>à</strong> la vraisemblance peut donc s’écrire commeune somme sur <strong>le</strong>s classes latentes des contributions spécifiques <strong>à</strong> chaque classe, etla vraisemblance a la forme suivante :N∏ G∑L(φ; Y i , T i ) = π ig f(Y i |c i = g; φ)f(T i |c i = g; φ) (2.28)i=1 g=1où f(Y i |c i = g; φ) est une distribution multivariée Gaussienne d’espérance X i β +W i α g et de variance covariance Z i DZiT + σ 2 I ni , et f(T i |c i = g; φ) est la distributiondu modè<strong>le</strong> logistique défini en (2.25) ou du modè<strong>le</strong> de survie défini en (2.26).Cette vraisemblance ayant une expression analytique, <strong>le</strong>s estimateurs du maximumde vraisemblance peuvent être obtenus par des méthodes itératives. Les mêmesdifficultés que pour <strong>le</strong> modè<strong>le</strong> de mélange pour données longitudina<strong>le</strong>s sont rencontrées,en particulier <strong>le</strong>s problèmes de multimodalité et d’estimation <strong>à</strong> G fixé. L’algorithmeEM est généra<strong>le</strong>ment préféré pour l’estimation des paramètres et <strong>le</strong> critèreBIC est utilisé pour sé<strong>le</strong>ctionner <strong>le</strong> nombre optimal de classes latentes (Muthén etShedden, 1999 ; Lin et al., 2000 ; Lin et al., 2002a).ApplicationsMuthén et Shedden (1999) ont proposé un modè<strong>le</strong> conjoint <strong>à</strong> classes latentes etl’ont appliqué dans plusieurs études en psychologie. Ils ont ainsi étudié l’association


Etat des connaissances 59entre l’évolution de la consommation d’alcool entre 18 et 25 ans et la probabilitéde dépendance <strong>à</strong> l’alcool <strong>à</strong> 30 ans (Muthén et Shedden, 1999). Une autre étude aporté sur l’impact d’une intervention pédagogique <strong>à</strong> la fois sur l’évolution du comportementagressif au cours du temps et sur des événements tels que l’exclusionde l’éco<strong>le</strong> ou une arrestation (Muthén et al., 2002). A travers cette dernière application,un intérêt majeur des modè<strong>le</strong>s <strong>à</strong> classes latentes est souligné : ce modè<strong>le</strong>permet d’évaluer l’impact de variab<strong>le</strong>s explicatives sur l’évolution du marqueur, surl’événement lui même ou bien sur l’association entre <strong>le</strong>s deux. Dans l’étude de l’incidencedu cancer de la prostate, plusieurs travaux ont permis de mettre en évidence<strong>le</strong>s différents profils d’évolution de la PSA et son association avec la survenue d’uncancer de la prostate. La PSA, l’antigène spécifique de la prostate, est <strong>le</strong> biomarqueurreconnu dans l’étude du cancer de la prostate. Lin et al. (2000) ont d’abord montrégrâce <strong>à</strong> un modè<strong>le</strong> <strong>à</strong> classes latente qu’il existait 4 profils différents d’évolution associés<strong>à</strong> des risques plus ou moins accrus de cancer plusieurs années plus tard et Linet al. (2002a) ont confirmé ces résultats et proposé un outil de détection précoced’un cancer <strong>à</strong> partir des mesures répétées de PSA.Avantages et limites du modè<strong>le</strong> conjoint <strong>à</strong> classes latentesLe modè<strong>le</strong> <strong>à</strong> classes latentes est pour l’instant beaucoup moins fréquemmentutilisé que <strong>le</strong> modè<strong>le</strong> <strong>à</strong> effets aléatoires partagés pour étudier conjointement unmarqueur longitudinal et un événement. Pourtant, <strong>le</strong>s modè<strong>le</strong>s conjoints <strong>à</strong> classeslatentes offrent certains avantages par rapport au modè<strong>le</strong>s <strong>à</strong> effets aléatoires partagés.Tout d’abord, la variab<strong>le</strong> latente partagée dans un modè<strong>le</strong> <strong>à</strong> classes latentes étantdiscrète, la densité conjointe s’écrit comme une somme sur <strong>le</strong>s classes latentes et nonune intégra<strong>le</strong> sur <strong>le</strong>s effets aléatoires. Les effets aléatoires interviennent uniquementdans <strong>le</strong> modè<strong>le</strong> mixte qui dans <strong>le</strong> cas linéaire a une vraisemblance analytique. Lavraisemblance du modè<strong>le</strong> conjoint <strong>à</strong> classes latentes a donc la plupart du tempsune expression analytique et est faci<strong>le</strong>ment maximisab<strong>le</strong>. Deuxièmement, dans <strong>le</strong>


Etat des connaissances 60modè<strong>le</strong> <strong>à</strong> classes latentes, la corrélation entre <strong>le</strong> marqueur et l’événement (par <strong>le</strong>sclasses latentes) et la corrélation entre <strong>le</strong>s mesures répétées du marqueur (par <strong>le</strong>seffets aléatoires) sont bien distinctes alors qu’el<strong>le</strong>s sont confondues dans <strong>le</strong> modè<strong>le</strong><strong>à</strong> effets aléatoires partagés classique. De plus, la représentation de profils et courbesde survie dans chaque classe latente simplifie l’interprétation des résultats. Enfin,lorsqu’on étudie l’association entre l’évolution d’un marqueur et la survenue d’unévénement, il est intuitif de faire une hypothèse d’hétérogénéité dans la population,hypothèse que <strong>le</strong> modè<strong>le</strong> <strong>à</strong> classes latentes prend bien en compte.Les modè<strong>le</strong>s conjoints <strong>à</strong> classes latentes peuvent donc paraître préférab<strong>le</strong>s auxmodè<strong>le</strong>s de sé<strong>le</strong>ction. Cependant, ils présentent deux inconvénients. L’hypothèsed’indépendance conditionnel<strong>le</strong>ment aux classes latentes est au moins aussi forte quel’hypothèse d’indépendance conditionnel<strong>le</strong>ment aux effets aléatoires dans <strong>le</strong> modè<strong>le</strong><strong>à</strong> effets aléatoires partagés. En plus, dans un modè<strong>le</strong> <strong>à</strong> effets aléatoires partagés, i<strong>le</strong>st possib<strong>le</strong> de spécifier plusieurs types de combinaisons linéaires des effets aléatoiresdans <strong>le</strong> modè<strong>le</strong> de survie, ce qui rend la modélisation de la dépendance plus soup<strong>le</strong>.Mais en contrepartie, <strong>le</strong> modè<strong>le</strong> conjoint <strong>à</strong> classes latentes permet de tester des effetsde variab<strong>le</strong>s explicatives spécifiques aux classes latentes. Le deuxième inconvénientest que, <strong>le</strong>s mocè<strong>le</strong>s <strong>à</strong> classes latentes étant une extension des modè<strong>le</strong>s de mélangepour données longitudina<strong>le</strong>s, ils peuvent présenter des maxima locaux et doiventêtre estimés pour un nombre de classes fixé, <strong>le</strong> nombre optimal de classes latentesétant choisi par un critère de sé<strong>le</strong>ction.Dans <strong>le</strong> vieillissement cognitif, comme il existe une hétérogénéité des déclins,nous avons préféré utiliser <strong>le</strong>s modè<strong>le</strong>s conjoints <strong>à</strong> classes latentes plutôt que desmodè<strong>le</strong>s <strong>à</strong> effets aléatoires partagés pour étudier conjointement l’évolution cognitivehétérogène et la survenue d’une démence dans ce travail de thèse.


Etat des connaissances 612.4.3 Cas particulier : modélisation de la sortie d’étude informativeUne des applications qui a largement motivé <strong>le</strong> développement de modè<strong>le</strong>s pourdécrire conjointement l’évolution d’un marqueur et la survenue d’un événement est <strong>le</strong>traitement de la sortie d’étude informative dans <strong>le</strong>s analyses longitudina<strong>le</strong>s. L’objectifest de corriger <strong>le</strong>s biais dans l’inférence de l’évolution du marqueur Y en prenanten compte <strong>le</strong> délai jusqu’<strong>à</strong> la sortie d’étude T . Pour cela, deux approches ont étéenvisagées (Hogan et Laird, 1997 ; Litt<strong>le</strong>, 1995) :- <strong>le</strong> modè<strong>le</strong> de sé<strong>le</strong>ction : f(Y, T ) = f(Y )f(T |Y )- <strong>le</strong> modè<strong>le</strong> par mélange de profils d’observations : f(Y, T ) = f(Y |T )f(T )Les modè<strong>le</strong>s de sé<strong>le</strong>ction pour la sortie d’étudeLe modè<strong>le</strong> de sé<strong>le</strong>ction consiste <strong>à</strong> modéliser la distribution jointe du marqueur Y iet du temps d’événement T i pour un sujet i (i = 1, ..., N) soit en faisant l’hypothèseque la distribution de T i dépend directement de Y i (“outcome-dependent model ”) :f(Y i , T i ; θ, ψ) = f(Y i ; θ)f(T i |Y i ; ψ) (2.29)Soit en supposant qu’el<strong>le</strong> dépend des effets aléatoires du modè<strong>le</strong> mixte pour Y i(“random-effects-dependent model”) :∫f(Y i , T i ; θ, ψ) = f(Y i | u i ; θ)f(T i | u i ; ψ)f(u i )du i (2.30)La deuxième formulation, correspondant <strong>à</strong> un modè<strong>le</strong> <strong>à</strong> effets aléatoires partagésprésenté en section 2.4.1, est la formulation la plus courante.Le modè<strong>le</strong> de sé<strong>le</strong>ction est particulièrement intéressant pour prendre en compte lasortie d’étude car il permet de décrire directement et sans biais l’évolution margina<strong>le</strong>du marqueur caractérisée par <strong>le</strong> vecteur θ (Roy et Lin, 2002 ; Litt<strong>le</strong>, 1995). Eneffet, <strong>le</strong>s paramètres décrivant l’évolution du marqueur margina<strong>le</strong>ment par rapport


Etat des connaissances 62<strong>à</strong> la sortie d’étude sont estimés directement. Cependant, l’intégration numériquesur <strong>le</strong>s Y i manquants dans (2.29) ou sur <strong>le</strong>s effets aléatoires dans (2.30) compliquel’estimation de ces modè<strong>le</strong>s.Les modè<strong>le</strong>s par mélange de profils d’observationsCette méthode consiste <strong>à</strong> modéliser la distribution jointe du marqueur Y i et dutemps d’événement T i pour un sujet i (i = 1, ..., N) en considérant la distributionconditionnel<strong>le</strong> de Y i sachant T i :f(Y i , T i ; φ, ζ) = f(Y i |T i ; φ)f(T i ; ζ) (2.31)Plus précisément, f(Y i | T i ) est défini soit en incluant la date de sortie d’étudecomme variab<strong>le</strong> explicative dans <strong>le</strong> modè<strong>le</strong> pour Y i , soit en stratifiant sur <strong>le</strong>s profilsd’observation (ou dates de sortie d’étude).L’idée de conditionner l’analyse sur <strong>le</strong>s profils de sortie d’étude permet une priseen compte simp<strong>le</strong> et intuitive du processus de sortie d’étude et évite notammentde faire des hypothèses sur sa distribution. De plus, la vraisemblance du modè<strong>le</strong> demélange a une écriture analytique qui permet donc d’utiliser des méthodes classiquesd’estimation par <strong>le</strong> maximum de vraisemblance.Cependant, <strong>le</strong> modè<strong>le</strong> par mélange de profils d’observations ne permet pas d’obtenirdirectement <strong>le</strong>s paramètres d’intérêt, c’est <strong>à</strong> dire ceux caractérisant l’évolutionmargina<strong>le</strong> du marqueur et notamment l’effet marginal de variab<strong>le</strong>s explicatives sur<strong>le</strong> marqueur. Pour pallier cette limite, Fitzmaurice et al. (2001) ont proposé unereparamétrisation du modè<strong>le</strong> pour distinguer la partie margina<strong>le</strong> de l’évolution dumarqueur des différences d’évolution suivant <strong>le</strong>s profils de sortie d’étude. Cela permetd’obtenir directement l’évolution margina<strong>le</strong> sans biais du marqueur comme dans<strong>le</strong> modè<strong>le</strong> de sé<strong>le</strong>ction.Enfin, un problème majeur dans <strong>le</strong>s modè<strong>le</strong>s par mélange de profils observésest qu’il peut exister un nombre important de profils et que pour certains profils,


Etat des connaissances 63l’information sur Y i peut être insuffisante pour estimer <strong>le</strong> modè<strong>le</strong>. Dans ce cas, descontraintes supplémentaires sont nécessaires. Pour pallier ces problèmes, Roy (2003)a proposé un modè<strong>le</strong> dans <strong>le</strong>quel <strong>le</strong> nombre de classes dans <strong>le</strong> mélange est réduit ;<strong>le</strong>s classes ne sont plus observées mais latentes. Au sein de chaque classe latente,la distribution du marqueur est la même et l’appartenance <strong>à</strong> la classe latente estdéterminée en fonction du temps de sortie d’étude. Ce modè<strong>le</strong> peut être vu commeun modè<strong>le</strong> de mélange pour données longitudina<strong>le</strong>s dans <strong>le</strong>quel <strong>le</strong> temps jusqu’<strong>à</strong>l’événement prédit l’appartenance <strong>à</strong> un profil d’évolution. Depuis, Lin et al. (2004)ont proposé une approche par classes latentes pour prendre en compte <strong>le</strong>s donnéesmanquantes intermittentes. Les modè<strong>le</strong>s conjoints <strong>à</strong> classes latentes constituent eneffet une approche intermédiaire entre <strong>le</strong>s modè<strong>le</strong>s par mélange de profils d’observationset <strong>le</strong>s modè<strong>le</strong>s <strong>à</strong> effets aléatoires partagés.


Chapitre 3Modè<strong>le</strong> nonlinéaire <strong>à</strong> processuslatent pour des donnéeslongitudina<strong>le</strong>s multivariéesDans ce chapitre, nous proposons un modè<strong>le</strong> nonlinéaire <strong>à</strong> processus latent pourétudier conjointement plusieurs tests psychométriques quantitatifs non Gaussiens.Le modè<strong>le</strong> statistique, son estimation ainsi qu’une illustration dans l’étude du vieillissementcognitif ont fait l’objet d’un artic<strong>le</strong> publié dans la revue Biometrics etprésenté dans la section suivante. Nous détaillons ensuite deux études de simulationayant pour but d’évaluer <strong>le</strong>s performances du modè<strong>le</strong> et décrivons enfin deux travauxd’application basés sur cette méthodologie. Le premier a consisté <strong>à</strong> évaluer <strong>le</strong>spropriétés métrologiques de quatre tests psychométriques et <strong>le</strong> deuxième a consisté<strong>à</strong> distinguer l’association du sexe et du niveau d’éducation avec <strong>le</strong> déclin cognitifglobal de <strong>le</strong>ur association avec <strong>le</strong>s tests psychométriques. Enfin, nous discutons <strong>le</strong>slimites de l’approche et <strong>le</strong>s améliorations possib<strong>le</strong>s.64


Modè<strong>le</strong> nonlinéaire <strong>à</strong> processus latent 653.1 Artic<strong>le</strong> méthodologiqueRésumé de l’artic<strong>le</strong>La cognition n’est pas une quantité directement observée, el<strong>le</strong> est mesurée parplusieurs tests psychométriques quantitatifs. Ces tests psychométriques ont des distributionsdifférentes, souvent non Gaussiennes, certains tests souffrant en particulierd’un effet plafond ou plancher. Etudier l’évolution cognitive et l’effet de variab<strong>le</strong>sexplicatives en utilisant l’information d’un seul test peut donc aboutir <strong>à</strong> desrésultats différents. Dans cet artic<strong>le</strong>, nous proposons d’étudier l’évolution du facteurcommun <strong>à</strong> plusieurs tests psychométriques, ce facteur commun pouvant êtrevu comme <strong>le</strong> processus cognitif sous-jacent aux tests psychométriques. Le facteurcommun est défini en temps continu et mesuré <strong>à</strong> des temps discrets par <strong>le</strong>s testspsychométriques. Son évolution suit un modè<strong>le</strong> linéaire mixte incluant des variab<strong>le</strong>sexplicatives dépendantes du temps et un mouvement Brownien. Pour prendre encompte <strong>le</strong>s propriétés métrologiques différentes des tests psychométriques, nousconsidérons que chaque test psychométrique est une transformation nonlinéairesoup<strong>le</strong> paramétrée du facteur commun. L’estimation des paramètres du modè<strong>le</strong>contenus <strong>à</strong> la fois dans <strong>le</strong> modè<strong>le</strong> linéaire mixte et dans <strong>le</strong>s transformations nonlinéairesest obtenue en maximisant la vraisemblance observée du modè<strong>le</strong>. Nousproposons deux méthodes graphiques pour évaluer l’adéquation du modè<strong>le</strong> et uneillustration sur un échantillon de la cohorte française PAQUID.


Modè<strong>le</strong> nonlinéaire <strong>à</strong> processus latent 66Biometrics 62, 1014–1024December 2006DOI: 10.1111/j.1541-0420.2006.00573.xA Nonlinear Model with Latent Process for Cognitive EvolutionUsing Multivariate Longitudinal DataCéci<strong>le</strong> Proust, 1,∗ Hélène Jacqmin-Gadda, 1 Jeremy M. G. Taylor, 2 Julien Ganiayre, 1 and DanielCommenges 11 INSERM E0338, Université de Bordeaux 2, 146 rue Léo Saignat, 33076 Bordeaux Cedex, France2 Department of Biostatistics, University of Michigan, 1420 Washington Heights, Ann Arbor, Michigan 48109,U.S.A. ∗ email: Ceci<strong>le</strong>.Proust@isped.u-bordeaux2.frSummary. Cognition is not directly measurab<strong>le</strong>. It is assessed using psychometric tests, which can beviewed as quantitative measures of cognition with error. The aim of this artic<strong>le</strong> is to propose a model todescribe the evolution in continuous time of unobserved cognition in the elderly and assess the impactof covariates directly on it. The latent cognitive process is defined using a linear mixed model includinga Brownian motion and time-dependent covariates. The observed psychometric tests are considered asthe results of parameterized nonlinear transformations of the latent cognitive process at discrete occasions.Estimation of the parameters contained both in the transformations and in the linear mixed model is achievedby maximizing the observed likelihood and graphical methods are performed to assess the goodness of fit ofthe model. The method is applied to data from PAQUID, a French prospective cohort study of ageing.Key words: Cognitive ageing; Mixed model; Multip<strong>le</strong> outcomes; Random effects.1. IntroductionIn cognitive ageing studies, cognition is generally evaluatedthrough a battery of psychometric tests, which are quantitativemeasures of various dimensions of cognition. Describingcognitive evolution and assessing the impact of covariates onthis evolution is an interesting approach to help us understandthe process of cognitive ageing. As the various psychometrictests are highly correlated, multivariate longitudinal analysesof several psychometric tests are often performed usingmultivariate linear mixed models (Hall et al., 2001; Harvey,Beckett, and Mungas, 2003; Sliwinski, Hofer, and Hall, 2003).These models highlight both the differences in the shapes ofevolution for each dimension and the strong correlation betweenthe dimensions.The idea of a latent cognitive process explaining the cognitivedecline in the elderly is hypothesized in neuropsychology.This latent cognitive process can be viewed as a common cognitivefactor across all the psychometric tests (Salthouse et al.,1996; Fabrigou<strong>le</strong> et al., 1998) and is supposed to be a betterpredictor of dementia and cognitive decline. As a consequence,it would be of substantial interest to focus the analysis on thislatent process by describing its evolution and evaluating theimpact of covariates directly on it.In a cross-sectional framework, Sammel and Ryan (1996)proposed a latent variab<strong>le</strong> model in which covariates couldaffect directly the latent variab<strong>le</strong>, and the multip<strong>le</strong> outcomeswere assumed to be measures of the underlying latentvariab<strong>le</strong> with error. In a longitudinal framework, Gray andBrookmeyer (1998) proposed a marginal regression model,with estimation via generalized estimating equations, toassess an overall treatment effect on several continuous and repeatedoutcomes. Roy and Lin (2000) also extended the linearlatent variab<strong>le</strong> model of Sammel and Ryan (1996) to repeatedmultivariate data. In practice, the assumption of a linear relationshipbetween the outcomes and a Gaussian latent variab<strong>le</strong>is frequently too strong, because the psychometric tests oftenhave non-Gaussian distributions due to different metrologicalproperties and different behaviors with ageing (Hall et al.,2001; Amieva et al., 2005). For instance, some tests may bemore sensitive to changes at high <strong>le</strong>vels of cognition than atlow <strong>le</strong>vels of cognition, whi<strong>le</strong> others may have the same sensitivityat high and low <strong>le</strong>vels of cognition. Thus, we proposeto introduce parameterized f<strong>le</strong>xib<strong>le</strong> nonlinear transformationsto link the quantitative tests with the latent process. The latentprocess is defined in continuous time by a linear mixedmodel including a Brownian motion, and nonlinear transformationsof the psychometric tests are noisy measures of thelatent process at discrete occasions, the shapes of the estimatednonlinear transformations giving information on themetrological properties of each test.This extension of mixed models to latent variab<strong>le</strong> modelsis related to structural equation models (SEM), mainlydeveloped in psychometrics, because in both approaches thequantity of interest cannot be measured directly and is evaluatedinstead by a set of outcomes or items (Muthén, 2002;Dunson, 2003; Rabe-Hesketh, Skrondal, and Pick<strong>le</strong>s, 2004).Thus the formulation of the model has two components, ameasurement model which links the latent variab<strong>le</strong>s with theobservations and a structural model which explains the latentvariab<strong>le</strong> structure. In the last decade, there have been1014 C○ 2006, The International Biometric Society


Modè<strong>le</strong> nonlinéaire <strong>à</strong> processus latent 67Nonlinear Model with Latent Process for Cognitive Evolution 1015major improvements in SEM (Sánchez et al., 2005). Theseinclude (i) to hand<strong>le</strong> clustered or repeated data (Longfordand Muthén, 1992; Dunson, 2003; Rabe-Haseketh et al., 2004;Skrondal and Rabe-Hesketh, 2004; Song and Lee, 2004), (ii)to allow mixture of count, ordinal, and dichotomous outcomes(Dunson, 2003; Lee and Song, 2004; Rabe-Haskethet al., 2004), (iii) to relax linearity of the relationship betweenthe latent variab<strong>le</strong>s by using nonlinear structural models(Jöreskog and Yang, 1996; Arminger and Muthén, 1998;Wall and Amemiya, 2000; Lee and Song, 2004; Song and Lee,2004), and (iv) to relax linearity between the continuous responsesand the latent variab<strong>le</strong>s (Yalcin and Amemiya, 2001).Our modeling approach differs in a number of ways. First,we focus on the change over time of a sing<strong>le</strong> common latentprocess, whi<strong>le</strong> the main interest of SEM lies in the relationshipbetween several latent variab<strong>le</strong>s. Moreover, when dealingwith quantitative outcomes, SEM generally assumes aGaussian or a Poisson distribution for the outcomes. Exceptfor threshold models for ordinal data (Dunson, 2003; Lee andSong, 2004; Rabe-Hesketh et al., 2004), when nonlinear transformationslink the latent variab<strong>le</strong>s and the outcomes, theydo not depend on parameters to be estimated. As thresholdmodels are not appropriate for quantitative scores withmany possib<strong>le</strong> values, we estimate the shape of the transformationsby using parameterized nonlinear functions. Finally,our model includes a continuous-time latent process; this givesa description of the evolution of the latent cognitive <strong>le</strong>vel forall times in the range of the observations and furthermore,it can easily hand<strong>le</strong> data where the number and times ofthe observations are different for each subject and for eachoutcome.Nonlinearity in SEM either in the structural model or in therelationship between observed outcomes and latent variab<strong>le</strong>srequires the development of suitab<strong>le</strong> estimation methods. Formodels including products of latent variab<strong>le</strong>s, Jöreskog andYang (1996) proposed a frequentist approach based on themaximization of the likelihood, whi<strong>le</strong> Arminger and Muthén(1998) proposed a Bayesian approach using a Markov chainMonte Carlo (MCMC) algorithm. For models with nonlinearrelationships between the responses and the latent variab<strong>le</strong>s,Yalcin and Amemiya (2001) proposed to compute a quadraticapproximation of the nonlinear transformations, and thenmaximized the approximate likelihood. In contrast, to hand<strong>le</strong>the nonlinear relationships between the responses and thelatent process, we propose to maximize the exact likelihoodof the observed data, which is a product of the likelihood ofthe transformed data (the transformed data are multivariateGaussian in our model) and the Jacobian of the nonlineartransformations.The main characteristics of our methodology can be summarizedas follows:(a) it can be applied to multivariate longitudinal non-Gaussian quantitative outcomes;(b) it can study the evolution of a continuous-time latentprocess representing the common factor across all theoutcomes;(c) it can estimate the shape of the transformations linkingthe quantitative outcomes and the underlying latentprocess;(d) it can hand<strong>le</strong> any type of unbalanced data (number andtime of measurements, covariates, ...) and missing atrandom data;(e) it can estimate impact of covariates on both the latentprocess and the observed outcomes.The next section focuses on the formulation of the modelfor the latent process and the outcomes on the parameterizednonlinear transformations. Section 3 is devoted to maximumlikelihood estimation (MLE). In Section 4 we discuss goodnessof fit and Section 5 focuses on an application of the methodto data from the French prospective cohort study PAQUID(Letenneur et al., 1994).2. Methodology2.1 The Latent Process: Structural ModelConsider the continuous-time latent process Λ i =(Λ i (t)) t≥0representing the common cognitive factor for individual i withi =1,..., N. Λ i is defined at time t, t ∈ R + according to alinear mixed model,Λ i (t) =X 1i (t) T β + Z i (t) T u i + σ w w i (t), t ≥ 0, (1)where X 1i (t) istheq 1 vector of time-dependent covariates associatedwith the vector of fixed effects β. The (p + 1) vectorZ i (t) = (1, t, ..., t p ) T is a time polynomial of degree p (orany vector of functions of time) and the vector of randomeffects at subject <strong>le</strong>vel u i ∼ N(μ, D), where D is an unstructuredpositive definite matrix. The process w i =(w i (t)) t≥0 isa standard Brownian motion; w i (t) models local variation anddeparture from the polynomial trend whi<strong>le</strong> the random effectsaccount for the variability of the trend across the subjects. Noindependent error is added because this latent process is assumedto represent the actual cognition in continuous time.Note that the linearity in β or in the covariates is not crucial.Any function of time could be included in the model, becausethe model is still linear in the random effects, to ensure thenormality of the latent process. Moreover, the Brownian motionalso adds f<strong>le</strong>xibility to the parametric function of time.2.2 The Measurement ModelNow consider K quantitative outcomes. Each outcome couldbe an individual psychometric test, or the sum of scores froman itemized test. For subject i and outcome k, we observe then ik vector of measurements y ik =(y i1k ,...,y ijk ,...,y inik k) T ,where y ijk is the score of subject i at occasion j for test k. Thenumber and times of measurements may be comp<strong>le</strong>tely differentfor each subject and each outcome. In the spirit of latentgrowth curve modeling (Muthén, 2002) and SEM (Yalcin andAmemiya, 2001), we assume that this measurement y ijk is relatedto the latent process at time t ijk through the followingf<strong>le</strong>xib<strong>le</strong> model,g k (y ijk ; η k )=ỹ ijk =Λ i (t ijk )+α ik + X 2i (t ijk ) T γ k + ɛ ijk , (2)where the function g k comes from a family of nonlinear transformationsG depending on the vector of parameters η k , whichwill be estimated; the random effects α ik are independentlydistributed according to an N(0, σ 2 α k) distribution; the vectorsX 2i (t ijk ) and γ k are, respectively, a q 2 vector of timedependentcovariates and the associated vector of contrasts


Modè<strong>le</strong> nonlinéaire <strong>à</strong> processus latent 681016 Biometrics, December 2006for the test k; ɛ ijk are independent Gaussian errors with mean0 and variance σ 2 ɛ k.As in Dunson (2003), the random effect α ik accounts for thefact that for a same value of the latent process, two subjectscan score differently in the cognitive domain associated withpsychometric test k. The contrasts γ k make the relationshipbetween the outcomes and the latent process more f<strong>le</strong>xib<strong>le</strong> byallowing some covariates to be differently associated with thevarious outcomes. The sum of the contrasts over the K testsfor a given covariate equals 0. Thus, parameters β in (1) capturethe mean association with the covariates contained bothin X 1i (t) and X 2i (t), whi<strong>le</strong> parameters γ k in (2) capture thevariability of the association for each test around this meanvalue.2.3 The Choice of the Family of Functions GFor all the outcomes, the transformations g k (y; η k ) come fromthe same family of functions G. The choice of the family is akey aspect of the model; it determines the f<strong>le</strong>xibility of thelink between the joint outcomes with various behaviors andthe underlying latent process. The transformations must bemonotonic and increasing functions of y and depend on fewparameters to make the estimation of the model easier. So,the choice of the family G is a compromise between f<strong>le</strong>xibilityand parsimony.The first transformation considered here is the beta cumulativedistribution function (CDF), which can take very differentshapes, including concave, convex, and sigmoid, accordingto the parameters, as illustrated in Figure 1. It is defined fory ∈ [0, 1], η 1k > 0, and η 2k > 0byg k (y; η 1k ,η 2k )=∫ y0x η 1k−1 (1 − x) η 2k−1B(η 1k ,η 2k )dx. (3)As the beta CDF is defined in [0, 1], for each psychometrictest, a preliminary step consists of rescaling the tests to theunit interval.The main drawback of this transformation is its computationalcomp<strong>le</strong>xity. As a consequence, simp<strong>le</strong>r transformationshave also been considered to compare the fits of the models:the linear transformation, the logit transformation combinedwith a linear transformation, and the Weibull cumulative distributionfunction (details in the Appendix). When using alinear transformation, the model is a multivariate linear mixedmodel similar to Roy and Lin (2000) or Rabe-Hesketh et al.(2004), with an additional Brownian motion term. In thatcase, constraints have to be added to make the model identifiab<strong>le</strong>:we assume the intercept μ 0 equals 0 and the variance ofthe random intercept u 0i equals 1. In contrast, when using aCDF, the requirement that g k (y) is in [0, 1] avoids additionalconstraints on the latent process.3. EstimationParameter estimation is achieved using maximum likelihoodtechniques assuming that missing data are missing atrandom. A nonstandard aspect of the model is the presenceof parameters both in the nonlinear transformationg k of the outcome and in the model for the transformedresponse ỹ i =(ỹ i11 ,...,ỹ ini1 1,...,ỹ ijk ,...,ỹ i1K ,...,ỹ iniK K) T ,where ỹ ijk = g k (y ijk ). The log likelihood of interest is the loglikelihood of the outcomes in their natural sca<strong>le</strong>, and thusincludes the Jacobian of the transformations g k . It is given byL(y; θ) =L(ỹ; θ) + ln(J(y; θ))N∑N∑= L(ỹ i ; θ)+ ln(J(y i ; θ)), (4)i=1i=110.8Beta(0.5;2)Beta(3;3)0.6beta(x)0.4Beta(2;0.7)Beta(0.6;0.5)0.200 0.2 0.4 0.6 0.8 1xFigure 1.Examp<strong>le</strong>s of beta transformations for various pairs of parameter values.


Modè<strong>le</strong> nonlinéaire <strong>à</strong> processus latent 69Nonlinear Model with Latent Process for Cognitive Evolution 1017where θ is the comp<strong>le</strong>te vector of parameters containing thetransformation parameters η ′ k =(η 1k,η 2k ),k =1,...,K, thefixed parameters μ, β, γ 1 ,...,γ K , and the variance–covarianceparameters vec(D),σ w ,σ α1 ,...,σ αK ,σ e1 ,...,σ eK . J(y; θ) isthe Jacobian of the transformation given the data and thevector of parameters θ. For the beta transformation, theJacobian is defined byJ(y i ; θ) =n K∏ ∏ ikk=1 j=1y η 1k−1ijk(1 − y ijk ) η 2k−1. (5)B(η 1k ,η 2k )Formulae of the Jacobian for the other potential transformationsare given in the Appendix.L(ỹ i ; θ) is the log likelihood of the transformed data for subjecti. Let Zi k =(Z(t i1k),...,Z(t inik k)) T be the n ik × (p +1)matrix of time polynomials for subject i and test k;X1i k =(X 1i(t i1k ),...,X 1i (t inik k)) T and X2i k =(X 2i(t i1k ),...,X 2i (t inik k)) T are, respectively, the n ik × q 1 matrix of timedependentcovariates for the latent process and n ik × q 2 matrixof time-dependent covariates for the psychometric tests.Let I n be the identity matrix of size n, and J n , the matrix ofsize n where all the e<strong>le</strong>ments equal 1. Then, the density of ỹ iis a multivariate Gaussian density of size n i = ∑ Kn k=1 ik withmean E i =(E T i1 , ..., E iK T )T and covariance matrix V i given byE ik = Zi k μ + X1iβ k + X2iγ k k (6)V i =⎛⎜⎝Z 1 i. .Z K i⎞⎟⎠ D ( Z 1Ti⎛⎞Σ 1 0 0)··· ZiKT ⎜ . + Vw + ⎝ 0 .. ⎟ 0 ⎠ ,0 0 Σ Kwith Σ k = σ 2 α kJ nik + σ 2 ɛ kI nik (7)and V w the covariance matrix for the Brownian process withargument σ 2 w(min(t l , t m )) for (l, m) ∈ [1, n i ] 2 . The contributionof subject i to the log likelihood of the transformed dataL(ỹ i ; θ) is the logarithm of this multivariate density taken atthe observation values. The log likelihood (4) has a closedform (except for the computation of the beta CDFs for whichstandard routines are availab<strong>le</strong>) and is maximized using amodified Marquardt algorithm (Marquardt, 1963), which is aNewton–Raphson-like algorithm. The vector of parameters θis updated until convergence usingθ (l+1) = θ (l) − δ ( ˜H(l) ) −1∇( L( y; θ(l) )) . (8)The step δ equals 1 by default but can be modified to ensurethat the likelihood is improved at each iteration. The matrix˜H is a diagonal-inflated Hessian to ensure positive definiteness.∇(L(y; θ (l) )) is the gradient of the log likelihood (4) atiteration l. First and second derivatives are computed by finitedifferences. The program is written in Fortran90 and is availab<strong>le</strong>on the web site http://www.isped.u-bordeaux2.fr.This algorithm is <strong>le</strong>ss computationally demanding than alternativeMonte Carlo approaches such as in Arminger andMuthén (1998), who proposed a Bayesian approach for latentvariab<strong>le</strong> models with nonlinear relationships between the latentvariab<strong>le</strong>s. Neverthe<strong>le</strong>ss, it is computationally intensiveand, for examp<strong>le</strong>, with a samp<strong>le</strong> of 563 subjects (8227 observations)and a model with 36 parameters (the final model inthe application), the CPU time is around 15 minutes using aBi-Xeon 3.06 GHz 1024 MB RAM.Moreover, after convergence, standard error estimates ofthe parameter estimates are directly obtained using the inverseof the Hessian. A bootstrap method using 200 resamp<strong>le</strong>sof the N subjects is also performed for obtaining standard errorsof g k (y, ˆη k ), where y is in the range of the psychometrictest k.4. Assessment of the FitAn unsolved question in mixed modeling is the assessment ofthe goodness of fit. In this work, we propose two approachesto evaluate the adequacy of the model, a residual-based approachand a prediction-based approach. The residual-basedapproach consists of evaluating the Gaussian distribution ofthe standardized marginal residuals ˆɛ i given byˆɛ i = U i (ỹ i − Êi), (9)where U i is the upper triangular matrix of the Cho<strong>le</strong>sky transformationof V −1iand Êi = E ˆθ(ỹ i ) is obtained by replacing theparameters by their MLE in (6). A normal quanti<strong>le</strong> plot withthe 95% confidence bands computed using the Kendall andStuart formula (Kendall and Stuart, 1977, p. 251) is then displayedto evaluate whether the empirical distribution of thestandardized residuals ˆɛ ijk is close to the theoretical N(0, 1)distribution.To evaluate the fit of the data on the natural sca<strong>le</strong> ofthe tests, we plot the observed mean evolution of each testversus the estimated marginal mean evolution or the conditionalmean evolution, which includes random effects es-−1timates. The marginal estimated means E ˆθ(g k(ỹ ijk )) and the−1conditional estimated means E ˆθ(g k(ỹ ijk ) | û i , ˆα ik , ŵ i ) are computedby numerical integration of g −1k(ỹ ik ) over the marginaldistribution of ỹ ik ,N(E ik (ˆθ); V i (ˆθ)), or over the conditionaldistribution N(E ik (ˆθ)+Ŵik ;ˆσ k I nik ). Here the marginal expectationand variance of ỹ ik is given by (6) and (7) andŴ ijk = Z i (t ijk ) T û i +ŵ i (t ijk )+ˆα ik is the empirical Bayes estimateof the subject-specific deviation from the model.5. Application: Cognitive Evolution in the Elderly5.1 The DataThe aim of this analysis is to describe the decline with age ofthe global cognitive ability measured by several psychometrictests and to evaluate the association of covariates, especiallyApolipoprotein E (apoE) genotype, with the latent cognitiveprocess. Indeed, the presence of one or two ɛ4 al<strong>le</strong><strong>le</strong>s of apoEis associated with a higher risk of Alzheimer’s disease (Farreret al., 1997) but it is not well established whether the ɛ4 al<strong>le</strong><strong>le</strong>is more generally associated with cognitive ageing (Winnocket al., 2002).The data came from the French prospective cohort studyPAQUID, initiated in 1988 to study normal and pathologicalageing (Letenneur et al., 1994). Subjects included in thecohort were 65 years and older at the initial visit and werefollowed six times with intervals of 2 or 3 years. At each visit,a battery of psychometric tests was comp<strong>le</strong>ted and an evaluationof whether the person satisfied the criteria for a diagnosisof dementia was carried out. Measurements at the initialvisit were excluded because of a first passing effect (Jacqmin-Gadda et al., 1997). In the analysis, we included subjects who


Modè<strong>le</strong> nonlinéaire <strong>à</strong> processus latent 701018 Biometrics, December 2006were free of dementia at the first follow-up and with at <strong>le</strong>astone measurement for each of four (K = 4) psychometric testsduring the follow-up.The four tests considered are the Mini Mental State Examination(k = 1), the Isaacs Set Test (k = 2), the BentonVisual Retention Test (k = 3), and the Digit Symbol SubstitutionTest of Wechs<strong>le</strong>r (k = 4). The Mini Mental StateExamination (MMSE) evaluates various dimensions of cognition(memory, calculation, orientation in time and space,language, and word registration); it ranges from 0 to 30 andthe distribution is strongly skewed to <strong>le</strong>ft with a ceiling effect.The Isaacs Set Test (IST) shortened at 15 seconds evaluatesverbal fluency accounting for the speed of execution: subjectshave to give a list of words (with a maximum of 10 words)in four semantic categories. It ranges from 0 to 40 and thedistribution is close to a Gaussian distribution with a litt<strong>le</strong>heavier <strong>le</strong>ft tail. The Benton Visual Retention Test (BVRT)evaluates visual memory: subjects have to recognize 15 geometricfigures among four proposals. It ranges from 0 to 15and the distribution is skewed to <strong>le</strong>ft but the ceiling effect is<strong>le</strong>ss strong than for the MMSE. The Digit Symbol SubstitutionTest of Wechs<strong>le</strong>r (DSSTW) evaluates attention: given atab<strong>le</strong> of correspondence between symbols and numbers, subjectshave to translate a sequence of 90 numbers into the rightsequence of symbols. In the samp<strong>le</strong>, it ranges from 0 to 76and the distribution is approximately Gaussian. For the fourtests, low values indicate a more severe impairment. In theanalysis, resca<strong>le</strong>d scores computed as the value of the testplus 0.5 divided by 1 plus the range of the observed valuesproduced values in the open interval (0, 1) and were consideredas continuous. For the DSSTW, the observed range was76 whi<strong>le</strong> the maximum possib<strong>le</strong> value was 90. An additionalanalysis performed using 90 instead of 76 for rescaling <strong>le</strong>d tonearly identical results. More generally, we think it is betterto use the observed range for rescaling to avoid interpretingthe relationship between the score and the latent process onan unobserved range of values.The apoE genotype was col<strong>le</strong>cted on a subsamp<strong>le</strong> of thePAQUID cohort, so the samp<strong>le</strong> used in the analysis consistedof 563 subjects having between 1 and 6 measurements per test(median = 4). The covariates included in the analysis weregender, educational <strong>le</strong>vel (graduated from primary school vs.lower <strong>le</strong>vel), and the apoE genotype (ɛ4 carrier vs. ɛ4 noncarrier).The time sca<strong>le</strong> was the age minus 65 years per 10 years(t =age − 6510).5.2 Comparison of the Fit for the Various Familiesof TransformationsWe first assumed that the latent cognition was a quadraticfunction of time without covariates in expression (1) and withoutany contrast in expression (2). Using this model, we comparedthe fit for the beta CDF, the linear transformation, thecombination of a linear transformation and the logit transformation,and the Weibull CDF. According to the Akaikeinformation criterion (AIC) (see Tab<strong>le</strong> 1), the beta transformationgave a markedly better fit.5.3 Estimations of the Model with the Beta TransformationUsing the beta transformation, the best fitting model includeda quadratic function of time with three random coefficientsand the three covariates (educational <strong>le</strong>vel, gender, and apoETab<strong>le</strong> 1Fit of the data for various transformations in the modelwithout covariates and a quadratic function of timeNumber of LogFamily of transformation parameters likelihood AICLinear transformation 20 −21584.1 43208.2Beta CDF 22 −20387.1 40818.2Logit + 20 −20876.4 41792.8linear transformationWeibull CDF 22 −20654.7 41353.4genotype) in the model for the latent process. As it was suspectedthat ability in visual memory, verbal fluency, and attentioncould be differently associated with gender and educational<strong>le</strong>vel, we also included contrasts between tests for thesecovariates. Interactions between apoE genotype and time variab<strong>le</strong>swere also included in the latent process. Interactionsbetween gender and time and between educational <strong>le</strong>vel andtime were not found to be significant and did not confound theassociation between apoE and cognitive evolution. Thus theywere excluded from the final model. Estimates of the fixedeffect parameters in the final model are presented in Tab<strong>le</strong> 2.Tab<strong>le</strong> 2Estimates of the fixed effect parameters in the best model withthe beta transformation (log likelihood = −19715.55; numberof parameters = 36; AIC = 39503.1)Parameter Estimate SEIntercept: μ 0 0.538 0.013Linear slope: μ 1 −0.0044 0.0098Quadratic slope: μ 2 −0.0291 0.0040Gender a −0.0062 0.0071Education b 0.111 0.0088apoE c 0.0070 0.0096apoE c × t 2 −0.0103 0.0033Contrasts on gender a (p = 0.027 d )On MMSE (k =1) −0.0095 0.0052On IST (k =2) −0.0052 0.0062On BVRT (k = 3) 0.0148 0.0052On DSSTW (k =4) −0.0001 0.0047Contrasts on education b (p = 0.136 d )On MMSE (k =1) −0.0117 0.0061On IST (k = 2) 0.0108 0.0070On BVRT (k =3) −0.0044 0.0062On DSSTW (k = 4) 0.0053 0.0058η 11 (MMSE) 1.409 0.097η 21 (MMSE) 0.401 0.018η 12 (IST) 0.952 0.064η 22 (IST) 0.697 0.041η 13 (BVRT) 0.887 0.062η 23 (BVRT) 0.569 0.032η 14 (DSSTW) 0.477 0.027η 24 (DSSTW) 0.838 0.057a Reference: fema<strong>le</strong>.b Reference: not graduated from primary school.c Reference: ɛ4 noncarrier.d Likelihood ratio test for the contrast variab<strong>le</strong>s (X 2 with 3 degreesof freedom).


Modè<strong>le</strong> nonlinéaire <strong>à</strong> processus latent 71Nonlinear Model with Latent Process for Cognitive Evolution 1019The test-specific random effects α ik dramatically improvedthe fit (574 increase of the log likelihood for four additionalparameters), which means that for a same value of latentcognition, subjects score differently in cognitive domains associatedwith the psychometric tests. Accounting for the withinsubjectvariability with a Brownian motion was also re<strong>le</strong>vantsince it increased the log likelihood of 13.8.Gender was not significantly associated with the mean commonfactor <strong>le</strong>vel, whi<strong>le</strong> subjects who graduated from primaryschool had a significantly better mean common factor <strong>le</strong>vel.Inclusion of contrasts between tests for gender improved significantlythe fit of the model, showing that gender doesnot have the same impact on each psychometric test: mentend to perform better on the BVRT than women, whi<strong>le</strong> thetrend is reversed for the other tests. Contrasts between testsfor educational <strong>le</strong>vel are not significant, which suggests thatthe effect of educational <strong>le</strong>vel does not differ from test totest.The apoE genotype was only included in the latent processevolution (equation (1)) because the hypothesis to evaluatewas an association between the ɛ4 al<strong>le</strong><strong>le</strong> and the decline oflatent cognitive performance. We had no hypothesis regard-ing a link with a specific psychometric measure. We found noassociation between the ɛ4 al<strong>le</strong><strong>le</strong> and the mean <strong>le</strong>vel of thecommon factor at age 65 years but found a strong association(p = 0.0018) with the change over time of the common factor:ɛ4 carriers have a steeper decline than ɛ4 noncarriers asshown in Figure 4a. The model including both the interactionsapoE × t and apoE × t 2 had exactly the same likelihood asthe model including only apoE × t 2 . Thus we retained thelatter.Figure 2 displays the estimated beta transformations forthe four tests with the 95% pointwise confidence interval computedusing a bootstrap method. The four estimated transformationsare very different: the curve is convex for the MMSEand the BVRT, concave for the DSSTW, and close to linearfor the IST. Moreover, the BVRT and the MMSE scorescover, respectively, only 80% and 88% of the latent processrange whi<strong>le</strong> the DSSTW covers around 95% and the IST coversalmost the entire range.These results suggest that the MMSE and the BVRT arenot appropriate to identify small changes in cognition amongsubjects with a high cognitive <strong>le</strong>vel, because the maximumscores of these tests are reached for a value of the latent110.80.8g(MMSE)0.60.4g(IST)0.60.40.20.200 5 10 15 20 25 30MMSE100 5 10 15 20 25 30 35 40IST10.80.8g(BVRT)0.60.4g(DSSTW)0.60.40.20.200 2 4 6 8 10 12 14BVRT00 10 20 30 40 50 60 70DSSTWFigure 2. Estimated beta transformation for each test (solid line) and the 95% pointwise confidence interval (dashed line,obtained by bootstrap).


Modè<strong>le</strong> nonlinéaire <strong>à</strong> processus latent 721020 Biometrics, December 2006process lower than its maximum. These estimated curveshighlight the ceiling effect of the two tests. More generally,the nonlinear shape of the MMSE reveals that a decline inthe MMSE should be interpreted by taking the initial <strong>le</strong>velinto account: one point lost from a score above 25 representsa more substantial decrease of cognition (about 0.06) thanone point lost from a score under 15 (about 0.01). For theDSSTW, the curve is close to linearity above a score of 10but one point lost under a score of 10 represents a more substantialdecrease of the latent cognition. Subjects with a latentcognition lower than 0.1 tend to score 0 on the DSSTW, probablybecause they do not even understand the instructions. Incontrast, the IST appears to be useful to evaluate cognition ina heterogeneous population including high-<strong>le</strong>vel and impairedsubjects, because it is close to linearity on almost the entirerange of the latent cognition.5.4 Assessment of the FitFigure 3 contains the normal quanti<strong>le</strong> plots of the standardizedmarginal residuals defined in (9) for each of the four psychometrictests. The normality assumption of the residualsseems to be well satisfied for each of the four psychometrictests. In contrast, when using a linear transformation, normalquanti<strong>le</strong> plots showed a poor agreement with the normalassumption (results not displayed).Figure 4b shows for each of the four tests the estimatedmarginal and conditional mean evolutions with age comparedwith the observed mean evolution and its 95% confidence limits;the samp<strong>le</strong> size used to compute each mean is also given.The conditional estimated means, which include random effectestimates, are very close to the observed means for everytest, showing a good fit of the model. However, the margina<strong>le</strong>stimated means, which include only fixed effects, are outsidethe 95% confidence interval of the observed means for the ISTand BVRT at older ages and for the DSSTW in most cases.These differences may be explained by the rate of missingdata, which is very low for the MMSE, higher for the ISTand BVRT particularly among the oldest participants, andmuch higher for the DSSTW at all ages. Indeed, during theinterview, the tests were always comp<strong>le</strong>ted in the same order(MMSE, BVRT, IST, DSSTW) and recommendations weregiven to the interviewers to avoid missing data for the MMSE,because it is used for the screening of dementia. Hence almostall subjects comp<strong>le</strong>ted the MMSE but subjects with a poor6MMSE6IST442200-2-2-4-4-6-4 -3 -2 -1 0 1 2 3 4-6-4 -3 -2 -1 0 1 2 3 46BVRT6DSSTW442200-2-2-4-4-6-4 -3 -2 -1 0 1 2 3 4-6-4 -3 -2 -1 0 1 2 3 4Figure 3. Normal quanti<strong>le</strong> plot of the standardized marginal residuals for each test (solid lines = “y = x” reference lineand 95% confidence interval).


Modè<strong>le</strong> nonlinéaire <strong>à</strong> processus latent 73Nonlinear Model with Latent Process for Cognitive Evolution 10210.60.5(a)ε4 non carrierε4 carrierlatent process0.40.30.20.13028065 70 75 80 85 90 95age in years(b)3432263028MMSE2422IST2624222020N=252 N=546 N=692 N=546 N=299 N=99 1818N=249 N=540 N=673 N=521 N=273 N=8065 70 75 80 85 90 9565 70 75 80 85 90 95age in yearsage in years134012351130BVRT10DSSTW2592087N=252 N=542 N=670 N=497 N=254 N=5765 70 75 80 85 90 95age in years15N=179 N=360 N=518 N=379 N=183 N=3465 70 75 80 85 90 95age in yearsFigure 4. (a) Predicted mean evolution for the latent process for ɛ4 carriers and for ɛ4 noncarriers. (b) Estimated andobserved mean evolutions for each test with the number of subjects used for the computation of each observed mean (solidline with crosses = observed mean evolution; solid line with dots = estimated marginal mean evolution; dashed line with dots =estimated subject-specific mean evolution; dashed line = 95% confidence interval of the observed mean).cognitive <strong>le</strong>vel tended to refuse the other tests and particularlythe DSSTW, which is more difficult. Missing data arethus associated with random effects. For instance, the meanof subject-specific deviations Ŵijk is −0.0037 for subjects aged90 or more who comp<strong>le</strong>ted the MMSE (N = 99), and 0.028,0.042, and 0.056, respectively, for those who comp<strong>le</strong>ted theIST (N = 80), BVRT (N = 57), and DSSTW (N = 34). Theimpact of missing data on conditional and marginal estimates


Modè<strong>le</strong> nonlinéaire <strong>à</strong> processus latent 741022 Biometrics, December 2006has previously been discussed by Mo<strong>le</strong>nberghs and Verbeke(2001).5.5 Multivariate Model versus Univariate ModelsFor each test, the univariate model detected an associationbetween apoE genotype and cognition with a larger p-value(p-value from the likelihood ratio test for apoE × t 2 parameter:p = 0.0043 for MMSE, p = 0.018 for IST, p = 0.020for BVRT, p = 0.054 for the DSSTW) than for the multivariatemodel (p = 0.0018). By using a multivariate modelcompared to four univariate models, we had a gain of powerin assessing the association between apoE genotype and cognition.Moreover, note that interpretation of the associationwith the latent process and with each psychometric test isdifferent.The gain in efficiency can also be evaluated by comparingthe AIC from the multivariate model and the AIC computedby pooling the likelihoods from the four univariate modelswith the total number of parameters in these four models.In our case, even if we added in the multivariate model theconstraint that apoE had a common effect on the four tests,the AIC from the multivariate model was markedly better(39503.1 vs. 40203.8 for the four univariate models).6. DiscussionWe proposed a nonlinear model for multivariate longitudinalnon-Gaussian quantitative outcomes when the outcomes areindirect measures of a common underlying continuous-timeprocess. Such data are very frequent in psychometrics, but themethodology has many other potential areas of application,as, for instance, the study of the course of chronic illnessesevaluated by several biological markers.In this work, psychometric tests are analyzed by consideringtheir sum scores as quantitative variab<strong>le</strong>s. This is themost frequent way to consider psychometric tests in gerontology:the summary scores are used to evaluate cognitive<strong>le</strong>vel and risk of dementia (Hall et al., 2001; Sliwinski etal., 2003; Amieva et al., 2005). From a neuropsychologicalperspective, the alternative approach, which consists of analyzingitem responses using SEM or item response model(Skrondal and Rabe-Hesketh, 2004, Chapter 3), could be usefulif the objective was to understand the underlying componentsof the tests. This methodology is interesting when thetests consist of a limited number of items evaluating differentcognitive domains (such as the MMSE) or exhibiting different<strong>le</strong>vels of difficulty (such as the BVRT). On the contrary,this methodology would be difficult to apply to the IST score,which is the number of words cited by the subjects (exceptfor considering the four subscores for each semantic category)and the DSSTW score, which is the count of symbols correctlyassigned to a sequence of numbers.Given that the summary scores are quantitative discretevariab<strong>le</strong>s, we could either consider them as continuous variab<strong>le</strong>sor as ordinal variab<strong>le</strong>s. However, threshold models forordinal data require estimation of one threshold for each possib<strong>le</strong>value of the scores, which would be very chal<strong>le</strong>nging formultivariate modeling of scores with so many different values.In our application including four tests, this would haveimplied estimation of more than 150 additional parameters.Thus, we decided to analyze the scores as continuous variab<strong>le</strong>sand to use nonlinear transformations depending on a limitednumber of parameters as link functions between the Gaussianlatent process and the observed outcomes. Various linkfunctions have been considered, but we found that the betaCDF was f<strong>le</strong>xib<strong>le</strong> enough with only two parameters. Withmany fewer parameters than threshold models, the estimatedcurves provide interesting information on the relationship betweenevolution of the latent cognitive <strong>le</strong>vel and evolution ofthe observed scores. Moreover, goodness-of-fit analyses showthat the beta transforms of the four test scores fitted wella Gaussian distribution. Neverthe<strong>le</strong>ss, if necessary for otherapplications, it would be easy to include a different familyof continuous transformation for each test. This model couldalso be extended to allow a mixture of continuous, binary, andordinal outcomes with few categories as in Dunson (2000),Dunson (2003), or Rabe-Hesketh et al. (2004).Another asset of this model is the way of accounting forcovariate effects. Using fixed contrasts, we were ab<strong>le</strong> to distinguishbetween the association with the latent process and thedifferential association with the various psychometric tests.Being ab<strong>le</strong> to compare covariate effects over the tests is alsoan advantage of multivariate modeling. With a large numberof tests it may also be possib<strong>le</strong> and advantageous to have theeffects of the covariates on the tests be random rather thanfixed.We assumed the data to be missing at random and thusignorab<strong>le</strong> using a maximum likelihood approach. Even if wehave shown that missing data were associated with randomeffects, this does not preclude missing data from being ignorab<strong>le</strong>.Indeed, if missing data at the last three tests depend onthe observed MMSE score or on the observed evolution of theMMSE, it induces a dependency on the random effects, butthe missing data are ignorab<strong>le</strong> because missing values maybe predicted using observed data. This is an advantage ofmultivariate modeling, in that by using more observed informationit is more robust to missing data. Neverthe<strong>le</strong>ss, as itis not excluded that missing data are informative, it could beuseful to jointly model time to dropout using a shared randomeffect model as in Roy and Lin (2002). However, thiswould increase comp<strong>le</strong>xity of the estimation process and estimateswould depend on uncheckab<strong>le</strong> parametric assumptions.Another useful extension would be to jointly model dementia,defining dementia diagnosis as the time at which the latentprocess first reaches an estimated threshold (Hashemi,Jacqmin-Gadda, and Commenges, 2003).Acknow<strong>le</strong>dgementsThe authors thank Jean-François Dartigues, Luc Letenneur,and the PAQUID research team for providing the data.ReferencesAmieva, H., Jacqmin-Gadda, H., Orgogozo, J., LeCarret,N., Helmer, C., Letenneur, L., Barberger-Gateau, P.,Fabrigou<strong>le</strong>, C., and Dartigues, J. (2005). The 9 year cognitivedecline before dementia of the Alzheimer type: Aprospective population-based study. Brain 128, 1093–1101.Arminger, G. and Muthén, B. (1998). A Bayesian approach tononlinear latent variab<strong>le</strong> models using the Gibbs samp<strong>le</strong>r


Modè<strong>le</strong> nonlinéaire <strong>à</strong> processus latent 75Nonlinear Model with Latent Process for Cognitive Evolution 1023and the Metropolis-Hastings algorithm. Psychometrika63, 271–300.Dunson, D. (2000). Bayesian latent variab<strong>le</strong> models for clusteredmixed outcomes. Journal of the Royal StatisticalSociety, Series B 62, 355–366.Dunson, D. (2003). Dynamic latent trait models for multidimensionallongitudinal data. Journal of the AmericanStatistical Association 98, 555–563.Fabrigou<strong>le</strong>, C., Rouch, I., Taberly, A., Letenneur, L.,Commenges, D., Mazaux, J.-M., Orgogozo, J.-M., andDartigues, J.-F. (1998). Cognitive process in preclinicalphase of dementia. Brain 121, 135–141.Farrer, L., Cupp<strong>le</strong>s, L., Haines, J., Hyman, B., Kukull, W.,Mayeux, R., Myers, R., Pericak-Vance, M., Risch, N.,and Van Duijn, C. (1997). Effects of age, sex and ethnicityon the association between apolipoprotein E genotypeand Alzheimer disease. A meta-analysis. APOE andAlzheimer Disease Meta Analysis Consortium. Journal ofthe American Medical Association 278, 1349–1356.Gray, S. M. and Brookmeyer, R. (1998). Estimating a treatmenteffect from multidimensional longitudinal data.Biometrics 54, 976–988.Hall, C., Ying, J., Kuo, L., Sliwinski, M., Buschke, H., Katz,M., and Lipton, R. (2001). Estimation of bivariate measurementshaving different change points, with applicationto cognitive ageing. Statistics in Medicine 20, 3695–3714.Harvey, D., Beckett, L., and Mungas, D. (2003). Multivariatemodeling of two associated cognitive outcomes in a longitudinalstudy. Journal of Alzheimer’s Disease 5, 357–365.Hashemi, R., Jacqmin-Gadda, H., and Commenges, D. (2003).A latent process model for joint modeling of events andmarker. Lifetime Data Analysis 9, 331–343.Jacqmin-Gadda, H., Fabrigou<strong>le</strong>, C., Commenges, D., andDartigues, J.-F. (1997). A 5-year longitudinal study ofthe Mini Mental State Examination in normal aging.American Journal of Epidemiology 145, 498–506.Jöreskog, K. and Yang, F. (1996). Nonlinear structural equationmodels: The Kenny-Judd model with interaction effects.In Advanced Structural Equation Modeling: Issuesand Techniques, G. A. Marcoulides and R. E. Schumacker(eds), 57–88. Mahwah, New Jersey: Lawrence ErlbaumAssociates.Kendall, M. and Stuart, A. (1977). The Advanced Theory ofStatistics, Volume 1. New York: MacMillan Publishing.Lee, S. and Song, X. (2004). Bayesian model comparison ofnonlinear structural equation models with missing continuousand ordinal categorical data. British Journal ofMathematical and Statistical Psychology 57, 131–150.Letenneur, L., Commenges, D., Dartigues, J.-F., andBarberger-Gateau, P. (1994). Incidence of dementia andAlzheimer’s disease in the elderly community residents ofsouth-western France. International Journal of Epidemiology23, 577–590.Longford, N. and Muthén, B. (1992). Factor analysis for clusteredobservations. Psychometrika 57, 581–597.Marquardt, D. (1963). An algorithm for <strong>le</strong>ast-squares estimationof nonlinear parameters. SIAM Journal on AppliedMathematics 11, 431–441.Mo<strong>le</strong>nberghs, G. and Verbeke, G. (2001). A review on linearmixed models for longitudinal data, possibly subject todropout. Statistical Modelling 1, 235–269.Muthén, B. (2002). Beyond SEM: General latent variab<strong>le</strong>modeling. Behaviormetrika 29, 81–117.Rabe-Hesketh, S., Skrondal, A., and Pick<strong>le</strong>s, A. (2004). Generalizedmulti<strong>le</strong>vel structural equation modelling. Psychometrika69, 167–190.Roy, J. and Lin, X. (2000). Latent variab<strong>le</strong> models for longitudinaldata with multip<strong>le</strong> continuous outcomes. Biometrics56, 1047–1054.Roy, J. and Lin, X. (2002). Analysis of multivariate longitudinaloutcomes with nonignorab<strong>le</strong> dropouts and missingcovariates: Changes in methadone treatment practices.Journal of the American Statistical Association 97, 40–52.Salthouse, T., Hancock, H., Meinz, E., and Hambrick, D.(1996). Interrelations of age, visual acuity, and cognitivefunctioning. Journal of Gerontology: PsychologicalSciences 51B, 317–330.Sammel, M. and Ryan, L. (1996). Latent variab<strong>le</strong> models withfixed effects. Biometrics 52, 650–663.Sánchez, B. N., Budtz-Jorgensen, E., Ryan, L. M., and Hu,H. (2005). Structural equation models: A review withapplications to environmental epidemiology. Journal ofthe American Statistical Association 100, 1443–1455.Skrondal, A. and Rabe-Hesketh, S. (2004). Generalized LatentVariab<strong>le</strong> Modelling: Multi<strong>le</strong>vel, Longitudinal and StructuralEquation Models. Boca Raton, Florida: Chapman& Hall/CRC.Sliwinski, M., Hofer, S., and Hall, C. (2003). Correlated andcoup<strong>le</strong>d cognitive change in older adults with or withoutpreclinical dementia. Psychology and Aging 18, 672–683.Song, X. and Lee, S. (2004). Bayesian analysis of two-<strong>le</strong>velnonlinear structural equation models with continuousand polytomous data. British Journal of Mathematicaland Statistical Psychology 57, 29–52.Wall, M. and Amemiya, Y. (2000). Estimation for polynomialstructural equation models. Journal of the American StatisticalAssociation 95, 929–940.Winnock, M., Letenneur, L., Jacqmin-Gadda, H.,Dallongevil<strong>le</strong>, J., Amouyel, P., and Dartigues, J.(2002). Longitudinal analysis of the effect of apolipoproteinE ɛ4 and education on cognitive performancein elderly subjects: The PAQUID study. Journal ofNeurology, Neurosurgery and Psychiatry 72, 794–797.Yalcin, I. and Amemiya, Y. (2001). Nonlinear factor analysisas a statistical method. Statistical Science 16, 275–294.Received January 2005. Revised December 2005.Accepted January 2006.AppendixDetails on the TransformationsFor subject i and test k, we give the expressions of the functionand its Jacobian for the linear transformation, the combinationof a linear and a logit transformation, and the WeibullCDF.The linear transformation is defined for y ∈ R,η 1k ∈ R, andη 2k ∈ R ∗ as


Modè<strong>le</strong> nonlinéaire <strong>à</strong> processus latent 761024 Biometrics, December 2006g k (y; η 1k ,η 2k )= y − η 1kη 2kJ(y i ; θ) =K∏k=11η 2k.The combination of a linear and a logit transformation is definedfor y ∈ (0, 1), η 1k ∈ (0, 1), and η 2k ∈ (0, 1) as( ) ( )yη1kln − ln1 − y 1 − η 1kg k (y; η 1k ,η 2k )= ( )η2kln1 − η 2kJ(y i ; θ) =n K∏ ∏ ikk=1 j=1ln1).y ijk (1 − y ijk )1 − η 2k(η2kThe Weibull CDF is defined for y ∈ (0, ∞), η 1k ∈ (0, ∞), andη 2k ∈ (0, ∞) as( ( ) η2k ) yg(y; η 1k ,η 2k )=1− exp −η 1kJ(y i ; θ) =n K∏ ∏ ik( ( )η 2k y η η2k )2k−1 yexp −.η 1kk=1 j=1η η 2k1k


Modè<strong>le</strong> nonlinéaire <strong>à</strong> processus latent 773.2 Etudes de simulationDans cet artic<strong>le</strong>, nous n’avons pas présenté d’étude de simulation pour évaluer<strong>le</strong>s performances du modè<strong>le</strong>. L’adéquation du modè<strong>le</strong> aux données a été vérifiée pardeux méthodes graphiques : l’évaluation de la distribution des résidus suivant uneloi norma<strong>le</strong> et la comparaison des évolutions prédite et observée pour chaque test.Ces deux méthodes ont mis en évidence une très bonne adéquation du modè<strong>le</strong> auxdonnées. Néanmoins, <strong>le</strong> modè<strong>le</strong> proposé étant paramétrique et assez comp<strong>le</strong>xe, nousdédions cette section <strong>à</strong> deux études de simulation ayant pour objectif d’évaluer laqualité des estimateurs du maximum de vraisemblance des paramètres du modè<strong>le</strong> etnotamment d’évaluer si la fonction de répartition Beta utilisée pour lier <strong>le</strong>s tests psychométriquesau processus latent est une transformation satisfaisante. La premièreétude de simulation consiste <strong>à</strong> comparer deux paramétrisations de la fonction derépartition Beta et la deuxième étude consiste <strong>à</strong> évaluer si <strong>le</strong> choix d’une fonction derépartition Beta n’entraîne pas de biais important dans l’estimation des paramètresdu facteur commun. Avant de présenter <strong>le</strong>s résultats des deux études, nous exposonsla méthodologie employée pour simu<strong>le</strong>r <strong>le</strong>s données.3.2.1 Méthodologie des études de simulationLes deux études de simulation sont construites de la même manière. Il s’agit desimu<strong>le</strong>r <strong>le</strong>s scores aux K tests psychométriques dans un échantillon de N sujets. Lesscores Y ijk sont simulés <strong>à</strong> partir des temps de mesure t ijk , i pour <strong>le</strong> sujet, j pour lamesure et k pour <strong>le</strong> test, de la manière suivante :Pour chaque sujet i,1. on simu<strong>le</strong> <strong>le</strong>s effets aléatoires u i = (u 0i , u 1i , u 2i ) T <strong>à</strong> partir d’une loi norma<strong>le</strong>N (µ, D) ;2. pour chaque test k, on simu<strong>le</strong> l’intercept aléatoire spécifique α ik <strong>à</strong> partir dela loi N (0, σα 2 k) ;3. pour chaque mesure j de chaque test k, on définit ensuite la va<strong>le</strong>ur du prédicteur


Modè<strong>le</strong> nonlinéaire <strong>à</strong> processus latent 78linéaire : Ỹijk = Λ i (t ijk ) + α ik + ɛ ijk = u 0i + u 1i t ijk + u 2i t 2 ijk + α ik + ɛ ijk , où ɛ ijkest simulé <strong>à</strong> partir de la loi N (0, σ 2 ɛ k) ;4. tant qu’au moins un des Ỹijk n’est pas dans l’interval<strong>le</strong> [0, 1], <strong>le</strong>s étapes 1 <strong>à</strong> 3sont réitérées ;5. si toutes <strong>le</strong>s va<strong>le</strong>urs des Ỹijk sont dans l’interval<strong>le</strong> [0, 1], on calcu<strong>le</strong> pour chaquetrip<strong>le</strong>t (i, j, k) <strong>le</strong> score au test Y ijk = g −1k(Ỹijk; η 1k , η 2k ), où g k (.; η 1k , η 2k ) est lafonction de répartition Beta avec <strong>le</strong>s paramètres canoniques (η 1k ; η 2k ).Ce schéma de simulation met en évidence <strong>le</strong> point faib<strong>le</strong> de notre approche. Lafonction de répartition Beta est définie de [0, 1] dans [0, 1] alors que <strong>le</strong> processuslatent Gaussien est défini dans R. La deuxième étude de simulation a pour objectifd’évaluer <strong>le</strong> biais engendré par la troncature nécessaire des données Gaussiennes <strong>à</strong>[0; 1].3.2.2 Première étude : paramétrisation de la fonction BetaLa fonction de répartition Beta (donnée en équation (3) de l’artic<strong>le</strong>) est définieen fonction de deux paramètres η 1 et η 2 définis positifs. Pour estimer ces paramètresavec l’algorithme de Marquardt, nous avons considéré deux paramétrisations différentes :- P1 : des transformations directes des paramètres classiques η 1 (η 1 > 0) et η 2(η 2 > 0) : ν 1 et ν 2 tels que η 1 = ν 2 1 et η 2 = ν 2 2- P2 : des transformations des paramètres de moyenne m (0 < m < 1) etvariance v (v > 0) de la fonction Beta : κ 1 et κ 2 tels que m = eκ 1v = exp(κ 2 ).1 + e κ 1Les deux paramétrisations sont équiva<strong>le</strong>ntes, <strong>le</strong>s paramètres η 1 et η 2 étant reliés auxparamètres de moyenne et de variance de la manière suivante : m = η 1et v =η 1 + η 2η 1 η 2. Pour évaluer et comparer <strong>le</strong>s deux paramétrisations, nous(η 1 + η 2 ) 2 (η 1 + η 2 + 1)avons simulé 100 échantillons de 100 sujets. Nous n’avons pas utilisé d’échantillonsimilaire aux données de la cohorte PAQUID mais avons choisi des va<strong>le</strong>urs des pa-et


Modè<strong>le</strong> nonlinéaire <strong>à</strong> processus latent 79ramètres de façon <strong>à</strong> réduire la probabilité que Ỹijk soit en dehors de [0, 1], l’objectifde cette première étude de simulation n’étant que <strong>le</strong> choix de la paramétrisation.Chaque sujet a 11 mesures répétées pour chacun des deux marqueurs considérés, <strong>le</strong>stemps de mesure étant <strong>le</strong>s mêmes pour tous <strong>le</strong>s sujets : 0, 0.3, 0.6, 0.9, 1.2, 1.5, 1.8,2.1, 2.4, 2.7 et 3.0. Les Ỹijk sont simulés suivant un modè<strong>le</strong> linéaire mixte incluantune intercept aléatoire de loi N (µ 0 = 0.6, σ 2 0 = 0.009) et une pente aléatoire de loiN (µ 1 = −0.08, σ 2 1= 0.001), l’intercept et la pente aléatoires sont indépendantesentre el<strong>le</strong>s. Les transformations Beta sont paramétrées par (η (1)1 = 0.49; η (1)2 =0.81) et (η (2)1 = 0.81; η (2)2 = 0.64) et <strong>le</strong>s erreurs sont indépendantes, d’écart-typeσ (k)ɛ= 0.03 pour chaque marqueur (k = 1, 2). Nous n’avons pas inclus d’interceptaléatoire spécifique <strong>à</strong> chaque test. Les tab<strong>le</strong>aux 3.1(A) et 3.1(B) donnent <strong>le</strong>sestimations moyennes, <strong>le</strong>s biais relatifs, <strong>le</strong>s écart-types empiriques, <strong>le</strong>s écart-typesasymptotiques moyens et <strong>le</strong>s taux de couverture des 100 simulations pour <strong>le</strong>s deuxparamétrisations P1 et P2.En utilisant la première paramétrisation, <strong>le</strong>s écart-types asymptotiques moyenssont nettement plus grand que <strong>le</strong>s écart-types empiriques alors qu’en utilisant ladeuxième paramétrisation, <strong>le</strong>s deux grandeurs sont équiva<strong>le</strong>ntes. Ce problème desurestimation de l’écart-type avec la première paramétrisation semb<strong>le</strong> venir d’unmauvais conditionnement de la matrice Hessienne. Le conditionnement de la matriceHessienne est défini par <strong>le</strong> rapport entre sa plus grande et sa plus petite va<strong>le</strong>urpropre. Pour la première paramétrisation, la moyenne des conditionnements sur <strong>le</strong>s100 simulations est de 85219.5 (minimum de 11167.7 et maximum de 1074156.0)alors qu’el<strong>le</strong> est de 26531.0 pour la deuxième paramétrisation (minimum de 10082.3et maximum de 65705.3). La matrice Hessienne a tendance <strong>à</strong> être très mal conditionnéelorsqu’on utilise la paramétrisation classique ce qui engendre une mauvaiseestimation de l’écart-type asymptotique. Cette première étude de simulation montredonc que la fonction de répartition Beta doit être paramétrée en utilisant sa moyenneet sa variance plutôt qu’en fonction de ses paramètres canoniques. Dans la suite dece travail, nous utiliserons donc la deuxième paramétrisation P2 de la fonction de


Modè<strong>le</strong> nonlinéaire <strong>à</strong> processus latent 80Tab. 3.1 – Estimation moyenne, biais relatif, écart-type (ET) empirique, écart-type(ET) asymptotique moyen et taux de couverture des 100 simulations pour (A) laparamétrisation P1 et (B) la paramétrisation P2.(A) Paramétrisation P1paramètre va<strong>le</strong>ur estimation biais ET ET asymptotique taux desimulée moyenne relatif empirique moyen couvertureν (1)1 0.700 0.693 -0.010 0.0226 0.0472 1.00ν (1)2 0.900 0.889 -0.012 0.0486 0.106 1.00ν (2)1 0.900 0.889 -0.013 0.0348 0.0736 1.00ν (2)2 0.800 0.791 -0.011 0.0387 0.0829 1.00µ 0 0.600 0.599 -0.002 0.0234 0.0358 0.99µ 1 -0.080 -0.079 -0.014 0.0488 0.0941 1.00σ 0 0.095 0.092 -0.035 0.0071 0.0120 1.00σ 1 0.032 0.031 -0.031 0.0025 0.0042 1.00σ (1)ɛ 0.030 0.030 -0.015 0.0015 0.0034 1.00σ (2)ɛ 0.030 0.030 -0.013 0.0017 0.0033 0.99(B) Paramétrisation P2paramètre va<strong>le</strong>ur estimation biais ET ET asymptotique taux desimulée moyenne relatif empirique moyen couvertureκ (1)1 -0.251 -0.244 -0.027 0.0596 0.0582 0.94κ (1)2 -2.358 -2.335 -0.010 0.0669 0.0631 0.91κ (2)1 0.118 0.119 0.009 0.0517 0.0512 0.96κ (2)2 -2.383 -2.361 -0.009 0.0598 0.0579 0.92µ 0 0.600 0.598 -0.004 0.0235 0.0217 0.97µ 1 -0.080 -0.078 -0.023 0.0055 0.0053 0.96σ 0 0.095 0.091 -0.039 0.0089 0.0082 0.90σ 1 0.032 0.030 -0.041 0.0026 0.0028 0.93σ (1)ɛ 0.030 0.029 -0.021 0.0019 0.0017 0.95σ (2)ɛ 0.030 0.029 -0.021 0.0019 0.0017 0.93


Modè<strong>le</strong> nonlinéaire <strong>à</strong> processus latent 81répartition Beta. De plus, cette simulation a permis de montrer que dans <strong>le</strong> cas oùl’échantillon n’inclut qu’un nombre négligeab<strong>le</strong> de va<strong>le</strong>urs hors de l’interval<strong>le</strong> [0, 1]pour <strong>le</strong> processus latent, <strong>le</strong> modè<strong>le</strong> <strong>à</strong> processus latent donne de très bons résultatsen termes de biais et de taux de couverture.3.2.3 Deuxième étude : situation proche du jeu de donnéesPAQUIDLa deuxième étude de simulation a pour objectif d’évaluer si notre modélisationpar la fonction de répartition Beta n’engendre pas des biais importants dans l’estimationdes paramètres <strong>à</strong> cause de la troncature des données Gaussiennes <strong>à</strong> [0; 1]. Pourévaluer ce biais, nous avons simulé des données similaires <strong>à</strong> cel<strong>le</strong>s de l’échantillonde 563 sujets issu de la cohorte PAQUID et analysé dans l’artic<strong>le</strong> méthodologique.Ainsi, nous pouvons évaluer l’importance du biais pour <strong>le</strong>s données réel<strong>le</strong>s utiliséesdans l’application.Les échantillons simulés sont constitués des 563 sujets de l’échantillon de PA-QUID et incluent tous <strong>le</strong>s temps de mesure observés. A partir de ces temps demesure et des va<strong>le</strong>urs des paramètres estimées sur l’échantillon de PAQUID, nousavons généré <strong>le</strong>s mesures aux quatre marqueurs longitudinaux. Le modè<strong>le</strong> pour <strong>le</strong>facteur commun incluait une intercept, une pente et un terme quadratique aléatoirescorrélés. Par rapport <strong>à</strong> l’illustration présentée dans l’artic<strong>le</strong>, ce modè<strong>le</strong> n’incluait pasde processus Brownien, de variab<strong>le</strong>s explicatives et d’intercept aléatoire spécifique <strong>à</strong>chaque test.Le tab<strong>le</strong>au 3.2 résume <strong>le</strong>s résultats des 200 simulations effectuées. A chaquesimulation, <strong>le</strong>s étapes 1 <strong>à</strong> 3 ont été relancées pour 11.6 sujets en moyenne <strong>à</strong> caused’au moins une va<strong>le</strong>ur inférieure <strong>à</strong> 0 et pour 2.3 sujets en moyenne <strong>à</strong> cause d’aumoins une va<strong>le</strong>ur supérieure <strong>à</strong> 1. Pour cet échantillon issu de PAQUID, un nombrenon négligeab<strong>le</strong> de va<strong>le</strong>urs du processus latent sont donc inférieures <strong>à</strong> 0, généra<strong>le</strong>ment


Modè<strong>le</strong> nonlinéaire <strong>à</strong> processus latent 82Tab. 3.2 – Estimation moyenne, biais relatif, écart-type (ET) empirique, écart-type(ET) asymptotique moyen et taux de couverture des 200 simulations de l’échantillonréel de 563 sujets∗paramètre va<strong>le</strong>ur estimation biais ET ET asymptotique taux desimulée moyenne relatif empirique moyen couvertureκ (1)1 1.232 1.150 -0.067 0.060 0.061 0.78κ (1)2 -2.789 -2.666 -0.044 0.074 0.078 0.68κ (2)1 0.331 0.289 -0.129 0.041 0.041 0.87κ (2)2 -2.375 -2.306 -0.029 0.041 0.043 0.63κ (3)1 0.459 0.407 -0.113 0.046 0.045 0.82κ (3)2 -2.334 -2.260 -0.032 0.042 0.044 0.63κ (4)1 -0.539 -0.549 0.018 0.035 0.036 0.96κ (4)2 -2.280 -2.232 -0.021 0.027 0.032 0.72µ 0 0.623 0.625 0.0036 0.011 0.011 0.97µ 1 -0.010 -0.012 0.130 0.0094 0.0092 0.95µ 2 -0.289 -0.261 -0.098 0.038 0.037 0.87chol(D) ∗ 11 0.092 0.084 -0.083 0.0073 0.0067 0.77chol(D) ∗ 12 -0.053 -0.047 -0.119 0.0159 0.0149 0.94chol(D) ∗ 22 0.104 0.096 -0.081 0.0084 0.0082 0.85chol(D) ∗ 13 0.159 0.131 -0.179 0.074 0.069 0.95chol(D) ∗ 23 -0.401 -0.366 -0.099 0.044 0.041 0.87chol(D) ∗ 33 0.07 0.187 -0.096 0.013 0.013 0.72σ (1)ɛ 0.084 0.079 -0.054 0.0029 0.0031 0.71σ (2)ɛ 0.084 0.079 -0.059 0.0032 0.0033 0.70σ (3)ɛ 0.097 0.091 -0.060 0.0033 0.0036 0.65σ (4)ɛ 0.035 0.033 -0.055 0.0013 0.0015 0.76chol(D) représente la transformée de Cho<strong>le</strong>sky de la matrice D de variancecovariancedes effets aléatoires.


Modè<strong>le</strong> nonlinéaire <strong>à</strong> processus latent 83pour des temps d’observation é<strong>le</strong>vés. Malgré cela, <strong>le</strong>s estimations de l’évolution dufacteur commun sont correctes, avec des biais relatifs assez faib<strong>le</strong>s (au maximum13% pour la pente). Les paramètres des fonction Beta et des erreurs de mesuresont aussi légèrement biaisés (biais inférieurs <strong>à</strong> 13%). On peut noter que, commel’échantillon contient beaucoup d’information, <strong>le</strong>s écart-types asymptotiques sonttrès petits et <strong>le</strong> léger biais sur <strong>le</strong>s paramètres suffit <strong>à</strong> donner des taux de couvertureassez mauvais. La même simulation réalisée sur un sous-échantillon de 100 sujets etprésentée dans <strong>le</strong> tab<strong>le</strong>au 3.3 a donné des résultats nettement meil<strong>le</strong>urs en terme detaux de couverture.Les légers biais trouvés sur <strong>le</strong>s estimateurs de certains paramètres restent négligeab<strong>le</strong>sd’un point de vue clinique. On peut donc conclure de ces études de simulationsque <strong>le</strong> modè<strong>le</strong> <strong>à</strong> processus latent incluant une fonction de répartition Betaparamétrée par sa moyenne et sa variance donne de bons résultats.3.3 Applications épidémiologiquesCette approche <strong>à</strong> processus latent pour étudier conjointement plusieurs testspsychométriques a donné lieu <strong>à</strong> deux travaux appliqués dans l’étude du vieillissementcognitif. Le premier a consisté <strong>à</strong> étudier <strong>le</strong> lien entre <strong>le</strong>s tests psychométriques et<strong>le</strong> facteur commun représentant <strong>le</strong> niveau cognitif latent. La deuxième applicationa permis de distinguer l’effet de variab<strong>le</strong>s explicatives sur <strong>le</strong> déclin cognitif de <strong>le</strong>ureffet sur <strong>le</strong>s tests psychométriques eux-mêmes. Nous présentons dans cette section cesdeux travaux réalisés en collaboration avec l’équipe vieillissement de l’unité INSERM593.3.3.1 Propriétés métrologiques des tests psychométriquesCette première application du modè<strong>le</strong> <strong>à</strong> processus latent a fait l’objet d’une publicationdans l’American Journal of Epidemiology. L’artic<strong>le</strong> comp<strong>le</strong>t intitulé Sensitivityof four psychometric tests to measure cognitive changes in brain


Modè<strong>le</strong> nonlinéaire <strong>à</strong> processus latent 84Tab. 3.3 – Estimation moyenne, biais relatif, écart-type (ET) empirique, écart-type(ET) asymptotique moyen et taux de couverture des 200 simulations de l’échantillonréel de 100 sujets∗paramètre va<strong>le</strong>ur estimation biais ET ET asymptotique taux desimulée moyenne relatif empirique moyen couvertureκ (1)1 1.232 1.127 -0.085 0.187 0.175 0.95κ (1)2 -2.789 -2.646 -0.051 0.213 0.211 0.89κ (2)1 0.331 0.27 -0.169 0.126 0.118 0.98κ (2)2 -2.375 -2.293 -0.034 0.102 0.111 0.93κ (3)1 0.459 0.393 -0.143 0.141 0.129 0.95κ (3)2 -2.334 -2.249 -0.037 0.116 0.116 0.87κ (4)1 -0.539 -0.551 0.022 0.102 0.097 0.98κ (4)2 -2.280 -2.225 -0.024 0.071 0.079 0.92µ 0 0.623 0.624 0.002 0.0300 0.0294 0.96µ 1 -0.010 -0.105 0.008 0.022 0.021 0.95µ 2 -0.289 -0.261 -0.096 0.092 0.090 0.92chol(D) ∗ 11 0.092 0.082 -0.108 0.017 0.016 0.87chol(D) ∗ 12 -0.053 -0.045 -0.159 0.038 0.033 0.91chol(D) ∗ 22 0.104 0.087 -0.165 0.023 0.022 0.91chol(D) ∗ 13 0.159 0.124 -0.22 0.181 0.158 0.87chol(D) ∗ 23 -0.401 -0.317 -0.219 0.133 0.142 0.91chol(D) ∗ 33 0.07 0.158 -0.237 0.055 0.076 0.82σ (1)ɛ 0.084 0.078 -0.073 0.0078 0.0082 0.91σ (2)ɛ 0.084 0.078 -0.076 0.0080 0.0085 0.93σ (3)ɛ 0.097 0.089 -0.077 0.0094 0.0096 0.89σ (4)ɛ 0.035 0.033 -0.070 0.0039 0.0038 0.87chol(D) représente la transformée de Cho<strong>le</strong>sky de la matrice D de variancecovariancedes effets aléatoires.


Modè<strong>le</strong> nonlinéaire <strong>à</strong> processus latent 85aging population-based studies est présenté en annexe. Dans ce paragraphe,nous décrivons l’objectif de l’application et <strong>le</strong>s principaux résultats obtenus.Dans <strong>le</strong>s études épidémiologiques, la cognition est évaluée par des tests psychométriquesqui mesurent <strong>le</strong>s changements cognitifs avec une sensibilité et uneéchel<strong>le</strong> différentes. Utiliser une batterie complète de tests psychométriques peut serévé<strong>le</strong>r diffici<strong>le</strong> <strong>à</strong> mettre en oeuvre car d’une part, <strong>le</strong>s longues séances de tests sontcoûteuses et d’autre part, <strong>le</strong>s sujets souffrant d’un déficit cognitif ont plus tendance<strong>à</strong> refuser de répondre <strong>à</strong> de longues séances de tests que <strong>le</strong>s sujets sans déficit cognitif.Il est donc souvent judicieux de sé<strong>le</strong>ctionner un faib<strong>le</strong> nombre de tests ou mêmeun seul test psychométrique pour étudier <strong>le</strong>s changements cognitifs dans une étudeen population. Un bon test psychométrique doit être court et faci<strong>le</strong> <strong>à</strong> utiliser maisil doit surtout être capab<strong>le</strong> de détecter n’importe quel changement cognitif dansl’interval<strong>le</strong> de cognition observé dans la population.L’objectif de ce travail a été de comparer la sensibilité aux changements cognitifsde quatre tests psychométriques largement utilisés dans <strong>le</strong>s études en populationpar <strong>le</strong> biais du modè<strong>le</strong> <strong>à</strong> processus latent. En effet, en estimant <strong>le</strong>s transformationsnonlinéaires qui relient <strong>le</strong>s quatre tests psychométriques <strong>à</strong> <strong>le</strong>ur facteur commun,nous sommes en mesure de comparer <strong>le</strong>urs propriétés métrologiques sur l’interval<strong>le</strong>de cognition observé dans l’échantillon.Nous avons sé<strong>le</strong>ctionné pour cela un échantillon de 2252 sujets <strong>à</strong> partir de lacohorte PAQUID. Les sujets inclus étaient non-déments au début du suivi et avaientau moins une mesure <strong>à</strong> chaque test durant <strong>le</strong>s 12 ans de suivi. Les quatre tests utilisésétaient :- <strong>le</strong> Mini Mental State Examination (MMSE) (Folstein et al., 1975) qui évalueplusieurs dimensions de la cognition. C’est <strong>le</strong> test <strong>le</strong> plus utilisé pour étudier<strong>le</strong>s changements cognitifs en population généra<strong>le</strong> ;- <strong>le</strong> test de rétention visuel<strong>le</strong> de Benton (BVRT) (Benton, 1965) qui mesure lamémoire visuel<strong>le</strong>, la mémoire épisodique et la mémoire de travail ;- <strong>le</strong> set test d’Isaacs tronqué <strong>à</strong> 15 secondes (IST15) (Isaacs et Kennie, 1973),


Modè<strong>le</strong> nonlinéaire <strong>à</strong> processus latent 86un test de fluence verba<strong>le</strong> qui mesure la mémoire sémantique, <strong>le</strong>s processusexécutifs, la mémoire de travail et l’accès au langage ;- <strong>le</strong> test de substitution des symbo<strong>le</strong>s (DSST) (Wechs<strong>le</strong>r, 1981) qui mesure <strong>le</strong>raisonnement logique, la mémoire <strong>à</strong> court terme et la praxie (capacité <strong>à</strong> assemb<strong>le</strong>rdes éléments pour construire une figure).A partir des estimations du modè<strong>le</strong> <strong>à</strong> processus latent incluant une fonction quadratiquedu temps pour l’évolution du facteur commun, nous avons mis en évidenceplusieurs propriétés pour <strong>le</strong>s quatre tests. Tout d’abord, <strong>le</strong> MMSE et <strong>le</strong> BVRTsouffrent d’un effet plafond et ne sont donc pas des tests satisfaisants pour étudier<strong>le</strong>s changements cognitifs parmi <strong>le</strong>s sujets ayant un haut niveau cognitif. Cependant,ces deux tests ayant une bonne sensibilité au changement cognitif dans des niveauxassez bas de la cognition, ils peuvent être utilisés pour étudier la cognition dans despopulations de sujets atteints de déficits cognitifs légers. Au contraire, <strong>le</strong> DSST a unebonne sensibilité aux changements cognitifs dans <strong>le</strong>s niveaux é<strong>le</strong>vés de la cognitionet peut être utilisé pour évaluer des changements cognitifs chez des sujets ayant unhaut niveau cognitif. Néanmoins, comme <strong>le</strong> DSST souffre d’un effet plancher sansdoute dû au fait que <strong>le</strong>s sujets ayant un déficit cognitif important ne peuvent pascomprendre <strong>le</strong>s instructions compliquées du test, il ne peut pas être utilisé dans despopulations de sujets avec un déficit cognitif sévère. Ces trois tests psychométriquessont donc appropriés pour évaluer <strong>le</strong>s changements cognitifs dans des populationsparticulières, soit chez des sujets de haut niveau cognitif pour <strong>le</strong> DSST, soit chez dessujets atteints d’un déficit cognitif léger pour <strong>le</strong> BVRT et <strong>le</strong> MMSE. Contrairement<strong>à</strong> ces trois tests, l’IST15 a une bonne sensibilité sur tout l’interval<strong>le</strong> de cognition etun point perdu <strong>à</strong> un niveau cognitif é<strong>le</strong>vé représente la même perte cognitive qu’unpoint perdu <strong>à</strong> un niveau cognitif bas.A travers cette application, nous avons mis en évidence que, parmi <strong>le</strong>s quatretests psychométriques considérés, l’IST était <strong>le</strong> test <strong>le</strong> plus approprié pour étudier<strong>le</strong>s changements cognitifs dans des populations hétérogènes, incluant <strong>à</strong> la fois des


Modè<strong>le</strong> nonlinéaire <strong>à</strong> processus latent 87sujets avec un déficit cognitif sévère et des sujets avec un haut niveau cognitif. Plusgénéra<strong>le</strong>ment, en utilisant <strong>le</strong> modè<strong>le</strong> <strong>à</strong> processus latent et en comparant <strong>le</strong>s transformationsnonlinéaires estimées sur une batterie de tests, nous sommes en mesured’obtenir des informations pour sé<strong>le</strong>ctionner <strong>le</strong> ou <strong>le</strong>s meil<strong>le</strong>urs tests psychométriquessuivant la nature de la population étudiée et l’objectif de l’étude.3.3.2 Effet du sexe et du niveau d’études sur <strong>le</strong>s mesures dedéclin cognitifLa deuxième application du modè<strong>le</strong> mixte <strong>à</strong> processus latent a consisté <strong>à</strong> explorerl’effet de deux variab<strong>le</strong>s explicatives sur la dégradation cognitive. Ce travail a donnélieu <strong>à</strong> un artic<strong>le</strong> actuel<strong>le</strong>ment soumis intitulé Impact of gender and education oncognitive decline with age : a longitudinal approach et présenté en annexe.Nous avons vu dans <strong>le</strong> paragraphe 1.1.3 que l’effet du sexe sur <strong>le</strong> déclin cognitifétait encore discuté, l’association entre sexe et déclin cognitif n’étant passystématiquement retrouvée dans <strong>le</strong>s études de cohorte. Parallè<strong>le</strong>ment <strong>à</strong> ces travaux,des études en neuropsychologie ont mis en évidence que <strong>le</strong>s hommes et <strong>le</strong>sfemmes ne réussissaient pas de la même manière <strong>le</strong>s tests psychométriques. Lesfemmes obtiennent de meil<strong>le</strong>urs résultats que <strong>le</strong>s hommes dans <strong>le</strong>s tests incluant unecomposante verba<strong>le</strong> alors que <strong>le</strong>s hommes obtiennent de meil<strong>le</strong>urs résultats dans<strong>le</strong>s tests évaluant la dimension visuospatia<strong>le</strong> (Reite et al., 1993 ; Wiederholt et al.,1993). On peut donc se demander si <strong>le</strong>s résultats ambigus obtenus sur l’associationentre sexe et déclin cognitif ne seraient pas uniquement liés <strong>à</strong> la mesure de cognitionchoisie pour évaluer <strong>le</strong>s changements cognitifs. De même, plusieurs études ontmis en évidence que <strong>le</strong>s sujets <strong>à</strong> haut niveau d’éducation avaient un niveau cognitifplus é<strong>le</strong>vé que <strong>le</strong>s sujets <strong>à</strong> faib<strong>le</strong> niveau d’éducation, et ce, en étudiant différentstests psychométriques et en ajustant sur l’âge (Elias et al., 1997). Comme <strong>le</strong> niveaud’éducation peut agir sur la capacité <strong>à</strong> passer des tests, <strong>le</strong>s sujets <strong>à</strong> faib<strong>le</strong> niveaud’éducation ayant souvent plus de difficultés <strong>à</strong> gérer <strong>le</strong>s conditions de test, on peut


Modè<strong>le</strong> nonlinéaire <strong>à</strong> processus latent 88se demander si l’écart de perfomances observé entre <strong>le</strong>s sujets <strong>à</strong> haut et bas niveaud’éducation ne serait pas en partie lié <strong>à</strong> une capacité différentiel<strong>le</strong> <strong>à</strong> passer <strong>le</strong>s testspsychométriques.D’une manière généra<strong>le</strong>, il est souvent diffici<strong>le</strong> de distinguer l’effet d’une variab<strong>le</strong>explicative sur <strong>le</strong> processus de dégradation cognitive de son effet sur l’outilde mesure de cognition. Dans l’approche <strong>à</strong> processus latent, nous sommes en mesurede distinguer <strong>le</strong>s effets globaux de variab<strong>le</strong>s explicatives sur <strong>le</strong> facteur communconsidéré comme l’indicateur global de cognition de <strong>le</strong>urs effets sur chaque test psychométrique.Ceci nous permet donc d’évaluer en particulier dans quel<strong>le</strong> mesure <strong>le</strong>sexe et <strong>le</strong> niveau d’études sont associés au déclin cognitif général et <strong>à</strong> chaque testpsychométrique.A partir de la cohorte PAQUID, nous avons sé<strong>le</strong>ctionné tous <strong>le</strong>s sujets ayantau moins une mesure aux quatre tests psychométriques (MMSE, IST15, BVRT etDSST), quel que soit <strong>le</strong>ur processus de vieillissement cognitif, et notamment quelque soit <strong>le</strong>ur statut de démence. L’échantillon était constitué de 2228 sujets. Leniveau d’éducation spécifié en deux classes (a obtenu <strong>le</strong> certificat d’études primairesou non) et <strong>le</strong> sexe ont été introduits dans <strong>le</strong> modè<strong>le</strong> <strong>à</strong> processus latent <strong>à</strong> la foisdans <strong>le</strong> modè<strong>le</strong> mixte pour <strong>le</strong> facteur commun et dans <strong>le</strong>s modè<strong>le</strong>s d’observation dechaque test. Un ajustement sur <strong>le</strong>s facteurs vasculaires a aussi été pris en comptepour éviter des problèmes de confusion. Le modè<strong>le</strong> final incluait :- dans <strong>le</strong> modè<strong>le</strong> structurel : une fonction quadratique de l’âge (AGE), un mouvementBrownien (w i (t)) ainsi que <strong>le</strong>s effets du sexe (S), du niveau d’éducation(CEP) et des facteurs vasculaires ((VASC l ) l=1,pV ASC) <strong>à</strong> la fois sur <strong>le</strong> niveau initial(niveau <strong>à</strong> 65 ans) du facteur commun et en interaction avec l’âge :Λ(t) = u 0i + u 1i AGE + u 2i AGE 2 + S × ( β 0 + β 1 AGE + β 2 AGE 2)+p V∑ ASCl=1+ CEP × ( β 3 + β 4 AGE + β 5 AGE 2)VASC l × ( β 6+3(l−1) + β 7+3(l−1) AGE + β 8+3(l−1) AGE 2) (3.1)


Modè<strong>le</strong> nonlinéaire <strong>à</strong> processus latent 89- dans <strong>le</strong> modè<strong>le</strong> d’observation : des intercepts et pentes spécifiques <strong>à</strong> chaquetest et des contrastes sur <strong>le</strong> sexe et <strong>le</strong> niveau d’études ainsi que l’interceptaléatoire spécifique <strong>à</strong> chaque test (α ik ) et l’erreur de mesure (ɛ ijk ) :h k (y ijk , η k ) = Λ(t ijk )+γ 0k +γ 1k AGE+γ 2k AGE 2 +S× ( γ 3k + γ 4k AGE + γ 5k AGE 2)avec ∑ Kk=1 γ jk = 0, ∀j+ CEP × ( γ 6k + γ 7k age + γ 8k AGE 2) + α ik + ɛ ijk (3.2)Par rapport au modè<strong>le</strong> présenté dans l’artic<strong>le</strong> méthodologique en section 3.1, nousavons ajouté l’intercept et la pente spécifiques <strong>à</strong> chaque test dans <strong>le</strong> modè<strong>le</strong> d’observation.En effet, lorsqu’on ne <strong>le</strong>s introduit pas dans <strong>le</strong> modè<strong>le</strong>, on fait l’hypothèsequ’il n’y a pas de différence de niveau ou de pente entre <strong>le</strong>s tests dans la classe deréférence de la variab<strong>le</strong> explicative alors que dans <strong>le</strong>s autres classes, <strong>le</strong>s différencessont modélisées par <strong>le</strong>s contrastes. Cette hypothèse est bien évidemment trop forteet peut induire des interprétations erronées lors de la comparaison d’effet des variab<strong>le</strong>sexplicatives sur <strong>le</strong>s tests. Nous avons donc ajouté au modè<strong>le</strong> une intercept etpente spécifiques <strong>à</strong> chaque test.Grâce <strong>à</strong> la modélisation conjointe des quatre tests, nous avons confirmé que <strong>le</strong>niveau d’éducation était associé au déclin cognitif global : <strong>le</strong>s sujets ayant un hautniveau d’éducation ont un niveau cognitif moyen plus é<strong>le</strong>vé mais ont aussi un déclincognitif dans <strong>le</strong> grand âge un peu plus important que <strong>le</strong>s sujets de faib<strong>le</strong> niveaud’éducation. Nous avons aussi trouvé des différences entre <strong>le</strong>s tests. Notamment,l’écart entre <strong>le</strong> score d’un sujet <strong>à</strong> haut niveau d’études et <strong>le</strong> score d’un sujet <strong>à</strong>bas niveau d’études diminue avec l’âge pour l’IST15 et <strong>le</strong> DSST et reste <strong>le</strong> mêmepour <strong>le</strong> MMSE et <strong>le</strong> BVRT. Ce résultat peut être expliqué par la présence d’unecomposante de vitesse dans l’IST15 et <strong>le</strong> DSST. En effet, il a été montré que laplupart des changements cognitifs liés <strong>à</strong> l’âge étaient dus <strong>à</strong> une baisse de la vitessed’exécution (Salthouse, 1996) et que la baisse de vitesse d’exécution était un despremiers déficits observés dans <strong>le</strong> vieillissement. Au vu de ces résultats, on peut se


Modè<strong>le</strong> nonlinéaire <strong>à</strong> processus latent 90demander si <strong>le</strong> déclin cognitif plus important dans <strong>le</strong> grand âge chez <strong>le</strong>s sujets <strong>à</strong>haut niveau d’éducation que chez <strong>le</strong>s sujets <strong>à</strong> faib<strong>le</strong> niveau d’éducation viendrait dufait que la perte de vitesse d’exécution liée <strong>à</strong> l’âge arriverait plus tardivement chez<strong>le</strong>s sujets <strong>à</strong> haut niveau d’éducation que chez <strong>le</strong>s sujets <strong>à</strong> bas niveau d’éducation.Concernant <strong>le</strong> sexe, nous avons montré qu’après prise en compte des facteurs vasculaireset notamment du statut tabagique, <strong>le</strong>s femmes avaient un déclin cognitif globalavec l’âge légèrement plus important que celui des hommes. Comme nous étudions<strong>le</strong> processus de vieillissement cognitif quel qu’il soit, il est possib<strong>le</strong> que ce résultatsoit expliqué par la plus grande incidence de démence chez <strong>le</strong>s femmes que chez <strong>le</strong>shommes dans <strong>le</strong>s âges avancés (Letenneur et al., 1999). Dans cette analyse conjointe,nous avons aussi confirmé que, quel que soit <strong>le</strong> niveau cognitif global, <strong>le</strong>s femmesréussissent mieux l’IST (<strong>le</strong> test incluant une composante verba<strong>le</strong>) que <strong>le</strong>s hommes <strong>à</strong>n’importe quel âge alors que <strong>le</strong>s hommes réussissent mieux <strong>le</strong> BVRT (évaluant <strong>le</strong>scapacités visuospatia<strong>le</strong>s) que <strong>le</strong>s femmes <strong>à</strong> n’importe quel âge.3.4 DiscussionNous avons présenté dans ce chapitre un modè<strong>le</strong> paramétrique pour étudierl’évolution conjointe de plusieurs marqueurs quantitatifs non Gaussiens. Ce modè<strong>le</strong>peut être vu comme une extension du travail de Roy et Lin (2000) <strong>à</strong> deux niveaux :nous prenons en compte des marqueurs quantitatifs non Gaussiens par <strong>le</strong> biais detransformations nonlinéaires estimées, et nous incluons dans <strong>le</strong> modè<strong>le</strong> mixte unprocessus Brownien pour assouplir la forme paramétrique de l’évolution moyenne enfonction du temps.L’originalité principa<strong>le</strong> de ce travail réside dans <strong>le</strong>s transformations nonlinéairesparamétrées qui permettent de modéliser la relation entre <strong>le</strong>s marqueurs et <strong>le</strong> processuslatent. Dans l’artic<strong>le</strong>, nous avons comparé plusieurs famil<strong>le</strong>s de fonctionsnonlinéaires paramétriques et avons conclu que <strong>le</strong>s fonctions de répartition Beta


Modè<strong>le</strong> nonlinéaire <strong>à</strong> processus latent 91constituaient un bon compromis entre une grande f<strong>le</strong>xibilité des formes estimées etun faib<strong>le</strong> nombre de paramètres <strong>à</strong> estimer par marqueur. Le faib<strong>le</strong> nombre de paramètresnécessaires pour estimer <strong>le</strong>s transformations est déterminant dans <strong>le</strong> choixde la famil<strong>le</strong> de transformations. En effet, si chaque transformation nécessite beaucoupde paramètres, il sera numériquement diffici<strong>le</strong> d’inclure plusieurs marqueursdans <strong>le</strong> modè<strong>le</strong> alors qu’un intérêt de cette approche est justement de multiplier<strong>le</strong>s marqueurs d’évolution pour d’une part <strong>le</strong>s comparer entre eux et d’autre partaugmenter l’information utilisée pour estimer l’effet de variab<strong>le</strong>s explicatives.L’inconvénient majeur de cette approche basée sur <strong>le</strong>s fonctions de répartitionBeta est que la transformation Beta impose que <strong>le</strong> processus latent soit dans l’interval<strong>le</strong>[0, 1] alors qu’il peut théoriquement être <strong>à</strong> va<strong>le</strong>urs dans R. Nous avons vu dans<strong>le</strong>s simulations que ce problème engendrait des biais sur <strong>le</strong>s estimations des effetsfixes. Cela étant, ces biais restent légers d’un point de vue clinique. De manièregénéra<strong>le</strong>, <strong>le</strong>s deux études de simulation montrent que <strong>le</strong>s estimateurs des paramètresdu modè<strong>le</strong> sont assez bons.Dans un travail non présenté ici, nous avons testé des transformations entre<strong>le</strong> processus latent et <strong>le</strong>s tests psychométriques basées sur des splines. Ces transformations<strong>à</strong> va<strong>le</strong>urs dans R ont l’avantage de pallier <strong>le</strong> problème rencontré avec<strong>le</strong>s transformations Beta. Cependant, <strong>le</strong>s transformations par splines estimées sur<strong>le</strong>s données de PAQUID se sont révélées très proches de cel<strong>le</strong>s obtenues par <strong>le</strong>sfonctions de répartition Beta et l’utilisation des splines a engendré des problèmesnumériques importants liés au grand nombre de paramètres dans <strong>le</strong> modè<strong>le</strong>. En effet,<strong>le</strong>s transformations basées sur des splines nécessitaient 7 paramètres de splines (pour5 noeuds) et un paramètre de niveau par test alors que la fonction de répartitionBeta ne nécessitait que 2 paramètres par test. Une autre méthode permettant depallier <strong>le</strong> problème lié aux transformations Beta consiste <strong>à</strong> considérer <strong>le</strong>s tests psychométriquescomme des tests ordinaux et <strong>à</strong> utiliser des modè<strong>le</strong>s <strong>à</strong> seuils pour lierchaque test psychométrique au processus latent. Cela a été réalisé dans un travailrécent (Ganiayre et al., 2006) mais cette approche est aussi extrêmement coûteuse


Modè<strong>le</strong> nonlinéaire <strong>à</strong> processus latent 92numériquement. En pratique, il est presque impossib<strong>le</strong> d’étudier plusieurs testsconjointement. En plus, chaque test est supposé ordinal alors que certains testscomme <strong>le</strong> DSST sont purement quantitatifs par construction. Il apparaît diffici<strong>le</strong>de trouver une alternative aux tansformations Beta offrant une grande f<strong>le</strong>xibilitédes transformations entre tests et processus latent et n’entraînant pas de problèmesnumériques. Malgré <strong>le</strong>s légers biais induits par l’utilisation de la transformationBeta, cette approche reste donc un compromis intéressant.A travers <strong>le</strong>s deux applications présentées dans ce chapitre, nous avons illustré<strong>le</strong>s intérêts multip<strong>le</strong>s du modè<strong>le</strong> <strong>à</strong> processus latent. Le modè<strong>le</strong> permet en effet decomparer <strong>le</strong>s tests psychométriques par rapport au processus latent et notammentde mettre en exergue <strong>le</strong>urs propriétés métrologiques. Il permet aussi de différencierl’effet de variab<strong>le</strong>s explicatives sur l’évolution cognitive globa<strong>le</strong> de <strong>le</strong>ur effet sur <strong>le</strong>sdifférents tests psychométriques. Enfin, lorsque l’objectif est d’étudier uniquementl’effet global d’une variab<strong>le</strong> explicative, comme l’effet du traitement dans un essaithérapeutique, ce modè<strong>le</strong> conjoint a aussi l’avantage d’augmenter l’informationutilisée et donc d’augmenter la puissance des analyses. Cela étant, nous avons faitl’hypothèse dans ces travaux que <strong>le</strong>s données manquantes étaient ignorab<strong>le</strong>s alorsqu’il a été montré que la sortie d’étude dans PAQUID était liée au niveau cognitif etdonc informative (Jacqmin-Gadda et al., 1997a ; Jacqmin-Gadda et al., 1999). Plusgénéra<strong>le</strong>ment, nous avons fait l’hypothèse que <strong>le</strong> processus de vieillissement dans lapopulation était homogène alors qu’il existe plusieurs sous-populations caractériséespar <strong>le</strong> processus de sortie d’étude ou bien <strong>le</strong> risque de démence. C’est pourquoi, dansla suite de ce travail, nous allons étendre <strong>le</strong> modè<strong>le</strong> <strong>à</strong> processus latent pour l’étudeconjointe de plusieurs marqueurs <strong>à</strong> la prise en compte d’un événement clinique.


Chapitre 4Modè<strong>le</strong> nonlinéaire <strong>à</strong> classeslatentes pour l’analyse conjointede plusieurs marqueursquantitatifs et d’une variab<strong>le</strong>binaireL’objectif de ce travail était de développer un modè<strong>le</strong> conjoint pour explorerl’association entre l’évolution de plusieurs marqueurs longitudinaux quantitatifsqui mesurent la même quantité non-observée et la probabilité d’un événement. Ledéveloppement de ce modè<strong>le</strong> a été motivé par l’étude conjointe de l’évolution cognitivemesurée par plusieurs tests psychométriques et <strong>le</strong> risque de démence. Ce travaila fait l’objet d’une publication dans Statistics in Medicine.Nous proposons un modè<strong>le</strong> nonlinéaire conjoint <strong>à</strong> classes latentes. Les profilslatents d’évolution cognitive sont modélisés par une extension du modè<strong>le</strong> <strong>à</strong> processuslatent présenté précedemment mais prenant en compte une structure hétérogène desdonnées par un mélange de lois norma<strong>le</strong>s pour la distribution des effets aléatoires.93


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 1 94La probabilité de démence est modélisée par une régression logistique spécifique<strong>à</strong> chaque classe latente. L’intérêt de ce modè<strong>le</strong> est mis en évidence <strong>à</strong> travers uneapplication sur <strong>le</strong>s données de la cohorte PAQUID. Le modè<strong>le</strong> permet de décrire <strong>le</strong>sprofils latents d’évolution cognitive associés <strong>à</strong> la survenue d’une démence et d’évaluerl’association avec des variab<strong>le</strong>s explicatives qui peuvent agir <strong>à</strong> plusieurs niveaux :sur <strong>le</strong> déclin cognitif, sur la probabilité d’appartenir <strong>à</strong> une classe latente ou encoresur la probabilité d’événement. Le modè<strong>le</strong> permet aussi de développer un outil dediagnostic précoce de la démence utilisab<strong>le</strong> quel<strong>le</strong> que soit l’information disponib<strong>le</strong>sur <strong>le</strong>s tests psychométriques.


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 1 95


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 1 96


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 1 97


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 1 98


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 1 99


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 1 100


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 1 101


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 1 102


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 1 103


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 1 104


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 1 105


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 1 106


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 1 107


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 1 108


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 1 109


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 1 110


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 1 111


Chapitre 5Modè<strong>le</strong> nonlinéaire <strong>à</strong> classeslatentes pour l’analyse conjointede plusieurs marqueursquantitatifs et d’un tempsd’événementPar la modélisation conjointe de plusieurs marqueurs longitudinaux et d’unevariab<strong>le</strong> binaire, <strong>le</strong> modè<strong>le</strong> présenté au chapitre précédent permet de décrire <strong>le</strong>sdifférents profils d’évolution cognitive associés <strong>à</strong> la survenue d’une démence et deproposer un outil de diagnostic de démence basé sur la trajectoire cognitive dusujet. Cependant, ce modè<strong>le</strong> a une limite importante. En utilisant un modè<strong>le</strong> derégression logistique pour prédire l’événement clinique, nous étudions la probabilitéde l’événement <strong>à</strong> un temps donné. L’estimation des paramètres se fait doncsur un échantillon de sujets sé<strong>le</strong>ctionnés : tous <strong>le</strong>s sujets ont eu un diagnostic dedémence au temps considéré. Cela peut impliquer des biais sur <strong>le</strong>s estimations desparamètres et par conséquent des biais sur l’outil de diagnostic proposé. Pour pallier112


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 2 113ce problème de sé<strong>le</strong>ction, il est nécessaire d’étudier la survenue de l’événement demanière dynamique. C’est ce que nous proposons dans ce chapitre en modélisant <strong>le</strong>risque de survenue de l’événement par un modè<strong>le</strong> de survie paramétrique différentdans chaque classe latente.Nous détaillons la méthodologie du modè<strong>le</strong> et l’estimation des paramètres. Nousproposons ensuite une extension semi-paramétrique du modè<strong>le</strong> avec une modélisationde la fonction de risque basée sur des splines puis une étude de simulation afind’évaluer la qualité des estimateurs du maximum de vraisemblance. Enfin, aprèsavoir proposé des méthodes pour évaluer l’adéquation aux données, nous appliquonsce modè<strong>le</strong> dans <strong>le</strong> cadre de l’étude du vieillissement. Cette application consiste <strong>à</strong>décrire <strong>le</strong>s profils de déclin cognitif en fonction de l’âge associés <strong>à</strong> la survenue d’unedémence et évaluer la probabilité de démence prédite par <strong>le</strong>s trajectoires des testspsychométriques.5.1 Formulation du modè<strong>le</strong> conjoint paramétriqueLe modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes détaillé dans ce chapitre est une extensiondirecte du modè<strong>le</strong> présenté dans <strong>le</strong> chapitre précédent. En particulier, <strong>le</strong> modè<strong>le</strong>pour <strong>le</strong>s données longitudina<strong>le</strong>s est <strong>le</strong> même. Néanmoins, pour plus de clarté, nousrappelons la forme du modè<strong>le</strong> pour <strong>le</strong>s données longitudina<strong>le</strong>s avant de définir <strong>le</strong>modè<strong>le</strong> pour la fonction de risque.5.1.1 Modè<strong>le</strong> pour <strong>le</strong>s données longitudina<strong>le</strong>sPour chaque sujet i, i = 1, ..., N et chaque marqueur k, k = 1, ..., K, n ik mesuressont col<strong>le</strong>ctées. Nous disposons donc des données y ijk mesurées aux temps t ijk , j =1, ..., n ik . Ces mesures sont liées au processus latent (Λ i (t)) t≥0 qui représente lacognition latente en temps continu par des fonctions de répartition Beta, notées h k


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 2 114et paramétrées par η k :ỹ ijk = h k (y ijk ; η k ) = Λ i (t ijk ) + α ik + ɛ ijk (5.1)où ỹ ijk est la variab<strong>le</strong> transformée par h k , α ik est une intercept aléatoire distribuéesuivant une loi norma<strong>le</strong> N (0, σα 2 k) et ɛ ijk sont des erreurs de mesure indépendantesdistribuées suivant une loi norma<strong>le</strong> N (0, σɛ 2 k).Le modè<strong>le</strong> <strong>à</strong> classes latentes est basé sur l’hypothèse qu’il existe G profils d’évolutiondu processus latent. Les G variab<strong>le</strong>s indicatrices latentes (c ig ) g=1,G définissentl’appartenance aux classes latentes, la probabilité d’appartenir <strong>à</strong> chaque classe étantmodélisée par une régression multinomia<strong>le</strong> dépendante de variab<strong>le</strong>s explicatives X 3i .Enfin, l’évolution du processus latent dans la classe g est définie suivant un modè<strong>le</strong>linéaire mixte :Λ i (t) | cig =1= Z(t) T u ig + X 1i (t) T β + X 2i (t) T γ g , t ≥ 0 (5.2)où Z(t) est <strong>le</strong> vecteur de variab<strong>le</strong>s dépendantes du temps associé au vecteur d’effetsaléatoires spécifiques <strong>à</strong> la classe u ig , distribués suivant une loi multivariée norma<strong>le</strong>N ( µ g , ωgB ) 2 avec ω 1 = 1. Les vecteurs de variab<strong>le</strong>s explicatives X 1i (t) et X 2i (t)sont respectivement associés au vecteur d’effets fixes β communs aux classes et auvecteur d’effets fixes γ g spécifiques aux classes. Aucune variab<strong>le</strong> explicative ne peutêtre présente simultanément dans <strong>le</strong>s deux vecteurs X 1i (t) et X 2i (t) pour des raisonsd’identifiabilité.5.1.2 Modè<strong>le</strong> de survie conjointQuelques notationsDans <strong>le</strong>s études épidémiologiques, <strong>le</strong> délai de survenue d’événement T ∗in’estgénéra<strong>le</strong>ment pas observé pour tous <strong>le</strong>s sujets, certains n’ayant pas subi l’événement<strong>à</strong> la fin de la fenêtre d’observation. Il s’agit du phénomène de censure <strong>à</strong> droite qu’il


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 2 115faut prendre en compte dans la modélisation de l’événement. On définit donc lavariab<strong>le</strong> binaire d’événement E i qui vaut 1 si <strong>le</strong> sujet i a subi l’événement dans lafenêtre d’étude et 0 sinon. Le délai de survie observé est T i = min(T ∗i , C i ) où C i est<strong>le</strong> temps de censure : T i = T ∗i si E i = 1 et T i = C i si E i = 0.Formulation généra<strong>le</strong> du modè<strong>le</strong> de survieNous proposons dans ce travail de modéliser <strong>le</strong> délai jusqu’<strong>à</strong> l’événement T ∗iparun modè<strong>le</strong> <strong>à</strong> risques proportionnels. Ainsi, dans chaque classe latente, la fonction derisque est définie de la façon suivante :λ(t | c ig = 1, X 4i ; ζ g , δ g ) = λ 0g (t; ζ g )e X 4iδg(5.3)où X 4i est <strong>le</strong> vecteur de variab<strong>le</strong>s explicatives associé au vecteur de paramètres δ gqui peut être différent dans chaque classe et λ 0g (t; ζ g ) est <strong>le</strong> risque instantané del’événement spécifique <strong>à</strong> la classe g dans <strong>le</strong>s modalités de référence des variab<strong>le</strong>sexplicatives (risque de base). La fonction de survie associée est :(S(t | c ig = 1, X 4i ; ζ g , δ g ) = exp −∫ t= S 0g (t; ζ g ) exp(X 4iδ g)0)λ(u | c ig = 1, X 4i ; ζ g , δ g )du(5.4)(où S 0g (t; ζ g ) = exp − ∫ )tλ 0 0g(u; ζ g ) est la fonction de survie dans <strong>le</strong>s modalités deréférence des variab<strong>le</strong>s explicatives.Simplifications du modè<strong>le</strong>Nous avons d’abord considéré un modè<strong>le</strong> de survie stratifié sur <strong>le</strong>s classes latentesc’est <strong>à</strong> dire des fonctions de risque de base λ 0g (t; ζ g ) spécifiques aux classes latentes.Cependant, d’une part cette stratification peut induire un nombre important de paramètreslorsque <strong>le</strong> nombre de classes latentes considéré est grand et, d’autre part


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 2 116cela ne permet pas de quantifier simp<strong>le</strong>ment l’augmentation de risque d’une classe<strong>à</strong> l’autre. Nous avons donc envisagé une deuxième spécification des fonctions derisque : <strong>le</strong> risque d’événement λ 0 (t; ζ) est défini dans la classe de référence puis <strong>le</strong>risque dans <strong>le</strong>s autres classes est proportionnel <strong>à</strong> celui de la classe de référence :λ 0g (t) = λ 0 (t; ζ)e δ 0gavec δ 01 = 0 si la classe 1 est la classe de référence. Ainsi, e δ 0gest <strong>le</strong> risque relatif d’événement pour la classe g par rapport <strong>à</strong> la classe de référence.Ensuite, que <strong>le</strong> modè<strong>le</strong> soit stratifié ou non, nous avons choisi une modélisationparamétrique de la fonction de risque. En effet, étant donné la comp<strong>le</strong>xité du modè<strong>le</strong>conjoint et notamment <strong>le</strong> nombre important de paramètres induit par <strong>le</strong>s tests psychométriqueset <strong>le</strong>s composantes latentes, nous avons préféré utiliser des lois simp<strong>le</strong>sdéfinies par peu de paramètres pour modéliser <strong>le</strong> risque. Quelques lois statistiquessont fréquemment utilisées en modè<strong>le</strong>s de survie, la loi exponentiel<strong>le</strong>, la loi de Weibull,la loi Gamma, <strong>le</strong> modè<strong>le</strong> log-normal ou <strong>le</strong> modè<strong>le</strong> log-logistique. Nous avonsopté dans ce travail pour la loi de Weibull définie comme suit :λ 0g (t; (ζ 1g , ζ 2g )) = ζ 1g ζ 2g (ζ 1g t) ζ 2g−1(5.5)Et la fonction de survie Weibull associée :S 0g (t; (ζ 1g , ζ 2g )) = e −(ζ 1gt) ζ 2g(5.6)Enfin, nous avons défini dans <strong>le</strong> modè<strong>le</strong> de survie (5.3), des paramètres δ g associésaux variab<strong>le</strong>s explicatives potentiel<strong>le</strong>ment différents d’une classe latente <strong>à</strong> l’autre.En effet, suivant l’objectif de l’application, on voudra :- soit <strong>le</strong>s considérer différents dans chaque classe, e δg représentant alors <strong>le</strong> risquerelatif d’événement dans la classe g pour une augmention d’une unité de lavariab<strong>le</strong> explicative correspondante après ajustement sur <strong>le</strong>s classes latentes- soit <strong>le</strong>s considérer communs aux classes, e δ représentant dans ce cas <strong>le</strong> risquerelatif d’événement pour une augmention d’une unité de la variab<strong>le</strong> explicativecorrespondante quel<strong>le</strong> que soit la classe latente d’appartenance, après ajustementsur <strong>le</strong>s classes latentes.


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 2 1175.2 Estimation du modè<strong>le</strong>5.2.1 VraisemblanceNotons θ, l’ensemb<strong>le</strong> des paramètres du modè<strong>le</strong> conjoint. En tenant compte del’hypothèse d’indépendance conditionnel<strong>le</strong> entre <strong>le</strong>s marqueurs longitudinaux et <strong>le</strong>délai de survie, et en utilisant la décomposition suivant <strong>le</strong>s classes latentes, la contributionindividuel<strong>le</strong> L i <strong>à</strong> la vraisemblance du modè<strong>le</strong> conjoint peut s’écrire de lamanière suivante :L i (θ) =G∑P (c ig = 1; θ)f(y i | c ig = 1; θ)λ(T i | c ig = 1; θ) E iS(T i | c ig = 1; θ) (5.7)g=1où P (c ig = 1; θ) = π ig est défini suivant <strong>le</strong> modè<strong>le</strong> multinomial : π ig =eξ 0g+X 3i ξ 1g∑ Gl=1 eξ 0l+X 3i ξ lg,et <strong>le</strong> risque λ(T i | c ig = 1; θ) ainsi que la survie S(T i | c ig = 1; θ) sont définis selon <strong>le</strong>modè<strong>le</strong> de Weibull.La densité des marqueurs longitudinaux dans la classe latente g, f(y i | c ig = 1; θ),est <strong>le</strong> produit de la densité multivariée norma<strong>le</strong> φ g (ỹ i ; θ) de la variab<strong>le</strong> transforméeỹ i et du jacobien des transformations des marqueurs J(y i ; θ) :f(y i | c ig = 1; θ) = f(ỹ i | c ig=1 ; θ)J(y i ; θ)= φ g (ỹ i ; θ)J(y i ; θ)(5.8)De l<strong>à</strong>, la log-vraisemblance L(θ) du modè<strong>le</strong> conjoint incluant un modè<strong>le</strong> de surviepour l’événement a l’écriture analytique suivante :L(θ) =(N∑ G)∑ln π ig × φ g (ỹ i ; θ) × (ζ 1g ζ 2g (ζ 1g T i ) ζ2g−1 e X 4iδ g) E ie −(ζ 1gT i ) ζ2g e X 4i δgi=1 g=1N∑− ln (J(y i ; θ)) (5.9)i=1Les estimateurs du maximum de vraisemblance ˆθ sont alors obtenus en maximisantcette expression <strong>à</strong> l’aide de l’algorithme de Marquardt présenté précédemment.


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 2 1185.2.2 Troncature <strong>à</strong> gaucheIl est très fréquent dans une étude de cohorte sur <strong>le</strong> vieillissement que <strong>le</strong>s sujetssoient inclus <strong>à</strong> la condition qu’ils n’aient pas subi l’événement avant l’âge d’entréedans l’étude. Pour tenir compte de cette troncature <strong>à</strong> gauche, <strong>le</strong>s paramètres doiventêtre estimés par maximisation de la vraisemblance conditionnel<strong>le</strong> <strong>à</strong> la troncature.La contribution individuel<strong>le</strong> <strong>à</strong> la vraisemblance L i doit donc être divisée par laprobabilité de survie jusqu’<strong>à</strong> l’inclusion dans l’étude T 0i :donc :L (2)i (θ) = L i(θ)S(T 0i ; θ)où S(T 0i ; θ) est la fonction de survie margina<strong>le</strong> en T 0i définie comme suit :S(T 0i ; θ) =G∑P (c ig = 1)f(T i ≥ T 0i | c ig = 1; θ) =g=1G∑π ig S 0g (T 0i ; θ) exp(X 4iδ g)g=1(5.10)(5.11)En cas de données tronquées <strong>à</strong> gauche, la log-vraisemblance <strong>à</strong> maximiser devientL (2) (θ) = L(θ) −(N∑ G)∑ln π ig e −(ζ 1gT 0i ) ζ 2g eX 4i δgi=1g=1(5.12)5.2.3 Classification et probabilité a posteriori de l’événementA partir des estimations ˆθ, nous pouvons calcu<strong>le</strong>r <strong>le</strong>s probabilités a posteriorid’appartenance aux classes latentes sachant <strong>le</strong>s données :- la probabilité ˆπ y,Tigd’appartenir <strong>à</strong> chaque classe latente g sachant <strong>à</strong> la fois <strong>le</strong>smesures répétées aux tests y i , <strong>le</strong>s variab<strong>le</strong>s explicatives x i et <strong>le</strong> délai jusqu’<strong>à</strong>l’événement ou jusqu’<strong>à</strong> la sortie d’étude T i :ˆπ y,Tig= P (c ig = 1 | y i , (T i , E i ), x i ; ˆθ)= P (c ig = 1 | x i ; ˆθ)f(y i , (T i , E i ) | c ig = 1, x i ; ˆθ)∑ Gl=1 P (c il = 1 | x i ; ˆθ)f(y i , (T i , E i ) | c il = 1, x i ; ˆθ)(5.13)


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 2 119- la probabilité ˆπ y igd’appartenir <strong>à</strong> chaque classe latente g sachant <strong>le</strong>s mesuresrépétées aux tests y i et <strong>le</strong>s variab<strong>le</strong>s explicatives x i définie comme suit :ˆπ y ig = P (c ig = 1 | y i , x i ; ˆθ) =P (c ig = 1 | x i ; ˆθ)f(y i | c ig = 1, x i ; ˆθ)∑ Gl=1 P (c il = 1 | x i ; ˆθ)f(y(5.14)i | c il = 1, x i ; ˆθ)A partir de l’une et l’autre des probabilités a posteriori, il est possib<strong>le</strong> de classer<strong>le</strong>s sujets dans la classe <strong>à</strong> laquel<strong>le</strong> ils ont la plus grande probabilité d’appartenir.La première classification, conditionnel<strong>le</strong> aux observations sur <strong>le</strong>s tests psychométriqueset <strong>le</strong> délai d’événement, permet de vérifier la bonne adéquation dumodè<strong>le</strong> aux données alors que la classification utilisant uniquement l’informationsur <strong>le</strong>s tests psychométriques permet d’évaluer la qualité de discrimination des testspsychométriques et est utilisée pour calcu<strong>le</strong>r la probabilité d’événement en fonctionde l’évolution des tests.De la même manière que dans <strong>le</strong> chapitre précédent, nous pouvons aussi prédire,<strong>à</strong> partir du modè<strong>le</strong> conjoint incluant un modè<strong>le</strong> de survie, la probabilité de survenuede démence en utilisant <strong>le</strong>s mesures longitudina<strong>le</strong>s de cognition y i et des variab<strong>le</strong>sexplicatives x i . Ainsi, <strong>à</strong> partir des paramètres estimés ˆθ, la probabilité de survenuede démence avant <strong>le</strong> temps t est calculée <strong>à</strong> partir de l’information sur <strong>le</strong>s tests avant<strong>le</strong> temps t, (y is ) s


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 2 120l’information sur <strong>le</strong>s tests psychométriques avant t.L’évaluation des capacités prédictrices d’un modè<strong>le</strong> de survie est compliquéepar <strong>le</strong> fait que la réponse observée est un temps de survie censuré (Heagerty etZheng, 2005). En effet, la sensibilité, la spécificité, la courbe ROC et l’AUC ne sontcalculab<strong>le</strong>s que pour des temps fixés. De plus, différentes définitions de la sensibilitéet de la spécificité ont été proposées en se basant soit sur la survie jusqu’en t, soit surla probabilité de connaître l’événement en t. Pour évaluer notre outil de détection dedémence, nous proposons de construire la courbe ROC associée <strong>à</strong> la probabilité dedémence avant t (définition cumulée/dynamique suivant Heagerty et Zheng, 2005).Parmi tous <strong>le</strong>s sujets ayant connu l’événement avant t et <strong>le</strong>s sujets étant encore<strong>à</strong> risque d’événement <strong>à</strong> t, nous calculons, <strong>à</strong> partir de l’information sur <strong>le</strong>s testsantérieure <strong>à</strong> t, (y is ) s


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 2 1215.3.1 Risque d’événement modélisé par des fonctions splinesLes B-splines sont des fonctions polynomia<strong>le</strong>s par morceaux que l’on combinede manière linéaire pour approcher une fonction inconnue sur un interval<strong>le</strong>. Leurméthodologie et <strong>le</strong>urs applications ont été décrites par De Boor (1978). Dans cetravail, nous utilisons des versions normalisées des B-splines, appelées M-splines. LesM-splines sont particulièrement bien adaptés pour modéliser la fonction de risque. Eneffet, ce sont des fonctions positives ou nul<strong>le</strong>s qui peuvent approcher <strong>le</strong> risque λ 0 (t)et <strong>le</strong>urs primitives, <strong>le</strong>s I-splines, sont des fonctions monotones croissantes adaptéespour approcher <strong>le</strong> risque cumulé Λ 0 (t) = ∫ t0 λ 0(u)du qui est utilisé dans <strong>le</strong> calcul dela fonction de survie. Les M-splines et I-splines ont été décrits dans plusieurs travaux(Ramsay, 1988 ; Joly, 1996).Notons t 1 , ..., t T , la séquence de noeuds des splines et k l’ordre des splines. Les M-splines et <strong>le</strong>s I-splines d’ordre k sont respectivement des polynômes de degré k − 1et de degré k. A partir de la séquence des T noeuds, m fonctions splines M i etI i (i = 1, m) sont définies par des équations de récurrence détaillées dans Ramsay(1988) et associées <strong>à</strong> un coefficient ζ i <strong>à</strong> estimer, <strong>le</strong> nombre de paramètres m <strong>à</strong> estimerétant T + k − 2. Les fonctions de risque λ(.) et Λ(.) sont ensuite définies comme unecombinaison linéaire des m fonctions splines :m∑λ(.) = ζ i M i (5.16)Λ(.) =i=1m∑ζ i I i avec ζ i ≥ 0 (5.17)i=1Une fonction estimée sur une base de splines peut avoir une grande variabilitéloca<strong>le</strong>, surtout lorsque <strong>le</strong> nombre de noeuds est important. En épidémiologie,la fonction de risque n’a généra<strong>le</strong>ment pas de raison d’avoir des variations loca<strong>le</strong>simportantes. Une manière de limiter <strong>le</strong>s variations loca<strong>le</strong>s est de pénaliser la vraisemblancedu modè<strong>le</strong> pour privilégier <strong>le</strong>s fonctions de risque lisses. La pénalisationest basée sur la dérivée seconde de la fonction <strong>à</strong> lisser. Comme nous utilisons une


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 2 122pénalisation par la dérivée seconde de la fonction de risque, nous avons opté dansce travail pour des M-splines d’ordre 4, c’est <strong>à</strong> dire des polynômes de degré 3 pourdécrire la fonction de risque.5.3.2 Vraisemblance pénaliséeLa log-vraisemblance pénalisée est la somme de la log-vraisemblance classiquedes observations dans <strong>le</strong> modè<strong>le</strong> et d’une pénalité qui est d’autant plus grande quela fonction <strong>à</strong> estimer a des variations loca<strong>le</strong>s importantes. Les estimateurs des paramètresobtenus en maximisant la log-vraisemblance pénalisée représentent donc <strong>le</strong>meil<strong>le</strong>ur compromis entre adéquation aux données et lissage de la courbe <strong>à</strong> estimer.Dans notre travail, la fonction <strong>à</strong> lisser étant la fonction de risque, nous pénalisonsla log-vraisemblance par la norme L 2 de la dérivée seconde du risque λ 0 (.). La logvraisemblancepénalisée a donc la forme suivante :∫L p (θ; κ) = L(θ) + κ λ ′′0(u; θ) 2 du (5.18)toù κ est <strong>le</strong> paramètre de lissage qui contrô<strong>le</strong> <strong>le</strong> poids donné <strong>à</strong> la pénalisation parrapport <strong>à</strong> la log-vraisemblance. L’intégra<strong>le</strong> ∫ t λ′′ 0(u; θ) 2 du calculée sur <strong>le</strong> support destemps d’observation est la norme L 2 de la dérivée seconde de la fonction de risque.La log-vraisemblance L(θ) a la même forme que cel<strong>le</strong> présentée précédemment enéquations (5.9) ou (5.12) <strong>à</strong> la différence près que <strong>le</strong> risque λ(T i ; θ) et <strong>le</strong>s fonctionsde survie S(T i ; θ) et S(T 0i ; θ) sont définis <strong>à</strong> partir de fonctions splines par (5.16) et(5.17).Pour réduire <strong>le</strong> nombre de paramètres <strong>à</strong> estimer, nous n’avons pas considéré <strong>le</strong>modè<strong>le</strong> de survie stratifié sur <strong>le</strong>s classes latentes dans l’approche semi-paramétrique.Nous estimons la fonction de risque dans la classe de référence et supposons que <strong>le</strong>srisques dans <strong>le</strong>s autres classes sont proportionnels.


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 2 1235.3.3 Choix du critère de lissageL’estimation du paramètre de lissage κ représente la difficulté majeure de cetteapproche par rapport au modè<strong>le</strong>. On peut choisir de fixer <strong>le</strong> paramètre de lissageκ, auquel cas la log-vraisemblance pénalisée peut être maximisée de manière classiquepar l’algorithme de Marquardt. Cependant, choisir κ de manière subjectivepeut se révé<strong>le</strong>r délicat car son ordre de grandeur dépend beaucoup des données. Ilpeut donc être plus intéressant d’estimer <strong>le</strong> paramètre de lissage afin d’obtenir uneméthode automatique d’estimation du modè<strong>le</strong> par vraisemblance pénalisée. La validationcroisée permet d’estimer <strong>le</strong> paramètre κ. El<strong>le</strong> consiste <strong>à</strong> optimiser suivant κ,la somme des contributions individuel<strong>le</strong>s <strong>à</strong> la log-vraisemblance L i de chaque sujeti <strong>à</strong> partir des estimateurs, ˆθ −i , obtenus en excluant <strong>le</strong> sujet i :V (κ) = − 1 NN∑L i (ˆθ −i , κ) (5.19)i=1Pour chaque va<strong>le</strong>ur de κ, cette méthode nécessite l’estimation d’autant de modè<strong>le</strong>sque de sujets dans l’échantillon. El<strong>le</strong> est donc extrêmement coûteuse en temps decalcul. Une approximation de V (κ) a été proposée par O’Sullivan (1988) et étendueaux données tronquées et censurées par Joly (1996). Il s’agit d’approcher <strong>le</strong>s paramètresˆθ −i <strong>à</strong> partir de l’estimateur obtenu sur l’échantillon entier ˆθ afin d’éviterl’estimation des N modè<strong>le</strong>s par va<strong>le</strong>ur de κ. Cette technique consiste <strong>à</strong> approcherla quantité V (κ) par un développement du premier ordre de L i (ˆθ −i , κ) autour deL(ˆθ, κ), la log-vraisemblance <strong>à</strong> l’optimum pour l’ensemb<strong>le</strong> de l’échantillon :¯V (κ) = − 1 (( [Ĥ ] ))−1L(ˆθ, κ) + trace − 2κΩ ĤN(5.20)où Ĥ est la matrice Hessienne <strong>à</strong> l’optimum pour l’ensemb<strong>le</strong> de l’échantillon et Ω est lamatrice des dérivées secondes par rapport aux paramètres du terme de pénalisation.Cette méthode basée sur l’optimisation de ¯V (κ) nécessite uniquement l’estimationdu modè<strong>le</strong> sur l’échantillon entier pour chaque va<strong>le</strong>ur de κ. L’estimateur ˆκ est


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 2 124ensuite obtenu en minimisant ¯V (κ), soit <strong>à</strong> l’aide d’une gril<strong>le</strong> de va<strong>le</strong>urs pour κ soitpar un algorithme de minimisation. Cette méthode a été implémentée dans <strong>le</strong> programmephmpl (Joly et al., 1999) pour l’estimation de la fonction de risque modéliséepar des splines dans <strong>le</strong> cas de données tronquées et censurées.Dans notre approche, estimer <strong>le</strong> paramètre de lissage en utilisant cette techniquenécessiterait l’estimation du modè<strong>le</strong> conjoint sur toute une gril<strong>le</strong> de va<strong>le</strong>urs, ce quin’est pas envisageab<strong>le</strong> étant donné la comp<strong>le</strong>xité numérique de notre modè<strong>le</strong> et latail<strong>le</strong> de notre échantillon d’application. Nous avons donc opté pour une techniqueintermédiaire de sé<strong>le</strong>ction du paramètre de lissage : nous utilisons <strong>le</strong> programmephmpl sur <strong>le</strong> modè<strong>le</strong> de survie sans classe latente et sans données longitudina<strong>le</strong>s.Cela nous donne un ordre de grandeur pour <strong>le</strong> paramètre κ que nous pouvons utiliserdans <strong>le</strong> modè<strong>le</strong> conjoint. Nous pouvons ensuite ajuster la va<strong>le</strong>ur de κ si nécessaireau vu des fonctions de risque estimées.5.4 Analyse de l’adéquationLes modè<strong>le</strong>s <strong>à</strong> classes latentes étant des modè<strong>le</strong>s paramétriques comp<strong>le</strong>xes, nousdétaillons dans cette section trois méthodes permettant d’évaluer l’adéquation dumodè<strong>le</strong>. La première technique consiste <strong>à</strong> évaluer la qualité de la classification dessujets dans <strong>le</strong>s classes latentes. La deuxième consiste <strong>à</strong> confronter <strong>le</strong>s prédictionsdu modè<strong>le</strong> mixte aux données observées et la troisième méthode vise <strong>à</strong> évaluerl’ajustement du modè<strong>le</strong> de survie.5.4.1 Qualité de classificationQuelques méthodes ont été proposées pour tester la qualité de la classificationdans un modè<strong>le</strong> <strong>à</strong> classes latentes (Muthén et al., 2002 ; Lin et al., 2004). En effet,une bonne classification a posteriori indique une bonne adéquation du modè<strong>le</strong> auxdonnées. Ces méthodes sont basées sur <strong>le</strong> principe qu’une classification est d’autant


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 2 125meil<strong>le</strong>ure que <strong>le</strong>s probabilités a posteriori d’appartenir aux classes sont prochesde 1 et de 0. Muthén et al. (2002) ont ainsi proposé de calcu<strong>le</strong>r, pour <strong>le</strong>s sujetsclassés dans une classe a posteriori, la moyenne des probabilités a posteriori d’yappartenir (el<strong>le</strong> doit être la plus proche de 1 possib<strong>le</strong>) et <strong>le</strong>s moyennes des probabilitésd’appartenir aux autres classes (el<strong>le</strong>s doivent être <strong>le</strong>s plus faib<strong>le</strong>s possib<strong>le</strong>s). De façonplus généra<strong>le</strong>, certains auteurs (Lin et al., 2004) proposent d’examiner la distributiondes probabilités a posteriori plutôt que <strong>le</strong>ur moyenne pour évaluer la qualité declassification.5.4.2 Prédictions dans l’échel<strong>le</strong> des marqueursPour évaluer si <strong>le</strong> modè<strong>le</strong> s’ajuste bien aux données, nous proposons aussi de comparerl’évolution prédite pour chaque marqueur et chaque classe latente <strong>à</strong> l’évolutionobservée, en distinguant l’évolution prédite margina<strong>le</strong> de l’évolution prédite conditionnel<strong>le</strong>mentaux effets aléatoires individuels. Dans notre approche, <strong>le</strong>s prédictionsissues du modè<strong>le</strong> mixte ne sont pas directement obtenues dans l’échel<strong>le</strong> des testsmais el<strong>le</strong>s sont calculées par intégration numérique comme décrit dans <strong>le</strong> chapitreIII (page 69). Les prédictions sont calculées conditionnel<strong>le</strong>ment aux classes latentespuis la moyenne sur l’ensemb<strong>le</strong> des sujets d’une classe d’âge est calculée en pondérantpar <strong>le</strong>s probabilités a posteriori ˆπ y ig d’appartenir <strong>à</strong> la classe latente g. Ainsi, nouspouvons calcu<strong>le</strong>r dans chaque tranche d’âge, la moyenne pondérée des prédictionspour chaque test et chaque classe latente. Nous obtenons ainsi l’évolution moyenneprédite par test psychométrique et par classe latente que nous pouvons comparer <strong>à</strong>l’évolution moyenne des observations pondérée par <strong>le</strong>s (ˆπ y ig ) g=1,G.5.4.3 Courbes de survie préditesPour évaluer l’adéquation des modè<strong>le</strong>s de survie, nous avons envisagé deux analysesa posteriori. La première consiste <strong>à</strong> évaluer l’hypothèse de risque proportionne<strong>le</strong>ntre <strong>le</strong>s classes latentes par <strong>le</strong> biais de la courbe de survie prédite spécifique <strong>à</strong> chaque


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 2 126classe latente :Ŝ(t | c = g, X) = e −(ζ 1gt) ζ 2g e δX (5.21)Cette courbe est comparée <strong>à</strong> la courbe de survie issue d’un modè<strong>le</strong> semi-paramétriqueincluant X en variab<strong>le</strong>s explicatives et estimé sur <strong>le</strong> sous-échantillon des sujetsclassés a posteriori dans la classe g.La deuxième méthode consiste <strong>à</strong> évaluer si, margina<strong>le</strong>ment aux classes latentes,la fonction de risque paramétrique choisie s’ajuste bien aux données. Pour cela, oncalcu<strong>le</strong> la courbe de survie margina<strong>le</strong> prédite :Ŝ(t | X) =G∑Ŝ(t | c = g, X)P (c = g | X) (5.22)g=1Cette courbe estimée est comparée <strong>à</strong> la courbe de survie issue d’un modè<strong>le</strong> semiparamétriqueestimé sur toutes <strong>le</strong>s données et incluant X en variab<strong>le</strong>s explicatives.Quel<strong>le</strong> que soit l’analyse, <strong>le</strong>s courbes de survie sont comparées pour chaque combinaisonde variab<strong>le</strong>s explicatives X.5.5 Etude de simulationCette section est dédiée <strong>à</strong> une étude de simulation que nous avons réaliséeafin d’évaluer la qualité des estimateurs du maximum de vraisemblance du modè<strong>le</strong>conjoint paramétrique. Nous présentons d’abord la méthode utilisée pour simu<strong>le</strong>r<strong>le</strong>s échantillons puis exposons <strong>le</strong>s résultats de l’étude.5.5.1 Génération des donnéesDans cette étude, nous considérons un modè<strong>le</strong> <strong>à</strong> deux classes latentes et simulonsdeux marqueurs quantitatifs longitudinaux. Le modè<strong>le</strong> de simulation est <strong>le</strong> suivant :


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 2 127Λ i (t) | cig =1 = µ 0g + u 0i + (µ 1g + u 1i ) × t⎛ ⎞ ⎛⎛avec u i = ⎝ u 0i⎠ ∼ N ⎝⎝ 0u 1i 0⎞⎠ ,⎛⎝ σ2 0 = 0.009 00 σ 2 1 = 0.001⎞⎞⎠⎠et µ 01 = 0.6, µ 02 = 0.55, µ 11 = 0, µ 12 = −0.1(5.23)λ(t) | cig =1 = ζ 1g ζ 2g (ζ 1g t) ζ 2g−1avec ζ 11 = 0.0225, ζ 12 = 0.0576, ζ 21 = 3.24, ζ 22 = 2.25(5.24)h k (Y ijk ; (η (k)1 , η (k)2 )) = Λ i (t ijk ) + ɛ ijkavec η (1)1 = 0.49, η (1)2 = 0.81, η (2)1 = 0.81, η (2)2 = 0.64et ɛ ijk ∼ iid N (0, σ 2(k)ɛ = 0.0009), k = 1, 2(5.25)P (c i1 = 1) = π 1 = 0.75 et P (c i2 = 1) = 1 − π 1 = 0.25 (5.26)Les échantillons simulés sont constitués de 200 sujets et pour chaque sujet, lasimulation des données se fait en trois temps. Nous commençons par simu<strong>le</strong>r l’appartenance<strong>à</strong> la classe latente (c ig ) g=1,2 suivant une distribution de Bernouilli deprobabilité π 1 , <strong>le</strong> temps d’entrée dans l’étude T 0i suivant une distribution uniformesur [0, 10], <strong>le</strong> temps d’événement T ∗isuivant la loi de Weibull de la classe d’appartenanceet <strong>le</strong> temps de censure C i suivant une loi uniforme sur [T 0i , 30]. On peut ainsiconstruire <strong>le</strong> coup<strong>le</strong> (T i , E i ).Ensuite, <strong>le</strong>s temps de mesure des marqueurs sont définis par t i1k = T 0i et t ijk =min(t ij−1k + 3; T i ) tant que t ij−1k< T i . Le nombre et <strong>le</strong>s temps de mesure sont<strong>le</strong>s mêmes pour <strong>le</strong>s deux marqueurs d’un même sujet mais ils diffèrent d’un sujet <strong>à</strong>l’autre.Enfin, la troisième étape consiste <strong>à</strong> simu<strong>le</strong>r <strong>le</strong>s mesures répétées des 2 marqueurslongitudinaux y i1 et y i2 <strong>à</strong> partir des temps de mesure comme décrit dans la section3.2.1 du chapitre III.


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 2 1285.5.2 Résultats de l’étude de simulationSur <strong>le</strong>s 200 simulations réalisées, <strong>le</strong>s sujets avaient en moyenne 5.53 mesuresrépétées dans la première classe et 4.14 dans la deuxième classe, <strong>à</strong> risque plus é<strong>le</strong>véd’événement. Les sujets entraient dans l’étude en moyenne au temps 5.01 dans lapremière classe et 4.98 dans la deuxième classe et sortaient de l’étude en moyenneau temps 17.09 dans la première classe et 12.86 dans la deuxième classe. Enfin, 7.3%connaissaient l’événement dans la première classe contre 56.2% dans la deuxièmeclasse, ce qui représentait 19.4% d’événement dans l’échantillon. Le tab<strong>le</strong>au 5.1donne <strong>le</strong>s résultats des 200 simulations en termes d’estimations moyennes, biaiset taux de couverture.La probabilité π 1 ainsi que <strong>le</strong>s paramètres des risques d’événement dans chaqueclasse latente (ζ 1g , ζ 2g ) g=1,2 sont correctement estimés. Le biais moyen ne dépassepas 5% et <strong>le</strong>s taux de couverture sont proches de 95%. Par cette étude de simulation,il semb<strong>le</strong> donc que <strong>le</strong> modè<strong>le</strong> nonlinéaire conjoint <strong>à</strong> classes latentes incluantun modè<strong>le</strong> de survie <strong>à</strong> entrée retardée donne de bons résultats. Néanmoins, il est <strong>à</strong>noter que nous avons choisi ici des paramètres d’évolution des marqueurs n’induisantpas de troncatures aux bornes 0 et 1 des lois Beta. On peut imaginer que, de lamême manière que dans <strong>le</strong> modè<strong>le</strong> non conjoint, des paramètres induisant des troncaturespuissent donner de moins bons résultats sur <strong>le</strong>s estimations des paramètreslongitudinaux.5.6 Application : profils de déclin cognitif associésau risque de démence5.6.1 Objectif de l’étudeCette application avait pour objectif d’étudier l’association entre l’évolution cognitivereprésentée par <strong>le</strong> facteur commun <strong>à</strong> trois tests psychométriques (IST15,


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 2 129Tab. 5.1 – Estimation moyenne, biais relatif, écart-type (ET) empirique, écart-type(ET) asymptotique moyen et taux de couverture des 200 simulations de modè<strong>le</strong>conjoint avec modè<strong>le</strong> de survie réalisées sur des échantillons de 200 sujets.paramètre va<strong>le</strong>ur estimation biais ET ET asymptotique taux desimulée moyenne relatif empirique moyen couvertureπ 1 1.099 1.052 -0.042 0.242 0.239 0.92χ 11 0.15 0.147 -0.022 0.022 0.019 0.91χ 12 1.8 1.876 0.042 0.529 0.371 0.95χ 21 0.24 0.240


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 2 130BVRT et DSST) et <strong>le</strong> risque de démence en fonction de l’âge.5.6.2 Les données d’applicationA partir des 3777 sujets de la cohorte PAQUID, nous avons sé<strong>le</strong>ctionné <strong>le</strong>s sujetsnon déments et vivant en Gironde <strong>à</strong> l’inclusion (T0). Pour <strong>le</strong>s sujets ayant eu undiagnostic de démence pendant <strong>le</strong> suivi, <strong>le</strong>urs mesures aux tests psychométriques col<strong>le</strong>ctéesaprès <strong>le</strong> diagnostic ont été éliminées. Enfin, l’échantillon inclut uniquement <strong>le</strong>ssujets ayant au moins une mesure répétée <strong>à</strong> chacun des trois tests psychométriquespendant <strong>le</strong> suivi, c’est <strong>à</strong> dire entre <strong>le</strong>s visites T0 et T13. Nous avons ainsi sé<strong>le</strong>ctionnéun échantillon de 2383 sujets incluant 355 déments incidents et 2028 sujets nondémentsau dernier suivi.Cet échantillon est constitué de 1382 (58%) femmes et de 692 (29%) sujets sansCEP. L’âge <strong>à</strong> l’entrée dans l’étude et l’âge <strong>à</strong> la dernière visite sont décrits dans <strong>le</strong>tab<strong>le</strong>au 5.2. L’âge moyen au dernier suivi pour <strong>le</strong>s sujets non-déments est plus faib<strong>le</strong>que pour <strong>le</strong>s sujets déments car 16.8% des sujets non-déments n’ont été vus qu’<strong>à</strong> lavisite T0 (voir tab<strong>le</strong>au 5.3).5.6.3 Spécification du modè<strong>le</strong> conjointNous avons considéré une évolution quadratique de l’âge pour <strong>le</strong> facteur communafin de prendre en compte des déclins cognitifs non linéaires. Le modè<strong>le</strong> inclut <strong>le</strong>sdeux variab<strong>le</strong>s explicatives usuel<strong>le</strong>s : <strong>le</strong> sexe et <strong>le</strong> niveau d’éducation en deux classes(obtention du certificat d’études primaires (CEP) ou non). El<strong>le</strong>s sont incluses uniquementdans <strong>le</strong>s probabilités d’appartenir aux classes latentes et dans <strong>le</strong> risque dedémence après ajustement sur <strong>le</strong>s classes afin de décrire <strong>le</strong>s profils de déclin uniquementen fonction de l’âge. Neanmoins, comme nous avons conservé <strong>le</strong>s mesures destests psychométriques en T0, <strong>le</strong> modè<strong>le</strong> longitudinal comporte un effet propre <strong>à</strong> la


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 2 131Tab. 5.2 – Age d’entrée dans l’étude et âge de sortie de l’étude en fonction de lasurvenue d’une démence incidente dans l’échantillon PAQUID (2383 sujets)Effectif Moyenne Ecart-typeAge <strong>à</strong> l’entrée dans l’étude :Déments 355 76.18 5.82Non déments 2028 73.88 6.37Total 2383 74.21 6.35Age de démence ou de censure :Déments 355 85.04 5.77Non déments 2028 80.25 6.83Total 2383 80.97 6.90Tab. 5.3 – Suivi de sortie d’étude suivant <strong>le</strong> statut démentiel dans l’échantillon de2383 sujetsDernier suivi Nombre de Déments Nombre de non-déments Total0 0 340 3401 10 234 2443 45 236 2815 41 268 3098 45 181 22610 100 198 29813 114 571 685Total 355 2028 2383


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 2 132première visite qui permet de prendre en compte l’effet de primo-passation des tests.En effet, une amélioration généra<strong>le</strong> aux tests psychométriques a été observée dansPAQUID entre <strong>le</strong>s visites T0 et T1 (Jacqmin-Gadda et al., 1997a), cette améliorationpouvant être expliquée par <strong>le</strong> stress de la première évaluation cognitive <strong>à</strong> T0.Le modè<strong>le</strong> conjoint considéré ici peut donc être résumé de la manière suivante :Λ i (t) | cig =1= µ 0g + u 0gi + (µ 1g + u 1gi ) × AGE i + (µ 2g + u 2gi ) × AGE 2 i + βI t=T0iλ(t) | cig =1= λ 0g (t)e SEXE iδ 1 +CEP i δ 2h k (Y ijk ; (η (k)1 , η (k)2 )) = Λ i (t ijk ) + ɛ ijkP (c ig = 1) =eξ 0g+SEXE i ξ 1g +CEP i ξ 2g∑ Gl=1 eξ 0l+SEXE i ξ 1l +CEP i ξ 2loù u ig = (u 0gi , u 1gi , u 2gi ) T ∼ N (0, ω 2 B) et λ 0g (t) est défini suivant un modè<strong>le</strong> deWeibull.5.6.4 RésultatsAnalyse préliminaire : choix du modè<strong>le</strong> de survieCette analyse préliminaire avait pour objectif de sé<strong>le</strong>ctionner la meil<strong>le</strong>ure spécificationdu modè<strong>le</strong> de survie : soit un modè<strong>le</strong> stratifié sur <strong>le</strong>s classes, soit un modè<strong>le</strong><strong>à</strong> risques proportionnels entre <strong>le</strong>s classes. Nous avons pour cela estimé, pour chacunedes deux spécifications, un modè<strong>le</strong> conjoint légèrement simplifié (sans variab<strong>le</strong>explicative et avec ω g = 1, ∀g) et pour un nombre de classes latentes variant de 1 <strong>à</strong>5. Le tab<strong>le</strong>au 5.4 présente la log-vraisemblance et <strong>le</strong>s critères AIC et BIC pour <strong>le</strong>sdifférents modè<strong>le</strong>s estimés.Le modè<strong>le</strong> conjoint avec un risque de démence stratifié sur <strong>le</strong>s classes latentes,bien que plus soup<strong>le</strong> que <strong>le</strong> modè<strong>le</strong> avec des risques de démence proportionnels entre


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 2 133Tab. 5.4 – Adéquation du modè<strong>le</strong> conjoint non ajusté suivant la spécification durisque de démence et <strong>le</strong> nombre de composantes G (nombre de paramètre p, logvraisemblanceL et <strong>le</strong>s critères AIC et BIC)Modè<strong>le</strong> <strong>à</strong> risques proportionnelsModè<strong>le</strong> stratifiéG p L AIC BIC p L AIC BIC2 28 -67712.01 135480.0 135641.8 29 -67711.6 135481.3 135648.83 33 -67630.72 135327.4 135518.1 35 -67629.5 135329.0 135531.24 38 -67596.62 135269.2 135488.7 41 -67596.2 135274.4 135511.35 43 -67579.45 135244.9 135493.3 47 -67573.0 135240.1 135511.5<strong>le</strong>s classes, améliore très peu l’adéquation aux données. Les vraisemblances des deuxmodè<strong>le</strong>s sont très proches quel que soit <strong>le</strong> nombre de classes latentes, et l’AIC et <strong>le</strong>BIC du modè<strong>le</strong> <strong>à</strong> risques proportionnels sont toujours meil<strong>le</strong>urs que ceux du modè<strong>le</strong>stratifié correspondant (<strong>à</strong> l’exception de l’AIC pour <strong>le</strong> modè<strong>le</strong> <strong>à</strong> 5 classes latentes).De plus, <strong>le</strong> critère du BIC, conduit dans <strong>le</strong>s deux cas <strong>à</strong> retenir un modè<strong>le</strong> <strong>à</strong> 4 classes.Dans ce modè<strong>le</strong> <strong>à</strong> 4 classes latentes, nous avons tenté de comparer <strong>le</strong>s risquesobtenus par <strong>le</strong> modè<strong>le</strong> de Weibull <strong>à</strong> ceux obtenus avec une fonction de risque décritepar des splines. Le modè<strong>le</strong> utilisant des splines était néanmoins trop compliqué etl’estimation n’a pas abouti au bout de 500 iterations.Description du modè<strong>le</strong> conjoint avec variab<strong>le</strong>s explicativesAprès avoir choisi un modè<strong>le</strong> <strong>à</strong> risques proportionnels pour <strong>le</strong> risque de démence,nous avons estimé <strong>le</strong> modè<strong>le</strong> conjoint comp<strong>le</strong>t pour un nombre de classes latentesvariant de 1 <strong>à</strong> 6 et, d’après <strong>le</strong> critère du BIC, <strong>le</strong> modè<strong>le</strong> <strong>à</strong> 5 classes a été retenu (voirtab<strong>le</strong>au 5.5). Les évolutions prédites dans <strong>le</strong>s 5 classes latentes sont représentées enfigure 5.1.On observe un déclin des fonctions cognitives dans toutes <strong>le</strong>s classes latentes mais


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 2 134Tab. 5.5 – Adéquation du modè<strong>le</strong> conjoint ajusté avec <strong>le</strong> risque de démence proportionneld’une classe <strong>à</strong> l’autre (nombre de classes latentes G, nombre de paramètrep, log-vraisemblance L, critère du BIC et aire sous la courbe ROC <strong>à</strong> plusieurs âges(AUC(t)) ; pour chaque âge, N est <strong>le</strong> nombre total de sujets utilisés et n <strong>le</strong> nombrede sujets déments.AUCG p L BIC 70 ans 75 ans 80 ans 85 ans 90 ans 95 ans(N=619) (N=868) (N=872) (N=636) (N=437) (N=369)(n=48) (n=111) (n=179) (n=246) (n=306) (n=344)2 34 -67390.49 135045.38 0.710 0.747 0.751 0.743 0.796 0.8083 42 -67262.12 134850.83 0.755 0.786 0817 0.843 0.865 0.8494 50 -67186.32 134761.43 0.703 0.765 0.809 0.844 0.883 0.8855 58 -67141.29 134733.60 0.655 0.763 0.819 0.847 0.896 0.9106 66 -67115.15 134743.53 0.656 0.754 0.824 0.849 0.899 0.912


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 2 1350.80.70.60.5processus latent0.40.30.20.1 classe 1classe 2classe 3classe 4classe 5065 70 75 80 85 90 95age (annees)Fig. 5.1 – Evolutions prédites du processus latent dans <strong>le</strong>s 5 classes latentes dumodè<strong>le</strong> conjoint.10.8probabilite de survie0.60.40.2classe 1classe 2classe 3classe 4classe 5065 70 75 80 85 90 95age (annees)Fig. 5.2 – Fonctions de survie prédites dans <strong>le</strong>s 5 classes latentes du modè<strong>le</strong> conjoint.


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 2 136avec des niveaux initiaux et des formes et intensités de déclin différentes. Ainsi, <strong>le</strong>sclasses 1 et 3 partent d’un niveau initial <strong>à</strong> 65 ans très é<strong>le</strong>vé mais la classe 3 a undéclin beaucoup plus marqué avec l’âge que la classe 1. Avec un niveau initial <strong>à</strong> 65ans plus faib<strong>le</strong>, on observe la même différence pour <strong>le</strong>s classes 2 et 4 : la classe 4 a undéclin avec l’âge beaucoup plus prononcé. Enfin, la classe 5 est caractérisée par uneffondrement de la cognition, <strong>le</strong> niveau minimum de cognition étant atteint autourde 83 ans. Par rapport <strong>à</strong> la classe 1 prise en référence, la classe 2 a une variabilitéplus faib<strong>le</strong> d’un facteur ω2 2 = 0.822 2 = 0.675 (p = 0.0066) alors que la variabilitédans la classe 5 est nettement plus grande que dans la classe 1 (ω5 2 = 1.768 2 = 3.124,p = 0.0009). La variance des effets aléatoires dans <strong>le</strong>s classes 3 et 4 n’est pas différentede cel<strong>le</strong> dans la classe 1 (ω2 2 = 0.968 2 = 0.938, p = 0.383 et ω4 2 = 0.985 2 = 0.970,p = 0.395).Les fonctions de survie associées aux classes latentes (figure 5.2) montrent que<strong>le</strong>s risques de démence sont très différents suivant <strong>le</strong>s classes latentes. Les classes 1 et2 ont des risques de démence assez faib<strong>le</strong> avec des probabilités de démence <strong>à</strong> 85 ansde moins de 1% et de 4.4% respectivement. Les classes 3 et 4 sont ensuite associées<strong>à</strong> des risques plus importants de démence, <strong>le</strong>s probabilités de démence étant respectivementde 24% et 62% <strong>à</strong> 85 ans et atteignant 1 <strong>à</strong> 91 et 95 ans. Enfin, la classe 5est associée au plus grand risque de démence avec une probabilité de démence quiatteint 1 dès 85 ans.D’après <strong>le</strong>s estimations du modè<strong>le</strong> présentées dans <strong>le</strong> tab<strong>le</strong>au 5.6, ces classeslatentes sont uniquement expliquées par <strong>le</strong> niveau d’études, <strong>le</strong> sexe n’étant pasprédicteur de l’appartenance aux classes latentes. Ainsi, <strong>le</strong>s sujets n’ayant pas <strong>le</strong>CEP ont un risque extrêmement é<strong>le</strong>vé d’être dans <strong>le</strong>s classes 2, 4 et 5 plutôt quedans la classe 1. En fait, l’obtention du CEP discrimine presque parfaitement <strong>le</strong>sclasses latentes. Les classes 1 et 3 sont des classes de sujets ayant <strong>le</strong> CEP, la classe1 étant associée <strong>à</strong> un risque très faib<strong>le</strong> de démence et la classe 3 <strong>à</strong> un risque plus


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 2 137Tab. 5.6 – Estimations (écart-type) du modè<strong>le</strong> conjoint ajusté <strong>à</strong> 5 classes latentes.EstimationsEstimations spécifiques aux classes latentesParamètre communes 1 2 3 4 5Probabilité d’appartenir aux classes latentes :Intercept 0 4.338 -10.944 3.714 2.104(0.942) (88.284) (0.947) (0.975)Sexe † (p = 0.084) 0 -0.991 -0.155 -0.503 -0.245(0.307) (0.230) (0.392) (0.315)CEP ‡ (p < 0.0001) 0 -5.535 9.932 -7.163 -4.435Risque de démence :√ζ1 0.099 (0.001)(0.983) (88.286) (1.272) (0.960)√ζ2 5.302 (0.284)δ 0g 1 1.879 3.686 4.927 6.572(0.337) (0.337) (0.418) (0.401)Sexe † -0.129 (0.145)CEP ‡ 0.787 (0.269)Modè<strong>le</strong> longitudinal :Intercept 0.696 0.565 0.684 0.521 0.574(0.0096) (0.012) (0.016) (0.018) (0.031)Âge -0.0289 -0.0300 -0.0374 -0.0034 0.129(0.0075) (0.012) (0.0223) (0.0197) (0.057)Âge 2 -0.018 -0.0135 -0.0497 -0.0489 -0.245(0.0026) ( 0.0039) (0.111) (0.0083) (0.032)Première visite T0 -0.017 (0.001)† Femmes en référence‡ Sujets n’ayant pas <strong>le</strong> CEP en référence


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 2 138é<strong>le</strong>vé de démence. Par contre, <strong>le</strong>s classes 2, 4 et 5 associées <strong>à</strong> des risques croissantsde démence sont principa<strong>le</strong>ment constituées de sujets n’ayant pas obtenu <strong>le</strong> CEP.Après ajustement sur <strong>le</strong>s classes latentes, <strong>le</strong> CEP a un effet significatif sur <strong>le</strong>risque de démence. Si l’hypothèse d’indépendance conditionnel<strong>le</strong> entre démence etévolution des marqueurs est respectée, c’est <strong>à</strong> dire si l’ajustement sur <strong>le</strong>s classeslatentes dans <strong>le</strong> modè<strong>le</strong> de survie (5.3) permet de prendre en compte tota<strong>le</strong>ment ladépendance entre risque de démence et l’évolution cognitive, on peut interpréter cerésultat comme suit : <strong>à</strong> niveau cognitif égal, <strong>le</strong>s sujets ayant <strong>le</strong> CEP ont un risqueplus é<strong>le</strong>vé d’être diagnostiqués déments que <strong>le</strong>s sujets n’ayant pas <strong>le</strong> CEP.Classification et probabilité a posteriori de démenceQuel<strong>le</strong> que soit la classification a posteriori, la proportion de sujets déments danschaque classe latente est très variab<strong>le</strong> (tab<strong>le</strong>au 5.7) et suit <strong>à</strong> peu près <strong>le</strong> gradient desfonctions de survie estimées (figure 5.2). Le tab<strong>le</strong>au 5.8 confirme que l’obtention duCEP discrimine très bien <strong>le</strong>s classes latentes : <strong>le</strong>s sujets classés dans <strong>le</strong>s classes 1 et 3ayant tous <strong>le</strong> CEP et la plupart des sujets classés dans <strong>le</strong>s classes 2 et 4 n’ayant pas<strong>le</strong> CEP. Peu de différence est observée dans <strong>le</strong>s classes suivant <strong>le</strong> sexe, excepté pour<strong>le</strong> classe 2 qui inclut une part importante de femmes comparée aux autres classes.Pour évaluer la probabilité de démence estimée par <strong>le</strong> modè<strong>le</strong> comme outil dedétection de la démence, nous avons calculé l’AUC associée <strong>à</strong> la courbe ROC pourdifférents âges (70, 75, 80, 85, 90 et 95 ans) et pour <strong>le</strong>s modè<strong>le</strong>s de 2 <strong>à</strong> 6 classeslatentes (tab<strong>le</strong>au 5.5). Les AUC varient avec l’âge auquel el<strong>le</strong>s sont calculées. Apartir de 80 ans, l’AUC augmente avec <strong>le</strong> nombre de classes. Par contre, avant 80ans, l’AUC du modè<strong>le</strong> <strong>à</strong> 5 classes est légèrement moins bon que cel<strong>le</strong>s des modè<strong>le</strong>s<strong>à</strong> 3 et 4 classes mais il faut noter que <strong>le</strong> nombre de déments est très faib<strong>le</strong> dans ces


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 2 139Tab. 5.7 – Répartition des sujets déments et non-déments dans chaque classe latenteselon la classification a posteriori utilisée : soit conditionnel<strong>le</strong>ment aux observationssur <strong>le</strong>s tests psychométriques et la survenue de démence, soit conditionnel<strong>le</strong>mentaux observations sur <strong>le</strong>s tests psychométriques uniquement.Classe latenteClassification Répartition 1 2 3 4 5Tests + Déments 42 (3.3%) 62 (9.5%) 106 (53.8%) 93 (49.7%) 52 (71.2%)Démence Non déments 1232 (96.7%) 590 (90.5%) 91 (46.2%) 94 (50.3%) 21 (28.8%)Total 1274 652 197 187 73Tests Déments 82 (6.4%) 91 (14.1%) 78 (39.4%) 74 (39.2%) 30 (51.7%)uniquement Non déments 1209 (93.6%) 556 (85.9%) 120 (60.6%) 115 (60.8%) 28 (48.3%)Total 1291 647 198 189 58Tab. 5.8 – Répartition des hommes/femmes et des sujets avec/sans CEP dans laclassification a posteriori sachant <strong>le</strong>s observations sur <strong>le</strong>s tests psychométriques.Variab<strong>le</strong>Classe latente1 2 3 4 5Femmes N 663 475 113 101 30% 51.4 73.4 57.1 53.4 51.7CEP N 1291 162 198 1 39% 100 25.0 100 0.5 67.2Total 1291 647 198 189 58


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 2 14010.80.6sensibilite0.40.26 classes - AUC=0.8495 classes - AUC=0.8474 classes - AUC=0.8443 classes - AUC=0.8432 classes - AUC=0.74300 0.2 0.4 0.6 0.8 11-specificiteFig. 5.3 – Courbe ROC associée <strong>à</strong> la probabilité de démence <strong>à</strong> 85 ans pour <strong>le</strong>smodè<strong>le</strong>s de 2 <strong>à</strong> 6 classes latentes.classes d’âge (tab<strong>le</strong>au 5.5). On peut noter que <strong>le</strong> modè<strong>le</strong> <strong>à</strong> 6 classes donne des AUCtrès similaires au modè<strong>le</strong> <strong>à</strong> 5 classes.5.6.5 Adéquation du modè<strong>le</strong>Nous avons évalué l’adéquation du modè<strong>le</strong> conjoint final incluant <strong>le</strong>s 5 classes demélange suivant <strong>le</strong>s méthodes présentées en section 5.4.Qualité de classificationLe tab<strong>le</strong>au 5.9 présente, pour chaque classe a posteriori, <strong>le</strong>s moyennes des probabilitésd’appartenir <strong>à</strong> cette classe et aux 4 autres. Quel<strong>le</strong> que soit la classe latente, lamoyenne des probabilités d’appartenir <strong>à</strong> la classe dans laquel<strong>le</strong> <strong>le</strong>s sujets sont classésse situe entre 0.68 et 0.78, c’est <strong>à</strong> dire très nettement au dessus des moyennes dans<strong>le</strong>s autres classes. Néanmoins, <strong>le</strong>s termes non-diagonaux indiquent que <strong>le</strong>s sujets de


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 2 141Tab. 5.9 – Moyennes des probabilités a posteriori d’appartenir <strong>à</strong> chaque classelatente suivant la classification fina<strong>le</strong>Classe nombre de Moyenne des probabilités d’appartenir <strong>à</strong> chaque classed’appartenance sujets 1 2 3 4 51 73 0.779 0.083 0.126 0.003 0.0092 187 0.073 0.723 0.040 0.140 0.0243 197 0.154 0.106 0.681 0.038 0.0214 652 0.001 0.204 0.002 0.727 0.0665 1274 0.012 0.044 0.074 0.097 0.773la classe 1 avaient une probabilité non négligeab<strong>le</strong> d’être dans la classe 3 (moyennede 0.126) et inversement (moyenne de 0.154). De la même manière, <strong>le</strong>s sujets dansla classe 2 avaient une probabilité non négligeab<strong>le</strong> d’être dans la classe 4 (moyennede 0.140) et inversement (moyenne de 0.204). Par contre, <strong>le</strong>s sujets de la classe 5avaient des probabilités très faib<strong>le</strong>s d’appartenir aux autres classes. A travers cetteanalyse, nous voyons que la classification a posteriori est claire dans l’ensemb<strong>le</strong> bienque la discrimination entre <strong>le</strong>s classes 1 et 3 d’une part et <strong>le</strong>s classes 2 et 4 d’autrepart soit plus ambigüe.Evolutions prédites des tests psychométriquesA partir du modè<strong>le</strong> final, nous avons calculé la prédiction margina<strong>le</strong> et conditionnel<strong>le</strong>de chaque observation comme décrit en section 5.4.2, puis nous avons regroupé<strong>le</strong>s observations par tranche d’âge pour obtenir des courbes d’évolution préditespour chaque test et chaque classe latente. Les 15 courbes (5 classes × 3 tests) desévolutions prédites margina<strong>le</strong>s sont représentées en figure 5.4 et <strong>le</strong>s 15 courbes desévolutions prédites spécifiques aux sujets sont représentées en figure 5.5.Si <strong>le</strong>s évolutions prédites margina<strong>le</strong>s sont très proches des évolutions observées


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 2 142ISTclasse 1403530252015105065 70 75 80 85 90 95 100age (annees)BVRTclasse 11412108642065 70 75 80 85 90 95 100age (annees)CODclasse 1403530252015105065 70 75 80 85 90 95 100age (annees)ISTclasse 2403530252015105065 70 75 80 85 90 95 100age (annees)BVRTclasse 21412108642065 70 75 80 85 90 95 100age (annees)CODclasse 2403530252015105065 70 75 80 85 90 95 100age (annees)ISTclasse 3403530252015105065 70 75 80 85 90 95 100age (annees)BVRTclasse 31412108642065 70 75 80 85 90 95 100age (annees)CODclasse 3403530252015105065 70 75 80 85 90 95 100age (annees)ISTclasse 4403530252015105065 70 75 80 85 90 95 100age (annees)BVRTclasse 41412108642065 70 75 80 85 90 95 100age (annees)CODclasse 4403530252015105065 70 75 80 85 90 95 100age (annees)ISTclasse 5403530252015105065 70 75 80 85 90 95 100age (annees)BVRTclasse 51412108642065 70 75 80 85 90 95 100age (annees)CODclasse 5403530252015105065 70 75 80 85 90 95 100age (annees)Fig. 5.4 – Evolution moyenne prédite margina<strong>le</strong> (×) et évolution observée pondérée(en trait p<strong>le</strong>in) avec son interval<strong>le</strong> de confiance (en pointillés) pour chaque classelatente et chaque test psychométrique.


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 2 143ISTclasse 1403530252015105065 70 75 80 85 90 95 100age (annees)BVRTclasse 11412108642065 70 75 80 85 90 95 100age (annees)CODclasse 1403530252015105065 70 75 80 85 90 95 100age (annees)ISTclasse 2403530252015105065 70 75 80 85 90 95 100age (annees)BVRTclasse 21412108642065 70 75 80 85 90 95 100age (annees)CODclasse 2403530252015105065 70 75 80 85 90 95 100age (annees)ISTclasse 3403530252015105065 70 75 80 85 90 95 100age (annees)BVRTclasse 31412108642065 70 75 80 85 90 95 100age (annees)CODclasse 3403530252015105065 70 75 80 85 90 95 100age (annees)ISTclasse 4403530252015105065 70 75 80 85 90 95 100age (annees)BVRTclasse 41412108642065 70 75 80 85 90 95 100age (annees)CODclasse 4403530252015105065 70 75 80 85 90 95 100age (annees)ISTclasse 5403530252015105065 70 75 80 85 90 95 100age (annees)BVRTclasse 51412108642065 70 75 80 85 90 95 100age (annees)CODclasse 5403530252015105065 70 75 80 85 90 95 100age (annees)Fig. 5.5 – Evolution moyenne prédite conditionnel<strong>le</strong>ment aux effets aléatoires individuels(×) et évolution observée pondérée (en trait p<strong>le</strong>in) avec son interval<strong>le</strong> deconfiance (en pointillés) pour chaque classe latente et chaque test psychométrique.


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 2 144pour <strong>le</strong>s classes 1 et 2, el<strong>le</strong>s s’écartent nettement des évolutions observées <strong>à</strong> partir de85 ans pour <strong>le</strong>s classes 3, 4 et 5, c’est <strong>à</strong> dire <strong>le</strong>s classes associées <strong>à</strong> un risque plus é<strong>le</strong>véde démence. Ces écarts peuvent être expliqués par <strong>le</strong>s données manquantes. En effet,on sait que <strong>le</strong>s sujets atteints cognitivement ont plus tendance <strong>à</strong> refuser de passer <strong>le</strong>stests psychométriques que <strong>le</strong>s autres sujets et de l<strong>à</strong>, <strong>le</strong>s sujets restant dans l’étudeont tendance <strong>à</strong> avoir un meil<strong>le</strong>ur niveau cognitif que ceux qui en sont sortis. Lesévolutions prédites conditionnel<strong>le</strong>s qui incluent <strong>le</strong>s prédictions des effets aléatoiress’ajustent beaucoup mieux aux données observées. Cela signifie que la sortie d’étudeest liée <strong>à</strong> l’évolution des tests mais cela n’implique pas nécessairement qu’el<strong>le</strong> estnon-ignorab<strong>le</strong>. En effet, el<strong>le</strong> est associée aux effets aléatoires qui sont prédits enfonction des observations. La comparaison des estimations et des observations sur<strong>le</strong>s données disponib<strong>le</strong>s ne permet pas de savoir si <strong>le</strong>s données manquantes sontignorab<strong>le</strong>s mais el<strong>le</strong> montre un bon ajustement du modè<strong>le</strong> aux données observées.Courbes de survie préditesA partir des estimations issues du modè<strong>le</strong> final, nous avons calculé deux typesde courbes de survie. Nous avons d’abord calculé la courbe de survie prédite margina<strong>le</strong>mentaux classes latentes et l’avons comparée <strong>à</strong> la courbe de survie estimée defaçon semi-paramétrique sur toutes <strong>le</strong>s données par <strong>le</strong> programme phmpl (Joly et al.,1999). La figure 5.6 représente ces deux courbes de survie pour chacune des 4 combinaisonsde variab<strong>le</strong>s explicatives : femmes sans CEP, femmes avec CEP, hommessans CEP et hommes avec CEP. Pour chacune des combinaisons, <strong>le</strong>s deux courbessont très proches indiquant un bon ajustement de la fonction de risque Weibull auxdonnées.Nous avons ensuite calculé la courbe de survie spécifique <strong>à</strong> chaque classe latentepour chacune des 4 combinaisons de variab<strong>le</strong>s explicatives et l’avons comparée <strong>à</strong> lacourbe de survie prédite par un modè<strong>le</strong> semi-paramétrique (modè<strong>le</strong> de Cox) incluant<strong>le</strong>s deux variab<strong>le</strong>s explicatives et estimé sur <strong>le</strong> groupe de sujets classés a posteriori


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 2 1451Femmes sans CEP1Femmes avec CEP0.80.80.60.60.40.40.2predictionphmplIC95%065 70 75 80 85 90 950.2predictionphmplIC95%065 70 75 80 85 90 951Hommes sans CEP1Hommes avec CEP0.80.80.60.60.40.40.2predictionphmplIC95%065 70 75 80 85 90 950.2predictionphmplIC95%065 70 75 80 85 90 95Fig. 5.6 – Courbe de survie prédite margina<strong>le</strong>ment aux classes latentes et courbe desurvie estimée semi-paramétriquement par <strong>le</strong> programme phmpl sur tout l’échantillonavec son interval<strong>le</strong> de confiance <strong>à</strong> 95% pour chaque combinaison de variab<strong>le</strong>s explicatives(sexe et CEP).


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 2 146dans la classe considérée. Les figures 5.7 et 5.8 donnent respectivement <strong>le</strong>s courbesde survie chez <strong>le</strong>s femmes et chez <strong>le</strong>s hommes suivant la classe latente et <strong>le</strong> niveaud’études. Comme certaines classes n’incluent aucun sujet ayant <strong>le</strong> CEP (classe 4)ou aucun sujet n’ayant pas <strong>le</strong> CEP (classes 1 et 3), nous n’avons pas représenté <strong>le</strong>scourbes de survie associées <strong>à</strong> ces combinaisons dans <strong>le</strong>s classes correspondantes. Apart un léger écart chez <strong>le</strong>s hommes sans CEP dans la classe 2 sans doute lié au trèsfaib<strong>le</strong> nombre d’évènements (4 ou 2 suivant <strong>le</strong> CEP), ces courbes de survie indiquentun bon ajustement par classe et combinaison de variab<strong>le</strong> explicative. Ceci montreque l’hypothèse de proportionnalité des risques entre <strong>le</strong>s classes latentes est valide.


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 2 1471classe 1 ; avec CEP (650 sujets dont 35 dements)0.8survie0.60.40.2065 70 75 80 85 90 95 100age (annees)1classe 2 ; sans CEP (326 sujets dont 35 dements)1classe 2 ; avec CEP (148 sujets dont 21 dements)0.80.8survie0.60.4survie0.60.40.20.2065 70 75 80 85 90 95 100age (annees)065 70 75 80 85 90 95 100age (annees)1classe 3 ; avec CEP (115 sujets dont 63 dements)0.8survie0.60.40.2065 70 75 80 85 90 95 100age (annees)1classe 4 ; sans CEP (101 sujets dont 64 dements)0.8survie0.60.40.2065 70 75 80 85 90 95 100age (annees)1classe 5 ; sans CEP (13 sujets dont 8 dements)1classe 5 ; avec CEP (25 sujets dont 20 dements)0.80.8survie0.60.4survie0.60.40.20.2065 70 75 80 85 90 95 100age (annees)065 70 75 80 85 90 95 100age (annees)Fig. 5.7 – Courbe de survie prédite dans chacune des 5 classes latentes (en traitp<strong>le</strong>in) et courbe de survie estimée par un modè<strong>le</strong> de Cox parmi <strong>le</strong>s sujets classésa posteriori dans la classe latente correspondante (en pointillés) chez <strong>le</strong>s femmes,suivant <strong>le</strong>ur niveau d’études.


Modè<strong>le</strong> nonlinéaire <strong>à</strong> classes latentes 2 1481classe 1 ; avec CEP (623 sujets dont 7 dements)0.8survie0.60.40.2065 70 75 80 85 90 95 100age (annees)1classe 2 ; sans CEP (156 sujets dont 4 dements)1classe 2 ; avec CEP (22 sujets dont 2 dements)0.80.8survie0.60.4survie0.60.40.20.2065 70 75 80 85 90 95 100age (annees)065 70 75 80 85 90 95 100age (annees)1classe 3 ; avec CEP (82 sujets dont 43 dements)0.8survie0.60.40.2065 70 75 80 85 90 95 100age (annees)1classe 4 ; sans CEP (83 sujets dont 26 dements)0.8survie0.60.40.2065 70 75 80 85 90 95 100age (annees)1classe 5 ; sans CEP (12 sujets dont 7 dements)1classe 5 ; avec CEP (23 sujets dont 17 dements)0.80.8survie0.60.4survie0.60.40.20.2065 70 75 80 85 90 95 100age (annees)065 70 75 80 85 90 95 100age (annees)Fig. 5.8 – Courbe de survie prédite dans chacune des 5 classes latentes (en traitp<strong>le</strong>in) et courbe de survie estimée par un modè<strong>le</strong> de Cox parmi <strong>le</strong>s sujets classésa posteriori dans la classe latente correspondante (en pointillés) chez <strong>le</strong>s hommes,suivant <strong>le</strong>ur niveau d’études.


Chapitre 6Discussion et perspectivesNous avons développé dans ce travail de thèse une méthodologie traitant <strong>à</strong> la foisdes données longitudina<strong>le</strong>s multivariées, des données hétérogènes et des événementscliniques. Nous avons évalué la performance des modè<strong>le</strong>s proposés par <strong>le</strong> biais d’étudesde simulation et d’études d’adéquation aux données réel<strong>le</strong>s mais avons aussi mis enavant <strong>le</strong>ur intérêt épidémiologique au travers d’applications sur l’étude du vieillissementcognitif et de la survenue de démence. Dans ce chapitre, nous souhaitons revenirsur <strong>le</strong>s points forts de cette approche mais aussi sur ses limites et <strong>le</strong>s développementsfuturs.6.1 Forces de l’approche6.1.1 Modélisation de plusieurs marqueurs non GaussiensComme nous l’avons vu dans <strong>le</strong> chapitre II, la modélisation conjointe de plusieursmarqueurs a reçu un intérêt croissant ces dernières années. En effet, prendreen compte conjointement plusieurs marqueurs permet d’augmenter la puissance del’étude et éventuel<strong>le</strong>ment de réduire <strong>le</strong>s biais si l’échantillon comporte des donnéesmanquantes. Dans l’étude du vieillissement cognitif, certains sujets refusent de répondre<strong>à</strong> des tests psychométriques et ce refus peut être informatif car lié au niveau149


Discussion et perspectives 150cognitif réel du sujet. Lorsqu’<strong>à</strong> une visite, un sujet ne répond pas <strong>à</strong> tous <strong>le</strong>s testspsychométriques, modéliser conjointement plusieurs tests permet d’éviter la perted’information sur <strong>le</strong> niveau cognitif du sujet <strong>à</strong> cette visite.Un deuxième avantage <strong>à</strong> modéliser conjointement plusieurs marqueurs est qu’aucundes marqueurs n’est privilégié, l’évolution décrite étant cel<strong>le</strong> du processus latentsous-jacent <strong>à</strong> tous <strong>le</strong>s marqueurs. Dans l’étude du vieillissement cognitif, bien qu’ilssoient tous des mesures de la cognition, <strong>le</strong>s tests psychométriques ont des spécificitésqui peuvent influer sur <strong>le</strong>s résultats obtenus. Nous avons en particulier montré, dansla deuxième application du chapitre III, des différences de réussite aux tests suivant<strong>le</strong> sexe, et des évolutions au cours du temps différentes suivant <strong>le</strong> niveau d’études.Par la modélisation de <strong>le</strong>ur facteur commun, nous sommes en mesure de décrire<strong>le</strong> processus cognitif latent et <strong>le</strong>s spécificités des tests psychométriques. Bien quel’idée d’un processus latent représentant la cognition et sous-jacent aux tests psychométriquessoit née il y a une dizaine d’années en neuropsychologie et ait reçudepuis un intérêt croissant (Fabrigou<strong>le</strong> et al., 1998 ; Sliwinski et al., 2003), <strong>à</strong> notreconnaissance, aucune approche n’avait pour l’instant été proposée pour modéliserl’évolution de plusieurs tests psychométriques et de <strong>le</strong>ur facteur commun.Une particularité dans l’étude du vieillissement est que <strong>le</strong>s tests psychométriques,bien que considérés comme quantitatifs, sont souvent bornés et peuvent pâtir d’effetsplafond et plancher (Morris et al., 1999). Jusqu’<strong>à</strong> présent, ce type de données avaitété analysé soit par des méthodes classiques pour données quantitatives sous l’hypothèsede normalité (Joseph et al., 1999 ; Hall et al., 2001 ; Jacqmin-Gadda et al.,2006) soit par des modè<strong>le</strong>s <strong>à</strong> seuils pour données ordina<strong>le</strong>s (Ganiayre et al., 2006),ces derniers modè<strong>le</strong>s prenant en compte parfaitement <strong>le</strong>s effets plafond ou plancherdes tests psychométriques mais présentant des problèmes numériques importants.Nous avons donc proposé dans ce travail une alternative basée sur des transformationsnon-linéaires des tests psychométriques. Outre donner un cadre soup<strong>le</strong> pourla modélisation conjointe de plusieurs marqueurs, ces transformations estimées nousont permis de décrire <strong>le</strong>s propriétés métrologiques des tests psychométriques dans


Discussion et perspectives 151la première application du chapitre III, et notamment de recommander l’utilisationde l’IST plutôt que du MMSE ou du BVRT dans <strong>le</strong> cas où, dans une populationhétérogène, un seul test psychométrique peut être réalisé.6.1.2 Hétérogénéité des évolutions et association avec lasurvenue d’un événementVerbeke et Lesaffre (1996) ont montré que, dans <strong>le</strong> cas d’une population hétérogène,faire l’hypothèse d’une distribution norma<strong>le</strong> des effets aléatoires dans un modè<strong>le</strong>mixte pouvait entraîner des biais sur <strong>le</strong>s estimations, et qu’il était donc préférab<strong>le</strong> deprendre en compte cette hétérogénéité par des modè<strong>le</strong>s de mélange <strong>à</strong> effets aléatoires.Dans <strong>le</strong> vieillissement cognitif, il est acquis qu’il existe des sous-populations ayantdes évolutions différentes, ces sous-populations correspondant par exemp<strong>le</strong> aux sujetsayant un vieillissement normal et aux sujets ayant un vieillissement pathologique(Sliwinski et al., 1996). Dans un travail précédent ayant pour objectif de proposerun algorithme d’estimation des modè<strong>le</strong>s de mélange pour données longitudina<strong>le</strong>s(Proust et Jacqmin-Gadda, 2005), nous avions étudié l’hétérogénéité des déclinsd’un test psychométrique. Cette approche mettait en évidence un petit groupe d’“outliers” et la classification n’était que faib<strong>le</strong>ment associée <strong>à</strong> la démence. Dansnotre travail de thèse, nous avons donc préféré modéliser l’hétérogénéité du déclincognitif en prenant explicitement en compte son association avec la démence.Par rapport aux modè<strong>le</strong>s conjoints <strong>à</strong> effets aléatoires partagés, <strong>le</strong>s modè<strong>le</strong>s conjoints<strong>à</strong> classes latentes ont une interprétation plus intuitive et sont plus simp<strong>le</strong>s<strong>à</strong> estimer numériquement. Ils sont en effet basés sur l’hypothèse qu’il existe uncertain nombre de sous-populations homogènes, chacune ayant sa propre évolutionet son propre risque d’événement, et que chaque sujet a une probabilité différented’appartenir <strong>à</strong> chaque classe latente.


Discussion et perspectives 1526.1.3 Prise en compte des variab<strong>le</strong>s explicativesLes modè<strong>le</strong>s que nous avons proposés dans ce travail offrent un cadre soup<strong>le</strong>pour tester l’effet de variab<strong>le</strong>s explicatives sur <strong>le</strong> vieillissement cognitif. En effet, i<strong>le</strong>st possib<strong>le</strong> de tester l’impact de variab<strong>le</strong>s explicatives sur l’évolution du processuslatent ou sur <strong>le</strong>s outils de mesure de la cognition mais aussi d’introduire des variab<strong>le</strong>sexplicatives dans <strong>le</strong>s différents sous-modè<strong>le</strong>s du modè<strong>le</strong> conjoint, permettant ainside mieux comprendre <strong>le</strong> mode d’action de facteurs de risque de déclin cognitif et dedémence.Effet sur <strong>le</strong> processus latent et sur <strong>le</strong>s marqueursComme nous l’avons vu dans <strong>le</strong> chapitre II, la modélisation conjointe de plusieursmarqueurs permet d’augmenter la puissance des analyses pour tester l’effetde variab<strong>le</strong>s explicatives (Gray et Brookmeyer, 1998). Dans notre approche, nouspouvons certes utiliser l’information sur tous <strong>le</strong>s marqueurs pour évaluer l’effet devariab<strong>le</strong>s explicatives sur <strong>le</strong> processus latent mais nous pouvons aussi distinguer deseffets différents sur chaque marqueur. Ce dernier point a été très peu développé dansla littérature. Gray et Brookmeyer (1998) ont pris en compte un effet potentiel<strong>le</strong>mentdifférent du traitement pour chaque marqueur en faisant varier l’échel<strong>le</strong> detemps de chaque marqueur. Récemment, Guo et Bandeen-Roche (2005) ont aussipris en compte une hétérogénéité de l’effet du traitement autour de l’effet global par<strong>le</strong> biais d’un effet aléatoire binaire. Ils ont ainsi pu distinguer deux groupes de marqueurset quantifier l’effet du traitement dans <strong>le</strong> groupe de marqueurs très sensib<strong>le</strong>sau traitement et dans <strong>le</strong> groupe de marqueurs moins sensib<strong>le</strong>s au traitement. Dansnotre approche, par l’introduction de contrastes sur <strong>le</strong>s marqueurs, nous sommesen mesure de tester et de quantifier l’hétérogénéité de l’effet du traitement sur <strong>le</strong>smarqueurs.


Discussion et perspectives 153Variab<strong>le</strong>s explicatives dans <strong>le</strong> modè<strong>le</strong> conjoint <strong>à</strong> classes latentesDans <strong>le</strong>s modè<strong>le</strong>s conjoints <strong>à</strong> classes latentes présentés aux chapitres IV et V,l’effet de variab<strong>le</strong>s explicatives peut être testé <strong>à</strong> plusieurs niveaux du modè<strong>le</strong> :1. sur la probabilité d’appartenir aux classes latentes. Cela revient <strong>à</strong> se demandersi la variab<strong>le</strong> explicative est prédictrice d’une forme d’évolution et d’un risquespécifique d’événement ;2. sur l’évolution des marqueurs de manière commune aux classes (modè<strong>le</strong> linéairemixte) : on teste ainsi si, quel<strong>le</strong> que soit la classe d’évolution des marqueurs,il existe une différence d’évolution suivant la variab<strong>le</strong> explicative ;3. sur l’évolution des marqueurs de manière différente dans chaque classe. Celarevient <strong>à</strong> tester si, <strong>à</strong> même classe latente, c’est <strong>à</strong> dire même risque d’événement,il existe des différences d’évolution suivant la variab<strong>le</strong> explicative ;4. sur <strong>le</strong> risque d’événement après ajustement sur <strong>le</strong>s classes latentes. Dans cecas, l’hypothèse est : ajusté sur la classe latente, c’est <strong>à</strong> dire sur <strong>le</strong> profild’évolution du marqueur, la variab<strong>le</strong> explicative reste associée <strong>à</strong> l’événementlui-même.Les multip<strong>le</strong>s façons d’introduire une variab<strong>le</strong> explicative dans <strong>le</strong> modè<strong>le</strong> conjoint<strong>à</strong> classes latentes lui confèrent un grand intérêt en épidémiologie puisque ce modè<strong>le</strong>permet d’évaluer différentes hypothèses concernant <strong>le</strong> mode d’action des facteurs derisque. Néanmoins, il est important lorsque l’on introduit des variab<strong>le</strong>s explicativesdans <strong>le</strong> modè<strong>le</strong> conjoint <strong>à</strong> classes latentes de <strong>le</strong> faire de manière réfléchie et non derentrer systématiquement <strong>le</strong>s variab<strong>le</strong>s explicatives <strong>à</strong> tous <strong>le</strong>s niveaux. Par exemp<strong>le</strong>,un variab<strong>le</strong> incluse dans <strong>le</strong> modè<strong>le</strong> mixte (en 2 ou 3) n’influence que l’espérance dumarqueur alors qu’une variab<strong>le</strong> incluse dans la probabilité d’appartenir aux classeslatentes (en 1) influence l’espérance et la variance du marqueur. Par ail<strong>le</strong>urs, l’interprétationdes classes latentes est différente suivant que <strong>le</strong>s variab<strong>le</strong>s explicativesont été incluses dans <strong>le</strong> modè<strong>le</strong> mixte (en 2 ou 3) ou dans la probabilité d’appar-


Discussion et perspectives 154tenir aux classes latentes (en 1). En effet, dans <strong>le</strong> premier cas, <strong>le</strong>s classes latentesreprésentent l’hétérogénéité résiduel<strong>le</strong> après prise en compte de l’hétérogénéité associéeaux variab<strong>le</strong>s explicatives alors que dans <strong>le</strong> deuxième cas, <strong>le</strong>s classes latentesreprésentent l’hétérogénéité expliquée, au moins partiel<strong>le</strong>ment, par <strong>le</strong>s variab<strong>le</strong>s explicatives.Dans la littérature, aucune précaution n’a été prise quant <strong>à</strong> l’introduction devariab<strong>le</strong>s explicatives aux différents niveaux du modè<strong>le</strong> (Lin et al., 2000 ; Muthénet al., 2002). Nous recommandons pourtant de ne pas introduire systématiquement<strong>le</strong>s variab<strong>le</strong>s explicatives <strong>à</strong> tous <strong>le</strong>s niveaux du modè<strong>le</strong> car, outre des problèmesd’identifiabilité, cela peut nuire <strong>à</strong> l’interprétabilité des résultats. Il est préférab<strong>le</strong> dechoisir <strong>à</strong> quel niveau introduire <strong>le</strong>s variab<strong>le</strong>s explicatives suivant l’objectif de l’étude.6.1.4 Outil de diagnostic de démenceGrâce aux modè<strong>le</strong>s conjoints <strong>à</strong> classes latentes présentés dans <strong>le</strong>s chapitres IVet V, nous avons été en mesure de proposer des outils de diagnostic de démencecalculés <strong>à</strong> partir de l’information sur l’évolution cognitive. Ce type d’outil avait déj<strong>à</strong>été proposé dans <strong>le</strong> cas d’un seul marqueur d’évolution Gaussien par Lin et al. (2002)et Taylor et al. (2005) pour détecter respectivement un cancer de la prostate ou unerechute de cancer de la prostate <strong>à</strong> partir des mesures répétées de PSA. Par rapport <strong>à</strong><strong>le</strong>ur travaux, comme nous avons utilisé plusieurs tests psychométriques pour décrirel’évolution cognitive, l’outil de détection de démence que nous avons proposé peutêtre utilisé quel que soit <strong>le</strong> ou <strong>le</strong>s tests mesurés pour un sujet. Cela nous donne doncun outil de diagnostic plus soup<strong>le</strong>.


Discussion et perspectives 1556.2 Modè<strong>le</strong> <strong>à</strong> classes latentes et sortie d’étude informativeLes modè<strong>le</strong>s conjoints <strong>à</strong> classes latentes ont été récemment utilisés pour prendreen compte la sortie d’étude (Beunckens et al., 2006) ou <strong>le</strong>s données manquantes intermittentes(Lin et al., 2004). L’approche par classes latentes est en effet une méthodeintermédiaire entre <strong>le</strong>s modè<strong>le</strong>s de sé<strong>le</strong>ction et <strong>le</strong>s modè<strong>le</strong>s par mélange de profilsd’observations utilisés dans <strong>le</strong> traitement des données longitudina<strong>le</strong>s incomplètes informatives.En faisant l’hypothèse qu’il existe un petit nombre de groupes présentantune évolution et un risque de sortie d’étude spécifiques, <strong>le</strong>s modè<strong>le</strong>s <strong>à</strong> classes latentesévitent <strong>à</strong> la fois <strong>le</strong>s problèmes numériques du modè<strong>le</strong> de sé<strong>le</strong>ction liés <strong>à</strong> l’intégrationnumérique sur <strong>le</strong>s effets aléatoires ou sur <strong>le</strong>s réponses manquantes, et <strong>le</strong>s problèmesnumériques rencontrés avec <strong>le</strong>s modè<strong>le</strong>s par mélange de profils d’observations lorsqu’i<strong>le</strong>xiste de nombreux profils de sortie d’étude correspondant <strong>à</strong> de petits effectifset pour <strong>le</strong>squels <strong>le</strong> nombre de mesures est insuffisant pour estimer l’évolution dumarqueur.Bien que non présenté dans ce document, nous avons utilisé un modè<strong>le</strong> conjoint<strong>à</strong> classes latentes pour modéliser conjointement l’évolution cognitive et la sortied’étude dans la cohorte PAQUID. Les conclusions de cette analyse étaient trèsdifférentes de cel<strong>le</strong>s de l’analyse par mélange de profils d’observation. De plus, enanalysant <strong>le</strong>s résultats, nous avons repéré que <strong>le</strong>s classes latentes mises en évidencepar ce modè<strong>le</strong> conjoint n’étaient que faib<strong>le</strong>ment associées <strong>à</strong> la sortie d’étude. Notamment,des classes d’évolution très similaires étaient mises en évidence lorsque lasortie d’étude n’était pas modélisée conjointement, ces classes latentes représentantl’hétérogénéité principa<strong>le</strong> des déclins cognitifs plutôt que l’hétérogénéité directementassociée <strong>à</strong> la sortie d’étude. Les paramètres du modè<strong>le</strong> d’évolution des marqueursdans ce modè<strong>le</strong> conjoint ne pouvaient donc pas s’interpréter simp<strong>le</strong>ment commedes paramètres ajustés sur la sortie d’étude mais plutôt comme des paramètres estimésaprès prise en compte de la principa<strong>le</strong> source d’hétérogénéité de l’évolution


Discussion et perspectives 156(<strong>le</strong>s classes étant el<strong>le</strong>s mêmes très associées aux variab<strong>le</strong>s explicatives tel<strong>le</strong>s que <strong>le</strong>sexe ou <strong>le</strong> niveau d’éducation).Ainsi, bien que <strong>le</strong>s modè<strong>le</strong>s <strong>à</strong> classes latentes aient été utilisés pour traiter la sortied’étude informative, la pertinence d’une tel<strong>le</strong> analyse et notamment l’interprétationdes résultats obtenus ne sont pas clairement établies. Il nous semb<strong>le</strong> qu’une tel<strong>le</strong>analyse doit être complétée par des analyses de l’adéquation du modè<strong>le</strong> aux donnéesafin d’éviter une interprétation abusive des résultats, en particulier dans <strong>le</strong>s grandsjeux de données présentant de multip<strong>le</strong>s sources d’hétérogénéité.6.3 Limites de l’approche et développements futursBien que <strong>le</strong> modè<strong>le</strong> conjoint <strong>à</strong> classes latentes pour données multivariées que nousavons proposé dans ce travail présente certains attraits, il possède aussi des limitessur <strong>le</strong>squel<strong>le</strong>s nous allons revenir maintenant.6.3.1 Adéquation du modè<strong>le</strong> <strong>à</strong> classes latentesLe cas particulier de la sortie d’étude informative a pointé un aspect très importantdans l’application des modè<strong>le</strong>s conjoints <strong>à</strong> classes latentes. Il existe des hypothèsesfortes dans <strong>le</strong> modè<strong>le</strong> qui nécessitent d’être évaluées. Nous avons présentédans <strong>le</strong>s chapitres IV et V plusieurs méthodes pour évaluer l’adéquation du modè<strong>le</strong>.Nous avons d’abord évalué la qualité de la classification a posteriori, montrant ainsiune bonne discrimination des classes. Nous avons ensuite évalué la qualité d’ajustementdes évolutions prédites par <strong>le</strong> modè<strong>le</strong> mixte conditionnel<strong>le</strong>ment aux classeslatentes par rapport aux évolutions observées, et avons évalué l’hypothèse de proportionalitédes risques entre <strong>le</strong>s classes dans <strong>le</strong> modè<strong>le</strong> de survie. Ces analyses ont misen évidence une bonne adéquation du modè<strong>le</strong> aux données. Enfin, <strong>le</strong> modè<strong>le</strong> conjoint


Discussion et perspectives 157<strong>à</strong> classes latentes permettant de proposer un outil de détection de l’événement, nousavons aussi évalué <strong>le</strong>s capacités prédictrices du modè<strong>le</strong> et l’avons comparé <strong>à</strong> desmodè<strong>le</strong>s plus simp<strong>le</strong>s dans <strong>le</strong> chapitre IV. Par contre, dans <strong>le</strong> chapitre V, l’outildiagnostic étant issu d’un modè<strong>le</strong> de survie, nous avons uniquement pu calcu<strong>le</strong>r <strong>le</strong>scourbes ROC et <strong>le</strong>urs AUC <strong>à</strong> des temps donnés. Evaluer <strong>le</strong>s capacités prédictricesdu modè<strong>le</strong> nécessite en effet <strong>le</strong> développement d’un résumé des AUC pour tous <strong>le</strong>stemps. Dans <strong>le</strong>s modè<strong>le</strong>s de survie, Heagerty et Zheng (2005) ont proposé une mesuregloba<strong>le</strong> de concordance calculée comme l’intégra<strong>le</strong> sur la fenêtre d’observationdes AUC dépendantes du temps mais <strong>le</strong>ur mesure n’est pas adaptée <strong>à</strong> notre casde figure. En effet, <strong>le</strong> critère diagnostic en t issu de notre modè<strong>le</strong> est dépendantdu temps puisque <strong>le</strong> prédicteur linéaire du modè<strong>le</strong> de survie spécifique au groupedoit être pondéré par P (c ig = 1 | ˆθ, Y is , s < t) comme présenté en (5.15). Proposerune mesure résumée des AUC dépendantes du temps pour un critère diagnosticdépendant du temps nécessite donc des développements supplémentaires.Dans ce travail, nous n’avons pas examiné l’hypothèse majeure d’indépendanceentre <strong>le</strong>s marqueurs et l’événement conditionnel<strong>le</strong>ment aux classes latentes. Mêmesi cette hypothèse d’indépendance conditionnel<strong>le</strong> existe dans tout modè<strong>le</strong> <strong>à</strong> effetsaléatoires partagés, el<strong>le</strong> peut être plus forte ici car l’effet aléatoire est discret, c’est<strong>à</strong> dire que la dépendance est régie uniquement par un faib<strong>le</strong> nombre de classes aulieu de combinaisons linéaires des effets aléatoires dans <strong>le</strong>s autres modè<strong>le</strong>s.L’hypthèse d’indépendance conditionnel<strong>le</strong> ne peut pas être strictement controléepuisque <strong>le</strong>s classes latentes ne sont pas observées. En s’appuyant sur <strong>le</strong>s travaux deBandeen-Roche et al. (1997), cette hypothèse est généra<strong>le</strong>ment vérifiée en utilisant laclassification a posteriori : l’hypothèse d’indépendance conditionnel<strong>le</strong> est considéréecomme valide s’il y a indépendance entre marqueur et événement après ajustementou stratification sur <strong>le</strong>s classes définies a posteriori (Lin et al., 2002a ; Lin et al.,2004 ; Guo et al., 2006 ; Roy, 2003). Les différentes analyses publiées diffèrent par 3aspects.


Discussion et perspectives 158Tout d’abord, la classification a posteriori peut être définie suivant la probabilitéa posteriori maximum ou être simulée suivant cette probabilité (Roy, 2003).Ces stratégies ne tiennent pas compte de l’incertitude sur la classification et il estdonc préférab<strong>le</strong> d’utiliser une analyse pondéree par <strong>le</strong>s probabilités a posteriori ensuivant la méthode proposée par Lin et al. (2002a) et Lin et al. (2004) mais unetel<strong>le</strong> méthode est plus diffici<strong>le</strong> <strong>à</strong> mettre en oeuvre. Ils proposent en effet d’évaluersi, a posteriori, après stratification sur <strong>le</strong>s classes, il reste une dépendance entre <strong>le</strong>délai d’événement et la trajectoire des marqueurs. Ils font pour cela G copies desdonnées, correspondant aux G classes latentes, et pondèrent chaque donnée par laprobabilité a posteriori d’appartenir <strong>à</strong> la classe conditionnel<strong>le</strong>ment au marqueur et<strong>à</strong> l’événement. Puis, ils estiment un modè<strong>le</strong> de survie pour <strong>le</strong> délai d’événement,stratifié sur la classe latente, en incluant en variab<strong>le</strong> explicative une ou plusieursfonctions des marqueurs en plus des variab<strong>le</strong>s explicatives habituel<strong>le</strong>s. L’hypothèsed’indépendance conditionnel<strong>le</strong> est alors rejetée si <strong>le</strong>s paramètres associés aux marqueurssont significativement différents de 0.Une autre différence est qu’après classification, certains auteurs réalisent uneanalyse sur l’ensemb<strong>le</strong> de l’échantillon en ajustant sur <strong>le</strong>s classes (Lin et al., 2002a ;Lin et al., 2004) tandis que d’autres réalisent une analyse séparément dans chaqueclasse (Guo et al., 2006 ; Roy, 2003).Enfin la principa<strong>le</strong> difficulté réside dans <strong>le</strong> choix de la fonction des marqueurs <strong>à</strong>introduire comme variab<strong>le</strong> explicative dans <strong>le</strong> modè<strong>le</strong> de survie. Quand cela est possib<strong>le</strong>,il est souhaitab<strong>le</strong> d’utiliser <strong>le</strong>s va<strong>le</strong>urs observées (Guo et al., 2006 ; Roy, 2003).Lin et al. (2004) utilisent la dernière va<strong>le</strong>ur observée du marqueur mais cela est diffici<strong>le</strong>dans notre application en raison du taux important de données manquantes etdonc de l’irrégularité des mesures. Une autre stratégie consiste <strong>à</strong> utiliser l’espérancedu marqueur (ou dans notre application, du processus latent) estimé <strong>à</strong> partir dumodè<strong>le</strong> conjoint <strong>à</strong> classes latentes. Lin et al. (2002a) introduisent ainsi l’espérancemargina<strong>le</strong> E(Y i (t)) = ∑ Gg=1 ˆπy,T igE(Y i(t)|c ig = 1) dans <strong>le</strong> modè<strong>le</strong> de survie ajusté sur<strong>le</strong>s classes a posteriori. Ce choix est cependant discutab<strong>le</strong>, et il nous semb<strong>le</strong> que


Discussion et perspectives 160effet <strong>le</strong>s difficultés liées <strong>à</strong> l’intégration numérique sur <strong>le</strong>s effets aléatoires du modè<strong>le</strong><strong>à</strong> effets alétaoires partagés et <strong>le</strong>s difficultés liées <strong>à</strong> la multimodalité possib<strong>le</strong> d’unmodè<strong>le</strong> <strong>à</strong> classes latentes.Le rejet de l’hypothèse d’indépendance conditionnel<strong>le</strong> dans notre application sur<strong>le</strong> vieillissement cognitif pourrait aussi s’expliquer par la nature statique du modè<strong>le</strong>.En effet, dans un modè<strong>le</strong> conjoint <strong>à</strong> classes latentes, <strong>le</strong>s classes sont fixées au coursdu temps. Or plusieurs études ont montré que <strong>le</strong>s sujets en phase pré-diagnostiquede démence “décrochaient” de l’évolution cognitive norma<strong>le</strong> plusieurs années avant<strong>le</strong> diagnostic de démence (Jacqmin-Gadda et al., 2006 ; Hall et al., 2000). Suivant cesrésultats, tous <strong>le</strong>s sujets devraient appartenir initia<strong>le</strong>ment <strong>à</strong> la même classe latente,c’est <strong>à</strong> dire la classe représentant <strong>le</strong> vieillissement normal, et <strong>le</strong>s sujets en phase prédiagnostiquede démence devraient changer de classe latente au cours du temps, pourpasser dans la classe associée <strong>à</strong> un vieillissement pathologique. Le modè<strong>le</strong> conjoint<strong>à</strong> classes latentes que nous avons développés ne permet pas de prendre en comptede tels changements de classes au cours du temps. Néanmoins, lorsque l’on étudiel’évolution cognitive sur une période courte (12 ans par exemp<strong>le</strong> dans l’application duchapitre IV), un faib<strong>le</strong> nombre de classes fixes peut suffire <strong>à</strong> décrire cette évolutionau cours du temps. Par contre, lorsqu’on étudie l’évolution sur 30 ou 40 ans enfonction de l’âge, il est plus diffici<strong>le</strong> de prendre en compte l’aspect dynamique avecun petit nombre de classes fixes.Les changements de classes au cours du temps peuvent être modélisés par unprocessus latent discret <strong>à</strong> faib<strong>le</strong>s nombres d’états. Un tel modè<strong>le</strong> rentrerait dans<strong>le</strong> cadre des modè<strong>le</strong>s <strong>à</strong> états cachés avec la contrainte supplémentaire d’assurer lacontinuité de l’évolution cognitive lors de la transition entre deux états.


Discussion et perspectives 1616.3.2 Transformations nonlinéaires des marqueursUne force de notre approche réside dans <strong>le</strong>s transformations non linéaires estiméesentre <strong>le</strong>s marqueurs quantitatifs non Gaussiens et <strong>le</strong> processus latent. Nous avonspour l’instant utilisé la famil<strong>le</strong> des fonctions de répartition Beta qui sont apparuescomme un bon compromis entre la variabilité possib<strong>le</strong> des formes de la fonction et<strong>le</strong>ur relative simplicité d’estimation. Cependant, nous avons vu dans <strong>le</strong> chapitre IIIpar des études de simulation que ces fonctions présentaient une limite importanteliée <strong>à</strong> <strong>le</strong>ur espace d’arrivée [0, 1] incompatib<strong>le</strong> avec la définition dans R du processusGaussien. Ceci engendre en particulier des effets de bord qui tendent <strong>à</strong> réduire lavariabilité des erreurs. Même si <strong>le</strong>s biais engendrés sont faib<strong>le</strong>s, il serait intéressantde trouver une alternative aux fonctions de répartition Beta. La famil<strong>le</strong> de fonctionsdevrait être constituée de fonctions croissantes définies de [a, b] dans R et devraitoffrir des formes de transformations variées incluant des formes concaves, convexes,sigmoïdes et linéaires. A ce jour, nous n’avons pas trouvé de famil<strong>le</strong> de fonctionsparamétriques <strong>à</strong> va<strong>le</strong>urs dans R répondant <strong>à</strong> ces contraintes. En effet, <strong>le</strong>s fonctionsd’une même famil<strong>le</strong> ont souvent soit toutes une forme concave, soit toutes une formeconvexe alors que nos applications recquièrent au moins deux types de formes pourmodéliser <strong>le</strong> MMSE ayant un effet plafond et pas d’effet plancher et <strong>le</strong> DSST n’ayantpas d’effet plafond mais un effet plancher.Les fonctions I-splines (<strong>à</strong> va<strong>le</strong>urs dans R + ) associées <strong>à</strong> une intercept afin qu’el<strong>le</strong>ssoient <strong>à</strong> va<strong>le</strong>urs dans R répondent <strong>à</strong> ces exigences mais el<strong>le</strong>s posent aussi de sérieuxproblèmes numériques. En effet, ces transformations recquièrent un nombre importantde paramètres et une estimation par vraisemblance pénalisée doit être envisagéecomme vu en section 5.3.2. De plus, <strong>le</strong>s formes de transformations étant trèsdifférentes d’un test <strong>à</strong> l’autre, il est souhaitab<strong>le</strong> d’utiliser un paramètre de lissagedifférent pour chaque test. Cette approche semi-paramétrique nous semb<strong>le</strong> doncdiffici<strong>le</strong> <strong>à</strong> utiliser en pratique mais peut cependant être uti<strong>le</strong> dans une étape de validationpour évaluer graphiquement l’adéquation des transformations Beta.


Discussion et perspectives 162Dans l’optique d’augmenter l’information utilisée pour décrire <strong>le</strong> processus latentet de généraliser notre approche, il serait aussi intéressant de pouvoir incluredans <strong>le</strong> modè<strong>le</strong> non seu<strong>le</strong>ment des marqueurs quantitatifs non Gaussiens mais aussides marqueurs qualitatifs ordinaux. Nous pourrions ainsi considérer des tests psychométriquescomportant peu de modalités. Ce type d’approche a été proposé, notammentdans <strong>le</strong> cadre des modè<strong>le</strong>s <strong>à</strong> équations structurel<strong>le</strong>s (Dunson, 2000 ; Rabe-Hesketh et al., 2004). Dans notre cas, il s’agirait de combiner un modè<strong>le</strong> <strong>à</strong> seuils(Ganiayre et al., 2006 ; Liu et Hedeker, 2006) pour <strong>le</strong>s données ordina<strong>le</strong>s et <strong>le</strong> modè<strong>le</strong>proposé au chapitre III pour <strong>le</strong>s données quantitatives.6.3.3 Multiplicité des événementsDans notre approche, nous n’avons pour l’instant pris en compte qu’un seulévénement conjointement aux marqueurs longitudinaux. Or, dans l’étude du vieillissement,plusieurs événements peuvent intervenir de manière concurrentiel<strong>le</strong> commela survenue d’une démence (avec des types différents) et <strong>le</strong> décès, ou de manièrenon concurrentiel<strong>le</strong> comme la survenue d’une démence et l’entrée en institution.Modéliser conjointement plusieurs événements pourrait permettre de mieux comprendre<strong>le</strong>ur dépendance mutuel<strong>le</strong> et <strong>le</strong>ur association avec <strong>le</strong> déclin cognitif. A partirde notre approche, il est possib<strong>le</strong> de considérer plusieurs événements conjointementen ajoutant un modè<strong>le</strong> de survie pour chaque événement prédit par la classed’appartenance et envisager une corrélation entre <strong>le</strong>s événements par un paramètrede fragilité commun comme proposé récemment dans <strong>le</strong> cadre de modè<strong>le</strong>s <strong>à</strong> effetsaléatoires partagés (Chi et Ibrahim, 2006).


Discussion et perspectives 1636.4 ConclusionDans ce travail, nous avons proposé une nouvel<strong>le</strong> approche pour modéliser <strong>le</strong>déclin des fonctions cognitives <strong>à</strong> partir de plusieurs tests psychométriques et sonassociation avec la survenue d’une démence. Malgré <strong>le</strong>s limites abordées dans cechapitre, cette approche est uti<strong>le</strong> <strong>à</strong> la fois par sa soup<strong>le</strong>sse concernant notamment laprise en compte de variab<strong>le</strong>s explicatives et la modélisation de plusieurs marqueursnon Gaussiens et par sa relative simplicité numérique. Nous avons en particuliermontré <strong>à</strong> travers plusieurs applications son intérêt dans l’étude du vieillissementcognitif et la survenue d’une démence. Cependant, des développements sont encorenécessaires pour évaluer <strong>le</strong>s hypothèses du modè<strong>le</strong> et en premier lieu l’hypothèsed’indépendance conditionnel<strong>le</strong>. De plus, il serait intéressant par la suite d’étendrenotre approche <strong>à</strong> des marqueurs de nature différente, <strong>à</strong> la modélisation conjointe deplusieurs événements mais surtout <strong>à</strong> la prise en compte de l’aspect dynamique del’hétérogénéité par des modè<strong>le</strong>s <strong>à</strong> états cachés.


Chapitre 7BibliographieAmieva, H., Jacqmin-Gadda, H., Orgogozo, J. M., Le Carret, N., Helmer, C., Letenneur,L., Barberger-Gateau, P., Fabrigou<strong>le</strong>, C. et Dartigues, J. F. (2005). The9 year cognitive decline before dementia of the Alzheimer type : a prospectivepopulation-based study. Brain 128, 1093–101.Andersen, K., Launer, L. J., Dewey, M. E., Letenneur, L., Ott, A., Copeland, J. R.,Dartigues, J. F., Kragh-Sorensen, P., Baldereschi, M., Brayne, C., Lobo, A.,Martinez-Lage, J. M., Stijnen, T. et Hofman, A. (1999). Gender differences in theincidence of AD and vascular dementia : The EURODEM studies. EURODEMIncidence Research Group. Neurology 53, 1992–7.Anstey, K. J., Hofer, S. M. et A., L. M. (2003). A latent growth curve analysis oflate-life sensory and cognitive function ovar 8 years : evidence for specific andcommon factors underlying change. Psychology ang aging 18, 714–726.Backman, L., Small, B. J. et Fratiglioni, L. (2001). Stability of the preclinica<strong>le</strong>pisodic memory deficit in Alzheimer’s disease. Brain 124, 96–102.Bandeen-Roche, K., Miglioretti, D. L., Zeger, S. L. et Rathouz, P. J. (1997). latentvariab<strong>le</strong> regression for multip<strong>le</strong> discrete outcomes. Journal of the AmericanStatistical Association 92, 1375–1386.Barnes, L. L., Wilson, R. S., Schneider, J. A., Bienias, J. L., Evans, D. A. et Bennett,D. A. (2003). Gender, cognitive decline, and risk of AD in older persons.164


Bibliographie 165Neurology 60, 1777–81.Bauer, D. J. et Curran, P. J. (2003a). Distributional assumptions of growth mixturemodels : implications for overextraction of latent trajectory classes. PsycholMethods 8, 338–63.Bauer, D. J. et Curran, P. J. (2003b). Overextraction of latent trajectory classes :much ado about nothing ? Reply to Rindskopf (2003), Muthén (2003) and Cudeckand Henly (2003). Psychol Methods 8, 384–393.Beckett, L. A., Tancredi, D. J. et Wilson, R. S. (2004). Multivariate longitudinalmodels for comp<strong>le</strong>x change processes. Stat Med 23, 231–9.Benton, A. (1965). Manuel pour l’application du Test de Rétention Visuel<strong>le</strong>. Applicationscliniques et expérimenta<strong>le</strong>s. Centre de Psychologie appliquée, Paris,2ème édition française edition.Berchtold, A. (2004). Optimization of mixture models : comparison of differentstrategies. Computational statistics 19, 385–406.Beunckens, C., Mo<strong>le</strong>nberghs, G., Verbeke, G. et Mallinckrodt, C. (2006). A latentclassmixture model for incomp<strong>le</strong>te longitudinal gaussian data. Center for statistics,Hasselt University, Belgium.Biernacki, C., Ce<strong>le</strong>ux, G. et Govaert, G. (2003). Choosing starting values for theEM algorithm for getting the highest likelihood in multivariate Gaussian mixturemodels. Computational Statistics and Data Analysis 41, 561–575.Bohning, D. (1995). A review of reliab<strong>le</strong> maximum likelihood algorithms for semiparametricmixture models. Journal of Statistical Planning and Inference 47,5–28.Bohning, D. (2000). Computer-assisted analysis of mixtures and applications : metaanalysis,disease mapping and others. Chapmann & Hall/CRC, Boca Raton, FL.Bohning, D. et Seidel, W. (2003). Editorial : recent developments in mixture models.Computational Statistics and Data Analysis 41, 349–357.Brooks, J. O. et Yesavage, J. A. (1995). Identification of fast and slow decliners inAlzheimer disease : a different approach. Alzheimer Dis Assoc Disord 9 Suppl


Bibliographie 1661, S19–25.Brown, E. R., Ibrahim, J. G. et DeGruttola, V. (2005). A f<strong>le</strong>xib<strong>le</strong> b-spline modelfor multip<strong>le</strong> longitudinal biomarkers and survival. Biometrics 61, 64–73.Ce<strong>le</strong>ux, G., Martin, O. et Lavergne, C. (2005). Mixture of linear mixed models :application to repeated data clustering. Statistical modelling 5, 243–267.Charnigo, R. et Sun, J. (2004). Testing homogeneity in a mixture distribution viathe L2 <strong>distance</strong> between competing models. Journal of the American StatisticalAssociation 99, 488–498.Chen, H. et Chen, J. (2001). Large samp<strong>le</strong> distribution of the likelihood ratio testfor normal mixtures. Statistics and Probability Letters 52, 125–133.Chen, H., Chen, J. et Kalbf<strong>le</strong>ish, J. D. (2001). A modified likihood ratio test forhomogeneity in finite mixture models. J R Statist Soc B 63, 19–29.Chen, J. et Kalbf<strong>le</strong>isch, J. D. (2005). Modified likelihood ratio test in finite mixturemodels with a structural parameter. Journal of Statistical Planning and InferenceIISA 2002 DeKalb Conference 129, 93–107.Chi, Y.-Y. et Ibrahim, J. G. (2006). Joint models for multivariate longitudinal andmultivariate survival data. Biometrics 62, 432–445.Cowppli-Bony, P., Dartigues, J. F. et Orgogozo, J. M. (2006). [vascular risk factorsand Alzheimer disease risk : epidemiological studies review]. Psychol NeuropsychiatrVieil 4, 47–60.Cudeck, R. et Henly, S. J. (2003). A realistic perspective on pattern representationin growth data : comment on Bauer and Curran (2003). Psychol Methods 8,378–83 ; discussion 384–93.Dartigues, J. F., Commenges, D., Letenneur, D., Barberger-Gateau, P., Gil<strong>le</strong>ron, V.,Fabrigou<strong>le</strong>, C., Mazaux, J. M., Orgogozo, J. M. et Salamon, R. (1997). Cognitivepredictors of dementia in elderly community residents. Neuroepidemiology 16,29–39.De Boor, C. (1978). A practical guide to splines. Springer, New-York.de la Torre, J. C. (2004). Is alzheimer’s disease a neurodegenerative or a vascular


Bibliographie 167disorder ? data, dogma, and dia<strong>le</strong>ctics. Lancet Neurol 3, 184–90.Dempster, A., Laird, N. et Rubin, D. (1977). Maximum likelihood from incomp<strong>le</strong>tedata via EM algorithm (with discussion). J R Statist Soc B 39, 1–38.Dempster, A., Laird, N. et Rubin, D. (1978). Maximum likelihood from incomp<strong>le</strong>tedata via em algorithm (with discussion). J R Statist Soc B 39, 1–38.Dunson, D. (2000). Bayesian latent variab<strong>le</strong> models for clustered mixed outcomes.Journal of the Royal Statistical Society, Series B 62, 355–66.Dunson, D. (2003). Dynamic latent trait models for multidimensional longitudinaldata. Journal of the American Statistical Association 98, 555–63.Elias, M. F., Elias, P. K., D’Agostino, R. B., Silbershatz, H. et Wolf, P. A. (1997).Ro<strong>le</strong> of age, education, and gender on cognitive performance in the framinghamheart study : community-based norms. Exp Aging Res 23, 201–35.Fabrigou<strong>le</strong>, C., Letenneur, L., Dartigues, J. F., Zarrouk, M., Commenges, D. etBarberger-Gateau, P. (1995). Social and <strong>le</strong>isure activities and risk of dementia :a prospective longitudinal study. J Am Geriatr Soc 43, 485–90.Fabrigou<strong>le</strong>, C., Rouch, I., Taberly, A., Letenneur, L., Commenges, D., Mazaux, J.-M., Orgogozo, J.-M. et Dartigues, J.-F. (1998). Cognitive process in preclinicalphase of dementia. Brain 121, 135–141.Farrer, L., Cupp<strong>le</strong>s, L., Haines, J., Hyman, B. Kukull, W., Mayeux, R., Myers, R.,Pericak-Vance, M., Risch, N. et Van Duijn, C. (1997). Effects of age, sex andethnicity on the association between apolipoprotein E genotype and Alzheimerdisease. A meta-analysis. APOE and Alzheimer Disease Meta Analysis Consortium.JAMA 278, 1349–56.Fieuws, S. et Verbeke, G. (2004). Joint modelling of multivariate longitudinal profi<strong>le</strong>s: pitfalls of the random-effects approach. Stat Med 23, 3093–104.Fitzmaurice, G. M., Laird, N. M. et Shneyer, L. (2001). An alternative parameterizationof the general linear mixture model for longitudinal data with non-ignorab<strong>le</strong>drop-outs. Stat Med 20, 1009–21.F<strong>le</strong>tcher, R. (2000). Practical methods of optimization, second ed. John Wi<strong>le</strong>y and


Bibliographie 168Sons, New-York.Folstein, M. F., Folstein, S. E. et McHugh, P. R. (1975). ”mini-Mental State”. Apractical method for grading the cognitive state of patients for the clinician. JPsychiatr Res 12, 189–98.Fratiglioni, L., Launer, L. J., Andersen, K., Brete<strong>le</strong>r, M. M., Copeland, J. R., Dartigues,J. F., Lobo, A., Martinez-Lage, J., Soininen, H. et Hofman, A. (2000).Incidence of dementia and major subtypes in Europe : A collaborative study ofpopulation-based cohorts. Neurologic Diseases in the Elderly Research Group.Neurology 54, S10–5.Galasko, D. R., Gould, R. L., Abramson, I. S. et Salmon, D. P. (2000). Measuringcognitive change in a cohort of patients with Alzheimer’s disease. Stat Med 19,1421–32.Ganguli, M., Seaberg, E. C., Ratcliff, G. G., Bel<strong>le</strong>, S. H. et DeKosky, S. T. (1996).Cognitive stability over 2 years in a rural elderly population : the MoVIES project.Neuroepidemiology 15, 42–50.Ganiayre, J., Commenges, D. et Letenneur, L. (2006). A latent process model fordementia and psychometric tests. Technical report, Equipe de BiostatistiqueINSERM E0338, Université Victor Sega<strong>le</strong>n, Bordeaux, France.Ghosh, J. et Sen, P. (1985). On the asymptotic performance of the log likelihoodratio statistics for the mixture model and related results. In Cam, L. L. et Olshen,R., editors, Proceedings of the Berke<strong>le</strong>y Conference in honor of J. Neyman andJ. Kiefer, Belmont, CA. Wadsworth.Gray, S. M. et Brookmeyer, R. (1998). Estimating a treatment effect from multidimensionallongitudinal data. Biometrics 54, 976–988.Gray, S. M. et Brookmeyer, R. (2000). Multidimensional longitudinal data : estimatinga treatment effect from continuous, discrete, or time-to-event responsevariab<strong>le</strong>s. Journal of the American Statistical Association 95, 396–406.Guo, H. et Bandeen-Roche, K. (2005). Modeling differentiated treatmenteffects for multip<strong>le</strong> outcomes data. Technical report, Johns Hopkins


Bibliographie 169University, Dept. of Biostatistics Working Papers. Working Paper 91.,http ://www.bepress.com/jhubiostat/paper91.Guo, J., Wall, M. et Amemyia, Y. (2006). Latent class regression on latent factors.Biostatistics 7, 145–63.Hall, C. B., Lipton, R. B., Sliwinski, M. et Stewart, W. F. (2000). A change pointmodel for estimating the onset of cognitive decline in preclinical Alzheimer’sdisease. Stat Med 19, 1555–66.Hall, C. B., Ying, J., Kuo, L., Sliwinski, M., Buschke, H., Katz, M. et Lipton, R. B.(2001). Estimation of bivariate measurements having different change points,with application to cognitive ageing. Stat Med 20, 3695–714.Hall, C. B., Ying, J. et Lipton, R. B. (2003). Bayesian and profi<strong>le</strong> likelihood changepoint methods for modeling cognitive function over time. Computational Statisticsand data analysis 42, 91–109.Hall, D. B. et Clutter, M. (2004). Multivariate multi<strong>le</strong>vel nonlinear mixed effectsmodels for timber yield predictions. Biometrics 60, 16–24.Harvey, D., Laurel, L. et Mungas, D. (2003). Multivariate modeling of two associatedcognitive outcomes in a longitudinal study. Journal of Alzheimer’s disease 5,357–65.Haughton, D. (1997). Packages for estimating finite mixtures : a review. the Americanstatistician 51, 194–205.Hawkins, D. S., Al<strong>le</strong>n, D. M. et Stromberg, A. J. (2001). Determining the numberof components in mixtures of linear models. Computational Statistics and DataAnalysis 38, 15–48.Heagerty, P. et Zheng, Y. (2005). Survival model predictive accuracy and ROCcurves. Biometrics 61, 92–105.Henderson, R., Digg<strong>le</strong>, P. et Dobson, A. (2000). Joint modelling of longitudinalmeasurements and event time data. Biostatistics 1, 465–80.Henderson, R., Digg<strong>le</strong>, P. et Dobson, A. (2002). Identification and efficacy of longitudinalmarkers for survival. Biostatistics 3, 33–50.


Bibliographie 170Hogan, J. W. et Laird, N. M. (1997). Model-based approaches to analysing incomp<strong>le</strong>telongitudinal and failure time data. Stat Med 16, 259–72.Isaacs, B. et Kennie, A. T. (1973). The Set test as an aid to the detection of dementiain old peop<strong>le</strong>. Br J Psychiatry 123, 467–70.Jacqmin-Gadda, H., Commenges, D. et Dartigues, J. (1999). [analysis of longitudinalGaussian data with missing data on the response variab<strong>le</strong>]. Rev Epidemiol SantePublique 47, 525–34.Jacqmin-Gadda, H., Commenges, D. et Dartigues, J. F. (2006). Random changepoint model for joint modeling of cognitive decline and dementia. Biometrics 62,254–60.Jacqmin-Gadda, H., Fabrigou<strong>le</strong>, C., Commenges, D. et Dartigues, J. F. (1997a). A5-year longitudinal study of the Mini-Mental State Examination in normal aging.Am J Epidemiol 145, 498–506.Jacqmin-Gadda, H., Fabrigou<strong>le</strong>, C., Commenges, D. et Dartigues, J. F. (1997b).[longitudinal study of cognitive aging in non-demented elderly subjects]. RevEpidemiol Sante Publique 45, 363–72.Jeffries, N. O. (2003). A note on ’Testing the number of components in a normalmixture’. Biometrika 90, 991–994.Joly, P. (1996). Estimation de la fonction de risque dans un con<strong>texte</strong> général detroncature et de censure : application <strong>à</strong> l’estimation de l’incidence de la démence.PhD thesis, Université de Bordeaux II.Joly, P., Letenneur, L., Alioum, A. et Commenges, D. (1999). PHMPL : a computerprogram for hazard estimation using a penalized likelihood method withinterval-censored and <strong>le</strong>ft-truncated data. Computer Methods and Programs inBiomedicine 60, 225–231.Joseph, L., Wolfson, D. B., Belis<strong>le</strong>, P., Brooks, J. O., r., Mortimer, J. A., Tink<strong>le</strong>nberg,J. R. et Yesavage, J. A. (1999). Taking account of between-patient variabilitywhen modeling decline in Alzheimer’s disease. Am J Epidemiol 149, 963–73.Karlis, D. et Xekalaki, E. (2003). Choosing initial values for the EM algorithm for


Bibliographie 171finite mixtures. Computational Statistics and Data Analysis 41, 577–590.Komarek, A. (2001). A SAS-macro for linear mixed models with a finitenormal mixture as random-effects distribution. Technical report,Biostatistical Center, Catholic University of Leuven, Belgium,http ://www.med.ku<strong>le</strong>uven.ac.be/biostat/research/software.htm.Laird, N. et Ware, J. (1982). Random-effects models for longitudinal data. Biometrics38, 963–74.Larrieu, S., Letenneur, L., Helmer, C., Dartigues, J. F. et Barberger-Gateau, P.(2004). Nutritional factors and risk of incident dementia in the PAQUID longitudinalcohort. J Nutr Health Aging 8, 150–4.Law, N. J., Taylor, J. M. et Sand<strong>le</strong>r, H. (2002). The joint modeling of a longitudinaldisease progression marker and the failure time process in the presence of cure.Biostatistics 3, 547–63.Lee, S. et Song, X. (2004). Bayesian model comparison of nonlinear structura<strong>le</strong>quation models with missing continuous and ordinal categorical data. BritishJournal of Mathematical and Statistical Psychology 57, 131–150.Leg<strong>le</strong>r, J. M., Davis, W. W., Potosky, A. L. et Hoffman, R. M. (2004). Latent variab<strong>le</strong>modelling of recovery trajectories : sexual function following radical prostatectomy.Stat Med 23, 2875–93.Letenneur, L., Commenges, D., Dartigues, J. F. et Barberger-Gateau, P. (1994).Incidence of dementia and Alzheimer’s disease in elderly community residents ofsouth-western France. Int J Epidemiol 23, 1256–61.Letenneur, L., Gil<strong>le</strong>ron, V., Commenges, D., HElmer, C., Orgogozo, J. et Dartigues,J. (1999). Are sex and educational <strong>le</strong>vel independent predictors of dementiaand Alzheimer’s disease ? incidence data from the PAQUID project. Journal ofneurology neurosurgery and psychiatry 66, 177–183.Lin, H., McCulloch, C. E. et Mayne, S. T. (2002). Maximum likelihood estimationin the joint analysis of time-to-event and multip<strong>le</strong> longitudinal variab<strong>le</strong>s. StatMed 21, 2369–82.


Bibliographie 172Lin, H., McCulloch, C. E. et Rosenheck, R. A. (2004). Latent pattern mixture modelsfor informative intermittent missing data in longitudinal studies. Biometrics 60,295–305.Lin, H., McCulloch, C. E., Turnbull, B. W., Slate, E. H. et Clark, L. C. (2000).A latent class mixed model for analysing biomarker trajectories with irregularlyschedu<strong>le</strong>d observations. Stat Med 19, 1303–18.Lin, H., Turnbull, B. W., Mc Culloch, C. E. et Slate, E. H. (2002). Latent classmodels for joint analysis of longitudinal biomarker and event process data : applicationto longitudinal prostate-specific antigen readings and prostate cancer.Journal of the American Statistical Association 97, 53–65.Lindstrom, M. J. et Bates, D. M. (1988). Newton-raphson and EM algorithms forlinear mixed-effects models for repeated-measures data. Journal of the AmericanStatistical Association 83, 1014–1022.Litt<strong>le</strong>, R. J. (1995). Modeling the drop-out mechanism in repeated-measures studies.Journal of the American Statistical Association 90, 1112–1121.Litt<strong>le</strong>, R. J. et Rubin, D. B. (1987). Statistical analysis with missing data. JohnWi<strong>le</strong>y and Sons, New-York.Liu, L. C. et Hedeker, D. (2006). A mixed-effects regression model for longitudinalmultivariate ordinal data. Biometrics 62, 261–8. Journal Artic<strong>le</strong>.Lo, Y., Mendell, N. R. et Rubin, D. B. (2001). Testing the number of componentsin a normal mixture. Biometrika 88, 767–778.Lobo, A., Launer, L. J., Fratiglioni, L., Andersen, K., Di Carlo, A., Brete<strong>le</strong>r, M. M.,Copeland, J. R., Dartigues, J. F., Jagger, C., Martinez-Lage, J., Soininen, H.et Hofman, A. (2000). Preva<strong>le</strong>nce of dementia and major subtypes in Europe :A collaborative study of population-based cohorts. Neurologic Diseases in theElderly Research Group. Neurology 54, S4–9.Luchsinger, J. A. et Mayeux, R. (2004). Dietary factors and alzheimer’s disease.Lancet Neurol 3, 579–87.Marshall, G., De la Cruz-Mesia, R., Baron, A. E., Rut<strong>le</strong>dge, J. H. et Zerbe, G. O.


Bibliographie 173(2006). Non-linear random effects model for multivariate responses with missingdata. Stat Med 25, 2817–2830.Matsuyama, Y. et Ohashi, Y. (1997). Mixed models for bivariate response repeatedmeasures data using gibbs sampling. Stat Med 16, 1587–601.McCulloch, C. E., Lin, H., Slate, E. H. et Turnbull, B. W. (2002). Discoveringsubpopulation structure with latent class mixed models. Stat Med 21, 417–29.McLachlan, G. (1987). On bootstrapping the likelihood ratio test statistic for thenumber of components in a nomrla mixture. Appl Statist 36, 318–324.Mendiondo, M. S., Ashford, J. W., Kryscio, R. J. et A., S. F. (2000). Modelling MiniMental State Examination changes in Alzheimer’s disease. statistics in medicine19, 1607–1616.Miloslavsky, M. et van der Laan, M. J. (2003). Fitting of mixtures with unspecifiednumber of components using cross validation <strong>distance</strong> estimate. ComputationalStatistics and Data Analysis 41, 413–428.Moreno, E. et Liseo, B. (2003). A default Bayesian test for the number of componentsin a mixture. Journal of Statistical Planning and Inference 111, 129–142.Morris, M. C., Evans, D. A., Hebert, L. E. et Bienias, J. L. (1999). Methodologicalissues in the study of cognitive decline. Am J Epidemiol 149, 789–93.Muthén, B. (2001). Latent variab<strong>le</strong> mixture modeling. In G.A. Marcoulides andR.E. Schmacker (eds.), New developmnets and techniques in Structural equationmodeling (pp 1-33). Lawrence Erlbaum Associates.Muthén, B. (2002). Beyond SEM : General latent variab<strong>le</strong> modeling. Behaviormetrika29, 81–117.Muthén, B. (2003). Statistical and substantive checking in growth mixture modeling: comment on Bauer and Curran (2003). Psychol Methods 8, 369–77 ;discussion 384–93.Muthén, B. (2004). Latent variab<strong>le</strong> analysis : Growth mixture modeling and relatedtechniques for longitudinal data. In D. Kaplan (ed.), Handbook of quantitativemethodology for the social sciences (pp. 345-368). Sage Publications, Newbury


Bibliographie 174Park, CA.Muthén, B., Brown, C. H., Masyn, K., Jo, B., Khoo, S. T., Yang, C. C., Wang,C. P., Kellam, S. G., Carlin, J. B. et Liao, J. (2002). General growth mixturemodeling for randomized preventive interventions. Biostatistics 3, 459–75.Muthén, B. et Muthén, L. (2001). Mplus user’s guide. Muthén and Muthén, LosAnge<strong>le</strong>s, CA.Muthén, B. et Shedden, K. (1999). Finite mixture modeling with mixture outcomesusing the EM algorithm. Biometrics 55, 463–9.Nityasuddhi, D. et Bohning, D. (2003). Asymptotic properties of the EM algorithmestimate for normal mixture models with component specific variances. ComputationalStatistics and Data Analysis 41, 591–601.O’Brien, L. M. et Fitzmaurice, G. M. (2005). Regression models for the analysis oflongitudinal gaussian data from multip<strong>le</strong> sources. Stat Med 24, 1725–44. JournalArtic<strong>le</strong>.OPEPS (2006). Rapport sur la maladie d’Alzheimer et <strong>le</strong>s maladies apparentées.Office par<strong>le</strong>mentaire d’évaluation des politiques de santé.O’Sullivan, F. (1988). Fast computation of fully automated log-density and loghazardestimators. SIAM Journal on Scientific ans statistical computing 9, 363–379.Pau<strong>le</strong>r, D. K. et Laird, N. M. (2000). A mixture model for longitudinal data withapplication to assessment of noncompliance. Biometrics 56, 464–72.Proust, C. et Jacqmin-Gadda, H. (2005). Estimation of linear mixed models with amixture of distribution for the random-effects. Computer Methods and Programsin Biomedicine 78, 165–173.Rabe-Hesketh, S., Skrondal, A. et Pick<strong>le</strong>s, A. (2004). Generalized multi<strong>le</strong>vel structura<strong>le</strong>quation modelling. Psychometrika 69, 167–90.Ramaroson, H., Helmer, C., Barberger-Gateau, P., Letenneur, L. et Dartigues, J. F.(2003). [preva<strong>le</strong>nce of dementia and Alzheimer’s disease among subjects aged 75years or over : updated results of the PAQUID cohort]. Rev Neurol (Paris) 159,


Bibliographie 175405–11.Ramsay, J. (1988). Monotone regression splines in action. Statistical science 3,425–461.Redner, R. A. et Walker, Homer, F. (1984). Mixture densities, maximum likelihoodand the EM algorithm. SIAM review 26, 195–239.Reite, M., Cullum, C. M., Stocker, J., Tea<strong>le</strong>, P. et Kozora, E. (1993). Neuropsychologicaltest performance and meg-based brain lateralization : sex differences.Brain Res Bull 32, 325–8. Journal Artic<strong>le</strong>.Richardson, S. et Green, P. J. (1997). On bayesian analysis of mixtures with anunknown number of components. J R Statist Soc B 59, 731–792.Rindskopf, D. (2003). Mixture or homogeneous ? Comment on Bauer and Curran(2003). Psychol Methods 8, 364–8 ; discussion 384–93.Ringman, J. et Cummings, J. (2006). Current and emerging pharmacological treatmentoptions for dementia. Behavioural Neurology 17, 5–16.Roy, J. (2003). Modeling longitudinal data with nonignorab<strong>le</strong> dropouts using alatent dropout class model. Biometrics 59, 829–36.Roy, J. et Lin, X. (2000). Latent variab<strong>le</strong> models for longitudinal data with multip<strong>le</strong>continuous outcomes. Biometrics 56, 1047–1054.Roy, J. et Lin, X. (2002). Analysis of multivariate longitudinal outcomes with nonignorab<strong>le</strong>dropouts and missing covariates : changes in methadone treatmentpractices. Journal of the American Statistical Association 97, 40–52.Salthouse, T. A. (1996). The processing-speed theory of adult age differences incognition. Psychol Rev 103, 403–28.Sánchez, B. N., Budtz-Jorgensen, E., Ryan, L. M. et Hu, H. (2005). Structura<strong>le</strong>quation models : a review with applications to environmental epidemiology.Journal of the American Statistical Association 100, 1443–1455.Scarmeas, N., Albert, S. M., Manly, J. J. et Stern, Y. (2006). Education and rates ofcognitive decline in incident Alzheimer’s disease. J Neurol Neurosurg Psychiatry77, 308–16.


Bibliographie 176Schlattmann, P. (2003). Estimating the number of components in a finite mixturemodel : special case of homogeneity. Computational Statistics and Data Analysis41, 441–451.Schwartz, G. (1978). Estimating the dimension of a model. The Annals of Statistics6, 461–464.Shah, A., Laird, N. M. et Schoenfeld, D. (1997). A random-effects model for multip<strong>le</strong>characteristics with possibly missing data. Journal of the American StatisticalAssociation 92, 775–779.Shelton, B. J., Gilbert, G. H., Liu, B. et Fisher, M. (2004). A sas macro for theanalysis of multivariate longitudinal binary outcomes. Computer Methods andPrograms in Biomedicine 76, 163–175.Skrondal, A. et Rabe-Hesketh, S. (2004). Generalized latent variab<strong>le</strong> modelling :multi<strong>le</strong>vel, longitudinal and structural equation models. Chapman & hall/CRC.Sliwinski, M., Hofer, S. et Hall, C. (2003). Correlated and coup<strong>le</strong>d cognitive changein older adults with or without preclinical demantia. Psychology ang aging 18,672–83.Sliwinski, M., Lipton, R. B., Buschke, H. et Stewart, W. (1996). The effects ofpreclinical dementia on estimates of normal cognitive functioning in aging. JGerontol B Psychol Sci Soc Sci 51, P217–25.Sliwinski, M. J., Hofer, S. M., Hall, C., Buschke, H. et Lipton, R. B. (2003). Modelingmemory decline in older adults : the importance of preclinical dementia, attrition,and chronological age. Psychol Aging 18, 658–71.Song, X. et Lee, S. (2004). Bayesian analysis of two-<strong>le</strong>vel nonlinear structural equationmodels with continuous and polytomous data. British Journal of Mathematicaland Statistical Psychology 57, 29–52.Spiessens, B., Verbeke, G. et Komarek, A. (2002). A SAS-macro forthe classification of longitudinal profi<strong>le</strong>s using mixtures of normal distributionsin nonlinear and generalized linear models. Technical report,Biostatistical Center, Catholic University of Leuven, Belgium,


Bibliographie 177http ://www.med.ku<strong>le</strong>uven.ac.be/biostat/research/software.htm.Stern, Y., Gurland, B., Tatemichi, T. K., Tang, M. X., Wilder, D. et Mayeux, R.(1994). Influence of education and occupation on the incidence of Alzheimer’sdisease. Jama 271, 1004–10.Sugar, C. A. et James, G. M. (2003). Finding the number of clusters in a dataset : aninformation-theoretic approach. Journal of the American Statistical Association98, 750–763.Sy, J. P. et Taylor, J. M. (1997). A stochastic model for the analysis of bivariatelongitudinal AIDS data. Biometrics 53, 542–555.Taylor, J., Yu, M. et Sand<strong>le</strong>r, H. (2005). Individualized predictions of disease progressionfollowing radiation therapy for prostate cancer. Journal of Clinical Oncology23, 816–825.Thiébaut, R., Jacqmin-Gadda, H., Babiker, A. et Commenges, D. (2005). Joint modellingof bivariate longitudinal data with informative dropout and <strong>le</strong>ft-censoring,with application to the evolution of cd4+ cell count and hiv rna viral load in responseto treatment of hiv infection. Stat Med 24, 65–82.Thiébaut, R., Jacqmin-Gadda, H., Chène, G., Leport, C. et Commenges, D. (2002).Bivariate linear mixed models using sas proc mixed. Computer Methods andPrograms in Biomedicine 69, 249–256.Thiébaut, R., Jacqmin-Gadda, H., Leport, C., Katlama, C., Costagliola, D.,Le Moing, V., Meyer, L., Morlat, P., Chène, G. et the APROCO study group(2003). Bivariate longitudinal model for the analysis of the evolution of HIVRNA and CD4 cell count in HIV infection taking into account <strong>le</strong>ft censoring ofHIV RNA measures. J Biopharm Stat 13, 271–82.Todem, D., Kim, K. et Lesaffre, E. (2006). Latent-variab<strong>le</strong> models for longitudinaldata with bivariate ordinal outcomes. Stat Med .Valdois, S., Joanette, Y., Poissant, A., Ska, B. et Dehaut, F. (1990). Heterogeneityin the cognitive profi<strong>le</strong> of normal elderly. J Clin Exp Neuropsychol 12, 587–96.Verbeke, G. et Lesaffre, E. (1996). A linear mixed-effects model with heterogeneity


Bibliographie 178in the random-effects population. Journal of the American Statistical Association91, 217–221.Verbeke, G. et Lesaffre, E. (1997). The effect of misspecifying the random-effects distributionin linear mixed models for longitudinal data. Computational Statisticsand Data Analysis 23, 541–556.Verbeke, G. et Mo<strong>le</strong>nberghs, G. (2000). Linear mixed models for longitudinal data.Springer, New-York.Wall, M. et Amemiya, Y. (2000). Estimation for polynomial structural equationmodels. Journal of the American Statistical Association 95, 929–40.Wang, C.-P., Brown, C. H. et Bandeen-Roche, K. (2005). Residual diagnostics forgrowth mixture models : examining the impact of a preventive intervention onmultip<strong>le</strong> trajectories of aggressive behavior. Journal of the American StatisticalAssociation 100, 1054–1076.Wang, H. x., Luo, B., Zhang, Q. b. et Wei, S. (2004). Estimation for the number ofcomponents in a mixture model using stepwise split-and-merge EM algorithm.Pattern Recognition Letters 25, 1799–1809.Wechs<strong>le</strong>r, D. (1981). WAIS-R manual. Psychological Corporation, New York.Wiederholt, W. C., Cahn, D., Butters, N. M., Salmon, D. P., Kritz-Silverstein, D.et Barrett-Connor, E. (1993). Effects of age, gender and education on se<strong>le</strong>ctedneuropsychological tests in an elderly community cohort. J Am Geriatr Soc 41,639–47.Wulfsohn, M. S. et Tsiatis, A. A. (1997). A joint model for survival and longitudinaldata measured with error. Biometrics 53, 330–9.Xu, J. et Zeger, S. L. (2001). The evaluation of multip<strong>le</strong> surrogate endpoints. Biometrics57, 81–7.Xu, W. et Hedeker, D. (2001). A random-effects mixture model for classifyingtreatment response in longitudinal clinical trials. J Biopharm Stat 11, 253–73.Yesavage, J. A. et Brooks, J. O. (1991). On the importance of longitudinal researchin Alzheimer’s disease. J Am Geriatr Soc 39, 942–4.


Bibliographie 179Yu, M., Taylor, J. et Sand<strong>le</strong>r, H. M. (2004). Individual prediction in prostate cancerstudies using a joint longitudinal-survival-cure model. Technical Report 24,University of Michigan, department of Biostatistics.Zhang, M.-H. et Cheng, Q.-S. (2004). Determine the number of components in amixture model by the extended KS test. Pattern Recognition Letters 25, 211–216.


Chapitre 8Annexes8.1 Liste des publications et communications scientifiquesPublications :Proust, C., Jacqmin-Gadda, H., Taylor, J.M.G., Ganiayre, J. et Commenges, D.(2006). A nonlinear model with latent process for cognitive evolution using multivariatelongitudinal data. Biometrics 62 :1014-24Proust-Lima, C., Letenneur, L., et Jacqmin-Gadda, H. (2006). A nonlinear latentclass model for joint analysis of multivariate longitudinal data and a binary outcome.Statistics in Medecine, publication en ligne <strong>le</strong> 10 août 2006.doi : 10.1002/sim.2659Proust-Lima, C., Amieva, H., Dartigues, J.-F. et Jacqmin-Gadda, H. (2006). Sensitivityof four psychometric tests to measure cognitive changes in brain agin populationbasedstudies. American Journal of Epidemiology, publication en ligne <strong>le</strong> 14 novembre2006. doi :10.1093/aje/kwk017180


Annexes 181Proust-Lima, C., Amieva, H., Jacqmin-Gadda, H., Letenneur, L., Orgogozo, J.-M.et Dartigues, J.-F. (2006). Impact of gender and education on cognitive decline withage : a longitudinal approach. Artic<strong>le</strong> soumisCommunications ora<strong>le</strong>s :Proust-Lima, C., et Jacqmin-Gadda, H. (2006). A nonlinear latent class model forjoint analysis of multip<strong>le</strong> longitudinal outcomes and a clinical event : cognitive ageingcontext. Statistical Latent Variab<strong>le</strong> Models in the Health Sciences, Pérouse (Italie)Proust-Lima, C., et Jacqmin-Gadda, H. (2006). A nonlinear latent class model forjoint analysis of multip<strong>le</strong> longitudinal outcomes and a clinical event : cognitive ageingcontext. International Workshop on Statistical Modelling, Galway (Irlande)Proust, C., et Jacqmin-Gadda, H. (2004). Modè<strong>le</strong> de mélange <strong>à</strong> effets aléatoires pourdonnées longitudina<strong>le</strong>s multivariées appliqué <strong>à</strong> l’étude du vieillissement cognitif après65 ans. Journées de la Statistique, Montpellier (France)Proust, C., et Jacqmin-Gadda, H. (2004). A growth mixture model for multip<strong>le</strong> outcomes: application to cognitive aging. Statistics in Health Sciences, Nantes (France)Proust, C., Jacqmin-Gadda, H., Taylor, J.M.G, et Commenges, D. (2005). A nonlinearmodel with latent process using multivariate longitudinal data : applicationto cognitive aging. International Biometrics Society British Regional Conference,Leicester (Ang<strong>le</strong>terre)Proust, C., Jacqmin-Gadda, H., Taylor, J.M.G, et Commenges, D. (2005). Un mod´‘e<strong>le</strong>non linéaire avec processus latent pour des données longitudina<strong>le</strong>s multivariées appliqué<strong>à</strong> l’évolution cognitive chez <strong>le</strong>s personnes âgées.Journées de la Statistique,


Annexes 182Pau (France)Communications affichées :Proust, C., et Jacqmin-Gadda, H. (2004). A growth mixture model for multivariateoutcomes : application to cognitive aging.International Workshop on Statistical Modelling,Florence (Italie)8.2 Artic<strong>le</strong>s scientifiquesSont présentés dans cette section, <strong>le</strong>s trois artic<strong>le</strong>s scientifiques résumés dans <strong>le</strong> rapportde thèse :Proust, C., et Jacqmin-Gadda, H. (2005). Estimation of linear mixed models witha mixture of distribution for the random-effects. Computer Methods and Programsin Biomedicine 78 :165-173Proust-Lima, C., Amieva, H., Dartigues, J.-F. et Jacqmin-Gadda, H. (2006). Sensitivityof four psychometric tests to measure cognitive changes in brain agin populationbasedstudies. American Journal of Epidemiology, sous presseProust-Lima, C., Amieva, H., Jacqmin-Gadda, H., Letenneur, L., Orgogozo, J.-M.et Dartigues, J.-F. (2006). Impact of gender and education on cognitive decline withage : a longitudinal approach. Neurobiology of aging, soumis


Annexes 183Computer Methods and Programs in Biomedicine (2005) 78, 165—173Estimation of linear mixed models with a mixtureof distribution for the random effectsCéci<strong>le</strong> Proust ∗ ,Hélène Jacqmin-GaddaInstitut National de la Santé et de la Recherche Médica<strong>le</strong>, Equipe de biostatistique E0338,Université de Bordeaux 2, 146 rue Léo Saignat, 33076 Bordeaux Cedex, FranceReceived 23 December 2003; received in revised form 8 October 2004; accepted 8 December 2004KEYWORDSHeterogeneous mixedmodel;Mixture model;Longitudinal data;Newton–Raphson-likealgorithm;Cognitive ageingSummary The aim of this paper is to propose an algorithm to estimate linear mixedmodel when random effect distribution is a mixture of Gaussians. This heterogeneouslinear mixed model relaxes the classical Gaussian assumption for the random effectsand, when used for longitudinal data, can highlight distinct patterns of evolution.The observed likelihood is maximized using a Marquardt algorithm instead of the EMalgorithm which is frequently used for mixture models. Indeed, the EM algorithm iscomputationally expensive and does not provide good convergence criteria nor directestimates of the variance of the parameters. The proposed method also allowsto classify subjects according to the estimated profi<strong>le</strong>s by computing posterior probabilitiesof belonging to each component. The use of heterogeneous linear mixedmodel is illustrated through a study of the different patterns of cognitive evolutionin the elderly. HETMIXLIN is a free Fortran90 program availab<strong>le</strong> on the web site:http://www.isped.u-bordeaux2.fr.© 2005 Elsevier Ireland Ltd. All rights reserved.1. IntroductionMany longitudinal studies consist in assessing thechanges over the time of a marker measured repeatedlyon each participant. These analyses aregenerally performed with mixed models [1], whichallow to take into account the within-subject correlationand the variability of the marker course betweenthe subjects. However, such a model is basedon the strong assumption that the random effects∗ Corresponding author. Tel.: +33 5 57 57 11 36;fax: +33 5 56 24 00 81.E-mail address: ceci<strong>le</strong>.proust@isped.u-bordeaux2.fr(C. Proust).are samp<strong>le</strong>d from a sing<strong>le</strong> multivariate Gaussian distributionwhich means that the marker course is homogeneousamong all the subjects.To assess this assumption, Verbeke and Lesaffre[2] have proposed a mixed model with a mixture ofmultivariate Gaussians on the random effects. Thisheterogeneous linear mixed model allows to relaxthe normality assumption for the random effectsand also allows to highlight distinct evolutions ofthe marker and classify the subjects according tothese different patterns of evolution.In the Verbeke and Lesaffre’s work as in morerecent papers [3,4], the mixed models with a mixtureon the random effects distribution were estimatedusing an EM algorithm [5]. For instance,0169-2607/$ – see front matter © 2005 Elsevier Ireland Ltd. All rights reserved.doi:10.1016/j.cmpb.2004.12.004


Annexes 184166 C. Proust, H. Jacqmin-GaddaSpiessens and Verbeke [3] recently proposed a freeSAS-macro (HETNLMIXED) using the EM algorithmand the NLMIXED procedure for the optimization inthe M-step. This SAS-macro is an extension of theSAS-macro HETMIXED which was developed earlierfor estimating heterogeneous linear mixed modelsusing the MIXED procedure [6]. To our know<strong>le</strong>dge,HETNLMIXED and its first version HETMIXED are theonly free availab<strong>le</strong> programs developed for estimatingheterogeneous mixed models. The first versionHETMIXED was proved to be very slow and limitedto small samp<strong>le</strong>s due to very large matrices handlingand prohibitive computation; it will not beexpanded in this work. HETNLMIXED was developedto reduce these computational prob<strong>le</strong>ms and to allowestimation of both linear and generalized linearmodels. However, in the linear case, this SAS-macrohas the drawback of computing numerically an integralacross the random effects whi<strong>le</strong> it has a closedform, and thus the macro is limited to a small numberof random effects. We have also observed convergenceprob<strong>le</strong>ms when using the macro with largesamp<strong>le</strong>s except for very simp<strong>le</strong> models.Moreover, the EM algorithm, which is used inthese macros, has some general drawbacks. In particular,it does not have any good convergence criteria;the convergence is only built on a lack ofprogression of the likelihood or the parameter estimates[7]. Furthermore, the convergence is slow[8] and the EM algorithm does not provide directestimates of the variance of the parameters. In theparticular case of an heterogeneous mixed model,the M-step also requires the estimation of an homogeneousmixed model which is computationallyexpensive.Therefore, the first aim of this paper is to proposea program for estimating more general heterogeneouslinear mixed models suitab<strong>le</strong> for largesamp<strong>le</strong>s. The proposed program HETMIXLIN is writtenin Fortran90 and uses a direct maximization ofthe likelihood via a Marquardt optimization algorithm.The second objective of this paper is to illustratethe use of heterogeneous linear mixed modelthrough a study of the different patterns of evolutionin cognitive ageing.2. Computational methods and theory2.1. The heterogeneous linear mixed modelLet Y i = (Y i1 ,...,Y ini ) be the response vector forthe n i measurements of the subject i with i =1,...,N. The linear mixed model [1] for the responsevector Y i is defined as:Y i = X iˇ + Z i u i + i (1)X i is a n i ×p design matrix for the p-vector offixed effects ˇ, and Z i is an i ×q design matrix associatedto the q-vector of random effects u i whichrepresents the subject specific regression coefficients.The errors i are assumed to be normallydistributed with mean zero and covariance matrix 2 I ni , and are assumed to be independent from thevector of random effects u i .In an homogeneous mixed model [1], u i is normallydistributed with meanand covariance matrixD, i.e.u i ∼N(, D) (2)In the heterogeneous mixed model [2–4], u i is assumedto follow a mixture of G multivariate Gaussianswith different means ( g ) g=1,G and a commoncovariance matrix D, i.e.u i ∼G∑ g N( g , D) (3)g=1Each component g of the mixture has a probabilityg and the ( g ) g=1,G verify the following conditions:0 ≤ g ≤ 1∀g = 1,G andG∑ g = 1 (4)g=1In this work, we propose a slightly more generalformulation of the model described in (1) in whichthe effect of some covariates may depend on thecomponents of mixture and some of the randomeffects may have a common mean whatever thecomponent of mixture. Thus, the X i design matrix issplit in X 1i associated with the vector ˇ of fixed effectswhich are common to all the components andX 2i associated with the vectors ı g of fixed effectswhich are specific to the components. The Z i designmatrix is also split in Z 1i associated with the vectorv i of random effects following a sing<strong>le</strong> Gaussiandistribution and Z 2i associated with the vector u iof random effects following a mixture of Gaussiandistributions. The model is then written as:Y i = X 1iˇ +G∑ g X 2i ı g + Z 1i v i + Z 2i u i + i (5)g=1where v i ∼N(0,D v ) and u i ∼ ∑ Gg=1 g N( g ,D u );given the component ( g, ) the conditional (( ) distributionof the vector is N , D with)vi0u i ( ) gDv DD = vu.D uv D u


Annexes 185Estimation of linear mixed models with a mixture of distribution for the random effects 1672.2. LikelihoodFollowing the previous works [3,4], we definew ig the unobserved variab<strong>le</strong> indicating if thesubject i belongs to the component g. We haveP(w ig = 1) = g . The density for the vector y i canthen be written as:f i (y i ) =G∑ g f(y i |w ig = 1) (6)g=1Givenw ig , y i follows a linear mixed model, andthe densityf(y i |w ig = 1) denoted by ig is the multivariateGaussian density with meanE ig and covariancematrix V i given by:E ig =E(Y i |w ig = 1) = X 1iˇ + X 2i ı g + Z 2i g andV i = var(Y i |w ig = 1) = Z i DZ ′ i +2 I ni (7)Let now be the vector of the m parametersof the model. contains with ′ =(ˇ′,(ı g ) ′ g=1,G , ( g) ′ g=1,G , Vec(D)′ , 2 ) and the vectorof the G − 1 first component probabilities( g ) g=1,G−1 . Note that G is entirely determined by as 1 − ∑ G−1g=1 g. Vec(D) represents the vector ofthe upper triangular e<strong>le</strong>ments of D. The estimatesof are obtained as the vector ˆ that maximizesthe observed log-likelihood:⎛⎞N∑ N∑ G∑L(Y; ) = ln(f i (y i )) = ln ⎝ g ig (y i ) ⎠=i=1N∑i=1i=1g=1− n i2 ln(2) − 1 2 ln(|V i|)⎛G∑+ ln ⎝g=1 g e − 1 2 (Y i−E ig ) ′ V −1i2.3. Estimation procedure(Y i −E ig )⎞⎠ (8)We propose to maximize directly the observedlog-likelihood (8) using a modified Marquardt optimizationalgorithm [9], a Newton—Raphson-likealgorithm [10]. The diagonal of the Hessian atiteration k, H (k) , is inflated to obtain a positivedefinite matrix as: H ∗(k) = (H ∗(k)ij) with H ∗(k)ii=H (k)ii+[(1 −)|H (k)ii|+tr(H (k) )] and H ∗(k)ij=H (k)ijif i ≠j. Initial values for and are = 0.01 and = 0.01. They are reduced when H ∗ is positivedefinite and increased if not. The estimates (k) arethen updated to (k+1) using the current modifiedHessian H ∗(k) and the current gradient of theparametersg( (k) ) according to the formula: (k+1) = (k) −˛H ∗(k)−1 g( (k) ) (9)where if necessary, ˛ which equals 1 by defaultis modified to ensure that the log-likelihood isimproved at each iteration.To ensure that the covariance matrix D is positive,we maximize the log-likelihood on the nonzeroe<strong>le</strong>ments of U, the Cho<strong>le</strong>sky factor of D (i.e.U ′ U = D) [7]. Furthermore, to deal with the constraintson (4), we use the transformed parameters( g ) g=1,G−1 with :( )g g = ln(10) GStandard errors of the e<strong>le</strong>ments of D and( g ) g=1,G−1 are computed by the -method [11],whi<strong>le</strong> standard errors of the other parameters aredirectly computed using the inverse of the observedHessian matrix.The convergence is reached when the threefollowing convergence criteria are satisfied:∑ mj=1( (k)j− (k−1)j) 2 ≤ a , |L (k) −L (k−1) |≤ b andg( (k) ) ′ H (k)−1 g( (k) ) ≤ d . The default values are a = 10 −5 , b = 10 −5 and d = 10 −8 .As the log-likelihood of a mixture model mayhave several maxima [8], we use a grid of initial valuesto find the global maximum. The multimodalityof the log-likelihood in mixture models has been oftendiscussed and some authors proposed differentstrategies to choose the set of initial values [12].However, none of them seems to be optimal in ageneral way. We have observed, in our experience,that the results were mainly sensitive to initial valuesof ( g ) g=1,G−1 and ( g ) g=1,G and <strong>le</strong>ss sensitiveto the other parameters (Vec(U), ˇ and) for whichestimates of the homogeneous mixed models weregood initial values.A mixture model is estimated with a fixed numberof components G, otherwise the number of parametersin the model is unknown. To choose theright number of components, one has to estimatemodels with different values for G and se<strong>le</strong>ct thebest model according to a test or a criterion. Someworks favor a bootstrap approach to approximatethe asymptotic distribution of the likelihood ratiotest between models with different number ofcomponents [13] but this approach is very heavyin particular for mixture models with random effects.Criteria such as Akaike’s Information Criterion(AIC) [14] or Bayesian Information Criterion(BIC) [15] are often preferred. We use these se<strong>le</strong>ctioncriteria to se<strong>le</strong>ct the optimal number ofcomponents.


Annexes 186168 C. Proust, H. Jacqmin-Gadda2.4. A posteriori classificationAfter parameter estimation, mixture models allowto classify subjects according to the G components.The classification is based on the posterior probabilities( ig ) g=1,G that the subject i follows each ofthe G components. Using ˆ = (ˆ′, ˆ ′ ) ′ , these probabilitiesare obtained by the Bayes theorem [2–4]as:ˆ ig = P(w ig = 1|Y i , ˆ) =ˆ g ig (ˆ, Y i )∑ Gg=1 ˆ g ig (ˆ, Y i )(11)We then assign to each subject i the component towhich he has the highest probability ( ig ) g=1,G tobelong.3. Program descriptionThe program requires two distinct input fi<strong>le</strong>s: thedata fi<strong>le</strong> described in Appendix A and the parameterfi<strong>le</strong> named HETMIXLIN.inf which contains the informationneeded for the estimation of the model:the names of the data fi<strong>le</strong> and output fi<strong>le</strong>s, the numberof subjects, the description of the model (numberof components G, dimension of the random effects,covariates X 1 , X 2 , Z 1 and Z 2 and covariancestructure of D) and the initial values of the parameters.An examp<strong>le</strong> of the parameter fi<strong>le</strong> is given inAppendix B.The main output fi<strong>le</strong> gives the final loglikelihood,the AIC, the BIC, the convergence criteria,the number of iterations and the parameterestimates with the standard errors, the Wald statisticsand the 95% confidence interval. The number ofsubjects classified in each component is also given.Finally, another output fi<strong>le</strong> contains the posteriorprobabilities for each subject to belong to eachclass and the final class membership.4. Applications4.1. The height of schoolgirlsWe consider the samp<strong>le</strong> of 20 preado<strong>le</strong>scent schoolgirlsintroduced by Goldstein [16]. Verbeke andLesaffre [2] and Komárek et al. [6] model<strong>le</strong>d thegrowth curves of their height according to age from6 to 10. They showed in the homogeneous mixedmodel that the height course of girls differed significantlyaccording to the category of height of theirmother (small, medium and tall). Thus, they usedthe heterogeneous linear mixed model without introducingthe height of the mother in the model totry to highlight clusters with distinct growth curvesamong the girls. In this work, we compare the resultsobtained using our program to those obtainedwith the HETNLMIXED SAS-macro which uses the EMalgorithm. The model is written as:Height ij = u 0i + u 1i × age ij + ij (12)where u i = (u 0i , u 1i ) ′ ∼ ∑ Gg=1 g N( g , D) with g =( 0g , 1g ) ′ and ij ∼ iid N(0, 2 ).We fitted the heterogeneous linear mixed modelfor two and three components. An extract of thedata fi<strong>le</strong> and the parameter fi<strong>le</strong> for the model withtwo components are presented in Appendices Aand B. The results for the model with two componentsof mixture obtained with our program HET-MIXLIN and the SAS-macro HETNLMIXED are shownin Tab<strong>le</strong> 1. The estimates obtained using the twomethods are the same but a difference is observedin the standard error estimates; the standard errorestimates from HETNLMIXED seem bigger thanthose from HETMIXLIN. This difference in the standarderror estimates from the two algorithms wasalso observed in the homogeneous case comparingHETNLMIXED, the MIXED procedure, the NLMIXEDprocedure and HETMIXLIN program. In the three latterprograms, standard errors are estimated by theinverse of the Hessian matrix which estimates theFisher Information matrix [11] and <strong>le</strong>d to the samestandard error estimates. By contrast, HETNLMIXEDuses an approximation of the Louis’s method basedon the product of the expectations of the gradientof the comp<strong>le</strong>te likelihood [17], the Louis’s method[18] being itself an approximation of the observedHessian matrix. This method appeared to overestimatestandard errors in this small samp<strong>le</strong>. However,in our experience, this approximation of the observedHessian matrix seemed to be improved whenthe samp<strong>le</strong> size increased. For instance, using a linearmixed model estimated on the 1392 subjects ofthe PAQUID samp<strong>le</strong> from Section 4.2, the discrepancywas lower.As the convergence of the two algorithms dependson the choice of the initial values, we fittedthe model by the two approaches with the samegrid of 32 sets of initial values. The sets differed onall kinds of parameters. HETNLMIXED provided theglobal maximum 11 times out of the 32 tries andour program found the global maximum 23 times.HETMIXLIN was also faster than the HETNLMIXEDSAS-macro (several seconds compared with at <strong>le</strong>astseveral minutes using a Bi-Xeon 3.06 GHz 1024 MBRAM).The results for the model with three componentsof mixture are also shown in Tab<strong>le</strong> 1, butwe cannot compare our results with those given


Annexes 187Estimation of linear mixed models with a mixture of distribution for the random effects 169Tab<strong>le</strong> 1 Estimates and standard errors of the heterogeneous linear mixed model with two components of mixturefor the height of schoolgirls using HETMIXLIN (the proposed direct maximization using a Marquardt algorithm) andHETNLMIXED (Spiessens et al. SAS-macro using an EM algorithm) and estimates of the heterogeneous linear mixedmodel with three components of mixture using HETMIXLINParameter HETNLMIXED (G = 2) HETMIXLIN (G = 2) HETMIXLIN (G = 3)Estimate S.E. a Estimate S.E. b Estimate S.E. b 1 0.68 0.14 0.68 0.12 0.50 0.18 2 0.32 0.32 0.30 0.11 3 0.20 01 82.8 1.12 82.8 0.91 84.2 1.18 11 5.38 0.091 5.38 0.086 5.32 0.10 02 81.9 2.01 81.9 1.52 81.7 1.12 12 6.44 0.18 6.44 0.15 6.47 0.12 03 79.4 2.19 13 5.60 0.20var(u 0i ) 6.47 4.94 6.47 3.13 3.50 2.39cov(u 0i , u 1i ) 0.13 0.40 0.13 0.35 0.32 0.13var(u 1i ) 0.034 0.056 0.034 0.030 0.030 0.024 0.69 0.10 0.69 0.063 0.68 0.06-2L 166.67 165.94AIC 351.35 355.87BIC 360.32 367.82a Standard errors obtained using Louis’s method.b Standard errors obtained using the inverse of the Hessian matrix and the -method for the component probabilities and thevariance parameters.by HETNLMIXED since it converges toward a nonpositivedefinite ˆD matrix. Indeed, HETNLMIXEDuses the NLMIXED procedure which does not constrainD to be positive definite.4.2. Cognitive decline in the elderlyThe second examp<strong>le</strong> illustrates the use of heterogeneouslinear mixed models with our estimationmethod on a large data set as it can beencountered in epidemiological studies. The aimof this analysis is to describe, in a cohort of elderlysubjects, the heterogeneity of the evolutionof the Mini Mental State Examination (MMSE),the most important psychometric test to evaluatedementia and cognitive impairment, and to comparethe classification of subjects stemmed fromthe mixture model with the dementia diagnosis.The MMSE score ranges from 0 to a maximum of30 points.Data come from the French prospective cohortstudy PAQUID initiated in 1988 to study normal andpathological ageing [19]. The cohort includes 3777subjects of 65 years and older who lived at homein Southwestern France at baseline. Subjects wereinterviewed at baseline and were seen again 1 (T1),3 (T3), 5 (T5), 8 (T8) and 10 (T10) years afterthe baseline visit (T0). At each visit, a battery ofpsychometric tests was comp<strong>le</strong>ted and a diagnosisof dementia was carried out. In this analysis,we excluded data from T0 because of a <strong>le</strong>arningeffect previously described for the cognitive testsbetween T0 and T1 [20]. We studied the evolutionof the MMSE between T1 and T8 for subjects free ofdementia till T5 and compared the estimated classificationwith the dementia diagnosis at T8 and thenwith the health status at T10. We excluded subjectsnot seen at T8 to ensure that we had their diagnosisat this visit. This <strong>le</strong>ads to a samp<strong>le</strong> of 1392 subjectshaving between 1 and 4 measures of the MMSE betweenT1 and T8.The model is a quadratic function of time adjustedon covariates associated with cognitive evolutionin order to exclude heterogeneity introducedby known factors. The time (t ij for subject i atvisit j) is the negative time between the measurementand the visit at T8 (time is zero for diagnosistime at T8). We model the square root ofthe number of errors to satisfy the normality assumptionof the error terms. The model is writtenas:√Y ij = 30 − MMSE ij= ˇX ij + u 0i + u 1i t ij + u 2i t 2 ij + ij (13)


Annexes 188170 C. Proust, H. Jacqmin-GaddaTab<strong>le</strong> 2 Estimates of the homogeneous linear mixedmodel and the heterogeneous linear mixed model withtwo components of mixture obtained with HETMIXLINprogram for the MMSE evolution adjusted on age, occupation,educational <strong>le</strong>vel, living place and interactionwith time for age and educational <strong>le</strong>velParameterHomogeneousmodel (G = 1)Heterogeneousmodel (G = 2)Estimate S.E. Estimate S.E. 1 1 0.98 0.005 2 0.02 01 −1.92 0.32 −1.51 0.31 11 −0.57 0.16 −0.42 0.16 21 −0.042 0.018 −0.028 0.024 02 0.89 0.36 12 0.46 0.19 22 0.055 0.028var(u 0i ) 0.43 0.025 0.32 0.024cov(u 0i , u 1i ) 0.074 0.010 0.034 0.0095var(u 1i ) 0.066 0.014 0.029 0.013cov(u 0i , u 2i ) 0.042 0.0073 0.028 0.0069cov(u 1i , u 2i ) 0.052 0.010 0.038 0.010var(u 2i ) 0.073 0.016 0.060 0.016 0.45 0.009 0.45 0.009−L 4662.9 4609.5AIC 9367.7 9269.0BIC 9477.8 9400.0where X ij is the vector of covariates for subjecti at visit j including age, occupation, educational<strong>le</strong>vel, living place and interactions with timefor age and educational <strong>le</strong>vel; u i = (u 0i , u 1i , u 2i ) ′ ∼∑ Gg=1 g N( g , D) with g = ( 0g , 1g , 2g ) ′ and ij ∼ iid N(0, 2 ).We fitted the heterogeneous linear mixed modelwith two components of mixture. The Akaike InformationCriterion (AIC) and the Bayesian InformationCriterion (BIC) were largely improvedcompared with the homogeneous mixed model(AIC = 98.7; BIC = 77.8). Tab<strong>le</strong> 2 displaysthe parameter estimates for the homogeneousand the heterogeneous linear mixed models obtainedwith HETMIXLIN. The heterogeneous linearmixed model distinguished two different MMSEcourses (Fig. 1). First, a large class including 98%of the samp<strong>le</strong> follows a linear evolution witha slight decline of 0.42 points ( = 0.15) peryear. The second class including 2% of the samp<strong>le</strong>follows a non-linear evolution which speedsto fell down from the second follow-up to theend.Then, we tried to evaluate if the cognitive profi<strong>le</strong>shighlighted by the model were associated withdementia diagnosis. Among the 1392 subjects, 26Fig. 1 Mean curves of the MMSE between T1 and T8 forthe heterogeneous linear mixed model with two componentsof mixture for a 70-year-old worker subject with noeducation and living in Dordogne. Solid line: first componentwith a probability of 98%; dashed line: second componentwith a probability of 2%.(1.9%) are classified in the second component withthe non-linear decline (Tab<strong>le</strong> 3). Among them, 21have a positive dementia diagnosis at T8. Thepredictive positive value (81%) and the specificity(99.6%) of this classification are high but the sensitivityis poor (31%): 47 subjects among the 68subjects diagnosed as demented at T8 are not detectedby the model. These subjects are significantly<strong>le</strong>ss disab<strong>le</strong>d (p


Annexes 189Estimation of linear mixed models with a mixture of distribution for the random effects 171tional <strong>le</strong>vel could have a different effect on normalcognitive ageing and on the decline before dementia.As HETMIXLIN allows to specify distinct parametersfor the covariates per component, we fittedthe model where the interactions between educational<strong>le</strong>vel and time (educational <strong>le</strong>vel ×t and educational<strong>le</strong>vel ×t 2 ) were different according to thecomponents. The log-likelihood was not improvedenough for significance ((−2L) = 3.4; p = 0.17).Thus, the association between educational <strong>le</strong>veland cognitive evolution appears to be similar inthe two subpopulations. Moreover, the discriminationof demented peop<strong>le</strong> was not improved with thismodel.Due to limitations of HETNLMIXED explained inSection 1, we did not compare our approach withthis program on the PAQUID data set. However, asNewton—Raphson algorithms have been criticizedon their global convergence behavior comparedwith the EM algorithm [8], we compared the convergenceperformances of our program with thoseof an EM algorithm we developed in Fortran90.Thus, the comparison was free from the limitationsdue to SAS environment and to the use of theNLMIXED procedure. The EM algorithm we developeduses a Marquardt optimization in the M-step(convergence criteria: a = 10 −2 , b = 10 −2 and d = 10 −3 ) and the global convergence is reachedwhen two successive calculations of the likelihooddiffer <strong>le</strong>ss than 10 −8 . This algorithm was testedusing the schoolgirls data. It was faster and convergedmore often than HETNLMIXED: the globalmaximum was reached 22 times out of the 32tries with a mean computional time around 30 s(versus 11 times out of the 32 tries in at <strong>le</strong>astseveral minutes for HETNLMIXED). On the PAQUIDdata set, HETMIXLIN and the EM algorithm we imp<strong>le</strong>mented<strong>le</strong>d to the same parameter estimates.Among the 15 sets of initial values, the two programsprovided the global maximum an equiva<strong>le</strong>ntnumber of times (9 times for HETMIXLIN versus 10times for the EM algorithm) but HETMIXLIN wasmuch faster: the CPU time was <strong>le</strong>ss than 10 minfor HETMIXLIN and more than 2 h for the EM algorithm.5. Availability of the program andhardware specificationThe program HETMIXLIN is written in Fortran90 andall the subroutines needed in the program are provided.The Fortran source code HETMIXLIN.f, anexamp<strong>le</strong> of HETMIXLIN.inf, a documentation HET-MIXLIN.pdf and the examp<strong>le</strong> data fi<strong>le</strong> for the schoolgirlsare availab<strong>le</strong> at no charge on the web site:http://www.isped.u-bordeaux2.fr.Two versions are provided on the web site: onefor Unix and one for Windows. The version for Windowsincludes an executab<strong>le</strong> fi<strong>le</strong> (a DOS application)and does not need any Fortran90 compi<strong>le</strong>rwhereas the version for Unix needs to be compi<strong>le</strong>d.The Unix version has been tested using an Intel FortranCompi<strong>le</strong>r for Linux Version 7 or 8, a Fortran90Compaq compi<strong>le</strong>r for Alpha and a Forte Developer6 update 2 on Solaris SPARC. Examp<strong>le</strong>s of the compilationcommand are given in the documentationHETMIXLIN.pdf.6. ConclusionWe proposed in this paper a Newton—Raphson-likealgorithm to estimate heterogeneous linear mixedmodels. The main advantages of Newton—Raphsonlikealgorithms are the speed of convergence, theavailability of good convergence criteria based onthe derivatives of the likelihood and direct estimatesof the variance of the parameters via theinverse of the Hessian matrix. Moreover, using asimp<strong>le</strong> modification of the Marquardt algorithm, weensure the monotonicity of the algorithm which isconsidered as a main advantage of the EM algorithm[8].We compared our program HETMIXLIN with a SASmacrodeveloped by Spiessens et al. using an EMalgorithm. This SAS-macro allows to estimate heterogeneousgeneralized linear mixed models, butwhen the model is linear, this macro has the drawbackof computing numerically an integral acrossthe random effects whi<strong>le</strong> it has a closed form. Ouralgorithm HETMIXLIN allows to estimate more comp<strong>le</strong>xlinear models (models with a larger numberof mixture components, a larger number of randomeffects and more covariate effects dependingon the mixture components) and is suitab<strong>le</strong>for much larger samp<strong>le</strong>s. Moreover, it convergesfaster.This paper also illustrates the usefulness of heterogeneouslinear mixed models on a study aboutcognitive ageing. These models allow to highlightvarious evolution profi<strong>le</strong>s taking covariates into account.The cross-classification of the groups definedby the model and clinical events in thenext years enab<strong>le</strong>s to evaluate whether the cognitiveprofi<strong>le</strong>s are associated with different clinica<strong>le</strong>volutions.As a conclusion, we hope this work will improvethe availability and the use of heterogeneous linearmixed models.


Annexes 190172 C. Proust, H. Jacqmin-GaddaAppendix A. Extract of the Schoolgirldata fi<strong>le</strong> (two first subjects)1 ← identification number of the unit(subject)5 ← number of measures111 116.4 ← raw vector of the n i responses121.7 126.3130.51 1 1 1 1 ← raw vector of the first covariate6 7 8 9 10 ← raw vector of the second covariate2 ← identification number of the next unit(subject)5 ← number of measures110 115.8 ← raw vector of the n i responses121.5 126.6131.41 1 1 1 1 ← raw vector of the first covariate6 7 8 9 10 ← raw vector of the second covariate3 ← identification number of the next unit(subject)Appendix B. Examp<strong>le</strong> of the parameterfi<strong>le</strong>An examp<strong>le</strong> of HETMIXLIN.inf used in the applicationabout the height of schoolgirls is given below.The user should notice that each asked pieceof information is preceded by a line summingit up.→ Fi<strong>le</strong>name for the dataschoolgirls.txt→ Fi<strong>le</strong>name for the outputgirls.out→ Tit<strong>le</strong> of the procedure(in inverted commas)‘G=2 : school girls’→ Number of units (subjects)20→ Number of mixture components (G) and,if and only if G > 1, the initialvalues for the G-1 first componentprobabilities below and the fi<strong>le</strong>namefor the posterior probabilitiesbelow again20.5p.out→ Number of explanatory variab<strong>le</strong>s(including the intercept) in thedata fi<strong>le</strong>2→ Indicator that the explanatoryvariab<strong>le</strong> is in the model(1 if present 0 if not)1 1→ Indicator of random effect for eachvariab<strong>le</strong> in the model (variab<strong>le</strong>sincluded in Z1 or Z2)1 1→ Indicator of mixture for eachvariab<strong>le</strong> in the model (variab<strong>le</strong>sincluded in X2 or Z2)1 1→ Initial values for fixed effects.First, initial values for commonfixed effects (without mixture) inthe same order as in the datafi<strong>le</strong>,then initial values for thecovariates with a mixture (G valuesper covariate). ex : b1 b3 b21 b22b23 b41 b42 b43 for a mixture on thesecond and the fourth covariate andG=386 80 5 7→ Indicator of the random effectcovariance matrix structure (0 ifunstructured matrix/1 if diagonalmatrix)0→ Initial values for thevariance---covariance parameters ofthe random effects (1/2 superiormatrix column by column)3 1 1→ Initial value for the variance ofthe independent Gaussian errors1References[1] N.M. Laird, J.H. Ware, Random-effects models for longitudinaldata, Biometrics 38 (1982) 963—974.[2] G. Verbeke, E. Lesaffre, A linear mixed-effects model withheterogeneity in the random-effects population, JASA 91(1996) 217—221.[3] B. Spiessens, G. Verbeke, A. Komárek, A SAS-macrofor the classification of longitudinal profi<strong>le</strong>s using mixturesof normal distributions in nonlinear and generalizedlinear models. http://www.med.ku<strong>le</strong>uven.ac.be/biostat/research/software.htm, 2002.[4] B. Muthén, K. Shedden, Finite mixture modeling with mixtureoutcomes using a EM algorithm, Biometrics 55 (1999)463—469.[5] A.P. Dempster, N.M. Laird, D.B. Rubin, Maximum likelihoodfrom incomp<strong>le</strong>te data via EM algorithm (with discussion),J. Roy. Statis. Soc. Ser. B 39 (1977) 1—38.[6] A. Komárek, A SAS-macro for linear mixed modelswith a finite normal mixture as random-effects distribution.http://www.med.ku<strong>le</strong>uven.ac.be/biostat/research/software.htm, 2001.[7] M.J. Linstrom, D.M. Bates, Newton—Raphson and EM algorithmsfor linear mixed models for repeated-measures data,JASA 83 (1988) 1014—1022.


Annexes 191Estimation of linear mixed models with a mixture of distribution for the random effects 173[8] R.A. Redner, H.F. Walker, Mixture densities, maximum likelihoodand the EM algorithm, SIAM Rev. 26 (1984) 195—239.[9] D. Marquardt, An algorithm for <strong>le</strong>ast-squares estimation ofnonlinear parameters, SIAM J. Appl. Math. 11 (1963) 431—441.[10] R. F<strong>le</strong>tcher, Practical Methods of Optimization, second ed.,John Wi<strong>le</strong>y & Sons, 2000 (Chapter 3).[11] K. Knight, Mathematical Statistics, Chapman & Hall/CRC,2000 (Chapters 3 and 5).[12] D. Karlis, E. Xekalaki, Choosing initial values for the EMalgorithm for finite mixtures, Comput. Statist. Data Anal.41 (2003) 577—590.[13] P. Schlattmann, Estimating the number of components ina finite mixture model: the special case of homogeneity,Comput. Statist. Data Anal. 41 (2003) 441—451.[14] H. Akaike, A new look at the statistical model identification,IEEE Trans. Automat. Control 19 (1974) 716—723.[15] G. Schwarz, Estimating the dimension of a model, Ann.Stat. 6 (1978) 461—464.[16] H. Goldstein, The Design and Analysis of Longitudinal Studies,Academic Press, London, 1979.[17] G.J. McLachlan, T. Krishnan, The EM Algorithm and Extensions,John Wi<strong>le</strong>y & Sons, 1997.[18] T.A. Louis, Finding the Observed Information Matrix whenUsing the EM algorithm, J. Roy. Statis. Soc. Ser. B 44 (1982)226—233.[19] L. Letenneur, D. Commenges, J.F. Dartigues, P. Barberger-Gateau, Incidence of dementia and Alzheimer’s disease inelderly community residents of south-western France, Int.J. Epidemiol. 23 (1994) 1256—1261.[20] H. Jacqmin-Gadda, C. Fabrigou<strong>le</strong>, D. Commenges, J.F. Dartigues,A 5-year longitudinal study of the Mini Mental StateExamination in normal aging, Am. J. Epidemiol. 145 (1997)498—506.[21] L. Letenneur, V. Gil<strong>le</strong>ron, D. Commenges, C. Helmer, J.M.Orgogozo, J.F. Dartigues, Are sex and educational <strong>le</strong>vel independentpredictors of dementia and Alzheimer’s disease?Incidence data from the PAQUID project, J. Neurol. Neurosurg.Psychiatr. 66 (1999) 177—183.


AnnexesAmerican Journal of Epidemiology Advance Access published November 14, 2006192American Journal of EpidemiologyCopyright ª 2006 by the Johns Hopkins Bloomberg School of Public HealthAll rights reserved; printed in U.S.A.DOI: 10.1093/aje/kwk017Practice of EpidemiologySensitivity of Four Psychometric Tests to Measure Cognitive Changes in BrainAging-Population–based StudiesCéci<strong>le</strong> Proust-Lima 1,2 ,Hélène Amieva 2,3 , Jean-Francxois Dartigues 2,3 , and Hélène Jacqmin-Gadda 1,21 INSERM E0338, Bordeaux, France.2 Université Victor Sega<strong>le</strong>n Bordeaux 2, Bordeaux, France.3 INSERM U593, Bordeaux, France.Received for publication April 11, 2006; accepted for publication July 5, 2006.Choosing the measure of cognition in an epidemiologic study investigating cognitive changes over time isa chal<strong>le</strong>nging question. A powerful measure must be ab<strong>le</strong> to detect small cognitive changes in all the range ofcognition observed in the target population. This work aims at comparing the sensitivity to detect cognitive changesin the observed range of cognition of four widely used psychometric tests in an aging-population–based studythrough a nonlinear latent process model, assuming that the psychometric tests are nonlinear noisy transformationsof their common factor. With data from the French prospective cohort study PAQUID (1989–2001), the authorsfound that the Mini-Mental State Examination and the Benton Visual Retention Test exhibited a better sensitivity tocognitive changes in low <strong>le</strong>vels of cognition, whi<strong>le</strong> the Digit Symbol Substitution Test was more sensitive tochanges in high <strong>le</strong>vels of cognition. In contrast, the Isaacs Set Test shortened at 15 seconds appeared to besensitive to small changes in all the range of cognition and, thus, represents an appropriate measure of cognition inpopulation-based studies including both highly normal and severely impaired subjects.aging; cognition; dementia; epidemiologic methods; neuropsychological testsAbbreviations: BVRT, Benton Visual Retention Test; DSST, Digit Symbol Substitution Test; IQR, interquarti<strong>le</strong> range;IST15, Isaacs Set Test shortened at 15 seconds; MMSE, Mini-Mental State Examination.With the increasing number of peop<strong>le</strong> suffering fromneurodegenerative diseases, especially Alzheimer’s disease,investigating cognitive changes over time has receivedgrowing attention in population-based cohort studies for understandingthe natural history of the neurodegenerative diseasesand in intervention trials designed to assess the effectsof drugs on neuropsychological functioning (1, 2). In thesestudies, cognition is generally assessed through a battery ofpsychometric tests repeatedly administered to the subjects.Col<strong>le</strong>cting several cognitive tests may be useful, because thisallows exploration of the various cognitive domains (memoryfunctioning, attention, or executive functions) and becausethe tests often have different metrologic properties. Inparticular, some tests are very sensitive to small changes athigh <strong>le</strong>vels of cognition, whi<strong>le</strong> others are more sensitive tochanges at the lower <strong>le</strong>vels. As a consequence, when studyingthe effects of drugs or the aging process on cognition,results may differ considerably according to the properties ofthe test being used (3). A way to deal with this prob<strong>le</strong>m is tostudy the change over time of the common latent cognitive<strong>le</strong>vel underlying the battery of cognitive tests used (4).However, administering an extensive battery of neuropsychologicaltests can turn out to be difficult, because of theduration (and thus cost) of the evaluation and also becausesubjects presenting cognitive impairment are more prone torefuse long testing sessions than cognitively intact elderlysubjects (5). In this way, it would be of substantial interestto compare the properties of commonly used cognitive testsCorrespondence to Céci<strong>le</strong> Proust-Lima, INSERM E0338, Institut de Santé Publique, d’Epidémiologie et de Développement, Université deBordeaux 2, 146 rue Léo Saignat, 33076 Bordeaux Cedex, France (e-mail: ceci<strong>le</strong>.proust@isped.u-bordeaux2.fr).1


Annexes 1932 Proust-Lima et al.to highlight arguments for se<strong>le</strong>cting a restricted number oftests and even only one according to the aim of the study.Brevity and ease of use are obviously re<strong>le</strong>vant criteria bywhich to se<strong>le</strong>ct a test for population-based studies. Nonethe<strong>le</strong>ss,it is more crucial to se<strong>le</strong>ct a test ab<strong>le</strong> to detect smallchanges in cognition in all the range of cognitive <strong>le</strong>velsobserved in the target population (1, 2), particularly in casesof prolonged follow-up or long-term prevention studies. Indeed,the range of general cognitive <strong>le</strong>vel targeted will bedifferent according to whether the study samp<strong>le</strong> consists ofsubjects from population-based cohorts, patients consultingmemory clinics for memory troub<strong>le</strong>s, or patients withAlzheimer’s disease enrol<strong>le</strong>d in pharmacologic trials. Untilnow, when a sing<strong>le</strong> psychometric test is col<strong>le</strong>cted, the Mini-Mental State Examination (MMSE) (6) is usually preferred,because it gives a brief measure of global cognitive functioning(7). However, as the MMSE suffers from a strongceiling effect, it is not suitab<strong>le</strong> to identify slight declines inhigh <strong>le</strong>vels of cognition (7, 8) and, thus, is not appropriate tostudy normal cognitive aging in prospective studies, particularlyamong highly educated peop<strong>le</strong>.The aim of this work is to compare the sensitivity to cognitivechange of four tests widely used in clinical practice:the MMSE, the Isaacs Set Test, the Benton Visual RetentionTest, and the Digit Symbol Substitution Test. More specifically,we would like to identify the most appropriate test tomeasure cognitive changes over time in heterogeneous populations,including both highly normal and severely impairedsubjects, as encountered in population-based studies. To answerthis purpose, we use a nonlinear latent variab<strong>le</strong> modelfor longitudinal multivariate data in which psychometric testsare assumed to be nonlinear parameterized transformationsof a common factor (4). The common factor is a latent processrepresenting the latent cognitive process underlying the psychometrictests. It is related to age through a linear mixedmodel for describing the latent cognitive evolution accordingto age. By estimating f<strong>le</strong>xib<strong>le</strong> transformations between thepsychometric tests and the common factor, we are ab<strong>le</strong> tocompare the metrologic properties of the psychometric tests.This approach may be viewed as an extension of ItemResponse Theory (9) to hand<strong>le</strong> repeated measurements ofquantitative outcomes (the summary scores of each test) insteadof binary outcomes (the individual binary items of onetest). The link functions estimate the mean score of each testgiven the values of the latent process similarly to the ItemCharacteristic Curve in Item Response Theory models thatestimates the probability of correct response given the latentability. In addition, we are ab<strong>le</strong> to estimate evolution withtime of the latent process and the test scores.MATERIALS AND METHODSPopulationPAQUID is a prospective cohort study initiated in 1988 insouthwestern France (Dordogne and Gironde) to explorefunctional and cerebral aging. In brief, 3,777 subjects whowere 65 years or older and were living at home at enrollmentwere included in the cohort and were followed up forsix times with a visit at 1 year, 3 years, 5 years, 8 years,10 years, and 13 years after the initial visit, except at 1 year inDordogne. At each visit, a neuropsychological evaluationand a diagnosis of dementia were carried out at home.Letenneur et al. (10) offer a detai<strong>le</strong>d description of thePAQUID program.Neuropsychological evaluationIn PAQUID, a battery of psychometric tests was used toevaluate cognition. In this paper, we focus on the followingfour tests. The Mini-Mental State Examination (6) is a summed scoreevaluating various dimensions of cognition (memory, calculation,orientation in space and time, language, and wordrecognition). It is used as an index of global cognitiveperformance and ranges from 0 to 30. The Isaacs Set Test shortened at 15 seconds (11) evaluatesverbal fluency abilities and speed of verbal production.Subjects have to give a list of words (with a maximum of10) belonging to a specific semantic category in 15 seconds.Four semantic categories were successively used (cities,fruits, animals, and colors). The score ranges from 0 to 40. The Benton Visual Retention Test (12) evaluates immediatevisual memory. After the presentation for 10 secondsof a stimulus card displaying a geometric figure, subjectsare asked to choose the initial figure among four possibilities;15 figures are successively presented. The scoreranges from 0 to 15. The Digit Symbol Substitution Test (13) explores attentionand psychomotor speed. Given a code tab<strong>le</strong> displayingthe correspondence between pairs of digits (from 1 to9) and symbols, the subjects have to fill in blank squareswith the symbol that is paired to the digit displayed abovethe square. The subjects have to fill in as many squares aspossib<strong>le</strong> in 90 seconds. In PAQUID, the score ranges from0 to 76 even if the theoretical maximum is 90.Statistical modelThe statistical model assumes that the correlation betweenthe tests is induced by a latent common cognitivefactor. Thus, each test is a noisy measure of a test-specific nonlineartransformation of the common factor. The evolution ofthe common factor was mode<strong>le</strong>d using a linear mixed model(14) that aims at evaluating changes over time of a repeatedoutcome (here, the latent common factor), accounting for correlationbetween the repeated measures on each subject. Thelinear mixed model included random intercept, age, and agesquared in accordance with other longitudinal aging studies(15, 16) that showed quadratic cognitive evolutions. Weadded a Brownian motion to account for individual deviationsfrom this quadratic evolution and thus relaxed the parametricform of the model. Test-specific random intercepts wereadded to evaluate if, for a same <strong>le</strong>vel of the latent commonfactor, two subjects scored differently at the tests.We used f<strong>le</strong>xib<strong>le</strong> nonlinear transformations to link eachpsychometric test with the latent common factor. The chosenf<strong>le</strong>xib<strong>le</strong> transformations were beta cumulative distributionfunctions that offer a large variety of shapes (concave,convex, or sigmoid) using only two estimated parameters per


Annexes 194Psychometric Tests’ Sensitivity to Cognitive Changes 3TABLE 1. Demographic and health characteristics in thesamp<strong>le</strong> (n ¼ 2,252), the PAQUID Study, France, 1989–2001No. %Ma<strong>le</strong> 974 43.3No diploma 608 27.0Age (years) at visit at 1 year70 1,100 48.9>70–75 368 16.3>75–80 412 18.3>80 372 16.6Preva<strong>le</strong>nt dementia at visit at 1 year 14 0.6Incident dementia between visitsat 3 and 13 years 368 16.3test. The estimated beta cumulative distribution functionsrepresent the shapes of the transformations between the latentcommon factor and each of the four tests and provideinteresting metrologic properties for each test. The comp<strong>le</strong>temethodology was previously detai<strong>le</strong>d in the report by Proustet al. (4) and is described in the Appendix.Samp<strong>le</strong>Measurements at the initial visit were excluded fromthe analysis because of a first passing effect previously described(17). Indeed a test-retest improvement was observedbetween the initial visit and the visit at 1 year, possibly due tothe stress induced by the first evaluation at the initial visit ora practice effect observed after the first evaluation. Of the3,777 subjects in PAQUID, we retained 3,043 subjects whowere followed up after the initial visit, and we studied theevolution of the common factor between the visits at 1 and13 years. The Digit Symbol Substitution Test (DSST) was notcomp<strong>le</strong>ted at the visit at 3 years. Moreover, a subsamp<strong>le</strong> ofPAQUID comp<strong>le</strong>ted a nutritional questionnaire at the visitat 3 years that could impact on the Isaacs Set Test shortenedat 15 seconds (IST15) score for the fruit and animal categories.So, we excluded the measurements of IST15 at the visitat 3 years. From the samp<strong>le</strong> of 3,043 subjects, we retaineda samp<strong>le</strong> of 2,252 subjects with at <strong>le</strong>ast one measure at eachneuropsychological test between visits at 1 and 13 years toensure that every subject brought information about eachneuropsychological test. The median number of measureswas four for the MMSE (interquarti<strong>le</strong> range (IQR): 2–5) andthe Benton Visual Retention Test (BVRT) (IQR: 2–5) andthree and two for the IST15 (IQR: 1–4) and the DSST (IQR:1–4), respectively.RESULTSDescription of the samp<strong>le</strong>Characteristics of the subjects in the samp<strong>le</strong> are describedin tab<strong>le</strong> 1: 56.7 percent of the subjects were women, and 73percent had at <strong>le</strong>ast graduated from primary school. Themean age at the beginning of the follow-up (visit at 1 year)was 75.16 (standard error: 6.24) years. Among the 2,252subjects, 14 had a positive diagnosis of dementia at the visitat 1 year, and 368 subjects were diagnosed as demented duringthe follow-up. At the 1-year visit, 1,623 subjects comp<strong>le</strong>tedthe MMSE with a median score of 28 (IQR: 26–29),1,622 subjects comp<strong>le</strong>ted the IST15 with a median score of28 (IQR: 24–33), 1,619 subjects comp<strong>le</strong>ted the BVRT witha median score of 11 (IQR: 9–13), and 1,614 comp<strong>le</strong>ted theDSST with a median score of 28 (IQR: 20–37) (tab<strong>le</strong> 2).Cognitive evolution with ageThe latent common cognitive factor ranges from 0 to 1,with 0 corresponding to a minimal cognitive performanceand 1 corresponding to a maximal cognitive performance.The predicted mean evolution of the latent common cognitivefactor and its 95 percent confidence interval are displayedin figure 1, part A. It shows a decline of cognitive performancesin the population according to age, with an acce<strong>le</strong>rationof the decline at older ages. This evolution can be interpretedas the mean cognitive decline with age in a population ofsubjects aged 65 years or older, including both dementedand nondemented subjects.The predicted mean evolutions of the four tests and their95 percent confidence intervals are displayed in figure 1, partB. The decline of the DSST is quite linear, whereas the declineobserved in the other tests is nonlinear, with an acce<strong>le</strong>rationat older ages.Comparison of the sensitivity of the four testsThe estimated transformation shapes between each testand the common factor are displayed in figure 2. They arevery different for the four tests: The transformation is concavefor the MMSE and the BVRT, convex for the DSST, and closeto linear for the IST15. Moreover, the MMSE and the BVRTcover, respectively, only 78 percent and 85 percent of thecommon factor range, whi<strong>le</strong> the DSST and the IST15 coveralmost all of the entire range with, respectively, 94 percentand 95 percent of the common factor range.Ceiling effect. For the MMSE and the BVRT, the maximumvalue of the test is reached for a value of the commonfactor lower than its maximum (respectively, 0.78 and 0.87),which shows that these tests are not appropriate to assesscognitive changes in subjects with a very high general cognitive<strong>le</strong>vel of functioning. This underlines the ceiling effectof these two tests. In contrast, the maximum values of theIST15 and the DSST are reached for a value of the commonfactor close to 1, underlining that these tests do not sufferfrom a ceiling effect and can identify changes at the highest<strong>le</strong>vels of cognition.The MMSE transformation. The nonlinear shape of theMMSE transformation shows that a decline of the MMSEdoes not correspond to the same intensity of decline of thecommon factor in all the range of the test. Indeed, a loss of0.1 in the common factor sca<strong>le</strong> between 0.7 and 0.6 representsa loss of 1 point for the MMSE, whereas the same lossbetween 0.3 and 0.2 represents a loss of more than 4 pointsfor the MMSE. This shows that a decline in the MMSEcannot be interpreted without accounting for the initial valueand that the MMSE is more appropriate to detect a decline atlow cognitive <strong>le</strong>vels than at high cognitive <strong>le</strong>vels.


Annexes 1954 Proust-Lima et al.TABLE 2. Description of the cognitive performances for the four psychometric tests atthe visit at 1 year, with number of measures, range, median with interquarti<strong>le</strong> range, andmean with standard error, the PAQUID Sudy, France, 1989–2001No. ofmeasuresRange(score)Median score(interquarti<strong>le</strong> range)Mean score(standard error)Mini-Mental State Examination 1,623 12–30 28 (26–29) 27.09 (2.51)Isaacs Set Test shortened at15 seconds 1,622 9–40 28 (24–33) 28.46 (6.05)Benton Visual Retention Test 1,619 0–15 11 (9–11) 10.97 (2.53)Digit Symbol Substitution Test 1,614 0–76 28 (20–37) 28.60 (12.15)The BVRT transformation. The shape of the BVRT transformationis quite linear at the low cognitive <strong>le</strong>vels (correspondingto a value under 10 at the BVRT or under 0.5 on thecommon factor sca<strong>le</strong>). It reveals that, under a value of 0.5 forthe common factor, a decline in the BVRT represents thesame intensity of decline for the common factor whateverFIGURE 1. Predicted mean evolution (solid line) with 95% confidence interval (dashed lines) for the common factor (A) and for the four tests (Mini-Mental State Examination (MMSE), Benton Visual Retention Test (BVRT), Digital Symbol Substitution Test (DSST), and Isaacs Set Test shortenedat 15 seconds (IST15)) (B), the PAQUID Study, France, 1989–2001.


Annexes 196Psychometric Tests’ Sensitivity to Cognitive Changes 5FIGURE 2. Estimated link function (solid line) between the common factor and each of the four tests (Mini-Mental State Examination (MMSE),Benton Visual Retention Test (BVRT), Digital Symbol Substitution Test (DSST), and Isaacs Set Test shortened at 15 seconds (IST15)) with the95% pointwise confidence interval (dashed lines), the PAQUID Study, France, 1989–2001.the initial cognitive <strong>le</strong>vel. However, at high <strong>le</strong>vels of cognition,the slope of the curve decreases. Thus, at the higher<strong>le</strong>vels of cognition, the BVRT is <strong>le</strong>ss sensitive to small cognitivechanges.The DSST transformation. The shape of the DSST transformationis quite linear at the high <strong>le</strong>vels of cognition, correspondingto a score higher than 25 or a common factor <strong>le</strong>velhigher than 0.54. This means that, above this value, whateverthe initial cognitive <strong>le</strong>vel, a decline of the DSST correspondsto the same decline in the latent cognitive <strong>le</strong>vel. In contrast, atthe low <strong>le</strong>vels of cognition, the shape is nonlinear, revealingthat 1 point lost at the DSST corresponds to a greater declineof the common factor <strong>le</strong>vel under a score of 25. In this way,subjects with a very low <strong>le</strong>vel of general cognitive functioning(lower than 0.1) tend to score 0 on the DSST. This couldbe explained by the fact that subjects with a low <strong>le</strong>vel ofcognition can probably not even understand the instructionsof the DSST. Thus, DSST is appropriate to identify smallchanges in cognition among subjects with a high to mediumgeneral cognitive <strong>le</strong>vel but not among impaired subjects.The IST15 transformation. In contrast with the othertests, the IST15 transformation is close to linear for theentire range of cognition. This shows that the IST15 provesto be sensitive to change in all the ranges of cognition;1 point lost at the IST15 score in higher values of the scorehas the same interpretation in terms of cognitive decline as1 point lost in the lower values of the score. Thus, the IST15can be useful for evaluating cognition in a heterogeneouspopulation, including both subjects with a high generalcognitive functioning and subjects with a severe cognitiveimpairment.DISCUSSIONBy modeling jointly four psychometric tests and their latentcommon factor, we have been ab<strong>le</strong> to compare their


Annexes 1976 Proust-Lima et al.distributions in all the range of cognition. In this way, weshowed that MMSE and BVRT were not sensitive to cognitivechanges at high <strong>le</strong>vels of cognition and thus were notappropriate to study cognitive aging in prospective studies includinghighly educated peop<strong>le</strong>. On the contrary, we showedthat the DSSTwas very sensitive to cognitive changes at high<strong>le</strong>vels of cognition. However, as it was <strong>le</strong>ss sensitive to cognitivechanges at low <strong>le</strong>vels of cognition, it was not suitab<strong>le</strong>for measuring cognitive changes in heterogeneous populationsconsisting of both highly normal and severely impairedsubjects. In contrast, the IST15 appeared to be a satisfactorycognitive measure in all the range of cognition, which isof substantial interest when studying cognitive aging inpopulation-based cohort studies.The IST15 has several assets when compared with thethree other tests. First, it does not suffer from a floor effector a ceiling effect. Indeed, using cognitive measures withborder effects can <strong>le</strong>ad to mis<strong>le</strong>ading results (especially underestimateddeclines) when investigating cognitive changes,since initial scores are often differentially distributed amongexposure groups and the sensitivity of the tests to identifycognitive changes is thus different among these groups (1).Second, the Isaacs Set Test when shortened at 15 seconds,as well as the DSST, includes a speed component that mayexplain its high sensitivity to changes at upper <strong>le</strong>vels of cognition.Indeed, the speed component plays a key ro<strong>le</strong> incognitive aging, and it has been shown, for examp<strong>le</strong>, thatmost age-related differences in cognition were due to thedecrease in the processing speed (18). Finally, the IST15 is avery brief test, and its instructions are easily understandab<strong>le</strong>.It can therefore be performed in large population-basedstudies even with severely impaired subjects.The methodology we proposed in this paper has severaladvantages that should be discussed. First, the estimated linkfunctions between the test scores and the latent process makeit possib<strong>le</strong> to compare properties of the tests and, especially,their sensitivity to detect cognitive changes within the entirerange of cognition. This is done by modeling jointly variouspsychometric tests for which the hypothesis of a commonfactor is sensib<strong>le</strong>. By the way, it is worth noting that thelatent common factor in this model is actually definedaccording to the pool of psychometric tests used in the analysis.Computing the model with other tests involving differentcognitive components could have an impact on thecommon factor evolution. In this analysis, we used tests thatboth are frequently used and explore different domains ofcognition, because we wanted to se<strong>le</strong>ct one test for exploringgeneral cognitive decline in heterogeneous populations.The methodology could also be used for se<strong>le</strong>cting sensitivemeasures in a specific domain of cognition. In this case,based on his/her know<strong>le</strong>dge or on other analyses such asprincipal component analyses, the researcher must choosethe tests that are assumed to measure the same latent cognitiveability in this specific domain and then apply the methodologyto the se<strong>le</strong>cted tests.A second asset of the methodology is that, thanks to theestimated transformations of tests, the tests are no longerconstrained to follow a Gaussian distribution as in a standardlinear mixed model. In this way, even if longitudinal evolutionsof the four tests, as presented in figure 1, part B, couldhave actually been estimated using linear mixed models,they would have been obtained under the wrong Gaussianassumption.Finally, as parameters are estimated using the maximumlikelihood estimators, results are robust to data missing atrandom (i.e., when the probability that data are missing doesnot depend on unobserved values given the past observedvalues). Simp<strong>le</strong>r analyses that aim at comparing empiricalmeans of the tests for different age groups are often biased bythe missing data process, especially when the cognitive <strong>le</strong>veland the dropout are linked, as was previously shown in thePAQUID cohort (17). In this previous work, it was also shownthat the missing at random assumption was probably notstrictly true, but the impact on the estimated evolution wasslight (17, 19). Moreover, even if missing data may blur thecomparison of evolution of the tests’scores, it is very unlikelythat they biased the comparison of test sensitivity, which isthe main objective of this paper. This was checked by comparingtransformations estimated on four subsamp<strong>le</strong>s definedby the time of dropout (dropout after the visits at 3, 5, 8, and10 years or comp<strong>le</strong>te follow-up) in the spirit of pattern mixtureanalysis (20). Whatever the pattern of dropout, the estimatedtransformations were very similar (results not shown).Some methodological issues of this analysis should, however,be discussed. First, as the results rely on a parametricmodel, adequate fit of the model to the data has been carefullychecked using postfit methods based on the residualsand the predictions developed in Proust et al. (4) (results notshown). An essential part of the model is the link functionbetween the tests and the common factor. The beta cumulativedistribution function was chosen because this transformationwas f<strong>le</strong>xib<strong>le</strong> enough to exhibit very different shapesand depended on only two parameters per test. However,comp<strong>le</strong>mentary analyses have been performed estimatingthe link functions on a basis of splines instead of the betacumulative distribution functions; they have <strong>le</strong>d to very similarresults whi<strong>le</strong> raising more numerical prob<strong>le</strong>ms due to thelarge number of parameters.Second, in the PAQUID Study, MMSE was the first testfulfil<strong>le</strong>d during each testing session. Consequently, it wasmore frequently comp<strong>le</strong>ted than the three other tests, particularlyamong impaired subjects. To ensure that test-specificparameters were estimated on the same samp<strong>le</strong> and to maintaincomparability between the tests, we required that everysubject had at <strong>le</strong>ast one measure at each test. The 791 subjectsexcluded from the samp<strong>le</strong> were older (median age: 78.6vs. 73.1 years) and <strong>le</strong>ss educated (51.5 percent did not graduatefrom primary school vs. 27 percent in the samp<strong>le</strong>) thanthe subjects included in the se<strong>le</strong>cted samp<strong>le</strong>, but the range ofthe observed scores was the same. Note also that using longitudinaldata and keeping incident cases of dementia in thesamp<strong>le</strong> increased the observed range of cognition and allowedus to compare evolution of each test over time.In conclusion, our results show that the Isaacs Set Testshortened at 15 seconds could be a good candidate to measurecognitive changes in a general population. More generally,the methodology used in this study provides someclues to thoughtfully se<strong>le</strong>ct the appropriate measures ofcognition col<strong>le</strong>cted in a study according to the nature ofthe target population and the objective of the study.


Annexes 198Psychometric Tests’ Sensitivity to Cognitive Changes 7ACKNOWLEDGMENTSThis study was funded by Novartis AG, SCOR insuranceAgrica, Conseil Général de la Gironde, and Conseil généralde la Dordogne.Conflict of interest: none declared.REFERENCES1. Morris MC, Evans DA, Hebert LE, et al. Methodological issuesin the study of cognitive decline. Am J Epidemiol 1999;149:789–93.2. Yesavage JA, Brooks JO 3rd. On the importance of longitudinalresearch in Alzheimer’s disease. J Am Geriatr Soc 1991;39:942–4.3. Galasko DR, Gould RL, Abramson IS, et al. Measuring cognitivechange in a cohort of patients with Alzheimer’s disease.Stat Med 2000;19:1421–32.4. Proust C, Jacqmin-Gadda H, Taylor JM, et al. A nonlinearmodel with latent process for cognitive evolution using multivariatelongitudinal data. Biometrics. (Advance Access:doi: 10.1111/j.1541-0420.2006.00573.x.).5. Dartigues JF, Commenges D, Letenneur D, et al. Cognitivepredictors of dementia in elderly community residents. Neuroepidemiology1997;16:29–39.6. Folstein MF, Folstein SE, McHugh PR. ‘‘Mini-Mental State.’’A practical method for grading the cognitive state of patientsfor the clinician. J Psychiatr Res 1975;12:189–98.7. Tombaugh TN, McIntyre NJ. The Mini-Mental State Examination:a comprehensive review. J Am Geriatr Soc 1992;40:922–35.8. Commenges D, Gagnon M, Letenneur L, et al. Statistical descriptionof the Mini-Mental State Examination for Frenchelderly community residents. Paquid Study Group. J NervMent Dis 1992;180:28–32.9. Baker F. The basics of Item Response Theory. Col<strong>le</strong>ge Park,MD: ERIC C<strong>le</strong>aringhouse on Assessment and Evaluation,2001.10. Letenneur L, Commenges D, Dartigues JF, et al. Incidence ofdementia and Alzheimer’s disease in elderly community residentsof south-western France. Int J Epidemiol 1994;23:1256–61.11. Isaacs B, Kennie AT. The Set test as an aid to the detectionof dementia in old peop<strong>le</strong>. Br J Psychiatry 1973;123:467–70.12. Benton A. Manuel pour l’application du Test de RétentionVisuel<strong>le</strong>. Applications cliniques et expérimenta<strong>le</strong>s. (In French).Paris, France: Centre de Psychologie appliquée, 1965.13. Wechs<strong>le</strong>r D. WAIS-R manual. New York, NY: PsychologicalCorporation, 1981.14. Laird NM, Ware JH. Random-effects models for longitudinaldata. Biometrics 1982;38:963–74.15. Hall CB, Lipton RB, Sliwinski M, et al. A change point modelfor estimating the onset of cognitive decline in preclinicalAlzheimer’s disease. Stat Med 2000;19:1555–66.16. Amieva H, Jacqmin-Gadda H, Orgogozo JM, et al. The9 year cognitive decline before dementia of the Alzheimertype: a prospective population-based study. Brain 2005;128:1093–101.17. Jacqmin-Gadda H, Fabrigou<strong>le</strong> C, Commenges D, et al.A 5-year longitudinal study of the Mini-Mental State Examinationin normal aging. Am J Epidemiol 1997;145:498–506.18. Salthouse TA. The processing-speed theory of adult age differencesin cognition. Psychol Rev 1996;103:403–28.19. Jacqmin-Gadda H, Commenges D, Dartigues J. Analysis oflongitudinal Gaussian data with missing data on the responsevariab<strong>le</strong>. (In French). Rev Epidemiol Sante Publique 1999;47:525–34.20. Litt<strong>le</strong> R. Pattern-mixture models for multivariate incomp<strong>le</strong>tedata. J Am Stat Assoc 1993;88:125–34.APPENDIXModel specificationWe consider K neuropsychological tests. For each testk, k ¼ 1, ...,K, each subject i, i ¼ 1, ...,N, and each occasionj, j ¼ 1, ...,n ik , the measure of the neuropsychologicaltest y ijk is col<strong>le</strong>cted at time t ijk , t ijk being different for eachtest and each subject. The latent process that representsthe common factor of the K neuropsychological tests ismode<strong>le</strong>d by use of the following linear mixed model, includinga quadratic function of time and a Brownian motion(w i (t)) t0 with variance term r 2 w 3 t:K i ðtÞ¼ðl 0 þ u 0i Þþðl 1 þ u 1i Þ3t þðl 2 þ u 2i Þ3t 2 þ w i ðtÞ:The vector of random effects u i ¼ (u 0i ,u 1i ,u 2i ) T follows amultivariate normal distribution with mean vector 0 and variancecovariance matrix D. The mean evolution of the commonfactor is represented by the fixed effects l 0 , l 1 , and l 2 .The observed score value y ijk is linked to the value of thecommon factor at the time of measurement K i (t ijk ) througha nonlinear link function h k that is a beta cumulative distributionfunction depending on two test-specific parametersh k ¼ (g 1k , g 2k ). This <strong>le</strong>ads to the following measurementmodel:h k ðy ijk ;g k Þ¼K i ðt ijk Þþa ik þ e ijkwhere the test-specific random intercept a ik follows a Gaussiandistribution with mean 0 and variance r 2 ak : It takes intoaccount the residual individual variability between tests afteradjustment on the latent common factor, that is, the fact thattwo subjects with the same latent cognition can score differentlyat the psychometric tests. At last, e ijk are independentGaussian errors with mean 0 and variance r 2 ek :


Annexes 199Impact of gender and education on cognitive decline with age:a longitudinal approachCéci<strong>le</strong> Proust-Lima a,b , Hélène Amieva b,c , Hélène Jacqmin-Gadda a,b,* , Luc Letenneur b,c , Jean-Marc Orgogozo b,c and Jean-François Dartigues b,ca INSERM, EMI 0338 (Biostatistique), Bordeaux , F-33076, FRANCEb Université Victor Sega<strong>le</strong>n Bordeaux 2, Bordeaux , F-33076, FRANCEcINSERM, U 593, Bordeaux , F-33076, FRANCE* correspondence to : Hélène Jacqmin-Gadda, INSERM E0338, <strong>ISPED</strong>, Université deBordeaux2, 146 rue Léo Saignat, 33076 Bordeaux Cedex, France. Tel : (33) 5 57 57 4518 ;Fax : (33) 5 56 24 00 81 ; e-mail : he<strong>le</strong>ne.jacqmin-gadda@bordeaux.inserm.fr1


Annexes 200Abstract :When investigating effects of gender and education on degradation of cognitive performanceswith age, one cannot distinguish the association of these variab<strong>le</strong>s with cognitive decline fromtheir association with the response of the tools used for measuring cognition.Using a longitudinal model for describing the cognitive factor underlying four psychometrictests, we quantify both the effects of gender and education on a comprehensive indicator ofcognition and their differential effect on the four psychometric tests. The approach is appliedto a large samp<strong>le</strong> of elderly subjects from the French cohort PAQUID whatever the type andthe course of their cognitive aging process.Adjusting for vascular risk factors, the results suggest that women have a slightly worstcognitive decline in oldest age than men and that women better perform in tests involvingverbal component whi<strong>le</strong> men better perform in tests involving visuospatial skills. The resultsconfirm a large difference in cognitive <strong>le</strong>vel according to education but the difference inscores tends to decrease with age for tests involving a speed component.170 wordsKeywords : aging, Benton visual retention test, cognition, Digit Symbol Substitution Test,Isaacs set test, Mini mental state examination, mixed model, neuropsychological evaluation.2


Annexes 201IntroductionIn spite of a vast literature on the subject, the effect of gender and education on the evolutionof cognitive performances with age remains controversial. Longitudinal studies of randomlyse<strong>le</strong>cted population-based samp<strong>le</strong>s of subjects is so far the best way to study theserelationships by the col<strong>le</strong>ction of repeated measures of psychometric tests over time [21, 30].This method allows to analyse both the baseline <strong>le</strong>vel and the evolution with age of thecognitive performances. However, even in these studies, multip<strong>le</strong> methodological prob<strong>le</strong>msinterfere with the statistical analysis and disturb the associations. The use of psychometrictests as surrogate markers of performances in several cognitive functions implies twodifficulties. First whatever the battery of psychometric tests used, each test only measuressome domains of cognition even when considered as a global test like the Mini Mental StateExamination (MMSE) [5], a composite score derived from a limited number of cognitiveoperations. Second, several studies have reported that the ability to perform the tests wasstrongly related to gender and education. Fema<strong>le</strong>s tended to have better performances thanma<strong>le</strong>s on tests involving an important verbal component such as verbal memory tests whi<strong>le</strong>ma<strong>le</strong>s were generally better than fema<strong>le</strong>s on tests requiring visuospatial informationprocessing [3, 15, 23, 29]. High educated subjects tended to perform better on a wide range oftests including the MMSE [14, 17, 27] and community-based studies strengthened this resultby showing that the effects of education on numerous tests scores remained significant afteradjusting for confounding factors such as age [4, 7, 18]. However, when considering testscores it is important to keep in mind their artificial nature and arbitrary meaning. Forinstance, education may influence test-taking behaviour, lower educated subjects having moredifficulty to deal with general as well as specific testing conditions. So, one could argue thatthe degradation of cognitive performances with age related to a low <strong>le</strong>vel of education ismediated by the differential ability in developing test-taking skills between high and low3


Annexes 202educated subjects. This may imply that one cannot distinguish the association betweeneducation and the cognitive <strong>le</strong>vel from the association between education and tools used formeasuring cognition. A way to deal with these prob<strong>le</strong>ms is to study the change over time of acommon latent cognitive factor underlying the various cognitive tests that are measuredrepeatedly. This common latent cognitive <strong>le</strong>vel, a potentially better measure of globalcognitive degradation with age, can be obtained by a nonlinear latent variab<strong>le</strong> model forlongitudinal multivariate data in which psychometric tests are assumed to be nonlinearparameterized transformations of their common factor [22]. The common factor is a latentprocess representing the common cognitive process underlying the psychometric tests. It isrelated to age through a linear mixed model [16, 22]. By introducing covariates like gender oreducation both in association with the latent process and in association with eachpsychometric test, this model allows to compare the intensities of association of covariateswith the different psychometric tests adjusting on the latent cognitive <strong>le</strong>vel, in addition to theestimation of the global association with cognitive <strong>le</strong>vel. Thus the effect of the covariate onthe ability to perform the test can be separated from its effect on the latent cognitive <strong>le</strong>velitself. The present analysis consisted in applying such statistical modelling to the Paquidstudy, a French population-based cohort of elderly subjects who have been followed for 13years with repeated measures of cognition. The aim was to estimate the true impact of genderand educational <strong>le</strong>vel on cognitive degradation with age.4


Annexes 203MethodsPopulationPAQUID is a prospective cohort study initiated in 1988 in South Western France (Dordogneand Gironde) to explore functional and cerebral aging. In brief, 3777 subjects who were 65years and older and were living at home at enrolment were included in the cohort if theyagreed, after being randomly se<strong>le</strong>cted on e<strong>le</strong>ctoral rolls. They were extensively assessed atbaseline (V0) and then were followed up 6 times with a visit at 1 year (V1), 3 years (V3), 5years (V5), 8 years (V8), 10 years (V10) and 13 years (V13) (except at 1 year in Dordogne).At each visit a neuropsychological evaluation and a screening for dementia were carried out athome. A more detai<strong>le</strong>d description of Paquid is given by Letenneur et al. [19] .Neuropsychological evaluationIn PAQUID, a battery of psychometric tests was used to quantitatively assess cognition. Inthis paper we focus the four tests which were systematically proposed at each visit:(i) the Mini Mental State Examination (MMSE) [5] is a sum-score evaluating variousdimensions of cognition (memory, calculation, orientation in space and time, language andword recognition). It is often used as an index of global cognitive performance and rangesfrom 0 to 30.(ii) the Isaacs Set Test (IST15) [10] shortened at 15 seconds evaluates semantic verbal fluencyabilities and speed of verbal production. Subjects have to give a list of words (with amaximum of 10) belonging to a specific semantic category in 15 seconds. Four semanticcategories were successively used (cities, fruits, animals and colours). The score ranges from0 to 40 [1].5


Annexes 204(iii) the recognition form of the Benton Visual Retention Test (BVRT) [2] evaluatesimmediate visual memory. After the presentation for 10 seconds of a stimulus card displayinggeometric figures, subjects are asked to choose the initial figure among four possibilities.Fifteen figures are successively presented. The score ranges from 0 to 15.(iv) the Digit Symbol Substitution Test (DSST) [28] explores attention and psychomotorspeed. Given a code tab<strong>le</strong> displaying the correspondence between pairs of digits (from 1 to 9)and symbols, the subjects have to fill in blank squares with the symbol which is paired to thedigit displayed above the square. The subjects have to fill in as many squares as possib<strong>le</strong> in 90seconds. The score, representing the number of correct symbols, ranges from 0 to 76 in thePAQUID samp<strong>le</strong>.Statistical modelThe response dependent variab<strong>le</strong>s are the scores at repeated measures of the fourpsychometric tests. The statistical model assumes that the correlation between the four tests isinduced by a latent common cognitive process. The model is thus divided into two parts: (i)the longitudinal model for the latent cognitive process which describes the evolution of thelatent cognitive factor and evaluates the effects of covariates on the latent cognitive evolution,and (ii) the test-specific models which link the measures of the psychometric tests with thelatent cognitive process, taking into account test-specific associations with covariates.The evolution of the common factor was model<strong>le</strong>d using a linear mixed model [16] whichaims at evaluating changes over time of a repeated outcome (here the latent cognitive <strong>le</strong>vel)accounting for correlation between the repeated measures on each subject. The linear mixedmodel included random intercept, age and age squared in accordance with other longitudinalstudies [1, 9] which showed quadratic cognitive evolutions with age. This quadratic trend6


Annexes 205allows an acce<strong>le</strong>ration of the cognitive decline among oldest subjects. The intercept, linearand quadratic coefficients for age were subject-specific random coefficients to take intoaccount intra-subject correlation. We added a Brownian motion to account for individualdeviations from this quadratic evolution and thus relaxed the parametric form of the model.The test-specific models defined the f<strong>le</strong>xib<strong>le</strong> links between the psychometric tests and thelatent cognitive factor. The hypothesis is that a test-specific nonlinear transformation of eachtest is a noisy measure of the latent cognitive factor. More specifically, the value of thenonlinear transformation of each test at age t equal<strong>le</strong>d:- the latent cognitive <strong>le</strong>vel at age t,- plus test-specific covariates effects, which account for the effect of the covariates onthe ability to pass this test after adjustment on the cognitive <strong>le</strong>vel,- plus a test-and-subject-specific random effect, which accounts for inter-individualvariations of ability to pass this test after adjustment on the latent cognitive <strong>le</strong>vel andeffects of covariates,- plus an independent test-specific measurement error.The nonlinear test-specific transformations which link each psychometric test with the latentcommon cognitive factor were parametric functions depending on parameters to be estimatedsimultaneously with the other parameters in the model. The chosen f<strong>le</strong>xib<strong>le</strong> transformationswere Beta Cumulative Distribution Functions which offer a large variety of shapes (concave,convex or sigmoid) using only two estimated parameters per test. The comp<strong>le</strong>te methodologywas previously detai<strong>le</strong>d in Proust et al. [22] and is described in Appendix.7


Annexes 206Explanatory variab<strong>le</strong>sIn addition to age and age squared, the model included educational <strong>le</strong>vel (graduated fromprimary school versus did not graduated) and gender which were included as covariates bothin the linear mixed model for the latent cognitive <strong>le</strong>vel and in the models for eachpsychometric test. Thus, we were ab<strong>le</strong> to estimate association of covariates with theunderlying global cognitive <strong>le</strong>vel, on one hand, and on each test score adjusting on the latent<strong>le</strong>vel, on the other hand. Moreover, summing these two estimates, we may also compute theglobal association of the covariate with each psychometric test without adjustment on thelatent cognitive <strong>le</strong>vel. We examined both the impact of covariates on the mean latentcognitive <strong>le</strong>vel and on its evolution (by including interaction between covariates and age orage squared). We also adjusted the latent cognitive <strong>le</strong>vel model on vascular factors col<strong>le</strong>ctedat the initial visit V0, that is history of stroke, high blood pressure (HBP) (self-reported usualsystolic and diastolic blood pressures respectively higher than 140 and 90 mm Hg or use ofdrug for HBP), diabetes (self-reported history of diabetes, diabetes diet or diabetes drug),hypercho<strong>le</strong>stero<strong>le</strong>mia (diet or drug against hypercho<strong>le</strong>stero<strong>le</strong>mia) and smoking status at V0(current or past smoker versus no-smoker), the frequency of some of these factor beingmarkedly different between men and women. Only significant factors (simp<strong>le</strong> effects orinteractions) were kept in the final model except that non significant effects of gender oreducation were maintained in the latent process model when the corresponding differentialassociations in the test-specific models were significant.Samp<strong>le</strong> se<strong>le</strong>ctionCognitive measurements at the initial visit (V0) were excluded from the analysis because of afirst passing effect previously described [12]. Indeed a test-retest improvement was observed8


Annexes 207between V0 and V1 possibly due to a stress induced by the first evaluation at V0 or a practiceeffect observed after the first evaluation. From the 3,777 subjects in PAQUID, we retained3,043 subjects who were followed up after V0 and we studied the evolution of the commonfactor between V1 and V13. The DSST was not comp<strong>le</strong>ted at V3, and as a sub-samp<strong>le</strong> ofPAQUID comp<strong>le</strong>ted a nutritional questionnaire at V3 which could impact on the IST15 scorefor the fruit and animal categories, we excluded the measurements of IST15 at V3. From thesamp<strong>le</strong> of 3,043 subjects, we retained a samp<strong>le</strong> of 2,252 subjects with at <strong>le</strong>ast one measure ateach neuropsychological test between V1 and V13 to ensure that every subject broughtinformation about each neuropsychological test. At last, 2,228 subjects had no missing valuesfor the main covariates. The median number of measures was 4 for the MMSE (Inter Quarti<strong>le</strong>Range (IQR)=2-5) and BVRT (IQR=2-5) and respectively 3 for the IST15 (IQR=1-4) and 2for the DSST (IQR=1-4).ResultsDescription of the samp<strong>le</strong>Characteristics of the samp<strong>le</strong> are described in tab<strong>le</strong> 1: 56.7% of the 2228 subjects included inthe samp<strong>le</strong> were women and 73% had at <strong>le</strong>ast graduated from primary school. The mean ageat V1 was 75.20 (standard deviation (sd)=6.25). Among the 2228 subjects, 7 (0.4%) subjectswere demented at the beginning of the follow-up (V1) and 364 subjects (16.3%) had apositive diagnosis of dementia during the follow-up. At inclusion (V0), 82.9% had a highblood pressure, 7.8% of the subjects were suffering from diabetes, 17.5% fromhypercho<strong>le</strong>stero<strong>le</strong>mia and 38.1% were either current smokers or past-smokers. At V1, 7.1%had history of stroke. At visit V1, including only subjects living in Gironde, 1,604 subjectscomp<strong>le</strong>ted the MMSE with a median score of 28 (IQR=26-29), 1,603 subjects comp<strong>le</strong>ted the9


Annexes 208IST15 (median=28, IQR=24-33), 1,600 subjects comp<strong>le</strong>ted the BVRT (median=11, IQR=10-13) and 1,596 comp<strong>le</strong>ted the DSST (median=28, IQR=20-37).Longitudinal Multivariate modelImpact of gender on cognition:Estimates of the multivariate model are displayed in tab<strong>le</strong> 2. Firstly, whi<strong>le</strong> gender was notglobally associated with the latent common cognition when not taking into account thevascular factors (neither associated with the mean latent cognitive <strong>le</strong>vel (β=0.0005, p=0.40)nor with the cognitive evolution (β=0.0019, p=0.18)), it was associated with the cognitiveevolution when adjusting on the vascular factors and especially the smoking status. Indeed, itwas still not associated with the basic latent cognitive <strong>le</strong>vel (β=-0.0056, p=0.23) but wasassociated with the cognitive evolution (β=0.0061, p=0.002), women having a slightly worstcognitive decline with age than men in oldest age as seen in figure 1(a). In the following, thecommented results come from the model adjusted for vascular factors.After adjusting on the latent cognitive <strong>le</strong>vel, gender effect was significantly different over thefour tests both on the mean <strong>le</strong>vel of the tests (p


Annexes 2090.0029, p=0.024) and <strong>le</strong>ss marked on the MMS (β=0.0058, p


Annexes 210and on the mean evolution with age (p=0.0003 for contrasts on EL×time squared) whichmeans that education did not only have an impact on the latent cognition but also on the toolsused to measure cognition. Contrasts on EL shows that the effect of education at 65 years oldwas amplified for the DSST (β=0.0416, p


Annexes 211By applying a nonlinear latent variab<strong>le</strong> model [22] to the psychometric data of the PAQUIDcohort, we have been ab<strong>le</strong> to estimate the evolution with age of a comprehensive indicator ofcognition and to distinguish the impact of education and gender on cognition from theirimpact on four psychometric tests used for measuring cognition. Thus, after adjusting forvascular factors, gender was associated with the latent cognitive factor, women having thesame baseline cognitive <strong>le</strong>vel but a deeper decline in older ages than men. This associationsuffered from confusion since without accounting for smoking status, the association wasnon-significant. Indeed, 82% of the smokers are men and smokers tend to have a deepercognitive decline with age. Gender had also a differential effect on the four tests. Especially,we found that men performed better than women to the BVRT which is consistent withprevious studies reporting that men use to be better performers than women in tests involvingvisuospatial skills [23, 29]. In contrast, we found that women performed better than men tothe IST15 which is also in agreement with previous findings reporting that women tend tobetter perform than men on tasks with verbal modality [23, 29].In the same vein, we distinguished the effect of education on the latent cognitive evolutionfrom its specific effect on the psychometric tests. We found that subjects who graduated fromprimary school had in mean a better cognitive <strong>le</strong>vel than subjects who did not graduate whichcorroborates previous results about the influence of education on neuropsychologicalperformances [4, 7, 18]. Nonethe<strong>le</strong>ss, we also showed that this effect differed significantlyaccording to the psychometric test considered. Thus, the difference between a subject whograduated from primary school and a subject who did not graduate decreased with age whenconsidering the IST15 and DSST whi<strong>le</strong> it remained the same whatever the age whenconsidering the MMSE or the BVRT. In contrast with the MMSE or the BVRT, the IST15and DSST include a speed component and it was found previously that the decrease inprocessing speed explained most of age-related differences in cognition [24].13


Annexes 212These findings should be interpreted by keeping in mind the fact that our samp<strong>le</strong> is constitutedof a mixture of demented subjects, subjects in a pre-diagnosis phase of dementia, and subjectswith a normal cognitive aging since we included in this study all the subjects with at <strong>le</strong>ast oneneuropsychological evaluation during the follow-up. Thus, estimated cognitive declines anddifferential declines according to gender and the <strong>le</strong>vel of education represent declines in apopulation of elderly peop<strong>le</strong> whatever the type and the course of their cognitive aging process.Brain aging in a samp<strong>le</strong> of subjects from the general population cumulates the proper effect ofage on the central nervous system, particularly on neurones and synapses, the effect ofAlzheimer <strong>le</strong>sions or other neurodegenerative <strong>le</strong>sions like Lewy bodies, and the effect ofcerebro-vascular <strong>le</strong>sions. All these morbid processes increase with age. From a practicalclinical point of view and a public health point of view, it would be re<strong>le</strong>vant to separate theseprocesses to evaluate for instance the impact of gender and education separately on normalcognitive aging and on cognitive decline toward dementia. However, it appears also re<strong>le</strong>vantto study the evolution of the who<strong>le</strong> samp<strong>le</strong> because there is a great overlap in brain <strong>le</strong>sionsbetween demented and non demented subjects [13], there is a long progressing pre-dementiaphase and the stage of dementia remains more or <strong>le</strong>ss arbitrary defined. Moreover, it is verydifficult to study separately normal cognitive aging and especially to distinguish determinantsof normal aging from those of pathological aging because we cannot be sure that a samp<strong>le</strong> ofnormal elderly does not include subjects in a pre-diagnosis phase of dementia [26]. As aconsequence, the association we observed between education and cognitive decline both onthe latent cognition and on the psychometric tests could be the result of the effect of educationon the risk of dementia [20], on the shape of the pre-diagnosis cognitive decline [1, 11, 25]and on the normal aging process [1, 8, 26]. On the other hand, the deeper cognitive decline ofwomen in older ages could be explained by a higher risk of dementia for the womencompared to men among the oldest subjects [6].14


Annexes 213A limit of the study is that we considered missing data as ignorab<strong>le</strong> and we did not accountfor dropout in our model whereas dropout is very frequent in population-based aging studies.Moreover, it is known that missing data and dropout occur more often among impairedsubjects [12] and can be informative. Not accounting for informative missing data can bias theestimations of cognitive declines even if, by using jointly various psychometric tests andadjusting on vascular factors which may be associated with dropout, their impact could bediminished.Another important point is that the latent common factor in this model is defined according tothe pool of psychometric tests used in the analysis. Computing the model with other testsinvolving different cognitive components could have an impact on the common factorevolution. This is why, for this analysis, we se<strong>le</strong>cted tests which both are frequently used andexplore different domains of cognition.In spite of these limitations, this methodology allowed us firstly to model jointly four widelyused psychometric tests, including non Gaussian scores or scores with floor and ceilingeffects like the MMSE, and secondly to separate and quantify the differential effects of genderand educational <strong>le</strong>vel on the psychometric tests and their global effect on the latent cognitionrepresented by the common factor of the four tests.Acknow<strong>le</strong>dgementsThis study was funded by NOVARTIS pharma, SCOR insurance, Agrica, Conseil régionald’Aquitaine, Conseil Général de la Gironde and Conseil Général de la Dordogne.Disclosure statementThere is no actual or potential conflicts of interest concerning this study.15


Annexes 214Appendix : model specificationWe consider K neuropsychological tests. For each test k, k=1,…,K, each subject i, i=1,…,Nand each occasion j, j=1,…,n ik , the measure of the neuropsychological test y ijk is col<strong>le</strong>cted attime t ijk , t ijk being different for each test and each subject. The latent process which representsthe common factor of the K neuropsychological tests is model<strong>le</strong>d using the following linearmixed model including a quadratic function of time and a Brownian motion (w i (t)) t≥0 withvariance term σ w ²×t :ΛTTT2( t) = ( X β + µ + u ) + ( X β + µ + u ) × t + ( X β + + u ) × t w ( t)i i 0 0 0ii 1 1 1ii 2 µ 2 2i+The vector of random effects u i =(u 0i ,u 1i ,u 2i ) T follows a multivariate normal distribution withmean vector 0 and variance covariance matrix D. The mean evolution of the common factor isrepresented by the fixed effects µ 0 , µ 1 and µ 2 . The vector of covariates X i can either beassociated with the mean latent common factor <strong>le</strong>vel through the vector b 0 or the meancommon factor evolution through the vectors b 1 and b 2 .The observed score value y ijk is linked to the value of the common factor at the time ofmeasurement Λ i (t ijk ) through a nonlinear link function h k which is a Beta CumulativeDistribution Function depending on two test-specific parameters h k =(η 1k ,η 2k ). This <strong>le</strong>ads tothe following measurement model :hkT( yijk; ηk) = Λi( tijk) + Xi( tijk) γk+ αik+ εijkwhere X i (t ijk ) is a vector of covariates including the quadratic function of time and associatediwith the neuropsychological tests through the vector of parameters g k . The vector g krepresents the differential association (or contrast) of X i (t ijk ) with the neuropsychological test∑ k = mkm1Kk after adjusting on the common factor value Λ i (t ijk ) ( γ = 0, ∀ ). The test-specificrandom intercept α ik follows a Gaussian distribution with mean 0 and variance σ αk ². It takesinto account the residual individual variability between tests after adjustment on the latent16


Annexes 215common factor and the covariates. At last, ε ijk are independent Gaussian errors with mean 0and variance σ εk ².17


Annexes 216References[1] Amieva H, Jacqmin-Gadda H, Orgogozo JM, Le Carret N, Helmer C, Letenneur L,Barberger-Gateau P, Fabrigou<strong>le</strong> C,Dartigues JF. The 9 year cognitive decline before dementiaof the Alzheimer type: a prospective population-based study. Brain 2005;128(Pt 5):1093-101[2] Benton A.Manuel pour l'application du Test de Rétention Visuel<strong>le</strong>. Applications cliniqueset expérimenta<strong>le</strong>s. Paris:Centre de Psychologie appliquée; 1965[3] Collaer ML,Hines M. Human behavioral sex differences: a ro<strong>le</strong> for gonadal hormonesduring early development? Psychol Bull 1995;118(1):55-107[4] Elias MF, Elias PK, D'Agostino RB, Silbershatz H,Wolf PA. Ro<strong>le</strong> of age, education, andgender on cognitive performance in the Framingham Heart Study: community-based norms.Exp Aging Res 1997;23(3):201-35[5] Folstein MF, Folstein SE,McHugh PR. "Mini-mental state". A practical method forgrading the cognitive state of patients for the clinician. J Psychiatr Res 1975;12(3):189-98[6] Fratiglioni L, Launer LJ, Andersen K, Brete<strong>le</strong>r MM, Copeland JR, Dartigues JF, Lobo A,Martinez-Lage J, Soininen H,Hofman A. Incidence of dementia and major subtypes inEurope: A collaborative study of population-based cohorts. Neurologic Diseases in theElderly Research Group. Neurology 2000;54(11 Suppl 5):S10-5[7] Ganguli M, Ratcliff G, Huff FJ, Bel<strong>le</strong> S, Kancel MJ, Fischer L, Seaberg EC,Kul<strong>le</strong>r LH.Effects of age, gender, and education on cognitive tests in a rural elderly community samp<strong>le</strong>:norms from the Monongahela Val<strong>le</strong>y Independent Elders Survey. Neuroepidemiology1991;10(1):42-52[8] Ganguli M, Seaberg EC, Ratcliff GG, Bel<strong>le</strong> SH,DeKosky ST. Cognitive stability over 2years in a rural elderly population: the MoVIES project. Neuroepidemiology 1996;15(1):42-5018


Annexes 217[9] Hall CB, Lipton RB, Sliwinski M,Stewart WF. A change point model for estimating theonset of cognitive decline in preclinical Alzheimer's disease. Stat Med 2000;19(11-12):1555-66[10] Isaacs B,Kennie AT. The Set test as an aid to the detection of dementia in old peop<strong>le</strong>. BrJ Psychiatry 1973;123(575):467-70[11] Jacqmin-Gadda H, Commenges D,Dartigues JF. Random change point model for jointmodeling of cognitive decline and dementia. Biometrics 2006;62(1):254-60[12] Jacqmin-Gadda H, Fabrigou<strong>le</strong> C, Commenges D,Dartigues JF. A 5-year longitudinalstudy of the Mini-Mental State Examination in normal aging. Am J Epidemiol1997;145(6):498-506[13] Jicha GA, Parisi JE, Dickson DW, Johnson K, Cha R, Ivnik RJ, Tangalos EG, Boeve BF,Knopman DS, Braak H,Petersen RC. Neuropathologic outcome of mild cognitive impairmentfollowing progression to clinical dementia. Arch Neurol 2006;63(5):674-81[14] Jorm AF, Scott R, Henderson AS,Kay DW. Educational <strong>le</strong>vel differences on the Mini-Mental State: the ro<strong>le</strong> of test bias. Psychol Med 1988;18(3):727-31[15] Kramer J, Delis D,Daniel M. Sex differences in verbal <strong>le</strong>arning. J Clin Psychol1988;44(907-915[16] Laird NM,Ware JH. Random-effects models for longitudinal data. Biometrics1982;38(4):963-74[17] Launer LJ, Dinkgreve MA, Jonker C, Hooijer C,Lindeboom J. Are age and educationindependent correlates of the Mini-Mental State Exam performance of community-dwellingelderly? J Gerontol 1993;48(6):P271-7[18] Le Carret N, Lafont S, Mayo W,Fabrigou<strong>le</strong> C. The effect of education on cognitiveperformances and its implication for the constitution of the cognitive reserve. DevNeuropsychol 2003;23(3):317-3719


Annexes 218[19] Letenneur L, Commenges D, Dartigues JF,Barberger-Gateau P. Incidence of dementiaand Alzheimer's disease in elderly community residents of south-western France. Int JEpidemiol 1994;23(6):1256-61[20] Letenneur L, Gil<strong>le</strong>ron V, Commenges D, Helmer C, Orgogozo JM,Dartigues JF. Are sexand educational <strong>le</strong>vel independent predictors of dementia and Alzheimer's disease? Incidencedata from the PAQUID project. J Neurol Neurosurg Psychiatry 1999;66(2):177-83[21] Morris MC, Evans DA, Hebert LE,Bienias JL. Methodological issues in the study ofcognitive decline. Am J Epidemiol 1999;149(9):789-93[22] Proust C, Jacqmin-Gadda H, Taylor JM, Ganiayre J,Commenges D. A nonlinear modelwith latent process for cognitive evolution using multivariate longitudinal data. Biometrics2006;Online publication date: 26-Apr-2006 doi: 10.1111/j.1541-0420.2006.00573.x([23] Reite M, Cullum CM, Stocker J, Tea<strong>le</strong> P,Kozora E. Neuropsychological test performanceand MEG-based brain lateralization: sex differences. Brain Res Bull 1993;32(3):325-8[24] Salthouse TA. The processing-speed theory of adult age differences in cognition. PsycholRev 1996;103(3):403-28[25] Scarmeas N, Albert SM, Manly JJ,Stern Y. Education and rates of cognitive decline inincident Alzheimer's disease. J Neurol Neurosurg Psychiatry 2006;77(3):308-16[26] Sliwinski M, Lipton RB, Buschke H,Stewart W. The effects of preclinical dementia onestimates of normal cognitive functioning in aging. J Gerontol B Psychol Sci Soc Sci1996;51(4):P217-25[27] Tombaugh TN,McIntyre NJ. The mini-mental state examination: a comprehensivereview. J Am Geriatr Soc 1992;40(9):922-35[28] Wechs<strong>le</strong>r D.WAIS-R manual. New York:Psychological Corporation; 198120


Annexes 219[29] Wiederholt WC, Cahn D, Butters NM, Salmon DP, Kritz-Silverstein D,Barrett-Connor E.Effects of age, gender and education on se<strong>le</strong>cted neuropsychological tests in an elderlycommunity cohort. J Am Geriatr Soc 1993;41(6):639-47[30] Yesavage JA,Brooks JO, 3rd. On the importance of longitudinal research in Alzheimer'sdisease. J Am Geriatr Soc 1991;39(9):942-421


Annexes 220Figure 1 : (A) Predicted mean evolutions of the latent cognitive <strong>le</strong>vel with age according togender for a non smoking subject with a low educational <strong>le</strong>vel and any antecedent of stroke ordiabetes (with the 95% confidence bands (CB)) (B) predicted mean evolutions of the MMSE,IST15, BVRT and DSST according to gender for a non smoking subject with a loweducational <strong>le</strong>vel and any antecedent of stroke or diabetes.22


Annexes 221Figure 2 : (A) Predicted mean evolutions of the latent cognitive <strong>le</strong>vel with age according tothe educational <strong>le</strong>vel (EL) for a non smoking women without any antecedent of stroke ordiabetes (with the 95% confidence bands (CB)) (B) predicted mean evolutions of the MMSE,IST15, BVRT and DSST according to the educational <strong>le</strong>vel for a non smoking womenwithout no antecedent of stroke or diabetes.23


Annexes 222Tab<strong>le</strong> 1: demographic and health characteristics in the samp<strong>le</strong> (N=2228)N %GenderMa<strong>le</strong> 964 43.3Fema<strong>le</strong> 1264 56.7Educational <strong>le</strong>velNo diploma 602 27Primary school with diploma or + 1626 73Age at V1=70 and =75 and =80 year old 370 16.6Preva<strong>le</strong>nt dementia at V1 7 0.4Incident dementia between V3 and V13 364 16.324


Annexes 223Tab<strong>le</strong> 2: Estimates and 95% confidence interval (95%CI) of the parameters in the nonlinearlatent variab<strong>le</strong> model using MMSE, IST15, BVRT and DSST without adjustment on vascularfactors (VF) (on the <strong>le</strong>ft, Log-likelihood=-69993.86 and 42 parameters) and with adjustmenton vascular factors (on the right, Log Likelihood=-69969.18 and 47 parameters).Without VF adjustment With VF adjustmentVariab<strong>le</strong> Estimate a 95% CI Estimate a 95% CICommon factor evolution :Intercept (at 65 years old) 0.538 *** 0.523,0.552 0.539 *** 0.524,0.553Time b -0.0305 *** -0.0425,-0.0185 -0.0294 *** -0.0414,-0.0174Time squared b -0.0209 *** -0.0261,-0.0158 -0.0200 *** -0.0251,-0.0149Gender c 0.0005 -0.0081,0.0091 -0.0056 -0.0161,0.0050Gender c × time squared 0.0019 -0.0011,0.0050 0.0061 * 0.0024,0.0099Educational <strong>le</strong>vel (EL) d 0.114 *** 0.103,0.124 0.112 *** 0.102,0.123EL d × time squared -0.0038 * -0.0071,-0.0004 -0.0038 * -0.0072,-0.0005Contrasts on gender e : p


Annexes 224MMSE 0.0037 * 0.0013,0.0060 0.0037 * 0.0013,0.0060IST15 -0.0025 -0.0052,0.0002 -0.0025 -0.0052,0.0002BVRT 0.0027 * 0,0.0055 0.0027 * 0,0.0054DSST -0.0039 * -0.0065,-0.0013 -0.0039 * -0.0064,-0.0013ap-value of the Wald test indicated by * if p

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!