Les Modèles à Effets Aléatoires - Christophe Genolini

Sommaire 

Préliminaires 

Essais multicentriques 

Aspects calculatoires 

Mesures répétées 

Les Modèles à Effets Aléatoires 

Une introduction 

Lionel RIOU FRANÇA 

INSERM U669 

Septembre 

Lionel RIOU FRANÇA Les Modèles à Effets Aléatoires

Sommaire 

1 Préliminaires 

Effets Fixes 

Effets Aléatoires 

2 Essais multicentriques 

Analyse Classique 

Effets aléatoires 

Efficacité homogène 

Efficacité hétérogène 

Sommaire 





3 Aspects calculatoires 

Estimation du modèle 

Inférence 

4 Mesures répétées 

Beat the Blues 

Modèle à effets aléatoires 

Modèle marginal 


Sommaire 





Le modèle de régression linéaire 



Il s’agit d’étudier la liaison statistique entre une variable 

quantitative continue Y et des variables explicatives X non 

aléatoires. Soit yi la réponse de l’individu i et xi les valeurs prises 

par les variables explicatives pour cet individu. 

La relation entre Y et X peut s’écrire sous la forme : 

yi = α + βxi + ɛi 

où ɛi est une variable aléatoire distribuée selon une loi normale 

d’espérance nulle : ɛi ↩→ N 0, σ 2 


Sommaire 





Les hypothèses du modèle 



Homogénéité de la variance : Les erreurs ont la même variance 

σ 2 , 

Linéarité : La moyenne de chaque distribution de Y, E(yi|xi), 

se situe sur une droite, 

Indépendance : Les erreurs sont indépendantes, 

Les erreurs ɛi sont distribuées selon une loi normale. 

On notera que les erreurs du modèle linéaire sont supposées être 

i.i.d. (indépendantes et identiquement distribuées), de loi normale. 


Sommaire 





Violation des hypothèses 



Cas où les erreurs ɛ ne sont pas i.i.d. : 

Processus d’échantillonage : 

essais multicentriques, 

cluster trials, 

données structurées (modèles multiniveaux) – ex : des classes 

dans des écoles dans des villes, 

. . . 

Méta-analyses : l’individu statistique est l’essai, pas les 

patients le composant. 

Données Longitudinales : plusieurs mesures, pour un même 

individu, à différents temps. 

On peut alors supposer que les erreurs issues de la même unité 

d’échantillonnage seront corrélées entre elles. 


Sommaire 





Le modèle à intercept aléatoire 



L’idée est de décomposer la variance. Pour chaque individu 

statistique i dans le groupe j : 

yij = α + βxi + ɛij + uj 

uj est l’effet aléatoire. On a ɛij ↩→ N 0, σ2 

ɛ et uj ↩→ N 0, σ2 

u . 

Var (yij) = Var (ui + ɛij) = σ2 u + σ2 ɛ . 

La corrélation entre deux individus i et k du même groupe j est 

alors de : 

Cor (uj + ɛij, uj + ɛkj) = 

σ2 u 

σ 2 ɛ + σ 2 u 

Il s’agit d’un coefficient de corrélation intra classe (ICC), qui 

mesure la part de variation résiduelle qui est due à la variation 

entre les groupes. 


Sommaire 





Exemple d’application (Agresti) 



Soit un essai clinique sur 8 centres comparant une crème 

antiseptique à un Placebo. Le critère de jugement est la guérison 

d’une infection. 

Réponse 

Centre Traitement Succès Echec 

1 Crème 11 25 

Placebo 10 27 

2 Crème 16 4 

Placebo 22 10 

3 Crème 14 5 

Placebo 7 12 

4 Crème 2 14 

Placebo 1 16 

5 Crème 6 11 

Placebo 0 12 

6 Crème 1 10 

Placebo 0 10 

7 Crème 1 4 

Placebo 1 8 

8 Crème 4 2 

Placebo 6 1 


Sommaire 







Exemple d’application : Les données 

> Succès Echecs Multi rm(Succès,Echecs) 

> Multi[1:4,] 

Centre Traitement Succès Echecs 

1 1 Crème 11 25 

2 1 Placebo 10 27 

3 2 Crème 16 4 

4 2 Placebo 22 10 


Sommaire 







Exemple d’application : Analyse classique 

Dans la plupart des essais cliniques publiés, on ignore totalement 

l’effet centre. Le modèle est logit (Pi) = α + βxi, où X est le 

traitement et P la probabilité de succès. 

> fitCl round(summary(fitCl)$coefficients,digits=4) 

Estimate Std. Error z value Pr(>|z|) 

(Intercept) -0.7142 0.1780 -4.0118 0.0001 

TraitementCrème 0.4040 0.2514 1.6071 0.1080 

> (icOR

Sommaire 





Hypothèses sous-jacentes 



En ignorant l’appartenance des patients aux centres (analyse 

poolée), nous faisons l’hypothèse de l’homogénéité entre les 

centres : 

de l’effet du traitement, 

de la probabilité de guérison. 


Sommaire 







Test de Cochran-Mantel-Haenszel : Indépendance 

conditionnelle I 

Ce test permet de juger de l’effet du traitement, 

conditionnellement aux centres. Il faut commencer par faire une 

table de 8 tableaux de contingence, un par centre : 

> Multi2 for (i in 1:8) { 

+ b

Sommaire 








conditionnelle II 

, , Centre = 1 

Réponse 

Traitement Succès Echec 

Placebo 11 25 

Crème 10 27 

, , Centre = 2 

Réponse 

Traitement Succès Echec 

Placebo 16 4 

Crème 22 10 

On peut ensuite procéder au test : 

> mantelhaen.test(Multi2,correct=FALSE) 


Sommaire 








conditionnelle III 

Mantel-Haenszel chi-squared test without continuity correction 

data: Multi2 

Mantel-Haenszel X-squared = 6.3841, df = 1, p-value = 0.01151 

alternative hypothesis: true common odds ratio is not equal to 1 

95 percent confidence interval: 

1.177590 3.869174 

sample estimates: 

common odds ratio 

2.134549 

Il s’agit d’un test d’indépendance conditionnelle. En l’occurence, de 

l’indépendance entre le traitement et la réponse, 

conditionnellement au centre. 


Sommaire 








conditionnelle IV 

On rejette ici l’hypothèse d’indépendance conditionnelle (la 

réponse dépend du traitement, connaissant le centre) et on estime 

à 2.13 l’OR commun à tous les centres (à comparer avec 

l’estimation initiale de 1.50, obtenue en ignorant les centres). 


Sommaire 







Approche par régression logistique I 

On peut également intégrer directement l’effet centre dans la 

régression : 

> fitCl2 round(summary(fitCl2)$coefficients,digits=4) 


(Intercept) -1.3220 0.3165 -4.1775 0.0000 

TraitementCrème 0.7769 0.3067 2.5333 0.0113 

Centre2 2.0554 0.4201 4.8929 0.0000 

Centre3 1.1529 0.4246 2.7155 0.0066 

Centre4 -1.4185 0.6636 -2.1376 0.0326 

Centre5 -0.5199 0.5338 -0.9740 0.3301 

Centre6 -2.1469 1.0614 -2.0228 0.0431 

Centre7 -0.7977 0.8149 -0.9789 0.3276 

Centre8 2.2079 0.7195 3.0687 0.0022 

L’effet du traitement devient significatif, l’OR commun est estimé 

à 2.17. 


Sommaire 







Approche par régression logistique II 

> drop1(fitCl2,test="Chisq") 

Single term deletions 

Model: 

cbind(Succès, Echecs) ~ Traitement + Centre 

Df Deviance AIC LRT Pr(Chi) 

9.746 66.136 

Traitement 1 16.415 70.805 6.669 0.009811 ** 

Centre 7 90.960 133.350 81.214 7.788e-15 *** 

--- 

Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 

L’effet centre est significatif également. 


Sommaire 







L’effet du traitement est-il homogène ? 

Il est possible de calculer l’OR du traitement pour chacun des 

centres : 

> OR for (i in 1:8) { 

+ b

Sommaire 





Les OR sont-ils homogènes ? I 



Le test de Cochran-Mantel-Haenszel part du principe que dans 

chaque centre, l’effet du traitement est de même sens. On peut 

alternativement tester l’effet du traitement, en admettant que 

celui-ci puisse varier d’une strate à l’autre. 

> fitCl0 fitCl3 anova(fitCl0,fitCl3,test="Chisq") 

Analysis of Deviance Table 

Model 1: cbind(Succès, Echecs) ~ Centre 

Model 2: cbind(Succès, Echecs) ~ Traitement + Centre + Traitement:Centre 

Resid. Df Resid. Dev Df Deviance P(>|Chi|) 

1 8 16.4151 

2 0 4.984e-10 8 16.4151 0.0368 


Sommaire 





Les OR sont-ils homogènes ? II 



Même en autorisant l’effet du traitement à varier d’un centre à 

l’autre, on est amenés à rejetter l’hypothèse d’indépendance entre 

le traitement et la guérison. 

On peut tester formellement l’hypothèse d’homogénéité des OR à 

partir du test de Woolf : 

> library(vcd) 

> woolf_test(Multi2) 

Woolf-test on Homogeneity of Odds Ratios (no 3-Way assoc.) 

data: Multi2 

X-squared = 5.818, df = 7, p-value = 0.5612 

L’hypothèse d’homogénéité des OR n’est pas rejettée. 


Limites de l’approche 

Sommaire 







Les analyses classiques permettent, en introduisant les centres 

comme variables explicatives et en autorisant des intéractions, de 

taiter le cas des essais multicentriques. Cependant : 

Lorsque le nombre de centres devient important, les introduire 

dans le modèle devient problématique, 

Puisqu’un centre sert de centre de référence, on ne connait 

pas les écarts de chaque centre à la moyenne, 

Le plus souvent, les centres participant à l’essai ne sont qu’un 

échantillon d’une population plus large de centres 

administrant le traitement, et on peut souhaiter des 

prédictions pour un centre n’ayant pas participé à l’essai, 

On aimerait pouvoir disposer d’une mesure d’hétérogénéité 

entre les centres. 


Approche alternative 

Sommaire 







Une approche possible est de penser que l’effet du traitement dans 

un centre particulier provient d’une distribution N µ, σ 2 , où µ est 

l’effet du traitement dans la population. Un tel modèle permet à la 

fois d’estimer l’effet du traitement dans la population, et la 

variabilité de cet effet d’un centre à l’autre. De plus, il permet 

d’inférer sur l’effet du traitement dans n’importe quel centre, pas 

seulement ceux échantillonnés. 

On se place alors dans le cadre d’un modèle à effets aléatoires. 


Sommaire 





Le modèle à intercept aléatoire 



Dans le cas de données binaires, le plus classique est le modèle 

logistique-normal : on ajoute un effet aléatoire distribué 

normalement. 

et 

logit (Pij) = α + βxij + uj(+ɛij) 

uj ↩→ N 0, σ 2 u 

Dans ce modèle, on a toujours un effet du traitement (β) 

homogène entre les centres, mais par contre la probabilité de 

succès peut varier d’un centre à l’autre. σ 2 u mesure l’hétérogénéité 

entre les centres par rapport à la probabilité de succès. 


Sommaire 







Exemple d’application : Intercept aléatoire I 

Il existe plusieurs fonctions dans R pour les modèles à effets 

aléatoires, nous utiliserons la plus classique. 

> library(lme4) 

> fitIA summary(fitIA) 

Generalized linear mixed model fit by the Laplace approximation 

Formula: cbind(Succès, Echecs) ~ Traitement + (1 | Centre) 

Data: Multi 

AIC BIC logLik deviance 

41.81 44.13 -17.91 35.81 

Random effects: 

Groups Name Variance Std.Dev. 

Centre (Intercept) 1.9313 1.3897 

Number of obs: 16, groups: Centre, 8 

Fixed effects: 


Sommaire 







Exemple d’application : Intercept aléatoire II 


(Intercept) -1.1965 0.5471 -2.187 0.0287 * 

TraitementCrème 0.7382 0.2963 2.491 0.0127 * 

--- 

Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 

Correlation of Fixed Effects: 

(Intr) 

TratmntCrèm -0.283 

Dans cette analyse, l’OR du traitement est de 2.09. La crème est 

significativement plus efficace que le placebo. 

Les résultats sont à comparer avec les estimations SAS : l’effet du 

traitement est estimé à ˆ β = 0, 739,sa variance à 0,300. 

Il est possible d’accéder à la fois aux effets fixes et aux effets 

aléatoires du modèle : 


Sommaire 







Exemple d’application : Intercept aléatoire III 

> fixef(fitIA) 

(Intercept) TraitementCrème 

-1.1964829 0.7381853 

> ranef(fitIA) 

$Centre 

(Intercept) 

1 -0.09974443 

2 1.84772369 

3 0.98968944 

4 -1.29268734 

5 -0.55773975 

6 -1.59634708 

7 -0.70286263 

8 1.73186555 


Sommaire 







Exemple d’application : Intercept aléatoire IV 

On voit que l’effet du traitement est homogène pour tous les 

centres, mais que l’intercept (permettant de calculer la probabilité 

d’efficacité) varie d’un centre à l’autre autour de sa moyenne, de 

-1.20. 


Sommaire 







Le modèle à intercept et coefficient aléatoire 

Si l’on veut modéliser l’hétérogénéité des OR, on peut rajouter un 

effet aléatoire au log-OR β : 

et 

logit (Pij) = α + uj + (β + bj) xij(+ɛij) 

uj ↩→ N 0, σ 2 u 

bj ↩→ N 0, σ 2 b 

Le log-OR dans chaque centre et donc distribué selon N β, σ2 

b . σb 

mesure l’hétérogénéité des effets du traitement entre les centres. 

Dans ce modèle, on estime donc quatre paramètres : α, β, σu et 

σb. 


Sommaire 







Exemple d’application : Intercept et coefficient aléatoire I 

> fitICA summary(fitICA) 

Generalized linear mixed model fit by the Laplace approximation 

Formula: cbind(Succès, Echecs) ~ Traitement + (Traitement | Centre) 

Data: Multi 

AIC BIC logLik deviance 

45.27 49.13 -17.64 35.27 


Groups Name Variance Std.Dev. Corr 

Centre (Intercept) 2.63348 1.62280 

TraitementCrème 0.22187 0.47103 -0.821 

Number of obs: 16, groups: Centre, 8 



(Intercept) -1.3238 0.6329 -2.091 0.0365 * 


Sommaire 







Exemple d’application : Intercept et coefficient aléatoire II 

TraitementCrème 0.8872 0.3549 2.500 0.0124 * 

--- 

Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 


(Intr) 

TratmntCrèm -0.616 

Dans cette analyse, l’OR du traitement est de 2.43. La crème est 

significativement plus efficace que le placebo. 

Les résultats sont à comparer avec les estimations SAS : l’effet du 

traitement est estimé à ˆβ = 0, 746,sa variance à 0,325. Dans SAS, 

on a ˆσb = 0, 15. Dans R, ce paramètre est de 0.47. 

Il est possible d’accéder à la fois aux effets fixes et aux effets 

aléatoires du modèle : 

> fixef(fitICA) 


Sommaire 







Exemple d’application : Intercept et coefficient aléatoire III 


-1.3238063 0.8872237 

> ranef(fitICA) 

$Centre 


1 0.07658463 -0.18062609 

2 2.07198963 -0.44586469 

3 1.04967323 -0.09818885 

4 -1.44424841 0.29276054 

5 -0.80278837 0.28367134 

6 -1.88365702 0.41815718 

7 -0.72790944 0.14970977 

8 2.10228450 -0.53952878 

Cette fois, à la fois l’intercept et le log-OR varient d’un centre à 

l’autre. 

On peut prédire les OR pour chacun des centres : 


Sommaire 







Exemple d’application : Intercept et coefficient aléatoire IV 

> OR colnames(OR) rownames(OR) round(OR,digits=2) 

Centre 1 Centre 2 Centre 3 Centre 4 Centre 5 Centre 6 Centre 7 Centre 8 

Brut 1.19 1.82 4.8 2.29 Inf Inf 2.00 0.33 

EA 2.03 1.55 2.2 3.25 3.22 3.69 2.82 1.42 

Plus σb est proche de 0, moins il y a d’hétérogénéité entre les 

centres. 

Si σb = 0, l’OR estimé pour tous les centres sera le même. 

Si σb = ∞, il y a hétérogénéité maximale entre les centres, l’OR 

estimé sera celui calculé sur les données brutes. 

Ici, σb est plutôt faible, et les OR estimés par le modèle sont 

proches de l’OR global. 


Sommaire 






Inférence 

Au commencement était l’ANOVA (Faraway) I 

Nous voulons savoir si la brillance du papier dépend de la machine 

l’ayant produit. 

> data(pulp,package="faraway") 

> summary(pulp) 

bright operator 

Min. :59.80 a:5 

1st Qu.:60.00 b:5 

Median :60.50 c:5 

Mean :60.40 d:5 

3rd Qu.:60.73 

Max. :61.00 


Sommaire 






Inférence 

Au commencement était l’ANOVA (Faraway) II 

Nous avons donc une mesure quantitative et une variable 

qualitative à 5 facteurs, d’effectifs équilibrés. Le modèle s’écrit 

donc : 

yij = µ + αj + ɛij 

j désigne les opérateurs (j = 1, · · · , 4) et i les individus. 

les α et les ɛ ont tous deux pour moyenne 0, pour écart-type σα et 

σɛ. 

Pour obtenir ce modèle dans R, il faut contraindre le codage des 

opérateurs, de manière à ce que la somme des contrastes soit 

nulle : 

> op lmod summary(lmod) 


Sommaire 






Inférence 

Au commencement était l’ANOVA (Faraway) III 

Df Sum Sq Mean Sq F value Pr(>F) 

operator 3 1.34000 0.44667 4.2039 0.02261 * 

Residuals 16 1.70000 0.10625 

--- 

Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 

> coef(lmod) 

(Intercept) operator1 operator2 operator3 

60.40 -0.16 -0.34 0.22 

> options(op) 


Sommaire 






Inférence 

Au commencement était l’ANOVA (Faraway) IV 

On a µ = 60.40, α1 = −0.16. L’effet du quatrième opérateur se 

calcule en sachant que αj = 0. 

La variance résiduelle est de σ 2 ɛ = 0.106. L’effet de l’opérateur est 

significatif (p=0.023). 

À partir de ces résultats d’ANOVA, il est possible d’estimer 

manuellement la valeur de σα. On a en effet la propriété : 

σ 2 α = 

MSA − MSE 

n 

= 0.447 − 0.106 

5 

= 0.0682 


Sommaire 





Modèle à effets aléatoires I 


Inférence 

Nous pouvons estimer directement le modèle à effets aléatoires : 

> mmod summary(mmod) 

Linear mixed model fit by REML 

Formula: bright ~ 1 + (1 | operator) 

Data: pulp 

AIC BIC logLik deviance REMLdev 

24.63 27.61 -9.313 16.64 18.63 



operator (Intercept) 0.06808 0.26092 

Residual 0.10625 0.32596 

Number of obs: 20, groups: operator, 4 


Estimate Std. Error t value 

(Intercept) 60.4000 0.1494 404.2 


Sommaire 





Modèle à effets aléatoires II 


Inférence 

On retombe sur des résultats très proches du modèle ANOVA (car 

effectifs équilibrés). 


Sommaire 





Modèle à effets aléatoires III 


Inférence 

Par défaut, la méthode d’estimation est la REML (Restricted 

Maximum Likelihood), parce que la méthode du maximum de 

vraisemblance produit des estimations biaisées des écarts-type. Il 

est possible d’utiliser tout de même cette méthode : 

> smod summary(smod) 

Linear mixed model fit by maximum likelihood 

Formula: bright ~ 1 + (1 | operator) 

Data: pulp 


22.51 25.5 -8.256 16.51 18.74 



operator (Intercept) 0.04575 0.21389 

Residual 0.10625 0.32596 

Number of obs: 20, groups: operator, 4 


Sommaire 





Modèle à effets aléatoires IV 



(Intercept) 60.4000 0.1294 466.7 


Inférence 

On voit que l’estimation de σ 2 α est plus basse. Le biais dépend de 

la taille n des opérateurs. 


Test des effets fixes I 

Sommaire 






Inférence 

Il n’est pas possible de faire un test du maximum de vraisemblance 

pour comparer deux modèles imbriqués en estimant les effets 

aléatoires par REML : cette méthode estime les effets aléatoires 

indépendamment des effets fixes, et une modification des effets 

fixes fait que les vraisemblances des deux modèles ne seront pas 

directement comparables. 

Il faut donc utiliser la méthode du maximum de vraisemblance 

pour faire ensuite des tests du rapport de vraisemblance. Ces tests 

auront tendance à produire des p-values trop faibles, et à 

surestimer l’effet des variables explicatives. Il est possible de 

contourner le problème en utilisant le bootstrap. 


Test des effets fixes II 

Sommaire 






Inférence 

Les tests F et t se font eux conditionnellement aux effets 

aléatoires, et supposent ceux-ci connus, et non estimés également 

à partir des données. 


Sommaire 





Test des effets aléatoires 


Inférence 

Il s’agit de tester H0 : σ 2 = 0. 

Le test du rapport de vraisemblance, basé sur une distribution du 

χ 2 asymptotique, n’est valable que lorsque la valeur du paramètre 

testé se trouve à l’intérieur de l’espace des paramètres. En testant 

la valeur 0 pour une variance, ces conditions sont violées. Le test 

sera trop conservateur et produira en général des p-values plus 

importantes qu’elles ne le devraient. Une fois encore, on peut avoir 

recours au bootstrap. 


Application I 

Sommaire 






Inférence 

Nous avons vu dans l’ANOVA que l’effet opérateur était significatif. 

Comment conclure à partir d’un modèle à effets aléatoires ? 

Pour employer des tests du maximum de vraisemblance, il ne faut 

pas employer l’estimation par REML. Il faut donc commencer par 

estimer le modèle nul : 

> nullmod ( s pchisq(s,1,lower=FALSE) 

[1] 0.1090199 


Application II 

Sommaire 






Inférence 

La p-value est cette fois bien au dessus du seuil de 5 %. Nous 

pouvons opter pour une approche de bootstrap paramétrique. Nous 

cherchons à estimer la probabilité, si le modèle nul est correct, 

d’observer un rapport de vraisemblance d’au moins 2.57. 

Nous estimons donc des valeurs tirées du modèle nul : 

> y B lrstat for (i in 1:B) { 

+ y

Application III 

Sommaire 






Inférence 

On peut s’intéresser à la distribution des statistiques de test : 

> hist(lrstat,probability=TRUE,main="") 

> lines(seq(0,6,by=0.01),dchisq(seq(0,6,by=0.01),1)) 

> abline(v=s,col="red") 

> text(s,0.8,paste("LRT =",round(s,digits=4)),col="red",pos=4) 


Application IV 

Density 

0.0 0.5 1.0 1.5 

Sommaire 





LRT = 2.5684 

lrstat 


Inférence 

0 2 4 6 8 

Une large proportion de statistiques de test sont proches de 0 : 

> mean(lrstat

Application V 

Sommaire 






Inférence 

Nous n’avons clairement pas affaire à une distribution du χ 2 . 

La simulation nous permet d’obtenir une p-value estimée : 

> mean(lrstat>=s) 

[1] 0.018 

Avec suffisament de simulations, la p-value estimée tendrait vers 

celle issue de l’ANOVA. 


Sommaire 








Beat the Blues (Everitt et Hothorn) I 

L’essai BtB a pour but d’évaluer un traitement sur ordinateur basé 

sur les thérapies comportementalistes au traitement courant de la 

dépression. 

Le critère de jugement est le score BDI (Beck depresion inventory), 

mesuré avant la randomisation, puis 2, 3, 5 et 8 mois après 

l’initiation du traitement. Deux variables d’ajustement sont 

mesurées : la prise ou non d’antidépresseurs, et la durée de la 

dépression. 

On peut se faire une idée des données à partir des 5 premiers 

patients : 

> data(BtheB,package="HSAUR") 

> BtheB[1:5,] 


Sommaire 








Beat the Blues (Everitt et Hothorn) II 

drug length treatment bdi.pre bdi.2m bdi.4m bdi.6m bdi.8m 

1 No >6m TAU 29 2 2 NA NA 

2 Yes >6m BtheB 32 16 24 17 20 

3 Yes 6m BtheB 21 17 16 10 9 

5 Yes >6m BtheB 26 23 NA NA NA 


Sommaire 








Caractéristiques des données longitudinales 

Dans les essais longitudinaux, les variables à expliquer ou 

explicatives peuvent être mesurées à différents temps pour chaque 

individu. 

L’objectif des analyses peut être de décrire l’évolution d’une 

variable, et d’identifier les variables les plus associées à cette 

évolution. 

Puisque plusieurs mesures sont faites sur le même individu, il faut 

s’attendre à observer une corrélation entre ces mesures. 


Le modèle 

Sommaire 








Dans le cas de données longitudinales, il faut prendre le temps en 

compte. En notant i le patient et j l’observation : 

yij = α + βtj + ui + ɛij 

Les résidus sont ainsi décomposés en une partie, ui, qui est 

spécifique à l’individu et constante du temps, et une partie, ɛij, 

variant au cours du temps. 

ui ↩→ N 0, σ 2 u 

ɛij ↩→ N 0, σ 2 ɛ 


Sommaire 





Estimation du modèle I 




Pour pouvoir faire les analyses, il faut changer de tableau de 

données : 

> BtheB$subject BtheBl BtheBl$time BtheBl[BtheBl$subject %in% c("1","2"),] 

drug length treatment bdi.pre subject time bdi 

1.2m No >6m TAU 29 1 2 2 

2.2m Yes >6m BtheB 32 2 2 16 

1.4m No >6m TAU 29 1 4 2 

2.4m Yes >6m BtheB 32 2 4 24 

1.6m No >6m TAU 29 1 6 NA 

2.6m Yes >6m BtheB 32 2 6 17 

1.8m No >6m TAU 29 1 8 NA 

2.8m Yes >6m BtheB 32 2 8 20 


Sommaire 





Estimation du modèle II 




Une fois les données au bon format, on peut estimer le modèle : 

> fit1 summary(fit1) 


Formula: bdi ~ bdi.pre + time + treatment + drug + length + (1 | subject) 

Data: BtheBl 


1887 1916 -935.3 1871 1866 



subject (Intercept) 48.300 6.9498 

Residual 25.129 5.0128 

Number of obs: 280, groups: subject, 97 




Sommaire 





Estimation du modèle III 

(Intercept) 5.94371 2.24915 2.643 

bdi.pre 0.63819 0.07759 8.225 

time -0.71703 0.14606 -4.909 

treatmentBtheB -2.37311 1.66369 -1.426 

drugYes -2.79786 1.71993 -1.627 

length>6m 0.25639 1.63213 0.157 





(Intr) bdi.pr time trtmBB drugYs 

bdi.pre -0.678 

time -0.264 0.023 

tretmntBthB -0.389 0.121 0.022 

drugYes -0.071 -0.237 -0.025 -0.323 

length>6m -0.238 -0.242 -0.043 0.002 0.158 


Sommaire 





Estimation du modèle IV 




En raison des difficultés d’interprétation des tests t, la fonction ne 

présente pas les p-values associées. On peut néanmoins conclure 

que l’effet du BDI pré-traitement et du temps est significatif, et 

que l’effet des trois autres variables ne l’est pas. 


Sommaire 





Validation du modèle I 




Il faut vérifier la normalité des résidus et des effets aléatoires : 

> ui eij par(mfrow=c(1,2)) 

> qqnorm(ui,ylab="Intercepts aléatoires",xlab="Quantiles théoriques", 

+ xlim=c(-3,3),ylim=c(-20,20)) 

> qqline(ui) 

> qqnorm(eij,ylab="Résidus",xlab="Quantiles théoriques", 

+ xlim=c(-3,3),ylim=c(-20,20)) 

> qqline(eij) 


Sommaire 





Validation du modèle II 

Intercepts aléatoires 

−20 −10 0 10 20 

● 

● ● 

● 

Normal Q−Q Plot 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

●● 

● 

● 

● 

● 

● 

● 

● 

● 

●●● 

● ● 

● 

● 

● 

● 

● 

● 

● ● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

●● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

−3 −2 −1 0 1 2 3 

Quantiles théoriques 

● 

● 

● 

● 

Résidus 




−20 −10 0 10 20 

● 

Normal Q−Q Plot 

● 

● 

●● 

● 

● ● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

●● ● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● ● 

● 

● ●●● 

● ● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● ●● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● ●● 

● 

● 

● ● 

● ●● 

●● 

●● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● ● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

●● 

● 

● 

●● 

● ● 

● 

● 

● 

● 

● 

● 

● 

● 

● ●●● 

● 

● 

● 

● 

● 

●● 

● 

● 

● 

● 

● 

●●● 

● 

● 

● 

● 

● ● 

● 

● 

● 

● 

● 

● 

● 

●● 

● 

● 

● 

● 

● 

● 

●● 

● 

● 

●● 

● ●● 

●● 

● 

● 

●● 

● 

● 

● 

●● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

●● 

● 

● 

● 

● 

● 

● 

● 

● 

−3 −2 −1 0 1 2 3 

Quantiles théoriques 

L’examen des résidus et des intercepts aléatoires ne montre pas 

une violation forte de la normalité. 


Sommaire 





Modélisation alternative 




Les Generalized Estimating Equations (GEE) dérivent des modèles 

linéaires généralisés (GLM). Ils permettent de traiter le cas de 

données corrélées en modélisant séparément la matrice de 

corrélations. Il existe plusieurs formes pour ces matrices de 

corrélations : 

Matrice identité. On considère alors les mesures répétées pour un même individu 

comme indépendantes. 

Exchangeable correlation. La corrélation entre deux mesures répétées est 

constante, quelles que soient les mesures (corrélations interchangeables). 

Autoregressive correlation. corr (yi , yk) = ϑ |k−j| . Si ϑ < 1, on modélise une 

situation où plus deux mesures sont éloignées dans le temps, plus leur 

corrélation est faible. 

Unstructured correlation. Chaque paire de mesures a sa propre corrélation. Ceci 

implique l’estimation d’un grand nombre de paramètres. 


Sommaire 





Estimation du modèle I 




Il faut avant tout trier les données par sujet : 

> BtheBl library(gee) 

> fitG1 6m drugYes 

3.5686314 0.5818494 -3.2372285 1.4577182 -3.7412982 

> summary(fitG1) 


Sommaire 





Estimation du modèle II 




GEE: GENERALIZED LINEAR MODELS FOR DEPENDENT DATA 

gee S-function, version 4.13 modified 98/01/27 (1998) 

Model: 

Link: Identity 

Variance to Mean Relation: Gaussian 

Correlation Structure: Independent 

Call: 

gee(formula = bdi ~ bdi.pre + treatment + length + drug, id = subject, 

data = BtheBl, family = gaussian, corstr = "independence") 

Summary of Residuals: 

Min 1Q Median 3Q Max 

-21.6497810 -5.8485100 0.1131663 5.5838383 28.1871039 

Coefficients: 


Sommaire 





Estimation du modèle III 




Estimate Naive S.E. Naive z Robust S.E. Robust z 

(Intercept) 3.5686314 1.4833349 2.405816 2.26947617 1.5724472 

bdi.pre 0.5818494 0.0563904 10.318235 0.09156455 6.3545274 

treatmentBtheB -3.2372285 1.1295569 -2.865928 1.77459534 -1.8242066 

length>6m 1.4577182 1.1380277 1.280916 1.48255866 0.9832449 

drugYes -3.7412982 1.1766321 -3.179667 1.78271179 -2.0986557 

Estimated Scale Parameter: 79.25813 

Number of Iterations: 1 

Working Correlation 

[,1] [,2] [,3] [,4] 

[1,] 1 0 0 0 

[2,] 0 1 0 0 

[3,] 0 0 1 0 

[4,] 0 0 0 1 


Sommaire 





Estimation du modèle IV 




L’écart-type robuste est calculé selon une méthode (Huber/White) 

qui permet de prendre en compte les écarts à l’indépendance des 

résidus dans un modèle de régression. La différence importante 

entre les écarts-types naifs et robustes dans ce modèle indique que 

l’hypothèse d’indépendance n’est pas raisonnable. On peut donc 

estimer le modèle GEE le plus simple : 

> fitG2 6m drugYes 

3.5686314 0.5818494 -3.2372285 1.4577182 -3.7412982 

> summary(fitG2) 


Sommaire 





Estimation du modèle V 




GEE: GENERALIZED LINEAR MODELS FOR DEPENDENT DATA 

gee S-function, version 4.13 modified 98/01/27 (1998) 

Model: 

Link: Identity 

Variance to Mean Relation: Gaussian 

Correlation Structure: Exchangeable 

Call: 

gee(formula = bdi ~ bdi.pre + treatment + length + drug, id = subject, 

data = BtheBl, family = gaussian, corstr = "exchangeable") 

Summary of Residuals: 

Min 1Q Median 3Q Max 

-23.955980 -6.643864 -1.109741 4.257688 25.452310 

Coefficients: 


Sommaire 





Estimation du modèle VI 




Estimate Naive S.E. Naive z Robust S.E. Robust z 

(Intercept) 3.0231602 2.30390185 1.31219140 2.23204410 1.3544357 

bdi.pre 0.6479276 0.08228567 7.87412417 0.08351405 7.7583066 

treatmentBtheB -2.1692863 1.76642861 -1.22806339 1.73614385 -1.2494854 

length>6m -0.1112910 1.73091679 -0.06429596 1.55092705 -0.0717577 

drugYes -2.9995608 1.82569913 -1.64296559 1.73155411 -1.7322940 

Estimated Scale Parameter: 81.7349 

Number of Iterations: 5 

Working Correlation 

[,1] [,2] [,3] [,4] 

[1,] 1.0000000 0.6757951 0.6757951 0.6757951 

[2,] 0.6757951 1.0000000 0.6757951 0.6757951 

[3,] 0.6757951 0.6757951 1.0000000 0.6757951 

[4,] 0.6757951 0.6757951 0.6757951 1.0000000 


Sommaire 





Estimation du modèle VII 




Cette fois, les écarts-type naïfs (issus du modèle) et robustes sont 

proches, signe que le modèle est pertinent. Les coefficients estimés 

sont proches de ceux issus du modèle à effets aléatoires : 

> summary(fit1) 


Formula: bdi ~ bdi.pre + time + treatment + drug + length + (1 | subject) 

Data: BtheBl 


1887 1916 -935.3 1871 1866 



subject (Intercept) 48.300 6.9498 

Residual 25.129 5.0128 

Number of obs: 280, groups: subject, 97 




Sommaire 





Estimation du modèle VIII 

(Intercept) 5.94371 2.24915 2.643 

bdi.pre 0.63819 0.07759 8.225 

time -0.71703 0.14606 -4.909 

treatmentBtheB -2.37311 1.66369 -1.426 

drugYes -2.79786 1.71993 -1.627 

length>6m 0.25639 1.63213 0.157 





(Intr) bdi.pr time trtmBB drugYs 

bdi.pre -0.678 

time -0.264 0.023 

tretmntBthB -0.389 0.121 0.022 

drugYes -0.071 -0.237 -0.025 -0.323 

length>6m -0.238 -0.242 -0.043 0.002 0.158 


Sommaire 





Estimation du modèle IX 




Ceci parce que, implicitement, le modèle à effets aléatoires estime 

un écart-type unique pour l’intercept aléatoire, et est donc proche 

du modèle GEE estimé, qui fait la même hypothèse. 

La corrélation entre les observations dans le modèle GEE est 

estimée à 0.676. Cette estimation est très proche du coefficient de 

corrélation intra classe issu du modèle à effets aléatoires : 

ICC = 

σ2 u 

σ 2 u + σ 2 ɛ 

= 

6.9502 6.9502 = 0.658 

+ 5.0132 Lionel RIOU FRANÇA Les Modèles à Effets Aléatoires

Les Modèles à Effets Aléatoires - Christophe Genolini

Create successful ePaper yourself

Delete template?

Save as template?