CORRECTION DES EXERCICES SUR LE MODÃLE ... - Biostat.envt.fr

CORRECTION DES EXERCICES SUR LE MODÈLE À EFFETS 

MIXTES 

Voici une correction des exercices que vous aviez à rendre. Pour chaque question, les 

commandes et les sorties de R apparaîtront en police courrier. Les commentaires 

apparaissent après le symbole #. 

Exercice 1 

La feuille de calcul Excel nommée exo1 contient deux colonnes respectivement nommée 

CV et cortisol. La colonne CV contient un identicateur de cheval (son nom) alors que la 

colonne cortisol contient des concentrations en cortisol mesurées sur chaque cheval. Vous 

pouvez constater que trois concentrations ont été mesurées sur chaque cheval. On admettra 

que les écarts entre ces trois concentrations ne sont explicables que par des erreurs de 

dosage. 

Commençons par importer les données à partir d'un chier ASCII nommé exo1.txt. 

> exo1 library(nlme) # charge le package nlme en mémoire 

> attach(exo1) # chargement de exo1 en mémoire 

> names(exo1) # nom des variables de exo1 

[1] "CV" "Cortisol" 

> CV plot(Cortisol∼CV) # donne le graphique des concentrations par cheval 

Notons Y ij la jème concentration observée sur le ième cheval. Dans cet exercice, il y a 50 

chevaux (i = 1 . . . 50) et 10 observations par cheval (j = 1 . . . 10). La variable réponse 

est la concentration en cortisol et la seule source de variation est le facteur cheval qui 

est un facteur à eets aléatoires (on dispose d'un échantillon de chevaux). Le modèle à 

considérer est donc : 

(1) Y ij = µ + CV i + ε ij , i = 1 . . . 50, j = 1 . . . 10. 

Date: 6/10/2007. 

1

2 CORRECTION DES EXERCICES SUR LE MODÈLE À EFFETS MIXTES 

Cortisol 

80 90 100 110 120 

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 

Figure 1. On observe une dispersion intra-individuelle faible (les box-plot 

par cheval ne sont pas large) et une forte variation inter-individuelle. Globalement, 

les concentrations semblent groupées autour de 100. Cependant, 

certains chevaux ont des concentrations qui s'éloignent de cette valeur. 

Pour terminer la description du modèle, nous devons faire des hypothèses sur les variables 

aléatoires impliquées dans le modèle. Nous vérierons plus tard si ces hypothèses 

sont réalistes ou si nous devons envisager d'autres analyses. Nous supposerons que 

CV i ∼ iid N (0, σCV 2 ), ε ij ∼ iid N (0, σ 2 ) et que les CV i sont indépendantes des ε ij . Nous 

pouvons maintenant estimer les paramètres de ce modèle. 

> ana1 ana1 

Linear mixed-effects model fit by REML 

Data: exo1 

Log-restricted-likelihood: -875.95 

Fixed: Cortisol 1 

(Intercept) 

99.91606 

Random effects: 

Formula: ∼ 1 | CV 

(Intercept) Residual 

StdDev: 10.50393 0.9848313 

CV

CORRECTION DES EXERCICES SUR LE MODÈLE À EFFETS MIXTES 3 

Number of Observations: 500 

Number of Groups: 50 

Avant d'aller plus loin, vérions que nos hypothèses sont raisonnables. 

> plot(ana1)# graphique des résidus en fonction des valeurs prédites du modèle 

> qqnorm(ana1,∼ resid(.))# droite de Henry des résidus 

> qqnorm(ana1,∼ ranef(.))# droite de Henry des effets aléatoires (ici CV i ) 

(Intercept) 

2 

2 

2 

Standardized residuals 

1 

0 

−1 

Quantiles of standard normal 

0 


1 

0 

−1 

−2 

−2 

−2 

−3 

80 90 100 110 120 

Fitted values 

−3 −2 −1 0 1 2 

Residuals 

−20 −10 0 10 20 

Random effects 

Figure 2. Ces graphiques représentent respectivement les résidus et les 

droites de Henry des résidus et des eets aléatoires. Les résidus semblent 

bien centrés sur zéro et ils se situent dans une bande. On ne voit pas 

de modication d'amplitude des résidus en fonction des valeurs prédites 

par le modèle. Il semble donc que le modèle qui décrit la moyenne est 

raisonnable et que la variance des résidus de change pas avec les facteurs. 

Mis à part les eets de bords inévitables, les droites de Henry montrent 

des points globalement alignés. Les hypothèses de normalité semblent donc 

raisonnables. Globalement, les hypothèses que nous avons faites semblent 

réalistes. 

Nous pouvons maintenant répondre aux questions. 

(1) Donner une estimation de l'écart-type de l'erreur de dosage. 

Cet écart-type est celui des résidus du modèle. Il mesure la dispersion intraindividuelle 

; on lit directement sur la sortie de l'analyse : √ ̂σ2 = ̂σ = 0.9848313. 

(2) Donner un intervalle de prédiction à 95% des concentrations observables sur le 

cheval 1. 

Il s'agit d'un intervalle de prédiction conditionnel. Comme nous l'avons vu en 

cours, on cherche un intervalle [A, B] tel que P (A ≤ Y ≤ B|CV 1 ) = 0.95. Or, 

conditionnellement à CV 1 nous voyons que la concentration en cortisol Y suit une 

loi N (µ + CV 1 , σ 2 ) . On cherche donc un intervalle qui contient 95% des réalisations 

d'une loi normale. Nous savons que cet intervalle est approximativement de 

la forme [µ + CV 1 − 2σ; µ + CV 1 + 2σ]. Or aucun des éléments intervenant dans cet


intervalle n'est connu. En les remplaçant par leur estimation et en négligeant les incertitudes 

sur ces estimations nous obtenons l'intervalle [ˆµ+ĈV 1−2ˆσ; ˆµ+ĈV 1+2ˆσ]. 

D'après l'analyse, ˆµ = 99.91606, ̂σ = 0.9848313 et il manque ĈV 1. ĈV 1 est la prédiction 

de l'eet aléatoire CV 1 que nous pouvons obtenir avec la commande 

> random.effects(ana1)# on peut aussi utiliser la commande ranef(ana1) 

(Intercept) 

1 -9.2928910 

2 -19.8725907 

3 0.4715255 

4 0.3566265 . . . 

D'où ĈV 1 = −9.2928910 à partir duquel nous pouvons déduire l'intervalle : 

[99.91606−9.2928910−2×0.9848313; 99.91606−9.2928910+2×0.9848313] = [88.65; 92.59]. 

(3) Donner un intervalle de prédiction à 95% des concentrations observables dans la 

population des chevaux. 

Il s'agit d'un intervalle de prédiction marginal. Comme nous l'avons vu en cours, 

on cherche un intervalle [A, B] tel que P (A ≤ Y ≤ B) = 0.95. Or, d'après le modèle 

1 nous voyons que la concentration en cortisol Y suit une loi N (µ, σ 2 CV + σ2 ) . 

On cherche donc un intervalle qui contient 95% des réalisations d'une loi normale. 

Nous savons que cet intervalle est approximativement de la forme [µ − 

2 √ σ 2 CV + σ2 ; µ + 2 √ σ 2 CV + σ2 ]. L'analyse nous donne une estimation de σ 2 CV = 

10.50393 2 . En reprenant un raisonnement similaire à la question précédente nous 

déduisons l'intervalle : 

[99.91606−2 √ 10.50393 2 + 0.9848313 2 ; 99.91606+2 √ 10.50393 2 + 0.9848313 2 ] = [78.82; 121.02]. 

Exercice 2 

Une étude à été réalisée an de comparer et de sélectionner le régime alimentaire 

qui donne la croissance la plus importante chez le porc. La feuille exo2 contient cinq 

colonnes qui correspondent respectivement à l'identication de l'individu (Ind), au sexe 

de l'individu (Sexe), aux croissances par jour obtenues avec les régimes R1, R2 et R3. Il 

est probable que vous aurez à structurer le chier de données autrement pour faire les 

analyses. 

Le chier exo2.txt n'est pas structuré avec une variable par colonne : la croissance 

obtenue sur chaque porc avec les régimes R1, R2, R3 est représentée sur 3 colonnes. 

Nous devons donc créer deux colonnes : une colonne GMQ qui contiendra les croissances


obtenue avec les 3 régimes et une colonne Régime qui donnera le numéro du régime correspondant. 

Enn, les autres variables du chier doivent être complétées en conséquence. Il 

existe plusieurs possibilités pour structurer le chier de données de cette façon. On peut 

par exemple utiliser les commandes "copier"-"coller" d'Excel ou encore créer directement 

les variables dans R. C'est cette dernière méthode que nous utiliserons. Commençons par 

importer les données à partir d'un chier ASCII nommé exo2.txt. 

> exo2 attach(exo2) # chargement de exo2 en mémoire 


[1] "Ind" "Sexe" "R1" "R2" "R3" 

GMQ


GMQ reg sexe ind 

1 108.36 1 1 1 

2 109.94 1 1 2 

3 112.06 1 1 3 

4 94.79 1 1 4 . . . 

Le graphique 3 permet de bien voir les données et de répondre partiellement aux questions 

posées (il faut la couleur pour voir quelque chose). 

>plot(ex2) 

1 2 3 

sexe/ind 

2/60 

2/33 

2/47 

2/34 

2/32 

2/36 

2/54 

2/55 

2/50 

2/37 

2/52 

2/58 

2/56 

2/39 

2/51 

2/57 

2/49 

2/43 

2/42 

2/41 

2/45 

2/40 

2/46 

2/44 

2/59 

2/53 

2/35 

2/38 

2/48 

2/31 

1/24 

1/10 

1/23 

1/28 

1/29 

1/3 

1/1 

1/17 

1/12 

1/16 

1/2 

1/7 

1/11 

1/19 

1/15 

1/13 

1/26 

1/14 

1/9 

1/4 

1/22 

1/8 

1/20 

1/6 

1/5 

1/21 

1/27 

1/25 

1/30 

1/18 

60 80 100 120 

GMQ 

Figure 3. Le GMQ est représenté sur l'axe des abscisses et les individus 

classés par sexe sur l'axe des ordonnées. Pour chaque individu, on observe 

trois GMQ représentés avec des couleurs diérentes selon le régime utilisé. 

Pour les deux sexes, et même presque pour chaque individu, le GMQ obtenu 

avec le régime 1 semble inférieur à celui obtenu avec le régime 2 qui est lui 

même inférieur à celui obtenu avec le régime 3. Les écarts entre les GMQ 

des 3 régimes semblent plus faibles chez les mâles (sexe=1) que chez les 

femelles (sexe=2). Enn, pour le même régime, les mâles semblent avoir 

des GMQ supérieurs à ceux des femelles. 

Nous avons besoin d'un modèle pour pouvoir répondre aux questions posées. Commençons 

par noter Y ijk le GMQ (ie la croissance) obtenue avec le régime k du jème individu de sexe 

i. L'analyse de la structure que nous avons faite pour construire le jeu de données nous 

conduit au modèle : 

(2) Y ijk = µ + S i + R k + (S ∗ R) ik + Ind j /S i + ε ij , i = 1 . . . 2, j = 1 . . . 30, k = 1 . . . 3.


Faisons maintenant les hypothèses sur les variables aléatoires impliquées dans le modèle. 

Nous supposerons que pour chaque sexe, les individus sont indépendants ; c'est à dire 

pour i = 1 et i = 2, Ind j /S i ∼ iid N (0, σ 2 Ind ), ε ijk ∼ iid N (0, σ 2 ) et que les Ind j /S i sont 

indépendantes des ε ijk . Nous pouvons maintenant estimer les paramètres de ce modèle 

que nous devons déclarer dans R. Mises à part les ε ijk , les seules variables aléatoires à 

droite du signe = sont les individus Ind j /S i . La partie random du modèle sera donc 

random=∼ 1 | ind. Il ne faut pas mettre ici le sexe qui est un facteur à eets xes ! La 

partie xe du modèle µ + S i + R k + (S ∗ R) ik peut être codée 1+sexe+reg+sexe:reg ou 

plus simplement sexe*reg. Il ne faut pas mettre le facteur individu dans cette partie. 

Y ijk 

= µ + S i + R k + (S ∗ R) ik 

} {{ } 

partie fixe du modèle 

+ Ind j /S 

} {{ } i + ε ijk 

partie aléatoire du modèle 

GMQ ∼ { 1+sexe+reg+sexe:reg }} { 

, random { }} =∼ 1|ind { 

. 

, 

}{{} 

résidu 

On en déduit la commande : 

>contrasts(sexe) contrasts(reg)



> anova(ana2) numDF denDF F-value p-value 

(Intercept) 1 116 4827.304 qqnorm(ana2,∼ ranef(.))# droite de Henry des effets aléatoires (ici Ind j /S i ) 

3 

(Intercept) 

2 

2 

2 


1 

0 

−1 


1 

0 

−1 


1 

0 

−1 

−2 

−2 

−2 

−3 

60 80 100 120 

Fitted values 

−10 −5 0 5 10 

Residuals 

−20 −10 0 10 20 



droites de Henry des résidus et des eets aléatoires. Globalement, les hypothèses 

que nous avons faites semblent réalistes. 

Remarque sur les contrastes : Comme nous l'avons vu en cours, l'écriture du modèle 

(2) n'est pas unique. Les eets diérentiels des facteurs et leurs interactions (ie les S i , 

R k , (S ∗ R) ik ) peuvent se décomposer en prenant comme référence le premier niveau de 

chaque facteur (c'est l'option par défaut de R) ou en leur imposant d'avoir une somme 

nulle. C'est cette dernière option que j'ai choisie. Dans cette situation, µ est bien l'eet 

moyen général. Avec l'option par défaut, µ est la moyenne de population des individus 

de sexe 1 pour le régime 1. Mis à part pour le test sur µ, les valeurs de P de la table 

d'analyse de variance ne sont pas aectées par un choix particulier de contrastes. 

(1) Le sexe a t-il une inuence (signicative) sur la croissance ? 

Comme vous le savez, nous devons tout d'abord interpréter les interactions de 

plus grand ordre avant d'interpréter les eets simples. Le test sur l'interaction 

sexe:regime donne une valeur de P < 0.0001. Ce qui implique que les réponses


moyennes varient à la fois en fonction du sexe et du régime. Nous en déduisons 

que les croissances des mâles et des femelles ne sont pas identiques. 

(2) Les trois régimes donnent ils des croissances identiques ? 

En reprenant le même raisonnement que précédemment, nous pouvons armer 

que les croissances obtenues avec les trois régimes sont diérentes. 

(3) Est il nécessaire de choisir le régime en fonction du sexe ? 

Cette question impose une analyse plus approfondie de l'interaction sexe:reg. 

L'interaction signicative signale que les écarts entres les régimes diérent chez 

les mâles et les femelles. Cependant, deux situations peuvent être rencontrées : 

soit l'ordre des régimes est le même pour les deux sexes, ce qui signie que le 

meilleur régime pour les mâles est aussi le meilleur régime pour les femelles, soit 

l'ordre est diérent et dans ce cas, il est nécessaire de choisir le régime en fonction 

du sexe. Le graphique 3 suggère la réponse à cette question : le régime 3 donne 

de meilleurs résultats (GMQ plus grands) chez les mâles et les femelles même si 

l'augmentation de GMQ obtenu avec le régime 3 est plus faible chez les mâles que 

chez les femelles. 

Une solution brutale pour comparer les ordres est de faire une analyse par sexe 

et d'eectuer une comparaison multiple des régimes avec par exemple, un test de 

Tukey. Une solution plus élégante (qui requiert une bonne connaissance de R) est 

d'aller chercher les paramètres du modèle global et d'eectuer des tests sur ces 

paramètres. Par souci de simplicité, nous adopterons la première solution : 

>ana21 ana21 


Data: ex2 

Subset: sexe == 1 


Fixed: GMQ ∼ 1+ reg 

(Intercept) reg[S.1] reg[S.2] 

107.2506667 -4.1980000 0.3323333 # on voit ici que moy reg 3 > moy reg 

2 > moy reg 1. On verra avec le test de Tuckey si ces différence sont 

significatives 

Random effects:


Formula: ∼ 1 | ind 


StdDev: 10.31774 4.502676 

Number of Observations: 90 Number of Groups: 30 

> TukeyHSD(aov(ana21),"reg") # test de Tukey pour sur les résultats de 

l'analyse ana1 

Tukey multiple comparisons of means 

95% family-wise confidence level 

Fit: aov(formula = ana21) 

$reg 

diff lwr upr p adj 

2-1 14.283167 8.1874379 20.37890 0.0000003 # moy reg2 > moy reg1 

3-1 20.985333 14.8896046 27.08106 0.0000000 # moy reg3 > moy reg1 

3-2 6.702167 0.6064379 12.79790 0.0272727 # moy reg3 > moy reg2 

>ana22 ana22 


Data: ex2 

Subset: sexe == 2 


Fixed: GMQ ∼ 1+ reg 

(Intercept) reg[S.1] reg[S.2] 

96.723333 -19.314333 4.721667 # on voit ici que moy reg 3 > moy reg 2 

> moy reg 1. On verra avec le test de Tuckey si ces différence sont 

significatives 


Formula: ∼ 1 | ind 


StdDev: 11.76228 4.581902 

Number of Observations: 90



> TukeyHSD(aov(ana22),"reg") # test de Tukey pour sur les résultats de 

l'analyse ana2 

Tukey multiple comparisons of means 

95% family-wise confidence level 

Fit: 

aov(formula = ana22) 

$reg 

diff lwr upr p adj 

2-1 14.283167 8.1874379 20.37890 0.0000003 # moy reg2 > moy reg1 

3-1 20.985333 14.8896046 27.08106 0.0000000 # moy reg3 > moy reg1 

3-2 6.702167 0.6064379 12.79790 0.0272727 # moy reg3 > moy reg2 

Si nous faisons le bilan, nous voyons que pour les deux sexes, le régime 3 est celui 

qui donne signicativement des GMQ moyens plus élevés que les autres régimes. 

Il n'est donc pas nécessaire de choisir le régime en fonction du sexe. 

(4) Pour une femelle, quel est le régime qui permet d'obtenir la meilleure croissance ? 

On a déjà répondu à cette question à la question précédente. Le régime 3 est le 

meilleur et ceci quel que soit le sexe. 

Exercice 3 

Une étude à été réalisée an de comparer et de sélectionner le régime alimentaire qui 

donne la croissance la plus importante chez le porc. La feuille exo3 contient quatre 

colonnes qui correspondent respectivement à l'identication de l'individu (Ind), au régime 

donné à chaque individu (Regime), à l'âge en jour auquel une pesée a été réalisée (Age) 

et au poids correspondant (Poids). 

Comme pour les exercices précédents, on importe les données à partir d'un chier ASCII 

nommé exo3.txt. 

> exo3 library(nlme) # charge le package nlme en mémoire 

> attach(exo3) # chargement de exo3 en mémoire 


[1] "Ind" "Regime" "Age" "Poids" 

> Ind


> Reg ex3 # le jeu de données est donc structuré comme suit : 

Grouped Data: Poids ∼ Age | Reg/Ind 

Poids Age Reg Ind 

1 42.91 1 1 1 

2 47.72 20 1 1 

3 46.14 30 1 1 

4 58.84 50 1 1 

5 66.42 90 1 1 

6 36.87 1 1 2. . . 

>plot(ex3) # représentation graphique du jeu de données 

Le graphique montre que pour chaque individu l'évolution du poids en fonction de l'âge 

varie à peu près linéairement. On en déduit que si Y ijk est le poids du jème individu à 

l'âge age ijk qui a reçu le régime i alors 

(3) Y ijk = A ij + B ij age ijk + ε ijk , i = 1 . . . 2, j = 1 . . . n i , k = 1 . . . 5, 

avec n 1 = 28 et n 2 = 36. 

Tel qu'il est écrit, ce modèle dit simplement que l'ordonnée à l'origine et la pente de 

la droite change avec l'individu et le régime. Il est nécessaire de décrire plus précisément 

comment ces paramètres individuels varient. Nous supposerons que le couple 

(A ij , B ij ) ∼ iid N ((a + α i , b + β i ), Σ) où encore que 

(4) 

{ 

Aij = a + α i + η A ij 

B ij = b + β i + η B ij, et (η A ij, η B ij) ∼ iid N ((0, 0), Σ) . 

Seules les moyennes de population des ordonnées à l'origine et des pentes dépendent du 

régime. Au sein de chaque régime, la variation autour de ces moyennes ne sont donc que


Poids 

70 

60 

50 

40 

30 

70 

60 

50 

40 

30 

70 

60 

50 

40 

30 

70 

60 

50 

40 

30 

1/14 1/12 1/8 1/25 1/1 1/23 1/3 1/27 1/10 1/2 1/9 

2/54 2/31 2/63 1/7 1/17 1/16 1/19 1/18 1/26 1/15 

2/58 2/41 2/51 2/62 2/30 2/50 2/29 2/33 2/55 2/43 2/36 

2/45 2/59 2/49 2/60 2/35 2/47 2/38 2/44 2/39 2/40 2/57 

2/61 2/34 2/48 2/46 2/53 2/52 2/56 2/32 2/37 2/42 2/64 

0 4080 

0 4080 

0 4080 

0 4080 

0 4080 

0 4080 

Age 

0 4080 

0 4080 

1/24 1/13 1/11 1/22 1/4 1/21 1/28 1/6 1/20 

0 4080 

1/5 

0 4080 

70 

60 

50 

40 

30 

70 

60 

50 

40 

30 

Figure 5. Chaque petit graphique représente pour un individu l'évolution 

du poids en fonction de son âge. Les individus sont rangés par régime. Le 

premier chire en haut de chaque graphique donne le numéro de régime 

alors que le second précise le numéro de l'individu. 

des variations inter-individuelles. Il reste à préciser que nous supposerons que ε ijk ∼ iid 

N (0, σ 2 ) et que les (A ij , B ij ) sont indépendantes des ε ijk . En réécrivant le modèle (3) à 

l'aide de la décomposition (4) nous obtenons le nouveau modèle : 

(5) Y ijk = a + α i + b × age ijk + β i × age 

} {{ ijk 

} 


+ ηij A + ηij B × age ijk 

} {{ } 

+ ε ijk 


}{{} 

résidu 

Nous pouvons maintenant estimer les paramètres de ce modèle qui dans R se traduit 

terme à terme par 

Poids ∼ 1 + Reg + Age + Reg:Age, random =∼ 1 + Age|Ind 

} {{ } 


} {{ } 


Les commandes suivantes permettent d'estimer les paramètres du modèle. 

>ana3 ana3 


Data: ex3 


Fixed: Poids ∼ Reg * Age 

. 

.


(Intercept) Reg2 Age Reg2:Age 

40.31147234 -0.63741355 0.29099650 -0.07844144 


Formula: ∼ 1 + Age | Ind 

Structure: General positive-definite, Log-Cholesky parametrization 

StdDev Corr 

(Intercept) 5.673468e-07 (Intr) 

Age 3.817842e-02 -0.312 


Residual 5.214180e+00 


> anova(ana3) numDF denDF F-value p-value 

(Intercept) 1 254 20228.381

(6) 


Comme a + α 1 + b × 40 + β 1 × 40 ne contient aucun terme aléatoire, sa variance est 

nulle et V (Y 40 ) se réduit donc au dernier terme de l'égalité précédente. Un petit 

calcul (que nous avons déjà fait en cours) montre que 

V ( η A + η B × 40 + ε ) = V(η A ) + V(η B ) × 40 2 + 2 × 40 × Cov(η A , η B ) + V(ε). 

Les estimations des paramètres du modèle (5) donnent â + α 1 = 40.31147234, 

̂b + β 1 = 0.29099650 et une estimation du poids moyen est donc 40.31147234 + 

0.29099650 × 40 = 51.95. 

De même, ̂V(ηA ) = (5.673468 × 10 −7 ) 2 , ̂V(ηB ) = (3.817842 × 10 −2 ) 2 , ̂V(ε) = 

(5.214180) 2 et enn ̂ Cov(ηA , η B ) = −0.312 × 5.673468 × 10 −7 × 3.817842 × 10 −2 = 

−6.758046 × 10 −9 et une estimation de V (Y 40 ) est donc 

̂V (Y 40 ) = (5.673468 × 10 −7 ) 2 + 40 2 × (3.817842 × 10 −2 ) 2 

+(5.214180) 2 + 2 × 40 × (−6.758046 × 10 −9 ) = 29.51982. 

Une estimation de la distribution du poids à 40 jours des individus qui reçoivent 

le régime 1 est donc : N (51.95; 29.52). 

(3) Les distributions des poids à la naissance des groupes de porcs qui reçoivent les 

régimes 1 et 2 sont elles comparables ? Les poids moyens à la naissance sont 

donnés par les ordonnées à l'origine moyennes. Le test qui compare les ordonnées 

à l'origine des deux groupes de régime est celui réalisé à la deuxième ligne de la 

table d'analyse de variance (test sur Reg) et il donne une valeur de P < .0001. Les 

poids moyens à la naissance des deux groupes de régime sont donc signicativement 

diérents. 

(4) On dénit le GMQ comme le gain de poids d'un animal en une journée. Donner 

la distribution des GMQ pour chaque régime. Les pentes des droites peuvent aussi 

être interprétées comme des GMQ. Nous avons supposé que les pentes des droites 

étaient normalement distribuées. Aussi sut-il de lire la sortie de notre analyse 

pour obtenir les estimations désirées : une estimation de la distribution des GMQ 

pour le régime 1 est N (0.29; (3.817842 × 10 −2 ) 2 ) alors que pour le régime 2 nous 

obtenons la distribution N (0.29 − 0.078; (3.817842 × 10 −2 ) 2 ). 

Exercice 4 

Remarques préliminaires : Cet dernier exercice est moins scolaire que les trois premiers 

et il se rapproche de problèmes que vous allez devoir traiter. N'oubliez pas qu'une 

bonne analyse descriptive avec beaucoup de graphiques est souvent gage de pertinence et 

d'ecacité. Soyez simple dans LE modèle que vous envisagez : il est possible de répondre 

à toute les questions en n'utilisant qu'un seul modèle. Ici, il n'est pas utile d'essayer de


construire un modèle avec des variations non linéaire au cours du temps. Attention, le 

chier de données n'est pas organisé de façon à permettre une analyse dans R. 

Les femmes enceintes ont des risques d'anémie pendant et après la grossesse. Un groupe 

de chercheurs s'est emparé du sujet et a cherché à documenter si une supplémentation 

en fer faire pouvait décroître les risques d'anémie pendant la grossesse. Cette étude avait 

plusieurs parties, en particulier, la concentration en fer dans le serum a été mesurée. 

Cette concentration est une mesure des réserves totales de l'organisme en fer et elle est 

directement liée au risque d'anémie. L'objet de l'analyse que vous allez conduire est de 

quantier l'inuence de la supplémentation en fer sur les concentrations de fer dans le 

sérum. 

Les chercheurs ont recruté 120 femmes enceintes de 2 mois. Ces femmes ont été assignées 

de façon aléatoire dans 3 groupes (40 femmes par groupe). A partir du quatrième mois de 

grossesse toutes les femmes incluses dans l'étude ont reçu une boite de pilules qu'elles 

devait prendre chaque jour. Les pilules des femmes du groupe 1 contenaient un placebo, 

celles des femmes du groupe 2 contenaient une dose faible de fer alors que celles du groupe 

3 étaient fortement dosées en fer. Tous les mois de l'étude, un prélèvement de sang a été 

réalisé sur chaque femme et la concentration de fer dans le sérum (en ng/ml) a été dosée. 

Au moment de l'inclusion, il a été demandé à ces femmes si elles avaient déjà eu une 

anémie, et si elles avaient des enfants. Il a été montré par d'autres études que pendant 

les 4 premiers mois de grossesse, c'est à dire pendant les mois 2, 3 et 4, il n'y a pas 

de variation importante de concentration en fer dans le sérum. Durant cette période, les 

concentrations oscillent autour d'un niveau de base qui mesure la concentration normale. 

Si des changements de concentrations doivent se produire, ils sont attendus à partir du 

5 ième mois. 

Les données de l'étude sont consignées dans la feuille nommée exo4 qui contient 11 

colonnes avec des informations sur : 

col A : l'identication de la femme, 

col B : d'autres enfants (oui/non), 

col C : des épisodes d'anémie antérieurs (oui/non), 

col D : le numéro du groupe de traitement auquel la femme a été assignée, 

col E-K : les concentrations en fer dans le sérum du deuxième au huitième mois de grossesse 

respectivement. 

Après avoir réorganisé le chier exo4.txt avec une colonne par variable, nous avons 

importé ces données, déclaré les facteurs et organisé les données dans un jeu de données


R. Voici la liste des commandes utilisées (sans détail, car vous êtes maintenant aguerris à 

cet exercice) : 

> exo4 attach(exo4) 

> names(exo4) 

[1] "Ind" "autres_enfants" "anemie" "Traitement" 

[5] "Temps" "Fer" 

> Ind autres_enfants anemie Traitement 4, la variable t_4 devient positive et des variations de 

concentrations en fer deviennent autorisées. La pente b mesure alors le sens et 

l'amplitude des variations linéaires du fer après 4 mois de grossesse. Pour créer 

cette variable, il sut de taper : 

> T_44)*(Temps-4)


f(t) 

36 38 40 42 44 

2 3 4 5 6 7 8 

Variable t 

Figure 6. Ce graphique montre la fonction f(t) = 40 + b(t − 4) + pour 

b = +1 en vert (c'est la courbe qui monte), b = 0 en rouge (c'est la courbe 

horizontale) et enn pour b = +1 en pointillé (courbe qui descend). 

Nous pouvons maintenant eectuer l'analyse de la structure de ces données. La 

table de contingence des facteurs autres_enfants, anemie et Traitement va nous 

aider à comprendre l'organisation de ces facteurs : 

> table(Traitement,anemie,autres_enfants) 

, , autres_enfants = non 

anemie 

Traitement non oui 

1 105 49 

2 84 70 

3 91 49 

, , autres_enfants = oui 

anemie 

Traitement non oui 

1 98 28 

2 77 49 

3 77 63 

Ces trois facteurs sont donc croisés et les eectifs représentés dans les cellules de ces 

tables de contingence représentent des individus. Chaque individu est donc niché à 

l'intérieur du croisement des facteurs autres_enfants, anemie et Traitement. Ces 

trois facteurs sont à eets xes, seul le facteur individu est à eets aléatoires. 

Par ailleurs, pour chaque individu on dispose d'une évolution des concentrations 

en fer avec le mois de grossesse. An de rendre le graphique lisible, nous nous 

restreindrons à représenter cette évolution en fonction du traitement.


> ex4 plot(ex4) 

Le graphique (1) nous indique de façon approximative le sens de variation des 

2468 

2468 

2468 

2468 

2468 

2468 

2468 

2468 

2468 

2468 

2468 

2468 

3/117 3/113/883/823/104 

3/108 3/102 3/833/92 3/1093/84 3/116 3/120 3/118 3/101 3/963/873/943/107 

3/903/95 3/110 3/105 3/106 

80 

60 

40 

20 

2/712/452/492/552/622/522/652/613/853/1193/893/1003/93/103 3/112 3/1143/973/1153/983/1113/863/993/913/81 

2/432/642/702/562/592/512/422/722/542/662/532/732/692/502/762/602/672/742/412/582/772/792/632/44 

80 

60 

40 

20 

Fer 

80 

60 

40 

20 

1/251/231/261/41/211/111/321/391/71/381/131/51/121/201/141/102/752/782/462/682/482/802/472/57 

1/271/1 1/91/191/301/221/171/151/291/361/351/371/241/401/331/341/281/181/3 1/81/161/61/311/2 

80 

60 

40 

20 

80 

60 

40 

20 

2468 

2468 

2468 

2468 

2468 

2468 

2468 

2468 

2468 

2468 

2468 

2468 

Temps 

Figure 7. Chaque petit graphique représente pour une femme l'évolution 

des concentration en fer en fonction de son mois de grossesse. Le premier 

chire en haut de chaque graphique donne le numéro du traitement alors 

que le second précise le numéro de l'individu. Les femmes qui prennent le 

traitement 3 ont des courbes qui montent, le traitement 2 semble conduire à 

des courbes qui montent un peu moins, enn le traitement 1 semble donner 

des courbes qui descendent. 

concentrations en fer avec le traitement. Comme nous savons que ces variations 

doivent commencer à partir du quatrième mois de grossesse, nous supposerons en 

première approximation que la forme générale de chaque courbe peut être décrite 

avec une fonction f(t). L'examen des résidus de ce modèle permettra d'inrmer


(ou de conrmer) cette approximation. Notons Y ijklm la concentration en fer de la 

femme l au mois de grossesse t m avec le Traitement i, le niveau j du facteur anemie 

et le niveau k du facteur autres_enfants. Nous pouvons alors écrire le modèle 

(7) Y ijklm = B ijkl + A ijkl (t m − 4) + 

+ ε ijklm . 

(8) 

(9) 

(10) 

Ici, B ijkl représente la concentration basale en fer et A ijkl mesure la croissance (ou 

la décroissance) de ces concentrations après t m = 4. Il reste à préciser comment ces 

paramètres" individuels varient en fonction des facteurs autres_enfants, anemie 

et Traitement et individu. Nous supposerons que 

( 

Aijkl 

B ijkl 

) 

∼ iid N 

(( m 

a 

ijk 

m b ijk 

) 

, Σ 

En d'autres termes, les facteurs n'agissent que sur les moyennes des sous-population 

déterminées par leurs croisements. Toute variation à l'intérieur de ces souspopulation 

est assimilée à de la variabilité inter-individuelle. Ceci n'est pas encore 

assez précis. En eet, nous n'avons pas encore dit comment les moyennes m a ijk 

et m b ijk varient en fonction des facteurs. On est ici dans une situation typique 

d'analyse de variance à trois facteurs croisés. Comme d'habitue, nous allons tout 

d'abord écrire le modèle complet (ie avec toutes les interactions). En reprenant 

les notations classiques d'analyse de la variance et en notant N l'eet du facteur 

anémie, E l'eet du facteur autres_enfants, T l'eet du facteur Traitement et 

en juxtaposant les noms des facteurs pour symboliser les interactions entre ces 

facteurs, nous obtenons : 

⎧ 

⎪⎨ 

⎪⎩ 

A ijkl 

B ijkl 

( η 

a 

ijkl 

η b ijkl 

) 

) 

. 

= µ a + Ti a + Nj a + Ek a + T N ij a + T Eik a + NEa jk + T NEa ijk + ηa ijkl , 

= µ b + 

(( 

Ti b + N 

) j b + 

) 

Ek b + T N ij b + T Eik b + NEb jk + T NEb ijk + ηb ijkl , 

0 

∼ iid N , Σ . 

0 

En insérant dans le modèle (7) les expressions de A et de B nous pouvons le réécrire 

après quelques réarrangements sous la forme 

Y ijklm 

= µ b + T b 

i + N b j + E b k + T N b ij + T E b ik + NEb jk + T NEb ijk 

+ ( µ a + T a 

i + N a j + E a k + T N a ij + T E a ik + NEa jk + T NEa ijk) 

× (tm − 4) + 

+η b ijkl + ηa ijkl × (t m − 4) + 

+ε ijklm . 

Les deux premières lignes à droite du signe = du modèle (10) contiennent les effets 

xes du modèle, la troisième ligne contient les eets aléatoires enn, le terme 

résiduel est sur la dernière ligne. L'opérateur ∗ va simplier l'écriture de ce modèle 

dans R. En eet, les deux premières lignes peuvent s'écrire : 

Fer ∼ Traitement*anemie*autres_enfants*T_4.


Nous en déduisons la commande R : 

>ana4 ana4 


Data: exo4 


Fixed: Fer ∼ Traitement * anemie * autres_enfants * T_4 

(Intercept) 45.1586061 

Traitement2 1.7897273 

Traitement3 -0.5467179 

anemieoui -4.9521126 

autres_enfantsoui -0.3598398 

T_4 -2.9890242 

Traitement2:anemieoui -4.3791299 

Traitement3:anemieoui 2.6284063 

Traitement2:autres_enfantsoui -1.8580803 

Traitement3:autres_enfantsoui -2.9946103 

anemieoui:autres_enfantsoui 4.0644827 

Traitement2:T_4 5.8656076 

Traitement3:T_4 8.2797795 

anemieoui:T_4 -0.3953784 

autres_enfantsoui:T_4 0.6213879 

Traitement2:anemieoui:autres_enfantsoui -0.8698872 

Traitement3:anemieoui:autres_enfantsoui -2.2371033 

Traitement2:anemieoui:T_4 -0.1163686 

Traitement3:anemieoui:T_4 1.4813244 

Traitement2:autres_enfantsoui:T_4 -1.8263514 

Traitement3:autres_enfantsoui:T_4 0.2921957 

anemieoui:autres_enfantsoui:T_4 -0.2332807 

Traitement2:anemieoui:autres_enfantsoui:T_4 2.3343429 

Traitement3:anemieoui:autres_enfantsoui:T_4 -1.3644486 


Formula: ∼ 1 + T_4 | Ind 

Structure: General positive-definite, Log-Cholesky parametrization 

StdDev Corr 

(Intercept) 5.737072 (Intr) 

T_4 1.609082 0.092 

Residual 3.306515 



> anova(ana4)


numDF denDF F-value p-value 

(Intercept) 1 708 6205.109 qqnorm(ana4,∼ ranef(.)) 

Il faudrait en outre s'assurer que la variance des eets aléatoires du modèle ne 

(Intercept) 

T_4 

3 

2 

2 

2 


1 

0 

−1 


0 


1 

0 

−1 

−2 

−2 

−2 

20 40 60 80 

Fitted values 

−5 0 5 10 

Residuals 

−10 −5 0 5 10 


−2 0 2 4 


droites de Henry des résidus et des eets aléatoires. Globalement, les hypothèses 

que nous avons faites semblent réalistes. 

dépendent pas des facteurs. Des graphiques des eets aléatoires en fonction des 

niveaux des facteurs permettraient de s'assurer du bien-fondé de cette hypothèse. 

Nous pouvons maintenant répondre aux questions par une simple lecture et interprétation 

des sorties précédentes. 

(2) Le fait d'avoir eu des enfants a t-il une inuence sur le niveau de base de fer ? 

Rappelons les éléments de la table d'analyse de variance qui nous renseignent sur 

les variations du niveau de base en fer m b ijk :


numDF denDF F-value p-value 

(Intercept) 1 708 6205.109


Le seul facteur qui a un eet signicatif sur la pente est le facteur traitement. Grâce 

au tableau contenant les estimations des paramètres, on dispose d'une estimation 

de la pente moyenne pour chaque groupe de traitement. Ainsi, pour le traitement 

1 (placebo), la pente moyenne peut être estimée à −2.99. Sans traitement, la 

concentration en fer diminuerait donc de 3ng/ml tous les mois de grossesse. 

(7) Même question pour les femmes des groupes 2 et 3. 

En reprenant le même tableau, nous pouvons estimer la pente à −2.99 + 5.87 = 

2.88ng/ml/mois pour le traitement 2 (faible dose de fer) et à −2.99 + 8.28 = 

5.29ng/ml/mois pour le traitement 3. Ces estimations sont cohérentes avec les 

courbes représentées sur le graphique (1). 

(8) Ces variations dépendent-elles du fait que les femmes aient déjà des enfants ? Si 

oui, ces variations ont elles la même amplitude dans chaque groupe de traitement ? 

Tous les termes de la table d'analyse de variance qui contiennent T_4 et autres_enfants 

ont des valeurs de P > 0.05. Par conséquent, il n'y a pas d'eet signicatif du nombre 

d'enfants sur les variations de concentrations en fer après 4 mois de grossesse 

et il n'est pas utile d'ajuster les traitements selon ce facteur. 

(9) Ces variations dépendent-elles du fait que les femmes aient déjà des épisodes 

d'anémie antérieur ? Si oui, ces variations ont elles la même amplitude dans 

chaque groupe de traitement ? Tous les termes de la table d'analyse de variance 

qui contiennent T_4 et anemie ont des valeurs de P > 0.05. Aussi, comme pour 

la source de variation autres_enfants, le fait d'avoir eu des épisodes d'anémie antérieurs 

ne modie pas signicativement les variation de concentration en fer après 

4 mois. 

(10) Existe t-il une interaction entre anémie et autres_enfants sur les variations à 

partir du 5 ième mois ? Si oui, l'eet de cette interaction est elle même dans chaque 

groupe de traitement ? 

Non pour les mêmes raisons que précédemment. 

(11) La supplémentation en fer semble t-elle utile ? Pour répondre à cette dernière 

question utilisez la commande : anova(ana1) où ana1 est l'objet qui contient les 

résultats de l'analyse que vous avez eectuée. 

Oui, la supplémentation est utile dans le sens où elle permet d'augmenter sensiblement 

les concentrations en fer et cette étude permet de le montrer. En eet, 

dans cette étude, les groupes de traitements sont comparables jusqu'au 4 ième mois 

en d'autres termes, les trois groupes ne dièrent que par ce que nous cherchons à 

comparer : les traitements. Enn, aucun des autres facteurs pris en compte dans


cette analyse n'interagit avec le traitement. Par conséquent, cette étude suggère 

qu'il n'est pas utile de moduler les traitements en fonction des niveaux des autres 

facteurs : un fois le traitement choisi, les variations moyennes de concentrations 

en fer sont les mêmes que les femmes aient eu ou non des enfants et qu'elles aient 

été sujettes ou non à des épisodes d'anémie. On peut par ailleurs noter que pour 

un traitement donné, les femmes ont des réponses au traitement assez homogène : 

un écart-type de 1.60ng/ml/mois su la pente après le 4 ième mois de grossesse.

CORRECTION DES EXERCICES SUR LE MODÃLE ... - Biostat.envt.fr

Create successful ePaper yourself

Delete template?

Save as template?

CORRECTION DES EXERCICES SUR LE MODÃLE ... - Biostat.envt.fr