23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

3.2. Cas pratique d’utilisation <strong>de</strong> mélange <strong>de</strong> Logit<br />

Figure 3.9 – Coefficients <strong>de</strong> régression <strong>de</strong>s poids <strong>de</strong>s <strong>composantes</strong> du mélange <strong>de</strong> Logit.<br />

-1.5 -1.0 -0.5 0.0 0.5<br />

Comp. 2<br />

Comp. 3<br />

(Intercept)<br />

Comp. 4<br />

Comp. 5<br />

(Intercept)<br />

-1.5 -1.0 -0.5 0.0 0.5<br />

confiance <strong>de</strong> ces estimations. Pour ce qui est <strong>de</strong> la calibration <strong>de</strong>s poids <strong>de</strong> chaque composante,<br />

les résultats semblent moins robustes <strong>et</strong> ce sera souvent le cas en pratique. La figure 3.9<br />

résume les proportions <strong>de</strong> chaque composante dans le mélange (pas <strong>de</strong> variable explicative<br />

ici), nous obtenons par la formule (3.7) :<br />

π 1 = 22%, π 2 = 23%, π 3 = 24%, π 4 = 10%, π 5 = 21%,<br />

ce qui semble indiquer qu’il n’y a pas <strong>de</strong> <strong>composantes</strong> inutiles, chacune ayant son importance<br />

dans le mélange. Néanmoins, l’estimation <strong>de</strong> ces poids trahit la confiance que nous pouvons<br />

avoir en leur valeur. De plus, il est possible que le <strong>nombre</strong> <strong>de</strong> <strong>composantes</strong> sélectionné soit<br />

légèrement sur-estimé si nous en croyons l’estimation <strong>de</strong>s coefficients <strong>de</strong> régression : en eff<strong>et</strong>,<br />

certaines <strong>composantes</strong> ont tendance à se ressembler (la première <strong>et</strong> la <strong>de</strong>uxième), quoique ce<br />

n’est pas forcément évi<strong>de</strong>nt ici (mais plusieurs produits révèlent c<strong>et</strong>te faiblesse, cf annexe C).<br />

Pour vérifier la robustesse <strong>de</strong> c<strong>et</strong>te approche autrement que par l’aspect visuel, nous appliquons<br />

<strong>de</strong>ux tests : un test <strong>de</strong> normalité <strong>de</strong>s résidus (Pearson), <strong>et</strong> un test sur les distributions<br />

(Wilcoxon Mann-Whitney). Nous ne détaillons pas le test <strong>de</strong> Pearson qui est un <strong>de</strong>s plus<br />

connus ; le principe du test <strong>de</strong> Wilcoxon-Mann-Whitney est donné ci-<strong>de</strong>ssous. Les résultats<br />

<strong>de</strong> ces <strong>de</strong>ux tests pour un seuil <strong>de</strong> 5% suivent dans le tableau 3.1. Nous ne pouvons donc<br />

pas rej<strong>et</strong>er l’hypothèse nulle qui correspond au fait que la variable aléatoire “observée” <strong>et</strong> la<br />

variable aléatoire “prédite” aient la même distribution. Les sorties R <strong>de</strong>s résultats numériques<br />

<strong>de</strong> ces tests sont disponibles en annexe C.1.<br />

Test <strong>de</strong> Pearson Test <strong>de</strong> Wilcoxon-Mann-Whitney<br />

p-valeur 0.8495 0.7394<br />

Table 3.1 – p-valeur <strong>de</strong>s tests <strong>de</strong> résidus <strong>et</strong> <strong>de</strong> distribution pour validation.<br />

85

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!