Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Chapitre 4. Sélection <strong>de</strong> mélange <strong>de</strong> <strong>GLMs</strong><br />
la nécessité <strong>de</strong> développer <strong>de</strong> nouvelles métho<strong>de</strong>s <strong>de</strong> sélection <strong>de</strong> modèle dans un contexte<br />
global, par opposition aux récents développements <strong>de</strong> l’époque qui ne s’appliquaient qu’à une<br />
certaine classe <strong>de</strong> modèles. Il introduit la notion <strong>de</strong> critère d’information, en ce sens que sa<br />
démarche est complètement liée à l’étu<strong>de</strong> <strong>de</strong> la distance KL. Le succès d’Akaike (1973) vient<br />
notamment du pont établi entre la théorie du maximum <strong>de</strong> vraisemblance, base théorique<br />
largement reconnue par les statisticiens pour l’estimation paramétrique, <strong>et</strong> le critère AIC. De<br />
plus ce critère ne nécessite pas <strong>de</strong> calcul supplémentaire en <strong>de</strong>hors <strong>de</strong>s calculs inhérents à la<br />
métho<strong>de</strong> du maximum <strong>de</strong> vraisemblance, ce qui est un avantage non-négligeable au vu <strong>de</strong>s<br />
performances calculatoires <strong>de</strong>s outils informatiques <strong>de</strong> l’époque.<br />
L’idée novatrice d’Akaike est <strong>de</strong> choisir comme estimateur final parmi un ensemble d’estimateurs<br />
ˆψ (pour une <strong>de</strong>nsité <strong>de</strong> probabilité f(y; ψ)) celui qui maximise la log-vraisemblance<br />
espérée. Autrement dit, il cherche<br />
( [<br />
M AIC = arg max E (Y, ψg) ˆ ln f Mg (Y ; ˆψ<br />
])<br />
g )<br />
M g∈{M 1 ,...,M m}<br />
( [∫<br />
])<br />
= arg max E ψg ˆ ln f Mg (Y ; ˆψ g )f(Y ; ψ 0 )dy . (4.1)<br />
M g∈{M 1 ,...,M m}<br />
Y<br />
L’égalité ci-<strong>de</strong>ssus vient <strong>de</strong> l’hypothèse d’indépendance entre les lois <strong>de</strong> Y <strong>et</strong> <strong>de</strong> ˆψ g , ce qui<br />
perm<strong>et</strong> d’avoir<br />
f (Y, ψg) ˆ (y, ˆψ g ) = f Y (y; ψ 0 )f ψg ˆ ( ˆψ g ).<br />
L’auteur différencie sa métho<strong>de</strong> <strong>de</strong> celle du maximum <strong>de</strong> vraisemblance en justifiant du fait<br />
que c<strong>et</strong>te <strong>de</strong>rnière ne s’intéresse à l’estimation du paramètre ψ g du modèle M g que pour<br />
une réalisation donnée <strong>de</strong>s observations : ainsi ˆψg (Z) maximise ln f Mg (z; ψ g ) pour une seule<br />
réalisation <strong>de</strong> Z (clairement ˆψ g est une statistique <strong>de</strong> Z). Ainsi, la métho<strong>de</strong> du maximum <strong>de</strong><br />
vraisemblance ne nécessite aucune connaissance sur ψ 0 , le paramètre théorique <strong>de</strong> la <strong>de</strong>nsité<br />
<strong>de</strong> la loi <strong>de</strong> Y.<br />
Pour comparer sans perte d’efficacité un modèle général donné par f Mg (.; ψ g ) avec le modèle<br />
théorique f(.; ψ 0 ), il utilise le célèbre ratio <strong>de</strong> vraisemblance τ(y) = f Mg (y; ψ g )/f(y; ψ 0 ) qui<br />
détermine par l’introduction d’une fonction Φ la discrimination en y entre ψ g <strong>et</strong> ψ 0 . Nous en<br />
déduisons immédiatement la discrimination moyenne dans le cas où ψ 0 est “vrai” (donc Y a<br />
effectivement pour <strong>de</strong>nsité f(y; ψ 0 )) :<br />
∫<br />
D(ψ g , ψ 0 , Φ) = f(y; ψ 0 )Φ(τ(y))dy = E Y [Φ(τ(Y ))].<br />
Y<br />
Comment choisir Φ pour définir c<strong>et</strong>te discrimination moyenne ? En effectuant un développement<br />
<strong>de</strong> Taylor à l’ordre 2 <strong>de</strong> la fonction composée Φ(τ(y)) pour ψ g au voisinage <strong>de</strong> ψ 0 , nous<br />
obtenons sous certaines conditions <strong>de</strong> régularité <strong>de</strong> Φ <strong>et</strong> en remarquant que le terme d’ordre<br />
1 s’annule (la vraisemblance est maximisée en ψ 0 donc sa dérivée en ce point vaut 0) :<br />
D(ψ g , ψ 0 , Φ) = E Y<br />
[Φ(1) + 1 ]<br />
2 Φ′′ (1)(ψ g − ψ 0 ) T I(ψ 0 )(ψ g − ψ 0 ) + o(‖ψ g − ψ 0 ‖ 2 ) ,<br />
= Φ(1) + 1 2 Φ′′ (1)(ψ g − ψ 0 ) T J(ψ 0 )(ψ g − ψ 0 ) + o(‖ψ g − ψ 0 ‖ 2 ). (4.2)<br />
où<br />
∫<br />
J(ψ 0 ) =<br />
Y<br />
[ (∂ ) ( ) ]<br />
ln fMg (y; ψ g ) ∂ ln fMg (y; ψ g ) T<br />
f(y; ψ 0 )dy.<br />
∂ψ g ψ g=ψ<br />
∂ψ 0 g ψ g=ψ 0<br />
108