Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Annexe B. Métho<strong>de</strong>s <strong>de</strong> segmentation<br />
Y i ∼ B(n i , p i ), avec n i le <strong>nombre</strong> d’expériences <strong>de</strong> bernoulli <strong>et</strong> p i la probabilité <strong>de</strong> succès<br />
(rachat ici). Si nous notons Y la variable à expliquer (i.e. la décision <strong>de</strong> rachat), nous avons<br />
{<br />
1, si l’assuré rachète sa police,<br />
Y =<br />
0, sinon.<br />
Nous pouvons maintenant adapter l’équation <strong>de</strong> régression logistique à notre contexte <strong>et</strong> nous<br />
obtenons la probabilité <strong>de</strong> rachat p :<br />
logit =<br />
( )<br />
P [Y = 1|X0 = x 0 , ..., X k = x k ]<br />
ln<br />
P [Y = 0|X 0 = x 0 , ..., X k = x k ]<br />
= β 0 + β 1 X 1 + ... + β k X k<br />
Finalement,<br />
Φ(logit(p)) = Φ(Φ −1 (p)) = p<br />
Φ(logit(p)) = Φ(β 0 + ∑ k<br />
j=1 β jX j )<br />
}<br />
⇒ p = Φ(β 0 +<br />
k∑<br />
β j X j )<br />
C<strong>et</strong>te écriture perm<strong>et</strong> <strong>de</strong> comprendre plus facilement l’expression <strong>de</strong> la fonction <strong>de</strong> vraisemblance<br />
en 1.2.2.<br />
B.2.3<br />
L’algorithme <strong>de</strong> Newton-Raphson<br />
Maxmiser la fonction <strong>de</strong> log-vraisemblance (??) amène à la résolution du système (k + 1)<br />
équations<br />
⎧<br />
∂l<br />
⎪⎨<br />
∂ ˆβ<br />
= ∑ n<br />
i=1 Y i − Φ(β 0 + ∑ k<br />
j=1 β kX k ) = 0<br />
0<br />
∂l<br />
⎪⎩<br />
∂ ˆβ<br />
= ∑ n<br />
i=1 X ij(Y i − Φ(β 0 + ∑ k<br />
j=1 β kX k )) = 0<br />
j<br />
∀j = 1, ..., k.<br />
Le problème est que les solutions n’adm<strong>et</strong>tent pas <strong>de</strong> formules fermées <strong>et</strong> l’utilisation d’un<br />
algorithme d’optimisation est alors indispensable. Souvent l’algorithme <strong>de</strong> Newton-Raphson<br />
(basé en fait sur un développement <strong>de</strong> Taylor à l’ordre 1) est utilisé à c<strong>et</strong>te fin. En SAS <strong>et</strong> en<br />
R, c<strong>et</strong> algorithme est inclus <strong>et</strong> lance le processus itératif suivant :<br />
( ∂<br />
β (i+1) = β (i) 2 ln(L(β))<br />
) −1 ( ∂ ln(L(β))<br />
)<br />
−<br />
×<br />
∂β∂β ′<br />
∂β<br />
j=1<br />
(B.12)<br />
Lorsque la différence entre β (i+1) <strong>et</strong> β (i) est plus p<strong>et</strong>ite qu’un certain seuil (disons par exemple<br />
10 −4 ), les itérations s’arrêtent <strong>et</strong> nous obtenons la solution finale.<br />
B.2.4 Estimation <strong>de</strong> la matrice <strong>de</strong> covariance<br />
La matrice <strong>de</strong> variance Z <strong>de</strong>s coefficients ˆβ s’écrit<br />
⎛<br />
V ar( ˆβ 0 ) Cov( ˆβ 0 , ˆβ 1 ) · · · Cov( ˆβ 0 , ˆβ ⎞<br />
k )<br />
Cov( ˆβ 1 , ˆβ 0 ) V ar( ˆβ .<br />
1 ) .. .<br />
⎜<br />
⎝<br />
.<br />
.<br />
. ..<br />
⎟<br />
. ⎠<br />
Cov( ˆβ k , ˆβ 0 ) Cov( ˆβ k , ˆβ 1 ) · · · V ar( ˆβ k )<br />
(B.13)<br />
196