23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

3.1. Formalisation <strong>de</strong> la théorie<br />

satisfait, en général L c (ψ (k+1) ) − L c (ψ (k) ) plus p<strong>et</strong>it qu’un certain seuil. Toutefois c<strong>et</strong>te procédure<br />

d’arrêt n’est pas toujours satisfaisante, c’est pourquoi Lindstrom and Bates (1988) <strong>et</strong><br />

Bohning <strong>et</strong> al. (1994) proposent une amélioration basée sur le critère d’accélération <strong>de</strong> Aitken.<br />

Pour détecter la pertinence <strong>de</strong>s estimations trouvées, il n’existe pas <strong>de</strong> métho<strong>de</strong> prédéfinie : la<br />

solution consiste à regar<strong>de</strong>r à la fois la valeur <strong>de</strong> la vraisemblance, les valeurs <strong>de</strong>s π i estimées<br />

<strong>et</strong> les matrices <strong>de</strong> covariance (voir les exemples p.100 <strong>de</strong> McLachlan and Peel (2000)).<br />

La vitesse <strong>de</strong> convergence <strong>de</strong> l’algorithme EM dépend <strong>de</strong> la proportion d’information manquante<br />

sur ψ, du fait que l’on observe seulement les réalisations <strong>de</strong> Y au lieu d’observer<br />

conjointement Y <strong>et</strong> Z. Plus c<strong>et</strong>te proportion est gran<strong>de</strong>, plus l’algorithme est lent. Nous ne<br />

discutons pas <strong>de</strong>s variantes <strong>de</strong> l’EM qui perm<strong>et</strong>tent <strong>de</strong> contourner les problèmes <strong>de</strong> valeurs<br />

initiales <strong>de</strong> l’algorithme, mais le lecteur intéressé trouvera <strong>de</strong>s références intéressantes dans<br />

McLachlan and Peel (2000).<br />

3.1.4 Evaluation du <strong>nombre</strong> <strong>de</strong> <strong>composantes</strong><br />

L’évaluation du bon <strong>nombre</strong> <strong>de</strong> <strong>composantes</strong> d’un modèle mélange a toujours été difficile<br />

<strong>et</strong> le problème n’est pas encore vraiment résolu. Les mélanges ont principalement <strong>de</strong>ux<br />

fonctions : fournir une classification basée sur une modélisation ; <strong>et</strong> définir une métho<strong>de</strong> semiparamétrique<br />

perm<strong>et</strong>tant <strong>de</strong> modéliser <strong>de</strong>s formes <strong>de</strong> distribution inconnues, comme une alternative<br />

à la métho<strong>de</strong> <strong>de</strong>s noyaux. Mais dans ces <strong>de</strong>ux approches, comment choisir G ?<br />

Nous avons pu constater la séparation du problème <strong>de</strong> l’évaluation <strong>de</strong> G <strong>et</strong> celui <strong>de</strong> l’estimation<br />

<strong>de</strong>s paramètres, dans le sens où l’on fixe d’abord G avant <strong>de</strong> lancer l’estimation. Nous faisons<br />

cela pour plusieurs valeurs <strong>de</strong> G. L’usage commun pour trouver G est :<br />

– <strong>de</strong> considérer <strong>de</strong>s critères <strong>de</strong> sélection tels que le critère d’information <strong>de</strong> Akaike (AIC)<br />

ou le Bayesian Information Criterion (BIC),<br />

– <strong>de</strong> se servir du test du ratio <strong>de</strong> vraisemblance (LRT),<br />

mais il existe aussi <strong>de</strong>s techniques non-paramétriques, ou encore la métho<strong>de</strong> <strong>de</strong>s moments,<br />

l’approche basée sur le Kurtosis <strong>de</strong> la distribution... Les références à toutes ces techniques sont<br />

disponibles dans l’ouvrage <strong>de</strong> McLachlan and Peel (2000). Nous ne discutons pas davantage<br />

<strong>de</strong>s critères AIC <strong>et</strong> BIC car leur présentation exhaustive suivra dans le chapitre 4.<br />

En revanche nous souhaitons préciser (très succintement) en quoi consiste le LRT dans<br />

le cadre <strong>de</strong>s mélanges, sans pour autant entrer dans trop <strong>de</strong> détails. Ce test a pour but <strong>de</strong><br />

trouver la plus p<strong>et</strong>ite valeur convenable <strong>de</strong> G, avec comme hypothèses nulle <strong>et</strong> alternative :<br />

[ H 0 : G = G 0 contre H 1 : G = G 1 ] , avec G 1 > G 0 .<br />

En pratique nous prenons G 1 = G 0 + 1 <strong>et</strong> nous continuons d’ajouter <strong>de</strong>s <strong>composantes</strong> tant<br />

que l’accroissement <strong>de</strong> la valeur <strong>de</strong> la vraisemblance est substantiel. Soient ˆψ 1 l’estimateur par<br />

maximum <strong>de</strong> vraisemblance (MLE) <strong>de</strong> ψ sous H 1 , <strong>et</strong> ˆψ 0 le MLE sous H 0 . Nous notons<br />

−2 log λ = 2[log L( ˆψ 1 ) − log( ˆψ 0 )] = 2 log ˆψ 1<br />

ˆψ 0<br />

.<br />

Si λ est suffisamment p<strong>et</strong>it, ou si −2 log λ est suffisamment grand, il parait logique <strong>de</strong> pouvoir<br />

rej<strong>et</strong>er H 0 . Malheureusement ici, nous ne connaissons pas la distribution nulle <strong>de</strong> −2 log λ<br />

dans le cas général, car les conditions <strong>de</strong> régularité nécessaires (Cramér (1946)) aux résultats<br />

asymptotiques du MLE ne sont pas satisfaites (voir Ghosh and Sen (1985)). Les travaux<br />

pionniers <strong>de</strong> Wolfe (1971) justifient par exemple l’usage <strong>de</strong> la simulation pour calculer la p-<br />

valeur <strong>de</strong> ce test. Plus globalement, ce problème complexe nécessite bien plus <strong>de</strong> détails :<br />

75

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!