Mélanges de GLMs et nombre de composantes : application ... - Scor

More documents

Recommendations

Info

Chapitre 4. Sélection de mélange de GLMs Ici le second terme domine et tend vers +∞ lorsque n → ∞, donc les modèles M g sont encore une fois disqualifiés. Pour résumer, c’est donc le terme en ln n obtenu par l’approximation de Laplace qui permet au critère BIC de converger ! Que se passe-t-il si la famille des modèles considérée est mal spécifiée (i.e. que le modèle théorique n’appartient pas à cette famille) ? L’hypothèse liée à cette question n’apparait nulle part dans la construction du critère BIC, pourtant certains auteurs l’ont posé sans justifier son utilité. Ce que nous savons, c’est que le BIC converge en probabilité vers le quasi-vrai modèle lorsqu’il est unique. Cependant, le quasi-vrai modèle peut être très éloigné en distance KL du modèle théorique. Le critère AIC De nombreux papiers comparent les performances obtenues par AIC et BIC en termes de sélection de modèle, dans le but de désigner un “meilleur” critère. En réalité, ces deux critères ne sont pas comparables car ils poursuivent deux objectifs bien différents. BIC cherche à maximiser la probabilité a posteriori que le modèle sélectionné soit le modèle théorique, alors que AIC essaie d’atteindre le meilleur compromis biais-variance. Dans la pratique, BIC sélectionne rapidement des modèles de dimension plus petite que AIC (dès que n > 7 car ln(7) ≃ 2 dans le terme de pénalité). Il est alors logique de se poser la question de la consistance pour la dimension du critère AIC. Comme nous l’avons vu dans la construction du critère, le modèle retenu est : M AIC = arg min (−2 ln f Mg (Y, ˆψ g ) + 2K g ). M g∈{M 1 ,...,M m} Avec le même raisonnement asymptotique que celui utilisé dans le cas du BIC, nous pouvons montrer que AIC n’est pas consistant pour la dimension. En effet, g < t : AIC g − AIC t ≃ 2n[ ˆd KL (f 0 , M g ) − ˆd KL (f 0 , M t )] + 2(K g − K t ) g > t : AIC g − AIC t ≃ −χ 2 K g−K t + 2(K g − K t ) Dans le premier cas, les modèles M g sont asymptotiquement disqualifiés pour les mêmes raisons que précédemment. Par contre, la probabilité de disqualifier les modèles “surdimensionnés” ne tend pas vers 0 dans le deuxième cas, puisque le terme de pénalité ne diverge pas. AIC n’est donc pas consistant pour la dimension. Cependant, AIC a d’autres propriétés intéressantes. Rappelons que ce critère a pour objectif de minimiser l’espérance de la distance KL : [ ∫ ( ) ] f 0 (y) M AIC = arg min E ln M g∈{M 1 ,...,M m} Y f Mg (y, ˆψ f 0 (y)dy g ) ( [ ∫ ( = arg min ˆd KL (f 0 fMg (y, ¯ψ ) ]) g ) , M g ) + E ln M g∈{M 1 ,...,M m} Y f Mg (y, ˆψ f 0 (y)dy , g ) avec ¯ψ g est la valeur de ψ g qui minimise la distance KL entre f 0 et f Mg (., ψ g ). Dans cette dernière expression, le premier terme désigne le biais (distance du modèle M g à f 0 ) alors que le deuxième terme mesure la variance (difficulté d’estimer f Mg (y, ¯ψ g )). Le modèle sélectionné par AIC réalise donc le meilleur compromis biais-variance parmi l’ensemble des modèles, et est dit à ce titre efficace. Contrairement à ce qui est souvent dit, AIC dépend de la taille d’échantillon n car il somme sur les échantillons la distance KL entre f 0 et f Mg (., ¯ψ g ). 114
4.2. Sélection de modèle mélange Le bilan de l’étude de ces deux critères est qu’il n’existe pas de critère universellement meilleur. La connaissance des données et le but de l’expérimentateur (modèle explicatif ou prédictif) doivent conditionner le choix du critère de sélection. En pratique et dans le contexte des mélanges, il est bien connu que ces deux critères ont tendance à surestimer le nombre théorique de composantes (voir le cas de modèle mal spécifié dans Baudry (2009)). Cela semble également être le cas dans nos applications, où nous avons noté de fortes ressemblances entre composantes d’un même mélange. 4.2 Sélection de modèle mélange Comme nous l’avons vu précédemment, l’utilisation de la modélisation mélange a explosé depuis la parution de l’article de Dempster et al. (1977). Par conséquent savoir pourquoi choisir tel ou tel modèle mélange a suscité l’intérêt de beaucoup de chercheurs, sans pour autant qu’il n’émerge une solution universelle pour répondre à la question du choix du nombre de composantes. De nombreux articles sont consacrés au développement de méthodes de calibration d’un mélange, mais celles-ci souffrent régulièrement d’un manque de justification théorique. Bien souvent, les propriétés de convergence des critères de sélection et des algorithmes proposés ne sont pas garanties : c’est le cas par exemple de l’algorithme SSMEM proposé par Hai Xan et al. (2004). Pour pallier le fait que l’algorithme EM ne puisse estimer directement le nombre G de composantes (G doit être spécifié a priori), Hai Xan et al. (2004) introduisent des nouveaux critères de distance qui vont servir à décider itérativement d’un regroupement ou d’une division des composantes une fois les paramètres de ces composantes estimés via l’EM. Dans le même esprit, Wenbin (2006) définit une distance entre la densité du mélange obtenue par l’EM et la densité des observations via la méthode de Parzen (estimation par noyau gaussien). Cette distance sert de socle au choix du nombre de composantes a posteriori (après estimation par EM), en minimisant la pénalité qui y est liée. L’algorithme semble bien se comporter mais les données de test sont originellement bien séparées, ce qui ne nous permet pas d’être convaincu de sa pertinence. Une revue sur la question de l’évaluation du nombre de composantes d’un mélange est proposée dans Oliviera-Brochado and Vitorino Martins (2005). Les auteurs rappellent que le nombre de composantes du mélange n’est évidemment pas observable dans la majorité des cas, et que cinq grandes approches ont vu le jour : les tests d’hypothèses présentés en section 3.1.4 (et donc du bootstrap sur le ratio de vraisemblance), les critères d’information (log-vraisemblance pénalisée), les critères de classification (liés à la statistique d’entropie), le ratio d’information minimum (information ratio matrix) et enfin les outils graphiques. Garel (2007) souligne la difficulté d’établir la multimodalité avec le test du ratio de vraisemblance généralisé. En effet, le résultat classique selon lequel la distribution de la statistique de ce test suit une loi du χ 2 n’est en général pas applicable dans le cas des mélanges. Son papier donne un aperçu des récents développements liés à l’utilisation de cette technique pour détecter l’hétérogénéité des données. Une méthode consiste à utiliser le bootstrap afin de pallier à cette difficulté : en guise d’exemple, Schlattmann (2003) étudie par des mélanges de lois de Poisson l’homogénéité des SMR (Standard Mortality Ratio) dus à la leucémie infantile en Allemagne dans les années 1980. Etant donné nos objectifs, nous nous focalisons sur les critères de classification. Toutefois Oliviera-Brochado and Vitorino Martins (2005) effectuent des comparaisons intéressantes entre les méthodes proposées dans la littérature suivant le type d’étude menée : la conclusion 115
Page 1:
I.S.F.A. École Doctorale Sciences
Page 5:
If you want to be happy... ... for
Page 9 and 10:
Table des matières Remerciements R
Page 11 and 12:
Conclusion et annexes Conclusion et
Page 13:
Introduction générale 1
Page 16 and 17:
Présentation de la thèse personne
Page 18 and 19:
Présentation de la thèse Les assu
Page 20 and 21:
Présentation de la thèse maux, et
Page 22 and 23:
Présentation de la thèse Figure 1
Page 24 and 25:
Présentation de la thèse visible
Page 26 and 27:
Présentation de la thèse Proposit
Page 28 and 29:
Présentation de la thèse { } avec
Page 30 and 31:
Présentation de la thèse Bibliogr
Page 32 and 33:
Présentation de la thèse Torsten,
Page 35 and 36:
Chapitre 1 Segmentation du risque d
Page 37 and 38:
1.1. Modélisation CART Constructio
Page 39 and 40:
1.1. Modélisation CART nous entend
Page 41 and 42:
1.2. Segmentation par modèle logis
Page 43 and 44:
1.2. Segmentation par modèle logis
Page 45 and 46:
1.3. Illustration : application sur
Page 47 and 48:
Page 49 and 50:
Page 51 and 52:
Page 53 and 54:
1.4. Conclusion Enfin cette analyse
Page 55 and 56:
BIBLIOGRAPHIE Ruiz-Gazen, A. and Vi
Page 57 and 58:
Chapitre 2 Crises de corrélation d
Page 59 and 60:
2.1. Problème de la régression lo
Page 61 and 62:
2.2. Impact de crises de corrélati
Page 63 and 64:
Page 65 and 66:
Page 67 and 68:
Page 69 and 70:
Page 71 and 72:
2.3. Application sur un portefeuill
Page 73 and 74:
2.3. Application sur un portefeuill
Page 75 and 76: 2.4. Ecart entre hypothéses standa
Page 77 and 78: 2.5. Conclusion encore considérer
Page 79: Deuxième partie Vers la création
Page 82 and 83: Chapitre 3. Mélange de régression
Page 116 and 117: Chapitre 4. Sélection de mélange
Page 176 and 177:
Chapitre 4. Sélection de mélange
Page 178 and 179:
Page 180 and 181:
Page 182 and 183:
Page 184 and 185:
Page 186 and 187:
Page 189 and 190:
Conclusion et perspectives Cette é
Page 191 and 192:
BIBLIOGRAPHIE Bibliographie Akaike,
Page 193 and 194:
BIBLIOGRAPHIE Doob, J. (1934), ‘P
Page 195 and 196:
BIBLIOGRAPHIE Loisel, S. (2008),
Page 197 and 198:
BIBLIOGRAPHIE Schlattmann, P. (2003
Page 199 and 200:
Annexe A Articles de presse Figure
Page 201 and 202:
Annexe B Méthodes de segmentation
Page 203 and 204:
B.1.3 Plus loin dans la théorie de
Page 205 and 206:
B.1. Méthode CART Pénalisation de
Page 207 and 208:
B.2. La régression logistique Algo
Page 209 and 210:
B.2. La régression logistique et e
Page 211 and 212:
Annexe C Résultats des mélanges d
Page 213 and 214:
C.2. Famille de produits Ahorro Fig
Page 215 and 216:
C.2. Famille de produits Ahorro C.2
Page 217 and 218:
C.3. Famille de produits Unit-Link
Page 219 and 220:
C.3. Famille de produits Unit-Link
Page 221 and 222:
C.4. Famille de produits Index-Link
Page 223 and 224:
C.4. Famille de produits Index-Link
Page 225 and 226:
C.5. Famille de produits Universal
Page 227 and 228:
C.5. Famille de produits Universal
Page 229 and 230:
C.6. Famille de produits Pure Savin
Page 231 and 232:
C.6. Famille de produits Pure Savin
Page 233 and 234:
C.7. Famille de produits “Structu
Page 235 and 236:
C.7. Famille de produits “Structu
Page 237 and 238:
Annexe D Espace des paramètres des
Page 239 and 240:
D.1. Mélange de régressions liné
Page 241 and 242:
D.3 Mélange de régressions logist
Page 243 and 244:
Calcul de la limite : lim log L cc(
Page 245 and 246:
D.5. Mélange d’Inverses Gaussien
Page 247 and 248:
Annexe E Outil informatique - RExce
Page 249 and 250:
Figure E.2 - Exemple d’interface
Page 251 and 252:
Figure E.4 - Génération des résu
Page 253 and 254:
Figure E.6 - Exposition des résult
show all

Mélanges de GLMs et nombre de composantes : application ... - Scor

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?