Mélanges de GLMs et nombre de composantes : application ... - Scor

More documents

Recommendations

Info

Chapitre 1. Segmentation du risque de rachat Respectons-nous toujours cette inégalité ? La réponse est “oui” si g est concave. Dans la plupart des applications (y compris la nôtre), nous considérons l’index de diversité de Gini, interprétable comme une probabilité de mauvaise classification. C’est la probabilité d’affecter la classe k à une observation choisie aléatoirement dans le noeud t, multipliée par la probabilité estimée que cette observation appartienne en réalité à la classe j. Il existe aussi d’autres fonctions d’impureté qui ont une interprétation encore plus simple (annexe B.1.3), mais il n’existe pas de justification particulière pour l’usage de telle ou telle fonction (en particulier elles sont toute concaves, et les propriétés de l’arbre final ne sont pas vraiment impactées par ce choix, comme décrit dans Breiman et al. (1984)). La division optimale ∆ ⋆ t d’un noeud t satisfait ∆ ⋆ t = arg max(δ impur(∆, t)), (1.4) ∆∈D où arg max(δ impur(∆, t)) désigne la règle de division ∆ qui maximise δ impur(∆, t). Le processus génère donc une décroissance d’impureté aussi rapide que possible à chaque étape. Intuitivement, cela signifie qu’un maximum d’observations doivent appartenir à la même classe dans un noeud donné, ce qui définit la règle de division à choisir. Maximiser le gain de pureté (ou d’homogénéité) par la division du noeud t revient à maximiser le gain de pureté de l’arbre T. Nous obtenons ainsi un arbre T ′ (figure B.2 en annexe) plus ramifié en partant de l’ancêtre t vers les descendants (t L ,t R ) par ∆, et (1.2) donne Impur(T ′ ) = ∑ w∈ ˜T −{t} Impur(w) + Impur(t L ) + Impur(t R ). Nous en déduisons une fluctuation d’impureté au niveau de l’arbre T de F = Impur(t) − Impur(t L ) − Impur(t R ) = δ Impur(∆, t) = p(t) δ impur(∆, t). (1.5) Il s’agit donc de la probabilité d’être présent dans ce noeud multipliée par la décroissance d’impureté donnée par ∆. L’étape suivante consiste à définir quand arrêter les divisions, ce qui relève du choix de l’utilisateur. Certaines règles d’arrêt sont naturelles tandis que d’autres sont purement arbitraires : i) les divisions s’arrêtent évidemment lorsque les observations des variables explicatives dans une classe donnée sont identiques ; ii) on peut définir un nombre minimal d’observations dans un noeud (plus ce nombre est petit et plus le nombre de feuilles sera grand) ; iii) on peut choisir un seuil λ de décroissance minimum de l’impureté : Soit λ ∈ R ∗ +, max δ Impur(∆, t) < λ ⇒ arrêter la division. ∆∈D Comme énoncé au début de cette section, il n’y a en fait pas de régle d’arrêt dans l’algorithme CART ; l’arbre le plus ramifié est construit, puis élagué par une procédure avancée que nous détaillons en annexe B.1.3. La fonction de classification Le but est de construire une méthode permettant de classer les assurés (sachant leurs caractéristiques x) dans un ensemble B j , afin de prédire la réponse qui leur est associée. Ici, 26
1.1. Modélisation CART nous entendons réponse par groupe d’appartenance, ce qui se traduira dans nos applications par le rachat ou non-rachat. Le classifieur, noté class(., ɛ), s’exprime comme class : X → C x → class(x, ɛ) = j, avec B j = {x ∈ X ; class(x, ɛ) = j}. Cette fonction doit si possible classer au mieux les données et avoir un pouvoir prédictif intéressant. Considérons que l’arbre optimal a été construit ; pour connaître la classe d’appartenance d’un noeud terminal, nous utilisons la règle class(x, ɛ) = arg max j∈C p(j|t), (1.6) autrement dit la fameuse règle de Bayes qui maximise la probabilité a posteriori d’être dans la classe j sachant que nous sommes dans le noeud t. Ce processus nous permet ainsi d’effectuer des prévisions de classification. Une estimation de la mauvaise classification d’une observation dans le noeud t (par rapport à la classe observée) est donnée par r(t) = 1 − class(x, ɛ) = 1 − max p(j|t), (1.7) j∈C Soit ˆτ(t) = p(t) r(t) le taux de mauvaise classification du noeud t. Pour chaque noeud, c’est la probabilité d’être dans le noeud t multipliée par la probabilité de mal classer une observation sachant que nous sommes dans ce noeud t. Nous en déduisons immédiatement le taux global de mauvaise classification de l’arbre T , donné par ˆτ(T ) = ∑ t∈ ˜T ˆτ(t). (1.8) Finalement, nous pouvons résumer les quatre étapes essentielles de la procédure de construction de l’arbre : 1. un ensemble de questions binaires {x ∈ S ?}, S ∈ X , 2. une fonction d’impureté pour le critère de qualité d’ajustement (choix arbitraire), 3. une règle d’arrêt des divisions (choix arbitraire), 4. une procédure de classification permettant d’affecter à chaque feuille une classe. De fait, le choix arbitraire concernant la règle d’arrêt des divisions est évitée puisque l’algorithme CART construit un arbre maximal T max avant de procéder à un élagage. Estimation de l’erreur de prévision L’erreur de prévision est évaluée par la probabilité qu’une observation soit mal classée par class(., ɛ), c’est-à-dire : τ(class) = P (class(X, ɛ) ≠ Y ) L’efficacité du prédicteur est basée sur l’estimation de cette erreur. Le taux de mauvaise classification réel τ ∗ (class) ne peut pas être estimé lorsque la procédure de classification est construite à partir de l’ensemble des données, mais il existe plusieurs estimateurs dans la littérature (Ghattas (1999)). L’expression du taux de mauvaise classification dépend évidemment de l’échantillon d’apprentissage (détails en annexe B.1.3). 27
Page 1: I.S.F.A. École Doctorale Sciences
Page 5: If you want to be happy... ... for
Page 9 and 10: Table des matières Remerciements R
Page 11 and 12: Conclusion et annexes Conclusion et
Page 13: Introduction générale 1
Page 16 and 17: Présentation de la thèse personne
Page 18 and 19: Présentation de la thèse Les assu
Page 20 and 21: Présentation de la thèse maux, et
Page 22 and 23: Présentation de la thèse Figure 1
Page 24 and 25: Présentation de la thèse visible
Page 26 and 27: Présentation de la thèse Proposit
Page 28 and 29: Présentation de la thèse { } avec
Page 30 and 31: Présentation de la thèse Bibliogr
Page 32 and 33: Présentation de la thèse Torsten,
Page 35 and 36: Chapitre 1 Segmentation du risque d
Page 37: 1.1. Modélisation CART Constructio
Page 41 and 42: 1.2. Segmentation par modèle logis
Page 43 and 44: 1.2. Segmentation par modèle logis
Page 45 and 46: 1.3. Illustration : application sur
Page 53 and 54: 1.4. Conclusion Enfin cette analyse
Page 55 and 56: BIBLIOGRAPHIE Ruiz-Gazen, A. and Vi
Page 57 and 58: Chapitre 2 Crises de corrélation d
Page 59 and 60: 2.1. Problème de la régression lo
Page 61 and 62: 2.2. Impact de crises de corrélati
Page 71 and 72: 2.3. Application sur un portefeuill
Page 73 and 74: 2.3. Application sur un portefeuill
Page 75 and 76: 2.4. Ecart entre hypothéses standa
Page 77 and 78: 2.5. Conclusion encore considérer
Page 79: Deuxième partie Vers la création
Page 82 and 83: Chapitre 3. Mélange de régression
Page 88 and 89:
Chapitre 3. Mélange de régression
Page 90 and 91:
Page 92 and 93:
Page 94 and 95:
Page 96 and 97:
Page 98 and 99:
Page 100 and 101:
Page 102 and 103:
Page 104 and 105:
Page 106 and 107:
Page 108 and 109:
Page 110 and 111:
Page 112 and 113:
Page 114 and 115:
Page 116 and 117:
Chapitre 4. Sélection de mélange
Page 118 and 119:
Page 120 and 121:
Page 122 and 123:
Page 124 and 125:
Page 126 and 127:
Page 128 and 129:
Page 130 and 131:
Page 132 and 133:
Page 134 and 135:
Page 136 and 137:
Page 138 and 139:
Page 140 and 141:
Page 142 and 143:
Page 144 and 145:
Page 146 and 147:
Page 148 and 149:
Page 150 and 151:
Page 152 and 153:
Page 154 and 155:
Page 156 and 157:
Page 158 and 159:
Page 160 and 161:
Page 162 and 163:
Page 164 and 165:
Page 166 and 167:
Page 168 and 169:
Page 170 and 171:
Page 172 and 173:
Page 174 and 175:
Page 176 and 177:
Page 178 and 179:
Page 180 and 181:
Page 182 and 183:
Page 184 and 185:
Page 186 and 187:
Page 189 and 190:
Conclusion et perspectives Cette é
Page 191 and 192:
BIBLIOGRAPHIE Bibliographie Akaike,
Page 193 and 194:
BIBLIOGRAPHIE Doob, J. (1934), ‘P
Page 195 and 196:
BIBLIOGRAPHIE Loisel, S. (2008),
Page 197 and 198:
BIBLIOGRAPHIE Schlattmann, P. (2003
Page 199 and 200:
Annexe A Articles de presse Figure
Page 201 and 202:
Annexe B Méthodes de segmentation
Page 203 and 204:
B.1.3 Plus loin dans la théorie de
Page 205 and 206:
B.1. Méthode CART Pénalisation de
Page 207 and 208:
B.2. La régression logistique Algo
Page 209 and 210:
B.2. La régression logistique et e
Page 211 and 212:
Annexe C Résultats des mélanges d
Page 213 and 214:
C.2. Famille de produits Ahorro Fig
Page 215 and 216:
C.2. Famille de produits Ahorro C.2
Page 217 and 218:
C.3. Famille de produits Unit-Link
Page 219 and 220:
C.3. Famille de produits Unit-Link
Page 221 and 222:
C.4. Famille de produits Index-Link
Page 223 and 224:
C.4. Famille de produits Index-Link
Page 225 and 226:
C.5. Famille de produits Universal
Page 227 and 228:
C.5. Famille de produits Universal
Page 229 and 230:
C.6. Famille de produits Pure Savin
Page 231 and 232:
C.6. Famille de produits Pure Savin
Page 233 and 234:
C.7. Famille de produits “Structu
Page 235 and 236:
C.7. Famille de produits “Structu
Page 237 and 238:
Annexe D Espace des paramètres des
Page 239 and 240:
D.1. Mélange de régressions liné
Page 241 and 242:
D.3 Mélange de régressions logist
Page 243 and 244:
Calcul de la limite : lim log L cc(
Page 245 and 246:
D.5. Mélange d’Inverses Gaussien
Page 247 and 248:
Annexe E Outil informatique - RExce
Page 249 and 250:
Figure E.2 - Exemple d’interface
Page 251 and 252:
Figure E.4 - Génération des résu
Page 253 and 254:
Figure E.6 - Exposition des résult
show all

Mélanges de GLMs et nombre de composantes : application ... - Scor

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?