23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

1.1. Modélisation CART<br />

Construction <strong>de</strong> l’arbre <strong>de</strong> classification<br />

Notation Soit ɛ = (x n , j n ) 1≤n≤N un échantillon <strong>de</strong> taille N, où les j n représentent les<br />

observations <strong>de</strong> la variable réponse Y (Y ∈ C = {1, 2, ..., J} <strong>et</strong> les x n = {x n1 , x n2 , ..., x np } sont<br />

les observations <strong>de</strong> X dans X , ensemble <strong>de</strong>s p variables explicatives (X = ∏ p<br />

i=1 X i où X i est<br />

un ensemble <strong>de</strong> variables continues <strong>et</strong>/ou catégorielles). Soit<br />

• ∀x ∈ X , le classifieur class(., ɛ) classe x dans un groupe j ∈ C.<br />

• La probabilité a priori d’appartenir au groupe j vaut π j = N j<br />

N<br />

où N j = Card{j n |j n = j}.<br />

• Sachant t ⊂ X (t sous-ensemble fini <strong>de</strong> X ), notons N(t) = Card{(x n , j n ) ∈ ɛ, x n ∈ t}.<br />

• N j (t) = Card{(x n , j n ) ∈ ɛ, j n =j sachant que x n ∈ t}.<br />

• Un estimateur par substitution <strong>de</strong> P(j,t), noté p(j,t), est donné par p(j,t) = π j<br />

N j (t)<br />

N(t) .<br />

• Un estimateur par substitution <strong>de</strong> P(t), noté p(t), est donné par p(t) = ∑ J<br />

j=1<br />

p(j, t).<br />

• Soit P (j|t) la probabilité a posteriori d’appartenir à j, estimée par p(j,t)<br />

p(t)<br />

= N j(t)<br />

N(t) = p(j,t)<br />

π j<br />

.<br />

Comment débuter ? Le principe est <strong>de</strong> diviser X en q classes, où q n’est pas connu à l’avance<br />

(a-priori). La métho<strong>de</strong> construit une séquence croissante <strong>de</strong> partitions <strong>de</strong> X ; On passe d’une<br />

partition à l’autre en appliquant <strong>de</strong>s règles <strong>de</strong> division binaires telles que :<br />

x ∈ t, avec t ⊂ X .<br />

Par exemple, la première partition <strong>de</strong> X peut être le sexe <strong>de</strong> l’assuré. L’assuré dont la caractéristique<br />

est x est soit une femme soit un homme (une spécification <strong>de</strong>s règles binaires est<br />

détaillée en annexe B.1.3).<br />

Nous commençons par diviser la racine X en <strong>de</strong>ux sous-ensembles disjoints appelés noeuds<br />

<strong>et</strong> notés t L <strong>et</strong> t R . Chaque noeud est ensuite divisé <strong>de</strong> la même manière (s’il contient au moins<br />

<strong>de</strong>ux éléments). Au final nous obtenons une partition <strong>de</strong> X en q groupes appelés noeuds<br />

terminaux ou feuilles. Dans la suite, nous notons ˜T l’ensemble <strong>de</strong>s feuilles <strong>de</strong> l’arbre T ; T t<br />

est l’ensemble <strong>de</strong>s <strong>de</strong>scendants <strong>de</strong> l’ancêtre t dans l’arbre T (voir l’illustration en figure B.2).<br />

Nous mesurons la qualité <strong>de</strong> la division d’un noeud t en t L <strong>et</strong> t R grâce à un critère<br />

d’impur<strong>et</strong>é. Ce concept est également expliqué en détail en annexe B.1.3. Dans notre cas,<br />

l’impur<strong>et</strong>é du noeud t dans l’arbre T est la quantité<br />

impur(t) = g(p(1|t), p(2|t), ..., p(J|t)), (1.1)<br />

où g est la fonction d’impur<strong>et</strong>é. Par conséquent, l’impur<strong>et</strong>é <strong>de</strong> l’arbre T est donnée par<br />

Impur(T ) = ∑ t∈ ˜T<br />

Impur(t) (1.2)<br />

où Impur(t) = p(t)impur(t).<br />

Une règle <strong>de</strong> division ∆ d’un noeud t donne p L =p(t L )/p(t) observations dans t L , <strong>et</strong> p R =p(t R )/p(t)<br />

observations dans t R . Nous aimerions maximiser la pur<strong>et</strong>é, dont la variation due à la division<br />

vaut :<br />

δ impur(∆, t) = impur(t) − p L impur(t L ) − p R impur(t R ) (1.3)<br />

La pur<strong>et</strong>é <strong>de</strong> l’arbre est censée augmenter à chaque division, ce qui impose la contrainte<br />

naturelle suivante :<br />

impur(t) ≥ p L impur(t L ) + p R impur(t R ).<br />

25

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!