18.01.2015 Views

télécharger egc10_atelier_fdc.pdf

télécharger egc10_atelier_fdc.pdf

télécharger egc10_atelier_fdc.pdf

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Approche graphique pour l’agrégation de classifications non supervisées<br />

(3)<br />

2.2 Modélisation du problème par la théorie des graphes<br />

Dans cette partie, nous allons modéliser les informations des différentes partitions à l’aide<br />

d’un graphe. Pour cela, nous considérons la représentation graphique des données à grouper<br />

comme un graphe complet, non orienté et pondéré. Dans ce graphe les sommets sont les<br />

individus à analyser et les arêtes les liens pondérés par les dissimilarités entre les paires de<br />

données.<br />

Une définition classique suppose qu’une classe ou «cluster» est un ensemble d’éléments<br />

similaires ou semblables, et les éléments de différentes classes sont différents. En effet une<br />

classe devrait satisfaire les deux conditions suivantes : la première c’est que l’homogénéité<br />

interclasses doit être élevée ; la deuxième consiste à une hétérogénéité forte entre les<br />

éléments de classes différentes. Ces deux conditions s’élèvent à affirmer que les arêtes entre<br />

deux sommets de la même classes devraient avoir une forte similarité reflétant une faible<br />

pondération ; et ceux entre les sommets de classes différentes devraient avoir une faible<br />

similarité donc une pondération élevée.<br />

2.2.1 Coloration minimale pour un consensus de classification non<br />

supervisée<br />

Afin de définir notre algorithme, qui permet de trouver le meilleur compromis entre les<br />

différentes partitions à combiner, nous nous sommes basés sur le principe de la coloration<br />

minimale. L’approche fondée sur la coloration minimale permet de définir des partitions à<br />

faible diamètre (Hanssen et al (1978)) (un critère d’homogénéité intraclasse). Ceci répond<br />

exactement à notre objectif qui est de maximiser l’information mutuelle de la partition<br />

retenue, considérée lui aussi comme un critère d’homogénéité intraclasse (Strehl et al<br />

(2002)).<br />

La représentation par graphe complet ne convient pas au problème de classification non<br />

supervisée. En effet, la coloration minimale du graphe retournerait la classification "triviale"<br />

où chaque cluster (couleur) contient un seul individu (singleton). La coloration minimale<br />

passe donc par la construction d’un graphe seuil supérieur défini comme le graphe partiel du<br />

graphe de départ. Un graphe seuil supérieur G(V,E) est un graphe simple ayant pour<br />

ensemble de sommets les sommets du graphe d’origine V={v 1 ,...,v n } et pour ensemble<br />

d’arêtes E les paires de sommets dont la dissimilarité est supérieure à un seuil choisi à<br />

partir de la table de dissimilarité des individus (i.e. ∀v i ,v j ∈ V , l’arête (v i ,v j ) existe ssi D(v i ,v j )<br />

> où D(v i ,v j ) est la dissimilarité entre v i et v j ).<br />

Dans la suite de cet article, deux sommets sont voisins (resp. non voisins) s’ils sont<br />

"adjacents" (resp. "non adjacents"). Nous cherchons donc à établir une coloration valide du<br />

graphe G(V, ), qui consiste à affecter une couleur c à chaque sommet v

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!