télécharger egc10_atelier_fdc.pdf
télécharger egc10_atelier_fdc.pdf
télécharger egc10_atelier_fdc.pdf
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Approche graphique pour l’agrégation de classifications non supervisées<br />
(3)<br />
2.2 Modélisation du problème par la théorie des graphes<br />
Dans cette partie, nous allons modéliser les informations des différentes partitions à l’aide<br />
d’un graphe. Pour cela, nous considérons la représentation graphique des données à grouper<br />
comme un graphe complet, non orienté et pondéré. Dans ce graphe les sommets sont les<br />
individus à analyser et les arêtes les liens pondérés par les dissimilarités entre les paires de<br />
données.<br />
Une définition classique suppose qu’une classe ou «cluster» est un ensemble d’éléments<br />
similaires ou semblables, et les éléments de différentes classes sont différents. En effet une<br />
classe devrait satisfaire les deux conditions suivantes : la première c’est que l’homogénéité<br />
interclasses doit être élevée ; la deuxième consiste à une hétérogénéité forte entre les<br />
éléments de classes différentes. Ces deux conditions s’élèvent à affirmer que les arêtes entre<br />
deux sommets de la même classes devraient avoir une forte similarité reflétant une faible<br />
pondération ; et ceux entre les sommets de classes différentes devraient avoir une faible<br />
similarité donc une pondération élevée.<br />
2.2.1 Coloration minimale pour un consensus de classification non<br />
supervisée<br />
Afin de définir notre algorithme, qui permet de trouver le meilleur compromis entre les<br />
différentes partitions à combiner, nous nous sommes basés sur le principe de la coloration<br />
minimale. L’approche fondée sur la coloration minimale permet de définir des partitions à<br />
faible diamètre (Hanssen et al (1978)) (un critère d’homogénéité intraclasse). Ceci répond<br />
exactement à notre objectif qui est de maximiser l’information mutuelle de la partition<br />
retenue, considérée lui aussi comme un critère d’homogénéité intraclasse (Strehl et al<br />
(2002)).<br />
La représentation par graphe complet ne convient pas au problème de classification non<br />
supervisée. En effet, la coloration minimale du graphe retournerait la classification "triviale"<br />
où chaque cluster (couleur) contient un seul individu (singleton). La coloration minimale<br />
passe donc par la construction d’un graphe seuil supérieur défini comme le graphe partiel du<br />
graphe de départ. Un graphe seuil supérieur G(V,E) est un graphe simple ayant pour<br />
ensemble de sommets les sommets du graphe d’origine V={v 1 ,...,v n } et pour ensemble<br />
d’arêtes E les paires de sommets dont la dissimilarité est supérieure à un seuil choisi à<br />
partir de la table de dissimilarité des individus (i.e. ∀v i ,v j ∈ V , l’arête (v i ,v j ) existe ssi D(v i ,v j )<br />
> où D(v i ,v j ) est la dissimilarité entre v i et v j ).<br />
Dans la suite de cet article, deux sommets sont voisins (resp. non voisins) s’ils sont<br />
"adjacents" (resp. "non adjacents"). Nous cherchons donc à établir une coloration valide du<br />
graphe G(V, ), qui consiste à affecter une couleur c à chaque sommet v