Atelier Visualisation et extraction de connaissances - Irisa
Atelier Visualisation et extraction de connaissances - Irisa
Atelier Visualisation et extraction de connaissances - Irisa
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Juan David Cruz <strong>et</strong> al.<br />
la sparsité <strong>de</strong> liens inter-clusters. C<strong>et</strong> in<strong>de</strong>x est le plus couramment utilisé dans les métho<strong>de</strong>s<br />
<strong>de</strong> clustering (Fortunato, 2010).<br />
2.2 Métho<strong>de</strong>s conventionnelles <strong>de</strong> clustering <strong>de</strong> graphes<br />
Plusieurs métho<strong>de</strong>s ont été développées pour trouver les clusters d'un graphe. Ces métho<strong>de</strong>s<br />
cherchent à trouver les groupes minimisant le nombre <strong>de</strong> liens entre les groupes <strong>et</strong><br />
maximisant le nombre <strong>de</strong> liens dans les groupes. Ces approches perm<strong>et</strong>tent <strong>de</strong> trouver la<br />
meilleure partition quand la matrice d'adjacence du graphe est creuse (Fortunato, 2010).<br />
L'algorithme proposé par (Newman, 2001) cherche <strong>et</strong> élimine itérativement les liens<br />
ayant le plus grand dégré d’interposition. Ce processus perm<strong>et</strong> <strong>de</strong> trouver les groupes qui<br />
sont faiblement connectés entre eux <strong>et</strong> dont les nœuds sont fortement connectés à l'intérieur<br />
d'un groupe. L'inconvénient majeur <strong>de</strong> leur approche est la complexité <strong>de</strong> calcul du <strong>de</strong>gré<br />
d’interposition, la complexité générale <strong>de</strong> l'algorithme est en O(mn 2 ) pour m arêtes <strong>et</strong> n<br />
nœuds, son coût est donc prohibitif pour <strong>de</strong>s grands graphes.<br />
Basé sur un algorithme <strong>de</strong> recherche en largeur d'abord qui perm<strong>et</strong> <strong>de</strong> trouver les<br />
chemins les plus courts d'un nœud source s à tous les autres en O(m), (Bran<strong>de</strong>s, 2001) <strong>et</strong><br />
(Newman <strong>et</strong> al., 2004) ont proposé indépendamment une métho<strong>de</strong> en O(mn) perm<strong>et</strong>tant <strong>de</strong><br />
trouver les nœuds "feuilles" <strong>et</strong> sommant les poids <strong>de</strong>s arêtes <strong>de</strong> ses feuilles vers un nœud<br />
source. En répétant le processus pour tous les nœuds <strong>et</strong> sommant les scores, on obtient le<br />
<strong>de</strong>gré d’interposition <strong>de</strong> toutes les arêtes du graphe.<br />
Le "fast unfolding algorithm", proposé par (Blon<strong>de</strong>l <strong>et</strong> al., 2008) est un algorithme<br />
d'agglomération pour trouver les communautés. Dans une première étape, chaque nœud est<br />
affecté à une communauté <strong>et</strong> la modularité initiale est calculée. Ensuite, chaque nœud i est<br />
enlevé <strong>de</strong> sa communauté pour être itérativement attribué à chaque communauté. A chaque<br />
affectation, le gain <strong>de</strong> la modularité est calculé <strong>et</strong> i sera attribué à la communauté donnant la<br />
plus gran<strong>de</strong> valeur <strong>de</strong> gain. Si aucun gain positif n'est possible, i reste dans sa communauté<br />
initiale. Ce processus est appliqué jusqu'à ce qu'aucune amélioration <strong>de</strong> la modularité ne<br />
puisse plus être apportée.<br />
Une fois c<strong>et</strong>te première étape achevée, un nouveau graphe est construit, les nœuds sont<br />
les communautés trouvées à l'étape précé<strong>de</strong>nte <strong>et</strong> les arêtes sont la somme <strong>de</strong>s poids <strong>de</strong>s<br />
arêtes <strong>de</strong>s communautés correspondantes. La première étape est alors <strong>de</strong> nouveau appliquée à<br />
ce nouveau graphe jusqu'à ce qu'aucune amélioration <strong>de</strong> la modularité ne puisse être<br />
apportée. La complexité <strong>de</strong> c<strong>et</strong> algorithme est linéaire en fonction <strong>de</strong>s liens pour <strong>de</strong>s graphes<br />
épars (Blon<strong>de</strong>l <strong>et</strong> al., 2008), c'est-à-dire, avec une matrice d’adjacence contenant<br />
essentiellement <strong>de</strong>s valeurs nulles.<br />
(Du <strong>et</strong> al., 2007) proposent un algorithme pour la détection <strong>de</strong> communautés dans les<br />
réseaux sociaux <strong>de</strong> gran<strong>de</strong>s tailles. Leur métho<strong>de</strong> est basée sur l'énumération <strong>de</strong> toutes les<br />
cliques maximales, i.e. les sous-graphes compl<strong>et</strong>s non contenus dans un autre sous-graphe<br />
compl<strong>et</strong>. Une fois l'ensemble <strong>de</strong> ces cliques énumérées, ils génèrent <strong>de</strong>s noyaux associés à<br />
ces cliques <strong>et</strong> calculent la détection <strong>de</strong> communautés en affectant les nœuds à chaque noyau :<br />
chaque noyau est une communauté <strong>et</strong> chaque nœud est assigné à la communauté la plus<br />
proche. Ensuite, ils essayent d'optimiser la modularité en cherchant quelle fusion d’une paire<br />
<strong>de</strong> communautés améliore la modularité. Les <strong>de</strong>ux communautés qui seront fusionnées sont<br />
celles qui produisent la valeur la plus haute <strong>de</strong> modularité. C<strong>et</strong> algorithme a une complexité<br />
F.Poul<strong>et</strong>, B.Le Grand : 9e <strong>Atelier</strong> <strong>Visualisation</strong> <strong>et</strong> Extraction <strong>de</strong> Connaissances 27