24.06.2013 Views

Atelier Visualisation et extraction de connaissances - Irisa

Atelier Visualisation et extraction de connaissances - Irisa

Atelier Visualisation et extraction de connaissances - Irisa

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Juan David Cruz <strong>et</strong> al.<br />

la sparsité <strong>de</strong> liens inter-clusters. C<strong>et</strong> in<strong>de</strong>x est le plus couramment utilisé dans les métho<strong>de</strong>s<br />

<strong>de</strong> clustering (Fortunato, 2010).<br />

2.2 Métho<strong>de</strong>s conventionnelles <strong>de</strong> clustering <strong>de</strong> graphes<br />

Plusieurs métho<strong>de</strong>s ont été développées pour trouver les clusters d'un graphe. Ces métho<strong>de</strong>s<br />

cherchent à trouver les groupes minimisant le nombre <strong>de</strong> liens entre les groupes <strong>et</strong><br />

maximisant le nombre <strong>de</strong> liens dans les groupes. Ces approches perm<strong>et</strong>tent <strong>de</strong> trouver la<br />

meilleure partition quand la matrice d'adjacence du graphe est creuse (Fortunato, 2010).<br />

L'algorithme proposé par (Newman, 2001) cherche <strong>et</strong> élimine itérativement les liens<br />

ayant le plus grand dégré d’interposition. Ce processus perm<strong>et</strong> <strong>de</strong> trouver les groupes qui<br />

sont faiblement connectés entre eux <strong>et</strong> dont les nœuds sont fortement connectés à l'intérieur<br />

d'un groupe. L'inconvénient majeur <strong>de</strong> leur approche est la complexité <strong>de</strong> calcul du <strong>de</strong>gré<br />

d’interposition, la complexité générale <strong>de</strong> l'algorithme est en O(mn 2 ) pour m arêtes <strong>et</strong> n<br />

nœuds, son coût est donc prohibitif pour <strong>de</strong>s grands graphes.<br />

Basé sur un algorithme <strong>de</strong> recherche en largeur d'abord qui perm<strong>et</strong> <strong>de</strong> trouver les<br />

chemins les plus courts d'un nœud source s à tous les autres en O(m), (Bran<strong>de</strong>s, 2001) <strong>et</strong><br />

(Newman <strong>et</strong> al., 2004) ont proposé indépendamment une métho<strong>de</strong> en O(mn) perm<strong>et</strong>tant <strong>de</strong><br />

trouver les nœuds "feuilles" <strong>et</strong> sommant les poids <strong>de</strong>s arêtes <strong>de</strong> ses feuilles vers un nœud<br />

source. En répétant le processus pour tous les nœuds <strong>et</strong> sommant les scores, on obtient le<br />

<strong>de</strong>gré d’interposition <strong>de</strong> toutes les arêtes du graphe.<br />

Le "fast unfolding algorithm", proposé par (Blon<strong>de</strong>l <strong>et</strong> al., 2008) est un algorithme<br />

d'agglomération pour trouver les communautés. Dans une première étape, chaque nœud est<br />

affecté à une communauté <strong>et</strong> la modularité initiale est calculée. Ensuite, chaque nœud i est<br />

enlevé <strong>de</strong> sa communauté pour être itérativement attribué à chaque communauté. A chaque<br />

affectation, le gain <strong>de</strong> la modularité est calculé <strong>et</strong> i sera attribué à la communauté donnant la<br />

plus gran<strong>de</strong> valeur <strong>de</strong> gain. Si aucun gain positif n'est possible, i reste dans sa communauté<br />

initiale. Ce processus est appliqué jusqu'à ce qu'aucune amélioration <strong>de</strong> la modularité ne<br />

puisse plus être apportée.<br />

Une fois c<strong>et</strong>te première étape achevée, un nouveau graphe est construit, les nœuds sont<br />

les communautés trouvées à l'étape précé<strong>de</strong>nte <strong>et</strong> les arêtes sont la somme <strong>de</strong>s poids <strong>de</strong>s<br />

arêtes <strong>de</strong>s communautés correspondantes. La première étape est alors <strong>de</strong> nouveau appliquée à<br />

ce nouveau graphe jusqu'à ce qu'aucune amélioration <strong>de</strong> la modularité ne puisse être<br />

apportée. La complexité <strong>de</strong> c<strong>et</strong> algorithme est linéaire en fonction <strong>de</strong>s liens pour <strong>de</strong>s graphes<br />

épars (Blon<strong>de</strong>l <strong>et</strong> al., 2008), c'est-à-dire, avec une matrice d’adjacence contenant<br />

essentiellement <strong>de</strong>s valeurs nulles.<br />

(Du <strong>et</strong> al., 2007) proposent un algorithme pour la détection <strong>de</strong> communautés dans les<br />

réseaux sociaux <strong>de</strong> gran<strong>de</strong>s tailles. Leur métho<strong>de</strong> est basée sur l'énumération <strong>de</strong> toutes les<br />

cliques maximales, i.e. les sous-graphes compl<strong>et</strong>s non contenus dans un autre sous-graphe<br />

compl<strong>et</strong>. Une fois l'ensemble <strong>de</strong> ces cliques énumérées, ils génèrent <strong>de</strong>s noyaux associés à<br />

ces cliques <strong>et</strong> calculent la détection <strong>de</strong> communautés en affectant les nœuds à chaque noyau :<br />

chaque noyau est une communauté <strong>et</strong> chaque nœud est assigné à la communauté la plus<br />

proche. Ensuite, ils essayent d'optimiser la modularité en cherchant quelle fusion d’une paire<br />

<strong>de</strong> communautés améliore la modularité. Les <strong>de</strong>ux communautés qui seront fusionnées sont<br />

celles qui produisent la valeur la plus haute <strong>de</strong> modularité. C<strong>et</strong> algorithme a une complexité<br />

F.Poul<strong>et</strong>, B.Le Grand : 9e <strong>Atelier</strong> <strong>Visualisation</strong> <strong>et</strong> Extraction <strong>de</strong> Connaissances 27

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!