20.07.2014 Views

Cours 2 - LIP6

Cours 2 - LIP6

Cours 2 - LIP6

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

1/37<br />

Grands Graphes de Terrain<br />

Clémence Magnien, Fabien Tarissan<br />

<strong>LIP6</strong> – CNRS et Université Pierre et Marie Curie<br />

prenom.nom@lip6.fr<br />

http://www-rp.lip6.fr/~magnien/ggt.html


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

2/37<br />

Outline<br />

1 Propriétés des graphes de terrain (suite et fin)<br />

2 Graphes aléatoires<br />

3 Mesure de la toplogie de l’Internet


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

3/37<br />

Distribution des degrés (1/2)<br />

Distribution des degrés :<br />

4 nœuds, degrés : 2 3 3 1


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

3/37<br />

Distribution des degrés (1/2)<br />

Distribution des degrés :<br />

4 nœuds, degrés : 2 3 3 1<br />

Distribution : combien de nœuds ont degré k, en fonction de<br />

k.<br />

1 → 1, 2 → 1, 3 →2<br />

2<br />

1<br />

1 2 3


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

4/37<br />

Loi de puissance (power-law)<br />

Loi de puissance<br />

N k ∼ k −α<br />

droite en échelle log-log<br />

Distribution hétérogène : proche d’une loi de puissance<br />

Loi de puissance<br />

droite en échelle log-log<br />

sur plusieurs ordres de<br />

grandeur<br />

≠<br />

Hétérogène<br />

plusieurs ordres de<br />

grandeur<br />

proche d’une droite en<br />

échelle log-log


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

5/37<br />

Exemple<br />

1e+06<br />

100000<br />

100000<br />

10000<br />

1000<br />

100<br />

10<br />

10000<br />

1000<br />

100<br />

10<br />

1<br />

1 10 100 1000 10000 100000 1e+06<br />

1<br />

1 10 100 1000 10000 100000


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

6/37<br />

Distributions hétérogènes : échelle log-log<br />

450000<br />

400000<br />

350000<br />

300000<br />

250000<br />

200000<br />

150000<br />

100000<br />

50000<br />

0<br />

0 50000 100000 150000 200000 250000<br />

échelle linéaire<br />

1e+06<br />

100000<br />

10000<br />

1000<br />

100<br />

10<br />

1<br />

1 10 100 1000 10000 100000 1e+06<br />

échelle logarithmique


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

7/37<br />

Distributions hétérogènes vs homogènes<br />

12000<br />

10000<br />

8000<br />

6000<br />

4000<br />

2000<br />

0<br />

0 5 10 15 20 25 30 35<br />

1e+06<br />

100000<br />

10000<br />

1000<br />

100<br />

10<br />

1<br />

1 10 100 1000 10000 100000 1e+06<br />

Homogène<br />

Notion de normalité (et d’exceptions)<br />

Hétérogène<br />

Tous les comportements existent<br />

→ pas de notion de normalité


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

8/37<br />

Distributions normalisées<br />

Distribution des degrés, deux choix :<br />

N k : nombre de sommets de degré k<br />

p k : fraction de sommets de degré k<br />

→ Distribution normalisée<br />

p k = N k<br />

n<br />

Permet de comparer des graphes de tailles différentes<br />

Notations :<br />

〈k〉 = ∑ kp k : moyenne<br />

〈k 2 〉 = ∑ k 2 p k : deuxième moment (dispersion)


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

9/37<br />

Distribution des degrés (2/2)<br />

Pour les graphes de terrain<br />

En général, distributions des degrés hétérogènes


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

10/37<br />

Coefficient de clustering<br />

coefficient de clustering cc(v)<br />

= probabilité que deux voisins de v soient reliés<br />

= # paires de voisins reliés / # paires de voisins<br />

= densité locale


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

Coefficient de clustering<br />

coefficient de clustering cc(v)<br />

= probabilité que deux voisins de v soient reliés<br />

coefficients de clustering : 1, 1, 1 3 , indéfini 10/37


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

11/37<br />

Coefficient de clustering<br />

Coefficient de clustering du graphe :<br />

moyenne sur tous les sommets de degré ≥ 2<br />

Pour les graphes de terrain<br />

En général, clustering fort<br />

Plusieurs ordres de grandeur au dessus de la densité


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

12/37<br />

Structure en communautés<br />

But<br />

Décrire une structure interne du graphe.<br />

Définition<br />

intuitive: personnes partageant un intérêt commun, pages<br />

web au contenu similaire...<br />

structurelle: zone du graphe dense en liens


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

13/37<br />

Propriétés communes – conclusion<br />

La plupart des graphes de terrain ont des propriétés<br />

communes :<br />

densité<br />

connexité<br />

distances<br />

degrés<br />

clustering<br />

communautés<br />

faible<br />

comp. géante<br />

faibles<br />

hétérogènes<br />

fort<br />

avec


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

14/37<br />

Outline<br />

1 Propriétés des graphes de terrain (suite et fin)<br />

2 Graphes aléatoires<br />

3 Mesure de la toplogie de l’Internet


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

15/37<br />

Graphes aléatoires – Motivation<br />

Propriétés observées normales ?<br />

Réponse : comparer à un graphe aléatoire<br />

tiré au hasard (avec proba. uniforme) dans l’ensemble des<br />

graphes<br />

(d’une taille donnée)


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

15/37<br />

Graphes aléatoires – Motivation<br />

Propriétés observées normales ?<br />

Réponse : comparer à un graphe aléatoire<br />

tiré au hasard (avec proba. uniforme) dans l’ensemble des<br />

graphes<br />

(d’une taille donnée)<br />

Propriétés communes à l’immense majorité des graphes<br />

→ propriétés attendues


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

16/37<br />

Modèle d’Erdös-Rényi<br />

G n,p<br />

n sommets<br />

Chaque arête existe avec probablité p


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

16/37<br />

Modèle d’Erdös-Rényi<br />

G n,p<br />

n sommets<br />

Chaque arête existe avec probablité p<br />

Complexité (construction) : O(n 2 )


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

16/37<br />

Modèle d’Erdös-Rényi<br />

G n,m<br />

n sommets<br />

m arêtes choisies au hasard


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

16/37<br />

Modèle d’Erdös-Rényi<br />

G n,m<br />

n sommets<br />

m arêtes choisies au hasard<br />

Complexité (construction) : O(m)


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

17/37<br />

Équivalence entre G n,p et G n,m<br />

p représente la densité<br />

p = 2m<br />

n(n−1)<br />

G n,m et G n,p sont équivalents si p et m respectent cette relation.


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

18/37<br />

Arêtes en double<br />

G n,m : probabilité de tirer des arêtes en double<br />

Compliqué à détecter<br />

structure compacte<br />

complexité ?<br />

En pratique<br />

peu d’arêtes en double<br />

ne change pas les propriétés du graphe<br />

→ on les traite comme des arêtes normales<br />

on évite les boucles


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

19/37<br />

Notion de propriété attendue


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

19/37<br />

Notion de propriété attendue<br />

Et si c’était un graphe aléatoire . . .<br />

Exemple : graphe aléatoire, n = 5000 et m = 10000<br />

Résultat (réel) : il existe des sommets de degré 100.<br />

Étonnant ?


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

Notion de propriété attendue<br />

Et si c’était un graphe aléatoire . . .<br />

Exemple : graphe aléatoire, n = 5000 et m = 10000<br />

Résultat (réel) : il existe des sommets de degré 100.<br />

Étonnant ?<br />

p(k) = Ck N ∗ pk ∗(1−p) k < Ck N ∗ pk<br />

Ici, p k ≡ (1/10 3 ) k<br />

Ck N = N!<br />

k!(N−k)! = N∗(N−1)∗...∗(N−k+1)<br />

k!<br />

< Nk<br />

k!<br />

Or k! ≡ √ 2πk( k e )k (approximation de Stirling)<br />

(5000)<br />

Au final, p(100) <<br />

100<br />

∗( 1 ) k<br />

cst−sup−1∗50 100 10 3<br />

Soit, p(100) < (10 2 ) 100 ∗( 1 ) 100<br />

10 3<br />

Donc p(k) < ( 1<br />

10 )100 -> proba quasi nulle !<br />

→ on ne peut pas obtenir un tel graphe par tirage aléatoire<br />

(autre processus en jeu)<br />

19/37


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

19/37<br />

Notion de propriété attendue


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

20/37<br />

Propriétés des graphes aléatoires<br />

Densité<br />

Connexité<br />

Distance moyenne, diamètre


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

20/37<br />

Propriétés des graphes aléatoires<br />

Densité fixée<br />

Connexité composante géante, taille O(n)<br />

(pour m ≥ O(n))<br />

Distance moyenne, diamètre ∼ log(n)<br />

(pour m ≥ O(n))


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

20/37<br />

Propriétés des graphes aléatoires<br />

Distribution des degrés<br />

Coefficient de clustering<br />

Structure communautaire


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

20/37<br />

Propriétés des graphes aléatoires<br />

Distribution des degrés homogène<br />

Coefficient de clustering = δ<br />

Structure communautaire inexistante


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

20/37<br />

Propriétés des graphes aléatoires<br />

de terrain aléatoire<br />

densité faible faible<br />

connexité comp géante comp géante<br />

distances faibles faibles<br />

degrés hétérogènes homogènes<br />

clustering fort faible<br />

communautés avec sans


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

21/37<br />

Graphes d’Erdös-Rényi – Conclusion<br />

Les graphes de terrain sont très différents des graphes<br />

aléatoires d’Erdös-Rényi<br />

Conséquences<br />

Leur ressemblance est significative<br />

Les graphes d’ER ne sont pas des bons modèles des<br />

graphes réels (simulations, preuves, . . . )<br />

→ Autres modèles ?


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

22/37<br />

Graphes aléatoires à distribution des degrés fixés<br />

Distribution des degrés<br />

p 1 , p 2 , p 3 ,...<br />

Tirer les degrés des sommets selon la distribution<br />

1 2 4 3 2 1 3<br />

Associer à chaque sommet des demi-arêtes<br />

Tirer au hasard des paires de demi-arêtes


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

23/37<br />

Implémentation<br />

Tableau : chaque sommet apparaît autant de fois que son<br />

degré<br />

0 1 1 2 2 2 2 3 3 3 4 4 5 6 6 6<br />

Choix de paires de valeurs au hasard<br />

i = 2m. Tant que i > 0 :<br />

u = random(0,i-1)<br />

échanger cases u et i − 1<br />

v = random(0,i-2)<br />

échanger cases v et i − 2<br />

// arête (T[i − 1], T[i − 2])<br />

i = i-2


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

24/37<br />

Propriétés – Comparaison<br />

de terrain aléatoire degrés fixés<br />

densité faible faible faible<br />

connexité comp géante comp géante comp géante<br />

distances faibles faibles faibles<br />

degrés hétérogènes homogènes hétérogènes<br />

clustering fort faible faible<br />

communautés avec sans sans<br />

le clustering n’est pas une conséquence des degrés<br />

hétérogènes


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

25/37<br />

Autres modèles ?<br />

Prendre en compte des propriétés plus complexes ?<br />

Sauf exception, tirage aléatoire impossible en pratique<br />

pas de procédures de construction connues


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

26/37<br />

Exemple de modèle plus élaboré<br />

Distributions de degré + clustering<br />

(Newman,Random Graphs with clustering, 2009):<br />

pour chaque nœud, on attribue:<br />

moitiés de liens simples (s i ),<br />

“coins” de triangles (t i )<br />

selon des distributions décorrélées<br />

assembler les moitiés de liens et les coins séparément<br />

clustering vérifié, structure communautaire déficiente


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

27/37<br />

Modèle par construction: Watts et Strogatz (1999)<br />

Depuis un réseau régulier, reconnection aléatoire de liens<br />

selon une probabilité p:


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

27/37<br />

Modèle par construction: Watts et Strogatz (1999)<br />

Depuis un réseau régulier, reconnection aléatoire de liens<br />

selon une probabilité p:<br />

Reproduit clustering élevé mais distribution non hétérogène...


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

28/37<br />

Modèle par construction: Barabási et Albert (1999)<br />

Initialement modèle du web.<br />

Principe d’attachement préférentiel:<br />

ensemble initial: petit nombre de nœuds connectés<br />

à chaque itération:<br />

ajout d’un nœud à nombre de liens fixés<br />

probabilité de se connecter à un nœud de degré k<br />

proportionnelle à k


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

29/37<br />

Modèle par construction: Barabási et Albert (1999)<br />

Résultats<br />

degré selon loi de puissance (exposant ≃ 3)<br />

(avec degré homogène, loi exponentielle décroissante)<br />

clustering nul<br />

propriété cachée d’arbre<br />

Dimension explicative: “rich get richer”


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

30/37<br />

Évolutions du modèle Barabási et Albert<br />

D’autres règles d’attachement préférentiel:<br />

règle d’ajout modifiée (plusieurs nœuds...)<br />

autres caractéristiques structurelles (environnement<br />

local...)<br />

caractéristiques extra-topologiques (âge, sémantique...)


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

31/37<br />

Conclusion<br />

Pas de modèle permettant de restituer toutes les propriétés<br />

communes des graphes de terrain.<br />

⇒ Recherche d’hypothèses suffisantes et de méthodes de<br />

génération appropriée.


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

32/37<br />

Outline<br />

1 Propriétés des graphes de terrain (suite et fin)<br />

2 Graphes aléatoires<br />

3 Mesure de la toplogie de l’Internet


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

33/37<br />

traceroute<br />

Mesure d’une route : traceroute<br />

TTL = 1<br />

S<br />

?<br />

D


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

33/37<br />

traceroute<br />

Mesure d’une route : traceroute<br />

TTL = 1<br />

S<br />

D


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

33/37<br />

traceroute<br />

Mesure d’une route : traceroute<br />

Erreur<br />

TTL = 1<br />

S<br />

D


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

33/37<br />

traceroute<br />

Mesure d’une route : traceroute<br />

TTL = 1<br />

S<br />

D


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

33/37<br />

traceroute<br />

Mesure d’une route : traceroute<br />

TTL = 2<br />

S<br />

D


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

33/37<br />

traceroute<br />

Mesure d’une route : traceroute<br />

Erreur<br />

TTL = 1<br />

S<br />

D


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

33/37<br />

traceroute<br />

Mesure d’une route : traceroute<br />

TTL = 1<br />

S<br />

D


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

33/37<br />

traceroute<br />

Mesure d’une route : traceroute<br />

TTL = 1<br />

S<br />

D


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

33/37<br />

traceroute<br />

Mesure d’une route : traceroute<br />

TTL = 1<br />

S<br />

D<br />

Pas de réponse : *<br />

ICMP filtré<br />

Rate limiting<br />

Time exceeded<br />

. . .


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

34/37<br />

Un biai lié à la mesure<br />

A very general but largely ignored fact about Internet-related<br />

measurements is that what we can measure in an Internet-like<br />

environment is typically not the same as what we really want to<br />

measure (or what we think we actually measure)<br />

Mathematics and the internet: A source of enormous confusion and<br />

great potential, W. Willinger, D. Alderson and J. C. Doyle, Notices of the<br />

AMS, 2009.<br />

S<br />

A<br />

B<br />

D<br />

C<br />

T<br />

−→ http://www.paris-traceroute.net/


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

35/37<br />

Une source<br />

Pour avoir plus d’informations<br />

→ multiplier les destinations<br />

Problèmes<br />

on ne voit pas les liens transverses<br />

vue proche d’un arbre


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

35/37<br />

Une source<br />

Pour avoir plus d’informations<br />

→ multiplier les destinations<br />

Problèmes<br />

on ne voit pas les liens transverses<br />

vue proche d’un arbre


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

36/37<br />

Plusieurs sources<br />

Pour avoir plus d’informations<br />

→ multiplier les sources<br />

Difficultés<br />

Besoin d’un accès à la machine<br />

Besoin de machines distribuées<br />

En pratique<br />

Peu de sources (∼ 50)<br />

Beaucoup de destinations


Propriétés des graphes de terrain (suite et fin)<br />

Graphes aléatoires<br />

Mesure de la toplogie de l’Internet<br />

37/37<br />

Anti-aliasing<br />

Un routeur : plusieurs adresses IP<br />

traceroute : chaque routeur répond (en théorie) avec l’IP de<br />

l’interface qui envoie le paquet<br />

Plusieurs sources → connaître toutes les IP d’un routeur<br />

anti-aliasing

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!