d´ecomposition et´evaluation des mesures de stabilit´e d'un ...

basepub.dauphine.fr

d´ecomposition et´evaluation des mesures de stabilit´e d'un ...

Université de Tunis Université

Institut Supérieur Paris-Dauphine

de Gestion

DÉCOMPOSITION ET ÉVALUATION DES

MESURES DE STABILITÉ D’UN

PARTITIONNEMENT

Thèse de doctorat en cotutelle présentée et soutenue à

l’Université Paris-Dauphine

pour obtenir le grade de

Docteur en informatique

≪ spécialité ≫ :

Statistique exploratoire multidimensionnelle

par

El MOUBARKI Lassad

soutenue devant le jury composé de

Président Mohamed LIMAM

Professeur à l’Institut Supérieur de Gestion

et vice président de l’université de Tunis

Directeur Pierre CAZES

Professeur à l’Université Paris-Dauphine

Rapporteurs Yves LECHEVALLIER

Directeur de Recherche à l’INRIA

André HARDY

Professeur aux Facultés Universitaires

Notre-Dame de la Paix - Namur

Co-directeur Patrice BERTRAND

scientifique

Maître de conférences à l’Université Paris-Dauphine

Date de soutenance 17 Décembre 2009

École Doctorale Décision, Informatique, Mathématique et Organisation


Remerciements

Je remercie tout d’abord vivement Messieurs Patrice BERTRAND et Ghazi BEL MUFTI

qui ont suivi et encadré scientifiquement mes travaux de recherche, en se coordonnant

d’abord pour mon mastère et ensuite pour ma thèse. Je les remercie particulièrement

pour leurs critiques et leurs suggestions sans lesquelles ce travail n’aurait pu aboutir.

Je remercie également les professeurs Mohamed LIMAM et Pierre CAZES, pour m’avoir

accueilli au sein de leurs équipes et accepté de prendre cette thèse en cotutelle sous leur

responsabilité.

Je remercie tous les membres de jury, et plus particulièrement, Monsieur André HARDY

et Monsieur Yves LECHEVALLIER pour avoir accepté d’être rapporteurs de ma thèse.

Je voudrais aussi remercier tous les développeurs des packages R et Latex que j’ai uti-

lisés intensivement durant cette thèse.

Je remercie mon père Mustapha EL MOUBARKI, ma mère Nafissa NAJAR, ma femme

Wafa BRIKI, mes frères et mes sœurs, qui ont su me soutenir pendant les moments dif-

ficiles.

Un remerciement particulier à mes amis de l’ISG : Mohamed HMIDEN, Bechir DHAOUADI

et Belgacem JENDLI.

Et pour finir, je remercie mes amis au CEREMADE, Mohamed RAHAL et Anouar

HOUMIA, pour la bonne ambiance qui règne entre les doctorants.

3


“L’Université n’entend donner aucune approbation ni improbation aux opinions émises

dans la thèse : ces opinions doivent être considérées comme propres à leurs auteurs”

4


Table des matières

Introduction 9

1 Revue des méthodes de validation d’un partitionnement fondées sur

le critère d’adéquation 15

1.1 Indice de Cali`nski et Harabasz . . . . . . . . . . . . . . . . . . . . . . . 16

1.2 Indice de Krzanowski et Lai . . . . . . . . . . . . . . . . . . . . . . . . 17

1.3 Statistique Silhouette . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

1.4 Indice Jump . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

1.5 Méthode Gap Statistique . . . . . . . . . . . . . . . . . . . . . . . . . . 20

1.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2 Revue des méthodes de validation d’un partitionnement fondées sur

le critère de stabilité 23

2.1 Méthodes de perturbation des données . . . . . . . . . . . . . . . . . . 25

2.2 Stabilité mesurée à l’aide d’indice de co-appartenance . . . . . . . . . . 26

2.2.1 Approche de Ben-Hur, Elisseef et Guyon . . . . . . . . . . . . . 26

2.2.2 Méthode Prediction strength . . . . . . . . . . . . . . . . . . . . 28

2.2.3 Méthode Clest . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.2.4 Indice In-group proportion . . . . . . . . . . . . . . . . . . . . . 31

2.3 Stabilité mesurée par comparaison de partitions avec la méthode hongroise 33

2.3.1 Méthode de Roth, Lange, Braun et Buhmann . . . . . . . . . . 33

2.3.2 Approche de Volkovich, Barzily et Morozensky . . . . . . . . . . 36

2.4 Mesure de l’influence d’un individu sur la stabilité d’une partition . . . 39

2.5 Propriétés théoriques d’une mesure de stabilité d’une partition . . . . . 40

2.5.1 Approche de Ben David et von Luxburg . . . . . . . . . . . . . 41

5


2.5.2 Approche de Tishby et Shamir . . . . . . . . . . . . . . . . . . . 44

2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3 Mesures de stabilité selon les critères de cohésion et d’isolation des

classes 51

3.1 Règles de validité d’une classe et d’une partition selon les critères de

cohésion et d’isolation . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3.2 Modélisation statistique des règles de stabilité d’une partition et de ses

classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

3.2.1 Indices de validité d’une partition et de ses classes . . . . . . . . 54

3.2.2 Cohésion d’une partition . . . . . . . . . . . . . . . . . . . . . . 55

3.2.3 Cohésion d’une classe . . . . . . . . . . . . . . . . . . . . . . . . 56

3.2.4 Isolation d’une partition . . . . . . . . . . . . . . . . . . . . . . 56

3.2.5 Isolation d’une classe . . . . . . . . . . . . . . . . . . . . . . . . 57

3.2.6 Exemple d’illustration . . . . . . . . . . . . . . . . . . . . . . . 57

3.3 Décomposition de quelques mesures de stabilité selon les critères de

cohésion et d’isolation . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

3.3.1 Décomposition de l’isolation d’une partition en fonction de l’iso-

lation des classes . . . . . . . . . . . . . . . . . . . . . . . . . . 59

3.3.2 Décomposition de la cohésion d’une partition en fonction de la

cohésion des classes . . . . . . . . . . . . . . . . . . . . . . . . . 60

3.3.3 Décomposition de l’indice de Rand . . . . . . . . . . . . . . . . 61

3.3.4 Décomposition de l’indice de Jaccard . . . . . . . . . . . . . . . 64

3.3.5 Prediction Strength et indice de confiance . . . . . . . . . . . . 64

3.3.6 Distance de Hamming et indice de confiance . . . . . . . . . . . 65

3.4 Propriétés théoriques des indices de cohésion . . . . . . . . . . . . . . . 66

3.4.1 Tableau croisé . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

3.4.2 Borne inférieure de l’indice de cohésion d’une classe . . . . . . . 68

3.4.3 Borne inférieure de l’indice de Cohésion d’une partition . . . . . 77

3.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

4 Liens objets-classes 81

4.1 Appartenance d’un objet à une classe . . . . . . . . . . . . . . . . . . . 82

6


4.2 Co-appartenance d’un objet à une classe . . . . . . . . . . . . . . . . . 84

4.3 Filiation d’un objet à une classe . . . . . . . . . . . . . . . . . . . . . . 85

4.4 Co-filiation d’un objet à une classe . . . . . . . . . . . . . . . . . . . . 86

4.5 Pouvoir de cohésion d’un objet sur une classe . . . . . . . . . . . . . . 86

4.6 Ressemblance entre objets mesurée par la stabilité . . . . . . . . . . . . 87

4.7 Décomposition de mesures de stabilité selon les liens objets classes . . . 88

4.7.1 Décomposition du critère de cohésion en fonction du score de

filiation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

4.7.2 Décomposition du critère d’isolation en fonction du score de filiation 89

4.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

5 Experimentations 91

5.1 Paramétrage des méthodes de validation . . . . . . . . . . . . . . . . . 92

5.2 Justification du choix de la méthode de classification . . . . . . . . . . 96

5.2.1 Cas d’un jeu de données uniforme . . . . . . . . . . . . . . . . . 96

5.2.2 Cas d’un jeu de données formé par deux classes gaussiennes . . 101

5.2.3 Cas d’un jeu de données structurées en cinq classes non convexes 104

5.3 Recherche du ou des bons nombres de classes . . . . . . . . . . . . . . . 110

5.3.1 Algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

5.3.2 Les modèles des jeux de données simulées . . . . . . . . . . . . . 111

5.3.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

5.4 Application sur des données réelles . . . . . . . . . . . . . . . . . . . . 121

5.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

Conclusion 129

Annexe informatique 133

7


LISTE DES SYMBOLES

X données de référence à classifier et à analyser.

x, x ou y un élément de X.

n nombre d’éléments de l’ensemble X.

Xj

j ème variable descriptive des éléments de X.

sdj

écart-type de la variable Yj.

X espace des données de X muni d’une distribution de probabilité D.

S ou Sj

échantillon de X.

X ′ perturbation de X.

m taille de S.

mC

nombre d’objets de la classe C présents dans l’ensemble S.

p(.) densité de probabilité de la distribution D.

P(.) l’opérateur probabilité de réalisation d’un évènement.

E l’opérateur espérance mathématique.

q dimension de X.

Sap

Ste

échantillon d’apprentissage tiré de X.

échantillon test tiré de X.

k nombre de classes.

Ak(.) ou A(.) opération de classification en k classes en utilisant l’algorithme A.

P ou Pk

partition de X en k classes.

C ou Ci

une classe arbitraire de la partition P .

Q partition obtenue sur un échantillon ou forme bruitée de X.

Qap

Qte

partition de Sap.

partition de Ste.

Classe(x) libellé d’un objet x dans une partition.

ClasseQ(x) ou Q(x) libellé d’un objet x dans la partition Q.

C Q une classe de la partition Q.

nC ou |C| taille de la classe C.

map

mte

taille de Sap.

taille de Ste.

T nombre total d’itérations d’un algorithme donné.

N nombre d’échantillons impliqués dans un processus de validation.

Stab ou Stabk une mesure de stabilité définie par l’utilisateur.

[k] le vecteur (1, . . . , k).

8


Introduction

La classification automatique a pour but de répartir les objets d’un ensemble de données

en plusieurs classes homogènes voire simplement connexes, chaque classe étant bien

différenciée des autres classes. Différentes structures en classes ont été proposées, parmi

lesquelles les partitions et les hiérarchies. Par ailleurs, la plupart des méthodes utilisées

en classification automatique sont des heuristiques dont le but est la détermination de

solutions localement optimales. De nombreux algorithmes automatisant la construction

des classifications ont ainsi été proposés (cf. les traités généraux de Lerman [33], Har-

tigan [25], Jain et Dubes [28], Gordon [22]).

Toutefois, quelque soit la structure des données initiales et donc y compris dans le cas

de données homogènes, l’application d’un algorithme de classification, produit toujours

une partition comportant le nombre de classes demandées par l’utilisateur. Ainsi, rien

ne garantit a priori, la qualité des résultats obtenus. Il s’avère donc qu’une étape de

validation des résultats générés par une classification automatique est indispensable.

Un procédé (ou une méthode) de validation en classification automatique a pour ob-

jectif de trouver une réponse aux trois questions suivantes : (i) Quel est le type de

structure en classes qui existe dans l’ensemble de données à étudier ? (ii) Quelle est la

meilleure méthode de classification qu’il faut utiliser ? (iii) Quel(s) est(sont) le(s) bon(s)

nombre(s) de classes ? La première question est un problème de définition (définition

de la notion de classe). Alors que les deux autres questions concernent la validation

des résultats obtenus par l’application d’un algorithme de classification donné. Deux

approches différentes ont été proposées afin de valider les résultats d’une classification.

9


Une première approche (Bailey et Dubes [3], Gordon [20], Caliński et Harabasz [13], Kr-

zanowski et Lai [31], Sugar et James [45], Rousseeuw [40]) consiste à mesurer l’adéqua-

tion des résultats avec les données initiales. La plupart des indices d’adéquation pro-

posés sont fondés sur le calcul de la dispersion des points entre les classes (inter-classes)

et la dispersion des points dans les classes (intra-classes). Selon cette approche, une

partition valide doit avoir une faible dispersion intra-classes et une forte dispersion

inter-classes. En d’autres termes, plus la dispersion intra-classes est faible, plus les indi-

vidus au sein d’une même classe sont homogènes, et plus la dispersion inter-classes est

forte, plus les individus au sein de deux classes différentes sont hétérogènes. Du point

de vue géométrique, ces deux types de dispersion évaluent la compacité des classes et

l’isolation des classes entre elles. Si le problème est de trouver le meilleur nombre de

classes dans les données, alors il faut choisir la partition qui garantit au mieux ces deux

propriétés, souvent en choisissant la valeur maximale du critère. La question qui se

pose alors est la suivante : si nous choisissons la meilleure partition au sens du critère

d’adéquation, comment juger si la valeur du critère obtenue indique que la structure

générée est valide ? Pour répondre à cette question Bailey et Dubes [3], par exemple,

ont utilisé la méthode Monte Carlo (cf. Barnard [4] ainsi que Hope [26]). Le principe de

cette méthode est de comparer la valeur obtenue du critère à sa distribution sous une

hypothèse nulle exprimant l’absence de structure en classes. Pour déterminer la distri-

bution de l’indice sous l’hypothèse nulle, on simule des jeux de données sans structure.

Puis, pour chacun de ces jeux de données, on calcule la valeur du critère qui évalue

la structure générée par la méthode de classification utilisée sur les données initiales.

Enfin, on teste si la valeur de l’indice obtenue sur les données initiales est en accord

avec les valeurs mesurées sur les données simulées. A l’issue de ce test on décide si la

valeur du critère est significative ou pas, la structure en classes étant validée dans le

cas d’une valeur significative.

La deuxième approche de validation des structures consiste à évaluer la stabilité des

résultats d’une classification par rapport aux différentes perturbations que les données

peuvent subir. Cette perturbation peut prendre plusieurs formes : ajout d’un bruit

blanc aux données initiales (cf. Milligan [36]), omission d’une classe de la partition à

valider (cf. Fisher et Van Ness [17]), omission d’une partie des données (on parle alors

de l’échantillonnage, cf. Bertrand et Bel Mufti [10], Ben-Hur et al. [9]), omission ou

10


ajout de variables (cf. Milligan [36]), ajout ou omission d’un individu (cf. Cheng et

Milligan [14], [15]). La stabilité des résultats de la classification est mesurée par l’écart

entre deux types de structures. Ben-Hur et al. [9], par exemple, mesurent l’écart entre

deux partitions obtenues sur deux échantillons aléatoires simples tirés des données ini-

tiales. Une autre méthode mesurant la stabilité d’une partition, consiste à retirer, à

chaque fois, un élément de l’ensemble des données, puis à mesurer l’influence du retrait

de cet élément sur la classification. Cette approche a été étudiée par Gordon et Cata

[23] ainsi que par Cheng et Milligan [15] qui distinguent deux types d’individus : ceux

qui favorisent une certaine structure de classification sur les données et ceux qui, au

contraire, lui sont défavorables ou inhibiteurs.

Une autre façon de mesurer la stabilité d’une partition est d’appliquer la technique de

validation croisée. Le principe de cette technique est d’évaluer l’écart entre les classifica-

tions obtenues sur un échantillon d’apprentissage et celles obtenues sur un échantillon

test. Cette approche consiste ici à diviser aléatoirement les données de base en M

sous-échantillons, puis appliquer la même méthode de partitionnement d’une part, à un

échantillon de taille m (échantillon d’apprentissage), et d’autre part, à un échantillon

test constitué des éléments n’appartenant pas à l’échantillon d’apprentissage (on peut

choisir M = 2). Ensuite, on mesure l’écart entre la partition obtenue sur l’échantillon

test et celle obtenue en affectant les éléments de l’échantillon test à la partition obtenue

sur l’échantillon d’apprentissage et ce en utilisant une règle d’affectation préalablement

définie. Ainsi, plus cet écart est faible, plus la partition générée par la méthode de

classification sur l’ensemble tout entier est valide. Cette technique a été développée par

McIntyre et Blashfield [35], Smith et Dubes [44], Breckenridge [12] et a été récemment

utilisée par Tibshirani et Walther [47], Kapp et Tibshirani [29], Dudoit et Fridlyand

[16], Roth et al. [39].

Les méthodes de validation basées sur la stabilité des structures sont de plus en plus uti-

lisées dans la pratique, mais relativement peu d’attention a été accordée à leurs aspects

théoriques. Les méthodes de stabilité proposées ne tiennent pas compte de l’influence

du choix de l’algorithme de classification. Récemment, Ben-David et von Luxburg [7] et

Ben-David et al. [8] ont montré que si la fonction objectif d’un algorithme de classifica-

tion à centre possède un optimum unique et que si la taille des données est importante,

11


alors, même si la partition étudiée n’est pas valide, elle peut être stable. Par ailleurs,

si la fonction objectif possède plusieurs optimums locaux, alors la partition devient

instable. Dans ces analyses théoriques, les données à analyser ne sont pas considérées

comme des populations complètes à analyser mais comme des échantillons tirés d’un

espace de données, qui est de taille infinie, et muni d’une distribution de probabilité

inconnue. En partant de cette modélisation, Ben-David et von Luxburg [7] définissent

une notion générale de stabilité d’une partition. Ensuite, ils introduisent la notion d’al-

gorithme “risque-convergent” et montrent par la suite que ce type d’algorithme est

stable sur n’importe quelle partition où l’optimum est unique et instable dans le cas

contraire. Ces conclusions ont été reprises par Bertrand et al. [11], où elles ont été

illustrées par des simulations sur des mélanges de lois gaussiennes ainsi que sur des

données simulées uniformément. Très récemment Shamir et Tishby [43, 42] ont proposé

une solution possible au problème soulevé par Ben-David et von Luxburg [7]. La solu-

tion proposée consiste à multiplier le critère d’instabilité par la racine carré de la taille

de l’échantillon. Shamir et Tishby [43] [42] ont montré formellement, pour une classe

d’algorithmes de classification, qu’en normalisant ainsi les mesures de stabilité, celles-ci

prennent en compte l’importance de la densité des points sur les frontières des classes

ainsi que l’importance de la variance de chacune des classes de la partition étudiée.

Un des problèmes majeurs en classification automatique est qu’il n’existe pas une

définition précise de la notion de classe. La plupart des méthodes de validation fondées

sur le critère d’adéquation sont le plus souvent basées sur la mesure de la dispersion des

points entre les classes et dans les classes. Ainsi, ces méthodes favorisent généralement

les partitions ayant une structure en classes sphériques et convexes. Cependant, la di-

versité des données recueillies dans différentes disciplines scientifiques montre que la

structure des classes est souvent beaucoup plus complexe. Les mesures de stabilité

d’une partition, proposées dans la littérature, ne supposent pas d’avance une forme

géométrique précise des classes. Cet aspect est plutôt déterminé par le critère de la

méthode de classification utilisée. Ainsi, l’approche basée sur le critère de stabilité

possède l’avantage d’être plus efficace pour identifier des structures en classes plus di-

verses et plus complexes. Par ailleurs, la majorité des méthodes de stabilité proposées

utilisent des valeurs globales, i.e. elles servent essentiellement à informer l’utilisateur si

la partition étudiée est globalement stable (valide) ou non. D’autre part, peu d’attention

12


a été accordée aux classes elles-mêmes de la partition étudiée. L’analyse de la validité

de chaque classe est utile. Cette analyse met à la disposition de l’utilisateur des infor-

mations supplémentaires capables de faciliter l’interprétation typologique des classes

d’une partition. A titre d’exemple, si un algorithme de classification fournit une parti-

tion contenant une classe très compacte, ceci signifie qu’il existe une forte ressemblance

entre les objets de cette classe. Dans le même sens, si une partition contient deux

classes faiblement isolées entre elles, alors ils existent des objets de ces deux classes

qui possèdent une ou plusieurs propriétés typologiques communes aux deux classes.

L’intérêt de ce type d’analyse devient plus important lorsque les données sont de forte

dimensionnalité et lorsque la visualisation plane des données est impossible.

L’objectif principal de ce travail de recherche est de proposer, en utilisant le critère de

stabilité, une stratégie générale de validation d’une partition en étudiant les aspects de

cohésion et d’isolation des classes. Cette stratégie vise à améliorer l’analyse de stabilité

d’une partition en montrant que celle-ci s’explique par les aspects de cohésion et d’iso-

lation des classes, et aussi par les propriétés héritées par un individu de sa propre classe.

Dans un premier chapitre, nous exposons les principaux indices mesurant l’adéquation

et qui ont eu une importance de plus en plus accrue dans la littérature. Nous présentons

les indices de Cali`nski et Harabasz [13], Krzanowski et Lai [31], Silhouette [40], Jump

[45] ainsi que la procédure Gap statistique de Tibshirani et al. [48]. Dans un deuxième

chapitre, nous présentons les méthodes de validation fondées sur le critère de stabilité

d’une partition.

En utilisant les règles de stabilité, proposées par Bertrand et Bel Mufti [10], nous

définissons dans le troisième chapitre nos indices de cohésion et d’isolation d’une parti-

tion et de ses classes. Nous illustrons l’utilité théorique de ces indices en montrant que

la cohésion et l’isolation d’une partition peuvent être décomposées en fonction de l’iso-

lation et de la cohésion d’une classe. Nous montrons également que d’autres indices de

stabilité, tel que l’indice de Rand et l’indice de Jaccard [27], sont aussi décomposables

en fonction de l’isolation et de la cohésion des classes d’une partition.

Ensuite, dans un quatrième chapitre, en se basant sur le critère de stabilité des objets

13


d’une partition, nous définissons des mesures de lien entre objets et classes d’une parti-

tion, parmi lesquelles nous citons l’indice de filiation d’un objet à une classe. Cet indice

estime le pourcentage de propriétés héritées par un objet d’une classe donnée. A la fin

de ce chapitre, nous montrons que la cohésion ainsi que l’isolation d’une classe sont

décomposables en fonction de cet indice de filiation des objets.

Dans le dernier chapitre, nous définissons notre stratégie de validation basée sur l’estima-

tion de la cohésion et de l’isolation des classes. Ensuite, nous présentons des illustrations

de notre stratégie de validation sur des jeux de données réelles et simulées. A la fin de ce

chapitre, nous présentons des simulations intensives visant à comparer notre stratégie de

validation aux autres méthodes de validation en testant son efficacité en ce qui concerne

la recherche du ou des bon(s) nombre(s) de classes.

14


Chapitre 1

Revue des méthodes de validation

d’un partitionnement fondées sur le

critère d’adéquation

Plusieurs méthodes de classification de différents types ont été proposées et sont actuel-

lement toujours employées pour l’analyse de données recueillies dans diverses disciplines

scientifiques. Parallèlement, relativement peu d’attention a été accordée à la proposition

de méthodes générales de validation des résultats obtenus par ces méthodes. La première

approche empirique qui a été proposée en validation d’une classification consiste à définir

un indice d’adéquation entre la structure en classes et l’ensemble de données étudiées.

Ces méthodes sont généralement basées sur le calcul de critères évaluant la disper-

sion intra-classes et la dispersion inter-classes. Quelques revues de la littérature ont été

proposées sur la validation en utilisant des critères d’adéquation parmi lesquelles nous

citons l’article de Milligan et Cooper [37].

Dans ce chapitre, nous nous proposons de présenter des méthodes de validation évaluant

les critères de cohésion et d’isolation d’une partition en utilisant des indices mesurant

la dispersion des points dans les classes et la dispersion des points entre les classes.

Les critères que nous présentons par la suite diffèrent essentiellement par leurs façons

de mesurer ces deux types de dispersion. Nous commençons par présenter le critère

de Cali`nski et Harabasz [13] ainsi que celui de Krzanowski et Lai [31] qui sont classés

comme les meilleurs critères d’adéquation parmi les 30 critères testés dans l’article de

15


Milligan et Cooper [37]. Ces deux critères reposent sur le calcul de la variance dans

les classes et la variance entre les classes. Nous présentons également les approches de

validation Silhouette [40], Jump [45] et Gap statistique [48] qui ont proposé une façon

originale pour mesurer la dispersion des points dans les classes d’une partition.

Dans ce chapitre, ainsi que dans les chapitres qui suivent, nous notons X l’ensemble

(de référence) des objets à classifier, n la taille de X, P une partition de X en k classes,

q le nombre de variables décrivant les objets de X et C une classe arbitraire de la

partition P . Nous désignerons indifféremment les éléments de l’ensemble X soit par le

terme individu soit par le terme objet.

1.1 Indice de Cali`nski et Harabasz

Partant de l’idée qu’une partition valide est une partition présentant un bon niveau de

cohésion ainsi qu’un bon niveau d’isolation, Cali`nski et Harabasz [13] ont proposé un

rapport pondéré des inerties inter-classes et intra-classes notés respectivement par Bk

et Wk. La quantité Wk est la somme des carrés des distances séparant les objets de X

aux centres de leurs propres classes. Alors que la quantité Bk est égale à la somme des

carrés des distances séparant les centres de gravité de chaque classe au centre de gravité

de l’ensemble du nuage de points. Ces deux quantités sont définies ainsi :

Wk(P ) =

Bk(P ) = 1

n

k

d(xi, gj) 2 ,

j=1 i∈Cj

k

njd(gj, g) 2 .

j=1

avec g le centre de gravité de l’ensemble de données, gj le centre de gravité de la classe

Cj, xi l’individu numéro i (i = 1, ..., n) et nj le cardinal de la classe Cj. L’indice de

Cali`nski et Harabasz [13] évaluant conjointement les critères isolation et cohésion d’une

partition P de X est défini par l’expression suivante :

CH(P ) = Bk(P )/(k − 1)

. (1.1)

Wk(P )/(n − k)

16


D’après l’expression de l’indice CH, plus les classes sont compactes plus l’inertie intra-

classes (Wk) a tendance à diminuer et plus les classes sont isolées plus l’inertie inter-

classes (Bk) a tendance à augmenter. Ainsi une forte valeur de CH indique un bon

niveau de cohésion ainsi qu’un bon niveau d’isolation de la partition étudiée. L’indice

CH est à double usage : il est utilisé pour valider le choix du bon nombre de classes k,

mais aussi pour comparer deux ou plusieurs partitions obtenues par différentes méthodes

de classification. Soit Ω un ensemble de partitions à comparer : par exemple, Ω peut

être un ensemble de partitions ayant le même nombre de classes mais obtenues par des

méthodes de classification différentes. Mais Ω peut aussi être un ensemble de partitions

obtenues par la même méthode de classification mais ayant des nombres de classes

différents. La meilleure partition P ⋆ au sens de l’indice CH est :

P ⋆ = arg max CH(P ).

P ∈Ω

(1.2)

L’indice CH est le plus performant selon les tests effectués par Milligan et Cooper

[37]. Toutefois, celui-ci possède deux inconvénients majeurs. Le premier inconvénient

est que cet indice n’est pas défini dans le cas où k = 1. Il est, par conséquent, incapable

d’identifier le cas d’absence de structure en classes. Le second inconvénient est que, vu

son expression mathématique basée sur le calcul de variance, cet indice a tendance à

favoriser les classes ayant une forme sphérique et à défavoriser les classes ayant une

structure allongée ou non convexe.

1.2 Indice de Krzanowski et Lai

Tout comme l’indice CH, l’indice proposé par Krzanowski et Lai [31] utilise la variance

dans les classes Wk mais en évaluant son évolution par rapport aux partitions en k − 1

et en k + 1 classes. Plus précisément, Krzanowski et Lai [31] ont proposé un indice,

validant essentiellement le choix du nombre de classes, basé sur le calcul d’une différence

pondérée de l’inertie intra-classes lorsque les données sont partitionnées en k, en k − 1

et en k + 1 classes. L’indice proposé est défini ainsi :

17


KL(Pk) =

DIF F (k)

|

DIF F (k + 1) |,

avec

DIF F (k) = (k − 1) 2/q Wk−1 − k 2/q Wk.

A noter que cette quantité fait intervenir la dimension q de l’ensemble des données.

Soit Ω un ensemble de partitions de X, noté Pk (k = 2, . . . , kmax) ayant des nombres

de classes différents et obtenues par une même méthode de classification. La partition

ayant le nombre optimal de classes au sens de l’indice KL est :

Pk

⋆ = arg max KL(Pk).

Pk∈Ω

De même que l’indice CH, l’indice KL ne peut pas identifier le cas d’absence de struc-

ture en classes. Toutefois, l’indice KL est mieux adapté que l’indice CH pour valider

une partition ayant une structure en classes allongées (cf. Bertrand et al. [6]). Par

ailleurs, vu son expression mathématique reposant uniquement sur la dispersion intra-

classes, l’indice KL aurait tendance à être moins performant lorsque la partition à

valider contient des classes de faible isolation.

1.3 Statistique Silhouette

La statistique Silhouette, proposée par Rousseeuw [40], est aussi fondée sur l’évaluation

des critères de dispersion intra-classes et inter-classes. Etant donné un objet xj de Ci,

l’indice Silhouette fait intervenir une première quantité qui mesure la moyenne des

distances séparant l’objet xj des autres objets de sa propre classe (i.e. la cohésion

autour du point xj) :

a(xj) =

nCi

1

d(xj, xt).

− 1

xt∈Ci

La deuxième quantité, qui apparaît dans cet indice, mesure l’isolation de xj par rapport

18


aux autres classes, soit

b(xj) = min

s=i

1


nCs xt∈Cs

d(xj, xt).

où d(xj, xt) est la distance entre les objets xj et xt. La quantité a(xj) est la moyenne

des distances séparant l’objet xj des autres objets de sa propre classe. Par contre, la

quantité b(xj) est la moyenne des distances entre l’objet xj et les objets de la classe la

plus proche de xj. La statistique Silhouette, mesurant conjointement les deux critères

d’isolation et de cohésion, proposée par Rouseeuw [40] est la suivante :

Silhouette(Pk) = 1

n

n

j=1

b(xj) − a(xj)

. (1.3)

max{b(xj), a(xj)}

Selon cette méthode, la meilleure partition est celle maximisant la valeur de Silhouette(Pk).

Cette quantité peut être décomposée de la manière suivante :

Silhouette(Pk) = 1


n

n

j=1


b(xj)


max{b(xj), a(xj)}

1


n

n

j=1


a(xj)

max{b(xj), a(xj)}

(1.4)

= 1


k



b(xj)


n max{b(xj), a(xj)}

s=1 xj∈Cs


(1)

1


k



a(xj)

n max{b(xj), a(xj)}

s=1 xj∈Cs


(2)

(1.5)

D’après la relation 1.5 nous concluons que la statistique Silhouette se décompose en

deux quantités. Une première quantité qui mesure la dispersion inter-classes, ou encore

l’isolation entre les classes, et une deuxième quantité qui mesure la dispersion intra-

classes, en d’autres termes la cohésion des classes. Si Ω est l’ensemble de partitions à

comparer, la meilleure partition au sens de l’indice Silhouette est :

P ⋆ = arg max Silhouette(P ).

P ∈Ω

Cette statistique est à double usage : elle peut être utilisée pour valider le nombre de

classes mais aussi pour comparer plusieurs partitions obtenues par des méthodes de

classification différentes.

19


1.4 Indice Jump

L’indice Jump, proposé par Sugar et James [45], rejoint le principe de l’indice KL dans

la mesure où il compare la dispersion des points dans les classes de deux partitions

n’ayant pas le même nombre de classes. Toutefois, l’indice Jump possède une originalité

par rapport à l’indice KL dans la mesure où il est défini dans le cas où k = 1 et donc il

est apte à identifier le cas d’absence de structure en classes. A noter que l’indice Jump

fait aussi intervenir la dimension de l’ensemble des données X. L’indice Jump mesurant

la dispersion intra-classes est fondé sur la quantité :

Distorionk = 1

nq

n

min

j=1,...,k d(xi, cj) (Distortion0 = 0), (1.6)

i=1

où d(xi, cj) est la distance euclidienne séparant l’objet xi du centre cj de la classe Cj.

L’indice Jump est fondé essentiellement sur l’idée d’évaluer l’importance de l’écart de

la dispersion intra-classes entre les partitions en k et en k − 1 classes :

Jump(Pk) = Distorion −γ

k

− Distorion−γ k−1 . (1.7)

Sugar et James [45] conseillent d’utiliser une valeur de γ égale à q

. La partition ayant

2

le nombre optimal de classes selon le critère Jump est :

Pk

∗ = arg max Jump(Pk).

Pk∈Ω

1.5 Méthode Gap Statistique

Tout comme les autres méthodes que nous avons présentées dans ce chapitre, la méthode

Gap statistique (cf. Tibshirani et Walther [47]) repose sur le calcul de la dispersion

des points dans les classes de la partition étudiée. Par ailleurs, ce qui distingue la

méthode Gap statistique des autres méthodes c’est sa façon d’interpréter la quantité

Wk. Plus précisément, la méthode Gap statistique consiste à comparer la dispersion

intra-classes Wk obtenue sur les données de référence X à la dispersion intra-classes

estimée sous l’hypothèse d’un modèle nul exprimant l’absence de structure en classes.

Plusieurs modèles nuls exprimant l’absence de structure en classes sont possibles (cf.

Gordon [21]). Parmi ces modèles, Tibshirani et Walther [47] proposent d’utiliser les

20


deux modèles suivants : le premier consiste à simuler aléatoirement et uniformément n

points dans l’hyper-rectangle ayant pour bornes les valeurs minimales et maximales de

chacune des variables descriptives. Le second modèle consiste à simuler aléatoirement

et uniformement des points en se référant à l’orientation des composante principales des

données de référence. Les étapes décrivant le processus de génération des points selon

ce modèle sont les suivantes :

– Centrer les colonnes de la matrice X par rapport à leurs moyennes, soit Y la matrice

résultante.

– Effectuer la décomposition en valeurs singulières de la matrice Y : Y = U D V T .

– Transformer la matrice Y : Y ′ = Y V .

– Générer uniformement un ensemble de n points dans l’hyper-rectangle ayant pour

bornes les valeurs minimales et maximales de chacune des colones de Y ′ . La matrice

résultante est Z ′ .

– Transformer la matrice Z ′ : Z = Z ′ V T .

L’indice Gap statistique proposé pour valider le choix du nombre de classes est essen-

tiellement une normalisation de la quantité Wk par rapport à un model nul exprimant

l’absence de structure en classes. Le processus de classification et de simulation décrivant

la méthode Gap statistique est résumé par l’algorithme 1.

Algorithme 1 : Méthode Gap statistique

Entrées :

• X : ensemble de données de référence à classifier,

• kmax : nombre maximum de classes à tester,

• A : algorithme de classification,

• H0 : hypothèse nulle exprimant l’absence de structure en classes,

• Zb : données numéro b (b = 1, . . . , B) simulées sous H0.

H0

Sorties : k∗ : le nombre optimal de classes .

1: pour k = 1 à kmax faire

2: Classifier les données X en k classes, en utilisant l’algorithme A, et calculer la

dispersion intra-classes Wk.

3: Classifier, en utilisant l’algorithme A, chacun des jeux de données Zb en k classes

H0

et calculer, pour chacune des partitions obtenues, l’inertie intra-classes Wk,b.

21


4: Calculer l’écart :

Gap(k) = (1/B)

B

log(Wk,b) − log(Wk).

5: Calculer la moyenne l = 1 B B b=1 log(Wk,b) et en déduire l’écart-type corrigé :

6: fin pour

b=1




sk = 1 1

(1 + )

B B

7: Déduire le nombre optimal de classes :

1.6 Conclusion

B


log(Wk,b) − l

b=1

k ∗ = min {k | Gap(k) ≥ Gap(k + 1) − sk+1}.

k=1,...,kmax

Un des problèmes majeurs en classification automatique est qu’il n’existe pas de définition

exacte de la notion de classe. Intuitivement, définir une classe consiste à définir un critère

qui garantit l’isolation et la cohésion de celle-ci. Les indices présentés dans ce chapitre

reposent sur une définition contraignante de la notion de classe. Selon ces critères une

classe valide est constituée par des individus plus proches les uns des autres que n’im-

porte quel autre individu d’une autre classe. Ainsi géométriquement, ces indices auront

tendance à favoriser les structures en classes sphériques, ce qui n’est pas réellement

toujours le cas. De plus, ces méthodes ne tiennent pas compte du critère utilisé pour

classifier l’ensemble de données de référence. Par exemple il est contradictoire, de va-

lider une partition obtenue par la méthode de lien minimum, capable d’identifier des

structures en classes allongées et même non convexes, par l’indice de CH favorisant les

structures en classes sphériques. Ainsi, il s’avère nécessaire de développer de nouvelles

approches reposant sur un critère de validation moins contraignant comme le critère de

stabilité d’une partition que nous nous proposons de présenter dans le chapitre suivant.

22

2

.


Chapitre 2

Revue des méthodes de validation

d’un partitionnement fondées sur le

critère de stabilité

Dans ce chapitre nous nous intéressons à l’approche empirique de validation en classifi-

cation qui consiste à estimer la stabilité des résultats d’une classification. Une classifi-

cation est généralement supposée stable si en effectuant des petits changements sur les

données, les classes initiales restent inchangées. Une revue de la littérature sur la stabi-

lité en classification a été proposée dans Cheng et Milligan [15]. Mais depuis, plusieurs

nouvelles approches de validation mesurant la stabilité des résultats, ont été introduites,

comme par exemple celles de Ben-Hur et al. [9], Tibshirani et Walther [47], Kapp et

Tibshirani [29], Roth et al. [39], et Bertrand et Bel Mufti [10]. Les méthodes de valida-

tion relevant de cette approche peuvent être divisées en trois types.

Le premier type de méthodes, utilisant le critère de stabilité d’une partition, est fondé

sur la comparaison de la co-appartenance des paires d’objets de l’ensemble de données

de référence. Parmi ces méthodes, nous citons celles de Ben-Hur et al. [9], Tibshirani

et Walther [47], Bertrand et Bel Mufti [10] (cf. section 2).

Le deuxième type de méthode consiste à comparer l’appartenance de chacun des objets

des données de référence en utilisant la méthode hongroise (cf. Kuhn [32], Roth et al.

[39], Volkovich et al. [49]). La méthode hongroise est utilisée par ce type d’approche

23


afin de résoudre le problème d’affectation aléatoire des libellés des classes qui, le plus

souvent, est dû à la sensibilité des méthodes de classification utilisées aux perturbations

auxquelles les données sont soumises (cf. section 3).

Enfin, une troisième approche consiste à mesurer l’influence d’un individu sur la sta-

bilité d’une partition. Cette approche a été proposée par Cheng et Milligan [14]. En

étudiant l’effet de l’absence d’un individu sur la stabilité d’une partition, cette approche

vise à diviser l’ensemble des objets de la population en trois groupes : groupe d’indi-

vidus inhibiteurs, groupe d’individus facilitateurs et groupe d’individus sans influence

(cf. section 4).

Contrairement à l’approche fondée sur le critère adéquation, les méthodes de valida-

tion fondées sur le critère de stabilité d’une partition ne supposent pas une définition

particulière de la notion de classe. Les propriétés des classes résultent du critère de la

méthode de classification utilisée. La question qui se pose à ce niveau est “existe-il un

lien entre le critère de stabilité d’une partition et le critère de la méthode de classi-

fication utilisée pour retrouver les classes dans l’ensemble de données de référence ” ?

Récemment, Ben-David et von Luxburg [7] ont montré que lorsque les données sont de

très grande taille, ils existent des cas où les résultats de certaines méthodes de classi-

fication sont stables même si les données sont sans structure. Ainsi Ben-David et von

Luxburg [7] ont mis en cause la fiabilité des résultats des méthodes de validation fondées

sur le critère de stabilité d’une partition. Plus récemment, Shamir et Tishby [43, 42]

ont proposé une solution simple et originale à ce problème. Cette solution consiste à

normaliser le critère de stabilité par rapport à la taille des données. Plus précisemment,

la normalisation qu’ils ont proposée consiste à multiplier l’indice d’instabilité par la

racine carré de la taille des échantillons.

La plupart des procédures de validation, que nous nous proposons de présenter dans ce

chapitre, sont exposées comme étant des méthodes de détermination du bon nombre de

classes. Ces méthodes sont présentées ainsi car, dans la littérature, le problème le plus

abordé par ces méthodes est celui de la recherche du bon nombre de classes. Toutefois,

la plupart d’entre elles peuvent aussi servir à comparer des partitions obtenues par des

méthodes de classification différentes.

24


Par abus de notation, nous désignons par X la matrice individus-variables représentant

l’ensemble de données de référence contenant n objets décrits par q variables Xj (i.e.

Xj est la j ème colonne de la matrice X). Nous notons aussi Classe(x) le libellé, i.e. le

numéro de classe, d’un objet x ∈ X dans la partition P .

2.1 Méthodes de perturbation des données

Selon l’approche fondée sur la stabilité, une partition est stable si en perturbant un peu

les données, les classes restent inchangées ou ne changent pas beaucoup. Ainsi, le choix

de la technique de perturbation est crucial pour cette approche. Nous verrons dans le

chapitre expérimentation que le choix de la technique de perturbation peut influencer

notablement les résultats fournis par le critère de stabilité.

Dans notre contexte, la perturbation de l’ensemble de données consiste à effectuer une

légère modification sur l’ensemble X des individus. Dans ce qui suit, nous présentons 2

types de perturbations, à savoir le réechantillonnage et le bruitage.

Rééchantillonnage des données

Il existe deux façons de perturber les données en les rééchantillonnant. La première

consiste à éliminer au hasard plusieurs objets de l’ensemble X (cf. Ben-Hur et al. [9]).

Plus précisément, cette technique consiste à tirer, au hasard et sans remise, m (m < n)

objets de l’ensemble X. Chaque objet de X a la même probabilité 1

d’être choisi. Dans

n

certains cas, l’élimination peut être effectuée à tour de rôle sur un seul individu de

l’ensemble X : c’est, par exemple, le cas de l’approche de Cheng et Milligan [15].

La seconde façon consiste à appliquer le principe de la validation croisée. Cette tech-

nique consiste à diviser au hasard l’ensemble X des données de référence en deux blocs

de tailles pouvant être inégales. Un des blocs constitue l’échantillon d’apprentissage sur

lequel est formulé le modèle et sont élaborées les règles de décision ou d’affectation.

L’autre bloc constitue l’échantillon test sur lequel sont appliquées et estimées les per-

formances du modèle. L’utilisation de la validation croisée pour valider une partition a

été introduite par Breckenridge [12], puis reprise par d’autres auteurs comme Kapp et

25


Tibshirani [29] qui l’ont utilisée pour déterminer le bon nombre de classes.

Bruitage des données

Une autre manière de perturber les données consiste à faire bouger légèrement l’en-

semble de tous les points du nuage formé par la matrice X. Soit xij la coordonnés de

l’objet i (i = 1, . . . , n) sur la j ème dimension (j = 1, . . . , q) et sd(Xj) l’écart-type de la

variable Xj. L’opération de bruitage consiste, par exemple, à ajouter une valeur dis-

tribuée uniformément dans l’intervalle [−5%sd(Xj), +5%sd(Xj)] à chacune des valeurs

xij de la colonne j de la matrice X.

2.2 Stabilité mesurée à l’aide d’indice de co-apparte-

nance

Dans ce paragraphe nous présentons les méthodes de validation évaluant la stabilité

d’une partition en comparant la co-appartenance des paires d’objets dans deux parti-

tions différentes d’une même partie S de l’ensemble X. Les procédures de validation,

présentées dans la suite du texte, sont basées sur des indices de co-appartenance mesu-

rant la similitude entre des partitions obtenues sur des données perturbées.

2.2.1 Approche de Ben-Hur, Elisseef et Guyon

La méthode proposée par Ben-Hur et al. [9] a pour objectif de mesurer la similarité

entre deux partitions obtenues sur des échantillons extraits des données de base. Des

similarités élevées entre les paires de partitions indiquent la validité de la partition de

référence. Pour mesurer la similarité entre deux partitions, plusieurs indices ont été

proposés (cf. Hubert et Arabie [27]). Soient deux partitions différentes Q1 et Q2 d’un

même ensemble S ⊆ X, et soit N11 le nombre de paires d’objets classés ensemble selon

Q1 et Q2, N10 le nombre de paires d’objets classés ensemble selon Q1 et séparés selon

Q2, N00 le nombre de paires d’objets séparés selon Q1 et Q2 et N01 le nombre de paires

d’objets séparés selon Q1 et classés ensemble selon Q2. Parmi les indices mesurant la

26


similarité entre deux partitions, rappelons la définition de l’indice de corrélation, l’indice

de Rand et l’indice de Jaccard :

Algorithme

Cor(Q1, Q2) =

RAND(Q1, Q2) =

Jac(Q1, Q2) =

N11

, (2.1)

(N11 + N10)(N01 + N11)

N11 + N00

N11 + N10 + N01 + N00

N11

N11 + N10 + N01

, (2.2)

. (2.3)

En pratique la procédure de validation proposée se résume par l’algorithme 2.

Algorithme 2 : Méthode de Ben-Hur et al. [9]

Entrées :

• X : ensemble de données de référence à classifier,

• kmax : nombre maximum de classes à tester,

• A : algorithme de classification,

• N : nombre maximum d’échantillons,

• f : taux d’échantillonnage.

Sorties : k ∗ : nombre optimal de classes.

1: Générer, aléatoirement et sans remise, N échantillons de taille ⌊nf⌋ 1 de X. La taille

de N dépend du nombre T de paires que nous cherchons à comparer.

2: Tirer, sans remise, T paires d’échantillons de l’ensemble de N échantillons. Ici le

nombre T dépend du niveau de précision désiré par l’utilisateur.

3: pour k = 2 à kmax faire

4: Partitionner chacun des échantillons figurant dans ces T paires, en k classes, en

utilisant la même méthode A de classification.

5: Calculer l’indice de stabilité Stabt,k (t = 1, ..., T ) (i.e. l’indice de similarité) entre

les T paires de partitions, par exemple, en utilisant l’indice de RAND. A la fin

1. ⌊nf⌋ désigne la partie entière de nf.

27


de cette étape, nous obtenons le vecteur StabT,k de taille T .

6: fin pour

7: Comparer les distributions empiriques des vecteurs StabT,k lorsque k varie. Le

meilleur nombre de classes, k ∗ , est le plus grand nombre k ayant une distribution

de similarités concentrée sur une valeur proche de 1.

Pour choisir le bon nombre de classes, Ben-Hur et al. [9] définissent une stratégie

générale qui consiste à comparer les fonctions de répartition des kmax séries de va-

leurs de similarité StabT,k. La meilleure partition est celle ayant le nombre de classes

le plus élevé tout en étant globalement stable. En pratique, nous pouvons utiliser le

critère de la moyenne de ces séries de valeurs et choisir ainsi le bon nombre de classes :

k ∗ = max {k :

k=2,...,Kmax

1

T

B

t=1


Stabt,k > seuil},

où seuil est une valeur de stabilité à partir de laquelle une partition peut être considérée

comme étant stable, par exemple, seuil = 0.9.

2.2.2 Méthode Prediction strength

La méthode de Ben-Hur et al. [9], comme l’indice Prediction strength proposée par

Tibshirani et Walther [47], repose sur la comparaison de la co-appartenance des paires

d’individus mais en appliquant la technique de la validation croisée. L’objectif principal

de cette méthode est d’identifier le bon nombre de classes. La méthode proposée est

décrite ci-dessous selon la procédure de l’algorithme 3. Le nombre optimal de classes

est déterminé à l’étape 11 de l’algorithme dans laquelle la moyenne de l’indice stabilité

est comparée à une valeur seuil. Tibshirani et Walther [47] n’ont pas défini de stratégie

objective qui permette d’estimer la valeur du paramètre seuil. Ce paramètre dépend

essentiellement des exigences de l’utilisateur et varie généralement entre 0.8 et 0.95.

Algorithme 3 : Méthode Prediction strength

Entrées :

• X : ensemble de données de référence à classifier,

• kmax : nombre maximum de classes à tester,

28


• A : algorithme de classification,

• T : nombre total d’itérations,

• seuil : une valeur entre 0.8 et 0.95 préalablement définie par l’utilisateur,

• fte : fraction de l’échantillon test.

Sorties : k ∗ : nombre optimal de classes.

1: pour k = 1 à kmax faire

2: pour t = 1 à T faire

3: Diviser aléatoirement l’ensemble de données X en deux sous-échantillons Ste

et Sap selon la fraction fte.

4: Classifier, en utilisant la méthode A, Sap en k classes. La partition obtenue est

Qap = C ap

1 , . . . , C ap

k .

5: Classifier, en utilisant la même méthode A, Ste en k classes. La partition obte-

nue est Q 1 te = C te

1 , . . . , C te

k .

6: Classifier chaque objet de Ste en l’affectant au centre de la classe de la partition

Qap qui lui est la plus proche. La partition obtenue est notée Q 2 te.

7: Soient N11(C te

i ) le nombre de paires d’objets de la classe Cte i (i = 1, . . . , k)

qui sont classés ensemble dans la partition Q2 te et nte i la taille de la classe Cte Calculer l’indice Prediction strength :

i .

8: fin pour

9: Calculer la moyenne ps k = 1

T

10: fin pour

ps t (k) = min

C te

i ∈Q1 te

T

t=1

N11(C te

i )

nte i (nte i

− 1)/2.

ps t (k) et l’écart-type sdk = 1

T

T

(pst (k) − psk) 2 .

11: Déduire le nombre optimal de classes : k∗ = max {k | psk + sdk ≥ seuil}.

k=1,...,kmax

La quantité ps t (k), calculée à l’étape 7, est la proportion de paires d’objets de la classe

C te

i qui sont classés ensemble dans la partition Q 2 te. Nous verrons dans le chapitre

suivant que cette quantité correspond au minimum des indices de cohésion des classes

de la partition Q 1 te.

29

t=1


2.2.3 Méthode Clest

La méthode Clest, proposée par Dudoit et Fridlyand [16], constitue un compromis entre

la méthode Gap statistique et la méthode Prediction strength. En utilisant la technique

de la validation croisée, le principe de cette méthode se rapproche de celui de la méthode

Prediction strength. D’autre part, et comme la méthode Gap statistique, elle interprète

la valeur de son critère de stabilité par rapport à un modèle nul exprimant l’absence de

structure en classes. Les modèles nuls applicables avec cette méthode sont les mêmes

que ceux utilisés par la méthode Gap statistique. Le processus de validation de cette

méthode est résumé dans l’algorithme 4.

Algorithme 4 : Méthode Clest

Entrées :

• X : ensemble de données de référence à classifier,

• Kmax : nombre maximum de classes à tester,

• A : algorithme de classification,

• T : nombre total d’itérations,

• fte : fraction de l’échantillon test,

• pmax, δmin : deux seuils de significativité prédéfinis par l’utilisateur.

Sorties : k ∗ : nombre optimal de classes.

1: pour k = 1 à kmax faire

2: pour t = 1 à T faire

3: Diviser X en deux sous-échantillons, un échantillon apprentissage Sap et un

échantillon test Ste de taille ⌊nfte⌋.

4: Classifier le sous-échantillon Sap en k classes en utilisant la méthode A. La

partition résultante est notée Qap.

5: Construire une règle de classification en appliquant une analyse diagonale

linéaire discriminante (classifieur naïve de Bayes 2 ) à la partition Qap. Ensuite,

classifier le sous-échantillon Ste en utilisant cette règle de classification. La

partition obtenue est notée Q 1 te.

6: Classifier Ste en k classes en utilisant la méthode A. La partition résultante est

Q 2 te.

2. http ://en.wikipedia.org/wiki/Naive Bayes classifier

30


7: Comparer les deux partitions Q 1 te et Q 2 te en utilisant l’indice de Rand [18]. Soit

RANDt,k la valeur de cet indice pour l’itération t et pour le nombre de classes

k.

8: fin pour

9: fin pour

10: Une fois que toutes les valeurs RANDt,k sont obtenues, calculer pour chaque k la

médiane Mek = median(RAND1,k, ..., RANDt,k, ..., RANDT,k).

11: Pour B ensembles de données de référence générées selon un modèle nul préalablement

défini, refaire toutes les étapes précédentes. Ainsi pour chaque jeu de données de

référence et pour chaque k = 1, ..., kmax, on obtient Me∗ b,k , où b désigne le bème

ensemble de données de référence (b = 1, ..., B).

12: Soient Me ∗ k = 1

B

B

b=1 Me∗ b,k , pk = card{Me∗ b,k |Me∗ b,k ≥Mek}

B , et l’écart δk = Mek −

Me ∗ k. La proportion pk ici représente le niveau de signification empirique relatif à

la valeur Mek.

13: Soit l’ensemble K = {2 ≤ k ≤ kmax : pk ≤ pmax, δk ≥ δmin}. Si l’ensemble K est

vide alors le nombre optimal de classes est k ∗ = 1. Sinon, k ∗ = arg max

k∈K

Soient x = x1, . . . , xq les q coordonnées d’un objet x de Ste, cj = cj1, . . . , cjq les coor-

données du centre de la j ème classe de la partition Qap, et sdj = sd1, . . . , sdq la diagonale

de la matrice variances-covariances de la j ème classe. L’opération de classification des

objets du sous-échantillon Ste, évoquée à l’étape 5 de l’algorithme 4, est réalisée ainsi :

Classe(x) = arg min

1≤j≤k

2.2.4 Indice In-group proportion

δk.

q (xi − cji) 2

. (2.4)

La méthode In-group proportion proposée par Kapp et Tibshirani [29], utilise la tech-

nique de la validation croisée. Toutefois, la mesure de stabilité proposée par ces au-

teurs est originale dans la mesure où celle-ci implique dans son expression un critère

d’adéquation de la partition aux données de référence. Ainsi, l’indice proposé appelé

IGP est une forme de compromis entre l’approche stabilité et l’approche adéquation.

Soient xj un objet de X, et NN(xj) l’objet de X le plus proche de xj et différent de

xj. L’indice In-group proportion d’une classe i (i = 1, ..., k) est donné par :

31

i=1

sd 2 j


IGPi = card{xj|Classe(xj) = Classe(NN(xj)) = i}

. (2.5)

card{xj|Classe(xj) = i}

L’indice IGP d’une classe i est égale à la proportion d’éléments de la classe i tels que

leur plus proche voisin appartient à la classe i. Il est clair, selon l’équation 2.5, que

l’indice IGP prend en compte le facteur distance entre les éléments d’une même classe

et les éléments qui ne sont pas dans une même classe. Les étapes décrivant la méthode

In-group proportion sont résumées dans l’algorithme 5.

Algorithme 5 : Méthode In-group proportion

Entrées :

• X : ensemble de données de référence à classifier,

• kmax : nombre maximum de classes à tester,

• A : algorithme de classification,

• T : nombre total d’itérations,

• fte : fraction de l’échantillon test,

• seuil : un seuil entre 0 et 1 préalablement défini par l’utilisateur.

Sorties : k ∗ : nombre optimal de classes.

1: Diviser aléatoirement T fois l’ensemble X en deux sous-échantillons d’apprentissage

et de test. Les résultats de chaque division sont un échantillon d’apprentissage S t ap de

taille map et un échantillon test S t te de taille mte, avec map + mte = n et t = 1, ..., T .

2: pour k = 1 à kmax faire

3: pour t = 1 à T faire

4: Classifier S t ap en k classes en utilisant la méthode A. La partition obtenue est

notée Q t ap.

5: Affecter chaque élément de S t te au centre de la classe de la partition Q t ap qui lui

est le plus proche. La partition obtenue est notée Q t te.

6: Calculer les IGPi (i = 1, ..., k) des k classes de la partition Q t te. Si une classe i

de la partition Q t te est vide alors IGPi = NA.

7: Soit V t

k

alors V t

k

= min

i=1,...,k IGPi. Si au moins une des classes de la partition Q t te est vide

= NA.

32


8: Affecter chaque objet de X au centre de la classe de la partition Qap qui lui

est le plus proche. Ensuite calculer les IGPi des classes obtenues, et déduire la

quantité Z1 t k

9: fin pour

10: fin pour

11: pour k = 1 à kmax faire

égale au minimum de ces IGPi.

12: Classifier X en k classes en utilisant l’algorithme A. La partition obtenue est noté

Pk.

13: Affecter chaque objet de X au centre de la classe de Pk qui lui est le plus proche.

Calculer les IGPi des classes de la partition obtenue, et déduire la quantité Z2k

égale au minimum de ces IGPi. Calculer l’indice :

14: fin pour

Ik = 1

T

T

t=1

V t

k − Z1 t k) + Z2k.

15: Déduire le nombre optimal de classes : k∗ = max {k|Ik ≥ seuil}.

k=1,...,Kmax

2.3 Stabilité mesurée par comparaison de partitions

avec la méthode hongroise

Dans cette section nous présentons deux approches de validation utilisant la méthode

hongroise. Ces approches ont pour objectif d’estimer la proportion d’objets qui sont

mal classés. Pour savoir si, après perturbation des données, un objet est classé avec sa

propre classe ou non, il faut tout d’abord résoudre le problème de changement aléatoire

des libellés des classes. Ce problème peut se résoudre par la méthode hongroise (cf.

Kuhn [32]).

2.3.1 Méthode de Roth, Lange, Braun et Buhmann

Tout comme les procédures de validation Prediction strength et In-group proportion,

la méthode proposée par Roth et al. [39] utilise le schéma de réechantillonnage de la

33


validation croisée. Cette approche se distingue essentiellement des autres approches par

sa façon de normaliser la mesure d’instabilité proposée.

Mesure d’instabilité

Selon cette approche, les données sont divisées en deux sous échantillons, un échantillon

d’apprentissage Sap (de taille map) et un échantillon test Ste (de taille mte). La mesure

d’instabilité de base proposée par Roth et al. [39] est une dissimilarité entre la partition

obtenue sur Ste en utilisant un algorithme de classification A et la partition obtenue

après affectation des individus de l’échantillon test aux centres des classes de la par-

tition de l’échantillon d’apprentissage. La règle d’affectation est définie en se basant

sur la partition Ak(Sap), par exemple, en affectant chaque individu à la classe dont le

centre lui est le plus proche. Nous désignons par αap(Ste) ∈ {1, ..., k} mte , cette opération

d’affectation. La mesure d’instabilité utilisée par Roth et al. [39] est définie par :

Ins ′′



Ak(Ste), αap(Ste) = 1

mte

mte

I{yi = αap(xi)}, (2.6)

où yi est le libellé de l’individu xi de l’échantillon test dans la partition Ak(Ste). Cette

mesure s’interprète comme étant la probabilité empirique que la règle αap prévoit mal

les libellés des individus de l’échantillon Ste.

En appliquant un algorithme de classification à deux échantillons, extrait d’un même

ensemble X, il est très probable d’obtenir globalement les mêmes classes mais, ce qui

peut changer, ce sont les libellés des classes. Par exemple, si nous appliquons la méthode

de classification k-means deux fois à un même ensemble de données X, il est possible

que le libellé d’une classe donnée ne soit pas le même dans les deux partitions obtenues.

Ceci signifie qu’il y a eu une permutation aléatoire des numéros des classes. Si le nombre

de classes choisi est k, alors, il existe k! permutations possibles. Soit π l’ensemble de

toutes ces permutations possibles, pour résoudre le problème de permutation aléatoire

des libellés des classes, il faut procéder à la minimisation de la fonction suivante :

i=1

Ins ′



Ak(Ste), αap(Ste) = min Ins

π ′′



Ak(Ste), αap(Ste) . (2.7)

Si, par exemple, le nombre de classes k est égale à 7, le nombre de permutations possibles

34


est égale à 5040. Ainsi l’utilisateur se trouve face à un problème de minimisation d’un

niveau de complexité très important. Afin de résoudre ce problème de complexité, Roth

et al. [39] appliquent la méthode hongroise (cf. Kuhn [32]).

Normalisation

Pour adapter la mesure d’instabilité proposée (cf. équation 2.7) au problème de valida-

tion du nombre de classes, les auteurs proposent une forme particulière de normalisation.

Celle-ci est un rapport d’espérance empirique de deux mesures d’instabilité. Soit ρ un

prédicteur qui affecte aléatoirement et uniformément les libellés des individus. Alors la

normalisation proposée par Roth et al. [39] est la suivante :

Algorithme

Insk =


E


E

Ins ′


(Ak(Ste), αap(Ste))

. (2.8)

Ins ′ (ρ(Ste, k), αap(Ste))

Nous résumons la méthode de validation proposée par Roth et al. [39] dans l’algorithme

6.

Algorithme 6 : Méthode de Roth et al. [39]

Entrées :

• X : ensemble de données de référence à classifier de taille n,

• kmax : nombre maximum de classes à tester,

• A : algorithme de classification,

• T : nombre total d’itérations,

• fte : fraction de l’échantillon test,

• α(.) : une règle d’affectation,

Sorties : k ∗ : nombre optimal de classes.

1: pour k = 1 à kmax faire

2: pour t = 1 à T faire

3: Diviser aléatoirement l’ensemble X en deux parties Sap et Ste de tailles ap-

proximativement égales. Soit m la taille de ces sous-échantillons.

35


4: Classifier Sap et Ste en k classes en utilisant l’algorithme A.

5: Effectuer l’opération αap(Ste).

6: Résoudre le problème de changement aléatoire des libellés entre les partitions

Ak(Ste) et αap(Ste).

7: Une fois la correction des libellés des classes est réalisée, calculer Ins ′ t(Ak(Ste), αap(Ste)).

8: fin pour

9: Calculer la moyenne Ins ′ k

= 1

T

T

Ins

t=1

′ t. Normaliser la moyenne Ins ′ k

la méthode de prédiction aléatoire. La valeur résultante est Insk.

10: fin pour

11: Le nombre optimal de classes est : k∗ = arg min Insk.

k=1,...,kmax

2.3.2 Approche de Volkovich, Barzily et Morozensky

en utilisant

Volkovich et al. [49] ont proposé une approche, utilisant la méthode hongroise, qui

prend en compte l’importance de la densité des objets sur les frontières des classes. La

méthode proposée est fondée sur la comparaison de la distribution de probabilité des

données de référence à la distribution de probabilité des noyaux des classes de la parti-

tion à valider. Plus l’écart entre ces deux distributions est faible plus la densité sur les

frontières des classes est faible (i.e. les classes de la partition de référence sont isolées).

Ainsi, l’indice mesurant cet écart peut être considéré comme une mesure d’isolation

entre les classes car il dépend du niveau de séparation des classes. Pour estimer les

deux densités de probabilité à comparer, Volkovich et al. [49] ont proposé la méthode

des k-plus proches voisins (k-nearest neighbor). L’utilisation de cette technique est jus-

tifiée par son avantage au niveau du choix du paramètre de lissage qui dépend des k

plus proches individus de chaque élément de la population étudiée.

En premier lieu, nous introduisons les notations et les définitions relatives à cette ap-

proche. Ensuite, nous exposons l’algorithme décrivant le processus de réechantillonnage

et de classification de cette méthode de validation.

Notations et définitions

Dans la suite de ce paragraphe, nous introduisons les définitions et les notations nécessaires

pour présenter l’algorithme de l’approche de Volkovich et al. [49].

36


– D : distribution de probabilité des données de référence ayant la densité de probabilité

p(.),

– V : distribution de probabilité des noyaux des classes ayant la densité de probabilité,

g(x) = exp(ap(x)/c(a)), ∀x ∈ X,

avec c(a) =

exp(ap(x)),

x∈X

a est une constante positive qui représente le paramètre de lissage,

– S (1)

j

– S (2)

j

– S (0)

j

– Q (1)

kj

: échantillon numéro j (j = 1, . . . , N) de X tiré suivant la distribution D,

: échantillon de X tiré suivant la distribution des noyaux V,

= S(1)

j

∪ S(2)

j ,

= Ak(S (1)

j

) = C(1)

1j

, . . . , C(1)

kj , la partition de S(1) j

quant l’algorithme de classification A à S (1)

j ,

– Q (2)

kj

= Ak(S (2)

j

) = C(2) 1j , . . . , C(2)

kj et Q(0)

kj

| : cardinal de la classe C(.) ij ,

– d(x, y) = ||x − y|| r , 0 < r ≤ 2,

– |C (.)

ij

– C (1)

ij0 = S(1) j

∩ C(0) ij , C(2) ij0 = S(2) j

= Ak(S (0)

j

∩ C(0) ij , i = 1, . . . , k.

en k classes, obtenue en appli-

) = C(0) 1j , . . . , C(0)

kj ,

Tout comme Roth et al. [39], pour retrouver la correspondance entre les libellés des

classes, Volkovich et al. [49] appliquent la méthode hongroise. L’indice de base proposé

par Volkovich et al. [49] est une distance comparant la partition obtenue sur l’échantillon

de référence S (1)

j

(tiré suivant V).

(tiré suivant D) et la partition obtenue sur l’échantillon noyau S (2)

j

Définition 1 La distance Dis est une distance empirique entre la partition obtenue sur

l’échantillon noyau tiré suivant la distribution V, et la partition obtenue sur l’échantillon

37


tiré suivant la distribution D :

Dis(S (1)

j , S (2)

j

Li(C (1)

ij0

Li(C (1)

ij

Li(C (2)

ij

Algorithme

avec :

) = 1

k

, C(2) ij0 ) =

, C(1) ij ) =

, C(2) ij ) =

= 1

k

k

i=1

i=1

Dis(C (1)

ij , C(2) ij )

k

2 Li(C (1)

ij0

1

|C (1)

ij0 ||C(2)

ij0 |

1

|C (1)

ij |(|C(1) ij

1

|C (2)

ij |(|C(2) ij


x∈C (1)

ij0

| − 1)

| − 1)

, C(2)

ij0 ) − Li(C (1)

ij


y∈C (2)

ij0


x∈C (1)

ij


x∈C (2)

ij

d(x, y),


y∈C (1)

ij


y∈C (2)

ij

ij ) − Li(C (2)

ij , C(2) ij )


, C(1)

d(x, y),

d(x, y).

Les étapes décrivant le processus d’échantillonnage et de validation proposées par Vol-

kovich et al. [49] sont résumées dans l’algorithme 7. Au niveau de l’étape 10, plusieurs

techniques de normalisation sont applicables. Parmi ces techniques, nous citons la nor-

malisation par rapport à un modèle nul, comme le modèle de l’enveloppe convexe ou

le modèle de recouvrement. Ainsi, il est possible d’appliquer la technique d’affectation

aléatoire des libellés à la manière de Roth et al. [39]. En ce qui concerne le choix de

l’indice de concentration à l’étape 11, Volkovich et al. [49] suggèrent l’utilisation de la

moyenne ou du quantile d’ordre 0.25 (q0.25) de la série des valeurs {Inst}.

Algorithme 7 Méthode de Volkovich et al. [49]

Entrées :

• N : nombre d’échantillons,

• m : taille de l’échantillon,

• Kmax : maximum nombre de classes à tester,

• A : algorithme de classification,

• ech(X, m, β) : tirage sans remise de m éléments de X suivant la distribution β,

38


• T : nombre d’itérations nécessaires pour atteindre un niveau de convergence

donné.

Sorties : k ∗ : nombre optimal de classes.

1: pour k = 1 à kmax faire

2: pour t = 1 à T faire

3: pour j = 1 à N faire

4: S (1)

j

5: S (2)

j

= ech(X, m, D).

= ech(X, m, V).

6: Calculer Dj = Dis(S (1)

j , S (2)

j ).

7: fin pour

8: Calculer Inst = 1

N

9: fin pour

N

j=1 Dj.

10: Normaliser le vecteur {Inst}.

11: Calculer un indicateur de concentration Ik de la série des valeurs {Inst}.

12: fin pour

13: k∗ = arg min Ik.

k=1,...,kmax

2.4 Mesure de l’influence d’un individu sur la sta-

bilité d’une partition

Cheng et Milligan [15] ont proposé une approche de validation fondée sur la mesure de

l’influence d’un individu sur la stabilité d’une structure. Les auteurs définissent deux

types de mesures selon qu’il s’agit de la mesure de l’influence externe ou de l’influence

interne. Dans le premier cas, les classes sont supposées connues d’avance, alors que

dans le second cas, la partition de référence est celle obtenue en effectuant l’opération

de classification sur l’ensemble entier des données.

Dans le cas de la mesure de l’influence interne d’un individu, la procédure consiste tout

d’abord, à classifier en k classes l’ensemble des données à étudier contenant n objets.

Soit Pn la partition de référence ainsi obtenue. Ensuite, nous éliminons un élément i

(i = 1, .., n) de l’ensemble des données de référence pour obtenir ainsi un autre ensemble

39


de données qui contient n − 1 individus. Enfin, nous classifions ce nouvel ensemble de

données en obtenant ainsi la partition Pn\i. La mesure de l’influence se fait en mesurant

l’écart entre les partitions Pn et Pn\i. Il s’agit de voir si l’absence de l’individu i a affecté

la structure de Pn. Selon le type de l’influence, l’ensemble des individus est divisé en

trois groupes, à savoir, un groupe inhibiteur, un groupe facilitateur et un groupe sans

influence. Un individu est dit inhibiteur si dans le cas de son absence, l’algorithme de

classification arrive mieux à identifier les classes. Cependant, un individu est dit facili-

tateur, si dans le cas de son absence l’algorithme de classification découvre moins bien

les classes. Pour mesurer l’influence de l’individu i, il existe une variété d’indices dans

la littérature mais les auteurs de cet article [15] utilisent l’indice de Hubert et Arabie

[27].

2.5 Propriétés théoriques d’une mesure de stabilité

d’une partition

Dans cette section, nous exposons les principaux travaux théoriques étudiant le lien

entre les méthodes de classification à centres, comme la méthode k-means, et le critère de

stabilité d’une partition (cf. Ben-David et von Luxburg [7], Shamir et Tishby [43, 42]).

Ces travaux montrent que dans certains cas, les méthodes de classification à centres

sont insensibles à l’importance de la densité des points sur les frontières des classes.

Plus précisément, Ben-David et von Luxburg [7] ont montré, formellement, que lorsque

l’optimum du critère de classification est unique et la taille des données est très grande,

alors le résultat fourni par un algorithme de classification à centres est stable même si

les données sont sans structure. Ce résultat théorique prouvé dans un contexte asymp-

totique, a remis en cause la fiabilité de toutes les approches de validation fondées sur le

critère de stabilité. En se basant sur ce résultat, Shamir et Tishby [43, 42], ont proposé

une normalisation des mesures de stabilité, qui permet de prendre en compte l’impor-

tance de la densité des points sur les frontières des classes. Dans une première section

nous présentons les travaux de Ben-David et von Luxburg [7] montrant que si l’opti-

mum du critère de classification est unique et si les données sont de taille très grande,

alors la partition est stable. Par contre, si l’optimum n’est pas unique alors la partition

40


est instable. Dans une deuxième section, nous présentons les travaux de Shamir et Ti-

shby [43, 42] montrant, que dans un contexte infini et lorsque l’optimum est unique, la

normalisation des mesures de stabilité par rapport à la taille de l’échantillon différencie

les convergences vers la stabilité, selon les nombres de classes utilisés.

2.5.1 Approche de Ben David et von Luxburg

Dans une première étape, nous commençons par exposer les principales notations et

notions nécessaires pour présenter les résultats théoriques de l’approche de Ben-David

et von Luxburg [7]. Ensuite, nous exposons les conséquences de l’unicité de l’optimum

du critère de classification sur la stabilité de la partition.

Notations et définitions

Soient X l’espace des données muni d’une distribution de probabilité D, S = {x1, ..., xm}

un échantillon i.i.d. tiré de (X , D), Ak(.) l’opération de classification des données en k

classes, Q la partition de l’ensemble de données S en utilisant l’algorithme de classifi-

cation Ak , et d une métrique mesurant la distance entre deux partitions données, soit

par exemple la distance de Hamming.

a) Instabilité d’un algorithme de classification

Définition 2 L’instabilité d’un algorithme de classification, appliqué à des échantillons

de taille m tirés suivant la distribution D, est :

inst(A, D, m) = E

S1∼D m

S2∼D m

dD(Ak(S1), Ak(S2)). (2.9)

L’instabilité d’un algorithme Ak relativement à la distribution D est :

inst(Ak, D) = lim sup inst(Ak, D, m). (2.10)

m→∞

Un algorithme de classification Ak est dit stable si inst(Ak, D) = 0.

Définition 3 Soit S un ensemble de données fini. Nous notons par DS la distribution

de probabilité uniforme définie sur S.

41


) Algorithme Risque-minimisant

Un algorithme est dit Risque-minimisant 3 si cet algorithme réussit à identifier la meilleure

solution (ou partition) parmi toutes les solutions réalisables selon sa fonction objectif

exprimant le niveau de risque. A titre d’exemple, nous citons l’algorithme de classifi-

cation k-means, basé sur le principe de minimisation de l’inertie intra-classes. Dans ce

qui suit nous exposons formellement la définition de ce type d’algorithme.

Définition 4 Un système d’optimisation du risque 4 est défini par le quadruple (X , S, D, R),

où X est l’espace des données muni de la distribution de probabilité D, S est l’ensemble

de partitions réalisables de X , et R : D × S → R + 0 représentant la fonction objectif de

l’algorithme de classification.

Notons opt(D) := infP ∈SR(D, P ). Pour un échantillon S ⊆ X , nous notons R(DS, P ),

le risque empirique de P . Un Algorithme de classification A est dit R-minimisant, si

R(DS, P ) = opt(DS), pour tout échantillon S.

Le plus souvent, les algorithmes basés sur le principe de minimisation du risque, ont

tendance à converger vers le vrai risque lorsque la taille m des échantillons tend vers

l’infini, si c’est le cas l’algorithme est dit risque-convergent (R-convergent).

c) Stabilité des algorithmes R-minimisant

Avant d’énoncer le théorème de stabilité d’un algorithme R-minimisant, nous devons

définir la notion d’unicité de l’optimum d’une fonction objectif R d’un algorithme de

classification par rapport à une distribution de probabilité D.

Définition 5 Soit d une mesure de dissimilarité inter-partitions, comme par exemple

la distance de Hamming (cf. équation 3.22). Une distribution de probabilité D possède

un minimum unique P ∗ si :

∀η > 0, ∃ɛ > 0 tq R(D, P ) < opt(D) + ɛ ⇒ dD(P ∗ , P ) < η.

3. Traduction du terme risk-minimizing.

4. Traduction du terme risk optimization scheme.

42


Théorème de stabilité de Ben-David et von Luxburg

Dans ce paragraphe nous exposons le théorème fondamental de stabilité proposé par

Ben-David et von Luxburg [7]. Ce théorème est valide pour tout algorithme de classi-

fication qui est à la fois de type R-minimisant et R-convergent.

Théorème 6 Si D possède un optimum unique P ∗ , alors tout algorithme qui est R-

minimisant et R-convergent, est stable sur D.

Figure 2.1 – Cas d’un optimum unique : les partitions mises en cause sont représentées

par une ligne continue obtenue par la méthode k-means. Le graphique de gauche

présente une situation où la partition en deux classes P ∗ = {C1, {C2, C3}} est parfaitement

stable malgré que le bon nombre de classe est trois. Le graphique de droite

présente une situation d’une partition très stable où le critère de classification de la

méthode k-means ne prend pas en compte l’importance de la densité des points sur les

frontières des classes

Considérons l’exemple suivant qui constitue une première conséquence de ce théorème.

Soit D une distribution de probabilité uniforme définie sur l’intervalle [0, 1]. Pour n’im-

porte quel nombre de classes k, la fonction objectif de la méthode k-means a un optimum

unique sur la distribution D. Dans un contexte asymptotique, i.e. les données à classifier

sont de taille infiniment grande, la partition réalisée par ce type d’algorithme est :

C(x) = i, x ∈ [

i − 1 i

,

k k ).

D’une manière plus précise la méthode k-means divise le segment [0,1], formé par un

nombre infini de points, en k segments de même tailles. D’après le théorème 6, la

méthode de classification k-means est stable sur U[0, 1] quelque soit le nombre de classes

43


Figure 2.2 – Cas d’une structure symétrique

k. La figure 2.1 nous montre deux autres cas où les méthodes de classification R-

minimisant et R-convergent sont stables malgré que le nombre de classes est faux.

Ben-David et von Luxburg [7] ont aussi montré que si la structure des données est

symétrique alors ceci entraine l’instabilité des résultats de l’opération de classification.

A titre d’exemple considérons le graphique de droite de la figure 2.1. Dans le cas d’une

telle structure, si un algorithme de classification R-minimisant classifie l’ensemble de

données en 2 classes, alors, il se trouvera indifférent entre les 3 partitions suivantes :

P1 = {{C1, C2}, C3}, P2 = {C1, {C2, C3}}, P3 = {{C1, C3}, C2}.

Dans ce cas de figure, il existe 3 optimum et l’algorithme de classification R-minimisant

utilisé est instable sur une telle structure. De même pour le graphique de gauche de la

figure 2.2, si un algorithme R-minimisant classifie ces données en trois classes alors il

sera indifférent entre la coupure en deux de la classe C1 ou celle de la classes C2.

2.5.2 Approche de Tishby et Shamir

Les résultats théoriques de Ben-David et von Luxburg [7] montrent que, sous certaines

conditions, une partition peut être stable même si les données sont sans structure. Si

nous considérons, par exemple, le cas de données distribuées uniformement dans le rec-

tangle [0, 2] × [0, 1]. La partition en deux classes fournie par la méthode k-means, qui

consiste à diviser le rectangle en deux carrés, est stable si les données sont de taille

très importante. Dans une telle situation la valeur de son instabilité converge vers 0

44


quand la taille de l’échantillon tend vers l’infini. Selon ces résultats, les indices de sta-

bilité dans leurs états classiques (non normalisés), tel que la distance de Hamming,

ne prennent pas en compte l’importance de la densité des points sur les frontières des

classes étudiées. Afin de trouver une solution à ce problème, Shamir et Tishby [43, 42]

ont proposé une normalisation en fonction de √ m (m étant la taille de l’échantillon).

Plus précisément, Shamir et Tishby [43, 42] ont montré, qu’en multipliant la distance

de Hamming par √ m, celle-ci converge vers une valeur qui dépend de l’importance de

la densité des frontières entre les classes et de la variance des classes. Dans la suite de

ce paragraphe nous nous proposons d’exposer ces travaux théoriques. Pour cela nous

gardons les notations du paragraphe précédent.

Afin de présenter l’essentiel du résultat théorique de Shamir et Tishby [43, 42], nous

commençons par introduire les hypothèses décrivant le contexte générale de l’analyse

théorique. Ensuite, nous introduisons les notions : intérieur d’une classe et frontière

entre deux classes. Enfin, nous exposons le théorème fondamental, de ces travaux

théoriques, qui montre l’utilité de la normalisation par rapport à la taille de l’échantillon.

Hypothèses

Les hypothèses suivantes sont des conditions nécessaires, qui concernent essentiellement

la distribution des données à étudier et l’algorithme de classification k-means.

– D est une distribution de probabilité de densité p(.) continue sur R q et satisfait les

conditions de régularité suivantes :

1.

R p(x)||x||2 dx < ∞ (en d’autres termes, D a une variance bornée).

2. Il existe une fonction g(.) monotone décroissante : R → R, tel que :

p(x) ≤ g(x) ∀x ∈ R q , et


r=0

r q g(r) < ∞.

– Soit S = {xi} m i=1 un échantillon iid tiré de l’espace (R q , D). Ak est une version ‘idéale’

de l’algorithme des k-means, si l’opération Ak(S) génère un ensemble de centres

c = (c1, . . . , ck) ∈ R q×k , qui minimise la fonction :

W (c) = 1

n

n

i=1

45

min

j∈[k] cj − xi 2 .


– Soit µ = (µ 1, . . . , µ k) ∈ R q×k la solution optimale pour le critère des k-means relati-

vement à la distribution D (caractérisé par la densité p(.)) minimisant la fonction :

Définitions


W (c) =

R q

p(x) min

j∈[k] ||cj − x|| 2 dx.

Dans ce paragraphe, nous introduisons trois notions fondamentales, qui sont l’intérieur

d’une classe, frontière entre deux classes et la distance entre deux classifications rela-

tivement à la distribution D. Pour plus de clarté, nous référons le lecteur à la figure

2.3.

– L’intérieur d’une classe Ci représente l’ensemble des points de R q qui sont les plus

proches du centre de cette classe. Analytiquement cet ensemble est :

Cc,i := {x ∈ IR q : arg min

j∈[k] cj − x 2 = i} ; avec [k] = (1, . . . , k).

– La frontière entre deux classes Ci et Cj est défini par l’ensemble de points :

Fc,i,j := {x ∈ R q : arg min

a∈[k] ca − x 2 = {i, j}}.

– L’intérieur d’une classe et la frontière entre deux classes, sont deux ensembles résultant

de l’application d’un algorithme Ak à un échantillon S tiré aléatoirement suivant la

distribution D. A partir de ces deux ensembles, nous pouvons construire de nou-

velles règles d’affectations pour classifier des nouveaux éléments n’appartenant pas à

l’échantillon S. Ainsi, pour tout x ∈ R q , la notation Ak(S)(x) désigne l’affectation

de l’élément x à une classe de la partition Ak(S). Soit S1 et S2 deux échantillons de

taille m tirés i.i.d de la distribution D. La distance de Hamming normalisée entre les

partitions Ak(S1) et Ak(S2) est :

d m D(Ak(S1), Ak(S2)) = √ m P

x1,x2∼D

46

(Ak(S1)(x1, x2) = Ak(S2)(x1, x2)).


Figure 2.3 – Illustration de l’intérieur d’une classe et de la frontière entre deux classes.

La surface entre les frontières est dû à la variation des solutions optimales pour deux

échantillons différents.

Théorème fondamental de Shamir et Tishby

Soit Γ kq×kq la matrice hessienne du critère W calculée pour la solution optimale µ =

(µ 1, . . . , µ k). Cette matrice se décompose en k ×k blocs que nous notons par Γ q×q

i,j , avec

i, j ∈ [k].

Γ q×q


i,j := 2 p(x)dx Iq − 2

C,µ,i


Γ q×q

i,j

:=

2

||µ i − µ a|| 2


F,µ,a

a=i


F,µ,a p(x)(x − µ i)(x − µ i) ⊤dx ||µ i − µ a|| 2 , si i = j,

p(x)(x − µ i)(x − µ j) ⊤ dx, si i = j.

Soit V kq×kq la matrice de variance de D calculée pour la solution optimale µ. Cette

matrice est composé de k blocs diagonaux V q×q

i , le reste de ses éléments sont égaux à

0. Chaque bloc V q×q

i est la matrice variance de la classe Ci calculée pour la solution

optimale µ.

47


Vi := 4

Cµ,i

p(x)(x − µ i)(x − µ i) ⊤ dx.

Théorème 7 Soit D une distribution de probabilité bornée et ayant une densité de

probabilité p(.), qui est continue et qui vérifie les deux conditions de régularité. Soit Ak

un algorithme de classification fournissant un optimum global c de la fonction objectif

W (.). Supposons que c converge en probabilité vers un ensemble de k centres distincts µ.

Supposons aussi que Γ soit inversible et que Vi = 0 pour tout i ∈ [k]. Alors, l’instabilité

d m D (Ak(S1), Ak(S2)) converge en loi vers la distribution :

2 (2)

1≤i


spectral 5 faible pour Γ (qui représente un optimum local) entraîne de l’instabilité.

– L’instabilité croît avec les valeurs de k, ainsi qu’avec la densité le long des frontières.

– Une grande variance des classes accroît l’instabilité.

2.6 Conclusion

Malgré leurs succès, les méthodes de validation fondées sur le critère de stabilité d’une

partition sont fortement mises en cause par le résultat théorique de Ben-David et von

Luxburg [7] qui montrent que, sous certaines conditions, même si les données sont sans

structure, les résultats d’un critère de classification peuvent être stables avec un faux

nombre de classes. Ce résultat théorique sera repris dans le chapitre expérimentation

où nous montrons que, les hypothèses de Ben-David et von-Luxburg [7] sont trop res-

trictives et qu’ils existent d’autres solutions à ce problème autres que celles proposées

par Shamir et Tishby [43, 42].

D’autre part, et à l’exception de la méthode IGP , toutes les méthodes de validation

exposées dans ce chapitre ne supposent pas une définition précise de la notion de classe.

Cette notion est plutôt définie par le critère de la méthode de classification utilisée.

Dans le chapitre suivant nous montrons que, même si l’approche stabilité n’implique

pas des mesures géométriques qui garantissent les critères d’isolation et de cohésion des

classes, celle-ci prennent indirectement en compte ces deux propriétés en comparant

l’appartenance (ou la co-appartenance) des objets aux classes après la perturbation des

données.

5. J.M. Arnaudiès et H. Fraysse. Cours de mathématiques. Dunod, 1980.

49


Chapitre 3

Mesures de stabilité selon les

critères de cohésion et d’isolation

des classes

Contrairement aux méthodes de validation utilisant des mesures d’adéquation, les mé-

thodes fondées sur le critère de stabilité d’une partition n’imposent pas d’avance un

aspect géométrique précis de la notion de classe. Pour ce type d’approche, cet aspect

est plutôt pris en charge par le critère de la méthode de classification utilisée. Dans ce

chapitre, nous proposons des nouvelles mesures de stabilité qui prennent en compte,

d’une manière non géométrique, les aspects de cohésion et d’isolation de la partition

étudiée. Les indices mesurant la stabilité d’une partition, que nous définissons, reposent

sur les règles de cohésion et d’isolation proposées par Bertrand et Bel Mufti [10]. Selon

ces règles, une classe de bonne cohésion est une classe qui ne perd pas ses éléments suite

aux opérations de perturbation des données de référence. Aussi, une classe présente une

bonne isolation, si elle ne reçoit pas d’éléments provenant d’autres classes après la per-

turbation des données de référence.

Dans un premier paragraphe, nous présentons les règles d’isolation et de cohésion d’une

partition et de ses classes sur lesquelles sont fondées les mesures de stabilité proposées.

En utilisant ces règles, nous définissons, dans un deuxième paragraphe, les différentes

mesures de stabilité évaluant les aspects de cohésion et d’isolation d’une partition et de

ses classes. Ensuite, nous montrons que d’autres mesures de stabilité, utilisées dans la

51


littérature, peuvent être décomposées en fonction des indices proposés. Nous montrons

également que la stabilité d’une partition peut être exprimée en fonction de la stabilité

de ses propres classes. Enfin, nous présentons les propriétés théoriques des indices de

cohésion d’une classe et d’une partition. Plus particulièrement, nous montrons que dans

un contexte asymptotique les indices de cohésion proposés sont bornés par la valeur 1

k ,

où k présente le nombre de classes de la partition. Ce qui montre que le domaine de

variation des indices de cohésion augmente quand le nombre de classes augmente.

Dans ce chapitre, nous gardons la plupart des notations utilisées dans les chapitres

précédents. Soit X l’ensemble de données de référence, nous désignons par X ′ une

perturbation de X : X ′ peut être le résultat d’un bruitage de X ou alors le résultat

d’un réechantillonnage de X. Soient P = Ak(X) la partition de X en k classes, m la

taille de X ′ , C une classe arbitraire de P , Q = Ak(X ′ ) une partition de X ′ en k classes

et mC le nombre d’éléments de la classe C présents dans la partition Q.

3.1 Règles de validité d’une classe et d’une partition

selon les critères de cohésion et d’isolation

Dans ce paragraphe, nous présentons les quatre règles de stabilité proposées par Bel Mufti

[5] et Bertrand et Bel Mufti [10], qui expriment les critères de cohésion et d’isolation

d’une partition et de ses classes. Les deux premières règles expriment respectivement

les critères de cohésion d’une partition et d’une classe. Les deux autres expriment l’iso-

lation d’une partition et d’une classe.

Définition 8 : Cohésion d’une partition (R1)

Si deux objets xi et xj de X ′ sont classés ensemble selon P alors ils sont classés ensemble

selon Q.

Définition 9 : Cohésion d’une classe (R2)

Si deux objets sont classés ensemble selon une classe C de P alors ils sont classés

ensemble dans Q.

52


Définition 10 : Isolation d’une partition (R3)

Si deux objets xi et xj de X ′ sont séparés selon P alors ils sont séparés selon Q.

Définition 11 Isolation d’une classe (R4)

Si deux objets sont séparés selon la partition {C, ¯ C} de P alors ils sont séparés selon

Q.

Ainsi, une classe présente une bonne cohésion, si elle est capable de maintenir ses

éléments après la perturbation des données. De la même façon, une classe est isolée, si

elle ne reçoit pas les objets des autres classes après la perturbation des données. D’après

la définition de ces règles, nous pouvons comprendre intuitivement que, si les classes

d’une partition vérifient les règles de cohésion et d’isolation, alors la partition étudiée

vérifie aussi ces deux règles. Dans la suite de ce chapitre, nous montrons formellement,

que la stabilité d’une partition peut être exprimée en fonction de la stabilité de ses

propres classes.

3.2 Modélisation statistique des règles de stabilité

d’une partition et de ses classes

Dans ce qui suit, nous considérons les règles du paragraphe précédent comme étant des

implications logiques de type événement 1 ⇒ événement 2. Notons par exemple ces

deux événements, respectivement, par γ et β. Différentes approches ont été proposées

pour évaluer la pertinence d’une règle de type γ ⇒ β. Une première approche pour

mesurer la qualité d’une implication logique est basée sur le principe de la probabilité

conditionnelle de l’occurrence de l’événement β sachant l’occurrence de l’événement

card(γ ∩ β)

γ c’est à dire P r(β|γ). Cette probabilité s’estime par le rapport , qui est

card(γ)

appelé mesure de confiance de l’implication logique γ ⇒ β (cf. Agrawal et al. [2]).

D’autres mesures ont été proposées pour évaluer la qualité de ce type d’implications

logiques. Parmi lesquelles, nous citons l’indice proposé par Sebag et Schoenaur [41],

card(γ ∩ β)

qui est défini par , qui mesure le nombre de fois où γ et β sont vérifiés

card(γ ∩ β)

au même temps par rapport au nombre de contre-exemples où γ est vérifié et β non

vérifié. De même l’indice proposé par Tong et Ho Tu [46] qui lui est équivalent dans

53


card(γ ∩ β) − card(γ ∩ β)

son principe, est défini par . Aussi, Loevinger [34] a proposé

card(γ ∩ β)

card(γ ∩ β)

un indice défini par l’expression 1 − ν , où ν représente le nombre total

card(γ)card(β)

d’expériences aléatoires réalisées. Plus la valeur de cet indice est proche de 1, plus l’im-

plication est satisfaite. Nous citons aussi d’autres approches telles que celles de Pearl

[38], Acid et al. [1], Gammerman et Luo [19] et Gras et al. [24].

Pour mesurer la qualité des règles de validité définies précédemment nous allons utiliser

l’indice de confiance (cf. Agrawal et al. [2]) qui est basé sur le principe de la probabilité

conditionnelle. Cet indice présente l’avantage d’avoir un fondement théorique probabi-

liste simple d’une part, et d’autre part, il possède un aspect plus général dans la mesure

où plusieurs autres indices de stabilité peuvent être exprimés en fonction de celui-ci.

Cette deuxième propriété fera l’objet d’analyse dans les paragraphes qui suivent.

Avant de définir les différents indices de confiance mesurant la cohésion et l’isolation

d’une partition et de ses classes, nous avons besoin de modéliser les règles de validité

sous forme d’implications logiques. Soient les événements suivants :

– A : xi et xj sont classés ensemble selon P ,

– B : xi et xj sont classés ensemble selon Q,

– AC : xi et xj sont classés ensemble dans C,

– E : xi et xj sont séparés selon la partition {C, ¯ C}.

En se référant à ces évènements nous pouvons redéfinir les 4 règles de validité par les

implications suivantes :

– R1 : A → B,

– R2 : AC → B,

– R3 : A → B,

– R4 : E → B.

3.2.1 Indices de validité d’une partition et de ses classes

En se basant sur les implications logiques présentées ci-dessus, nous présentons quatre

indices de stabilité évaluant la cohésion d’une classe et d’une partition et l’isolation

d’une classe et d’une partition. La qualité de ces implications est mesurée à l’aide de

54


l’indice de confiance. Rappelons que pour mesurer la qualité d’une implication logique

de type γ → β, à l’aide de l’indice de confiance, nous utilisons le rapport suivant :

Ic(γ → β) =

card(γ ∩ β)

. (3.1)

card(γ)

Rappelons que P est la partition de référence, C une classe arbitraire de P et Q la

partition obtenue sur X ′ . Aussi nous rappelons les termes suivants, présentés dans le

deuxième chapitre, qui sont indispensables pour définir les indices de validité évaluant

la stabilité d’une partition :

– N00 : le nombre de paires d’objets de X qui ne sont pas classés ensemble selon P et

selon Q,

– N11 : le nombre de paires d’objets qui sont classés ensemble selon P et selon Q,

– N10 : le nombre de paires d’objets qui sont classés ensemble selon P mais pas selon

Q,

– N01 : le nombre de paires d’objets qui ne sont pas classés ensemble selon P et ensemble

selon Q.

A titre complémentaire nous introduisons les termes suivants, que nous utilisons pour

présenter les indices de stabilité des classes :

– N C 00 : le nombre de paires d’objets qui sont séparés selon la partition {C, ¯ C} et séparés

selon Q,

– N C 11 : le nombre de paires d’objets de C qui sont classés ensemble dans Q,

– N C 10 : le nombre de paires d’objets de C qui ne sont pas classés ensemble dans Q,

– N C 01 : le nombre de paires d’objets qui sont classés ensemble dans Q et exactement

un des deux appartient à C.

3.2.2 Cohésion d’une partition

L’indice de cohésion d’une partition est la proportion de paires d’objet de X ′ qui sont

en accord avec la règle R1, c’est à dire la proportion de paires d’objets de X ′ qui sont

classés ensemble dans P et dans Q. A partir de la relation 3.1 nous déduisons l’indice

de confiance mesurant la cohésion de la partition comme suit :

55


Ic(R1) = Co(P, Q)

= card(A ∩ B)

card(A)

=

N11


C∈P [mC(mC

. (3.2)

− 1)/2]

Selon cette mesure, si toutes les paires d’objets vérifiant l’évènement A vérifient l’évènement

B, alors les deux quantités N11 et

C∈P [mC(mC − 1)/2] s’égalisent et l’indice de

cohésion dans ce cas est égal à 1.

3.2.3 Cohésion d’une classe

De même que l’indice de cohésion d’une partition, l’indice de cohésion d’une classe est

égal à la proportion de paires d’objets de C qui sont en accord avec la règle R2. L’indice

de cohésion d’une classe est défini par :

Ic(R2) = Co(C, Q)

= card(AC ∩ B)

card(AC)

=

N C 11

.

mC(mC − 1)/2

(3.3)

Il est évident, que si toutes les paires d’individus de C sont classés ensemble dans Q,

alors l’indice de cohésion de la classe C devient égal à 1. Nous parlons alors d’une

parfaite cohésion de la classe C.

3.2.4 Isolation d’une partition

Pour mesurer l’isolation d’une partition, nous avons besoin de compter le nombre de

paires d’objets de X qui sont séparés selon la partition P et selon la partition Q. L’indice

d’isolation de la partition P est donc défini par :

56


Ic(R3) = Is(P, Q)

= card(A ∩ B)

=

card(A)

N00

1/2

C∈P [mC(m

. (3.4)

− mC)]

Le dénominateur de cet indice compte le nombre total de paires d’objets séparées selon

la partition P ; le numérateur compte le nombre de paires qui vérifient A et B. Si toutes

les paires qui ne vérifiant pas A, ne vérifient pas B, alors l’indice d’isolation de P est

égal à 1.

3.2.5 Isolation d’une classe

De même que l’indice d’isolation d’une partition nous définissons l’indice d’isolation

d’une classe par la proportion de paires d’objets qui sont en accord avec la règle R4 :

Ic(R4) = Is(C, Q)

= card(E ∩ B)

=

card(E)

N C 00

. (3.5)

mC(m − mC)

La classe C représente une parfaite isolation si elle ne reçoit pas des éléments d’autres

classes. C’est à dire N C 00 = 0. Remarquons que même si une classe représente une

parfaite isolation elle ne représente pas nécessairement une parfaite cohésion.

3.2.6 Exemple d’illustration

A titre d’exemple, nous considérons les deux partitions suivantes d’un ensemble composé

de 7 individus :

P = {C1 = {I1, I2, I3, I4}, C2 = {I5, I6, I7}},

Q = {C Q

1 = {I2, I3, I4, I5, I6}, C Q

2 = {I1, I7}}.

57


En comparant la co-appartenance des 21 paires d’objets dans les deux partitions P

et Q, nous en déduisons les nombres suivants : mC1 = 4, mC2 = 3, N00 = 5, N11 = 6,

N C1

00 = 5, N C2

00 = 5, N C1

11 = 3, et N C2

11 = 1. Les différents indices de cohésion et d’isolation

de la partition P et de ses classes sont :

Co(P, Q) =

6

6 + 3

= 2

3 .

Co(C1, Q) = 3

6

= 1

2 .

Co(C2, Q) = 1

3 .

Is(P, Q) =

5

1/2(4(7 − 4) + 3(7 − 3))

= 5

12 .

Is(C1, Q) = 5

12 .

Is(C2, Q) = 5

12 .

Nous verrons dans la suite de ce chapitre que la cohésion de la deuxième classe est

minimale, i.e. quelque soit la façon de repartir les 7 individus dans la partition Q la

cohésion de la deuxième classe ne peut jamais être inférieure à 1

3 .

3.3 Décomposition de quelques mesures de stabilité

selon les critères de cohésion et d’isolation

Dans ce paragraphe, nous présentons les aspects généraux des indices mesurant la

cohésion d’une classe et d’une partition. Dans une première étape, nous montrons que

les indices de stabilité d’une partition peuvent être exprimés en fonction de la stabilité

des classes. Ensuite, nous montrons que certains indices de stabilité, tel que l’indice

de Rand et l’indice de Jaccard (cf. Hubert et Arabie [27]) et aussi l’indice Prediction

58


strength [47], peuvent être exprimés en fonction des indices de stabilité proposés.

3.3.1 Décomposition de l’isolation d’une partition en fonction

de l’isolation des classes

Dans ce qui suit nous montrons que l’isolation d’une partition est la somme pondérée

des isolations des classes, ou encore une combinaison linéaire des isolations des classes.

Or :

D’où :

Finalement :

avec :

Is(P, Q) =

N00 = 1/2

C∈P

N00

1/2

C∈P mC(m − mC) .

N C 00,

N C 00 = mC(m − mC)Is(C)(d’après 3.5).

Is(P, Q) =

=

1/2

C∈P N C 00

1/2

C∈P mC(m − mC) ,


C∈P mC(m − mC)Is(C, Q)


C∈P mC(m

.

− mC)

Is(P, Q) =

αCIs(C, Q), (3.6)

C∈P

mC(m − mC)

αC =

C∈P mC(m − mC) ,


αC = 1.

C∈P

59


Vu l’aspect linéaire de la relation fournie par l’équation 3.6, celle-ci est valable même

pour les moyennes obtenues sur les N données perturbées.

3.3.2 Décomposition de la cohésion d’une partition en fonction

de la cohésion des classes

De même, nous montrons que l’indice de cohésion d’une partition peut être une fonction

linéaire des cohésions des classes.

Or :

D’où :

Finalement :

avec :

Co(P, Q) =

N11 =

C∈P

N C 11,

N11

1/2

C∈P mC(mC

. (3.7)

− 1)

N C 11 = Co(C)mC(mC − 1)/2 ( d’après 3.3). (3.8)

Co(P, Q) =

= 1/2


C∈P N C 11

1/2

C∈P mC(mC − 1)

C∈P mC(mC − 1)Co(C)

1/2

C∈P mC(mC − 1)

Co(P, Q) =

βCCo(C, Q), (3.9)

C∈P

mC(mC − 1)

βC =

C∈P mC(mC − 1) ,


βC = 1.

C∈P

60

.


Nous concluons donc que les deux indices d’isolation et de cohésion d’une partition

possèdent tous les deux la même propriété d’additivité.

3.3.3 Décomposition de l’indice de Rand

L’indice de Rand, que nous avons présenté dans le deuxième chapitre, mesure la simi-

larité entre deux partitions en comparant la co-appartenance de leurs paires d’objets.

Plus la valeur de l’indice est proche de 1, plus les partitions sont similaires. Dans ce

paragraphe nous nous proposons, tout d’abord, de faire un rappel sur l’indice de Rand.

Ensuite, de l’adapter pour le rendre capable de mesurer la stabilité d’une seule classe.

Enfin, nous présentons la relation mathématique qui existe entre l’indice de Rand et les

indices de confiance mesurant l’isolation et la cohésion d’une classe et d’une partition.

Indice de Rand pour une partition

Le numérateur de l’indice de Rand est le nombre de paires d’objets qui sont classées

de la même façon dans les deux partitions P et Q. Par ailleurs, le dénominateur de cet

indice est égal au nombre de paires d’objets de toutes la population :

RAND(P, Q) =

N00 + N11

N00 + N11 + N01 + N10

= N00 + N11

m(m − 1)/2 .

Ainsi, si tous les objets classés ensemble selon P sont classés ensemble selon Q i.e.

N01 = 0 et N10 = 0, alors l’indice de Rand est égal à 1. Les partitions P et Q sont alors

parfaitement similaires.

Indice de Rand pour une classe

La forme adaptée de l’indice de Rand, que nous proposons, est une mesure de similarité

entre les partitions {C, C} et Q qui varie entre 0 et 1 :

RAND({C, C}, Q) =

61

N C 00 + N C 11

N C 00 + N C 11 + N C 01 + N C 10

.


Décomposition

Afin de décomposer les indices de Rand pour une classe et pour une partition nous

utilisons les relations suivantes :

N C 00 + N C 01 = mC(m − mC), (3.10)

N C 11 + N C 10 = mC(mC − 1)/2, (3.11)


mC(m − mC), (3.12)

N00 + N01 = 1

2

N11 + N10 = 1

2

C∈P


mC(mC − 1), (3.13)

C∈P

N11 + N10 + N00 + N01 = m(m − 1)/2. (3.14)

D’après les équations 3.8 et 3.7, on a :

N11 = Co(P, Q)

[mC(mC − 1)/2], (3.15)

C∈P

N C 11 = Co(C, Q)[mC(mC − 1)/2]. (3.16)

D’après ces deux équations et l’équation 3.14, les indices de Rand pour une classe et

pour une partition peuvent être reformulés ainsi :

RAND(P, Q) = [C∈P

mC(mC − 1)]Co(P, Q) +

C∈P mC(m − mC)Is(P, Q)

,

m(m − 1)

RAND({C, C}, Q) = [mC(mC − 1)/2]Co(C, Q) + (m − mC)Is(C, Q)

.

mC(mC − 1)/2 + (m − mC)mC

En observant ces deux dernières équations, nous remarquons que l’indice de Rand, dans

les deux cas peut être exprimé en fonction linéaire des indices de confiance mesurant

la cohésion et l’isolation. Ceci permet de déduire que la moyenne de l’indice de Rand

pour N itérations peut aussi être exprimé en fonction linéaire des moyennes des indices

de cohésion et d’isolation. Dans ce qui suit, nous décomposons l’indice de Rand pour

une partition en fonction de l’indice de Rand pour une classe. Remarquons que par la

62


suite nous remplaçons la notation RAND({C, C}, Q) par RAND(C, Q).

RAND(P, Q) =

N00 + N11

N00 + N11 + N01 + N10

= N00 + N11

m(m − 1)/2

= 1/2

= 1/2

= 1/2

=

C∈P N C 00 +

C∈P N C 11

m(m − 1)/2

C∈P N C 00 + 1/2

C∈P N C 11

+

m(m − 1)/2

1/2

C∈P N C 11

m(m − 1)/2

C∈P [N C 00 + N C 11]

m(m − 1)/2

+ 1/2

C∈P N C 11

m(m − 1)/2


C∈P [mC(m − mC) + mC(mC − 1)/2]RAND(C, Q)

m(m − 1)


C∈P N C 11

m(m − 1)

= [mC(m − mC) + mC(mC − 1)/2]RAND(C, Q)

m(m − 1)

C∈P


C∈P (1/2)mC(mC − 1)Co(C, Q)

m(m − 1)

=

C∈P

θ C 1 RAND(C, Q) + (1/2)θ C 2 RAND(C, Q) +

(1/2)


C∈P

C∈P

θ C 2 Co(C, Q) (3.17)

où : θ C 1 = mC(m − mC)

,

m(m − 1)

θ C 2 = mC(mC − 1)

m(m − 1) ,

[θ C 1 + θ C 2 ] = 1.

L’équation 3.17 montre que l’indice de Rand d’une partition est décomposable en fonc-

tion de l’indice de Rand des classes et des indices de cohésion des classes.

63

+

+


3.3.4 Décomposition de l’indice de Jaccard

Tout comme l’indice de Rand, l’indice de Jaccard (cf. Hubert et Arabie [27]), est

décomposable en fonction de la cohésion et de l’isolation de la partition P .

J(P, Q) =

N11

N11 + N10 + N01

. (3.18)

En utilisant les équations 3.10, 3.11, 3.12, 3.13 et 3.14 nous déduisons que :

J(P, Q) =

=

=

[

C∈P

[

C∈P

[

C∈P

N11

mC(mC−1)

] + N01

2

mC(mC−1)

C∈P 2

mC(mC−1)

] + 2

mC(m−mC)

C∈P 2

mC(mC−1)

C∈P 2

mC(mC−1)

] + 2


C∈P

Co(P, Q)


C∈P

Co(P, Q)

mC(m−mC)

2 (1 − Is(P, Q))

mC(m−mC)

Is(P, Q)

2

(3.19)

. (3.20)

Selon l’expression 3.20, l’indice de Jaccard est une sorte de rapport entre la cohésion et

l’isolation. Plus la cohésion et l’isolation de P sont fortes plus l’indice de Jaccard est

proche de 1.

3.3.5 Prediction Strength et indice de confiance

La méthode Prediction strength a été présentée au chapitre 2 (cf. algorithme 3). Nous

rappelons brièvement les principales étapes du processus de validation de cette méthode.

1. Diviser aléatoirement X en deux sous-échantillons, un échantillon test Ste de taille

mte et un échantillon apprentissage Sap de taille map.

2. Classifier Ste et Sap en k classes en obtenant ainsi Pte = Cte 1 , ..., Cte k

respectives mte , ..., mte

C1 Ck ) et Qap = C ap

1 , ..., C ap

k .

(de tailles

3. Affecter chaque élément de Ste à un des centres des classes de la partition Qap qui

lui est le plus proche. La nouvelle partition obtenue sur Ste est Qte.

4. Supposons que nous sommes à l’itération j, et que Pte la partition de référence

de taille mte qui devra être comparée à la partition Qte. L’indice de stabilité

Prediction strength proposé par Tibshirani et Walther [47] est :

64


ps j (k) = min

C te

i ∈Pte

= min

C te

i ∈Pte

N11(C te

i )

m te

Ci (mte

Ci

− 1)/2

Co(Ci, Qte), (3.21)

où N11(C te

i ) le nombre de paires d’objets de la classe C te

i (i = 1, . . . , k) qui sont classés

ensemble dans la partition Qte. Cet indice n’est autre que le minimum des indices de

cohésion des classes de la partition Pte, que nous allons définir dans le chapitre suivant.

3.3.6 Distance de Hamming et indice de confiance

Dans la suite, nous nous proposons d’exprimer la distance de Hamming en fonction

des indices de confiance. Rappelons que cette distance a été utilisée par Shamir et Ti-

shby [43] [42], Roth et al. [39] et Ben-David et von Luxburg [7]. Tout d’abord, nous

définissons cette distance.

Définition 12 : Distance de Hamming

Pour deux partitions P et Q d’un ensemble de données X ′ muni d’une distribution de

probabilité D, la distance de Hamming mesurant l’écart entre ces deux partions est :

dD(P, Q) = P

x,y∼D [(x ∼P y) ⊗ (x ∼Q y)], (3.22)

où ⊗ denote le “ou exclusif”, x, y sont deux objets de X et la notation x ∼P y signifie

que les objets x et y sont classés ensemble dans la partition P .

Cette distance peut être reformulée de la manière suivante :

dD(P, Q) = P

x,y∼D [(x ∼P y) ⊗ (x ∼Q y)]

Soient les deux événements :

E1 : (x ∼P y) ∧ (x ∼Q y),

= 1 − P

x,y∼D ([(x ∼P y) ∧ (x ∼Q y)] ∪ [(x ∼P y) ∧ (x ∼Q y)])

= 1 − P

x,y∼D [(x ∼P y) ∧ (x ∼Q y)] − P[(x ∼P y) ∧ (x ∼Q y)].

65


E2 : (x ∼P y) ∧ (x ∼Q y).

La distance de Hamming devient alors :

dD(P, Q) = 1 − P(E1 ∪ E2)

= 1 − P(E1) − P(E2) (car E1 ∩ E2 = ∅).

En pratique pour estimer cette probabilité il faut calculer la proportion de paires qui

vérifient E1 et la proportion de paires qui vérifient E2. Supposons que le cardinal de

l’intersection entre les partitions P et Q est égal à m. La valeur estimée de la distance

de Hamming est donnée par :

avec :

N11

d(P, Q) = 1 − [

m(m − 1)/2 +

N00

m(m − 1)/2 ]

= 1 − [ N11 + N00

m(m − 1)/2 ]

= 1 − RAND(P, Q)

= 1 − [C∈P

mC(mC − 1)]

Co(P, Q) −

m(m − 1)

= 1 − (λCo(P, Q) + (1 − λ)Is(P, Q))

λ = [C∈P

mC(mC − 1)]

.

m(m − 1)


C∈P

(m − mC)

Is(P, Q)

m(m − 1)

La dernière relation montre que la distance de Hamming est une fonction linéaire des

indices de cohésion et d’isolation proposés.

3.4 Propriétés théoriques des indices de cohésion

Les indices que nous avons proposés pour mesurer la cohésion et l’isolation d’une classe

ou d’une partition sont basés sur la comparaison de la co-appartenance des paires d’in-

dividus dans deux partitions : une partition de référence et une partition obtenue sur

66


des données perturbées. Jusque là nous avons considéré que ces deux partitions avaient

le même nombre de classes. Il est intéressant de noter que les indices proposés sont

aussi valables dans le cas où les deux partitions n’ont pas le même nombre de classes.

Soit Pk1 = {C1, ..., Ck1} la partition en k1 classes de X (i.e. la partition de référence

) et Qk2 = {C Q

1 , ..., C Q

k2 } la partition en k2 classes obtenue sur l’ensemble de données

perturbées X ′ . Nous notons par m le cardinal de l’intersection entre les partitions Pk1

et Qk2. Remarquons que lorsque X ′ est le résulat d’un bruitage de X alors m = n.

Dans la suite, nous montrons que les mesures de stabilité proposées peuvent être

déduites à partir du tableau croisé décrivant les intersections entre les classes des deux

partitions Pk1 et Qk2. En se basant sur le tableau croisé, nous déterminons les bornes

inférieures réalisables des indices de cohésion d’une classe et d’une partition. Dans une

première étape, nous introduisons la notion du tableau croisé. Ensuite, nous exposons

deux théorèmes dans lesquels nous précisons les bornes inférieures réalisables des indices

de confiance mesurant la cohésion d’une classe et d’une partition.

3.4.1 Tableau croisé

Le tableau croisé entre deux partitions Pk1 et Qk2 permet de dénombrer les intersections

entre les classes de ces deux partitions. Un nombre nij figurant dans un tableau croisé

représente le cardinal de l’intersection entre les classes Ci et Cj (mij = card(Ci ∩ Cj))

(cf. tableau 3.1). Par la suite mij désigne la valeur d’une cellule du tableau 3.1 et mij

désigne un vecteur ligne ou un vecteur colonne de ce tableau.

Pk1 Qk2 C Q

1 . . . C Q

j . . . C Q

k2

C1 m11 . . . m1j . . . m1k2 mC1

.

.

. ..

Ci mi1 mij mik2 mCi

.

.

.

.

. ..

Ck1 mk11 mk1k2 mCk1

m C Q

1

. . . m C Q

j

.

.

. . . m C Q

k2

Table 3.1 – Tableau croisé

Pour calculer les indices de cohésion et d’isolation nous avons besoin de dénombrer

67

.

.

m


les quantités N Ci

11 , N Ci

00 , N11 et N00 définies précédemment. Ces quantités peuvent être

déduites directement à partir du tableau croisé.

N Ci

11

=

=

k2

j=1

k2

j=1

mij(mij − 1)/2

1

2 (m2 ij − mij), (3.23)

N Ci

00 = mCi (m − mCi ) −

N11 =

k1

N00 = 1

2

i=1

k1

i=1

N Ci

11 ,

N Ci

00 .

k2 k1

mij

j=1

t=1

t=i


mtj ,

3.4.2 Borne inférieure de l’indice de cohésion d’une classe

L’indice de cohésion d’une classe Ci est une fonction nombre N Ci

11 comptant les paires

d’individus de cette même classe qui sont classés ensemble dans Qk2. L’indice de cohésion

d’une classe est le rapport entre N Ci

11 et le nombre de paires d’individus de la classe Ci

présents dans la partition Qk2.

Co(Ci, Qk2) =

=

N Ci

11

(mCi (mCi − 1)/2)

k2 j=1 mij(mij − 1)

, (3.24)

mCi (mCi − 1)

avec mCi égal au nombre d’objets de la classe Ci présents dans Qk2. Le théorème suivant

nous montre la borne inférieure de cet indice.

Théorème 13 Soient S un ensemble de données de taille m, Pk1 une partition de S

en k1 classes avec k1 ≤ m, et Ωk2 l’ensemble de toutes les partitions possibles de S en

k2 classes avec k2 ≤ m, Ci une classe arbitraire de Pk1 de taille mCi > k2 (i = 1, ..., k1),

68


µ la partie entière de mCi

et r le reste de la division mCi

, alors on a :

k2

pour tout Ci ∈ Pk1 et tout Qk2 ∈ Ωk2, Co(Ci, Qk2) ≥ k2µ 2 + 2rµ + r


(mCi − 1)

Preuve

k2

mCi

mCi

1

− 1.

Le dénominateur de l’indice Co(Ci, Qk2) est constant car mCi est une valeur exogène

fixée d’avance par la partition P . Pour minimiser l’indice, il suffit de minimiser la

quantité N Ci

11 sous la contrainte k2 j=1 mij = mCi . Or, d’après l’équation 3.23 on a :

N Ci

11

=

k2

j=1

1

2 (m2 ij − mij)

k2

m 2 ij

= 1


2

j=1


mCi

2

= 1

2 φ(mij) − mCi

.

2

(3.25)

La relation 3.25 montre que, pour minimiser l’indice de cohésion d’une classe Ci, il

suffit de minimiser la quantité φ(mij) = k2

j=1 m2 ij sous la contrainte k2

j=1 mij = mCi .

Le problème est donc une minimisation sous contrainte d’une fonction quadratique.

Si nous relaxons le domaine de définition de mij à R k2 au lieu de N k2 , nous pouvons

utiliser la méthode des Lagrangiens pour identifier le minimum absolu de la fonction φ.

Le problème de minimisation sous contrainte est le suivant :


⎪⎨

⎪⎩

Min φ(mij) = k2

j=1 m2 ij

s/c :

k2

j=1 mij = mCi ,

mij 0 ∀j ∈ {1, ..., k2}.

Une fois le domaine de définition de mij relaxé à R k2 , nous introduisons l’expression du

Lagrangien.

69


L(mij, λ) =

k2

j=1

(m 2 k2

ij) − λ( mij − mCi )

j=1

j=1

k2

= φ(mij) − λ( mij − mCi ). (3.26)

Tout d’abord, nous devons vérifier que la matrice Hessienne relative à ce problème

de minimisation est définie positive. Cette étape est nécessaire pour vérifier que la

résolution du Lagrangien conduira à l’identification d’un minimum.

H k2×k2 =

=





2L ∂2mi1 ∂2L ∂mi2∂mi1

· · · ∂2 ∂

L

∂mik ∂mi1 2 2L ∂mi2∂mi1

∂2L ∂2mi2 · · · ∂2 . .

. ..

L

∂mik ∂mi2 2

.

∂2L ∂mik ∂mi1 2

∂2L ∂mik ∂mi2 2

· · · ∂2L ∂2 ⎤



(3.27)



mik2 2


⎢0


⎣.

0

2

.

· · ·

· · ·

. ..

0


0 ⎥ ,

. ⎥


(3.28)

0 0 · · · 2

ainsi H est une matrice diagonale à valeurs positives ⇒ ∀ V ∈ R k2 non nul, V t HV > 0

⇒ H est définie positive. L’étape suivante de la démonstration est la résolution des

équations différentielles du Lagrangien.


⎪⎨

⎪⎩

∂L

∂mi1 = 2mi1 − λ = 0 ⇒ mi1 = 1

2 λ

.

∂L

∂mij = mij − 1

2 + λ = 0 ⇒ mij = 1

2 λ

.

∂L

∂mik 2

= mik2 − 1

2 + λ = 0 ⇒ mik2 = 1

2 λ

∂L

∂λ = k2

j=1 mij − mCi = 0 ⇒ k2

j=1 mij = mCi

70


mi1 = . . . = mij = . . . = mik2

k2

j=1 mij = k2mij = mCi


mij = mCi

pour tout j ∈ {1, ..., k2}. (3.29)

k2

En remplaçant les mij par leurs valeurs dans l’expression de l’équation 3.24 nous obte-

nons la borne minimale absolue suivante :

Co min

abs (Ci, Qk2) = (mCi /k2) − 1

. (3.30)

− 1

Cette borne n’est réalisable que si mCi est un multiple de k2. En d’autres termes, cette

borne n’est réalisable que si les éléments du vecteur mij sont des valeurs entières.

La résolution du Lagrangien a dégagé une solution unique. Donc, le vecteur mij =

mCi /k2 est un optimum global. Aussi, nous pouvons conclure qu’ils n’existent pas

d’autres points stationnaires dans notre problème d’optimisation (d’après le théorème

d’unicité de l’optimum des fonctions convexes). Pour trouver la solution à valeurs

entières réalisant le minimum de l’indice de cohésion d’une classe il faut étudier les

mCi

points à valeurs entières se situant dans le voisinage de l’optimum global.

Soit H l’hypercube de R k2 délimité par les points de coordonnées ⌊ mCi

sur chaque coordonnée. Par définition, H contient m opt

ij

= (mCi

k2

⌋ et ⌊

k2

mCi

⌋ + 1

k2

, · · · , mCi

). Soit Θ l’en-

k2

⌋ et

semble des sommets de H pour lesquels (k2 − r) coordonnées sont égales à ⌊ mCi

r coordonnées égales à ⌊ mCi

⌋ + 1, avec r le reste de la division mCi

. Au total, nous

avons C k2−r

k2 Cr k2

k2

k2

sommets respectant la contrainte mij = mCi . Pour identifier l’opti-

k2

mum réalisable, il faut évaluer la fonction objectif φ(mij) =

j=1

j=1

k2

k2

m 2 ij sur chaque point

de l’ensemble Θ. Par définition, la fonction φ est indépendante de l’ordre des coor-

données de mij. Alors, pour tout mij ∈ Θ la fonction φ est constante. Pour des raisons

71


de lisibilité nous remplaçons, dans la suite du texte, la notation ⌊ mCi

⌋ par µ.

∀mij ∈ Θ : φ min

real(mij) =

k2

m 2 ij

j=1

= (k2 − r)µ 2 + r(µ + 1) 2

k2

= k2µ 2 − rµ 2 + rµ 2 + 2rµ + r

= k2µ 2 + 2rµ + r (3.31)

= cte.

Donc la fonction φ atteint son minimum, égal à k2µ 2 + 2rµ + r, sur tout l’ensemble de

points Θ ⊂ N k2 . Ainsi, en remplaçant φ par son expression dans l’indice de cohésion

d’une classe, la borne minimale réalisable de cet indice devient :

Co min

real(Ci) =

=

=

k2

j=1 m2 ij − mCi

(mCi − 1)

mCi

k2 j=1 m2ij −

mCi (mCi − 1)

φ min

real (mij)


mCi (mCi − 1)

= k2µ 2 + 2rµ + r


mCi (mCi − 1)

mCi

mCi

1

− 1

1

− 1

1

− 1.

mCi

(3.32)

Ce qui prouve le théorème.

Écart entre le minimum réalisable et le minimum absolu

Dans la suite nous montrons que l’écart entre la borne minimale absolue et la borne

minimale réalisable de l’indice de cohésion d’une classe converge vers 0 quand mCi tend

vers l’infini. Pour déterminer l’expression de cet écart nous commençons par exprimer

φ min

abs

en fonction de µ.

72


Or on a :

En remplaçant m 2 Ci

φ min

abs = k2

j=1

2 mCi k2

m

= k2

2 Ci k2 2

=

m 2 C i

k2

mCi = (k2 − r)µ + r(µ + 1)

⇒ m 2 Ci = [(k2 − r)µ + r(µ + 1)] 2

. (3.33)

= (k2 − r) 2 µ 2 + r 2 (µ + 1) 2 + 2µr(k2 − r)(µ + r)

= µ 2 (k 2 2 + r 2 − 2rk2) + r 2 (µ 2 + 2µ + 1)

+(2µrk2 − 2µr 2 )(µ + 1)

= k 2 2µ 2 + 2rk2µ + r 2 .

par son expression dans l’équation 3.33 on a :

φ min

D’après les equations 3.34 et 3.31 :

abs = k2µ 2 + 2rµ + r2

∆φ = φ min

real − φ min

abs

k2

= k2µ 2 + 2rµ + r − k2µ 2 − 2rµ − r2

. (3.34)

= r − r2

. (3.35)

La fonction ∆φ dépend du reste r de la division mCi

k2

k2

k2

et du nombre de classes de la

partition Qk2. Si nous relaxons le domaine de définition de k2 à R, alors la fonction

∆φ(r) est concave et atteint son maximum au point de coordonnée ( k2 k2

, ) (cf. figure

2 4

3.1).

73


min min

φreal − φabs

r = 0


r = k 2 2

r

k 2 4

r = k 2 − 1

Figure 3.1 – Evolution de l’écart ∆φ en fonction du reste r de la division mCi . Dans

k2

cette figure nous considérons le cas où le nombre de k2 est pair. Dans une telle situation

l’écart maximum est égal à k2

4 . Par contre si k2 est impair l’écart maximum est égal à

k2 1 − 4 4k2 .

D’après les équations 3.32 et 3.35 l’écart entre la valeur minimale réalisable et la valeur

minimale absolue de l’indice de cohésion d’une classe est :

Alors quand mCi

∆Co(Ci) =

∆φ

mCi (mCi − 1)

=

r − r2

k2

mCi (mCi − 1)

=

r(k2 − r)

k2mCi (mCi − 1).

(3.36)

⇒ lim

mC →+∞

i ∆Co(Ci) = 0.

→ +∞ ⇒ Comin

abs ≈ Co min

real.

A titre d’exemple, nous considérons les trois exemples illustrés par le tableau 3.2. Selon

ce tableau, nous remarquons que même pour une faible valeur de mCi = 11 l’écart

∆Co(Ci) est de l’ordre de 4.5 10−3 . Cette valeur est faible relativement au domaine de

variation de l’indice de cohésion d’une classe.

74


nCi k2 r ∆Co(Ci)

11 2 1 4.5 10 −3

101 2 1 4.95 10 −05

1001 2 1 5 10 −7

Table 3.2 – Évolution de l’écart ∆Co(Ci) en fonction de mCi .

Exemple d’illustration

Ici nous considérons le premier cas du tableau 3.2, où mCi = 11 et k2 = 2. Le reste

de la division mCi

k2

est r = 1. Le graphique de dessus de la figure 3.2 nous montre

que le minimum absolu de la fonction φ se réalise au point (5.5, 5.5). En ce point

le minimum absolu de φ est égale à 5.5 2 + 5.5 2 = 60.5. En agrandissant le carré

tracé en ligne foncée sur la figure de gauche nous obtenons la figure de dessous. Les

points représentés avec des carrés et des losanges pleins, sont les sommets du plus petit

carré de la grille contenant le point optimum absolu. Seuls les points représentés avec

des carrés pleins sont réalisables. En ces deux points la fonction φ possède la même

valeur égale à 61. L’écart ∆φ est donc égale à 0.5 = r − r2

∆Co(Ci) =

∆φ

=

mCi (mCi − 1)

0.5

11(11 − 1) = 4.5 10−3 .

k2

= 1 − 12

. Enfin, l’écart

2

Convergence de la borne inférieure de l’indice de cohésion d’une classe

L’équation 3.37 montre que l’écart ∆Co(Ci) converge vers 0 quand mCi tend vers l’infini.

Ainsi dans un contexte asymptotique nous avons :

∆Co(Ci) ≈ 0

=

=

r − r2

k2

mCi (mCi − 1)

r(k2 − r)

k2mCi (mCi − 1).

(3.37)

Cette dernière relation montre que, dans un contexte asymptotique, la borne minimale

réalisable peut être approximée par la borne minimale absolue. D’après l’équation 3.30,

75


n i2

n i2

10.0

9.5

9.0

8.5

8.0

7.5

7.0

6.5

6.0

5.5

5.0

4.5

4.0

3.5

3.0

2.5

2.0

6.5

6.0

5.5

5.0

4.5

φ(n ij) = 80

φ(n ij) = 60.5

φ(n ij) = 30

opt

●n

ij = 5.5

2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0

φ(n ij) = 60.5

n i1

φ(n ij) = 61

D : n i1 + n i2 = 11

opt

nij = 5.5


4.5 5.0 5.5 6.0 6.5

Figure 3.2 – Exemple illustrant l’écart ∆φ entre le minimum absolu et le minimum

réalisable.

76

n i1


la borne minimale absolue converge vers la valeur 1

. Par conséquent, l’amplitude du

domaine de variation de l’indice de cohésion d’une classe augmente. Ainsi, selon le

critère de cohésion, lorsque k2 augmente nous avons plus de chance d’avoir des classes

instables. Cette conclusion rejoint le résultat théorique de Shamir et Tishby [42].

3.4.3 Borne inférieure de l’indice de Cohésion d’une partition

L’indice de cohésion d’une partition est la proportion de paires d’objets de P qui sont

classés ensemble dans P et dans Q. Nous avons montré, dans le paragraphe précédent,

que l’indice de cohésion d’une partition est égal à la moyenne pondérée des indices

de cohésion de ses propres classes. Cette propriété sera utilisée pour montrer que les

bornes inférieures des indices de cohésion d’une classe et d’une partition convergent,

toutes les deux, vers la même valeur 1

. Tout d’abord, nous exposons le théorème

suivant précisant la borne inférieure de cet indice.

k2

Théorème 14 Soient S un ensemble de données de taille m, Pk1 une partition de S

en k1 classes avec k1 ≤ m, et Ωk2 l’ensemble de toutes les partitions possibles de S en

k2 classes avec k2 ≤ m, Ci une classe arbitraire de Pk1 de taille mCi (i = 1, ..., k1), µi

la partie entière de mCi

où :

Preuve

k2

pour tout Qk2 ∈ Ωk2, Co(Pk1, Qk2) ≥

et ri le reste de la division mCi

, alors on a :

βCi =



βC = 1.

Ci∈P

k1

i=1

βCi

k2

k2


k2µ 2 i + 2riµi + ri


mCi (mCi − 1)

mCi (mCi − 1)

mCi (mCi − 1),

Ci∈Pk 1

L’expression de l’indice de cohésion d’une partition est :

Co(P, Q) =

N11


[mCi (mCi Ci∈P − 1)/2].

77

mCi


1

,

− 1


La borne inférieure de cet indice dépend uniquement de l’expression de son numérateur,

car le dénominateur est une quantité indépendante de la partition Qk2. Ainsi, la mini-

misation de l’indice de cohésion d’une partition revient à minimiser le numérateur de

celui-ci.

N11 =

= 1

2

j=k1

i=1

k2

j=1

j=k1

i=1

1

2 (m2 ij − mij)

k2

m 2 ij

j=1


= 1

2 φ(mij) − m

2 .

Le problème est donc une minimisation sous contrainte d’une fonction quadratique. Si

nous relaxons le domaine de définition de mij à R k1k2 au lieu de N k1k2 , nous pouvons

utiliser la méthode des Lagrangiens pour identifier le minimum absolu de la fonction φ.

Notre problème de minimisation devient :


⎪⎨

⎪⎩

− m

2

Min φ(mij) = k1 k2 i=1 j=1 m2ij s/c :

k2 j=1 mij = mCi , ∀i ∈ {1, ..., k1},

mij 0 ∀i ∈ {1, ..., k1} et ∀j ∈ {1, ..., k2}.

L’expression du Lagrangien relative à ce problème de minimisation est la suivante :

L(mij, λ) =

k2

j=1

(m 2 k2

1j) − λ1( m 2 k2

1j − mC1) + . . . + (m 2 k2

k1j) − λk1( m 2 k1j − mCk )

1

j=1

= L1(m1j, λ1) + . . . + Lk1(mk1j, λk1). (3.38)

Ainsi, pour retrouver les solutions optimales à notre problème de minimisation, il suffit

de résoudre chacun des Lagrangiens figurant dans l’expression 3.38, qui sont totalement

indépendants les uns des autres. La résolution de chacun de ces Lagrangiens conduit

au même résultat que celui obtenu au paragraphe précédent (cf. équation 3.29). Enfin,

la solution optimale réalisant l’optimum absolu de l’indice de cohésion d’une partition

78

j=1

j=1


est :

mij ⋆ =




m11 = mC 1

k2

m21 = mC 2

k2

.

mk11 = mC k1

k2

m12 = mC 1

k2

m22 = mC 2

k2

.

mk12 = mC k1

k2

· · · m1k2 = mC1 k2

· · · m2k2 = mC2 k2

. .. .

· · · mk1k2 = mC k1

k2

Les solutions réalisables, c’est à dire l’optimum défini sur N k1k2 , pour chacun des

Lagrangiens définis dans l’équation 3.38, sont les mêmes que celles retrouvées dans

le paragraphe précédent. Les solutions optimales réalisables pour chaque Lagrangien

Li(mij, λi) constituent l’ensemble Θi des points ayant (k2 − ri) coordonnées égales à

⌊ mCi

k2

⌋ et ri coordonnées égales à ⌊ mCi

⌋ + 1, avec ri le reste de la division mCi

. En-

k2

fin, en appliquant le résultat théorique montrant que la cohésion d’une partition est la

moyenne pondérée des cohésions de ses propres classes (cf. équation 3.9) nous retrou-

vons le résultat du théorème 14.

De même que pour l’indice de cohésion d’une classe, la borne inférieure de l’indice de

cohésion d’une partition converge vers la valeur 1

. Cette conclusion peut être déduite à

partir de la décomposition fournie par l’équation 3.9. Ce résultat théorique est général,

dans la mesure où la valeur 1

est indépendante des nombres mCi fournis par la par-

k2

tition de référence Pk1. Ainsi, d’après l’équation 3.21, nous concluons que, dans un

contexte asymptotique, l’indice Prediction strength est borné par la même valeur 1

k .

Cette borne peut être utile pour normaliser l’indice Prediction strength ou encore l’in-

dice de cohésion d’une classe ou d’une partition.

3.5 Conclusion

En se fondant sur les règles de stabilité définies par Bertrand et Bel Mufti [10], nous

avons proposé quatre indices de stabilité d’une partition et de ses classes. Les deux

premiers indices mesurent la cohésion des classes et de la partition. Les deux autres,

évaluent l’isolation des classes et de la partition. Les deux indices de cohésion possèdent

certaines propriétés théoriques intéressantes. Plus précisément, nous avons montré que,

79

k2


⎥ .



k2


lorsque les données sont de taille infinies, ces indices de cohésion sont bornés par la valeur

1

. Ainsi, plus le nombre k de classes augmente plus l’amplitude du domaine de variation

k

de ces indices augmente, ce qui rejoint le résultat théorique proposé dans l’article de

Shamir et Tishby [42]. Les mesures de stabilité proposées possèdent d’autres aspects

généraux importants. Nous avons montré que les indices de cohésion et d’isolation d’une

partition sont des moyennes pondérées des indices de cohésion et d’isolation des classes.

Nous avons également montré que d’autres mesures de stabilité, très utilisées dans la

littérature, sont décomposables en fonction des indices proposés. En utilisant certaines

mesures de lien entre les éléments d’une partition, nous montrons dans le chapitre

suivant, qu’il existe un second niveau de décomposition des mesures de stabilité. Plus

particulièrement, nous montrons que les mesures de stabilité des classes, elles mêmes,

peuvent être décomposées en fonction de la stabilité de leurs propres objets.

80


Chapitre 4

Liens objets-classes

Dans ce chapitre, nous introduisons des notions définissant plusieurs liens entre objets et

classes à partir des mesures de stabilité d’une partition d’un ensemble d’objets X. Nous

supposons qu’une partition P à k classes a été obtenue en appliquant une méthode de

partitionnement (arbitraire) sur X, que nous notons par P = {C1, . . . , Ck}. Pour chaque

classe C ∈ P , nous souhaitons définir et mesurer des caractéristiques de lien entre un

objet et la classe C telles que les indices d’appartenance et de filiation d’un objet à la

classe C. L’indice d’appartenance d’un objet x à la classe C peut se définir intuitive-

ment comme le pourcentage de propriétés de x qui sont aussi des propriétés possédées

par la classe C. La filiation de x à la classe C, peut être définie comme le pourcentage

de propriétés de la classe C qui sont possédées par x. Dans ce qui suit, nous faisons

implicitement l’hypothèse que les deux propriétés d’appartenance et de filiation peuvent

être estimées sur la base de l’information fournie par les partitions obtenues en appli-

quant la même méthode de partitionnement sur un grand nombre d’échantillons de X.

Nous précisons aussi que les échantillons sont obtenus par la méthode d’échantillonnage

proportionnel stratifiée, i.e. chaque échantillon est obtenu en tirant la même propor-

tion f dans chacune des classes de la partition de référence. Ainsi, le nombre mC de

points tirés d’une classe C est constant. Toutefois, il est possible d’appliquer d’autres

techniques de perturbation, tel que le bruitage ou la technique de la validation croisée.

Les indices de lien que nous définissons, portent sur les objets, et non sur les classes.

Nous montrons que les indices de stabilité relatifs à l’isolation et à la cohésion d’une

classe se décomposent en fonction des valeurs prises par ces indices de lien. L’un des

81


avantages de ces indices de lien objet/classe est qu’ils permettent de définir la contri-

bution de chaque objet à la caractéristique de la classe étudiée (isolation ou cohésion).

Il en résulte que ces indices permettent d’identifier le ou les groupes de points qui en-

traînent un manque d’isolation ou un manque de cohésion d’une classe.

Dans les paragraphes suivants nous définissons différents types de liens entre un objet

(arbitraire) x de l’ensemble X des objets à classer, et une classe (arbitraire) C de la

partition P . Nous notons S1, . . . , SN un grand nombre N d’échantillons de X, et nous

notons Qj la partition obtenue sur Sj en appliquant la même méthode de classification

que celle utilisée sur X pour obtenir la partition P . Nous utiliserons également les

notations suivantes, où x, y désignent deux objets de X :

J = {1, . . . , N},

J(x) = {j ∈ J : x ∈ Sj},

J(x, y) = {j ∈ J : x, y ∈ Sj},

Ψj(x) = {z ∈ (X \ {x}) : x et z sont classés ensemble dans Qj},

nj(x) = |Ψj(x)|,

nj(x, C) = |Ψj(x) ∩ C|.

4.1 Appartenance d’un objet à une classe

Dans ce paragraphe, nous définissons une notion d’appartenance d’un objet à une classe,

qui prend en compte l’ensemble des informations fournies par les partitions Qj sur les

échantillons Sj.

Définition 15

Nous appelons indice d’appartenance d’un objet x à une classe C, la probabilité qu’un

objet classé avec x (distinct de x) appartienne à C. Nous notons M(x, C) cette proba-

bilité et z un objet de X.

M(x, C) = P(z ∈ C | ClasseQ(z) = ClasseQ(x)). (4.1)

82


En effet, au vu des partitionnements effectués sur les N échantillons Sj, il est naturel

de considérer que le degré d’appartenance de x à C est la fréquence théorique avec

laquelle un objet de C est classé avec x. En pratique, nous estimons cette probabilité

par la probabilité empirique, notée M(x, C), qui est définie par :

M(x, C) = 1

|J(x)|

D’après l’expression 4.2, il résulte que :


j ∈ J(x)

nj(x, C)

. (4.2)

nj(x)


M(x, C) =

M(x, C) = 1. (4.3)

C∈P

C∈P

Autrement dit, la somme des indices d’appartenance (théoriques ou empiriques) d’un

objet à toutes les classes de P vaut 1.

Si dans la définition de l’indice d’appartenance de x à C, nous nous restreignons aux

objets classés avec x qui sont dans la classe C ou dans une autre classe B, alors nous

obtenons un indice relatif d’appartenance de x à C par rapport à la classe B. Plus

précisément, l’ indice (théorique) d’appartenance de x à C relativement à la classe B,

noté Mr(x, C; B), est défini comme étant la probabilité qu’un objet de C ∪B classé avec

x (et distinct de x) appartienne à la classe C. Sa valeur est estimée par l’estimateur

Mr(x, C; B) qui est défini par :

Il est clair que nous avons :

Mr(x, C; B) = 1

|J(x)|


j ∈ J(x)

nj(x, C)

. (4.4)

| Ψj(x) ∩ (C ∪ B) |

Mr(x, C; B) + Mr(x, B; C) = Mr(x, C; B) + Mr(x, B; C) = 1.

Cet indice d’appartenance relative, Mr, peut être utilisé pour visualiser les objets

intermédiaires entre deux classes selon un graphique qui indique pour chaque objet

son degré d’appartenance à l’une des deux classes relativement à l’autre classe, par

exemple le degré d’appartenance à C relativement à B. Cependant un objet peut être

intermédiaire entre plus de deux classes, et peut par ailleurs, être purement dans C si

83


nous évaluons son appartenance à C relativement à B, mais être intermédiaire si nous

évaluons son appartenance à C relativement à une troisième classe D.

4.2 Co-appartenance d’un objet à une classe

Nous introduisons la définition de l’indice (théorique) de co-appartenance à une classe,

qui correspond à une forme duale de l’indice (théorique) d’appartenance à une classe.

Définition 16

L’indice théorique de la co-appartenance d’un objet x à une classe C est la probabilité

qu’un objet qui n’est pas classé avec x, après le sous-échantillonnage, n’appartienne pas

à la classe C. Nous notons cM(x, C) cette probabilité.

cM(x, C) = P(z ∈ C | ClasseQ(z) = ClasseQ(x)). (4.5)

Soit mC le nombre d’éléments d’une classe C de P dans un échantillon donné et m la

taille de cet échantillon. En pratique, nous mesurons cette probabilité par la probabilité

empirique, notée cM(x, C), qui est définie par :

cM(x, C) = 1

|J(x)|


j ∈ J(x)

(1 − mC − nj(x, C)

). (4.6)

m − nj(x)

Nous disons que cM(x, C) est l’indice empirique de co-appartenance de x à la classe

C. Il est calculé pour une valeur suffisamment grande de m de façon à ce que sa valeur

soit une bonne estimation de la valeur théorique prise par cM(x, C).

Remarquons que l’indice de co-appartenance apporte une information complémentaire

à celle fournie par l’indice d’appartenance. Plus précisément, cet indice indique le com-

portement (vis à vis de C) des objets qui ne sont pas classés avec C. Par exemple, si

M(x, C) est égal à 1 mais que cM(x, C) est très inférieur à 1, nous pouvons déduire

que :

– L’objet x est toujours classé uniquement avec des éléments de C (car M(x, C) = 1).

– Il existe une ou plusieurs sous-parties de C, qui pour une grande majorité d’échantillons

Sj, ont leurs éléments groupés avec des objets de X \ C (car cM(x, C) ≪ 1).

84


4.3 Filiation d’un objet à une classe

Nous introduisons la notion de filiation afin de caractériser “l’héritage”, en termes de

caractéristiques partagées, que reçoit un objet d’une classe.

Définition 17

L’indice de filiation d’un objet x à la classe C, noté F (x, C), est égal à la probabilité

qu’un objet de la classe C soit classé avec l’objet x après le sous-échantillonnage.

F (x, C) = P(ClasseQ(z) = ClasseQ(x) | z ∈ C). (4.7)

En pratique, nous mesurons cette probabilité par la probabilité empirique, notée F (x, C),

de la façon suivante, et selon deux cas :

1) Si x ∈ C, F (x, C) =

2) Si x ∈ C, F (x, C) =

1

|J(x)|

1

|J(x)|


j ∈ J(x)


j ∈ J(x)

nj(x, C)

, (4.8)

mC − 1

nj(x, C)

. (4.9)

où mC désigne le nombre d’éléments de C sélectionnés dans le j ème échantillon Sj (ce

nombre ne dépend pas de l’échantillon Sj considéré).

Remarquons qu’un objet x peut avoir un degré de filiation de 100% pour deux classes

B et C distinctes. Il suffit pour cela que dans chaque échantillon Sj tel que j ∈ J(x),

tous les objets sélectionnés dans les classes B et C, soient regroupés ensemble dans une

même classe de la partition de Sj. En pratique ce cas semble peu probable. Par contre,

il peut se produire qu’un objet x possède des degrés de filiation par rapport à B et C

dont la somme est supérieure à 1 : F (x, B) + F (x, C) > 1.

Notons aussi, qu’un objet x peut avoir un degré d’appartenance à la classe C qui soit

de 100%, bien que cet objet ne soit pas affilié à 100% à la classe C. Ce cas se produit

lorsque pour tout j ∈ J(x), les éléments de C sélectionnés dans Sj, se distribuent selon

plusieurs classes de Sj et que x est, pour chacune des partitions obtenues, dans une

classe ne contenant que des éléments de C.

85

mC


4.4 Co-filiation d’un objet à une classe

L’indice de co-filiation est une notion duale de la notion de filiation. La définition,

de l’indice de co-filiation que nous proposons est, dans un premier temps, théorique.

Toutefois, celui-ci s’estime de la même façon que l’indice de filiation.

Définition 18

L’indice (théorique) de co-filiation, noté cF (x, C), est la probabilité qu’un objet n’appar-

tenant pas à la classe C soit classé avec l’objet x, après le sous-échantillonnage.

F (x, C) = P(ClasseQ(z) = ClasseQ(x) | z ∈ C). (4.10)

Cette probabilité peut être estimée par la probabilité empirique, noté cF (x, C), qui est

définie par :

cF (x, C) =

=

1

|J(x)|

1

|J(x)|


j ∈ J(x)


j ∈ J(x)

| Ψj(x) ∩ (X \ C) |

,

m − mC

nj(x) − nj(x, C)

. (4.11)

m − mC

4.5 Pouvoir de cohésion d’un objet sur une classe

L’indice du pouvoir de cohésion, noté pc, mesure la capacité d’un objet à maintenir la

cohésion d’une classe. Celui-ci s’estime en analysant l’effet de l’absence d’un individu

sur la cohésion d’une classe C ∈ P .

Définition 19

Le pouvoir de cohésion de x pour la classe C, noté pc(x, C), est égal à la probabilité

que deux objets appartenant à la classe C, et qui sont sélectionnés dans l’échantillon

Sj, ne soient pas classés ensemble dans la partition obtenue sur cet échantillon lorsque

cet échantillon ne contient pas x.

Plus cette probabilité est proche de 1, plus le pouvoir de x sur la cohésion de C est

élevé. Pour tout objet x et toute classe C ∈ P , nous pouvons estimer pc(x, C) par son

86


analogue empirique, noté pc(x, C), qui est défini de la façon suivante :

pc(x, C) = 1 −

1

|N − J(x)|


j ∈ J(x)

1

2

y∈Cj nj(y, C)

1

2mC(mC , (4.12)

− 1)

où C j désigne l’ensemble des éléments de C qui appartiennent à l’échantillon Sj. Après

simplification de l’équation (4.12), nous obtenons :

pc(x, C) = 1 −

1

|N − J(x)|


j ∈ J(x)


y∈Cj nj(y, C)

. (4.13)

mC(mC − 1)

4.6 Ressemblance entre objets mesurée par la sta-

bilité

Dans le cas où deux objets x et y ont le même indice d’appartenance relative Mr

pour chaque paire possible de classes de P , il est naturel de se demander si les objets

x et y sont toujours classés ensemble quel que soit l’échantillon Sj considéré. L’idée

consiste simplement à calculer la fréquence avec laquelle x et y sont classés ensemble

dans l’ensemble des échantillons Sj qui contiennent chacun x et y. Plus formellement,

nous introduisons l’indice de ressemblance R de la façon suivante.

Définition 20

La ressemblance entre x et y, notée R(x, y) et mesurée à l’aide de la stabilité des

classes, est égale à la probabilité que x et y soient classés ensemble dans un échantillon

contenant x et y.

L’estimation de R(x, y) est donnée par la fréquence empirique R(x, y), qui est la

fréquence observée de cas d’échantillons pour lesquels x et y sont classés ensemble :

R(x, y) = | {j ∈ J(x, y) : Qj(x) = Qj(y)} |

, (4.14)

| J(x, y) |

où Qj(.) désigne le libellé d’objet dans la partition Qj obtenue sur l’échantillon j. Une

estimation précise et fiable de R(x, y), est obtenue en calculant R(x, y) pour une taille

de J(x, y) suffisamment grande.

87


4.7 Décomposition de mesures de stabilité selon les

liens objets classes

Dans ce qui suit, nous présentons des relations mathématiques montrant que les me-

sures de stabilité d’une partition et de ses classes, proposées dans le chapitre précédent,

peuvent être exprimées en fonction de la stabilité de leurs propres objets. En pre-

mier lieu, nous exposons les relations usuelles nécessaires pour la démonstration des

décompositions.

N C 11 = 1/2

n(x, C),

x∈C

N C 00 = nC(n − nC) −

n(x, C).

Notons que dans la suite, nous présentons la relation entre les indices en se référant

uniquement aux valeurs brutes des indices, i.e. en comparant la partition Q obtenue sur

un échantillon arbitraire S de X à la partition de référence P . Par ailleurs, ces relations

restent valables pour les moyennes globales des valeurs obtenues sur les échantillons.

4.7.1 Décomposition du critère de cohésion en fonction du

score de filiation

Rappelons que l’indice de cohésion d’une classe C ∈ P est une estimation de la pro-

portion de paires d’objets de C qui sont classés ensemble dans la partition Q, alors que

l’indice de filiation, d’un objet x à une classe C ∈ P , est une estimation de la proportion

d’objets de C qui sont classés avec x dans Q. D’après leurs définitions nous pouvons

avoir l’intuition qu’il existe un lien entre ces deux indices, dans la mesure où chacun

d’entre eux est basé sur la comparaison de la co-appartenance des paires d’objets d’une

88

x∈C


classe en se référant à la partition Q.

Co(C, Q) =

N C 11

mC(mC − 1)/2

= 1/2

m(x, C)

1/2mC(mC − 1)


x∈C n(x, C)

=

mC(mC − 1)

= 1

F (x, C). (4.15)

x∈C

mC

x∈C

Ainsi, nous concluons que l’indice de cohésion d’une classe est la moyenne des indices de

filiation des objets de cette classe. Or, d’après l’équation 3.9 montrant que la cohésion

d’une partition est la moyenne pondérée de la cohésion des classes, nous pouvons en

déduire la relation suivante :

Co(P, Q) =


mC(mC − 1)


C∈P C∈P mC(mC


1

F (x, C) (4.16)

− 1) mC

x∈C

=


mC − 1


C∈P mC(mC



F (x, C) . (4.17)

− 1)

C∈P

4.7.2 Décomposition du critère d’isolation en fonction du score

de filiation

L’indice d’isolation d’une classe est une estimation de la proportion de paires d’objets

vérifiant la quatrième règle (cf. page 53) de stabilité définie dans le chapitre précédent.

89

x∈C


N

Is(C, Q) =

C 00

nC(n − nC)

= nC(n − nC) −

x∈C n(x, C)

nC(n − nC)


x∈C n(x, C)

= 1 −

nC(n − nC)

= 1 − 1

F (x, C). (4.18)

nC

x∈C

Comme c’est le cas pour l’indice de cohésion d’une partition, l’indice d’isolation d’une

partition peut être décomposé en fonction de la filiation des objets de la partition de

référence. Ce résultat est déductible directement à partir de la relation 3.6.

4.8 Conclusion

L’intérêt de la définition des mesures de lien entre les objets et les classes d’une parti-

tion est essentiellement théorique. Les deux dernières décompositions montrent que la

stabilité d’une partition peut être exprimée en fonction de la stabilité de ses propres

objets. D’après leurs écritures mathématiques, ces décompositions sont aussi évidentes

pour les moyennes des valeurs brutes, des indices de cohésion et d’isolation des classes,

obtenues sur les N échantillons générés à partir de X. Ces mesures nous ont permis

d’approfondir l’analyse de la stabilité d’une partition.

Dans ce chapitre, nous avons identifié le type d’effet de la stabilité des objets sur la

stabilité d’une partition. Les décompositions de l’isolation et de la cohésion d’une classe,

en fonction de la filiation des objets, permettent d’identifier les objets qui affectent

négativement la cohésion d’une classe ainsi que son isolation. Ces décompositions sont

aussi généralisables à d’autres indices de stabilité, tel que les indices de Rand, Jaccard

et Prediction strength, dans la mesure où ceux-ci sont décomposables en fonction de

la cohésion et de l’isolation des classes. Dans le chapitre suivant nous allons essayer

d’illustrer l’intérêt pratique de ces décompositions.

90


Chapitre 5

Experimentations

Dans ce chapitre nous présentons notre stratégie de validation d’un partitionnement.

Aussi, nous nous proposons de tester notre approche sur des jeux de données réelles

et artificielles et de comparer nos résultats à ceux fournis par d’autres approches de

validation. L’approche que nous proposons repose sur les indices évaluant les critères

d’isolation et de cohésion des classes, et sur les mesures des liens entre un objet et une

classe, proposés dans les deux chapitres précédents.

Selon notre approche, une partition est valide si ses classes vérifient suffisamment

les propriétés de cohésion et d’isolation. Ainsi, pour valider une partition nous nous

intéressons aux mesures de stabilité des classes et non plus à la stabilité globale d’une

partition. Il suffit qu’une seule classe de la partition ne vérifie pas la propriété de

cohésion et/ou d’isolation pour que toute la partition soit jugée non valide même si

globalement la partition étudiée est stable.

Dans une première section, nous présentons les paramètres statistiques de l’approche

proposée et ceux des autres approches auxquelles nous nous proposons de la comparer.

Dans la deuxième section, nous présentons des illustrations avec des jeux de données

artificielles simulées sur le logiciel R. Ces expériences ont principalement deux objec-

tifs. D’une part, elles montrent l’utilité de l’approche proposée pour justifier le choix de

la méthode de classification par l’utilisateur, et d’autre part, elles montrent que notre

approche peut apporter des solutions pratiques au problème de l’unicité de l’optimum

suggéré par Ben-David et von Luxburg [7].

91


Dans une troisième section, nous présentons des simulations intensives qui ont pour

objectif de comparer l’efficacité de notre approche à celles d’autres méthodes existantes

face au problème du choix du nombre de classes. Ensuite, dans la dernière section

nous testons l’approche proposée sur des jeux de données réelles. Plus précisément,

nous présentons des expériences effectuées sur des données réelles issues du Machine

Learning Repository (http ://archive.ics.uci.edu/ml/datasets.html).

5.1 Paramétrage des méthodes de validation

Par la suite, nous conservons les notations utilisées dans les chapitres précédents. Le

processus de perturbation, de classification et de validation que nous proposons est

décrit par l’algorithme 8. Cet algorithme est d’ordre général dans la mesure où il est

applicable à plusieurs types de perturbation. Toutefois, nous nous référons dans la

présentation de celui-ci au cas de l’échantillonnage proportionnel stratifié, i.e. dans

chaque classe, la même proportion f d’objets est tirée aléatoirement. Le nombre d’ob-

jets échantillonnés dans chaque classe C ∈ P est mC = ⌊fnC⌋. Nous désignons cette

opération d’échantillonnage par ech(X, P, f).

Algorithme 8 : Méthode Ind-Conf

Entrées :

• X : ensemble de données de référence à classifier,

• k : nombre de classes,

• A : algorithme de classification,

• ɛ : amplitude totale maximale de l’intervalle de confiance (au seuil de 0.95%) de

l’indice à calculer,

• f : taux d’échantillonnage,

• P : partition de référence.

Sorties : Stab, une mesure de stabilité qui peut être un indice de cohésion, d’isolation

ou de Rand d’une classe ou d’une partition.

1: f = 0.8, ɛ = 0.01, i = 1, IC95%(Stab) = 2ɛ)

2: tantque (IC95%(Stab) > ɛ) & i < 500 faire

92


3: Si = ech(X, P, f) (tirer un échantillon stratifié).

4: Qi = A(Si) (classification du i ème échantillon).

5: Stab[i] = Stab(P, Qi) (calcul de la i ème valeur brute de l’indice de stabilité).

6: si i > 30, calculer l’amplitude ɛ de l’intervalle de confiance de la moyenne du

7: i ++ .

vecteur Stab.

8: fin tantque

9: Stab = 1

N

la précision ɛ).

N j=1 Stab[j]) (N est le nombre total d’échantillons tirés afin d’atteindre

Le nombre N d’échantillons (ou d’itérations) n’est pas connu d’avance. Ce nombre

dépend du niveau de confiance précisé par l’utilisateur et du niveau de stabilité de la par-

tition. Généralement, lorsque la partition est très instable le nombre N est extrêmement

élevé. Afin d’optimiser l’algorithme et d’éviter le gaspillage du temps de calcul nous obli-

geons l’algorithme à s’arrêter lorsque N dépasse la valeur 500. De plus, pour pouvoir

appliquer le théorème central limite et en déduire un intervalle de confiance, nous exi-

geons que N soit au moins égale à 30.

La décision de valider ou non la partition est prise en se référant aux valeurs des indices

de cohésion et d’isolation des classes. Il suffit qu’une seule valeur de ces indices soit

inférieure à un certain seuil pour que toute la partition soit jugée instable et donc non

valide. Le choix de ce seuil est intuitif et dépend essentiellement des exigences de l’uti-

lisateur. Dans nos simulations nous comparons les valeurs des indices au seuil 0.95. Ce

choix de valeur est intuitif et signifie que le maximum de désaccord entre la partition

de référence et les partitions obtenues sur les données perturbées ne doit pas dépasser

5 %. Plus précisément, un maximum de désaccord égal à 5% signifie que la proportion

des paires d’objets qui ne vérifient pas une des règles de cohésion ou d’isolation ne doit

pas dépasser 5%.

Dans certaines simulations, nous normalisons les indices de stabilité, en fonction de la

taille des échantillons, à la façon de Shamir et Tishby [42]. La normalisation proposée

par Shamir et Tishby est définie sur des mesures d’instabilité. Cependant, dans notre

approche nous utilisons des mesures de stabilité définies sur l’intervalle [0, 1]. Soit Stab

93


la mesure de stabilité issue de l’algorithme 8. En s’inspirant des travaux de Shamir

et Tishby [42], nous proposons la normalisation suivante adaptée à nos mesures de

stabilité :

où m est la taille d’un échantillon.

Stab( √ m) = 1 − √ m(1 − Stab), (5.1)

Méthode de validation Désignation

Calins`nski & Harabasz (1974). CH

Krazanowski & Lai (1985). KL.

Silhouette, Rousseeuw (1987). Silhouette

Gap statistique en utilisant le modèle

nul uniforme, Tibshirani, Walther et

Hastie (2001).

GAP (uniforme)

Gap statistique en utilisant le modèle

de composantes principales.

GAP (P C uniforme)

Clest, Dudoit Fridlyand (2002). Clest

Jump, Sugar et James (2003). Jump

Prediction strength, Tibshirani et Walther

(2005).

Prediction strength

In-group proportion, Kapp et Tibshirani

(2007).

IGP

Indice de confiance avec échanti- Ind-Conf(ech)

llonnage stratifié.

Indice de confiance avec bruit uniforme. Ind-Conf(bruit)

Table 5.1 – Désignation des différentes approches de validation.

Dans les expériences réalisées dans ce chapitre, nous testons toutes les méthodes présen-

tées dans le tableau 5.1. La plupart des paramètres statistiques de ces méthodes sont

les mêmes que ceux utilisés par Kapp et Tibshirani [29]. Les valeurs par défaut des

paramètres de ces différentes méthodes sont précisées dans le tableau 5.2.

94


Algorithme des k-means

Nombre d’initialisation 10

Nombre maximum d’itération 100

Distance euclidienne

Méthode Gap statistique

Nombre de données sans structure B = 5

Méthode Clest

Nombre d’itérations T = 20

Nombre de données sans structure B = 20

Proportion de l’échantillon test fte = 1

3

Seuil de significativité pmax=0.05

Écart minimal δmin = 0.05

Méthode Jump

Taux de transformation γ = q

2

Méthode Prediction strength

Nombre d’itérations T = 5

Proportion de l’échantillon test fte = 1

2

seuil 0.8

Méthode In-group proportion

Nombre d’itérations T = 5

Proportion de l’échantillon test fte = 1

2

seuil 0.95

Méthode Ind-Conf (ech)

Taux d’échantillonnage f = 0.8

Précision ɛ = 0.01

Nombre minimum d’échantillons 30

Nombre maximum d’échantillons 500

Méthode Ind-Conf (bruit)

bruit uniforme taux = ±0.05 sdj

Précision ɛ = 0.01

Nombre minimum d’échantillons 30

Nombre maximum d’échantillons 500

Table 5.2 – Valeurs par défaut des paramètres des méthodes de validation utilisées.

Notons que le paramètre sdj, figurant dans la dernière rubrique du tableau est l’écarttype

estimé de la j ème variable décrivant les objets de X.

95


5.2 Justification du choix de la méthode de classi-

fication

Un des problèmes classiques en classification automatique est de justifier le choix du

critère de classification. Ce critère est d’une importance majeure dans la mesure où

celui-ci est basé sur une conception de structure en classes bien particulière. Si, par

exemple, nous appliquons la méthode k-means de classification, cela signifie que nous

favorisons une structure en classes sphériques. Cependant, si nous utilisons la méthode

de classification hiérarchique du lien minimum, alors la conception d’une classe change.

Le critère de lien minimum a essentiellement pour objectif de retrouver des classes très

bien isolées et suffisamment connexes. Selon le critère de stabilité, si la structure en

classes définie par le critère de classification correspond à celle des données, alors la

partition étudiée est stable et elle est donc valide.

Les expériences que nous présentons dans ce paragraphe montrent que la décomposition

de la stabilité d’une partition en fonction de la stabilité des classes permet de raffiner

l’analyse de la partition étudiée. Ces décompositions permettent d’identifier les aspects

des classes étudiées et de faciliter le jugement de la qualité de la partition analysée.

5.2.1 Cas d’un jeu de données uniforme

Dans cette première illustration, nous traitons le cas d’un jeu de données distribuées

uniformément dans [0, 1][0, 2] et de taille égale à 500. Cette application a deux objectifs.

Le premier consiste à montrer que la décomposition de la stabilité d’une partition en

fonction de la stabilité des classes offre des justifications à la non validité des partitions

obtenues par plusieurs critères de classification. Le second objectif consiste à exposer

des solutions possibles au problème soulevé par l’unicité de l’optimum des méthodes de

classification à centres (cf. par Ben-David et Von Luxburg [7]).

La figure 5.1 présente les partitions de référence obtenues par plusieurs méthodes de

classification automatique sur un jeu de données uniformes. Contrairement aux autres

méthodes de classification, les méthodes k-means et pam coupent le rectangle conte-

nant les données en deux parties symétriques. Le tableau 5.3 montre que les partitions

96


obtenues par les méthodes de classification hiérarchiques sont instables sur la partition

en deux classes. Selon ce tableau, les méthodes de classification hiérarchiques génèrent

des classes ayant des cohésions globalement très moyennes. Par contre les isolations de

ces classes sont très faibles, ce qui est conforme à la structure réelle des données. Ainsi,

la faiblesse de la stabilité globale de la partition est liée surtout au manque d’isolation

des classes.

C1 C2 Partition

k-means

Cohésion 0.971 0.999 0.982

Isolation 0.985 0.985 0.985

RAND 0.979 0.989 0.983

pam

Cohésion 0.983 0.991 0.986

Isolation 0.987 0.987 0.987

RAND 0.985 0.988 0.987

lien maximum

Cohesion 0.962 0.864 0.922

Isolation 0.102 0.102 0.102

RAND 0.425 0.324 0.515

lien moyen

Cohésion 0.911 0.924 0.915

Isolation 0.099 0.099 0.099

RAND 0.445 0.305 0.522

median

Cohésion 0.918 0.907 0.912

Isolation 0.135 0.135 0.135

RAND 0.386 0.400 0.522

Table 5.3 – Mesures de stabilité des partitions en deux classes illustrées par la figure

5.1. Ces valeurs sont obtenues en utilisant l’échantillonnage proportionnel stratifié.

En se référant au même tableau 5.3, nous constatons que les résultats des méthodes de

classification à centres (k-means et pam) sont fortement stables sur la partition en deux

classes. Ce résultat s’explique par le théorème de Ben-David et von Luxburg [7] présenté

dans le deuxième chapitre. Rappelons que ce théorème souligne que, sous certaines

97


1

2

1

1

1

2

2 2

1 1

2

2

1

1

2

2

2

2

2

2

2

2

2

2

1

2

1

2

1

1

1

1 1

2

1

1

2

1

2

2

2

1

2

1

1

1

2

1

2

1

2

2

1

2

2

1

1

2

1

1

2

1

2

1

2

2

2

1

1

1

2

1

2

1

1

2

2

1

2

2

1

2

1

1

1

2

2

2

2

2

1

2

2

1

1

2

1

2

1

2

2

1

1

2

2

2

1

1

1

2

2

1

1

2

1

2

1

2

1

1

2

1

1

2

1

1

1

2

2

2

1

1

2

1

2

1

1

1

1 1

2

1

1

2

1

2

2

1

1

1

2

2

1

1

2

1

2

2

2

1

2

1

1

1

2

2

2

1

1

1

2

1

1

1

2

1

1

2

1

1

2

1

1

1

2

1

1

1

1

2

1

2

2

2

1

2

1

2

2

1

2

2

1

2

1

1

2

1

1

2

1

1

2

1

1

2

1

2

2

1

2

1

1

1

2

2

1

1

2

2

1

1

1

2

1

2

1

2

1

1

2

1

1

1

2

1

2

1

1

1

1

1

2

1

2

1

2

1

2

2

1

1

1

1

1

2

1

1

1

1

2

1

1

1

1

1

2

2

1

2

2

1

2

1

1

1

1

1

1

1 1

2

1

2

1

1

1

2

1

1

2

1

2

2

1

1

11

2

1

2

1

2

1

2

2

1

1

2 2

2

1

2

2

2

1

2

2

2

1

2

2

2

1

1

1

2

2

2

2

1

1

1

2

1

2

1 1

1

2

2

2

2

2

1

1

2

1

2

1

1

2

1

1

1 1

2

2

1

1

1

2

1

2

2

1

1

1

2

1

1

1

1

2

2

2

1

1

1

2

1

1

1

1

2

1

1

1

2

2

1

1

2

1

2

1

2

1

2

2

1

1

2

1

2

1

1

1

1

2

2

2

2

2

1

2

1

2

1

2

2

1

2

1

1

2

1

2

2

1

2

1

2

1

1

2

1

1

2

2

2 2

1

1

1

1

1

2

1 1

2

2

1

1

1

1

1

1

2

2

2

2

2

2

2

1

2

1

1

1

1

1

1

2

1

1

1

2

1

2

1

1

1

1

1

2

2

1

2

−0.5 0.0 0.5 1.0 1.5

0.0 0.5 1.0 1.5 2.0

k−means

1

2

1

1

1

2

2 2

1 1

2

2

1

1

2

2

2

2

2

2

2

2

2

2

1

2

1

2

1

1

1

1 1

2

1

1

2

1

2

2

2

1

2

1

1

1

2

1

2

1

2

2

1

2

2

1

1

2

1

1

2

1

2

1

2

2

2

1

1

1

2

1

2

1

1

2

2

1

2

2

1

2

1

1

1

2

2

2

2

2

1

2

2

1

1

2

1

2

1

2

2

1

1

2

2

2

1

1

1

2

2

1

1

2

1

2

1

2

1

1

2

1

1

2

1

1

1

2

2

2

1

1

2

1

2

1

1

1

1 1

2

1

1

2

1

2

2

1

1

1

2

2

1

1

2

1

2

2

2

2

2

1

1

1

2

2

2

1

1

1

2

1

1

1

2

1

1

2

1

1

2

1

1

1

2

1

1

1

1

2

1

2

2

2

1

2

1

2

2

1

2

2

1

2

1

1

2

1

1

2

1

1

2

1

1

2

1

2

2

1

2

1

1

1

2

2

1

1

2

2

1

1

1

2

1

2

1

2

1

1

2

1

1

1

2

1

2

1

1

1

1

1

2

1

2

1

2

1

2

2

1

1

1

1

1

2

1

1

1

1

2

1

1

1

1

1

2

2

1

2

2

1

2

1

1

1

1

1

1

1 1

2

1

2

1

1

1

2

1

1

2

1

2

2

1

1

11

2

1

2

1

2

1

2

2

1

1

2 2

2

1

2

2

2

1

2

2

2

1

2

2

2

1

1

1

2

2

2

2

1

1

1

2

1

2

1 1

1

2

2

2

2

2

1

1

2

1

2

1

1

2

1

1

1 1

2

2

1

1

1

2

1

2

2

1

1

1

2

1

1

1

1

2

2

2

1

1

1

2

1

1

1

1

2

1

1

1

2

2

1

1

2

1

2

1

2

1

2

2

1

1

2

1

2

1

1

1

1

2

2

2

2

2

1

2

1

2

1

2

2

1

2

1

1

2

1

2

2

1

2

1

2

1

1

2

1

1

2

2

2 2

1

1

1

1

1

2

1 1

2

2

1

1

1

1

1

1

2

2

2

2

2

2

2

1

2

1

1

1

1

1

1

2

1

1

1

2

1

2

1

1

1

1

1

2

2

1

2

−0.5 0.0 0.5 1.0 1.5

0.0 0.5 1.0 1.5 2.0

pam

1

2

1

1

1

2

2 2

1 1

2

2

1

1

2

2

2

2

2

2

2

2

2

2

1

2

1

2

1

1

1

1 1

2

1

1

2

1

2

2

1

1

2

1

1

1

2

1

2

1

2

2

1

1

1

1

1

2

2

1

2

1

2

1

2

2

2

1

1

1

2

1

2

1

1

2

2

1

1

2

1

2

1

1

1

2

2

2

2

2

1

2

2

1

1

2

1

2

1

2

1

1

1

2

1

2

1

2

1

2

2

1

1

2

1

2

1

2

1

1

2

1

1

2

1

1

1

2

2

2

1

1

2

1

2

1

2

1

1 1

2

1

1

1

1

2

2

1

1

1

2

2

1

1

2

1

2

1

2

1

2

1

1

1

2

2

2

1

1

1

2

1

1

1

2

1

1

2

1

1

2

1

1

1

2

1

1

1

1

2

1

1

2

2

2

1

1

2

2

1

2

2

1

2

1

1

2

1

1

2

1

1

2

1

1

2

1

2

2

1

2

1

1

1

2

1

1

2

2

2

1

2

1

2

2

2

1

2

1

1

2

1

1

1

2

1

2

1

1

2

1

1

2

1

2

1

2

1

2

1

1

1

2

1

1

2

1

1

1

1

2

1

1

2

1

1

2

2

2

2

2

1

2

1

1

1

1

1

2

1 1

2

1

2

1

1

1

2

1

1

2

1

2

2

1

1

11

2

1

2

1

2

1

2

2

1

2

2 2

2

1

2

2

2

1

2

2

2

1

2

2

2

1

1

1

2

2

2

2

1

1

1

2

1

2

1 1

1

2

2

2

2

2

1

1

2

1

2

1

1

2

1

1

1 1

2

2

1

1

1

2

1

2

2

1

2

1

2

2

1

1

1

2

2

2

1

1

1

2

1

1

1

1

2

1

1

1

2

2

1

2

2

1

2

1

2

1

2

2

1

1

2

1

2

1

1

1

1

2

2

2

2

1

1

2

1

2

1

2

2

1

2

1

1

2

1

2

2

1

2

2

2

1

1

2

1

1

2

2

2 2

1

2

1

1

1

1

1 1

2

2

2

1

1

1

1

1

2

2

2

2

2

1

2

2

2

1

1

1

2

1

1

2

1

1

2

2

1

1

1

1

1

1

1

2

2

1

2

−0.5 0.0 0.5 1.0 1.5

0.0 0.5 1.0 1.5 2.0

lien maximum

1

2

1

1

1

2

2 2

1 1

2

2

1

1

2

2

1

2

2

2

2

2

2

2

1

1

1

2

1

1

1

1 1

2

1

1

2

1

1

2

2

1

2

1

1

1

2

1

2

1

1

2

1

2

1

1

1

2

1

1

2

1

2

1

2

2

2

1

1

1

2

1

2

1

1

2

2

1

1

2

1

1

1

1

1

2

2

2

2

2

1

2

1

1

1

2

1

2

1

2

2

1

1

2

2

2

1

1

1

2

2

1

1

2

1

2

1

2

1

1

1

1

1

2

1

1

1

2

2

2

1

1

1

1

1

1

1

1

1 1

2

1

1

2

1

2

2

1

1

1

2

2

1

1

2

1

2

2

2

1

2

1

1

1

2

2

2

1

1

1

2

1

1

1

2

1

1

2

1

1

2

1

1

1

2

1

1

1

1

2

1

2

2

2

1

2

1

2

2

1

2

2

1

2

1

1

2

1

1

2

1

1

2

1

1

2

1

1

2

1

2

1

1

1

2

2

1

1

2

2

1

1

1

2

1

2

1

2

1

1

2

1

1

1

2

1

2

1

1

1

1

1

2

1

1

1

2

1

2

2

1

1

1

1

1

2

1

1

1

1

2

1

1

1

1

1

2

2

1

2

2

1

2

1

1

1

1

1

1

1 1

2

1

2

1

1

1

2

1

1

2

1

2

2

1

1

11

2

1

2

1

1

1

1

2

1

1

2 2

2

1

2

2

2

1

2

2

2

1

2

2

2

1

1

1

2

2

2

2

1

1

1

2

1

2

1 1

1

2

2

2

1

1

1

1

2

1

2

1

1

2

1

1

1 1

2

2

1

1

1

2

1

1

2

1

1

1

2

1

1

1

1

2

2

2

1

1

1

2

1

1

1

1

2

1

1

1

2

2

1

1

2

1

2

1

2

1

2

2

1

1

2

1

2

1

1

1

1

1

2

2

2

2

1

2

1

1

1

2

2

1

2

1

1

2

1

2

2

1

2

1

2

1

1

2

1

1

2

2

2 2

1

1

1

1

1

2

1 1

2

2

1

1

1

2

1

1

2

2

1

2

2

2

2

1

2

1

1

1

1

1

1

2

1

1

1

2

1

2

1

1

1

1

1

2

2

1

2

−0.5 0.0 0.5 1.0 1.5

0.0 0.5 1.0 1.5 2.0

lien moyen

1

2

1

1

1

2

2 2

1 1

2

2

2

2

2

2

2

2

2

2

2

2

2

2

1

1

2

2

1

2

2

1 1

2

1

1

2

1

2

2

2

1

2

1

1

2

2

1

2

1

2

2

1

2

2

1

1

2

1

1

2

2

2

1

2

2

2

1

1

1

2

1

2

1

1

2

2

1

2

2

1

2

1

1

1

2

2

2

2

2

1

2

2

1

1

2

1

2

1

2

2

1

1

2

2

2

1

1

1

2

2

1

1

2

1

2

1

2

1

1

2

2

1

2

1

1

1

2

2

2

1

1

2

1

2

1

1

1

1 1

2

1

1

2

1

2

2

1

2

1

2

2

2

1

2

1

2

2

2

2

2

1

2

1

2

2

2

1

1

2

2

1

1

1

2

1

1

2

2

1

2

1

2

1

2

1

1

1

1

2

1

2

2

2

1

2

1

2

2

1

2

2

1

2

1

1

2

1

1

2

1

1

2

1

1

2

1

2

2

1

2

1

1

1

2

2

1

1

2

2

1

1

1

2

1

2

1

2

2

1

2

1

2

1

2

1

2

1

1

1

1

1

2

1

2

1

2

1

2

2

1

1

1

1

1

2

2

1

1

1

2

1

1

1

1

1

2

2

1

2

2

1

2

2

2

1

1

2

1

1 1

2

1

2

1

2

1

2

1

2

2

1

2

2

1

1

11

2

1

2

1

2

1

2

2

2

1

2 2

2

1

2

2

2

1

2

2

2

1

2

2

2

1

1

1

2

2

2

2

1

1

1

2

2

2

1 1

1

2

2

2

2

2

1

2

2

1

2

1

1

2

1

1

1 1

2

2

1

1

1

2

1

2

2

2

1

1

2

1

2

2

1

2

2

2

1

1

1

2

2

1

1

1

2

2

1

1

2

2

2

1

2

1

2

1

2

2

2

2

1

1

2

1

2

2

1

1

1

2

2

2

2

2

2

2

1

2

1

2

2

1

2

1

1

2

1

2

2

1

2

1

2

1

1

2

1

1

2

2

2 2

1

1

1

1

1

2

1 1

2

2

1

1

1

2

1

1

2

2

2

2

2

2

2

1

2

1

1

1

1

1

1

2

1

1

1

2

1

2

2

1

1

1

1

2

2

1

2

−0.5 0.0 0.5 1.0 1.5

0.0 0.5 1.0 1.5 2.0

median

Figure 5.1 – Partitions d’un jeu de données distribuées uniformément dans [0, 1] ×

[0, 2], obtenues par plusieurs méthodes de classification.

98


C1 C2 Partition

k-means

Cohésion 0.406 0.985 0.628

Isolation 0.684 0.684 0.684

RAND 0.576 0.769 0.656

pam

Cohésion 0.474 0.894 0.637

Isolation 0.673 0.673 0.673

RAND 0.597 0.736 0.655

Table 5.4 – Mesures de stabilité des partitions en deux classes, obtenues par les

méthodes k-means et pam, illustrées par la figure 5.1. Les valeurs des indices sont

normalisées en fonction de √ m. Ces résultats montrent que, grâce à la normalisation,

les indices de stabilité prennent en compte l’importance de la densité des points sur les

frontières des classes.

conditions, si la fonction objectif d’un algorithme de classification à centres possède

un optimum unique, alors la partition obtenue est stable. Comme le montre le tableau

5.3, ce théorème n’est pas valable pour les méthodes de classification hiérarchiques.

Pour résoudre ce problème, nous envisageons trois solutions. La première consiste à

adapter la normalisation proposée par Shamir et Tishby [43] à nos mesures de stabilité.

L’expression mathématique que nous appliquons pour normaliser nos mesures en fonc-

tion de la taille des échantillons est définie par l’équation 5.1. Les valeurs des mesures

de stabilité fournies par le tableau 5.4 montrent que grâce à cette normalisation les

mesures de stabilité prennent mieux en compte l’importance de la densité des points

sur les frontières des classes. Ce tableau nous montre aussi qu’après la normalisation

les conclusions sur la cohésion et sur l’isolation des classes sont les mêmes que celles

obtenues pour les méthodes de classification hiérarchiques.

La deuxième solution, consiste à s’affranchir de l’hypothèse relative à la taille des

échantillons qui est nécessaire pour que les résultats fournis par un algorithme de classi-

fication à centres convergent vers la stabilité. En effet, même si les données sont de très

grande taille nous pouvons tirer des échantillons de tailles modérées. Dans notre cas

nous nous proposons de tirer des échantillons proportionnels stratifiés approximative-

ment de taille m = 50. Ceci permet d’une part d’éviter la convergence vers la stabilité

99


et, d’autre part, d’alléger le temps de calcul consacré à la classification des échantillons

de grande taille. Les résultats fournis par le tableau 5.5 montrent que la partition en

deux classes est nettement moins stable lorsque les échantillons sont de petites tailles.

Par ailleurs, pour cet exemple, la solution proposée ne permet pas de voir nettement

le manque d’isolation entre les deux classes étudiées. Dans le paragraphe suivant, cette

façon d’échantillonner sera reprise une deuxième fois, avec un mélange de deux gaus-

siennes où la densité des points sur les frontières des classes est faible.

C1 C2 Partition

k-means

Cohesion 0.933 0.974 0.949

Isolation 0.949 0.949 0.949

RAND 0.943 0.956 0.949

pam

Cohesion 0.874 0.942 0.901

Isolation 0.891 0.891 0.891

RAND 0.885 0.906 0.896

Table 5.5 – Mesures de stabilité des partitions en deux classes, obtenues par les

méthodes k-means et pam, illustrées par la figure 5.1. Ces valeurs sont obtenues sans

normalisation. Cependant, la taille des échantillons proportionnels stratifiés est fixée

approximativement à m = 50.

Une troisième solution possible consiste à remplacer l’échantillonnage proportionnel

stratifié par le bruit uniforme. Ce choix est justifié par le fait qu’en ajoutant un bruit

uniforme modéré aux données initiales, le nombre de points échangés entre les deux

classes devient très élevé lorsque la densité des points sur les frontières des classes est

importante. Ainsi, les mesures de stabilité prendront en compte cet échange de points.

Les résultats relatifs à l’introduction du bruit figurent dans le tableau 5.6. Ce tableau

montre que la plupart des indices de stabilité des classes sont inférieurs à 0.95. Par la

suite, nous verrons que, lorsque la densité des points sur les frontières des classes est

faible, l’ajout d’un bruit uniforme affecte très peu la valeur des indices de stabilité des

classes.

100


C1 C2 Partition

k-means

Cohésion 0.920 0.974 0.941

Isolation 0.946 0.946 0.946

RAND 0.936 0.954 0.943

pam

Cohésion 0.936 0.952 0.942

Isolation 0.943 0.943 0.943

RAND 0.940 0.945 0.942

Table 5.6 – Mesures de stabilité des partitions en deux classes, obtenues par les

méthodes k-means et pam, illustrées par la figure 5.1. Ces valeurs sont obtenues en

utilisant le bruit. La quantité de bruit uniforme ajoutée à chaque coordonnée d’un

objet est égale ±5% sdj, où sdj est l’écart-type de la j ème variable descriptive.

5.2.2 Cas d’un jeu de données formé par deux classes gaus-

siennes

Dans ce paragraphe, nous traitons un exemple de jeu de données structuré en deux

classes gaussiennes. Les deux classes présentées dans la figure 5.2 sont des échantillons

aléatoires tirés selon deux lois normales bivariées :


iid

1 0

2 – Xi ∼ N (µ1, σ1) pour i = 1, . . . , 250, avec µ 1 = (0, 0) et σ1 =

0 1


iid

1.5 0

2 – Xi ∼ N (µ2, σ2) pour i = 251, . . . , 500, avec µ 2 = (5, 0) et σ2 =

0 1.5

L’objectif de cet exemple est de montrer, tout d’abord, que les indices de stabilité des

classes permettent de justifier le choix de la méthode de classification par l’utilisa-

teur. Nous montrons, de plus, que les trois solutions proposées dans le cas précédent

permettent aussi de prendre en compte la faiblesse de la densité des points sur les

frontières des classes. Plus précisément, nous montrons que pour cet exemple la norma-

lisation par rapport à la taille des données, le tirage des échantillons de faibles tailles

et l’introduction du bruit uniforme, affectent très peu les indices de stabilité des classes

lorsque la frontière est formée par un chevauchement entre deux vraies classes.

La figure 5.2 montre des partitions obtenues par plusieurs critères de classification.

Parmi ces critères, seul le critère median fournit une fausse classification. En observant

101


2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2 2

2

2

2

2

2

2

2

2 2

2

2

2

2

2

2

2

2

2

2

2

2

2 2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2 2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2 2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2 2

2 2

2

2

2

2

2

2 2

2

2

2

2

2

2 2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2 2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

22

2

2

2

2

2

2 2

2

2

2

2

2

2

2

2

2

2

1

2

2

2

2

2

2

2

2

2

2

2

222

2 2

2 2

2

2

2

2

2

2

2

2

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1 1

1

1

1

1

1

1

1

1 1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1 1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

2

1

1

1

1

1

1

1

1

1

1

1

1 1

1

2

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1 1

1

1

1

1

1

1

1

1 1

2

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

2

1

1

1

1

1

2

1

2

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

2

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

2

1

1

1

1

1

1

1

1

1

1

1

1

1

2

1

1

1

1

1

1

1

1

1

1

1

1

2

−2 0 2 4 6 8

−4 −2 0 2 4

k−means

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1 1

1

1

1

1

1

1

1

1 1

1

1

1

1

1

1

1

1

1

1

1

1

1 1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1 1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1 1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1 1

1 1

1

1

1

1

1

1 1

1

1

1

1

1

1 1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1 1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

11

1

1

1

1

1

1 1

1

1

1

1

1

1

1

1

1

1

2

1

1

1

1

1

1

1

1

1

1

1

111

1 1

1 1

1

1

1

1

1

1

1

1

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2 2

2

2

2

2

2

2

2

2 2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2 2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

1

2

2

2

2

2

2

2

2

2

2

2

2 2

2

1

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2 2

2

2

2

2

2

2

2

2 2

1

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

1

2

2

2

2

2

1

2

1

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

1

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

1

2

2

2

2

2

2

2

2

2

2

2

2

2

1

2

2

2

2

2

2

2

2

2

2

2

2

1

−2 0 2 4 6 8

−4 −2 0 2 4

pam

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1 1

1

1

1

1

1

1

1

1 1

1

1

1

1

1

1

1

1

1

1

1

1

1 1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1 1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1 1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1 1

1 1

1

1

1

1

1

1 1

1

1

1

1

1

1 1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1 1

1

1

1

1

1

1

1

1

1

1

1

1

1

2

1

1

1

1

1

1

1

1

1

1

11

1

1

1

1

1

1 1

1

1

1

1

1

1

1

1

1

1

2

1

1

1

1

1

1

1

1

1

1

1

111

1 1

1 1

1

1

1

1

1

1

1

1

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2 2

2

2

2

2

2

2

2

2 2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

1 2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

1

2

2

2

2

2

2

2

2

2

2

2

2 2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2 2

2

2

2

2

2

2

2

2 2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

1

2

2

2

2

2

1

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

1

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

1

2

2

2

2

2

2

2

2

2

2

2

2

2

1

2

2

2

2

2

2

2

2

2

2

2

2

2

−2 0 2 4 6 8

−4 −2 0 2 4

lien maximum

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1 1

1

1

1

1

1

1

1

1 1

1

1

1

1

1

1

1

1

2

1

1

1

1 1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1 1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1 1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1 1

1 1

1

1

1

1

1

1 1

1

1

1

1

1

1 1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1 1

1

1

1

1

1

1

1

1

1

1

1

1

1

2

1

1

1

1

1

1

1

1

1

1

11

1

1

1

1

1

1 1

1

1

1

1

1

1

1

1

1

1

2

1

1

1

1

1

1

1

1

1

1

1

111

1 1

1 1

1

1

1

1

1

1

1

1

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2 2

2

2

2

2

2

2

2

2 2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

1 2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

1

2

2

2

2

2

2

2

2

2

2

2

2 2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2 2

2

2

2

2

2

2

2

2 2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

1

2

2

2

2

2

1

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

1

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

1

2

2

2

2

2

2

2

2

2

2

2

2

2

1

2

2

2

2

2

2

2

2

2

2

2

2

2

−2 0 2 4 6 8

−4 −2 0 2 4

lien moyen

1

2

1

1

2

1

2

2

1

1

1

2

1

1

2

1

1

1

2

1 1

1

1

2

1

2

2

2

1 1

2

1

2

2

1

1

1

2

1

1

1

1

1 2

1

2

1

2

2

1

1

1

2

1

2

1

1

1

1

1

1

1

1

1

1

2

1

1

1

1

2

1

1

1

2 1

1

1

1

1

1

1

2

1

2

1

1

1

1

1

1

2

2

1

1

1

1

1

2

1

2

1

1

1

1

1

1

2

2

1

1

1

1

2

2

2 1

1

1

2

1

1

2

1

1

1

1

1

1

1

2

1

2

1

1

2

2

1 1

1 1

1

1

2

1

1

1 1

2

2

1

1

1

2 2

2

1

1

1

1

2

1

1

1

2

1

1

1

1

2

2

1

2

2

1

2

1

2

2 2

1

2

1

2

2

1

1

1

1

1

1

1

1

1

1

1

1

1

2

2

2

1

1

1

11

1

1

2

2

1

1 1

1

2

1

2

2

2

1

2

1

1

1

1

2

1

1

2

1

1

1

1

1

2

111

1 1

1 1

1

2

2

1

1

1

1

2

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1 1

1

1

1

1

1

1

1

1 1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1 1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1 1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1 1

1

1

1

1

1

1

1

1 1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

−2 0 2 4 6 8

−4 −2 0 2 4

median

Figure 5.2 – Partitions d’un jeu de données formé par deux classes gaussiennes,

obtenues par plusieurs méthodes de classification.

102


les valeurs des indices de stabilité figurant dans le tableau 5.7, nous concluons que les

indices de cohésion et d’isolation des classes expriment la non validité de la partition

fournie par le critère median. Nous remarquons aussi, que les indices de cohésion des

classes obtenues avec les autres méthodes de classification hiérarchiques, révèlent le

léger écart de cohésion entre les deux classes étudiées.

C1 C2 Partition

k-means

Cohésion 0.9991 1.0000 0.9996

Isolation 0.9996 0.9996 0.9996

RAND 0.9994 0.9997 0.9996

pam

Cohésion 0.9997 0.9972 0.9985

Isolation 0.9984 0.9984 0.9984

RAND 0.9989 0.9980 0.9985

lien maximum

Cohésion 0.9941 0.9599 0.9777

Isolation 0.9768 0.9768 0.9768

RAND 0.9827 0.9714 0.9773

lien moyen

Cohésion 0.9940 0.9560 0.9756

Isolation 0.9747 0.9747 0.9747

RAND 0.9812 0.9686 0.9751

median

Cohésion 0.617 0.931 0.627

Isolation 0.431 0.431 0.431

RAND 0.569 0.471 0.577

Table 5.7 – Mesures de stabilité des partitions en deux classes de la figure 5.2. Ces

valeurs sont obtenues en utilisant l’échantillonnage proportionnel stratifié.

Les tableaux 5.8, 5.9 et 5.10 présentent les indices de stabilité des résultats fournis

par les méthodes de classification à centres. Ces valeurs sont obtenues respectivement

en normalisant les indices par rapport à la taille des données, en ajoutant un bruit

uniforme et en tirant des échantillons proportionnels de tailles modérées (m = 50).

D’après les valeurs des indices des classes, nous concluons que les trois solutions testées

103


précédemment avec le jeu de données uniformes, restent efficaces lorsque la densité des

points sur les frontières des classes est faible.

C1 C2 Partition

k-means

Cohésion 0.9821 1.0000 0.9917

Isolation 0.9911 0.9911 0.9911

RAND 0.9883 0.9942 0.9914

pam

Cohésion 0.9937 0.9430 0.9702

Isolation 0.9682 0.9682 0.9682

RAND 0.9771 0.9603 0.9692

Table 5.8 – Mesures de stabilité des partitions, obtenues par la méthode k-means et

pam, illustrées par la figure 5.2. Les valeurs des indices sont normalisées par √ m. Ces

résultats montrent que, après normalisation, les indices de stabilité détectent la densité,

même faible, des points sur les frontières des classes.

C1 C2 Partition

k-means

Cohésion 0.990 0.993 0.992

Isolation 0.992 0.992 0.992

RAND 0.991 0.992 0.992

pam

Cohésion 0.991 0.976 0.984

Isolation 0.983 0.983 0.983

RAND 0.985 0.981 0.983

Table 5.9 – Mesures de stabilité des partitions, obtenues par la méthode pam et kmeans,

illustrées par la figure 5.2. Ces valeurs sont obtenues sans normalisation. Cependant,

la taille des échantillons proportionnels stratifiés est fixée approximativement

à m = 50.

5.2.3 Cas d’un jeu de données structurées en cinq classes non

convexes

Dans cette expérience, nous traitons un cas de structure en classes connexes mais non

convexes. Dans cet exemple, le terme cohésion des classes est synonyme connexité des

104


C1 C2 Partition

k-means

Cohésion 0.983 0.984 0.983

Isolation 0.983 0.983 0.983

RAND 0.983 0.984 0.983

pam

Cohesion 0.980 0.981 0.980

Isolation 0.980 0.980 0.980

RAND 0.980 0.981 0.980

Table 5.10 – Mesures de stabilité des partitions en deux classes, obtenues par les

méthodes k-means et pam, illustrées par la figure 5.2. Ces valeurs sont obtenues en

ajoutant un bruit uniforme. La quantité de bruit uniforme ajoutée à chaque coordonnée

d’un objet donné est égale à ±5% sdj, où sdj est l’ecart type de la j ème variable

descriptive.

classes, i.e. les objets d’une même classe sont situés sur une même chaîne. Les figures 5.3

et 5.4 illustrent la structure de l’ensemble de données étudié et ses différentes partitions

obtenues par plusieurs méthodes de classification. En observant les partitions obtenues,

nous remarquons que seule la méthode k-means découvre la vraie structure des données.

Les valeurs des indices de connexité (ou de cohésion) et d’isolation des classes, pour les

différents résultats de classification, sont présentés dans les tableaux 5.11 et 5.12. Les

valeurs du tableau 5.11 sont obtenues en utilisant l’échantillonnage proportionnel, alors

que les valeurs du tableau 5.12 sont obtenues en perturbant les données par ajout de

bruit uniforme. Dans les deux cas, la seule partition valide selon les valeurs des indices

est celle fournie par la méthode k-means. Toutes les autres partitions présentent un

défaut de connexité pour une ou plusieurs de leurs classes.

A titre d’exemple, considérons la partition obtenue par la méthode du lien maximum.

En observant la partition obtenue par cette méthode de classification, nous remarquons

qu’il existe une grande distance entre la troisième classe et les 6 éléments de cette même

classe qui sont classés avec la cinquième classe. Ce manque de connexité est bien pris

en compte par l’indice de cohésion de la troisième classe et par l’indice d’isolation de

la cinquième classe (cf. tableaux 5.11 et 5.12). Tous les manques de connexité et/ou

d’isolation des classes des autres partitions peuvent être interprétés de la même façon.

105


2 2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2 2 2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2 2

2 2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

22

2

2

2

2

2

2

2

2

2

3

3

3

3

3

3 3

3

3

3

3

3

3

3

3

3 3

3

3

3 3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

33

3

3

3

3

3

3 3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4 4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4 4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4 4

4

4

4

4

4

4

4

4

4

44

4

4

4

4

4

4 4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

5

5

5

5

5

5

5

5

5

5

5

5

5

5

5

5

5

5

5

5

5

5

5

5

5

5

5

5

5

5 5

5

5

5

5

5

5

5

5

5

5

5

5

5

5 5

5

5

5

5

5

5

5

55

5 5

1

5

55

5

5 5

5

5

5

5

5 5

5

1

5

5

5

5

5

5

5

5 5

5

5

5

5

5

5

5

5

5

5

5

1

1

1

1

1

1

1 1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

11

1

1

1

1

1

1

1

1

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

kmeans

1 1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1 1 1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1 1

1 1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

11

1

1

1

1

1

1

1

1

1

2

2

2

2

2

2 2

2

2

2

2

2

2

2

2

2 2

2

2

2 2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

22

2

2

2

2

2

2 2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

3

3

3

3

4

3

3

4

3

3

3

3

4

3

3

4 4

3

3

3

3

3

3

3

3

3

3

3

3

3

4

3

3

3

3

3

3

3

3

4

3

4

3

3

3

3

3

3

3 3

3

3

3

3

3

3

3

3

3

3

4

4

3

3

4

3

3

3

4 4

3

4

3

4

3

4

4

3

3

33

3

3

3

3

3

3 3

3

3

3

3

3

4

4

3

4

3

3

3

3

3

3

3

4

4

3

3

4

3

3

3

3

3

5

5

5

5

5

4

5

5

5

5

5

5

5

5

5

5

5

5

5

5

5

5

5

5

5

5

5

5

5

5 5

5

4

5

5

5

5

5

5

5

5

5

5

5

5 5

5

5

5

5

5

5

5

55

5 5

4

5

44

5

5 5

5

5

5

5

5 5

5

4

5

5

5

5

5

5

5

5 5

5

5

4

5

5

5

5

5

4

5

5

4

4

4

4

1

4

4 4

4

4

4

4

1

4

4

1

4

4

4

4

4

4

4

4

4

1

4

2

4

4

4

4

4

4

4

4

1

4

4

4

11

1

4

4

4

1

1

4

4

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

pam

Figure 5.3 – Partitions d’un jeu de données formé par cinq classes connexes et non

convexes, obtenues par les méthodes pam et k-means.

106


1 1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1 1 1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1 1

1 1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

11

1

1

1

1

1

1

1

1

1

2

2

2

2

2

2 2

2

2

2

2

2

2

2

2

2 2

2

2

2 2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

22

2

2

2

2

2

2 2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3 3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3 3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3 3

3

3

3

3

3

3

3

3

3

33

3

3

3

3

3

3 3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4 4

4

4

4

4

4

4

4

4

4

4

4

4

4

4 4

4

4

4

4

4

4

4

44

4 4

4

4

44

4

4 4

4

4

4

4

4 4

4

4

4

4

4

4

4

4

4

4 4

4

4

4

4

4

4

4

4

4

4

4

4

5

4

5

1

5

4 4

4

5

4

1

1

4

5

1

5

5

1

5

1

5

5

5

1

1

5

1

1

5

4

4

4

4

4

5

1

4

1

4

11

1

5

1

4

1

1

5

5

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

lien moyen

1 1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1 1 1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1 1

1 1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

11

1

1

1

1

1

1

1

1

1

2

2

2

2

2

2 2

2

2

2

2

2

2

2

2

2 2

2

2

2 2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

22

2

2

2

2

2

2 2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3 3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3 3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3 3

3

3

3

3

3

3

3

3

3

33

3

3

3

3

3

3 3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4 4

4

4

4

4

4

4

4

4

4

4

4

4

4

4 4

4

4

4

4

4

4

4

44

4 4

4

4

44

4

4 4

4

4

4

4

4 4

4

4

4

4

4

4

4

4

4

4 4

4

4

4

4

4

4

4

4

4

4

4

4

5

4

5

5

5

4 4

4

5

4

5

5

4

5

5

5

5

5

5

5

5

5

5

5

5

5

5

5

5

4

4

4

4

4

5

5

4

5

4

55

5

5

5

4

5

5

5

5

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

median

1 1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1 1 1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1 1

1 1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

11

1

1

1

1

1

1

1

1

1

2

2

2

2

2

2 2

2

2

2

2

2

2

2

2

2 2

2

2

2 2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

22

2

2

2

2

2

2 2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3 3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3 3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3 3

3

3

3

3

3

3

3

3

3

33

3

3

3

3

3

3 3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4 4

4

4

4

4

4

4

4

4

4

4

4

4

4

4 4

4

4

4

4

4

4

4

44

4 4

4

4

44

4

4 4

4

4

4

4

4 4

4

4

4

4

4

4

4

4

4

4 4

4

4

4

4

4

4

4

4

4

4

4

5

5

5

5

5

5

5 5

5

3

5

5

5

5

3

5

5

5

5

5

5

3

5

5

5

5

3

5

5

3

5

5

5

5

5

5

5

5

5

5

55

5

5

5

5

5

5

3

5

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

lien maximum

Figure 5.4 – Partitions d’un jeu de données formé par cinq classes connexes et non

convexes, obtenues par les méthodes de classification hiérarchique.

107


C1 C2 C3 C4 C5 Partition

k-means

Cohésion 0.992 0.983 1.000 1.000 0.999 0.995

Isolation 0.997 0.999 1.000 1.000 0.999 0.999

RAND 0.996 0.997 1.000 1.000 0.999 0.998

pam

Cohésion 0.892 0.990 0.922 0.603 0.937 0.891

Isolation 0.982 0.985 0.971 0.909 0.987 0.969

RAND 0.969 0.986 0.966 0.883 0.982 0.953

lien maximum

Cohésion 0.940 1.000 0.905 0.939 0.832 0.935

Isolation 0.992 0.995 0.990 0.992 0.943 0.987

RAND 0.985 0.995 0.977 0.986 0.938 0.975

lien moyen

Cohésion 0.851 1.000 0.969 0.713 0.586 0.874

Isolation 0.993 0.979 0.978 0.993 0.804 0.978

RAND 0.971 0.981 0.977 0.956 0.801 0.954

median

Cohésion 1.000 1.000 0.971 0.853 0.848 0.949

Isolation 0.995 0.999 0.989 0.991 0.936 0.988

RAND 0.995 0.999 0.987 0.973 0.933 0.980

Table 5.11 – Mesures de stabilité des partitions en cinq classes illustrées par les figures

5.3 et 5.4. Ces valeurs sont obtenues en utilisant l’échantillonnage proportionnel stratifié

(f = 0.8).

108


C1 C2 C3 C4 C5 Partition

k-means

Cohésion 0.986 0.954 0.996 0.990 0.979 0.980

Isolation 0.988 0.996 1.000 0.999 0.997 0.997

RAND 0.988 0.991 0.999 0.998 0.995 0.993

pam

Cohésion 0.874 0.986 0.989 0.634 0.937 0.902

Isolation 0.986 0.992 0.968 0.921 0.989 0.973

RAND 0.970 0.991 0.970 0.897 0.984 0.959

lien maximum

Cohésion 0.874 0.948 0.880 0.933 0.654 0.892

Isolation 0.982 0.985 0.986 0.982 0.893 0.974

RAND 0.968 0.981 0.970 0.976 0.881 0.956

lien moyen

Cohésion 0.880 1.000 1.000 0.633 0.520 0.872

Isolation 0.994 0.976 0.971 0.994 0.762 0.974

RAND 0.976 0.978 0.975 0.946 0.757 0.950

median

Cohésion 0.942 0.883 0.943 0.762 0.629 0.877

Isolation 0.978 0.983 0.981 0.979 0.864 0.969

RAND 0.973 0.972 0.975 0.950 0.855 0.949

Table 5.12 – Mesures de stabilité des partitions en cinq classes illustrées par les figures

5.3 et 5.3. Ces valeurs sont obtenues en utilisant le bruit uniforme.

109


5.3 Recherche du ou des bons nombres de classes

L’approche proposée peut servir à justifier le choix du critère de classification par l’uti-

lisateur, et aussi à valider le choix du nombre de classes. Dans cette section, nous nous

proposons de tester l’efficacité de l’approche proposée pour déterminer le nombre op-

timal de classes sur des modèles de jeux de données simulées artificiellement à l’aide

du logiciel R. L’objectif de ces simulations est aussi de comparer les résultats de notre

approche de validation à ceux des méthodes listées dans le tableau 5.1.

Dans une première étape, nous exposons l’algorithme de détermination du ou des bons

nombres de classes que nous proposons. Ensuite, nous présentons les différents modèles

de jeux de données utilisés pour tester l’approche proposée. Enfin, nous présentons les

résultats des différentes simulations réalisées.

5.3.1 Algorithme

Soit respectivement Co = Co1, . . . , Cok et Is = Is1, . . . , Isk les k indices de cohésion et

d’isolation de la partition de référence P , avec i = 1, . . . , k. Le processus de validation

du ou des bons nombres de classes que nous proposons est présenté par l’algorithme 9.

Algorithme 9 : Méthode de détermination du ou des nombres de classes

Entrées :

• X : ensemble de données de référence à classifier,

• kmax : nombre de classes maximum à tester,

• A : algorithme de classification,

• ɛ : amplitude maximale de l’intervalle de confiance de la mesure de stabilité à

calculer,

• f (ou taux) : proportion des échantillons stratifiés (ou taux de bruit uniforme),

• seuil : une valeur entre 0.9 et 1 prédéfinie par l’utilisteur.

Sorties : k ∗ : nombre optimal de classes.

1: pour k = 2 à kmax faire

2: Pk = Ak(X) : classifier les données de référence en k classes.

110


3: Calculer les vecteurs Co et Is de la partition P en appliquant l’algorithme 8 et

en respectant les paramètres ɛ et f (ou taux).

4: Déterminer la valeur : Stab[k] = min

i=1,...,k [min(Coi, Isi)].

5: fin pour

6: Le nombre optimal de classes est : k ∗ = max{k = 2, . . . , kmax : Stab[k] > seuil}.

Par ailleurs, si toutes les valeurs du vecteur Stab sont inférieures à seuil alors le

nombre optimal de classes est k ∗ = 1. Le cas échéant on peut avoir plusieurs k ∗ qui

correspondent à des séries de valeurs qui sont au dessus du seuil. Par conséquent

nous pouvons avoir plusieurs nombres optimums de classes.

Comme le montre l’algorithme 9, pour déterminer un nombre optimal de classes nous

imposons deux conditions : il faut que les indices de cohésion et d’isolation de toutes les

classes soient supérieurs à la valeur seuil pour que la partition de référence soit jugée

valide.

5.3.2 Les modèles des jeux de données simulées

Dans ce paragraphe nous définissons les paramètres des différents modèles de jeux de

données simulées avec le logiciel R. L’objectif de ces simulations est de comparer

notre stratégie de validation à d’autres méthodes fondées sur un critère d’adéquation

aux données ou sur un autre critère de stabilité. Dans ce paragraphe, nous comparons

plusieurs méthodes de validation sur le problème de recherche du bon nombre de classes.

Les dix modèles de jeux de données testés sont issus de l’article de Kapp et Tibshirani

[29]. Dans une première étape, nous présentons les modèles de jeux de données qui ont

un nombre de dimensions égal à 2 ou 3. Ensuite, nous présentons les modèles de jeux de

données à forte dimensionnalité (q = 1000). Dans les expériences réalisées nous simulons

100 jeux de données pour chaque modèle. Ensuite, nous comptons la proportion de

succès obtenus sur chaque modèle par plusieurs méthodes de validation. La performance

de chaque méthode de validation est évaluée sur la base de ces proportions.

Modèles de jeux de données à faible dimensionnalité

– Modèle 1 : ensemble de données sans structure distribuées uniformément dans un

iid 10 espace à 10 dimensions, Xi ∼ U [0, 1] pour i = 1, . . . , 200.

111


– Modèle 2 : ensemble de données gaussiennes sans structure générées dans un espace

iid 10 à 10 dimensions, Xi ∼ N (0, 1) pour i = 1, . . . , 200.

– Modèle 3 : ensemble de données générées dans un espace à 2 dimensions formé par

quatre lois gaussiennes et de même taille égale à 25 (cf. figure 5.5).

iid 2 ∼ N (µj, σ) : pour i = 1, . . . , 25, µ 1 = (−3, 3) ; pour i = 26, . . . , 50, µ 2 =

Xi

(4, 4) ; pour i = 51, . . . , 75,


µ 3 =


(5, 5) ; pour i = 76, . . . , 100, µ 4 = (−6, −6) ; pour

1 0

tout i = 1, . . . , 100, σ = .

0 1

– Modèle 4 : ensemble de données dans un espace à 2 dimensions formé par quatre lois

gaussiennes de tailles inégales (cf. figure 5.5).

iid 2 ∼ N (µj, σ) : pour i = 1, . . . , 10, µ 1 = (−3, 3) ; pour i = 11, . . . , 30, µ 2 =

Xi

(4, 4) ; pour i = 31, . . . , 60,


µ 3 =


(5, 5) ; pour i = 61, . . . , 100, µ 4 = (−6, −6) ; pour

1 0

tout i = 1, . . . , 100, σ = .

0 1

– Modèle 5 : données dans un espace à 2 dimensions structurées en quatre lois gaus-

siennes ayant des tailles inégales et des matrices variances-covariances différentes de

l’identité (cf. figure 5.6).


iid

1 −0.7

2

Xi ∼ N (µj, σj) : pour i = 1, . . . , 10, µ 1 = [−3, 3] et σ1 =

;

−0.7 1


1 −0.3

pour i = 11, . . . , 30, µ 2 = [4, 4] et σ2 =

; pour i = 31, . . . , 60,

−0.3 1


1 0.3

µ 3 = [5, 5] et σ3 =

; pour i = 61, . . . , 100, µ 4 = [−6, −6] et σ4 =

0.3 1


1 0.7

.

0.7 1

– Modèle 6 : deux classes allongées dans un espace à 3 dimensions (cf. figure 5.6). pour

i = 1, . . . , 100, soit Yi = (−0.5+ i−1

99

soit Yi = (−0.5 + i−101

99

, −0.5 + i−101

99

, −0.5+ i−1

99

, −0.5 + i−101

99

i−1 , −0.5+ ) et pour i = 101, . . . , 200,

99

). Les données de référence sont

obtenues en effectuant la transformation suivante : Xi = Yi + N 3 (0, 0.1)

– Modèle 7 : ensemble de données dans un espace à 2 dimensions formé par quatre lois

iid 2 1

exponentielles (cf. figure 5.7). Pour i = 1, . . . , 100, soit Yi ∼ exp ( = 1). Ensuite,

λ

les données de référence sont obtenues ainsi : pour i = 1, . . . , 25, Xi = Yi + (2, −2) ;

pour i = 26, . . . , 50, Xi = Yi + (2, 2) ; pour i = 51, . . . , 75, Xi = Yi + (−2, 2) et i =

112


76, . . . , 100, Xi = Yi + (−2, −2).

Modèles de jeux de données à forte dimensionnalité

Toutes les simulations issues des trois modèles suivants sont éffectuées dans un espace

à 1000 dimensions.

– Modèle 8 : ensemble de données sans structure distribuées uniformément : pour i =

iid 1000 1, . . . , 100, Xi ∼ U [0, 1].

– Modèle 9 : ensemble de données formé par trois classes isolées dans un espace à 900

dimensions parmi 1000 et de tailles égales. Les jeux de données issus de ce modèle

sont générés selon le processus suivant :

1. Pour i = 1, . . . , 150 et pour j = 1, . . . , 1000, on a X[i, j] = 0.

2. X[i,j] = 5 : pour i = 1, . . . , 50 et j = 51, . . . , 350 ; pour i = 51, . . . , 100 et j =

351, . . . , 650 ; et pour i = 101, . . . , 150 et j = 651, . . . , 950.

3. Tirer aléatoirement et avec remise 150 éléments de l’ensemble {1, . . . , 100} : on

obtient ainsi l’échantillon Y = y1, . . . , yi, . . . , y150.

4. Pour chaque ligne i de X :

a. Générer aléatoirement yi valeurs selon la loi uniforme U[−1, 1].

b. Ajouter aléatoirement ces yi valeurs aux cellules de la ligne i de X.

– Modèle 10 : ensemble de données formé par trois classes isolées dans un espace à

900 dimensions parmi 1000 et de tailles inégales. Les jeux de données relevant de ce

modèle sont générés par le processus suivant :

1. Pour i = 1, . . . , 175 et pour j = 1, . . . , 1000, on a X[i, j] = 0.

2. X[i,j] = 5 : pour i = 1, . . . , 25 et j = 51, . . . , 350 ; pour i = 26, . . . , 75 et j =

351, . . . , 650 ; et pour i = 76, . . . , 175 et j = 651, . . . , 950.

3. Tirer aléatoirement et avec remise 175 éléments de l’ensemble {1, . . . , 100} : on

obtient ainsi l’échantillon Y = y1, . . . , yi, . . . , y150.

4. Pour chaque ligne i de X :

a. Générer aléatoirement yi valeurs selon la loi uniforme U[−1, 1].

b. Ajouter aléatoirement ces yi valeurs aux cellules de la ligne i de X.

113


−8 −6 −4 −2 0 1 2 3 4 5 6

−8 −6 −4 −2 0 1 2 3 4 5

● ●









● ●



● ●


● ●










● ●

● ●







●●

● ●





Modèle 3




● ● ●

● ●

● ●







● ●

● ●

●●








● ●

● ●


●●







−8 −6 −4 −2 0 1 2 3 4 5 6 7






●●

● ●

● ●●


● ●

● ● ●


● ●

● ● ●

● ● ●


●●●

● ●●






● ●



● ●




Modèle 4


● ●



● ● ●

● ●


● ●









● ●


●●

● ● ●