Classification et Mod`eles LinÃ©aires en Analyse ... - Youblisher.com

Université Paris IX–Dauphine 

U.F.R. Mathématique de la Décision 

Thèse 

l’obtention du titre de 

Docteur en Informatique 

Présentée et soutenue par 

Oldemar RODRIGUEZ ROJAS 

Sujet de la Thèse 

Classification et Modèles Linéaires 

en Analyse des Données Symboliques 

JURY 

Directeur de thèse 

Rapporteurs 

Suffrageants 

Edwin DIDAY 

Professeur à l’Université Paris IX–Dauphine, France 

Gilbert SAPORTA 

Professeur au Conservatoire National des Arts et Métiers, France 

Suzanne WINSBERG 

Professeur à l’Université de Rutgers, Etats–Unis 

Paula BRITO 

Professeur à l’Université de Porto, Portugal 

Pierre CAZES 

Professeur à l’Université Paris IX–Dauphine, France 

Rosanna VERDE 

Professeur à l’Université Federico II, Italie 

Présentée et soutenue publiquement le 14 novembre 2000

Contents 

Introduction 12 

1 Présentation de l’Analyse des Données Symboliques 18 

1.1 Données symboliques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 

1.2 Objets symboliques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 

1.3 Propriétés et opérateurs des objets symboliques . . . . . . . . . . . . . . 23 

2 Classification Pyramidale Symbolique Ascendante 27 

2.1 Définitions préliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . 27 

2.2 Algorithme de Classification Pyramidale Symbolique . . . . . . . . . . . 32 

2.3 Algorithme de Classification Pyramidale Symbolique avec Ordre Donné . 45 

2.4 Théorèmes de convergence . . . . . . . . . . . . . . . . . . . . . . . . . 50 

2.5 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 

3 La Régression Symbolique 60 

3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 

2

3 

3.2 Statistiques descriptives pour de données symboliques . . . . . . . . . . 61 

3.2.1 La moyenne symbolique . . . . . . . . . . . . . . . . . . . . . . 61 

3.2.2 La médiane symbolique . . . . . . . . . . . . . . . . . . . . . . 63 

3.2.3 Percentiles symboliques et déviation quartile symbolique . . . . . 64 

3.2.4 La moyenne symbolique des valeurs extrêmes . . . . . . . . . . . 66 

3.2.5 La variance et l’écart type symbolique . . . . . . . . . . . . . . . 67 

3.2.6 Histogrammes symboliques . . . . . . . . . . . . . . . . . . . . 68 

3.2.7 Boîtes de dispersion (Boxplot) . . . . . . . . . . . . . . . . . . . 70 

3.2.8 La corrélation symbolique . . . . . . . . . . . . . . . . . . . . . 70 

3.3 La régression linéaire symbolique simple . . . . . . . . . . . . . . . . . 80 

3.3.1 Modèle de régression simple avec la corrélation empirique . . . . 80 

3.3.2 Modèle de régression simple avec la corrélation symbolique maximum 

et minimum . . . . . . . . . . . . . . . . . . . . . . . . . 81 

3.3.3 Modèle de régression symbolique simple avec les points Inférieur– 

Supérieur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 

3.3.4 Modèle des sommets pour la régression symbolique simple . . . . 85 

4 Le Cercle des Corrélations Symboliques et l’Analyse en Composantes Principales 

pour des Données de Type Histogramme 88 

4.1 Cercle des corrélations symboliques dans l’analyse en composantes principales 

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

4 

4.1.1 Le cercle des corrélations en utilisant le coefficient de la corrélation 

symbolique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 

4.1.2 La dualité dans la Méthode des Centres . . . . . . . . . . . . . . 98 

4.1.3 La dualité dans la Méthode des Sommets . . . . . . . . . . . . . 116 

4.1.4 Les aides symboliques à l’interprétation . . . . . . . . . . . . . . 119 

4.1.5 Le logiciel pour l’analyse en composantes principales symbolique 124 

4.2 Généralisation de l’analyse en composantes principales aux données de 

type histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 

4.2.1 L’algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 

4.2.2 Exemples d’application . . . . . . . . . . . . . . . . . . . . . . . 132 

4.2.3 L’interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 

5 L’Analyse Symbolique des Tableaux de Proximités 137 

5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 

5.2 L’analyse classique des tableaux de dissimilarités . . . . . . . . . . . . . 138 

5.3 L’analyse des tableaux de dissimilarités de type intervalle: INTERSCAL 141 

5.4 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 

5.4.1 Exemple des huiles et des graisses . . . . . . . . . . . . . . . . . 147 

5.4.2 Exemple de jugements de rectangles . . . . . . . . . . . . . . . . 150 

5.5 Le programme de l’algorithme INTERSCAL . . . . . . . . . . . . . . . 154 

Conclusion 155

5 

A 

Programme Intégré de Méthodes d’Analyse des Données Symboliques (PIMAD– 

Symbolique) 166 

A.1 L’installation et la désinstallation . . . . . . . . . . . . . . . . . . . . . . 167 

A.2 Le module de classification ascendante pyramidale symbolique . . . . . . 167 

A.3 Le module d’analyse en composantes principales pour des données de 

type intervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 

A.4 Le module d’analyse en composantes principales pour des données de 

type histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 

A.5 Le module de régression linéare symbolique . . . . . . . . . . . . . . . . 174 

A.6 Le module de l’algorithme INTERSCAL pour la méthode d’analyse des 

tableaux de proximités de type intervalle . . . . . . . . . . . . . . . . . . 176

List of Figures 

1 Deux principes fondamentaux de l’analyse de données symbolique. . . . 14 

2.1 Exemple d’une Pyramide. . . . . . . . . . . . . . . . . . . . . . . . . . . 30 

2.2 Pyramide symbolique. . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 

2.3 Pyramide en construction. . . . . . . . . . . . . . . . . . . . . . . . . . 34 

2.4 Pyramide en construction. . . . . . . . . . . . . . . . . . . . . . . . . . 37 

2.5 Pyramide obtenue après l’union de deux composantes connexes. . . . . . 44 

2.6 Pyramide du tableau de données de l’exemple 1.1.1. . . . . . . . . . . . . 52 

2.7 Représentation pyramidale de l’exemple de l’huile et la graisse (échelle 

modifié). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 

2.8 Représentation pyramidale de l’exemple de l’huile et la graisse (échelle 

réelle). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 

2.9 Hiérarchie binaire de l’exemple de l’huile et la graisse (échelle modifié). . 58 

2.10 Représentation pyramidale de l’exemple de l’huile et la graisse si on a 

l’ordre des objets a priori 7≤6≤5≤1≤2≤4≤3. . . . . . . . . . . . . . . 59 

6

7 

3.1 L’histogramme symbolique de la variable Y 1 =Systolic–Pressure. . . . . 69 

3.2 La boîte de dispersion de la variable Y =Pulse–Rate. . . . . . . . . . . . 71 

3.3 X H ou Y H contiennent l’origine. . . . . . . . . . . . . . . . . . . . . . . 75 

3.4 Tous les deux X H et Y H sont dans le même m–quadrant. . . . . . . . . . 76 

3.5 X H et Y H sont dans des m–quadrants opposés. . . . . . . . . . . . . . . 77 

3.6 X H et Y H ne contiennent pas des vecteurs colinéaires et ni l’un ni l’autre 

X H ou Y H contient l’origine. . . . . . . . . . . . . . . . . . . . . . . . . 78 

3.7 Graphique de régression des variables Systolic–Pressure×Pulse–Rate avec 

le modèle de la corrélation empirique. . . . . . . . . . . . . . . . . . . . 82 


le modèle de la corrélation symbolique maximum et minimum. . . . . . . 84 


le modèle de Inférieur–Supérieur points. . . . . . . . . . . . . . . . . . . 85 


le modèle des sommets. . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 

4.1 Cercle classique des corrélations. . . . . . . . . . . . . . . . . . . . . . . 90 

4.2 Cercle des corrélations symbolique. . . . . . . . . . . . . . . . . . . . . 92 

4.3 Cercle des corrélations symbolique de “Oils and Fats data” avec la méthode 

des centres. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 


des centres. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

8 


des sommets. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 

4.6 Projection des variables hypercubes. . . . . . . . . . . . . . . . . . . . . 102 

4.7 Le cercle des corrélations symbolique avec le algorithme 4.2. . . . . . . . 110 

4.8 Le plan principal symbolique avec la méthode des centres dual. . . . . . . 110 

4.9 Le cercle des corrélations symbolique avec la méthode des centres commençant 

par Z t Z. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 

4.10 Plan principal symbolique avec la méthode des centres commençant par 

Z t Z. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 

4.11 Cercle des corrélations symbolique avec la méthode des sommets. . . . . 120 

4.12 La qualité symbolique de S i selon le j–ième axe factoriel. . . . . . . . . 121 

4.13 Le plan principal avec des données de type continu, intervalle et histogramme. 

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 

4.14 La pyramide avec des données de type continue, intervalles et histogramme.134 

4.15 Tableau des données avec deux individus et deux variables de type histogramme. 

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 

4.16 TPlan principal du tableau. . . . . . . . . . . . . . . . . . . . . . . . . . 136 

5.1 Distances minimum et maximum entre les deux hypercubes. . . . . . . . 143 

5.2 Distances moyennes parmi les deux hypercubes. . . . . . . . . . . . . . . 144 

5.3 Plan principal de données des huiles et des graisses en utilisant l’algorithme 

INTERSCAL. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150

9 

5.4 Le plan principal symbolique avec la méthode des centres dual. . . . . . . 150 

5.5 Rectangles dont la hauteur est inférieure à leur largeur du côté droit. . . . 152 

5.6 a troisième dimension s’est reliée à la taille ou à l’aire des rectangles avec 

les plus petits apparaissant sur le dessus. . . . . . . . . . . . . . . . . . . 152 

A.1 PIMAD–Symbolique dans le menu Démarrer de Windows. . . . . . . . . 167 

A.2 Fenêtre principal du module de classification ascendante pyramidale symbolique. 

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 

A.3 La boîte de dialogue pour la selection de variables. . . . . . . . . . . . . 170 

A.4 Fenêtre principale du module d’analyse en composantes principales pour 

des données de type intervalle. . . . . . . . . . . . . . . . . . . . . . . . 171 

A.5 Boîte de dialogue pour choisir l’algorithme. . . . . . . . . . . . . . . . . 172 

A.6 Fenêtre principale du module d’analyse en composantes principales pour 

des données de type histogramme. . . . . . . . . . . . . . . . . . . . . . 174 

A.7 Fenêtre principal du module de régression symbolique simple. . . . . . . 175 

A.8 Options du module de régression. . . . . . . . . . . . . . . . . . . . . . 177 

A.9 Fenêtre principal du module pour l’algorithme INTERSCAL. . . . . . . . 178

List of Tables 

2.1 Tableau des données. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 

3.1 Exemple avec onze patients. . . . . . . . . . . . . . . . . . . . . . . . . 65 

4.1 Tableau des données “Oils and Fats”. . . . . . . . . . . . . . . . . . . . . 96 

4.2 Les corrélations classiques entre le centre de gravité des variables et le 

centre de gravité des composants principales pour la méthode des centres. 96 

4.3 Les corrélations symboliques entre les variables et les composants principales 

pour la méthode de centres. . . . . . . . . . . . . . . . . . . . . . . 97 

4.4 Les corrélations classiques entre le centre de gravité des variables et le 

centre de gravité des composantes principales pour la méthode des sommets.100 

4.5 Les corrélations symbolique entre le centre de gravité des variables et le 

centre de gravité des composantes principales pour la méthode des sommets.100 

4.6 Corrélations symboliques entre les variables et les composants principales 

avec la méthode des centres en employant l’algorithme 4.2. . . . . . . . . 108 

4.7 Corrélations classiques entre les variables et les composants principales 

avec la méthode des centres. . . . . . . . . . . . . . . . . . . . . . . . . 108 

10

11 

4.8 Composantes principales avec la méthode des centres duale. . . . . . . . 109 

4.9 Corrélations symboliques entre les variables et les composantes principales 

avec la méthode des centres duale. . . . . . . . . . . . . . . . . . . 113 

4.10 Corrélations symboliques entre les variables et les composantes principales 

avec la méthode des sommets. . . . . . . . . . . . . . . . . . . . . 119 

5.1 L’ensemble de données des huiles et des graisses. . . . . . . . . . . . . . 148 

A.1 Barre d’outils du module de Pyramide. . . . . . . . . . . . . . . . . . . . 169 

A.2 Barre d’outils communs à tous les modules de PIMAD–Symbolique. . . . 170 

A.3 Barre d’outils du module d’analyse en composantes principales pour des 

données de type intervalle. . . . . . . . . . . . . . . . . . . . . . . . . . 172 

A.4 Barre d’outils du module de régression linéale symbolique. . . . . . . . . 176


Introduction 

Ce travail s’inscrit dans le cadre de l’analyse des données symboliques proposé dans [30, 

Diday (1987)],[31, Diday (1989)],[32, Diday (1991)], [33, Diday (1993)], [34, Diday 

(1995)], [35, Diday (1995)], [36, Diday (1996)], [38, Diday (1998)],[39, Diday (2000)]. 

L’analyse des données symboliques est une extension de l’analyse de données qui est en 

ce moment en plein développement. En effet, beaucoup des méthodes, des techniques et 

des algorithmes de l’analyse de données ont été déjà abordés en vu de cette extension. Par 

exemple, nous pouvons mentionner les travaux de [16, Cazes, Chouakria, Diday et Schektman 

(1997)] qui généralisent l’analyse en composantes principales pour des données de 

type intervalle, [9, Brito (1991)] et [55, Mfoumoune (1998)] dans la classification pyramidale, 

les travaux de [76, Ziani (1996)] sur la sélection des variables sur un ensemble 

d’objects symboliques, [21, DeCarvalho (1994)], [46, Gowda et Diday (1991)], [47, 

Gowda et Diday (1992)] pour le calcul des dissimilarités entre les objets symboliques, 

[23, Diday et Emilion (1996)] et [26, Diday et Emilion (1997)] pour la construction des


histogrammes des capacités, [66, Stéphan (1996)], [67, Stéphan (1998)], [68, Stéphan, 

Hébrail et Lechevallier, (1997)] et [69, Stéphan, Hébrail et Lechevallier, (1999)] pour 

l’extraction des objets symboliques à partir d’une base de données, [61, Polaillon (1998)] 

pour la construction, l’organisation et l’interprétation par les treillis de Galois au cas symbolique, 

[51, Lauro, Verde et Palumbo (1999)] et de [52, Lauro, Verde et Palumbo (2000)] 

dans des méthodes factorielles pour des données symboliques, parmi beaucoup d’autres. 

Nous pouvons aussi citer les études plus récentes proposées par Diday dans [41, Diday 

et Rodríguez (2000)] concernant la qualité, la robustesse et la fiabilité des objets symboliques. 

Il y a également des avancés importantes en ce qui concerne le logiciel pour le traitement 

des données symboliques, par exemple le projet SODAS (voir [7, Bock et Diday (2000)] 

et [40, Diday et Bisdorff (2000)]) qui est le résultat de l’effort de 17 équipes européennes 

(patronné par EUROSTAT), le DB2SO qui construit objets symboliques à partir des bases 

de données relationnelles (voir [49, Hébrail et Lechevallier (2000)]), “Strata Decision 

Tree” (“STA” et “STDEDITOR”, voir [8, Bravo (2000)]) et [62, Périnel (1996)] dans le 

cas d’objets probabilistes avec des applications médicales, entre autres. 

Le but de ce travail est de généraliser au cas symbolique certaines techniques de la classification 

automatique, aussi bien que quelques modèles linéaires. Ces généralisations seront 

toujours faites d’après deux principes fondamentaux de l’analyse de données symbolique, 

à savoir (cf. “Knowledge discovery from symbolic data and the SODAS software” dans 

[41, Diday et Rodríguez (2000)]): 

1. L’analyse des données classiques devrait être toujours un cas particulier de l’analyse 

des données symboliques. 

2. Dans une analyse des données symboliques, tant la sortie comme la entrée devraient 

être symboliques.


Ces deux principes sont illustrés dans la Figure 1. 

Figure 1: Deux principes fondamentaux de l’analyse de données symbolique. 

En ce qui concerne la classification automatique, notre objectif spécifique est: 

1. Généraliser l’algorithme CAP proposé dans [28, Diday (1984)] de façon à ce que 

l’algorithme produise une pyramide symbolique, c’est–à–dire, une pyramide dans 

laquelle chaque palier est associé à un objet symbolique complet. 

Concernant les modèles linéaires, nos objectifs spécifiques sont: 

1. Généraliser la méthode classique de la régression simple au cas des données symboliques 

de type intervalle. 

2. Généraliser la méthode de l’Analyse en Composantes Principales pour des données 

de type intervalle proposée par [16, Cazes, Chouakria, Diday et Schektman (1997)] 

dans deux sens: dans un premier temps nous proposerons trois manières de projeter


les variables de type intervalle dans le cercle des corrélations. Dans une deuxième 

temps, nous proposerons un algorithme pour l’analyse en composantes principales 

pour des données de type histogramme. 

3. Généraliser la méthode classique de l’analyse des tableaux de dissimilarités de [71, 

Torgenson (1958)] et [45, Gower (1966)] (Multidimensional Scaling) pour les disimilarités 

de type intervalle. 

Ce travail cherche également a mettre en application un logiciel pour chacune des méthodes 

développées. 

Dans le chapitre 1 nous présenterons les concepts de base de l’analyse de données symbolique 

qui sont nécessaires pour le développement de ce travail. Cette présentation sera 

basée sur [30, Diday (1987)], [38, Diday (1998)], [39, Diday (1999)] et [9, Brito (1991)]. 

Dans [28, Diday (1984)], Diday a proposé l’algorithme CAP pour construire les pyramides 

numériques, c’est–à–dire, une pyramide qui est construite à partir d’une matrice 

de dissimilarités classiques. [3, Bertrand et Diday (1990)] ont proposé un algorithme 

avec le même but. [55, Mfoumoune (1998)] a présenté également un algorithme avec 

cet but dénommé QuickCap dont l’objectif est d’améliorer le temps d’exécution. Dans 

[9, Brito (1991)], Paula Brito a présenté un macro–algorithme avec l’objectif de construire 

une pyramide symbolique. Tenant compte des travaux mentionnés ci–dessus dans le 

chapitre 2 nous présenterons deux nouveaux algorithmes, qui généralisent au cas symbolique 

l’algorithme CAP. Le premier de ces deux algorithmes, dénommé CAPS, produit 

en effet une pyramide symbolique, parce qu’il construit un objet symbolique associé à 

chaque palier de la pyramide et il vérifie également sa complétude. L’algorithme CAPS 

est vraiment une généralisation de l’algorithme CAP parce que s’il reçoit comme entrée 

une matrice de dissimiliraties il produit la même sortie que l’algorithme CAP. Dans le 

chapitre 2 nous présenterons aussi un deuxième algorithme dénommé CAPSO, qui construit 

une pyramide symbolique ayant comme entrée, un ordre donné a priori (sans tenir


compte de la table symbolique de données) dans l’ensemble d’individus (objets symboliques). 

A la fin du chapitre, les théorèmes de convergence sont présentés pour tous les 

deux algorithmes. 

Bertrand et Goupil dans [7, Bock et Diday (2000)] ont généralisé quelques indices de la 

statistique descriptive au cas symbolique, comme la moyenne, la variance, la corrélation, 

etc. Cependant, toutes ces généralisations calculent l’indice ayant comme entrée une variable 

symbolique mais la sortie est un nombre réel. Dans le chapitre 3, de ce travail, nous 

généraliserons, pour les variables de type intervalle, la moyenne, la médiane, la moyenne 

des valeurs extrêmes, l’écart type, la déviation quartile, les boîtes de dispersion (boxplot) 

et la corrélation, suivant le principe qui établit que: si l’entrée est symbolique, alors la sortie 

devrait être symbolique, c’est–à–dire, que tous les indices ci–dessus prendront comme 

sortie des intervalles. Trois nouvelles méthodes sont aussi présentées pour effectuer la 

régression linéaire pour les variables de type intervalle. 

Au chapitre 4 nous étendrons la méthode d’analyse en composantes principales proposée 

par [16, Cazes, Chouakria, Diday et Schektman (1997)] pour des données de 

type histogramme, nous généraliserons le cercle des corrélations au cas des variables 

de type intervalle. De plus, nous proposerons des généralisations pour quelques indices 

d’interprétation utilisés dans l’analyse classique en composantes rincipales. 

Dans le chapitre 5 nous proposerons une méthode pour l’analyse des tableaux de proximités 

(multidimensional scaling) pour des données de type intervalle, que nous avons 

dénommée INTERSCAL. Nous généraliserons la méthode classique de l’analyse des 

tableaux de proximités de [71, Torgenson (1958)] et [45, Gower (1966)] en recherchant 

une méthode qui produit des résultats semblables à la méthode des sommets dans l’analyse 

en composantes principales proposée dans [16, Cazes, Chouakria, Diday et Schektman 

(1997)]. La méthode pour l’analyse des tableaux de proximités standard prend comme 

entrée une matrice de dissimilarités de terme général δ ij qui est une valeur numérique.


Au même temps, nous proposerons une méthode qui donne une matrice dissimilarités 

] 

dont le terme général est δ ij = 

[δ ij , δ ij , où δ ij et δ ij sont la limite inférieure et la limite 

supérieure de la dissimilarité entre l’objet S i et l’objet S j respectivement. Comme sortie, 

au lieu de représenter chaque objet symbolique sur le plan factoriel par un point, comme 

dans d’autres méthodes pour l’analyse des tableaux de proximités, dans la méthode proposée, 

chaque objet symbolique sera visualisé par un rectangle, afin de représenter la 

variation de la dissimilarité. 

Pour chacune des méthodes présentées dans cette thèse un outil de logiciel a été mis 

en application. Ce logiciel, dénommé PIMAD-Symbolique (Programme Intégré de 

Méthodes d’Analyse des Données Symboliques), a cinq modules, à savoir: 

• Un module pour la classification pyramidale symbolique. 

• Un module pour l’analyse en composantes principales pour des variables de type 

intervalle (dont tous le deux, le plan principal et le cercle des corrélations sont 

symboliques). 

• Un module pour l’analyse en composantes principales pour des variables de type 

histogramme. 

• Le module INTERSCAL. 

• Un module pour la régression linéaire symbolique et les statistiques descriptives. 

Ce logiciel a été réalisé en C++ en utilisant des stratégies de programmation, analyse et 

dessin de systèmes orienté objet. Ce logiciel emploie comme entrée le format SODAS, et il 

peut être exécuté avec des tableaux de données de n’importe quelle dimension (seulement 

limitée par la mémoire de l’ordinateur). Dans l’annexe 1, sera présentée un bref guide 

expliquant la façon d’installer et d’employer le logiciel PIMAD-Symbolique.

Chapter 1 

Présentation de l’Analyse des Données 

Symboliques 

On présente dans cette chapitre le formalisme mathématique pour introduire l’analyse des 

données symboliques ([30, Diday (1987)], [31, Diday 

(1989)],[32, Diday (1991)], [33, Diday (1993)], [34, Diday (1995)], [35, Diday (1995)], 

[36, Diday (1996)], [38, Diday (1998)],[39, Diday (2000)], [7, Bock et Diday (2000)], [9, 

Brito (1991)], [61, Polaillon (1998)]). On introduit d’une manière informelle les données 

symboliques et après on définira plus précisément le concept d’objet symbolique. 

1.1 Données symboliques 

L’analyse des données classiques part d’un ensemble de m individus (objets), notés E = 

{1, 2, . . . , m}, lesquels se caractérisent par n variables, notées par Y 1 , Y 2, . . . , Y n , chaque 

variable Y k prend ses valeurs dans un ensemble Y k appelé “espace d’observation”. Pour 

chaque individu i ∈ E la variable Y j prend seulement une valeur x ij = Y j (i) ∈ Y j , ces 

18

Présentation de l’analyse des données symbolique 19 

valeurs seront groupées en une matrice de données X = (x ij ), i = 1, 2, . . . , m, j = 

1, 2, . . . , n. 

Néanmoins, il y a des situations dans lesquelles cette manière de représenter l’information 

n’est pas suffisante. Par exemple, quand on a de grandes bases de données on peut appliquer 

les techniques de “Fouille de Données” (“Data Mining”), qui ont par objectif de 

résumer l’information dans de nouveaux tableaux de données où chaque entrée n’est pas 

nécessairement une seule valeur. 

Dans l’Analyse des Données Symboliques on a un ensemble Ω de m objets. Ces individus 

sont caractérisés par n “variables symboliques 1 ” Y 1 , Y 2 , . . . , Y n , où l’espace d’observation 

de Y k est Y k . Formellement Y k est une fonction de l’ensemble Ω dans un ensemble B k ⊆ 

Y k , lequel peut être: 

1. Un sous–ensemble de nombres réels, c’est–à–dire, B k ⊆ R (cas de l’analyse de 

données classique). 

2. Un ensemble d’intervalles, c’est–à–dire, B k ⊆ {[α, β] tel que α ∈ R et β ∈ R avec 

α ≤ β}. 

3. Un ensemble de catégories nominales ou ordinales. 

4. Un distribution de probabilité, etc. 

Ces données sont réunies dans une “matrice des données symboliques”, notée par X = 

(x ij ) i=1,2,...,m . Chaque entrée de cette matrice est “une donnée symbolique”. 

j=1,2,...,n 

Dans l’Analyse des Données Classiques on a deux types de variables, les variables quantitatives 

et les variables qualitatives. 

1 Ces concepts seront définis avec plus de précision dans la section suivante.


Une variable Y est appelée quantitative si l’ensemble Y de toutes les valeurs possibles 

prises par Y est un sous–ensemble de R. Quand Y est un ensemble non dénombrable 

la variable s’appelle quantitative continue; quand Y est fini ou dénombrable la variable 

s’appelle quantitative discrète. 

On dira que la variable Y est qualitative si le rang Y de Y est un ensemble fini de 

catégories qui n’a pas nécessairement un sens numérique. Quand le rang Y n’a pas une 

structure, on dira que la variable est qualitative nominale; dans ce cas–ci, étant données 

x, y ∈ Y, on sait seulement si x = y ou x ≠ y. Quand Y est totalement ordonné, la 

variable Y s’appelle qualitative ordinale, quand Y possé seulement un ordre partiel, on 

dira que la variable Y est qualitative ordinale généralisée. 

Dans l’Analyse des Données Symboliques, en plus des variables qu’on a mentionné 

antérieurement, il y a d’autres types de variables, par exemple les variables multivaluées, 

les variables de type “intervalle” et les variables modales. 

On dira qu’une variable Y est multivaluée si ses “valeurs” Y (i) sont tous des sousensembles 

finis de Y, c’est–à–dire |Y (i)| < ∞ pour tout i ∈ Ω. Quand Y est un 

rang fini de catégories et toutes les Y (k) sont finies, la variable Y s’appelle multivaluée 

catégorique. Si Y (k) ⊂ R et |Y (k)| < ∞ alors la variable s’appelle multivaluée quantitative. 

Une variable multivaluée Y s’appelle variable de type intervalle 2 si Y (i) est un intervalle 

de R pour tout i ∈ Ω, c’est–à–dire Y (i) = [α, β], ∀ i ∈ Ω, avec α ∈ R, β ∈ R et α ≤ β. 

On dira qu’une variable Y est modale avec espace d’observation Y si pour tout i ∈ Ω 

on a Y (i) = π i , et π i est une mesure non négative sur Y. Par exemple une distribution 

de fréquences, une distribution de probabilité ou un ensemble de poids. Dans cette thèse, 

on s’intéresse particulierèment au cas où π i est donné par un histogramme, la variable Y , 

2 Les intervalles peuvent aussi être ouverts ou semi-ouverts.


s’appelle alors variable histogramme. 

Example 1 Dans le tableau de données symboliques suivant on a cinq variables, la première 

est de type intervalle, la deuxième est quantitative, et les trois dernières variables sont de 

type histogramme (les valeurs sont tronquées). 

⎡ 

X = 

⎢ 

⎣ 

[1, 4] 2 (1(0.4), 2(0.1), 3(0.2), 4(0.07), 5(0.02)) (1(0.1), 2(0.9)) (1(0.7), 2(0.2)) 

[1, 4] 3 (1(0.6), 2(0.1), 3(0.1), 5(0.0)) (1(0.1), 2(0.9)) (1(0.7), 2(0.2)) 

[1, 5] 2 (1(0.7), 2(0.2)) (1(0.0), 2(0.9)) (1(0.7), 2(0.2)) 

[1, 4] 1 (1(0.7), 2(0.0), 3(0.1), 4(0.0), 5(0.0), 6(0.0)) (1(0.0), 2(0.9)) (1(0.7), 2(0.2)) 

[1, 4] 1 (1(0.4), 3(0.4), 4(0.0), 5(0.0)) (1(0.0), 2(0.9)) (1(0.8), 2(0.1)) 

[1, 6] 2 (2(0.4), 3(0.1), 4(0.3), 5(0.0), 6(0.0)) (1(0.0), 2(0.9)) (1(0.7), 2(0.2)) 

⎤ 

⎥ 

⎦ 

1.2 Objets symboliques 

Les objectifs de l’analyse de données symbolique sont: analyser, visualiser, classifier et 

réduire l’information qui se trouve dans le tableau de données symboliques. Comme 

l’explique Diday [39, Diday (1999)], les objets symboliques permettent de modeliser les 

concepts: 

“There are two steps in Symbolic Data Analysis: the first concerns knowledge 

extraction from large data bases as in “Data Mining”, the second step 

concerns the application of new tools on such extracted knowledge in order 

to extend “Data Mining” to “Knowledge Mining”. “Extracting knowledge” 

means getting new concepts, that is why, “Symbolic Objects” are introduced.” 

Dans les paragraphes suivants on précisera le notion d’objets symboliques ([30, Diday 

(1987)], [31, Diday (1989)], [39, Diday (1999)] et [7, Bock et Diday (2000)]).


Definition 1 Un Objet Symbolique est un triplet s = (a, R, d) où R est une relation entre 

les descriptions, d est une description, et a est une application de Ω dans L qui dépend de 

la relation R et de la description d. 

Si le tableau initial de données contient p variables Y 1 , Y 2 , . . . , Y p et si [Y j (w)R j d j ] ∈ 

L = {V, F } pour tout j = 1, 2, . . . , p, l’objet symbolique s’appelle Objet Booléen et si 

[Y j (w)R j d j ] ∈ L = [0, 1] pour tout j = 1, 2, . . . , p l’objet symbolique s’appelle Objet 

Modal. 

Si on note par Y (w) = (Y 1 (w), Y 2 (w), . . . , Y p (w)), D = (D 1 , D 2 , . . . , D p ), 

d = (d 1 , d 2 , . . . , d p ) ∈ D et R = (R 1 , R 2 , . . . , R p ) où R i est une relation dans D i . Alors, 

si dans la définition précédente on prend L = {vrai,faux}, on definit R par [Y (w)Rd] = 

[Y 1 (w)R 1 d 1 ] ∧ [Y 2 (w)R 2 d 2 ] ∧ · · · ∧ [Y p (w)R p d p ] et on prend a(w) = [Y 1 (w)R 1 d 1 ] ∧ 

[Y 2 (w)R 2 d 2 ] ∧ · · · ∧ [Y p (w)R p d p ] où a(w) =vrai si et seulement si Y j (w)R j d j pour tout 

j = 1, 2, . . . , p l’objet s’appellera un Objet Assertion Booléen. 

Par exemple l’expression suivante: 

a(w) = [nationalité(w) ⊆ {Mexicaine,Costaricienne}] ∧ [âge(w) ⊆ [20, 35]] 

définit un objet symbolique s = (a, R, d) où d = ({Mexicaine,Costaricienne},[20, 35]), 

R : [Y (w)Rd] = [Y 1 (w)R 1 d 1 ]∧[Y 2 (w)R 2 d 2 ] avec R 1 = R 2 = “ ⊆ ”, donc a(w) =vrai si 

et seulement si la nationalité de w est Mexicaine ou Costaricienne et l’âge de w appartient 

à l’intervalle [20, 35]. 

Definition 2 Si L = [vrai,faux] l’objet symbolique est dit booléen et son extension est 

l’ensemble Ext(s) = {w ∈ Ω tel que a(w) =vrai}. Dans le cas des objets symboliques 

modaux où L = [0, 1], pour un seuil donné α, l’extension est définie par Ext(s, α) = 

{w ∈ Ω tel que a(w) ≥ α}.


1.3 Propriétés et opérateurs des objets symboliques 

Definition 3 (Ordre symbolique) Soit S l’ensemble des objets symboliques défini sur les 

mêmes variables, alors ∀ s 1 , s 2 ∈ S on dit que: 

s 1 ≤ s 2 ⇐⇒ Ext(s 1 ) ⊆ Ext(s 2 ). 

La relation ≤ ainsi définie est une relation de pre–ordre appelée Preordre Symbolique [30, 

Diday (1987)]. 

Definition 4 

Pour tous s 1 , s 2 ∈ S, si s 1 ≤ s 2 , on dira alors que s 2 est plus général que 

s 1 et que s 1 est plus spécifique que s 2 . 

Pour la construction des Pyramides Symboliques (section 2.2), il sera nécessaire de calculer 

l’union et l’intersection d’objets symboliques, ces opérations se définissent de la 

façon suivante [30, Diday (1987)]: 

Definition 5 Soient s 1 = (a 1 , R, d 1 ) et s 2 = (a 2 , R, d 2 ) deux objets symboliques, l’union 

de s 1 et s 2 notée par s 1 ∪ s 2 , est définie comme la conjonction de tous les objets symboliques, 

dont l’extension contient Ext(s 1 ) ∪ Ext(s 2 ), c’est–à–dire, l’union de tous les 

objets symboliques e i tel que pour tout i on a Ext(e i ) ⊇ Ext(s 1 )∪Ext(s 2 ). De même, on 

définit l’intersection entre s 1 et s 2 comme la conjonction de tous les objets symboliques, 

dont l’extension contient Ext(s 1 ) ∩ Ext(s 2 ). 

Si le tableau de données initiale contient des variables modales, par exemple Y j , avec 

Y j = {m 1 , m 2 , . . . , m t } l’ensemble de catégories de la variable Y j , et w 1 , w 2 , . . . , w t sont 

les valeurs de fréquence, de probabilité ou de poids pour m 1 , m 2 , . . . , m t . Si on a deux 

objets symboliques s 1 = (a 1 , R, d) et s 2 = (a 2 , R, d) où: 

a 1 = [ Y j = (m 1 (w1), 1 m 2 (w2), 1 . . . , m t (wt 1 )) ] et


a 2 = [ Y j = (m 1 (w1), 2 m 2 (w2), 2 . . . , m t (wt 2 )) ] 

alors Brito a defini s 3 = (a 3 , R, d) = s 1 ∪ s 2 (voir [7, Bock et Diday (2000)]): 

a 3 (w) = [Y j = (m 1 (w 1 ), m 2 (w 2 ), . . . , m t (w t ))] , 

où w i = max{wi 1 , wi 2 } pour i = 1, 2, . . . , t et elle a defini son extension comme: 

Ext(s 1 ∪ s 2 ) = {s ∈ Ω tel que wi s ≤ w i pour i = 1, 2, . . . , t}. 

Remark 1 Il est possible que w 1 + w 2 + · · · + w t ≥ 1. 

Remark 2 Il en résulte que si s 1 = (a 1 , R, d) et s 2 = (a 2 , R, d) avec a 1 = [Y 1 ∈ V 1 ] ∧ 

· · · ∧ [Y p ∈ V p ] et a 2 = [Y 1 ∈ W 1 ] ∧ · · · ∧ [Y p ∈ W p ] alors s 1 ∪ s 2 = (a 3 , R, d) avec 

a 3 = [Y 1 ∈ V 1 ∪ W 1 ] ∧ · · · ∧ [Y p ∈ V p ∪ W p ]. 

Un concept important dans la classification pyramidale symbolique est la complétude des 

Objets Symboliques. On dit qu’un objet symbolique est complet s’il décrit de manière exhaustive 

(“complète”) son extension. Plus formellement: (si note pour P (A) l’ensemble 

de parties de A) 

Definition 6 [9, Brito (1991)], [31, Diday (1989)] Soient S l’ensemble de tous les objets 

assertion, A = {a 1, a 2 , . . . , a n } ⊆ S, f : S → P (A) tels que f(a) = Ext(a) et g : 

P (A) → S tel que ∀ P ∈ P (A), P ⊆ f ◦ g(P ). On note pour h = g ◦ f . On dit 

alors que l’objet symbolique a est complet si et seulement si h(a) = a. La fonction h est 

dénommée l’opérateur de complétude. 

Example 2 [9, Brito (1991)] Soit f : S → P (A) tel que f(a) = f( ∧ [y j ∈ W j ]) = {a i = 

j 

∧ 

[y j ∈ Vj i ] / Vj 

i ⊆ W j , j = {1, 2, . . . , p}}, A = {a 1, a 2 , . . . , a n } ⊆ S et g : P (A) → S 

j 

tels que g({a 1 , . . . , a m }) = α = [y j 

complétude. 

= ⋃ i 

V i 

j ] alors h = g ◦ f est un opérateur de


L’algorithme de classification pyramidale symbolique qu’on présente dans la section 2.2 

contient deux étapes, l’étape de généralisation dans laquelle on doit calculer l’union 

entre objets symboliques et l’étape d’agrégation dans laquelle on calcule le “Degré de 

Généralité” de l’objet symbolique. On présente une définition du “Degré de Généralité” 

basé sur la définition donnée par Paula Brito dans [10, Brito (1997)], cette définition nous 

permettra de calculer le degré de généralité même si le tableau de données symboliques 

a des variables de type intervalle, quantitative discrète ou de type histogramme (comme 

dans l’exemple 1). 

Definition 7 Soit s = (a, R, d) un objet symbolique avec a(w) = 

Degré de Généralité de s par: 

où 

⎧ 

⎪⎨ 

g(e j ) = 

⎪⎩ 

g(s) = 

p∏ 

g(e j ), 

j=1 

p ∧ 

j=1 

|V j | 

|Y j | 

si e j = [Y j ⊆ V j ], V j ⊆ Y j avec Y j discrète. 

longueur(V j ) 

longueur(Y j ) 

si e j = [Y j ⊆ V j ], V j ⊆ Y j avec Y j continue. 

t∑ 

h=1 

t 

w h 

si 

e j = [Y j = {m 1 (w 1 ), . . . , m t (w t )}] est une 

e j , on définit le 

distribution de fréquence de la variable discrète Y j . 

Remark 3 Soit S l’ensemble des objets symboliques défini sur les mêmes variables, alors 

∀ s 1 , s 2 ∈ S on a: 

s 1 ≤ s 2 ⇒ g(s 1 ) ≤ g(s 2 ). 

Example 3 Si on considère le tableau de données symboliques qu’on a présenté dans 

l’exemple 1 et on prend l’objet symbolique s = (a, R, d) où: 

a(w) = [y 1 (w) ⊆ [1, 4]] ∧[y 2 (w) ⊆ {1}] ∧[y 3 (w) = (1(0.718), 2(0.053), 3(0.187), 

4(0.013), 5(0.006), 6(0.013), 7(0.006))] ∧[y 4 (w) = (1(0.04), 2(0.97))] ∧ [y 5 (w) =


(1(0.86), 2(0.24))] d = {[1, 6], {1, 2, 3}, (1(p 1 ), . . . , 7(p 7 )), (1(p 1 ), 2(p 2 )), 

(1(p 1 ), 2(p 2 ))} et R = (R 1 , . . . , R 5 ) où R 1 = “ ⊆ ”, R 2 = “ ⊆ ”, R i = “ = ” 

pour i = 3, 4, 5, alors on a que g(s) = 0.01109.

Chapter 2 

Classification Pyramidale Symbolique 

Ascendante 

Dans ce chapitre on présente deux algorithmes qui construisent une pyramide symbolique 

à partir d’une matrice de données symboliques. Le premier algorithme trouve un “ordre 

total compatible avec la pyramide” de m objets, pendant que le deuxième construit la 

pyramide à partir d’un ordre donné (a priori) sur les objets, cet ordre à partir des entrées 

de l’algorithme. Ces deux algorithmes, en plus de construire la pyramide, trouvent pour 

chaque palier l’objet symbolique associé, son extension et vérifient sa complétude. 

2.1 Définitions préliminaires 

Dans cette section on présente les concepts fondamentaux que nous permettront dans les 

sections suivantes de présenter les algorithmes déjà mentionnés ([28, Diday (1984)], [3, 

Bertrand et Diday (1990)] et [55, Mfoumoune (1998)]). 

27

Classification Pyramidale Symbolique Ascendante 28 

Definition 8 Un indice de dissimilarité défini sur l’ensemble d’objets Ω est une fonction 

d : Ω −→ [0, +∞[ telle que: 

• d(s 1 , s 2 ) = d(s 2 , s 1 ), ∀ s 1 , s 2 ∈ Ω. 

• d(s, s) = 0, ∀ s ∈ Ω. 

Afin de mesurer la dissimilarité entre classes d’objets déjà formées, on utilise les indices 

d’agrégation. 

Definition 9 Un indice d’agrégation est une fonction δ : P (Ω) × P (Ω) −→ [0, +∞[ telle 

que δ(s 1 , s 2 ) = δ(s 2 , s 1 ), où P (Ω) est l’ensemble des parties de Ω. 

Pour le cas de la classification ascendante pyramidale symbolique, on n’utilisera pas un 

indice de dissimilarité ni un indice d’agrégation, car dans la phase d’agrégation (étape 

de généralisation) de l’algorithme (section 2.2) on prend l’union de deux objets symboliques 

qui forment le nouvel palier, lequel engendre un autre objet symbolique (parce 

que l’union d’objets symboliques produit un nouvel objet symbolique). Pour calculer la 

“dissimilarité” (ou l’agrégation) entre le nouveau objet symbolique et les autres objets 

symboliques on utilise le Degré de Généralité (définition 7). 

Remark 4 Le Degré de Généralité ne vérifie pas tous les axiomes d’un indice de dissimilarité. 

Definition 10 Une hiérarchie binaire sur un ensemble d’objets Ω est un ensemble H des 

parties de Ω, appelées classes, qui a les propriétés suivantes: 

• {s} ∈ H pour tout s ∈ Ω. 

• Ω ∈ H.


• Pour tout s ∈ H tel que card(s) > 1, il y a s 1 , s 2 ∈ H tels que s = s 1 ∪ s 2 et 

s 1 ∩ s 2 = ∅. 

Diday généralise dans [28, Diday (1984)] le concept de hiérarchie aux pyramides, comme 

on le montre dans les définitions suivants. 

Definition 11 Soit θ un ordre total sur Ω et P un ensemble des parties de Ω. Un élément 

h ∈ P est connexe selon l’ordre total θ, si pour tout w ∈ Ω qui est entre le max(h) et le 

min(h) (min(h) θ w θ max(h)) on a w ∈ h. 

Definition 12 Un ordre total θ sur Ω est compatible avec P, un ensemble de parties de Ω, 

si tout élément h ∈ P est connexe selon l’ordre total θ. 

Definition 13 Soit Ω un ensemble fini, soit P un ensemble des parties non vides de Ω 

(appelées paliers), P est une pyramide si: 

1. Ω ∈ P . 

2. ∀ w ∈ Ω on a {w} ∈ P (paliers singletons). 

3. ∀ (h, h ′ ) ∈ P × P on a h ∩ h ′ ∈ P ou h ∩ h ′ = ∅. 

4. Il existe un ordre total θ en Ω compatible avec P . 

Example 4 Soit Ω = {1, 2, 3, 4, 5}, P = {{1}, {2}, {3}, {4}, {5}, P 6 , P 7 , 

P 8 , P 9 , P 10 }, avec P 6 = {1, 3}, P 7 = {2, 4}, P 8 = {1, 3, 5}, P 9 = {1, 2, 3, 5}, P 10 = Ω. 

On a un ordre total θ compatible avec P défini comme suit: 3θ1, 1θ5, 5θ2, et 2θ4, alors P 

est une pyramide. Cette pyramide est présentée dans la Figure 2.1 

Definition 14 Une pyramide indicée est un couple (P, f) où P est une pyramide et f est 

une fonction f : P → R + telle que:


4.00 

3.00 

2.00 

✻ 

P 8 

P 9 

P 10 

1.00 

P 6 P 7 

3 1 5 2 4 

✲ 

Figure 2.1: Exemple d’une Pyramide. 

• ∀ h ∈ P on a que f(h) = 0 ⇔ h est un palier singleton. 

• ∀ h, h ′ ∈ P on a que h ⊂ h ′ ⇒ f(h) ≤ f(h ′ ). 

On dira qu’une pyramide est indicée au sens strict si h ⊂ h ′ ⇒ f(h) < f(h ′ ). De plus la 

pyramide s’appelle pyramide indicée au sens large si h ⊂ h ′ et f(h) = f(h ′ ), impliquent 

l’existence de h 1 , h 2 ∈ P différents de h tels que h = h 1 ∩ h 2 . 

Definition 15 Soit Ω un ensemble fini, soit P un ensemble de parties non vides de Ω 

(appelées aussi paliers), P est une pyramide symbolique si: 

1. P est une pyramide. 

2. Chaque palier de P a un objet symbolique complet associé. 

Example 5 Considérons le tableau de données 2.1: 

Soient Ω = {1, 2, 3}, P = {{1}, {2}, {3}, P 4 , P 5 , P 6 }, avec P 4 = {1, 2}, P 5 = {2, 3}, 

P 6 = {1, 2, 3} = Ω, θ = “ ≤ ”. Alors on a que s 4 = (a 4 , R, d), s 5 = (a 5 , R, d), 

s 6 

= (a 6 , R, d) sont les objets symboliques associés à P 4 , P 5 , P 6 respectivement avec 

a 4 (w) = [[y 1 (w) ⊆ {1, 2}] ∧ [y 2 (w) ⊆ {1}] ∧ [y 3 (w) ⊆ {2}]], a 5 (w) = [[y 1 (w) ⊆


y 1 y 2 y 3 

w 1 1 1 2 

w 2 2 1 2 

w 3 3 3 1 

Table 2.1: Tableau des données. 

1.00 

✻ 

P 6 

0.67 

0.17 

P 4 

P 5 

1 2 3 

✲ 

Figure 2.2: Pyramide symbolique. 

{2, 3}] ∧ [y 2 (w) ⊆ {1, 3}] ∧ [y 3 (w) ⊆ {1, 2}]], a 6 (w) = [[y 1 (w) ⊆ {1, 2, 3}] ∧ [y 2 (w) ⊆ 

{1, 3}] ∧ [y 3 (w) ⊆ {1, 2}]], R = “ ⊆ ”, d = {{1, 2, 3}, {1, 3}, {1, 2}}. Donc, P est une 

pyramide symbolique. Cette pyramide est présentée dans la Figure 2.2 

Definition 16 Un indice de dissimilarité pyramidale est un indice de dissimilarité d qui 

vérifie en plus les conditions suivantes: 

• d(s 1 , s 2 ) = 0 ⇒ s 1 = s 2 . 

• Il existe un ordre total θ sur Ω compatible avec d, c’est-à-dire, un ordre total θ tel 

que: 

s 1 θs 2 θs 3 ⇒ d(s 1 , s 3 ) ≥ max{d(s 1 , s 2 ), d(s 2 , s 3 )}.


2.2 Algorithme de Classification Pyramidale Symbolique 

Dans cette section on présente un nouvel algorithme qui construit une pyramide symbolique 

à partir d’une matrice de données symboliques. 

Diday dans [28, Diday (1984)] propose l’algorithme CAP pour construire des pyramides 

numériques; c’est-à-dire pyramides engendrées à partir d’un tableau de données classiques 

ou d’une matrice de dissimilarités. Dans [3, Bertrand et Diday (1990)], [44, Gil 

(1998)] et [55, Mfoumoune (1998)] les auteurs présentent aussi des algorithmes dans ce 

but. Paula Brito, dans [9, Brito (1991)] propose un algorithme qui généralise l’algorithme 

proposé par Bertrand et qui construit des pyramides symboliques. Dans cette section on 

propose un algorithme (CAPS) qui construit des pyramides symboliques binaires, c’est– 

à–dire, une pyramide dans laquelle chaque palier est de nouveau un objet symbolique. De 

plus, cet algorithme calcule l’extension de chacun de ces objets symboliques et vérifie sa 

complétude. 

À différence des algorithmes qui construisent des pyramides numériques, ce nouvel algorithme 

ne recevra pas en entrée ni un indice de dissimilarité, ni un indice d’agrégation. À 

sa place nous utiliserons le “Degré de Généralité” (définition 7). 

Tous les algorithmes proposés jusqu’à maintenant démarrent avec un ordre arbitraire sur 

les éléments de Ω, lequel est modifié à chaque étape de l’algorithme jusqu’au moment 

où l’on obtient un ordre total sur les éléments de Ω. L’algorithme qu’on propose ici 

utilise une méthode différente, il démarre avec n composantes connexes (n = |Ω|) et 

n ordres totaux associés à chacune des composantes. L’algorithme avance, le nombre 

de composantes connexes se réduit, jusqu’à ce qu’il n’y aura qu’une seule composante 

connexe (et donc égale à Ω). 

On présente les définitions nécessaires pour la spécification de l’algorithme, elles sont 

différentes aux définitions présentées dans ([9, Brito (1991)], [3, Bertrand et Diday (1990)]


et [55, Mfoumoune (1998)]), car celles–ci sont locales à la “composante connexe”. 

Pour les définitions suivantes, on a un ensemble P ⊆ P (Ω) (l’ensemble des parties de 

Ω) qui n’est pas nécessairement une pyramide; il est une “pyramide en construction”, par 

abus de langage on dira que tout élément de P est un palier. 

Definition 17 Soit C ∈ P, C s’appelle composante connexe si: 

1. Il y a un ordre total ≤ C défini sur l’ensemble C, c’est–à–dire, ∀ x, y ∈ C il existe un 

ordre ≤ C défini sur C tel que x ≤ C y ou y ≤ C x. En d’autres termes, l’algorithme 

a déjà construit un ordre total sur l’ensemble C ⊆ Ω. 

2. C est le sous–ensemble plus grand de Ω, au sens de l’inclusion, à vérifier la propiété 

1. 

Example 6 Si on a la “pyramide en construction” de la Figure 2.3 alors 

C 1 = {8, 4, 11, 1, 12, 3, 13, 6} avec l’ordre total 8 ≤ C1 4 ≤ C1 11 ≤ C1 1 ≤ C1 12 ≤ C1 

3 ≤ C1 13 ≤ C1 6 et C 2 = {9, 10, 2, 5, 7} avec l’ordre total 9 ≤ C2 10 ≤ C2 2 ≤ C2 5 ≤ C2 7 

sont composantes connexes. 

Remark 5 On doit noter qu’il n’y a pas, pour l’instant, de relation d’ordre entre les 

éléments de C 1 et C 2 , et donc le dessin de la Figure 2.3 pourrait avoir les éléments de 

C 2 “à gauche” de tous ceux de C 1 . 

Definition 18 On dit qu’un palier G ∈ P appartient à une composante connexe C de P 

si G ⊆ C. De plus on dira que l’ordre total ≤ C associé à C induit un ordre total ≤ G sur 

G de la manière suivante: si x, y ∈ G alors x ≤ G y ⇔ x ≤ C y.


6.00 ✻ 

P 28 

5.00 

P 26 P 27 

4.00 

P 24 P 25 

3.00 

P 21 P 22 P 23 

2.00 

P 18 P 19 P 20 

1.00 

P 14 P 15 P 16 P 17 

8 4 11 1 12 3 13 6 9 10 2 5 7 

✲ 

Figure 2.3: Pyramide en construction. 

Example 7 Si on a la “pyramide en construction” de la Figure 2.3 alors le palier P 24 = 

{1, 12, 3, 13, 6} appartient à la composante connexe C 1 de l’exemple précédent avec l’ordre 

≤ P24 induit par ≤ C1 et le palier P 23 = {10, 2, 5} appartient à la composante connexe C 2 

avec l’ordre ≤ P23 induit par ≤ C2 . 

Definition 19 Soient G 1 et G 2 des paliers de P, on dit que G 1 est intérieur à G 2 si: 

• G 1 ≠ G 2 . 

• G 1 et G 2 appartiennent à la même composante connexe C. 

• min(G 2 ) < C min(G 1 ) et max(G 1 ) < C max(G 2 ), où α < C β signifie que α ≤ C β 

et α ≠ β. 


{12, 3} est intérieur au palier P 24 = {1, 12, 3, 13, 6}.


Definition 20 Soient G 1 et G 2 des paliers de P, on dit que G 1 est successeur de G 2 et 

que G 2 est prédécesseur de G 1 si: 

• G 1 ⊂ G 2 au sens strict. 

• Il n’existe pas de palier G ∈ P tel que G 1 ⊂ G ⊂ G 2 au sens strict. 


{1, 12, 3, 13, 6} est successeur du palier P 24 = {1, 12, 3, 13, 6} et P 24 est prédécesseur de 

P 22 . 

Definition 21 Un palier G ∈ P, s’appelle maximal s’il n’a pas de prédécesseurs. 


{8, 4, 11, 1, 12, 3, 13, 6} et le palier P 28 = {9, 10, 2, 5, 7} sont maximaux. 

Remark 6 On doit remarquer qu’une composante connexe peut avoir plusieurs paliers 

maximaux (c.f. Figure 2.4) 

Definition 22 Soient G 1 et G 2 des paliers de P, on dit que G 1 est à gauche de G 2 et que 

G 2 est à droite de G 1 si: 


• min(G 1 ) ≤ C min(G 2 ) et max(G 1 ) ≤ C max(G 2 ). 

Definition 23 Soient G 1 et G 2 des paliers de P, on dit que G 1 est à semi–gauche de G 2 

si: 


• min(G 1 ) < C min(G 2 ) et max(G 1 ) = max(G 2 ).


Definition 24 Soient G 1 et G 2 des paliers de P, on dit que G 2 est à semi–droite de G 1 

si: 


• min(G 1 ) = min(G 2 ) et max(G 1 ) < C max(G 2 ). 

Example 11 Si on a la “pyramide en construction” de la Figure 2.3 alors les paliers P 22 , 

P 24 et P 26 sont semi–gauche du palier P 16 . Le palier P 28 est à semi–droite du palier P 25 . 

Le palier P 15 est à gauche du palier P 19 mais P 15 n’est pas à semi–gauche du palier P 19 . 

Definition 25 Soient G 1 et G 2 des paliers de P, on dit que G 1 est le palier maximal 

gauche de G 2 si: 

• G 1 est à gauche de G 2 . 

• G 1 est un palier maximal. 

• max(G 2 ) = max(G 1 ). 

Example 12 Si on a la “pyramide en construction” de la Figure 2.3 alors le palier P 26 est 

le palier maximal gauche du palier P 16 . 

Definition 26 Soit G un palier de P qui appartient à la composante connexe C, soient 

G 1 , G 2 , . . . , G l des paliers maximaux de la composante connexe C, ordonnés de gauche 

à droite suivant l’ordre ≤ C (c’est–à–dire G i est à gauche de G i+1 ). Si G m est le palier 

maximal gauche de G et m < l alors G m+1 s’appelle le palier maximal immédiat de G. 

Si m = l on dira que G n’a pas de palier maximal immédiat. 

Example 13 Si on a la “pyramide en construction” de la Figure 2.4 alors on a trois composantes 

connexes C 1 = {9, 4, 6, 10, 15, 13}, C 2 = {2, 11, 1} et C 3 = {3, 8, 16, 7, 12, 14, 5}.


6.00 ✻ 

5.00 

4.00 

3.00 

2.00 

1.00 

P 35 

P 32 P 33 P 34 

P 31 

P 26 P 27 P 28 P 29 P 30 

P 22 P 23 P 24 P 25 

P 17 P 18 P 19 P 20 P 21 

9 4 6 10 15 13 2 11 1 3 8 16 7 12 14 5 

✲ 

Figure 2.4: Pyramide en construction. 

Les paliers maximaux de la composante connexe C 1 sont P 26 et P 32 , les paliers maximaux 

de la composante connexe C 2 sont P 19 et P 33 et les paliers maximaux de la composante 

connexe C 3 sont P 35 et P 21 . Le palier maximal gauche de P 22 est P 26 et P 32 est son palier 

maximal immédiat 

Dans la définition suivante on présente les critères d’agrégation de deux paliers. Quand les 

deux paliers appartiennent à la même composante connexe le critère est essentiellement 

le même que celui proposé par Bertrand ([3, Bertrand et Diday (1990)]), néanmoins, 

dans le cas où les deux paliers appartiennent à des composantes différentes la condition 

qui dit que le premier palier est “devant 1 ” le deuxième s’élimine. Cette idée permet 

de construire des pyramides plus en accord avec la structure de “dissimilarités” entre 

les objets (individus), car la condition qui établit que le premier palier est “devant” le 

deuxième provoque que la dernière pyramide soit (probablement) affectée par l’ordre 

initial et arbitraire des objets de Ω. De plus dans notre algorithme, cette condition n’a 

pas de sens car l’algorithme ne commence pas avec un ordre arbitraire sur les objets, 

1 Brito dans [Brito (1991)] présente la notion d’un palier devant un autre.


mais il part de n composantes connexes avec un ordre total trivial 2 associé à chacune des 

composantes connexes. 

Definition 27 Soient G 1 et G 2 des paliers de P. 

Cas 1: Si G 1 et G 2 appartiennent à la même composante connexe, et on note par ←− G le 

palier maximal gauche de G 1 et par −→ G le palier maximal immédiat de G 1 (s’il existe 

3 ), alors G 1 et G 2 sont agrégeables si les deux conditions suivantes sont vérifiées: 

1. G 1 est à droite de ←− G et semi–gauche de ←− G ∩ −→ G . 

2. G 2 est à gauche de −→ G et semi–droite de ←− G ∩ −→ G . 

Cas 2: Si G 1 et G 2 n’appartiennent pas à la même composante connexe, et si on note 

par C 1 et C 2 les composantes connexes auxquelles G 1 et G 2 appartiennent respectivement. 

Alors G 1 et G 2 sont agrégeables si les deux conditions suivantes sont 

vérifiées: 

1. min(G 1 ) = min(C 1 ) ou max(G 1 ) = max(C 1 ). 

2. min(G 2 ) = min(C 2 ) ou max(G 2 ) = max(C 2 ). 

Example 14 Si on a la “pyramide en construction” de la Figure 2.4 alors le palier P 26 est 

agrégeable avec les paliers P 27 , P 31 , P 32 , P 2 = {2}, P 19 , P 33 , P 1 = {1}, P 3 = {3}, P 23 , 

P 29 , P 34 , P 35 , P 21 et P 5 = {5}. Au contraire le palier P 22 est seulement agrégeable avec 

les paliers P 27 , P 31 et P 32 . 

Definition 28 Un palier G de P s’appelle actif si les trois conditions suivantes sont 

vérifiées: 

2 L’ordre est trivial car chaque composante connexe initiale a cardinalité 1. 

3 Si le palier maximal immédiat n’existe pas alors les paliers ne seront pas agrégeables.


• Il existe un palier G ⋆ dans P tel que G est agrégeable avec G ⋆ . 

• ∄ ˜G ∈ P tel que G est palier intérieur à ˜G. 

• G n’a pas été agrégé deux fois. 

Example 15 Si on a la “pyramide en construction” de la Figure 2.4 alors les paliers P 9 , 

P 17 , P 26 , P 22 , P 27 , P 31 , P 32 , P 28 , P 13 , P 2 , P 19 , P 33 , P 1 , P 3 , P 23 , P 29 , P 35 , P 34 , P 21 , et P 5 

sont actifs. Au contraire les paliers P 4 , P 6 , P 10 , P 18 , P 15 , P 11 , P 8 , P 24 , P 16 , P 25 , P 30 , P 7 , 

P 20 , P 12 et P 14 ne sont pas actifs. 

ALGORITHME DE CLASSIFICATION ASCENDANTE PYRAMIDALE SYM- 

BOLIQUE (CAPS) 

Entrée : 

• M =Nombre maximum d’itérations. 

• N =Nombre de vecteurs de données symboliques (nombre de lignes du tableau 

de données symboliques). 

• P =Nombre de variables (nombre de colonnes du tableau de données symboliques). 

• X =Tableau de données symboliques. 

Sortie : 

• Un ordre total “≤” sur l’ensemble Ω des objets. 

• Structure pyramidale, c’est–à–dire, une suite de vecteurs (p, p I , 

p D , f(p)), avec p = 1, 2, . . . , NG, où NG =nombre total de paliers de la 

pyramide, p I =fils gauche du palier p et p D =fils droit du palier p. Si p est un 

palier singleton alors p I = p D = 0. 

• Un objet symbolique O p associé au palier p, avec p = 1, 2, . . . , NG.


• L’extension de l’objet associé à chaque palier, c’est–à–dire, 

Ext(O p ), avec p = 1, 2, . . . , NG. 

• Si l’algorithme échoue, la sortie sera un message d’erreur. 

Etape 1: Phase d’initialisation 

Etape 1.1 h = 1, où h est le nombre d’itérations. 

Etape 1.2 NG = N, où NG =Nombre total de paliers de la pyramide. 

Etape 1.3 NC = N, où NC =Nombre de composantes connexes, à une itération 

donnée (à la fin de l’exécution de l’algorithme on aura NC = 1). 

Etape 1.4 NP = N, où NP =Nombre de paliers actifs en une itération donnée (à 

la fin de l’exécution de l’algorithme on aura NP = 1). 

Etape 1.5 On initialise les N premiers vecteurs de la structure pyramidale, de la 

forme suivante: (s, 0, 0, 0), s = 1, 2, . . . , N. 

Etape 1.6 On construit NC composantes connexes initiales C s = {s}, 

s = 1, 2, . . . , NC, et un ordre total ≤ C associé à chaque composante connexe, 

dans lequel on a initialement que s ≤ C s. De plus on désigne par C 

l’ensemble de toutes les composantes, c’est–à–dire, C = {C 1 , C 2 , . . . , C NC }. 

Etape 1.7 On construit NP paliers actifs initiaux G q = {(α, β, s q , l)}, pour q = 

1, 2, . . . , NP de la manière suivante: α est un nombre associé à chaque palier 

actif en une itération donnée (les paliers actifs seront numérotés de 1 jusqu’à 

NP ), β est le nombre global du palier (pour le premier palier construit par 

l’algorithme β = N + 1, pour le deuxième palier construit par l’algorithme 

β = N + 2 et ainsi de suite), s q est le vecteur de données symboliques 

qui est emmagasiné dans la ligne q−ième du tableau de données symboliques 

(au début chaque ligne de la matrice correspond à un palier, néanmoins, 

quand l’algorithme avance, un palier peut correspondre à l’union de divers


objets symboliques, c’est–à–dire, le palier peut être associée à la “union” de 

divers lignes du tableau de données symboliques) et l est le nombre de fois 

que le palier a été agrégé (l ≤ 2). On note par G = {G s } s=1,2,...,NP = 

{(1, 1, s 1 , 0), (2, 2, s 2 , 0), . . . , (NP, NP, s NP , 0)} l’ensemble de tous les paliers 

actifs initiaux, on note par G 1 q = α, G 2 q = β, G 3 q = s q et G 4 q = l. 

Etape 1.8 On calcule la matrice de dissimilarités initiale Dij 

h = g(s i ∪ s j ) (le 

degré de généralité) où s k est le vecteur de données symboliques qui est 

emmagasiné dans la k−ième ligne du tableau de données symboliques, avec 

i, j = 1, 2, . . . , N. 

Etape 2: Phase d’élimination 

Etape 2.1 On recherche les couples de paliers qui sont agrégeables, en utilisant les 

conditions de la définition 27, c’est–à–dire, on calcule la matrice: 

⎧ 

1 si G l et G u sont agrégeables 

⎪⎨ 0 si G l et G u ne sont pas agrégeables 

B lu = 

0 si ∃ ˜G ∈ P tel que G l est un palier intérieur ˜G 

⎪⎩ 0 si ∃ ˜G ∈ P tel que G u est un palier intérieur ˜G 

pour l, u = 1, 2, . . . , NP . 

Etape 2.2 On calcule les paliers actifs qui ne sont plus agrégeables avec un autre 

palier (donc ils ne seront plus actifs), c’est–à–dire, on recherche tous les 

paliers Gη tels que la ligne et la colonne η de la matrice B ne contiennent 

que des zéros. Soit ˜G = {G α1 , G α2 , . . . , G αm } avec m ≥ 0 cet ensemble de 

paliers. 

Etape 2.3 NP = NP − m. 

Etape 2.4 G = G ˜G.


Etape 2.5 Mise à jour de la matrice de dissimilarités D h de manière que: 

D h ∈ M (NP −m)×(NP −m) , car on a éliminé de D h toutes les lignes et colonnes 

associées aux paliers non actifs. 

Etape 3: Phase de formation du nouveaux paliers (Etape de Généralisation) 

Etape 3.1 On recherche s i et s j tels que D h ij = g(s i ∪s j ) soit minimum et B ij = 1, 

où i, j = 1, 2, . . . , NP . On note les paliers où ce minimum est atteint par s i ⋆ 

et s j ⋆. Si B ij = 0, ∀ i, j = 1, 2, . . . , NP alors l’algorithme s’arrête et affiche 

un message d’erreur; autrement on passe à l’étape 3.2. 

Etape 3.2 NG = N + h et on calcule le vecteur suivant de la structure pyramidale 

NG, G 2 i ⋆, G2 j ⋆, Dh i ⋆ j ⋆). 

Etape 3.3 On calcule s ⋆ = s i ⋆ ∪ s j ⋆ et son extension Ext(s ⋆ ). 

Etape 3.4 Si s ⋆ est complet et Ext(s ⋆ ) = Ext(s i ⋆) ∪ Ext(s j ⋆) alors on passe à 

l’étape 4, sinon on prend B i ⋆ j⋆ = 0 et on va à l’étape 3.1. 

Etape 4: Phase de mise à jour 

Etape 4.1 h = h + 1. 

Etape 4.2 (Mise à jour des composantes) Si G i ⋆ ∈ C σ1 et G j ⋆ ∈ C σ2 sont tels que 

σ 1 ≠ σ 2 (appartiennent à des composantes connexes différentes 4 ) alors: 

Etape 4.2.1 On construit une nouvelle composante connexe C σ = C σ1 ∪ C σ2 , 

ensuite on définit dans C σ un nouvel ordre total. Pour faire cela il y a 

quatre possibilités (voir l’exemple 16): 

Cas 1: max(G i ⋆) = max(C σ1 ) et min(G 

⎧ j ⋆) = min(C σ2 ) : 

x ≤ ⎪⎨ Cσ1 y Si x, y ∈ C σ1 

Si x, y ∈ C σ alors x ≤ Cσ y ⇔ x ≤ Cσ2 y Si x, y ∈ C σ2 

⎪⎩ x ∈ C σ1 et y ∈ C σ2 

4 Si σ 1 = σ 2 l’algorithme maintiendrait les composantes telles qu’elles sont.


Cas 2: max(G i ⋆) = max(C σ1 ) et max(G 

⎧ j ⋆) = max(C σ2 ) 5 : 

x ≤ ⎪⎨ Cσ1 y Si x, y ∈ C σ1 

Si x, y ∈ C σ alors x ≤ Cσ y ⇔ y ≤ Cσ2 x Si x, y ∈ C σ2 


Cas 3: min(G i ⋆) = min(C σ1 ) et min(G 

⎧ j ⋆) = min(C σ2 ) 6 : 

y ≤ ⎪⎨ Cσ1 x Si x, y ∈ C σ1 

Si x, y ∈ C σ alors x ≤ Cσ y ⇔ x ≤ Cσ2 y Si x, y ∈ C σ2 


Cas 4: min(G i ⋆) = min(C σ1 ) et max(G 

⎧ j ⋆) = max(C σ2 ) 7 : 

y ≤ ⎪⎨ Cσ1 x Si x, y ∈ C σ1 

Si x, y ∈ C σ alors x ≤ Cσ y ⇔ y ≤ Cσ2 x Si x, y ∈ C σ2 


Etape 4.2.2 NC = NC − 1. 

Etape 4.2.3 C = (C {C σ1 , C σ2 }) ∪ {C σ }. 

Etape 4.3 (Mise à jour des paliers actifs) 

Etape 4.3.1 On calcule le nouveau palier 8 : G σ = G i ⋆ ∪ G j ⋆ := {(G 1 i ⋆, N + 

h, s i ⋆ ∪ s j ⋆, 0)} et on met à jour le nombre de fois que ces deux paliers 

ont été agrégés, c’est–à–dire, G 4 i = ⋆ G4 i + 1 et ⋆ G4 j = ⋆ G4 j⋆ + 1. Après 

on élimine (désactive) les paliers qui ont été agrégés deux fois. Pour faire 

cela il y a quatre possibilités: 

Cas 1: Si G 4 i = 2 et ⋆ G4 j⋆ = 2 (les deux paliers ont été agrégés deux fois) 

alors: NP = NP − 1 et G = (G {G i ⋆, G j ⋆}) ∪ {G σ }. 

5 On a fait une “inversion” des éléments de C α2 . 

6 On a fait une “inversion” des éléments de C α1 . 

7 On a fait une “inversion” des éléments de C α1 et des éléments de C α2 . 

8 L’inversion dans une composante implique l’inversion de tous les paliers qui appartiennent à cette 

composante, donc l’ordre des éléments des paliers est par définition hérité de l’ordre des éléments dans la 

composante.


7.00 ✻ 

6.00 

5.00 

4.00 

3.00 

2.00 

1.00 

31 

28 27 26 

29 30 

36 

32 34 

33 

22 23 24 25 

18 17 

20 21 19 

13 15 10 6 4 9 3 8 16 7 12 14 5 2 11 1 

35 

✲ 

Figure 2.5: Pyramide obtenue après l’union de deux composantes connexes. 

Cas 2: Si G 4 i = 1 et ⋆ G4 j⋆ = 1 (les deux paliers ont été agrégés une fois) 

alors: NP = NP + 1 et G = G ∪ {G σ }. 

Cas 3: Si G 4 i ⋆ = 2 et G4 j ⋆ = 1 (G i ⋆ a été agrégé deux fois et G j ⋆ a été 

agrégé une fois) alors: G = (G {G i ⋆}) ∪ {G σ }. 

Cas 4: Si G 4 i ⋆ = 1 et G4 j ⋆ = 2 (G j ⋆ a été agrégé deux fois et G i ⋆ a été 

agrégé une fois) alors: G = (G {G j ⋆}) ∪ {G σ }. 

Etape 4.4 On calcule la nouvelle matrice de “dissimilarités” D h ij = g(s i ∪ s j ) pour 

i, j = 1, 2, . . . , NP . (On calcule seulement les “dissimilarités” qui n’ont pas 

été calculées avant) 

Etape 5: Si NP = 1 alors l’algorithme s’arrête; en cas contraire, si h > M alors 

l’algorithme affiche un message d’erreur, sinon on passe à l’étape 2. 

Example 16 Si on a la “pyramide en construction” de la Figure 2.4 et si le minimum est 

atteint entre les palier P 26 et P 23 alors on obtient la pyramide de la Figure 2.5.


Remark 7 Dans l’étape 3.1 le minimum pouvait s’obtenir dans des divers couples d’objets 

symboliques. Si on voulait trouver une pyramide non “saturée” (Voir la définition dans 

[28, Diday (1984)]) alors on devrait choisir le couple de paliers (objets symboliques) de 

manière à ce qu’ils soient le plus loin 9 possible dans la composante connexe à laquelle 

appartiennent (ou à laquelle appartiendront lorque l’agrégation sera effectuée). Si en revanche 

on voulait une pyramide avec le maximum possible de paliers, alors on devrait 

choisir le couple de paliers (objets symboliques) de façon à qu’ils soient le plus près possible 

dans la composante connexe à laquelle appartiennent (ou à laquelle appartiendront 

une fois l’agrégation effectuée). Celui–ci est une option du module de pyramide dans 

PIMAD-Symbolique qui exécute cet algorithme (voir annexe 1). 

2.3 Algorithme de Classification Pyramidale Symbolique 

avec Ordre Donné 

Dans cette section on présente un algorithme pour construire une pyramide symbolique 

binaire quand on a l’ordre des objets a priori 10 . Cet algorithme est un cas particulier du 

précédent, puisqu’il démarre avec n = 1 composante connexe, alors que CAPS le fait 

avec n = |Ω|. 

ALGORITHME DE CLASSIFICATION ASCENDANTE PYRAMIDALE SYM- 

BOLIQUE AVEC UN ORDRE DONNÉ (CAPSO) 

Entrée : 

• M =Nombre maximum d’itérations. 

9 Le plus loin possible selon l’ordre total ≤ C associé à la composante connexe. 

10 Cet ordre ne se rapporte pas à l’ordre symbolique présenté dans la définition 3, mais plutôt il se rapporte 

à un ordre dans le sens classique parmi les premiers n paliers (feuilles) de la pyramide.


• N =Nombre de vecteurs de données symboliques (nombre de lignes du tableau 

de données symboliques). 

• P =Nombre de variables (nombre de colonnes du tableau de données symboliques). 

• X =Tableau de données symboliques. 

• Un ordre total “≤ Ω ” sur l’ensemble Ω d’objets. 

Sortie : 

• Structure pyramidale, c’est–à–dire, une suite de vecteurs (p, p I , 

p D , f(p)), avec p = 1, 2, . . . , NG, où NG =nombre total de paliers de la 

pyramide, p I =fils gauche du palier p et p D =fils droit du palier p. Si p est un 

palier singleton alors p I = p D = 0. 

• Un objet symbolique O p associé au palier p, avec p = 1, 2, . . . , NG. 

• L’extension de l’objet associée à chaque palier, c’est–à–dire, 

Ext(O p ), avec p = 1, 2, . . . , NG. 

• Si l’algorithme échoue, la sortie sera un message d’erreur. 

Etape 1: Phase d’initialisation 

Etape 1.1 h = 1, où h est le nombre d’itérations. 

Etape 1.2 NG = N, où NG =Nombre total de paliers de la pyramide. 

Etape 1.3 NC = 1, où NC =Nombre de composantes connexes, à une itération 

donnée. 

Etape 1.4 NP = N, où NP =Nombre de paliers actifs en une itération donnée (à 

la fin de l’exécution de l’algorithme on aura NP = 1). 

Etape 1.5 On initialise les N premiers vecteurs de la structure pyramidale, de la 

forme suivante: (s, 0, 0, 0), s = 1, 2, . . . , N.


Etape 1.6 On construit une composante connexe C = {s 1 , s 2 , . . . , s N }, avec un 

ordre total ≤ C , défini de la forme suivante: s i ≤ C s j ⇔ s i ≤ Ω s j . 

Etape 1.7 On construit NP paliers actifs initiaux G q = {(α, β, s q , l)}, pour q = 

1, 2, . . . , NP de la manière suivante: α est un nombre associé à chaque palier 

actif dans une itération donnée (les paliers actifs seront numérotent de 1 jusqu’à 

NP ), β est le nombre global du palier (pour le premier palier construit par 

l’algorithme β = N + 1, pour le deuxième palier construit par l’algorithme 

β = N + 2 et ainsi de suite), s q est le vecteur de données symboliques qui 

est emmagasiné dans la ligne q−ième du tableau de données symboliques (au 

début chaque ligne de la matrice correspond à un palier, néanmoins, quand 

l’algorithme avance un palier peut correspondre à l’union de divers objets 

symboliques, c’est-à-dire, il pourrait être associé à l’union de diverses lignes 

du tableau de données symboliques) et l est le nombre de fois que le palier 

a été agrégé (l ≤ 2). On note par G = {G s } s=1,2,...,NP = {(1, 1, s 1 , 0), 

(2, 2, s 2 , 0), . . . , (NP, NP, s NP , 0)} l’ensemble de tous les paliers actifs initiaux, 

on note par G 1 q = α, G 2 q = β, G 3 q = s q et G 4 q = l. 

Etape 1.8 On calcule la matrice de dissimilarités initiale Dij 

h = g(s i ∪ s j ) (le 

degré de généralité), où s k est le vecteur de données symboliques qui est 

emmagasiné dans la k−ième ligne du tableau de données symboliques, avec 

i, j = 1, 2, . . . , N. 

Etape 2: Phase d’élimination 

Etape 2.1 On recherche les couples de paliers qui sont agrégeables, en utilisant les


conditions de la définition 27, c’est-à-dire, on calcule la matrice: 

⎧ 

1 si G l et G u sont agrégeables 

⎪⎨ 0 si G l et G u ne sont pas agrégeables 

B lu = 

0 si ∃ ˜G ∈ P tel que G l est un palier intérieur ˜G 

⎪⎩ 0 si ∃ ˜G ∈ P tel que G u est un palier intérieur ˜G 

pour l, u = 1, 2, . . . , NP . 

Etape 2.2 On calcule les paliers actifs qui ne sont plus agrégeables avec un autre 

palier (donc ils ne seront plus actifs), c’est–à–dire, on recherche tous les 

paliers Gη tels que la ligne et la colonne η de la matrice B ne contiennent 

que des zéros. Soit ˜G = {G α1 , G α2 , . . . , G αm } avec m ≥ 0 cet ensemble de 

paliers. 

Etape 2.3 NP = NP − m. 

Etape 2.4 G = G ˜G. 

Etape 2.5 Mise à jour de la matrice de dissimilarités D h de façon que: 

D h ∈ M (NP −m)×(NP −m) , donc on a éliminé de D h toutes les lignes et colonnes 

associées à des paliers non actifs. 

Etape 3: Phase de formation du nouveaux paliers (Etape de Généralisation) 

Etape 3.1 On recherche s i et s j tel que Dij h = G(s i ∪ s j ) soit minimum et B ij = 1, 

où i, j = 1, 2, . . . , NP . On note les paliers où ce minimum est atteint par s i ⋆ 

et s j ⋆. Si B ij = 0, ∀ i, j = 1, 2, . . . , NP , alors l’algorithme s’arrête et affiche 

un message d’erreur; autrement on passe à l’étape 3.2. 

Etape 3.2 NG = N + h, toute de suite on calcule le vecteur suivant de la structure 

pyramidale (NG, G 2 i ⋆, G2 j ⋆, Dh i ⋆ j ⋆). 

Etape 3.3 On calcule s ⋆ = s i ⋆ ∪ s j ⋆ et son extension Ext(s ⋆ ).


Etape 3.4 Si s ⋆ est complet et Ext(s ⋆ ) = Ext(s i ⋆) ∪ Ext(s j ⋆) alors on passe à 

l’étape 4, sinon on prend B i ⋆ j⋆ = 0 et l’algorithme se poursuit à l’étape 3.1. 

Etape 4: Phase de mise à jour 

Etape 4.1 h = h + 1. 

Etape 4.2 (Mise à jour des paliers actifs) 

Etape 4.2.1 On calcule le nouveau palier: G σ = G i ⋆ ∪ G j ⋆ := {(G 1 i ⋆, N + 

h, s i ⋆ ∪ s j ⋆, 0)} et on met à jour le nombre de fois que ces deux paliers 

ont été agrégé, c’est–à–dire, G 4 i = ⋆ G4 i + 1 et ⋆ G4 j = ⋆ G4 j⋆ + 1. Après on 

a éliminé (désactive) les paliers qui ont été agrégés deux fois. Pour faire 

ça, il y a quatre possibilités: 

Cas 1: Si G 4 i = 2 et ⋆ G4 j⋆ = 2 (les deux paliers ont été agrégés deux fois) 

alors: NP = NP − 1 et G = (G {G i ⋆, G j ⋆}) ∪ {G σ }. 

Cas 2: Si G 4 i = 1 et ⋆ G4 j⋆ = 1 (les deux paliers ont été agrégés une fois) 

alors: NP = NP + 1 et G = G ∪ {G σ }. 

Cas 3: Si G 4 i ⋆ = 2 et G4 j ⋆ = 1 (G i ⋆ a été agrégé deux fois et G j ⋆ a été 

agrégé une fois) alors: G = (G {G i ⋆}) ∪ {G σ }. 

Cas 4: Si G 4 i ⋆ = 1 et G4 j ⋆ = 2 (G j ⋆ a été agrégé deux fois et G i ⋆ a été 

agrégé une fois) alors: G = (G {G j ⋆}) ∪ {G σ }. 

Etape 4.3 On calcule la nouvelle matrice de “dissimilarités” D h ij = G(s i ∪s j ) pour 

i, j = 1, 2, . . . , NP (On calcule seulement les “dissimilarités” qui n’ont pas 

été calculees avant). 

Etape 5: Si NP = 1 alors l’algorithme s’arrête; en cas contraire, si h > M alors 

l’algorithme affiche un message d’erreur, sinon on passe à l’étape 2.


2.4 Théorèmes de convergence 

Diday dans [28, Diday (1984)] propose l’algorithme suivant (appelé CAP) pour construire 

une pyramide numérique: 

L’algorithme commence par le choix d’un indice d’agrégation et passe ensuite aux étapes 

suivantes: 

a) Chaque élément de Ω est dans la pyramide et s’appelle groupe. 

b) On agrège les deux groupes les plus proches parmi les groupes qui n’ont pas été 

agrégé deux fois. 

c) On répète l’étape b) jusqu’à ce qu’un groupe qui contienne Ω soit formé. 

De plus l’algorithme est sujet aux conditions suivants. 

d) Chaque fois qu’un groupe est formé on lui associe un ordre sur les deux groupes 

qu’il réunit. 

e) Deux groupes ne peuvent pas être réunis s’ils ne sont pas connexes. 

f) Soient i et j les éléments extrêmes de la partie connexe de Ω associée à un groupe 

h; aucun groupe ne peut pas se connecter à un groupe inclus dans h qui ne contient 

ni i ni j. 

Lemma 1 L’algorithme CAP construit une pyramide. 

Démonstration: Peut être consultée dans [28, Diday (1984)]. 

Proposition 2 L’algorithme CAPS construit une pyramide symbolique.


Démonstration: L’étape a) de l’algorithme CAP est exécuté par les étapes 1.5 et 1.7 de 

l’algorithme CAPS et l’étape b) de CAP est exécuté par les étapes 3.1 et 4.3 de CAPS. 

L’étape c) de CAP est équivalente à l’étape 5 de CAPS. 

La condition d) de l’algorithme CAP est équivalente à l’étape 4.3.1 de l’algorithme CAPS. 

Les conditions e) et f) de CAP sont garanties par le cas 1 et le cas 2 de la définition 27 

respectivement. Alors, si on utilise le lemme 1, on a que la sortie de CAPS satisfait la 

condition 1 de la définition 15. 

L’étape 3.4 de l’algorithme CAPS garantit que la sortie sera une pyramide symbolique, 

donc à cette étape on vérifie la complétude de l’objet symbolique construit par la nouvelle 

agrégation. Si cet objet symbolique n’est pas complet, le minimum est écarté et 

on continue à l’étape 3.1 jusqu’à trouver un couple de paliers qui satisfasse les conditions 

d’agrégation et qui donne lieu à un objet symbolique complet. S’il n’y a pas de 

paliers, alors CAPS retournera un message d’erreur; avec cette condition on garantit que 

si l’algorithme CAPS s’arrête alors il construit une pyramide symbolique, ainsi on a la 

condition 2 de la définition 15. 

 

Vu que l’algorithme CAPSO est un cas particulier de l’algorithme CAPS, on a le corollaire 

qui suit. 

Corollary 3 L’algorithme CAPSO construit une pyramide symbolique. 

2.5 Exemples 

Pour illustrer l’utilisation de l’algorithme dans cette section on présente deux exemples 

d’exécution d’algorithme CAPS.


0.09 

✻ 

18 

0.05 

17 

16 

0.04 

0.03 

13 

14 

15 

0.03 

0.02 

0.02 

0.01 

7 

9 

10 

8 

12 

11 

5 4 2 1 3 6 

✲ 

Figure 2.6: Pyramide du tableau de données de l’exemple 1.1.1. 

Example 17 Cet exemple correspond à l’exécution de l’algorithme CAPS avec le tableau 

de données symboliques qu’on a présenté dans l’exemple 1. 

L’information suivante correspond aux objets symboliques et ses extensions respectives 

calculées par l’algorithme CAPS associés à chaque palier de la pyramide. 

Where the labels of variables are: 

y1=Number of adults over 16 years 

y2=QWEtv-licence 

y3=Fuel type central heating 

y4=Central heating install 

y5=CH repairs last 12 month


Where the labels of the individuals are: 

1="Northern metropolitan" 

2="North non-metropolitan" 

3="Yorks and humberside metropoli" 

4="Yorks and humberside non-metro" 

5="East midlands non-metropolitan" 

6="Northern Ireland" 

P7=[y1=[1.000,4.000]]ˆ[y2={1.00}]ˆ[y3=(1(0.7181),2(0.0537),3(0.4348), 

4(0.0870),5(0.0435),6(0.0134),7(0.0067))]ˆ[y4=(1(0.0435),2(0.9799 

))]ˆ[y5=(1(0.8696),2(0.2483))] 

Ext(P7)={4,5} 

P8=[y1=[1.000,5.000]]ˆ[y2={2.00}]ˆ[y3=(1(0.7882),2(0.1151),3(0.2806), 

4(0.0791),5(0.0288),6(0.0000),7(0.0000))]ˆ[y4=(1(0.0588),2(0.9856) 

)]ˆ[y5=(1(0.7765),2(0.2734))] 

Ext(P8)={1,3} 

P9=[y1=[1.000,4.000]]ˆ[y2={3.00,1.00}]ˆ[y3=(1(0.7181),2(0.1259),3(0. 

1879),4(0.0134),5(0.0070),6(0.0134),7(0.0067))]ˆ[y4=(1(0.0201),2( 

0.9860))]ˆ[y5=(1(0.7692),2(0.2483))] 

Ext(P9)={2,4} 

P10=[y1=[1.000,4.000]]ˆ[y2={2.00,3.00}]ˆ[y3=(1(0.6853),2(0.1259),3(0. 

2806),4(0.0791),5(0.0288),6(0.0000),7(0.0000))]ˆ[y4=(1(0.0144),2( 

0.9860))]ˆ[y5=(1(0.7692),2(0.2734))] 

Ext(P10)={1,2} 

P11=[y1=[1.000,6.000]]ˆ[y2={2.00}]ˆ[y3=(1(0.7882),2(0.4107),3(0.2000), 

4(0.3750),5(0.0089),6(0.0446),7(0.0179))]ˆ[y4=(1(0.0588),2(0.9643) 

)]ˆ[y5=(1(0.7768),2(0.2235))] 

Ext(P11)={3,6} 

P12=[y1=[1.000,6.000]]ˆ[y2={2.00}]ˆ[y3=(1(0.7882),2(0.4107),3(0.2806), 

4(0.3750),5(0.0288),6(0.0446),7(0.0179))]ˆ[y4=(1(0.0588),2(0.9856) 

)]ˆ[y5=(1(0.7768),2(0.2734))] 

Ext(P12)={1,3,6}


P13=[y1=[1.000,4.000]]ˆ[y2={1.00,3.00}]ˆ[y3=(1(0.7181),2(0.1259),3(0.4 

348),4(0.0870),5(0.0435),6(0.0134),7(0.0067))]ˆ[y4=(1(0.0435),2(0. 

9860))]ˆ[y5=(1(0.8696),2(0.2483))] 

Ext(P13)={2,4,5} 

P14=[y1=[1.000,4.000]]ˆ[y2={3.00,1.00,2.00}]ˆ[y3=(1(0.7181),2(0.1259),3 

(0.4348),4(0.0870),5(0.0435),6(0.0134),7(0.0067))]ˆ[y4=(1(0.0435),2 

(0.9860))]ˆ[y5=(1(0.8696),2(0.2734))] 

Ext(P14)={1,2,4,5} 

P15=[y1=[1.000,5.000]]ˆ[y2={2.00,3.00}]ˆ[y3=(1(0.7882),2(0.1259),3(0.28 

06),4(0.0791),5(0.0288),6(0.0000),7(0.0000))]ˆ[y4=(1(0.0588),2(0.98 

60))]ˆ[y5=(1(0.7765),2(0.2734))] 

Ext(P15)={1,2,3} 

P16=[y1=[1.000,6.000]]ˆ[y2={2.00,3.00}]ˆ[y3=(1(0.7882),2(0.4107),3(0.28 

06),4(0.3750),5(0.0288),6(0.0446),7(0.0179))]ˆ[y4=(1(0.0588),2(0.98 

60))]ˆ[y5=(1(0.7768),2(0.2734))] 

Ext(P16)={1,2,3,6} 

P17=[y1=[1.000,5.000]]ˆ[y2={2.00,3.00,1.00}]ˆ[y3=(1(0.7882),2(0.1259), 

3(0.4348),4(0.0870),5(0.0435),6(0.0134),7(0.0067))]ˆ[y4=(1(0.0588) 

,2(0.9860))]ˆ[y5=(1(0.8696),2(0.2734))] 

Ext(P17)={1,2,3,4,5}


P18=[y1=[1.000,6.000]]ˆ[y2={2.00,3.00,1.00}]ˆ[y3=(1(0.7882),2(0.4107),3 

(0.4348),4(0.3750),5(0.0435),6(0.0446),7(0.0179))]ˆ[y4=(1(0.0588),2 

(0.9860))]ˆ[y5=(1(0.8696),2(0.2734))] 

Ext(P18)={1,2,3,4,5,6} 

Chaque palier de la pyramide peut être interprété; par exemple, le palier P12 est un noeud 

des régions où “Number of adults older than 16 years” est entre 1 et 6. Le nombre de 

permis de la télévision (QWEtv-licence) est 2. Le type de “Fuel type central heating” 

est 1 maximum 78,82% des cas, il est 2 au maximun 41,07% des cas, il est 3 maximum 

28,06% des cas, il est 4 maximum 37,5% des cas, il est 5 maximum 2,88% des cas, il est 6 

maximum 4,46% des cas, il est 7 maximum 1,79% des cas. “Central heating install” est 1 

maximum 5,8% et il est 2 maximum 98,56%. “CH repairs last 12 month” est 1 maximum 

77.68% des cas et il est 2 au maximum 27.34% des cas. 

Example 18 Dans cet exemple on illustre l’exécution de l’algorithme CAPS avec les 

données d’Ichino, on les présente dans le tableau 4.1. Chaque ligne du tableau représente 

un type d’huile décrit par 4 variables quantitatives de type intervalle: “Specific Gravity”, 

“Freezing point”, “Iodine Value” et “Saponification”. Dans la pyramide de la Figure 2.7 

on a modifié l’échelle (voir annexe 1) pour une meilleure visualisation des paliers et dans 

la pyramide de la Figure 2.8 on n’a pas modifié l’échelle. Si dans l’algorithme CAPS on 

désative (élimine) les paliers qui ont été agrégés une fois, on obtient la hiérarchie binaire 

qui est présenté dans la Figure 2.9. 

Les données suivantes correspondent aux objets symboliques associés aux paliers numéro 

27, 32 et 36 et leurs extensions respectives calculées par l’algorithme CAPS. 

P27=[y1=[0.914,0.919]U[0.930,0.935]]ˆ[y2=[-27.000,-18.000]U[0.000, 

6.000]]ˆ[y3=[79.000,90.000]U[170.000,204.000]]ˆ 

[y4=[118.000,196.000]]


Figure 2.7: Représentation pyramidale de l’exemple de l’huile et la graisse (échelle modifié). 

Ext(P27)={1,6} 

P32=[y1=[0.858,0.870]U[0.914,0.919]U[0.920,0.926]U[0.930,0.937]]ˆ 

[y2=[-25.000,-15.000]U[-6.000,-1.000]U[0.000,6.000]U[22.000, 

38.000]]ˆ[y3=[40.000,48.000]U[53.000,77.000]U[79.000,90.000]U 

[99.000,116.000]U[192.000,208.000]]ˆ[y4=[187.000,202.000]] 

Ext(P32)={2,3,4,5,6,7,8} 

P36=[y1=[0.858,0.870]U[0.914,0.919]U[0.920,0.926]U[0.930,0.937]]ˆ 

[y2=[-27.000,-15.000]U[-6.000,-1.000]U[0.000,6.000]U[22.000, 

38.000]]ˆ[y3=[40.000,48.000]U[53.000,77.000]U[79.000,90.000]U 

[99.000,116.000]U[170.000,208.000]]ˆ[y4=[118.000,202.000]] 

Ext(P36)={1,2,3,4,5,6,7,8} 

Example 19 Dans cet exemple on illustre l’exécution de l’algorithme CAPSO avec les 

données d’Ichino, on les présente dans le tableau 4.1. Si 1=“L”, 2=“P”, 3=“Co”, 4=“S”, 

5=“Ca”, 6=“O”, 7=“B” et 8=“O”. Si on a l’ordre des objets a priori 7≤6≤5≤1≤2≤4≤3


✻ 

1.00 

36 

0.54 

35 

0.23 

0.19 

33 

34 

0.11 

0.09 

0.05 

0.03 

30 31 32 

29 

28 

27 

26 

12 14 17 

21 

24 

25 

23 

9 13 10 19 16 11 20 

22 

15 18 

1 6 3 5 4 2 7 8 

✲ 

Figure 2.8: Représentation pyramidale de l’exemple de l’huile et la graisse (échelle 

réelle). 

alors l’algorithme CAPSO produit la pyramide de la Figure 2.10.


Figure 2.9: Hiérarchie binaire de l’exemple de l’huile et la graisse (échelle modifié).


Figure 2.10: Représentation pyramidale de l’exemple de l’huile et la graisse si on a l’ordre 

des objets a priori 7≤6≤5≤1≤2≤4≤3.

Chapter 3 

La Régression Symbolique 

3.1 Introduction 

Dans ce chapitre nous généralisons la méthode classique de la régression linéare simple 

au cas de données symboliques de type intervalle. 

Pour généraliser ces méthodes il est nécessaire d’abord de faire la généralisation au cas 

symbolique des indices statistiques classiques d’une variable et de deux variables comme, 

la moyenne, l’écart type, la corrélation, entre autres. Ces généralisations ont toujours 

été faites selon le principe de base proposé par [32, Diday (1991)] dans lequel il est 

indiqué que “si l’entrée dans une analyse de données est symbolique alors la sortie devrait 

également être symbolique”, c’est–à–dire, si la variation est price en compte dans l’entrée 

elle doit exister également dans la sortie. 

Ces généralisations tiennent compte de celles effectuées par Bertrand et Goupil ([7, Bock 

et Diday (2000)]), dans lesquelles l’entrée est symbolique mais la sortie est numérique. 

Dans nos généralisations nous avons également tenu compte du principe qui établit que 

l’analyse des données classiques devrait nécessairement être un cas particulier de l’analyse 

60

La Régression Symbolique 61 

des données symboliques. À la fin du chapitre, les caractéristiques principales du module 

pour la régression simple et multiple (qui est une partie du logiciel développé dans C++ 

dans le cadre de la thèse) sont expliquées. 

La généralisation de l’analyse de données d’une variable au cas symbolique est nécessaire, 

parce que quand une analyse de données est faite, il est très important d’avoir une connaissance 

profonde du comportement de chaque variable. Même si l’objectif est de faire 

une analyse de données de multiples variables, cette étape précédente d’exploration est 

indispensable. 

3.2 Statistiques descriptives pour de données symboliques 

3.2.1 La moyenne symbolique 

Dans l’analyse de données classique la moyenne est défini de la façon suivante: Soit 

Y une variable quantitative et soient y 1 , y 2 , . . . , y m les m valeurs observées pour cette 

m∑ 

variable, alors la moyenne de Y est Y = 1 y 

m i . 

i=1 

Bertrand et Goupil dans ([7, Bock et Diday (2000)]) ont généralisé la définition de la 

moyenne pour des variables quantitatives de type intervalle. Pour ceci, ils ont défini 

l’ordre statistique d’une variable Y , défini dans un ensemble fini E = {1, 2, . . . , m}, 

comme une fonction O Y : R → N telle que: 

O Y (ξ i ) = |k ∈ E tels que Y (k) = ξ i |. (3.1) 

l∑ 

Avec la définition précédente il est clair que Y = 1 O 

m Y (ξ i )ξ i où ξ i , i = 1, 2, . . . , l 

sont tous les éléments différents de E. Bertrand et Goupil ont généralisé la définition 

précédente pour des variables de type intervalle comme la moyenne empirique définie par 

i=1


Y = 

∫ +∞ 

−∞ 

ξf Y (ξ)dξ où Y est une variable type intervalle et f Y est sa fonction empirique 

de densité. Avec cette définition il est facile de prouver que: 

Y = 1 m 

m∑ 

i=1 

y i 

+ y i 

, (3.2) 

2 

où Y (i) = [y i 

, y i ], i = 1, 2, . . . , m (voir [7, Bock et Diday (2000)]). 

La définition de la moyenne donnée par Bertrand et Goupil a une entrée de type intervalle, 

cependant, la sortie est une valeur numérique. C’est pour cela que le résultat 

de la moyenne ne reflète pas vraiment la variation de la variable. Par exemple si E = 

{1, 2, 3, 4}, Y (E) = {[1, 2], [−1, 4], [2, 3], [−1, 1]} et Z(E) = {[0, 3], [−2, 5], [1, 4], [−2, 2]} 

alors les deux variables ont la même moyenne (Y = Z = 1.375), malgré le fait que la 

variable Z a une variation beaucoup plus grande que la variable Y . 

Nous définissons alors la moyenne d’une variable de type d’intervalle comme un intervalle 

qui reflète vraiment les valeurs possibles de la variable, c’est-à-dire, un intervalle 

dont la valeur minimum est la moyenne minimum des valeurs prises par la variable dans 

E et dont la valeur maximum est la moyenne maximum des valeurs prises par la variable 

dans E, plus formellement: 

Definition 29 Soit Y une variable de type intervalle définie dans E = {1, 2, . . . , m} par 

Y = {[y 1 

, y 1 ], [y 2 

, y 2 ], . . . , [y m 

, y m ]} alors on définit la moyenne comme: 

[ 

1 

m∑ 

Y = y 

m i 

, 1 m 

i=1 

] 

m∑ 

y i . (3.3) 

i=1 

De cette manière dans l’exemple précédent si E = {1, 2, 3, 4} et Y (E) = {[1, 2], [−1, 4], [2, 3], [−1, 1]}, 

Z(E) = {[0, 3], [−2, 5], [1, 4], [−2, 2]} alors les deux variables ont moyenne differente 

Y = [0.25, 2.5] et Z = [−0.75, 3.5].


3.2.2 La médiane symbolique 

Dans l’analyse de données classique, la médiane est la valeur qui est au centre des données 

quand elles sont ordonnées, c’est–à–dire, telle que 50% des données sont plus grandes que 

la médiane et que les 50% restantes sont plus petites. 

Plus formellement si on a m valeurs y 1 , y 2 , . . . , y m pour une variable quantitative Y et 

nous supposons que ces valeurs sont ordonnées alors la valeur de la médiane dépend de 

la parité de m: 

• Si m est impaire alors la médiane est en position m+1 

2 

qui est exactement la position 

qui sépare les données dans deux groupes de la même quantité d’éléments. 

• Si m est paire alors la médiane est entre la position m 2 et la position m 2 + 1 dans 

une telle manière que les données sont divisées en deux groupes de même nombre 

d’éléments, m 2 

éléments chacun. Dans ce cas–ci, la médiane est définie comme la 

moyenne entre les données y m 

2 et y m 

2 +1 , c’est–à–dire, Me(Y )= y m 2 +y m 2 +1 

2 

. 

Dans le cas d’une variable symbolique de type intervalle nous voulons définir la médiane 

d’une manière semblable, mais de telle manière que la médiane soit un intervalle. Si 

la variable Y de type intervalle prend la valeur minimum pour tous les individus dans 

l’intervalle respectif, on devrait garantir que la valeur minimum de la médiane de type 

intervalle sépare ces valeurs dans deux groupes de la même taille. De la même manière, 

si la variable Y de type intervalle prend la valeur maximum pour tous les individus dans 

l’intervalle respectif, on devrait garantir que la valeur maximum de la médiane (type intervalle) 

sépare également ces valeurs dans deux groupes de la même taille. 

Pour réaliser ce qui est mentionné ci–dessus il est évident qu’il suffit de définir la médiane 

d’un variable Y de type intervalle comme un intervalle dans lequel la valeur minimum est 

exactement la médiane de toutes les valeurs minimum possibles prises par la variable Y ,


et dont la valeur maximum est la médiane de toutes les valeurs maximum possibles que 

peut prendre la variable Y . Plus formellement: 


Y = {[y 1 

, y 1 ], [y 2 

, y 2 ], . . . , [y m 

, y m ]}, alors on définit la médiane symbolique comme: 

Me(Y ) = [ Me, Me ] , (3.4) 

où Me est la médiane classique de {y 1 

, y 2 

, . . . , y m 

} et Me est la médiane classique de 

{y 1 , y 2 , . . . , y m }. 

Example 20 Pour illustrer la définition précédente nous emploierons un exemple pris 

de ([5, Billard L. et Diday E. (2000)]). Dans cet exemple on a le “Pulse Rate” (Y ), la 

“Systolic Blood Pressure” (Y 1 ) et la “Diastolic Blood Pressure” (Y 2 ) pour onze patients 

comme nous montrons dans le Tableau 3.1. 

Les médianes symboliques pour les trois variables sont: Me(Y ) = [70, 97], Me(Y 1 ) = 

[110, 146] et Me(Y 2 ) = [77, 100]. 

3.2.3 Percentiles symboliques et déviation quartile symbolique 

Dans l’analyse des données classiques pour calculer la médiane les données sont ordonnées 

et alors la médiane les divise en deux groupes avec la même quantité d’éléments. 

Chacun de ces groupes a sa propre médiane. La médiane du groupe inférieur s’appelle le 

premier quartile et on la dénote par Q 1 , alors que la médiane du groupe supérieur s’appelle 

le troisième quartile et on la dénote par Q 3 . Dans le cas des variables symboliques de 

type intervalle nous pouvons procéder exactement de la même manière, c’est-à-dire, le 

premier quartile Q 1 sera la médiane de type intervalle du premier groupe de données et le


Y Y 1 Y 2 

Pulse Systolic Diastolic 

Rate Pressure Pressure 

[44, 68] [90, 100] [50, 70] 

[60, 72] [90, 130] [70, 90] 

[56, 90] [140, 180] [90, 100] 

[70, 112] [110, 142] [80, 108] 

[54, 72] [90, 100] [50, 70] 

[70, 100] [134, 142] [80, 110] 

[72, 100] [130, 160] [76, 90] 

[76, 98] [110, 190] [70, 110] 

[86, 96] [138, 188] [90, 110] 

[86, 100] [110, 150] [78, 100] 

Table 3.1: Exemple avec onze patients. 

troisième quartile Q 3 sera la médiane de type intervalle du deuxième groupe de données. 

Formellement on définit Q 1 = [Q 1 

, Q 1 ] et Q 3 = [Q 3 

, Q 3 ], où Q 1 

et Q 3 

sont le premier et 

le troisième quartile de {y 1 

, y 2 

, . . . , y m 

}, Q 1 et Q 3 sont le premier et le troisième quartile 

de {y 1 , y 2 , . . . , y m }. 

Dans l’analyse des données classiques la déviation quartile est définie comme Q = 

Q 3 −Q 1 

2 

. C’est la distance entre le troisième quartile et le première quartile divisé par 

deux. Pour les variables de type intervalle la déviation quartile est définie de manière 

semblable, c’est–est–dire, elle est définie comme l’intervalle dont le minimum est la distance 

minimum entre le premier et la troisième quartile divisée par deux, et le maximum 

est la distance maximum entre le premier et le troisième quartile divisée par deux (on 

remarquera que ce sont des intervalles).



Y = {[y 1 

, y 1 ], [y 2 

, y 2 ], . . . , [y m 

, y m ]} et soient Q 1 et Q 3 le premier quartile et le troisième 

quartile symboliques respectivement, alors on définit la déviation quartile symbolique de 

Y comme: 

⎡ 

⎢ |x − y| 

Q(Y ) = ⎣min 

x∈Q 1 2 

y∈Q 3 

|x − y| 

, max 

x∈Q 1 

2 

y∈Q 3 

⎤ 

⎥ 

⎦ . (3.5) 

Example 21 En utilisant les données du Tableau 3.1, nous obtenons Q 1 (Pulse-Rate) = 

[56, 72], Q 3 (Pulse-Rate) = [76, 100] et Q(Pulse-Rate) = [2, 22]. 

3.2.4 La moyenne symbolique des valeurs extrêmes 

Dans l’analyse des données classiques la moyenne des valeurs extrêmes d’une variable 

quantitative Y est définie comme la moyenne entre la valeur maximum et la valeur minimum 

prises par Y . Pour le cas des variables symboliques de type intervalle la moyenne 

symbolique des valeurs extrêmes est définie comme la moyenne entre l’intervalle qui 

contient la valeur maximum possible pour la variable et l’intervalle qui contient la valeur 

minimum possible pour la variable. 

Definition 32 Soit Y une variable de type intervalle définie dans E = {1, 2, . . . , m} 

par Y = {[y 1 

, y 1 ], [y 2 

, y 2 ], . . . , [y m 

, y m ]} et soit y min = min{y 1 

, y 2 

, . . . , y m 

}, y max = 

max{y 1 , y 2 , . . . , y m }, alors on définit la moyenne symbolique des valeurs extrêmes comme: 

MExt(Y ) = [α, β] , (3.6) 

où [α, β] est la moyenne symbolique entre les intervalles [y min , y s ] et 

] [y k 

, y max avec 

s, k ∈ {1, 2, . . . , m}.


Example 22 En utilisant les données du Tableau 3.1 encore, nous obtenons MExt(Y ) = 

[57, 90], MExt(Y 1 ) = [100, 145] et MExt(Y 2 ) = [70, 90]. 

Remark 8 Notons que la moyenne symbolique des valeurs extrêmes n’est pas un intervalle 

constitué par la moyenne des valeurs extrêmes du minimum des intervalles et la 

moyenne des valeurs extrêmes du maximum de ces intervalles. 

3.2.5 La variance et l’écart type symbolique 

Dans l’analyse des données classiques les mesures de dispersion mesurent l’éloignement 

des données par rapport aux mesures de tendance centrale, par exemple de la moyenne. Si 

la mesure de dispersion est petite alors toutes les données sont semblables. Dans l’analyse 

de données classique, la mesure de dispersion la plus utilisée est l’écart type. Soit Y une 

variable quantitative et soient y 1 , y√ 

2 , . . . , y m les m valeurs observées pour cette variable, 

m∑ 

alors l’écart type de Y est σ Y = (y i − Y ) 2 , et la variance de Y est définie par 

Var(Y ) = σ 2 Y . 

1 

m 

i=1 

Bertrand et Goupil ont généralisé la définition précédente√ pour des variables de type 

∫ +∞ 

intervalle comme l’écart type empirique défini par σ Y = (ξ − Y ) 2 f Y (ξ)dξ où 

−∞ 

Y est une variable de type intervalle, et f Y est sa fonction empirique de densité (voir 

[7, Bock and Diday (2000)]). Billard et Diday ([5, Billard L. et Diday E. (2000)]) 

( m∑ 

m 2 

∑ 

ont prouvé que σ Y = √ 1 

(y 

4m i + y i 

) 2 − 1 (y 

4m 2 i + y i 

)) 

où Y (i) = [y i 

, y i ], 

i=1 

i = 1, 2, . . . , m. Cette définition a exactement le même problème que la moyenne empirique. 

Par exemple, si E = {1, 2, 3, 4} et Y (E) = {[1, 2], [−1, 4], [2, 3], [−1, 1]}, 

Z(E) = {[0, 3], [−2, 5], [1, 4], [−2, 2]} alors les deux variables ont le même écart type 

empirique (σ Y = σ Z = 0.892), bien que la variable Z a une variation beaucoup plus 

grande que la variable Y . 

i=1


Pour éviter ce problème, pour des variables de type intervalle, nous devrions définir la 

variance de façon à ce que cet indice mesure l’éloignément des données par rapport à la 

moyennne symbolique de la variable, mais de telle façon à ce que cette variance soit aussi 

un intervalle comportant la variance minimum et maximum. 

Definition 33 Soit Y une variable de type intervalle définie dans E = {1, 2, . . . , m} 

par Y = {[y 1 

, y 1 ], [y 2 

, y 2 ], . . . , [y m 

, y m ]} et soit Y = [α, β] alors on définit l’écart type 

symbolique et la variance symbolique par: 

et 

⎡ 

σ Y = ⎢ 

⎣√ 1 m 

Var(Y ) = 

⎡ 

m∑ 

i=1 

⎢ 

⎣ 1 m 

min 

x∈[y i 

,y i ] 

y∈[α,β] 

m∑ 

i=1 

min 

x∈[y i 

,y i ] 

y∈[α,β] 

(x − y) 2 , 

1 

√m 

(x − y) 2 , 1 m 

m∑ 

i=1 

m∑ 

i=1 

max 

x∈[y i 

,y i ] 

y∈[α,β] 

max 

x∈[y i 

,y i ] 

y∈[α,β] 

⎤ 

(x − y) 2 ⎥ 

⎦ , (3.7) 

⎤ 

(x − y) 2 ⎥ 

⎦ . 

Example 23 En utilisant les données du Tableau 3.1, nous obtenons que σ Y = [0, 35.55], 

σ Y1 = [4.68, 49.60] et σ Y2 = [1.52, 32.23]. 

Remark 9 Notons que l’écart type symbolique n’est pas un intervalle constitué par l’écart 

type des valeurs minimum des intervalles et l’écart type symbolique des valeurs maximum 

de ces intervalles. 

3.2.6 Histogrammes symboliques 

Dans l’analyse des données classiques quand on a une variable qualitative Y , son rang 

peut être divisée dans des classes pour établir une distribution des fréquences. 

Pour


ceci, le nombre de classes k étant choisi, nous prenons le maximum M et le minimum 

m de valeurs de la liste de données, alors la largeur des classes est c = M−m 

k 

. 

Habituellement les classes (intervalles) sont pris fermé à la gauche et s’ouvrent à droite, 

exceptée la dernière classe qui est fermée aux deux côtés. Comme Bertrand et Goupil 

([7, Bock and Diday (2000)]) le suggèrent, si on a une variable de type intervalle Y 

défini dans E = {1, 2, . . . , m} par Y = {[y 1 

, y 1 ], [y 2 

, y 2 ], . . . , [y m 

, y m ]} et si on note 

y min = min{y 1 

, y 2 

, . . . , y m 

}, y max = max{y 1 , y 2 , . . . , y m }, alors nous pouvons choisir 

le nombre de classes k et construire une partition de I = [y min , y max ] dans k classes 

(intervalles) I j = [u j−1 , u j [ pour j = 1, 2, . . . , k − 1, et I k = [u k−1 , u k ]. Avec ces 

notations l’histogramme symbolique de Y associé à la partition {I 1 , I 2 , . . . , I k } est la 

représentation graphique de la distribution de fréquences {(I j , p j ), j = 1, 2, . . . , k}, où 

m∑ 

p j = 1 l(Y (j)∩I J ) 

et l(I) dénote la longueur de l’intervalle I. 

m l(Y (j)) 

j=1 

Example 24 En utilisant les données du Tableau 3.1, l’histogramme symbolique de la 

variable Y 1 =Systolic–Pressure est présenté dans la Figure 3.1. 

Figure 3.1: L’histogramme symbolique de la variable Y 1 =Systolic–Pressure.


3.2.7 Boîtes de dispersion (Boxplot) 

L’objectif d’une boîte de dispersion est de donner une idée de la distribution des données. 

Dans l’analyse de données classique, la construction d’une boîte de dispersion est basée 

sur le calcul de la médiane et des quartiles: d’abord les données sont ordonnées, puis la 

médiane et les quartiles sont calculés. Pour la représentation graphique, une droite verticale 

est tirée de la plus petite donnée jusqu’à la plus grande, et on dessine un rectangle 

de taille 2Q qui va du premier quartile Q 1 au troisième quartile Q 3 , où Q est la déviation 

quartile. Enfin nous traçons une droite verticale dans le rectangle qui correspond à la position 

de la médiane. Pour le cas des variables de type intervalle, puisque les quartiles et la 

médiane sont des intervalles qui pourraient avoir l’intersection non vide, on dessine trois 

rectangles au lieu d’un, le premier correspond au premièr quartile, le second correspond 

à la médiane et le troisième correspond au troisième quartile. 

Example 25 En utilisant les données du Tableau 3.1, la boîte de dispersion de la variable 

Y =Pulse–Rate est présenté dans la Figure 3.2. 

3.2.8 La corrélation symbolique 

Dans cette section nous proposerons une définition de la corrélation symbolique entre 

deux variables de type intervalle. Mais avant, il est important de rappeler quelques 

définitions classiques. 

Definition 34 Soient Y = (y 1 , y 2 , . . . , y m ) et X = (x 1 , x 2 , . . . , x m ) deux variables numériques 

appliquées sur m individus, où x i et y i sont les valeurs prises pour la variable X et Y pour 

l’individu i, respectivement, alors: 

• On définit la variance de Y comme:


Figure 3.2: La boîte de dispersion de la variable Y =Pulse–Rate. 

σ 2 Y = 1 m 

m∑ 

(y i − Y ) 2 . 

i=1 

• On définit la covariance entre les deux variables X et Y comme: 

Cov(X, Y ) = 1 m 

m∑ 

(x i − X)(y i − Y ). 

i=1 

• On définit la corrélation entre les deux variables X et Y comme: 

R(X, Y ) = 1 m 

m∑ 

( 

xi − X 

i=1 

σ X 

) ( 

yi − Y 

σ Y 

) 

= Cov(X, √ Y ) . 

σ 

2 

X 

σY 

2 

[5, Billard and Diday (2000)] ont proposé les formules suivantes pour calculer l’écart 

type, la covariance et la corrélation pour les variables symboliques de type intervalle. 

Definition 35 Soient X = ([x 1 , x 1 ], [x 2 , x 2 ], . . . , [x m , x m ]) et Y = ([y 1 

, y 1 ], [y 2 

, y 2 ], . . . , [y m 

, y m ]) 

deux variables de type intervalle. Alors


• La variance de Y est définie par: 

σ 2 Y = 1 

4m 

( 

m∑ 

(y i + y i 

) 2 − 1 

m 2 

∑ 

(y 

4m 2 i + y i 

)) 

. (3.8) 

i=1 

• La covariance entre X et Y est définie par: 

Cov(X, Y ) = σ XY = 1 

4m 

i=1 

( 

m∑ 

(x i + x i )(y i + y i 

) − 1 m 

) ( 

∑ 

m 

) 

∑ 

4m 

i=1 

2 (x i + x i ) (y i + y i 

) . (3.9) 

i=1 

i=1 

• La corrélation entre Y 1 et Y 2 est définie par: 

R(X, Y ) = 

σ XY 

√ . (3.10) 

σ 

2 

X 

σY 

2 

Toutes les définitions précédentes obtiennent comme résultat un réel, alors que l’entrée 

est un intervalle. Mais, comme nous l’avons déjà mentionné, si l’entrée a de l’imprécision 

(inexactitude) alors la sortie doit avoir également de l’imprécision. C’est pour ça que nous 

définissons en (3.11) la corrélation symbolique entre deux variables de type intervalle 

comme un intervalle. 

Chacune des variables X = ([x 1 , x 1 ], [x 2 , x 2 ], . . . , [x m , x m ]) et Y = ([y 1 

, y 1 ], [y 2 

, y 2 ], 

. . . , [y m 

, y m ]) peuvent être visualisés dans l’espace R m par un hypercube à 2 m sommets. 

Donc la corrélation entre X et Y peut être définie comme un intervalle à partir de la 

corrélation minimum et maximum entre ces deux hypercubes. La longueur des côtés de 

l’hypercube est donnée par l’étendue des intervalles associés à chaque individu. 

Definition 36 Soient X H et Y H les hypercubes associés aux variables X et Y, alors on 

définit la corrélation entre X et Y comme l’intervalle R(X, Y ) = [ R(X, Y ), R(X, Y ) ]


où 1 : 

R(X, Y ) = min 

x∈X H 

y∈Y H 

R(x, y) 

R(X, Y ) = max 

x∈X H 

y∈Y H 

R(x, y) 

(3.11) 

Pour calculer la corrélation symbolique nous devons introduire une certaine notation. 

Avec les variables X et Y nous pouvons construire les matrices numériques N X et N Y de 

m droites et 2 m colonnes comme nous le montrons dans (3.12) et (3.13). 

⎛⎡ 

N X = 

⎜⎢ 

⎝⎣ 

⎤⎞ 

x 1 x 1 x 1 x 1 · · · x 1 x 1 x 1 x 1 x 1 · · · x 1 

x 2 x 2 x 2 x 2 · · · x 2 x 2 x 2 x 2 x 2 · · · x 2 

x 3 x 3 x 3 x 3 · · · x 3 x 3 x 3 x 3 x 3 · · · x 3 

. 

. 

. 

. 

. .. 

. .. 

. .. 

. .. 

. .. 

. .. . .. 

. .. 

x m−1 x m−1 x m−1 x m−1 · · · x m−1 x m−1 x m−1 x m−1 x m−1 · · · x m−1 

⎥⎟ 

⎦⎠ 

x m x m x m x m · · · x m x m x m x m x m · · · x m 

(3.12) 

⎛⎡ 

N Y = 

⎜⎢ 

⎝⎣ 

⎤⎞ 

y 1 y 1 y 1 y 1 · · · y 1 y 1 y 1 y 1 y 1 · · · y 1 

y 2 y 2 y 2 y 2 · · · y 2 y 2 y 2 y 2 y 2 · · · y 2 

y 3 y 3 y 3 y 3 · · · y 3 y 3 y 3 y 3 y 3 · · · y 3 

. 

. 

. 

. 

. .. 

. .. 

. .. 

. .. 

. .. 

. .. . .. 

. .. 

y m−1 y m−1 y m−1 y m−1 · · · y m−1 y m−1 y m−1 y m−1 y m−1 · · · y m−1 

⎥⎟ 

⎦⎠ 

y m y m y m y m · · · y m y m y m y m y m · · · y m 

(3.13) 

Soit C X l’ensemble d’indices des colonnes dans la matrice N X , associé à la variable de 

type intervalle X; si k ∈ C X , soit c X k 

matrice N X (de la même manière on définit C Y et c Y k ). 

le vecteur associé à la k−iéme colonne dans la 

Theorem 4 Soient X H et Y H les hypercubes associés à X et Y , alors nous avons les cas 

suivants: 

1 R(x, y) est la corrélation classique entre les vecteurs x et y de R m .


Cas 1: Si l’origine est un point intérieur de X H ou Y H alors: 

R(X, Y ) = −1 

R(X, Y ) = 1 

(3.14) 

Cas 2: Si X H et Y H contiennent des vecteurs colinéaires de R m et: 

Cas 2.1 Si tous les deux X H et Y H sont dans le même “m–quadrant” de R m alors: 


k∈C X 

s∈C Y 

R(c X k , cY s ) 

R(X, Y ) = 1 

(3.15) 

Cas 2.2 Si X H et Y H sont dans des “m–quadrant” opposés par l’origine de R m 

alors: 

R(X, Y ) = −1 


k∈C X 

s∈C Y 


(3.16) 

Cas 3: X H et Y H ne contiennent pas des vecteurs colinéaires et ni l’un ni l’autre X H ou 

Y H contient l’origine alors: 


k∈C X 

s∈C Y 



k∈C X 

s∈C Y 


(3.17) 

Démonstration: 

Cas 1: Supposons, sans perte de généralité, que → 0∈ ◦ XH (l’ensemble des points intérieurs 

de X H ), alors il y a un voisinage V ⊂ R m de → 0, et nous pouvons trouver x 1 ∈ V 

, x 2 ∈ V et y ∈ Y tels que l’angle entre x 1 et y est π, et l’angle entre x 2 et y est 

0, ce qui implique R(X, Y ) = R(x 1 , y) = −1 est R(X, Y ) = R(x 2 , y) = 1 (voir 

illustration pour R 2 dans la Figure 3.3).


✻ 

R(X, Y ) = R(x 2 , y) = 1 

Y H 

R(X, Y ) = R(x y 

1 , y) = −1 

 

X H ✬✩ 

✛ 

✱ ✱✱✱✱✱✱✱ x 2 

x 1 

✫✪ V 

✲ 

Figure 3.3: X H ou Y H contiennent l’origine. 

❄ 

Cas 2 : 

Cas 2.1: Soit x ∈ X H et y ∈ Y H les vecteurs colinéaires dans le même m– 

quadrant, alors l’angle θ entre x et y est 0, et donc cos(θ) = 1 = R(x, y) = 

R(X, Y ). On peut trouver des sommets x s ∈ X H et y l ∈ Y H tels que l’angle 

β entre x s et y l est maximum et 0 ≤ β ≤ π, alors cos(β) est minimum, et 

donc cos(β) = R(x s , y l ) = R(X, Y ) (on illustre ce cas en R 2 dans la Figure 

3.4). Tous les deux x s et y l sont des sommets de X H et Y H respectivement, 

ainsi ils sont des colonnes de N X et N Y respectivement. 

Cas 2.2: Soit x ∈ X et y ∈ Y les vecteurs colinéaires dans des m–quadrants 

opposés, alors l’angle θ entre x et y est π, et donc cos(θ) = −1 = R(x, y) = 

R(X, Y ). Également il y a des sommets x s ∈ X H et y l ∈ Y H tels que l’angle 

β entre x s et y l est minimum et 0 ≤ β ≤ π, alors cos(β) est maximum, 

d’où on déduit que cos(β) = R(x s , y l ) = R(X, Y ) (on illustre ce cas en R 2 

dans la Figure 3.5). Tous les deux x s et y l sont les sommets de X H et Y H 

respectivement, ainsi ils sont des colonnes de N X et N Y respectivement. 

Cas 3: Si X H et Y H ne contiennent pas des vecteurs colinéaires et ni l’origine est à leur 

un point intérieur, alors il y a des sommets x 1 ∈ X H et y 1 ∈ Y H tels que l’angle


✛ 

✻ R(X, Y ) = R(x, y) = 1 

✆ 

y l 

✆ ✆✆✆ 

y 

✡ Y H 

✡ ✡ β 

x 

X H 

✡ 

✭✭✭✭✭✭✭✭✭✭✭✭✭ 

✡✡✡✡ 

✡✆ ✆✆✆✆✆✆✆✆ xs 

✲ 

❄ 

Figure 3.4: Tous les deux X H et Y H sont dans le même m–quadrant. 

β entre x 1 et y 1 est maximum et 0 ≤ β ≤ π, alors cos(β) est minimum, et donc 

cos(β) = R(x 1 , y 1 ) = R(X, Y ). Également il y a sommets x 2 ∈ X H et y 2 ∈ Y H 

tels que l’angle φ entre x 2 et y 2 est minimum et 0 ≤ φ ≤ π, alors cos(φ) est 

maximum, et donc cos(φ) = R(x 2 , y 2 ) = R(X, Y ) (on illustre ce cas en R 2 dans 

la Figure 3.6). Tous x 1 , y 1 , x 2 et y 2 sont des sommets de X H ou Y H alors ils sont 

colonnes de N X ou N Y . 

 

ALGORITHME 2.1: CALCUL DE LA CORRÉLATION SYMBOLIQUE. 

Entrée : 

• m =nombre d’objets symboliques. 

⎛ [ ] ⎞ 

x1 , x 1 [ ] 

x2 , x 

• variable symbolique X = 

2 . 

⎜ . ⎟ 

⎝ 

[ ] 

⎠ 

xm , x m


✻ 

✛ 

y l 

y 

Y H 

β 

✟ 

☞ 

✲ 

✟ 

✟ 

✟ 

✟ 

x ✟ 

✟ 

✟ ✑ ✑✑✑✑✑✑✑✑✑ 

s 

✟ x 

X H 

☞ ☞☞☞☞ ☞ ☞☞ 

R(X, Y ) = R(x, y) = −1 

❄ 

Figure 3.5: X H et Y H sont dans des m–quadrants opposés. 

⎛ 

• La variable symbolique Y = 

⎜ 

⎝ 

[ 

y1 , y 1 

] 

[ 

y2 , y 2 

] 

. 

[ 

ym , y m 

] 

⎞ 

. 

⎟ 

⎠ 

Sortie : La corrélation symbolique entre les variables X et Y : 

Notation : 

R(X, Y ) = [ R(X, Y ), R(X, Y ) ] . 

• Pr X ks =La projection de X H au-dessus du plan produit par l’axe k, s avec 

k, s = 1, 2, . . . , m. 

• Pr Y ks =La projection de Y H au-dessus du plan produit par l’axe k, s avec k, s = 

1, 2, . . . , m. 

• θmin X =angle minimum entre Pr X ks et l’axe k. 

• θmax X =angle maximum entre Pr X ks et l’axe k.


✛ 

✔ 

✻ 

❇❇ 

❇ 

x 2 

❇ 

❇y ✔ ✔✔✔✔ 2 

X H 

✦ 

❇ φ 

Y ❇ H 

❇ ✔ ✔✔ 

❛ ❛❛❛❛❛❛❛❛❛ 

x 1 

❇ β 

y 1 

❇ 

❇✔ ✔✔ ✦ ✦✦✦✦✦✦✦✦✦✦✦✦✦✦✦ ✲ 

❄ 

Figure 3.6: X H et Y H ne contiennent pas des vecteurs colinéaires et ni l’un ni l’autre X H 

ou Y H contient l’origine. 

• θ Y min =angle minimum entre Pr Y ks et l’axe k. 

• θ Y max =angle maximum entre Pr Y ks et l’axe k. 

Etape 1: total= m · 2 m . 

Etape 2.1: Si → 0∈ ◦ X 

iH ou → 0∈Y 

◦ j 

H alors 2 

Etape 2.1.1: R(X, Y ) = −1 

Etape 2.1.2: R(X, Y ) = 1. 

Etape 2.3: k = 1 

Etape 2.4: intersection=true 

Etape 2.5: Pendant que (k ≤ m) et (intersection=true) et (R(X, Y ) > −1 ou 

R(X, Y ) < 1) 

Etape 2.5.1 s = k + 1 

Etape 2.5.2 Pendant que (s ≤ m) et (intersection=true) 

⋄ Calcul de Pr X ks et Pr Y ks 

2 Où → 0 note le vecteur zéro dans R m et ◦ A note l’ensemble de points intérieurs de A.


⋄ Calcul de θmin, X θmax, X θmin, Y θmax 

Y 

⋄ Si ((θmin Y ≤ θmax) X et (θmin X ≤ θmin)) Y ou ((θmin X ≤ θmax) Y et (θmin Y ≤ θmin)) 

X 

◦ intersection=true 

◦ sign= 1 

⋄ Sinon 

◦ α = θmin Y mod 2π 

◦ β = θmin X mod 2π 

◦ Si ((α ≤ θmax) X et (θmin X ≤ α)) ou ((β ≤ θmax) Y et (θmin Y ≤ β)) 

· intersection=true 

· sign= −1 

◦ Sinon 

· intersection=false 

Etape 2.6: Si intersection=true 

Etape 2.6.1: R(X, Y ) = 1∗sign 

Etape 2.7: s = 1 

Etape 2.8: Pendant que s ≤ total et (R(X, Y ) > −1 ou R(X, Y ) < 1) 

Etape 2.8.1: x = s−ième sommet de XH 

i 

Etape 2.8.2: k = 1 

Etape 2.8.3: Pendant que k ≤ total et (R(X, Y ) > −1 ou 

R(X, Y ) < 1) 

⋄ y = k−ième sommet de Y j H 

⋄ r = R(x, y) 

⋄ Si r > R(X, Y ) alors R(X, Y ) = r 

⋄ Si r < R(X, Y ) alors R(X, Y ) = r 

Sortie: La corrélation symbolique: R = [R(X, Y ), R(X, Y )].


Example 26 En utilisant les données du Tableau 3.1, la corrélation symbolique entre les 

variables Y =Pulse–Rate et Y 1 =Systolic–Pressure est R(Y, Y 1 ) = [−0.59, 0.97]. La 

corrélation donnée par l’indice proposé par [5, Billard and Diday (2000)] est R(Y, Y 1 ) = 

0.68, cependant, il est possible de trouver des valeurs prises par Y et Y 1 pour lesquelles la 

corrélation est négative, comme on peut le voir dans la Figure 3.8. 

3.3 La régression linéaire symbolique simple 

3.3.1 Modèle de régression simple avec la corrélation empirique 

L’objectif principal du modèle de la régression linéaire classique simple est de mesurer 

l’intensité de la relation linéaire entre deux variables. Soient Y = (y 1 , y 2 , . . . , y m ) et 

X = (x 1 , x 2 , . . . , x m ) deux variables numériques appliquées à m individus, où x i et 

y i sont les valeurs prises par les variables X et Y pour l’individu i, respectivement, alors 

l’idée est de determiner s’il existe une relation linéaire vérifiée, même approximativement, 

par les deux variables. C’est–à–dire, s’il existe deux réels a et b tel que: y i = ax i + b + e i 

pour i = 1, 2, . . . , m où e i est un terme résiduel. La relation entre x et y sera d’autant plus 

proche d’une relation linéaire exacte que les valeurs de la série e, c’est–à–dire les valeurs 

des e i , seront petites. Algébriquement, on détermine les valeurs a et b selon le critère des 

m∑ 

moindres carrés, c’est–à–dire de telle manière que e 2 i ait une valeur minimale. Il est 

bien connu que ce minimum est atteint pour: 

i=1 

a = 

m∑ 

(x i − X)(y i − Y ) 

i=1 

mVar(X) 

et b = Y − aX. (3.18) 

Il est clair que:


a = R(X, Y ) · σ Y 

σ X 

. (3.19) 

Pour le cas symbolique, [5, Billard and Diday (2000)] ont proposé de généraliser le 

modèle classique de la régression simple (3.18), (3.19) en utilisant les définitions de la 

moyenne, l’écart type et la corrélation présentés dans (3.2), (3.8) et (3.10), au lieu des 

définitions classiques. 

Example 27 En utilisant les données du Tableau 3.1, avec Y =Pulse–Rate comme la 

variable a expliquer et Y 1 =Systolic–Pressure comme la variable explicative on obtient 

l’équation de régression symbolique simple (3.20) ([5, Billard and Diday (2000)]): 

Pulse–Rate = 0.392 · Systolic–Pressure + 27.639. (3.20) 

D’aprés ces calculs, on veut prévoir le “Pulse–Rate” quand la “Systolic–Pressure” est 

[108, 110] on a que le “Pulse–Rate” devrait être [69.97, 70.76]. Ceci est illustré dans la 

Figure 3.7. 

Afin d’être cohérents avec les définitions que nous avons proposées dans ce chapitre, 

dans ce qui suit on présente trois modèles de régression linéaire simple qui pourraient 

être envisagés. 

3.3.2 Modèle de régression simple avec la corrélation symbolique maximum 

et minimum 

Dans cette section nous proposons une méthode de régression simple qui emploie la 

définition (3.11) de la corrélation symbolique. L’idée est de produire deux relations 

linéaires, au lieu d’une. On calcule la première droite de regression en employant les


Figure 3.7: Graphique de régression des variables Systolic–Pressure×Pulse–Rate avec le 

modèle de la corrélation empirique. 

valeurs prises par les variables dans lesquelles la corrélation est minimum, et la seconde 

en employant les valeurs prises par les variables dans lesquelles la corrélation est maximum. 

Si X = ([x 1 , x 1 ], [x 2 , x 2 ], . . . , [x m , x m ]) et Y = ([y 1 

, y 1 ], [y 2 

, y 2 ], . . . , [y m 

, y m ]) sont deux 

variables de type intervalle, alors on emploie l’algorithme 2.1 pour calculer la corrélation 

symbolique R(X, Y ) = [ R(X, Y ), R(X, Y ) ] parmi les variables X et Y , mais nous 

stockons les points α = (α 1 , α 2 , . . . , α m ), β = (β 1 , β 2 , . . . , β m ), γ = (γ 1 , γ 2 , . . . , γ m ) 

et ζ = (ζ 1 , ζ 2 , . . . , ζ m ) tels que R(X, Y ) = R(α, β) et R(X, Y ) = R(γ, ζ) avec α i ∈ 

[x i , x i ], γ i ∈ [x i , x i ], β i ∈ [y i 

, y i ] et ζ i ∈ [y i 

, y i ] pour i = 1, 2, . . . , m. Alors on emploie 

α = (α 1 , α 2 , . . . , α m ) et β = (β 1 , β 2 , . . . , β m ) et l’équation (3.18) pour calculer a 1 et b 1 

de la première droite de la régression y = a 1 x + b 1 et on emploie γ = (γ 1 , γ 2 , . . . , γ m ) 

et ζ = (ζ 1 , ζ 2 , . . . , ζ m ) et l’équation (3.18) encore pour calculer a 2 et b 2 de la deuxième 

droite de régression y = a 2 x + b 2 . 

Si on veut prévoir les valeurs de la variable Y dans un intervalle [ξ 1 , ξ 2 ] à partir de la 

variable X on calcule y 11 = a 1 ξ 1 + b 1 , y 12 = a 1 ξ 2 + b 1 , y 21 = a 2 ξ 1 + b 2 et y 22 = a 2 ξ 2 + b 2


alors l’intervalle prévu sera [min{y 11 , y 12 , y 21 , y 22 }, max{y 11 , y 12 , y 21 , y 22 }]. 


variable a expliquer et Y 1 =Systolic–Pressure comme la variable explicative on obtient 

les équations de régression symbolique simple (3.21) et (3.22): 

Pulse–Rate = −0.484 · Systolic–Pressure + 142.987. (3.21) 

Pulse–Rate = 0.707 · Systolic–Pressure − 25.631. (3.22) 

Si on veut prévoir le “Pulse–Rate” quand la “Systolic–Pressure” est [108, 100] on a que 

le “Pulse–Rate” est [50.735, 90.756]. Ceci est illustré dans la Figure 3.8. Quand elle est 

comparée aux valeurs prévues par le modèle de régression simple avec la corrélation symbolique 

empirique , c’est–à–dire, avec l’intervalle symbolique de prévision [69.97, 70.76], 

il est clair en voyant le graphique de la Figure 3.8, que l’intervalle obtenu avec le modèle 

de régression simple avec la corrélation symbolique maximum et minimum est beaucoup 

plus proche de la réalité, c’est–à–dire, il prévoit avec plus d’exactitude la gamme de 

valeurs possibles de la variable “Pulse–Rate”. 

3.3.3 Modèle de régression symbolique simple avec les points Inférieur– 

Supérieur 

Dans cette section on propose une méthode de régression qui emploie le sommet supérieur 

gauche et le sommet inférieur droit des rectangles qui sont produits quand on croise les 

deux variables. L’idée est encore de produire deux droites de régression au lieu d’une.



modèle de la corrélation symbolique maximum et minimum. 

On calcule la première en utilisant les valeurs des sommets supérieurs gauches des rectangles, 

et on calcule la seconde en utilisant les valeurs des sommets inférieurs droites des 

rectangles. 

Si X = ([x 1 , x 1 ], [x 2 , x 2 ], . . . , [x m , x m ]) et Y = ([y 1 

, y 1 ], [y 2 

, y 2 ], . . . , [y m 

, y m ]) sont 

deux variables de type intervalle alors nous employons α = (x 1 , x 2 , . . . , x m ), β = 

(y 1 

, y 2 

, . . . , y m 

) et l’équation (3.18) pour calculer a 1 et b 1 de la première droite de régression 

y = a 1 x + b 1 et nous employons γ = (x 1 , x 2 , . . . , x m ), ζ = (y 1 , y 2 , . . . , y m ) et l’équation 

(3.18) pour calculer a 2 et b 2 de la deuxième droite de régression y = a 2 x + b 2 . 

Si on veut prévoir les valeurs de la variable Y dans un intervalle [ξ 1 , ξ 2 ] à partir de la variable 

X, on procéde de façon analogue au modèle de régression simple avec la corrélation 

symbolique maximum et minimum, en calculant y 11 = a 1 ξ 1 + b 1 , y 12 = a 1 ξ 2 + b 1 , y 21 = 

a 2 ξ 1 +b 2 et y 22 = a 2 ξ 2 +b 2 , et alors l’intervalle prévu sera [min{y 11 , y 12 }, max{y 21 , y 22 }]. 


variable a expliquer et Y 1 =Systolic–Pressure comme la variable explicative, on obtient 

les équations de régression (3.23) et (3.24), on l’illustre dans la Figure 3.9:




Si on veut prévoir “Pulse–Rate” quand “Systolic–Pressure” est [108, 100] on a que “Pulse– 

Rate” est [50.350, 88.499]. Quand ceci est comparé aux valeurs prévues par le modèle de 

régression simple avec la corrélation symbolique maximum et minimum, c’est–à–dire, 

avec l’intervalle symbolique de prévision [50.735, 90.756], il est clair que les résultats 

sont très semblables. 


modèle de Inférieur–Supérieur points. 

3.3.4 Modèle des sommets pour la régression symbolique simple 

Dans cette section nous proposons une méthode de régression qui emploie tous les sommets 

des rectangles pour produire la relation linéaire de la régression. Si X = ([x 1 , x 1 ], [x 2 , x 2 ],


. . . , [x m , x m ]) et Y = ([y 1 

, y 1 ], [y 2 

, y 2 ], . . . , [y m 

, y m ]) sont deux variables de type intervalle 

alors on emploie α = (x 1 , . . . , x m , x 1 , . . . , x m , x 1 , . . . , x m , x 1 , . . . , x m ), β = 

(y 1 

, . . . , y m 

, y 1 , . . . , y m , y 1 

, . . . , y m 

, y 1 , . . . , y m ) et l’équation (3.25) pour calculer a et b 

de la droite de régression y = ax + b. 

a = 

4m∑ 

i=1 

(α i − α)(β i − β) 

4mVar(α) 

et b = β − a · α. (3.25) 

Si on veut prévoir les valeurs de la variable Y dans un intervalle [ξ 1 , ξ 2 ] à partir de la variable 

X, on procéde d’une manière semblable au modèle classique de régression simple 

en substituant les limites de l’intervalle dans l’équation de régression. 


variable a expliquer et Y 1 =Systolic–Pressure comme une variable explicative on obtient 

l’équation de régression (3.26), Ceci est illustré dans la Figure 3.10: 

Pulse-Rate = 0.283 · Systolic-Pressure + 41.933. (3.26) 

Si on veut prévoir “Pulse-Rate” quand “Systolic-Pressure” est [108, 100] on a que “Pulse- 

Rate” est [72.505, 73.071]. Ce résultat est semblable à celui obtenu par la méthode de 

régression simple avec la corrélation symbolique empirique, qui a donné comme l’intervalle 

de prévision [69.97, 70.76].


Figure 3.10: Graphique de régression des variables Systolic–Pressure×Pulse–Rate avec 

le modèle des sommets.

Chapter 4 

Le Cercle des Corrélations Symboliques 

et l’Analyse en Composantes 

Principales pour des Données de Type 

Histogramme 

Dans ce chapitre nous généralisons la méthode de l’Analyse en Composantes Principales 

pour des données de type intervalle proposée par [16, Cazes, Chouakria, Diday et Schektman 

(1997)] dans deux sens: d’abord, nous proposons trois manières de projeter les 

variables de type intervalle dans le cercle des corrélations. En second lieu, nous proposons 

un algorithme pour faire l’analyse en composantes principales pour des données 

de type histogramme. De plus, nous proposons des généralisations pour quelques indices 

d’interprétation utilisés dans l’analyse en composantes principales classique. 

88

Le Cercle des Corrélations Symbolique 89 

4.1 Cercle des corrélations symboliques dans l’analyse 

en composantes principales 

4.1.1 Le cercle des corrélations en utilisant le coefficient de la corrélation 

symbolique 

Dans le chapitre trois nous avons proposé une nouvelle définition du coefficient de la 

corrélation symbolique entre deux variables de type intervalle, qui donne comme résultat 

un intervalle (3.11). Dans ce chapitre nous emploierons cette définition pour étendre le 

cercle des corrélations classique au cas des variables symboliques de type intervalle. 

Dans l’analyse en composantes principales avec des données de type intervalle l’entrée est 

m objets symboliques S 1 , S 2 , . . . , S m décris par n variables de type intervalle X 1 , X 2 , . . . , 

X n comme on le montre dans (4.1). 

⎛ 

⎜ 

⎝ 

⎞ ⎛ 

S 1 

. ⎟ 

⎠ = ⎜ 

⎝ 

S m 

X S1 1 · · · X S1 n 

. 

.. . . 

X Sm1 · · · X Smn 

⎞ ⎛ 

⎟ 

⎠ = ⎜ 

⎝ 

[ ] 

x11 , x 11 · · · 

[ ] 

x1n , x 1n 

. 

.. . . 

[ ] 

xm1 , x m1 · · · 

[ ] 

xmn , x mn 

⎞ 

⎟ 

⎠ . (4.1) 

Dans l’analyse classique en composantes principales la projection des variables X j sur 

l’axe produit par le r−ième composante principale normalisé Y r est donné par la corrélation 

entre la variable et le composante principale R(X j , Y r ). Les coordonnées des variables 

X j sur la base des composantes principales normalisées sont 

(R(X j , Y 1 ), R(X j , Y 2 ), . . . , R(X j , Y n )). Si X j est une variable normalisée, il est facile 

de prouver que: 

n∑ 

R 2 (X j , Y k ) = 1. (4.2) 

k=1


✻ 

Axis r 

R(Y r , X j ) 

• 

X 

j 

✛ 

R(Y s , X j ) 

✲ 

Axis s 

❄ 

Figure 4.1: Cercle classique des corrélations. 

Si on considère seulement deux composantes Y r et Y s , alors: 

R 2 (X j , Y r ) + R 2 (X j , Y s ) ≤ 1. (4.3) 

Ainsi la représentation graphique de la variable pourrait être faite dans le cercle de rayon 

1, comme on le montre dans la Figure 4.1. 

L’idée pour projeter les variables de type intervalle dans le cercle des corrélations est la 

même, on calcule la corrélation entre la variable X j et le r−ième composante principale 

Y r , mais dans le cas symbolique tous les deux X j et Y r sont les vecteurs colonne des intervalles 

comme on le montre dans les équations (4.4) et (4.5), également ils peuvent être 

représentés dans R m par des hypercubes. Alors il est possible d’employer la définition


(3.11) et les équations (3.14), (3.15), (3.16), et (3.17) présentées dans le théorème 1 du 

chapitre trois pour produire le cercle des corrélations symbolique, comme nous le proposons 

dans l’algorithme 4.1. 

⎛ 

X j = 

⎜ 

⎝ 

[x 1j , x 1j 

] 

[x 2j , x 2j 

] 

. 

[x mj , x mj 

] 

⎞ 

⎟ 

⎠ 

(4.4) 

⎛ 

Y r = 

⎜ 

⎝ 

[ 

y1r , y 1r 

] 

[ 

y2r , y 2r 

] 

. 

[ 

ymr , y mr 

] 

⎞ 

. (4.5) 

⎟ 

⎠ 

L’autre différence avec le cas classique est que la sortie devrait être symbolique, dans ce 

cas–ci la sortie (la corrélation entre X j et Y r ) devrait être un intervalle avec la corrélation 

minimum et maximum entre les deux hypercubes. Cette sortie est représentée dans le 

cercle des corrélations par un rectangle, on l’illustre dans la Figure 4.2. 

Il est également important que cette sortie soit décrite en termes d’objets symboliques, par 

exemple: s = (a, R, d) où a(w) = [R(X j , Y r ) ⊆ 

[R(X j , Y r ), R(X j , Y r )]] ∧ [ R(X j , Y s ) ⊆ [R(X j , Y s ), R(X j , Y s )] ] , R = “ ⊆ ” et d = 

[−1, 1].


✻ 

Axis r 

R(Y r , X j ) 

X j 

R(Y r , X j ) 

✛ 

R(Y s , X j ) 

R(Y s , X j ) 

✲ 

Axis s 

❄ 

Figure 4.2: Cercle des corrélations symbolique. 

ALGORITHME 4.1: CERCLE DES CORRÉLATIONS SYMBOLIQUE 

Entrée : 


• n =nombre de variables symboliques. 

• Le tableau des données symboliques 

⎛ [ ] [ ] [ ] 

x11 , x 11 x12 , x 12 · · · x1n , x 1n [ ] [ ] [ ] 

x21 , x 

X = 

21 x22 , x 22 · · · x2n , x 2n ⎜ . 

. 

.. . . 

⎝ 

[ ] [ ] [ ] 

xm1 , x m1 xm2 , x m2 · · · xmn , x mn 

⎞ 

. 

⎟ 

⎠


• La matrice des composantes principales symboliques: 

⎛ [ ] [ ] [ ] 

y11 , y 11 y12 , y 12 · · · y1n , y 1n [ ] [ ] [ ] 

y21 , y 

Y = 

21 y22 , y 22 · · · y2n , y 2n ⎜ . . 

.. . . 

⎝ 

[ ] [ ] [ ] 

ym1 , y m1 ym2 , y m2 · · · ymn , y mn 

⎞ 

. 

⎟ 

⎠ 

Sortie : La corrélation symbolique entre les variables et les composantes principales dans 

la matrice suivante: 

⎛ 

[ 

R(X 1 , Y 1 ), R(X 1 , Y 1 ) ] [ 

· · · R(X 1 , Y n ), R(X 1 , Y n ) ] ⎞ 

R = ⎜ 

. 

.. . . 

⎟ 

⎝ 

[ 

R(X n , Y 1 ), R(X n , Y 1 ) ] [ 

· · · R(X n , Y n ), R(X n , Y n ) ] ⎠ . 

Notation : 

• Pr X ks =La projection de XH i 

1, 2, . . . , m. 

• Pr Y ks =La projection de YH i 

1, 2, . . . , m. 

au-dessus du plan produit l’axe k, s avec k, s = 

au-dessus du plan produit l’axe k, s avec k, s = 

• θmin X =angle minimum entre Pr X ks et l’axe k. 

• θmax X =angle maximum entre Pr X ks et l’axe k. 

• θmin Y =angle minimum entre Pr Y ks et l’axe k. 

• θmax Y =angle maximum entre Pr Y ks et l’axe k. 

Etape 1: total= m · 2 m , i = 1, j = 1. 

Etape 2: Pendant que i ≤ n 

Etape 2.1: Pendant que j ≤ n


Etape 2.1.1: Si → 0∈ ◦ X 

iH ou → 0∈Y 

◦ j 

H alors 1 

Etape 2.1.1.1: R(X i , Y j ) = −1 

Etape 2.1.1.2: R(X i , Y j ) = 1. 

Etape 2.1.2: k = 1 

Etape 2.1.3: intersection=true 

Etape 2.1.4: Pendant que (k ≤ m) et (intersection=true) et 

(R(X i , Y j ) > −1 ou R(X i , Y j ) < 1) 

Etape 2.1.4.1 s = k + 1 

Etape 2.1.4.2 Pendant que (s ≤ m) et (intersection=true) 

⋄ Calculer Pr X ks et Pr Y ks 

⋄ Calculer θ X min, θ X max, θ Y min, θ Y max 

⋄ Si ((θ Y min ≤ θ X max) et (θ X min ≤ θ Y min)) ou ((θ X min ≤ θ Y max) et (θ Y min ≤ 

θ X min)) 

◦ intersection=true 

◦ sign= 1 

⋄ Sinon 

◦ α = θ Y min mod 2π 

◦ β = θ X min mod 2π 

◦ Si ((α ≤ θ X max) et (θ X min ≤ α)) ou ((β ≤ θ Y max) et (θ Y min ≤ β)) 

· intersection=true 

· sign= −1 

◦ Sinon 

· intersection=false 

Etape 2.1.5: Si intersection=true 

Etape 2.1.5.1: R(X j , Y j ) = 1∗sign 

1 Où → 0 dénote le vecteur zéro dans R m et ◦ A dénote l’ensemble des points intérieurs de A.


Etape 2.1.5.2: R(X i , Y j ) = 1∗sign 

Etape 2.1.6: s = 1 

Etape 2.1.7: Pendant que s ≤ total et (R(X i , Y j ) > −1 ou 

R(X i , Y j ) < 1) 

Etape 2.1.7.1: x = s−ième sommet de XH 

i 

Etape 2.1.7.2: k = 1 

Etape 2.1.7.3: Pendant que k ≤ total et (R(X i , Y j ) > −1 ou 

R(X i , Y j ) < 1) 

⋄ y = k−ième sommet de Y j H 

⋄ r = R(x, y) 

⋄ Si r > R(X i , Y j ) alors R(X i , Y j ) = r 

⋄ Si r < R(X i , Y j ) alors R(X i , Y j ) = r 

Sortie: La matrice R = ([R(X i , Y j ), R(X i , Y j )]) pour i, j = 1, 2, . . . , n. 

Example 31 Pour illustrer le cercle des corrélations symbolique nous employons les 

données d’Ichino (oils and fats data) qu’on présente dans le Tableau 4.1. Chaque ligne du 

tableau de données représente une classe d’huile décrite par 4 variables quantitatives de 

type intervalle, “Specific gravity”, “Freezing point”, “Iodine value” et “Saponification”. 

Les corrélations classiques entre le centre de gravité des variables et le centre de gravité 

des composantes principales (pour la méthode de centres, voir section 4.1.2) sont présentés 

dans le Tableau 4.2, et les corrélations symboliques sont présentées dans le Tableau 4.3. 

On peut noter que la corrélation classique est toujours contenue dans l’intervalle qui 

représente la corrélation symbolique respective. 

Le cercle des corrélations symbolique pour les données d’Ichino (oils and fats data) est 

montré dans la Figure 4.3. Pour expliquer comment ce cercle peut être interprété, on


GRA FRE IOD SAP 

Linsed (L) [0.93, 0.935] [−27, −18] [170, 204] [118, 196] 

Perilla (P) [0.93, 0.937] [−5, −4] [192, 208] [188, 197] 

Cotton (Co) [0.916, 0.918] [−6, −1] [99, 113] [189, 198] 

Sesame (S) [0.92, 0.926] [−6, −4] [104, 116] [187, 193] 

Camellia (Ca) [0.916, 0.917] [−25, −15] [80, 82] [189, 193] 

Olive (O) [0.914, 0.919] [0, 6] [79, 90] [187, 196] 

Beef (B) [0.86, 0.87] [30, 38] [40, 48] [190, 199] 

Hog (H) [0.858, 0.864] [22, 32] [53, 77] [190, 202] 

Table 4.1: Tableau des données “Oils and Fats”. 

prend comme exemple la variable GRA. La corrélation symbolique entre la variable 

GRA et la première composante principale est l’intervalle [−0.999, −0.702]. Cela signifie 

que la corrélation entre GRA et la première composante principale (PC1) varie entre 

−0.999 et −0.702 (corrélation négative forte). La corrélation entre la variable GRA et 

la deuxième composante principale (PC2) est l’intervalle [−0.995, 0.315], cela veut dire 

que la corrélation entre GRA et PC2 varie entre −0.995 et 0.315 (corrélation négative 

ou corrélation positive faible). Pour cette variable l’information qui fait référence à la 

PC1 PC2 PC3 PC4 

GRA −0.9210665 −0.3537703 0.0246894 −0.1608524 

FRE 0.9130654 0.2080771 −0.3238118 −0.1347643 

IOD −0.8724116 0.0337627 −0.4827661 0.0685206 

SAP 0.7354523 −0.6613331 −0.1397354 0.0471425 

Table 4.2: Les corrélations classiques entre le centre de gravité des variables et le centre 

de gravité des composants principales pour la méthode des centres.



GRA [−0.999, −0.702] [−0.995, 0.315] [−0.558, 0.530] [−0.832, 0.772] 

FRE [0.698, 0.978] [−0.507, 0.996] [−0.767, 0.383] [−0.943, 0.826] 

IOD [−0.951, −0.654] [−0.965, 0.626] [−0.916, 0.262] [−0.816, 0.906] 

SAP [−1.000, 0.939] [−1.000, 0.978] [−1.000, 0.895] [−1.000, 0.978] 

Table 4.3: Les corrélations symboliques entre les variables et les composants principales 

pour la méthode de centres. 

première composante principale est meilleur que l’information qui fait référence à la 

deuxième composante principale, parce qu’elle a la plus petite variation. 

Cette corrélation peut être écrite comme l’objet symbolique s = (a, R, d) où a(w) = 

[[R(GRA,PC1) ⊆ [−0.999, −0.702]] ∧ [R(GRA,PC2) ⊆ [−0.995, 0.315]]], R = “ ⊆ ” et 

d = [−1, 1]. 

Il y a des points hors du cercle de rayon 1, parce que, par exemple quoique −1 ≤ 

R (X s , Y r ) ≤ 1 et −1 ≤ R ( X l , Y r) √ 

≤ 1 il est possible que R 2 (X s , Y r ) + R 2 (X l , Y r ) > 

1. Le point ( R (X s , Y r ) , R ( X l , Y r)) est alors hors du cercle de rayon 1. On a éliminé 

ces points du graphique, alors le cercle des corrélations symbolique pour les données 

d’Ichino (oils and fats data) est montré dans la Figure 4.4. 

Si on utilise la Méthode des Sommets (voir section 4.1.3) pour calculer les composantes 

principales on obtient les corrélations classiques entre le centre de gravité des variables et 

le centre de gravité des composantes principales qui sont présentés dans le Tableau 4.4, 

tandis que les corrélations symboliques sont présentées dans le Tableau 4.5. 

Le cercle des corrélations symbolique obtenu avec la Méthode des Sommets est montré 

dans la Figure 4.5. On obtient des résultats très semblables à ceux obtenus en employant 

la Méthode des Centres, mais pas exactement les mêmes, parce que les composantes

La dualité dans la Méthode des Centres 98 

Figure 4.3: Cercle des corrélations symbolique de “Oils and Fats data” avec la méthode 

des centres. 

principales ne sont pas identiques. 

4.1.2 La dualité dans la Méthode des Centres 

[16, Cazes, Chouakria, Diday et Schektman (1997)] ont proposé la méthode des centres 

pour étendre la méthode bien connue de l’analyse en composantes principales à un genre 

particulier d’objets symboliques caractérisée par des variables multi–valuées de type intervalle. 

L’idée de la méthode des centres est de transformer la matrice présentée à (4.1) en la 

matrice suivante (4.6):



des centres. 

⎛ 

X c = 

⎜ 

⎝ 

x c 11 x c 12 · · · x c 1n 

x c 21 x c 22 · · · x c 2n 

. 

. . .. . 

x c m1 x c m2 · · · x c mn 

⎞ ⎛ 

= 

⎟ ⎜ 

⎠ ⎝ 

x 11 +x 11 

2 

x 21 +x 21 

2 

. 

x m1 +x m1 

2 

x 12 +x 12 

2 

· · · 

x 22 +x 22 

x 1n +x 1n 

2 

x 2n +x 2n 

2 

2 

· · · 

. 

. .. . 

x m2 +x m2 

2 

· · · 

x mn+x mn 

2 

⎞ 

. (4.6) 

⎟ 

⎠ 

Dans la méthode des centres on applique alors l’analyse en composantes principales standard 

à la matrice (4.6). Pour appliquer cette ACP [17, Chouakria (1998)] utilise la matrice 

de variance–covariance V c = (X c ) t X c et pour calculer les composantes principales de 

type intervalle [y ik , y ik ] [16, Cazes, Chouakria, Diday et Schektman (1997)] proposent les 

équations (4.7) et (4.8).



GRA −0.9332322 −0.2648751 −0.0893481 0.2256897 

FRE 0.9045301 0.1666284 0.3507403 0.1761861 

IOD −0.8571848 −0.0616307 0.5052051 −0.0787637 

SAP 0.5353956 −0.8418808 0.0605469 −0.0303697 

Table 4.4: Les corrélations classiques entre le centre de gravité des variables et le centre 

de gravité des composantes principales pour la méthode des sommets. 


GRA [−0.999, −0.802] [−0.996, 0.284] [−0.516, 0.390] [−0.620, 0.916] 

FRE [0.766, 0.973] [−0.489, 0.992] [−0.202, 0.743] [−0.789, 0.879] 

IOD [−0.955, −0.694] [−0.979, 1.000] [−0.043, 0.843] [−0.822, 0.852] 

SAP [−0.858, 0.871] [−0.994, 0.977] [−0.820, 0.927] [−0.970, 0.986] 

Table 4.5: Les corrélations symbolique entre le centre de gravité des variables et le centre 

de gravité des composantes principales pour la méthode des sommets. 

y ik = ∑ 

j,u jk0 

y ik = ∑ ( ) 

x ij − Xj 

c u jk + ∑ ( ) 

xij − Xj 

c ujk . (4.8) 

j,u jk0 

où X c j est la moyenne de la colonne j–ième de la matrice Xc , et u = (u 1k , u 2k , . . . , u nk ) 

est le k−ième vecteur propre de V c . 

Néanmoins dans [16, Cazes, Chouakria, Diday et Schektman (1997)], on utilise le cercle 

des corrélations classique pour représenter les variables. La corrélation entre les vari-



des sommets. 

ables et les composantes principales ne sont pas symboliques, parce qu’ils calculent les 

corrélations standard entre les centres de gravité des variables et les centres de gravité des 

composantes principales. 

Il est bien connu que dans la méthode standard d’analyse en composantes principales on 

peut calculer la corrélation entre les variables et les composantes principales en utilisant 

les relations de dualité à partir des coordonnées des individus dans le plan principal. On 

peut également calculer les coordonnées des individus dans le plan principal en utilisant 

des relations de dualité à partir de la corrélation entre les variables et les composantes 

principales. 

Dans cette section on propose une méthode pour calculer le cercle des corrélations symbolique 

en utilisant des relations de dualité.


On va centrer et réduire la matrice X c afin de travailler avec des corrélations comme on 

montre dans (4.9) où X c j et σc j sont la moyenne et l’écart–type de la colonne j–ième de la 

matrice X c respectivement: 

z ij = √ 1 x c ij − Xj 

c . (4.9) 

m σj 

c 

Alors on travaillera avec la matrice Z = (z ij ) i=1,2,...,m . Si on désigne par z j la colonne 

j=1,2,...,n 

j–ième de la matrice Z, on a que (z j ) t · z i = R(z j , z i ) ≤ 1, alors le centre de la variable 

hypercube est toujours à l’intérieur du cercle de rayon 1. On illustre cela dans la Figure 

4.6. On désigne par z c ij = 1 √ m 

x ij −X c j 

σ c j 

et z c ij = √ 1 x ij −Xj 

c 

m 

. 

σj 

c 

Figure 4.6: Projection des variables hypercubes. 

La matrice d’inertie ZZ t étant symétrique, ses vecteurs propres sont orthonormaux et ses 

valeurs propres sont toutes positives. On désigne par v 1 , v 2 , . . . , v q les q vecteurs propres 

de ZZ t associés aux valeurs propres λ 1 ≥ λ 2 ≥ · · · ≥ λ q > 0. On désigne aussi par 

V = [v 1 |v 2 | · · · |v q ] la matrice de la taille m × q qui a comme colonne les vecteurs propres


de ZZ t . Il est bien connu qu’on peut calculer les coordonnées des variables en cercle 

des corrélations par Z t V , alors on peut calculer la coordonnée de l’i–ième colonne de X c 

(center point–variable) sur la j–ième composante principale (dans la direction de v j ) par 

l’équation (4.10): 

r ij = 

m∑ 

z ki v kj . (4.10) 

k=1 

Comme Z est la matrice X centrée et réduite le núméro r ij représente aussi la corrélation 

entre le centre de gravité de la variable de type intervalle X i et la j–ième composante 

principal. 

Theorem 5 Si on projette la variable hypercube définie par le i–ième colonne de Z sur 

la j–ième composante principale (dans la direction de v i ), alors on a que les valeurs 

maximum et minimum sont données respectivement par les équations (4.11) et (4.12): 

m∑ 

m∑ 

r ij = z c kiv kj + z c kiv kj , (4.11) 

k=1,v kj 0 

m∑ 

m∑ 

r ij = z c kiv kj + z c kiv kj . (4.12) 

k=1,v kj 0 

Démonstration: Pour prouver cela, soit ẑ j = (ẑ 1j , ẑ 2j , . . . , ẑ mj ) ∈ Z j H 

(le hyper–rectangle 

défini par j-ième colonne de Z) alors ẑ ij ∈ [z c ij, z c ij] pour tout i = 1, 2, . . . , m et j = 

1, 2, . . . , q. On désigne par pẑ ij la projection de ẑ j sur l’axe factoriel avec la direction v i , 

puisque ẑ ij ∈ [z c ij, z c ij] on a (4.13) et (4.14): 

z c kiv kj ≤ ẑ ki v kj ≤ z c kiv kj si v kj ≥ 0, (4.13)


z c kiv kj ≥ ẑ ki v kj ≥ z c kiv kj si v kj ≤ 0. (4.14) 

m∑ 

Par définition pẑ ij = ẑ ki v kj alors: 

k=1 

m∑ 

pẑ ij = ẑ ki v kj = 

k=1 

m∑ 

m∑ 

ẑ ki v kj + ẑ ki v kj . 

k=1,v kj>0 k=1,v kj


Il y a quelques relations très bien connues de dualité entre les vecteurs propres de ZZ t 

et Z t Z. On sait que les deux matrices ont les mêmes q valeurs propres strictement positifs 

λ 1 , λ 2 , . . . , λ q et si on désigne par u 1 , u 2 , . . . , u q les q premiers vecteurs propres de 

Z t Z, puis les relations entre les vecteurs propres de ZZ t et Z t Z sont montrées dans les 

équations (4.17) et (4.18): 

u l = Zt v 

√ l 

pour l = 1, 2, . . . , q. (4.17) 

λl 

v l = Zu l 

√ pour l = 1, 2, . . . , q. (4.18) 

λl 

Avec ces idées nous proposons deux algorithmes, pour appliquer une analyse en composantes 

principales, lesquels généralisent l’algorithme proposé dans [16, Cazes, Chouakria, 

Diday and Schektman (1997)] afin de produire un cercle de corrélation symbolique. Nous 

proposons également un 3–ième algorithme pour améliorer la période de l’exécution en 

considérant quelle matrice est la plus petite en dimension entre ZZ t et Z t Z. 

ALGORITHME 4.2: ANALYSE EN COMPOSANTES PRINCIPALES AVEC 

ZZ t 

Entrée : 



• Le tableau de données symbolique 

⎛ [ ] [ ] [ ] 

x11 , x 11 x12 , x 12 · · · x1n , x 1n [ ] [ ] [ ] 

x21 , x 

X = 

21 x22 , x 22 · · · x2n , x 2n . 

⎜ . 

. .. . 

⎝ 

[ ] [ ] [ ] 


⎞ 

. 

⎟ 

⎠


Sortie : 

• La corrélation symbolique entre les variables et les composantes principales 

dans la matrice suivante: 

⎛ [ 

R(X 1 , Y 1 ), R(X 1 , Y 1 ) ] [ 

· · · R(X 1 , Y n ), R(X 1 , Y n ) ] ⎞ 

R = 

. 

⎜ 

. 

.. . 

⎟ 

⎝ 

[ 

R(X n , Y 1 ), R(X n , Y 1 ) ] [ 

· · · R(X n , Y n ), R(X n , Y n ) ] ⎠ . 

• La matrice symbolique avec les premières q composantes principales: 

⎛ 

Y = 

⎜ 

⎝ 

[ ] [ ] 

] ⎞ 

y11 , y 11 y12 , y 12 · · · 

[y 1q , y 1q 

[ ] [ ] 

] 

y21 , y 21 y22 , y 22 · · · 

[y 2q , y 2q . 

. . .. . 

. ⎟ 

[ ] [ ] ] ⎠ 

ym1 , y m1 ym2 , y m2 · · · 

[y mq , y mq 

Etape 1: Calculer la matrice X c = (x c ij) i=1,2,...,m 

j=1,2,...,n 

Etape 2: Calculer la matrice Z = (z ij ) i=1,2,...,m 

j=1,2,...,n 


j=1,2,...,n 

Etape 4: Calculer la matrice H = ZZ t . 

par: 

x c ij = x ij + x ij 

. 

2 

par: 

z ij = √ 1 x c ij − Xj 

c . 

m σj 

c 

z ij = √ 1 x ij − Xj 

c , 

m σj 

c 

z ij = √ 1 x ij − Xj 

c . 

m σj 

c 

et Z = (z ij ) i=1,2,...,m 

j=1,2,...,n 

par:


Etape 5: Calculer les q premiers vecteurs propres v 1 , v 2 , . . . , v q de H et les valeurs propres 

associées λ 1 ≥ λ 2 ≥ · · · ≥ λ q > 0. 

Etape 6: Pour i = 1, 2, . . . , n 

Etape 6.1: Pour j = 1, , 2, . . . , q calculer 

⎡ 

R(X i , Y j ) = max ⎣ 

m∑ 

m∑ 

z ki v kj + 

⎤ 

z ki v kj , −1⎦ . 

Etape 7: Pour i = 1, 2, . . . , n 

k=1,v kj 0 

⎡ 

⎤ 

R(X i , Y j ) = min ⎣ 

m∑ 

m∑ 

z ki v kj + z ki v kj , 1⎦ . 

k=1,v kj 0 

Etape 7.1: Pour j = 1, 2, . . . , q calculer 

( 

u ij = √ 1 

m 

) 

∑ 

z ki v kj . 

λj 

Etape 8: Pour i = 1, 2, . . . , m 

k=1 


n∑ 

n∑ 

y ij = z ik u kj + z ik u kj 

k=1,u kj0 

n∑ 

n∑ 

y ij = z ik u kj + z ik u kj 

k=1,u kj0 

Etape 9: FIN de l’algorithme. 

Example 32 Pour illustrer le cercle des corrélations symbolique avec dualité on emploie 

encore les données d’Ichino (“oils and fats”) qu’on a présentées dans le Tableau 5.1. Les 

corrélations symboliques qu’on a obtenues en utilisant l’algorithme 4.2 sont présentées



GRA [0.827, 1.000] [−0.443, −0.265] [−0.038, 0.087] [−0.238, −0.084] 

FRE [−1.000, −0.760] [0.044, 0.372] [−0.428, −0.220] [−0.288, 0.019] 

IOD [0.726, 1.000] [−0.124, 0.191] [−0.565, −0.401] [−0.024, 0.161] 

SAP [−1.000, 0.190] [−1.000, 0.371] [−0.442, 0.163] [−0.231, 0.325] 

Table 4.6: Corrélations symboliques entre les variables et les composants principales avec 

la méthode des centres en employant l’algorithme 4.2. 


GRA 0.9210665 −0.3537703 0.0246894 −0.1608524 

FRE −0.9130654 0.2080771 −0.3238118 −0.1347643 

IOD 0.8724116 0.0337627 −0.4827661 0.0685206 

SAP −0.7354523 −0.6613331 −0.1397354 0.0471425 

Table 4.7: Corrélations classiques entre les variables et les composants principales avec 

la méthode des centres. 

dans le Tableau 4.6 et les corrélations classiques entre le centre de gravité des variables 

et le centre de gravité des composantes principales (pour la méthode de centres) sont 

présentées dans le Tableau 4.7. On peut noter qu’avec cette méthode on a également 

que les corrélations classiques sont toujours contenues dans l’intervalle qui représente la 

corrélation symbolique. 

Le cercle des corrélations symbolique des données “oils and fats” obtenu par dualité avec 

la méthode des centres est montré dans la Figure 4.7. Il est important de noter qu’il y avait 

une rotation par rapport au cercle représenté sur la Figure 4.4. Le plan principal obtenu



L [1.275, 4.733] [−1.353, 4.428] [−1.025, 1.289] [−0.989, 0.989] 

P [1.059, 1.701] [−1.128, −0.343] [−1.508, −1.046] [−0.134, 0.334] 

Co [−0.236, 0.399] [−0.969, −0.213] [−0.170, 0.368] [−0.246, 0.204] 

S [0.154, 0.658] [−0.745, −0.179] [−0.027, 0.342] [−0.369, 0.028] 

Ca [0.151, 0.613] [−0.881, −0.437] [0.807, 1.204] [0.113, 0.538] 

O [−0.594, 0.100] [−0.775, 0.043] [0.019, 0.545] [−0.645, −0.101] 

B [−3.046, −2.226] [0.234, 1.162] [−0.392, 0.152] [−0.530, 0.193] 

H [−2.900, −1.841] [0.020, 1.135] [−0.729, 0.171] [−0.105, 0.720] 

Table 4.8: Composantes principales avec la méthode des centres duale. 

par la méthode duale des centres associée à ce cercle des corrélations est présenté dans la 

Figure 4.8 et les composantes principales sont présentées dans le Tableau 4.8. 

Le prochain algorithme généralise celui proposé dans [16, Cazes, Chouakria, Diday and 

Schektman (1997)]. Il fonctionne avec la même matrice de 

variance–covariance que [17, Chouakria (1998)], mais nous présentons quelques étapes 

pour calculer la corrélation symbolique en utilisant des relations de dualité afin de tracer 

le cercle des corrélations symbolique. 

ALGORITHME 4.3: ANALYSE EN COMPOSANTES PRINCIPALES AVEC 

Z t Z. 

Entrée :


Figure 4.7: Le cercle des corrélations symbolique avec le algorithme 4.2. 

Figure 4.8: Le plan principal symbolique avec la méthode des centres dual.



• n =nombre variables symboliques. 


⎛ [ ] [ ] [ ] 

x11 , x 11 x12 , x 12 · · · x1n , x 1n [ ] [ ] [ ] 

x21 , x 

X = 

21 x22 , x 22 · · · x2n , x 2n ⎜ . 

. 

.. . . 

⎝ 

[ ] [ ] [ ] 


⎞ 

. 

⎟ 

⎠ 

Sortie : 



⎛ [ 

R(X 1 , Y 1 ), R(X 1 , Y 1 ) ] [ 

· · · R(X 1 , Y n ), R(X 1 , Y n ) ] ⎞ 

R = 

. 

⎜ 

. 

.. . 

⎟ 

⎝ 

[ 

R(X n , Y 1 ), R(X n , Y 1 ) ] [ 

· · · R(X n , Y n ), R(X n , Y n ) ] ⎠ . 

• La matrice symbolique avec les q premiers composantes principales: 

⎛ [ ] [ ] 

] ⎞ 

y11 , y 11 y12 , y 12 · · · 

[y 1q , y 1q [ ] [ ] 

] 

y21 , y 

Y = 

21 y22 , y 22 · · · 

[y 2q , y 2q ⎜ 

. 

. . .. . 

. ⎟ 

⎝ 

[ ] [ ] ] ⎠ 

ym1 , y m1 ym2 , y m2 · · · 

[y mq , y mq 

Etape 1: Calculer la matrice X c = (x c ij) i=1,2,...,m 

j=1,2,...,n 


j=1,2,...,n 

par: 

x c ij = x ij + x ij 

. 

2 

par: 

z ij = √ 1 x c ij − Xj 

c . 

m σj 

c



j=1,2,...,n 

Etape 4: Calculer la matrice R = Z t Z. 

z ij = √ 1 x ij − Xj 

c , 

m σj 

c 

z ij = √ 1 x ij − Xj 

c . 

m σj 

c 

et Z = (z ij ) i=1,2,...,m 

j=1,2,...,n 

Etape 5: Calculer les q premiers vecteurs propres u 1 , u 2 , . . . , u q de R et les valeurs propres 

associées λ 1 ≥ λ 2 ≥ · · · ≥ λ q > 0. 

Etape 6: Pour i = 1, 2, . . . , m 


n∑ 

y ij = z ik u kj + 

k=1,u kj0 

z ik u kj 

( n∑ 

) 

v ij = √ 1 z ik u kj . 

λj 

k=1 

par: 

Etape 8: Pour i = 1, 2, . . . , n 


⎡ 

R(X i , Y j ) = max ⎣ 

m∑ 

m∑ 

z ki v kj + 

⎤ 

z ki v kj , −1⎦ . 

⎡ 

R(X i , Y j ) = min ⎣ 

k=1,v kj 0 

m∑ 

m∑ 

z ki v kj + 

k=1,v kj 0 

⎤ 

z ki v kj , 1⎦ .



GRA [−1.000, −0.827] [−0.443, −0.265] [−0.038, 0.087] [−0.238, −0.084] 

FRE [0.760, 1.000] [0.044, 0.372] [−0.428, −0.220] [−0.288, 0.019] 

IOD [−1.000, −0.726] [−0.124, 0.191] [−0.565, −0.401] [−0.024, 0.161] 

SAP [−0.190, 1.000] [−1.000, 0.371] [−0.442, 0.163] [−0.231, 0.325] 

Table 4.9: Corrélations symboliques entre les variables et les composantes principales 

avec la méthode des centres duale. 


Example 33 Pour illustrer le cercle des corrélations symbolique dual avec Z t Z on emploie 

les données d’Ichino (“oils and fats”) qu’on a présenté dans le Tableau 5.1. Les 

corrélations symboliques que nous avons obtenues en utilisant l’algorithme 4.3 sont présentées 

dans le Tableau 4.9 et les corrélations classiques entre le centre de gravité des variables et 

le centre de gravité des composantes principales ont été présentées dans le Tableau 4.2 de 

la section précédente. 

Le cercle des corrélations symbolique avec les données d’Ichino (“oils and fats”) obtenu 

avec les données du Tableau 4.9 est montré dans la Figure 4.9. Le plan principal correspondant 

à ce cercle de corrélation est présenté dans la Figure 4.10. 

La taille de la matrice ZZ t est m × m tandis que la taille de Z t Z est n × n, parfois ZZ t 

est très grand et Z t Z est très petit, dans ce cas–ci il est mieux d’employer l’algorithme 

4.3 que l’algorithme 4.2, ou inversement il peut arriver que Z t Z est très grand et ZZ t 

est très petit, dans ce cas l’algorithme 4.2 est donc plus rapide que l’algorithme 4.3. Par 

conséquent, en considérant si m ≤ n ou pas, nous proposons l’algorithme 4.4.


Figure 4.9: 

commençant par Z t Z. 

Le cercle des corrélations symbolique avec la méthode des centres 

ALGORITHME 4.4: ALGORITHME OPTIMAL POUR L’ANALYSE EN COM- 

POSANTES PRINCIPALES. 

Entrée : 




⎛ [ ] [ ] [ ] 

x11 , x 11 x12 , x 12 · · · x1n , x 1n [ ] [ ] [ ] 

x21 , x 

X = 

21 x22 , x 22 · · · x2n , x 2n ⎜ . 

. 

.. . . 

⎝ 

[ ] [ ] [ ] 


⎞ 

. 

⎟ 

⎠


Figure 4.10: Plan principal symbolique avec la méthode des centres commençant par 

Z t Z. 

Sortie : 



⎛ [ 

R(X 1 , Y 1 ), R(X 1 , Y 1 ) ] [ 

· · · R(X 1 , Y n ), R(X 1 , Y n ) ] ⎞ 

R = 

. 

⎜ 

. 

.. . 

⎟ 

⎝ 

[ 

R(X n , Y 1 ), R(X n , Y 1 ) ] [ 

· · · R(X n , Y n ), R(X n , Y n ) ] ⎠ . 

• La matrice symbolique avec les premières q composantes principales: 

⎛ [ ] [ ] 

] ⎞ 

y11 , y 11 y12 , y 12 · · · 

[y 1q , y 1q [ ] [ ] 

] 

y21 , y 

Y = 

21 y22 , y 22 · · · 

[y 2q , y 2q ⎜ 

. 

. . .. . 

. ⎟ 

⎝ 

[ ] [ ] ] ⎠ 

ym1 , y m1 ym2 , y m2 · · · 

[y mq , y mq 

Etape 1: Si m ≤ n alors on applique l’algorithme 4.2 autrement on applique l’algorithme 

4.3.

La dualité dans la Méthode des Sommets 116 


Theorem 6 L’Analyse en Composantes Principales classique est un cas particulier de la 

méthode des centres proposée dans l’algorithme 4.4. 

Démostration: Supposons sans perte de généralité que l’algorithme 4.4 exécute l’algorithme 

] 

4.2. Si tous les intervalles 

[x ij , x ij sont triviaux, c’est–à–dire x ij = x ij = x ij , alors on 

a dans l’étape 2 que x c ij = x ij et dans l’étape 3 on a z ij = z ij donc à la étape 4 la matrice 

H = ZZ t est la matrice des corrélations classique. On a ainsi que z ki v kj 

m∑ 

+ 

m∑ 

m∑ 

m∑ 

m∑ 

z ki v kj = z ki v kj ≥ −1 et z ki v kj + 

z ki v kj = 

k=1,v kj 0 

k=1 

k=1,v kj 0 

k=1 

m∑ 

z ki v kj ≤ 1, 

alors à l’étape 6.1 de l’algorithme 4.2 on a R(X i , Y j ) = R(X i , Y j ) = R(X i , Y j ) 

(corrélation classique), et donc le cercle des corrélations symboliques sera le cercle des 

corrélations classique. D’une manière semblable on peut montrer que le plan principal 

symbolique sera le plan principal classique. 

 

4.1.3 La dualité dans la Méthode des Sommets 

Il est impossible de généraliser l’algorithme de la méthode des sommets proposé dans 

[16, Cazes, Chouakria, Diday et Schektman (1997)] en utilisant la relation de dualité 

pour calculer le cercle des corrélations parce qu’on peut projeter le centre de gravité 

des variables mais on ne peut pas projeter l’hypercube défini par les variables. Pour 

projeter le centre de gravité des variables on doit calculer les vecteurs propres de ZZ t 

en utilisant la relation v l 

= Zu l √ λl 

, ce qui est possible parce que la taille de Z est (m · 

2 n ) × n et la taille de u l est n × n puis la taille de la matrice V = [v 1 |v 2 | · · · |v q ] est 

(m · 2 n ) × q, ainsi il est possible d’obtenir les coordonnées des variables calculant Z t V . 

Mais, pour calculer la projection symbolique des variables comme des rectangles, on doit


m∑ 

m∑ 

m∑ 

calculer R(X i , Y j ) = z ki v kj + z ki v kj et R(X i , Y j ) = z ki v kj + 

m∑ 

k=1,v kj >0 

k=1,v kj 0 

k=1,v kj


⎛ 

R = ⎜ 

⎝ 

[ 

R(X 1 , Y 1 ), R(X 1 , Y 1 ) ] [ 

· · · R(X 1 , Y n ), R(X 1 , Y n ) ] ⎞ 

. 

. 

.. . 

⎟ 

[ 

R(X n , Y 1 ), R(X n , Y 1 ) ] [ 

· · · R(X n , Y n ), R(X n , Y n ) ] ⎠ . 

Etape 1: On calcule la matrice N taille m × (n · 2 m ), et on désigne C X j l’ensemble des 

numéros de colonne associé à la variable X j dans la matrice N. 

⎛ ⎡ 

N = (N 1 , . . . , N n ) = 

⎜ ⎢ 

⎝ ⎣ 

⎤ 

x 11 · · · x 11 

x 21 · · · x 21 

. 

. .. · · · 

. ⎥ 

⎦ 

x m1 · · · x m1 

⎡ 

⎢ 

⎣ 

⎤ ⎞ 

x 1n · · · x 1n 

x 2n · · · x 2n 

. . . . . ⎥ ⎟ 

⎦ ⎠ 

x mn · · · x mn 

Etape 2: On désigne par X j N la moyenne de la j–column de N et par σj N 

l’écart type de 

la j–column de N, alors on calcule la matrice Z = (z ij ) 

Etape 3: On calcule H = ZZ t . 

z ij = √ 1 n ij − X j N 

m σ j . 

N 

i=1,2,...,m : 

j=1,2,...,m×n·2 m 

Etape 4: On calcule les q premières vecteurs propres v 1 , v 2 , . . . , v q de H et les valeurs 

propres correspondants λ 1 ≥ λ 2 ≥ · · · ≥ λ q > 0. 

Etape 5: Pour i = 1, 2, . . . , m 

Etape 5.1: Pour j = 1, 2, . . . , q on calcule 


R(X i , Y j ) = min 

k∈C X j 

R(X i , Y j ) = max 

k∈C X j 

(r ik ) 

(r ik ).

Paramètres symboliques d’interprétation 119 


GRA [−0.928, −0.972] [−0.314, −0.180] [−0.014, −0.139] [0.019, 0.190] 

FRE [0.956, 0.862] [0.057, 0.368] [−0.173, −0.352] [−0.027, 0.296] 

IOD [−0.802, −0.917] [0.211, 0.476] [−0.218, −0.465] [−0.139, 0.067] 

SAP [0.708, −0.772] [−0.726, 0.815] [0.690, −0.563] [−0.789, 0.788] 

Table 4.10: Corrélations symboliques entre les variables et les composantes principales 

avec la méthode des sommets. 

Example 34 En employant les données d’Ichino (“oils and fats”) qu’on a présentées dans 

le Tableau 5.1 et l’algorithme 4.5, on a obtenu les corrélations symboliques présentées 

dans le Tableau 4.10. 

Le cercle des corrélations symbolique avec les données d’Ichino (“oils and fats”) obtenu 

en employant des données du Tableau 4.10 est montré dans la Figure 4.11. 

4.1.4 Les aides symboliques à l’interprétation 

[16, Cazes, Chouakria, Diday and Schektman (1997)] proposent des paramètres classiques 

d’interprétation pour la méthode des sommets. Dans cette section nous proposons 

des paramètres classiques d’interprétation pour la méthode des centres et également nous 

proposons des paramètres symboliques d’interprétation pour les deux méthodes qui considèrent 

la variabilité ou l’inexactitude de la entrée. 

Pour mesurer la qualité de représentation de l’objet S i selon le j–ième axe factoriel [16, 

Cazes, Chouakria, Diday and Schektman (1997)] ont proposé l’indice (4.19):


COR(S i , u j ) = 

∑ 

k∈L Si 

y 2 kj 

∑ 

k∈L Si 

d 2 (k, G) = 

∑ 

k∈L Si 

y 2 kj 

n∑ 

∑ 

x 2 kp 

p=1 k∈L Si 

. (4.19) 

Figure 4.11: Cercle des corrélations symbolique avec la méthode des sommets. 

Pour la méthode des centres, on propose l’indice (4.20) pour mesurer la qualité de représentation 

de l’objet S i selon le j–ième axe factoriel: 

COR(S i , u j ) = 

( 

y 

c 

ij 

) 2 

. (4.20) 

n∑ ( ) 

x 

c 2 

ij 

Ces deux indices (4.19) et (4.20) calculent le cosinus de l’angle entre un vecteur représentant 

l’objet S i et la composante principale avec la direction u j . Mais S i est représenté dans 

l’espace factoriel comme un hypercube alors on peut avoir une meilleure idée de la qualité 

j=1


✻ 

cos(α) = cor(S i , Y j ) 

cos(β) = cor(S i , Y j ) 

★ ★★ 

★ ★★ 

✑ 

✓✥✥✥✥✥✥✥✥✥✥✥ 

✑✑ ✑ ✑✑ 

✓✓✓✓✓✓ α 

β 

 

 

 

 

 

 

✠ 

S i 

✲ y j 

Figure 4.12: La qualité symbolique de S i selon le j–ième axe factoriel. 

de représentation de l’objet S i selon le j–ième axe factoriel si on calcule la valeur minimum 

et maximum du cosinus de l’angle entre l’objet S i (hypercube) et la composante 

principale dans la direction u j . Dans ce but on propose l’algorithme 4.6. L’idée de 

l’algorithme est de calculer le cosinus de l’angle entre tous les sommets de l’hypercube S i 

et l’axe factoriel et on choisit le minimum et le maximum. On illustre ceci dans la Figure 

4.12. L’algorithme vérifie également si l’hypercube contient l’origine ou si l’hypercube 

coupe l’axe, parce que dans ces deux cas le cosinus de l’angle devrait être 1. 

ALGORITHME 4.6: LA QUALITE SYMBOLIQUE DE S i SELON L’AXE 

FACTORIEL 

Entrée : 


• n =nombre de variables symboliques.



⎛ [ ] [ ] [ ] 

x11 , x 11 x12 , x 12 · · · x1n , x 1n [ ] [ ] [ ] 

x21 , x 

X = 

21 x22 , x 22 · · · x2n , x 2n ⎜ . 

. 

.. . . 

⎝ 

[ ] [ ] [ ] 


⎞ 

. 

⎟ 

⎠ 

• La matrice des composantes principales symboliques: 

⎛ [ ] [ ] [ ] 

y11 , y 11 y12 , y 12 · · · y1n , y 1n [ ] [ ] [ ] 

y21 , y 

Y = 

21 y22 , y 22 · · · y2n , y 2n ⎜ . . 

.. . . 

⎝ 

[ ] [ ] [ ] 

ym1 , y m1 ym2 , y m2 · · · ymn , y mn 

⎞ 

. 

⎟ 

⎠ 

Sortie : Les cosinus symbolique entre les variables et les composantes principales dans 

la matrice suivante: 

⎛ 

⎞ 

[cor(S 1 , u 1 ), cor(S 1 , u 1 )] · · · [cor(S 1 , u n ), cor(S 1 , u n )] 

COR = 

. 

⎜ 

. 

.. . 

⎟ 

⎝ 

⎠ . 

[cor(S m , u 1 ), cor(S m , u 1 )] · · · [cor(S m , u n ), cor(S m , u n )] 

Etape 1: total= m · 2 m , i = 1, j = 1. 

Etape 2: Pendant que i ≤ n 

Etape 2.1: Pendant que j ≤ m 

Etape 2.1.1: Si → 0∈Y 

◦ j 

H alors 2 

Etape 2.1.1.1: cor(S i , u j ) = 1. 

Etape 2.1.1.2: cor(S i , u j ) = 1. 

Etape 2.1.2: Autrement 

2 Où → 0 note le vecteur zéro dans R m et ◦ A note l’ensemble de points intérieurs de A.


Etape 2.1.2.1 cor(S i , u j ) = 1. 

Etape 2.1.2.2 cor(S i , u j ) = 0. 

Etape 2.1.3: Si S i ∩axis j ≠ ∅ 

Etape 2.1.3.1 cor(S i , u j ) = 1. 

Etape 2.1.3.2 cor(S i , u j ) = 1. 

Etape 2.1.4: Autrement 

Etape 2.1.4.1 cor(S i , u j ) = 1. 

Etape 2.1.4.2 cor(S i , u j ) = 0. 

Etape 2.1.5: s = 1 

Etape 2.1.6: Pendant que s ≤ total 

Etape 2.1.6.1: x = s−ième sommet de S i 

Etape 2.1.6.2: cor= (x j) 

n∑ 

2 

k=1 

(x k ) 2 

Etape 2.1.6.3: Si cor< cor(S i , u j ) 

⋄ cor(S i , Y j ) =cor 

Etape 2.1.6.4: Si cor> cor(S i , u j ) 

⋄ cor(S i , Y j ) =cor 

Sortie: La matrice COR= (cor(S i , u j ), cor(S i , u j )), i = 1, 2, . . . , m et j = 1, 2, . . . , n. 

Pour mesurer la contribution de S i à l’inertie λ j du j–ième axe factoriel [16, Cazes, 

Chouakria, Diday and Schektman (1997)] proposent la formule (4.21) pour la méthode 

des sommets: 

CTR(S i , u j ) = 1 

m2 n λ j 

∑ 

On propose la formule (4.22) pour la méthode des centres: 

k∈L Si 

y 2 kj. (4.21)

Le logiciel pour l’analyse en composantes principales symbolique 124 

CTR(S i , u j ) = 

( 

y 

c 

ij 

) 2 

mλ j 

. (4.22) 

Dans le cas symbolique on propose un indice dans lequel on calcule la contribution de tous 

les sommets S i à l’inertie λ j du j–ième axe factoriel. On calcule ensuite la contribution 

minimum et maximum. Cela est présenté dans l’algorithme 4.7. 

Pour mesurer la contribution de S i à l’inertie totale [16, Cazes, Chouakria, Diday and 

Schektman (1997)] proposent l’indice (4.23) pour la méthode des sommets: 

INR(S i ) = 1 

m2 n 

∑ 

k∈L Si 

d 2 (k, G) 

n∑ 

j=1 

λ j 

= 1 

m2 n 

n∑ 

p=1 

∑ 

(x kp ) 2 

k∈L Si 

. (4.23) 

n∑ 

λ j 

Pour la méthode des centres on propose la formule (4.24) qui mesure la contribution de 

S i à l’inertie total: 

INR(S i ) = 1 m 

n∑ ( ) 

x 

c 2 

ij 

j=1 

j=1 

. (4.24) 

n∑ 

λ j 

j=1 

4.1.5 Le logiciel pour l’analyse en composantes principales symbolique 

Nous avons mis en application un programme en C++ pour l’analyse en composantes principales 

pour des données de type intervalle. Ce programme est un module de 

PIMAD-Symbolique (voir annexe 1) et possede les caractéristiques suivantes: 

1. Il trace le plan principal symbolique avec les deux méthodes: la méthode des sommets 

et la méthode des centres.

Le logiciel pour l’analyse en composantes principales symbolique 125 

2. Il trace le cercle des corrélations symbolique en utilisant trois algorithmes différents, 

ceci est une option de l’utilisateur (consultez l’annexe 1). 

3. Il calcule les paramètres classiques d’interprétation mais également les paramètres 

symboliques d’interprétation. 

4. L’algorithme mis en application dans le programme d’analyse en composantes principales 

symbolique est vraiment une généralisation de l’analyse classique en composantes 

principales parce que s’il s’applique sur un tableau classique de données, 

alors il produit automatiquement des résultats classiques. 

5. Par défaut le programme fonctionne avec l’algorithme 4.4 qui est optimal en temps. 

6. On peut exécuter le programme étape à étape de l’algorithme, en enregistrant les 

résultats intermédiaires dans un fichier, comme la matrice de corrélation, les valeurs 

propres, les vecteurs propres, etc. (consultez l’annexe 1). 

L’utilisateur peut choisir la méthode que le programme emploiera dans le menu Options. 

Si l’utilisateur choisit l’option Choose-Method le programme SPCA présente la boîte 

de dialogue présentée dans la Figure A.5. Dans cette boîte de dialogue l’utilisateur peut 

choisir la méthode et choisir alors l’algorithme pour établir le cercle des corrélations. Si 

l’utilisateur choisit les options Center et Dual le programme emploie l’algorithme 4.4; 

si l’utilisateur choisit les options Tops et Dual le programme emploie les algorithmes 

4.5 et si l’utilisateur choisit les options Tops et Definition le programme emploie 

l’algorithme 4.1.

L’ACP avec données de type histogramme 126 

4.2 Généralisation de l’analyse en composantes principales 

aux données de type histogramme 

4.2.1 L’algorithme 

Dans cette section nous proposons un algorithme pour appliquer l’analyse de composantes 

principales quand les variables sont de type histogramme. Cet algorithme fonctionne 

également si le tableau de données a des variables de type intervalle et de type histogramme. 

Si toutes les variables sont de type intervalle, il produit le même résultat 

que celui produit par l’algorithme de la méthode des centres proposée dans [16, Cazes, 

Chouakria, Diday et Schektman (1997)]. 

Dans cet algorithme on utilise l’idée proposée dans [38, Diday (1998)] qui consiste à 

représenter chaque histogramme–individu par une suite de k intervalle–individus (le premier 

inclus dans le second, le second inclus dans le troisième et ainsi de suite) où k est le 

nombre maximum des modalités prises par une certaine variable dans le tableau symbolique 

de données. 

Nous ne représentons pas vraiment dans le plan factoriel les histogrammes, nous allons 

représenter la Fonction de Distribution Empirique F Y définie dans [7, Bock and Diday 

(2000)] associée à chaque histogramme. En d’autres termes, si nous avons une variable 

de type histogramme Y sur un ensemble E = {a 1 , a 2 , . . .} d’objets avec le domaine Y 

représenté par la fonction Y (a) = (U(a), π a ), pour a ∈ E, où π a est la distribution de 

fréquence, alors nous utiliserons dans l’algorithme la fonction F (x) = 

∑ 

π i au lieu 

de l’histogramme. 

i / π i ≤x 

Definition 37 Soit X = (x ij ) i=1,2,...,m un tableau de données symbolique avec variables 

j=1,2,...,n 

de type continu, intervalle et histogramme, et soit k = max{s, où s est le nombre de


modalités de Y j , j = 1, 2, . . . , n} quand Y j est de type histogramme 3 . On définit le 

vecteur–colonne des intervalles associés à chaque élément de X de la façon suivante: 

1. Si x ij = [a, b], le vecteur–colonne des intervalles associés est: 

⎡ ⎤ 

[a, b] 

x ↓ ij = [a, b] 

. 

⎢ . ⎥ 

⎣ ⎦ 

[a, b] 

2. Si x ij = (1(p 1 ), 2(p 2 ), . . . , s(p s )) avec s ≤ k (histogramme), le vecteur–colonne 

k×1 

des intervalles associés est: 

⎡ 

⎤ 

[0, p 1 ] 

[0, p 

x ↓ ij = 1 + p 2 ] 

. 

[ ] 

⎢ 

⎣ 

s∑ ⎥ 

⎦ 

0, p w 

w=1 

k×1 

3. Si x ij = a, le vecteur–colonne des intervalles associés est: 

⎡ ⎤ 

[a, a] 

x ↓ ij = [a, a] 

. 

⎢ . ⎥ 

⎣ ⎦ 

[a, a] 


j=1,2,...,n 

de type continu, intervalle et histogramme. On définit la matrice X ↓ = (x ↓ ij ) pour i = 

1, 2, . . . , m et j = 1, 2, . . . , n. Il est important de noter que X ↓ a m · k lignes 4 et n 

colonnes. 

k×1 

3 Si toutes la variable Y j est de type intervalle ou de type continu alors s = 1. 

4 k comme dans la définition précédente. 

.


⎡ 

Example 35 Si X = ⎣ 

[1, 3] (1(0.2), 2(0.3), 3(0.5)) 

[7, 9] (1(0.8), 2(0.1), 3(0.1)) 

⎤ 

⎦ alors 

⎡ 

X ↓ = 

⎢ 

⎣ 

[1, 3] [0.0000, 0.2000] 

[1, 3] [0.0000, 0.5000] 

[1, 3] [0.0000, 1.0000] 

[7, 9] [0.0000, 0.8000] 

[7, 9] [0.0000, 0.9000] 

[7, 9] [0.0000, 1.0000] 

⎤ 

. 

⎥ 

⎦ 

L’idée est d’appliquer l’algorithme 4.4 à la matrice X ↓ . Avec cette analyse en composantes 

principales on peut trouver la “forme” de l’individu–histogramme dans le plan 

principal, mais il y a un problème parce que tous les individus–histogramme seront projetés 

presque à la même position autour de l’origine. Alors on doit appliquer une autre 

analyse en composantes principales afin de trouver une bonne structure du groupe pour 

les individu–histogramme, c’est pourquoi on appliquera une analyse classique en composantes 

principales à la matrice présentée dans les définitions qui suivent. 


j=1,2,...,n 

de type continu, intervalle et histogramme. On définit le vecteur–ligne associé à chaque 

élément de X de la façon suivante: 

1. Si x ij = [a, b] alors le vecteur–ligne associé est: 

[ ] a + b 

x → ij = 

2 

. 

1×1 

2. Si x ij = (1(p 1 ), 2(p 2 ), . . . , s(p s )) où s est le nombre de modalités de la j–ième 

variable, alors le vecteur–ligne associé est: 

x → ij = [p 1 , p 2 , . . . , p s ] 1×s 

.


3. Si x ij = a alors le vecteur–ligne associé est: 

x → ij = [a] 1×1 

. 


j=1,2,...,n 

de type continu, intervalle et histogramme. On définit la matrice X → = (x → ij ) de m lignes 

n∑ 

et p = s j colonnes, où 

j=1 

⎧ 

⎪⎨ 

s j = 

⎪⎩ 

nombre de modalités Si la variable j est de type histogramme, 

1 Si la variable j est de type intervalle, 

1 Si la variable j est de type continu. 

⎡ 

Example 36 Si X = ⎣ 

[1, 3] (1(0.2), 2(0.3), 3(0.5)) 

[7, 9] (1(0.8), 2(0.1), 3(0.1)) 

⎤ 

⎦ alors 

⎡ 

X → = ⎣ 

2 0.2 0.3 0.5 

8 0.8 0.1 0.1 

⎤ 

⎦ . 

L’idée du prochain algorithme est d’appliquer une analyse en composantes principales à 

la matrice X ↓ pour trouver la forme de l’individu–histogramme. On applique alors une 

autre analyse en composantes principales à la matrice X → , et avec ces composantes principales 

obtenues, on déplacera l’individu–histogramme pour trouver une bonne structure 

du groupe dans le plan principal. 

ALGORITHME 4.7: ANALYSE EN COMPOSANTES PRINCIPALES POUR 

VARIABLES DE TYPE HISTOGRAMME 

Entrée : 

• m =nombre d’objets symboliques.




⎛ 

⎞ 

x 11 x 12 · · · x 1n 

x 

X = 

21 x 22 · · · x 2n 

. 

⎜ . . .. . 

. ⎟ 

⎝ 

⎠ 

x m1 x m2 · · · x mn 

Sortie : 

• La matrice symbolique avec les q premières composantes principales: 

⎛ 

⎞ 

y ↓ 11 y ↓ 12 · · · y ↓ 1q 

y ↓ 

Y = 

21 y ↓ 22 · · · y ↓ 2q 

. 

⎜ . . .. , 

. ⎟ 

⎝ 

⎠ 

y ↓ m1 y ↓ m2 · · · ymq 

↓ 

où (k comme dans la définition 37): 

⎡ 

y ↓ ij = ⎢ 

⎣ 

[ ] 

yij, 1 yij 

1 

[ ] 

yij, 2 yij 

2 

. 

[ 

yij, k yij 

k 

] 

⎤ 

. 

⎥ 

⎦ 

Etape 1: Calculer la matrice X ↓ de la définition 38. 

Etape 2: Appliquer l’algorithme 4.4 prenant comme entrée X ↓ . Il produit la matrice: 

⎛ 

⎞ 

ŷ ↓ 11 ŷ ↓ 12 · · · ŷ ↓ 1q 1 

ŷ ↓ 

Ŷ ↓ = 

21 ŷ ↓ 22 · · · ŷ ↓ 2q 1 

. 

⎜ . . .. , 

. ⎟ 

⎝ 

⎠ 

ŷ ↓ m1 ŷ ↓ m2 · · · ŷmq ↓ 1


où (k comme dans la définition 37): 

⎡ [ ] ⎤ 

ŷ ij, 1 ŷij 

1 

[ ] 

ŷ ↓ ij = ŷ ij, 2 ŷij 

2 . 

⎢ . ⎥ 

⎣ [ ] ⎦ 

ŷij, k ŷij 

k 

pour i = 1, 2, . . . , n et j = 1, 2, . . . , q 1 avec q 1 ≤ n. 

Etape 3: Calculer la matrice X → de la définition 40. 

Etape 4: Appliquer une analyse classique en composantes principales à la matrice X → . 

Il produit la matrice: 

où q 2 ≤ p = 

⎛ 

Ỹ → = 

⎜ 

⎝ 

⎞ 

ỹ 11 ỹ 12 · · · ỹ 1q2 

ỹ 21 ỹ 22 · · · ỹ 2q2 

. . 

.. , 

. . ⎟ 

⎠ 

ỹ m1 ỹ m2 · · · ỹ mq2 

n∑ 

s j (s j comme dans la définition 40): 

j=1 

Etape 5: q = min(q 1 , q 2 ). 

Etape 6: Calculer les q premières composantes principales: 

⎛ 

⎞ 

y ↓ 11 y ↓ 12 · · · y ↓ 1q 

y ↓ 

Y = 

21 y ↓ 22 · · · y ↓ 2q 

. 

⎜ . . .. , 

. ⎟ 

⎝ 

⎠ 

y ↓ m1 y ↓ m2 · · · ymq 

↓ 

en utilisant la translation: 

⎡ [ ] ⎤ ⎡ [ 

] ⎤ 

yij 1 , y1 ij 

[ ] 

ŷij 1 + ỹ ij , ŷ1 ij + ỹ ij 

Etape 6.1: Si k > 1 alors y ↓ ij = yij 2 , [ 

] 

y2 ij 

ŷij 2 = 

+ ỹ ij , ŷ2 ij + ỹ ij 

⎢ . 

⎥ ⎢ . 

⎥ 

⎣ [ ] ⎦ ⎣ [ 

] ⎦ 

yij k , yk ij 

ŷij k + ỹ ij , ŷk ij + ỹ ij


⎡ 

Etape 6.2: Si k = 1 alors y ↓ ij = ⎢ 

⎣ 

[ ] 

yij, 1 yij 

1 

[ ] 

yij, 2 yij 

2 

. 

[ ] 

yij, k yij 

k 

⎤ ⎡ 

= 

⎥ ⎢ 

⎦ ⎣ 

[ ] 

ŷij, 1 ŷij 

1 

[ ] 

ŷij, 2 ŷij 

2 

. 

[ ] 

ŷij, k ŷij 

k 

⎤ 

⎥ 

⎦ 

Etape 7: Fin de l’algorithme. 

Theorem 7 La méthode des centers pour l’analyse en composantes principales proposée 

dans l’algorithme 4.4. est un cas particulier de la méthode proposée dans l’algorithme 

4.7. 

Démonstration: Si x ij = [a, b] ∀ i = 1, 2, . . . , m, j = 1, 2, . . . , n alors dans la matrice 

X ↓ de la définition 38 on a k = 1 donc la matrice X ↓ = X et dans l’étape 6 comme k = 1 

on ne déplacera pas les individus–histogramme. 

 

Remark 10 Comme on l’a démontré dans le théorème 6, l’analyse en composantes principales 

classique est un cas particulier de la méthode des centres proposée dans l’algorithme 

4.4, et on a démontré dans le théorème 7 que la méthode proposée dans l’algorithme 4.4 

est un cas particulier de la méthode proposée dans l’algorithme 4.7, alors l’analyse en 

composantes principales pour des données de type histogramme proposé dans l’algorithme 

4.7 est une généralisation de l’ACP pour des données de type intervalle qui est une 

généralisation de l’ACP classique. 

4.2.2 Exemples d’application 

Pour illustrer comment l’algorithme 4.7 fonctionne dans cette section on présente deux 

exemples d’exécution.


Example 37 Dans cet exemple on présente l’exécution de l’algorithme 4.7 avec la table 

de données symbolique présentée dans (4.25). Cette matrice a cinq variables, la première 

est de type intervalle, la seconde est une variable discrete quantitative, et les trois dernières 

variables sont type histogramme (les valeurs sont tronquées). 

⎡ 

X = 

⎢ 

⎣ 

[1, 4] 2 (1(0.4), 2(0.1), 3(0.2), 4(0.07), 5(0.02)) (1(0.1), 2(0.9)) (1(0.7), 2(0.2)) 

[1, 4] 3 (1(0.6), 2(0.1), 3(0.1), 5(0.0)) (1(0.1), 2(0.9)) (1(0.7), 2(0.2)) 

[1, 5] 2 (1(0.7), 2(0.2)) (1(0.0), 2(0.9)) (1(0.7), 2(0.2)) 

[1, 4] 1 (1(0.7), 2(0.0), 3(0.1), 4(0.0), 5(0.0), 6(0.0) (1(0.0), 2(0.9)) (1(0.7), 2(0.2)) 

[1, 4] 1 (1(0.4), 3(0.4), 4(0.0), 5(0.0)) (1(0.0), 2(0.9)) (1(0.8), 2(0.1)) 

[1, 6] 2 (2(0.4), 3(0.1), 4(0.3), 5(0.0), 6(0.0) (1(0.0), 2(0.9)) (1(0.7), 2(0.2)) 

⎤ 

⎥ 

⎦ 

(4.25) 

En appliquant l’algorithme 4.7 on obtient le plan principal de la Figure 4.13 

Figure 4.13: Le plan principal avec des données de type continu, intervalle et histogramme. 

Si on trace la pyramide (voir la Figure 4.14) associé à la matrice (4.25) on obtient la même 

structure de classes que celle qu’on a obtienue dans le premier axe dans le plan principal 

de la Figure 4.13. C’est–à–dire, le individu “Northern Ireland” est isolé et les individus


“North non–metropolitan”, “Yorks and Humberside metropoli”, “Yorks and Humberside 

non-metro” et “East midlands non-metropolitan” sont groupés. 

Figure 4.14: La pyramide avec des données de type continue, intervalles et histogramme. 

4.2.3 L’interprétation 

Pour expliquer comment interpréter l’Analyse en Composantes Principales pour de données 

de type histogramme nous employons un petit exemple. L’interprétation de la position 

du individu–histogramme dans le plan principal est la même que dans la situation 

classique du analyse en composantes principales, alors on devrait expliquer quelle est 

l’interprétation de la colonne de rectangles qui représentent chaque individu. 

Example 38 Soit 

X = 

VAR-1 

VAR-2 

IND-1 (1(0.1), 2(0.4), 3(0.5)) (1(0.2), 2(0.3), 3(0.5)) 

IND-2 (1(0.7), 2(0.2), 3(0.1)) (1(0.8), 2(0.1), 3(0.1)) 

. 

Cette matrice peut être également représentée comme on montre dans la Figure 4.15.


Figure 4.15: Tableau des données avec deux individus et deux variables de type histogramme. 

Si nous appliquons l’analyse en composantes principales de l’algorithme 4.7 à la table de 

données précédente, nous obtenons le plan principal qu’on montre dans la Figure 4.16. 

Le plus petit rectangle de la projection de l’individu–1 (Ind1) représente la probabilité 

que l’individu–1 prenne la modalité 1 pour la variable 1 ou la modalité 1 pour la variable 

2. La taille du rectangle est conforme à la représentation de l’individu–1 dans la Figure 

4.15, parce que la valeur de la modalité 1 pour la variable 1 est 0.1 et la valeur de la 

modalité 1 pour la variable 2 est 0.2, c’est–à–dire la moyenne pour la modalité 1 est 

0.15. Le deuxième rectangle de la projection de l’individu–1 représente la probabilité que 

l’individu–1 prenne la modalité 1 ou la modalité 2 pour la variable 1, ou la probabilité 

que l’individu–1 prenne la modalité 1 ou la modalité 2 pour la variable 2. La taille du 

deuxième rectangle est conforme également à la représentation de l’individu–1 dans la 

Figure 4.15, parce que la valeur de la fonction de distribution empirique pour la modalité 

2 de la variable 1 est 0.5 et la valeur de la fonction de distribution empirique pour la 

modalité 2 de la variable 2 est également 0.5. Le troisième rectangle de l’individu–1 

représente la probabilité 1, c’est la probabilité que l’individu 1 prenne n’importe laquelle


des modalités. 

Le plus petit rectangle de la projection de l’individu–2 (Ind2) est plus grand que le plus 

petit rectangle de la projection de l’individu–1 (voir la Figure 4.16); ceci est conforme 

à l’interprétation, parce que la probabilité que l’individu–2 prenne la modalité 1 pour la 

variable 1 est 0.7 et la probabilité que l’individu–2 prenne la modalité 1 pour la variable 2 

est 0.8, c’est-à-dire la moyenne de pris la modalité 1 est 0.75. Cette valeur est plus grande 

que la même valeur pour l’individu–1 qui est 0.15; c’est pourquoi, le plus petit rectangle 

de la projection de “Ind1” est plus petit que le plus petit rectangle de la projection de 

“Ind2”. Pour les mêmes raisons, le deuxième rectangle de la projection de “Ind1” est plus 

petit que le deuxième rectangle de la projection de “Ind2”. 

Figure 4.16: TPlan principal du tableau.

Chapter 5 

L’Analyse Symbolique des Tableaux de 

Proximités 

5.1 Introduction 

La méthode d’analyse des tableaux de dissimilarités standard prend comme entrée une 

matrice de dissimilarité de terme général δ ij qui est une valeur numérique. Soient 

S 1 , S 2 , . . . , S m , m objets symboliques, dans cette section nous supposons que les données 

se composent d’une matrice symétrique ∆ = [δ ij ] = [δ ij , δ ij ], i, j = 1, 2, . . . , m où 

[δ ij , δ ij ] représente un intervalle des valeurs possibles pour la dissimilarité entre l’objet 

symbolique S i et l’object symbolique S j . 

L’ensemble de valeurs possibles pour la dissimilarité entre l’objet S i et l’object S j pourrait 

résulter de la combinaison des données de N juges, ou alternativement ce pourrait être une 

région de dissimilarité proposée par un simple juge. 

Comme sortie, au lieu de représenter chaque objet symbolique sur le plan factoriel par 

un point, comme dans d’autres méthodes d’analyse des tableaux de dissimilarités, dans 

137

L’analyse classique des tableaux de proximités 138 

la méthode proposée chaque objet symbolique est visualisé par un rectangle, afin de 

représenter la variation de la dissimilarité. 

Denœux et Masson dans [22, Denœux (1999)] ont trouvé une solution à ce problème 

réduisant au minimum par descente de gradient la fonction d’effort: 

σ(R) = ∑ i


L’analyse classique des tableaux de dissimilarités provient des années 30 quand Young et 

Householder ont montré comment, en commençant par une matrice des distances entre 

les points dans un espace Euclidien, les coordonnées des points peuvent être trouvées de 

telle façon que les distances soient préservées. 

Soient les coordonnées cherchées de m points dans un espace Euclidien n dimensionnel 

x i = (x i1 , x i2 , . . . , x in ) t , i = 1, 2, . . . , m. La distance Euclidienne d ij entre le i−ième et 

le j−ième point doit satisfaire: 

d 2 ij = (x i − x j ) t (x i − x j ). (5.1) 

Soit B la matrice de produit scalaire associée à d, telle que: 

[B] ij = b ij = x i x j . (5.2) 

L’idée de l’analyse des tableaux de dissimilarités est la suivante: on a une mesure de dissimilarité, 

d ij , pour chaque paire d’objets. À partir des distances carrées {d 2 ij} i,j=1,2,...,m la 

matrice B peut être trouvé et puis à partir de B les coordonnées inconnues (pour chaque 

objet) peuvent être trouvées. 

Pour trouver B on a localisé le centre de gravité de la configuration des points à l’origine, 

n∑ 

par conséquent x ij = 0 pour i = 1, 2, . . . , m. Alors il n’est pas très difficile de prouver 

j=1 

([20, Cox et Cox (1994)]) que: 

b ij = − 1 2 

( 

d 2 ij − 1 m 

m∑ 

d 2 rj − 1 m 

r=1 

m∑ 

d 2 is + 1 n 2 

s=1 

m∑ 

∑ m 

d 2 rs 

r=1 s=1 

) 

(5.3) 

Pour récupérer les coordonnées (composantes principales), la matrice B peut être exprimé 

comme B = XX t où X = [x 1 , x 2 , . . . , x m ] est une matrice de taille m × n. Notez que


B est symétrique, semi–définie positive et de rang n alors B a n valeurs propres non 

négatives et m − n valeurs propres zéro. 

B peut être écrit en termes de sa décomposition spectrale (décomposition aux valeurs 

singulières) B = V ΛV t où Λ = diag(λ 1 , λ 2 , . . . , λ m ) et V = [v 1 , v 2 , . . . , v m ] avec v i le 

i−ième vecteur propre tels que v t iv i = 1 et λ 1 ≥ λ 2 ≥ · · · ≥ λ m ≥ 0. 

En raison des m − n valeurs propres zéro B peut être écrit comme B = V 1 Λ 1 V t 

1 où Λ 1 = 

diag(λ 1 , λ 2 , . . . , λ n ) et V = [v 1 , v 2 , . . . , v n ]. Puis comme B = XX t ; X est donné par: 

X = V 1 Λ 1 2 

1 , (5.4) 

où Λ 1 2 

1 =diag(λ 1 2 

1 , λ 1 2 

2 , . . . , λ 1 2 n ). 

Il y a une propriété de dualité entre l’analyse en composantes principales et l’analyse 

des tableaux de dissimilarités quand les dissimilarités sont données par des distances Euclideannes. 

Plus formellement: 

Proposition 8 [20, Cox et Cox (1994)] Si µ i et ξ i sont les valeurs propres et les vecteurs 

propres de l’analyse en composantes principales de X respectivement pour i = 1, 2, . . . , n, 

et on dénote par λ i et v i les valeurs propres et les vecteurs propres de l’analyse classique 

du tableau de dissimilarité de ∆ = {d ij } i,j=1,2,...,m respectivement pour i = 1, 2, . . . , n, 

alors: 

µ i = λ i et ξ i = X t v i pour i = 1, 2, . . . , n. (5.5) 

ALGORITHME 5.1: ANALYSE CLASSIQUE DES TABLEAUX DE DISSIMI- 

LARITÉS [20, Cox et Cox (1994)] 

Etape 1: Obtenir les dissimilarités {δ ij } i,j=1,2,...,m .

L’analyse des tableaux de proximités de type intervalle 141 

Etape 2: Calculer la matrice B: 

( 

b ij = − 1 δij 2 − 1 2 m 

m∑ 

δrj 2 − 1 m 

r=1 

m∑ 

δis 2 + 1 n 2 

s=1 

m∑ 

∑ m 

δrs 

2 

r=1 s=1 

) 

. 

Etape 3: Calculer les valeurs propres λ 1 , λ 2 , . . . , λ m et les vecteurs propres v 1 , v 2 , . . . v m 

de B. 

Etape 4: Calculer les coordonnées des m points dans R n en employant l’égalité: 

x ij = √ λ i · v ji pour i = 1, 2, . . . , m et j = 1, 2, . . . , n. 

5.3 L’analyse des tableaux de dissimilarités de type intervalle: 

INTERSCAL 

Soient S 1 , S 2 , . . . , S m , m objets symboliques, dans cette section on suppose que les données 

d’entrée se composent d’une matrice symétrique ∆ défini par: 

⎡ 

∆ = 

⎢ 

⎣ 

[0, δ 11 ] [δ 12 , δ 12 ] · · · [δ 1m , δ 1m ] 

[δ 21 , δ 21 ] [0, δ 22 ] · · · [δ 2m , δ 2m ] 

. . 

.. . . 

[δ m1 , δ m1 ] [δ m2 , δ m2 ] · · · [0, δ mm ] 

⎤ 

, (5.6) 

⎥ 

⎦ 

où δ ij représente la dissimilarité minimum possible entre l’objet S i et l’objet S j , et δ ij 

représente la dissimilarité maximum possible entre l’objet S i et l’objet S j . 

Si on veut obtenir une méthode symbolique d’analyse des tableaux de dissimilarités qui 

a la propriété de dualité (proposition 8) avec la méthode des sommets d’analyse en composantes 

principales, quand la dissimilarité est modelée par une distance Euclidienne. On 

doit avoir comme entrée les dissimilarités entre toutes les lignes de la matrice M définie


dans (5.7), parce que la méthode des sommets de l’analyse en composantes principales 

commence par faire une analyse classique en composantes principales de la matrice M 

(voir [16, Cazes, Chouakria, Diday et Schektman (1997)]). 

⎡ 

M = 

⎢ 

⎣ 

⎡ 

⎤ 

x 11 x 12 · · · x 1n 

x 11 x 12 · · · x 1n 

. 

⎢ . . .. . ⎥ 

⎣ 

⎦ 

x 11 x 12 · · · x 

⎡ 

1n 

⎤ 

x 21 x 22 · · · x 2n 

x 21 x 22 · · · x 2n 

. 

⎢ . . .. . ⎥ 

⎣ 

⎦ 

x 21 x 22 · · · x 2n 

. 

⎡ 

⎤ 

x m1 x m2 · · · x mn 

x m1 x m2 · · · x mn 

. 

⎢ . . . . . ⎥ 

⎣ 

⎦ 

x m1 x m2 · · · x mn 

⎤ 

, (5.7) 

⎥ 

⎦ 

Comme la taille de la matrice M est (m · 2 n ) × n, on devrait avoir comme entrée une 

matrice ∆ de la taille (m · 2 n ) × (m · 2 n ) mais c’est clairement impossible, parce qu’on 

a seulement deux dissimilarités, la maximale et la minimale, pour chaque paire d’objets 

symboliques. 

Ainsi il est impossible de trouver une méthode d’analyse des tableaux de dissimilarités de 

type intervalle qui a la propriété de dualité avec la méthode des sommets dans l’analyse 

en composantes principales. On cherchera donc une solution approximative. 

Soit:


δ ij 

β ij 

R Si 

α ij 

δ ij 

α ji 

R Sj 

β ji 

Figure 5.1: Distances minimum et maximum entre les deux hypercubes. 

δ ij = min d(x, y) 

x∈R Si , y∈R Sj 

δ ij = max d(x, y) 

x∈R Si , y∈R Sj 

, (5.8) 

où R Si est l’hypercube dans R n défini par l’objet symbolique S i , R Sj est l’hypercube 

défini par l’objet symbolique S j et d(x, y) est la distance Euclidienne 2 entre x et y. 

Si on fixe l’hypercube R Si , il est clair qu’il y a des points α ij = (α ij 

1 , α ij 

2 , . . . , α ij 

n ) ∈ R Si et 

α ji = (α ji 

1 , α ji 

2 , . . . , α ji 

n ) ∈ R Sj , pour j = 1, 2, . . . , m tels que δ ij = d(α ij , α ji ). De façon 

analogue il y a des points β ij = (β ij 

1 , β ij 

2 , . . . , β ij 

n ) ∈ R Si et β ji = 

(β ji 

1 , β ji 

2 , . . . , β ji 

n ) ∈ R Sj tels que δ ij = d(β ij , β ji ) pour j = 1, 2, . . . , m, comme on 

le montre dans la Figure 5.1 pour n = 2. Comme j parcourt l’ensemble {1, 2, . . . , m}, 

alors, pour chaque hypercube R Si on a m points α ij et m points β ij et donc on a 2mm dissimilarités 

(on tient en compte la dissimilarité maximum et minimum parmi un hypercube 

et lui–même). Mais, comme δ ij = d(α ij , α ji ) = δ ji = d(α ji , α ij ) et δ ij = d(β ij , β ji ) = 

δ ji = d(β ji , β ij ), on a 2m + 2(m − 1) + · · · + 2 = 2 ∑ m 

i=1 

i = m(m + 1) dissimilarités. 

Si on fixe l’hypercube R Si , il y a aussi des points γ ij = (γ ij 

1 , γ ij 

2 , . . . , γ ij 

n ) ∈ R Si et γ ji = 

(γ ji 

1 , γ ji 

2 , . . . , γ ji 

n ) ∈ R Sj , pour j = 1, 2, . . . , m tels que d(γ ij , γ ji ) = δ ij+δ ij 

2 

, comme on le 

montre dans la Figure 5.2. Ceci produit m dissimilarités. 

2 Comme dans l’analyse classique des tableaux de proximités, cette supposition est théorique parce que 

la méthode pourrait être utilisée avec n’importe quelle dissimilarité.


β i 

 

✔ R Si 

✔ 

✔ 

✔ 

γ ij 

✔ 

✔ 

✔ 

✔ 

✔ 

✔ α i 

✔ 

✔ 

❛ 

✔ 

✔ 

❛❛❛❛❛ δ ij 

✔ 

✔ 

 

✔ 

✔ 

α j R Sj 

✔ 

✔ 

γ 

✔ 

✔ 

ji 

 

✔ 

✔✔ ✔ d(γ ij , γ ji ) = δ ij+δ ij 

2 

✁ ✁✁✁ 

β j 

δ 

✁ ✁✁ ✡ ✡✡✡ 

ij ✡✡ ✡ 

Figure 5.2: Distances moyennes parmi les deux hypercubes. 

L’idée est cette de faire une analyse des tableaux de proximités de la matrice de distances 

˜∆ définie par l’équation (5.9). Pour chaque hypercube R Si 

la matrice ˜∆ a deux lignes, 

dans la première ligne on emploie la dissimilarité minimum et la dissimilarité maximum 

parmi un hypercube et lui–même, alors qu’on emploie la dissimilarité minimum et la 

dissimilarité moyenne parmi chaque couple d’hypercubes différents, c’est–à–dire on emploie 

2m dissimilarités. Dans la second ligne de la matrice ˜∆ on emploie la dissimilarité 

maximum et la dissimilarité minimum parmi un hypercube et lui–même et on emploie 

la dissimilarité moyenne et la dissimilarité maximum parmi chaque couple d’hypecubes 

différents, en cette ligne on emploie aussi 2m dissimilarités, mais comme les dissimilarités 

moyennes ont déjà été employées on utilise vraiment m dissimilarités, donc pour 

chaque hypercube on emploie 3m dissimilarités. Alors, comme d(x, y) = d(y, x) au total 

on emploie 3m + 3(m − 1) + · · · + 3 = 3 ∑ m 

i=1 i = 3 m(m + 1) > m(m + 1) dissimi- 

2 

larités. Notez que ˜∆ est une matrice symétrique et que sa taille est 2m×2m. Comme pour 

chaque hypercube R Si on a deux lignes, alors on peut calculer une coordonnée principale


minimum et maximum, c’est–à–dire la coordonnée principale de type intervalle. 

⎡ 

˜∆ = 

⎢ 

⎣ 

δ 

0 δ 11 δ 

12 +δ 12 

δ 

12 · · · δ 

1m +δ 1m 

2 1m 2 

δ 11 0 

δ 12 +δ 12 

2 

δ 12 · · · 

δ 1m +δ 1m 

2 

δ 1m 

δ 

δ 

21 +δ 21 

δ 

21 0 δ 

2 22 · · · δ 

2m +δ 2m 

2m 2 

δ 21 +δ 21 

δ 

δ 

2 21 δ 22 0 · · · 

2m +δ 2m 

δ 

2 2m 

δ 31 

δ 31 +δ 31 

2 

δ 32 

δ 32 +δ 32 

2 

· · · δ 3m 

δ 3m +δ 3m 

δ 31 +δ 31 

2 

δ 31 

δ 32 +δ 32 

. 

. 

δ 

2 32 · · · 

. 

. . .. . 

2 

δ 3m +δ 3m 

2 

δ 3m 

δ 

δ 

m1 +δ m1 

δ 

m1 

δ 

m2 +δ m2 

2 m2 · · · 0 δ 

2 mm 

δ m1 +δ m1 

δ 

δ 

m2 +δ m2 

2 m1 δ 

2 m2 · · · δ mm 0 

. 

⎤ 

. (5.9) 

⎥ 

⎦ 

ALGORITHME 5.2: L’ANALYSE DES TABLEAUX DE DISSIMILARITÉS DE 

TYPE INTERVALLE 

]} 

Etape 1: Obtenir les dissimilarités de type intervalle 

{[δ ij , δ ij 

i,j=1,2,...,m 

Etape 2: Calculer la matrice ˜∆ = (˜δ ij ) i,j=1,2,...,2m définie dans l’équation (5.9). 

Etape 3: Trouver la matrice ˜B = {[˜b ij ]} i,j=1,2,...,2m : 

˜bij = − 1 2 

( 

˜δ 2 ij − 1 

2m 

2m∑ 

r=1 

˜δ 2 rj − 1 

2m 

2m∑ 

s=1 

˜δ 2 is + 1 

(2m) 2 

2m 

∑ 

r=1 s=1 

. 

2m∑ 

˜δ rs 

2 

Etape 4: Trouver les valeurs propres ˜λ 1 , ˜λ 2 , . . . , ˜λ 2m et les vecteurs propres associés 

ṽ 1 , ṽ 2 , . . . , ṽ 2m de ˜B. 

Etape 5: Calculer les coordonnées des 2m points dans R n en utilisant la formule: 

√ 

˜x ri = ˜λ r · ṽ ir pour r = 1, 2, . . . , 2m et i = 1, 2, . . . , n. 

)


Etape 6: Construire les coordonnées principales de type intervalle 

X1 I , X2 I , . . . , Xm I à partir des coordonnées numériques X 1, X 2 , . . . , X 2m 

(X i = (˜x i1 , ˜x i2 , . . . , ˜x in )). Soit L Si l’ensemble de nombres de lignes dans la matrice 

˜M en référence à l’objet S i . Il est clair que L Si = {2i − 1, 2i}. Si X Si j = [x ij , x ij ] 

est la valeur de la composante principale de type intervalle Xj I pour l’objet S i alors: 

x ij = min (˜x kj ) = 

k∈L Si 

x ij =max (˜x kj ) = 

k∈L Si 

min 

k∈{2i−1,2i} 

max 

k∈{2i−1,2i} 

(˜x kj ), 

(˜x kj ). 

Theorem 9 La méthode classique de l’analyse des tableaux de dissimilarités de [71, Torgenson 

(1958)] et [45, Gower (1966)] proposée dans l’algorithme 5.1 est un cas particulier 

de la méthode INTERSCAL proposée dans l’algorithme 5.2. 

] 

Démonstration: Si tous les intervalles 

[δ ij , δ ij sont triviaux, c’est–à–dire δ ij = δ ij = 

δ ij , alors les dissimilarités moyenne δ ij+δ ij 

2 

= δ ij , donc on a que ˜λ s = 2 · λ s pour s = 

1, 2, . . . , q, où q est le nombre de valeurs propres strictement positives de la matrice B de 

l’algorithme 5.1. En plus on a que v ir = √ 2 · ṽ 2i−1,r = ˜x 2i−1,r = √ 2 · ṽ 2i,r = ˜x 2i,r pour 

r = 1, 2, . . . , 2m et i = 1, 2, . . . , n. Alors on obtient x ij = x ij = x ij pour i = 1, 2, . . . , m 

et j = 1, 2, . . . , n. 

La solution pour X n’est pas unique car B = V ΛV t = XT T t X t pour tout T tel que 

T T t = I. N’importe quelle rotation rigide est un exemple de la matrice de type T . Nous 

choisissons la solution correspondant aux axes principales. Le premier axe maximise 

l’inertie des α i , β i i = 1, 2, . . . , m. Cependant, puisque n’importe quelle rotation est 

également une solution, on peut souhaiter tourner les axes principales à fin d’obtenir des 

solutions (axes) qui soient plus interpretables. 

INTERSCAL, la méthode de l’analyse des tableaux de dissimilarités de type intervalle, a 

un avantage par rapport la méthode de l’analyse en composantes principales des sommets.


La taille de la matrice dont l’algorithme calcule les valeurs propres et les vecteurs propres 

pour la méthode de l’analyse des tableaux de dissimilarités de type intervalle (INTER- 

SCAL) est 2m×2m, tandis que dans la méthode de l’analyse en composantes principales 

des sommets, elle peut être m · 2 n × m · 2 n . 

5.4 Exemples 

Nous avons analysé deux ensembles de données. D’abord, un ensemble de données déjà 

exploré dans le contexte de l’analyse en composantes principales des sommets, et ensuite 

un ensemble de données plus traditionnel dans l’analyse des tableaux de dissimilarités 

impliquant des dissimilitudes des jugées. Nous avons d’abord analysé l’exemple des 

huiles et des graisses (Ichino’s Oils and Fats data) parce que cet ensemble de données 

a été expliqué dans le contexte de l’analyse en composantes principales pour données de 

type intervalle et donc nous pouvons comparer nos résultats à ceux obtenus à partir des 

composantes principales. 

5.4.1 Exemple des huiles et des graisses 

L’ensemble de données des huiles et des graisses (les données d’Ichino [50, Ichino (1994)]) 

est montré dans le Tableau 5.1. Chaque ligne du tableau de données représente une classe 

d’huile décrite par 4 variables quantitatives de type intervalle: “Specific gravity”, “Freezing 

point”, “Iodine value” et “Saponification”. La matrice des distances ∆ qu’on a utilisé 

comme entrée pour INTERSCAL (méthode d’analyse des tableaux de dissimilarités de 

type intervalle) a été calculée en utilisant la matrice X qu’on a obtenu en normalisant 

la matrice des huiles et des graisses. Pour calculer ∆ on a employé les équations (5.12) 

et (5.13). En utilisant l’algorithme INTERSCAL on obtient le plan principal représenté 

dans la Figure 5.3. Si on emploie l’analyse en composantes principales des sommets avec


GRA FRE IOD SAP 

Linsed (L) [0.93, 0.935] [−27, −18] [170, 204] [118, 196] 

Perilla (P) [0.93, 0.937] [−5, −4] [192, 208] [188, 197] 

Cotton (Co) [0.916, 0.918] [−6, −1] [99, 113] [189, 198] 

Sesame (S) [0.92, 0.926] [−6, −4] [104, 116] [187, 193] 

Camellia (Ca) [0.916, 0.917] [−25, −15] [80, 82] [189, 193] 

Olive (O) [0.914, 0.919] [0, 6] [79, 90] [187, 196] 

Beef (B) [0.86, 0.87] [30, 38] [40, 48] [190, 199] 

Hog (H) [0.858, 0.864] [22, 32] [53, 77] [190, 202] 

Table 5.1: L’ensemble de données des huiles et des graisses. 

des données des huiles et des graisses on obtient les résultats qui sont montrés dans la 

Figure 5.4. 

La matrice des distances ∆ entre les individus de l’exemple des huiles et des graisses 

qu’on a employé comme entrée pour la méthode de l’analyse des tableaux de dissimilarités 

de type intervalle est présentée dans (5.11). On a calculé cette matrice en utilisant 

la matrice X (présenté dans (5.10)) qu’on a obtenu en normalisant la matrice du Tableau 

5.1. Pour calculer ∆, on a employé les équations (5.12) et (5.13).


⎡ 

X = 

⎢ 

⎣ 

[0.82, 1.00] [−1.49, −1.01] [1.15, 1.80] [−5.88, 0.65] 

[0.82, 1.08] [−0.32, −0.27] [1.57, 1.88] [−0.02, 0.73] 

[0.29, 0.37] [−0.37, −0.11] [−0.20, 0.06] [0.06, 0.82] 

[0.44, 0.67] [−0.37, −0.27] [−0.11, 0.12] [−0.10, 0.40] 

[0.29, 0.33] [−1.38, −0.85] [−0.57, −0.53] [0.06, 0.40] 

[0.22, 0.41] [−0.06, 0.26] [−0.59, −0.38] [−0.10, 0.65] 

[−1.79, −1.42] [1.53, 1.96] [−1.33, −1.18] [0.15, 0.90] 

[−1.87, −1.64] [1.11, 1.64] [−1.08, −0.62] [0.15, 1.15] 

⎤ 

⎥ 

⎦ 

(5.10) 

⎡ 

∆ = 

⎢ 

⎣ 

⎤ 

[0.00,6.58][0.69,6.77][1.34,7.16][1.22,6.70][1.75,6.78][1.85,7.21][4.11,8.69][3.70,8.70] 

[0.69,6.77][0.00,0.86][1.57,2.39][1.46,2.25][2.22,2.88][2.00,2.80][3.98,4.96][3.57,4.76] 

[1.34,7.16][1.57,2.39][0.00,0.85][0.07,1.08][0.58,1.61][0.18,1.30][2.57,3.57][2.33,3.40] 

[1.22,6.70][1.46,2.25][0.07,1.08][0.00,0.60][0.65,1.45][0.34,1.29][2.80,3.82][2.55,3.67] 

[1.75,6.78][2.22,2.88][0.58,1.61][0.65,1.45][0.00,0.63][0.79,1.76][3.00,4.12][2.76,3.93] 

[1.85,7.21][2.00,2.80][0.18,1.30][0.34,1.29][0.79,1.76][0.00,0.86][2.16,3.29][2.05,3.18] 

[4.11,8.69][3.98,4.96][2.57,3.57][2.80,3.82][3.00,4.12][2.16,3.29][0.00,0.95][0.10,1.56] ⎥ 

⎦ 

[3.70,8.70][3.57,4.76][2.33,3.40][2.55,3.67][2.76,3.93][2.05,3.18][0.10,1.56][0.00,1.24] 

(5.11) 

En utilisant notre algorithme INTERSCAL nous obtenons le plan principal représenté sur 

la Figure 5.3. 

Si on emploie l’analyse en composantes principales des sommets avec les données des 

huiles et des graisses présentées dans le Tableau 5.1, on obtient le résultat qui est montré 

dans la Figure 5.4. 

La structure de groupe obtenue dans la Figure 5.3 et dans la Figure 5.4 sont similaires 

parce que les groupes sont semblables et les tailles des rectangles sont proportionnelles. 

Ainsi l’interprétation des deux graphiques sera presque identique.


Figure 5.3: Plan principal de données des huiles et des graisses en utilisant l’algorithme 

INTERSCAL. 

Figure 5.4: Le plan principal symbolique avec la méthode des centres dual. 

5.4.2 Exemple de jugements de rectangles 

Les deuxièmes données que nous avons considérés se composent des jugements de la 

dissemblance des rectangles de différente aire et rapport haut–large, jugés par 16 sujets.


Ces données ont été présentées dans un papier sur la méthode de l’analyse des tableaux 

de dissimilarités contrainte ([74, Winsberg et De Soete, 1997]). D’autres chercheurs ont 

regardé les rectangles, cependant, en général, ils ont limité leur attention aux rectangles 

où la hauteur est plus grande que la largeur ou vice versa. Cet ensemble de données inclut 

tous les deux, des rectangles dont la hauteur est plus grande que la largeur et vice versa. 

Dans une étude des données de dominance de rectangle discutées par [14, Carroll (1972)] 

la dimension de consensus a assez bien correspondu à la taille; mais il était également clair 

dans ce cas que les sujets changent considérablement quant à ce que ils signifient par taille. 

Quelques sujets ont égalisé la taille à la hauteur, quelques uns à l’aire, d’autres à la largeur, 

et finalement quelques uns au rapport hauteur–largeur. Quand [74, Winsberg et De Soete, 

1997] ont analysé leurs données pour les 16 sujets, pris ensemble, trois dimensions ont 

été récupérés: la première était l’aire, qui se relie à la taille; la deuxième dimension était 

le rapport de hauteur–largeur, avec des valeurs récupérées tombant essentiellement dans 

trois catégories, selon si le rapport de hauteur–largeur était plus grand qu’un, égale à 

un, ou moins d’un, qui se relie à la position du rectangle, (haut–bas); la troisième était 

le rapport de hauteur–largeur, ou alternativement rapport de largeur–hauteur, tels que la 

valeur était inférieure ou égale à un, c’est–à–dire de forme carrée. Ainsi, la première 

dimension se relie à la taille, et les deux autres dimensions se relient à la forme. Trois 

classes latentes ont été trouvées dans l’analyse de CLASCAL [75, Winsberg et De Soete, 

1993]. La différence parmi les classes était principalement due à la façon dont ils ont pesé 

la dimension deux. 

Notre solution INTERSCAL, pour ces données, récupère les mêmes trois dimensions. 

Les Figures 5.5 et 5.6 montrent les résultats. La deuxième dimension sépare les rectangles 

dont la hauteur est inférieure à leur largeur dans la partie dessus de la Figure 5.5, de ceux 

dont la hauteur est plus grande que leur largeur dans la partie dessous de la Figure 5.5. La 

dimension un est liée à la forme carrée, c’est le rapport de largeur–hauteur ou le rapport 

de hauteur–largeur, n’importe lequel est inférieur à un. Les rectangles qui sont presque


Figure 5.5: Rectangles dont la hauteur est inférieure à leur largeur du côté droit. 

carrés sont dans le côté droit de la Figure 5.5. La troisième dimension est liée à la taille 

ou à l’aire avec les rectangles plus petits apparaissant sur le dessus de la Figure 5.6. 

Figure 5.6: a troisième dimension s’est reliée à la taille ou à l’aire des rectangles avec les 

plus petits apparaissant sur le dessus.


Notez que chaque object symbolique est représenté comme un hypercube de trois dimensions. 

Ainsi pour le rectangle numéro huit on a que a(w) = [Y 1 (w) ⊆ [4.43, 7.22]] ∧ 

[Y 2 (w) ⊆ [−35.12, −14.94]] ∧ [Y 3 (w) ⊆ [−0.05, 0.49]]. Les rectangles “psychologiques” 

occupent un hypercube de sorte que pour le rectangle object symbolique physique numéro 

huit, le modèle de l’objet psychologique correspondant est l’objet symbolique avec une 

conjonction de trois attributs, chacun décrit par un intervalle, un intervalle pour haut– 

bas [4.43, 7.22], un intervalle pour la forme carrée [−35.12, −14.94], (largeur–hauteur ou 

hauteur–largeur n’importe lequel est inférieur à un), et un intervalle pour l’aire ou la taille 

[−0.05, 0.49]. Notez que haut–bas n’est pas localisé avec précision. Il est représenté 

par un intervalle pour chaque objet symbolique, quoique les rectangles “physiques” entrent 

dans trois catégories sur cette variable c’est–à–dire, vers le haut, (la hauteur est plus 

grande que la largeur), vers le bas (la largeur est plus grande que la hauteur), ou ni l’un ni 

l’autre, (le rectangle est carré). Le haut–bas n’est pas localisé avec précision pour chaque 

rectangle “psychologique”, parce que pour certains des juges, cette dimension était plus 

importante que pour d’autres en faisant les jugements de dissimilitude, occasionnent que 

la distance entre les rectangles hauts et les rectangles bas être un intervalle. Notez que la 

taille de cet intervalle est plus petite pour ces rectangles qui sont plus presque carré, celui 

est ces rectangles dessous de la Figure 5.5. 

Ces résultats sont conformes aux résultats des analyses présentées dans [74, Winsberg 

et De Soete, 1997]. En plus, cette nouvelle technique indique précisément comment les 

rectangles sont localisés dans l’espace. Nous avons obtenu comme résultat intéressant que 

la taille de l’hypercube occupé par un rectangle est inversement lié à son aire (r = −0.72). 

Ceci indique qu’il est plus facile que les sujets distinguent des rectangles plus grands les 

uns des autres qu’il doit faire ainsi pour des rectangles plus petits.

Le programme INTERSCAL 154 

5.5 Le programme de l’algorithme INTERSCAL 

L’interface du programme est présentée dans la Figure (A.9). Avec le premier bouton 

de la barre à outils il est possible de démarrer le programme avec un tableau de données 

symbolique, puis le programme calcule la matrice de dissimilitudes ∆ en utilisant les 

équations (5.12) et (5.13), et avec le deuxième bouton de la barre à outils le programme 

démarre directement avec la matrice de dissimilarités. 

Proposition 10 [22, Denœux et Masson (1999)] Soient R Si 

l’hypercube défini dans R n 

par l’objet symbolique S i et R Sj l’hypercube défini dans R n par l’objet symbolique S j . 

Soient d ij et d ij le minimum et le maximum distance euclidiennes entre R Si et R Sj , alors: 

d ij = 1 ∑ 

√ n [ 

(xik ) ) 

− x ik + 

(x jk − x jk + 2 

x ik + x ik 

2 

∣ 2 

k=1 

d ij = 1 [ n∑ √ 

( ) ) 

xik − x ik + 

(x jk − x jk − 2 

4 

∣ 

k=1 

( ) ) 

∼ 

∣ xik − x ik + 

(x jk − x jk − 2 

∣ 

x ik + x ik 

2 

x ik + x ik 

2 

− x jk + x jk 

2 


2 


2 

2 

∣ 

∣] 

(5.12) 

∣ − ∼ 

2 ∣ 

∣∣] (5.13)

Conclusion 155 

Conclusion 

En ce qui concerne la classification, nous avons proposé deux algorithmes qui construisent 

une pyramide symbolique à partir d’une matrice de données symboliques. Le premier 

algorithme donne un ordre total compatible avec la pyramide de n objets, alors que 

le deuxième construit la pyramide à partir d’un ordre donné (a priori) sur les objets. Ces 

deux algorithmes, en plus de construire la pyramide, trouvent pour chaque palier l’objet 

symbolique associé, son extension et vérifient sa complétude. Les deux algorithmes peuvent 

également construire une pyramide même si le tableau de données symboliques a des 

variables de type intervalle, quantitatives discrètes ou de type histogramme. 

En ce qui concerne les modèles linéaires, nous avons généralisé au cas symbolique certains 

des indicateurs de la statistique d’une variable et de deux variables, comme par exemple: 

la moyenne, l’écart type et la corrélation, entre autres. Nous avons généralisé 

d’une part la méthode classique de la régression simple au cas des données symbol-


iques de type intervalle, et puis la méthode de l’Analyse en Composantes Principales 

des données de type intervalle dans deux sens: d’abord, nous avons étudié le problème 

de la dualité pour le cas de l’analyse en composantes principales pour des données de 

type intervalle et puis nous avons proposé trois manières de projeter les variables de type 

intervalle dans le cercle des corrélations. En suite, nous avons proposé une méthode pour 

l’analyse en composantes principales pour des données de type histogramme. Enfin, nous 

avons généralisé la méthode classique de l’analyse des tableaux de dissimilarités pour les 

disimilarités de type intervalle. 

Nous avons proposé plusieurs algorithmes: 

• Les algorithmes CAPS et CAPSO qui produisent une pyramide symbolique et qui 

sont une généralisation de l’algorithme CAP proposé par Diday. 

• Trois algorithmes différents pour appliquer l’analyse en composantes principales 

à tableaux des données avec des variables de type intervalle. Le dernier de ces 

algorithmes est optimal en temps d’exécution grâce à l’utilisation des relations de 

dualité. 

• Trois algorithmes différents pour la régression simple pour des données de type intervalle: 

l’algorithme Maximum–Minimum, l’algorithme Inférieur–Haut et l’algorithme 

des–Sommets. 

• L’algorithme pour l’analyse des tableaux de dissimilarités des données de type intervalle, 

qui est dénommé INTERSCAL. 

De plus, nous avons mis en application un logiciel pour chacun des algorithmes proposés 

dans cette thèse. Des programmes ont été mis en application pour la classification 

pyramidale symbolique, l’analyse en composantes principales pour des données de type 

intervalle, l’analyse en composantes principales pour des données de type histogramme,


l’algorithme INTERSCAL pour la méthode d’analyse des tableaux de proximités de type 

intervalle et pour la régression linéaire symbolique. 

Les perpectives du développement de l’analyse des données symbolique sont énormes, en 

ce qui concerne le développement de nouvelles techniques de l’analyse des données symboliques 

ainsi que le développement des algorithmes et du logiciel. En ce qui concerne 

les méthodes étudiées dans cette thèse, il y a beaucoup d’aspects à développer, comme 

par exemple: 

• L’élimination des paliers inutiles ou superflus dans les pyramides symboliques. 

• L’étude du consensus parmi les pyramides symboliques et la mise au point d’algorithmes 

de consensus. 

• En ce qui concerne l’analyse en composantes principales pour des données de type 

histogramme, la construction des cercles de corrélation. 

• Dans l’analyse factorielle, la généralisation de l’analyse factorielle des correspondances 

au cas de variables qualitatives ensemble–évalué (set–value). 

• Concernant la régression, il y a beaucoup de choses qui devraient être faites, par 

exemple: la régression sur les variables nominales ensemble–évalué, les tests symboliques 

et l’étude de la qualité de l’ajustement. 

• Dans l’analyse des tableaux de dissimilarités pour les dissimilarites de type intervalle, 

il reste à étudier les modèles à trois indices, la spécificité et la généralisation 

de l’analyse des tableaux de dissimilarités pour les dissimilarités de type histogramme. 

De même, il reste à étendre l’étude au cas de la minimization d’un critère numérique 

par l’utilisation d’une technique d’optimisation telle que le recuit simulé, la recherche 

tabou ou la majorisation.

Bibliography 

[1] Aude J.C. Analyse de génomes microbiens: Apports de la classification pyramidale. 

Thèse de doctorat, Université Paris IX Dauphine, 1999. 

[2] Bertrand P. Etude de la représentation pyramidale, Thèse de 3 cycle, Université 

Paris IX-Dauphine, 1986. 

[3] Bertrand P. et Diday E. Une géneralisation des arbres hiérarchiques: Les 

représentations pyramidales, Statistique Appliquée, Vol. 3, 53-78, 1990. 

[4] Bertrand P. et Goupil F. Descriptive statistics for symbolic data, In: Symbolic official 

data analysis, Springer, 103-124, 1999. 

[5] Billard L. and Diday E. Regression analysis for interval–value data, In data analysis, 

classification and related methods, Eds. Kiers H., Rasson J., Groenen P. and 

Schader M., IFCS 2000. 

[6] Borg I. and Groenen P. Modern Multidimensional Scaling – Theory and Applications, 

Springer–Verlag, New York, 1997. 

[7] Bock H-H. and Diday E. (eds.) Analysis of Symbolic Data. Exploratory methods for 

extracting statistical information from complex data. Springer Verlag, Heidelberg, 

425 pages, 2000. 

158

Bibliographie 159 

[8] Bravo C. Strata decision tree SDA software, In data analysis, classification and 

related methods, Eds. Kiers H., Rasson J., Groenen P. and Schader M., IFCS 2000. 

[9] Brito P. Analyse de données symboliques: Pyramides d’héritage, Thèse de doctorat, 

Université Paris IX Dauphine, 1991. 

[10] Brito P. Symbolic pyramidal clustering, Indo–French Workshop on symbolic data 

analysis ans its applications, Université Paris 9 Dauphine, 1997. 

[11] Brito P., Diday E. y Rodríguez O. Algoritmos para la Clasificación Piramidal Simbólica. 

Por aparecer en Revista de Matemática: Teoría y Aplicaciones, Universidad 

de Costa Rica, 2000. 

[12] Brito P. Galois correspondances in symbolic data analysis. Fac. Economia, Univ. 

Porto, Portugal, 1999. 

[13] Bry X. Analyses factorielles simples, Ed. Economica, Paris, 1995. 

[14] Carroll J.D. Individual Differences and Multidimensional Scaling. in Multidimensional 

Scaling Theory and Applications in the Behavioral Sciences, vol I, Theory, 

New York: Seminar Press, 1972. 

[15] Casin P. Analyse des données et des panels de données, Ed. DeBoech Université, 

Paris, 1999. 

[16] Cazes P., Chouakria A., Diday E. et Schektman Y. Extension de l’analyse en composantes 

principales à des données de type intervalle, Rev. Statistique Appliquée, 

Vol. XLV Num. 3 pag. 5-24, Francia, 1997. 

[17] Chouakria A. Extension des méthodes d’analyse factorielle à des données de type 

intervalle, Thèse de doctorat, Université Paris IX Dauphine, 1998. 

[18] Coad P. and Yourdon E. Object-Oriented analysis, Yourdon Press,Texas USA, 

1991.


[19] Coad P. and Yourdon E. Object-Oriented design, Yourdon Press,Texas USA, 1991. 

[20] Cox T. and Cox M. Multidimensional Scaling, Chapman and Hall, New York, 1994. 

[21] De Carvalho F.A.T. Proximity coefficients between boolean symbolic objects, in 

New Approaches in Classification and Data Analysis. E. Diday et al. edit. pp. 387- 

394. Springer–Verlag, 1994. 

[22] Denoeux T. and Masson M. Multidimensional Scaling of interval–valued dissimilarity 

data. Université de Technologie de Compiègne, France, 1999. 

[23] Diday E., Emilion R. Lattices and Capacities in Analysis of Probabilist Objects. 

OSDA’95. Springer Verlag, 1996. 

[24] Diday E., Emilion R., Hillali Y. Symbolic Data Analysis of Probabilistic objects 

by capacities and credibilities. Atti della XXXVIII. Riunione Società Italiana Di 

Statistica. Rimini, 1996. 

[25] Diday E., Emilion R. Stochastic Lattices Proc. of the Int. Conf. on Ordinal and 

Symbolic Data Analysis. Edit.: Technische Hochschule Darmstadt, Fachbereich 

Mathematik, Darmstadt D-64289, 1997. 

[26] Diday E., Emilion R. A mesure que la connaissance des objets s’améliore, les 

concepts s’organisent se précisent et se stabilisent. Actes des Journées de la Société 

francophone de classification. Lyon, 1997. 

[27] Diday E., Emilion R. Treillis de Galois maximaux et Capacités de Choquet. CR 

Acad. Sci. Paris. Analyse Mathématique, t. 324, série 1, 1997. 

[28] Diday E. Une représentation visuelle des classes empiétantes. Rapport INRIA n. 

291. Rocquencourt 78150, France, 1984. 

[29] Diday E. Lemaire J., Pouget J., Testu F. Eléments d’Analyse des Données. Dunod, 

Paris, 1984.


[30] Diday E. Introduction à l’approche symbolique en Analyse des Donnés. Premières 

Journées Symbolique-Numérique. Université Paris IX Dauphine. Décembre 1987. 

[31] Diday E. Introduction à l’approche symbolique en analyse des données. RAIRO 

(Revue d’Automatique, d’Informatique et de Recherche Opérationnelle), vol. 23, 

num. 2, 1989. 

[32] Diday, E. Des objets de l’analyse des données à ceux de l’analyse des connaissances. 

In: Y. Kodratoff and E. Diday (eds.), 9-75, 1991. 

[33] Diday, E. An introduction to symbolic data analysis. Tutorial of the 4th Conference 

of IFCS, Paris. Report INRIA no. 1936. Paris, 1993. 

[34] Diday, E. Probabilist, possibilist and belief objects for knowledge analysis. Annals 

of Operations Research 55, 227-276, 1995. 

[35] Diday, E. From data to knowledge: Probabilistic objects for a symbolic data analysis. 

In: DIMACS Series in Discrete Mathematics and Theoretical Computer Science 

19, 1995. 

[36] Diday, E. Extracting information from multivalued surveys or from very extensive 

data sets by symbolic data analysis. In: A. Ferligoj (ed.): Advances in methology, 

data analysis and statistics. Methodoloski zveski 14, FDV, Ljubljana, 1996. 

[37] Diday, E. Symbolic data analysis: A mathematical framework and tool for data 

mining. In: A. Rizzi, M. Vichi, H.H. Bock (eds.) (1998): Advances in data science 

and classification. Proc. 6th Conf of the International Federation of Classification 

Societies (IFCS-98), Rome, July 1998. Springer Verlag, Heidelberg, 1998,409-416, 

1998. 

[38] Diday E. L’Analyse des Données Symboliques: un cadre théorique et des outils. 

Cahiers du CEREMADE, 1998.


[39] Diday E. An Introduction to symbolic data analysis ans its application to the SO- 

DAS project: purpose, history and perspective, Paris IX–University Dauphine, 

Paris, 1999. 

[40] Diday E. and Bisdorff R. Symbolic data analysis and the SODAS software in official 

statistics, In: data analysis, classification and related methods, Eds. Kiers H., 

Rasson J., Groenen P. and Schader M., IFCS 2000. 

[41] Diday E. and Rodríguez, O. (eds.) Workshop on Symbolic Data Analysis. PKDD– 

Lyon, 2000. 

[42] Diday E. Objetos probabilísticos, posibilísticos y creencia para el análisis de 

conocimientos. Simposios VII y VIII de métodos matemáticos aplicados a las ciencias. 

Ed. Universidad de Costa Rica, Eds Castillo W. y Trejos J., San José, Costa 

Rica, 1994. 

[43] Gettler Summa M. Factorial axis interpretation by symbolic objects, Actes des 

Journées Symbolique-Numérique, Ed. E. Diday, Y. Kodratoff, S. Pinson. Editeurs 

Univ. Paris IX–Dauphine. 

[44] Gil A., Capdevila C. and Arcas A. On the efficiency and sensitivity of a pyramidal 

classification algorithm, Economics working paper 270, Barcelona, 1998. 

[45] Gower, J. C. Some distances properties of latent root and vector methods using 

multivariate analysis. Biometrika, 53, 325–338, 1966. 

[46] Gowda C., Diday E. Symbolic clustering using a new dissimilarity measure, Pattern 

Recognition, Vol. 24, num. 6, 1991. 

[47] Gowda C., Diday E., A new similarity measure for clustering Hoard and Synthetic 

type of symbolic objects, IEEE Trans. Pattern Analysis and Machine Intelligence, 

Vol. 22, n2, 368-378, 1992.


[48] Greenacre M. J. Theory and applications of correspondence analysis, Academic 

Press, New York, 1984. 

[49] Hébrail G. and Lechevallier Y. DB2SO A software for building symbolic objects 

from databases, In: Data analysis, classification and related methods, Eds. Kiers 

H., Rasson J., Groenen P. and Schader M., IFCS 2000. 

[50] Ichino M. Generalized Minkowsky metrics for mixed features type data analysis. 

IEEE, transactions on systems, man and cybernetics, vol. 24, num 4, 1994. 

[51] Lauro C., Verde, R. and Palumbo, F. Factorial Discriminant Analysis on Symbolic 

Objects. In Bock, H. H. and Diday E. (eds). Analysis of Symbolic Data, Springer 

Verlag, Heidelberg, 1999. 

[52] Lauro C., Verde, R. and Palumbo, F. Factorial Methods with Cohesion Constrainsts 

on Symbolic Objects. In: Data analysis, classification and related methods, Eds. 

Kiers H., Rasson J., Groenen P. and Schader M., IFCS 2000. 

[53] Lebart L., Morineau A., Piron M. Statistique Exploratoire Multidimensionnelle, 

Dunod, Paris, 1995. 

[54] Lécluse, Richard y Velez. un modelo de datos orientado a objetos, IEEE computer, 

vol 25, No. 10, octuber 1992. 

[55] Mfoumoune E. Les aspects algorithmiques de la classification ascendante pyramidale 

et incrémentale. Thèse de doctorat, Université Paris IX Dauphine, 1998. 

[56] Rodríguez, O., Introducción a la programación C++ para ambiente Windows. Editorial 

Tecnológica de Costa Rica, Cartago, Costa Rica, 1997. 

[57] Rodríguez O., Desarrollo orientado a objetos: una aplicación al análisis de datos, 

Tesis de maestría presentada en el Instituto Tecnológico de Costa Rica, Cartago, 

1994.


[58] Rodríguez O., Symbolic correlation circle in principal component analysis, IFCS 

2000. 

[59] Rodríguez O. and Diday E., Symbolic pyramidal clustering: An algorithm and 

software, IFCS 2000. 

[60] Rodríguez O., Diday E. and Winsberg S., Multidimensional scaling for interval 

data, IFCS 2000. 

[61] Polaillon G. Organisation et interprétation par les treillis de Galois de données de 

type multivalué, intervalle ou histogramme. Thèse de doctorat, Université Paris IX 

Dauphine, 1998. 

[62] Périnel E. Segmentation et analyse des données symboliques: application à des 

données probabilistes imprécises. Thèse de doctorat, Université Paris IX Dauphine, 

1996. 

[63] Polaillon G. et Diday E., Galois lattices: construction and application in Symbolic 

Data Analysis. Cahiers de Mathématiques du CEREMADE N 9631. CEREMADE, 

Université Paris 9 Dauphine, 1996. 

[64] Saporta G., L’Analyse des Données. Que sais-je?. Presses Universitaires de France, 

Paris, 1980. 

[65] Snyder A. The essence of objects: Concepts and terms, IEEE software, vol 10, 

No.1, January 1993. 

[66] Stéphan V. Description de classes par des assertions Ecole d’été Sept. 1996. Lise- 

CEREMADE. Univ. Paris IX Dauphine et INRIA (Rocquencourt 78150, France), 

1996. 

[67] Stéphan V. Construction d’objects symboliques par synthèse des résultats de 

requêtes SQL. Th`‘ese de doctorat, Université Paris IX Dauphine, 1998.


[68] Stéphan V., Hébrail G., Lechevallier Y. Improving symbolic descriptions of sets of 

individuals: the reduction of assertions. In 8 th intemational symposium on Applied 

Stochastic Models and Data Analysis, 407-412, Anacapri, Italy, 1997. 

[69] Stéphan V., Hébrail G., Lechevallier Y. Generation of Symbolic Objects from Relational 

Databases. In Analysis of Symbolic Data, Exploratory methods for extracting 

statistical information from complex data, Springer-Verlag, 1999. 

[70] Torgenson W. S. Multidimensional scaling: 1 Theory and method, Psychometrika, 

17, 401–419, 1952. 

[71] Torgenson W. S. Theory and methods of scaling, Wiley, New York, 1958. 

[72] Trejos, J. Principios de estadística matemática, Universidad de Costa Rica, San 

José, 1998. 

[73] Wegner P. Dimensions of Object–Oriented modeling, IEEE computer, vol 25, No. 

10, octuber 1992. 

[74] Winsberg, S. and DeSoete, G. Multidimensional scaling with constrained dimensions: 

CONSCAL, British Journal of Mathematical and Statistical Psychology , 50, 

55-72, 1997. 

[75] Winsberg, S. and DeSoete, G. A Latent class approch to fitting the wighted Euclidean 

model, CLASCAL, Psychometrika, 58, 315-331, 1993. 

[76] Ziani D. Sélection de variables sur un ensemble d’objets symboliques, Thèse, Paris 

IX–Dauphine, 1996.

Appendix A 

Programme Intégré de Méthodes 

d’Analyse des Données Symboliques 

(PIMAD–Symbolique) 

Pour chacune des méthodes développées dans cette thèse nous avons mis en application 

un outil logiciel en C++. Des programmes ont été mis en application pour la classification 

pyramidale symbolique, l’analyse en composantes principales pour des données de type 

intervalle, l’analyse en composantes principales pour des données de type histogramme, 

l’algorithme INTERSCAL pour la méthode d’analyse des tableaux de proximités de type 

intervalle et pour la régression linéare symbolique. Ce logiciel est dénommé “Programme 

Intégré de Méthodes d’Analyse des Données Symboliques” (PIMAD–Symbolique). 

Dans cette annexe nous expliquerons comment installer et comment on peut désinstaller 

le logiciel PIMAD–Symbolique, nous expliquerons également en détail comment chacun 

des modules est employé. Pour faciliter l’utilisation des modules, ceux ci ont été conçus 

de telle manière que tous soient employés d’une façon très semblable au moyen d’une 

barre d’outils. 

166

Programme Intégré de Méthodes d’Analyse des Données Symboliques 167 

A.1 L’installation et la désinstallation 

Pour installer le logiciel on doit exécuter le programme INSTALL.EXE qui est dans le 

disque numéro un, on doit ensuite continuer les instructions que le programme d’installation 

présente. Quand le logiciel d’installation finit son exécution automatiquement il installe 

dans le menu Démarrer/Programmes de Windows une fenêtre avec les icônes de 

chacun des modules de PIMAD–Symbolique, comme il est montré dans la Figure A.1. 

Pour désinstaller le PIMAD–Symbolique on doit exécuter le programme Desinstall 

qui est montré dans Figure A.1. 

Figure A.1: PIMAD–Symbolique dans le menu Démarrer de Windows. 

A.2 Le module de classification ascendante pyramidale 

symbolique 

Pour exécuter le module de classification ascendante pyramidale symbolique 

on doit cliquer sur l’icône “Pyramidal Clustering” qui est montré dans


la Figure A.1. Quand ce programme est exécuté la fenêtre principale qui est montrée sur 

la Figure A.2 apparaît. La manière le plus facile d’utiliser tous les modules de PIMAD– 

Symbolique est par la barre d’outils, dans le Tableau A.1 on explique la fonction de chacun 

des boutons de la barre à outils aussi bien que ses équivalents dans le menu principal. 

Figure A.2: Fenêtre principal du module de classification ascendante pyramidale symbolique. 

Il est important de savoir que le format des dossiers d’entrée de PIMAD–Symbolique 

est le même qui celui employé par le système SODAS (voir [7, Bock H-H. et Diday E. 

(2000)]) (excepté le module INTERSCAL d’analyse des tableaux de dissimilarités de 

type intervalle). 

Le premier et les deux derniers boutons du Tableau A.1 sont employés dans tous les 

modules de PIMAD–Symbolique. En plus de ces trois boutons, les boutons du Tableau 

A.2 sont également employés dans tous les modules de PIMAD–Symbolique, et ils sont 

employés pour éditer les dossiers d’entrée et de sortie du logiciel PIMAD–Symbolique. 

Le bouton de sélection de variables 

est aussi employé dans les modules d’analyse


Fonction 

Equivalents dans le menu 

Ouvrir le tableau de données symbolique 

File/Open the Data Table... 

Ouvrir la matrice de dissimilarités 

File/Open the Matrix of Dissimilarity... 

Choisir les variables 

Classification/Select the Variables 

Lire l’ordre initial des objets symboliques 

Classification/Read the order 

Construire la pyramide (exécuter l’algorithme) 

Classification/Build the Pyramid... 

Graphique la pyramide 

Classification/Graphic the Pyramid 

Changer la taille de la pyramide 

Options/Change the Clusters Height 

Imprimer le graphique 

File/Print Graphic... 

Effacer le graphique 

Classification/Erase the Graphic 

Table A.1: Barre d’outils du module de Pyramide. 

en composantes principales pour des données de type intervalles et dans le module de 

régression linéaire symbolique. Quand on clique sur ce bouton le programme présente la 

boîte de dialogue qu’on présente dans la Figure A.3. Pour sélectionner une variable il faut 

déplacer la souris sur l’étiquette de la variable et cliquer deux fois. On doit encore cliquer 

deux fois sur l’étiquette de la variable pour éliminer la sélection. Les boutons pour ouvrir 

le tableau de données symbolique , pour imprimer le graphique , et pour effacer le 

graphique sont aussi employés dans tous les modules de PIMAD-Symbolique. 

A.3 Le module d’analyse en composantes principales pour 

des données de type intervalle 

Pour exécuter le module d’analyse en composantes principales pour 

des données de type intervalle on doit cliquer sur l’icône “Principal Component


Fonction 


Nouveau tableau de données 

File/New Data Table 

Ouvre un document SODAS existant 

File/ Open Data Table for Edition 

Enregistrer ce document 

File/Save the Data Table 

Imprimer ce document 

File/Print the Data Table... 

Coupe la sélection et le met sur le presse–papiers 

Edit/Cut 

Copie la sélection et le met sur le Presse–papiers 

Edit/Copy 

Insère le contenu du presse-papiers au point de l’insertion 

Edit/Paste 

Renverse la dernière opération 

Edit/Undo 

Il présente l’aide 

Help/Contents 

Arrêter le programme 

File/Exit 

Table A.2: Barre d’outils communs à tous les modules de PIMAD–Symbolique. 

Figure A.3: La boîte de dialogue pour la selection de variables. 

Analysis” qui est montré dans la Figure A.1. Quand ce programme est exécuté la 

fenêtre principal qui est montrée sur la Figure A.4 apparaît. La manière la plus simple 

d’utiliser ce module est aussi par la barre d’outils, dans le Tableau A.3 on explique la fonction 

de chacun des boutons de la barre d’outils que nous n’avons pas encore expliqués, et


on explique aussi ses équivalents dans le menu principal. 

Figure A.4: Fenêtre principale du module d’analyse en composantes principales pour des 

données de type intervalle. 

Le module d’analyse en composantes principales pour des données de type intervalles a 

un menu dénommé “Step-by-Step” au moyen duquel on peut exécuter l’algorithme 

étape par étape, c’est–à–dire, dans une telle manière que on peut voir et enregistrer dans un 

dossier les calculs intermédiaires, tels que la matrice des corrélations, les valeurs propres, 

les vecteurs propres, les composantes principales symboliques et les corrélations symboliques 

entre les variables et les composantes. Le module d’analyse en composantes principales 

pour des données de type intervalle a aussi un menu dénommé “Options/Choose 

the Method” par lequel l’utilisateur peut choisir l’algorithme qu’il veut employer. Si 

l’utilisateur choisit cette option le programme lui présentera la boîte de dialogue qui est 

présenté dans la Figure A.5. 

Si l’utilisateur choisit “Center” et “Dual” le programme exécutera l’algorithme 4.4 

pour calculer les composantes principales symboliques et aussi les corrélations sym-


Fonction 


Enregistrer tous les calculs effectués par le système 

File/Save in a File the Final Result 

Construire et dessiner le plan principal 

PCA/Principal Plan 

Construire et dessiner le cercle des corrélations 

PCA/Correlation Circle 

Calculer les paramètres d’interprétation 

PCA/Interpretation Parameters 

Changer la taille du graphique dans l’écran 

PCA/Size Change 

Table A.3: Barre d’outils du module d’analyse en composantes principales pour des 

données de type intervalle. 

Figure A.5: Boîte de dialogue pour choisir l’algorithme. 

boliques entre les composantes principales symboliques et les variables, et s’il choisit 

“Center” et “Definition” alors le programme exécutera l’algorithme 4.4 pour calculer 

les composantes principales symboliques et l’algorithme 4.1 pour calculer les corrélationes 

symboliques entre les composantes principales symboliques et les variables. Au contraire, 

si l’utilisateur choisit “Top” et “Dual” le programme exécutera l’algorithme 3.1


présenté dans [16, Cazes, Chouakria, Diday and Schektman (1997)] pour calculer les 

composantes principales symboliques et l’algorithme 4.5 pour calculer les corrélationes 

symboliques entre les composantes principales symboliques et les variables, et s’il choisit 

“Top” et “Definition” alors le programme exécutera l’algorithme 3.1 présenté dans 

[16, Cazes, Chouakria, Diday and Schektman (1997)] pour calculer les composantes principales 

symboliques et l’algorithme 4.1 pour calculer les corrélationes symboliques entre 

les composantes principales symboliques et les variables. 

A.4 Le module d’analyse en composantes principales pour 

des données de type histogramme 

Pour exécuter le module d’analyse en composantes principales pour 

des données de type histogramme on doit cliquer sur l’icône “Histogram Principal 

Component Analysis” qui est montré dans la Figure A.1. Quand ce programme est 

exécuté, la fenêtre principale qui est montrée sur la Figure A.6 apparaît. 

Ce module est utilisé de la même manière que le module d’analyse en composantes principales 

pour des données de type intervalles, on devrait exécuter ce module si on veut 

exécuter l’algorithme 4.7. Les données d’entrée pour ce module doivent être dans le 

format SODAS, et elles peuvent combiner les variables de type continu, intervalle et de 

type histogramme. Si toutes les variables sont de type intervalle le programme produit 

la même sortie que le module d’analyse en composantes principales pour des données de 

type intervalle, parce que l’algorithme 4.7 est une généralisation de l’algorithme 4.2.


Figure A.6: Fenêtre principale du module d’analyse en composantes principales pour des 

données de type histogramme. 

A.5 Le module de régression linéare symbolique 

Pour exécuter le module de régression symbolique simple on doit cliquer 

sur l’icône “Linear Regression” qui est montré dans la Figure A.1. Quand ce 

programme est exécuté, la fenêtre principale qui est montrée sur la Figure A.7 apparaît. 

Avec ce module on peut effectuer la régression symbolique simple en utilisant quatre 

algorithmes différents. Les statistiques descriptives élémentaires symboliques définies 

par Bertrand et Goupil dans ([7, Bock et Diday (2000)]) peuvent être calculées avec ce 

module et on peut aussi calculer les statistiques descriptives élémentaires symboliques 

(entrée et sortie symbolique) définies dans le chapitre 3 de cette thèse. La manière la 

plus facile d’utiliser ce module est aussi par la barre d’outils, dans le Tableau A.4 on 

explique la fonction de chacun des boutons de la barre d’outils que nous n’avons toujours


Figure A.7: Fenêtre principal du module de régression symbolique simple. 

pas expliqués, on explique aussi ses équivalents dans le menu principal. 

Pour faire les calculs, d’abord vous devriez sélectionner le dossier de données en format 

SODAS avec le bouton , alors les variables devraient être choisies en utilisant le bouton 

, si on veut calculer la covariance, la corrélation ou faire la régression linéaire on 

devrait choisir seulement deux variables. Pour la régression linéare la variable explicative 

devrait être choisie d’abord. 

Quand l’utilisateur choisit le bouton pour effectuer la régression linéaire le programme 

déploie la boîte de dialogue qui est présenté dans la Figure A.8. À l’aide de cette boîte 

de dialogue, l’utilisateur peut choisir un titre pour le graphique, déterminer le nombre de 

classes, choisir l’algorithme voulu (parmi les algorithmes présentés dans le chapitre 2 de 

cette thèse) et l’utilisateur peut aussi choisir un intervalle de prédiction.


Fonction 


Calcule la moyenne arithmétique 

Descriptive-Statistics/Mean 

Calcule la médiane 

Descriptive-Statistics/Median 

Calcule la moyenne des extrêmes 

Descriptive-Statistics/Mean of the Extreme Values 

Calcule la variance 

Descriptive-Statistics/Variance 

Calcule l’écart type 

Descriptive-Statistics/Standard Deviation 

Calcule le coefficient de variation 

Descriptive-Statistics/Coefficient of Variation 

Calcule la déviation moyenne 

Descriptive-Statistics/Mean Deviation 

Calcule la déviation quartile 

Descriptive-Statistics/Deviation Quartil 

Produit un histogramme 

Descriptive-Statistics/Histogram 

Produit un diagramme des barres 

Descriptive-Statistics/Polygon of Frequencies 

Produit une boîte de dispersion 

Descriptive-Statistics/Dispersion Boxes 

Calcule la covariance 

Regression/Covariance 

Calcule la corrélation 

Regression/Correlation 

Produit un diagramme de dispersion 

Regression/Diagram of Dispersion 

Trace la droite de régression 

Regression/Linear Regression 

Table A.4: Barre d’outils du module de régression linéale symbolique. 

A.6 Le module de l’algorithme INTERSCAL pour la méthode 

d’analyse des tableaux de proximités de type intervalle 

Pour exécuter le module pour l’algorithme INTERSCAL pour la méthode 

d’analyse des tableaux de proximités de type intervalle, on doit cliquer sur l’icône 

“Multidimensional Analysis” qui est montré dans la Figure A.1. Quand ce programme 

est exécuté la fenêtre principale qui est montrée dans la Figure A.9 apparaît.


Figure A.8: Options du module de régression. 

Ce module est utilisé d’une manière très semblable aux modules d’analyse en composantes 

principales. Si l’utilisateur ouvre le dossier des données avec le bouton 

alors le programme démarre avec un tableau des données symboliques dans le format 

SODAS, tout de suite le programme calcule la matrice de disimilarities en utilisant les 

équations (5.12) et (5.13). Au contraire si l’utilisateur charge le dossier des données avec 

le bouton , alors le programme exécute l’algorithme INTERSCAL directement à partir


Figure A.9: Fenêtre principal du module pour l’algorithme INTERSCAL. 

de la matrice des dissimilarités. Cette matrice des dissimilarités doit être dans un dossier 

ASCII dont le premier nombre doit être un entier M qui indique la quantité de lignes de 

la matrice et dont le deuxième nombre doit également être un entier qui indique la quantité 

de colonnes 2 · N de la matrice. Alors le programme lit M ∗ N distances minimum et 

maximum. 

Par exemple, dans le dossier suivant sont enregistrés le minimum et le maximun distances 

des parmi 3 objets symboliques: 

3 3 

0.0000000 6.5791700 0.6889117 6.7661952 1.3380545 7.1580905 

0.6889117 6.7661952 0.0000000 0.8552774 1.5742122 2.3863359 

1.3380545 7.1580905 1.5742122 2.3863359 0.0000000 0.8452722

Résumé 179 

Résumé 

Ce travail s’inscrit dans le cadre de l’analyse de données symbolique. Le but de ce travail 

est de généraliser au cas symbolique certaines techniques de la classification automatique, 

aussi bien que quelques modèles linéaux. Ces généralisations seront toujours 

faites d’après deux principes fondamentaux de l’analyse de données symbolique, à savoir: 

L’analyse de données classique devrait être toujours un cas particulier de l’analyse de 

données symbolique et dans une analyse de données symbolique, tant la sortie comme 

la entrée devraient être symboliques. Nous présentons deux nouveaux algorithmes, qui 

généralisent au cas symbolique de l’algorithme CAP, l’algorithme CAP et l’algorithme 

CAPSO. Nous généralisons, pour les variables de type intervalle, la moyenne, la médiane, 

la moyenne des valeurs extrêmes, l’écart type, la déviation quartile, boîtes de dispersion 

(boxplot) et la corrélation. Trois nouvelles méthodes sont aussi présentées pour 

effectuer la régression simple pour les variables de type intervalle. Nous étendons la 

méthode d’analyse en composantes principales pour données de type histogramme, nous 

généralisons le cercle des corrélations au cas des variables de type intervalle. Nous proposons 

une méthode pour l’analyse des tableaux de proximités (multidimensional scaling) 

pour des données de type intervalle, que nous avons dénommée INTERSCAL. Pour 

chacune des méthodes présentées dans cette thèse un outil de logiciel a été mis en application. 

Ce logiciel a été dénommé PIMAD-Symbolique (Programme Intégré de 

Méthodes d’Analyse de Données Symbolique). 

Mots–clés: analyse de données symbolique, classification automatique, modèles linéaux, 

algorithme, pyramide, intervalle, régression simple, histogramme, Tableaux de proximités, 

analyse en composantes principales.

Abstract 180 

Classification and Linear Models in Symbolic Data 

Analysis 

Abstract 

This work is framed inside the symbolic data analysis. The objective of this work is to 

generalize to the symbolic case certain techniques of the automatic classification, as well 

as some linear models. These generalizations will always be made following two fundamental 

principles in Symbolic Data Analysis like they are: Classic Data Analysis should 

always be a case particular case of the Symbolic Data Analysis and both, the exit as the 

input in an Symbolic Data Analysis should be symbolic. We present two new algorithms, 

which are a generalization to the symbolic case of the algorithm CAP. The first of these 

two, denominated CAPS and the second algorithm denominated CAPSO. We generalize 

for variables of type interval the mean, the median, the mean of the extreme values, the 

standard deviation, the deviation quartil, the dispersion boxes and the correlation also 

three new methods are also presented to carry out the lineal regression for variables of 

type interval. We extend the method of Principal Components Analysis in two senses: 

First, we propose three ways to project the interval variables in the circle of correlations 

in such way that is reflected the variation or the inexactness of the variables. Second, we 

propose an algorithm to make the Principal Components Analysis for variables of type 

histogram. We propose a method for multidimensional scaling of interval data, denominated 

INTERSCAL. For each one of the methods presented in this thesis a software tool 

was implemented denominated PIMAD-Symbolique. 

Keywords: symbolic data analysis, automatic classification, linear models, algorithm, 

pyramid, interval, lineal regression, Principal Components Analysis, histogram, multidimensional 

scaling.

Classification et Mod`eles LinÃ©aires en Analyse ... - Youblisher.com

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?