28.11.2014 Views

Classification et Mod`eles Linéaires en Analyse ... - Youblisher.com

Classification et Mod`eles Linéaires en Analyse ... - Youblisher.com

Classification et Mod`eles Linéaires en Analyse ... - Youblisher.com

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Université Paris IX–Dauphine<br />

U.F.R. Mathématique de la Décision<br />

Thèse<br />

l’obt<strong>en</strong>tion du titre de<br />

Docteur <strong>en</strong> Informatique<br />

Prés<strong>en</strong>tée <strong>et</strong> sout<strong>en</strong>ue par<br />

Oldemar RODRIGUEZ ROJAS<br />

Suj<strong>et</strong> de la Thèse<br />

<strong>Classification</strong> <strong>et</strong> Modèles Linéaires<br />

<strong>en</strong> <strong>Analyse</strong> des Données Symboliques<br />

JURY<br />

Directeur de thèse<br />

Rapporteurs<br />

Suffrageants<br />

Edwin DIDAY<br />

Professeur à l’Université Paris IX–Dauphine, France<br />

Gilbert SAPORTA<br />

Professeur au Conservatoire National des Arts <strong>et</strong> Métiers, France<br />

Suzanne WINSBERG<br />

Professeur à l’Université de Rutgers, Etats–Unis<br />

Paula BRITO<br />

Professeur à l’Université de Porto, Portugal<br />

Pierre CAZES<br />

Professeur à l’Université Paris IX–Dauphine, France<br />

Rosanna VERDE<br />

Professeur à l’Université Federico II, Italie<br />

Prés<strong>en</strong>tée <strong>et</strong> sout<strong>en</strong>ue publiquem<strong>en</strong>t le 14 novembre 2000


Cont<strong>en</strong>ts<br />

Introduction 12<br />

1 Prés<strong>en</strong>tation de l’<strong>Analyse</strong> des Données Symboliques 18<br />

1.1 Données symboliques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />

1.2 Obj<strong>et</strong>s symboliques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21<br />

1.3 Propriétés <strong>et</strong> opérateurs des obj<strong>et</strong>s symboliques . . . . . . . . . . . . . . 23<br />

2 <strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 27<br />

2.1 Définitions préliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . 27<br />

2.2 Algorithme de <strong>Classification</strong> Pyramidale Symbolique . . . . . . . . . . . 32<br />

2.3 Algorithme de <strong>Classification</strong> Pyramidale Symbolique avec Ordre Donné . 45<br />

2.4 Théorèmes de converg<strong>en</strong>ce . . . . . . . . . . . . . . . . . . . . . . . . . 50<br />

2.5 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51<br />

3 La Régression Symbolique 60<br />

3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60<br />

2


3<br />

3.2 Statistiques descriptives pour de données symboliques . . . . . . . . . . 61<br />

3.2.1 La moy<strong>en</strong>ne symbolique . . . . . . . . . . . . . . . . . . . . . . 61<br />

3.2.2 La médiane symbolique . . . . . . . . . . . . . . . . . . . . . . 63<br />

3.2.3 Perc<strong>en</strong>tiles symboliques <strong>et</strong> déviation quartile symbolique . . . . . 64<br />

3.2.4 La moy<strong>en</strong>ne symbolique des valeurs extrêmes . . . . . . . . . . . 66<br />

3.2.5 La variance <strong>et</strong> l’écart type symbolique . . . . . . . . . . . . . . . 67<br />

3.2.6 Histogrammes symboliques . . . . . . . . . . . . . . . . . . . . 68<br />

3.2.7 Boîtes de dispersion (Boxplot) . . . . . . . . . . . . . . . . . . . 70<br />

3.2.8 La corrélation symbolique . . . . . . . . . . . . . . . . . . . . . 70<br />

3.3 La régression linéaire symbolique simple . . . . . . . . . . . . . . . . . 80<br />

3.3.1 Modèle de régression simple avec la corrélation empirique . . . . 80<br />

3.3.2 Modèle de régression simple avec la corrélation symbolique maximum<br />

<strong>et</strong> minimum . . . . . . . . . . . . . . . . . . . . . . . . . 81<br />

3.3.3 Modèle de régression symbolique simple avec les points Inférieur–<br />

Supérieur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83<br />

3.3.4 Modèle des somm<strong>et</strong>s pour la régression symbolique simple . . . . 85<br />

4 Le Cercle des Corrélations Symboliques <strong>et</strong> l’<strong>Analyse</strong> <strong>en</strong> Composantes Principales<br />

pour des Données de Type Histogramme 88<br />

4.1 Cercle des corrélations symboliques dans l’analyse <strong>en</strong> <strong>com</strong>posantes principales<br />

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89


4<br />

4.1.1 Le cercle des corrélations <strong>en</strong> utilisant le coeffici<strong>en</strong>t de la corrélation<br />

symbolique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89<br />

4.1.2 La dualité dans la Méthode des C<strong>en</strong>tres . . . . . . . . . . . . . . 98<br />

4.1.3 La dualité dans la Méthode des Somm<strong>et</strong>s . . . . . . . . . . . . . 116<br />

4.1.4 Les aides symboliques à l’interprétation . . . . . . . . . . . . . . 119<br />

4.1.5 Le logiciel pour l’analyse <strong>en</strong> <strong>com</strong>posantes principales symbolique 124<br />

4.2 Généralisation de l’analyse <strong>en</strong> <strong>com</strong>posantes principales aux données de<br />

type histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126<br />

4.2.1 L’algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126<br />

4.2.2 Exemples d’application . . . . . . . . . . . . . . . . . . . . . . . 132<br />

4.2.3 L’interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . . 134<br />

5 L’<strong>Analyse</strong> Symbolique des Tableaux de Proximités 137<br />

5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137<br />

5.2 L’analyse classique des tableaux de dissimilarités . . . . . . . . . . . . . 138<br />

5.3 L’analyse des tableaux de dissimilarités de type intervalle: INTERSCAL 141<br />

5.4 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147<br />

5.4.1 Exemple des huiles <strong>et</strong> des graisses . . . . . . . . . . . . . . . . . 147<br />

5.4.2 Exemple de jugem<strong>en</strong>ts de rectangles . . . . . . . . . . . . . . . . 150<br />

5.5 Le programme de l’algorithme INTERSCAL . . . . . . . . . . . . . . . 154<br />

Conclusion 155


5<br />

A<br />

Programme Intégré de Méthodes d’<strong>Analyse</strong> des Données Symboliques (PIMAD–<br />

Symbolique) 166<br />

A.1 L’installation <strong>et</strong> la désinstallation . . . . . . . . . . . . . . . . . . . . . . 167<br />

A.2 Le module de classification asc<strong>en</strong>dante pyramidale symbolique . . . . . . 167<br />

A.3 Le module d’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des données de<br />

type intervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169<br />

A.4 Le module d’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des données de<br />

type histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173<br />

A.5 Le module de régression linéare symbolique . . . . . . . . . . . . . . . . 174<br />

A.6 Le module de l’algorithme INTERSCAL pour la méthode d’analyse des<br />

tableaux de proximités de type intervalle . . . . . . . . . . . . . . . . . . 176


List of Figures<br />

1 Deux principes fondam<strong>en</strong>taux de l’analyse de données symbolique. . . . 14<br />

2.1 Exemple d’une Pyramide. . . . . . . . . . . . . . . . . . . . . . . . . . . 30<br />

2.2 Pyramide symbolique. . . . . . . . . . . . . . . . . . . . . . . . . . . . 31<br />

2.3 Pyramide <strong>en</strong> construction. . . . . . . . . . . . . . . . . . . . . . . . . . 34<br />

2.4 Pyramide <strong>en</strong> construction. . . . . . . . . . . . . . . . . . . . . . . . . . 37<br />

2.5 Pyramide obt<strong>en</strong>ue après l’union de deux <strong>com</strong>posantes connexes. . . . . . 44<br />

2.6 Pyramide du tableau de données de l’exemple 1.1.1. . . . . . . . . . . . . 52<br />

2.7 Représ<strong>en</strong>tation pyramidale de l’exemple de l’huile <strong>et</strong> la graisse (échelle<br />

modifié). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56<br />

2.8 Représ<strong>en</strong>tation pyramidale de l’exemple de l’huile <strong>et</strong> la graisse (échelle<br />

réelle). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57<br />

2.9 Hiérarchie binaire de l’exemple de l’huile <strong>et</strong> la graisse (échelle modifié). . 58<br />

2.10 Représ<strong>en</strong>tation pyramidale de l’exemple de l’huile <strong>et</strong> la graisse si on a<br />

l’ordre des obj<strong>et</strong>s a priori 7≤6≤5≤1≤2≤4≤3. . . . . . . . . . . . . . . 59<br />

6


7<br />

3.1 L’histogramme symbolique de la variable Y 1 =Systolic–Pressure. . . . . 69<br />

3.2 La boîte de dispersion de la variable Y =Pulse–Rate. . . . . . . . . . . . 71<br />

3.3 X H ou Y H conti<strong>en</strong>n<strong>en</strong>t l’origine. . . . . . . . . . . . . . . . . . . . . . . 75<br />

3.4 Tous les deux X H <strong>et</strong> Y H sont dans le même m–quadrant. . . . . . . . . . 76<br />

3.5 X H <strong>et</strong> Y H sont dans des m–quadrants opposés. . . . . . . . . . . . . . . 77<br />

3.6 X H <strong>et</strong> Y H ne conti<strong>en</strong>n<strong>en</strong>t pas des vecteurs colinéaires <strong>et</strong> ni l’un ni l’autre<br />

X H ou Y H conti<strong>en</strong>t l’origine. . . . . . . . . . . . . . . . . . . . . . . . . 78<br />

3.7 Graphique de régression des variables Systolic–Pressure×Pulse–Rate avec<br />

le modèle de la corrélation empirique. . . . . . . . . . . . . . . . . . . . 82<br />

3.8 Graphique de régression des variables Systolic–Pressure×Pulse–Rate avec<br />

le modèle de la corrélation symbolique maximum <strong>et</strong> minimum. . . . . . . 84<br />

3.9 Graphique de régression des variables Systolic–Pressure×Pulse–Rate avec<br />

le modèle de Inférieur–Supérieur points. . . . . . . . . . . . . . . . . . . 85<br />

3.10 Graphique de régression des variables Systolic–Pressure×Pulse–Rate avec<br />

le modèle des somm<strong>et</strong>s. . . . . . . . . . . . . . . . . . . . . . . . . . . . 87<br />

4.1 Cercle classique des corrélations. . . . . . . . . . . . . . . . . . . . . . . 90<br />

4.2 Cercle des corrélations symbolique. . . . . . . . . . . . . . . . . . . . . 92<br />

4.3 Cercle des corrélations symbolique de “Oils and Fats data” avec la méthode<br />

des c<strong>en</strong>tres. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98<br />

4.4 Cercle des corrélations symbolique de “Oils and Fats data” avec la méthode<br />

des c<strong>en</strong>tres. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99


8<br />

4.5 Cercle des corrélations symbolique de “Oils and Fats data” avec la méthode<br />

des somm<strong>et</strong>s. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101<br />

4.6 Projection des variables hypercubes. . . . . . . . . . . . . . . . . . . . . 102<br />

4.7 Le cercle des corrélations symbolique avec le algorithme 4.2. . . . . . . . 110<br />

4.8 Le plan principal symbolique avec la méthode des c<strong>en</strong>tres dual. . . . . . . 110<br />

4.9 Le cercle des corrélations symbolique avec la méthode des c<strong>en</strong>tres <strong>com</strong>m<strong>en</strong>çant<br />

par Z t Z. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114<br />

4.10 Plan principal symbolique avec la méthode des c<strong>en</strong>tres <strong>com</strong>m<strong>en</strong>çant par<br />

Z t Z. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115<br />

4.11 Cercle des corrélations symbolique avec la méthode des somm<strong>et</strong>s. . . . . 120<br />

4.12 La qualité symbolique de S i selon le j–ième axe factoriel. . . . . . . . . 121<br />

4.13 Le plan principal avec des données de type continu, intervalle <strong>et</strong> histogramme.<br />

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133<br />

4.14 La pyramide avec des données de type continue, intervalles <strong>et</strong> histogramme.134<br />

4.15 Tableau des données avec deux individus <strong>et</strong> deux variables de type histogramme.<br />

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135<br />

4.16 TPlan principal du tableau. . . . . . . . . . . . . . . . . . . . . . . . . . 136<br />

5.1 Distances minimum <strong>et</strong> maximum <strong>en</strong>tre les deux hypercubes. . . . . . . . 143<br />

5.2 Distances moy<strong>en</strong>nes parmi les deux hypercubes. . . . . . . . . . . . . . . 144<br />

5.3 Plan principal de données des huiles <strong>et</strong> des graisses <strong>en</strong> utilisant l’algorithme<br />

INTERSCAL. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150


9<br />

5.4 Le plan principal symbolique avec la méthode des c<strong>en</strong>tres dual. . . . . . . 150<br />

5.5 Rectangles dont la hauteur est inférieure à leur largeur du côté droit. . . . 152<br />

5.6 a troisième dim<strong>en</strong>sion s’est reliée à la taille ou à l’aire des rectangles avec<br />

les plus p<strong>et</strong>its apparaissant sur le dessus. . . . . . . . . . . . . . . . . . . 152<br />

A.1 PIMAD–Symbolique dans le m<strong>en</strong>u Démarrer de Windows. . . . . . . . . 167<br />

A.2 F<strong>en</strong>être principal du module de classification asc<strong>en</strong>dante pyramidale symbolique.<br />

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168<br />

A.3 La boîte de dialogue pour la selection de variables. . . . . . . . . . . . . 170<br />

A.4 F<strong>en</strong>être principale du module d’analyse <strong>en</strong> <strong>com</strong>posantes principales pour<br />

des données de type intervalle. . . . . . . . . . . . . . . . . . . . . . . . 171<br />

A.5 Boîte de dialogue pour choisir l’algorithme. . . . . . . . . . . . . . . . . 172<br />

A.6 F<strong>en</strong>être principale du module d’analyse <strong>en</strong> <strong>com</strong>posantes principales pour<br />

des données de type histogramme. . . . . . . . . . . . . . . . . . . . . . 174<br />

A.7 F<strong>en</strong>être principal du module de régression symbolique simple. . . . . . . 175<br />

A.8 Options du module de régression. . . . . . . . . . . . . . . . . . . . . . 177<br />

A.9 F<strong>en</strong>être principal du module pour l’algorithme INTERSCAL. . . . . . . . 178


List of Tables<br />

2.1 Tableau des données. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31<br />

3.1 Exemple avec onze pati<strong>en</strong>ts. . . . . . . . . . . . . . . . . . . . . . . . . 65<br />

4.1 Tableau des données “Oils and Fats”. . . . . . . . . . . . . . . . . . . . . 96<br />

4.2 Les corrélations classiques <strong>en</strong>tre le c<strong>en</strong>tre de gravité des variables <strong>et</strong> le<br />

c<strong>en</strong>tre de gravité des <strong>com</strong>posants principales pour la méthode des c<strong>en</strong>tres. 96<br />

4.3 Les corrélations symboliques <strong>en</strong>tre les variables <strong>et</strong> les <strong>com</strong>posants principales<br />

pour la méthode de c<strong>en</strong>tres. . . . . . . . . . . . . . . . . . . . . . . 97<br />

4.4 Les corrélations classiques <strong>en</strong>tre le c<strong>en</strong>tre de gravité des variables <strong>et</strong> le<br />

c<strong>en</strong>tre de gravité des <strong>com</strong>posantes principales pour la méthode des somm<strong>et</strong>s.100<br />

4.5 Les corrélations symbolique <strong>en</strong>tre le c<strong>en</strong>tre de gravité des variables <strong>et</strong> le<br />

c<strong>en</strong>tre de gravité des <strong>com</strong>posantes principales pour la méthode des somm<strong>et</strong>s.100<br />

4.6 Corrélations symboliques <strong>en</strong>tre les variables <strong>et</strong> les <strong>com</strong>posants principales<br />

avec la méthode des c<strong>en</strong>tres <strong>en</strong> employant l’algorithme 4.2. . . . . . . . . 108<br />

4.7 Corrélations classiques <strong>en</strong>tre les variables <strong>et</strong> les <strong>com</strong>posants principales<br />

avec la méthode des c<strong>en</strong>tres. . . . . . . . . . . . . . . . . . . . . . . . . 108<br />

10


11<br />

4.8 Composantes principales avec la méthode des c<strong>en</strong>tres duale. . . . . . . . 109<br />

4.9 Corrélations symboliques <strong>en</strong>tre les variables <strong>et</strong> les <strong>com</strong>posantes principales<br />

avec la méthode des c<strong>en</strong>tres duale. . . . . . . . . . . . . . . . . . . 113<br />

4.10 Corrélations symboliques <strong>en</strong>tre les variables <strong>et</strong> les <strong>com</strong>posantes principales<br />

avec la méthode des somm<strong>et</strong>s. . . . . . . . . . . . . . . . . . . . . 119<br />

5.1 L’<strong>en</strong>semble de données des huiles <strong>et</strong> des graisses. . . . . . . . . . . . . . 148<br />

A.1 Barre d’outils du module de Pyramide. . . . . . . . . . . . . . . . . . . . 169<br />

A.2 Barre d’outils <strong>com</strong>muns à tous les modules de PIMAD–Symbolique. . . . 170<br />

A.3 Barre d’outils du module d’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des<br />

données de type intervalle. . . . . . . . . . . . . . . . . . . . . . . . . . 172<br />

A.4 Barre d’outils du module de régression linéale symbolique. . . . . . . . . 176


Introduction 12<br />

Introduction<br />

Ce travail s’inscrit dans le cadre de l’analyse des données symboliques proposé dans [30,<br />

Diday (1987)],[31, Diday (1989)],[32, Diday (1991)], [33, Diday (1993)], [34, Diday<br />

(1995)], [35, Diday (1995)], [36, Diday (1996)], [38, Diday (1998)],[39, Diday (2000)].<br />

L’analyse des données symboliques est une ext<strong>en</strong>sion de l’analyse de données qui est <strong>en</strong><br />

ce mom<strong>en</strong>t <strong>en</strong> plein développem<strong>en</strong>t. En eff<strong>et</strong>, beaucoup des méthodes, des techniques <strong>et</strong><br />

des algorithmes de l’analyse de données ont été déjà abordés <strong>en</strong> vu de c<strong>et</strong>te ext<strong>en</strong>sion. Par<br />

exemple, nous pouvons m<strong>en</strong>tionner les travaux de [16, Cazes, Chouakria, Diday <strong>et</strong> Schektman<br />

(1997)] qui généralis<strong>en</strong>t l’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des données de<br />

type intervalle, [9, Brito (1991)] <strong>et</strong> [55, Mfoumoune (1998)] dans la classification pyramidale,<br />

les travaux de [76, Ziani (1996)] sur la sélection des variables sur un <strong>en</strong>semble<br />

d’objects symboliques, [21, DeCarvalho (1994)], [46, Gowda <strong>et</strong> Diday (1991)], [47,<br />

Gowda <strong>et</strong> Diday (1992)] pour le calcul des dissimilarités <strong>en</strong>tre les obj<strong>et</strong>s symboliques,<br />

[23, Diday <strong>et</strong> Emilion (1996)] <strong>et</strong> [26, Diday <strong>et</strong> Emilion (1997)] pour la construction des


Introduction 13<br />

histogrammes des capacités, [66, Stéphan (1996)], [67, Stéphan (1998)], [68, Stéphan,<br />

Hébrail <strong>et</strong> Lechevallier, (1997)] <strong>et</strong> [69, Stéphan, Hébrail <strong>et</strong> Lechevallier, (1999)] pour<br />

l’extraction des obj<strong>et</strong>s symboliques à partir d’une base de données, [61, Polaillon (1998)]<br />

pour la construction, l’organisation <strong>et</strong> l’interprétation par les treillis de Galois au cas symbolique,<br />

[51, Lauro, Verde <strong>et</strong> Palumbo (1999)] <strong>et</strong> de [52, Lauro, Verde <strong>et</strong> Palumbo (2000)]<br />

dans des méthodes factorielles pour des données symboliques, parmi beaucoup d’autres.<br />

Nous pouvons aussi citer les études plus réc<strong>en</strong>tes proposées par Diday dans [41, Diday<br />

<strong>et</strong> Rodríguez (2000)] concernant la qualité, la robustesse <strong>et</strong> la fiabilité des obj<strong>et</strong>s symboliques.<br />

Il y a égalem<strong>en</strong>t des avancés importantes <strong>en</strong> ce qui concerne le logiciel pour le traitem<strong>en</strong>t<br />

des données symboliques, par exemple le proj<strong>et</strong> SODAS (voir [7, Bock <strong>et</strong> Diday (2000)]<br />

<strong>et</strong> [40, Diday <strong>et</strong> Bisdorff (2000)]) qui est le résultat de l’effort de 17 équipes europé<strong>en</strong>nes<br />

(patronné par EUROSTAT), le DB2SO qui construit obj<strong>et</strong>s symboliques à partir des bases<br />

de données relationnelles (voir [49, Hébrail <strong>et</strong> Lechevallier (2000)]), “Strata Decision<br />

Tree” (“STA” <strong>et</strong> “STDEDITOR”, voir [8, Bravo (2000)]) <strong>et</strong> [62, Périnel (1996)] dans le<br />

cas d’obj<strong>et</strong>s probabilistes avec des applications médicales, <strong>en</strong>tre autres.<br />

Le but de ce travail est de généraliser au cas symbolique certaines techniques de la classification<br />

automatique, aussi bi<strong>en</strong> que quelques modèles linéaires. Ces généralisations seront<br />

toujours faites d’après deux principes fondam<strong>en</strong>taux de l’analyse de données symbolique,<br />

à savoir (cf. “Knowledge discovery from symbolic data and the SODAS software” dans<br />

[41, Diday <strong>et</strong> Rodríguez (2000)]):<br />

1. L’analyse des données classiques devrait être toujours un cas particulier de l’analyse<br />

des données symboliques.<br />

2. Dans une analyse des données symboliques, tant la sortie <strong>com</strong>me la <strong>en</strong>trée devrai<strong>en</strong>t<br />

être symboliques.


Introduction 14<br />

Ces deux principes sont illustrés dans la Figure 1.<br />

Figure 1: Deux principes fondam<strong>en</strong>taux de l’analyse de données symbolique.<br />

En ce qui concerne la classification automatique, notre objectif spécifique est:<br />

1. Généraliser l’algorithme CAP proposé dans [28, Diday (1984)] de façon à ce que<br />

l’algorithme produise une pyramide symbolique, c’est–à–dire, une pyramide dans<br />

laquelle chaque palier est associé à un obj<strong>et</strong> symbolique <strong>com</strong>pl<strong>et</strong>.<br />

Concernant les modèles linéaires, nos objectifs spécifiques sont:<br />

1. Généraliser la méthode classique de la régression simple au cas des données symboliques<br />

de type intervalle.<br />

2. Généraliser la méthode de l’<strong>Analyse</strong> <strong>en</strong> Composantes Principales pour des données<br />

de type intervalle proposée par [16, Cazes, Chouakria, Diday <strong>et</strong> Schektman (1997)]<br />

dans deux s<strong>en</strong>s: dans un premier temps nous proposerons trois manières de proj<strong>et</strong>er


Introduction 15<br />

les variables de type intervalle dans le cercle des corrélations. Dans une deuxième<br />

temps, nous proposerons un algorithme pour l’analyse <strong>en</strong> <strong>com</strong>posantes principales<br />

pour des données de type histogramme.<br />

3. Généraliser la méthode classique de l’analyse des tableaux de dissimilarités de [71,<br />

Torg<strong>en</strong>son (1958)] <strong>et</strong> [45, Gower (1966)] (Multidim<strong>en</strong>sional Scaling) pour les disimilarités<br />

de type intervalle.<br />

Ce travail cherche égalem<strong>en</strong>t a m<strong>et</strong>tre <strong>en</strong> application un logiciel pour chacune des méthodes<br />

développées.<br />

Dans le chapitre 1 nous prés<strong>en</strong>terons les concepts de base de l’analyse de données symbolique<br />

qui sont nécessaires pour le développem<strong>en</strong>t de ce travail. C<strong>et</strong>te prés<strong>en</strong>tation sera<br />

basée sur [30, Diday (1987)], [38, Diday (1998)], [39, Diday (1999)] <strong>et</strong> [9, Brito (1991)].<br />

Dans [28, Diday (1984)], Diday a proposé l’algorithme CAP pour construire les pyramides<br />

numériques, c’est–à–dire, une pyramide qui est construite à partir d’une matrice<br />

de dissimilarités classiques. [3, Bertrand <strong>et</strong> Diday (1990)] ont proposé un algorithme<br />

avec le même but. [55, Mfoumoune (1998)] a prés<strong>en</strong>té égalem<strong>en</strong>t un algorithme avec<br />

c<strong>et</strong> but dénommé QuickCap dont l’objectif est d’améliorer le temps d’exécution. Dans<br />

[9, Brito (1991)], Paula Brito a prés<strong>en</strong>té un macro–algorithme avec l’objectif de construire<br />

une pyramide symbolique. T<strong>en</strong>ant <strong>com</strong>pte des travaux m<strong>en</strong>tionnés ci–dessus dans le<br />

chapitre 2 nous prés<strong>en</strong>terons deux nouveaux algorithmes, qui généralis<strong>en</strong>t au cas symbolique<br />

l’algorithme CAP. Le premier de ces deux algorithmes, dénommé CAPS, produit<br />

<strong>en</strong> eff<strong>et</strong> une pyramide symbolique, parce qu’il construit un obj<strong>et</strong> symbolique associé à<br />

chaque palier de la pyramide <strong>et</strong> il vérifie égalem<strong>en</strong>t sa <strong>com</strong>plétude. L’algorithme CAPS<br />

est vraim<strong>en</strong>t une généralisation de l’algorithme CAP parce que s’il reçoit <strong>com</strong>me <strong>en</strong>trée<br />

une matrice de dissimiliraties il produit la même sortie que l’algorithme CAP. Dans le<br />

chapitre 2 nous prés<strong>en</strong>terons aussi un deuxième algorithme dénommé CAPSO, qui construit<br />

une pyramide symbolique ayant <strong>com</strong>me <strong>en</strong>trée, un ordre donné a priori (sans t<strong>en</strong>ir


Introduction 16<br />

<strong>com</strong>pte de la table symbolique de données) dans l’<strong>en</strong>semble d’individus (obj<strong>et</strong>s symboliques).<br />

A la fin du chapitre, les théorèmes de converg<strong>en</strong>ce sont prés<strong>en</strong>tés pour tous les<br />

deux algorithmes.<br />

Bertrand <strong>et</strong> Goupil dans [7, Bock <strong>et</strong> Diday (2000)] ont généralisé quelques indices de la<br />

statistique descriptive au cas symbolique, <strong>com</strong>me la moy<strong>en</strong>ne, la variance, la corrélation,<br />

<strong>et</strong>c. Cep<strong>en</strong>dant, toutes ces généralisations calcul<strong>en</strong>t l’indice ayant <strong>com</strong>me <strong>en</strong>trée une variable<br />

symbolique mais la sortie est un nombre réel. Dans le chapitre 3, de ce travail, nous<br />

généraliserons, pour les variables de type intervalle, la moy<strong>en</strong>ne, la médiane, la moy<strong>en</strong>ne<br />

des valeurs extrêmes, l’écart type, la déviation quartile, les boîtes de dispersion (boxplot)<br />

<strong>et</strong> la corrélation, suivant le principe qui établit que: si l’<strong>en</strong>trée est symbolique, alors la sortie<br />

devrait être symbolique, c’est–à–dire, que tous les indices ci–dessus pr<strong>en</strong>dront <strong>com</strong>me<br />

sortie des intervalles. Trois nouvelles méthodes sont aussi prés<strong>en</strong>tées pour effectuer la<br />

régression linéaire pour les variables de type intervalle.<br />

Au chapitre 4 nous ét<strong>en</strong>drons la méthode d’analyse <strong>en</strong> <strong>com</strong>posantes principales proposée<br />

par [16, Cazes, Chouakria, Diday <strong>et</strong> Schektman (1997)] pour des données de<br />

type histogramme, nous généraliserons le cercle des corrélations au cas des variables<br />

de type intervalle. De plus, nous proposerons des généralisations pour quelques indices<br />

d’interprétation utilisés dans l’analyse classique <strong>en</strong> <strong>com</strong>posantes rincipales.<br />

Dans le chapitre 5 nous proposerons une méthode pour l’analyse des tableaux de proximités<br />

(multidim<strong>en</strong>sional scaling) pour des données de type intervalle, que nous avons<br />

dénommée INTERSCAL. Nous généraliserons la méthode classique de l’analyse des<br />

tableaux de proximités de [71, Torg<strong>en</strong>son (1958)] <strong>et</strong> [45, Gower (1966)] <strong>en</strong> recherchant<br />

une méthode qui produit des résultats semblables à la méthode des somm<strong>et</strong>s dans l’analyse<br />

<strong>en</strong> <strong>com</strong>posantes principales proposée dans [16, Cazes, Chouakria, Diday <strong>et</strong> Schektman<br />

(1997)]. La méthode pour l’analyse des tableaux de proximités standard pr<strong>en</strong>d <strong>com</strong>me<br />

<strong>en</strong>trée une matrice de dissimilarités de terme général δ ij qui est une valeur numérique.


Introduction 17<br />

Au même temps, nous proposerons une méthode qui donne une matrice dissimilarités<br />

]<br />

dont le terme général est δ ij =<br />

[δ ij , δ ij , où δ ij <strong>et</strong> δ ij sont la limite inférieure <strong>et</strong> la limite<br />

supérieure de la dissimilarité <strong>en</strong>tre l’obj<strong>et</strong> S i <strong>et</strong> l’obj<strong>et</strong> S j respectivem<strong>en</strong>t. Comme sortie,<br />

au lieu de représ<strong>en</strong>ter chaque obj<strong>et</strong> symbolique sur le plan factoriel par un point, <strong>com</strong>me<br />

dans d’autres méthodes pour l’analyse des tableaux de proximités, dans la méthode proposée,<br />

chaque obj<strong>et</strong> symbolique sera visualisé par un rectangle, afin de représ<strong>en</strong>ter la<br />

variation de la dissimilarité.<br />

Pour chacune des méthodes prés<strong>en</strong>tées dans c<strong>et</strong>te thèse un outil de logiciel a été mis<br />

<strong>en</strong> application. Ce logiciel, dénommé PIMAD-Symbolique (Programme Intégré de<br />

Méthodes d’<strong>Analyse</strong> des Données Symboliques), a cinq modules, à savoir:<br />

• Un module pour la classification pyramidale symbolique.<br />

• Un module pour l’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des variables de type<br />

intervalle (dont tous le deux, le plan principal <strong>et</strong> le cercle des corrélations sont<br />

symboliques).<br />

• Un module pour l’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des variables de type<br />

histogramme.<br />

• Le module INTERSCAL.<br />

• Un module pour la régression linéaire symbolique <strong>et</strong> les statistiques descriptives.<br />

Ce logiciel a été réalisé <strong>en</strong> C++ <strong>en</strong> utilisant des stratégies de programmation, analyse <strong>et</strong><br />

dessin de systèmes ori<strong>en</strong>té obj<strong>et</strong>. Ce logiciel emploie <strong>com</strong>me <strong>en</strong>trée le format SODAS, <strong>et</strong> il<br />

peut être exécuté avec des tableaux de données de n’importe quelle dim<strong>en</strong>sion (seulem<strong>en</strong>t<br />

limitée par la mémoire de l’ordinateur). Dans l’annexe 1, sera prés<strong>en</strong>tée un bref guide<br />

expliquant la façon d’installer <strong>et</strong> d’employer le logiciel PIMAD-Symbolique.


Chapter 1<br />

Prés<strong>en</strong>tation de l’<strong>Analyse</strong> des Données<br />

Symboliques<br />

On prés<strong>en</strong>te dans c<strong>et</strong>te chapitre le formalisme mathématique pour introduire l’analyse des<br />

données symboliques ([30, Diday (1987)], [31, Diday<br />

(1989)],[32, Diday (1991)], [33, Diday (1993)], [34, Diday (1995)], [35, Diday (1995)],<br />

[36, Diday (1996)], [38, Diday (1998)],[39, Diday (2000)], [7, Bock <strong>et</strong> Diday (2000)], [9,<br />

Brito (1991)], [61, Polaillon (1998)]). On introduit d’une manière informelle les données<br />

symboliques <strong>et</strong> après on définira plus précisém<strong>en</strong>t le concept d’obj<strong>et</strong> symbolique.<br />

1.1 Données symboliques<br />

L’analyse des données classiques part d’un <strong>en</strong>semble de m individus (obj<strong>et</strong>s), notés E =<br />

{1, 2, . . . , m}, lesquels se caractéris<strong>en</strong>t par n variables, notées par Y 1 , Y 2, . . . , Y n , chaque<br />

variable Y k pr<strong>en</strong>d ses valeurs dans un <strong>en</strong>semble Y k appelé “espace d’observation”. Pour<br />

chaque individu i ∈ E la variable Y j pr<strong>en</strong>d seulem<strong>en</strong>t une valeur x ij = Y j (i) ∈ Y j , ces<br />

18


Prés<strong>en</strong>tation de l’analyse des données symbolique 19<br />

valeurs seront groupées <strong>en</strong> une matrice de données X = (x ij ), i = 1, 2, . . . , m, j =<br />

1, 2, . . . , n.<br />

Néanmoins, il y a des situations dans lesquelles c<strong>et</strong>te manière de représ<strong>en</strong>ter l’information<br />

n’est pas suffisante. Par exemple, quand on a de grandes bases de données on peut appliquer<br />

les techniques de “Fouille de Données” (“Data Mining”), qui ont par objectif de<br />

résumer l’information dans de nouveaux tableaux de données où chaque <strong>en</strong>trée n’est pas<br />

nécessairem<strong>en</strong>t une seule valeur.<br />

Dans l’<strong>Analyse</strong> des Données Symboliques on a un <strong>en</strong>semble Ω de m obj<strong>et</strong>s. Ces individus<br />

sont caractérisés par n “variables symboliques 1 ” Y 1 , Y 2 , . . . , Y n , où l’espace d’observation<br />

de Y k est Y k . Formellem<strong>en</strong>t Y k est une fonction de l’<strong>en</strong>semble Ω dans un <strong>en</strong>semble B k ⊆<br />

Y k , lequel peut être:<br />

1. Un sous–<strong>en</strong>semble de nombres réels, c’est–à–dire, B k ⊆ R (cas de l’analyse de<br />

données classique).<br />

2. Un <strong>en</strong>semble d’intervalles, c’est–à–dire, B k ⊆ {[α, β] tel que α ∈ R <strong>et</strong> β ∈ R avec<br />

α ≤ β}.<br />

3. Un <strong>en</strong>semble de catégories nominales ou ordinales.<br />

4. Un distribution de probabilité, <strong>et</strong>c.<br />

Ces données sont réunies dans une “matrice des données symboliques”, notée par X =<br />

(x ij ) i=1,2,...,m . Chaque <strong>en</strong>trée de c<strong>et</strong>te matrice est “une donnée symbolique”.<br />

j=1,2,...,n<br />

Dans l’<strong>Analyse</strong> des Données Classiques on a deux types de variables, les variables quantitatives<br />

<strong>et</strong> les variables qualitatives.<br />

1 Ces concepts seront définis avec plus de précision dans la section suivante.


Prés<strong>en</strong>tation de l’analyse des données symbolique 20<br />

Une variable Y est appelée quantitative si l’<strong>en</strong>semble Y de toutes les valeurs possibles<br />

prises par Y est un sous–<strong>en</strong>semble de R. Quand Y est un <strong>en</strong>semble non dénombrable<br />

la variable s’appelle quantitative continue; quand Y est fini ou dénombrable la variable<br />

s’appelle quantitative discrète.<br />

On dira que la variable Y est qualitative si le rang Y de Y est un <strong>en</strong>semble fini de<br />

catégories qui n’a pas nécessairem<strong>en</strong>t un s<strong>en</strong>s numérique. Quand le rang Y n’a pas une<br />

structure, on dira que la variable est qualitative nominale; dans ce cas–ci, étant données<br />

x, y ∈ Y, on sait seulem<strong>en</strong>t si x = y ou x ≠ y. Quand Y est totalem<strong>en</strong>t ordonné, la<br />

variable Y s’appelle qualitative ordinale, quand Y possé seulem<strong>en</strong>t un ordre partiel, on<br />

dira que la variable Y est qualitative ordinale généralisée.<br />

Dans l’<strong>Analyse</strong> des Données Symboliques, <strong>en</strong> plus des variables qu’on a m<strong>en</strong>tionné<br />

antérieurem<strong>en</strong>t, il y a d’autres types de variables, par exemple les variables multivaluées,<br />

les variables de type “intervalle” <strong>et</strong> les variables modales.<br />

On dira qu’une variable Y est multivaluée si ses “valeurs” Y (i) sont tous des sous<strong>en</strong>sembles<br />

finis de Y, c’est–à–dire |Y (i)| < ∞ pour tout i ∈ Ω. Quand Y est un<br />

rang fini de catégories <strong>et</strong> toutes les Y (k) sont finies, la variable Y s’appelle multivaluée<br />

catégorique. Si Y (k) ⊂ R <strong>et</strong> |Y (k)| < ∞ alors la variable s’appelle multivaluée quantitative.<br />

Une variable multivaluée Y s’appelle variable de type intervalle 2 si Y (i) est un intervalle<br />

de R pour tout i ∈ Ω, c’est–à–dire Y (i) = [α, β], ∀ i ∈ Ω, avec α ∈ R, β ∈ R <strong>et</strong> α ≤ β.<br />

On dira qu’une variable Y est modale avec espace d’observation Y si pour tout i ∈ Ω<br />

on a Y (i) = π i , <strong>et</strong> π i est une mesure non négative sur Y. Par exemple une distribution<br />

de fréqu<strong>en</strong>ces, une distribution de probabilité ou un <strong>en</strong>semble de poids. Dans c<strong>et</strong>te thèse,<br />

on s’intéresse particulierèm<strong>en</strong>t au cas où π i est donné par un histogramme, la variable Y ,<br />

2 Les intervalles peuv<strong>en</strong>t aussi être ouverts ou semi-ouverts.


Prés<strong>en</strong>tation de l’analyse des données symbolique 21<br />

s’appelle alors variable histogramme.<br />

Example 1 Dans le tableau de données symboliques suivant on a cinq variables, la première<br />

est de type intervalle, la deuxième est quantitative, <strong>et</strong> les trois dernières variables sont de<br />

type histogramme (les valeurs sont tronquées).<br />

⎡<br />

X =<br />

⎢<br />

⎣<br />

[1, 4] 2 (1(0.4), 2(0.1), 3(0.2), 4(0.07), 5(0.02)) (1(0.1), 2(0.9)) (1(0.7), 2(0.2))<br />

[1, 4] 3 (1(0.6), 2(0.1), 3(0.1), 5(0.0)) (1(0.1), 2(0.9)) (1(0.7), 2(0.2))<br />

[1, 5] 2 (1(0.7), 2(0.2)) (1(0.0), 2(0.9)) (1(0.7), 2(0.2))<br />

[1, 4] 1 (1(0.7), 2(0.0), 3(0.1), 4(0.0), 5(0.0), 6(0.0)) (1(0.0), 2(0.9)) (1(0.7), 2(0.2))<br />

[1, 4] 1 (1(0.4), 3(0.4), 4(0.0), 5(0.0)) (1(0.0), 2(0.9)) (1(0.8), 2(0.1))<br />

[1, 6] 2 (2(0.4), 3(0.1), 4(0.3), 5(0.0), 6(0.0)) (1(0.0), 2(0.9)) (1(0.7), 2(0.2))<br />

⎤<br />

⎥<br />

⎦<br />

1.2 Obj<strong>et</strong>s symboliques<br />

Les objectifs de l’analyse de données symbolique sont: analyser, visualiser, classifier <strong>et</strong><br />

réduire l’information qui se trouve dans le tableau de données symboliques. Comme<br />

l’explique Diday [39, Diday (1999)], les obj<strong>et</strong>s symboliques perm<strong>et</strong>t<strong>en</strong>t de modeliser les<br />

concepts:<br />

“There are two steps in Symbolic Data Analysis: the first concerns knowledge<br />

extraction from large data bases as in “Data Mining”, the second step<br />

concerns the application of new tools on such extracted knowledge in order<br />

to ext<strong>en</strong>d “Data Mining” to “Knowledge Mining”. “Extracting knowledge”<br />

means g<strong>et</strong>ting new concepts, that is why, “Symbolic Objects” are introduced.”<br />

Dans les paragraphes suivants on précisera le notion d’obj<strong>et</strong>s symboliques ([30, Diday<br />

(1987)], [31, Diday (1989)], [39, Diday (1999)] <strong>et</strong> [7, Bock <strong>et</strong> Diday (2000)]).


Prés<strong>en</strong>tation de l’analyse des données symbolique 22<br />

Definition 1 Un Obj<strong>et</strong> Symbolique est un tripl<strong>et</strong> s = (a, R, d) où R est une relation <strong>en</strong>tre<br />

les descriptions, d est une description, <strong>et</strong> a est une application de Ω dans L qui dép<strong>en</strong>d de<br />

la relation R <strong>et</strong> de la description d.<br />

Si le tableau initial de données conti<strong>en</strong>t p variables Y 1 , Y 2 , . . . , Y p <strong>et</strong> si [Y j (w)R j d j ] ∈<br />

L = {V, F } pour tout j = 1, 2, . . . , p, l’obj<strong>et</strong> symbolique s’appelle Obj<strong>et</strong> Boolé<strong>en</strong> <strong>et</strong> si<br />

[Y j (w)R j d j ] ∈ L = [0, 1] pour tout j = 1, 2, . . . , p l’obj<strong>et</strong> symbolique s’appelle Obj<strong>et</strong><br />

Modal.<br />

Si on note par Y (w) = (Y 1 (w), Y 2 (w), . . . , Y p (w)), D = (D 1 , D 2 , . . . , D p ),<br />

d = (d 1 , d 2 , . . . , d p ) ∈ D <strong>et</strong> R = (R 1 , R 2 , . . . , R p ) où R i est une relation dans D i . Alors,<br />

si dans la définition précéd<strong>en</strong>te on pr<strong>en</strong>d L = {vrai,faux}, on definit R par [Y (w)Rd] =<br />

[Y 1 (w)R 1 d 1 ] ∧ [Y 2 (w)R 2 d 2 ] ∧ · · · ∧ [Y p (w)R p d p ] <strong>et</strong> on pr<strong>en</strong>d a(w) = [Y 1 (w)R 1 d 1 ] ∧<br />

[Y 2 (w)R 2 d 2 ] ∧ · · · ∧ [Y p (w)R p d p ] où a(w) =vrai si <strong>et</strong> seulem<strong>en</strong>t si Y j (w)R j d j pour tout<br />

j = 1, 2, . . . , p l’obj<strong>et</strong> s’appellera un Obj<strong>et</strong> Assertion Boolé<strong>en</strong>.<br />

Par exemple l’expression suivante:<br />

a(w) = [nationalité(w) ⊆ {Mexicaine,Costarici<strong>en</strong>ne}] ∧ [âge(w) ⊆ [20, 35]]<br />

définit un obj<strong>et</strong> symbolique s = (a, R, d) où d = ({Mexicaine,Costarici<strong>en</strong>ne},[20, 35]),<br />

R : [Y (w)Rd] = [Y 1 (w)R 1 d 1 ]∧[Y 2 (w)R 2 d 2 ] avec R 1 = R 2 = “ ⊆ ”, donc a(w) =vrai si<br />

<strong>et</strong> seulem<strong>en</strong>t si la nationalité de w est Mexicaine ou Costarici<strong>en</strong>ne <strong>et</strong> l’âge de w apparti<strong>en</strong>t<br />

à l’intervalle [20, 35].<br />

Definition 2 Si L = [vrai,faux] l’obj<strong>et</strong> symbolique est dit boolé<strong>en</strong> <strong>et</strong> son ext<strong>en</strong>sion est<br />

l’<strong>en</strong>semble Ext(s) = {w ∈ Ω tel que a(w) =vrai}. Dans le cas des obj<strong>et</strong>s symboliques<br />

modaux où L = [0, 1], pour un seuil donné α, l’ext<strong>en</strong>sion est définie par Ext(s, α) =<br />

{w ∈ Ω tel que a(w) ≥ α}.


Prés<strong>en</strong>tation de l’analyse des données symbolique 23<br />

1.3 Propriétés <strong>et</strong> opérateurs des obj<strong>et</strong>s symboliques<br />

Definition 3 (Ordre symbolique) Soit S l’<strong>en</strong>semble des obj<strong>et</strong>s symboliques défini sur les<br />

mêmes variables, alors ∀ s 1 , s 2 ∈ S on dit que:<br />

s 1 ≤ s 2 ⇐⇒ Ext(s 1 ) ⊆ Ext(s 2 ).<br />

La relation ≤ ainsi définie est une relation de pre–ordre appelée Preordre Symbolique [30,<br />

Diday (1987)].<br />

Definition 4<br />

Pour tous s 1 , s 2 ∈ S, si s 1 ≤ s 2 , on dira alors que s 2 est plus général que<br />

s 1 <strong>et</strong> que s 1 est plus spécifique que s 2 .<br />

Pour la construction des Pyramides Symboliques (section 2.2), il sera nécessaire de calculer<br />

l’union <strong>et</strong> l’intersection d’obj<strong>et</strong>s symboliques, ces opérations se définiss<strong>en</strong>t de la<br />

façon suivante [30, Diday (1987)]:<br />

Definition 5 Soi<strong>en</strong>t s 1 = (a 1 , R, d 1 ) <strong>et</strong> s 2 = (a 2 , R, d 2 ) deux obj<strong>et</strong>s symboliques, l’union<br />

de s 1 <strong>et</strong> s 2 notée par s 1 ∪ s 2 , est définie <strong>com</strong>me la conjonction de tous les obj<strong>et</strong>s symboliques,<br />

dont l’ext<strong>en</strong>sion conti<strong>en</strong>t Ext(s 1 ) ∪ Ext(s 2 ), c’est–à–dire, l’union de tous les<br />

obj<strong>et</strong>s symboliques e i tel que pour tout i on a Ext(e i ) ⊇ Ext(s 1 )∪Ext(s 2 ). De même, on<br />

définit l’intersection <strong>en</strong>tre s 1 <strong>et</strong> s 2 <strong>com</strong>me la conjonction de tous les obj<strong>et</strong>s symboliques,<br />

dont l’ext<strong>en</strong>sion conti<strong>en</strong>t Ext(s 1 ) ∩ Ext(s 2 ).<br />

Si le tableau de données initiale conti<strong>en</strong>t des variables modales, par exemple Y j , avec<br />

Y j = {m 1 , m 2 , . . . , m t } l’<strong>en</strong>semble de catégories de la variable Y j , <strong>et</strong> w 1 , w 2 , . . . , w t sont<br />

les valeurs de fréqu<strong>en</strong>ce, de probabilité ou de poids pour m 1 , m 2 , . . . , m t . Si on a deux<br />

obj<strong>et</strong>s symboliques s 1 = (a 1 , R, d) <strong>et</strong> s 2 = (a 2 , R, d) où:<br />

a 1 = [ Y j = (m 1 (w1), 1 m 2 (w2), 1 . . . , m t (wt 1 )) ] <strong>et</strong>


Prés<strong>en</strong>tation de l’analyse des données symbolique 24<br />

a 2 = [ Y j = (m 1 (w1), 2 m 2 (w2), 2 . . . , m t (wt 2 )) ]<br />

alors Brito a defini s 3 = (a 3 , R, d) = s 1 ∪ s 2 (voir [7, Bock <strong>et</strong> Diday (2000)]):<br />

a 3 (w) = [Y j = (m 1 (w 1 ), m 2 (w 2 ), . . . , m t (w t ))] ,<br />

où w i = max{wi 1 , wi 2 } pour i = 1, 2, . . . , t <strong>et</strong> elle a defini son ext<strong>en</strong>sion <strong>com</strong>me:<br />

Ext(s 1 ∪ s 2 ) = {s ∈ Ω tel que wi s ≤ w i pour i = 1, 2, . . . , t}.<br />

Remark 1 Il est possible que w 1 + w 2 + · · · + w t ≥ 1.<br />

Remark 2 Il <strong>en</strong> résulte que si s 1 = (a 1 , R, d) <strong>et</strong> s 2 = (a 2 , R, d) avec a 1 = [Y 1 ∈ V 1 ] ∧<br />

· · · ∧ [Y p ∈ V p ] <strong>et</strong> a 2 = [Y 1 ∈ W 1 ] ∧ · · · ∧ [Y p ∈ W p ] alors s 1 ∪ s 2 = (a 3 , R, d) avec<br />

a 3 = [Y 1 ∈ V 1 ∪ W 1 ] ∧ · · · ∧ [Y p ∈ V p ∪ W p ].<br />

Un concept important dans la classification pyramidale symbolique est la <strong>com</strong>plétude des<br />

Obj<strong>et</strong>s Symboliques. On dit qu’un obj<strong>et</strong> symbolique est <strong>com</strong>pl<strong>et</strong> s’il décrit de manière exhaustive<br />

(“<strong>com</strong>plète”) son ext<strong>en</strong>sion. Plus formellem<strong>en</strong>t: (si note pour P (A) l’<strong>en</strong>semble<br />

de parties de A)<br />

Definition 6 [9, Brito (1991)], [31, Diday (1989)] Soi<strong>en</strong>t S l’<strong>en</strong>semble de tous les obj<strong>et</strong>s<br />

assertion, A = {a 1, a 2 , . . . , a n } ⊆ S, f : S → P (A) tels que f(a) = Ext(a) <strong>et</strong> g :<br />

P (A) → S tel que ∀ P ∈ P (A), P ⊆ f ◦ g(P ). On note pour h = g ◦ f . On dit<br />

alors que l’obj<strong>et</strong> symbolique a est <strong>com</strong>pl<strong>et</strong> si <strong>et</strong> seulem<strong>en</strong>t si h(a) = a. La fonction h est<br />

dénommée l’opérateur de <strong>com</strong>plétude.<br />

Example 2 [9, Brito (1991)] Soit f : S → P (A) tel que f(a) = f( ∧ [y j ∈ W j ]) = {a i =<br />

j<br />

∧<br />

[y j ∈ Vj i ] / Vj<br />

i ⊆ W j , j = {1, 2, . . . , p}}, A = {a 1, a 2 , . . . , a n } ⊆ S <strong>et</strong> g : P (A) → S<br />

j<br />

tels que g({a 1 , . . . , a m }) = α = [y j<br />

<strong>com</strong>plétude.<br />

= ⋃ i<br />

V i<br />

j ] alors h = g ◦ f est un opérateur de


Prés<strong>en</strong>tation de l’analyse des données symbolique 25<br />

L’algorithme de classification pyramidale symbolique qu’on prés<strong>en</strong>te dans la section 2.2<br />

conti<strong>en</strong>t deux étapes, l’étape de généralisation dans laquelle on doit calculer l’union<br />

<strong>en</strong>tre obj<strong>et</strong>s symboliques <strong>et</strong> l’étape d’agrégation dans laquelle on calcule le “Degré de<br />

Généralité” de l’obj<strong>et</strong> symbolique. On prés<strong>en</strong>te une définition du “Degré de Généralité”<br />

basé sur la définition donnée par Paula Brito dans [10, Brito (1997)], c<strong>et</strong>te définition nous<br />

perm<strong>et</strong>tra de calculer le degré de généralité même si le tableau de données symboliques<br />

a des variables de type intervalle, quantitative discrète ou de type histogramme (<strong>com</strong>me<br />

dans l’exemple 1).<br />

Definition 7 Soit s = (a, R, d) un obj<strong>et</strong> symbolique avec a(w) =<br />

Degré de Généralité de s par:<br />

où<br />

⎧<br />

⎪⎨<br />

g(e j ) =<br />

⎪⎩<br />

g(s) =<br />

p∏<br />

g(e j ),<br />

j=1<br />

p ∧<br />

j=1<br />

|V j |<br />

|Y j |<br />

si e j = [Y j ⊆ V j ], V j ⊆ Y j avec Y j discrète.<br />

longueur(V j )<br />

longueur(Y j )<br />

si e j = [Y j ⊆ V j ], V j ⊆ Y j avec Y j continue.<br />

t∑<br />

h=1<br />

t<br />

w h<br />

si<br />

e j = [Y j = {m 1 (w 1 ), . . . , m t (w t )}] est une<br />

e j , on définit le<br />

distribution de fréqu<strong>en</strong>ce de la variable discrète Y j .<br />

Remark 3 Soit S l’<strong>en</strong>semble des obj<strong>et</strong>s symboliques défini sur les mêmes variables, alors<br />

∀ s 1 , s 2 ∈ S on a:<br />

s 1 ≤ s 2 ⇒ g(s 1 ) ≤ g(s 2 ).<br />

Example 3 Si on considère le tableau de données symboliques qu’on a prés<strong>en</strong>té dans<br />

l’exemple 1 <strong>et</strong> on pr<strong>en</strong>d l’obj<strong>et</strong> symbolique s = (a, R, d) où:<br />

a(w) = [y 1 (w) ⊆ [1, 4]] ∧[y 2 (w) ⊆ {1}] ∧[y 3 (w) = (1(0.718), 2(0.053), 3(0.187),<br />

4(0.013), 5(0.006), 6(0.013), 7(0.006))] ∧[y 4 (w) = (1(0.04), 2(0.97))] ∧ [y 5 (w) =


Prés<strong>en</strong>tation de l’analyse des données symbolique 26<br />

(1(0.86), 2(0.24))] d = {[1, 6], {1, 2, 3}, (1(p 1 ), . . . , 7(p 7 )), (1(p 1 ), 2(p 2 )),<br />

(1(p 1 ), 2(p 2 ))} <strong>et</strong> R = (R 1 , . . . , R 5 ) où R 1 = “ ⊆ ”, R 2 = “ ⊆ ”, R i = “ = ”<br />

pour i = 3, 4, 5, alors on a que g(s) = 0.01109.


Chapter 2<br />

<strong>Classification</strong> Pyramidale Symbolique<br />

Asc<strong>en</strong>dante<br />

Dans ce chapitre on prés<strong>en</strong>te deux algorithmes qui construis<strong>en</strong>t une pyramide symbolique<br />

à partir d’une matrice de données symboliques. Le premier algorithme trouve un “ordre<br />

total <strong>com</strong>patible avec la pyramide” de m obj<strong>et</strong>s, p<strong>en</strong>dant que le deuxième construit la<br />

pyramide à partir d’un ordre donné (a priori) sur les obj<strong>et</strong>s, c<strong>et</strong> ordre à partir des <strong>en</strong>trées<br />

de l’algorithme. Ces deux algorithmes, <strong>en</strong> plus de construire la pyramide, trouv<strong>en</strong>t pour<br />

chaque palier l’obj<strong>et</strong> symbolique associé, son ext<strong>en</strong>sion <strong>et</strong> vérifi<strong>en</strong>t sa <strong>com</strong>plétude.<br />

2.1 Définitions préliminaires<br />

Dans c<strong>et</strong>te section on prés<strong>en</strong>te les concepts fondam<strong>en</strong>taux que nous perm<strong>et</strong>tront dans les<br />

sections suivantes de prés<strong>en</strong>ter les algorithmes déjà m<strong>en</strong>tionnés ([28, Diday (1984)], [3,<br />

Bertrand <strong>et</strong> Diday (1990)] <strong>et</strong> [55, Mfoumoune (1998)]).<br />

27


<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 28<br />

Definition 8 Un indice de dissimilarité défini sur l’<strong>en</strong>semble d’obj<strong>et</strong>s Ω est une fonction<br />

d : Ω −→ [0, +∞[ telle que:<br />

• d(s 1 , s 2 ) = d(s 2 , s 1 ), ∀ s 1 , s 2 ∈ Ω.<br />

• d(s, s) = 0, ∀ s ∈ Ω.<br />

Afin de mesurer la dissimilarité <strong>en</strong>tre classes d’obj<strong>et</strong>s déjà formées, on utilise les indices<br />

d’agrégation.<br />

Definition 9 Un indice d’agrégation est une fonction δ : P (Ω) × P (Ω) −→ [0, +∞[ telle<br />

que δ(s 1 , s 2 ) = δ(s 2 , s 1 ), où P (Ω) est l’<strong>en</strong>semble des parties de Ω.<br />

Pour le cas de la classification asc<strong>en</strong>dante pyramidale symbolique, on n’utilisera pas un<br />

indice de dissimilarité ni un indice d’agrégation, car dans la phase d’agrégation (étape<br />

de généralisation) de l’algorithme (section 2.2) on pr<strong>en</strong>d l’union de deux obj<strong>et</strong>s symboliques<br />

qui form<strong>en</strong>t le nouvel palier, lequel <strong>en</strong>g<strong>en</strong>dre un autre obj<strong>et</strong> symbolique (parce<br />

que l’union d’obj<strong>et</strong>s symboliques produit un nouvel obj<strong>et</strong> symbolique). Pour calculer la<br />

“dissimilarité” (ou l’agrégation) <strong>en</strong>tre le nouveau obj<strong>et</strong> symbolique <strong>et</strong> les autres obj<strong>et</strong>s<br />

symboliques on utilise le Degré de Généralité (définition 7).<br />

Remark 4 Le Degré de Généralité ne vérifie pas tous les axiomes d’un indice de dissimilarité.<br />

Definition 10 Une hiérarchie binaire sur un <strong>en</strong>semble d’obj<strong>et</strong>s Ω est un <strong>en</strong>semble H des<br />

parties de Ω, appelées classes, qui a les propriétés suivantes:<br />

• {s} ∈ H pour tout s ∈ Ω.<br />

• Ω ∈ H.


<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 29<br />

• Pour tout s ∈ H tel que card(s) > 1, il y a s 1 , s 2 ∈ H tels que s = s 1 ∪ s 2 <strong>et</strong><br />

s 1 ∩ s 2 = ∅.<br />

Diday généralise dans [28, Diday (1984)] le concept de hiérarchie aux pyramides, <strong>com</strong>me<br />

on le montre dans les définitions suivants.<br />

Definition 11 Soit θ un ordre total sur Ω <strong>et</strong> P un <strong>en</strong>semble des parties de Ω. Un élém<strong>en</strong>t<br />

h ∈ P est connexe selon l’ordre total θ, si pour tout w ∈ Ω qui est <strong>en</strong>tre le max(h) <strong>et</strong> le<br />

min(h) (min(h) θ w θ max(h)) on a w ∈ h.<br />

Definition 12 Un ordre total θ sur Ω est <strong>com</strong>patible avec P, un <strong>en</strong>semble de parties de Ω,<br />

si tout élém<strong>en</strong>t h ∈ P est connexe selon l’ordre total θ.<br />

Definition 13 Soit Ω un <strong>en</strong>semble fini, soit P un <strong>en</strong>semble des parties non vides de Ω<br />

(appelées paliers), P est une pyramide si:<br />

1. Ω ∈ P .<br />

2. ∀ w ∈ Ω on a {w} ∈ P (paliers singl<strong>et</strong>ons).<br />

3. ∀ (h, h ′ ) ∈ P × P on a h ∩ h ′ ∈ P ou h ∩ h ′ = ∅.<br />

4. Il existe un ordre total θ <strong>en</strong> Ω <strong>com</strong>patible avec P .<br />

Example 4 Soit Ω = {1, 2, 3, 4, 5}, P = {{1}, {2}, {3}, {4}, {5}, P 6 , P 7 ,<br />

P 8 , P 9 , P 10 }, avec P 6 = {1, 3}, P 7 = {2, 4}, P 8 = {1, 3, 5}, P 9 = {1, 2, 3, 5}, P 10 = Ω.<br />

On a un ordre total θ <strong>com</strong>patible avec P défini <strong>com</strong>me suit: 3θ1, 1θ5, 5θ2, <strong>et</strong> 2θ4, alors P<br />

est une pyramide. C<strong>et</strong>te pyramide est prés<strong>en</strong>tée dans la Figure 2.1<br />

Definition 14 Une pyramide indicée est un couple (P, f) où P est une pyramide <strong>et</strong> f est<br />

une fonction f : P → R + telle que:


<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 30<br />

4.00<br />

3.00<br />

2.00<br />

✻<br />

P 8<br />

P 9<br />

P 10<br />

1.00<br />

P 6 P 7<br />

3 1 5 2 4<br />

✲<br />

Figure 2.1: Exemple d’une Pyramide.<br />

• ∀ h ∈ P on a que f(h) = 0 ⇔ h est un palier singl<strong>et</strong>on.<br />

• ∀ h, h ′ ∈ P on a que h ⊂ h ′ ⇒ f(h) ≤ f(h ′ ).<br />

On dira qu’une pyramide est indicée au s<strong>en</strong>s strict si h ⊂ h ′ ⇒ f(h) < f(h ′ ). De plus la<br />

pyramide s’appelle pyramide indicée au s<strong>en</strong>s large si h ⊂ h ′ <strong>et</strong> f(h) = f(h ′ ), impliqu<strong>en</strong>t<br />

l’exist<strong>en</strong>ce de h 1 , h 2 ∈ P différ<strong>en</strong>ts de h tels que h = h 1 ∩ h 2 .<br />

Definition 15 Soit Ω un <strong>en</strong>semble fini, soit P un <strong>en</strong>semble de parties non vides de Ω<br />

(appelées aussi paliers), P est une pyramide symbolique si:<br />

1. P est une pyramide.<br />

2. Chaque palier de P a un obj<strong>et</strong> symbolique <strong>com</strong>pl<strong>et</strong> associé.<br />

Example 5 Considérons le tableau de données 2.1:<br />

Soi<strong>en</strong>t Ω = {1, 2, 3}, P = {{1}, {2}, {3}, P 4 , P 5 , P 6 }, avec P 4 = {1, 2}, P 5 = {2, 3},<br />

P 6 = {1, 2, 3} = Ω, θ = “ ≤ ”. Alors on a que s 4 = (a 4 , R, d), s 5 = (a 5 , R, d),<br />

s 6<br />

= (a 6 , R, d) sont les obj<strong>et</strong>s symboliques associés à P 4 , P 5 , P 6 respectivem<strong>en</strong>t avec<br />

a 4 (w) = [[y 1 (w) ⊆ {1, 2}] ∧ [y 2 (w) ⊆ {1}] ∧ [y 3 (w) ⊆ {2}]], a 5 (w) = [[y 1 (w) ⊆


<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 31<br />

y 1 y 2 y 3<br />

w 1 1 1 2<br />

w 2 2 1 2<br />

w 3 3 3 1<br />

Table 2.1: Tableau des données.<br />

1.00<br />

✻<br />

P 6<br />

0.67<br />

0.17<br />

P 4<br />

P 5<br />

1 2 3<br />

✲<br />

Figure 2.2: Pyramide symbolique.<br />

{2, 3}] ∧ [y 2 (w) ⊆ {1, 3}] ∧ [y 3 (w) ⊆ {1, 2}]], a 6 (w) = [[y 1 (w) ⊆ {1, 2, 3}] ∧ [y 2 (w) ⊆<br />

{1, 3}] ∧ [y 3 (w) ⊆ {1, 2}]], R = “ ⊆ ”, d = {{1, 2, 3}, {1, 3}, {1, 2}}. Donc, P est une<br />

pyramide symbolique. C<strong>et</strong>te pyramide est prés<strong>en</strong>tée dans la Figure 2.2<br />

Definition 16 Un indice de dissimilarité pyramidale est un indice de dissimilarité d qui<br />

vérifie <strong>en</strong> plus les conditions suivantes:<br />

• d(s 1 , s 2 ) = 0 ⇒ s 1 = s 2 .<br />

• Il existe un ordre total θ sur Ω <strong>com</strong>patible avec d, c’est-à-dire, un ordre total θ tel<br />

que:<br />

s 1 θs 2 θs 3 ⇒ d(s 1 , s 3 ) ≥ max{d(s 1 , s 2 ), d(s 2 , s 3 )}.


<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 32<br />

2.2 Algorithme de <strong>Classification</strong> Pyramidale Symbolique<br />

Dans c<strong>et</strong>te section on prés<strong>en</strong>te un nouvel algorithme qui construit une pyramide symbolique<br />

à partir d’une matrice de données symboliques.<br />

Diday dans [28, Diday (1984)] propose l’algorithme CAP pour construire des pyramides<br />

numériques; c’est-à-dire pyramides <strong>en</strong>g<strong>en</strong>drées à partir d’un tableau de données classiques<br />

ou d’une matrice de dissimilarités. Dans [3, Bertrand <strong>et</strong> Diday (1990)], [44, Gil<br />

(1998)] <strong>et</strong> [55, Mfoumoune (1998)] les auteurs prés<strong>en</strong>t<strong>en</strong>t aussi des algorithmes dans ce<br />

but. Paula Brito, dans [9, Brito (1991)] propose un algorithme qui généralise l’algorithme<br />

proposé par Bertrand <strong>et</strong> qui construit des pyramides symboliques. Dans c<strong>et</strong>te section on<br />

propose un algorithme (CAPS) qui construit des pyramides symboliques binaires, c’est–<br />

à–dire, une pyramide dans laquelle chaque palier est de nouveau un obj<strong>et</strong> symbolique. De<br />

plus, c<strong>et</strong> algorithme calcule l’ext<strong>en</strong>sion de chacun de ces obj<strong>et</strong>s symboliques <strong>et</strong> vérifie sa<br />

<strong>com</strong>plétude.<br />

À différ<strong>en</strong>ce des algorithmes qui construis<strong>en</strong>t des pyramides numériques, ce nouvel algorithme<br />

ne recevra pas <strong>en</strong> <strong>en</strong>trée ni un indice de dissimilarité, ni un indice d’agrégation. À<br />

sa place nous utiliserons le “Degré de Généralité” (définition 7).<br />

Tous les algorithmes proposés jusqu’à maint<strong>en</strong>ant démarr<strong>en</strong>t avec un ordre arbitraire sur<br />

les élém<strong>en</strong>ts de Ω, lequel est modifié à chaque étape de l’algorithme jusqu’au mom<strong>en</strong>t<br />

où l’on obti<strong>en</strong>t un ordre total sur les élém<strong>en</strong>ts de Ω. L’algorithme qu’on propose ici<br />

utilise une méthode différ<strong>en</strong>te, il démarre avec n <strong>com</strong>posantes connexes (n = |Ω|) <strong>et</strong><br />

n ordres totaux associés à chacune des <strong>com</strong>posantes. L’algorithme avance, le nombre<br />

de <strong>com</strong>posantes connexes se réduit, jusqu’à ce qu’il n’y aura qu’une seule <strong>com</strong>posante<br />

connexe (<strong>et</strong> donc égale à Ω).<br />

On prés<strong>en</strong>te les définitions nécessaires pour la spécification de l’algorithme, elles sont<br />

différ<strong>en</strong>tes aux définitions prés<strong>en</strong>tées dans ([9, Brito (1991)], [3, Bertrand <strong>et</strong> Diday (1990)]


<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 33<br />

<strong>et</strong> [55, Mfoumoune (1998)]), car celles–ci sont locales à la “<strong>com</strong>posante connexe”.<br />

Pour les définitions suivantes, on a un <strong>en</strong>semble P ⊆ P (Ω) (l’<strong>en</strong>semble des parties de<br />

Ω) qui n’est pas nécessairem<strong>en</strong>t une pyramide; il est une “pyramide <strong>en</strong> construction”, par<br />

abus de langage on dira que tout élém<strong>en</strong>t de P est un palier.<br />

Definition 17 Soit C ∈ P, C s’appelle <strong>com</strong>posante connexe si:<br />

1. Il y a un ordre total ≤ C défini sur l’<strong>en</strong>semble C, c’est–à–dire, ∀ x, y ∈ C il existe un<br />

ordre ≤ C défini sur C tel que x ≤ C y ou y ≤ C x. En d’autres termes, l’algorithme<br />

a déjà construit un ordre total sur l’<strong>en</strong>semble C ⊆ Ω.<br />

2. C est le sous–<strong>en</strong>semble plus grand de Ω, au s<strong>en</strong>s de l’inclusion, à vérifier la propiété<br />

1.<br />

Example 6 Si on a la “pyramide <strong>en</strong> construction” de la Figure 2.3 alors<br />

C 1 = {8, 4, 11, 1, 12, 3, 13, 6} avec l’ordre total 8 ≤ C1 4 ≤ C1 11 ≤ C1 1 ≤ C1 12 ≤ C1<br />

3 ≤ C1 13 ≤ C1 6 <strong>et</strong> C 2 = {9, 10, 2, 5, 7} avec l’ordre total 9 ≤ C2 10 ≤ C2 2 ≤ C2 5 ≤ C2 7<br />

sont <strong>com</strong>posantes connexes.<br />

Remark 5 On doit noter qu’il n’y a pas, pour l’instant, de relation d’ordre <strong>en</strong>tre les<br />

élém<strong>en</strong>ts de C 1 <strong>et</strong> C 2 , <strong>et</strong> donc le dessin de la Figure 2.3 pourrait avoir les élém<strong>en</strong>ts de<br />

C 2 “à gauche” de tous ceux de C 1 .<br />

Definition 18 On dit qu’un palier G ∈ P apparti<strong>en</strong>t à une <strong>com</strong>posante connexe C de P<br />

si G ⊆ C. De plus on dira que l’ordre total ≤ C associé à C induit un ordre total ≤ G sur<br />

G de la manière suivante: si x, y ∈ G alors x ≤ G y ⇔ x ≤ C y.


<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 34<br />

6.00 ✻<br />

P 28<br />

5.00<br />

P 26 P 27<br />

4.00<br />

P 24 P 25<br />

3.00<br />

P 21 P 22 P 23<br />

2.00<br />

P 18 P 19 P 20<br />

1.00<br />

P 14 P 15 P 16 P 17<br />

8 4 11 1 12 3 13 6 9 10 2 5 7<br />

✲<br />

Figure 2.3: Pyramide <strong>en</strong> construction.<br />

Example 7 Si on a la “pyramide <strong>en</strong> construction” de la Figure 2.3 alors le palier P 24 =<br />

{1, 12, 3, 13, 6} apparti<strong>en</strong>t à la <strong>com</strong>posante connexe C 1 de l’exemple précéd<strong>en</strong>t avec l’ordre<br />

≤ P24 induit par ≤ C1 <strong>et</strong> le palier P 23 = {10, 2, 5} apparti<strong>en</strong>t à la <strong>com</strong>posante connexe C 2<br />

avec l’ordre ≤ P23 induit par ≤ C2 .<br />

Definition 19 Soi<strong>en</strong>t G 1 <strong>et</strong> G 2 des paliers de P, on dit que G 1 est intérieur à G 2 si:<br />

• G 1 ≠ G 2 .<br />

• G 1 <strong>et</strong> G 2 apparti<strong>en</strong>n<strong>en</strong>t à la même <strong>com</strong>posante connexe C.<br />

• min(G 2 ) < C min(G 1 ) <strong>et</strong> max(G 1 ) < C max(G 2 ), où α < C β signifie que α ≤ C β<br />

<strong>et</strong> α ≠ β.<br />

Example 8 Si on a la “pyramide <strong>en</strong> construction” de la Figure 2.3 alors le palier P 19 =<br />

{12, 3} est intérieur au palier P 24 = {1, 12, 3, 13, 6}.


<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 35<br />

Definition 20 Soi<strong>en</strong>t G 1 <strong>et</strong> G 2 des paliers de P, on dit que G 1 est successeur de G 2 <strong>et</strong><br />

que G 2 est prédécesseur de G 1 si:<br />

• G 1 ⊂ G 2 au s<strong>en</strong>s strict.<br />

• Il n’existe pas de palier G ∈ P tel que G 1 ⊂ G ⊂ G 2 au s<strong>en</strong>s strict.<br />

Example 9 Si on a la “pyramide <strong>en</strong> construction” de la Figure 2.3 alors le palier P 22 =<br />

{1, 12, 3, 13, 6} est successeur du palier P 24 = {1, 12, 3, 13, 6} <strong>et</strong> P 24 est prédécesseur de<br />

P 22 .<br />

Definition 21 Un palier G ∈ P, s’appelle maximal s’il n’a pas de prédécesseurs.<br />

Example 10 Si on a la “pyramide <strong>en</strong> construction” de la Figure 2.3 alors le palier P 26 =<br />

{8, 4, 11, 1, 12, 3, 13, 6} <strong>et</strong> le palier P 28 = {9, 10, 2, 5, 7} sont maximaux.<br />

Remark 6 On doit remarquer qu’une <strong>com</strong>posante connexe peut avoir plusieurs paliers<br />

maximaux (c.f. Figure 2.4)<br />

Definition 22 Soi<strong>en</strong>t G 1 <strong>et</strong> G 2 des paliers de P, on dit que G 1 est à gauche de G 2 <strong>et</strong> que<br />

G 2 est à droite de G 1 si:<br />

• G 1 <strong>et</strong> G 2 apparti<strong>en</strong>n<strong>en</strong>t à la même <strong>com</strong>posante connexe C.<br />

• min(G 1 ) ≤ C min(G 2 ) <strong>et</strong> max(G 1 ) ≤ C max(G 2 ).<br />

Definition 23 Soi<strong>en</strong>t G 1 <strong>et</strong> G 2 des paliers de P, on dit que G 1 est à semi–gauche de G 2<br />

si:<br />

• G 1 <strong>et</strong> G 2 apparti<strong>en</strong>n<strong>en</strong>t à la même <strong>com</strong>posante connexe C.<br />

• min(G 1 ) < C min(G 2 ) <strong>et</strong> max(G 1 ) = max(G 2 ).


<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 36<br />

Definition 24 Soi<strong>en</strong>t G 1 <strong>et</strong> G 2 des paliers de P, on dit que G 2 est à semi–droite de G 1<br />

si:<br />

• G 1 <strong>et</strong> G 2 apparti<strong>en</strong>n<strong>en</strong>t à la même <strong>com</strong>posante connexe C.<br />

• min(G 1 ) = min(G 2 ) <strong>et</strong> max(G 1 ) < C max(G 2 ).<br />

Example 11 Si on a la “pyramide <strong>en</strong> construction” de la Figure 2.3 alors les paliers P 22 ,<br />

P 24 <strong>et</strong> P 26 sont semi–gauche du palier P 16 . Le palier P 28 est à semi–droite du palier P 25 .<br />

Le palier P 15 est à gauche du palier P 19 mais P 15 n’est pas à semi–gauche du palier P 19 .<br />

Definition 25 Soi<strong>en</strong>t G 1 <strong>et</strong> G 2 des paliers de P, on dit que G 1 est le palier maximal<br />

gauche de G 2 si:<br />

• G 1 est à gauche de G 2 .<br />

• G 1 est un palier maximal.<br />

• max(G 2 ) = max(G 1 ).<br />

Example 12 Si on a la “pyramide <strong>en</strong> construction” de la Figure 2.3 alors le palier P 26 est<br />

le palier maximal gauche du palier P 16 .<br />

Definition 26 Soit G un palier de P qui apparti<strong>en</strong>t à la <strong>com</strong>posante connexe C, soi<strong>en</strong>t<br />

G 1 , G 2 , . . . , G l des paliers maximaux de la <strong>com</strong>posante connexe C, ordonnés de gauche<br />

à droite suivant l’ordre ≤ C (c’est–à–dire G i est à gauche de G i+1 ). Si G m est le palier<br />

maximal gauche de G <strong>et</strong> m < l alors G m+1 s’appelle le palier maximal immédiat de G.<br />

Si m = l on dira que G n’a pas de palier maximal immédiat.<br />

Example 13 Si on a la “pyramide <strong>en</strong> construction” de la Figure 2.4 alors on a trois <strong>com</strong>posantes<br />

connexes C 1 = {9, 4, 6, 10, 15, 13}, C 2 = {2, 11, 1} <strong>et</strong> C 3 = {3, 8, 16, 7, 12, 14, 5}.


<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 37<br />

6.00 ✻<br />

5.00<br />

4.00<br />

3.00<br />

2.00<br />

1.00<br />

P 35<br />

P 32 P 33 P 34<br />

P 31<br />

P 26 P 27 P 28 P 29 P 30<br />

P 22 P 23 P 24 P 25<br />

P 17 P 18 P 19 P 20 P 21<br />

9 4 6 10 15 13 2 11 1 3 8 16 7 12 14 5<br />

✲<br />

Figure 2.4: Pyramide <strong>en</strong> construction.<br />

Les paliers maximaux de la <strong>com</strong>posante connexe C 1 sont P 26 <strong>et</strong> P 32 , les paliers maximaux<br />

de la <strong>com</strong>posante connexe C 2 sont P 19 <strong>et</strong> P 33 <strong>et</strong> les paliers maximaux de la <strong>com</strong>posante<br />

connexe C 3 sont P 35 <strong>et</strong> P 21 . Le palier maximal gauche de P 22 est P 26 <strong>et</strong> P 32 est son palier<br />

maximal immédiat<br />

Dans la définition suivante on prés<strong>en</strong>te les critères d’agrégation de deux paliers. Quand les<br />

deux paliers apparti<strong>en</strong>n<strong>en</strong>t à la même <strong>com</strong>posante connexe le critère est ess<strong>en</strong>tiellem<strong>en</strong>t<br />

le même que celui proposé par Bertrand ([3, Bertrand <strong>et</strong> Diday (1990)]), néanmoins,<br />

dans le cas où les deux paliers apparti<strong>en</strong>n<strong>en</strong>t à des <strong>com</strong>posantes différ<strong>en</strong>tes la condition<br />

qui dit que le premier palier est “devant 1 ” le deuxième s’élimine. C<strong>et</strong>te idée perm<strong>et</strong><br />

de construire des pyramides plus <strong>en</strong> accord avec la structure de “dissimilarités” <strong>en</strong>tre<br />

les obj<strong>et</strong>s (individus), car la condition qui établit que le premier palier est “devant” le<br />

deuxième provoque que la dernière pyramide soit (probablem<strong>en</strong>t) affectée par l’ordre<br />

initial <strong>et</strong> arbitraire des obj<strong>et</strong>s de Ω. De plus dans notre algorithme, c<strong>et</strong>te condition n’a<br />

pas de s<strong>en</strong>s car l’algorithme ne <strong>com</strong>m<strong>en</strong>ce pas avec un ordre arbitraire sur les obj<strong>et</strong>s,<br />

1 Brito dans [Brito (1991)] prés<strong>en</strong>te la notion d’un palier devant un autre.


<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 38<br />

mais il part de n <strong>com</strong>posantes connexes avec un ordre total trivial 2 associé à chacune des<br />

<strong>com</strong>posantes connexes.<br />

Definition 27 Soi<strong>en</strong>t G 1 <strong>et</strong> G 2 des paliers de P.<br />

Cas 1: Si G 1 <strong>et</strong> G 2 apparti<strong>en</strong>n<strong>en</strong>t à la même <strong>com</strong>posante connexe, <strong>et</strong> on note par ←− G le<br />

palier maximal gauche de G 1 <strong>et</strong> par −→ G le palier maximal immédiat de G 1 (s’il existe<br />

3 ), alors G 1 <strong>et</strong> G 2 sont agrégeables si les deux conditions suivantes sont vérifiées:<br />

1. G 1 est à droite de ←− G <strong>et</strong> semi–gauche de ←− G ∩ −→ G .<br />

2. G 2 est à gauche de −→ G <strong>et</strong> semi–droite de ←− G ∩ −→ G .<br />

Cas 2: Si G 1 <strong>et</strong> G 2 n’apparti<strong>en</strong>n<strong>en</strong>t pas à la même <strong>com</strong>posante connexe, <strong>et</strong> si on note<br />

par C 1 <strong>et</strong> C 2 les <strong>com</strong>posantes connexes auxquelles G 1 <strong>et</strong> G 2 apparti<strong>en</strong>n<strong>en</strong>t respectivem<strong>en</strong>t.<br />

Alors G 1 <strong>et</strong> G 2 sont agrégeables si les deux conditions suivantes sont<br />

vérifiées:<br />

1. min(G 1 ) = min(C 1 ) ou max(G 1 ) = max(C 1 ).<br />

2. min(G 2 ) = min(C 2 ) ou max(G 2 ) = max(C 2 ).<br />

Example 14 Si on a la “pyramide <strong>en</strong> construction” de la Figure 2.4 alors le palier P 26 est<br />

agrégeable avec les paliers P 27 , P 31 , P 32 , P 2 = {2}, P 19 , P 33 , P 1 = {1}, P 3 = {3}, P 23 ,<br />

P 29 , P 34 , P 35 , P 21 <strong>et</strong> P 5 = {5}. Au contraire le palier P 22 est seulem<strong>en</strong>t agrégeable avec<br />

les paliers P 27 , P 31 <strong>et</strong> P 32 .<br />

Definition 28 Un palier G de P s’appelle actif si les trois conditions suivantes sont<br />

vérifiées:<br />

2 L’ordre est trivial car chaque <strong>com</strong>posante connexe initiale a cardinalité 1.<br />

3 Si le palier maximal immédiat n’existe pas alors les paliers ne seront pas agrégeables.


<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 39<br />

• Il existe un palier G ⋆ dans P tel que G est agrégeable avec G ⋆ .<br />

• ∄ ˜G ∈ P tel que G est palier intérieur à ˜G.<br />

• G n’a pas été agrégé deux fois.<br />

Example 15 Si on a la “pyramide <strong>en</strong> construction” de la Figure 2.4 alors les paliers P 9 ,<br />

P 17 , P 26 , P 22 , P 27 , P 31 , P 32 , P 28 , P 13 , P 2 , P 19 , P 33 , P 1 , P 3 , P 23 , P 29 , P 35 , P 34 , P 21 , <strong>et</strong> P 5<br />

sont actifs. Au contraire les paliers P 4 , P 6 , P 10 , P 18 , P 15 , P 11 , P 8 , P 24 , P 16 , P 25 , P 30 , P 7 ,<br />

P 20 , P 12 <strong>et</strong> P 14 ne sont pas actifs.<br />

ALGORITHME DE CLASSIFICATION ASCENDANTE PYRAMIDALE SYM-<br />

BOLIQUE (CAPS)<br />

Entrée :<br />

• M =Nombre maximum d’itérations.<br />

• N =Nombre de vecteurs de données symboliques (nombre de lignes du tableau<br />

de données symboliques).<br />

• P =Nombre de variables (nombre de colonnes du tableau de données symboliques).<br />

• X =Tableau de données symboliques.<br />

Sortie :<br />

• Un ordre total “≤” sur l’<strong>en</strong>semble Ω des obj<strong>et</strong>s.<br />

• Structure pyramidale, c’est–à–dire, une suite de vecteurs (p, p I ,<br />

p D , f(p)), avec p = 1, 2, . . . , NG, où NG =nombre total de paliers de la<br />

pyramide, p I =fils gauche du palier p <strong>et</strong> p D =fils droit du palier p. Si p est un<br />

palier singl<strong>et</strong>on alors p I = p D = 0.<br />

• Un obj<strong>et</strong> symbolique O p associé au palier p, avec p = 1, 2, . . . , NG.


<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 40<br />

• L’ext<strong>en</strong>sion de l’obj<strong>et</strong> associé à chaque palier, c’est–à–dire,<br />

Ext(O p ), avec p = 1, 2, . . . , NG.<br />

• Si l’algorithme échoue, la sortie sera un message d’erreur.<br />

Etape 1: Phase d’initialisation<br />

Etape 1.1 h = 1, où h est le nombre d’itérations.<br />

Etape 1.2 NG = N, où NG =Nombre total de paliers de la pyramide.<br />

Etape 1.3 NC = N, où NC =Nombre de <strong>com</strong>posantes connexes, à une itération<br />

donnée (à la fin de l’exécution de l’algorithme on aura NC = 1).<br />

Etape 1.4 NP = N, où NP =Nombre de paliers actifs <strong>en</strong> une itération donnée (à<br />

la fin de l’exécution de l’algorithme on aura NP = 1).<br />

Etape 1.5 On initialise les N premiers vecteurs de la structure pyramidale, de la<br />

forme suivante: (s, 0, 0, 0), s = 1, 2, . . . , N.<br />

Etape 1.6 On construit NC <strong>com</strong>posantes connexes initiales C s = {s},<br />

s = 1, 2, . . . , NC, <strong>et</strong> un ordre total ≤ C associé à chaque <strong>com</strong>posante connexe,<br />

dans lequel on a initialem<strong>en</strong>t que s ≤ C s. De plus on désigne par C<br />

l’<strong>en</strong>semble de toutes les <strong>com</strong>posantes, c’est–à–dire, C = {C 1 , C 2 , . . . , C NC }.<br />

Etape 1.7 On construit NP paliers actifs initiaux G q = {(α, β, s q , l)}, pour q =<br />

1, 2, . . . , NP de la manière suivante: α est un nombre associé à chaque palier<br />

actif <strong>en</strong> une itération donnée (les paliers actifs seront numérotés de 1 jusqu’à<br />

NP ), β est le nombre global du palier (pour le premier palier construit par<br />

l’algorithme β = N + 1, pour le deuxième palier construit par l’algorithme<br />

β = N + 2 <strong>et</strong> ainsi de suite), s q est le vecteur de données symboliques<br />

qui est emmagasiné dans la ligne q−ième du tableau de données symboliques<br />

(au début chaque ligne de la matrice correspond à un palier, néanmoins,<br />

quand l’algorithme avance, un palier peut correspondre à l’union de divers


<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 41<br />

obj<strong>et</strong>s symboliques, c’est–à–dire, le palier peut être associée à la “union” de<br />

divers lignes du tableau de données symboliques) <strong>et</strong> l est le nombre de fois<br />

que le palier a été agrégé (l ≤ 2). On note par G = {G s } s=1,2,...,NP =<br />

{(1, 1, s 1 , 0), (2, 2, s 2 , 0), . . . , (NP, NP, s NP , 0)} l’<strong>en</strong>semble de tous les paliers<br />

actifs initiaux, on note par G 1 q = α, G 2 q = β, G 3 q = s q <strong>et</strong> G 4 q = l.<br />

Etape 1.8 On calcule la matrice de dissimilarités initiale Dij<br />

h = g(s i ∪ s j ) (le<br />

degré de généralité) où s k est le vecteur de données symboliques qui est<br />

emmagasiné dans la k−ième ligne du tableau de données symboliques, avec<br />

i, j = 1, 2, . . . , N.<br />

Etape 2: Phase d’élimination<br />

Etape 2.1 On recherche les couples de paliers qui sont agrégeables, <strong>en</strong> utilisant les<br />

conditions de la définition 27, c’est–à–dire, on calcule la matrice:<br />

⎧<br />

1 si G l <strong>et</strong> G u sont agrégeables<br />

⎪⎨ 0 si G l <strong>et</strong> G u ne sont pas agrégeables<br />

B lu =<br />

0 si ∃ ˜G ∈ P tel que G l est un palier intérieur ˜G<br />

⎪⎩ 0 si ∃ ˜G ∈ P tel que G u est un palier intérieur ˜G<br />

pour l, u = 1, 2, . . . , NP .<br />

Etape 2.2 On calcule les paliers actifs qui ne sont plus agrégeables avec un autre<br />

palier (donc ils ne seront plus actifs), c’est–à–dire, on recherche tous les<br />

paliers Gη tels que la ligne <strong>et</strong> la colonne η de la matrice B ne conti<strong>en</strong>n<strong>en</strong>t<br />

que des zéros. Soit ˜G = {G α1 , G α2 , . . . , G αm } avec m ≥ 0 c<strong>et</strong> <strong>en</strong>semble de<br />

paliers.<br />

Etape 2.3 NP = NP − m.<br />

Etape 2.4 G = G ˜G.


<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 42<br />

Etape 2.5 Mise à jour de la matrice de dissimilarités D h de manière que:<br />

D h ∈ M (NP −m)×(NP −m) , car on a éliminé de D h toutes les lignes <strong>et</strong> colonnes<br />

associées aux paliers non actifs.<br />

Etape 3: Phase de formation du nouveaux paliers (Etape de Généralisation)<br />

Etape 3.1 On recherche s i <strong>et</strong> s j tels que D h ij = g(s i ∪s j ) soit minimum <strong>et</strong> B ij = 1,<br />

où i, j = 1, 2, . . . , NP . On note les paliers où ce minimum est atteint par s i ⋆<br />

<strong>et</strong> s j ⋆. Si B ij = 0, ∀ i, j = 1, 2, . . . , NP alors l’algorithme s’arrête <strong>et</strong> affiche<br />

un message d’erreur; autrem<strong>en</strong>t on passe à l’étape 3.2.<br />

Etape 3.2 NG = N + h <strong>et</strong> on calcule le vecteur suivant de la structure pyramidale<br />

NG, G 2 i ⋆, G2 j ⋆, Dh i ⋆ j ⋆).<br />

Etape 3.3 On calcule s ⋆ = s i ⋆ ∪ s j ⋆ <strong>et</strong> son ext<strong>en</strong>sion Ext(s ⋆ ).<br />

Etape 3.4 Si s ⋆ est <strong>com</strong>pl<strong>et</strong> <strong>et</strong> Ext(s ⋆ ) = Ext(s i ⋆) ∪ Ext(s j ⋆) alors on passe à<br />

l’étape 4, sinon on pr<strong>en</strong>d B i ⋆ j⋆ = 0 <strong>et</strong> on va à l’étape 3.1.<br />

Etape 4: Phase de mise à jour<br />

Etape 4.1 h = h + 1.<br />

Etape 4.2 (Mise à jour des <strong>com</strong>posantes) Si G i ⋆ ∈ C σ1 <strong>et</strong> G j ⋆ ∈ C σ2 sont tels que<br />

σ 1 ≠ σ 2 (apparti<strong>en</strong>n<strong>en</strong>t à des <strong>com</strong>posantes connexes différ<strong>en</strong>tes 4 ) alors:<br />

Etape 4.2.1 On construit une nouvelle <strong>com</strong>posante connexe C σ = C σ1 ∪ C σ2 ,<br />

<strong>en</strong>suite on définit dans C σ un nouvel ordre total. Pour faire cela il y a<br />

quatre possibilités (voir l’exemple 16):<br />

Cas 1: max(G i ⋆) = max(C σ1 ) <strong>et</strong> min(G<br />

⎧ j ⋆) = min(C σ2 ) :<br />

x ≤ ⎪⎨ Cσ1 y Si x, y ∈ C σ1<br />

Si x, y ∈ C σ alors x ≤ Cσ y ⇔ x ≤ Cσ2 y Si x, y ∈ C σ2<br />

⎪⎩ x ∈ C σ1 <strong>et</strong> y ∈ C σ2<br />

4 Si σ 1 = σ 2 l’algorithme mainti<strong>en</strong>drait les <strong>com</strong>posantes telles qu’elles sont.


<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 43<br />

Cas 2: max(G i ⋆) = max(C σ1 ) <strong>et</strong> max(G<br />

⎧ j ⋆) = max(C σ2 ) 5 :<br />

x ≤ ⎪⎨ Cσ1 y Si x, y ∈ C σ1<br />

Si x, y ∈ C σ alors x ≤ Cσ y ⇔ y ≤ Cσ2 x Si x, y ∈ C σ2<br />

⎪⎩ x ∈ C σ1 <strong>et</strong> y ∈ C σ2<br />

Cas 3: min(G i ⋆) = min(C σ1 ) <strong>et</strong> min(G<br />

⎧ j ⋆) = min(C σ2 ) 6 :<br />

y ≤ ⎪⎨ Cσ1 x Si x, y ∈ C σ1<br />

Si x, y ∈ C σ alors x ≤ Cσ y ⇔ x ≤ Cσ2 y Si x, y ∈ C σ2<br />

⎪⎩ x ∈ C σ1 <strong>et</strong> y ∈ C σ2<br />

Cas 4: min(G i ⋆) = min(C σ1 ) <strong>et</strong> max(G<br />

⎧ j ⋆) = max(C σ2 ) 7 :<br />

y ≤ ⎪⎨ Cσ1 x Si x, y ∈ C σ1<br />

Si x, y ∈ C σ alors x ≤ Cσ y ⇔ y ≤ Cσ2 x Si x, y ∈ C σ2<br />

⎪⎩ x ∈ C σ1 <strong>et</strong> y ∈ C σ2<br />

Etape 4.2.2 NC = NC − 1.<br />

Etape 4.2.3 C = (C {C σ1 , C σ2 }) ∪ {C σ }.<br />

Etape 4.3 (Mise à jour des paliers actifs)<br />

Etape 4.3.1 On calcule le nouveau palier 8 : G σ = G i ⋆ ∪ G j ⋆ := {(G 1 i ⋆, N +<br />

h, s i ⋆ ∪ s j ⋆, 0)} <strong>et</strong> on m<strong>et</strong> à jour le nombre de fois que ces deux paliers<br />

ont été agrégés, c’est–à–dire, G 4 i = ⋆ G4 i + 1 <strong>et</strong> ⋆ G4 j = ⋆ G4 j⋆ + 1. Après<br />

on élimine (désactive) les paliers qui ont été agrégés deux fois. Pour faire<br />

cela il y a quatre possibilités:<br />

Cas 1: Si G 4 i = 2 <strong>et</strong> ⋆ G4 j⋆ = 2 (les deux paliers ont été agrégés deux fois)<br />

alors: NP = NP − 1 <strong>et</strong> G = (G {G i ⋆, G j ⋆}) ∪ {G σ }.<br />

5 On a fait une “inversion” des élém<strong>en</strong>ts de C α2 .<br />

6 On a fait une “inversion” des élém<strong>en</strong>ts de C α1 .<br />

7 On a fait une “inversion” des élém<strong>en</strong>ts de C α1 <strong>et</strong> des élém<strong>en</strong>ts de C α2 .<br />

8 L’inversion dans une <strong>com</strong>posante implique l’inversion de tous les paliers qui apparti<strong>en</strong>n<strong>en</strong>t à c<strong>et</strong>te<br />

<strong>com</strong>posante, donc l’ordre des élém<strong>en</strong>ts des paliers est par définition hérité de l’ordre des élém<strong>en</strong>ts dans la<br />

<strong>com</strong>posante.


<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 44<br />

7.00 ✻<br />

6.00<br />

5.00<br />

4.00<br />

3.00<br />

2.00<br />

1.00<br />

31<br />

28 27 26<br />

29 30<br />

36<br />

32 34<br />

33<br />

22 23 24 25<br />

18 17<br />

20 21 19<br />

13 15 10 6 4 9 3 8 16 7 12 14 5 2 11 1<br />

35<br />

✲<br />

Figure 2.5: Pyramide obt<strong>en</strong>ue après l’union de deux <strong>com</strong>posantes connexes.<br />

Cas 2: Si G 4 i = 1 <strong>et</strong> ⋆ G4 j⋆ = 1 (les deux paliers ont été agrégés une fois)<br />

alors: NP = NP + 1 <strong>et</strong> G = G ∪ {G σ }.<br />

Cas 3: Si G 4 i ⋆ = 2 <strong>et</strong> G4 j ⋆ = 1 (G i ⋆ a été agrégé deux fois <strong>et</strong> G j ⋆ a été<br />

agrégé une fois) alors: G = (G {G i ⋆}) ∪ {G σ }.<br />

Cas 4: Si G 4 i ⋆ = 1 <strong>et</strong> G4 j ⋆ = 2 (G j ⋆ a été agrégé deux fois <strong>et</strong> G i ⋆ a été<br />

agrégé une fois) alors: G = (G {G j ⋆}) ∪ {G σ }.<br />

Etape 4.4 On calcule la nouvelle matrice de “dissimilarités” D h ij = g(s i ∪ s j ) pour<br />

i, j = 1, 2, . . . , NP . (On calcule seulem<strong>en</strong>t les “dissimilarités” qui n’ont pas<br />

été calculées avant)<br />

Etape 5: Si NP = 1 alors l’algorithme s’arrête; <strong>en</strong> cas contraire, si h > M alors<br />

l’algorithme affiche un message d’erreur, sinon on passe à l’étape 2.<br />

Example 16 Si on a la “pyramide <strong>en</strong> construction” de la Figure 2.4 <strong>et</strong> si le minimum est<br />

atteint <strong>en</strong>tre les palier P 26 <strong>et</strong> P 23 alors on obti<strong>en</strong>t la pyramide de la Figure 2.5.


<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 45<br />

Remark 7 Dans l’étape 3.1 le minimum pouvait s’obt<strong>en</strong>ir dans des divers couples d’obj<strong>et</strong>s<br />

symboliques. Si on voulait trouver une pyramide non “saturée” (Voir la définition dans<br />

[28, Diday (1984)]) alors on devrait choisir le couple de paliers (obj<strong>et</strong>s symboliques) de<br />

manière à ce qu’ils soi<strong>en</strong>t le plus loin 9 possible dans la <strong>com</strong>posante connexe à laquelle<br />

apparti<strong>en</strong>n<strong>en</strong>t (ou à laquelle apparti<strong>en</strong>dront lorque l’agrégation sera effectuée). Si <strong>en</strong> revanche<br />

on voulait une pyramide avec le maximum possible de paliers, alors on devrait<br />

choisir le couple de paliers (obj<strong>et</strong>s symboliques) de façon à qu’ils soi<strong>en</strong>t le plus près possible<br />

dans la <strong>com</strong>posante connexe à laquelle apparti<strong>en</strong>n<strong>en</strong>t (ou à laquelle apparti<strong>en</strong>dront<br />

une fois l’agrégation effectuée). Celui–ci est une option du module de pyramide dans<br />

PIMAD-Symbolique qui exécute c<strong>et</strong> algorithme (voir annexe 1).<br />

2.3 Algorithme de <strong>Classification</strong> Pyramidale Symbolique<br />

avec Ordre Donné<br />

Dans c<strong>et</strong>te section on prés<strong>en</strong>te un algorithme pour construire une pyramide symbolique<br />

binaire quand on a l’ordre des obj<strong>et</strong>s a priori 10 . C<strong>et</strong> algorithme est un cas particulier du<br />

précéd<strong>en</strong>t, puisqu’il démarre avec n = 1 <strong>com</strong>posante connexe, alors que CAPS le fait<br />

avec n = |Ω|.<br />

ALGORITHME DE CLASSIFICATION ASCENDANTE PYRAMIDALE SYM-<br />

BOLIQUE AVEC UN ORDRE DONNÉ (CAPSO)<br />

Entrée :<br />

• M =Nombre maximum d’itérations.<br />

9 Le plus loin possible selon l’ordre total ≤ C associé à la <strong>com</strong>posante connexe.<br />

10 C<strong>et</strong> ordre ne se rapporte pas à l’ordre symbolique prés<strong>en</strong>té dans la définition 3, mais plutôt il se rapporte<br />

à un ordre dans le s<strong>en</strong>s classique parmi les premiers n paliers (feuilles) de la pyramide.


<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 46<br />

• N =Nombre de vecteurs de données symboliques (nombre de lignes du tableau<br />

de données symboliques).<br />

• P =Nombre de variables (nombre de colonnes du tableau de données symboliques).<br />

• X =Tableau de données symboliques.<br />

• Un ordre total “≤ Ω ” sur l’<strong>en</strong>semble Ω d’obj<strong>et</strong>s.<br />

Sortie :<br />

• Structure pyramidale, c’est–à–dire, une suite de vecteurs (p, p I ,<br />

p D , f(p)), avec p = 1, 2, . . . , NG, où NG =nombre total de paliers de la<br />

pyramide, p I =fils gauche du palier p <strong>et</strong> p D =fils droit du palier p. Si p est un<br />

palier singl<strong>et</strong>on alors p I = p D = 0.<br />

• Un obj<strong>et</strong> symbolique O p associé au palier p, avec p = 1, 2, . . . , NG.<br />

• L’ext<strong>en</strong>sion de l’obj<strong>et</strong> associée à chaque palier, c’est–à–dire,<br />

Ext(O p ), avec p = 1, 2, . . . , NG.<br />

• Si l’algorithme échoue, la sortie sera un message d’erreur.<br />

Etape 1: Phase d’initialisation<br />

Etape 1.1 h = 1, où h est le nombre d’itérations.<br />

Etape 1.2 NG = N, où NG =Nombre total de paliers de la pyramide.<br />

Etape 1.3 NC = 1, où NC =Nombre de <strong>com</strong>posantes connexes, à une itération<br />

donnée.<br />

Etape 1.4 NP = N, où NP =Nombre de paliers actifs <strong>en</strong> une itération donnée (à<br />

la fin de l’exécution de l’algorithme on aura NP = 1).<br />

Etape 1.5 On initialise les N premiers vecteurs de la structure pyramidale, de la<br />

forme suivante: (s, 0, 0, 0), s = 1, 2, . . . , N.


<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 47<br />

Etape 1.6 On construit une <strong>com</strong>posante connexe C = {s 1 , s 2 , . . . , s N }, avec un<br />

ordre total ≤ C , défini de la forme suivante: s i ≤ C s j ⇔ s i ≤ Ω s j .<br />

Etape 1.7 On construit NP paliers actifs initiaux G q = {(α, β, s q , l)}, pour q =<br />

1, 2, . . . , NP de la manière suivante: α est un nombre associé à chaque palier<br />

actif dans une itération donnée (les paliers actifs seront numérot<strong>en</strong>t de 1 jusqu’à<br />

NP ), β est le nombre global du palier (pour le premier palier construit par<br />

l’algorithme β = N + 1, pour le deuxième palier construit par l’algorithme<br />

β = N + 2 <strong>et</strong> ainsi de suite), s q est le vecteur de données symboliques qui<br />

est emmagasiné dans la ligne q−ième du tableau de données symboliques (au<br />

début chaque ligne de la matrice correspond à un palier, néanmoins, quand<br />

l’algorithme avance un palier peut correspondre à l’union de divers obj<strong>et</strong>s<br />

symboliques, c’est-à-dire, il pourrait être associé à l’union de diverses lignes<br />

du tableau de données symboliques) <strong>et</strong> l est le nombre de fois que le palier<br />

a été agrégé (l ≤ 2). On note par G = {G s } s=1,2,...,NP = {(1, 1, s 1 , 0),<br />

(2, 2, s 2 , 0), . . . , (NP, NP, s NP , 0)} l’<strong>en</strong>semble de tous les paliers actifs initiaux,<br />

on note par G 1 q = α, G 2 q = β, G 3 q = s q <strong>et</strong> G 4 q = l.<br />

Etape 1.8 On calcule la matrice de dissimilarités initiale Dij<br />

h = g(s i ∪ s j ) (le<br />

degré de généralité), où s k est le vecteur de données symboliques qui est<br />

emmagasiné dans la k−ième ligne du tableau de données symboliques, avec<br />

i, j = 1, 2, . . . , N.<br />

Etape 2: Phase d’élimination<br />

Etape 2.1 On recherche les couples de paliers qui sont agrégeables, <strong>en</strong> utilisant les


<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 48<br />

conditions de la définition 27, c’est-à-dire, on calcule la matrice:<br />

⎧<br />

1 si G l <strong>et</strong> G u sont agrégeables<br />

⎪⎨ 0 si G l <strong>et</strong> G u ne sont pas agrégeables<br />

B lu =<br />

0 si ∃ ˜G ∈ P tel que G l est un palier intérieur ˜G<br />

⎪⎩ 0 si ∃ ˜G ∈ P tel que G u est un palier intérieur ˜G<br />

pour l, u = 1, 2, . . . , NP .<br />

Etape 2.2 On calcule les paliers actifs qui ne sont plus agrégeables avec un autre<br />

palier (donc ils ne seront plus actifs), c’est–à–dire, on recherche tous les<br />

paliers Gη tels que la ligne <strong>et</strong> la colonne η de la matrice B ne conti<strong>en</strong>n<strong>en</strong>t<br />

que des zéros. Soit ˜G = {G α1 , G α2 , . . . , G αm } avec m ≥ 0 c<strong>et</strong> <strong>en</strong>semble de<br />

paliers.<br />

Etape 2.3 NP = NP − m.<br />

Etape 2.4 G = G ˜G.<br />

Etape 2.5 Mise à jour de la matrice de dissimilarités D h de façon que:<br />

D h ∈ M (NP −m)×(NP −m) , donc on a éliminé de D h toutes les lignes <strong>et</strong> colonnes<br />

associées à des paliers non actifs.<br />

Etape 3: Phase de formation du nouveaux paliers (Etape de Généralisation)<br />

Etape 3.1 On recherche s i <strong>et</strong> s j tel que Dij h = G(s i ∪ s j ) soit minimum <strong>et</strong> B ij = 1,<br />

où i, j = 1, 2, . . . , NP . On note les paliers où ce minimum est atteint par s i ⋆<br />

<strong>et</strong> s j ⋆. Si B ij = 0, ∀ i, j = 1, 2, . . . , NP , alors l’algorithme s’arrête <strong>et</strong> affiche<br />

un message d’erreur; autrem<strong>en</strong>t on passe à l’étape 3.2.<br />

Etape 3.2 NG = N + h, toute de suite on calcule le vecteur suivant de la structure<br />

pyramidale (NG, G 2 i ⋆, G2 j ⋆, Dh i ⋆ j ⋆).<br />

Etape 3.3 On calcule s ⋆ = s i ⋆ ∪ s j ⋆ <strong>et</strong> son ext<strong>en</strong>sion Ext(s ⋆ ).


<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 49<br />

Etape 3.4 Si s ⋆ est <strong>com</strong>pl<strong>et</strong> <strong>et</strong> Ext(s ⋆ ) = Ext(s i ⋆) ∪ Ext(s j ⋆) alors on passe à<br />

l’étape 4, sinon on pr<strong>en</strong>d B i ⋆ j⋆ = 0 <strong>et</strong> l’algorithme se poursuit à l’étape 3.1.<br />

Etape 4: Phase de mise à jour<br />

Etape 4.1 h = h + 1.<br />

Etape 4.2 (Mise à jour des paliers actifs)<br />

Etape 4.2.1 On calcule le nouveau palier: G σ = G i ⋆ ∪ G j ⋆ := {(G 1 i ⋆, N +<br />

h, s i ⋆ ∪ s j ⋆, 0)} <strong>et</strong> on m<strong>et</strong> à jour le nombre de fois que ces deux paliers<br />

ont été agrégé, c’est–à–dire, G 4 i = ⋆ G4 i + 1 <strong>et</strong> ⋆ G4 j = ⋆ G4 j⋆ + 1. Après on<br />

a éliminé (désactive) les paliers qui ont été agrégés deux fois. Pour faire<br />

ça, il y a quatre possibilités:<br />

Cas 1: Si G 4 i = 2 <strong>et</strong> ⋆ G4 j⋆ = 2 (les deux paliers ont été agrégés deux fois)<br />

alors: NP = NP − 1 <strong>et</strong> G = (G {G i ⋆, G j ⋆}) ∪ {G σ }.<br />

Cas 2: Si G 4 i = 1 <strong>et</strong> ⋆ G4 j⋆ = 1 (les deux paliers ont été agrégés une fois)<br />

alors: NP = NP + 1 <strong>et</strong> G = G ∪ {G σ }.<br />

Cas 3: Si G 4 i ⋆ = 2 <strong>et</strong> G4 j ⋆ = 1 (G i ⋆ a été agrégé deux fois <strong>et</strong> G j ⋆ a été<br />

agrégé une fois) alors: G = (G {G i ⋆}) ∪ {G σ }.<br />

Cas 4: Si G 4 i ⋆ = 1 <strong>et</strong> G4 j ⋆ = 2 (G j ⋆ a été agrégé deux fois <strong>et</strong> G i ⋆ a été<br />

agrégé une fois) alors: G = (G {G j ⋆}) ∪ {G σ }.<br />

Etape 4.3 On calcule la nouvelle matrice de “dissimilarités” D h ij = G(s i ∪s j ) pour<br />

i, j = 1, 2, . . . , NP (On calcule seulem<strong>en</strong>t les “dissimilarités” qui n’ont pas<br />

été calculees avant).<br />

Etape 5: Si NP = 1 alors l’algorithme s’arrête; <strong>en</strong> cas contraire, si h > M alors<br />

l’algorithme affiche un message d’erreur, sinon on passe à l’étape 2.


<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 50<br />

2.4 Théorèmes de converg<strong>en</strong>ce<br />

Diday dans [28, Diday (1984)] propose l’algorithme suivant (appelé CAP) pour construire<br />

une pyramide numérique:<br />

L’algorithme <strong>com</strong>m<strong>en</strong>ce par le choix d’un indice d’agrégation <strong>et</strong> passe <strong>en</strong>suite aux étapes<br />

suivantes:<br />

a) Chaque élém<strong>en</strong>t de Ω est dans la pyramide <strong>et</strong> s’appelle groupe.<br />

b) On agrège les deux groupes les plus proches parmi les groupes qui n’ont pas été<br />

agrégé deux fois.<br />

c) On répète l’étape b) jusqu’à ce qu’un groupe qui conti<strong>en</strong>ne Ω soit formé.<br />

De plus l’algorithme est suj<strong>et</strong> aux conditions suivants.<br />

d) Chaque fois qu’un groupe est formé on lui associe un ordre sur les deux groupes<br />

qu’il réunit.<br />

e) Deux groupes ne peuv<strong>en</strong>t pas être réunis s’ils ne sont pas connexes.<br />

f) Soi<strong>en</strong>t i <strong>et</strong> j les élém<strong>en</strong>ts extrêmes de la partie connexe de Ω associée à un groupe<br />

h; aucun groupe ne peut pas se connecter à un groupe inclus dans h qui ne conti<strong>en</strong>t<br />

ni i ni j.<br />

Lemma 1 L’algorithme CAP construit une pyramide.<br />

Démonstration: Peut être consultée dans [28, Diday (1984)].<br />

Proposition 2 L’algorithme CAPS construit une pyramide symbolique.


<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 51<br />

Démonstration: L’étape a) de l’algorithme CAP est exécuté par les étapes 1.5 <strong>et</strong> 1.7 de<br />

l’algorithme CAPS <strong>et</strong> l’étape b) de CAP est exécuté par les étapes 3.1 <strong>et</strong> 4.3 de CAPS.<br />

L’étape c) de CAP est équival<strong>en</strong>te à l’étape 5 de CAPS.<br />

La condition d) de l’algorithme CAP est équival<strong>en</strong>te à l’étape 4.3.1 de l’algorithme CAPS.<br />

Les conditions e) <strong>et</strong> f) de CAP sont garanties par le cas 1 <strong>et</strong> le cas 2 de la définition 27<br />

respectivem<strong>en</strong>t. Alors, si on utilise le lemme 1, on a que la sortie de CAPS satisfait la<br />

condition 1 de la définition 15.<br />

L’étape 3.4 de l’algorithme CAPS garantit que la sortie sera une pyramide symbolique,<br />

donc à c<strong>et</strong>te étape on vérifie la <strong>com</strong>plétude de l’obj<strong>et</strong> symbolique construit par la nouvelle<br />

agrégation. Si c<strong>et</strong> obj<strong>et</strong> symbolique n’est pas <strong>com</strong>pl<strong>et</strong>, le minimum est écarté <strong>et</strong><br />

on continue à l’étape 3.1 jusqu’à trouver un couple de paliers qui satisfasse les conditions<br />

d’agrégation <strong>et</strong> qui donne lieu à un obj<strong>et</strong> symbolique <strong>com</strong>pl<strong>et</strong>. S’il n’y a pas de<br />

paliers, alors CAPS r<strong>et</strong>ournera un message d’erreur; avec c<strong>et</strong>te condition on garantit que<br />

si l’algorithme CAPS s’arrête alors il construit une pyramide symbolique, ainsi on a la<br />

condition 2 de la définition 15.<br />

<br />

Vu que l’algorithme CAPSO est un cas particulier de l’algorithme CAPS, on a le corollaire<br />

qui suit.<br />

Corollary 3 L’algorithme CAPSO construit une pyramide symbolique.<br />

2.5 Exemples<br />

Pour illustrer l’utilisation de l’algorithme dans c<strong>et</strong>te section on prés<strong>en</strong>te deux exemples<br />

d’exécution d’algorithme CAPS.


<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 52<br />

0.09<br />

✻<br />

18<br />

0.05<br />

17<br />

16<br />

0.04<br />

0.03<br />

13<br />

14<br />

15<br />

0.03<br />

0.02<br />

0.02<br />

0.01<br />

7<br />

9<br />

10<br />

8<br />

12<br />

11<br />

5 4 2 1 3 6<br />

✲<br />

Figure 2.6: Pyramide du tableau de données de l’exemple 1.1.1.<br />

Example 17 C<strong>et</strong> exemple correspond à l’exécution de l’algorithme CAPS avec le tableau<br />

de données symboliques qu’on a prés<strong>en</strong>té dans l’exemple 1.<br />

L’information suivante correspond aux obj<strong>et</strong>s symboliques <strong>et</strong> ses ext<strong>en</strong>sions respectives<br />

calculées par l’algorithme CAPS associés à chaque palier de la pyramide.<br />

Where the labels of variables are:<br />

y1=Number of adults over 16 years<br />

y2=QWEtv-lic<strong>en</strong>ce<br />

y3=Fuel type c<strong>en</strong>tral heating<br />

y4=C<strong>en</strong>tral heating install<br />

y5=CH repairs last 12 month


<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 53<br />

Where the labels of the individuals are:<br />

1="Northern m<strong>et</strong>ropolitan"<br />

2="North non-m<strong>et</strong>ropolitan"<br />

3="Yorks and humberside m<strong>et</strong>ropoli"<br />

4="Yorks and humberside non-m<strong>et</strong>ro"<br />

5="East midlands non-m<strong>et</strong>ropolitan"<br />

6="Northern Ireland"<br />

P7=[y1=[1.000,4.000]]ˆ[y2={1.00}]ˆ[y3=(1(0.7181),2(0.0537),3(0.4348),<br />

4(0.0870),5(0.0435),6(0.0134),7(0.0067))]ˆ[y4=(1(0.0435),2(0.9799<br />

))]ˆ[y5=(1(0.8696),2(0.2483))]<br />

Ext(P7)={4,5}<br />

P8=[y1=[1.000,5.000]]ˆ[y2={2.00}]ˆ[y3=(1(0.7882),2(0.1151),3(0.2806),<br />

4(0.0791),5(0.0288),6(0.0000),7(0.0000))]ˆ[y4=(1(0.0588),2(0.9856)<br />

)]ˆ[y5=(1(0.7765),2(0.2734))]<br />

Ext(P8)={1,3}<br />

P9=[y1=[1.000,4.000]]ˆ[y2={3.00,1.00}]ˆ[y3=(1(0.7181),2(0.1259),3(0.<br />

1879),4(0.0134),5(0.0070),6(0.0134),7(0.0067))]ˆ[y4=(1(0.0201),2(<br />

0.9860))]ˆ[y5=(1(0.7692),2(0.2483))]<br />

Ext(P9)={2,4}<br />

P10=[y1=[1.000,4.000]]ˆ[y2={2.00,3.00}]ˆ[y3=(1(0.6853),2(0.1259),3(0.<br />

2806),4(0.0791),5(0.0288),6(0.0000),7(0.0000))]ˆ[y4=(1(0.0144),2(<br />

0.9860))]ˆ[y5=(1(0.7692),2(0.2734))]<br />

Ext(P10)={1,2}<br />

P11=[y1=[1.000,6.000]]ˆ[y2={2.00}]ˆ[y3=(1(0.7882),2(0.4107),3(0.2000),<br />

4(0.3750),5(0.0089),6(0.0446),7(0.0179))]ˆ[y4=(1(0.0588),2(0.9643)<br />

)]ˆ[y5=(1(0.7768),2(0.2235))]<br />

Ext(P11)={3,6}<br />

P12=[y1=[1.000,6.000]]ˆ[y2={2.00}]ˆ[y3=(1(0.7882),2(0.4107),3(0.2806),<br />

4(0.3750),5(0.0288),6(0.0446),7(0.0179))]ˆ[y4=(1(0.0588),2(0.9856)<br />

)]ˆ[y5=(1(0.7768),2(0.2734))]<br />

Ext(P12)={1,3,6}


<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 54<br />

P13=[y1=[1.000,4.000]]ˆ[y2={1.00,3.00}]ˆ[y3=(1(0.7181),2(0.1259),3(0.4<br />

348),4(0.0870),5(0.0435),6(0.0134),7(0.0067))]ˆ[y4=(1(0.0435),2(0.<br />

9860))]ˆ[y5=(1(0.8696),2(0.2483))]<br />

Ext(P13)={2,4,5}<br />

P14=[y1=[1.000,4.000]]ˆ[y2={3.00,1.00,2.00}]ˆ[y3=(1(0.7181),2(0.1259),3<br />

(0.4348),4(0.0870),5(0.0435),6(0.0134),7(0.0067))]ˆ[y4=(1(0.0435),2<br />

(0.9860))]ˆ[y5=(1(0.8696),2(0.2734))]<br />

Ext(P14)={1,2,4,5}<br />

P15=[y1=[1.000,5.000]]ˆ[y2={2.00,3.00}]ˆ[y3=(1(0.7882),2(0.1259),3(0.28<br />

06),4(0.0791),5(0.0288),6(0.0000),7(0.0000))]ˆ[y4=(1(0.0588),2(0.98<br />

60))]ˆ[y5=(1(0.7765),2(0.2734))]<br />

Ext(P15)={1,2,3}<br />

P16=[y1=[1.000,6.000]]ˆ[y2={2.00,3.00}]ˆ[y3=(1(0.7882),2(0.4107),3(0.28<br />

06),4(0.3750),5(0.0288),6(0.0446),7(0.0179))]ˆ[y4=(1(0.0588),2(0.98<br />

60))]ˆ[y5=(1(0.7768),2(0.2734))]<br />

Ext(P16)={1,2,3,6}<br />

P17=[y1=[1.000,5.000]]ˆ[y2={2.00,3.00,1.00}]ˆ[y3=(1(0.7882),2(0.1259),<br />

3(0.4348),4(0.0870),5(0.0435),6(0.0134),7(0.0067))]ˆ[y4=(1(0.0588)<br />

,2(0.9860))]ˆ[y5=(1(0.8696),2(0.2734))]<br />

Ext(P17)={1,2,3,4,5}


<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 55<br />

P18=[y1=[1.000,6.000]]ˆ[y2={2.00,3.00,1.00}]ˆ[y3=(1(0.7882),2(0.4107),3<br />

(0.4348),4(0.3750),5(0.0435),6(0.0446),7(0.0179))]ˆ[y4=(1(0.0588),2<br />

(0.9860))]ˆ[y5=(1(0.8696),2(0.2734))]<br />

Ext(P18)={1,2,3,4,5,6}<br />

Chaque palier de la pyramide peut être interprété; par exemple, le palier P12 est un noeud<br />

des régions où “Number of adults older than 16 years” est <strong>en</strong>tre 1 <strong>et</strong> 6. Le nombre de<br />

permis de la télévision (QWEtv-lic<strong>en</strong>ce) est 2. Le type de “Fuel type c<strong>en</strong>tral heating”<br />

est 1 maximum 78,82% des cas, il est 2 au maximun 41,07% des cas, il est 3 maximum<br />

28,06% des cas, il est 4 maximum 37,5% des cas, il est 5 maximum 2,88% des cas, il est 6<br />

maximum 4,46% des cas, il est 7 maximum 1,79% des cas. “C<strong>en</strong>tral heating install” est 1<br />

maximum 5,8% <strong>et</strong> il est 2 maximum 98,56%. “CH repairs last 12 month” est 1 maximum<br />

77.68% des cas <strong>et</strong> il est 2 au maximum 27.34% des cas.<br />

Example 18 Dans c<strong>et</strong> exemple on illustre l’exécution de l’algorithme CAPS avec les<br />

données d’Ichino, on les prés<strong>en</strong>te dans le tableau 4.1. Chaque ligne du tableau représ<strong>en</strong>te<br />

un type d’huile décrit par 4 variables quantitatives de type intervalle: “Specific Gravity”,<br />

“Freezing point”, “Iodine Value” <strong>et</strong> “Saponification”. Dans la pyramide de la Figure 2.7<br />

on a modifié l’échelle (voir annexe 1) pour une meilleure visualisation des paliers <strong>et</strong> dans<br />

la pyramide de la Figure 2.8 on n’a pas modifié l’échelle. Si dans l’algorithme CAPS on<br />

désative (élimine) les paliers qui ont été agrégés une fois, on obti<strong>en</strong>t la hiérarchie binaire<br />

qui est prés<strong>en</strong>té dans la Figure 2.9.<br />

Les données suivantes correspond<strong>en</strong>t aux obj<strong>et</strong>s symboliques associés aux paliers numéro<br />

27, 32 <strong>et</strong> 36 <strong>et</strong> leurs ext<strong>en</strong>sions respectives calculées par l’algorithme CAPS.<br />

P27=[y1=[0.914,0.919]U[0.930,0.935]]ˆ[y2=[-27.000,-18.000]U[0.000,<br />

6.000]]ˆ[y3=[79.000,90.000]U[170.000,204.000]]ˆ<br />

[y4=[118.000,196.000]]


<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 56<br />

Figure 2.7: Représ<strong>en</strong>tation pyramidale de l’exemple de l’huile <strong>et</strong> la graisse (échelle modifié).<br />

Ext(P27)={1,6}<br />

P32=[y1=[0.858,0.870]U[0.914,0.919]U[0.920,0.926]U[0.930,0.937]]ˆ<br />

[y2=[-25.000,-15.000]U[-6.000,-1.000]U[0.000,6.000]U[22.000,<br />

38.000]]ˆ[y3=[40.000,48.000]U[53.000,77.000]U[79.000,90.000]U<br />

[99.000,116.000]U[192.000,208.000]]ˆ[y4=[187.000,202.000]]<br />

Ext(P32)={2,3,4,5,6,7,8}<br />

P36=[y1=[0.858,0.870]U[0.914,0.919]U[0.920,0.926]U[0.930,0.937]]ˆ<br />

[y2=[-27.000,-15.000]U[-6.000,-1.000]U[0.000,6.000]U[22.000,<br />

38.000]]ˆ[y3=[40.000,48.000]U[53.000,77.000]U[79.000,90.000]U<br />

[99.000,116.000]U[170.000,208.000]]ˆ[y4=[118.000,202.000]]<br />

Ext(P36)={1,2,3,4,5,6,7,8}<br />

Example 19 Dans c<strong>et</strong> exemple on illustre l’exécution de l’algorithme CAPSO avec les<br />

données d’Ichino, on les prés<strong>en</strong>te dans le tableau 4.1. Si 1=“L”, 2=“P”, 3=“Co”, 4=“S”,<br />

5=“Ca”, 6=“O”, 7=“B” <strong>et</strong> 8=“O”. Si on a l’ordre des obj<strong>et</strong>s a priori 7≤6≤5≤1≤2≤4≤3


<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 57<br />

✻<br />

1.00<br />

36<br />

0.54<br />

35<br />

0.23<br />

0.19<br />

33<br />

34<br />

0.11<br />

0.09<br />

0.05<br />

0.03<br />

30 31 32<br />

29<br />

28<br />

27<br />

26<br />

12 14 17<br />

21<br />

24<br />

25<br />

23<br />

9 13 10 19 16 11 20<br />

22<br />

15 18<br />

1 6 3 5 4 2 7 8<br />

✲<br />

Figure 2.8: Représ<strong>en</strong>tation pyramidale de l’exemple de l’huile <strong>et</strong> la graisse (échelle<br />

réelle).<br />

alors l’algorithme CAPSO produit la pyramide de la Figure 2.10.


<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 58<br />

Figure 2.9: Hiérarchie binaire de l’exemple de l’huile <strong>et</strong> la graisse (échelle modifié).


<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 59<br />

Figure 2.10: Représ<strong>en</strong>tation pyramidale de l’exemple de l’huile <strong>et</strong> la graisse si on a l’ordre<br />

des obj<strong>et</strong>s a priori 7≤6≤5≤1≤2≤4≤3.


Chapter 3<br />

La Régression Symbolique<br />

3.1 Introduction<br />

Dans ce chapitre nous généralisons la méthode classique de la régression linéare simple<br />

au cas de données symboliques de type intervalle.<br />

Pour généraliser ces méthodes il est nécessaire d’abord de faire la généralisation au cas<br />

symbolique des indices statistiques classiques d’une variable <strong>et</strong> de deux variables <strong>com</strong>me,<br />

la moy<strong>en</strong>ne, l’écart type, la corrélation, <strong>en</strong>tre autres. Ces généralisations ont toujours<br />

été faites selon le principe de base proposé par [32, Diday (1991)] dans lequel il est<br />

indiqué que “si l’<strong>en</strong>trée dans une analyse de données est symbolique alors la sortie devrait<br />

égalem<strong>en</strong>t être symbolique”, c’est–à–dire, si la variation est price <strong>en</strong> <strong>com</strong>pte dans l’<strong>en</strong>trée<br />

elle doit exister égalem<strong>en</strong>t dans la sortie.<br />

Ces généralisations ti<strong>en</strong>n<strong>en</strong>t <strong>com</strong>pte de celles effectuées par Bertrand <strong>et</strong> Goupil ([7, Bock<br />

<strong>et</strong> Diday (2000)]), dans lesquelles l’<strong>en</strong>trée est symbolique mais la sortie est numérique.<br />

Dans nos généralisations nous avons égalem<strong>en</strong>t t<strong>en</strong>u <strong>com</strong>pte du principe qui établit que<br />

l’analyse des données classiques devrait nécessairem<strong>en</strong>t être un cas particulier de l’analyse<br />

60


La Régression Symbolique 61<br />

des données symboliques. À la fin du chapitre, les caractéristiques principales du module<br />

pour la régression simple <strong>et</strong> multiple (qui est une partie du logiciel développé dans C++<br />

dans le cadre de la thèse) sont expliquées.<br />

La généralisation de l’analyse de données d’une variable au cas symbolique est nécessaire,<br />

parce que quand une analyse de données est faite, il est très important d’avoir une connaissance<br />

profonde du <strong>com</strong>portem<strong>en</strong>t de chaque variable. Même si l’objectif est de faire<br />

une analyse de données de multiples variables, c<strong>et</strong>te étape précéd<strong>en</strong>te d’exploration est<br />

indisp<strong>en</strong>sable.<br />

3.2 Statistiques descriptives pour de données symboliques<br />

3.2.1 La moy<strong>en</strong>ne symbolique<br />

Dans l’analyse de données classique la moy<strong>en</strong>ne est défini de la façon suivante: Soit<br />

Y une variable quantitative <strong>et</strong> soi<strong>en</strong>t y 1 , y 2 , . . . , y m les m valeurs observées pour c<strong>et</strong>te<br />

m∑<br />

variable, alors la moy<strong>en</strong>ne de Y est Y = 1 y<br />

m i .<br />

i=1<br />

Bertrand <strong>et</strong> Goupil dans ([7, Bock <strong>et</strong> Diday (2000)]) ont généralisé la définition de la<br />

moy<strong>en</strong>ne pour des variables quantitatives de type intervalle. Pour ceci, ils ont défini<br />

l’ordre statistique d’une variable Y , défini dans un <strong>en</strong>semble fini E = {1, 2, . . . , m},<br />

<strong>com</strong>me une fonction O Y : R → N telle que:<br />

O Y (ξ i ) = |k ∈ E tels que Y (k) = ξ i |. (3.1)<br />

l∑<br />

Avec la définition précéd<strong>en</strong>te il est clair que Y = 1 O<br />

m Y (ξ i )ξ i où ξ i , i = 1, 2, . . . , l<br />

sont tous les élém<strong>en</strong>ts différ<strong>en</strong>ts de E. Bertrand <strong>et</strong> Goupil ont généralisé la définition<br />

précéd<strong>en</strong>te pour des variables de type intervalle <strong>com</strong>me la moy<strong>en</strong>ne empirique définie par<br />

i=1


La Régression Symbolique 62<br />

Y =<br />

∫ +∞<br />

−∞<br />

ξf Y (ξ)dξ où Y est une variable type intervalle <strong>et</strong> f Y est sa fonction empirique<br />

de d<strong>en</strong>sité. Avec c<strong>et</strong>te définition il est facile de prouver que:<br />

Y = 1 m<br />

m∑<br />

i=1<br />

y i<br />

+ y i<br />

, (3.2)<br />

2<br />

où Y (i) = [y i<br />

, y i ], i = 1, 2, . . . , m (voir [7, Bock <strong>et</strong> Diday (2000)]).<br />

La définition de la moy<strong>en</strong>ne donnée par Bertrand <strong>et</strong> Goupil a une <strong>en</strong>trée de type intervalle,<br />

cep<strong>en</strong>dant, la sortie est une valeur numérique. C’est pour cela que le résultat<br />

de la moy<strong>en</strong>ne ne reflète pas vraim<strong>en</strong>t la variation de la variable. Par exemple si E =<br />

{1, 2, 3, 4}, Y (E) = {[1, 2], [−1, 4], [2, 3], [−1, 1]} <strong>et</strong> Z(E) = {[0, 3], [−2, 5], [1, 4], [−2, 2]}<br />

alors les deux variables ont la même moy<strong>en</strong>ne (Y = Z = 1.375), malgré le fait que la<br />

variable Z a une variation beaucoup plus grande que la variable Y .<br />

Nous définissons alors la moy<strong>en</strong>ne d’une variable de type d’intervalle <strong>com</strong>me un intervalle<br />

qui reflète vraim<strong>en</strong>t les valeurs possibles de la variable, c’est-à-dire, un intervalle<br />

dont la valeur minimum est la moy<strong>en</strong>ne minimum des valeurs prises par la variable dans<br />

E <strong>et</strong> dont la valeur maximum est la moy<strong>en</strong>ne maximum des valeurs prises par la variable<br />

dans E, plus formellem<strong>en</strong>t:<br />

Definition 29 Soit Y une variable de type intervalle définie dans E = {1, 2, . . . , m} par<br />

Y = {[y 1<br />

, y 1 ], [y 2<br />

, y 2 ], . . . , [y m<br />

, y m ]} alors on définit la moy<strong>en</strong>ne <strong>com</strong>me:<br />

[<br />

1<br />

m∑<br />

Y = y<br />

m i<br />

, 1 m<br />

i=1<br />

]<br />

m∑<br />

y i . (3.3)<br />

i=1<br />

De c<strong>et</strong>te manière dans l’exemple précéd<strong>en</strong>t si E = {1, 2, 3, 4} <strong>et</strong> Y (E) = {[1, 2], [−1, 4], [2, 3], [−1, 1]},<br />

Z(E) = {[0, 3], [−2, 5], [1, 4], [−2, 2]} alors les deux variables ont moy<strong>en</strong>ne differ<strong>en</strong>te<br />

Y = [0.25, 2.5] <strong>et</strong> Z = [−0.75, 3.5].


La Régression Symbolique 63<br />

3.2.2 La médiane symbolique<br />

Dans l’analyse de données classique, la médiane est la valeur qui est au c<strong>en</strong>tre des données<br />

quand elles sont ordonnées, c’est–à–dire, telle que 50% des données sont plus grandes que<br />

la médiane <strong>et</strong> que les 50% restantes sont plus p<strong>et</strong>ites.<br />

Plus formellem<strong>en</strong>t si on a m valeurs y 1 , y 2 , . . . , y m pour une variable quantitative Y <strong>et</strong><br />

nous supposons que ces valeurs sont ordonnées alors la valeur de la médiane dép<strong>en</strong>d de<br />

la parité de m:<br />

• Si m est impaire alors la médiane est <strong>en</strong> position m+1<br />

2<br />

qui est exactem<strong>en</strong>t la position<br />

qui sépare les données dans deux groupes de la même quantité d’élém<strong>en</strong>ts.<br />

• Si m est paire alors la médiane est <strong>en</strong>tre la position m 2 <strong>et</strong> la position m 2 + 1 dans<br />

une telle manière que les données sont divisées <strong>en</strong> deux groupes de même nombre<br />

d’élém<strong>en</strong>ts, m 2<br />

élém<strong>en</strong>ts chacun. Dans ce cas–ci, la médiane est définie <strong>com</strong>me la<br />

moy<strong>en</strong>ne <strong>en</strong>tre les données y m<br />

2 <strong>et</strong> y m<br />

2 +1 , c’est–à–dire, Me(Y )= y m 2 +y m 2 +1<br />

2<br />

.<br />

Dans le cas d’une variable symbolique de type intervalle nous voulons définir la médiane<br />

d’une manière semblable, mais de telle manière que la médiane soit un intervalle. Si<br />

la variable Y de type intervalle pr<strong>en</strong>d la valeur minimum pour tous les individus dans<br />

l’intervalle respectif, on devrait garantir que la valeur minimum de la médiane de type<br />

intervalle sépare ces valeurs dans deux groupes de la même taille. De la même manière,<br />

si la variable Y de type intervalle pr<strong>en</strong>d la valeur maximum pour tous les individus dans<br />

l’intervalle respectif, on devrait garantir que la valeur maximum de la médiane (type intervalle)<br />

sépare égalem<strong>en</strong>t ces valeurs dans deux groupes de la même taille.<br />

Pour réaliser ce qui est m<strong>en</strong>tionné ci–dessus il est évid<strong>en</strong>t qu’il suffit de définir la médiane<br />

d’un variable Y de type intervalle <strong>com</strong>me un intervalle dans lequel la valeur minimum est<br />

exactem<strong>en</strong>t la médiane de toutes les valeurs minimum possibles prises par la variable Y ,


La Régression Symbolique 64<br />

<strong>et</strong> dont la valeur maximum est la médiane de toutes les valeurs maximum possibles que<br />

peut pr<strong>en</strong>dre la variable Y . Plus formellem<strong>en</strong>t:<br />

Definition 30 Soit Y une variable de type intervalle définie dans E = {1, 2, . . . , m} par<br />

Y = {[y 1<br />

, y 1 ], [y 2<br />

, y 2 ], . . . , [y m<br />

, y m ]}, alors on définit la médiane symbolique <strong>com</strong>me:<br />

Me(Y ) = [ Me, Me ] , (3.4)<br />

où Me est la médiane classique de {y 1<br />

, y 2<br />

, . . . , y m<br />

} <strong>et</strong> Me est la médiane classique de<br />

{y 1 , y 2 , . . . , y m }.<br />

Example 20 Pour illustrer la définition précéd<strong>en</strong>te nous emploierons un exemple pris<br />

de ([5, Billard L. <strong>et</strong> Diday E. (2000)]). Dans c<strong>et</strong> exemple on a le “Pulse Rate” (Y ), la<br />

“Systolic Blood Pressure” (Y 1 ) <strong>et</strong> la “Diastolic Blood Pressure” (Y 2 ) pour onze pati<strong>en</strong>ts<br />

<strong>com</strong>me nous montrons dans le Tableau 3.1.<br />

Les médianes symboliques pour les trois variables sont: Me(Y ) = [70, 97], Me(Y 1 ) =<br />

[110, 146] <strong>et</strong> Me(Y 2 ) = [77, 100].<br />

3.2.3 Perc<strong>en</strong>tiles symboliques <strong>et</strong> déviation quartile symbolique<br />

Dans l’analyse des données classiques pour calculer la médiane les données sont ordonnées<br />

<strong>et</strong> alors la médiane les divise <strong>en</strong> deux groupes avec la même quantité d’élém<strong>en</strong>ts.<br />

Chacun de ces groupes a sa propre médiane. La médiane du groupe inférieur s’appelle le<br />

premier quartile <strong>et</strong> on la dénote par Q 1 , alors que la médiane du groupe supérieur s’appelle<br />

le troisième quartile <strong>et</strong> on la dénote par Q 3 . Dans le cas des variables symboliques de<br />

type intervalle nous pouvons procéder exactem<strong>en</strong>t de la même manière, c’est-à-dire, le<br />

premier quartile Q 1 sera la médiane de type intervalle du premier groupe de données <strong>et</strong> le


La Régression Symbolique 65<br />

Y Y 1 Y 2<br />

Pulse Systolic Diastolic<br />

Rate Pressure Pressure<br />

[44, 68] [90, 100] [50, 70]<br />

[60, 72] [90, 130] [70, 90]<br />

[56, 90] [140, 180] [90, 100]<br />

[70, 112] [110, 142] [80, 108]<br />

[54, 72] [90, 100] [50, 70]<br />

[70, 100] [134, 142] [80, 110]<br />

[72, 100] [130, 160] [76, 90]<br />

[76, 98] [110, 190] [70, 110]<br />

[86, 96] [138, 188] [90, 110]<br />

[86, 100] [110, 150] [78, 100]<br />

Table 3.1: Exemple avec onze pati<strong>en</strong>ts.<br />

troisième quartile Q 3 sera la médiane de type intervalle du deuxième groupe de données.<br />

Formellem<strong>en</strong>t on définit Q 1 = [Q 1<br />

, Q 1 ] <strong>et</strong> Q 3 = [Q 3<br />

, Q 3 ], où Q 1<br />

<strong>et</strong> Q 3<br />

sont le premier <strong>et</strong><br />

le troisième quartile de {y 1<br />

, y 2<br />

, . . . , y m<br />

}, Q 1 <strong>et</strong> Q 3 sont le premier <strong>et</strong> le troisième quartile<br />

de {y 1 , y 2 , . . . , y m }.<br />

Dans l’analyse des données classiques la déviation quartile est définie <strong>com</strong>me Q =<br />

Q 3 −Q 1<br />

2<br />

. C’est la distance <strong>en</strong>tre le troisième quartile <strong>et</strong> le première quartile divisé par<br />

deux. Pour les variables de type intervalle la déviation quartile est définie de manière<br />

semblable, c’est–est–dire, elle est définie <strong>com</strong>me l’intervalle dont le minimum est la distance<br />

minimum <strong>en</strong>tre le premier <strong>et</strong> la troisième quartile divisée par deux, <strong>et</strong> le maximum<br />

est la distance maximum <strong>en</strong>tre le premier <strong>et</strong> le troisième quartile divisée par deux (on<br />

remarquera que ce sont des intervalles).


La Régression Symbolique 66<br />

Definition 31 Soit Y une variable de type intervalle définie dans E = {1, 2, . . . , m} par<br />

Y = {[y 1<br />

, y 1 ], [y 2<br />

, y 2 ], . . . , [y m<br />

, y m ]} <strong>et</strong> soi<strong>en</strong>t Q 1 <strong>et</strong> Q 3 le premier quartile <strong>et</strong> le troisième<br />

quartile symboliques respectivem<strong>en</strong>t, alors on définit la déviation quartile symbolique de<br />

Y <strong>com</strong>me:<br />

⎡<br />

⎢ |x − y|<br />

Q(Y ) = ⎣min<br />

x∈Q 1 2<br />

y∈Q 3<br />

|x − y|<br />

, max<br />

x∈Q 1<br />

2<br />

y∈Q 3<br />

⎤<br />

⎥<br />

⎦ . (3.5)<br />

Example 21 En utilisant les données du Tableau 3.1, nous obt<strong>en</strong>ons Q 1 (Pulse-Rate) =<br />

[56, 72], Q 3 (Pulse-Rate) = [76, 100] <strong>et</strong> Q(Pulse-Rate) = [2, 22].<br />

3.2.4 La moy<strong>en</strong>ne symbolique des valeurs extrêmes<br />

Dans l’analyse des données classiques la moy<strong>en</strong>ne des valeurs extrêmes d’une variable<br />

quantitative Y est définie <strong>com</strong>me la moy<strong>en</strong>ne <strong>en</strong>tre la valeur maximum <strong>et</strong> la valeur minimum<br />

prises par Y . Pour le cas des variables symboliques de type intervalle la moy<strong>en</strong>ne<br />

symbolique des valeurs extrêmes est définie <strong>com</strong>me la moy<strong>en</strong>ne <strong>en</strong>tre l’intervalle qui<br />

conti<strong>en</strong>t la valeur maximum possible pour la variable <strong>et</strong> l’intervalle qui conti<strong>en</strong>t la valeur<br />

minimum possible pour la variable.<br />

Definition 32 Soit Y une variable de type intervalle définie dans E = {1, 2, . . . , m}<br />

par Y = {[y 1<br />

, y 1 ], [y 2<br />

, y 2 ], . . . , [y m<br />

, y m ]} <strong>et</strong> soit y min = min{y 1<br />

, y 2<br />

, . . . , y m<br />

}, y max =<br />

max{y 1 , y 2 , . . . , y m }, alors on définit la moy<strong>en</strong>ne symbolique des valeurs extrêmes <strong>com</strong>me:<br />

MExt(Y ) = [α, β] , (3.6)<br />

où [α, β] est la moy<strong>en</strong>ne symbolique <strong>en</strong>tre les intervalles [y min , y s ] <strong>et</strong><br />

] [y k<br />

, y max avec<br />

s, k ∈ {1, 2, . . . , m}.


La Régression Symbolique 67<br />

Example 22 En utilisant les données du Tableau 3.1 <strong>en</strong>core, nous obt<strong>en</strong>ons MExt(Y ) =<br />

[57, 90], MExt(Y 1 ) = [100, 145] <strong>et</strong> MExt(Y 2 ) = [70, 90].<br />

Remark 8 Notons que la moy<strong>en</strong>ne symbolique des valeurs extrêmes n’est pas un intervalle<br />

constitué par la moy<strong>en</strong>ne des valeurs extrêmes du minimum des intervalles <strong>et</strong> la<br />

moy<strong>en</strong>ne des valeurs extrêmes du maximum de ces intervalles.<br />

3.2.5 La variance <strong>et</strong> l’écart type symbolique<br />

Dans l’analyse des données classiques les mesures de dispersion mesur<strong>en</strong>t l’éloignem<strong>en</strong>t<br />

des données par rapport aux mesures de t<strong>en</strong>dance c<strong>en</strong>trale, par exemple de la moy<strong>en</strong>ne. Si<br />

la mesure de dispersion est p<strong>et</strong>ite alors toutes les données sont semblables. Dans l’analyse<br />

de données classique, la mesure de dispersion la plus utilisée est l’écart type. Soit Y une<br />

variable quantitative <strong>et</strong> soi<strong>en</strong>t y 1 , y√<br />

2 , . . . , y m les m valeurs observées pour c<strong>et</strong>te variable,<br />

m∑<br />

alors l’écart type de Y est σ Y = (y i − Y ) 2 , <strong>et</strong> la variance de Y est définie par<br />

Var(Y ) = σ 2 Y .<br />

1<br />

m<br />

i=1<br />

Bertrand <strong>et</strong> Goupil ont généralisé la définition précéd<strong>en</strong>te√ pour des variables de type<br />

∫ +∞<br />

intervalle <strong>com</strong>me l’écart type empirique défini par σ Y = (ξ − Y ) 2 f Y (ξ)dξ où<br />

−∞<br />

Y est une variable de type intervalle, <strong>et</strong> f Y est sa fonction empirique de d<strong>en</strong>sité (voir<br />

[7, Bock and Diday (2000)]). Billard <strong>et</strong> Diday ([5, Billard L. <strong>et</strong> Diday E. (2000)])<br />

( m∑<br />

m 2<br />

∑<br />

ont prouvé que σ Y = √ 1<br />

(y<br />

4m i + y i<br />

) 2 − 1 (y<br />

4m 2 i + y i<br />

))<br />

où Y (i) = [y i<br />

, y i ],<br />

i=1<br />

i = 1, 2, . . . , m. C<strong>et</strong>te définition a exactem<strong>en</strong>t le même problème que la moy<strong>en</strong>ne empirique.<br />

Par exemple, si E = {1, 2, 3, 4} <strong>et</strong> Y (E) = {[1, 2], [−1, 4], [2, 3], [−1, 1]},<br />

Z(E) = {[0, 3], [−2, 5], [1, 4], [−2, 2]} alors les deux variables ont le même écart type<br />

empirique (σ Y = σ Z = 0.892), bi<strong>en</strong> que la variable Z a une variation beaucoup plus<br />

grande que la variable Y .<br />

i=1


La Régression Symbolique 68<br />

Pour éviter ce problème, pour des variables de type intervalle, nous devrions définir la<br />

variance de façon à ce que c<strong>et</strong> indice mesure l’éloigném<strong>en</strong>t des données par rapport à la<br />

moy<strong>en</strong>nne symbolique de la variable, mais de telle façon à ce que c<strong>et</strong>te variance soit aussi<br />

un intervalle <strong>com</strong>portant la variance minimum <strong>et</strong> maximum.<br />

Definition 33 Soit Y une variable de type intervalle définie dans E = {1, 2, . . . , m}<br />

par Y = {[y 1<br />

, y 1 ], [y 2<br />

, y 2 ], . . . , [y m<br />

, y m ]} <strong>et</strong> soit Y = [α, β] alors on définit l’écart type<br />

symbolique <strong>et</strong> la variance symbolique par:<br />

<strong>et</strong><br />

⎡<br />

σ Y = ⎢<br />

⎣√ 1 m<br />

Var(Y ) =<br />

⎡<br />

m∑<br />

i=1<br />

⎢<br />

⎣ 1 m<br />

min<br />

x∈[y i<br />

,y i ]<br />

y∈[α,β]<br />

m∑<br />

i=1<br />

min<br />

x∈[y i<br />

,y i ]<br />

y∈[α,β]<br />

(x − y) 2 ,<br />

1<br />

√m<br />

(x − y) 2 , 1 m<br />

m∑<br />

i=1<br />

m∑<br />

i=1<br />

max<br />

x∈[y i<br />

,y i ]<br />

y∈[α,β]<br />

max<br />

x∈[y i<br />

,y i ]<br />

y∈[α,β]<br />

⎤<br />

(x − y) 2 ⎥<br />

⎦ , (3.7)<br />

⎤<br />

(x − y) 2 ⎥<br />

⎦ .<br />

Example 23 En utilisant les données du Tableau 3.1, nous obt<strong>en</strong>ons que σ Y = [0, 35.55],<br />

σ Y1 = [4.68, 49.60] <strong>et</strong> σ Y2 = [1.52, 32.23].<br />

Remark 9 Notons que l’écart type symbolique n’est pas un intervalle constitué par l’écart<br />

type des valeurs minimum des intervalles <strong>et</strong> l’écart type symbolique des valeurs maximum<br />

de ces intervalles.<br />

3.2.6 Histogrammes symboliques<br />

Dans l’analyse des données classiques quand on a une variable qualitative Y , son rang<br />

peut être divisée dans des classes pour établir une distribution des fréqu<strong>en</strong>ces.<br />

Pour


La Régression Symbolique 69<br />

ceci, le nombre de classes k étant choisi, nous pr<strong>en</strong>ons le maximum M <strong>et</strong> le minimum<br />

m de valeurs de la liste de données, alors la largeur des classes est c = M−m<br />

k<br />

.<br />

Habituellem<strong>en</strong>t les classes (intervalles) sont pris fermé à la gauche <strong>et</strong> s’ouvr<strong>en</strong>t à droite,<br />

exceptée la dernière classe qui est fermée aux deux côtés. Comme Bertrand <strong>et</strong> Goupil<br />

([7, Bock and Diday (2000)]) le suggèr<strong>en</strong>t, si on a une variable de type intervalle Y<br />

défini dans E = {1, 2, . . . , m} par Y = {[y 1<br />

, y 1 ], [y 2<br />

, y 2 ], . . . , [y m<br />

, y m ]} <strong>et</strong> si on note<br />

y min = min{y 1<br />

, y 2<br />

, . . . , y m<br />

}, y max = max{y 1 , y 2 , . . . , y m }, alors nous pouvons choisir<br />

le nombre de classes k <strong>et</strong> construire une partition de I = [y min , y max ] dans k classes<br />

(intervalles) I j = [u j−1 , u j [ pour j = 1, 2, . . . , k − 1, <strong>et</strong> I k = [u k−1 , u k ]. Avec ces<br />

notations l’histogramme symbolique de Y associé à la partition {I 1 , I 2 , . . . , I k } est la<br />

représ<strong>en</strong>tation graphique de la distribution de fréqu<strong>en</strong>ces {(I j , p j ), j = 1, 2, . . . , k}, où<br />

m∑<br />

p j = 1 l(Y (j)∩I J )<br />

<strong>et</strong> l(I) dénote la longueur de l’intervalle I.<br />

m l(Y (j))<br />

j=1<br />

Example 24 En utilisant les données du Tableau 3.1, l’histogramme symbolique de la<br />

variable Y 1 =Systolic–Pressure est prés<strong>en</strong>té dans la Figure 3.1.<br />

Figure 3.1: L’histogramme symbolique de la variable Y 1 =Systolic–Pressure.


La Régression Symbolique 70<br />

3.2.7 Boîtes de dispersion (Boxplot)<br />

L’objectif d’une boîte de dispersion est de donner une idée de la distribution des données.<br />

Dans l’analyse de données classique, la construction d’une boîte de dispersion est basée<br />

sur le calcul de la médiane <strong>et</strong> des quartiles: d’abord les données sont ordonnées, puis la<br />

médiane <strong>et</strong> les quartiles sont calculés. Pour la représ<strong>en</strong>tation graphique, une droite verticale<br />

est tirée de la plus p<strong>et</strong>ite donnée jusqu’à la plus grande, <strong>et</strong> on dessine un rectangle<br />

de taille 2Q qui va du premier quartile Q 1 au troisième quartile Q 3 , où Q est la déviation<br />

quartile. Enfin nous traçons une droite verticale dans le rectangle qui correspond à la position<br />

de la médiane. Pour le cas des variables de type intervalle, puisque les quartiles <strong>et</strong> la<br />

médiane sont des intervalles qui pourrai<strong>en</strong>t avoir l’intersection non vide, on dessine trois<br />

rectangles au lieu d’un, le premier correspond au premièr quartile, le second correspond<br />

à la médiane <strong>et</strong> le troisième correspond au troisième quartile.<br />

Example 25 En utilisant les données du Tableau 3.1, la boîte de dispersion de la variable<br />

Y =Pulse–Rate est prés<strong>en</strong>té dans la Figure 3.2.<br />

3.2.8 La corrélation symbolique<br />

Dans c<strong>et</strong>te section nous proposerons une définition de la corrélation symbolique <strong>en</strong>tre<br />

deux variables de type intervalle. Mais avant, il est important de rappeler quelques<br />

définitions classiques.<br />

Definition 34 Soi<strong>en</strong>t Y = (y 1 , y 2 , . . . , y m ) <strong>et</strong> X = (x 1 , x 2 , . . . , x m ) deux variables numériques<br />

appliquées sur m individus, où x i <strong>et</strong> y i sont les valeurs prises pour la variable X <strong>et</strong> Y pour<br />

l’individu i, respectivem<strong>en</strong>t, alors:<br />

• On définit la variance de Y <strong>com</strong>me:


La Régression Symbolique 71<br />

Figure 3.2: La boîte de dispersion de la variable Y =Pulse–Rate.<br />

σ 2 Y = 1 m<br />

m∑<br />

(y i − Y ) 2 .<br />

i=1<br />

• On définit la covariance <strong>en</strong>tre les deux variables X <strong>et</strong> Y <strong>com</strong>me:<br />

Cov(X, Y ) = 1 m<br />

m∑<br />

(x i − X)(y i − Y ).<br />

i=1<br />

• On définit la corrélation <strong>en</strong>tre les deux variables X <strong>et</strong> Y <strong>com</strong>me:<br />

R(X, Y ) = 1 m<br />

m∑<br />

(<br />

xi − X<br />

i=1<br />

σ X<br />

) (<br />

yi − Y<br />

σ Y<br />

)<br />

= Cov(X, √ Y ) .<br />

σ<br />

2<br />

X<br />

σY<br />

2<br />

[5, Billard and Diday (2000)] ont proposé les formules suivantes pour calculer l’écart<br />

type, la covariance <strong>et</strong> la corrélation pour les variables symboliques de type intervalle.<br />

Definition 35 Soi<strong>en</strong>t X = ([x 1 , x 1 ], [x 2 , x 2 ], . . . , [x m , x m ]) <strong>et</strong> Y = ([y 1<br />

, y 1 ], [y 2<br />

, y 2 ], . . . , [y m<br />

, y m ])<br />

deux variables de type intervalle. Alors


La Régression Symbolique 72<br />

• La variance de Y est définie par:<br />

σ 2 Y = 1<br />

4m<br />

(<br />

m∑<br />

(y i + y i<br />

) 2 − 1<br />

m 2<br />

∑<br />

(y<br />

4m 2 i + y i<br />

))<br />

. (3.8)<br />

i=1<br />

• La covariance <strong>en</strong>tre X <strong>et</strong> Y est définie par:<br />

Cov(X, Y ) = σ XY = 1<br />

4m<br />

i=1<br />

(<br />

m∑<br />

(x i + x i )(y i + y i<br />

) − 1 m<br />

) (<br />

∑<br />

m<br />

)<br />

∑<br />

4m<br />

i=1<br />

2 (x i + x i ) (y i + y i<br />

) . (3.9)<br />

i=1<br />

i=1<br />

• La corrélation <strong>en</strong>tre Y 1 <strong>et</strong> Y 2 est définie par:<br />

R(X, Y ) =<br />

σ XY<br />

√ . (3.10)<br />

σ<br />

2<br />

X<br />

σY<br />

2<br />

Toutes les définitions précéd<strong>en</strong>tes obti<strong>en</strong>n<strong>en</strong>t <strong>com</strong>me résultat un réel, alors que l’<strong>en</strong>trée<br />

est un intervalle. Mais, <strong>com</strong>me nous l’avons déjà m<strong>en</strong>tionné, si l’<strong>en</strong>trée a de l’imprécision<br />

(inexactitude) alors la sortie doit avoir égalem<strong>en</strong>t de l’imprécision. C’est pour ça que nous<br />

définissons <strong>en</strong> (3.11) la corrélation symbolique <strong>en</strong>tre deux variables de type intervalle<br />

<strong>com</strong>me un intervalle.<br />

Chacune des variables X = ([x 1 , x 1 ], [x 2 , x 2 ], . . . , [x m , x m ]) <strong>et</strong> Y = ([y 1<br />

, y 1 ], [y 2<br />

, y 2 ],<br />

. . . , [y m<br />

, y m ]) peuv<strong>en</strong>t être visualisés dans l’espace R m par un hypercube à 2 m somm<strong>et</strong>s.<br />

Donc la corrélation <strong>en</strong>tre X <strong>et</strong> Y peut être définie <strong>com</strong>me un intervalle à partir de la<br />

corrélation minimum <strong>et</strong> maximum <strong>en</strong>tre ces deux hypercubes. La longueur des côtés de<br />

l’hypercube est donnée par l’ét<strong>en</strong>due des intervalles associés à chaque individu.<br />

Definition 36 Soi<strong>en</strong>t X H <strong>et</strong> Y H les hypercubes associés aux variables X <strong>et</strong> Y, alors on<br />

définit la corrélation <strong>en</strong>tre X <strong>et</strong> Y <strong>com</strong>me l’intervalle R(X, Y ) = [ R(X, Y ), R(X, Y ) ]


La Régression Symbolique 73<br />

où 1 :<br />

R(X, Y ) = min<br />

x∈X H<br />

y∈Y H<br />

R(x, y)<br />

R(X, Y ) = max<br />

x∈X H<br />

y∈Y H<br />

R(x, y)<br />

(3.11)<br />

Pour calculer la corrélation symbolique nous devons introduire une certaine notation.<br />

Avec les variables X <strong>et</strong> Y nous pouvons construire les matrices numériques N X <strong>et</strong> N Y de<br />

m droites <strong>et</strong> 2 m colonnes <strong>com</strong>me nous le montrons dans (3.12) <strong>et</strong> (3.13).<br />

⎛⎡<br />

N X =<br />

⎜⎢<br />

⎝⎣<br />

⎤⎞<br />

x 1 x 1 x 1 x 1 · · · x 1 x 1 x 1 x 1 x 1 · · · x 1<br />

x 2 x 2 x 2 x 2 · · · x 2 x 2 x 2 x 2 x 2 · · · x 2<br />

x 3 x 3 x 3 x 3 · · · x 3 x 3 x 3 x 3 x 3 · · · x 3<br />

.<br />

.<br />

.<br />

.<br />

. ..<br />

. ..<br />

. ..<br />

. ..<br />

. ..<br />

. .. . ..<br />

. ..<br />

x m−1 x m−1 x m−1 x m−1 · · · x m−1 x m−1 x m−1 x m−1 x m−1 · · · x m−1<br />

⎥⎟<br />

⎦⎠<br />

x m x m x m x m · · · x m x m x m x m x m · · · x m<br />

(3.12)<br />

⎛⎡<br />

N Y =<br />

⎜⎢<br />

⎝⎣<br />

⎤⎞<br />

y 1 y 1 y 1 y 1 · · · y 1 y 1 y 1 y 1 y 1 · · · y 1<br />

y 2 y 2 y 2 y 2 · · · y 2 y 2 y 2 y 2 y 2 · · · y 2<br />

y 3 y 3 y 3 y 3 · · · y 3 y 3 y 3 y 3 y 3 · · · y 3<br />

.<br />

.<br />

.<br />

.<br />

. ..<br />

. ..<br />

. ..<br />

. ..<br />

. ..<br />

. .. . ..<br />

. ..<br />

y m−1 y m−1 y m−1 y m−1 · · · y m−1 y m−1 y m−1 y m−1 y m−1 · · · y m−1<br />

⎥⎟<br />

⎦⎠<br />

y m y m y m y m · · · y m y m y m y m y m · · · y m<br />

(3.13)<br />

Soit C X l’<strong>en</strong>semble d’indices des colonnes dans la matrice N X , associé à la variable de<br />

type intervalle X; si k ∈ C X , soit c X k<br />

matrice N X (de la même manière on définit C Y <strong>et</strong> c Y k ).<br />

le vecteur associé à la k−iéme colonne dans la<br />

Theorem 4 Soi<strong>en</strong>t X H <strong>et</strong> Y H les hypercubes associés à X <strong>et</strong> Y , alors nous avons les cas<br />

suivants:<br />

1 R(x, y) est la corrélation classique <strong>en</strong>tre les vecteurs x <strong>et</strong> y de R m .


La Régression Symbolique 74<br />

Cas 1: Si l’origine est un point intérieur de X H ou Y H alors:<br />

R(X, Y ) = −1<br />

R(X, Y ) = 1<br />

(3.14)<br />

Cas 2: Si X H <strong>et</strong> Y H conti<strong>en</strong>n<strong>en</strong>t des vecteurs colinéaires de R m <strong>et</strong>:<br />

Cas 2.1 Si tous les deux X H <strong>et</strong> Y H sont dans le même “m–quadrant” de R m alors:<br />

R(X, Y ) = min<br />

k∈C X<br />

s∈C Y<br />

R(c X k , cY s )<br />

R(X, Y ) = 1<br />

(3.15)<br />

Cas 2.2 Si X H <strong>et</strong> Y H sont dans des “m–quadrant” opposés par l’origine de R m<br />

alors:<br />

R(X, Y ) = −1<br />

R(X, Y ) = max<br />

k∈C X<br />

s∈C Y<br />

R(c X k , cY s )<br />

(3.16)<br />

Cas 3: X H <strong>et</strong> Y H ne conti<strong>en</strong>n<strong>en</strong>t pas des vecteurs colinéaires <strong>et</strong> ni l’un ni l’autre X H ou<br />

Y H conti<strong>en</strong>t l’origine alors:<br />

R(X, Y ) = min<br />

k∈C X<br />

s∈C Y<br />

R(c X k , cY s )<br />

R(X, Y ) = max<br />

k∈C X<br />

s∈C Y<br />

R(c X k , cY s )<br />

(3.17)<br />

Démonstration:<br />

Cas 1: Supposons, sans perte de généralité, que → 0∈ ◦ XH (l’<strong>en</strong>semble des points intérieurs<br />

de X H ), alors il y a un voisinage V ⊂ R m de → 0, <strong>et</strong> nous pouvons trouver x 1 ∈ V<br />

, x 2 ∈ V <strong>et</strong> y ∈ Y tels que l’angle <strong>en</strong>tre x 1 <strong>et</strong> y est π, <strong>et</strong> l’angle <strong>en</strong>tre x 2 <strong>et</strong> y est<br />

0, ce qui implique R(X, Y ) = R(x 1 , y) = −1 est R(X, Y ) = R(x 2 , y) = 1 (voir<br />

illustration pour R 2 dans la Figure 3.3).


La Régression Symbolique 75<br />

✻<br />

R(X, Y ) = R(x 2 , y) = 1<br />

Y H<br />

R(X, Y ) = R(x y<br />

1 , y) = −1<br />

<br />

X H ✬✩<br />

✛<br />

✱ ✱✱✱✱✱✱✱ x 2<br />

x 1<br />

✫✪ V<br />

✲<br />

Figure 3.3: X H ou Y H conti<strong>en</strong>n<strong>en</strong>t l’origine.<br />

❄<br />

Cas 2 :<br />

Cas 2.1: Soit x ∈ X H <strong>et</strong> y ∈ Y H les vecteurs colinéaires dans le même m–<br />

quadrant, alors l’angle θ <strong>en</strong>tre x <strong>et</strong> y est 0, <strong>et</strong> donc cos(θ) = 1 = R(x, y) =<br />

R(X, Y ). On peut trouver des somm<strong>et</strong>s x s ∈ X H <strong>et</strong> y l ∈ Y H tels que l’angle<br />

β <strong>en</strong>tre x s <strong>et</strong> y l est maximum <strong>et</strong> 0 ≤ β ≤ π, alors cos(β) est minimum, <strong>et</strong><br />

donc cos(β) = R(x s , y l ) = R(X, Y ) (on illustre ce cas <strong>en</strong> R 2 dans la Figure<br />

3.4). Tous les deux x s <strong>et</strong> y l sont des somm<strong>et</strong>s de X H <strong>et</strong> Y H respectivem<strong>en</strong>t,<br />

ainsi ils sont des colonnes de N X <strong>et</strong> N Y respectivem<strong>en</strong>t.<br />

Cas 2.2: Soit x ∈ X <strong>et</strong> y ∈ Y les vecteurs colinéaires dans des m–quadrants<br />

opposés, alors l’angle θ <strong>en</strong>tre x <strong>et</strong> y est π, <strong>et</strong> donc cos(θ) = −1 = R(x, y) =<br />

R(X, Y ). Égalem<strong>en</strong>t il y a des somm<strong>et</strong>s x s ∈ X H <strong>et</strong> y l ∈ Y H tels que l’angle<br />

β <strong>en</strong>tre x s <strong>et</strong> y l est minimum <strong>et</strong> 0 ≤ β ≤ π, alors cos(β) est maximum,<br />

d’où on déduit que cos(β) = R(x s , y l ) = R(X, Y ) (on illustre ce cas <strong>en</strong> R 2<br />

dans la Figure 3.5). Tous les deux x s <strong>et</strong> y l sont les somm<strong>et</strong>s de X H <strong>et</strong> Y H<br />

respectivem<strong>en</strong>t, ainsi ils sont des colonnes de N X <strong>et</strong> N Y respectivem<strong>en</strong>t.<br />

Cas 3: Si X H <strong>et</strong> Y H ne conti<strong>en</strong>n<strong>en</strong>t pas des vecteurs colinéaires <strong>et</strong> ni l’origine est à leur<br />

un point intérieur, alors il y a des somm<strong>et</strong>s x 1 ∈ X H <strong>et</strong> y 1 ∈ Y H tels que l’angle


La Régression Symbolique 76<br />

✛<br />

✻ R(X, Y ) = R(x, y) = 1<br />

✆<br />

y l<br />

✆ ✆✆✆ <br />

y<br />

✡ Y H<br />

✡ ✡ β<br />

x<br />

X H<br />

✡<br />

✭✭✭✭✭✭✭✭✭✭✭✭✭<br />

✡✡✡✡<br />

✡✆ ✆✆✆✆✆✆✆✆ xs<br />

✲<br />

❄<br />

Figure 3.4: Tous les deux X H <strong>et</strong> Y H sont dans le même m–quadrant.<br />

β <strong>en</strong>tre x 1 <strong>et</strong> y 1 est maximum <strong>et</strong> 0 ≤ β ≤ π, alors cos(β) est minimum, <strong>et</strong> donc<br />

cos(β) = R(x 1 , y 1 ) = R(X, Y ). Égalem<strong>en</strong>t il y a somm<strong>et</strong>s x 2 ∈ X H <strong>et</strong> y 2 ∈ Y H<br />

tels que l’angle φ <strong>en</strong>tre x 2 <strong>et</strong> y 2 est minimum <strong>et</strong> 0 ≤ φ ≤ π, alors cos(φ) est<br />

maximum, <strong>et</strong> donc cos(φ) = R(x 2 , y 2 ) = R(X, Y ) (on illustre ce cas <strong>en</strong> R 2 dans<br />

la Figure 3.6). Tous x 1 , y 1 , x 2 <strong>et</strong> y 2 sont des somm<strong>et</strong>s de X H ou Y H alors ils sont<br />

colonnes de N X ou N Y .<br />

<br />

ALGORITHME 2.1: CALCUL DE LA CORRÉLATION SYMBOLIQUE.<br />

Entrée :<br />

• m =nombre d’obj<strong>et</strong>s symboliques.<br />

⎛ [ ] ⎞<br />

x1 , x 1 [ ]<br />

x2 , x<br />

• variable symbolique X =<br />

2 .<br />

⎜ . ⎟<br />

⎝<br />

[ ]<br />

⎠<br />

xm , x m


La Régression Symbolique 77<br />

✻<br />

✛<br />

y l <br />

y<br />

Y H<br />

β<br />

✟<br />

☞<br />

✲<br />

✟<br />

✟<br />

✟<br />

✟<br />

x ✟<br />

✟<br />

✟ ✑ ✑✑✑✑✑✑✑✑✑<br />

s <br />

✟ x <br />

X H<br />

☞ ☞☞☞☞ ☞ ☞☞<br />

R(X, Y ) = R(x, y) = −1<br />

❄<br />

Figure 3.5: X H <strong>et</strong> Y H sont dans des m–quadrants opposés.<br />

⎛<br />

• La variable symbolique Y =<br />

⎜<br />

⎝<br />

[<br />

y1 , y 1<br />

]<br />

[<br />

y2 , y 2<br />

]<br />

.<br />

[<br />

ym , y m<br />

]<br />

⎞<br />

.<br />

⎟<br />

⎠<br />

Sortie : La corrélation symbolique <strong>en</strong>tre les variables X <strong>et</strong> Y :<br />

Notation :<br />

R(X, Y ) = [ R(X, Y ), R(X, Y ) ] .<br />

• Pr X ks =La projection de X H au-dessus du plan produit par l’axe k, s avec<br />

k, s = 1, 2, . . . , m.<br />

• Pr Y ks =La projection de Y H au-dessus du plan produit par l’axe k, s avec k, s =<br />

1, 2, . . . , m.<br />

• θmin X =angle minimum <strong>en</strong>tre Pr X ks <strong>et</strong> l’axe k.<br />

• θmax X =angle maximum <strong>en</strong>tre Pr X ks <strong>et</strong> l’axe k.


La Régression Symbolique 78<br />

✛<br />

✔<br />

✻<br />

❇❇<br />

❇<br />

x 2 <br />

❇<br />

❇y ✔ ✔✔✔✔ 2<br />

X H<br />

✦<br />

❇ φ<br />

Y ❇ H<br />

❇ ✔ ✔✔ <br />

❛ ❛❛❛❛❛❛❛❛❛<br />

x 1<br />

❇ β<br />

y 1<br />

❇<br />

❇✔ ✔✔ ✦ ✦✦✦✦✦✦✦✦✦✦✦✦✦✦✦ ✲<br />

❄<br />

Figure 3.6: X H <strong>et</strong> Y H ne conti<strong>en</strong>n<strong>en</strong>t pas des vecteurs colinéaires <strong>et</strong> ni l’un ni l’autre X H<br />

ou Y H conti<strong>en</strong>t l’origine.<br />

• θ Y min =angle minimum <strong>en</strong>tre Pr Y ks <strong>et</strong> l’axe k.<br />

• θ Y max =angle maximum <strong>en</strong>tre Pr Y ks <strong>et</strong> l’axe k.<br />

Etape 1: total= m · 2 m .<br />

Etape 2.1: Si → 0∈ ◦ X<br />

iH ou → 0∈Y<br />

◦ j<br />

H alors 2<br />

Etape 2.1.1: R(X, Y ) = −1<br />

Etape 2.1.2: R(X, Y ) = 1.<br />

Etape 2.3: k = 1<br />

Etape 2.4: intersection=true<br />

Etape 2.5: P<strong>en</strong>dant que (k ≤ m) <strong>et</strong> (intersection=true) <strong>et</strong> (R(X, Y ) > −1 ou<br />

R(X, Y ) < 1)<br />

Etape 2.5.1 s = k + 1<br />

Etape 2.5.2 P<strong>en</strong>dant que (s ≤ m) <strong>et</strong> (intersection=true)<br />

⋄ Calcul de Pr X ks <strong>et</strong> Pr Y ks<br />

2 Où → 0 note le vecteur zéro dans R m <strong>et</strong> ◦ A note l’<strong>en</strong>semble de points intérieurs de A.


La Régression Symbolique 79<br />

⋄ Calcul de θmin, X θmax, X θmin, Y θmax<br />

Y<br />

⋄ Si ((θmin Y ≤ θmax) X <strong>et</strong> (θmin X ≤ θmin)) Y ou ((θmin X ≤ θmax) Y <strong>et</strong> (θmin Y ≤ θmin))<br />

X<br />

◦ intersection=true<br />

◦ sign= 1<br />

⋄ Sinon<br />

◦ α = θmin Y mod 2π<br />

◦ β = θmin X mod 2π<br />

◦ Si ((α ≤ θmax) X <strong>et</strong> (θmin X ≤ α)) ou ((β ≤ θmax) Y <strong>et</strong> (θmin Y ≤ β))<br />

· intersection=true<br />

· sign= −1<br />

◦ Sinon<br />

· intersection=false<br />

Etape 2.6: Si intersection=true<br />

Etape 2.6.1: R(X, Y ) = 1∗sign<br />

Etape 2.7: s = 1<br />

Etape 2.8: P<strong>en</strong>dant que s ≤ total <strong>et</strong> (R(X, Y ) > −1 ou R(X, Y ) < 1)<br />

Etape 2.8.1: x = s−ième somm<strong>et</strong> de XH<br />

i<br />

Etape 2.8.2: k = 1<br />

Etape 2.8.3: P<strong>en</strong>dant que k ≤ total <strong>et</strong> (R(X, Y ) > −1 ou<br />

R(X, Y ) < 1)<br />

⋄ y = k−ième somm<strong>et</strong> de Y j H<br />

⋄ r = R(x, y)<br />

⋄ Si r > R(X, Y ) alors R(X, Y ) = r<br />

⋄ Si r < R(X, Y ) alors R(X, Y ) = r<br />

Sortie: La corrélation symbolique: R = [R(X, Y ), R(X, Y )].


La Régression Symbolique 80<br />

Example 26 En utilisant les données du Tableau 3.1, la corrélation symbolique <strong>en</strong>tre les<br />

variables Y =Pulse–Rate <strong>et</strong> Y 1 =Systolic–Pressure est R(Y, Y 1 ) = [−0.59, 0.97]. La<br />

corrélation donnée par l’indice proposé par [5, Billard and Diday (2000)] est R(Y, Y 1 ) =<br />

0.68, cep<strong>en</strong>dant, il est possible de trouver des valeurs prises par Y <strong>et</strong> Y 1 pour lesquelles la<br />

corrélation est négative, <strong>com</strong>me on peut le voir dans la Figure 3.8.<br />

3.3 La régression linéaire symbolique simple<br />

3.3.1 Modèle de régression simple avec la corrélation empirique<br />

L’objectif principal du modèle de la régression linéaire classique simple est de mesurer<br />

l’int<strong>en</strong>sité de la relation linéaire <strong>en</strong>tre deux variables. Soi<strong>en</strong>t Y = (y 1 , y 2 , . . . , y m ) <strong>et</strong><br />

X = (x 1 , x 2 , . . . , x m ) deux variables numériques appliquées à m individus, où x i <strong>et</strong><br />

y i sont les valeurs prises par les variables X <strong>et</strong> Y pour l’individu i, respectivem<strong>en</strong>t, alors<br />

l’idée est de d<strong>et</strong>erminer s’il existe une relation linéaire vérifiée, même approximativem<strong>en</strong>t,<br />

par les deux variables. C’est–à–dire, s’il existe deux réels a <strong>et</strong> b tel que: y i = ax i + b + e i<br />

pour i = 1, 2, . . . , m où e i est un terme résiduel. La relation <strong>en</strong>tre x <strong>et</strong> y sera d’autant plus<br />

proche d’une relation linéaire exacte que les valeurs de la série e, c’est–à–dire les valeurs<br />

des e i , seront p<strong>et</strong>ites. Algébriquem<strong>en</strong>t, on détermine les valeurs a <strong>et</strong> b selon le critère des<br />

m∑<br />

moindres carrés, c’est–à–dire de telle manière que e 2 i ait une valeur minimale. Il est<br />

bi<strong>en</strong> connu que ce minimum est atteint pour:<br />

i=1<br />

a =<br />

m∑<br />

(x i − X)(y i − Y )<br />

i=1<br />

mVar(X)<br />

<strong>et</strong> b = Y − aX. (3.18)<br />

Il est clair que:


La Régression Symbolique 81<br />

a = R(X, Y ) · σ Y<br />

σ X<br />

. (3.19)<br />

Pour le cas symbolique, [5, Billard and Diday (2000)] ont proposé de généraliser le<br />

modèle classique de la régression simple (3.18), (3.19) <strong>en</strong> utilisant les définitions de la<br />

moy<strong>en</strong>ne, l’écart type <strong>et</strong> la corrélation prés<strong>en</strong>tés dans (3.2), (3.8) <strong>et</strong> (3.10), au lieu des<br />

définitions classiques.<br />

Example 27 En utilisant les données du Tableau 3.1, avec Y =Pulse–Rate <strong>com</strong>me la<br />

variable a expliquer <strong>et</strong> Y 1 =Systolic–Pressure <strong>com</strong>me la variable explicative on obti<strong>en</strong>t<br />

l’équation de régression symbolique simple (3.20) ([5, Billard and Diday (2000)]):<br />

Pulse–Rate = 0.392 · Systolic–Pressure + 27.639. (3.20)<br />

D’aprés ces calculs, on veut prévoir le “Pulse–Rate” quand la “Systolic–Pressure” est<br />

[108, 110] on a que le “Pulse–Rate” devrait être [69.97, 70.76]. Ceci est illustré dans la<br />

Figure 3.7.<br />

Afin d’être cohér<strong>en</strong>ts avec les définitions que nous avons proposées dans ce chapitre,<br />

dans ce qui suit on prés<strong>en</strong>te trois modèles de régression linéaire simple qui pourrai<strong>en</strong>t<br />

être <strong>en</strong>visagés.<br />

3.3.2 Modèle de régression simple avec la corrélation symbolique maximum<br />

<strong>et</strong> minimum<br />

Dans c<strong>et</strong>te section nous proposons une méthode de régression simple qui emploie la<br />

définition (3.11) de la corrélation symbolique. L’idée est de produire deux relations<br />

linéaires, au lieu d’une. On calcule la première droite de regression <strong>en</strong> employant les


La Régression Symbolique 82<br />

Figure 3.7: Graphique de régression des variables Systolic–Pressure×Pulse–Rate avec le<br />

modèle de la corrélation empirique.<br />

valeurs prises par les variables dans lesquelles la corrélation est minimum, <strong>et</strong> la seconde<br />

<strong>en</strong> employant les valeurs prises par les variables dans lesquelles la corrélation est maximum.<br />

Si X = ([x 1 , x 1 ], [x 2 , x 2 ], . . . , [x m , x m ]) <strong>et</strong> Y = ([y 1<br />

, y 1 ], [y 2<br />

, y 2 ], . . . , [y m<br />

, y m ]) sont deux<br />

variables de type intervalle, alors on emploie l’algorithme 2.1 pour calculer la corrélation<br />

symbolique R(X, Y ) = [ R(X, Y ), R(X, Y ) ] parmi les variables X <strong>et</strong> Y , mais nous<br />

stockons les points α = (α 1 , α 2 , . . . , α m ), β = (β 1 , β 2 , . . . , β m ), γ = (γ 1 , γ 2 , . . . , γ m )<br />

<strong>et</strong> ζ = (ζ 1 , ζ 2 , . . . , ζ m ) tels que R(X, Y ) = R(α, β) <strong>et</strong> R(X, Y ) = R(γ, ζ) avec α i ∈<br />

[x i , x i ], γ i ∈ [x i , x i ], β i ∈ [y i<br />

, y i ] <strong>et</strong> ζ i ∈ [y i<br />

, y i ] pour i = 1, 2, . . . , m. Alors on emploie<br />

α = (α 1 , α 2 , . . . , α m ) <strong>et</strong> β = (β 1 , β 2 , . . . , β m ) <strong>et</strong> l’équation (3.18) pour calculer a 1 <strong>et</strong> b 1<br />

de la première droite de la régression y = a 1 x + b 1 <strong>et</strong> on emploie γ = (γ 1 , γ 2 , . . . , γ m )<br />

<strong>et</strong> ζ = (ζ 1 , ζ 2 , . . . , ζ m ) <strong>et</strong> l’équation (3.18) <strong>en</strong>core pour calculer a 2 <strong>et</strong> b 2 de la deuxième<br />

droite de régression y = a 2 x + b 2 .<br />

Si on veut prévoir les valeurs de la variable Y dans un intervalle [ξ 1 , ξ 2 ] à partir de la<br />

variable X on calcule y 11 = a 1 ξ 1 + b 1 , y 12 = a 1 ξ 2 + b 1 , y 21 = a 2 ξ 1 + b 2 <strong>et</strong> y 22 = a 2 ξ 2 + b 2


La Régression Symbolique 83<br />

alors l’intervalle prévu sera [min{y 11 , y 12 , y 21 , y 22 }, max{y 11 , y 12 , y 21 , y 22 }].<br />

Example 28 En utilisant les données du Tableau 3.1, avec Y =Pulse–Rate <strong>com</strong>me la<br />

variable a expliquer <strong>et</strong> Y 1 =Systolic–Pressure <strong>com</strong>me la variable explicative on obti<strong>en</strong>t<br />

les équations de régression symbolique simple (3.21) <strong>et</strong> (3.22):<br />

Pulse–Rate = −0.484 · Systolic–Pressure + 142.987. (3.21)<br />

Pulse–Rate = 0.707 · Systolic–Pressure − 25.631. (3.22)<br />

Si on veut prévoir le “Pulse–Rate” quand la “Systolic–Pressure” est [108, 100] on a que<br />

le “Pulse–Rate” est [50.735, 90.756]. Ceci est illustré dans la Figure 3.8. Quand elle est<br />

<strong>com</strong>parée aux valeurs prévues par le modèle de régression simple avec la corrélation symbolique<br />

empirique , c’est–à–dire, avec l’intervalle symbolique de prévision [69.97, 70.76],<br />

il est clair <strong>en</strong> voyant le graphique de la Figure 3.8, que l’intervalle obt<strong>en</strong>u avec le modèle<br />

de régression simple avec la corrélation symbolique maximum <strong>et</strong> minimum est beaucoup<br />

plus proche de la réalité, c’est–à–dire, il prévoit avec plus d’exactitude la gamme de<br />

valeurs possibles de la variable “Pulse–Rate”.<br />

3.3.3 Modèle de régression symbolique simple avec les points Inférieur–<br />

Supérieur<br />

Dans c<strong>et</strong>te section on propose une méthode de régression qui emploie le somm<strong>et</strong> supérieur<br />

gauche <strong>et</strong> le somm<strong>et</strong> inférieur droit des rectangles qui sont produits quand on croise les<br />

deux variables. L’idée est <strong>en</strong>core de produire deux droites de régression au lieu d’une.


La Régression Symbolique 84<br />

Figure 3.8: Graphique de régression des variables Systolic–Pressure×Pulse–Rate avec le<br />

modèle de la corrélation symbolique maximum <strong>et</strong> minimum.<br />

On calcule la première <strong>en</strong> utilisant les valeurs des somm<strong>et</strong>s supérieurs gauches des rectangles,<br />

<strong>et</strong> on calcule la seconde <strong>en</strong> utilisant les valeurs des somm<strong>et</strong>s inférieurs droites des<br />

rectangles.<br />

Si X = ([x 1 , x 1 ], [x 2 , x 2 ], . . . , [x m , x m ]) <strong>et</strong> Y = ([y 1<br />

, y 1 ], [y 2<br />

, y 2 ], . . . , [y m<br />

, y m ]) sont<br />

deux variables de type intervalle alors nous employons α = (x 1 , x 2 , . . . , x m ), β =<br />

(y 1<br />

, y 2<br />

, . . . , y m<br />

) <strong>et</strong> l’équation (3.18) pour calculer a 1 <strong>et</strong> b 1 de la première droite de régression<br />

y = a 1 x + b 1 <strong>et</strong> nous employons γ = (x 1 , x 2 , . . . , x m ), ζ = (y 1 , y 2 , . . . , y m ) <strong>et</strong> l’équation<br />

(3.18) pour calculer a 2 <strong>et</strong> b 2 de la deuxième droite de régression y = a 2 x + b 2 .<br />

Si on veut prévoir les valeurs de la variable Y dans un intervalle [ξ 1 , ξ 2 ] à partir de la variable<br />

X, on procéde de façon analogue au modèle de régression simple avec la corrélation<br />

symbolique maximum <strong>et</strong> minimum, <strong>en</strong> calculant y 11 = a 1 ξ 1 + b 1 , y 12 = a 1 ξ 2 + b 1 , y 21 =<br />

a 2 ξ 1 +b 2 <strong>et</strong> y 22 = a 2 ξ 2 +b 2 , <strong>et</strong> alors l’intervalle prévu sera [min{y 11 , y 12 }, max{y 21 , y 22 }].<br />

Example 29 En utilisant les données du Tableau 3.1, avec Y =Pulse–Rate <strong>com</strong>me la<br />

variable a expliquer <strong>et</strong> Y 1 =Systolic–Pressure <strong>com</strong>me la variable explicative, on obti<strong>en</strong>t<br />

les équations de régression (3.23) <strong>et</strong> (3.24), on l’illustre dans la Figure 3.9:


La Régression Symbolique 85<br />

Pulse–Rate = 0.548 · Systolic–Pressure + 28.235. (3.23)<br />

Pulse–Rate = 0.422 · Systolic–Pressure + 4.773. (3.24)<br />

Si on veut prévoir “Pulse–Rate” quand “Systolic–Pressure” est [108, 100] on a que “Pulse–<br />

Rate” est [50.350, 88.499]. Quand ceci est <strong>com</strong>paré aux valeurs prévues par le modèle de<br />

régression simple avec la corrélation symbolique maximum <strong>et</strong> minimum, c’est–à–dire,<br />

avec l’intervalle symbolique de prévision [50.735, 90.756], il est clair que les résultats<br />

sont très semblables.<br />

Figure 3.9: Graphique de régression des variables Systolic–Pressure×Pulse–Rate avec le<br />

modèle de Inférieur–Supérieur points.<br />

3.3.4 Modèle des somm<strong>et</strong>s pour la régression symbolique simple<br />

Dans c<strong>et</strong>te section nous proposons une méthode de régression qui emploie tous les somm<strong>et</strong>s<br />

des rectangles pour produire la relation linéaire de la régression. Si X = ([x 1 , x 1 ], [x 2 , x 2 ],


La Régression Symbolique 86<br />

. . . , [x m , x m ]) <strong>et</strong> Y = ([y 1<br />

, y 1 ], [y 2<br />

, y 2 ], . . . , [y m<br />

, y m ]) sont deux variables de type intervalle<br />

alors on emploie α = (x 1 , . . . , x m , x 1 , . . . , x m , x 1 , . . . , x m , x 1 , . . . , x m ), β =<br />

(y 1<br />

, . . . , y m<br />

, y 1 , . . . , y m , y 1<br />

, . . . , y m<br />

, y 1 , . . . , y m ) <strong>et</strong> l’équation (3.25) pour calculer a <strong>et</strong> b<br />

de la droite de régression y = ax + b.<br />

a =<br />

4m∑<br />

i=1<br />

(α i − α)(β i − β)<br />

4mVar(α)<br />

<strong>et</strong> b = β − a · α. (3.25)<br />

Si on veut prévoir les valeurs de la variable Y dans un intervalle [ξ 1 , ξ 2 ] à partir de la variable<br />

X, on procéde d’une manière semblable au modèle classique de régression simple<br />

<strong>en</strong> substituant les limites de l’intervalle dans l’équation de régression.<br />

Example 30 En utilisant les données du Tableau 3.1, avec Y =Pulse–Rate <strong>com</strong>me la<br />

variable a expliquer <strong>et</strong> Y 1 =Systolic–Pressure <strong>com</strong>me une variable explicative on obti<strong>en</strong>t<br />

l’équation de régression (3.26), Ceci est illustré dans la Figure 3.10:<br />

Pulse-Rate = 0.283 · Systolic-Pressure + 41.933. (3.26)<br />

Si on veut prévoir “Pulse-Rate” quand “Systolic-Pressure” est [108, 100] on a que “Pulse-<br />

Rate” est [72.505, 73.071]. Ce résultat est semblable à celui obt<strong>en</strong>u par la méthode de<br />

régression simple avec la corrélation symbolique empirique, qui a donné <strong>com</strong>me l’intervalle<br />

de prévision [69.97, 70.76].


La Régression Symbolique 87<br />

Figure 3.10: Graphique de régression des variables Systolic–Pressure×Pulse–Rate avec<br />

le modèle des somm<strong>et</strong>s.


Chapter 4<br />

Le Cercle des Corrélations Symboliques<br />

<strong>et</strong> l’<strong>Analyse</strong> <strong>en</strong> Composantes<br />

Principales pour des Données de Type<br />

Histogramme<br />

Dans ce chapitre nous généralisons la méthode de l’<strong>Analyse</strong> <strong>en</strong> Composantes Principales<br />

pour des données de type intervalle proposée par [16, Cazes, Chouakria, Diday <strong>et</strong> Schektman<br />

(1997)] dans deux s<strong>en</strong>s: d’abord, nous proposons trois manières de proj<strong>et</strong>er les<br />

variables de type intervalle dans le cercle des corrélations. En second lieu, nous proposons<br />

un algorithme pour faire l’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des données<br />

de type histogramme. De plus, nous proposons des généralisations pour quelques indices<br />

d’interprétation utilisés dans l’analyse <strong>en</strong> <strong>com</strong>posantes principales classique.<br />

88


Le Cercle des Corrélations Symbolique 89<br />

4.1 Cercle des corrélations symboliques dans l’analyse<br />

<strong>en</strong> <strong>com</strong>posantes principales<br />

4.1.1 Le cercle des corrélations <strong>en</strong> utilisant le coeffici<strong>en</strong>t de la corrélation<br />

symbolique<br />

Dans le chapitre trois nous avons proposé une nouvelle définition du coeffici<strong>en</strong>t de la<br />

corrélation symbolique <strong>en</strong>tre deux variables de type intervalle, qui donne <strong>com</strong>me résultat<br />

un intervalle (3.11). Dans ce chapitre nous emploierons c<strong>et</strong>te définition pour ét<strong>en</strong>dre le<br />

cercle des corrélations classique au cas des variables symboliques de type intervalle.<br />

Dans l’analyse <strong>en</strong> <strong>com</strong>posantes principales avec des données de type intervalle l’<strong>en</strong>trée est<br />

m obj<strong>et</strong>s symboliques S 1 , S 2 , . . . , S m décris par n variables de type intervalle X 1 , X 2 , . . . ,<br />

X n <strong>com</strong>me on le montre dans (4.1).<br />

⎛<br />

⎜<br />

⎝<br />

⎞ ⎛<br />

S 1<br />

. ⎟<br />

⎠ = ⎜<br />

⎝<br />

S m<br />

X S1 1 · · · X S1 n<br />

.<br />

.. . .<br />

X Sm1 · · · X Smn<br />

⎞ ⎛<br />

⎟<br />

⎠ = ⎜<br />

⎝<br />

[ ]<br />

x11 , x 11 · · ·<br />

[ ]<br />

x1n , x 1n<br />

.<br />

.. . .<br />

[ ]<br />

xm1 , x m1 · · ·<br />

[ ]<br />

xmn , x mn<br />

⎞<br />

⎟<br />

⎠ . (4.1)<br />

Dans l’analyse classique <strong>en</strong> <strong>com</strong>posantes principales la projection des variables X j sur<br />

l’axe produit par le r−ième <strong>com</strong>posante principale normalisé Y r est donné par la corrélation<br />

<strong>en</strong>tre la variable <strong>et</strong> le <strong>com</strong>posante principale R(X j , Y r ). Les coordonnées des variables<br />

X j sur la base des <strong>com</strong>posantes principales normalisées sont<br />

(R(X j , Y 1 ), R(X j , Y 2 ), . . . , R(X j , Y n )). Si X j est une variable normalisée, il est facile<br />

de prouver que:<br />

n∑<br />

R 2 (X j , Y k ) = 1. (4.2)<br />

k=1


Le Cercle des Corrélations Symbolique 90<br />

✻<br />

Axis r<br />

R(Y r , X j )<br />

•<br />

X<br />

j<br />

✛<br />

R(Y s , X j )<br />

✲<br />

Axis s<br />

❄<br />

Figure 4.1: Cercle classique des corrélations.<br />

Si on considère seulem<strong>en</strong>t deux <strong>com</strong>posantes Y r <strong>et</strong> Y s , alors:<br />

R 2 (X j , Y r ) + R 2 (X j , Y s ) ≤ 1. (4.3)<br />

Ainsi la représ<strong>en</strong>tation graphique de la variable pourrait être faite dans le cercle de rayon<br />

1, <strong>com</strong>me on le montre dans la Figure 4.1.<br />

L’idée pour proj<strong>et</strong>er les variables de type intervalle dans le cercle des corrélations est la<br />

même, on calcule la corrélation <strong>en</strong>tre la variable X j <strong>et</strong> le r−ième <strong>com</strong>posante principale<br />

Y r , mais dans le cas symbolique tous les deux X j <strong>et</strong> Y r sont les vecteurs colonne des intervalles<br />

<strong>com</strong>me on le montre dans les équations (4.4) <strong>et</strong> (4.5), égalem<strong>en</strong>t ils peuv<strong>en</strong>t être<br />

représ<strong>en</strong>tés dans R m par des hypercubes. Alors il est possible d’employer la définition


Le Cercle des Corrélations Symbolique 91<br />

(3.11) <strong>et</strong> les équations (3.14), (3.15), (3.16), <strong>et</strong> (3.17) prés<strong>en</strong>tées dans le théorème 1 du<br />

chapitre trois pour produire le cercle des corrélations symbolique, <strong>com</strong>me nous le proposons<br />

dans l’algorithme 4.1.<br />

⎛<br />

X j =<br />

⎜<br />

⎝<br />

[x 1j , x 1j<br />

]<br />

[x 2j , x 2j<br />

]<br />

.<br />

[x mj , x mj<br />

]<br />

⎞<br />

⎟<br />

⎠<br />

(4.4)<br />

⎛<br />

Y r =<br />

⎜<br />

⎝<br />

[<br />

y1r , y 1r<br />

]<br />

[<br />

y2r , y 2r<br />

]<br />

.<br />

[<br />

ymr , y mr<br />

]<br />

⎞<br />

. (4.5)<br />

⎟<br />

⎠<br />

L’autre différ<strong>en</strong>ce avec le cas classique est que la sortie devrait être symbolique, dans ce<br />

cas–ci la sortie (la corrélation <strong>en</strong>tre X j <strong>et</strong> Y r ) devrait être un intervalle avec la corrélation<br />

minimum <strong>et</strong> maximum <strong>en</strong>tre les deux hypercubes. C<strong>et</strong>te sortie est représ<strong>en</strong>tée dans le<br />

cercle des corrélations par un rectangle, on l’illustre dans la Figure 4.2.<br />

Il est égalem<strong>en</strong>t important que c<strong>et</strong>te sortie soit décrite <strong>en</strong> termes d’obj<strong>et</strong>s symboliques, par<br />

exemple: s = (a, R, d) où a(w) = [R(X j , Y r ) ⊆<br />

[R(X j , Y r ), R(X j , Y r )]] ∧ [ R(X j , Y s ) ⊆ [R(X j , Y s ), R(X j , Y s )] ] , R = “ ⊆ ” <strong>et</strong> d =<br />

[−1, 1].


Le Cercle des Corrélations Symbolique 92<br />

✻<br />

Axis r<br />

R(Y r , X j )<br />

X j<br />

R(Y r , X j )<br />

✛<br />

R(Y s , X j )<br />

R(Y s , X j )<br />

✲<br />

Axis s<br />

❄<br />

Figure 4.2: Cercle des corrélations symbolique.<br />

ALGORITHME 4.1: CERCLE DES CORRÉLATIONS SYMBOLIQUE<br />

Entrée :<br />

• m =nombre d’obj<strong>et</strong>s symboliques.<br />

• n =nombre de variables symboliques.<br />

• Le tableau des données symboliques<br />

⎛ [ ] [ ] [ ]<br />

x11 , x 11 x12 , x 12 · · · x1n , x 1n [ ] [ ] [ ]<br />

x21 , x<br />

X =<br />

21 x22 , x 22 · · · x2n , x 2n ⎜ .<br />

.<br />

.. . .<br />

⎝<br />

[ ] [ ] [ ]<br />

xm1 , x m1 xm2 , x m2 · · · xmn , x mn<br />

⎞<br />

.<br />

⎟<br />


Le Cercle des Corrélations Symbolique 93<br />

• La matrice des <strong>com</strong>posantes principales symboliques:<br />

⎛ [ ] [ ] [ ]<br />

y11 , y 11 y12 , y 12 · · · y1n , y 1n [ ] [ ] [ ]<br />

y21 , y<br />

Y =<br />

21 y22 , y 22 · · · y2n , y 2n ⎜ . .<br />

.. . .<br />

⎝<br />

[ ] [ ] [ ]<br />

ym1 , y m1 ym2 , y m2 · · · ymn , y mn<br />

⎞<br />

.<br />

⎟<br />

⎠<br />

Sortie : La corrélation symbolique <strong>en</strong>tre les variables <strong>et</strong> les <strong>com</strong>posantes principales dans<br />

la matrice suivante:<br />

⎛<br />

[<br />

R(X 1 , Y 1 ), R(X 1 , Y 1 ) ] [<br />

· · · R(X 1 , Y n ), R(X 1 , Y n ) ] ⎞<br />

R = ⎜<br />

.<br />

.. . .<br />

⎟<br />

⎝<br />

[<br />

R(X n , Y 1 ), R(X n , Y 1 ) ] [<br />

· · · R(X n , Y n ), R(X n , Y n ) ] ⎠ .<br />

Notation :<br />

• Pr X ks =La projection de XH i<br />

1, 2, . . . , m.<br />

• Pr Y ks =La projection de YH i<br />

1, 2, . . . , m.<br />

au-dessus du plan produit l’axe k, s avec k, s =<br />

au-dessus du plan produit l’axe k, s avec k, s =<br />

• θmin X =angle minimum <strong>en</strong>tre Pr X ks <strong>et</strong> l’axe k.<br />

• θmax X =angle maximum <strong>en</strong>tre Pr X ks <strong>et</strong> l’axe k.<br />

• θmin Y =angle minimum <strong>en</strong>tre Pr Y ks <strong>et</strong> l’axe k.<br />

• θmax Y =angle maximum <strong>en</strong>tre Pr Y ks <strong>et</strong> l’axe k.<br />

Etape 1: total= m · 2 m , i = 1, j = 1.<br />

Etape 2: P<strong>en</strong>dant que i ≤ n<br />

Etape 2.1: P<strong>en</strong>dant que j ≤ n


Le Cercle des Corrélations Symbolique 94<br />

Etape 2.1.1: Si → 0∈ ◦ X<br />

iH ou → 0∈Y<br />

◦ j<br />

H alors 1<br />

Etape 2.1.1.1: R(X i , Y j ) = −1<br />

Etape 2.1.1.2: R(X i , Y j ) = 1.<br />

Etape 2.1.2: k = 1<br />

Etape 2.1.3: intersection=true<br />

Etape 2.1.4: P<strong>en</strong>dant que (k ≤ m) <strong>et</strong> (intersection=true) <strong>et</strong><br />

(R(X i , Y j ) > −1 ou R(X i , Y j ) < 1)<br />

Etape 2.1.4.1 s = k + 1<br />

Etape 2.1.4.2 P<strong>en</strong>dant que (s ≤ m) <strong>et</strong> (intersection=true)<br />

⋄ Calculer Pr X ks <strong>et</strong> Pr Y ks<br />

⋄ Calculer θ X min, θ X max, θ Y min, θ Y max<br />

⋄ Si ((θ Y min ≤ θ X max) <strong>et</strong> (θ X min ≤ θ Y min)) ou ((θ X min ≤ θ Y max) <strong>et</strong> (θ Y min ≤<br />

θ X min))<br />

◦ intersection=true<br />

◦ sign= 1<br />

⋄ Sinon<br />

◦ α = θ Y min mod 2π<br />

◦ β = θ X min mod 2π<br />

◦ Si ((α ≤ θ X max) <strong>et</strong> (θ X min ≤ α)) ou ((β ≤ θ Y max) <strong>et</strong> (θ Y min ≤ β))<br />

· intersection=true<br />

· sign= −1<br />

◦ Sinon<br />

· intersection=false<br />

Etape 2.1.5: Si intersection=true<br />

Etape 2.1.5.1: R(X j , Y j ) = 1∗sign<br />

1 Où → 0 dénote le vecteur zéro dans R m <strong>et</strong> ◦ A dénote l’<strong>en</strong>semble des points intérieurs de A.


Le Cercle des Corrélations Symbolique 95<br />

Etape 2.1.5.2: R(X i , Y j ) = 1∗sign<br />

Etape 2.1.6: s = 1<br />

Etape 2.1.7: P<strong>en</strong>dant que s ≤ total <strong>et</strong> (R(X i , Y j ) > −1 ou<br />

R(X i , Y j ) < 1)<br />

Etape 2.1.7.1: x = s−ième somm<strong>et</strong> de XH<br />

i<br />

Etape 2.1.7.2: k = 1<br />

Etape 2.1.7.3: P<strong>en</strong>dant que k ≤ total <strong>et</strong> (R(X i , Y j ) > −1 ou<br />

R(X i , Y j ) < 1)<br />

⋄ y = k−ième somm<strong>et</strong> de Y j H<br />

⋄ r = R(x, y)<br />

⋄ Si r > R(X i , Y j ) alors R(X i , Y j ) = r<br />

⋄ Si r < R(X i , Y j ) alors R(X i , Y j ) = r<br />

Sortie: La matrice R = ([R(X i , Y j ), R(X i , Y j )]) pour i, j = 1, 2, . . . , n.<br />

Example 31 Pour illustrer le cercle des corrélations symbolique nous employons les<br />

données d’Ichino (oils and fats data) qu’on prés<strong>en</strong>te dans le Tableau 4.1. Chaque ligne du<br />

tableau de données représ<strong>en</strong>te une classe d’huile décrite par 4 variables quantitatives de<br />

type intervalle, “Specific gravity”, “Freezing point”, “Iodine value” <strong>et</strong> “Saponification”.<br />

Les corrélations classiques <strong>en</strong>tre le c<strong>en</strong>tre de gravité des variables <strong>et</strong> le c<strong>en</strong>tre de gravité<br />

des <strong>com</strong>posantes principales (pour la méthode de c<strong>en</strong>tres, voir section 4.1.2) sont prés<strong>en</strong>tés<br />

dans le Tableau 4.2, <strong>et</strong> les corrélations symboliques sont prés<strong>en</strong>tées dans le Tableau 4.3.<br />

On peut noter que la corrélation classique est toujours cont<strong>en</strong>ue dans l’intervalle qui<br />

représ<strong>en</strong>te la corrélation symbolique respective.<br />

Le cercle des corrélations symbolique pour les données d’Ichino (oils and fats data) est<br />

montré dans la Figure 4.3. Pour expliquer <strong>com</strong>m<strong>en</strong>t ce cercle peut être interprété, on


Le Cercle des Corrélations Symbolique 96<br />

GRA FRE IOD SAP<br />

Linsed (L) [0.93, 0.935] [−27, −18] [170, 204] [118, 196]<br />

Perilla (P) [0.93, 0.937] [−5, −4] [192, 208] [188, 197]<br />

Cotton (Co) [0.916, 0.918] [−6, −1] [99, 113] [189, 198]<br />

Sesame (S) [0.92, 0.926] [−6, −4] [104, 116] [187, 193]<br />

Camellia (Ca) [0.916, 0.917] [−25, −15] [80, 82] [189, 193]<br />

Olive (O) [0.914, 0.919] [0, 6] [79, 90] [187, 196]<br />

Beef (B) [0.86, 0.87] [30, 38] [40, 48] [190, 199]<br />

Hog (H) [0.858, 0.864] [22, 32] [53, 77] [190, 202]<br />

Table 4.1: Tableau des données “Oils and Fats”.<br />

pr<strong>en</strong>d <strong>com</strong>me exemple la variable GRA. La corrélation symbolique <strong>en</strong>tre la variable<br />

GRA <strong>et</strong> la première <strong>com</strong>posante principale est l’intervalle [−0.999, −0.702]. Cela signifie<br />

que la corrélation <strong>en</strong>tre GRA <strong>et</strong> la première <strong>com</strong>posante principale (PC1) varie <strong>en</strong>tre<br />

−0.999 <strong>et</strong> −0.702 (corrélation négative forte). La corrélation <strong>en</strong>tre la variable GRA <strong>et</strong><br />

la deuxième <strong>com</strong>posante principale (PC2) est l’intervalle [−0.995, 0.315], cela veut dire<br />

que la corrélation <strong>en</strong>tre GRA <strong>et</strong> PC2 varie <strong>en</strong>tre −0.995 <strong>et</strong> 0.315 (corrélation négative<br />

ou corrélation positive faible). Pour c<strong>et</strong>te variable l’information qui fait référ<strong>en</strong>ce à la<br />

PC1 PC2 PC3 PC4<br />

GRA −0.9210665 −0.3537703 0.0246894 −0.1608524<br />

FRE 0.9130654 0.2080771 −0.3238118 −0.1347643<br />

IOD −0.8724116 0.0337627 −0.4827661 0.0685206<br />

SAP 0.7354523 −0.6613331 −0.1397354 0.0471425<br />

Table 4.2: Les corrélations classiques <strong>en</strong>tre le c<strong>en</strong>tre de gravité des variables <strong>et</strong> le c<strong>en</strong>tre<br />

de gravité des <strong>com</strong>posants principales pour la méthode des c<strong>en</strong>tres.


Le Cercle des Corrélations Symbolique 97<br />

PC1 PC2 PC3 PC4<br />

GRA [−0.999, −0.702] [−0.995, 0.315] [−0.558, 0.530] [−0.832, 0.772]<br />

FRE [0.698, 0.978] [−0.507, 0.996] [−0.767, 0.383] [−0.943, 0.826]<br />

IOD [−0.951, −0.654] [−0.965, 0.626] [−0.916, 0.262] [−0.816, 0.906]<br />

SAP [−1.000, 0.939] [−1.000, 0.978] [−1.000, 0.895] [−1.000, 0.978]<br />

Table 4.3: Les corrélations symboliques <strong>en</strong>tre les variables <strong>et</strong> les <strong>com</strong>posants principales<br />

pour la méthode de c<strong>en</strong>tres.<br />

première <strong>com</strong>posante principale est meilleur que l’information qui fait référ<strong>en</strong>ce à la<br />

deuxième <strong>com</strong>posante principale, parce qu’elle a la plus p<strong>et</strong>ite variation.<br />

C<strong>et</strong>te corrélation peut être écrite <strong>com</strong>me l’obj<strong>et</strong> symbolique s = (a, R, d) où a(w) =<br />

[[R(GRA,PC1) ⊆ [−0.999, −0.702]] ∧ [R(GRA,PC2) ⊆ [−0.995, 0.315]]], R = “ ⊆ ” <strong>et</strong><br />

d = [−1, 1].<br />

Il y a des points hors du cercle de rayon 1, parce que, par exemple quoique −1 ≤<br />

R (X s , Y r ) ≤ 1 <strong>et</strong> −1 ≤ R ( X l , Y r) √<br />

≤ 1 il est possible que R 2 (X s , Y r ) + R 2 (X l , Y r ) ><br />

1. Le point ( R (X s , Y r ) , R ( X l , Y r)) est alors hors du cercle de rayon 1. On a éliminé<br />

ces points du graphique, alors le cercle des corrélations symbolique pour les données<br />

d’Ichino (oils and fats data) est montré dans la Figure 4.4.<br />

Si on utilise la Méthode des Somm<strong>et</strong>s (voir section 4.1.3) pour calculer les <strong>com</strong>posantes<br />

principales on obti<strong>en</strong>t les corrélations classiques <strong>en</strong>tre le c<strong>en</strong>tre de gravité des variables <strong>et</strong><br />

le c<strong>en</strong>tre de gravité des <strong>com</strong>posantes principales qui sont prés<strong>en</strong>tés dans le Tableau 4.4,<br />

tandis que les corrélations symboliques sont prés<strong>en</strong>tées dans le Tableau 4.5.<br />

Le cercle des corrélations symbolique obt<strong>en</strong>u avec la Méthode des Somm<strong>et</strong>s est montré<br />

dans la Figure 4.5. On obti<strong>en</strong>t des résultats très semblables à ceux obt<strong>en</strong>us <strong>en</strong> employant<br />

la Méthode des C<strong>en</strong>tres, mais pas exactem<strong>en</strong>t les mêmes, parce que les <strong>com</strong>posantes


La dualité dans la Méthode des C<strong>en</strong>tres 98<br />

Figure 4.3: Cercle des corrélations symbolique de “Oils and Fats data” avec la méthode<br />

des c<strong>en</strong>tres.<br />

principales ne sont pas id<strong>en</strong>tiques.<br />

4.1.2 La dualité dans la Méthode des C<strong>en</strong>tres<br />

[16, Cazes, Chouakria, Diday <strong>et</strong> Schektman (1997)] ont proposé la méthode des c<strong>en</strong>tres<br />

pour ét<strong>en</strong>dre la méthode bi<strong>en</strong> connue de l’analyse <strong>en</strong> <strong>com</strong>posantes principales à un g<strong>en</strong>re<br />

particulier d’obj<strong>et</strong>s symboliques caractérisée par des variables multi–valuées de type intervalle.<br />

L’idée de la méthode des c<strong>en</strong>tres est de transformer la matrice prés<strong>en</strong>tée à (4.1) <strong>en</strong> la<br />

matrice suivante (4.6):


La dualité dans la Méthode des C<strong>en</strong>tres 99<br />

Figure 4.4: Cercle des corrélations symbolique de “Oils and Fats data” avec la méthode<br />

des c<strong>en</strong>tres.<br />

⎛<br />

X c =<br />

⎜<br />

⎝<br />

x c 11 x c 12 · · · x c 1n<br />

x c 21 x c 22 · · · x c 2n<br />

.<br />

. . .. .<br />

x c m1 x c m2 · · · x c mn<br />

⎞ ⎛<br />

=<br />

⎟ ⎜<br />

⎠ ⎝<br />

x 11 +x 11<br />

2<br />

x 21 +x 21<br />

2<br />

.<br />

x m1 +x m1<br />

2<br />

x 12 +x 12<br />

2<br />

· · ·<br />

x 22 +x 22<br />

x 1n +x 1n<br />

2<br />

x 2n +x 2n<br />

2<br />

2<br />

· · ·<br />

.<br />

. .. .<br />

x m2 +x m2<br />

2<br />

· · ·<br />

x mn+x mn<br />

2<br />

⎞<br />

. (4.6)<br />

⎟<br />

⎠<br />

Dans la méthode des c<strong>en</strong>tres on applique alors l’analyse <strong>en</strong> <strong>com</strong>posantes principales standard<br />

à la matrice (4.6). Pour appliquer c<strong>et</strong>te ACP [17, Chouakria (1998)] utilise la matrice<br />

de variance–covariance V c = (X c ) t X c <strong>et</strong> pour calculer les <strong>com</strong>posantes principales de<br />

type intervalle [y ik , y ik ] [16, Cazes, Chouakria, Diday <strong>et</strong> Schektman (1997)] propos<strong>en</strong>t les<br />

équations (4.7) <strong>et</strong> (4.8).


La dualité dans la Méthode des C<strong>en</strong>tres 100<br />

PC1 PC2 PC3 PC4<br />

GRA −0.9332322 −0.2648751 −0.0893481 0.2256897<br />

FRE 0.9045301 0.1666284 0.3507403 0.1761861<br />

IOD −0.8571848 −0.0616307 0.5052051 −0.0787637<br />

SAP 0.5353956 −0.8418808 0.0605469 −0.0303697<br />

Table 4.4: Les corrélations classiques <strong>en</strong>tre le c<strong>en</strong>tre de gravité des variables <strong>et</strong> le c<strong>en</strong>tre<br />

de gravité des <strong>com</strong>posantes principales pour la méthode des somm<strong>et</strong>s.<br />

PC1 PC2 PC3 PC4<br />

GRA [−0.999, −0.802] [−0.996, 0.284] [−0.516, 0.390] [−0.620, 0.916]<br />

FRE [0.766, 0.973] [−0.489, 0.992] [−0.202, 0.743] [−0.789, 0.879]<br />

IOD [−0.955, −0.694] [−0.979, 1.000] [−0.043, 0.843] [−0.822, 0.852]<br />

SAP [−0.858, 0.871] [−0.994, 0.977] [−0.820, 0.927] [−0.970, 0.986]<br />

Table 4.5: Les corrélations symbolique <strong>en</strong>tre le c<strong>en</strong>tre de gravité des variables <strong>et</strong> le c<strong>en</strong>tre<br />

de gravité des <strong>com</strong>posantes principales pour la méthode des somm<strong>et</strong>s.<br />

y ik = ∑<br />

j,u jk0<br />

y ik = ∑ ( )<br />

x ij − Xj<br />

c u jk + ∑ ( )<br />

xij − Xj<br />

c ujk . (4.8)<br />

j,u jk0<br />

où X c j est la moy<strong>en</strong>ne de la colonne j–ième de la matrice Xc , <strong>et</strong> u = (u 1k , u 2k , . . . , u nk )<br />

est le k−ième vecteur propre de V c .<br />

Néanmoins dans [16, Cazes, Chouakria, Diday <strong>et</strong> Schektman (1997)], on utilise le cercle<br />

des corrélations classique pour représ<strong>en</strong>ter les variables. La corrélation <strong>en</strong>tre les vari-


La dualité dans la Méthode des C<strong>en</strong>tres 101<br />

Figure 4.5: Cercle des corrélations symbolique de “Oils and Fats data” avec la méthode<br />

des somm<strong>et</strong>s.<br />

ables <strong>et</strong> les <strong>com</strong>posantes principales ne sont pas symboliques, parce qu’ils calcul<strong>en</strong>t les<br />

corrélations standard <strong>en</strong>tre les c<strong>en</strong>tres de gravité des variables <strong>et</strong> les c<strong>en</strong>tres de gravité des<br />

<strong>com</strong>posantes principales.<br />

Il est bi<strong>en</strong> connu que dans la méthode standard d’analyse <strong>en</strong> <strong>com</strong>posantes principales on<br />

peut calculer la corrélation <strong>en</strong>tre les variables <strong>et</strong> les <strong>com</strong>posantes principales <strong>en</strong> utilisant<br />

les relations de dualité à partir des coordonnées des individus dans le plan principal. On<br />

peut égalem<strong>en</strong>t calculer les coordonnées des individus dans le plan principal <strong>en</strong> utilisant<br />

des relations de dualité à partir de la corrélation <strong>en</strong>tre les variables <strong>et</strong> les <strong>com</strong>posantes<br />

principales.<br />

Dans c<strong>et</strong>te section on propose une méthode pour calculer le cercle des corrélations symbolique<br />

<strong>en</strong> utilisant des relations de dualité.


La dualité dans la Méthode des C<strong>en</strong>tres 102<br />

On va c<strong>en</strong>trer <strong>et</strong> réduire la matrice X c afin de travailler avec des corrélations <strong>com</strong>me on<br />

montre dans (4.9) où X c j <strong>et</strong> σc j sont la moy<strong>en</strong>ne <strong>et</strong> l’écart–type de la colonne j–ième de la<br />

matrice X c respectivem<strong>en</strong>t:<br />

z ij = √ 1 x c ij − Xj<br />

c . (4.9)<br />

m σj<br />

c<br />

Alors on travaillera avec la matrice Z = (z ij ) i=1,2,...,m . Si on désigne par z j la colonne<br />

j=1,2,...,n<br />

j–ième de la matrice Z, on a que (z j ) t · z i = R(z j , z i ) ≤ 1, alors le c<strong>en</strong>tre de la variable<br />

hypercube est toujours à l’intérieur du cercle de rayon 1. On illustre cela dans la Figure<br />

4.6. On désigne par z c ij = 1 √ m<br />

x ij −X c j<br />

σ c j<br />

<strong>et</strong> z c ij = √ 1 x ij −Xj<br />

c<br />

m<br />

.<br />

σj<br />

c<br />

Figure 4.6: Projection des variables hypercubes.<br />

La matrice d’inertie ZZ t étant symétrique, ses vecteurs propres sont orthonormaux <strong>et</strong> ses<br />

valeurs propres sont toutes positives. On désigne par v 1 , v 2 , . . . , v q les q vecteurs propres<br />

de ZZ t associés aux valeurs propres λ 1 ≥ λ 2 ≥ · · · ≥ λ q > 0. On désigne aussi par<br />

V = [v 1 |v 2 | · · · |v q ] la matrice de la taille m × q qui a <strong>com</strong>me colonne les vecteurs propres


La dualité dans la Méthode des C<strong>en</strong>tres 103<br />

de ZZ t . Il est bi<strong>en</strong> connu qu’on peut calculer les coordonnées des variables <strong>en</strong> cercle<br />

des corrélations par Z t V , alors on peut calculer la coordonnée de l’i–ième colonne de X c<br />

(c<strong>en</strong>ter point–variable) sur la j–ième <strong>com</strong>posante principale (dans la direction de v j ) par<br />

l’équation (4.10):<br />

r ij =<br />

m∑<br />

z ki v kj . (4.10)<br />

k=1<br />

Comme Z est la matrice X c<strong>en</strong>trée <strong>et</strong> réduite le núméro r ij représ<strong>en</strong>te aussi la corrélation<br />

<strong>en</strong>tre le c<strong>en</strong>tre de gravité de la variable de type intervalle X i <strong>et</strong> la j–ième <strong>com</strong>posante<br />

principal.<br />

Theorem 5 Si on proj<strong>et</strong>te la variable hypercube définie par le i–ième colonne de Z sur<br />

la j–ième <strong>com</strong>posante principale (dans la direction de v i ), alors on a que les valeurs<br />

maximum <strong>et</strong> minimum sont données respectivem<strong>en</strong>t par les équations (4.11) <strong>et</strong> (4.12):<br />

m∑<br />

m∑<br />

r ij = z c kiv kj + z c kiv kj , (4.11)<br />

k=1,v kj 0<br />

m∑<br />

m∑<br />

r ij = z c kiv kj + z c kiv kj . (4.12)<br />

k=1,v kj 0<br />

Démonstration: Pour prouver cela, soit ẑ j = (ẑ 1j , ẑ 2j , . . . , ẑ mj ) ∈ Z j H<br />

(le hyper–rectangle<br />

défini par j-ième colonne de Z) alors ẑ ij ∈ [z c ij, z c ij] pour tout i = 1, 2, . . . , m <strong>et</strong> j =<br />

1, 2, . . . , q. On désigne par pẑ ij la projection de ẑ j sur l’axe factoriel avec la direction v i ,<br />

puisque ẑ ij ∈ [z c ij, z c ij] on a (4.13) <strong>et</strong> (4.14):<br />

z c kiv kj ≤ ẑ ki v kj ≤ z c kiv kj si v kj ≥ 0, (4.13)


La dualité dans la Méthode des C<strong>en</strong>tres 104<br />

z c kiv kj ≥ ẑ ki v kj ≥ z c kiv kj si v kj ≤ 0. (4.14)<br />

m∑<br />

Par définition pẑ ij = ẑ ki v kj alors:<br />

k=1<br />

m∑<br />

pẑ ij = ẑ ki v kj =<br />

k=1<br />

m∑<br />

m∑<br />

ẑ ki v kj + ẑ ki v kj .<br />

k=1,v kj>0 k=1,v kj


La dualité dans la Méthode des C<strong>en</strong>tres 105<br />

Il y a quelques relations très bi<strong>en</strong> connues de dualité <strong>en</strong>tre les vecteurs propres de ZZ t<br />

<strong>et</strong> Z t Z. On sait que les deux matrices ont les mêmes q valeurs propres strictem<strong>en</strong>t positifs<br />

λ 1 , λ 2 , . . . , λ q <strong>et</strong> si on désigne par u 1 , u 2 , . . . , u q les q premiers vecteurs propres de<br />

Z t Z, puis les relations <strong>en</strong>tre les vecteurs propres de ZZ t <strong>et</strong> Z t Z sont montrées dans les<br />

équations (4.17) <strong>et</strong> (4.18):<br />

u l = Zt v<br />

√ l<br />

pour l = 1, 2, . . . , q. (4.17)<br />

λl<br />

v l = Zu l<br />

√ pour l = 1, 2, . . . , q. (4.18)<br />

λl<br />

Avec ces idées nous proposons deux algorithmes, pour appliquer une analyse <strong>en</strong> <strong>com</strong>posantes<br />

principales, lesquels généralis<strong>en</strong>t l’algorithme proposé dans [16, Cazes, Chouakria,<br />

Diday and Schektman (1997)] afin de produire un cercle de corrélation symbolique. Nous<br />

proposons égalem<strong>en</strong>t un 3–ième algorithme pour améliorer la période de l’exécution <strong>en</strong><br />

considérant quelle matrice est la plus p<strong>et</strong>ite <strong>en</strong> dim<strong>en</strong>sion <strong>en</strong>tre ZZ t <strong>et</strong> Z t Z.<br />

ALGORITHME 4.2: ANALYSE EN COMPOSANTES PRINCIPALES AVEC<br />

ZZ t<br />

Entrée :<br />

• m =nombre d’obj<strong>et</strong>s symboliques.<br />

• n =nombre de variables symboliques.<br />

• Le tableau de données symbolique<br />

⎛ [ ] [ ] [ ]<br />

x11 , x 11 x12 , x 12 · · · x1n , x 1n [ ] [ ] [ ]<br />

x21 , x<br />

X =<br />

21 x22 , x 22 · · · x2n , x 2n .<br />

⎜ .<br />

. .. .<br />

⎝<br />

[ ] [ ] [ ]<br />

xm1 , x m1 xm2 , x m2 · · · xmn , x mn<br />

⎞<br />

.<br />

⎟<br />


La dualité dans la Méthode des C<strong>en</strong>tres 106<br />

Sortie :<br />

• La corrélation symbolique <strong>en</strong>tre les variables <strong>et</strong> les <strong>com</strong>posantes principales<br />

dans la matrice suivante:<br />

⎛ [<br />

R(X 1 , Y 1 ), R(X 1 , Y 1 ) ] [<br />

· · · R(X 1 , Y n ), R(X 1 , Y n ) ] ⎞<br />

R =<br />

.<br />

⎜<br />

.<br />

.. .<br />

⎟<br />

⎝<br />

[<br />

R(X n , Y 1 ), R(X n , Y 1 ) ] [<br />

· · · R(X n , Y n ), R(X n , Y n ) ] ⎠ .<br />

• La matrice symbolique avec les premières q <strong>com</strong>posantes principales:<br />

⎛<br />

Y =<br />

⎜<br />

⎝<br />

[ ] [ ]<br />

] ⎞<br />

y11 , y 11 y12 , y 12 · · ·<br />

[y 1q , y 1q<br />

[ ] [ ]<br />

]<br />

y21 , y 21 y22 , y 22 · · ·<br />

[y 2q , y 2q .<br />

. . .. .<br />

. ⎟<br />

[ ] [ ] ] ⎠<br />

ym1 , y m1 ym2 , y m2 · · ·<br />

[y mq , y mq<br />

Etape 1: Calculer la matrice X c = (x c ij) i=1,2,...,m<br />

j=1,2,...,n<br />

Etape 2: Calculer la matrice Z = (z ij ) i=1,2,...,m<br />

j=1,2,...,n<br />

Etape 3: Calculer la matrice Z = (z ij ) i=1,2,...,m<br />

j=1,2,...,n<br />

Etape 4: Calculer la matrice H = ZZ t .<br />

par:<br />

x c ij = x ij + x ij<br />

.<br />

2<br />

par:<br />

z ij = √ 1 x c ij − Xj<br />

c .<br />

m σj<br />

c<br />

z ij = √ 1 x ij − Xj<br />

c ,<br />

m σj<br />

c<br />

z ij = √ 1 x ij − Xj<br />

c .<br />

m σj<br />

c<br />

<strong>et</strong> Z = (z ij ) i=1,2,...,m<br />

j=1,2,...,n<br />

par:


La dualité dans la Méthode des C<strong>en</strong>tres 107<br />

Etape 5: Calculer les q premiers vecteurs propres v 1 , v 2 , . . . , v q de H <strong>et</strong> les valeurs propres<br />

associées λ 1 ≥ λ 2 ≥ · · · ≥ λ q > 0.<br />

Etape 6: Pour i = 1, 2, . . . , n<br />

Etape 6.1: Pour j = 1, , 2, . . . , q calculer<br />

⎡<br />

R(X i , Y j ) = max ⎣<br />

m∑<br />

m∑<br />

z ki v kj +<br />

⎤<br />

z ki v kj , −1⎦ .<br />

Etape 7: Pour i = 1, 2, . . . , n<br />

k=1,v kj 0<br />

⎡<br />

⎤<br />

R(X i , Y j ) = min ⎣<br />

m∑<br />

m∑<br />

z ki v kj + z ki v kj , 1⎦ .<br />

k=1,v kj 0<br />

Etape 7.1: Pour j = 1, 2, . . . , q calculer<br />

(<br />

u ij = √ 1<br />

m<br />

)<br />

∑<br />

z ki v kj .<br />

λj<br />

Etape 8: Pour i = 1, 2, . . . , m<br />

k=1<br />

Etape 8.1: Pour j = 1, 2, . . . , q calculer<br />

n∑<br />

n∑<br />

y ij = z ik u kj + z ik u kj<br />

k=1,u kj0<br />

n∑<br />

n∑<br />

y ij = z ik u kj + z ik u kj<br />

k=1,u kj0<br />

Etape 9: FIN de l’algorithme.<br />

Example 32 Pour illustrer le cercle des corrélations symbolique avec dualité on emploie<br />

<strong>en</strong>core les données d’Ichino (“oils and fats”) qu’on a prés<strong>en</strong>tées dans le Tableau 5.1. Les<br />

corrélations symboliques qu’on a obt<strong>en</strong>ues <strong>en</strong> utilisant l’algorithme 4.2 sont prés<strong>en</strong>tées


La dualité dans la Méthode des C<strong>en</strong>tres 108<br />

PC1 PC2 PC3 PC4<br />

GRA [0.827, 1.000] [−0.443, −0.265] [−0.038, 0.087] [−0.238, −0.084]<br />

FRE [−1.000, −0.760] [0.044, 0.372] [−0.428, −0.220] [−0.288, 0.019]<br />

IOD [0.726, 1.000] [−0.124, 0.191] [−0.565, −0.401] [−0.024, 0.161]<br />

SAP [−1.000, 0.190] [−1.000, 0.371] [−0.442, 0.163] [−0.231, 0.325]<br />

Table 4.6: Corrélations symboliques <strong>en</strong>tre les variables <strong>et</strong> les <strong>com</strong>posants principales avec<br />

la méthode des c<strong>en</strong>tres <strong>en</strong> employant l’algorithme 4.2.<br />

PC1 PC2 PC3 PC4<br />

GRA 0.9210665 −0.3537703 0.0246894 −0.1608524<br />

FRE −0.9130654 0.2080771 −0.3238118 −0.1347643<br />

IOD 0.8724116 0.0337627 −0.4827661 0.0685206<br />

SAP −0.7354523 −0.6613331 −0.1397354 0.0471425<br />

Table 4.7: Corrélations classiques <strong>en</strong>tre les variables <strong>et</strong> les <strong>com</strong>posants principales avec<br />

la méthode des c<strong>en</strong>tres.<br />

dans le Tableau 4.6 <strong>et</strong> les corrélations classiques <strong>en</strong>tre le c<strong>en</strong>tre de gravité des variables<br />

<strong>et</strong> le c<strong>en</strong>tre de gravité des <strong>com</strong>posantes principales (pour la méthode de c<strong>en</strong>tres) sont<br />

prés<strong>en</strong>tées dans le Tableau 4.7. On peut noter qu’avec c<strong>et</strong>te méthode on a égalem<strong>en</strong>t<br />

que les corrélations classiques sont toujours cont<strong>en</strong>ues dans l’intervalle qui représ<strong>en</strong>te la<br />

corrélation symbolique.<br />

Le cercle des corrélations symbolique des données “oils and fats” obt<strong>en</strong>u par dualité avec<br />

la méthode des c<strong>en</strong>tres est montré dans la Figure 4.7. Il est important de noter qu’il y avait<br />

une rotation par rapport au cercle représ<strong>en</strong>té sur la Figure 4.4. Le plan principal obt<strong>en</strong>u


La dualité dans la Méthode des C<strong>en</strong>tres 109<br />

PC1 PC2 PC3 PC4<br />

L [1.275, 4.733] [−1.353, 4.428] [−1.025, 1.289] [−0.989, 0.989]<br />

P [1.059, 1.701] [−1.128, −0.343] [−1.508, −1.046] [−0.134, 0.334]<br />

Co [−0.236, 0.399] [−0.969, −0.213] [−0.170, 0.368] [−0.246, 0.204]<br />

S [0.154, 0.658] [−0.745, −0.179] [−0.027, 0.342] [−0.369, 0.028]<br />

Ca [0.151, 0.613] [−0.881, −0.437] [0.807, 1.204] [0.113, 0.538]<br />

O [−0.594, 0.100] [−0.775, 0.043] [0.019, 0.545] [−0.645, −0.101]<br />

B [−3.046, −2.226] [0.234, 1.162] [−0.392, 0.152] [−0.530, 0.193]<br />

H [−2.900, −1.841] [0.020, 1.135] [−0.729, 0.171] [−0.105, 0.720]<br />

Table 4.8: Composantes principales avec la méthode des c<strong>en</strong>tres duale.<br />

par la méthode duale des c<strong>en</strong>tres associée à ce cercle des corrélations est prés<strong>en</strong>té dans la<br />

Figure 4.8 <strong>et</strong> les <strong>com</strong>posantes principales sont prés<strong>en</strong>tées dans le Tableau 4.8.<br />

Le prochain algorithme généralise celui proposé dans [16, Cazes, Chouakria, Diday and<br />

Schektman (1997)]. Il fonctionne avec la même matrice de<br />

variance–covariance que [17, Chouakria (1998)], mais nous prés<strong>en</strong>tons quelques étapes<br />

pour calculer la corrélation symbolique <strong>en</strong> utilisant des relations de dualité afin de tracer<br />

le cercle des corrélations symbolique.<br />

ALGORITHME 4.3: ANALYSE EN COMPOSANTES PRINCIPALES AVEC<br />

Z t Z.<br />

Entrée :


La dualité dans la Méthode des C<strong>en</strong>tres 110<br />

Figure 4.7: Le cercle des corrélations symbolique avec le algorithme 4.2.<br />

Figure 4.8: Le plan principal symbolique avec la méthode des c<strong>en</strong>tres dual.


La dualité dans la Méthode des C<strong>en</strong>tres 111<br />

• m =nombre d’obj<strong>et</strong>s symboliques.<br />

• n =nombre variables symboliques.<br />

• Le tableau des données symboliques<br />

⎛ [ ] [ ] [ ]<br />

x11 , x 11 x12 , x 12 · · · x1n , x 1n [ ] [ ] [ ]<br />

x21 , x<br />

X =<br />

21 x22 , x 22 · · · x2n , x 2n ⎜ .<br />

.<br />

.. . .<br />

⎝<br />

[ ] [ ] [ ]<br />

xm1 , x m1 xm2 , x m2 · · · xmn , x mn<br />

⎞<br />

.<br />

⎟<br />

⎠<br />

Sortie :<br />

• La corrélation symbolique <strong>en</strong>tre les variables <strong>et</strong> les <strong>com</strong>posantes principales<br />

dans la matrice suivante:<br />

⎛ [<br />

R(X 1 , Y 1 ), R(X 1 , Y 1 ) ] [<br />

· · · R(X 1 , Y n ), R(X 1 , Y n ) ] ⎞<br />

R =<br />

.<br />

⎜<br />

.<br />

.. .<br />

⎟<br />

⎝<br />

[<br />

R(X n , Y 1 ), R(X n , Y 1 ) ] [<br />

· · · R(X n , Y n ), R(X n , Y n ) ] ⎠ .<br />

• La matrice symbolique avec les q premiers <strong>com</strong>posantes principales:<br />

⎛ [ ] [ ]<br />

] ⎞<br />

y11 , y 11 y12 , y 12 · · ·<br />

[y 1q , y 1q [ ] [ ]<br />

]<br />

y21 , y<br />

Y =<br />

21 y22 , y 22 · · ·<br />

[y 2q , y 2q ⎜<br />

.<br />

. . .. .<br />

. ⎟<br />

⎝<br />

[ ] [ ] ] ⎠<br />

ym1 , y m1 ym2 , y m2 · · ·<br />

[y mq , y mq<br />

Etape 1: Calculer la matrice X c = (x c ij) i=1,2,...,m<br />

j=1,2,...,n<br />

Etape 2: Calculer la matrice Z = (z ij ) i=1,2,...,m<br />

j=1,2,...,n<br />

par:<br />

x c ij = x ij + x ij<br />

.<br />

2<br />

par:<br />

z ij = √ 1 x c ij − Xj<br />

c .<br />

m σj<br />

c


La dualité dans la Méthode des C<strong>en</strong>tres 112<br />

Etape 3: Calculer la matrice Z = (z ij ) i=1,2,...,m<br />

j=1,2,...,n<br />

Etape 4: Calculer la matrice R = Z t Z.<br />

z ij = √ 1 x ij − Xj<br />

c ,<br />

m σj<br />

c<br />

z ij = √ 1 x ij − Xj<br />

c .<br />

m σj<br />

c<br />

<strong>et</strong> Z = (z ij ) i=1,2,...,m<br />

j=1,2,...,n<br />

Etape 5: Calculer les q premiers vecteurs propres u 1 , u 2 , . . . , u q de R <strong>et</strong> les valeurs propres<br />

associées λ 1 ≥ λ 2 ≥ · · · ≥ λ q > 0.<br />

Etape 6: Pour i = 1, 2, . . . , m<br />

Etape 6.1: Pour j = 1, 2, . . . , q calculer<br />

n∑<br />

y ij = z ik u kj +<br />

k=1,u kj0<br />

z ik u kj<br />

( n∑<br />

)<br />

v ij = √ 1 z ik u kj .<br />

λj<br />

k=1<br />

par:<br />

Etape 8: Pour i = 1, 2, . . . , n<br />

Etape 8.1: Pour j = 1, 2, . . . , q calculer<br />

⎡<br />

R(X i , Y j ) = max ⎣<br />

m∑<br />

m∑<br />

z ki v kj +<br />

⎤<br />

z ki v kj , −1⎦ .<br />

⎡<br />

R(X i , Y j ) = min ⎣<br />

k=1,v kj 0<br />

m∑<br />

m∑<br />

z ki v kj +<br />

k=1,v kj 0<br />

⎤<br />

z ki v kj , 1⎦ .


La dualité dans la Méthode des C<strong>en</strong>tres 113<br />

PC1 PC2 PC3 PC4<br />

GRA [−1.000, −0.827] [−0.443, −0.265] [−0.038, 0.087] [−0.238, −0.084]<br />

FRE [0.760, 1.000] [0.044, 0.372] [−0.428, −0.220] [−0.288, 0.019]<br />

IOD [−1.000, −0.726] [−0.124, 0.191] [−0.565, −0.401] [−0.024, 0.161]<br />

SAP [−0.190, 1.000] [−1.000, 0.371] [−0.442, 0.163] [−0.231, 0.325]<br />

Table 4.9: Corrélations symboliques <strong>en</strong>tre les variables <strong>et</strong> les <strong>com</strong>posantes principales<br />

avec la méthode des c<strong>en</strong>tres duale.<br />

Etape 9: FIN de l’algorithme.<br />

Example 33 Pour illustrer le cercle des corrélations symbolique dual avec Z t Z on emploie<br />

les données d’Ichino (“oils and fats”) qu’on a prés<strong>en</strong>té dans le Tableau 5.1. Les<br />

corrélations symboliques que nous avons obt<strong>en</strong>ues <strong>en</strong> utilisant l’algorithme 4.3 sont prés<strong>en</strong>tées<br />

dans le Tableau 4.9 <strong>et</strong> les corrélations classiques <strong>en</strong>tre le c<strong>en</strong>tre de gravité des variables <strong>et</strong><br />

le c<strong>en</strong>tre de gravité des <strong>com</strong>posantes principales ont été prés<strong>en</strong>tées dans le Tableau 4.2 de<br />

la section précéd<strong>en</strong>te.<br />

Le cercle des corrélations symbolique avec les données d’Ichino (“oils and fats”) obt<strong>en</strong>u<br />

avec les données du Tableau 4.9 est montré dans la Figure 4.9. Le plan principal correspondant<br />

à ce cercle de corrélation est prés<strong>en</strong>té dans la Figure 4.10.<br />

La taille de la matrice ZZ t est m × m tandis que la taille de Z t Z est n × n, parfois ZZ t<br />

est très grand <strong>et</strong> Z t Z est très p<strong>et</strong>it, dans ce cas–ci il est mieux d’employer l’algorithme<br />

4.3 que l’algorithme 4.2, ou inversem<strong>en</strong>t il peut arriver que Z t Z est très grand <strong>et</strong> ZZ t<br />

est très p<strong>et</strong>it, dans ce cas l’algorithme 4.2 est donc plus rapide que l’algorithme 4.3. Par<br />

conséqu<strong>en</strong>t, <strong>en</strong> considérant si m ≤ n ou pas, nous proposons l’algorithme 4.4.


La dualité dans la Méthode des C<strong>en</strong>tres 114<br />

Figure 4.9:<br />

<strong>com</strong>m<strong>en</strong>çant par Z t Z.<br />

Le cercle des corrélations symbolique avec la méthode des c<strong>en</strong>tres<br />

ALGORITHME 4.4: ALGORITHME OPTIMAL POUR L’ANALYSE EN COM-<br />

POSANTES PRINCIPALES.<br />

Entrée :<br />

• m =nombre d’obj<strong>et</strong>s symboliques.<br />

• n =nombre de variables symboliques.<br />

• Le tableau des données symboliques<br />

⎛ [ ] [ ] [ ]<br />

x11 , x 11 x12 , x 12 · · · x1n , x 1n [ ] [ ] [ ]<br />

x21 , x<br />

X =<br />

21 x22 , x 22 · · · x2n , x 2n ⎜ .<br />

.<br />

.. . .<br />

⎝<br />

[ ] [ ] [ ]<br />

xm1 , x m1 xm2 , x m2 · · · xmn , x mn<br />

⎞<br />

.<br />

⎟<br />


La dualité dans la Méthode des C<strong>en</strong>tres 115<br />

Figure 4.10: Plan principal symbolique avec la méthode des c<strong>en</strong>tres <strong>com</strong>m<strong>en</strong>çant par<br />

Z t Z.<br />

Sortie :<br />

• La corrélation symbolique <strong>en</strong>tre les variables <strong>et</strong> les <strong>com</strong>posantes principales<br />

dans la matrice suivante:<br />

⎛ [<br />

R(X 1 , Y 1 ), R(X 1 , Y 1 ) ] [<br />

· · · R(X 1 , Y n ), R(X 1 , Y n ) ] ⎞<br />

R =<br />

.<br />

⎜<br />

.<br />

.. .<br />

⎟<br />

⎝<br />

[<br />

R(X n , Y 1 ), R(X n , Y 1 ) ] [<br />

· · · R(X n , Y n ), R(X n , Y n ) ] ⎠ .<br />

• La matrice symbolique avec les premières q <strong>com</strong>posantes principales:<br />

⎛ [ ] [ ]<br />

] ⎞<br />

y11 , y 11 y12 , y 12 · · ·<br />

[y 1q , y 1q [ ] [ ]<br />

]<br />

y21 , y<br />

Y =<br />

21 y22 , y 22 · · ·<br />

[y 2q , y 2q ⎜<br />

.<br />

. . .. .<br />

. ⎟<br />

⎝<br />

[ ] [ ] ] ⎠<br />

ym1 , y m1 ym2 , y m2 · · ·<br />

[y mq , y mq<br />

Etape 1: Si m ≤ n alors on applique l’algorithme 4.2 autrem<strong>en</strong>t on applique l’algorithme<br />

4.3.


La dualité dans la Méthode des Somm<strong>et</strong>s 116<br />

Etape 2: FIN de l’algorithme.<br />

Theorem 6 L’<strong>Analyse</strong> <strong>en</strong> Composantes Principales classique est un cas particulier de la<br />

méthode des c<strong>en</strong>tres proposée dans l’algorithme 4.4.<br />

Démostration: Supposons sans perte de généralité que l’algorithme 4.4 exécute l’algorithme<br />

]<br />

4.2. Si tous les intervalles<br />

[x ij , x ij sont triviaux, c’est–à–dire x ij = x ij = x ij , alors on<br />

a dans l’étape 2 que x c ij = x ij <strong>et</strong> dans l’étape 3 on a z ij = z ij donc à la étape 4 la matrice<br />

H = ZZ t est la matrice des corrélations classique. On a ainsi que z ki v kj<br />

m∑<br />

+<br />

m∑<br />

m∑<br />

m∑<br />

m∑<br />

z ki v kj = z ki v kj ≥ −1 <strong>et</strong> z ki v kj +<br />

z ki v kj =<br />

k=1,v kj 0<br />

k=1<br />

k=1,v kj 0<br />

k=1<br />

m∑<br />

z ki v kj ≤ 1,<br />

alors à l’étape 6.1 de l’algorithme 4.2 on a R(X i , Y j ) = R(X i , Y j ) = R(X i , Y j )<br />

(corrélation classique), <strong>et</strong> donc le cercle des corrélations symboliques sera le cercle des<br />

corrélations classique. D’une manière semblable on peut montrer que le plan principal<br />

symbolique sera le plan principal classique.<br />

<br />

4.1.3 La dualité dans la Méthode des Somm<strong>et</strong>s<br />

Il est impossible de généraliser l’algorithme de la méthode des somm<strong>et</strong>s proposé dans<br />

[16, Cazes, Chouakria, Diday <strong>et</strong> Schektman (1997)] <strong>en</strong> utilisant la relation de dualité<br />

pour calculer le cercle des corrélations parce qu’on peut proj<strong>et</strong>er le c<strong>en</strong>tre de gravité<br />

des variables mais on ne peut pas proj<strong>et</strong>er l’hypercube défini par les variables. Pour<br />

proj<strong>et</strong>er le c<strong>en</strong>tre de gravité des variables on doit calculer les vecteurs propres de ZZ t<br />

<strong>en</strong> utilisant la relation v l<br />

= Zu l √ λl<br />

, ce qui est possible parce que la taille de Z est (m ·<br />

2 n ) × n <strong>et</strong> la taille de u l est n × n puis la taille de la matrice V = [v 1 |v 2 | · · · |v q ] est<br />

(m · 2 n ) × q, ainsi il est possible d’obt<strong>en</strong>ir les coordonnées des variables calculant Z t V .<br />

Mais, pour calculer la projection symbolique des variables <strong>com</strong>me des rectangles, on doit


La dualité dans la Méthode des Somm<strong>et</strong>s 117<br />

m∑<br />

m∑<br />

m∑<br />

calculer R(X i , Y j ) = z ki v kj + z ki v kj <strong>et</strong> R(X i , Y j ) = z ki v kj +<br />

m∑<br />

k=1,v kj >0<br />

k=1,v kj 0<br />

k=1,v kj


La dualité dans la Méthode des Somm<strong>et</strong>s 118<br />

⎛<br />

R = ⎜<br />

⎝<br />

[<br />

R(X 1 , Y 1 ), R(X 1 , Y 1 ) ] [<br />

· · · R(X 1 , Y n ), R(X 1 , Y n ) ] ⎞<br />

.<br />

.<br />

.. .<br />

⎟<br />

[<br />

R(X n , Y 1 ), R(X n , Y 1 ) ] [<br />

· · · R(X n , Y n ), R(X n , Y n ) ] ⎠ .<br />

Etape 1: On calcule la matrice N taille m × (n · 2 m ), <strong>et</strong> on désigne C X j l’<strong>en</strong>semble des<br />

numéros de colonne associé à la variable X j dans la matrice N.<br />

⎛ ⎡<br />

N = (N 1 , . . . , N n ) =<br />

⎜ ⎢<br />

⎝ ⎣<br />

⎤<br />

x 11 · · · x 11<br />

x 21 · · · x 21<br />

.<br />

. .. · · ·<br />

. ⎥<br />

⎦<br />

x m1 · · · x m1<br />

⎡<br />

⎢<br />

⎣<br />

⎤ ⎞<br />

x 1n · · · x 1n<br />

x 2n · · · x 2n<br />

. . . . . ⎥ ⎟<br />

⎦ ⎠<br />

x mn · · · x mn<br />

Etape 2: On désigne par X j N la moy<strong>en</strong>ne de la j–column de N <strong>et</strong> par σj N<br />

l’écart type de<br />

la j–column de N, alors on calcule la matrice Z = (z ij )<br />

Etape 3: On calcule H = ZZ t .<br />

z ij = √ 1 n ij − X j N<br />

m σ j .<br />

N<br />

i=1,2,...,m :<br />

j=1,2,...,m×n·2 m<br />

Etape 4: On calcule les q premières vecteurs propres v 1 , v 2 , . . . , v q de H <strong>et</strong> les valeurs<br />

propres correspondants λ 1 ≥ λ 2 ≥ · · · ≥ λ q > 0.<br />

Etape 5: Pour i = 1, 2, . . . , m<br />

Etape 5.1: Pour j = 1, 2, . . . , q on calcule<br />

Etape 6: FIN de l’algorithme.<br />

R(X i , Y j ) = min<br />

k∈C X j<br />

R(X i , Y j ) = max<br />

k∈C X j<br />

(r ik )<br />

(r ik ).


Paramètres symboliques d’interprétation 119<br />

PC1 PC2 PC3 PC4<br />

GRA [−0.928, −0.972] [−0.314, −0.180] [−0.014, −0.139] [0.019, 0.190]<br />

FRE [0.956, 0.862] [0.057, 0.368] [−0.173, −0.352] [−0.027, 0.296]<br />

IOD [−0.802, −0.917] [0.211, 0.476] [−0.218, −0.465] [−0.139, 0.067]<br />

SAP [0.708, −0.772] [−0.726, 0.815] [0.690, −0.563] [−0.789, 0.788]<br />

Table 4.10: Corrélations symboliques <strong>en</strong>tre les variables <strong>et</strong> les <strong>com</strong>posantes principales<br />

avec la méthode des somm<strong>et</strong>s.<br />

Example 34 En employant les données d’Ichino (“oils and fats”) qu’on a prés<strong>en</strong>tées dans<br />

le Tableau 5.1 <strong>et</strong> l’algorithme 4.5, on a obt<strong>en</strong>u les corrélations symboliques prés<strong>en</strong>tées<br />

dans le Tableau 4.10.<br />

Le cercle des corrélations symbolique avec les données d’Ichino (“oils and fats”) obt<strong>en</strong>u<br />

<strong>en</strong> employant des données du Tableau 4.10 est montré dans la Figure 4.11.<br />

4.1.4 Les aides symboliques à l’interprétation<br />

[16, Cazes, Chouakria, Diday and Schektman (1997)] propos<strong>en</strong>t des paramètres classiques<br />

d’interprétation pour la méthode des somm<strong>et</strong>s. Dans c<strong>et</strong>te section nous proposons<br />

des paramètres classiques d’interprétation pour la méthode des c<strong>en</strong>tres <strong>et</strong> égalem<strong>en</strong>t nous<br />

proposons des paramètres symboliques d’interprétation pour les deux méthodes qui considèr<strong>en</strong>t<br />

la variabilité ou l’inexactitude de la <strong>en</strong>trée.<br />

Pour mesurer la qualité de représ<strong>en</strong>tation de l’obj<strong>et</strong> S i selon le j–ième axe factoriel [16,<br />

Cazes, Chouakria, Diday and Schektman (1997)] ont proposé l’indice (4.19):


Paramètres symboliques d’interprétation 120<br />

COR(S i , u j ) =<br />

∑<br />

k∈L Si<br />

y 2 kj<br />

∑<br />

k∈L Si<br />

d 2 (k, G) =<br />

∑<br />

k∈L Si<br />

y 2 kj<br />

n∑<br />

∑<br />

x 2 kp<br />

p=1 k∈L Si<br />

. (4.19)<br />

Figure 4.11: Cercle des corrélations symbolique avec la méthode des somm<strong>et</strong>s.<br />

Pour la méthode des c<strong>en</strong>tres, on propose l’indice (4.20) pour mesurer la qualité de représ<strong>en</strong>tation<br />

de l’obj<strong>et</strong> S i selon le j–ième axe factoriel:<br />

COR(S i , u j ) =<br />

(<br />

y<br />

c<br />

ij<br />

) 2<br />

. (4.20)<br />

n∑ ( )<br />

x<br />

c 2<br />

ij<br />

Ces deux indices (4.19) <strong>et</strong> (4.20) calcul<strong>en</strong>t le cosinus de l’angle <strong>en</strong>tre un vecteur représ<strong>en</strong>tant<br />

l’obj<strong>et</strong> S i <strong>et</strong> la <strong>com</strong>posante principale avec la direction u j . Mais S i est représ<strong>en</strong>té dans<br />

l’espace factoriel <strong>com</strong>me un hypercube alors on peut avoir une meilleure idée de la qualité<br />

j=1


Paramètres symboliques d’interprétation 121<br />

✻<br />

cos(α) = cor(S i , Y j )<br />

cos(β) = cor(S i , Y j )<br />

★ ★★<br />

★ ★★<br />

✑<br />

✓✥✥✥✥✥✥✥✥✥✥✥<br />

✑✑ ✑ ✑✑<br />

✓✓✓✓✓✓ α<br />

β<br />

<br />

<br />

<br />

<br />

<br />

<br />

✠<br />

S i<br />

✲ y j<br />

Figure 4.12: La qualité symbolique de S i selon le j–ième axe factoriel.<br />

de représ<strong>en</strong>tation de l’obj<strong>et</strong> S i selon le j–ième axe factoriel si on calcule la valeur minimum<br />

<strong>et</strong> maximum du cosinus de l’angle <strong>en</strong>tre l’obj<strong>et</strong> S i (hypercube) <strong>et</strong> la <strong>com</strong>posante<br />

principale dans la direction u j . Dans ce but on propose l’algorithme 4.6. L’idée de<br />

l’algorithme est de calculer le cosinus de l’angle <strong>en</strong>tre tous les somm<strong>et</strong>s de l’hypercube S i<br />

<strong>et</strong> l’axe factoriel <strong>et</strong> on choisit le minimum <strong>et</strong> le maximum. On illustre ceci dans la Figure<br />

4.12. L’algorithme vérifie égalem<strong>en</strong>t si l’hypercube conti<strong>en</strong>t l’origine ou si l’hypercube<br />

coupe l’axe, parce que dans ces deux cas le cosinus de l’angle devrait être 1.<br />

ALGORITHME 4.6: LA QUALITE SYMBOLIQUE DE S i SELON L’AXE<br />

FACTORIEL<br />

Entrée :<br />

• m =nombre d’obj<strong>et</strong>s symboliques.<br />

• n =nombre de variables symboliques.


Paramètres symboliques d’interprétation 122<br />

• Le tableau des données symboliques<br />

⎛ [ ] [ ] [ ]<br />

x11 , x 11 x12 , x 12 · · · x1n , x 1n [ ] [ ] [ ]<br />

x21 , x<br />

X =<br />

21 x22 , x 22 · · · x2n , x 2n ⎜ .<br />

.<br />

.. . .<br />

⎝<br />

[ ] [ ] [ ]<br />

xm1 , x m1 xm2 , x m2 · · · xmn , x mn<br />

⎞<br />

.<br />

⎟<br />

⎠<br />

• La matrice des <strong>com</strong>posantes principales symboliques:<br />

⎛ [ ] [ ] [ ]<br />

y11 , y 11 y12 , y 12 · · · y1n , y 1n [ ] [ ] [ ]<br />

y21 , y<br />

Y =<br />

21 y22 , y 22 · · · y2n , y 2n ⎜ . .<br />

.. . .<br />

⎝<br />

[ ] [ ] [ ]<br />

ym1 , y m1 ym2 , y m2 · · · ymn , y mn<br />

⎞<br />

.<br />

⎟<br />

⎠<br />

Sortie : Les cosinus symbolique <strong>en</strong>tre les variables <strong>et</strong> les <strong>com</strong>posantes principales dans<br />

la matrice suivante:<br />

⎛<br />

⎞<br />

[cor(S 1 , u 1 ), cor(S 1 , u 1 )] · · · [cor(S 1 , u n ), cor(S 1 , u n )]<br />

COR =<br />

.<br />

⎜<br />

.<br />

.. .<br />

⎟<br />

⎝<br />

⎠ .<br />

[cor(S m , u 1 ), cor(S m , u 1 )] · · · [cor(S m , u n ), cor(S m , u n )]<br />

Etape 1: total= m · 2 m , i = 1, j = 1.<br />

Etape 2: P<strong>en</strong>dant que i ≤ n<br />

Etape 2.1: P<strong>en</strong>dant que j ≤ m<br />

Etape 2.1.1: Si → 0∈Y<br />

◦ j<br />

H alors 2<br />

Etape 2.1.1.1: cor(S i , u j ) = 1.<br />

Etape 2.1.1.2: cor(S i , u j ) = 1.<br />

Etape 2.1.2: Autrem<strong>en</strong>t<br />

2 Où → 0 note le vecteur zéro dans R m <strong>et</strong> ◦ A note l’<strong>en</strong>semble de points intérieurs de A.


Paramètres symboliques d’interprétation 123<br />

Etape 2.1.2.1 cor(S i , u j ) = 1.<br />

Etape 2.1.2.2 cor(S i , u j ) = 0.<br />

Etape 2.1.3: Si S i ∩axis j ≠ ∅<br />

Etape 2.1.3.1 cor(S i , u j ) = 1.<br />

Etape 2.1.3.2 cor(S i , u j ) = 1.<br />

Etape 2.1.4: Autrem<strong>en</strong>t<br />

Etape 2.1.4.1 cor(S i , u j ) = 1.<br />

Etape 2.1.4.2 cor(S i , u j ) = 0.<br />

Etape 2.1.5: s = 1<br />

Etape 2.1.6: P<strong>en</strong>dant que s ≤ total<br />

Etape 2.1.6.1: x = s−ième somm<strong>et</strong> de S i<br />

Etape 2.1.6.2: cor= (x j)<br />

n∑<br />

2<br />

k=1<br />

(x k ) 2<br />

Etape 2.1.6.3: Si cor< cor(S i , u j )<br />

⋄ cor(S i , Y j ) =cor<br />

Etape 2.1.6.4: Si cor> cor(S i , u j )<br />

⋄ cor(S i , Y j ) =cor<br />

Sortie: La matrice COR= (cor(S i , u j ), cor(S i , u j )), i = 1, 2, . . . , m <strong>et</strong> j = 1, 2, . . . , n.<br />

Pour mesurer la contribution de S i à l’inertie λ j du j–ième axe factoriel [16, Cazes,<br />

Chouakria, Diday and Schektman (1997)] propos<strong>en</strong>t la formule (4.21) pour la méthode<br />

des somm<strong>et</strong>s:<br />

CTR(S i , u j ) = 1<br />

m2 n λ j<br />

∑<br />

On propose la formule (4.22) pour la méthode des c<strong>en</strong>tres:<br />

k∈L Si<br />

y 2 kj. (4.21)


Le logiciel pour l’analyse <strong>en</strong> <strong>com</strong>posantes principales symbolique 124<br />

CTR(S i , u j ) =<br />

(<br />

y<br />

c<br />

ij<br />

) 2<br />

mλ j<br />

. (4.22)<br />

Dans le cas symbolique on propose un indice dans lequel on calcule la contribution de tous<br />

les somm<strong>et</strong>s S i à l’inertie λ j du j–ième axe factoriel. On calcule <strong>en</strong>suite la contribution<br />

minimum <strong>et</strong> maximum. Cela est prés<strong>en</strong>té dans l’algorithme 4.7.<br />

Pour mesurer la contribution de S i à l’inertie totale [16, Cazes, Chouakria, Diday and<br />

Schektman (1997)] propos<strong>en</strong>t l’indice (4.23) pour la méthode des somm<strong>et</strong>s:<br />

INR(S i ) = 1<br />

m2 n<br />

∑<br />

k∈L Si<br />

d 2 (k, G)<br />

n∑<br />

j=1<br />

λ j<br />

= 1<br />

m2 n<br />

n∑<br />

p=1<br />

∑<br />

(x kp ) 2<br />

k∈L Si<br />

. (4.23)<br />

n∑<br />

λ j<br />

Pour la méthode des c<strong>en</strong>tres on propose la formule (4.24) qui mesure la contribution de<br />

S i à l’inertie total:<br />

INR(S i ) = 1 m<br />

n∑ ( )<br />

x<br />

c 2<br />

ij<br />

j=1<br />

j=1<br />

. (4.24)<br />

n∑<br />

λ j<br />

j=1<br />

4.1.5 Le logiciel pour l’analyse <strong>en</strong> <strong>com</strong>posantes principales symbolique<br />

Nous avons mis <strong>en</strong> application un programme <strong>en</strong> C++ pour l’analyse <strong>en</strong> <strong>com</strong>posantes principales<br />

pour des données de type intervalle. Ce programme est un module de<br />

PIMAD-Symbolique (voir annexe 1) <strong>et</strong> possede les caractéristiques suivantes:<br />

1. Il trace le plan principal symbolique avec les deux méthodes: la méthode des somm<strong>et</strong>s<br />

<strong>et</strong> la méthode des c<strong>en</strong>tres.


Le logiciel pour l’analyse <strong>en</strong> <strong>com</strong>posantes principales symbolique 125<br />

2. Il trace le cercle des corrélations symbolique <strong>en</strong> utilisant trois algorithmes différ<strong>en</strong>ts,<br />

ceci est une option de l’utilisateur (consultez l’annexe 1).<br />

3. Il calcule les paramètres classiques d’interprétation mais égalem<strong>en</strong>t les paramètres<br />

symboliques d’interprétation.<br />

4. L’algorithme mis <strong>en</strong> application dans le programme d’analyse <strong>en</strong> <strong>com</strong>posantes principales<br />

symbolique est vraim<strong>en</strong>t une généralisation de l’analyse classique <strong>en</strong> <strong>com</strong>posantes<br />

principales parce que s’il s’applique sur un tableau classique de données,<br />

alors il produit automatiquem<strong>en</strong>t des résultats classiques.<br />

5. Par défaut le programme fonctionne avec l’algorithme 4.4 qui est optimal <strong>en</strong> temps.<br />

6. On peut exécuter le programme étape à étape de l’algorithme, <strong>en</strong> <strong>en</strong>registrant les<br />

résultats intermédiaires dans un fichier, <strong>com</strong>me la matrice de corrélation, les valeurs<br />

propres, les vecteurs propres, <strong>et</strong>c. (consultez l’annexe 1).<br />

L’utilisateur peut choisir la méthode que le programme emploiera dans le m<strong>en</strong>u Options.<br />

Si l’utilisateur choisit l’option Choose-M<strong>et</strong>hod le programme SPCA prés<strong>en</strong>te la boîte<br />

de dialogue prés<strong>en</strong>tée dans la Figure A.5. Dans c<strong>et</strong>te boîte de dialogue l’utilisateur peut<br />

choisir la méthode <strong>et</strong> choisir alors l’algorithme pour établir le cercle des corrélations. Si<br />

l’utilisateur choisit les options C<strong>en</strong>ter <strong>et</strong> Dual le programme emploie l’algorithme 4.4;<br />

si l’utilisateur choisit les options Tops <strong>et</strong> Dual le programme emploie les algorithmes<br />

4.5 <strong>et</strong> si l’utilisateur choisit les options Tops <strong>et</strong> Definition le programme emploie<br />

l’algorithme 4.1.


L’ACP avec données de type histogramme 126<br />

4.2 Généralisation de l’analyse <strong>en</strong> <strong>com</strong>posantes principales<br />

aux données de type histogramme<br />

4.2.1 L’algorithme<br />

Dans c<strong>et</strong>te section nous proposons un algorithme pour appliquer l’analyse de <strong>com</strong>posantes<br />

principales quand les variables sont de type histogramme. C<strong>et</strong> algorithme fonctionne<br />

égalem<strong>en</strong>t si le tableau de données a des variables de type intervalle <strong>et</strong> de type histogramme.<br />

Si toutes les variables sont de type intervalle, il produit le même résultat<br />

que celui produit par l’algorithme de la méthode des c<strong>en</strong>tres proposée dans [16, Cazes,<br />

Chouakria, Diday <strong>et</strong> Schektman (1997)].<br />

Dans c<strong>et</strong> algorithme on utilise l’idée proposée dans [38, Diday (1998)] qui consiste à<br />

représ<strong>en</strong>ter chaque histogramme–individu par une suite de k intervalle–individus (le premier<br />

inclus dans le second, le second inclus dans le troisième <strong>et</strong> ainsi de suite) où k est le<br />

nombre maximum des modalités prises par une certaine variable dans le tableau symbolique<br />

de données.<br />

Nous ne représ<strong>en</strong>tons pas vraim<strong>en</strong>t dans le plan factoriel les histogrammes, nous allons<br />

représ<strong>en</strong>ter la Fonction de Distribution Empirique F Y définie dans [7, Bock and Diday<br />

(2000)] associée à chaque histogramme. En d’autres termes, si nous avons une variable<br />

de type histogramme Y sur un <strong>en</strong>semble E = {a 1 , a 2 , . . .} d’obj<strong>et</strong>s avec le domaine Y<br />

représ<strong>en</strong>té par la fonction Y (a) = (U(a), π a ), pour a ∈ E, où π a est la distribution de<br />

fréqu<strong>en</strong>ce, alors nous utiliserons dans l’algorithme la fonction F (x) =<br />

∑<br />

π i au lieu<br />

de l’histogramme.<br />

i / π i ≤x<br />

Definition 37 Soit X = (x ij ) i=1,2,...,m un tableau de données symbolique avec variables<br />

j=1,2,...,n<br />

de type continu, intervalle <strong>et</strong> histogramme, <strong>et</strong> soit k = max{s, où s est le nombre de


L’ACP avec données de type histogramme 127<br />

modalités de Y j , j = 1, 2, . . . , n} quand Y j est de type histogramme 3 . On définit le<br />

vecteur–colonne des intervalles associés à chaque élém<strong>en</strong>t de X de la façon suivante:<br />

1. Si x ij = [a, b], le vecteur–colonne des intervalles associés est:<br />

⎡ ⎤<br />

[a, b]<br />

x ↓ ij = [a, b]<br />

.<br />

⎢ . ⎥<br />

⎣ ⎦<br />

[a, b]<br />

2. Si x ij = (1(p 1 ), 2(p 2 ), . . . , s(p s )) avec s ≤ k (histogramme), le vecteur–colonne<br />

k×1<br />

des intervalles associés est:<br />

⎡<br />

⎤<br />

[0, p 1 ]<br />

[0, p<br />

x ↓ ij = 1 + p 2 ]<br />

.<br />

[ ]<br />

⎢<br />

⎣<br />

s∑ ⎥<br />

⎦<br />

0, p w<br />

w=1<br />

k×1<br />

3. Si x ij = a, le vecteur–colonne des intervalles associés est:<br />

⎡ ⎤<br />

[a, a]<br />

x ↓ ij = [a, a]<br />

.<br />

⎢ . ⎥<br />

⎣ ⎦<br />

[a, a]<br />

Definition 38 Soit X = (x ij ) i=1,2,...,m un tableau de données symbolique avec variables<br />

j=1,2,...,n<br />

de type continu, intervalle <strong>et</strong> histogramme. On définit la matrice X ↓ = (x ↓ ij ) pour i =<br />

1, 2, . . . , m <strong>et</strong> j = 1, 2, . . . , n. Il est important de noter que X ↓ a m · k lignes 4 <strong>et</strong> n<br />

colonnes.<br />

k×1<br />

3 Si toutes la variable Y j est de type intervalle ou de type continu alors s = 1.<br />

4 k <strong>com</strong>me dans la définition précéd<strong>en</strong>te.<br />

.


L’ACP avec données de type histogramme 128<br />

⎡<br />

Example 35 Si X = ⎣<br />

[1, 3] (1(0.2), 2(0.3), 3(0.5))<br />

[7, 9] (1(0.8), 2(0.1), 3(0.1))<br />

⎤<br />

⎦ alors<br />

⎡<br />

X ↓ =<br />

⎢<br />

⎣<br />

[1, 3] [0.0000, 0.2000]<br />

[1, 3] [0.0000, 0.5000]<br />

[1, 3] [0.0000, 1.0000]<br />

[7, 9] [0.0000, 0.8000]<br />

[7, 9] [0.0000, 0.9000]<br />

[7, 9] [0.0000, 1.0000]<br />

⎤<br />

.<br />

⎥<br />

⎦<br />

L’idée est d’appliquer l’algorithme 4.4 à la matrice X ↓ . Avec c<strong>et</strong>te analyse <strong>en</strong> <strong>com</strong>posantes<br />

principales on peut trouver la “forme” de l’individu–histogramme dans le plan<br />

principal, mais il y a un problème parce que tous les individus–histogramme seront proj<strong>et</strong>és<br />

presque à la même position autour de l’origine. Alors on doit appliquer une autre<br />

analyse <strong>en</strong> <strong>com</strong>posantes principales afin de trouver une bonne structure du groupe pour<br />

les individu–histogramme, c’est pourquoi on appliquera une analyse classique <strong>en</strong> <strong>com</strong>posantes<br />

principales à la matrice prés<strong>en</strong>tée dans les définitions qui suiv<strong>en</strong>t.<br />

Definition 39 Soit X = (x ij ) i=1,2,...,m un tableau de données symbolique avec variables<br />

j=1,2,...,n<br />

de type continu, intervalle <strong>et</strong> histogramme. On définit le vecteur–ligne associé à chaque<br />

élém<strong>en</strong>t de X de la façon suivante:<br />

1. Si x ij = [a, b] alors le vecteur–ligne associé est:<br />

[ ] a + b<br />

x → ij =<br />

2<br />

.<br />

1×1<br />

2. Si x ij = (1(p 1 ), 2(p 2 ), . . . , s(p s )) où s est le nombre de modalités de la j–ième<br />

variable, alors le vecteur–ligne associé est:<br />

x → ij = [p 1 , p 2 , . . . , p s ] 1×s<br />

.


L’ACP avec données de type histogramme 129<br />

3. Si x ij = a alors le vecteur–ligne associé est:<br />

x → ij = [a] 1×1<br />

.<br />

Definition 40 Soit X = (x ij ) i=1,2,...,m un tableau de données symbolique avec variables<br />

j=1,2,...,n<br />

de type continu, intervalle <strong>et</strong> histogramme. On définit la matrice X → = (x → ij ) de m lignes<br />

n∑<br />

<strong>et</strong> p = s j colonnes, où<br />

j=1<br />

⎧<br />

⎪⎨<br />

s j =<br />

⎪⎩<br />

nombre de modalités Si la variable j est de type histogramme,<br />

1 Si la variable j est de type intervalle,<br />

1 Si la variable j est de type continu.<br />

⎡<br />

Example 36 Si X = ⎣<br />

[1, 3] (1(0.2), 2(0.3), 3(0.5))<br />

[7, 9] (1(0.8), 2(0.1), 3(0.1))<br />

⎤<br />

⎦ alors<br />

⎡<br />

X → = ⎣<br />

2 0.2 0.3 0.5<br />

8 0.8 0.1 0.1<br />

⎤<br />

⎦ .<br />

L’idée du prochain algorithme est d’appliquer une analyse <strong>en</strong> <strong>com</strong>posantes principales à<br />

la matrice X ↓ pour trouver la forme de l’individu–histogramme. On applique alors une<br />

autre analyse <strong>en</strong> <strong>com</strong>posantes principales à la matrice X → , <strong>et</strong> avec ces <strong>com</strong>posantes principales<br />

obt<strong>en</strong>ues, on déplacera l’individu–histogramme pour trouver une bonne structure<br />

du groupe dans le plan principal.<br />

ALGORITHME 4.7: ANALYSE EN COMPOSANTES PRINCIPALES POUR<br />

VARIABLES DE TYPE HISTOGRAMME<br />

Entrée :<br />

• m =nombre d’obj<strong>et</strong>s symboliques.


L’ACP avec données de type histogramme 130<br />

• n =nombre de variables symboliques.<br />

• Le tableau des données symboliques<br />

⎛<br />

⎞<br />

x 11 x 12 · · · x 1n<br />

x<br />

X =<br />

21 x 22 · · · x 2n<br />

.<br />

⎜ . . .. .<br />

. ⎟<br />

⎝<br />

⎠<br />

x m1 x m2 · · · x mn<br />

Sortie :<br />

• La matrice symbolique avec les q premières <strong>com</strong>posantes principales:<br />

⎛<br />

⎞<br />

y ↓ 11 y ↓ 12 · · · y ↓ 1q<br />

y ↓<br />

Y =<br />

21 y ↓ 22 · · · y ↓ 2q<br />

.<br />

⎜ . . .. ,<br />

. ⎟<br />

⎝<br />

⎠<br />

y ↓ m1 y ↓ m2 · · · ymq<br />

↓<br />

où (k <strong>com</strong>me dans la définition 37):<br />

⎡<br />

y ↓ ij = ⎢<br />

⎣<br />

[ ]<br />

yij, 1 yij<br />

1<br />

[ ]<br />

yij, 2 yij<br />

2<br />

.<br />

[<br />

yij, k yij<br />

k<br />

]<br />

⎤<br />

.<br />

⎥<br />

⎦<br />

Etape 1: Calculer la matrice X ↓ de la définition 38.<br />

Etape 2: Appliquer l’algorithme 4.4 pr<strong>en</strong>ant <strong>com</strong>me <strong>en</strong>trée X ↓ . Il produit la matrice:<br />

⎛<br />

⎞<br />

ŷ ↓ 11 ŷ ↓ 12 · · · ŷ ↓ 1q 1<br />

ŷ ↓<br />

Ŷ ↓ =<br />

21 ŷ ↓ 22 · · · ŷ ↓ 2q 1<br />

.<br />

⎜ . . .. ,<br />

. ⎟<br />

⎝<br />

⎠<br />

ŷ ↓ m1 ŷ ↓ m2 · · · ŷmq ↓ 1


L’ACP avec données de type histogramme 131<br />

où (k <strong>com</strong>me dans la définition 37):<br />

⎡ [ ] ⎤<br />

ŷ ij, 1 ŷij<br />

1<br />

[ ]<br />

ŷ ↓ ij = ŷ ij, 2 ŷij<br />

2 .<br />

⎢ . ⎥<br />

⎣ [ ] ⎦<br />

ŷij, k ŷij<br />

k<br />

pour i = 1, 2, . . . , n <strong>et</strong> j = 1, 2, . . . , q 1 avec q 1 ≤ n.<br />

Etape 3: Calculer la matrice X → de la définition 40.<br />

Etape 4: Appliquer une analyse classique <strong>en</strong> <strong>com</strong>posantes principales à la matrice X → .<br />

Il produit la matrice:<br />

où q 2 ≤ p =<br />

⎛<br />

Ỹ → =<br />

⎜<br />

⎝<br />

⎞<br />

ỹ 11 ỹ 12 · · · ỹ 1q2<br />

ỹ 21 ỹ 22 · · · ỹ 2q2<br />

. .<br />

.. ,<br />

. . ⎟<br />

⎠<br />

ỹ m1 ỹ m2 · · · ỹ mq2<br />

n∑<br />

s j (s j <strong>com</strong>me dans la définition 40):<br />

j=1<br />

Etape 5: q = min(q 1 , q 2 ).<br />

Etape 6: Calculer les q premières <strong>com</strong>posantes principales:<br />

⎛<br />

⎞<br />

y ↓ 11 y ↓ 12 · · · y ↓ 1q<br />

y ↓<br />

Y =<br />

21 y ↓ 22 · · · y ↓ 2q<br />

.<br />

⎜ . . .. ,<br />

. ⎟<br />

⎝<br />

⎠<br />

y ↓ m1 y ↓ m2 · · · ymq<br />

↓<br />

<strong>en</strong> utilisant la translation:<br />

⎡ [ ] ⎤ ⎡ [<br />

] ⎤<br />

yij 1 , y1 ij<br />

[ ]<br />

ŷij 1 + ỹ ij , ŷ1 ij + ỹ ij<br />

Etape 6.1: Si k > 1 alors y ↓ ij = yij 2 , [<br />

]<br />

y2 ij<br />

ŷij 2 =<br />

+ ỹ ij , ŷ2 ij + ỹ ij<br />

⎢ .<br />

⎥ ⎢ .<br />

⎥<br />

⎣ [ ] ⎦ ⎣ [<br />

] ⎦<br />

yij k , yk ij<br />

ŷij k + ỹ ij , ŷk ij + ỹ ij


L’ACP avec données de type histogramme 132<br />

⎡<br />

Etape 6.2: Si k = 1 alors y ↓ ij = ⎢<br />

⎣<br />

[ ]<br />

yij, 1 yij<br />

1<br />

[ ]<br />

yij, 2 yij<br />

2<br />

.<br />

[ ]<br />

yij, k yij<br />

k<br />

⎤ ⎡<br />

=<br />

⎥ ⎢<br />

⎦ ⎣<br />

[ ]<br />

ŷij, 1 ŷij<br />

1<br />

[ ]<br />

ŷij, 2 ŷij<br />

2<br />

.<br />

[ ]<br />

ŷij, k ŷij<br />

k<br />

⎤<br />

⎥<br />

⎦<br />

Etape 7: Fin de l’algorithme.<br />

Theorem 7 La méthode des c<strong>en</strong>ters pour l’analyse <strong>en</strong> <strong>com</strong>posantes principales proposée<br />

dans l’algorithme 4.4. est un cas particulier de la méthode proposée dans l’algorithme<br />

4.7.<br />

Démonstration: Si x ij = [a, b] ∀ i = 1, 2, . . . , m, j = 1, 2, . . . , n alors dans la matrice<br />

X ↓ de la définition 38 on a k = 1 donc la matrice X ↓ = X <strong>et</strong> dans l’étape 6 <strong>com</strong>me k = 1<br />

on ne déplacera pas les individus–histogramme.<br />

<br />

Remark 10 Comme on l’a démontré dans le théorème 6, l’analyse <strong>en</strong> <strong>com</strong>posantes principales<br />

classique est un cas particulier de la méthode des c<strong>en</strong>tres proposée dans l’algorithme<br />

4.4, <strong>et</strong> on a démontré dans le théorème 7 que la méthode proposée dans l’algorithme 4.4<br />

est un cas particulier de la méthode proposée dans l’algorithme 4.7, alors l’analyse <strong>en</strong><br />

<strong>com</strong>posantes principales pour des données de type histogramme proposé dans l’algorithme<br />

4.7 est une généralisation de l’ACP pour des données de type intervalle qui est une<br />

généralisation de l’ACP classique.<br />

4.2.2 Exemples d’application<br />

Pour illustrer <strong>com</strong>m<strong>en</strong>t l’algorithme 4.7 fonctionne dans c<strong>et</strong>te section on prés<strong>en</strong>te deux<br />

exemples d’exécution.


L’ACP avec données de type histogramme 133<br />

Example 37 Dans c<strong>et</strong> exemple on prés<strong>en</strong>te l’exécution de l’algorithme 4.7 avec la table<br />

de données symbolique prés<strong>en</strong>tée dans (4.25). C<strong>et</strong>te matrice a cinq variables, la première<br />

est de type intervalle, la seconde est une variable discr<strong>et</strong>e quantitative, <strong>et</strong> les trois dernières<br />

variables sont type histogramme (les valeurs sont tronquées).<br />

⎡<br />

X =<br />

⎢<br />

⎣<br />

[1, 4] 2 (1(0.4), 2(0.1), 3(0.2), 4(0.07), 5(0.02)) (1(0.1), 2(0.9)) (1(0.7), 2(0.2))<br />

[1, 4] 3 (1(0.6), 2(0.1), 3(0.1), 5(0.0)) (1(0.1), 2(0.9)) (1(0.7), 2(0.2))<br />

[1, 5] 2 (1(0.7), 2(0.2)) (1(0.0), 2(0.9)) (1(0.7), 2(0.2))<br />

[1, 4] 1 (1(0.7), 2(0.0), 3(0.1), 4(0.0), 5(0.0), 6(0.0) (1(0.0), 2(0.9)) (1(0.7), 2(0.2))<br />

[1, 4] 1 (1(0.4), 3(0.4), 4(0.0), 5(0.0)) (1(0.0), 2(0.9)) (1(0.8), 2(0.1))<br />

[1, 6] 2 (2(0.4), 3(0.1), 4(0.3), 5(0.0), 6(0.0) (1(0.0), 2(0.9)) (1(0.7), 2(0.2))<br />

⎤<br />

⎥<br />

⎦<br />

(4.25)<br />

En appliquant l’algorithme 4.7 on obti<strong>en</strong>t le plan principal de la Figure 4.13<br />

Figure 4.13: Le plan principal avec des données de type continu, intervalle <strong>et</strong> histogramme.<br />

Si on trace la pyramide (voir la Figure 4.14) associé à la matrice (4.25) on obti<strong>en</strong>t la même<br />

structure de classes que celle qu’on a obti<strong>en</strong>ue dans le premier axe dans le plan principal<br />

de la Figure 4.13. C’est–à–dire, le individu “Northern Ireland” est isolé <strong>et</strong> les individus


L’ACP avec données de type histogramme 134<br />

“North non–m<strong>et</strong>ropolitan”, “Yorks and Humberside m<strong>et</strong>ropoli”, “Yorks and Humberside<br />

non-m<strong>et</strong>ro” <strong>et</strong> “East midlands non-m<strong>et</strong>ropolitan” sont groupés.<br />

Figure 4.14: La pyramide avec des données de type continue, intervalles <strong>et</strong> histogramme.<br />

4.2.3 L’interprétation<br />

Pour expliquer <strong>com</strong>m<strong>en</strong>t interpréter l’<strong>Analyse</strong> <strong>en</strong> Composantes Principales pour de données<br />

de type histogramme nous employons un p<strong>et</strong>it exemple. L’interprétation de la position<br />

du individu–histogramme dans le plan principal est la même que dans la situation<br />

classique du analyse <strong>en</strong> <strong>com</strong>posantes principales, alors on devrait expliquer quelle est<br />

l’interprétation de la colonne de rectangles qui représ<strong>en</strong>t<strong>en</strong>t chaque individu.<br />

Example 38 Soit<br />

X =<br />

VAR-1<br />

VAR-2<br />

IND-1 (1(0.1), 2(0.4), 3(0.5)) (1(0.2), 2(0.3), 3(0.5))<br />

IND-2 (1(0.7), 2(0.2), 3(0.1)) (1(0.8), 2(0.1), 3(0.1))<br />

.<br />

C<strong>et</strong>te matrice peut être égalem<strong>en</strong>t représ<strong>en</strong>tée <strong>com</strong>me on montre dans la Figure 4.15.


L’ACP avec données de type histogramme 135<br />

Figure 4.15: Tableau des données avec deux individus <strong>et</strong> deux variables de type histogramme.<br />

Si nous appliquons l’analyse <strong>en</strong> <strong>com</strong>posantes principales de l’algorithme 4.7 à la table de<br />

données précéd<strong>en</strong>te, nous obt<strong>en</strong>ons le plan principal qu’on montre dans la Figure 4.16.<br />

Le plus p<strong>et</strong>it rectangle de la projection de l’individu–1 (Ind1) représ<strong>en</strong>te la probabilité<br />

que l’individu–1 pr<strong>en</strong>ne la modalité 1 pour la variable 1 ou la modalité 1 pour la variable<br />

2. La taille du rectangle est conforme à la représ<strong>en</strong>tation de l’individu–1 dans la Figure<br />

4.15, parce que la valeur de la modalité 1 pour la variable 1 est 0.1 <strong>et</strong> la valeur de la<br />

modalité 1 pour la variable 2 est 0.2, c’est–à–dire la moy<strong>en</strong>ne pour la modalité 1 est<br />

0.15. Le deuxième rectangle de la projection de l’individu–1 représ<strong>en</strong>te la probabilité que<br />

l’individu–1 pr<strong>en</strong>ne la modalité 1 ou la modalité 2 pour la variable 1, ou la probabilité<br />

que l’individu–1 pr<strong>en</strong>ne la modalité 1 ou la modalité 2 pour la variable 2. La taille du<br />

deuxième rectangle est conforme égalem<strong>en</strong>t à la représ<strong>en</strong>tation de l’individu–1 dans la<br />

Figure 4.15, parce que la valeur de la fonction de distribution empirique pour la modalité<br />

2 de la variable 1 est 0.5 <strong>et</strong> la valeur de la fonction de distribution empirique pour la<br />

modalité 2 de la variable 2 est égalem<strong>en</strong>t 0.5. Le troisième rectangle de l’individu–1<br />

représ<strong>en</strong>te la probabilité 1, c’est la probabilité que l’individu 1 pr<strong>en</strong>ne n’importe laquelle


L’ACP avec données de type histogramme 136<br />

des modalités.<br />

Le plus p<strong>et</strong>it rectangle de la projection de l’individu–2 (Ind2) est plus grand que le plus<br />

p<strong>et</strong>it rectangle de la projection de l’individu–1 (voir la Figure 4.16); ceci est conforme<br />

à l’interprétation, parce que la probabilité que l’individu–2 pr<strong>en</strong>ne la modalité 1 pour la<br />

variable 1 est 0.7 <strong>et</strong> la probabilité que l’individu–2 pr<strong>en</strong>ne la modalité 1 pour la variable 2<br />

est 0.8, c’est-à-dire la moy<strong>en</strong>ne de pris la modalité 1 est 0.75. C<strong>et</strong>te valeur est plus grande<br />

que la même valeur pour l’individu–1 qui est 0.15; c’est pourquoi, le plus p<strong>et</strong>it rectangle<br />

de la projection de “Ind1” est plus p<strong>et</strong>it que le plus p<strong>et</strong>it rectangle de la projection de<br />

“Ind2”. Pour les mêmes raisons, le deuxième rectangle de la projection de “Ind1” est plus<br />

p<strong>et</strong>it que le deuxième rectangle de la projection de “Ind2”.<br />

Figure 4.16: TPlan principal du tableau.


Chapter 5<br />

L’<strong>Analyse</strong> Symbolique des Tableaux de<br />

Proximités<br />

5.1 Introduction<br />

La méthode d’analyse des tableaux de dissimilarités standard pr<strong>en</strong>d <strong>com</strong>me <strong>en</strong>trée une<br />

matrice de dissimilarité de terme général δ ij qui est une valeur numérique. Soi<strong>en</strong>t<br />

S 1 , S 2 , . . . , S m , m obj<strong>et</strong>s symboliques, dans c<strong>et</strong>te section nous supposons que les données<br />

se <strong>com</strong>pos<strong>en</strong>t d’une matrice symétrique ∆ = [δ ij ] = [δ ij , δ ij ], i, j = 1, 2, . . . , m où<br />

[δ ij , δ ij ] représ<strong>en</strong>te un intervalle des valeurs possibles pour la dissimilarité <strong>en</strong>tre l’obj<strong>et</strong><br />

symbolique S i <strong>et</strong> l’object symbolique S j .<br />

L’<strong>en</strong>semble de valeurs possibles pour la dissimilarité <strong>en</strong>tre l’obj<strong>et</strong> S i <strong>et</strong> l’object S j pourrait<br />

résulter de la <strong>com</strong>binaison des données de N juges, ou alternativem<strong>en</strong>t ce pourrait être une<br />

région de dissimilarité proposée par un simple juge.<br />

Comme sortie, au lieu de représ<strong>en</strong>ter chaque obj<strong>et</strong> symbolique sur le plan factoriel par<br />

un point, <strong>com</strong>me dans d’autres méthodes d’analyse des tableaux de dissimilarités, dans<br />

137


L’analyse classique des tableaux de proximités 138<br />

la méthode proposée chaque obj<strong>et</strong> symbolique est visualisé par un rectangle, afin de<br />

représ<strong>en</strong>ter la variation de la dissimilarité.<br />

D<strong>en</strong>œux <strong>et</strong> Masson dans [22, D<strong>en</strong>œux (1999)] ont trouvé une solution à ce problème<br />

réduisant au minimum par desc<strong>en</strong>te de gradi<strong>en</strong>t la fonction d’effort:<br />

σ(R) = ∑ i


L’analyse classique des tableaux de proximités 139<br />

L’analyse classique des tableaux de dissimilarités provi<strong>en</strong>t des années 30 quand Young <strong>et</strong><br />

Householder ont montré <strong>com</strong>m<strong>en</strong>t, <strong>en</strong> <strong>com</strong>m<strong>en</strong>çant par une matrice des distances <strong>en</strong>tre<br />

les points dans un espace Euclidi<strong>en</strong>, les coordonnées des points peuv<strong>en</strong>t être trouvées de<br />

telle façon que les distances soi<strong>en</strong>t préservées.<br />

Soi<strong>en</strong>t les coordonnées cherchées de m points dans un espace Euclidi<strong>en</strong> n dim<strong>en</strong>sionnel<br />

x i = (x i1 , x i2 , . . . , x in ) t , i = 1, 2, . . . , m. La distance Euclidi<strong>en</strong>ne d ij <strong>en</strong>tre le i−ième <strong>et</strong><br />

le j−ième point doit satisfaire:<br />

d 2 ij = (x i − x j ) t (x i − x j ). (5.1)<br />

Soit B la matrice de produit scalaire associée à d, telle que:<br />

[B] ij = b ij = x i x j . (5.2)<br />

L’idée de l’analyse des tableaux de dissimilarités est la suivante: on a une mesure de dissimilarité,<br />

d ij , pour chaque paire d’obj<strong>et</strong>s. À partir des distances carrées {d 2 ij} i,j=1,2,...,m la<br />

matrice B peut être trouvé <strong>et</strong> puis à partir de B les coordonnées inconnues (pour chaque<br />

obj<strong>et</strong>) peuv<strong>en</strong>t être trouvées.<br />

Pour trouver B on a localisé le c<strong>en</strong>tre de gravité de la configuration des points à l’origine,<br />

n∑<br />

par conséqu<strong>en</strong>t x ij = 0 pour i = 1, 2, . . . , m. Alors il n’est pas très difficile de prouver<br />

j=1<br />

([20, Cox <strong>et</strong> Cox (1994)]) que:<br />

b ij = − 1 2<br />

(<br />

d 2 ij − 1 m<br />

m∑<br />

d 2 rj − 1 m<br />

r=1<br />

m∑<br />

d 2 is + 1 n 2<br />

s=1<br />

m∑<br />

∑ m<br />

d 2 rs<br />

r=1 s=1<br />

)<br />

(5.3)<br />

Pour récupérer les coordonnées (<strong>com</strong>posantes principales), la matrice B peut être exprimé<br />

<strong>com</strong>me B = XX t où X = [x 1 , x 2 , . . . , x m ] est une matrice de taille m × n. Notez que


L’analyse classique des tableaux de proximités 140<br />

B est symétrique, semi–définie positive <strong>et</strong> de rang n alors B a n valeurs propres non<br />

négatives <strong>et</strong> m − n valeurs propres zéro.<br />

B peut être écrit <strong>en</strong> termes de sa dé<strong>com</strong>position spectrale (dé<strong>com</strong>position aux valeurs<br />

singulières) B = V ΛV t où Λ = diag(λ 1 , λ 2 , . . . , λ m ) <strong>et</strong> V = [v 1 , v 2 , . . . , v m ] avec v i le<br />

i−ième vecteur propre tels que v t iv i = 1 <strong>et</strong> λ 1 ≥ λ 2 ≥ · · · ≥ λ m ≥ 0.<br />

En raison des m − n valeurs propres zéro B peut être écrit <strong>com</strong>me B = V 1 Λ 1 V t<br />

1 où Λ 1 =<br />

diag(λ 1 , λ 2 , . . . , λ n ) <strong>et</strong> V = [v 1 , v 2 , . . . , v n ]. Puis <strong>com</strong>me B = XX t ; X est donné par:<br />

X = V 1 Λ 1 2<br />

1 , (5.4)<br />

où Λ 1 2<br />

1 =diag(λ 1 2<br />

1 , λ 1 2<br />

2 , . . . , λ 1 2 n ).<br />

Il y a une propriété de dualité <strong>en</strong>tre l’analyse <strong>en</strong> <strong>com</strong>posantes principales <strong>et</strong> l’analyse<br />

des tableaux de dissimilarités quand les dissimilarités sont données par des distances Euclideannes.<br />

Plus formellem<strong>en</strong>t:<br />

Proposition 8 [20, Cox <strong>et</strong> Cox (1994)] Si µ i <strong>et</strong> ξ i sont les valeurs propres <strong>et</strong> les vecteurs<br />

propres de l’analyse <strong>en</strong> <strong>com</strong>posantes principales de X respectivem<strong>en</strong>t pour i = 1, 2, . . . , n,<br />

<strong>et</strong> on dénote par λ i <strong>et</strong> v i les valeurs propres <strong>et</strong> les vecteurs propres de l’analyse classique<br />

du tableau de dissimilarité de ∆ = {d ij } i,j=1,2,...,m respectivem<strong>en</strong>t pour i = 1, 2, . . . , n,<br />

alors:<br />

µ i = λ i <strong>et</strong> ξ i = X t v i pour i = 1, 2, . . . , n. (5.5)<br />

ALGORITHME 5.1: ANALYSE CLASSIQUE DES TABLEAUX DE DISSIMI-<br />

LARITÉS [20, Cox <strong>et</strong> Cox (1994)]<br />

Etape 1: Obt<strong>en</strong>ir les dissimilarités {δ ij } i,j=1,2,...,m .


L’analyse des tableaux de proximités de type intervalle 141<br />

Etape 2: Calculer la matrice B:<br />

(<br />

b ij = − 1 δij 2 − 1 2 m<br />

m∑<br />

δrj 2 − 1 m<br />

r=1<br />

m∑<br />

δis 2 + 1 n 2<br />

s=1<br />

m∑<br />

∑ m<br />

δrs<br />

2<br />

r=1 s=1<br />

)<br />

.<br />

Etape 3: Calculer les valeurs propres λ 1 , λ 2 , . . . , λ m <strong>et</strong> les vecteurs propres v 1 , v 2 , . . . v m<br />

de B.<br />

Etape 4: Calculer les coordonnées des m points dans R n <strong>en</strong> employant l’égalité:<br />

x ij = √ λ i · v ji pour i = 1, 2, . . . , m <strong>et</strong> j = 1, 2, . . . , n.<br />

5.3 L’analyse des tableaux de dissimilarités de type intervalle:<br />

INTERSCAL<br />

Soi<strong>en</strong>t S 1 , S 2 , . . . , S m , m obj<strong>et</strong>s symboliques, dans c<strong>et</strong>te section on suppose que les données<br />

d’<strong>en</strong>trée se <strong>com</strong>pos<strong>en</strong>t d’une matrice symétrique ∆ défini par:<br />

⎡<br />

∆ =<br />

⎢<br />

⎣<br />

[0, δ 11 ] [δ 12 , δ 12 ] · · · [δ 1m , δ 1m ]<br />

[δ 21 , δ 21 ] [0, δ 22 ] · · · [δ 2m , δ 2m ]<br />

. .<br />

.. . .<br />

[δ m1 , δ m1 ] [δ m2 , δ m2 ] · · · [0, δ mm ]<br />

⎤<br />

, (5.6)<br />

⎥<br />

⎦<br />

où δ ij représ<strong>en</strong>te la dissimilarité minimum possible <strong>en</strong>tre l’obj<strong>et</strong> S i <strong>et</strong> l’obj<strong>et</strong> S j , <strong>et</strong> δ ij<br />

représ<strong>en</strong>te la dissimilarité maximum possible <strong>en</strong>tre l’obj<strong>et</strong> S i <strong>et</strong> l’obj<strong>et</strong> S j .<br />

Si on veut obt<strong>en</strong>ir une méthode symbolique d’analyse des tableaux de dissimilarités qui<br />

a la propriété de dualité (proposition 8) avec la méthode des somm<strong>et</strong>s d’analyse <strong>en</strong> <strong>com</strong>posantes<br />

principales, quand la dissimilarité est modelée par une distance Euclidi<strong>en</strong>ne. On<br />

doit avoir <strong>com</strong>me <strong>en</strong>trée les dissimilarités <strong>en</strong>tre toutes les lignes de la matrice M définie


L’analyse des tableaux de proximités de type intervalle 142<br />

dans (5.7), parce que la méthode des somm<strong>et</strong>s de l’analyse <strong>en</strong> <strong>com</strong>posantes principales<br />

<strong>com</strong>m<strong>en</strong>ce par faire une analyse classique <strong>en</strong> <strong>com</strong>posantes principales de la matrice M<br />

(voir [16, Cazes, Chouakria, Diday <strong>et</strong> Schektman (1997)]).<br />

⎡<br />

M =<br />

⎢<br />

⎣<br />

⎡<br />

⎤<br />

x 11 x 12 · · · x 1n<br />

x 11 x 12 · · · x 1n<br />

.<br />

⎢ . . .. . ⎥<br />

⎣<br />

⎦<br />

x 11 x 12 · · · x<br />

⎡<br />

1n<br />

⎤<br />

x 21 x 22 · · · x 2n<br />

x 21 x 22 · · · x 2n<br />

.<br />

⎢ . . .. . ⎥<br />

⎣<br />

⎦<br />

x 21 x 22 · · · x 2n<br />

.<br />

⎡<br />

⎤<br />

x m1 x m2 · · · x mn<br />

x m1 x m2 · · · x mn<br />

.<br />

⎢ . . . . . ⎥<br />

⎣<br />

⎦<br />

x m1 x m2 · · · x mn<br />

⎤<br />

, (5.7)<br />

⎥<br />

⎦<br />

Comme la taille de la matrice M est (m · 2 n ) × n, on devrait avoir <strong>com</strong>me <strong>en</strong>trée une<br />

matrice ∆ de la taille (m · 2 n ) × (m · 2 n ) mais c’est clairem<strong>en</strong>t impossible, parce qu’on<br />

a seulem<strong>en</strong>t deux dissimilarités, la maximale <strong>et</strong> la minimale, pour chaque paire d’obj<strong>et</strong>s<br />

symboliques.<br />

Ainsi il est impossible de trouver une méthode d’analyse des tableaux de dissimilarités de<br />

type intervalle qui a la propriété de dualité avec la méthode des somm<strong>et</strong>s dans l’analyse<br />

<strong>en</strong> <strong>com</strong>posantes principales. On cherchera donc une solution approximative.<br />

Soit:


L’analyse des tableaux de proximités de type intervalle 143<br />

δ ij<br />

β ij<br />

R Si<br />

α ij<br />

δ ij<br />

α ji<br />

R Sj<br />

β ji<br />

Figure 5.1: Distances minimum <strong>et</strong> maximum <strong>en</strong>tre les deux hypercubes.<br />

δ ij = min d(x, y)<br />

x∈R Si , y∈R Sj<br />

δ ij = max d(x, y)<br />

x∈R Si , y∈R Sj<br />

, (5.8)<br />

où R Si est l’hypercube dans R n défini par l’obj<strong>et</strong> symbolique S i , R Sj est l’hypercube<br />

défini par l’obj<strong>et</strong> symbolique S j <strong>et</strong> d(x, y) est la distance Euclidi<strong>en</strong>ne 2 <strong>en</strong>tre x <strong>et</strong> y.<br />

Si on fixe l’hypercube R Si , il est clair qu’il y a des points α ij = (α ij<br />

1 , α ij<br />

2 , . . . , α ij<br />

n ) ∈ R Si <strong>et</strong><br />

α ji = (α ji<br />

1 , α ji<br />

2 , . . . , α ji<br />

n ) ∈ R Sj , pour j = 1, 2, . . . , m tels que δ ij = d(α ij , α ji ). De façon<br />

analogue il y a des points β ij = (β ij<br />

1 , β ij<br />

2 , . . . , β ij<br />

n ) ∈ R Si <strong>et</strong> β ji =<br />

(β ji<br />

1 , β ji<br />

2 , . . . , β ji<br />

n ) ∈ R Sj tels que δ ij = d(β ij , β ji ) pour j = 1, 2, . . . , m, <strong>com</strong>me on<br />

le montre dans la Figure 5.1 pour n = 2. Comme j parcourt l’<strong>en</strong>semble {1, 2, . . . , m},<br />

alors, pour chaque hypercube R Si on a m points α ij <strong>et</strong> m points β ij <strong>et</strong> donc on a 2mm dissimilarités<br />

(on ti<strong>en</strong>t <strong>en</strong> <strong>com</strong>pte la dissimilarité maximum <strong>et</strong> minimum parmi un hypercube<br />

<strong>et</strong> lui–même). Mais, <strong>com</strong>me δ ij = d(α ij , α ji ) = δ ji = d(α ji , α ij ) <strong>et</strong> δ ij = d(β ij , β ji ) =<br />

δ ji = d(β ji , β ij ), on a 2m + 2(m − 1) + · · · + 2 = 2 ∑ m<br />

i=1<br />

i = m(m + 1) dissimilarités.<br />

Si on fixe l’hypercube R Si , il y a aussi des points γ ij = (γ ij<br />

1 , γ ij<br />

2 , . . . , γ ij<br />

n ) ∈ R Si <strong>et</strong> γ ji =<br />

(γ ji<br />

1 , γ ji<br />

2 , . . . , γ ji<br />

n ) ∈ R Sj , pour j = 1, 2, . . . , m tels que d(γ ij , γ ji ) = δ ij+δ ij<br />

2<br />

, <strong>com</strong>me on le<br />

montre dans la Figure 5.2. Ceci produit m dissimilarités.<br />

2 Comme dans l’analyse classique des tableaux de proximités, c<strong>et</strong>te supposition est théorique parce que<br />

la méthode pourrait être utilisée avec n’importe quelle dissimilarité.


L’analyse des tableaux de proximités de type intervalle 144<br />

β i<br />

<br />

✔ R Si<br />

✔<br />

✔<br />

✔<br />

γ ij <br />

✔<br />

✔<br />

✔<br />

✔<br />

✔<br />

✔ α i<br />

✔<br />

✔<br />

❛ <br />

✔<br />

✔<br />

❛❛❛❛❛ δ ij<br />

✔<br />

✔<br />

<br />

✔<br />

✔<br />

α j R Sj<br />

✔<br />

✔<br />

γ<br />

✔<br />

✔<br />

ji<br />

<br />

✔<br />

✔✔ ✔ d(γ ij , γ ji ) = δ ij+δ ij<br />

2<br />

✁ ✁✁✁<br />

β j <br />

δ<br />

✁ ✁✁ ✡ ✡✡✡<br />

ij ✡✡ ✡<br />

Figure 5.2: Distances moy<strong>en</strong>nes parmi les deux hypercubes.<br />

L’idée est c<strong>et</strong>te de faire une analyse des tableaux de proximités de la matrice de distances<br />

˜∆ définie par l’équation (5.9). Pour chaque hypercube R Si<br />

la matrice ˜∆ a deux lignes,<br />

dans la première ligne on emploie la dissimilarité minimum <strong>et</strong> la dissimilarité maximum<br />

parmi un hypercube <strong>et</strong> lui–même, alors qu’on emploie la dissimilarité minimum <strong>et</strong> la<br />

dissimilarité moy<strong>en</strong>ne parmi chaque couple d’hypercubes différ<strong>en</strong>ts, c’est–à–dire on emploie<br />

2m dissimilarités. Dans la second ligne de la matrice ˜∆ on emploie la dissimilarité<br />

maximum <strong>et</strong> la dissimilarité minimum parmi un hypercube <strong>et</strong> lui–même <strong>et</strong> on emploie<br />

la dissimilarité moy<strong>en</strong>ne <strong>et</strong> la dissimilarité maximum parmi chaque couple d’hypecubes<br />

différ<strong>en</strong>ts, <strong>en</strong> c<strong>et</strong>te ligne on emploie aussi 2m dissimilarités, mais <strong>com</strong>me les dissimilarités<br />

moy<strong>en</strong>nes ont déjà été employées on utilise vraim<strong>en</strong>t m dissimilarités, donc pour<br />

chaque hypercube on emploie 3m dissimilarités. Alors, <strong>com</strong>me d(x, y) = d(y, x) au total<br />

on emploie 3m + 3(m − 1) + · · · + 3 = 3 ∑ m<br />

i=1 i = 3 m(m + 1) > m(m + 1) dissimi-<br />

2<br />

larités. Notez que ˜∆ est une matrice symétrique <strong>et</strong> que sa taille est 2m×2m. Comme pour<br />

chaque hypercube R Si on a deux lignes, alors on peut calculer une coordonnée principale


L’analyse des tableaux de proximités de type intervalle 145<br />

minimum <strong>et</strong> maximum, c’est–à–dire la coordonnée principale de type intervalle.<br />

⎡<br />

˜∆ =<br />

⎢<br />

⎣<br />

δ<br />

0 δ 11 δ<br />

12 +δ 12<br />

δ<br />

12 · · · δ<br />

1m +δ 1m<br />

2 1m 2<br />

δ 11 0<br />

δ 12 +δ 12<br />

2<br />

δ 12 · · ·<br />

δ 1m +δ 1m<br />

2<br />

δ 1m<br />

δ<br />

δ<br />

21 +δ 21<br />

δ<br />

21 0 δ<br />

2 22 · · · δ<br />

2m +δ 2m<br />

2m 2<br />

δ 21 +δ 21<br />

δ<br />

δ<br />

2 21 δ 22 0 · · ·<br />

2m +δ 2m<br />

δ<br />

2 2m<br />

δ 31<br />

δ 31 +δ 31<br />

2<br />

δ 32<br />

δ 32 +δ 32<br />

2<br />

· · · δ 3m<br />

δ 3m +δ 3m<br />

δ 31 +δ 31<br />

2<br />

δ 31<br />

δ 32 +δ 32<br />

.<br />

.<br />

δ<br />

2 32 · · ·<br />

.<br />

. . .. .<br />

2<br />

δ 3m +δ 3m<br />

2<br />

δ 3m<br />

δ<br />

δ<br />

m1 +δ m1<br />

δ<br />

m1<br />

δ<br />

m2 +δ m2<br />

2 m2 · · · 0 δ<br />

2 mm<br />

δ m1 +δ m1<br />

δ<br />

δ<br />

m2 +δ m2<br />

2 m1 δ<br />

2 m2 · · · δ mm 0<br />

.<br />

⎤<br />

. (5.9)<br />

⎥<br />

⎦<br />

ALGORITHME 5.2: L’ANALYSE DES TABLEAUX DE DISSIMILARITÉS DE<br />

TYPE INTERVALLE<br />

]}<br />

Etape 1: Obt<strong>en</strong>ir les dissimilarités de type intervalle<br />

{[δ ij , δ ij<br />

i,j=1,2,...,m<br />

Etape 2: Calculer la matrice ˜∆ = (˜δ ij ) i,j=1,2,...,2m définie dans l’équation (5.9).<br />

Etape 3: Trouver la matrice ˜B = {[˜b ij ]} i,j=1,2,...,2m :<br />

˜bij = − 1 2<br />

(<br />

˜δ 2 ij − 1<br />

2m<br />

2m∑<br />

r=1<br />

˜δ 2 rj − 1<br />

2m<br />

2m∑<br />

s=1<br />

˜δ 2 is + 1<br />

(2m) 2<br />

2m<br />

∑<br />

r=1 s=1<br />

.<br />

2m∑<br />

˜δ rs<br />

2<br />

Etape 4: Trouver les valeurs propres ˜λ 1 , ˜λ 2 , . . . , ˜λ 2m <strong>et</strong> les vecteurs propres associés<br />

ṽ 1 , ṽ 2 , . . . , ṽ 2m de ˜B.<br />

Etape 5: Calculer les coordonnées des 2m points dans R n <strong>en</strong> utilisant la formule:<br />

√<br />

˜x ri = ˜λ r · ṽ ir pour r = 1, 2, . . . , 2m <strong>et</strong> i = 1, 2, . . . , n.<br />

)


L’analyse des tableaux de proximités de type intervalle 146<br />

Etape 6: Construire les coordonnées principales de type intervalle<br />

X1 I , X2 I , . . . , Xm I à partir des coordonnées numériques X 1, X 2 , . . . , X 2m<br />

(X i = (˜x i1 , ˜x i2 , . . . , ˜x in )). Soit L Si l’<strong>en</strong>semble de nombres de lignes dans la matrice<br />

˜M <strong>en</strong> référ<strong>en</strong>ce à l’obj<strong>et</strong> S i . Il est clair que L Si = {2i − 1, 2i}. Si X Si j = [x ij , x ij ]<br />

est la valeur de la <strong>com</strong>posante principale de type intervalle Xj I pour l’obj<strong>et</strong> S i alors:<br />

x ij = min (˜x kj ) =<br />

k∈L Si<br />

x ij =max (˜x kj ) =<br />

k∈L Si<br />

min<br />

k∈{2i−1,2i}<br />

max<br />

k∈{2i−1,2i}<br />

(˜x kj ),<br />

(˜x kj ).<br />

Theorem 9 La méthode classique de l’analyse des tableaux de dissimilarités de [71, Torg<strong>en</strong>son<br />

(1958)] <strong>et</strong> [45, Gower (1966)] proposée dans l’algorithme 5.1 est un cas particulier<br />

de la méthode INTERSCAL proposée dans l’algorithme 5.2.<br />

]<br />

Démonstration: Si tous les intervalles<br />

[δ ij , δ ij sont triviaux, c’est–à–dire δ ij = δ ij =<br />

δ ij , alors les dissimilarités moy<strong>en</strong>ne δ ij+δ ij<br />

2<br />

= δ ij , donc on a que ˜λ s = 2 · λ s pour s =<br />

1, 2, . . . , q, où q est le nombre de valeurs propres strictem<strong>en</strong>t positives de la matrice B de<br />

l’algorithme 5.1. En plus on a que v ir = √ 2 · ṽ 2i−1,r = ˜x 2i−1,r = √ 2 · ṽ 2i,r = ˜x 2i,r pour<br />

r = 1, 2, . . . , 2m <strong>et</strong> i = 1, 2, . . . , n. Alors on obti<strong>en</strong>t x ij = x ij = x ij pour i = 1, 2, . . . , m<br />

<strong>et</strong> j = 1, 2, . . . , n.<br />

La solution pour X n’est pas unique car B = V ΛV t = XT T t X t pour tout T tel que<br />

T T t = I. N’importe quelle rotation rigide est un exemple de la matrice de type T . Nous<br />

choisissons la solution correspondant aux axes principales. Le premier axe maximise<br />

l’inertie des α i , β i i = 1, 2, . . . , m. Cep<strong>en</strong>dant, puisque n’importe quelle rotation est<br />

égalem<strong>en</strong>t une solution, on peut souhaiter tourner les axes principales à fin d’obt<strong>en</strong>ir des<br />

solutions (axes) qui soi<strong>en</strong>t plus interpr<strong>et</strong>ables.<br />

INTERSCAL, la méthode de l’analyse des tableaux de dissimilarités de type intervalle, a<br />

un avantage par rapport la méthode de l’analyse <strong>en</strong> <strong>com</strong>posantes principales des somm<strong>et</strong>s.


L’analyse des tableaux de proximités de type intervalle 147<br />

La taille de la matrice dont l’algorithme calcule les valeurs propres <strong>et</strong> les vecteurs propres<br />

pour la méthode de l’analyse des tableaux de dissimilarités de type intervalle (INTER-<br />

SCAL) est 2m×2m, tandis que dans la méthode de l’analyse <strong>en</strong> <strong>com</strong>posantes principales<br />

des somm<strong>et</strong>s, elle peut être m · 2 n × m · 2 n .<br />

5.4 Exemples<br />

Nous avons analysé deux <strong>en</strong>sembles de données. D’abord, un <strong>en</strong>semble de données déjà<br />

exploré dans le contexte de l’analyse <strong>en</strong> <strong>com</strong>posantes principales des somm<strong>et</strong>s, <strong>et</strong> <strong>en</strong>suite<br />

un <strong>en</strong>semble de données plus traditionnel dans l’analyse des tableaux de dissimilarités<br />

impliquant des dissimilitudes des jugées. Nous avons d’abord analysé l’exemple des<br />

huiles <strong>et</strong> des graisses (Ichino’s Oils and Fats data) parce que c<strong>et</strong> <strong>en</strong>semble de données<br />

a été expliqué dans le contexte de l’analyse <strong>en</strong> <strong>com</strong>posantes principales pour données de<br />

type intervalle <strong>et</strong> donc nous pouvons <strong>com</strong>parer nos résultats à ceux obt<strong>en</strong>us à partir des<br />

<strong>com</strong>posantes principales.<br />

5.4.1 Exemple des huiles <strong>et</strong> des graisses<br />

L’<strong>en</strong>semble de données des huiles <strong>et</strong> des graisses (les données d’Ichino [50, Ichino (1994)])<br />

est montré dans le Tableau 5.1. Chaque ligne du tableau de données représ<strong>en</strong>te une classe<br />

d’huile décrite par 4 variables quantitatives de type intervalle: “Specific gravity”, “Freezing<br />

point”, “Iodine value” <strong>et</strong> “Saponification”. La matrice des distances ∆ qu’on a utilisé<br />

<strong>com</strong>me <strong>en</strong>trée pour INTERSCAL (méthode d’analyse des tableaux de dissimilarités de<br />

type intervalle) a été calculée <strong>en</strong> utilisant la matrice X qu’on a obt<strong>en</strong>u <strong>en</strong> normalisant<br />

la matrice des huiles <strong>et</strong> des graisses. Pour calculer ∆ on a employé les équations (5.12)<br />

<strong>et</strong> (5.13). En utilisant l’algorithme INTERSCAL on obti<strong>en</strong>t le plan principal représ<strong>en</strong>té<br />

dans la Figure 5.3. Si on emploie l’analyse <strong>en</strong> <strong>com</strong>posantes principales des somm<strong>et</strong>s avec


L’analyse des tableaux de proximités de type intervalle 148<br />

GRA FRE IOD SAP<br />

Linsed (L) [0.93, 0.935] [−27, −18] [170, 204] [118, 196]<br />

Perilla (P) [0.93, 0.937] [−5, −4] [192, 208] [188, 197]<br />

Cotton (Co) [0.916, 0.918] [−6, −1] [99, 113] [189, 198]<br />

Sesame (S) [0.92, 0.926] [−6, −4] [104, 116] [187, 193]<br />

Camellia (Ca) [0.916, 0.917] [−25, −15] [80, 82] [189, 193]<br />

Olive (O) [0.914, 0.919] [0, 6] [79, 90] [187, 196]<br />

Beef (B) [0.86, 0.87] [30, 38] [40, 48] [190, 199]<br />

Hog (H) [0.858, 0.864] [22, 32] [53, 77] [190, 202]<br />

Table 5.1: L’<strong>en</strong>semble de données des huiles <strong>et</strong> des graisses.<br />

des données des huiles <strong>et</strong> des graisses on obti<strong>en</strong>t les résultats qui sont montrés dans la<br />

Figure 5.4.<br />

La matrice des distances ∆ <strong>en</strong>tre les individus de l’exemple des huiles <strong>et</strong> des graisses<br />

qu’on a employé <strong>com</strong>me <strong>en</strong>trée pour la méthode de l’analyse des tableaux de dissimilarités<br />

de type intervalle est prés<strong>en</strong>tée dans (5.11). On a calculé c<strong>et</strong>te matrice <strong>en</strong> utilisant<br />

la matrice X (prés<strong>en</strong>té dans (5.10)) qu’on a obt<strong>en</strong>u <strong>en</strong> normalisant la matrice du Tableau<br />

5.1. Pour calculer ∆, on a employé les équations (5.12) <strong>et</strong> (5.13).


L’analyse des tableaux de proximités de type intervalle 149<br />

⎡<br />

X =<br />

⎢<br />

⎣<br />

[0.82, 1.00] [−1.49, −1.01] [1.15, 1.80] [−5.88, 0.65]<br />

[0.82, 1.08] [−0.32, −0.27] [1.57, 1.88] [−0.02, 0.73]<br />

[0.29, 0.37] [−0.37, −0.11] [−0.20, 0.06] [0.06, 0.82]<br />

[0.44, 0.67] [−0.37, −0.27] [−0.11, 0.12] [−0.10, 0.40]<br />

[0.29, 0.33] [−1.38, −0.85] [−0.57, −0.53] [0.06, 0.40]<br />

[0.22, 0.41] [−0.06, 0.26] [−0.59, −0.38] [−0.10, 0.65]<br />

[−1.79, −1.42] [1.53, 1.96] [−1.33, −1.18] [0.15, 0.90]<br />

[−1.87, −1.64] [1.11, 1.64] [−1.08, −0.62] [0.15, 1.15]<br />

⎤<br />

⎥<br />

⎦<br />

(5.10)<br />

⎡<br />

∆ =<br />

⎢<br />

⎣<br />

⎤<br />

[0.00,6.58][0.69,6.77][1.34,7.16][1.22,6.70][1.75,6.78][1.85,7.21][4.11,8.69][3.70,8.70]<br />

[0.69,6.77][0.00,0.86][1.57,2.39][1.46,2.25][2.22,2.88][2.00,2.80][3.98,4.96][3.57,4.76]<br />

[1.34,7.16][1.57,2.39][0.00,0.85][0.07,1.08][0.58,1.61][0.18,1.30][2.57,3.57][2.33,3.40]<br />

[1.22,6.70][1.46,2.25][0.07,1.08][0.00,0.60][0.65,1.45][0.34,1.29][2.80,3.82][2.55,3.67]<br />

[1.75,6.78][2.22,2.88][0.58,1.61][0.65,1.45][0.00,0.63][0.79,1.76][3.00,4.12][2.76,3.93]<br />

[1.85,7.21][2.00,2.80][0.18,1.30][0.34,1.29][0.79,1.76][0.00,0.86][2.16,3.29][2.05,3.18]<br />

[4.11,8.69][3.98,4.96][2.57,3.57][2.80,3.82][3.00,4.12][2.16,3.29][0.00,0.95][0.10,1.56] ⎥<br />

⎦<br />

[3.70,8.70][3.57,4.76][2.33,3.40][2.55,3.67][2.76,3.93][2.05,3.18][0.10,1.56][0.00,1.24]<br />

(5.11)<br />

En utilisant notre algorithme INTERSCAL nous obt<strong>en</strong>ons le plan principal représ<strong>en</strong>té sur<br />

la Figure 5.3.<br />

Si on emploie l’analyse <strong>en</strong> <strong>com</strong>posantes principales des somm<strong>et</strong>s avec les données des<br />

huiles <strong>et</strong> des graisses prés<strong>en</strong>tées dans le Tableau 5.1, on obti<strong>en</strong>t le résultat qui est montré<br />

dans la Figure 5.4.<br />

La structure de groupe obt<strong>en</strong>ue dans la Figure 5.3 <strong>et</strong> dans la Figure 5.4 sont similaires<br />

parce que les groupes sont semblables <strong>et</strong> les tailles des rectangles sont proportionnelles.<br />

Ainsi l’interprétation des deux graphiques sera presque id<strong>en</strong>tique.


L’analyse des tableaux de proximités de type intervalle 150<br />

Figure 5.3: Plan principal de données des huiles <strong>et</strong> des graisses <strong>en</strong> utilisant l’algorithme<br />

INTERSCAL.<br />

Figure 5.4: Le plan principal symbolique avec la méthode des c<strong>en</strong>tres dual.<br />

5.4.2 Exemple de jugem<strong>en</strong>ts de rectangles<br />

Les deuxièmes données que nous avons considérés se <strong>com</strong>pos<strong>en</strong>t des jugem<strong>en</strong>ts de la<br />

dissemblance des rectangles de différ<strong>en</strong>te aire <strong>et</strong> rapport haut–large, jugés par 16 suj<strong>et</strong>s.


L’analyse des tableaux de proximités de type intervalle 151<br />

Ces données ont été prés<strong>en</strong>tées dans un papier sur la méthode de l’analyse des tableaux<br />

de dissimilarités contrainte ([74, Winsberg <strong>et</strong> De So<strong>et</strong>e, 1997]). D’autres chercheurs ont<br />

regardé les rectangles, cep<strong>en</strong>dant, <strong>en</strong> général, ils ont limité leur att<strong>en</strong>tion aux rectangles<br />

où la hauteur est plus grande que la largeur ou vice versa. C<strong>et</strong> <strong>en</strong>semble de données inclut<br />

tous les deux, des rectangles dont la hauteur est plus grande que la largeur <strong>et</strong> vice versa.<br />

Dans une étude des données de dominance de rectangle discutées par [14, Carroll (1972)]<br />

la dim<strong>en</strong>sion de cons<strong>en</strong>sus a assez bi<strong>en</strong> correspondu à la taille; mais il était égalem<strong>en</strong>t clair<br />

dans ce cas que les suj<strong>et</strong>s chang<strong>en</strong>t considérablem<strong>en</strong>t quant à ce que ils signifi<strong>en</strong>t par taille.<br />

Quelques suj<strong>et</strong>s ont égalisé la taille à la hauteur, quelques uns à l’aire, d’autres à la largeur,<br />

<strong>et</strong> finalem<strong>en</strong>t quelques uns au rapport hauteur–largeur. Quand [74, Winsberg <strong>et</strong> De So<strong>et</strong>e,<br />

1997] ont analysé leurs données pour les 16 suj<strong>et</strong>s, pris <strong>en</strong>semble, trois dim<strong>en</strong>sions ont<br />

été récupérés: la première était l’aire, qui se relie à la taille; la deuxième dim<strong>en</strong>sion était<br />

le rapport de hauteur–largeur, avec des valeurs récupérées tombant ess<strong>en</strong>tiellem<strong>en</strong>t dans<br />

trois catégories, selon si le rapport de hauteur–largeur était plus grand qu’un, égale à<br />

un, ou moins d’un, qui se relie à la position du rectangle, (haut–bas); la troisième était<br />

le rapport de hauteur–largeur, ou alternativem<strong>en</strong>t rapport de largeur–hauteur, tels que la<br />

valeur était inférieure ou égale à un, c’est–à–dire de forme carrée. Ainsi, la première<br />

dim<strong>en</strong>sion se relie à la taille, <strong>et</strong> les deux autres dim<strong>en</strong>sions se reli<strong>en</strong>t à la forme. Trois<br />

classes lat<strong>en</strong>tes ont été trouvées dans l’analyse de CLASCAL [75, Winsberg <strong>et</strong> De So<strong>et</strong>e,<br />

1993]. La différ<strong>en</strong>ce parmi les classes était principalem<strong>en</strong>t due à la façon dont ils ont pesé<br />

la dim<strong>en</strong>sion deux.<br />

Notre solution INTERSCAL, pour ces données, récupère les mêmes trois dim<strong>en</strong>sions.<br />

Les Figures 5.5 <strong>et</strong> 5.6 montr<strong>en</strong>t les résultats. La deuxième dim<strong>en</strong>sion sépare les rectangles<br />

dont la hauteur est inférieure à leur largeur dans la partie dessus de la Figure 5.5, de ceux<br />

dont la hauteur est plus grande que leur largeur dans la partie dessous de la Figure 5.5. La<br />

dim<strong>en</strong>sion un est liée à la forme carrée, c’est le rapport de largeur–hauteur ou le rapport<br />

de hauteur–largeur, n’importe lequel est inférieur à un. Les rectangles qui sont presque


L’analyse des tableaux de proximités de type intervalle 152<br />

Figure 5.5: Rectangles dont la hauteur est inférieure à leur largeur du côté droit.<br />

carrés sont dans le côté droit de la Figure 5.5. La troisième dim<strong>en</strong>sion est liée à la taille<br />

ou à l’aire avec les rectangles plus p<strong>et</strong>its apparaissant sur le dessus de la Figure 5.6.<br />

Figure 5.6: a troisième dim<strong>en</strong>sion s’est reliée à la taille ou à l’aire des rectangles avec les<br />

plus p<strong>et</strong>its apparaissant sur le dessus.


L’analyse des tableaux de proximités de type intervalle 153<br />

Notez que chaque object symbolique est représ<strong>en</strong>té <strong>com</strong>me un hypercube de trois dim<strong>en</strong>sions.<br />

Ainsi pour le rectangle numéro huit on a que a(w) = [Y 1 (w) ⊆ [4.43, 7.22]] ∧<br />

[Y 2 (w) ⊆ [−35.12, −14.94]] ∧ [Y 3 (w) ⊆ [−0.05, 0.49]]. Les rectangles “psychologiques”<br />

occup<strong>en</strong>t un hypercube de sorte que pour le rectangle object symbolique physique numéro<br />

huit, le modèle de l’obj<strong>et</strong> psychologique correspondant est l’obj<strong>et</strong> symbolique avec une<br />

conjonction de trois attributs, chacun décrit par un intervalle, un intervalle pour haut–<br />

bas [4.43, 7.22], un intervalle pour la forme carrée [−35.12, −14.94], (largeur–hauteur ou<br />

hauteur–largeur n’importe lequel est inférieur à un), <strong>et</strong> un intervalle pour l’aire ou la taille<br />

[−0.05, 0.49]. Notez que haut–bas n’est pas localisé avec précision. Il est représ<strong>en</strong>té<br />

par un intervalle pour chaque obj<strong>et</strong> symbolique, quoique les rectangles “physiques” <strong>en</strong>tr<strong>en</strong>t<br />

dans trois catégories sur c<strong>et</strong>te variable c’est–à–dire, vers le haut, (la hauteur est plus<br />

grande que la largeur), vers le bas (la largeur est plus grande que la hauteur), ou ni l’un ni<br />

l’autre, (le rectangle est carré). Le haut–bas n’est pas localisé avec précision pour chaque<br />

rectangle “psychologique”, parce que pour certains des juges, c<strong>et</strong>te dim<strong>en</strong>sion était plus<br />

importante que pour d’autres <strong>en</strong> faisant les jugem<strong>en</strong>ts de dissimilitude, occasionn<strong>en</strong>t que<br />

la distance <strong>en</strong>tre les rectangles hauts <strong>et</strong> les rectangles bas être un intervalle. Notez que la<br />

taille de c<strong>et</strong> intervalle est plus p<strong>et</strong>ite pour ces rectangles qui sont plus presque carré, celui<br />

est ces rectangles dessous de la Figure 5.5.<br />

Ces résultats sont conformes aux résultats des analyses prés<strong>en</strong>tées dans [74, Winsberg<br />

<strong>et</strong> De So<strong>et</strong>e, 1997]. En plus, c<strong>et</strong>te nouvelle technique indique précisém<strong>en</strong>t <strong>com</strong>m<strong>en</strong>t les<br />

rectangles sont localisés dans l’espace. Nous avons obt<strong>en</strong>u <strong>com</strong>me résultat intéressant que<br />

la taille de l’hypercube occupé par un rectangle est inversem<strong>en</strong>t lié à son aire (r = −0.72).<br />

Ceci indique qu’il est plus facile que les suj<strong>et</strong>s distingu<strong>en</strong>t des rectangles plus grands les<br />

uns des autres qu’il doit faire ainsi pour des rectangles plus p<strong>et</strong>its.


Le programme INTERSCAL 154<br />

5.5 Le programme de l’algorithme INTERSCAL<br />

L’interface du programme est prés<strong>en</strong>tée dans la Figure (A.9). Avec le premier bouton<br />

de la barre à outils il est possible de démarrer le programme avec un tableau de données<br />

symbolique, puis le programme calcule la matrice de dissimilitudes ∆ <strong>en</strong> utilisant les<br />

équations (5.12) <strong>et</strong> (5.13), <strong>et</strong> avec le deuxième bouton de la barre à outils le programme<br />

démarre directem<strong>en</strong>t avec la matrice de dissimilarités.<br />

Proposition 10 [22, D<strong>en</strong>œux <strong>et</strong> Masson (1999)] Soi<strong>en</strong>t R Si<br />

l’hypercube défini dans R n<br />

par l’obj<strong>et</strong> symbolique S i <strong>et</strong> R Sj l’hypercube défini dans R n par l’obj<strong>et</strong> symbolique S j .<br />

Soi<strong>en</strong>t d ij <strong>et</strong> d ij le minimum <strong>et</strong> le maximum distance euclidi<strong>en</strong>nes <strong>en</strong>tre R Si <strong>et</strong> R Sj , alors:<br />

d ij = 1 ∑<br />

√ n [<br />

(xik ) )<br />

− x ik +<br />

(x jk − x jk + 2<br />

x ik + x ik<br />

2<br />

∣ 2<br />

k=1<br />

d ij = 1 [ n∑ √<br />

( ) )<br />

xik − x ik +<br />

(x jk − x jk − 2<br />

4<br />

∣<br />

k=1<br />

( ) )<br />

∼<br />

∣ xik − x ik +<br />

(x jk − x jk − 2<br />

∣<br />

x ik + x ik<br />

2<br />

x ik + x ik<br />

2<br />

− x jk + x jk<br />

2<br />

− x jk + x jk<br />

2<br />

− x jk + x jk<br />

2<br />

2<br />

∣<br />

∣]<br />

(5.12)<br />

∣ − ∼<br />

2 ∣<br />

∣∣] (5.13)


Conclusion 155<br />

Conclusion<br />

En ce qui concerne la classification, nous avons proposé deux algorithmes qui construis<strong>en</strong>t<br />

une pyramide symbolique à partir d’une matrice de données symboliques. Le premier<br />

algorithme donne un ordre total <strong>com</strong>patible avec la pyramide de n obj<strong>et</strong>s, alors que<br />

le deuxième construit la pyramide à partir d’un ordre donné (a priori) sur les obj<strong>et</strong>s. Ces<br />

deux algorithmes, <strong>en</strong> plus de construire la pyramide, trouv<strong>en</strong>t pour chaque palier l’obj<strong>et</strong><br />

symbolique associé, son ext<strong>en</strong>sion <strong>et</strong> vérifi<strong>en</strong>t sa <strong>com</strong>plétude. Les deux algorithmes peuv<strong>en</strong>t<br />

égalem<strong>en</strong>t construire une pyramide même si le tableau de données symboliques a des<br />

variables de type intervalle, quantitatives discrètes ou de type histogramme.<br />

En ce qui concerne les modèles linéaires, nous avons généralisé au cas symbolique certains<br />

des indicateurs de la statistique d’une variable <strong>et</strong> de deux variables, <strong>com</strong>me par exemple:<br />

la moy<strong>en</strong>ne, l’écart type <strong>et</strong> la corrélation, <strong>en</strong>tre autres. Nous avons généralisé<br />

d’une part la méthode classique de la régression simple au cas des données symbol-


Conclusion 156<br />

iques de type intervalle, <strong>et</strong> puis la méthode de l’<strong>Analyse</strong> <strong>en</strong> Composantes Principales<br />

des données de type intervalle dans deux s<strong>en</strong>s: d’abord, nous avons étudié le problème<br />

de la dualité pour le cas de l’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des données de<br />

type intervalle <strong>et</strong> puis nous avons proposé trois manières de proj<strong>et</strong>er les variables de type<br />

intervalle dans le cercle des corrélations. En suite, nous avons proposé une méthode pour<br />

l’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des données de type histogramme. Enfin, nous<br />

avons généralisé la méthode classique de l’analyse des tableaux de dissimilarités pour les<br />

disimilarités de type intervalle.<br />

Nous avons proposé plusieurs algorithmes:<br />

• Les algorithmes CAPS <strong>et</strong> CAPSO qui produis<strong>en</strong>t une pyramide symbolique <strong>et</strong> qui<br />

sont une généralisation de l’algorithme CAP proposé par Diday.<br />

• Trois algorithmes différ<strong>en</strong>ts pour appliquer l’analyse <strong>en</strong> <strong>com</strong>posantes principales<br />

à tableaux des données avec des variables de type intervalle. Le dernier de ces<br />

algorithmes est optimal <strong>en</strong> temps d’exécution grâce à l’utilisation des relations de<br />

dualité.<br />

• Trois algorithmes différ<strong>en</strong>ts pour la régression simple pour des données de type intervalle:<br />

l’algorithme Maximum–Minimum, l’algorithme Inférieur–Haut <strong>et</strong> l’algorithme<br />

des–Somm<strong>et</strong>s.<br />

• L’algorithme pour l’analyse des tableaux de dissimilarités des données de type intervalle,<br />

qui est dénommé INTERSCAL.<br />

De plus, nous avons mis <strong>en</strong> application un logiciel pour chacun des algorithmes proposés<br />

dans c<strong>et</strong>te thèse. Des programmes ont été mis <strong>en</strong> application pour la classification<br />

pyramidale symbolique, l’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des données de type<br />

intervalle, l’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des données de type histogramme,


Conclusion 157<br />

l’algorithme INTERSCAL pour la méthode d’analyse des tableaux de proximités de type<br />

intervalle <strong>et</strong> pour la régression linéaire symbolique.<br />

Les perpectives du développem<strong>en</strong>t de l’analyse des données symbolique sont énormes, <strong>en</strong><br />

ce qui concerne le développem<strong>en</strong>t de nouvelles techniques de l’analyse des données symboliques<br />

ainsi que le développem<strong>en</strong>t des algorithmes <strong>et</strong> du logiciel. En ce qui concerne<br />

les méthodes étudiées dans c<strong>et</strong>te thèse, il y a beaucoup d’aspects à développer, <strong>com</strong>me<br />

par exemple:<br />

• L’élimination des paliers inutiles ou superflus dans les pyramides symboliques.<br />

• L’étude du cons<strong>en</strong>sus parmi les pyramides symboliques <strong>et</strong> la mise au point d’algorithmes<br />

de cons<strong>en</strong>sus.<br />

• En ce qui concerne l’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des données de type<br />

histogramme, la construction des cercles de corrélation.<br />

• Dans l’analyse factorielle, la généralisation de l’analyse factorielle des correspondances<br />

au cas de variables qualitatives <strong>en</strong>semble–évalué (s<strong>et</strong>–value).<br />

• Concernant la régression, il y a beaucoup de choses qui devrai<strong>en</strong>t être faites, par<br />

exemple: la régression sur les variables nominales <strong>en</strong>semble–évalué, les tests symboliques<br />

<strong>et</strong> l’étude de la qualité de l’ajustem<strong>en</strong>t.<br />

• Dans l’analyse des tableaux de dissimilarités pour les dissimilarites de type intervalle,<br />

il reste à étudier les modèles à trois indices, la spécificité <strong>et</strong> la généralisation<br />

de l’analyse des tableaux de dissimilarités pour les dissimilarités de type histogramme.<br />

De même, il reste à ét<strong>en</strong>dre l’étude au cas de la minimization d’un critère numérique<br />

par l’utilisation d’une technique d’optimisation telle que le recuit simulé, la recherche<br />

tabou ou la majorisation.


Bibliography<br />

[1] Aude J.C. <strong>Analyse</strong> de génomes microbi<strong>en</strong>s: Apports de la classification pyramidale.<br />

Thèse de doctorat, Université Paris IX Dauphine, 1999.<br />

[2] Bertrand P. Etude de la représ<strong>en</strong>tation pyramidale, Thèse de 3 cycle, Université<br />

Paris IX-Dauphine, 1986.<br />

[3] Bertrand P. <strong>et</strong> Diday E. Une géneralisation des arbres hiérarchiques: Les<br />

représ<strong>en</strong>tations pyramidales, Statistique Appliquée, Vol. 3, 53-78, 1990.<br />

[4] Bertrand P. <strong>et</strong> Goupil F. Descriptive statistics for symbolic data, In: Symbolic official<br />

data analysis, Springer, 103-124, 1999.<br />

[5] Billard L. and Diday E. Regression analysis for interval–value data, In data analysis,<br />

classification and related m<strong>et</strong>hods, Eds. Kiers H., Rasson J., Gro<strong>en</strong><strong>en</strong> P. and<br />

Schader M., IFCS 2000.<br />

[6] Borg I. and Gro<strong>en</strong><strong>en</strong> P. Modern Multidim<strong>en</strong>sional Scaling – Theory and Applications,<br />

Springer–Verlag, New York, 1997.<br />

[7] Bock H-H. and Diday E. (eds.) Analysis of Symbolic Data. Exploratory m<strong>et</strong>hods for<br />

extracting statistical information from <strong>com</strong>plex data. Springer Verlag, Heidelberg,<br />

425 pages, 2000.<br />

158


Bibliographie 159<br />

[8] Bravo C. Strata decision tree SDA software, In data analysis, classification and<br />

related m<strong>et</strong>hods, Eds. Kiers H., Rasson J., Gro<strong>en</strong><strong>en</strong> P. and Schader M., IFCS 2000.<br />

[9] Brito P. <strong>Analyse</strong> de données symboliques: Pyramides d’héritage, Thèse de doctorat,<br />

Université Paris IX Dauphine, 1991.<br />

[10] Brito P. Symbolic pyramidal clustering, Indo–Fr<strong>en</strong>ch Workshop on symbolic data<br />

analysis ans its applications, Université Paris 9 Dauphine, 1997.<br />

[11] Brito P., Diday E. y Rodríguez O. Algoritmos para la Clasificación Piramidal Simbólica.<br />

Por aparecer <strong>en</strong> Revista de Matemática: Teoría y Aplicaciones, Universidad<br />

de Costa Rica, 2000.<br />

[12] Brito P. Galois correspondances in symbolic data analysis. Fac. Economia, Univ.<br />

Porto, Portugal, 1999.<br />

[13] Bry X. <strong>Analyse</strong>s factorielles simples, Ed. Economica, Paris, 1995.<br />

[14] Carroll J.D. Individual Differ<strong>en</strong>ces and Multidim<strong>en</strong>sional Scaling. in Multidim<strong>en</strong>sional<br />

Scaling Theory and Applications in the Behavioral Sci<strong>en</strong>ces, vol I, Theory,<br />

New York: Seminar Press, 1972.<br />

[15] Casin P. <strong>Analyse</strong> des données <strong>et</strong> des panels de données, Ed. DeBoech Université,<br />

Paris, 1999.<br />

[16] Cazes P., Chouakria A., Diday E. <strong>et</strong> Schektman Y. Ext<strong>en</strong>sion de l’analyse <strong>en</strong> <strong>com</strong>posantes<br />

principales à des données de type intervalle, Rev. Statistique Appliquée,<br />

Vol. XLV Num. 3 pag. 5-24, Francia, 1997.<br />

[17] Chouakria A. Ext<strong>en</strong>sion des méthodes d’analyse factorielle à des données de type<br />

intervalle, Thèse de doctorat, Université Paris IX Dauphine, 1998.<br />

[18] Coad P. and Yourdon E. Object-Ori<strong>en</strong>ted analysis, Yourdon Press,Texas USA,<br />

1991.


Bibliographie 160<br />

[19] Coad P. and Yourdon E. Object-Ori<strong>en</strong>ted design, Yourdon Press,Texas USA, 1991.<br />

[20] Cox T. and Cox M. Multidim<strong>en</strong>sional Scaling, Chapman and Hall, New York, 1994.<br />

[21] De Carvalho F.A.T. Proximity coeffici<strong>en</strong>ts b<strong>et</strong>we<strong>en</strong> boolean symbolic objects, in<br />

New Approaches in <strong>Classification</strong> and Data Analysis. E. Diday <strong>et</strong> al. edit. pp. 387-<br />

394. Springer–Verlag, 1994.<br />

[22] D<strong>en</strong>oeux T. and Masson M. Multidim<strong>en</strong>sional Scaling of interval–valued dissimilarity<br />

data. Université de Technologie de Compiègne, France, 1999.<br />

[23] Diday E., Emilion R. Lattices and Capacities in Analysis of Probabilist Objects.<br />

OSDA’95. Springer Verlag, 1996.<br />

[24] Diday E., Emilion R., Hillali Y. Symbolic Data Analysis of Probabilistic objects<br />

by capacities and credibilities. Atti della XXXVIII. Riunione Soci<strong>et</strong>à Italiana Di<br />

Statistica. Rimini, 1996.<br />

[25] Diday E., Emilion R. Stochastic Lattices Proc. of the Int. Conf. on Ordinal and<br />

Symbolic Data Analysis. Edit.: Technische Hochschule Darmstadt, Fachbereich<br />

Mathematik, Darmstadt D-64289, 1997.<br />

[26] Diday E., Emilion R. A mesure que la connaissance des obj<strong>et</strong>s s’améliore, les<br />

concepts s’organis<strong>en</strong>t se précis<strong>en</strong>t <strong>et</strong> se stabilis<strong>en</strong>t. Actes des Journées de la Société<br />

francophone de classification. Lyon, 1997.<br />

[27] Diday E., Emilion R. Treillis de Galois maximaux <strong>et</strong> Capacités de Choqu<strong>et</strong>. CR<br />

Acad. Sci. Paris. <strong>Analyse</strong> Mathématique, t. 324, série 1, 1997.<br />

[28] Diday E. Une représ<strong>en</strong>tation visuelle des classes empiétantes. Rapport INRIA n.<br />

291. Rocqu<strong>en</strong>court 78150, France, 1984.<br />

[29] Diday E. Lemaire J., Poug<strong>et</strong> J., Testu F. Elém<strong>en</strong>ts d’<strong>Analyse</strong> des Données. Dunod,<br />

Paris, 1984.


Bibliographie 161<br />

[30] Diday E. Introduction à l’approche symbolique <strong>en</strong> <strong>Analyse</strong> des Donnés. Premières<br />

Journées Symbolique-Numérique. Université Paris IX Dauphine. Décembre 1987.<br />

[31] Diday E. Introduction à l’approche symbolique <strong>en</strong> analyse des données. RAIRO<br />

(Revue d’Automatique, d’Informatique <strong>et</strong> de Recherche Opérationnelle), vol. 23,<br />

num. 2, 1989.<br />

[32] Diday, E. Des obj<strong>et</strong>s de l’analyse des données à ceux de l’analyse des connaissances.<br />

In: Y. Kodratoff and E. Diday (eds.), 9-75, 1991.<br />

[33] Diday, E. An introduction to symbolic data analysis. Tutorial of the 4th Confer<strong>en</strong>ce<br />

of IFCS, Paris. Report INRIA no. 1936. Paris, 1993.<br />

[34] Diday, E. Probabilist, possibilist and belief objects for knowledge analysis. Annals<br />

of Operations Research 55, 227-276, 1995.<br />

[35] Diday, E. From data to knowledge: Probabilistic objects for a symbolic data analysis.<br />

In: DIMACS Series in Discr<strong>et</strong>e Mathematics and Theor<strong>et</strong>ical Computer Sci<strong>en</strong>ce<br />

19, 1995.<br />

[36] Diday, E. Extracting information from multivalued surveys or from very ext<strong>en</strong>sive<br />

data s<strong>et</strong>s by symbolic data analysis. In: A. Ferligoj (ed.): Advances in m<strong>et</strong>hology,<br />

data analysis and statistics. M<strong>et</strong>hodoloski zveski 14, FDV, Ljubljana, 1996.<br />

[37] Diday, E. Symbolic data analysis: A mathematical framework and tool for data<br />

mining. In: A. Rizzi, M. Vichi, H.H. Bock (eds.) (1998): Advances in data sci<strong>en</strong>ce<br />

and classification. Proc. 6th Conf of the International Federation of <strong>Classification</strong><br />

Soci<strong>et</strong>ies (IFCS-98), Rome, July 1998. Springer Verlag, Heidelberg, 1998,409-416,<br />

1998.<br />

[38] Diday E. L’<strong>Analyse</strong> des Données Symboliques: un cadre théorique <strong>et</strong> des outils.<br />

Cahiers du CEREMADE, 1998.


Bibliographie 162<br />

[39] Diday E. An Introduction to symbolic data analysis ans its application to the SO-<br />

DAS project: purpose, history and perspective, Paris IX–University Dauphine,<br />

Paris, 1999.<br />

[40] Diday E. and Bisdorff R. Symbolic data analysis and the SODAS software in official<br />

statistics, In: data analysis, classification and related m<strong>et</strong>hods, Eds. Kiers H.,<br />

Rasson J., Gro<strong>en</strong><strong>en</strong> P. and Schader M., IFCS 2000.<br />

[41] Diday E. and Rodríguez, O. (eds.) Workshop on Symbolic Data Analysis. PKDD–<br />

Lyon, 2000.<br />

[42] Diday E. Obj<strong>et</strong>os probabilísticos, posibilísticos y cre<strong>en</strong>cia para el análisis de<br />

conocimi<strong>en</strong>tos. Simposios VII y VIII de métodos matemáticos aplicados a las ci<strong>en</strong>cias.<br />

Ed. Universidad de Costa Rica, Eds Castillo W. y Trejos J., San José, Costa<br />

Rica, 1994.<br />

[43] G<strong>et</strong>tler Summa M. Factorial axis interpr<strong>et</strong>ation by symbolic objects, Actes des<br />

Journées Symbolique-Numérique, Ed. E. Diday, Y. Kodratoff, S. Pinson. Editeurs<br />

Univ. Paris IX–Dauphine.<br />

[44] Gil A., Capdevila C. and Arcas A. On the effici<strong>en</strong>cy and s<strong>en</strong>sitivity of a pyramidal<br />

classification algorithm, Economics working paper 270, Barcelona, 1998.<br />

[45] Gower, J. C. Some distances properties of lat<strong>en</strong>t root and vector m<strong>et</strong>hods using<br />

multivariate analysis. Biom<strong>et</strong>rika, 53, 325–338, 1966.<br />

[46] Gowda C., Diday E. Symbolic clustering using a new dissimilarity measure, Pattern<br />

Recognition, Vol. 24, num. 6, 1991.<br />

[47] Gowda C., Diday E., A new similarity measure for clustering Hoard and Synth<strong>et</strong>ic<br />

type of symbolic objects, IEEE Trans. Pattern Analysis and Machine Intellig<strong>en</strong>ce,<br />

Vol. 22, n2, 368-378, 1992.


Bibliographie 163<br />

[48] Gre<strong>en</strong>acre M. J. Theory and applications of correspond<strong>en</strong>ce analysis, Academic<br />

Press, New York, 1984.<br />

[49] Hébrail G. and Lechevallier Y. DB2SO A software for building symbolic objects<br />

from databases, In: Data analysis, classification and related m<strong>et</strong>hods, Eds. Kiers<br />

H., Rasson J., Gro<strong>en</strong><strong>en</strong> P. and Schader M., IFCS 2000.<br />

[50] Ichino M. G<strong>en</strong>eralized Minkowsky m<strong>et</strong>rics for mixed features type data analysis.<br />

IEEE, transactions on systems, man and cybern<strong>et</strong>ics, vol. 24, num 4, 1994.<br />

[51] Lauro C., Verde, R. and Palumbo, F. Factorial Discriminant Analysis on Symbolic<br />

Objects. In Bock, H. H. and Diday E. (eds). Analysis of Symbolic Data, Springer<br />

Verlag, Heidelberg, 1999.<br />

[52] Lauro C., Verde, R. and Palumbo, F. Factorial M<strong>et</strong>hods with Cohesion Constrainsts<br />

on Symbolic Objects. In: Data analysis, classification and related m<strong>et</strong>hods, Eds.<br />

Kiers H., Rasson J., Gro<strong>en</strong><strong>en</strong> P. and Schader M., IFCS 2000.<br />

[53] Lebart L., Morineau A., Piron M. Statistique Exploratoire Multidim<strong>en</strong>sionnelle,<br />

Dunod, Paris, 1995.<br />

[54] Lécluse, Richard y Velez. un modelo de datos ori<strong>en</strong>tado a obj<strong>et</strong>os, IEEE <strong>com</strong>puter,<br />

vol 25, No. 10, octuber 1992.<br />

[55] Mfoumoune E. Les aspects algorithmiques de la classification asc<strong>en</strong>dante pyramidale<br />

<strong>et</strong> incrém<strong>en</strong>tale. Thèse de doctorat, Université Paris IX Dauphine, 1998.<br />

[56] Rodríguez, O., Introducción a la programación C++ para ambi<strong>en</strong>te Windows. Editorial<br />

Tecnológica de Costa Rica, Cartago, Costa Rica, 1997.<br />

[57] Rodríguez O., Desarrollo ori<strong>en</strong>tado a obj<strong>et</strong>os: una aplicación al análisis de datos,<br />

Tesis de maestría pres<strong>en</strong>tada <strong>en</strong> el Instituto Tecnológico de Costa Rica, Cartago,<br />

1994.


Bibliographie 164<br />

[58] Rodríguez O., Symbolic correlation circle in principal <strong>com</strong>pon<strong>en</strong>t analysis, IFCS<br />

2000.<br />

[59] Rodríguez O. and Diday E., Symbolic pyramidal clustering: An algorithm and<br />

software, IFCS 2000.<br />

[60] Rodríguez O., Diday E. and Winsberg S., Multidim<strong>en</strong>sional scaling for interval<br />

data, IFCS 2000.<br />

[61] Polaillon G. Organisation <strong>et</strong> interprétation par les treillis de Galois de données de<br />

type multivalué, intervalle ou histogramme. Thèse de doctorat, Université Paris IX<br />

Dauphine, 1998.<br />

[62] Périnel E. Segm<strong>en</strong>tation <strong>et</strong> analyse des données symboliques: application à des<br />

données probabilistes imprécises. Thèse de doctorat, Université Paris IX Dauphine,<br />

1996.<br />

[63] Polaillon G. <strong>et</strong> Diday E., Galois lattices: construction and application in Symbolic<br />

Data Analysis. Cahiers de Mathématiques du CEREMADE N 9631. CEREMADE,<br />

Université Paris 9 Dauphine, 1996.<br />

[64] Saporta G., L’<strong>Analyse</strong> des Données. Que sais-je?. Presses Universitaires de France,<br />

Paris, 1980.<br />

[65] Snyder A. The ess<strong>en</strong>ce of objects: Concepts and terms, IEEE software, vol 10,<br />

No.1, January 1993.<br />

[66] Stéphan V. Description de classes par des assertions Ecole d’été Sept. 1996. Lise-<br />

CEREMADE. Univ. Paris IX Dauphine <strong>et</strong> INRIA (Rocqu<strong>en</strong>court 78150, France),<br />

1996.<br />

[67] Stéphan V. Construction d’objects symboliques par synthèse des résultats de<br />

requêtes SQL. Th`‘ese de doctorat, Université Paris IX Dauphine, 1998.


Bibliographie 165<br />

[68] Stéphan V., Hébrail G., Lechevallier Y. Improving symbolic descriptions of s<strong>et</strong>s of<br />

individuals: the reduction of assertions. In 8 th intemational symposium on Applied<br />

Stochastic Models and Data Analysis, 407-412, Anacapri, Italy, 1997.<br />

[69] Stéphan V., Hébrail G., Lechevallier Y. G<strong>en</strong>eration of Symbolic Objects from Relational<br />

Databases. In Analysis of Symbolic Data, Exploratory m<strong>et</strong>hods for extracting<br />

statistical information from <strong>com</strong>plex data, Springer-Verlag, 1999.<br />

[70] Torg<strong>en</strong>son W. S. Multidim<strong>en</strong>sional scaling: 1 Theory and m<strong>et</strong>hod, Psychom<strong>et</strong>rika,<br />

17, 401–419, 1952.<br />

[71] Torg<strong>en</strong>son W. S. Theory and m<strong>et</strong>hods of scaling, Wiley, New York, 1958.<br />

[72] Trejos, J. Principios de estadística matemática, Universidad de Costa Rica, San<br />

José, 1998.<br />

[73] Wegner P. Dim<strong>en</strong>sions of Object–Ori<strong>en</strong>ted modeling, IEEE <strong>com</strong>puter, vol 25, No.<br />

10, octuber 1992.<br />

[74] Winsberg, S. and DeSo<strong>et</strong>e, G. Multidim<strong>en</strong>sional scaling with constrained dim<strong>en</strong>sions:<br />

CONSCAL, British Journal of Mathematical and Statistical Psychology , 50,<br />

55-72, 1997.<br />

[75] Winsberg, S. and DeSo<strong>et</strong>e, G. A Lat<strong>en</strong>t class approch to fitting the wighted Euclidean<br />

model, CLASCAL, Psychom<strong>et</strong>rika, 58, 315-331, 1993.<br />

[76] Ziani D. Sélection de variables sur un <strong>en</strong>semble d’obj<strong>et</strong>s symboliques, Thèse, Paris<br />

IX–Dauphine, 1996.


App<strong>en</strong>dix A<br />

Programme Intégré de Méthodes<br />

d’<strong>Analyse</strong> des Données Symboliques<br />

(PIMAD–Symbolique)<br />

Pour chacune des méthodes développées dans c<strong>et</strong>te thèse nous avons mis <strong>en</strong> application<br />

un outil logiciel <strong>en</strong> C++. Des programmes ont été mis <strong>en</strong> application pour la classification<br />

pyramidale symbolique, l’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des données de type<br />

intervalle, l’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des données de type histogramme,<br />

l’algorithme INTERSCAL pour la méthode d’analyse des tableaux de proximités de type<br />

intervalle <strong>et</strong> pour la régression linéare symbolique. Ce logiciel est dénommé “Programme<br />

Intégré de Méthodes d’<strong>Analyse</strong> des Données Symboliques” (PIMAD–Symbolique).<br />

Dans c<strong>et</strong>te annexe nous expliquerons <strong>com</strong>m<strong>en</strong>t installer <strong>et</strong> <strong>com</strong>m<strong>en</strong>t on peut désinstaller<br />

le logiciel PIMAD–Symbolique, nous expliquerons égalem<strong>en</strong>t <strong>en</strong> détail <strong>com</strong>m<strong>en</strong>t chacun<br />

des modules est employé. Pour faciliter l’utilisation des modules, ceux ci ont été conçus<br />

de telle manière que tous soi<strong>en</strong>t employés d’une façon très semblable au moy<strong>en</strong> d’une<br />

barre d’outils.<br />

166


Programme Intégré de Méthodes d’<strong>Analyse</strong> des Données Symboliques 167<br />

A.1 L’installation <strong>et</strong> la désinstallation<br />

Pour installer le logiciel on doit exécuter le programme INSTALL.EXE qui est dans le<br />

disque numéro un, on doit <strong>en</strong>suite continuer les instructions que le programme d’installation<br />

prés<strong>en</strong>te. Quand le logiciel d’installation finit son exécution automatiquem<strong>en</strong>t il installe<br />

dans le m<strong>en</strong>u Démarrer/Programmes de Windows une f<strong>en</strong>être avec les icônes de<br />

chacun des modules de PIMAD–Symbolique, <strong>com</strong>me il est montré dans la Figure A.1.<br />

Pour désinstaller le PIMAD–Symbolique on doit exécuter le programme Desinstall<br />

qui est montré dans Figure A.1.<br />

Figure A.1: PIMAD–Symbolique dans le m<strong>en</strong>u Démarrer de Windows.<br />

A.2 Le module de classification asc<strong>en</strong>dante pyramidale<br />

symbolique<br />

Pour exécuter le module de classification asc<strong>en</strong>dante pyramidale symbolique<br />

on doit cliquer sur l’icône “Pyramidal Clustering” qui est montré dans


Programme Intégré de Méthodes d’<strong>Analyse</strong> des Données Symboliques 168<br />

la Figure A.1. Quand ce programme est exécuté la f<strong>en</strong>être principale qui est montrée sur<br />

la Figure A.2 apparaît. La manière le plus facile d’utiliser tous les modules de PIMAD–<br />

Symbolique est par la barre d’outils, dans le Tableau A.1 on explique la fonction de chacun<br />

des boutons de la barre à outils aussi bi<strong>en</strong> que ses équival<strong>en</strong>ts dans le m<strong>en</strong>u principal.<br />

Figure A.2: F<strong>en</strong>être principal du module de classification asc<strong>en</strong>dante pyramidale symbolique.<br />

Il est important de savoir que le format des dossiers d’<strong>en</strong>trée de PIMAD–Symbolique<br />

est le même qui celui employé par le système SODAS (voir [7, Bock H-H. <strong>et</strong> Diday E.<br />

(2000)]) (excepté le module INTERSCAL d’analyse des tableaux de dissimilarités de<br />

type intervalle).<br />

Le premier <strong>et</strong> les deux derniers boutons du Tableau A.1 sont employés dans tous les<br />

modules de PIMAD–Symbolique. En plus de ces trois boutons, les boutons du Tableau<br />

A.2 sont égalem<strong>en</strong>t employés dans tous les modules de PIMAD–Symbolique, <strong>et</strong> ils sont<br />

employés pour éditer les dossiers d’<strong>en</strong>trée <strong>et</strong> de sortie du logiciel PIMAD–Symbolique.<br />

Le bouton de sélection de variables<br />

est aussi employé dans les modules d’analyse


Programme Intégré de Méthodes d’<strong>Analyse</strong> des Données Symboliques 169<br />

Fonction<br />

Equival<strong>en</strong>ts dans le m<strong>en</strong>u<br />

Ouvrir le tableau de données symbolique<br />

File/Op<strong>en</strong> the Data Table...<br />

Ouvrir la matrice de dissimilarités<br />

File/Op<strong>en</strong> the Matrix of Dissimilarity...<br />

Choisir les variables<br />

<strong>Classification</strong>/Select the Variables<br />

Lire l’ordre initial des obj<strong>et</strong>s symboliques<br />

<strong>Classification</strong>/Read the order<br />

Construire la pyramide (exécuter l’algorithme)<br />

<strong>Classification</strong>/Build the Pyramid...<br />

Graphique la pyramide<br />

<strong>Classification</strong>/Graphic the Pyramid<br />

Changer la taille de la pyramide<br />

Options/Change the Clusters Height<br />

Imprimer le graphique<br />

File/Print Graphic...<br />

Effacer le graphique<br />

<strong>Classification</strong>/Erase the Graphic<br />

Table A.1: Barre d’outils du module de Pyramide.<br />

<strong>en</strong> <strong>com</strong>posantes principales pour des données de type intervalles <strong>et</strong> dans le module de<br />

régression linéaire symbolique. Quand on clique sur ce bouton le programme prés<strong>en</strong>te la<br />

boîte de dialogue qu’on prés<strong>en</strong>te dans la Figure A.3. Pour sélectionner une variable il faut<br />

déplacer la souris sur l’étiqu<strong>et</strong>te de la variable <strong>et</strong> cliquer deux fois. On doit <strong>en</strong>core cliquer<br />

deux fois sur l’étiqu<strong>et</strong>te de la variable pour éliminer la sélection. Les boutons pour ouvrir<br />

le tableau de données symbolique , pour imprimer le graphique , <strong>et</strong> pour effacer le<br />

graphique sont aussi employés dans tous les modules de PIMAD-Symbolique.<br />

A.3 Le module d’analyse <strong>en</strong> <strong>com</strong>posantes principales pour<br />

des données de type intervalle<br />

Pour exécuter le module d’analyse <strong>en</strong> <strong>com</strong>posantes principales pour<br />

des données de type intervalle on doit cliquer sur l’icône “Principal Compon<strong>en</strong>t


Programme Intégré de Méthodes d’<strong>Analyse</strong> des Données Symboliques 170<br />

Fonction<br />

Equival<strong>en</strong>ts dans le m<strong>en</strong>u<br />

Nouveau tableau de données<br />

File/New Data Table<br />

Ouvre un docum<strong>en</strong>t SODAS existant<br />

File/ Op<strong>en</strong> Data Table for Edition<br />

Enregistrer ce docum<strong>en</strong>t<br />

File/Save the Data Table<br />

Imprimer ce docum<strong>en</strong>t<br />

File/Print the Data Table...<br />

Coupe la sélection <strong>et</strong> le m<strong>et</strong> sur le presse–papiers<br />

Edit/Cut<br />

Copie la sélection <strong>et</strong> le m<strong>et</strong> sur le Presse–papiers<br />

Edit/Copy<br />

Insère le cont<strong>en</strong>u du presse-papiers au point de l’insertion<br />

Edit/Paste<br />

R<strong>en</strong>verse la dernière opération<br />

Edit/Undo<br />

Il prés<strong>en</strong>te l’aide<br />

Help/Cont<strong>en</strong>ts<br />

Arrêter le programme<br />

File/Exit<br />

Table A.2: Barre d’outils <strong>com</strong>muns à tous les modules de PIMAD–Symbolique.<br />

Figure A.3: La boîte de dialogue pour la selection de variables.<br />

Analysis” qui est montré dans la Figure A.1. Quand ce programme est exécuté la<br />

f<strong>en</strong>être principal qui est montrée sur la Figure A.4 apparaît. La manière la plus simple<br />

d’utiliser ce module est aussi par la barre d’outils, dans le Tableau A.3 on explique la fonction<br />

de chacun des boutons de la barre d’outils que nous n’avons pas <strong>en</strong>core expliqués, <strong>et</strong>


Programme Intégré de Méthodes d’<strong>Analyse</strong> des Données Symboliques 171<br />

on explique aussi ses équival<strong>en</strong>ts dans le m<strong>en</strong>u principal.<br />

Figure A.4: F<strong>en</strong>être principale du module d’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des<br />

données de type intervalle.<br />

Le module d’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des données de type intervalles a<br />

un m<strong>en</strong>u dénommé “Step-by-Step” au moy<strong>en</strong> duquel on peut exécuter l’algorithme<br />

étape par étape, c’est–à–dire, dans une telle manière que on peut voir <strong>et</strong> <strong>en</strong>registrer dans un<br />

dossier les calculs intermédiaires, tels que la matrice des corrélations, les valeurs propres,<br />

les vecteurs propres, les <strong>com</strong>posantes principales symboliques <strong>et</strong> les corrélations symboliques<br />

<strong>en</strong>tre les variables <strong>et</strong> les <strong>com</strong>posantes. Le module d’analyse <strong>en</strong> <strong>com</strong>posantes principales<br />

pour des données de type intervalle a aussi un m<strong>en</strong>u dénommé “Options/Choose<br />

the M<strong>et</strong>hod” par lequel l’utilisateur peut choisir l’algorithme qu’il veut employer. Si<br />

l’utilisateur choisit c<strong>et</strong>te option le programme lui prés<strong>en</strong>tera la boîte de dialogue qui est<br />

prés<strong>en</strong>té dans la Figure A.5.<br />

Si l’utilisateur choisit “C<strong>en</strong>ter” <strong>et</strong> “Dual” le programme exécutera l’algorithme 4.4<br />

pour calculer les <strong>com</strong>posantes principales symboliques <strong>et</strong> aussi les corrélations sym-


Programme Intégré de Méthodes d’<strong>Analyse</strong> des Données Symboliques 172<br />

Fonction<br />

Equival<strong>en</strong>ts dans le m<strong>en</strong>u<br />

Enregistrer tous les calculs effectués par le système<br />

File/Save in a File the Final Result<br />

Construire <strong>et</strong> dessiner le plan principal<br />

PCA/Principal Plan<br />

Construire <strong>et</strong> dessiner le cercle des corrélations<br />

PCA/Correlation Circle<br />

Calculer les paramètres d’interprétation<br />

PCA/Interpr<strong>et</strong>ation Param<strong>et</strong>ers<br />

Changer la taille du graphique dans l’écran<br />

PCA/Size Change<br />

Table A.3: Barre d’outils du module d’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des<br />

données de type intervalle.<br />

Figure A.5: Boîte de dialogue pour choisir l’algorithme.<br />

boliques <strong>en</strong>tre les <strong>com</strong>posantes principales symboliques <strong>et</strong> les variables, <strong>et</strong> s’il choisit<br />

“C<strong>en</strong>ter” <strong>et</strong> “Definition” alors le programme exécutera l’algorithme 4.4 pour calculer<br />

les <strong>com</strong>posantes principales symboliques <strong>et</strong> l’algorithme 4.1 pour calculer les corrélationes<br />

symboliques <strong>en</strong>tre les <strong>com</strong>posantes principales symboliques <strong>et</strong> les variables. Au contraire,<br />

si l’utilisateur choisit “Top” <strong>et</strong> “Dual” le programme exécutera l’algorithme 3.1


Programme Intégré de Méthodes d’<strong>Analyse</strong> des Données Symboliques 173<br />

prés<strong>en</strong>té dans [16, Cazes, Chouakria, Diday and Schektman (1997)] pour calculer les<br />

<strong>com</strong>posantes principales symboliques <strong>et</strong> l’algorithme 4.5 pour calculer les corrélationes<br />

symboliques <strong>en</strong>tre les <strong>com</strong>posantes principales symboliques <strong>et</strong> les variables, <strong>et</strong> s’il choisit<br />

“Top” <strong>et</strong> “Definition” alors le programme exécutera l’algorithme 3.1 prés<strong>en</strong>té dans<br />

[16, Cazes, Chouakria, Diday and Schektman (1997)] pour calculer les <strong>com</strong>posantes principales<br />

symboliques <strong>et</strong> l’algorithme 4.1 pour calculer les corrélationes symboliques <strong>en</strong>tre<br />

les <strong>com</strong>posantes principales symboliques <strong>et</strong> les variables.<br />

A.4 Le module d’analyse <strong>en</strong> <strong>com</strong>posantes principales pour<br />

des données de type histogramme<br />

Pour exécuter le module d’analyse <strong>en</strong> <strong>com</strong>posantes principales pour<br />

des données de type histogramme on doit cliquer sur l’icône “Histogram Principal<br />

Compon<strong>en</strong>t Analysis” qui est montré dans la Figure A.1. Quand ce programme est<br />

exécuté, la f<strong>en</strong>être principale qui est montrée sur la Figure A.6 apparaît.<br />

Ce module est utilisé de la même manière que le module d’analyse <strong>en</strong> <strong>com</strong>posantes principales<br />

pour des données de type intervalles, on devrait exécuter ce module si on veut<br />

exécuter l’algorithme 4.7. Les données d’<strong>en</strong>trée pour ce module doiv<strong>en</strong>t être dans le<br />

format SODAS, <strong>et</strong> elles peuv<strong>en</strong>t <strong>com</strong>biner les variables de type continu, intervalle <strong>et</strong> de<br />

type histogramme. Si toutes les variables sont de type intervalle le programme produit<br />

la même sortie que le module d’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des données de<br />

type intervalle, parce que l’algorithme 4.7 est une généralisation de l’algorithme 4.2.


Programme Intégré de Méthodes d’<strong>Analyse</strong> des Données Symboliques 174<br />

Figure A.6: F<strong>en</strong>être principale du module d’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des<br />

données de type histogramme.<br />

A.5 Le module de régression linéare symbolique<br />

Pour exécuter le module de régression symbolique simple on doit cliquer<br />

sur l’icône “Linear Regression” qui est montré dans la Figure A.1. Quand ce<br />

programme est exécuté, la f<strong>en</strong>être principale qui est montrée sur la Figure A.7 apparaît.<br />

Avec ce module on peut effectuer la régression symbolique simple <strong>en</strong> utilisant quatre<br />

algorithmes différ<strong>en</strong>ts. Les statistiques descriptives élém<strong>en</strong>taires symboliques définies<br />

par Bertrand <strong>et</strong> Goupil dans ([7, Bock <strong>et</strong> Diday (2000)]) peuv<strong>en</strong>t être calculées avec ce<br />

module <strong>et</strong> on peut aussi calculer les statistiques descriptives élém<strong>en</strong>taires symboliques<br />

(<strong>en</strong>trée <strong>et</strong> sortie symbolique) définies dans le chapitre 3 de c<strong>et</strong>te thèse. La manière la<br />

plus facile d’utiliser ce module est aussi par la barre d’outils, dans le Tableau A.4 on<br />

explique la fonction de chacun des boutons de la barre d’outils que nous n’avons toujours


Programme Intégré de Méthodes d’<strong>Analyse</strong> des Données Symboliques 175<br />

Figure A.7: F<strong>en</strong>être principal du module de régression symbolique simple.<br />

pas expliqués, on explique aussi ses équival<strong>en</strong>ts dans le m<strong>en</strong>u principal.<br />

Pour faire les calculs, d’abord vous devriez sélectionner le dossier de données <strong>en</strong> format<br />

SODAS avec le bouton , alors les variables devrai<strong>en</strong>t être choisies <strong>en</strong> utilisant le bouton<br />

, si on veut calculer la covariance, la corrélation ou faire la régression linéaire on<br />

devrait choisir seulem<strong>en</strong>t deux variables. Pour la régression linéare la variable explicative<br />

devrait être choisie d’abord.<br />

Quand l’utilisateur choisit le bouton pour effectuer la régression linéaire le programme<br />

déploie la boîte de dialogue qui est prés<strong>en</strong>té dans la Figure A.8. À l’aide de c<strong>et</strong>te boîte<br />

de dialogue, l’utilisateur peut choisir un titre pour le graphique, déterminer le nombre de<br />

classes, choisir l’algorithme voulu (parmi les algorithmes prés<strong>en</strong>tés dans le chapitre 2 de<br />

c<strong>et</strong>te thèse) <strong>et</strong> l’utilisateur peut aussi choisir un intervalle de prédiction.


Programme Intégré de Méthodes d’<strong>Analyse</strong> des Données Symboliques 176<br />

Fonction<br />

Equival<strong>en</strong>ts dans le m<strong>en</strong>u<br />

Calcule la moy<strong>en</strong>ne arithmétique<br />

Descriptive-Statistics/Mean<br />

Calcule la médiane<br />

Descriptive-Statistics/Median<br />

Calcule la moy<strong>en</strong>ne des extrêmes<br />

Descriptive-Statistics/Mean of the Extreme Values<br />

Calcule la variance<br />

Descriptive-Statistics/Variance<br />

Calcule l’écart type<br />

Descriptive-Statistics/Standard Deviation<br />

Calcule le coeffici<strong>en</strong>t de variation<br />

Descriptive-Statistics/Coeffici<strong>en</strong>t of Variation<br />

Calcule la déviation moy<strong>en</strong>ne<br />

Descriptive-Statistics/Mean Deviation<br />

Calcule la déviation quartile<br />

Descriptive-Statistics/Deviation Quartil<br />

Produit un histogramme<br />

Descriptive-Statistics/Histogram<br />

Produit un diagramme des barres<br />

Descriptive-Statistics/Polygon of Frequ<strong>en</strong>cies<br />

Produit une boîte de dispersion<br />

Descriptive-Statistics/Dispersion Boxes<br />

Calcule la covariance<br />

Regression/Covariance<br />

Calcule la corrélation<br />

Regression/Correlation<br />

Produit un diagramme de dispersion<br />

Regression/Diagram of Dispersion<br />

Trace la droite de régression<br />

Regression/Linear Regression<br />

Table A.4: Barre d’outils du module de régression linéale symbolique.<br />

A.6 Le module de l’algorithme INTERSCAL pour la méthode<br />

d’analyse des tableaux de proximités de type intervalle<br />

Pour exécuter le module pour l’algorithme INTERSCAL pour la méthode<br />

d’analyse des tableaux de proximités de type intervalle, on doit cliquer sur l’icône<br />

“Multidim<strong>en</strong>sional Analysis” qui est montré dans la Figure A.1. Quand ce programme<br />

est exécuté la f<strong>en</strong>être principale qui est montrée dans la Figure A.9 apparaît.


Programme Intégré de Méthodes d’<strong>Analyse</strong> des Données Symboliques 177<br />

Figure A.8: Options du module de régression.<br />

Ce module est utilisé d’une manière très semblable aux modules d’analyse <strong>en</strong> <strong>com</strong>posantes<br />

principales. Si l’utilisateur ouvre le dossier des données avec le bouton<br />

alors le programme démarre avec un tableau des données symboliques dans le format<br />

SODAS, tout de suite le programme calcule la matrice de disimilarities <strong>en</strong> utilisant les<br />

équations (5.12) <strong>et</strong> (5.13). Au contraire si l’utilisateur charge le dossier des données avec<br />

le bouton , alors le programme exécute l’algorithme INTERSCAL directem<strong>en</strong>t à partir


Programme Intégré de Méthodes d’<strong>Analyse</strong> des Données Symboliques 178<br />

Figure A.9: F<strong>en</strong>être principal du module pour l’algorithme INTERSCAL.<br />

de la matrice des dissimilarités. C<strong>et</strong>te matrice des dissimilarités doit être dans un dossier<br />

ASCII dont le premier nombre doit être un <strong>en</strong>tier M qui indique la quantité de lignes de<br />

la matrice <strong>et</strong> dont le deuxième nombre doit égalem<strong>en</strong>t être un <strong>en</strong>tier qui indique la quantité<br />

de colonnes 2 · N de la matrice. Alors le programme lit M ∗ N distances minimum <strong>et</strong><br />

maximum.<br />

Par exemple, dans le dossier suivant sont <strong>en</strong>registrés le minimum <strong>et</strong> le maximun distances<br />

des parmi 3 obj<strong>et</strong>s symboliques:<br />

3 3<br />

0.0000000 6.5791700 0.6889117 6.7661952 1.3380545 7.1580905<br />

0.6889117 6.7661952 0.0000000 0.8552774 1.5742122 2.3863359<br />

1.3380545 7.1580905 1.5742122 2.3863359 0.0000000 0.8452722


Résumé 179<br />

Résumé<br />

Ce travail s’inscrit dans le cadre de l’analyse de données symbolique. Le but de ce travail<br />

est de généraliser au cas symbolique certaines techniques de la classification automatique,<br />

aussi bi<strong>en</strong> que quelques modèles linéaux. Ces généralisations seront toujours<br />

faites d’après deux principes fondam<strong>en</strong>taux de l’analyse de données symbolique, à savoir:<br />

L’analyse de données classique devrait être toujours un cas particulier de l’analyse de<br />

données symbolique <strong>et</strong> dans une analyse de données symbolique, tant la sortie <strong>com</strong>me<br />

la <strong>en</strong>trée devrai<strong>en</strong>t être symboliques. Nous prés<strong>en</strong>tons deux nouveaux algorithmes, qui<br />

généralis<strong>en</strong>t au cas symbolique de l’algorithme CAP, l’algorithme CAP <strong>et</strong> l’algorithme<br />

CAPSO. Nous généralisons, pour les variables de type intervalle, la moy<strong>en</strong>ne, la médiane,<br />

la moy<strong>en</strong>ne des valeurs extrêmes, l’écart type, la déviation quartile, boîtes de dispersion<br />

(boxplot) <strong>et</strong> la corrélation. Trois nouvelles méthodes sont aussi prés<strong>en</strong>tées pour<br />

effectuer la régression simple pour les variables de type intervalle. Nous ét<strong>en</strong>dons la<br />

méthode d’analyse <strong>en</strong> <strong>com</strong>posantes principales pour données de type histogramme, nous<br />

généralisons le cercle des corrélations au cas des variables de type intervalle. Nous proposons<br />

une méthode pour l’analyse des tableaux de proximités (multidim<strong>en</strong>sional scaling)<br />

pour des données de type intervalle, que nous avons dénommée INTERSCAL. Pour<br />

chacune des méthodes prés<strong>en</strong>tées dans c<strong>et</strong>te thèse un outil de logiciel a été mis <strong>en</strong> application.<br />

Ce logiciel a été dénommé PIMAD-Symbolique (Programme Intégré de<br />

Méthodes d’<strong>Analyse</strong> de Données Symbolique).<br />

Mots–clés: analyse de données symbolique, classification automatique, modèles linéaux,<br />

algorithme, pyramide, intervalle, régression simple, histogramme, Tableaux de proximités,<br />

analyse <strong>en</strong> <strong>com</strong>posantes principales.


Abstract 180<br />

<strong>Classification</strong> and Linear Models in Symbolic Data<br />

Analysis<br />

Abstract<br />

This work is framed inside the symbolic data analysis. The objective of this work is to<br />

g<strong>en</strong>eralize to the symbolic case certain techniques of the automatic classification, as well<br />

as some linear models. These g<strong>en</strong>eralizations will always be made following two fundam<strong>en</strong>tal<br />

principles in Symbolic Data Analysis like they are: Classic Data Analysis should<br />

always be a case particular case of the Symbolic Data Analysis and both, the exit as the<br />

input in an Symbolic Data Analysis should be symbolic. We pres<strong>en</strong>t two new algorithms,<br />

which are a g<strong>en</strong>eralization to the symbolic case of the algorithm CAP. The first of these<br />

two, d<strong>en</strong>ominated CAPS and the second algorithm d<strong>en</strong>ominated CAPSO. We g<strong>en</strong>eralize<br />

for variables of type interval the mean, the median, the mean of the extreme values, the<br />

standard deviation, the deviation quartil, the dispersion boxes and the correlation also<br />

three new m<strong>et</strong>hods are also pres<strong>en</strong>ted to carry out the lineal regression for variables of<br />

type interval. We ext<strong>en</strong>d the m<strong>et</strong>hod of Principal Compon<strong>en</strong>ts Analysis in two s<strong>en</strong>ses:<br />

First, we propose three ways to project the interval variables in the circle of correlations<br />

in such way that is reflected the variation or the inexactness of the variables. Second, we<br />

propose an algorithm to make the Principal Compon<strong>en</strong>ts Analysis for variables of type<br />

histogram. We propose a m<strong>et</strong>hod for multidim<strong>en</strong>sional scaling of interval data, d<strong>en</strong>ominated<br />

INTERSCAL. For each one of the m<strong>et</strong>hods pres<strong>en</strong>ted in this thesis a software tool<br />

was implem<strong>en</strong>ted d<strong>en</strong>ominated PIMAD-Symbolique.<br />

Keywords: symbolic data analysis, automatic classification, linear models, algorithm,<br />

pyramid, interval, lineal regression, Principal Compon<strong>en</strong>ts Analysis, histogram, multidim<strong>en</strong>sional<br />

scaling.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!