Classification et Mod`eles Linéaires en Analyse ... - Youblisher.com
Classification et Mod`eles Linéaires en Analyse ... - Youblisher.com
Classification et Mod`eles Linéaires en Analyse ... - Youblisher.com
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Université Paris IX–Dauphine<br />
U.F.R. Mathématique de la Décision<br />
Thèse<br />
l’obt<strong>en</strong>tion du titre de<br />
Docteur <strong>en</strong> Informatique<br />
Prés<strong>en</strong>tée <strong>et</strong> sout<strong>en</strong>ue par<br />
Oldemar RODRIGUEZ ROJAS<br />
Suj<strong>et</strong> de la Thèse<br />
<strong>Classification</strong> <strong>et</strong> Modèles Linéaires<br />
<strong>en</strong> <strong>Analyse</strong> des Données Symboliques<br />
JURY<br />
Directeur de thèse<br />
Rapporteurs<br />
Suffrageants<br />
Edwin DIDAY<br />
Professeur à l’Université Paris IX–Dauphine, France<br />
Gilbert SAPORTA<br />
Professeur au Conservatoire National des Arts <strong>et</strong> Métiers, France<br />
Suzanne WINSBERG<br />
Professeur à l’Université de Rutgers, Etats–Unis<br />
Paula BRITO<br />
Professeur à l’Université de Porto, Portugal<br />
Pierre CAZES<br />
Professeur à l’Université Paris IX–Dauphine, France<br />
Rosanna VERDE<br />
Professeur à l’Université Federico II, Italie<br />
Prés<strong>en</strong>tée <strong>et</strong> sout<strong>en</strong>ue publiquem<strong>en</strong>t le 14 novembre 2000
Cont<strong>en</strong>ts<br />
Introduction 12<br />
1 Prés<strong>en</strong>tation de l’<strong>Analyse</strong> des Données Symboliques 18<br />
1.1 Données symboliques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />
1.2 Obj<strong>et</strong>s symboliques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21<br />
1.3 Propriétés <strong>et</strong> opérateurs des obj<strong>et</strong>s symboliques . . . . . . . . . . . . . . 23<br />
2 <strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 27<br />
2.1 Définitions préliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . 27<br />
2.2 Algorithme de <strong>Classification</strong> Pyramidale Symbolique . . . . . . . . . . . 32<br />
2.3 Algorithme de <strong>Classification</strong> Pyramidale Symbolique avec Ordre Donné . 45<br />
2.4 Théorèmes de converg<strong>en</strong>ce . . . . . . . . . . . . . . . . . . . . . . . . . 50<br />
2.5 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51<br />
3 La Régression Symbolique 60<br />
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60<br />
2
3<br />
3.2 Statistiques descriptives pour de données symboliques . . . . . . . . . . 61<br />
3.2.1 La moy<strong>en</strong>ne symbolique . . . . . . . . . . . . . . . . . . . . . . 61<br />
3.2.2 La médiane symbolique . . . . . . . . . . . . . . . . . . . . . . 63<br />
3.2.3 Perc<strong>en</strong>tiles symboliques <strong>et</strong> déviation quartile symbolique . . . . . 64<br />
3.2.4 La moy<strong>en</strong>ne symbolique des valeurs extrêmes . . . . . . . . . . . 66<br />
3.2.5 La variance <strong>et</strong> l’écart type symbolique . . . . . . . . . . . . . . . 67<br />
3.2.6 Histogrammes symboliques . . . . . . . . . . . . . . . . . . . . 68<br />
3.2.7 Boîtes de dispersion (Boxplot) . . . . . . . . . . . . . . . . . . . 70<br />
3.2.8 La corrélation symbolique . . . . . . . . . . . . . . . . . . . . . 70<br />
3.3 La régression linéaire symbolique simple . . . . . . . . . . . . . . . . . 80<br />
3.3.1 Modèle de régression simple avec la corrélation empirique . . . . 80<br />
3.3.2 Modèle de régression simple avec la corrélation symbolique maximum<br />
<strong>et</strong> minimum . . . . . . . . . . . . . . . . . . . . . . . . . 81<br />
3.3.3 Modèle de régression symbolique simple avec les points Inférieur–<br />
Supérieur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83<br />
3.3.4 Modèle des somm<strong>et</strong>s pour la régression symbolique simple . . . . 85<br />
4 Le Cercle des Corrélations Symboliques <strong>et</strong> l’<strong>Analyse</strong> <strong>en</strong> Composantes Principales<br />
pour des Données de Type Histogramme 88<br />
4.1 Cercle des corrélations symboliques dans l’analyse <strong>en</strong> <strong>com</strong>posantes principales<br />
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4<br />
4.1.1 Le cercle des corrélations <strong>en</strong> utilisant le coeffici<strong>en</strong>t de la corrélation<br />
symbolique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89<br />
4.1.2 La dualité dans la Méthode des C<strong>en</strong>tres . . . . . . . . . . . . . . 98<br />
4.1.3 La dualité dans la Méthode des Somm<strong>et</strong>s . . . . . . . . . . . . . 116<br />
4.1.4 Les aides symboliques à l’interprétation . . . . . . . . . . . . . . 119<br />
4.1.5 Le logiciel pour l’analyse <strong>en</strong> <strong>com</strong>posantes principales symbolique 124<br />
4.2 Généralisation de l’analyse <strong>en</strong> <strong>com</strong>posantes principales aux données de<br />
type histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126<br />
4.2.1 L’algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126<br />
4.2.2 Exemples d’application . . . . . . . . . . . . . . . . . . . . . . . 132<br />
4.2.3 L’interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . . 134<br />
5 L’<strong>Analyse</strong> Symbolique des Tableaux de Proximités 137<br />
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137<br />
5.2 L’analyse classique des tableaux de dissimilarités . . . . . . . . . . . . . 138<br />
5.3 L’analyse des tableaux de dissimilarités de type intervalle: INTERSCAL 141<br />
5.4 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147<br />
5.4.1 Exemple des huiles <strong>et</strong> des graisses . . . . . . . . . . . . . . . . . 147<br />
5.4.2 Exemple de jugem<strong>en</strong>ts de rectangles . . . . . . . . . . . . . . . . 150<br />
5.5 Le programme de l’algorithme INTERSCAL . . . . . . . . . . . . . . . 154<br />
Conclusion 155
5<br />
A<br />
Programme Intégré de Méthodes d’<strong>Analyse</strong> des Données Symboliques (PIMAD–<br />
Symbolique) 166<br />
A.1 L’installation <strong>et</strong> la désinstallation . . . . . . . . . . . . . . . . . . . . . . 167<br />
A.2 Le module de classification asc<strong>en</strong>dante pyramidale symbolique . . . . . . 167<br />
A.3 Le module d’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des données de<br />
type intervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169<br />
A.4 Le module d’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des données de<br />
type histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173<br />
A.5 Le module de régression linéare symbolique . . . . . . . . . . . . . . . . 174<br />
A.6 Le module de l’algorithme INTERSCAL pour la méthode d’analyse des<br />
tableaux de proximités de type intervalle . . . . . . . . . . . . . . . . . . 176
List of Figures<br />
1 Deux principes fondam<strong>en</strong>taux de l’analyse de données symbolique. . . . 14<br />
2.1 Exemple d’une Pyramide. . . . . . . . . . . . . . . . . . . . . . . . . . . 30<br />
2.2 Pyramide symbolique. . . . . . . . . . . . . . . . . . . . . . . . . . . . 31<br />
2.3 Pyramide <strong>en</strong> construction. . . . . . . . . . . . . . . . . . . . . . . . . . 34<br />
2.4 Pyramide <strong>en</strong> construction. . . . . . . . . . . . . . . . . . . . . . . . . . 37<br />
2.5 Pyramide obt<strong>en</strong>ue après l’union de deux <strong>com</strong>posantes connexes. . . . . . 44<br />
2.6 Pyramide du tableau de données de l’exemple 1.1.1. . . . . . . . . . . . . 52<br />
2.7 Représ<strong>en</strong>tation pyramidale de l’exemple de l’huile <strong>et</strong> la graisse (échelle<br />
modifié). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56<br />
2.8 Représ<strong>en</strong>tation pyramidale de l’exemple de l’huile <strong>et</strong> la graisse (échelle<br />
réelle). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57<br />
2.9 Hiérarchie binaire de l’exemple de l’huile <strong>et</strong> la graisse (échelle modifié). . 58<br />
2.10 Représ<strong>en</strong>tation pyramidale de l’exemple de l’huile <strong>et</strong> la graisse si on a<br />
l’ordre des obj<strong>et</strong>s a priori 7≤6≤5≤1≤2≤4≤3. . . . . . . . . . . . . . . 59<br />
6
7<br />
3.1 L’histogramme symbolique de la variable Y 1 =Systolic–Pressure. . . . . 69<br />
3.2 La boîte de dispersion de la variable Y =Pulse–Rate. . . . . . . . . . . . 71<br />
3.3 X H ou Y H conti<strong>en</strong>n<strong>en</strong>t l’origine. . . . . . . . . . . . . . . . . . . . . . . 75<br />
3.4 Tous les deux X H <strong>et</strong> Y H sont dans le même m–quadrant. . . . . . . . . . 76<br />
3.5 X H <strong>et</strong> Y H sont dans des m–quadrants opposés. . . . . . . . . . . . . . . 77<br />
3.6 X H <strong>et</strong> Y H ne conti<strong>en</strong>n<strong>en</strong>t pas des vecteurs colinéaires <strong>et</strong> ni l’un ni l’autre<br />
X H ou Y H conti<strong>en</strong>t l’origine. . . . . . . . . . . . . . . . . . . . . . . . . 78<br />
3.7 Graphique de régression des variables Systolic–Pressure×Pulse–Rate avec<br />
le modèle de la corrélation empirique. . . . . . . . . . . . . . . . . . . . 82<br />
3.8 Graphique de régression des variables Systolic–Pressure×Pulse–Rate avec<br />
le modèle de la corrélation symbolique maximum <strong>et</strong> minimum. . . . . . . 84<br />
3.9 Graphique de régression des variables Systolic–Pressure×Pulse–Rate avec<br />
le modèle de Inférieur–Supérieur points. . . . . . . . . . . . . . . . . . . 85<br />
3.10 Graphique de régression des variables Systolic–Pressure×Pulse–Rate avec<br />
le modèle des somm<strong>et</strong>s. . . . . . . . . . . . . . . . . . . . . . . . . . . . 87<br />
4.1 Cercle classique des corrélations. . . . . . . . . . . . . . . . . . . . . . . 90<br />
4.2 Cercle des corrélations symbolique. . . . . . . . . . . . . . . . . . . . . 92<br />
4.3 Cercle des corrélations symbolique de “Oils and Fats data” avec la méthode<br />
des c<strong>en</strong>tres. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98<br />
4.4 Cercle des corrélations symbolique de “Oils and Fats data” avec la méthode<br />
des c<strong>en</strong>tres. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
8<br />
4.5 Cercle des corrélations symbolique de “Oils and Fats data” avec la méthode<br />
des somm<strong>et</strong>s. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101<br />
4.6 Projection des variables hypercubes. . . . . . . . . . . . . . . . . . . . . 102<br />
4.7 Le cercle des corrélations symbolique avec le algorithme 4.2. . . . . . . . 110<br />
4.8 Le plan principal symbolique avec la méthode des c<strong>en</strong>tres dual. . . . . . . 110<br />
4.9 Le cercle des corrélations symbolique avec la méthode des c<strong>en</strong>tres <strong>com</strong>m<strong>en</strong>çant<br />
par Z t Z. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114<br />
4.10 Plan principal symbolique avec la méthode des c<strong>en</strong>tres <strong>com</strong>m<strong>en</strong>çant par<br />
Z t Z. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115<br />
4.11 Cercle des corrélations symbolique avec la méthode des somm<strong>et</strong>s. . . . . 120<br />
4.12 La qualité symbolique de S i selon le j–ième axe factoriel. . . . . . . . . 121<br />
4.13 Le plan principal avec des données de type continu, intervalle <strong>et</strong> histogramme.<br />
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133<br />
4.14 La pyramide avec des données de type continue, intervalles <strong>et</strong> histogramme.134<br />
4.15 Tableau des données avec deux individus <strong>et</strong> deux variables de type histogramme.<br />
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135<br />
4.16 TPlan principal du tableau. . . . . . . . . . . . . . . . . . . . . . . . . . 136<br />
5.1 Distances minimum <strong>et</strong> maximum <strong>en</strong>tre les deux hypercubes. . . . . . . . 143<br />
5.2 Distances moy<strong>en</strong>nes parmi les deux hypercubes. . . . . . . . . . . . . . . 144<br />
5.3 Plan principal de données des huiles <strong>et</strong> des graisses <strong>en</strong> utilisant l’algorithme<br />
INTERSCAL. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
9<br />
5.4 Le plan principal symbolique avec la méthode des c<strong>en</strong>tres dual. . . . . . . 150<br />
5.5 Rectangles dont la hauteur est inférieure à leur largeur du côté droit. . . . 152<br />
5.6 a troisième dim<strong>en</strong>sion s’est reliée à la taille ou à l’aire des rectangles avec<br />
les plus p<strong>et</strong>its apparaissant sur le dessus. . . . . . . . . . . . . . . . . . . 152<br />
A.1 PIMAD–Symbolique dans le m<strong>en</strong>u Démarrer de Windows. . . . . . . . . 167<br />
A.2 F<strong>en</strong>être principal du module de classification asc<strong>en</strong>dante pyramidale symbolique.<br />
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168<br />
A.3 La boîte de dialogue pour la selection de variables. . . . . . . . . . . . . 170<br />
A.4 F<strong>en</strong>être principale du module d’analyse <strong>en</strong> <strong>com</strong>posantes principales pour<br />
des données de type intervalle. . . . . . . . . . . . . . . . . . . . . . . . 171<br />
A.5 Boîte de dialogue pour choisir l’algorithme. . . . . . . . . . . . . . . . . 172<br />
A.6 F<strong>en</strong>être principale du module d’analyse <strong>en</strong> <strong>com</strong>posantes principales pour<br />
des données de type histogramme. . . . . . . . . . . . . . . . . . . . . . 174<br />
A.7 F<strong>en</strong>être principal du module de régression symbolique simple. . . . . . . 175<br />
A.8 Options du module de régression. . . . . . . . . . . . . . . . . . . . . . 177<br />
A.9 F<strong>en</strong>être principal du module pour l’algorithme INTERSCAL. . . . . . . . 178
List of Tables<br />
2.1 Tableau des données. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31<br />
3.1 Exemple avec onze pati<strong>en</strong>ts. . . . . . . . . . . . . . . . . . . . . . . . . 65<br />
4.1 Tableau des données “Oils and Fats”. . . . . . . . . . . . . . . . . . . . . 96<br />
4.2 Les corrélations classiques <strong>en</strong>tre le c<strong>en</strong>tre de gravité des variables <strong>et</strong> le<br />
c<strong>en</strong>tre de gravité des <strong>com</strong>posants principales pour la méthode des c<strong>en</strong>tres. 96<br />
4.3 Les corrélations symboliques <strong>en</strong>tre les variables <strong>et</strong> les <strong>com</strong>posants principales<br />
pour la méthode de c<strong>en</strong>tres. . . . . . . . . . . . . . . . . . . . . . . 97<br />
4.4 Les corrélations classiques <strong>en</strong>tre le c<strong>en</strong>tre de gravité des variables <strong>et</strong> le<br />
c<strong>en</strong>tre de gravité des <strong>com</strong>posantes principales pour la méthode des somm<strong>et</strong>s.100<br />
4.5 Les corrélations symbolique <strong>en</strong>tre le c<strong>en</strong>tre de gravité des variables <strong>et</strong> le<br />
c<strong>en</strong>tre de gravité des <strong>com</strong>posantes principales pour la méthode des somm<strong>et</strong>s.100<br />
4.6 Corrélations symboliques <strong>en</strong>tre les variables <strong>et</strong> les <strong>com</strong>posants principales<br />
avec la méthode des c<strong>en</strong>tres <strong>en</strong> employant l’algorithme 4.2. . . . . . . . . 108<br />
4.7 Corrélations classiques <strong>en</strong>tre les variables <strong>et</strong> les <strong>com</strong>posants principales<br />
avec la méthode des c<strong>en</strong>tres. . . . . . . . . . . . . . . . . . . . . . . . . 108<br />
10
11<br />
4.8 Composantes principales avec la méthode des c<strong>en</strong>tres duale. . . . . . . . 109<br />
4.9 Corrélations symboliques <strong>en</strong>tre les variables <strong>et</strong> les <strong>com</strong>posantes principales<br />
avec la méthode des c<strong>en</strong>tres duale. . . . . . . . . . . . . . . . . . . 113<br />
4.10 Corrélations symboliques <strong>en</strong>tre les variables <strong>et</strong> les <strong>com</strong>posantes principales<br />
avec la méthode des somm<strong>et</strong>s. . . . . . . . . . . . . . . . . . . . . 119<br />
5.1 L’<strong>en</strong>semble de données des huiles <strong>et</strong> des graisses. . . . . . . . . . . . . . 148<br />
A.1 Barre d’outils du module de Pyramide. . . . . . . . . . . . . . . . . . . . 169<br />
A.2 Barre d’outils <strong>com</strong>muns à tous les modules de PIMAD–Symbolique. . . . 170<br />
A.3 Barre d’outils du module d’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des<br />
données de type intervalle. . . . . . . . . . . . . . . . . . . . . . . . . . 172<br />
A.4 Barre d’outils du module de régression linéale symbolique. . . . . . . . . 176
Introduction 12<br />
Introduction<br />
Ce travail s’inscrit dans le cadre de l’analyse des données symboliques proposé dans [30,<br />
Diday (1987)],[31, Diday (1989)],[32, Diday (1991)], [33, Diday (1993)], [34, Diday<br />
(1995)], [35, Diday (1995)], [36, Diday (1996)], [38, Diday (1998)],[39, Diday (2000)].<br />
L’analyse des données symboliques est une ext<strong>en</strong>sion de l’analyse de données qui est <strong>en</strong><br />
ce mom<strong>en</strong>t <strong>en</strong> plein développem<strong>en</strong>t. En eff<strong>et</strong>, beaucoup des méthodes, des techniques <strong>et</strong><br />
des algorithmes de l’analyse de données ont été déjà abordés <strong>en</strong> vu de c<strong>et</strong>te ext<strong>en</strong>sion. Par<br />
exemple, nous pouvons m<strong>en</strong>tionner les travaux de [16, Cazes, Chouakria, Diday <strong>et</strong> Schektman<br />
(1997)] qui généralis<strong>en</strong>t l’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des données de<br />
type intervalle, [9, Brito (1991)] <strong>et</strong> [55, Mfoumoune (1998)] dans la classification pyramidale,<br />
les travaux de [76, Ziani (1996)] sur la sélection des variables sur un <strong>en</strong>semble<br />
d’objects symboliques, [21, DeCarvalho (1994)], [46, Gowda <strong>et</strong> Diday (1991)], [47,<br />
Gowda <strong>et</strong> Diday (1992)] pour le calcul des dissimilarités <strong>en</strong>tre les obj<strong>et</strong>s symboliques,<br />
[23, Diday <strong>et</strong> Emilion (1996)] <strong>et</strong> [26, Diday <strong>et</strong> Emilion (1997)] pour la construction des
Introduction 13<br />
histogrammes des capacités, [66, Stéphan (1996)], [67, Stéphan (1998)], [68, Stéphan,<br />
Hébrail <strong>et</strong> Lechevallier, (1997)] <strong>et</strong> [69, Stéphan, Hébrail <strong>et</strong> Lechevallier, (1999)] pour<br />
l’extraction des obj<strong>et</strong>s symboliques à partir d’une base de données, [61, Polaillon (1998)]<br />
pour la construction, l’organisation <strong>et</strong> l’interprétation par les treillis de Galois au cas symbolique,<br />
[51, Lauro, Verde <strong>et</strong> Palumbo (1999)] <strong>et</strong> de [52, Lauro, Verde <strong>et</strong> Palumbo (2000)]<br />
dans des méthodes factorielles pour des données symboliques, parmi beaucoup d’autres.<br />
Nous pouvons aussi citer les études plus réc<strong>en</strong>tes proposées par Diday dans [41, Diday<br />
<strong>et</strong> Rodríguez (2000)] concernant la qualité, la robustesse <strong>et</strong> la fiabilité des obj<strong>et</strong>s symboliques.<br />
Il y a égalem<strong>en</strong>t des avancés importantes <strong>en</strong> ce qui concerne le logiciel pour le traitem<strong>en</strong>t<br />
des données symboliques, par exemple le proj<strong>et</strong> SODAS (voir [7, Bock <strong>et</strong> Diday (2000)]<br />
<strong>et</strong> [40, Diday <strong>et</strong> Bisdorff (2000)]) qui est le résultat de l’effort de 17 équipes europé<strong>en</strong>nes<br />
(patronné par EUROSTAT), le DB2SO qui construit obj<strong>et</strong>s symboliques à partir des bases<br />
de données relationnelles (voir [49, Hébrail <strong>et</strong> Lechevallier (2000)]), “Strata Decision<br />
Tree” (“STA” <strong>et</strong> “STDEDITOR”, voir [8, Bravo (2000)]) <strong>et</strong> [62, Périnel (1996)] dans le<br />
cas d’obj<strong>et</strong>s probabilistes avec des applications médicales, <strong>en</strong>tre autres.<br />
Le but de ce travail est de généraliser au cas symbolique certaines techniques de la classification<br />
automatique, aussi bi<strong>en</strong> que quelques modèles linéaires. Ces généralisations seront<br />
toujours faites d’après deux principes fondam<strong>en</strong>taux de l’analyse de données symbolique,<br />
à savoir (cf. “Knowledge discovery from symbolic data and the SODAS software” dans<br />
[41, Diday <strong>et</strong> Rodríguez (2000)]):<br />
1. L’analyse des données classiques devrait être toujours un cas particulier de l’analyse<br />
des données symboliques.<br />
2. Dans une analyse des données symboliques, tant la sortie <strong>com</strong>me la <strong>en</strong>trée devrai<strong>en</strong>t<br />
être symboliques.
Introduction 14<br />
Ces deux principes sont illustrés dans la Figure 1.<br />
Figure 1: Deux principes fondam<strong>en</strong>taux de l’analyse de données symbolique.<br />
En ce qui concerne la classification automatique, notre objectif spécifique est:<br />
1. Généraliser l’algorithme CAP proposé dans [28, Diday (1984)] de façon à ce que<br />
l’algorithme produise une pyramide symbolique, c’est–à–dire, une pyramide dans<br />
laquelle chaque palier est associé à un obj<strong>et</strong> symbolique <strong>com</strong>pl<strong>et</strong>.<br />
Concernant les modèles linéaires, nos objectifs spécifiques sont:<br />
1. Généraliser la méthode classique de la régression simple au cas des données symboliques<br />
de type intervalle.<br />
2. Généraliser la méthode de l’<strong>Analyse</strong> <strong>en</strong> Composantes Principales pour des données<br />
de type intervalle proposée par [16, Cazes, Chouakria, Diday <strong>et</strong> Schektman (1997)]<br />
dans deux s<strong>en</strong>s: dans un premier temps nous proposerons trois manières de proj<strong>et</strong>er
Introduction 15<br />
les variables de type intervalle dans le cercle des corrélations. Dans une deuxième<br />
temps, nous proposerons un algorithme pour l’analyse <strong>en</strong> <strong>com</strong>posantes principales<br />
pour des données de type histogramme.<br />
3. Généraliser la méthode classique de l’analyse des tableaux de dissimilarités de [71,<br />
Torg<strong>en</strong>son (1958)] <strong>et</strong> [45, Gower (1966)] (Multidim<strong>en</strong>sional Scaling) pour les disimilarités<br />
de type intervalle.<br />
Ce travail cherche égalem<strong>en</strong>t a m<strong>et</strong>tre <strong>en</strong> application un logiciel pour chacune des méthodes<br />
développées.<br />
Dans le chapitre 1 nous prés<strong>en</strong>terons les concepts de base de l’analyse de données symbolique<br />
qui sont nécessaires pour le développem<strong>en</strong>t de ce travail. C<strong>et</strong>te prés<strong>en</strong>tation sera<br />
basée sur [30, Diday (1987)], [38, Diday (1998)], [39, Diday (1999)] <strong>et</strong> [9, Brito (1991)].<br />
Dans [28, Diday (1984)], Diday a proposé l’algorithme CAP pour construire les pyramides<br />
numériques, c’est–à–dire, une pyramide qui est construite à partir d’une matrice<br />
de dissimilarités classiques. [3, Bertrand <strong>et</strong> Diday (1990)] ont proposé un algorithme<br />
avec le même but. [55, Mfoumoune (1998)] a prés<strong>en</strong>té égalem<strong>en</strong>t un algorithme avec<br />
c<strong>et</strong> but dénommé QuickCap dont l’objectif est d’améliorer le temps d’exécution. Dans<br />
[9, Brito (1991)], Paula Brito a prés<strong>en</strong>té un macro–algorithme avec l’objectif de construire<br />
une pyramide symbolique. T<strong>en</strong>ant <strong>com</strong>pte des travaux m<strong>en</strong>tionnés ci–dessus dans le<br />
chapitre 2 nous prés<strong>en</strong>terons deux nouveaux algorithmes, qui généralis<strong>en</strong>t au cas symbolique<br />
l’algorithme CAP. Le premier de ces deux algorithmes, dénommé CAPS, produit<br />
<strong>en</strong> eff<strong>et</strong> une pyramide symbolique, parce qu’il construit un obj<strong>et</strong> symbolique associé à<br />
chaque palier de la pyramide <strong>et</strong> il vérifie égalem<strong>en</strong>t sa <strong>com</strong>plétude. L’algorithme CAPS<br />
est vraim<strong>en</strong>t une généralisation de l’algorithme CAP parce que s’il reçoit <strong>com</strong>me <strong>en</strong>trée<br />
une matrice de dissimiliraties il produit la même sortie que l’algorithme CAP. Dans le<br />
chapitre 2 nous prés<strong>en</strong>terons aussi un deuxième algorithme dénommé CAPSO, qui construit<br />
une pyramide symbolique ayant <strong>com</strong>me <strong>en</strong>trée, un ordre donné a priori (sans t<strong>en</strong>ir
Introduction 16<br />
<strong>com</strong>pte de la table symbolique de données) dans l’<strong>en</strong>semble d’individus (obj<strong>et</strong>s symboliques).<br />
A la fin du chapitre, les théorèmes de converg<strong>en</strong>ce sont prés<strong>en</strong>tés pour tous les<br />
deux algorithmes.<br />
Bertrand <strong>et</strong> Goupil dans [7, Bock <strong>et</strong> Diday (2000)] ont généralisé quelques indices de la<br />
statistique descriptive au cas symbolique, <strong>com</strong>me la moy<strong>en</strong>ne, la variance, la corrélation,<br />
<strong>et</strong>c. Cep<strong>en</strong>dant, toutes ces généralisations calcul<strong>en</strong>t l’indice ayant <strong>com</strong>me <strong>en</strong>trée une variable<br />
symbolique mais la sortie est un nombre réel. Dans le chapitre 3, de ce travail, nous<br />
généraliserons, pour les variables de type intervalle, la moy<strong>en</strong>ne, la médiane, la moy<strong>en</strong>ne<br />
des valeurs extrêmes, l’écart type, la déviation quartile, les boîtes de dispersion (boxplot)<br />
<strong>et</strong> la corrélation, suivant le principe qui établit que: si l’<strong>en</strong>trée est symbolique, alors la sortie<br />
devrait être symbolique, c’est–à–dire, que tous les indices ci–dessus pr<strong>en</strong>dront <strong>com</strong>me<br />
sortie des intervalles. Trois nouvelles méthodes sont aussi prés<strong>en</strong>tées pour effectuer la<br />
régression linéaire pour les variables de type intervalle.<br />
Au chapitre 4 nous ét<strong>en</strong>drons la méthode d’analyse <strong>en</strong> <strong>com</strong>posantes principales proposée<br />
par [16, Cazes, Chouakria, Diday <strong>et</strong> Schektman (1997)] pour des données de<br />
type histogramme, nous généraliserons le cercle des corrélations au cas des variables<br />
de type intervalle. De plus, nous proposerons des généralisations pour quelques indices<br />
d’interprétation utilisés dans l’analyse classique <strong>en</strong> <strong>com</strong>posantes rincipales.<br />
Dans le chapitre 5 nous proposerons une méthode pour l’analyse des tableaux de proximités<br />
(multidim<strong>en</strong>sional scaling) pour des données de type intervalle, que nous avons<br />
dénommée INTERSCAL. Nous généraliserons la méthode classique de l’analyse des<br />
tableaux de proximités de [71, Torg<strong>en</strong>son (1958)] <strong>et</strong> [45, Gower (1966)] <strong>en</strong> recherchant<br />
une méthode qui produit des résultats semblables à la méthode des somm<strong>et</strong>s dans l’analyse<br />
<strong>en</strong> <strong>com</strong>posantes principales proposée dans [16, Cazes, Chouakria, Diday <strong>et</strong> Schektman<br />
(1997)]. La méthode pour l’analyse des tableaux de proximités standard pr<strong>en</strong>d <strong>com</strong>me<br />
<strong>en</strong>trée une matrice de dissimilarités de terme général δ ij qui est une valeur numérique.
Introduction 17<br />
Au même temps, nous proposerons une méthode qui donne une matrice dissimilarités<br />
]<br />
dont le terme général est δ ij =<br />
[δ ij , δ ij , où δ ij <strong>et</strong> δ ij sont la limite inférieure <strong>et</strong> la limite<br />
supérieure de la dissimilarité <strong>en</strong>tre l’obj<strong>et</strong> S i <strong>et</strong> l’obj<strong>et</strong> S j respectivem<strong>en</strong>t. Comme sortie,<br />
au lieu de représ<strong>en</strong>ter chaque obj<strong>et</strong> symbolique sur le plan factoriel par un point, <strong>com</strong>me<br />
dans d’autres méthodes pour l’analyse des tableaux de proximités, dans la méthode proposée,<br />
chaque obj<strong>et</strong> symbolique sera visualisé par un rectangle, afin de représ<strong>en</strong>ter la<br />
variation de la dissimilarité.<br />
Pour chacune des méthodes prés<strong>en</strong>tées dans c<strong>et</strong>te thèse un outil de logiciel a été mis<br />
<strong>en</strong> application. Ce logiciel, dénommé PIMAD-Symbolique (Programme Intégré de<br />
Méthodes d’<strong>Analyse</strong> des Données Symboliques), a cinq modules, à savoir:<br />
• Un module pour la classification pyramidale symbolique.<br />
• Un module pour l’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des variables de type<br />
intervalle (dont tous le deux, le plan principal <strong>et</strong> le cercle des corrélations sont<br />
symboliques).<br />
• Un module pour l’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des variables de type<br />
histogramme.<br />
• Le module INTERSCAL.<br />
• Un module pour la régression linéaire symbolique <strong>et</strong> les statistiques descriptives.<br />
Ce logiciel a été réalisé <strong>en</strong> C++ <strong>en</strong> utilisant des stratégies de programmation, analyse <strong>et</strong><br />
dessin de systèmes ori<strong>en</strong>té obj<strong>et</strong>. Ce logiciel emploie <strong>com</strong>me <strong>en</strong>trée le format SODAS, <strong>et</strong> il<br />
peut être exécuté avec des tableaux de données de n’importe quelle dim<strong>en</strong>sion (seulem<strong>en</strong>t<br />
limitée par la mémoire de l’ordinateur). Dans l’annexe 1, sera prés<strong>en</strong>tée un bref guide<br />
expliquant la façon d’installer <strong>et</strong> d’employer le logiciel PIMAD-Symbolique.
Chapter 1<br />
Prés<strong>en</strong>tation de l’<strong>Analyse</strong> des Données<br />
Symboliques<br />
On prés<strong>en</strong>te dans c<strong>et</strong>te chapitre le formalisme mathématique pour introduire l’analyse des<br />
données symboliques ([30, Diday (1987)], [31, Diday<br />
(1989)],[32, Diday (1991)], [33, Diday (1993)], [34, Diday (1995)], [35, Diday (1995)],<br />
[36, Diday (1996)], [38, Diday (1998)],[39, Diday (2000)], [7, Bock <strong>et</strong> Diday (2000)], [9,<br />
Brito (1991)], [61, Polaillon (1998)]). On introduit d’une manière informelle les données<br />
symboliques <strong>et</strong> après on définira plus précisém<strong>en</strong>t le concept d’obj<strong>et</strong> symbolique.<br />
1.1 Données symboliques<br />
L’analyse des données classiques part d’un <strong>en</strong>semble de m individus (obj<strong>et</strong>s), notés E =<br />
{1, 2, . . . , m}, lesquels se caractéris<strong>en</strong>t par n variables, notées par Y 1 , Y 2, . . . , Y n , chaque<br />
variable Y k pr<strong>en</strong>d ses valeurs dans un <strong>en</strong>semble Y k appelé “espace d’observation”. Pour<br />
chaque individu i ∈ E la variable Y j pr<strong>en</strong>d seulem<strong>en</strong>t une valeur x ij = Y j (i) ∈ Y j , ces<br />
18
Prés<strong>en</strong>tation de l’analyse des données symbolique 19<br />
valeurs seront groupées <strong>en</strong> une matrice de données X = (x ij ), i = 1, 2, . . . , m, j =<br />
1, 2, . . . , n.<br />
Néanmoins, il y a des situations dans lesquelles c<strong>et</strong>te manière de représ<strong>en</strong>ter l’information<br />
n’est pas suffisante. Par exemple, quand on a de grandes bases de données on peut appliquer<br />
les techniques de “Fouille de Données” (“Data Mining”), qui ont par objectif de<br />
résumer l’information dans de nouveaux tableaux de données où chaque <strong>en</strong>trée n’est pas<br />
nécessairem<strong>en</strong>t une seule valeur.<br />
Dans l’<strong>Analyse</strong> des Données Symboliques on a un <strong>en</strong>semble Ω de m obj<strong>et</strong>s. Ces individus<br />
sont caractérisés par n “variables symboliques 1 ” Y 1 , Y 2 , . . . , Y n , où l’espace d’observation<br />
de Y k est Y k . Formellem<strong>en</strong>t Y k est une fonction de l’<strong>en</strong>semble Ω dans un <strong>en</strong>semble B k ⊆<br />
Y k , lequel peut être:<br />
1. Un sous–<strong>en</strong>semble de nombres réels, c’est–à–dire, B k ⊆ R (cas de l’analyse de<br />
données classique).<br />
2. Un <strong>en</strong>semble d’intervalles, c’est–à–dire, B k ⊆ {[α, β] tel que α ∈ R <strong>et</strong> β ∈ R avec<br />
α ≤ β}.<br />
3. Un <strong>en</strong>semble de catégories nominales ou ordinales.<br />
4. Un distribution de probabilité, <strong>et</strong>c.<br />
Ces données sont réunies dans une “matrice des données symboliques”, notée par X =<br />
(x ij ) i=1,2,...,m . Chaque <strong>en</strong>trée de c<strong>et</strong>te matrice est “une donnée symbolique”.<br />
j=1,2,...,n<br />
Dans l’<strong>Analyse</strong> des Données Classiques on a deux types de variables, les variables quantitatives<br />
<strong>et</strong> les variables qualitatives.<br />
1 Ces concepts seront définis avec plus de précision dans la section suivante.
Prés<strong>en</strong>tation de l’analyse des données symbolique 20<br />
Une variable Y est appelée quantitative si l’<strong>en</strong>semble Y de toutes les valeurs possibles<br />
prises par Y est un sous–<strong>en</strong>semble de R. Quand Y est un <strong>en</strong>semble non dénombrable<br />
la variable s’appelle quantitative continue; quand Y est fini ou dénombrable la variable<br />
s’appelle quantitative discrète.<br />
On dira que la variable Y est qualitative si le rang Y de Y est un <strong>en</strong>semble fini de<br />
catégories qui n’a pas nécessairem<strong>en</strong>t un s<strong>en</strong>s numérique. Quand le rang Y n’a pas une<br />
structure, on dira que la variable est qualitative nominale; dans ce cas–ci, étant données<br />
x, y ∈ Y, on sait seulem<strong>en</strong>t si x = y ou x ≠ y. Quand Y est totalem<strong>en</strong>t ordonné, la<br />
variable Y s’appelle qualitative ordinale, quand Y possé seulem<strong>en</strong>t un ordre partiel, on<br />
dira que la variable Y est qualitative ordinale généralisée.<br />
Dans l’<strong>Analyse</strong> des Données Symboliques, <strong>en</strong> plus des variables qu’on a m<strong>en</strong>tionné<br />
antérieurem<strong>en</strong>t, il y a d’autres types de variables, par exemple les variables multivaluées,<br />
les variables de type “intervalle” <strong>et</strong> les variables modales.<br />
On dira qu’une variable Y est multivaluée si ses “valeurs” Y (i) sont tous des sous<strong>en</strong>sembles<br />
finis de Y, c’est–à–dire |Y (i)| < ∞ pour tout i ∈ Ω. Quand Y est un<br />
rang fini de catégories <strong>et</strong> toutes les Y (k) sont finies, la variable Y s’appelle multivaluée<br />
catégorique. Si Y (k) ⊂ R <strong>et</strong> |Y (k)| < ∞ alors la variable s’appelle multivaluée quantitative.<br />
Une variable multivaluée Y s’appelle variable de type intervalle 2 si Y (i) est un intervalle<br />
de R pour tout i ∈ Ω, c’est–à–dire Y (i) = [α, β], ∀ i ∈ Ω, avec α ∈ R, β ∈ R <strong>et</strong> α ≤ β.<br />
On dira qu’une variable Y est modale avec espace d’observation Y si pour tout i ∈ Ω<br />
on a Y (i) = π i , <strong>et</strong> π i est une mesure non négative sur Y. Par exemple une distribution<br />
de fréqu<strong>en</strong>ces, une distribution de probabilité ou un <strong>en</strong>semble de poids. Dans c<strong>et</strong>te thèse,<br />
on s’intéresse particulierèm<strong>en</strong>t au cas où π i est donné par un histogramme, la variable Y ,<br />
2 Les intervalles peuv<strong>en</strong>t aussi être ouverts ou semi-ouverts.
Prés<strong>en</strong>tation de l’analyse des données symbolique 21<br />
s’appelle alors variable histogramme.<br />
Example 1 Dans le tableau de données symboliques suivant on a cinq variables, la première<br />
est de type intervalle, la deuxième est quantitative, <strong>et</strong> les trois dernières variables sont de<br />
type histogramme (les valeurs sont tronquées).<br />
⎡<br />
X =<br />
⎢<br />
⎣<br />
[1, 4] 2 (1(0.4), 2(0.1), 3(0.2), 4(0.07), 5(0.02)) (1(0.1), 2(0.9)) (1(0.7), 2(0.2))<br />
[1, 4] 3 (1(0.6), 2(0.1), 3(0.1), 5(0.0)) (1(0.1), 2(0.9)) (1(0.7), 2(0.2))<br />
[1, 5] 2 (1(0.7), 2(0.2)) (1(0.0), 2(0.9)) (1(0.7), 2(0.2))<br />
[1, 4] 1 (1(0.7), 2(0.0), 3(0.1), 4(0.0), 5(0.0), 6(0.0)) (1(0.0), 2(0.9)) (1(0.7), 2(0.2))<br />
[1, 4] 1 (1(0.4), 3(0.4), 4(0.0), 5(0.0)) (1(0.0), 2(0.9)) (1(0.8), 2(0.1))<br />
[1, 6] 2 (2(0.4), 3(0.1), 4(0.3), 5(0.0), 6(0.0)) (1(0.0), 2(0.9)) (1(0.7), 2(0.2))<br />
⎤<br />
⎥<br />
⎦<br />
1.2 Obj<strong>et</strong>s symboliques<br />
Les objectifs de l’analyse de données symbolique sont: analyser, visualiser, classifier <strong>et</strong><br />
réduire l’information qui se trouve dans le tableau de données symboliques. Comme<br />
l’explique Diday [39, Diday (1999)], les obj<strong>et</strong>s symboliques perm<strong>et</strong>t<strong>en</strong>t de modeliser les<br />
concepts:<br />
“There are two steps in Symbolic Data Analysis: the first concerns knowledge<br />
extraction from large data bases as in “Data Mining”, the second step<br />
concerns the application of new tools on such extracted knowledge in order<br />
to ext<strong>en</strong>d “Data Mining” to “Knowledge Mining”. “Extracting knowledge”<br />
means g<strong>et</strong>ting new concepts, that is why, “Symbolic Objects” are introduced.”<br />
Dans les paragraphes suivants on précisera le notion d’obj<strong>et</strong>s symboliques ([30, Diday<br />
(1987)], [31, Diday (1989)], [39, Diday (1999)] <strong>et</strong> [7, Bock <strong>et</strong> Diday (2000)]).
Prés<strong>en</strong>tation de l’analyse des données symbolique 22<br />
Definition 1 Un Obj<strong>et</strong> Symbolique est un tripl<strong>et</strong> s = (a, R, d) où R est une relation <strong>en</strong>tre<br />
les descriptions, d est une description, <strong>et</strong> a est une application de Ω dans L qui dép<strong>en</strong>d de<br />
la relation R <strong>et</strong> de la description d.<br />
Si le tableau initial de données conti<strong>en</strong>t p variables Y 1 , Y 2 , . . . , Y p <strong>et</strong> si [Y j (w)R j d j ] ∈<br />
L = {V, F } pour tout j = 1, 2, . . . , p, l’obj<strong>et</strong> symbolique s’appelle Obj<strong>et</strong> Boolé<strong>en</strong> <strong>et</strong> si<br />
[Y j (w)R j d j ] ∈ L = [0, 1] pour tout j = 1, 2, . . . , p l’obj<strong>et</strong> symbolique s’appelle Obj<strong>et</strong><br />
Modal.<br />
Si on note par Y (w) = (Y 1 (w), Y 2 (w), . . . , Y p (w)), D = (D 1 , D 2 , . . . , D p ),<br />
d = (d 1 , d 2 , . . . , d p ) ∈ D <strong>et</strong> R = (R 1 , R 2 , . . . , R p ) où R i est une relation dans D i . Alors,<br />
si dans la définition précéd<strong>en</strong>te on pr<strong>en</strong>d L = {vrai,faux}, on definit R par [Y (w)Rd] =<br />
[Y 1 (w)R 1 d 1 ] ∧ [Y 2 (w)R 2 d 2 ] ∧ · · · ∧ [Y p (w)R p d p ] <strong>et</strong> on pr<strong>en</strong>d a(w) = [Y 1 (w)R 1 d 1 ] ∧<br />
[Y 2 (w)R 2 d 2 ] ∧ · · · ∧ [Y p (w)R p d p ] où a(w) =vrai si <strong>et</strong> seulem<strong>en</strong>t si Y j (w)R j d j pour tout<br />
j = 1, 2, . . . , p l’obj<strong>et</strong> s’appellera un Obj<strong>et</strong> Assertion Boolé<strong>en</strong>.<br />
Par exemple l’expression suivante:<br />
a(w) = [nationalité(w) ⊆ {Mexicaine,Costarici<strong>en</strong>ne}] ∧ [âge(w) ⊆ [20, 35]]<br />
définit un obj<strong>et</strong> symbolique s = (a, R, d) où d = ({Mexicaine,Costarici<strong>en</strong>ne},[20, 35]),<br />
R : [Y (w)Rd] = [Y 1 (w)R 1 d 1 ]∧[Y 2 (w)R 2 d 2 ] avec R 1 = R 2 = “ ⊆ ”, donc a(w) =vrai si<br />
<strong>et</strong> seulem<strong>en</strong>t si la nationalité de w est Mexicaine ou Costarici<strong>en</strong>ne <strong>et</strong> l’âge de w apparti<strong>en</strong>t<br />
à l’intervalle [20, 35].<br />
Definition 2 Si L = [vrai,faux] l’obj<strong>et</strong> symbolique est dit boolé<strong>en</strong> <strong>et</strong> son ext<strong>en</strong>sion est<br />
l’<strong>en</strong>semble Ext(s) = {w ∈ Ω tel que a(w) =vrai}. Dans le cas des obj<strong>et</strong>s symboliques<br />
modaux où L = [0, 1], pour un seuil donné α, l’ext<strong>en</strong>sion est définie par Ext(s, α) =<br />
{w ∈ Ω tel que a(w) ≥ α}.
Prés<strong>en</strong>tation de l’analyse des données symbolique 23<br />
1.3 Propriétés <strong>et</strong> opérateurs des obj<strong>et</strong>s symboliques<br />
Definition 3 (Ordre symbolique) Soit S l’<strong>en</strong>semble des obj<strong>et</strong>s symboliques défini sur les<br />
mêmes variables, alors ∀ s 1 , s 2 ∈ S on dit que:<br />
s 1 ≤ s 2 ⇐⇒ Ext(s 1 ) ⊆ Ext(s 2 ).<br />
La relation ≤ ainsi définie est une relation de pre–ordre appelée Preordre Symbolique [30,<br />
Diday (1987)].<br />
Definition 4<br />
Pour tous s 1 , s 2 ∈ S, si s 1 ≤ s 2 , on dira alors que s 2 est plus général que<br />
s 1 <strong>et</strong> que s 1 est plus spécifique que s 2 .<br />
Pour la construction des Pyramides Symboliques (section 2.2), il sera nécessaire de calculer<br />
l’union <strong>et</strong> l’intersection d’obj<strong>et</strong>s symboliques, ces opérations se définiss<strong>en</strong>t de la<br />
façon suivante [30, Diday (1987)]:<br />
Definition 5 Soi<strong>en</strong>t s 1 = (a 1 , R, d 1 ) <strong>et</strong> s 2 = (a 2 , R, d 2 ) deux obj<strong>et</strong>s symboliques, l’union<br />
de s 1 <strong>et</strong> s 2 notée par s 1 ∪ s 2 , est définie <strong>com</strong>me la conjonction de tous les obj<strong>et</strong>s symboliques,<br />
dont l’ext<strong>en</strong>sion conti<strong>en</strong>t Ext(s 1 ) ∪ Ext(s 2 ), c’est–à–dire, l’union de tous les<br />
obj<strong>et</strong>s symboliques e i tel que pour tout i on a Ext(e i ) ⊇ Ext(s 1 )∪Ext(s 2 ). De même, on<br />
définit l’intersection <strong>en</strong>tre s 1 <strong>et</strong> s 2 <strong>com</strong>me la conjonction de tous les obj<strong>et</strong>s symboliques,<br />
dont l’ext<strong>en</strong>sion conti<strong>en</strong>t Ext(s 1 ) ∩ Ext(s 2 ).<br />
Si le tableau de données initiale conti<strong>en</strong>t des variables modales, par exemple Y j , avec<br />
Y j = {m 1 , m 2 , . . . , m t } l’<strong>en</strong>semble de catégories de la variable Y j , <strong>et</strong> w 1 , w 2 , . . . , w t sont<br />
les valeurs de fréqu<strong>en</strong>ce, de probabilité ou de poids pour m 1 , m 2 , . . . , m t . Si on a deux<br />
obj<strong>et</strong>s symboliques s 1 = (a 1 , R, d) <strong>et</strong> s 2 = (a 2 , R, d) où:<br />
a 1 = [ Y j = (m 1 (w1), 1 m 2 (w2), 1 . . . , m t (wt 1 )) ] <strong>et</strong>
Prés<strong>en</strong>tation de l’analyse des données symbolique 24<br />
a 2 = [ Y j = (m 1 (w1), 2 m 2 (w2), 2 . . . , m t (wt 2 )) ]<br />
alors Brito a defini s 3 = (a 3 , R, d) = s 1 ∪ s 2 (voir [7, Bock <strong>et</strong> Diday (2000)]):<br />
a 3 (w) = [Y j = (m 1 (w 1 ), m 2 (w 2 ), . . . , m t (w t ))] ,<br />
où w i = max{wi 1 , wi 2 } pour i = 1, 2, . . . , t <strong>et</strong> elle a defini son ext<strong>en</strong>sion <strong>com</strong>me:<br />
Ext(s 1 ∪ s 2 ) = {s ∈ Ω tel que wi s ≤ w i pour i = 1, 2, . . . , t}.<br />
Remark 1 Il est possible que w 1 + w 2 + · · · + w t ≥ 1.<br />
Remark 2 Il <strong>en</strong> résulte que si s 1 = (a 1 , R, d) <strong>et</strong> s 2 = (a 2 , R, d) avec a 1 = [Y 1 ∈ V 1 ] ∧<br />
· · · ∧ [Y p ∈ V p ] <strong>et</strong> a 2 = [Y 1 ∈ W 1 ] ∧ · · · ∧ [Y p ∈ W p ] alors s 1 ∪ s 2 = (a 3 , R, d) avec<br />
a 3 = [Y 1 ∈ V 1 ∪ W 1 ] ∧ · · · ∧ [Y p ∈ V p ∪ W p ].<br />
Un concept important dans la classification pyramidale symbolique est la <strong>com</strong>plétude des<br />
Obj<strong>et</strong>s Symboliques. On dit qu’un obj<strong>et</strong> symbolique est <strong>com</strong>pl<strong>et</strong> s’il décrit de manière exhaustive<br />
(“<strong>com</strong>plète”) son ext<strong>en</strong>sion. Plus formellem<strong>en</strong>t: (si note pour P (A) l’<strong>en</strong>semble<br />
de parties de A)<br />
Definition 6 [9, Brito (1991)], [31, Diday (1989)] Soi<strong>en</strong>t S l’<strong>en</strong>semble de tous les obj<strong>et</strong>s<br />
assertion, A = {a 1, a 2 , . . . , a n } ⊆ S, f : S → P (A) tels que f(a) = Ext(a) <strong>et</strong> g :<br />
P (A) → S tel que ∀ P ∈ P (A), P ⊆ f ◦ g(P ). On note pour h = g ◦ f . On dit<br />
alors que l’obj<strong>et</strong> symbolique a est <strong>com</strong>pl<strong>et</strong> si <strong>et</strong> seulem<strong>en</strong>t si h(a) = a. La fonction h est<br />
dénommée l’opérateur de <strong>com</strong>plétude.<br />
Example 2 [9, Brito (1991)] Soit f : S → P (A) tel que f(a) = f( ∧ [y j ∈ W j ]) = {a i =<br />
j<br />
∧<br />
[y j ∈ Vj i ] / Vj<br />
i ⊆ W j , j = {1, 2, . . . , p}}, A = {a 1, a 2 , . . . , a n } ⊆ S <strong>et</strong> g : P (A) → S<br />
j<br />
tels que g({a 1 , . . . , a m }) = α = [y j<br />
<strong>com</strong>plétude.<br />
= ⋃ i<br />
V i<br />
j ] alors h = g ◦ f est un opérateur de
Prés<strong>en</strong>tation de l’analyse des données symbolique 25<br />
L’algorithme de classification pyramidale symbolique qu’on prés<strong>en</strong>te dans la section 2.2<br />
conti<strong>en</strong>t deux étapes, l’étape de généralisation dans laquelle on doit calculer l’union<br />
<strong>en</strong>tre obj<strong>et</strong>s symboliques <strong>et</strong> l’étape d’agrégation dans laquelle on calcule le “Degré de<br />
Généralité” de l’obj<strong>et</strong> symbolique. On prés<strong>en</strong>te une définition du “Degré de Généralité”<br />
basé sur la définition donnée par Paula Brito dans [10, Brito (1997)], c<strong>et</strong>te définition nous<br />
perm<strong>et</strong>tra de calculer le degré de généralité même si le tableau de données symboliques<br />
a des variables de type intervalle, quantitative discrète ou de type histogramme (<strong>com</strong>me<br />
dans l’exemple 1).<br />
Definition 7 Soit s = (a, R, d) un obj<strong>et</strong> symbolique avec a(w) =<br />
Degré de Généralité de s par:<br />
où<br />
⎧<br />
⎪⎨<br />
g(e j ) =<br />
⎪⎩<br />
g(s) =<br />
p∏<br />
g(e j ),<br />
j=1<br />
p ∧<br />
j=1<br />
|V j |<br />
|Y j |<br />
si e j = [Y j ⊆ V j ], V j ⊆ Y j avec Y j discrète.<br />
longueur(V j )<br />
longueur(Y j )<br />
si e j = [Y j ⊆ V j ], V j ⊆ Y j avec Y j continue.<br />
t∑<br />
h=1<br />
t<br />
w h<br />
si<br />
e j = [Y j = {m 1 (w 1 ), . . . , m t (w t )}] est une<br />
e j , on définit le<br />
distribution de fréqu<strong>en</strong>ce de la variable discrète Y j .<br />
Remark 3 Soit S l’<strong>en</strong>semble des obj<strong>et</strong>s symboliques défini sur les mêmes variables, alors<br />
∀ s 1 , s 2 ∈ S on a:<br />
s 1 ≤ s 2 ⇒ g(s 1 ) ≤ g(s 2 ).<br />
Example 3 Si on considère le tableau de données symboliques qu’on a prés<strong>en</strong>té dans<br />
l’exemple 1 <strong>et</strong> on pr<strong>en</strong>d l’obj<strong>et</strong> symbolique s = (a, R, d) où:<br />
a(w) = [y 1 (w) ⊆ [1, 4]] ∧[y 2 (w) ⊆ {1}] ∧[y 3 (w) = (1(0.718), 2(0.053), 3(0.187),<br />
4(0.013), 5(0.006), 6(0.013), 7(0.006))] ∧[y 4 (w) = (1(0.04), 2(0.97))] ∧ [y 5 (w) =
Prés<strong>en</strong>tation de l’analyse des données symbolique 26<br />
(1(0.86), 2(0.24))] d = {[1, 6], {1, 2, 3}, (1(p 1 ), . . . , 7(p 7 )), (1(p 1 ), 2(p 2 )),<br />
(1(p 1 ), 2(p 2 ))} <strong>et</strong> R = (R 1 , . . . , R 5 ) où R 1 = “ ⊆ ”, R 2 = “ ⊆ ”, R i = “ = ”<br />
pour i = 3, 4, 5, alors on a que g(s) = 0.01109.
Chapter 2<br />
<strong>Classification</strong> Pyramidale Symbolique<br />
Asc<strong>en</strong>dante<br />
Dans ce chapitre on prés<strong>en</strong>te deux algorithmes qui construis<strong>en</strong>t une pyramide symbolique<br />
à partir d’une matrice de données symboliques. Le premier algorithme trouve un “ordre<br />
total <strong>com</strong>patible avec la pyramide” de m obj<strong>et</strong>s, p<strong>en</strong>dant que le deuxième construit la<br />
pyramide à partir d’un ordre donné (a priori) sur les obj<strong>et</strong>s, c<strong>et</strong> ordre à partir des <strong>en</strong>trées<br />
de l’algorithme. Ces deux algorithmes, <strong>en</strong> plus de construire la pyramide, trouv<strong>en</strong>t pour<br />
chaque palier l’obj<strong>et</strong> symbolique associé, son ext<strong>en</strong>sion <strong>et</strong> vérifi<strong>en</strong>t sa <strong>com</strong>plétude.<br />
2.1 Définitions préliminaires<br />
Dans c<strong>et</strong>te section on prés<strong>en</strong>te les concepts fondam<strong>en</strong>taux que nous perm<strong>et</strong>tront dans les<br />
sections suivantes de prés<strong>en</strong>ter les algorithmes déjà m<strong>en</strong>tionnés ([28, Diday (1984)], [3,<br />
Bertrand <strong>et</strong> Diday (1990)] <strong>et</strong> [55, Mfoumoune (1998)]).<br />
27
<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 28<br />
Definition 8 Un indice de dissimilarité défini sur l’<strong>en</strong>semble d’obj<strong>et</strong>s Ω est une fonction<br />
d : Ω −→ [0, +∞[ telle que:<br />
• d(s 1 , s 2 ) = d(s 2 , s 1 ), ∀ s 1 , s 2 ∈ Ω.<br />
• d(s, s) = 0, ∀ s ∈ Ω.<br />
Afin de mesurer la dissimilarité <strong>en</strong>tre classes d’obj<strong>et</strong>s déjà formées, on utilise les indices<br />
d’agrégation.<br />
Definition 9 Un indice d’agrégation est une fonction δ : P (Ω) × P (Ω) −→ [0, +∞[ telle<br />
que δ(s 1 , s 2 ) = δ(s 2 , s 1 ), où P (Ω) est l’<strong>en</strong>semble des parties de Ω.<br />
Pour le cas de la classification asc<strong>en</strong>dante pyramidale symbolique, on n’utilisera pas un<br />
indice de dissimilarité ni un indice d’agrégation, car dans la phase d’agrégation (étape<br />
de généralisation) de l’algorithme (section 2.2) on pr<strong>en</strong>d l’union de deux obj<strong>et</strong>s symboliques<br />
qui form<strong>en</strong>t le nouvel palier, lequel <strong>en</strong>g<strong>en</strong>dre un autre obj<strong>et</strong> symbolique (parce<br />
que l’union d’obj<strong>et</strong>s symboliques produit un nouvel obj<strong>et</strong> symbolique). Pour calculer la<br />
“dissimilarité” (ou l’agrégation) <strong>en</strong>tre le nouveau obj<strong>et</strong> symbolique <strong>et</strong> les autres obj<strong>et</strong>s<br />
symboliques on utilise le Degré de Généralité (définition 7).<br />
Remark 4 Le Degré de Généralité ne vérifie pas tous les axiomes d’un indice de dissimilarité.<br />
Definition 10 Une hiérarchie binaire sur un <strong>en</strong>semble d’obj<strong>et</strong>s Ω est un <strong>en</strong>semble H des<br />
parties de Ω, appelées classes, qui a les propriétés suivantes:<br />
• {s} ∈ H pour tout s ∈ Ω.<br />
• Ω ∈ H.
<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 29<br />
• Pour tout s ∈ H tel que card(s) > 1, il y a s 1 , s 2 ∈ H tels que s = s 1 ∪ s 2 <strong>et</strong><br />
s 1 ∩ s 2 = ∅.<br />
Diday généralise dans [28, Diday (1984)] le concept de hiérarchie aux pyramides, <strong>com</strong>me<br />
on le montre dans les définitions suivants.<br />
Definition 11 Soit θ un ordre total sur Ω <strong>et</strong> P un <strong>en</strong>semble des parties de Ω. Un élém<strong>en</strong>t<br />
h ∈ P est connexe selon l’ordre total θ, si pour tout w ∈ Ω qui est <strong>en</strong>tre le max(h) <strong>et</strong> le<br />
min(h) (min(h) θ w θ max(h)) on a w ∈ h.<br />
Definition 12 Un ordre total θ sur Ω est <strong>com</strong>patible avec P, un <strong>en</strong>semble de parties de Ω,<br />
si tout élém<strong>en</strong>t h ∈ P est connexe selon l’ordre total θ.<br />
Definition 13 Soit Ω un <strong>en</strong>semble fini, soit P un <strong>en</strong>semble des parties non vides de Ω<br />
(appelées paliers), P est une pyramide si:<br />
1. Ω ∈ P .<br />
2. ∀ w ∈ Ω on a {w} ∈ P (paliers singl<strong>et</strong>ons).<br />
3. ∀ (h, h ′ ) ∈ P × P on a h ∩ h ′ ∈ P ou h ∩ h ′ = ∅.<br />
4. Il existe un ordre total θ <strong>en</strong> Ω <strong>com</strong>patible avec P .<br />
Example 4 Soit Ω = {1, 2, 3, 4, 5}, P = {{1}, {2}, {3}, {4}, {5}, P 6 , P 7 ,<br />
P 8 , P 9 , P 10 }, avec P 6 = {1, 3}, P 7 = {2, 4}, P 8 = {1, 3, 5}, P 9 = {1, 2, 3, 5}, P 10 = Ω.<br />
On a un ordre total θ <strong>com</strong>patible avec P défini <strong>com</strong>me suit: 3θ1, 1θ5, 5θ2, <strong>et</strong> 2θ4, alors P<br />
est une pyramide. C<strong>et</strong>te pyramide est prés<strong>en</strong>tée dans la Figure 2.1<br />
Definition 14 Une pyramide indicée est un couple (P, f) où P est une pyramide <strong>et</strong> f est<br />
une fonction f : P → R + telle que:
<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 30<br />
4.00<br />
3.00<br />
2.00<br />
✻<br />
P 8<br />
P 9<br />
P 10<br />
1.00<br />
P 6 P 7<br />
3 1 5 2 4<br />
✲<br />
Figure 2.1: Exemple d’une Pyramide.<br />
• ∀ h ∈ P on a que f(h) = 0 ⇔ h est un palier singl<strong>et</strong>on.<br />
• ∀ h, h ′ ∈ P on a que h ⊂ h ′ ⇒ f(h) ≤ f(h ′ ).<br />
On dira qu’une pyramide est indicée au s<strong>en</strong>s strict si h ⊂ h ′ ⇒ f(h) < f(h ′ ). De plus la<br />
pyramide s’appelle pyramide indicée au s<strong>en</strong>s large si h ⊂ h ′ <strong>et</strong> f(h) = f(h ′ ), impliqu<strong>en</strong>t<br />
l’exist<strong>en</strong>ce de h 1 , h 2 ∈ P différ<strong>en</strong>ts de h tels que h = h 1 ∩ h 2 .<br />
Definition 15 Soit Ω un <strong>en</strong>semble fini, soit P un <strong>en</strong>semble de parties non vides de Ω<br />
(appelées aussi paliers), P est une pyramide symbolique si:<br />
1. P est une pyramide.<br />
2. Chaque palier de P a un obj<strong>et</strong> symbolique <strong>com</strong>pl<strong>et</strong> associé.<br />
Example 5 Considérons le tableau de données 2.1:<br />
Soi<strong>en</strong>t Ω = {1, 2, 3}, P = {{1}, {2}, {3}, P 4 , P 5 , P 6 }, avec P 4 = {1, 2}, P 5 = {2, 3},<br />
P 6 = {1, 2, 3} = Ω, θ = “ ≤ ”. Alors on a que s 4 = (a 4 , R, d), s 5 = (a 5 , R, d),<br />
s 6<br />
= (a 6 , R, d) sont les obj<strong>et</strong>s symboliques associés à P 4 , P 5 , P 6 respectivem<strong>en</strong>t avec<br />
a 4 (w) = [[y 1 (w) ⊆ {1, 2}] ∧ [y 2 (w) ⊆ {1}] ∧ [y 3 (w) ⊆ {2}]], a 5 (w) = [[y 1 (w) ⊆
<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 31<br />
y 1 y 2 y 3<br />
w 1 1 1 2<br />
w 2 2 1 2<br />
w 3 3 3 1<br />
Table 2.1: Tableau des données.<br />
1.00<br />
✻<br />
P 6<br />
0.67<br />
0.17<br />
P 4<br />
P 5<br />
1 2 3<br />
✲<br />
Figure 2.2: Pyramide symbolique.<br />
{2, 3}] ∧ [y 2 (w) ⊆ {1, 3}] ∧ [y 3 (w) ⊆ {1, 2}]], a 6 (w) = [[y 1 (w) ⊆ {1, 2, 3}] ∧ [y 2 (w) ⊆<br />
{1, 3}] ∧ [y 3 (w) ⊆ {1, 2}]], R = “ ⊆ ”, d = {{1, 2, 3}, {1, 3}, {1, 2}}. Donc, P est une<br />
pyramide symbolique. C<strong>et</strong>te pyramide est prés<strong>en</strong>tée dans la Figure 2.2<br />
Definition 16 Un indice de dissimilarité pyramidale est un indice de dissimilarité d qui<br />
vérifie <strong>en</strong> plus les conditions suivantes:<br />
• d(s 1 , s 2 ) = 0 ⇒ s 1 = s 2 .<br />
• Il existe un ordre total θ sur Ω <strong>com</strong>patible avec d, c’est-à-dire, un ordre total θ tel<br />
que:<br />
s 1 θs 2 θs 3 ⇒ d(s 1 , s 3 ) ≥ max{d(s 1 , s 2 ), d(s 2 , s 3 )}.
<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 32<br />
2.2 Algorithme de <strong>Classification</strong> Pyramidale Symbolique<br />
Dans c<strong>et</strong>te section on prés<strong>en</strong>te un nouvel algorithme qui construit une pyramide symbolique<br />
à partir d’une matrice de données symboliques.<br />
Diday dans [28, Diday (1984)] propose l’algorithme CAP pour construire des pyramides<br />
numériques; c’est-à-dire pyramides <strong>en</strong>g<strong>en</strong>drées à partir d’un tableau de données classiques<br />
ou d’une matrice de dissimilarités. Dans [3, Bertrand <strong>et</strong> Diday (1990)], [44, Gil<br />
(1998)] <strong>et</strong> [55, Mfoumoune (1998)] les auteurs prés<strong>en</strong>t<strong>en</strong>t aussi des algorithmes dans ce<br />
but. Paula Brito, dans [9, Brito (1991)] propose un algorithme qui généralise l’algorithme<br />
proposé par Bertrand <strong>et</strong> qui construit des pyramides symboliques. Dans c<strong>et</strong>te section on<br />
propose un algorithme (CAPS) qui construit des pyramides symboliques binaires, c’est–<br />
à–dire, une pyramide dans laquelle chaque palier est de nouveau un obj<strong>et</strong> symbolique. De<br />
plus, c<strong>et</strong> algorithme calcule l’ext<strong>en</strong>sion de chacun de ces obj<strong>et</strong>s symboliques <strong>et</strong> vérifie sa<br />
<strong>com</strong>plétude.<br />
À différ<strong>en</strong>ce des algorithmes qui construis<strong>en</strong>t des pyramides numériques, ce nouvel algorithme<br />
ne recevra pas <strong>en</strong> <strong>en</strong>trée ni un indice de dissimilarité, ni un indice d’agrégation. À<br />
sa place nous utiliserons le “Degré de Généralité” (définition 7).<br />
Tous les algorithmes proposés jusqu’à maint<strong>en</strong>ant démarr<strong>en</strong>t avec un ordre arbitraire sur<br />
les élém<strong>en</strong>ts de Ω, lequel est modifié à chaque étape de l’algorithme jusqu’au mom<strong>en</strong>t<br />
où l’on obti<strong>en</strong>t un ordre total sur les élém<strong>en</strong>ts de Ω. L’algorithme qu’on propose ici<br />
utilise une méthode différ<strong>en</strong>te, il démarre avec n <strong>com</strong>posantes connexes (n = |Ω|) <strong>et</strong><br />
n ordres totaux associés à chacune des <strong>com</strong>posantes. L’algorithme avance, le nombre<br />
de <strong>com</strong>posantes connexes se réduit, jusqu’à ce qu’il n’y aura qu’une seule <strong>com</strong>posante<br />
connexe (<strong>et</strong> donc égale à Ω).<br />
On prés<strong>en</strong>te les définitions nécessaires pour la spécification de l’algorithme, elles sont<br />
différ<strong>en</strong>tes aux définitions prés<strong>en</strong>tées dans ([9, Brito (1991)], [3, Bertrand <strong>et</strong> Diday (1990)]
<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 33<br />
<strong>et</strong> [55, Mfoumoune (1998)]), car celles–ci sont locales à la “<strong>com</strong>posante connexe”.<br />
Pour les définitions suivantes, on a un <strong>en</strong>semble P ⊆ P (Ω) (l’<strong>en</strong>semble des parties de<br />
Ω) qui n’est pas nécessairem<strong>en</strong>t une pyramide; il est une “pyramide <strong>en</strong> construction”, par<br />
abus de langage on dira que tout élém<strong>en</strong>t de P est un palier.<br />
Definition 17 Soit C ∈ P, C s’appelle <strong>com</strong>posante connexe si:<br />
1. Il y a un ordre total ≤ C défini sur l’<strong>en</strong>semble C, c’est–à–dire, ∀ x, y ∈ C il existe un<br />
ordre ≤ C défini sur C tel que x ≤ C y ou y ≤ C x. En d’autres termes, l’algorithme<br />
a déjà construit un ordre total sur l’<strong>en</strong>semble C ⊆ Ω.<br />
2. C est le sous–<strong>en</strong>semble plus grand de Ω, au s<strong>en</strong>s de l’inclusion, à vérifier la propiété<br />
1.<br />
Example 6 Si on a la “pyramide <strong>en</strong> construction” de la Figure 2.3 alors<br />
C 1 = {8, 4, 11, 1, 12, 3, 13, 6} avec l’ordre total 8 ≤ C1 4 ≤ C1 11 ≤ C1 1 ≤ C1 12 ≤ C1<br />
3 ≤ C1 13 ≤ C1 6 <strong>et</strong> C 2 = {9, 10, 2, 5, 7} avec l’ordre total 9 ≤ C2 10 ≤ C2 2 ≤ C2 5 ≤ C2 7<br />
sont <strong>com</strong>posantes connexes.<br />
Remark 5 On doit noter qu’il n’y a pas, pour l’instant, de relation d’ordre <strong>en</strong>tre les<br />
élém<strong>en</strong>ts de C 1 <strong>et</strong> C 2 , <strong>et</strong> donc le dessin de la Figure 2.3 pourrait avoir les élém<strong>en</strong>ts de<br />
C 2 “à gauche” de tous ceux de C 1 .<br />
Definition 18 On dit qu’un palier G ∈ P apparti<strong>en</strong>t à une <strong>com</strong>posante connexe C de P<br />
si G ⊆ C. De plus on dira que l’ordre total ≤ C associé à C induit un ordre total ≤ G sur<br />
G de la manière suivante: si x, y ∈ G alors x ≤ G y ⇔ x ≤ C y.
<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 34<br />
6.00 ✻<br />
P 28<br />
5.00<br />
P 26 P 27<br />
4.00<br />
P 24 P 25<br />
3.00<br />
P 21 P 22 P 23<br />
2.00<br />
P 18 P 19 P 20<br />
1.00<br />
P 14 P 15 P 16 P 17<br />
8 4 11 1 12 3 13 6 9 10 2 5 7<br />
✲<br />
Figure 2.3: Pyramide <strong>en</strong> construction.<br />
Example 7 Si on a la “pyramide <strong>en</strong> construction” de la Figure 2.3 alors le palier P 24 =<br />
{1, 12, 3, 13, 6} apparti<strong>en</strong>t à la <strong>com</strong>posante connexe C 1 de l’exemple précéd<strong>en</strong>t avec l’ordre<br />
≤ P24 induit par ≤ C1 <strong>et</strong> le palier P 23 = {10, 2, 5} apparti<strong>en</strong>t à la <strong>com</strong>posante connexe C 2<br />
avec l’ordre ≤ P23 induit par ≤ C2 .<br />
Definition 19 Soi<strong>en</strong>t G 1 <strong>et</strong> G 2 des paliers de P, on dit que G 1 est intérieur à G 2 si:<br />
• G 1 ≠ G 2 .<br />
• G 1 <strong>et</strong> G 2 apparti<strong>en</strong>n<strong>en</strong>t à la même <strong>com</strong>posante connexe C.<br />
• min(G 2 ) < C min(G 1 ) <strong>et</strong> max(G 1 ) < C max(G 2 ), où α < C β signifie que α ≤ C β<br />
<strong>et</strong> α ≠ β.<br />
Example 8 Si on a la “pyramide <strong>en</strong> construction” de la Figure 2.3 alors le palier P 19 =<br />
{12, 3} est intérieur au palier P 24 = {1, 12, 3, 13, 6}.
<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 35<br />
Definition 20 Soi<strong>en</strong>t G 1 <strong>et</strong> G 2 des paliers de P, on dit que G 1 est successeur de G 2 <strong>et</strong><br />
que G 2 est prédécesseur de G 1 si:<br />
• G 1 ⊂ G 2 au s<strong>en</strong>s strict.<br />
• Il n’existe pas de palier G ∈ P tel que G 1 ⊂ G ⊂ G 2 au s<strong>en</strong>s strict.<br />
Example 9 Si on a la “pyramide <strong>en</strong> construction” de la Figure 2.3 alors le palier P 22 =<br />
{1, 12, 3, 13, 6} est successeur du palier P 24 = {1, 12, 3, 13, 6} <strong>et</strong> P 24 est prédécesseur de<br />
P 22 .<br />
Definition 21 Un palier G ∈ P, s’appelle maximal s’il n’a pas de prédécesseurs.<br />
Example 10 Si on a la “pyramide <strong>en</strong> construction” de la Figure 2.3 alors le palier P 26 =<br />
{8, 4, 11, 1, 12, 3, 13, 6} <strong>et</strong> le palier P 28 = {9, 10, 2, 5, 7} sont maximaux.<br />
Remark 6 On doit remarquer qu’une <strong>com</strong>posante connexe peut avoir plusieurs paliers<br />
maximaux (c.f. Figure 2.4)<br />
Definition 22 Soi<strong>en</strong>t G 1 <strong>et</strong> G 2 des paliers de P, on dit que G 1 est à gauche de G 2 <strong>et</strong> que<br />
G 2 est à droite de G 1 si:<br />
• G 1 <strong>et</strong> G 2 apparti<strong>en</strong>n<strong>en</strong>t à la même <strong>com</strong>posante connexe C.<br />
• min(G 1 ) ≤ C min(G 2 ) <strong>et</strong> max(G 1 ) ≤ C max(G 2 ).<br />
Definition 23 Soi<strong>en</strong>t G 1 <strong>et</strong> G 2 des paliers de P, on dit que G 1 est à semi–gauche de G 2<br />
si:<br />
• G 1 <strong>et</strong> G 2 apparti<strong>en</strong>n<strong>en</strong>t à la même <strong>com</strong>posante connexe C.<br />
• min(G 1 ) < C min(G 2 ) <strong>et</strong> max(G 1 ) = max(G 2 ).
<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 36<br />
Definition 24 Soi<strong>en</strong>t G 1 <strong>et</strong> G 2 des paliers de P, on dit que G 2 est à semi–droite de G 1<br />
si:<br />
• G 1 <strong>et</strong> G 2 apparti<strong>en</strong>n<strong>en</strong>t à la même <strong>com</strong>posante connexe C.<br />
• min(G 1 ) = min(G 2 ) <strong>et</strong> max(G 1 ) < C max(G 2 ).<br />
Example 11 Si on a la “pyramide <strong>en</strong> construction” de la Figure 2.3 alors les paliers P 22 ,<br />
P 24 <strong>et</strong> P 26 sont semi–gauche du palier P 16 . Le palier P 28 est à semi–droite du palier P 25 .<br />
Le palier P 15 est à gauche du palier P 19 mais P 15 n’est pas à semi–gauche du palier P 19 .<br />
Definition 25 Soi<strong>en</strong>t G 1 <strong>et</strong> G 2 des paliers de P, on dit que G 1 est le palier maximal<br />
gauche de G 2 si:<br />
• G 1 est à gauche de G 2 .<br />
• G 1 est un palier maximal.<br />
• max(G 2 ) = max(G 1 ).<br />
Example 12 Si on a la “pyramide <strong>en</strong> construction” de la Figure 2.3 alors le palier P 26 est<br />
le palier maximal gauche du palier P 16 .<br />
Definition 26 Soit G un palier de P qui apparti<strong>en</strong>t à la <strong>com</strong>posante connexe C, soi<strong>en</strong>t<br />
G 1 , G 2 , . . . , G l des paliers maximaux de la <strong>com</strong>posante connexe C, ordonnés de gauche<br />
à droite suivant l’ordre ≤ C (c’est–à–dire G i est à gauche de G i+1 ). Si G m est le palier<br />
maximal gauche de G <strong>et</strong> m < l alors G m+1 s’appelle le palier maximal immédiat de G.<br />
Si m = l on dira que G n’a pas de palier maximal immédiat.<br />
Example 13 Si on a la “pyramide <strong>en</strong> construction” de la Figure 2.4 alors on a trois <strong>com</strong>posantes<br />
connexes C 1 = {9, 4, 6, 10, 15, 13}, C 2 = {2, 11, 1} <strong>et</strong> C 3 = {3, 8, 16, 7, 12, 14, 5}.
<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 37<br />
6.00 ✻<br />
5.00<br />
4.00<br />
3.00<br />
2.00<br />
1.00<br />
P 35<br />
P 32 P 33 P 34<br />
P 31<br />
P 26 P 27 P 28 P 29 P 30<br />
P 22 P 23 P 24 P 25<br />
P 17 P 18 P 19 P 20 P 21<br />
9 4 6 10 15 13 2 11 1 3 8 16 7 12 14 5<br />
✲<br />
Figure 2.4: Pyramide <strong>en</strong> construction.<br />
Les paliers maximaux de la <strong>com</strong>posante connexe C 1 sont P 26 <strong>et</strong> P 32 , les paliers maximaux<br />
de la <strong>com</strong>posante connexe C 2 sont P 19 <strong>et</strong> P 33 <strong>et</strong> les paliers maximaux de la <strong>com</strong>posante<br />
connexe C 3 sont P 35 <strong>et</strong> P 21 . Le palier maximal gauche de P 22 est P 26 <strong>et</strong> P 32 est son palier<br />
maximal immédiat<br />
Dans la définition suivante on prés<strong>en</strong>te les critères d’agrégation de deux paliers. Quand les<br />
deux paliers apparti<strong>en</strong>n<strong>en</strong>t à la même <strong>com</strong>posante connexe le critère est ess<strong>en</strong>tiellem<strong>en</strong>t<br />
le même que celui proposé par Bertrand ([3, Bertrand <strong>et</strong> Diday (1990)]), néanmoins,<br />
dans le cas où les deux paliers apparti<strong>en</strong>n<strong>en</strong>t à des <strong>com</strong>posantes différ<strong>en</strong>tes la condition<br />
qui dit que le premier palier est “devant 1 ” le deuxième s’élimine. C<strong>et</strong>te idée perm<strong>et</strong><br />
de construire des pyramides plus <strong>en</strong> accord avec la structure de “dissimilarités” <strong>en</strong>tre<br />
les obj<strong>et</strong>s (individus), car la condition qui établit que le premier palier est “devant” le<br />
deuxième provoque que la dernière pyramide soit (probablem<strong>en</strong>t) affectée par l’ordre<br />
initial <strong>et</strong> arbitraire des obj<strong>et</strong>s de Ω. De plus dans notre algorithme, c<strong>et</strong>te condition n’a<br />
pas de s<strong>en</strong>s car l’algorithme ne <strong>com</strong>m<strong>en</strong>ce pas avec un ordre arbitraire sur les obj<strong>et</strong>s,<br />
1 Brito dans [Brito (1991)] prés<strong>en</strong>te la notion d’un palier devant un autre.
<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 38<br />
mais il part de n <strong>com</strong>posantes connexes avec un ordre total trivial 2 associé à chacune des<br />
<strong>com</strong>posantes connexes.<br />
Definition 27 Soi<strong>en</strong>t G 1 <strong>et</strong> G 2 des paliers de P.<br />
Cas 1: Si G 1 <strong>et</strong> G 2 apparti<strong>en</strong>n<strong>en</strong>t à la même <strong>com</strong>posante connexe, <strong>et</strong> on note par ←− G le<br />
palier maximal gauche de G 1 <strong>et</strong> par −→ G le palier maximal immédiat de G 1 (s’il existe<br />
3 ), alors G 1 <strong>et</strong> G 2 sont agrégeables si les deux conditions suivantes sont vérifiées:<br />
1. G 1 est à droite de ←− G <strong>et</strong> semi–gauche de ←− G ∩ −→ G .<br />
2. G 2 est à gauche de −→ G <strong>et</strong> semi–droite de ←− G ∩ −→ G .<br />
Cas 2: Si G 1 <strong>et</strong> G 2 n’apparti<strong>en</strong>n<strong>en</strong>t pas à la même <strong>com</strong>posante connexe, <strong>et</strong> si on note<br />
par C 1 <strong>et</strong> C 2 les <strong>com</strong>posantes connexes auxquelles G 1 <strong>et</strong> G 2 apparti<strong>en</strong>n<strong>en</strong>t respectivem<strong>en</strong>t.<br />
Alors G 1 <strong>et</strong> G 2 sont agrégeables si les deux conditions suivantes sont<br />
vérifiées:<br />
1. min(G 1 ) = min(C 1 ) ou max(G 1 ) = max(C 1 ).<br />
2. min(G 2 ) = min(C 2 ) ou max(G 2 ) = max(C 2 ).<br />
Example 14 Si on a la “pyramide <strong>en</strong> construction” de la Figure 2.4 alors le palier P 26 est<br />
agrégeable avec les paliers P 27 , P 31 , P 32 , P 2 = {2}, P 19 , P 33 , P 1 = {1}, P 3 = {3}, P 23 ,<br />
P 29 , P 34 , P 35 , P 21 <strong>et</strong> P 5 = {5}. Au contraire le palier P 22 est seulem<strong>en</strong>t agrégeable avec<br />
les paliers P 27 , P 31 <strong>et</strong> P 32 .<br />
Definition 28 Un palier G de P s’appelle actif si les trois conditions suivantes sont<br />
vérifiées:<br />
2 L’ordre est trivial car chaque <strong>com</strong>posante connexe initiale a cardinalité 1.<br />
3 Si le palier maximal immédiat n’existe pas alors les paliers ne seront pas agrégeables.
<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 39<br />
• Il existe un palier G ⋆ dans P tel que G est agrégeable avec G ⋆ .<br />
• ∄ ˜G ∈ P tel que G est palier intérieur à ˜G.<br />
• G n’a pas été agrégé deux fois.<br />
Example 15 Si on a la “pyramide <strong>en</strong> construction” de la Figure 2.4 alors les paliers P 9 ,<br />
P 17 , P 26 , P 22 , P 27 , P 31 , P 32 , P 28 , P 13 , P 2 , P 19 , P 33 , P 1 , P 3 , P 23 , P 29 , P 35 , P 34 , P 21 , <strong>et</strong> P 5<br />
sont actifs. Au contraire les paliers P 4 , P 6 , P 10 , P 18 , P 15 , P 11 , P 8 , P 24 , P 16 , P 25 , P 30 , P 7 ,<br />
P 20 , P 12 <strong>et</strong> P 14 ne sont pas actifs.<br />
ALGORITHME DE CLASSIFICATION ASCENDANTE PYRAMIDALE SYM-<br />
BOLIQUE (CAPS)<br />
Entrée :<br />
• M =Nombre maximum d’itérations.<br />
• N =Nombre de vecteurs de données symboliques (nombre de lignes du tableau<br />
de données symboliques).<br />
• P =Nombre de variables (nombre de colonnes du tableau de données symboliques).<br />
• X =Tableau de données symboliques.<br />
Sortie :<br />
• Un ordre total “≤” sur l’<strong>en</strong>semble Ω des obj<strong>et</strong>s.<br />
• Structure pyramidale, c’est–à–dire, une suite de vecteurs (p, p I ,<br />
p D , f(p)), avec p = 1, 2, . . . , NG, où NG =nombre total de paliers de la<br />
pyramide, p I =fils gauche du palier p <strong>et</strong> p D =fils droit du palier p. Si p est un<br />
palier singl<strong>et</strong>on alors p I = p D = 0.<br />
• Un obj<strong>et</strong> symbolique O p associé au palier p, avec p = 1, 2, . . . , NG.
<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 40<br />
• L’ext<strong>en</strong>sion de l’obj<strong>et</strong> associé à chaque palier, c’est–à–dire,<br />
Ext(O p ), avec p = 1, 2, . . . , NG.<br />
• Si l’algorithme échoue, la sortie sera un message d’erreur.<br />
Etape 1: Phase d’initialisation<br />
Etape 1.1 h = 1, où h est le nombre d’itérations.<br />
Etape 1.2 NG = N, où NG =Nombre total de paliers de la pyramide.<br />
Etape 1.3 NC = N, où NC =Nombre de <strong>com</strong>posantes connexes, à une itération<br />
donnée (à la fin de l’exécution de l’algorithme on aura NC = 1).<br />
Etape 1.4 NP = N, où NP =Nombre de paliers actifs <strong>en</strong> une itération donnée (à<br />
la fin de l’exécution de l’algorithme on aura NP = 1).<br />
Etape 1.5 On initialise les N premiers vecteurs de la structure pyramidale, de la<br />
forme suivante: (s, 0, 0, 0), s = 1, 2, . . . , N.<br />
Etape 1.6 On construit NC <strong>com</strong>posantes connexes initiales C s = {s},<br />
s = 1, 2, . . . , NC, <strong>et</strong> un ordre total ≤ C associé à chaque <strong>com</strong>posante connexe,<br />
dans lequel on a initialem<strong>en</strong>t que s ≤ C s. De plus on désigne par C<br />
l’<strong>en</strong>semble de toutes les <strong>com</strong>posantes, c’est–à–dire, C = {C 1 , C 2 , . . . , C NC }.<br />
Etape 1.7 On construit NP paliers actifs initiaux G q = {(α, β, s q , l)}, pour q =<br />
1, 2, . . . , NP de la manière suivante: α est un nombre associé à chaque palier<br />
actif <strong>en</strong> une itération donnée (les paliers actifs seront numérotés de 1 jusqu’à<br />
NP ), β est le nombre global du palier (pour le premier palier construit par<br />
l’algorithme β = N + 1, pour le deuxième palier construit par l’algorithme<br />
β = N + 2 <strong>et</strong> ainsi de suite), s q est le vecteur de données symboliques<br />
qui est emmagasiné dans la ligne q−ième du tableau de données symboliques<br />
(au début chaque ligne de la matrice correspond à un palier, néanmoins,<br />
quand l’algorithme avance, un palier peut correspondre à l’union de divers
<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 41<br />
obj<strong>et</strong>s symboliques, c’est–à–dire, le palier peut être associée à la “union” de<br />
divers lignes du tableau de données symboliques) <strong>et</strong> l est le nombre de fois<br />
que le palier a été agrégé (l ≤ 2). On note par G = {G s } s=1,2,...,NP =<br />
{(1, 1, s 1 , 0), (2, 2, s 2 , 0), . . . , (NP, NP, s NP , 0)} l’<strong>en</strong>semble de tous les paliers<br />
actifs initiaux, on note par G 1 q = α, G 2 q = β, G 3 q = s q <strong>et</strong> G 4 q = l.<br />
Etape 1.8 On calcule la matrice de dissimilarités initiale Dij<br />
h = g(s i ∪ s j ) (le<br />
degré de généralité) où s k est le vecteur de données symboliques qui est<br />
emmagasiné dans la k−ième ligne du tableau de données symboliques, avec<br />
i, j = 1, 2, . . . , N.<br />
Etape 2: Phase d’élimination<br />
Etape 2.1 On recherche les couples de paliers qui sont agrégeables, <strong>en</strong> utilisant les<br />
conditions de la définition 27, c’est–à–dire, on calcule la matrice:<br />
⎧<br />
1 si G l <strong>et</strong> G u sont agrégeables<br />
⎪⎨ 0 si G l <strong>et</strong> G u ne sont pas agrégeables<br />
B lu =<br />
0 si ∃ ˜G ∈ P tel que G l est un palier intérieur ˜G<br />
⎪⎩ 0 si ∃ ˜G ∈ P tel que G u est un palier intérieur ˜G<br />
pour l, u = 1, 2, . . . , NP .<br />
Etape 2.2 On calcule les paliers actifs qui ne sont plus agrégeables avec un autre<br />
palier (donc ils ne seront plus actifs), c’est–à–dire, on recherche tous les<br />
paliers Gη tels que la ligne <strong>et</strong> la colonne η de la matrice B ne conti<strong>en</strong>n<strong>en</strong>t<br />
que des zéros. Soit ˜G = {G α1 , G α2 , . . . , G αm } avec m ≥ 0 c<strong>et</strong> <strong>en</strong>semble de<br />
paliers.<br />
Etape 2.3 NP = NP − m.<br />
Etape 2.4 G = G ˜G.
<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 42<br />
Etape 2.5 Mise à jour de la matrice de dissimilarités D h de manière que:<br />
D h ∈ M (NP −m)×(NP −m) , car on a éliminé de D h toutes les lignes <strong>et</strong> colonnes<br />
associées aux paliers non actifs.<br />
Etape 3: Phase de formation du nouveaux paliers (Etape de Généralisation)<br />
Etape 3.1 On recherche s i <strong>et</strong> s j tels que D h ij = g(s i ∪s j ) soit minimum <strong>et</strong> B ij = 1,<br />
où i, j = 1, 2, . . . , NP . On note les paliers où ce minimum est atteint par s i ⋆<br />
<strong>et</strong> s j ⋆. Si B ij = 0, ∀ i, j = 1, 2, . . . , NP alors l’algorithme s’arrête <strong>et</strong> affiche<br />
un message d’erreur; autrem<strong>en</strong>t on passe à l’étape 3.2.<br />
Etape 3.2 NG = N + h <strong>et</strong> on calcule le vecteur suivant de la structure pyramidale<br />
NG, G 2 i ⋆, G2 j ⋆, Dh i ⋆ j ⋆).<br />
Etape 3.3 On calcule s ⋆ = s i ⋆ ∪ s j ⋆ <strong>et</strong> son ext<strong>en</strong>sion Ext(s ⋆ ).<br />
Etape 3.4 Si s ⋆ est <strong>com</strong>pl<strong>et</strong> <strong>et</strong> Ext(s ⋆ ) = Ext(s i ⋆) ∪ Ext(s j ⋆) alors on passe à<br />
l’étape 4, sinon on pr<strong>en</strong>d B i ⋆ j⋆ = 0 <strong>et</strong> on va à l’étape 3.1.<br />
Etape 4: Phase de mise à jour<br />
Etape 4.1 h = h + 1.<br />
Etape 4.2 (Mise à jour des <strong>com</strong>posantes) Si G i ⋆ ∈ C σ1 <strong>et</strong> G j ⋆ ∈ C σ2 sont tels que<br />
σ 1 ≠ σ 2 (apparti<strong>en</strong>n<strong>en</strong>t à des <strong>com</strong>posantes connexes différ<strong>en</strong>tes 4 ) alors:<br />
Etape 4.2.1 On construit une nouvelle <strong>com</strong>posante connexe C σ = C σ1 ∪ C σ2 ,<br />
<strong>en</strong>suite on définit dans C σ un nouvel ordre total. Pour faire cela il y a<br />
quatre possibilités (voir l’exemple 16):<br />
Cas 1: max(G i ⋆) = max(C σ1 ) <strong>et</strong> min(G<br />
⎧ j ⋆) = min(C σ2 ) :<br />
x ≤ ⎪⎨ Cσ1 y Si x, y ∈ C σ1<br />
Si x, y ∈ C σ alors x ≤ Cσ y ⇔ x ≤ Cσ2 y Si x, y ∈ C σ2<br />
⎪⎩ x ∈ C σ1 <strong>et</strong> y ∈ C σ2<br />
4 Si σ 1 = σ 2 l’algorithme mainti<strong>en</strong>drait les <strong>com</strong>posantes telles qu’elles sont.
<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 43<br />
Cas 2: max(G i ⋆) = max(C σ1 ) <strong>et</strong> max(G<br />
⎧ j ⋆) = max(C σ2 ) 5 :<br />
x ≤ ⎪⎨ Cσ1 y Si x, y ∈ C σ1<br />
Si x, y ∈ C σ alors x ≤ Cσ y ⇔ y ≤ Cσ2 x Si x, y ∈ C σ2<br />
⎪⎩ x ∈ C σ1 <strong>et</strong> y ∈ C σ2<br />
Cas 3: min(G i ⋆) = min(C σ1 ) <strong>et</strong> min(G<br />
⎧ j ⋆) = min(C σ2 ) 6 :<br />
y ≤ ⎪⎨ Cσ1 x Si x, y ∈ C σ1<br />
Si x, y ∈ C σ alors x ≤ Cσ y ⇔ x ≤ Cσ2 y Si x, y ∈ C σ2<br />
⎪⎩ x ∈ C σ1 <strong>et</strong> y ∈ C σ2<br />
Cas 4: min(G i ⋆) = min(C σ1 ) <strong>et</strong> max(G<br />
⎧ j ⋆) = max(C σ2 ) 7 :<br />
y ≤ ⎪⎨ Cσ1 x Si x, y ∈ C σ1<br />
Si x, y ∈ C σ alors x ≤ Cσ y ⇔ y ≤ Cσ2 x Si x, y ∈ C σ2<br />
⎪⎩ x ∈ C σ1 <strong>et</strong> y ∈ C σ2<br />
Etape 4.2.2 NC = NC − 1.<br />
Etape 4.2.3 C = (C {C σ1 , C σ2 }) ∪ {C σ }.<br />
Etape 4.3 (Mise à jour des paliers actifs)<br />
Etape 4.3.1 On calcule le nouveau palier 8 : G σ = G i ⋆ ∪ G j ⋆ := {(G 1 i ⋆, N +<br />
h, s i ⋆ ∪ s j ⋆, 0)} <strong>et</strong> on m<strong>et</strong> à jour le nombre de fois que ces deux paliers<br />
ont été agrégés, c’est–à–dire, G 4 i = ⋆ G4 i + 1 <strong>et</strong> ⋆ G4 j = ⋆ G4 j⋆ + 1. Après<br />
on élimine (désactive) les paliers qui ont été agrégés deux fois. Pour faire<br />
cela il y a quatre possibilités:<br />
Cas 1: Si G 4 i = 2 <strong>et</strong> ⋆ G4 j⋆ = 2 (les deux paliers ont été agrégés deux fois)<br />
alors: NP = NP − 1 <strong>et</strong> G = (G {G i ⋆, G j ⋆}) ∪ {G σ }.<br />
5 On a fait une “inversion” des élém<strong>en</strong>ts de C α2 .<br />
6 On a fait une “inversion” des élém<strong>en</strong>ts de C α1 .<br />
7 On a fait une “inversion” des élém<strong>en</strong>ts de C α1 <strong>et</strong> des élém<strong>en</strong>ts de C α2 .<br />
8 L’inversion dans une <strong>com</strong>posante implique l’inversion de tous les paliers qui apparti<strong>en</strong>n<strong>en</strong>t à c<strong>et</strong>te<br />
<strong>com</strong>posante, donc l’ordre des élém<strong>en</strong>ts des paliers est par définition hérité de l’ordre des élém<strong>en</strong>ts dans la<br />
<strong>com</strong>posante.
<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 44<br />
7.00 ✻<br />
6.00<br />
5.00<br />
4.00<br />
3.00<br />
2.00<br />
1.00<br />
31<br />
28 27 26<br />
29 30<br />
36<br />
32 34<br />
33<br />
22 23 24 25<br />
18 17<br />
20 21 19<br />
13 15 10 6 4 9 3 8 16 7 12 14 5 2 11 1<br />
35<br />
✲<br />
Figure 2.5: Pyramide obt<strong>en</strong>ue après l’union de deux <strong>com</strong>posantes connexes.<br />
Cas 2: Si G 4 i = 1 <strong>et</strong> ⋆ G4 j⋆ = 1 (les deux paliers ont été agrégés une fois)<br />
alors: NP = NP + 1 <strong>et</strong> G = G ∪ {G σ }.<br />
Cas 3: Si G 4 i ⋆ = 2 <strong>et</strong> G4 j ⋆ = 1 (G i ⋆ a été agrégé deux fois <strong>et</strong> G j ⋆ a été<br />
agrégé une fois) alors: G = (G {G i ⋆}) ∪ {G σ }.<br />
Cas 4: Si G 4 i ⋆ = 1 <strong>et</strong> G4 j ⋆ = 2 (G j ⋆ a été agrégé deux fois <strong>et</strong> G i ⋆ a été<br />
agrégé une fois) alors: G = (G {G j ⋆}) ∪ {G σ }.<br />
Etape 4.4 On calcule la nouvelle matrice de “dissimilarités” D h ij = g(s i ∪ s j ) pour<br />
i, j = 1, 2, . . . , NP . (On calcule seulem<strong>en</strong>t les “dissimilarités” qui n’ont pas<br />
été calculées avant)<br />
Etape 5: Si NP = 1 alors l’algorithme s’arrête; <strong>en</strong> cas contraire, si h > M alors<br />
l’algorithme affiche un message d’erreur, sinon on passe à l’étape 2.<br />
Example 16 Si on a la “pyramide <strong>en</strong> construction” de la Figure 2.4 <strong>et</strong> si le minimum est<br />
atteint <strong>en</strong>tre les palier P 26 <strong>et</strong> P 23 alors on obti<strong>en</strong>t la pyramide de la Figure 2.5.
<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 45<br />
Remark 7 Dans l’étape 3.1 le minimum pouvait s’obt<strong>en</strong>ir dans des divers couples d’obj<strong>et</strong>s<br />
symboliques. Si on voulait trouver une pyramide non “saturée” (Voir la définition dans<br />
[28, Diday (1984)]) alors on devrait choisir le couple de paliers (obj<strong>et</strong>s symboliques) de<br />
manière à ce qu’ils soi<strong>en</strong>t le plus loin 9 possible dans la <strong>com</strong>posante connexe à laquelle<br />
apparti<strong>en</strong>n<strong>en</strong>t (ou à laquelle apparti<strong>en</strong>dront lorque l’agrégation sera effectuée). Si <strong>en</strong> revanche<br />
on voulait une pyramide avec le maximum possible de paliers, alors on devrait<br />
choisir le couple de paliers (obj<strong>et</strong>s symboliques) de façon à qu’ils soi<strong>en</strong>t le plus près possible<br />
dans la <strong>com</strong>posante connexe à laquelle apparti<strong>en</strong>n<strong>en</strong>t (ou à laquelle apparti<strong>en</strong>dront<br />
une fois l’agrégation effectuée). Celui–ci est une option du module de pyramide dans<br />
PIMAD-Symbolique qui exécute c<strong>et</strong> algorithme (voir annexe 1).<br />
2.3 Algorithme de <strong>Classification</strong> Pyramidale Symbolique<br />
avec Ordre Donné<br />
Dans c<strong>et</strong>te section on prés<strong>en</strong>te un algorithme pour construire une pyramide symbolique<br />
binaire quand on a l’ordre des obj<strong>et</strong>s a priori 10 . C<strong>et</strong> algorithme est un cas particulier du<br />
précéd<strong>en</strong>t, puisqu’il démarre avec n = 1 <strong>com</strong>posante connexe, alors que CAPS le fait<br />
avec n = |Ω|.<br />
ALGORITHME DE CLASSIFICATION ASCENDANTE PYRAMIDALE SYM-<br />
BOLIQUE AVEC UN ORDRE DONNÉ (CAPSO)<br />
Entrée :<br />
• M =Nombre maximum d’itérations.<br />
9 Le plus loin possible selon l’ordre total ≤ C associé à la <strong>com</strong>posante connexe.<br />
10 C<strong>et</strong> ordre ne se rapporte pas à l’ordre symbolique prés<strong>en</strong>té dans la définition 3, mais plutôt il se rapporte<br />
à un ordre dans le s<strong>en</strong>s classique parmi les premiers n paliers (feuilles) de la pyramide.
<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 46<br />
• N =Nombre de vecteurs de données symboliques (nombre de lignes du tableau<br />
de données symboliques).<br />
• P =Nombre de variables (nombre de colonnes du tableau de données symboliques).<br />
• X =Tableau de données symboliques.<br />
• Un ordre total “≤ Ω ” sur l’<strong>en</strong>semble Ω d’obj<strong>et</strong>s.<br />
Sortie :<br />
• Structure pyramidale, c’est–à–dire, une suite de vecteurs (p, p I ,<br />
p D , f(p)), avec p = 1, 2, . . . , NG, où NG =nombre total de paliers de la<br />
pyramide, p I =fils gauche du palier p <strong>et</strong> p D =fils droit du palier p. Si p est un<br />
palier singl<strong>et</strong>on alors p I = p D = 0.<br />
• Un obj<strong>et</strong> symbolique O p associé au palier p, avec p = 1, 2, . . . , NG.<br />
• L’ext<strong>en</strong>sion de l’obj<strong>et</strong> associée à chaque palier, c’est–à–dire,<br />
Ext(O p ), avec p = 1, 2, . . . , NG.<br />
• Si l’algorithme échoue, la sortie sera un message d’erreur.<br />
Etape 1: Phase d’initialisation<br />
Etape 1.1 h = 1, où h est le nombre d’itérations.<br />
Etape 1.2 NG = N, où NG =Nombre total de paliers de la pyramide.<br />
Etape 1.3 NC = 1, où NC =Nombre de <strong>com</strong>posantes connexes, à une itération<br />
donnée.<br />
Etape 1.4 NP = N, où NP =Nombre de paliers actifs <strong>en</strong> une itération donnée (à<br />
la fin de l’exécution de l’algorithme on aura NP = 1).<br />
Etape 1.5 On initialise les N premiers vecteurs de la structure pyramidale, de la<br />
forme suivante: (s, 0, 0, 0), s = 1, 2, . . . , N.
<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 47<br />
Etape 1.6 On construit une <strong>com</strong>posante connexe C = {s 1 , s 2 , . . . , s N }, avec un<br />
ordre total ≤ C , défini de la forme suivante: s i ≤ C s j ⇔ s i ≤ Ω s j .<br />
Etape 1.7 On construit NP paliers actifs initiaux G q = {(α, β, s q , l)}, pour q =<br />
1, 2, . . . , NP de la manière suivante: α est un nombre associé à chaque palier<br />
actif dans une itération donnée (les paliers actifs seront numérot<strong>en</strong>t de 1 jusqu’à<br />
NP ), β est le nombre global du palier (pour le premier palier construit par<br />
l’algorithme β = N + 1, pour le deuxième palier construit par l’algorithme<br />
β = N + 2 <strong>et</strong> ainsi de suite), s q est le vecteur de données symboliques qui<br />
est emmagasiné dans la ligne q−ième du tableau de données symboliques (au<br />
début chaque ligne de la matrice correspond à un palier, néanmoins, quand<br />
l’algorithme avance un palier peut correspondre à l’union de divers obj<strong>et</strong>s<br />
symboliques, c’est-à-dire, il pourrait être associé à l’union de diverses lignes<br />
du tableau de données symboliques) <strong>et</strong> l est le nombre de fois que le palier<br />
a été agrégé (l ≤ 2). On note par G = {G s } s=1,2,...,NP = {(1, 1, s 1 , 0),<br />
(2, 2, s 2 , 0), . . . , (NP, NP, s NP , 0)} l’<strong>en</strong>semble de tous les paliers actifs initiaux,<br />
on note par G 1 q = α, G 2 q = β, G 3 q = s q <strong>et</strong> G 4 q = l.<br />
Etape 1.8 On calcule la matrice de dissimilarités initiale Dij<br />
h = g(s i ∪ s j ) (le<br />
degré de généralité), où s k est le vecteur de données symboliques qui est<br />
emmagasiné dans la k−ième ligne du tableau de données symboliques, avec<br />
i, j = 1, 2, . . . , N.<br />
Etape 2: Phase d’élimination<br />
Etape 2.1 On recherche les couples de paliers qui sont agrégeables, <strong>en</strong> utilisant les
<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 48<br />
conditions de la définition 27, c’est-à-dire, on calcule la matrice:<br />
⎧<br />
1 si G l <strong>et</strong> G u sont agrégeables<br />
⎪⎨ 0 si G l <strong>et</strong> G u ne sont pas agrégeables<br />
B lu =<br />
0 si ∃ ˜G ∈ P tel que G l est un palier intérieur ˜G<br />
⎪⎩ 0 si ∃ ˜G ∈ P tel que G u est un palier intérieur ˜G<br />
pour l, u = 1, 2, . . . , NP .<br />
Etape 2.2 On calcule les paliers actifs qui ne sont plus agrégeables avec un autre<br />
palier (donc ils ne seront plus actifs), c’est–à–dire, on recherche tous les<br />
paliers Gη tels que la ligne <strong>et</strong> la colonne η de la matrice B ne conti<strong>en</strong>n<strong>en</strong>t<br />
que des zéros. Soit ˜G = {G α1 , G α2 , . . . , G αm } avec m ≥ 0 c<strong>et</strong> <strong>en</strong>semble de<br />
paliers.<br />
Etape 2.3 NP = NP − m.<br />
Etape 2.4 G = G ˜G.<br />
Etape 2.5 Mise à jour de la matrice de dissimilarités D h de façon que:<br />
D h ∈ M (NP −m)×(NP −m) , donc on a éliminé de D h toutes les lignes <strong>et</strong> colonnes<br />
associées à des paliers non actifs.<br />
Etape 3: Phase de formation du nouveaux paliers (Etape de Généralisation)<br />
Etape 3.1 On recherche s i <strong>et</strong> s j tel que Dij h = G(s i ∪ s j ) soit minimum <strong>et</strong> B ij = 1,<br />
où i, j = 1, 2, . . . , NP . On note les paliers où ce minimum est atteint par s i ⋆<br />
<strong>et</strong> s j ⋆. Si B ij = 0, ∀ i, j = 1, 2, . . . , NP , alors l’algorithme s’arrête <strong>et</strong> affiche<br />
un message d’erreur; autrem<strong>en</strong>t on passe à l’étape 3.2.<br />
Etape 3.2 NG = N + h, toute de suite on calcule le vecteur suivant de la structure<br />
pyramidale (NG, G 2 i ⋆, G2 j ⋆, Dh i ⋆ j ⋆).<br />
Etape 3.3 On calcule s ⋆ = s i ⋆ ∪ s j ⋆ <strong>et</strong> son ext<strong>en</strong>sion Ext(s ⋆ ).
<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 49<br />
Etape 3.4 Si s ⋆ est <strong>com</strong>pl<strong>et</strong> <strong>et</strong> Ext(s ⋆ ) = Ext(s i ⋆) ∪ Ext(s j ⋆) alors on passe à<br />
l’étape 4, sinon on pr<strong>en</strong>d B i ⋆ j⋆ = 0 <strong>et</strong> l’algorithme se poursuit à l’étape 3.1.<br />
Etape 4: Phase de mise à jour<br />
Etape 4.1 h = h + 1.<br />
Etape 4.2 (Mise à jour des paliers actifs)<br />
Etape 4.2.1 On calcule le nouveau palier: G σ = G i ⋆ ∪ G j ⋆ := {(G 1 i ⋆, N +<br />
h, s i ⋆ ∪ s j ⋆, 0)} <strong>et</strong> on m<strong>et</strong> à jour le nombre de fois que ces deux paliers<br />
ont été agrégé, c’est–à–dire, G 4 i = ⋆ G4 i + 1 <strong>et</strong> ⋆ G4 j = ⋆ G4 j⋆ + 1. Après on<br />
a éliminé (désactive) les paliers qui ont été agrégés deux fois. Pour faire<br />
ça, il y a quatre possibilités:<br />
Cas 1: Si G 4 i = 2 <strong>et</strong> ⋆ G4 j⋆ = 2 (les deux paliers ont été agrégés deux fois)<br />
alors: NP = NP − 1 <strong>et</strong> G = (G {G i ⋆, G j ⋆}) ∪ {G σ }.<br />
Cas 2: Si G 4 i = 1 <strong>et</strong> ⋆ G4 j⋆ = 1 (les deux paliers ont été agrégés une fois)<br />
alors: NP = NP + 1 <strong>et</strong> G = G ∪ {G σ }.<br />
Cas 3: Si G 4 i ⋆ = 2 <strong>et</strong> G4 j ⋆ = 1 (G i ⋆ a été agrégé deux fois <strong>et</strong> G j ⋆ a été<br />
agrégé une fois) alors: G = (G {G i ⋆}) ∪ {G σ }.<br />
Cas 4: Si G 4 i ⋆ = 1 <strong>et</strong> G4 j ⋆ = 2 (G j ⋆ a été agrégé deux fois <strong>et</strong> G i ⋆ a été<br />
agrégé une fois) alors: G = (G {G j ⋆}) ∪ {G σ }.<br />
Etape 4.3 On calcule la nouvelle matrice de “dissimilarités” D h ij = G(s i ∪s j ) pour<br />
i, j = 1, 2, . . . , NP (On calcule seulem<strong>en</strong>t les “dissimilarités” qui n’ont pas<br />
été calculees avant).<br />
Etape 5: Si NP = 1 alors l’algorithme s’arrête; <strong>en</strong> cas contraire, si h > M alors<br />
l’algorithme affiche un message d’erreur, sinon on passe à l’étape 2.
<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 50<br />
2.4 Théorèmes de converg<strong>en</strong>ce<br />
Diday dans [28, Diday (1984)] propose l’algorithme suivant (appelé CAP) pour construire<br />
une pyramide numérique:<br />
L’algorithme <strong>com</strong>m<strong>en</strong>ce par le choix d’un indice d’agrégation <strong>et</strong> passe <strong>en</strong>suite aux étapes<br />
suivantes:<br />
a) Chaque élém<strong>en</strong>t de Ω est dans la pyramide <strong>et</strong> s’appelle groupe.<br />
b) On agrège les deux groupes les plus proches parmi les groupes qui n’ont pas été<br />
agrégé deux fois.<br />
c) On répète l’étape b) jusqu’à ce qu’un groupe qui conti<strong>en</strong>ne Ω soit formé.<br />
De plus l’algorithme est suj<strong>et</strong> aux conditions suivants.<br />
d) Chaque fois qu’un groupe est formé on lui associe un ordre sur les deux groupes<br />
qu’il réunit.<br />
e) Deux groupes ne peuv<strong>en</strong>t pas être réunis s’ils ne sont pas connexes.<br />
f) Soi<strong>en</strong>t i <strong>et</strong> j les élém<strong>en</strong>ts extrêmes de la partie connexe de Ω associée à un groupe<br />
h; aucun groupe ne peut pas se connecter à un groupe inclus dans h qui ne conti<strong>en</strong>t<br />
ni i ni j.<br />
Lemma 1 L’algorithme CAP construit une pyramide.<br />
Démonstration: Peut être consultée dans [28, Diday (1984)].<br />
Proposition 2 L’algorithme CAPS construit une pyramide symbolique.
<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 51<br />
Démonstration: L’étape a) de l’algorithme CAP est exécuté par les étapes 1.5 <strong>et</strong> 1.7 de<br />
l’algorithme CAPS <strong>et</strong> l’étape b) de CAP est exécuté par les étapes 3.1 <strong>et</strong> 4.3 de CAPS.<br />
L’étape c) de CAP est équival<strong>en</strong>te à l’étape 5 de CAPS.<br />
La condition d) de l’algorithme CAP est équival<strong>en</strong>te à l’étape 4.3.1 de l’algorithme CAPS.<br />
Les conditions e) <strong>et</strong> f) de CAP sont garanties par le cas 1 <strong>et</strong> le cas 2 de la définition 27<br />
respectivem<strong>en</strong>t. Alors, si on utilise le lemme 1, on a que la sortie de CAPS satisfait la<br />
condition 1 de la définition 15.<br />
L’étape 3.4 de l’algorithme CAPS garantit que la sortie sera une pyramide symbolique,<br />
donc à c<strong>et</strong>te étape on vérifie la <strong>com</strong>plétude de l’obj<strong>et</strong> symbolique construit par la nouvelle<br />
agrégation. Si c<strong>et</strong> obj<strong>et</strong> symbolique n’est pas <strong>com</strong>pl<strong>et</strong>, le minimum est écarté <strong>et</strong><br />
on continue à l’étape 3.1 jusqu’à trouver un couple de paliers qui satisfasse les conditions<br />
d’agrégation <strong>et</strong> qui donne lieu à un obj<strong>et</strong> symbolique <strong>com</strong>pl<strong>et</strong>. S’il n’y a pas de<br />
paliers, alors CAPS r<strong>et</strong>ournera un message d’erreur; avec c<strong>et</strong>te condition on garantit que<br />
si l’algorithme CAPS s’arrête alors il construit une pyramide symbolique, ainsi on a la<br />
condition 2 de la définition 15.<br />
<br />
Vu que l’algorithme CAPSO est un cas particulier de l’algorithme CAPS, on a le corollaire<br />
qui suit.<br />
Corollary 3 L’algorithme CAPSO construit une pyramide symbolique.<br />
2.5 Exemples<br />
Pour illustrer l’utilisation de l’algorithme dans c<strong>et</strong>te section on prés<strong>en</strong>te deux exemples<br />
d’exécution d’algorithme CAPS.
<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 52<br />
0.09<br />
✻<br />
18<br />
0.05<br />
17<br />
16<br />
0.04<br />
0.03<br />
13<br />
14<br />
15<br />
0.03<br />
0.02<br />
0.02<br />
0.01<br />
7<br />
9<br />
10<br />
8<br />
12<br />
11<br />
5 4 2 1 3 6<br />
✲<br />
Figure 2.6: Pyramide du tableau de données de l’exemple 1.1.1.<br />
Example 17 C<strong>et</strong> exemple correspond à l’exécution de l’algorithme CAPS avec le tableau<br />
de données symboliques qu’on a prés<strong>en</strong>té dans l’exemple 1.<br />
L’information suivante correspond aux obj<strong>et</strong>s symboliques <strong>et</strong> ses ext<strong>en</strong>sions respectives<br />
calculées par l’algorithme CAPS associés à chaque palier de la pyramide.<br />
Where the labels of variables are:<br />
y1=Number of adults over 16 years<br />
y2=QWEtv-lic<strong>en</strong>ce<br />
y3=Fuel type c<strong>en</strong>tral heating<br />
y4=C<strong>en</strong>tral heating install<br />
y5=CH repairs last 12 month
<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 53<br />
Where the labels of the individuals are:<br />
1="Northern m<strong>et</strong>ropolitan"<br />
2="North non-m<strong>et</strong>ropolitan"<br />
3="Yorks and humberside m<strong>et</strong>ropoli"<br />
4="Yorks and humberside non-m<strong>et</strong>ro"<br />
5="East midlands non-m<strong>et</strong>ropolitan"<br />
6="Northern Ireland"<br />
P7=[y1=[1.000,4.000]]ˆ[y2={1.00}]ˆ[y3=(1(0.7181),2(0.0537),3(0.4348),<br />
4(0.0870),5(0.0435),6(0.0134),7(0.0067))]ˆ[y4=(1(0.0435),2(0.9799<br />
))]ˆ[y5=(1(0.8696),2(0.2483))]<br />
Ext(P7)={4,5}<br />
P8=[y1=[1.000,5.000]]ˆ[y2={2.00}]ˆ[y3=(1(0.7882),2(0.1151),3(0.2806),<br />
4(0.0791),5(0.0288),6(0.0000),7(0.0000))]ˆ[y4=(1(0.0588),2(0.9856)<br />
)]ˆ[y5=(1(0.7765),2(0.2734))]<br />
Ext(P8)={1,3}<br />
P9=[y1=[1.000,4.000]]ˆ[y2={3.00,1.00}]ˆ[y3=(1(0.7181),2(0.1259),3(0.<br />
1879),4(0.0134),5(0.0070),6(0.0134),7(0.0067))]ˆ[y4=(1(0.0201),2(<br />
0.9860))]ˆ[y5=(1(0.7692),2(0.2483))]<br />
Ext(P9)={2,4}<br />
P10=[y1=[1.000,4.000]]ˆ[y2={2.00,3.00}]ˆ[y3=(1(0.6853),2(0.1259),3(0.<br />
2806),4(0.0791),5(0.0288),6(0.0000),7(0.0000))]ˆ[y4=(1(0.0144),2(<br />
0.9860))]ˆ[y5=(1(0.7692),2(0.2734))]<br />
Ext(P10)={1,2}<br />
P11=[y1=[1.000,6.000]]ˆ[y2={2.00}]ˆ[y3=(1(0.7882),2(0.4107),3(0.2000),<br />
4(0.3750),5(0.0089),6(0.0446),7(0.0179))]ˆ[y4=(1(0.0588),2(0.9643)<br />
)]ˆ[y5=(1(0.7768),2(0.2235))]<br />
Ext(P11)={3,6}<br />
P12=[y1=[1.000,6.000]]ˆ[y2={2.00}]ˆ[y3=(1(0.7882),2(0.4107),3(0.2806),<br />
4(0.3750),5(0.0288),6(0.0446),7(0.0179))]ˆ[y4=(1(0.0588),2(0.9856)<br />
)]ˆ[y5=(1(0.7768),2(0.2734))]<br />
Ext(P12)={1,3,6}
<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 54<br />
P13=[y1=[1.000,4.000]]ˆ[y2={1.00,3.00}]ˆ[y3=(1(0.7181),2(0.1259),3(0.4<br />
348),4(0.0870),5(0.0435),6(0.0134),7(0.0067))]ˆ[y4=(1(0.0435),2(0.<br />
9860))]ˆ[y5=(1(0.8696),2(0.2483))]<br />
Ext(P13)={2,4,5}<br />
P14=[y1=[1.000,4.000]]ˆ[y2={3.00,1.00,2.00}]ˆ[y3=(1(0.7181),2(0.1259),3<br />
(0.4348),4(0.0870),5(0.0435),6(0.0134),7(0.0067))]ˆ[y4=(1(0.0435),2<br />
(0.9860))]ˆ[y5=(1(0.8696),2(0.2734))]<br />
Ext(P14)={1,2,4,5}<br />
P15=[y1=[1.000,5.000]]ˆ[y2={2.00,3.00}]ˆ[y3=(1(0.7882),2(0.1259),3(0.28<br />
06),4(0.0791),5(0.0288),6(0.0000),7(0.0000))]ˆ[y4=(1(0.0588),2(0.98<br />
60))]ˆ[y5=(1(0.7765),2(0.2734))]<br />
Ext(P15)={1,2,3}<br />
P16=[y1=[1.000,6.000]]ˆ[y2={2.00,3.00}]ˆ[y3=(1(0.7882),2(0.4107),3(0.28<br />
06),4(0.3750),5(0.0288),6(0.0446),7(0.0179))]ˆ[y4=(1(0.0588),2(0.98<br />
60))]ˆ[y5=(1(0.7768),2(0.2734))]<br />
Ext(P16)={1,2,3,6}<br />
P17=[y1=[1.000,5.000]]ˆ[y2={2.00,3.00,1.00}]ˆ[y3=(1(0.7882),2(0.1259),<br />
3(0.4348),4(0.0870),5(0.0435),6(0.0134),7(0.0067))]ˆ[y4=(1(0.0588)<br />
,2(0.9860))]ˆ[y5=(1(0.8696),2(0.2734))]<br />
Ext(P17)={1,2,3,4,5}
<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 55<br />
P18=[y1=[1.000,6.000]]ˆ[y2={2.00,3.00,1.00}]ˆ[y3=(1(0.7882),2(0.4107),3<br />
(0.4348),4(0.3750),5(0.0435),6(0.0446),7(0.0179))]ˆ[y4=(1(0.0588),2<br />
(0.9860))]ˆ[y5=(1(0.8696),2(0.2734))]<br />
Ext(P18)={1,2,3,4,5,6}<br />
Chaque palier de la pyramide peut être interprété; par exemple, le palier P12 est un noeud<br />
des régions où “Number of adults older than 16 years” est <strong>en</strong>tre 1 <strong>et</strong> 6. Le nombre de<br />
permis de la télévision (QWEtv-lic<strong>en</strong>ce) est 2. Le type de “Fuel type c<strong>en</strong>tral heating”<br />
est 1 maximum 78,82% des cas, il est 2 au maximun 41,07% des cas, il est 3 maximum<br />
28,06% des cas, il est 4 maximum 37,5% des cas, il est 5 maximum 2,88% des cas, il est 6<br />
maximum 4,46% des cas, il est 7 maximum 1,79% des cas. “C<strong>en</strong>tral heating install” est 1<br />
maximum 5,8% <strong>et</strong> il est 2 maximum 98,56%. “CH repairs last 12 month” est 1 maximum<br />
77.68% des cas <strong>et</strong> il est 2 au maximum 27.34% des cas.<br />
Example 18 Dans c<strong>et</strong> exemple on illustre l’exécution de l’algorithme CAPS avec les<br />
données d’Ichino, on les prés<strong>en</strong>te dans le tableau 4.1. Chaque ligne du tableau représ<strong>en</strong>te<br />
un type d’huile décrit par 4 variables quantitatives de type intervalle: “Specific Gravity”,<br />
“Freezing point”, “Iodine Value” <strong>et</strong> “Saponification”. Dans la pyramide de la Figure 2.7<br />
on a modifié l’échelle (voir annexe 1) pour une meilleure visualisation des paliers <strong>et</strong> dans<br />
la pyramide de la Figure 2.8 on n’a pas modifié l’échelle. Si dans l’algorithme CAPS on<br />
désative (élimine) les paliers qui ont été agrégés une fois, on obti<strong>en</strong>t la hiérarchie binaire<br />
qui est prés<strong>en</strong>té dans la Figure 2.9.<br />
Les données suivantes correspond<strong>en</strong>t aux obj<strong>et</strong>s symboliques associés aux paliers numéro<br />
27, 32 <strong>et</strong> 36 <strong>et</strong> leurs ext<strong>en</strong>sions respectives calculées par l’algorithme CAPS.<br />
P27=[y1=[0.914,0.919]U[0.930,0.935]]ˆ[y2=[-27.000,-18.000]U[0.000,<br />
6.000]]ˆ[y3=[79.000,90.000]U[170.000,204.000]]ˆ<br />
[y4=[118.000,196.000]]
<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 56<br />
Figure 2.7: Représ<strong>en</strong>tation pyramidale de l’exemple de l’huile <strong>et</strong> la graisse (échelle modifié).<br />
Ext(P27)={1,6}<br />
P32=[y1=[0.858,0.870]U[0.914,0.919]U[0.920,0.926]U[0.930,0.937]]ˆ<br />
[y2=[-25.000,-15.000]U[-6.000,-1.000]U[0.000,6.000]U[22.000,<br />
38.000]]ˆ[y3=[40.000,48.000]U[53.000,77.000]U[79.000,90.000]U<br />
[99.000,116.000]U[192.000,208.000]]ˆ[y4=[187.000,202.000]]<br />
Ext(P32)={2,3,4,5,6,7,8}<br />
P36=[y1=[0.858,0.870]U[0.914,0.919]U[0.920,0.926]U[0.930,0.937]]ˆ<br />
[y2=[-27.000,-15.000]U[-6.000,-1.000]U[0.000,6.000]U[22.000,<br />
38.000]]ˆ[y3=[40.000,48.000]U[53.000,77.000]U[79.000,90.000]U<br />
[99.000,116.000]U[170.000,208.000]]ˆ[y4=[118.000,202.000]]<br />
Ext(P36)={1,2,3,4,5,6,7,8}<br />
Example 19 Dans c<strong>et</strong> exemple on illustre l’exécution de l’algorithme CAPSO avec les<br />
données d’Ichino, on les prés<strong>en</strong>te dans le tableau 4.1. Si 1=“L”, 2=“P”, 3=“Co”, 4=“S”,<br />
5=“Ca”, 6=“O”, 7=“B” <strong>et</strong> 8=“O”. Si on a l’ordre des obj<strong>et</strong>s a priori 7≤6≤5≤1≤2≤4≤3
<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 57<br />
✻<br />
1.00<br />
36<br />
0.54<br />
35<br />
0.23<br />
0.19<br />
33<br />
34<br />
0.11<br />
0.09<br />
0.05<br />
0.03<br />
30 31 32<br />
29<br />
28<br />
27<br />
26<br />
12 14 17<br />
21<br />
24<br />
25<br />
23<br />
9 13 10 19 16 11 20<br />
22<br />
15 18<br />
1 6 3 5 4 2 7 8<br />
✲<br />
Figure 2.8: Représ<strong>en</strong>tation pyramidale de l’exemple de l’huile <strong>et</strong> la graisse (échelle<br />
réelle).<br />
alors l’algorithme CAPSO produit la pyramide de la Figure 2.10.
<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 58<br />
Figure 2.9: Hiérarchie binaire de l’exemple de l’huile <strong>et</strong> la graisse (échelle modifié).
<strong>Classification</strong> Pyramidale Symbolique Asc<strong>en</strong>dante 59<br />
Figure 2.10: Représ<strong>en</strong>tation pyramidale de l’exemple de l’huile <strong>et</strong> la graisse si on a l’ordre<br />
des obj<strong>et</strong>s a priori 7≤6≤5≤1≤2≤4≤3.
Chapter 3<br />
La Régression Symbolique<br />
3.1 Introduction<br />
Dans ce chapitre nous généralisons la méthode classique de la régression linéare simple<br />
au cas de données symboliques de type intervalle.<br />
Pour généraliser ces méthodes il est nécessaire d’abord de faire la généralisation au cas<br />
symbolique des indices statistiques classiques d’une variable <strong>et</strong> de deux variables <strong>com</strong>me,<br />
la moy<strong>en</strong>ne, l’écart type, la corrélation, <strong>en</strong>tre autres. Ces généralisations ont toujours<br />
été faites selon le principe de base proposé par [32, Diday (1991)] dans lequel il est<br />
indiqué que “si l’<strong>en</strong>trée dans une analyse de données est symbolique alors la sortie devrait<br />
égalem<strong>en</strong>t être symbolique”, c’est–à–dire, si la variation est price <strong>en</strong> <strong>com</strong>pte dans l’<strong>en</strong>trée<br />
elle doit exister égalem<strong>en</strong>t dans la sortie.<br />
Ces généralisations ti<strong>en</strong>n<strong>en</strong>t <strong>com</strong>pte de celles effectuées par Bertrand <strong>et</strong> Goupil ([7, Bock<br />
<strong>et</strong> Diday (2000)]), dans lesquelles l’<strong>en</strong>trée est symbolique mais la sortie est numérique.<br />
Dans nos généralisations nous avons égalem<strong>en</strong>t t<strong>en</strong>u <strong>com</strong>pte du principe qui établit que<br />
l’analyse des données classiques devrait nécessairem<strong>en</strong>t être un cas particulier de l’analyse<br />
60
La Régression Symbolique 61<br />
des données symboliques. À la fin du chapitre, les caractéristiques principales du module<br />
pour la régression simple <strong>et</strong> multiple (qui est une partie du logiciel développé dans C++<br />
dans le cadre de la thèse) sont expliquées.<br />
La généralisation de l’analyse de données d’une variable au cas symbolique est nécessaire,<br />
parce que quand une analyse de données est faite, il est très important d’avoir une connaissance<br />
profonde du <strong>com</strong>portem<strong>en</strong>t de chaque variable. Même si l’objectif est de faire<br />
une analyse de données de multiples variables, c<strong>et</strong>te étape précéd<strong>en</strong>te d’exploration est<br />
indisp<strong>en</strong>sable.<br />
3.2 Statistiques descriptives pour de données symboliques<br />
3.2.1 La moy<strong>en</strong>ne symbolique<br />
Dans l’analyse de données classique la moy<strong>en</strong>ne est défini de la façon suivante: Soit<br />
Y une variable quantitative <strong>et</strong> soi<strong>en</strong>t y 1 , y 2 , . . . , y m les m valeurs observées pour c<strong>et</strong>te<br />
m∑<br />
variable, alors la moy<strong>en</strong>ne de Y est Y = 1 y<br />
m i .<br />
i=1<br />
Bertrand <strong>et</strong> Goupil dans ([7, Bock <strong>et</strong> Diday (2000)]) ont généralisé la définition de la<br />
moy<strong>en</strong>ne pour des variables quantitatives de type intervalle. Pour ceci, ils ont défini<br />
l’ordre statistique d’une variable Y , défini dans un <strong>en</strong>semble fini E = {1, 2, . . . , m},<br />
<strong>com</strong>me une fonction O Y : R → N telle que:<br />
O Y (ξ i ) = |k ∈ E tels que Y (k) = ξ i |. (3.1)<br />
l∑<br />
Avec la définition précéd<strong>en</strong>te il est clair que Y = 1 O<br />
m Y (ξ i )ξ i où ξ i , i = 1, 2, . . . , l<br />
sont tous les élém<strong>en</strong>ts différ<strong>en</strong>ts de E. Bertrand <strong>et</strong> Goupil ont généralisé la définition<br />
précéd<strong>en</strong>te pour des variables de type intervalle <strong>com</strong>me la moy<strong>en</strong>ne empirique définie par<br />
i=1
La Régression Symbolique 62<br />
Y =<br />
∫ +∞<br />
−∞<br />
ξf Y (ξ)dξ où Y est une variable type intervalle <strong>et</strong> f Y est sa fonction empirique<br />
de d<strong>en</strong>sité. Avec c<strong>et</strong>te définition il est facile de prouver que:<br />
Y = 1 m<br />
m∑<br />
i=1<br />
y i<br />
+ y i<br />
, (3.2)<br />
2<br />
où Y (i) = [y i<br />
, y i ], i = 1, 2, . . . , m (voir [7, Bock <strong>et</strong> Diday (2000)]).<br />
La définition de la moy<strong>en</strong>ne donnée par Bertrand <strong>et</strong> Goupil a une <strong>en</strong>trée de type intervalle,<br />
cep<strong>en</strong>dant, la sortie est une valeur numérique. C’est pour cela que le résultat<br />
de la moy<strong>en</strong>ne ne reflète pas vraim<strong>en</strong>t la variation de la variable. Par exemple si E =<br />
{1, 2, 3, 4}, Y (E) = {[1, 2], [−1, 4], [2, 3], [−1, 1]} <strong>et</strong> Z(E) = {[0, 3], [−2, 5], [1, 4], [−2, 2]}<br />
alors les deux variables ont la même moy<strong>en</strong>ne (Y = Z = 1.375), malgré le fait que la<br />
variable Z a une variation beaucoup plus grande que la variable Y .<br />
Nous définissons alors la moy<strong>en</strong>ne d’une variable de type d’intervalle <strong>com</strong>me un intervalle<br />
qui reflète vraim<strong>en</strong>t les valeurs possibles de la variable, c’est-à-dire, un intervalle<br />
dont la valeur minimum est la moy<strong>en</strong>ne minimum des valeurs prises par la variable dans<br />
E <strong>et</strong> dont la valeur maximum est la moy<strong>en</strong>ne maximum des valeurs prises par la variable<br />
dans E, plus formellem<strong>en</strong>t:<br />
Definition 29 Soit Y une variable de type intervalle définie dans E = {1, 2, . . . , m} par<br />
Y = {[y 1<br />
, y 1 ], [y 2<br />
, y 2 ], . . . , [y m<br />
, y m ]} alors on définit la moy<strong>en</strong>ne <strong>com</strong>me:<br />
[<br />
1<br />
m∑<br />
Y = y<br />
m i<br />
, 1 m<br />
i=1<br />
]<br />
m∑<br />
y i . (3.3)<br />
i=1<br />
De c<strong>et</strong>te manière dans l’exemple précéd<strong>en</strong>t si E = {1, 2, 3, 4} <strong>et</strong> Y (E) = {[1, 2], [−1, 4], [2, 3], [−1, 1]},<br />
Z(E) = {[0, 3], [−2, 5], [1, 4], [−2, 2]} alors les deux variables ont moy<strong>en</strong>ne differ<strong>en</strong>te<br />
Y = [0.25, 2.5] <strong>et</strong> Z = [−0.75, 3.5].
La Régression Symbolique 63<br />
3.2.2 La médiane symbolique<br />
Dans l’analyse de données classique, la médiane est la valeur qui est au c<strong>en</strong>tre des données<br />
quand elles sont ordonnées, c’est–à–dire, telle que 50% des données sont plus grandes que<br />
la médiane <strong>et</strong> que les 50% restantes sont plus p<strong>et</strong>ites.<br />
Plus formellem<strong>en</strong>t si on a m valeurs y 1 , y 2 , . . . , y m pour une variable quantitative Y <strong>et</strong><br />
nous supposons que ces valeurs sont ordonnées alors la valeur de la médiane dép<strong>en</strong>d de<br />
la parité de m:<br />
• Si m est impaire alors la médiane est <strong>en</strong> position m+1<br />
2<br />
qui est exactem<strong>en</strong>t la position<br />
qui sépare les données dans deux groupes de la même quantité d’élém<strong>en</strong>ts.<br />
• Si m est paire alors la médiane est <strong>en</strong>tre la position m 2 <strong>et</strong> la position m 2 + 1 dans<br />
une telle manière que les données sont divisées <strong>en</strong> deux groupes de même nombre<br />
d’élém<strong>en</strong>ts, m 2<br />
élém<strong>en</strong>ts chacun. Dans ce cas–ci, la médiane est définie <strong>com</strong>me la<br />
moy<strong>en</strong>ne <strong>en</strong>tre les données y m<br />
2 <strong>et</strong> y m<br />
2 +1 , c’est–à–dire, Me(Y )= y m 2 +y m 2 +1<br />
2<br />
.<br />
Dans le cas d’une variable symbolique de type intervalle nous voulons définir la médiane<br />
d’une manière semblable, mais de telle manière que la médiane soit un intervalle. Si<br />
la variable Y de type intervalle pr<strong>en</strong>d la valeur minimum pour tous les individus dans<br />
l’intervalle respectif, on devrait garantir que la valeur minimum de la médiane de type<br />
intervalle sépare ces valeurs dans deux groupes de la même taille. De la même manière,<br />
si la variable Y de type intervalle pr<strong>en</strong>d la valeur maximum pour tous les individus dans<br />
l’intervalle respectif, on devrait garantir que la valeur maximum de la médiane (type intervalle)<br />
sépare égalem<strong>en</strong>t ces valeurs dans deux groupes de la même taille.<br />
Pour réaliser ce qui est m<strong>en</strong>tionné ci–dessus il est évid<strong>en</strong>t qu’il suffit de définir la médiane<br />
d’un variable Y de type intervalle <strong>com</strong>me un intervalle dans lequel la valeur minimum est<br />
exactem<strong>en</strong>t la médiane de toutes les valeurs minimum possibles prises par la variable Y ,
La Régression Symbolique 64<br />
<strong>et</strong> dont la valeur maximum est la médiane de toutes les valeurs maximum possibles que<br />
peut pr<strong>en</strong>dre la variable Y . Plus formellem<strong>en</strong>t:<br />
Definition 30 Soit Y une variable de type intervalle définie dans E = {1, 2, . . . , m} par<br />
Y = {[y 1<br />
, y 1 ], [y 2<br />
, y 2 ], . . . , [y m<br />
, y m ]}, alors on définit la médiane symbolique <strong>com</strong>me:<br />
Me(Y ) = [ Me, Me ] , (3.4)<br />
où Me est la médiane classique de {y 1<br />
, y 2<br />
, . . . , y m<br />
} <strong>et</strong> Me est la médiane classique de<br />
{y 1 , y 2 , . . . , y m }.<br />
Example 20 Pour illustrer la définition précéd<strong>en</strong>te nous emploierons un exemple pris<br />
de ([5, Billard L. <strong>et</strong> Diday E. (2000)]). Dans c<strong>et</strong> exemple on a le “Pulse Rate” (Y ), la<br />
“Systolic Blood Pressure” (Y 1 ) <strong>et</strong> la “Diastolic Blood Pressure” (Y 2 ) pour onze pati<strong>en</strong>ts<br />
<strong>com</strong>me nous montrons dans le Tableau 3.1.<br />
Les médianes symboliques pour les trois variables sont: Me(Y ) = [70, 97], Me(Y 1 ) =<br />
[110, 146] <strong>et</strong> Me(Y 2 ) = [77, 100].<br />
3.2.3 Perc<strong>en</strong>tiles symboliques <strong>et</strong> déviation quartile symbolique<br />
Dans l’analyse des données classiques pour calculer la médiane les données sont ordonnées<br />
<strong>et</strong> alors la médiane les divise <strong>en</strong> deux groupes avec la même quantité d’élém<strong>en</strong>ts.<br />
Chacun de ces groupes a sa propre médiane. La médiane du groupe inférieur s’appelle le<br />
premier quartile <strong>et</strong> on la dénote par Q 1 , alors que la médiane du groupe supérieur s’appelle<br />
le troisième quartile <strong>et</strong> on la dénote par Q 3 . Dans le cas des variables symboliques de<br />
type intervalle nous pouvons procéder exactem<strong>en</strong>t de la même manière, c’est-à-dire, le<br />
premier quartile Q 1 sera la médiane de type intervalle du premier groupe de données <strong>et</strong> le
La Régression Symbolique 65<br />
Y Y 1 Y 2<br />
Pulse Systolic Diastolic<br />
Rate Pressure Pressure<br />
[44, 68] [90, 100] [50, 70]<br />
[60, 72] [90, 130] [70, 90]<br />
[56, 90] [140, 180] [90, 100]<br />
[70, 112] [110, 142] [80, 108]<br />
[54, 72] [90, 100] [50, 70]<br />
[70, 100] [134, 142] [80, 110]<br />
[72, 100] [130, 160] [76, 90]<br />
[76, 98] [110, 190] [70, 110]<br />
[86, 96] [138, 188] [90, 110]<br />
[86, 100] [110, 150] [78, 100]<br />
Table 3.1: Exemple avec onze pati<strong>en</strong>ts.<br />
troisième quartile Q 3 sera la médiane de type intervalle du deuxième groupe de données.<br />
Formellem<strong>en</strong>t on définit Q 1 = [Q 1<br />
, Q 1 ] <strong>et</strong> Q 3 = [Q 3<br />
, Q 3 ], où Q 1<br />
<strong>et</strong> Q 3<br />
sont le premier <strong>et</strong><br />
le troisième quartile de {y 1<br />
, y 2<br />
, . . . , y m<br />
}, Q 1 <strong>et</strong> Q 3 sont le premier <strong>et</strong> le troisième quartile<br />
de {y 1 , y 2 , . . . , y m }.<br />
Dans l’analyse des données classiques la déviation quartile est définie <strong>com</strong>me Q =<br />
Q 3 −Q 1<br />
2<br />
. C’est la distance <strong>en</strong>tre le troisième quartile <strong>et</strong> le première quartile divisé par<br />
deux. Pour les variables de type intervalle la déviation quartile est définie de manière<br />
semblable, c’est–est–dire, elle est définie <strong>com</strong>me l’intervalle dont le minimum est la distance<br />
minimum <strong>en</strong>tre le premier <strong>et</strong> la troisième quartile divisée par deux, <strong>et</strong> le maximum<br />
est la distance maximum <strong>en</strong>tre le premier <strong>et</strong> le troisième quartile divisée par deux (on<br />
remarquera que ce sont des intervalles).
La Régression Symbolique 66<br />
Definition 31 Soit Y une variable de type intervalle définie dans E = {1, 2, . . . , m} par<br />
Y = {[y 1<br />
, y 1 ], [y 2<br />
, y 2 ], . . . , [y m<br />
, y m ]} <strong>et</strong> soi<strong>en</strong>t Q 1 <strong>et</strong> Q 3 le premier quartile <strong>et</strong> le troisième<br />
quartile symboliques respectivem<strong>en</strong>t, alors on définit la déviation quartile symbolique de<br />
Y <strong>com</strong>me:<br />
⎡<br />
⎢ |x − y|<br />
Q(Y ) = ⎣min<br />
x∈Q 1 2<br />
y∈Q 3<br />
|x − y|<br />
, max<br />
x∈Q 1<br />
2<br />
y∈Q 3<br />
⎤<br />
⎥<br />
⎦ . (3.5)<br />
Example 21 En utilisant les données du Tableau 3.1, nous obt<strong>en</strong>ons Q 1 (Pulse-Rate) =<br />
[56, 72], Q 3 (Pulse-Rate) = [76, 100] <strong>et</strong> Q(Pulse-Rate) = [2, 22].<br />
3.2.4 La moy<strong>en</strong>ne symbolique des valeurs extrêmes<br />
Dans l’analyse des données classiques la moy<strong>en</strong>ne des valeurs extrêmes d’une variable<br />
quantitative Y est définie <strong>com</strong>me la moy<strong>en</strong>ne <strong>en</strong>tre la valeur maximum <strong>et</strong> la valeur minimum<br />
prises par Y . Pour le cas des variables symboliques de type intervalle la moy<strong>en</strong>ne<br />
symbolique des valeurs extrêmes est définie <strong>com</strong>me la moy<strong>en</strong>ne <strong>en</strong>tre l’intervalle qui<br />
conti<strong>en</strong>t la valeur maximum possible pour la variable <strong>et</strong> l’intervalle qui conti<strong>en</strong>t la valeur<br />
minimum possible pour la variable.<br />
Definition 32 Soit Y une variable de type intervalle définie dans E = {1, 2, . . . , m}<br />
par Y = {[y 1<br />
, y 1 ], [y 2<br />
, y 2 ], . . . , [y m<br />
, y m ]} <strong>et</strong> soit y min = min{y 1<br />
, y 2<br />
, . . . , y m<br />
}, y max =<br />
max{y 1 , y 2 , . . . , y m }, alors on définit la moy<strong>en</strong>ne symbolique des valeurs extrêmes <strong>com</strong>me:<br />
MExt(Y ) = [α, β] , (3.6)<br />
où [α, β] est la moy<strong>en</strong>ne symbolique <strong>en</strong>tre les intervalles [y min , y s ] <strong>et</strong><br />
] [y k<br />
, y max avec<br />
s, k ∈ {1, 2, . . . , m}.
La Régression Symbolique 67<br />
Example 22 En utilisant les données du Tableau 3.1 <strong>en</strong>core, nous obt<strong>en</strong>ons MExt(Y ) =<br />
[57, 90], MExt(Y 1 ) = [100, 145] <strong>et</strong> MExt(Y 2 ) = [70, 90].<br />
Remark 8 Notons que la moy<strong>en</strong>ne symbolique des valeurs extrêmes n’est pas un intervalle<br />
constitué par la moy<strong>en</strong>ne des valeurs extrêmes du minimum des intervalles <strong>et</strong> la<br />
moy<strong>en</strong>ne des valeurs extrêmes du maximum de ces intervalles.<br />
3.2.5 La variance <strong>et</strong> l’écart type symbolique<br />
Dans l’analyse des données classiques les mesures de dispersion mesur<strong>en</strong>t l’éloignem<strong>en</strong>t<br />
des données par rapport aux mesures de t<strong>en</strong>dance c<strong>en</strong>trale, par exemple de la moy<strong>en</strong>ne. Si<br />
la mesure de dispersion est p<strong>et</strong>ite alors toutes les données sont semblables. Dans l’analyse<br />
de données classique, la mesure de dispersion la plus utilisée est l’écart type. Soit Y une<br />
variable quantitative <strong>et</strong> soi<strong>en</strong>t y 1 , y√<br />
2 , . . . , y m les m valeurs observées pour c<strong>et</strong>te variable,<br />
m∑<br />
alors l’écart type de Y est σ Y = (y i − Y ) 2 , <strong>et</strong> la variance de Y est définie par<br />
Var(Y ) = σ 2 Y .<br />
1<br />
m<br />
i=1<br />
Bertrand <strong>et</strong> Goupil ont généralisé la définition précéd<strong>en</strong>te√ pour des variables de type<br />
∫ +∞<br />
intervalle <strong>com</strong>me l’écart type empirique défini par σ Y = (ξ − Y ) 2 f Y (ξ)dξ où<br />
−∞<br />
Y est une variable de type intervalle, <strong>et</strong> f Y est sa fonction empirique de d<strong>en</strong>sité (voir<br />
[7, Bock and Diday (2000)]). Billard <strong>et</strong> Diday ([5, Billard L. <strong>et</strong> Diday E. (2000)])<br />
( m∑<br />
m 2<br />
∑<br />
ont prouvé que σ Y = √ 1<br />
(y<br />
4m i + y i<br />
) 2 − 1 (y<br />
4m 2 i + y i<br />
))<br />
où Y (i) = [y i<br />
, y i ],<br />
i=1<br />
i = 1, 2, . . . , m. C<strong>et</strong>te définition a exactem<strong>en</strong>t le même problème que la moy<strong>en</strong>ne empirique.<br />
Par exemple, si E = {1, 2, 3, 4} <strong>et</strong> Y (E) = {[1, 2], [−1, 4], [2, 3], [−1, 1]},<br />
Z(E) = {[0, 3], [−2, 5], [1, 4], [−2, 2]} alors les deux variables ont le même écart type<br />
empirique (σ Y = σ Z = 0.892), bi<strong>en</strong> que la variable Z a une variation beaucoup plus<br />
grande que la variable Y .<br />
i=1
La Régression Symbolique 68<br />
Pour éviter ce problème, pour des variables de type intervalle, nous devrions définir la<br />
variance de façon à ce que c<strong>et</strong> indice mesure l’éloigném<strong>en</strong>t des données par rapport à la<br />
moy<strong>en</strong>nne symbolique de la variable, mais de telle façon à ce que c<strong>et</strong>te variance soit aussi<br />
un intervalle <strong>com</strong>portant la variance minimum <strong>et</strong> maximum.<br />
Definition 33 Soit Y une variable de type intervalle définie dans E = {1, 2, . . . , m}<br />
par Y = {[y 1<br />
, y 1 ], [y 2<br />
, y 2 ], . . . , [y m<br />
, y m ]} <strong>et</strong> soit Y = [α, β] alors on définit l’écart type<br />
symbolique <strong>et</strong> la variance symbolique par:<br />
<strong>et</strong><br />
⎡<br />
σ Y = ⎢<br />
⎣√ 1 m<br />
Var(Y ) =<br />
⎡<br />
m∑<br />
i=1<br />
⎢<br />
⎣ 1 m<br />
min<br />
x∈[y i<br />
,y i ]<br />
y∈[α,β]<br />
m∑<br />
i=1<br />
min<br />
x∈[y i<br />
,y i ]<br />
y∈[α,β]<br />
(x − y) 2 ,<br />
1<br />
√m<br />
(x − y) 2 , 1 m<br />
m∑<br />
i=1<br />
m∑<br />
i=1<br />
max<br />
x∈[y i<br />
,y i ]<br />
y∈[α,β]<br />
max<br />
x∈[y i<br />
,y i ]<br />
y∈[α,β]<br />
⎤<br />
(x − y) 2 ⎥<br />
⎦ , (3.7)<br />
⎤<br />
(x − y) 2 ⎥<br />
⎦ .<br />
Example 23 En utilisant les données du Tableau 3.1, nous obt<strong>en</strong>ons que σ Y = [0, 35.55],<br />
σ Y1 = [4.68, 49.60] <strong>et</strong> σ Y2 = [1.52, 32.23].<br />
Remark 9 Notons que l’écart type symbolique n’est pas un intervalle constitué par l’écart<br />
type des valeurs minimum des intervalles <strong>et</strong> l’écart type symbolique des valeurs maximum<br />
de ces intervalles.<br />
3.2.6 Histogrammes symboliques<br />
Dans l’analyse des données classiques quand on a une variable qualitative Y , son rang<br />
peut être divisée dans des classes pour établir une distribution des fréqu<strong>en</strong>ces.<br />
Pour
La Régression Symbolique 69<br />
ceci, le nombre de classes k étant choisi, nous pr<strong>en</strong>ons le maximum M <strong>et</strong> le minimum<br />
m de valeurs de la liste de données, alors la largeur des classes est c = M−m<br />
k<br />
.<br />
Habituellem<strong>en</strong>t les classes (intervalles) sont pris fermé à la gauche <strong>et</strong> s’ouvr<strong>en</strong>t à droite,<br />
exceptée la dernière classe qui est fermée aux deux côtés. Comme Bertrand <strong>et</strong> Goupil<br />
([7, Bock and Diday (2000)]) le suggèr<strong>en</strong>t, si on a une variable de type intervalle Y<br />
défini dans E = {1, 2, . . . , m} par Y = {[y 1<br />
, y 1 ], [y 2<br />
, y 2 ], . . . , [y m<br />
, y m ]} <strong>et</strong> si on note<br />
y min = min{y 1<br />
, y 2<br />
, . . . , y m<br />
}, y max = max{y 1 , y 2 , . . . , y m }, alors nous pouvons choisir<br />
le nombre de classes k <strong>et</strong> construire une partition de I = [y min , y max ] dans k classes<br />
(intervalles) I j = [u j−1 , u j [ pour j = 1, 2, . . . , k − 1, <strong>et</strong> I k = [u k−1 , u k ]. Avec ces<br />
notations l’histogramme symbolique de Y associé à la partition {I 1 , I 2 , . . . , I k } est la<br />
représ<strong>en</strong>tation graphique de la distribution de fréqu<strong>en</strong>ces {(I j , p j ), j = 1, 2, . . . , k}, où<br />
m∑<br />
p j = 1 l(Y (j)∩I J )<br />
<strong>et</strong> l(I) dénote la longueur de l’intervalle I.<br />
m l(Y (j))<br />
j=1<br />
Example 24 En utilisant les données du Tableau 3.1, l’histogramme symbolique de la<br />
variable Y 1 =Systolic–Pressure est prés<strong>en</strong>té dans la Figure 3.1.<br />
Figure 3.1: L’histogramme symbolique de la variable Y 1 =Systolic–Pressure.
La Régression Symbolique 70<br />
3.2.7 Boîtes de dispersion (Boxplot)<br />
L’objectif d’une boîte de dispersion est de donner une idée de la distribution des données.<br />
Dans l’analyse de données classique, la construction d’une boîte de dispersion est basée<br />
sur le calcul de la médiane <strong>et</strong> des quartiles: d’abord les données sont ordonnées, puis la<br />
médiane <strong>et</strong> les quartiles sont calculés. Pour la représ<strong>en</strong>tation graphique, une droite verticale<br />
est tirée de la plus p<strong>et</strong>ite donnée jusqu’à la plus grande, <strong>et</strong> on dessine un rectangle<br />
de taille 2Q qui va du premier quartile Q 1 au troisième quartile Q 3 , où Q est la déviation<br />
quartile. Enfin nous traçons une droite verticale dans le rectangle qui correspond à la position<br />
de la médiane. Pour le cas des variables de type intervalle, puisque les quartiles <strong>et</strong> la<br />
médiane sont des intervalles qui pourrai<strong>en</strong>t avoir l’intersection non vide, on dessine trois<br />
rectangles au lieu d’un, le premier correspond au premièr quartile, le second correspond<br />
à la médiane <strong>et</strong> le troisième correspond au troisième quartile.<br />
Example 25 En utilisant les données du Tableau 3.1, la boîte de dispersion de la variable<br />
Y =Pulse–Rate est prés<strong>en</strong>té dans la Figure 3.2.<br />
3.2.8 La corrélation symbolique<br />
Dans c<strong>et</strong>te section nous proposerons une définition de la corrélation symbolique <strong>en</strong>tre<br />
deux variables de type intervalle. Mais avant, il est important de rappeler quelques<br />
définitions classiques.<br />
Definition 34 Soi<strong>en</strong>t Y = (y 1 , y 2 , . . . , y m ) <strong>et</strong> X = (x 1 , x 2 , . . . , x m ) deux variables numériques<br />
appliquées sur m individus, où x i <strong>et</strong> y i sont les valeurs prises pour la variable X <strong>et</strong> Y pour<br />
l’individu i, respectivem<strong>en</strong>t, alors:<br />
• On définit la variance de Y <strong>com</strong>me:
La Régression Symbolique 71<br />
Figure 3.2: La boîte de dispersion de la variable Y =Pulse–Rate.<br />
σ 2 Y = 1 m<br />
m∑<br />
(y i − Y ) 2 .<br />
i=1<br />
• On définit la covariance <strong>en</strong>tre les deux variables X <strong>et</strong> Y <strong>com</strong>me:<br />
Cov(X, Y ) = 1 m<br />
m∑<br />
(x i − X)(y i − Y ).<br />
i=1<br />
• On définit la corrélation <strong>en</strong>tre les deux variables X <strong>et</strong> Y <strong>com</strong>me:<br />
R(X, Y ) = 1 m<br />
m∑<br />
(<br />
xi − X<br />
i=1<br />
σ X<br />
) (<br />
yi − Y<br />
σ Y<br />
)<br />
= Cov(X, √ Y ) .<br />
σ<br />
2<br />
X<br />
σY<br />
2<br />
[5, Billard and Diday (2000)] ont proposé les formules suivantes pour calculer l’écart<br />
type, la covariance <strong>et</strong> la corrélation pour les variables symboliques de type intervalle.<br />
Definition 35 Soi<strong>en</strong>t X = ([x 1 , x 1 ], [x 2 , x 2 ], . . . , [x m , x m ]) <strong>et</strong> Y = ([y 1<br />
, y 1 ], [y 2<br />
, y 2 ], . . . , [y m<br />
, y m ])<br />
deux variables de type intervalle. Alors
La Régression Symbolique 72<br />
• La variance de Y est définie par:<br />
σ 2 Y = 1<br />
4m<br />
(<br />
m∑<br />
(y i + y i<br />
) 2 − 1<br />
m 2<br />
∑<br />
(y<br />
4m 2 i + y i<br />
))<br />
. (3.8)<br />
i=1<br />
• La covariance <strong>en</strong>tre X <strong>et</strong> Y est définie par:<br />
Cov(X, Y ) = σ XY = 1<br />
4m<br />
i=1<br />
(<br />
m∑<br />
(x i + x i )(y i + y i<br />
) − 1 m<br />
) (<br />
∑<br />
m<br />
)<br />
∑<br />
4m<br />
i=1<br />
2 (x i + x i ) (y i + y i<br />
) . (3.9)<br />
i=1<br />
i=1<br />
• La corrélation <strong>en</strong>tre Y 1 <strong>et</strong> Y 2 est définie par:<br />
R(X, Y ) =<br />
σ XY<br />
√ . (3.10)<br />
σ<br />
2<br />
X<br />
σY<br />
2<br />
Toutes les définitions précéd<strong>en</strong>tes obti<strong>en</strong>n<strong>en</strong>t <strong>com</strong>me résultat un réel, alors que l’<strong>en</strong>trée<br />
est un intervalle. Mais, <strong>com</strong>me nous l’avons déjà m<strong>en</strong>tionné, si l’<strong>en</strong>trée a de l’imprécision<br />
(inexactitude) alors la sortie doit avoir égalem<strong>en</strong>t de l’imprécision. C’est pour ça que nous<br />
définissons <strong>en</strong> (3.11) la corrélation symbolique <strong>en</strong>tre deux variables de type intervalle<br />
<strong>com</strong>me un intervalle.<br />
Chacune des variables X = ([x 1 , x 1 ], [x 2 , x 2 ], . . . , [x m , x m ]) <strong>et</strong> Y = ([y 1<br />
, y 1 ], [y 2<br />
, y 2 ],<br />
. . . , [y m<br />
, y m ]) peuv<strong>en</strong>t être visualisés dans l’espace R m par un hypercube à 2 m somm<strong>et</strong>s.<br />
Donc la corrélation <strong>en</strong>tre X <strong>et</strong> Y peut être définie <strong>com</strong>me un intervalle à partir de la<br />
corrélation minimum <strong>et</strong> maximum <strong>en</strong>tre ces deux hypercubes. La longueur des côtés de<br />
l’hypercube est donnée par l’ét<strong>en</strong>due des intervalles associés à chaque individu.<br />
Definition 36 Soi<strong>en</strong>t X H <strong>et</strong> Y H les hypercubes associés aux variables X <strong>et</strong> Y, alors on<br />
définit la corrélation <strong>en</strong>tre X <strong>et</strong> Y <strong>com</strong>me l’intervalle R(X, Y ) = [ R(X, Y ), R(X, Y ) ]
La Régression Symbolique 73<br />
où 1 :<br />
R(X, Y ) = min<br />
x∈X H<br />
y∈Y H<br />
R(x, y)<br />
R(X, Y ) = max<br />
x∈X H<br />
y∈Y H<br />
R(x, y)<br />
(3.11)<br />
Pour calculer la corrélation symbolique nous devons introduire une certaine notation.<br />
Avec les variables X <strong>et</strong> Y nous pouvons construire les matrices numériques N X <strong>et</strong> N Y de<br />
m droites <strong>et</strong> 2 m colonnes <strong>com</strong>me nous le montrons dans (3.12) <strong>et</strong> (3.13).<br />
⎛⎡<br />
N X =<br />
⎜⎢<br />
⎝⎣<br />
⎤⎞<br />
x 1 x 1 x 1 x 1 · · · x 1 x 1 x 1 x 1 x 1 · · · x 1<br />
x 2 x 2 x 2 x 2 · · · x 2 x 2 x 2 x 2 x 2 · · · x 2<br />
x 3 x 3 x 3 x 3 · · · x 3 x 3 x 3 x 3 x 3 · · · x 3<br />
.<br />
.<br />
.<br />
.<br />
. ..<br />
. ..<br />
. ..<br />
. ..<br />
. ..<br />
. .. . ..<br />
. ..<br />
x m−1 x m−1 x m−1 x m−1 · · · x m−1 x m−1 x m−1 x m−1 x m−1 · · · x m−1<br />
⎥⎟<br />
⎦⎠<br />
x m x m x m x m · · · x m x m x m x m x m · · · x m<br />
(3.12)<br />
⎛⎡<br />
N Y =<br />
⎜⎢<br />
⎝⎣<br />
⎤⎞<br />
y 1 y 1 y 1 y 1 · · · y 1 y 1 y 1 y 1 y 1 · · · y 1<br />
y 2 y 2 y 2 y 2 · · · y 2 y 2 y 2 y 2 y 2 · · · y 2<br />
y 3 y 3 y 3 y 3 · · · y 3 y 3 y 3 y 3 y 3 · · · y 3<br />
.<br />
.<br />
.<br />
.<br />
. ..<br />
. ..<br />
. ..<br />
. ..<br />
. ..<br />
. .. . ..<br />
. ..<br />
y m−1 y m−1 y m−1 y m−1 · · · y m−1 y m−1 y m−1 y m−1 y m−1 · · · y m−1<br />
⎥⎟<br />
⎦⎠<br />
y m y m y m y m · · · y m y m y m y m y m · · · y m<br />
(3.13)<br />
Soit C X l’<strong>en</strong>semble d’indices des colonnes dans la matrice N X , associé à la variable de<br />
type intervalle X; si k ∈ C X , soit c X k<br />
matrice N X (de la même manière on définit C Y <strong>et</strong> c Y k ).<br />
le vecteur associé à la k−iéme colonne dans la<br />
Theorem 4 Soi<strong>en</strong>t X H <strong>et</strong> Y H les hypercubes associés à X <strong>et</strong> Y , alors nous avons les cas<br />
suivants:<br />
1 R(x, y) est la corrélation classique <strong>en</strong>tre les vecteurs x <strong>et</strong> y de R m .
La Régression Symbolique 74<br />
Cas 1: Si l’origine est un point intérieur de X H ou Y H alors:<br />
R(X, Y ) = −1<br />
R(X, Y ) = 1<br />
(3.14)<br />
Cas 2: Si X H <strong>et</strong> Y H conti<strong>en</strong>n<strong>en</strong>t des vecteurs colinéaires de R m <strong>et</strong>:<br />
Cas 2.1 Si tous les deux X H <strong>et</strong> Y H sont dans le même “m–quadrant” de R m alors:<br />
R(X, Y ) = min<br />
k∈C X<br />
s∈C Y<br />
R(c X k , cY s )<br />
R(X, Y ) = 1<br />
(3.15)<br />
Cas 2.2 Si X H <strong>et</strong> Y H sont dans des “m–quadrant” opposés par l’origine de R m<br />
alors:<br />
R(X, Y ) = −1<br />
R(X, Y ) = max<br />
k∈C X<br />
s∈C Y<br />
R(c X k , cY s )<br />
(3.16)<br />
Cas 3: X H <strong>et</strong> Y H ne conti<strong>en</strong>n<strong>en</strong>t pas des vecteurs colinéaires <strong>et</strong> ni l’un ni l’autre X H ou<br />
Y H conti<strong>en</strong>t l’origine alors:<br />
R(X, Y ) = min<br />
k∈C X<br />
s∈C Y<br />
R(c X k , cY s )<br />
R(X, Y ) = max<br />
k∈C X<br />
s∈C Y<br />
R(c X k , cY s )<br />
(3.17)<br />
Démonstration:<br />
Cas 1: Supposons, sans perte de généralité, que → 0∈ ◦ XH (l’<strong>en</strong>semble des points intérieurs<br />
de X H ), alors il y a un voisinage V ⊂ R m de → 0, <strong>et</strong> nous pouvons trouver x 1 ∈ V<br />
, x 2 ∈ V <strong>et</strong> y ∈ Y tels que l’angle <strong>en</strong>tre x 1 <strong>et</strong> y est π, <strong>et</strong> l’angle <strong>en</strong>tre x 2 <strong>et</strong> y est<br />
0, ce qui implique R(X, Y ) = R(x 1 , y) = −1 est R(X, Y ) = R(x 2 , y) = 1 (voir<br />
illustration pour R 2 dans la Figure 3.3).
La Régression Symbolique 75<br />
✻<br />
R(X, Y ) = R(x 2 , y) = 1<br />
Y H<br />
R(X, Y ) = R(x y<br />
1 , y) = −1<br />
<br />
X H ✬✩<br />
✛<br />
✱ ✱✱✱✱✱✱✱ x 2<br />
x 1<br />
✫✪ V<br />
✲<br />
Figure 3.3: X H ou Y H conti<strong>en</strong>n<strong>en</strong>t l’origine.<br />
❄<br />
Cas 2 :<br />
Cas 2.1: Soit x ∈ X H <strong>et</strong> y ∈ Y H les vecteurs colinéaires dans le même m–<br />
quadrant, alors l’angle θ <strong>en</strong>tre x <strong>et</strong> y est 0, <strong>et</strong> donc cos(θ) = 1 = R(x, y) =<br />
R(X, Y ). On peut trouver des somm<strong>et</strong>s x s ∈ X H <strong>et</strong> y l ∈ Y H tels que l’angle<br />
β <strong>en</strong>tre x s <strong>et</strong> y l est maximum <strong>et</strong> 0 ≤ β ≤ π, alors cos(β) est minimum, <strong>et</strong><br />
donc cos(β) = R(x s , y l ) = R(X, Y ) (on illustre ce cas <strong>en</strong> R 2 dans la Figure<br />
3.4). Tous les deux x s <strong>et</strong> y l sont des somm<strong>et</strong>s de X H <strong>et</strong> Y H respectivem<strong>en</strong>t,<br />
ainsi ils sont des colonnes de N X <strong>et</strong> N Y respectivem<strong>en</strong>t.<br />
Cas 2.2: Soit x ∈ X <strong>et</strong> y ∈ Y les vecteurs colinéaires dans des m–quadrants<br />
opposés, alors l’angle θ <strong>en</strong>tre x <strong>et</strong> y est π, <strong>et</strong> donc cos(θ) = −1 = R(x, y) =<br />
R(X, Y ). Égalem<strong>en</strong>t il y a des somm<strong>et</strong>s x s ∈ X H <strong>et</strong> y l ∈ Y H tels que l’angle<br />
β <strong>en</strong>tre x s <strong>et</strong> y l est minimum <strong>et</strong> 0 ≤ β ≤ π, alors cos(β) est maximum,<br />
d’où on déduit que cos(β) = R(x s , y l ) = R(X, Y ) (on illustre ce cas <strong>en</strong> R 2<br />
dans la Figure 3.5). Tous les deux x s <strong>et</strong> y l sont les somm<strong>et</strong>s de X H <strong>et</strong> Y H<br />
respectivem<strong>en</strong>t, ainsi ils sont des colonnes de N X <strong>et</strong> N Y respectivem<strong>en</strong>t.<br />
Cas 3: Si X H <strong>et</strong> Y H ne conti<strong>en</strong>n<strong>en</strong>t pas des vecteurs colinéaires <strong>et</strong> ni l’origine est à leur<br />
un point intérieur, alors il y a des somm<strong>et</strong>s x 1 ∈ X H <strong>et</strong> y 1 ∈ Y H tels que l’angle
La Régression Symbolique 76<br />
✛<br />
✻ R(X, Y ) = R(x, y) = 1<br />
✆<br />
y l<br />
✆ ✆✆✆ <br />
y<br />
✡ Y H<br />
✡ ✡ β<br />
x<br />
X H<br />
✡<br />
✭✭✭✭✭✭✭✭✭✭✭✭✭<br />
✡✡✡✡<br />
✡✆ ✆✆✆✆✆✆✆✆ xs<br />
✲<br />
❄<br />
Figure 3.4: Tous les deux X H <strong>et</strong> Y H sont dans le même m–quadrant.<br />
β <strong>en</strong>tre x 1 <strong>et</strong> y 1 est maximum <strong>et</strong> 0 ≤ β ≤ π, alors cos(β) est minimum, <strong>et</strong> donc<br />
cos(β) = R(x 1 , y 1 ) = R(X, Y ). Égalem<strong>en</strong>t il y a somm<strong>et</strong>s x 2 ∈ X H <strong>et</strong> y 2 ∈ Y H<br />
tels que l’angle φ <strong>en</strong>tre x 2 <strong>et</strong> y 2 est minimum <strong>et</strong> 0 ≤ φ ≤ π, alors cos(φ) est<br />
maximum, <strong>et</strong> donc cos(φ) = R(x 2 , y 2 ) = R(X, Y ) (on illustre ce cas <strong>en</strong> R 2 dans<br />
la Figure 3.6). Tous x 1 , y 1 , x 2 <strong>et</strong> y 2 sont des somm<strong>et</strong>s de X H ou Y H alors ils sont<br />
colonnes de N X ou N Y .<br />
<br />
ALGORITHME 2.1: CALCUL DE LA CORRÉLATION SYMBOLIQUE.<br />
Entrée :<br />
• m =nombre d’obj<strong>et</strong>s symboliques.<br />
⎛ [ ] ⎞<br />
x1 , x 1 [ ]<br />
x2 , x<br />
• variable symbolique X =<br />
2 .<br />
⎜ . ⎟<br />
⎝<br />
[ ]<br />
⎠<br />
xm , x m
La Régression Symbolique 77<br />
✻<br />
✛<br />
y l <br />
y<br />
Y H<br />
β<br />
✟<br />
☞<br />
✲<br />
✟<br />
✟<br />
✟<br />
✟<br />
x ✟<br />
✟<br />
✟ ✑ ✑✑✑✑✑✑✑✑✑<br />
s <br />
✟ x <br />
X H<br />
☞ ☞☞☞☞ ☞ ☞☞<br />
R(X, Y ) = R(x, y) = −1<br />
❄<br />
Figure 3.5: X H <strong>et</strong> Y H sont dans des m–quadrants opposés.<br />
⎛<br />
• La variable symbolique Y =<br />
⎜<br />
⎝<br />
[<br />
y1 , y 1<br />
]<br />
[<br />
y2 , y 2<br />
]<br />
.<br />
[<br />
ym , y m<br />
]<br />
⎞<br />
.<br />
⎟<br />
⎠<br />
Sortie : La corrélation symbolique <strong>en</strong>tre les variables X <strong>et</strong> Y :<br />
Notation :<br />
R(X, Y ) = [ R(X, Y ), R(X, Y ) ] .<br />
• Pr X ks =La projection de X H au-dessus du plan produit par l’axe k, s avec<br />
k, s = 1, 2, . . . , m.<br />
• Pr Y ks =La projection de Y H au-dessus du plan produit par l’axe k, s avec k, s =<br />
1, 2, . . . , m.<br />
• θmin X =angle minimum <strong>en</strong>tre Pr X ks <strong>et</strong> l’axe k.<br />
• θmax X =angle maximum <strong>en</strong>tre Pr X ks <strong>et</strong> l’axe k.
La Régression Symbolique 78<br />
✛<br />
✔<br />
✻<br />
❇❇<br />
❇<br />
x 2 <br />
❇<br />
❇y ✔ ✔✔✔✔ 2<br />
X H<br />
✦<br />
❇ φ<br />
Y ❇ H<br />
❇ ✔ ✔✔ <br />
❛ ❛❛❛❛❛❛❛❛❛<br />
x 1<br />
❇ β<br />
y 1<br />
❇<br />
❇✔ ✔✔ ✦ ✦✦✦✦✦✦✦✦✦✦✦✦✦✦✦ ✲<br />
❄<br />
Figure 3.6: X H <strong>et</strong> Y H ne conti<strong>en</strong>n<strong>en</strong>t pas des vecteurs colinéaires <strong>et</strong> ni l’un ni l’autre X H<br />
ou Y H conti<strong>en</strong>t l’origine.<br />
• θ Y min =angle minimum <strong>en</strong>tre Pr Y ks <strong>et</strong> l’axe k.<br />
• θ Y max =angle maximum <strong>en</strong>tre Pr Y ks <strong>et</strong> l’axe k.<br />
Etape 1: total= m · 2 m .<br />
Etape 2.1: Si → 0∈ ◦ X<br />
iH ou → 0∈Y<br />
◦ j<br />
H alors 2<br />
Etape 2.1.1: R(X, Y ) = −1<br />
Etape 2.1.2: R(X, Y ) = 1.<br />
Etape 2.3: k = 1<br />
Etape 2.4: intersection=true<br />
Etape 2.5: P<strong>en</strong>dant que (k ≤ m) <strong>et</strong> (intersection=true) <strong>et</strong> (R(X, Y ) > −1 ou<br />
R(X, Y ) < 1)<br />
Etape 2.5.1 s = k + 1<br />
Etape 2.5.2 P<strong>en</strong>dant que (s ≤ m) <strong>et</strong> (intersection=true)<br />
⋄ Calcul de Pr X ks <strong>et</strong> Pr Y ks<br />
2 Où → 0 note le vecteur zéro dans R m <strong>et</strong> ◦ A note l’<strong>en</strong>semble de points intérieurs de A.
La Régression Symbolique 79<br />
⋄ Calcul de θmin, X θmax, X θmin, Y θmax<br />
Y<br />
⋄ Si ((θmin Y ≤ θmax) X <strong>et</strong> (θmin X ≤ θmin)) Y ou ((θmin X ≤ θmax) Y <strong>et</strong> (θmin Y ≤ θmin))<br />
X<br />
◦ intersection=true<br />
◦ sign= 1<br />
⋄ Sinon<br />
◦ α = θmin Y mod 2π<br />
◦ β = θmin X mod 2π<br />
◦ Si ((α ≤ θmax) X <strong>et</strong> (θmin X ≤ α)) ou ((β ≤ θmax) Y <strong>et</strong> (θmin Y ≤ β))<br />
· intersection=true<br />
· sign= −1<br />
◦ Sinon<br />
· intersection=false<br />
Etape 2.6: Si intersection=true<br />
Etape 2.6.1: R(X, Y ) = 1∗sign<br />
Etape 2.7: s = 1<br />
Etape 2.8: P<strong>en</strong>dant que s ≤ total <strong>et</strong> (R(X, Y ) > −1 ou R(X, Y ) < 1)<br />
Etape 2.8.1: x = s−ième somm<strong>et</strong> de XH<br />
i<br />
Etape 2.8.2: k = 1<br />
Etape 2.8.3: P<strong>en</strong>dant que k ≤ total <strong>et</strong> (R(X, Y ) > −1 ou<br />
R(X, Y ) < 1)<br />
⋄ y = k−ième somm<strong>et</strong> de Y j H<br />
⋄ r = R(x, y)<br />
⋄ Si r > R(X, Y ) alors R(X, Y ) = r<br />
⋄ Si r < R(X, Y ) alors R(X, Y ) = r<br />
Sortie: La corrélation symbolique: R = [R(X, Y ), R(X, Y )].
La Régression Symbolique 80<br />
Example 26 En utilisant les données du Tableau 3.1, la corrélation symbolique <strong>en</strong>tre les<br />
variables Y =Pulse–Rate <strong>et</strong> Y 1 =Systolic–Pressure est R(Y, Y 1 ) = [−0.59, 0.97]. La<br />
corrélation donnée par l’indice proposé par [5, Billard and Diday (2000)] est R(Y, Y 1 ) =<br />
0.68, cep<strong>en</strong>dant, il est possible de trouver des valeurs prises par Y <strong>et</strong> Y 1 pour lesquelles la<br />
corrélation est négative, <strong>com</strong>me on peut le voir dans la Figure 3.8.<br />
3.3 La régression linéaire symbolique simple<br />
3.3.1 Modèle de régression simple avec la corrélation empirique<br />
L’objectif principal du modèle de la régression linéaire classique simple est de mesurer<br />
l’int<strong>en</strong>sité de la relation linéaire <strong>en</strong>tre deux variables. Soi<strong>en</strong>t Y = (y 1 , y 2 , . . . , y m ) <strong>et</strong><br />
X = (x 1 , x 2 , . . . , x m ) deux variables numériques appliquées à m individus, où x i <strong>et</strong><br />
y i sont les valeurs prises par les variables X <strong>et</strong> Y pour l’individu i, respectivem<strong>en</strong>t, alors<br />
l’idée est de d<strong>et</strong>erminer s’il existe une relation linéaire vérifiée, même approximativem<strong>en</strong>t,<br />
par les deux variables. C’est–à–dire, s’il existe deux réels a <strong>et</strong> b tel que: y i = ax i + b + e i<br />
pour i = 1, 2, . . . , m où e i est un terme résiduel. La relation <strong>en</strong>tre x <strong>et</strong> y sera d’autant plus<br />
proche d’une relation linéaire exacte que les valeurs de la série e, c’est–à–dire les valeurs<br />
des e i , seront p<strong>et</strong>ites. Algébriquem<strong>en</strong>t, on détermine les valeurs a <strong>et</strong> b selon le critère des<br />
m∑<br />
moindres carrés, c’est–à–dire de telle manière que e 2 i ait une valeur minimale. Il est<br />
bi<strong>en</strong> connu que ce minimum est atteint pour:<br />
i=1<br />
a =<br />
m∑<br />
(x i − X)(y i − Y )<br />
i=1<br />
mVar(X)<br />
<strong>et</strong> b = Y − aX. (3.18)<br />
Il est clair que:
La Régression Symbolique 81<br />
a = R(X, Y ) · σ Y<br />
σ X<br />
. (3.19)<br />
Pour le cas symbolique, [5, Billard and Diday (2000)] ont proposé de généraliser le<br />
modèle classique de la régression simple (3.18), (3.19) <strong>en</strong> utilisant les définitions de la<br />
moy<strong>en</strong>ne, l’écart type <strong>et</strong> la corrélation prés<strong>en</strong>tés dans (3.2), (3.8) <strong>et</strong> (3.10), au lieu des<br />
définitions classiques.<br />
Example 27 En utilisant les données du Tableau 3.1, avec Y =Pulse–Rate <strong>com</strong>me la<br />
variable a expliquer <strong>et</strong> Y 1 =Systolic–Pressure <strong>com</strong>me la variable explicative on obti<strong>en</strong>t<br />
l’équation de régression symbolique simple (3.20) ([5, Billard and Diday (2000)]):<br />
Pulse–Rate = 0.392 · Systolic–Pressure + 27.639. (3.20)<br />
D’aprés ces calculs, on veut prévoir le “Pulse–Rate” quand la “Systolic–Pressure” est<br />
[108, 110] on a que le “Pulse–Rate” devrait être [69.97, 70.76]. Ceci est illustré dans la<br />
Figure 3.7.<br />
Afin d’être cohér<strong>en</strong>ts avec les définitions que nous avons proposées dans ce chapitre,<br />
dans ce qui suit on prés<strong>en</strong>te trois modèles de régression linéaire simple qui pourrai<strong>en</strong>t<br />
être <strong>en</strong>visagés.<br />
3.3.2 Modèle de régression simple avec la corrélation symbolique maximum<br />
<strong>et</strong> minimum<br />
Dans c<strong>et</strong>te section nous proposons une méthode de régression simple qui emploie la<br />
définition (3.11) de la corrélation symbolique. L’idée est de produire deux relations<br />
linéaires, au lieu d’une. On calcule la première droite de regression <strong>en</strong> employant les
La Régression Symbolique 82<br />
Figure 3.7: Graphique de régression des variables Systolic–Pressure×Pulse–Rate avec le<br />
modèle de la corrélation empirique.<br />
valeurs prises par les variables dans lesquelles la corrélation est minimum, <strong>et</strong> la seconde<br />
<strong>en</strong> employant les valeurs prises par les variables dans lesquelles la corrélation est maximum.<br />
Si X = ([x 1 , x 1 ], [x 2 , x 2 ], . . . , [x m , x m ]) <strong>et</strong> Y = ([y 1<br />
, y 1 ], [y 2<br />
, y 2 ], . . . , [y m<br />
, y m ]) sont deux<br />
variables de type intervalle, alors on emploie l’algorithme 2.1 pour calculer la corrélation<br />
symbolique R(X, Y ) = [ R(X, Y ), R(X, Y ) ] parmi les variables X <strong>et</strong> Y , mais nous<br />
stockons les points α = (α 1 , α 2 , . . . , α m ), β = (β 1 , β 2 , . . . , β m ), γ = (γ 1 , γ 2 , . . . , γ m )<br />
<strong>et</strong> ζ = (ζ 1 , ζ 2 , . . . , ζ m ) tels que R(X, Y ) = R(α, β) <strong>et</strong> R(X, Y ) = R(γ, ζ) avec α i ∈<br />
[x i , x i ], γ i ∈ [x i , x i ], β i ∈ [y i<br />
, y i ] <strong>et</strong> ζ i ∈ [y i<br />
, y i ] pour i = 1, 2, . . . , m. Alors on emploie<br />
α = (α 1 , α 2 , . . . , α m ) <strong>et</strong> β = (β 1 , β 2 , . . . , β m ) <strong>et</strong> l’équation (3.18) pour calculer a 1 <strong>et</strong> b 1<br />
de la première droite de la régression y = a 1 x + b 1 <strong>et</strong> on emploie γ = (γ 1 , γ 2 , . . . , γ m )<br />
<strong>et</strong> ζ = (ζ 1 , ζ 2 , . . . , ζ m ) <strong>et</strong> l’équation (3.18) <strong>en</strong>core pour calculer a 2 <strong>et</strong> b 2 de la deuxième<br />
droite de régression y = a 2 x + b 2 .<br />
Si on veut prévoir les valeurs de la variable Y dans un intervalle [ξ 1 , ξ 2 ] à partir de la<br />
variable X on calcule y 11 = a 1 ξ 1 + b 1 , y 12 = a 1 ξ 2 + b 1 , y 21 = a 2 ξ 1 + b 2 <strong>et</strong> y 22 = a 2 ξ 2 + b 2
La Régression Symbolique 83<br />
alors l’intervalle prévu sera [min{y 11 , y 12 , y 21 , y 22 }, max{y 11 , y 12 , y 21 , y 22 }].<br />
Example 28 En utilisant les données du Tableau 3.1, avec Y =Pulse–Rate <strong>com</strong>me la<br />
variable a expliquer <strong>et</strong> Y 1 =Systolic–Pressure <strong>com</strong>me la variable explicative on obti<strong>en</strong>t<br />
les équations de régression symbolique simple (3.21) <strong>et</strong> (3.22):<br />
Pulse–Rate = −0.484 · Systolic–Pressure + 142.987. (3.21)<br />
Pulse–Rate = 0.707 · Systolic–Pressure − 25.631. (3.22)<br />
Si on veut prévoir le “Pulse–Rate” quand la “Systolic–Pressure” est [108, 100] on a que<br />
le “Pulse–Rate” est [50.735, 90.756]. Ceci est illustré dans la Figure 3.8. Quand elle est<br />
<strong>com</strong>parée aux valeurs prévues par le modèle de régression simple avec la corrélation symbolique<br />
empirique , c’est–à–dire, avec l’intervalle symbolique de prévision [69.97, 70.76],<br />
il est clair <strong>en</strong> voyant le graphique de la Figure 3.8, que l’intervalle obt<strong>en</strong>u avec le modèle<br />
de régression simple avec la corrélation symbolique maximum <strong>et</strong> minimum est beaucoup<br />
plus proche de la réalité, c’est–à–dire, il prévoit avec plus d’exactitude la gamme de<br />
valeurs possibles de la variable “Pulse–Rate”.<br />
3.3.3 Modèle de régression symbolique simple avec les points Inférieur–<br />
Supérieur<br />
Dans c<strong>et</strong>te section on propose une méthode de régression qui emploie le somm<strong>et</strong> supérieur<br />
gauche <strong>et</strong> le somm<strong>et</strong> inférieur droit des rectangles qui sont produits quand on croise les<br />
deux variables. L’idée est <strong>en</strong>core de produire deux droites de régression au lieu d’une.
La Régression Symbolique 84<br />
Figure 3.8: Graphique de régression des variables Systolic–Pressure×Pulse–Rate avec le<br />
modèle de la corrélation symbolique maximum <strong>et</strong> minimum.<br />
On calcule la première <strong>en</strong> utilisant les valeurs des somm<strong>et</strong>s supérieurs gauches des rectangles,<br />
<strong>et</strong> on calcule la seconde <strong>en</strong> utilisant les valeurs des somm<strong>et</strong>s inférieurs droites des<br />
rectangles.<br />
Si X = ([x 1 , x 1 ], [x 2 , x 2 ], . . . , [x m , x m ]) <strong>et</strong> Y = ([y 1<br />
, y 1 ], [y 2<br />
, y 2 ], . . . , [y m<br />
, y m ]) sont<br />
deux variables de type intervalle alors nous employons α = (x 1 , x 2 , . . . , x m ), β =<br />
(y 1<br />
, y 2<br />
, . . . , y m<br />
) <strong>et</strong> l’équation (3.18) pour calculer a 1 <strong>et</strong> b 1 de la première droite de régression<br />
y = a 1 x + b 1 <strong>et</strong> nous employons γ = (x 1 , x 2 , . . . , x m ), ζ = (y 1 , y 2 , . . . , y m ) <strong>et</strong> l’équation<br />
(3.18) pour calculer a 2 <strong>et</strong> b 2 de la deuxième droite de régression y = a 2 x + b 2 .<br />
Si on veut prévoir les valeurs de la variable Y dans un intervalle [ξ 1 , ξ 2 ] à partir de la variable<br />
X, on procéde de façon analogue au modèle de régression simple avec la corrélation<br />
symbolique maximum <strong>et</strong> minimum, <strong>en</strong> calculant y 11 = a 1 ξ 1 + b 1 , y 12 = a 1 ξ 2 + b 1 , y 21 =<br />
a 2 ξ 1 +b 2 <strong>et</strong> y 22 = a 2 ξ 2 +b 2 , <strong>et</strong> alors l’intervalle prévu sera [min{y 11 , y 12 }, max{y 21 , y 22 }].<br />
Example 29 En utilisant les données du Tableau 3.1, avec Y =Pulse–Rate <strong>com</strong>me la<br />
variable a expliquer <strong>et</strong> Y 1 =Systolic–Pressure <strong>com</strong>me la variable explicative, on obti<strong>en</strong>t<br />
les équations de régression (3.23) <strong>et</strong> (3.24), on l’illustre dans la Figure 3.9:
La Régression Symbolique 85<br />
Pulse–Rate = 0.548 · Systolic–Pressure + 28.235. (3.23)<br />
Pulse–Rate = 0.422 · Systolic–Pressure + 4.773. (3.24)<br />
Si on veut prévoir “Pulse–Rate” quand “Systolic–Pressure” est [108, 100] on a que “Pulse–<br />
Rate” est [50.350, 88.499]. Quand ceci est <strong>com</strong>paré aux valeurs prévues par le modèle de<br />
régression simple avec la corrélation symbolique maximum <strong>et</strong> minimum, c’est–à–dire,<br />
avec l’intervalle symbolique de prévision [50.735, 90.756], il est clair que les résultats<br />
sont très semblables.<br />
Figure 3.9: Graphique de régression des variables Systolic–Pressure×Pulse–Rate avec le<br />
modèle de Inférieur–Supérieur points.<br />
3.3.4 Modèle des somm<strong>et</strong>s pour la régression symbolique simple<br />
Dans c<strong>et</strong>te section nous proposons une méthode de régression qui emploie tous les somm<strong>et</strong>s<br />
des rectangles pour produire la relation linéaire de la régression. Si X = ([x 1 , x 1 ], [x 2 , x 2 ],
La Régression Symbolique 86<br />
. . . , [x m , x m ]) <strong>et</strong> Y = ([y 1<br />
, y 1 ], [y 2<br />
, y 2 ], . . . , [y m<br />
, y m ]) sont deux variables de type intervalle<br />
alors on emploie α = (x 1 , . . . , x m , x 1 , . . . , x m , x 1 , . . . , x m , x 1 , . . . , x m ), β =<br />
(y 1<br />
, . . . , y m<br />
, y 1 , . . . , y m , y 1<br />
, . . . , y m<br />
, y 1 , . . . , y m ) <strong>et</strong> l’équation (3.25) pour calculer a <strong>et</strong> b<br />
de la droite de régression y = ax + b.<br />
a =<br />
4m∑<br />
i=1<br />
(α i − α)(β i − β)<br />
4mVar(α)<br />
<strong>et</strong> b = β − a · α. (3.25)<br />
Si on veut prévoir les valeurs de la variable Y dans un intervalle [ξ 1 , ξ 2 ] à partir de la variable<br />
X, on procéde d’une manière semblable au modèle classique de régression simple<br />
<strong>en</strong> substituant les limites de l’intervalle dans l’équation de régression.<br />
Example 30 En utilisant les données du Tableau 3.1, avec Y =Pulse–Rate <strong>com</strong>me la<br />
variable a expliquer <strong>et</strong> Y 1 =Systolic–Pressure <strong>com</strong>me une variable explicative on obti<strong>en</strong>t<br />
l’équation de régression (3.26), Ceci est illustré dans la Figure 3.10:<br />
Pulse-Rate = 0.283 · Systolic-Pressure + 41.933. (3.26)<br />
Si on veut prévoir “Pulse-Rate” quand “Systolic-Pressure” est [108, 100] on a que “Pulse-<br />
Rate” est [72.505, 73.071]. Ce résultat est semblable à celui obt<strong>en</strong>u par la méthode de<br />
régression simple avec la corrélation symbolique empirique, qui a donné <strong>com</strong>me l’intervalle<br />
de prévision [69.97, 70.76].
La Régression Symbolique 87<br />
Figure 3.10: Graphique de régression des variables Systolic–Pressure×Pulse–Rate avec<br />
le modèle des somm<strong>et</strong>s.
Chapter 4<br />
Le Cercle des Corrélations Symboliques<br />
<strong>et</strong> l’<strong>Analyse</strong> <strong>en</strong> Composantes<br />
Principales pour des Données de Type<br />
Histogramme<br />
Dans ce chapitre nous généralisons la méthode de l’<strong>Analyse</strong> <strong>en</strong> Composantes Principales<br />
pour des données de type intervalle proposée par [16, Cazes, Chouakria, Diday <strong>et</strong> Schektman<br />
(1997)] dans deux s<strong>en</strong>s: d’abord, nous proposons trois manières de proj<strong>et</strong>er les<br />
variables de type intervalle dans le cercle des corrélations. En second lieu, nous proposons<br />
un algorithme pour faire l’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des données<br />
de type histogramme. De plus, nous proposons des généralisations pour quelques indices<br />
d’interprétation utilisés dans l’analyse <strong>en</strong> <strong>com</strong>posantes principales classique.<br />
88
Le Cercle des Corrélations Symbolique 89<br />
4.1 Cercle des corrélations symboliques dans l’analyse<br />
<strong>en</strong> <strong>com</strong>posantes principales<br />
4.1.1 Le cercle des corrélations <strong>en</strong> utilisant le coeffici<strong>en</strong>t de la corrélation<br />
symbolique<br />
Dans le chapitre trois nous avons proposé une nouvelle définition du coeffici<strong>en</strong>t de la<br />
corrélation symbolique <strong>en</strong>tre deux variables de type intervalle, qui donne <strong>com</strong>me résultat<br />
un intervalle (3.11). Dans ce chapitre nous emploierons c<strong>et</strong>te définition pour ét<strong>en</strong>dre le<br />
cercle des corrélations classique au cas des variables symboliques de type intervalle.<br />
Dans l’analyse <strong>en</strong> <strong>com</strong>posantes principales avec des données de type intervalle l’<strong>en</strong>trée est<br />
m obj<strong>et</strong>s symboliques S 1 , S 2 , . . . , S m décris par n variables de type intervalle X 1 , X 2 , . . . ,<br />
X n <strong>com</strong>me on le montre dans (4.1).<br />
⎛<br />
⎜<br />
⎝<br />
⎞ ⎛<br />
S 1<br />
. ⎟<br />
⎠ = ⎜<br />
⎝<br />
S m<br />
X S1 1 · · · X S1 n<br />
.<br />
.. . .<br />
X Sm1 · · · X Smn<br />
⎞ ⎛<br />
⎟<br />
⎠ = ⎜<br />
⎝<br />
[ ]<br />
x11 , x 11 · · ·<br />
[ ]<br />
x1n , x 1n<br />
.<br />
.. . .<br />
[ ]<br />
xm1 , x m1 · · ·<br />
[ ]<br />
xmn , x mn<br />
⎞<br />
⎟<br />
⎠ . (4.1)<br />
Dans l’analyse classique <strong>en</strong> <strong>com</strong>posantes principales la projection des variables X j sur<br />
l’axe produit par le r−ième <strong>com</strong>posante principale normalisé Y r est donné par la corrélation<br />
<strong>en</strong>tre la variable <strong>et</strong> le <strong>com</strong>posante principale R(X j , Y r ). Les coordonnées des variables<br />
X j sur la base des <strong>com</strong>posantes principales normalisées sont<br />
(R(X j , Y 1 ), R(X j , Y 2 ), . . . , R(X j , Y n )). Si X j est une variable normalisée, il est facile<br />
de prouver que:<br />
n∑<br />
R 2 (X j , Y k ) = 1. (4.2)<br />
k=1
Le Cercle des Corrélations Symbolique 90<br />
✻<br />
Axis r<br />
R(Y r , X j )<br />
•<br />
X<br />
j<br />
✛<br />
R(Y s , X j )<br />
✲<br />
Axis s<br />
❄<br />
Figure 4.1: Cercle classique des corrélations.<br />
Si on considère seulem<strong>en</strong>t deux <strong>com</strong>posantes Y r <strong>et</strong> Y s , alors:<br />
R 2 (X j , Y r ) + R 2 (X j , Y s ) ≤ 1. (4.3)<br />
Ainsi la représ<strong>en</strong>tation graphique de la variable pourrait être faite dans le cercle de rayon<br />
1, <strong>com</strong>me on le montre dans la Figure 4.1.<br />
L’idée pour proj<strong>et</strong>er les variables de type intervalle dans le cercle des corrélations est la<br />
même, on calcule la corrélation <strong>en</strong>tre la variable X j <strong>et</strong> le r−ième <strong>com</strong>posante principale<br />
Y r , mais dans le cas symbolique tous les deux X j <strong>et</strong> Y r sont les vecteurs colonne des intervalles<br />
<strong>com</strong>me on le montre dans les équations (4.4) <strong>et</strong> (4.5), égalem<strong>en</strong>t ils peuv<strong>en</strong>t être<br />
représ<strong>en</strong>tés dans R m par des hypercubes. Alors il est possible d’employer la définition
Le Cercle des Corrélations Symbolique 91<br />
(3.11) <strong>et</strong> les équations (3.14), (3.15), (3.16), <strong>et</strong> (3.17) prés<strong>en</strong>tées dans le théorème 1 du<br />
chapitre trois pour produire le cercle des corrélations symbolique, <strong>com</strong>me nous le proposons<br />
dans l’algorithme 4.1.<br />
⎛<br />
X j =<br />
⎜<br />
⎝<br />
[x 1j , x 1j<br />
]<br />
[x 2j , x 2j<br />
]<br />
.<br />
[x mj , x mj<br />
]<br />
⎞<br />
⎟<br />
⎠<br />
(4.4)<br />
⎛<br />
Y r =<br />
⎜<br />
⎝<br />
[<br />
y1r , y 1r<br />
]<br />
[<br />
y2r , y 2r<br />
]<br />
.<br />
[<br />
ymr , y mr<br />
]<br />
⎞<br />
. (4.5)<br />
⎟<br />
⎠<br />
L’autre différ<strong>en</strong>ce avec le cas classique est que la sortie devrait être symbolique, dans ce<br />
cas–ci la sortie (la corrélation <strong>en</strong>tre X j <strong>et</strong> Y r ) devrait être un intervalle avec la corrélation<br />
minimum <strong>et</strong> maximum <strong>en</strong>tre les deux hypercubes. C<strong>et</strong>te sortie est représ<strong>en</strong>tée dans le<br />
cercle des corrélations par un rectangle, on l’illustre dans la Figure 4.2.<br />
Il est égalem<strong>en</strong>t important que c<strong>et</strong>te sortie soit décrite <strong>en</strong> termes d’obj<strong>et</strong>s symboliques, par<br />
exemple: s = (a, R, d) où a(w) = [R(X j , Y r ) ⊆<br />
[R(X j , Y r ), R(X j , Y r )]] ∧ [ R(X j , Y s ) ⊆ [R(X j , Y s ), R(X j , Y s )] ] , R = “ ⊆ ” <strong>et</strong> d =<br />
[−1, 1].
Le Cercle des Corrélations Symbolique 92<br />
✻<br />
Axis r<br />
R(Y r , X j )<br />
X j<br />
R(Y r , X j )<br />
✛<br />
R(Y s , X j )<br />
R(Y s , X j )<br />
✲<br />
Axis s<br />
❄<br />
Figure 4.2: Cercle des corrélations symbolique.<br />
ALGORITHME 4.1: CERCLE DES CORRÉLATIONS SYMBOLIQUE<br />
Entrée :<br />
• m =nombre d’obj<strong>et</strong>s symboliques.<br />
• n =nombre de variables symboliques.<br />
• Le tableau des données symboliques<br />
⎛ [ ] [ ] [ ]<br />
x11 , x 11 x12 , x 12 · · · x1n , x 1n [ ] [ ] [ ]<br />
x21 , x<br />
X =<br />
21 x22 , x 22 · · · x2n , x 2n ⎜ .<br />
.<br />
.. . .<br />
⎝<br />
[ ] [ ] [ ]<br />
xm1 , x m1 xm2 , x m2 · · · xmn , x mn<br />
⎞<br />
.<br />
⎟<br />
⎠
Le Cercle des Corrélations Symbolique 93<br />
• La matrice des <strong>com</strong>posantes principales symboliques:<br />
⎛ [ ] [ ] [ ]<br />
y11 , y 11 y12 , y 12 · · · y1n , y 1n [ ] [ ] [ ]<br />
y21 , y<br />
Y =<br />
21 y22 , y 22 · · · y2n , y 2n ⎜ . .<br />
.. . .<br />
⎝<br />
[ ] [ ] [ ]<br />
ym1 , y m1 ym2 , y m2 · · · ymn , y mn<br />
⎞<br />
.<br />
⎟<br />
⎠<br />
Sortie : La corrélation symbolique <strong>en</strong>tre les variables <strong>et</strong> les <strong>com</strong>posantes principales dans<br />
la matrice suivante:<br />
⎛<br />
[<br />
R(X 1 , Y 1 ), R(X 1 , Y 1 ) ] [<br />
· · · R(X 1 , Y n ), R(X 1 , Y n ) ] ⎞<br />
R = ⎜<br />
.<br />
.. . .<br />
⎟<br />
⎝<br />
[<br />
R(X n , Y 1 ), R(X n , Y 1 ) ] [<br />
· · · R(X n , Y n ), R(X n , Y n ) ] ⎠ .<br />
Notation :<br />
• Pr X ks =La projection de XH i<br />
1, 2, . . . , m.<br />
• Pr Y ks =La projection de YH i<br />
1, 2, . . . , m.<br />
au-dessus du plan produit l’axe k, s avec k, s =<br />
au-dessus du plan produit l’axe k, s avec k, s =<br />
• θmin X =angle minimum <strong>en</strong>tre Pr X ks <strong>et</strong> l’axe k.<br />
• θmax X =angle maximum <strong>en</strong>tre Pr X ks <strong>et</strong> l’axe k.<br />
• θmin Y =angle minimum <strong>en</strong>tre Pr Y ks <strong>et</strong> l’axe k.<br />
• θmax Y =angle maximum <strong>en</strong>tre Pr Y ks <strong>et</strong> l’axe k.<br />
Etape 1: total= m · 2 m , i = 1, j = 1.<br />
Etape 2: P<strong>en</strong>dant que i ≤ n<br />
Etape 2.1: P<strong>en</strong>dant que j ≤ n
Le Cercle des Corrélations Symbolique 94<br />
Etape 2.1.1: Si → 0∈ ◦ X<br />
iH ou → 0∈Y<br />
◦ j<br />
H alors 1<br />
Etape 2.1.1.1: R(X i , Y j ) = −1<br />
Etape 2.1.1.2: R(X i , Y j ) = 1.<br />
Etape 2.1.2: k = 1<br />
Etape 2.1.3: intersection=true<br />
Etape 2.1.4: P<strong>en</strong>dant que (k ≤ m) <strong>et</strong> (intersection=true) <strong>et</strong><br />
(R(X i , Y j ) > −1 ou R(X i , Y j ) < 1)<br />
Etape 2.1.4.1 s = k + 1<br />
Etape 2.1.4.2 P<strong>en</strong>dant que (s ≤ m) <strong>et</strong> (intersection=true)<br />
⋄ Calculer Pr X ks <strong>et</strong> Pr Y ks<br />
⋄ Calculer θ X min, θ X max, θ Y min, θ Y max<br />
⋄ Si ((θ Y min ≤ θ X max) <strong>et</strong> (θ X min ≤ θ Y min)) ou ((θ X min ≤ θ Y max) <strong>et</strong> (θ Y min ≤<br />
θ X min))<br />
◦ intersection=true<br />
◦ sign= 1<br />
⋄ Sinon<br />
◦ α = θ Y min mod 2π<br />
◦ β = θ X min mod 2π<br />
◦ Si ((α ≤ θ X max) <strong>et</strong> (θ X min ≤ α)) ou ((β ≤ θ Y max) <strong>et</strong> (θ Y min ≤ β))<br />
· intersection=true<br />
· sign= −1<br />
◦ Sinon<br />
· intersection=false<br />
Etape 2.1.5: Si intersection=true<br />
Etape 2.1.5.1: R(X j , Y j ) = 1∗sign<br />
1 Où → 0 dénote le vecteur zéro dans R m <strong>et</strong> ◦ A dénote l’<strong>en</strong>semble des points intérieurs de A.
Le Cercle des Corrélations Symbolique 95<br />
Etape 2.1.5.2: R(X i , Y j ) = 1∗sign<br />
Etape 2.1.6: s = 1<br />
Etape 2.1.7: P<strong>en</strong>dant que s ≤ total <strong>et</strong> (R(X i , Y j ) > −1 ou<br />
R(X i , Y j ) < 1)<br />
Etape 2.1.7.1: x = s−ième somm<strong>et</strong> de XH<br />
i<br />
Etape 2.1.7.2: k = 1<br />
Etape 2.1.7.3: P<strong>en</strong>dant que k ≤ total <strong>et</strong> (R(X i , Y j ) > −1 ou<br />
R(X i , Y j ) < 1)<br />
⋄ y = k−ième somm<strong>et</strong> de Y j H<br />
⋄ r = R(x, y)<br />
⋄ Si r > R(X i , Y j ) alors R(X i , Y j ) = r<br />
⋄ Si r < R(X i , Y j ) alors R(X i , Y j ) = r<br />
Sortie: La matrice R = ([R(X i , Y j ), R(X i , Y j )]) pour i, j = 1, 2, . . . , n.<br />
Example 31 Pour illustrer le cercle des corrélations symbolique nous employons les<br />
données d’Ichino (oils and fats data) qu’on prés<strong>en</strong>te dans le Tableau 4.1. Chaque ligne du<br />
tableau de données représ<strong>en</strong>te une classe d’huile décrite par 4 variables quantitatives de<br />
type intervalle, “Specific gravity”, “Freezing point”, “Iodine value” <strong>et</strong> “Saponification”.<br />
Les corrélations classiques <strong>en</strong>tre le c<strong>en</strong>tre de gravité des variables <strong>et</strong> le c<strong>en</strong>tre de gravité<br />
des <strong>com</strong>posantes principales (pour la méthode de c<strong>en</strong>tres, voir section 4.1.2) sont prés<strong>en</strong>tés<br />
dans le Tableau 4.2, <strong>et</strong> les corrélations symboliques sont prés<strong>en</strong>tées dans le Tableau 4.3.<br />
On peut noter que la corrélation classique est toujours cont<strong>en</strong>ue dans l’intervalle qui<br />
représ<strong>en</strong>te la corrélation symbolique respective.<br />
Le cercle des corrélations symbolique pour les données d’Ichino (oils and fats data) est<br />
montré dans la Figure 4.3. Pour expliquer <strong>com</strong>m<strong>en</strong>t ce cercle peut être interprété, on
Le Cercle des Corrélations Symbolique 96<br />
GRA FRE IOD SAP<br />
Linsed (L) [0.93, 0.935] [−27, −18] [170, 204] [118, 196]<br />
Perilla (P) [0.93, 0.937] [−5, −4] [192, 208] [188, 197]<br />
Cotton (Co) [0.916, 0.918] [−6, −1] [99, 113] [189, 198]<br />
Sesame (S) [0.92, 0.926] [−6, −4] [104, 116] [187, 193]<br />
Camellia (Ca) [0.916, 0.917] [−25, −15] [80, 82] [189, 193]<br />
Olive (O) [0.914, 0.919] [0, 6] [79, 90] [187, 196]<br />
Beef (B) [0.86, 0.87] [30, 38] [40, 48] [190, 199]<br />
Hog (H) [0.858, 0.864] [22, 32] [53, 77] [190, 202]<br />
Table 4.1: Tableau des données “Oils and Fats”.<br />
pr<strong>en</strong>d <strong>com</strong>me exemple la variable GRA. La corrélation symbolique <strong>en</strong>tre la variable<br />
GRA <strong>et</strong> la première <strong>com</strong>posante principale est l’intervalle [−0.999, −0.702]. Cela signifie<br />
que la corrélation <strong>en</strong>tre GRA <strong>et</strong> la première <strong>com</strong>posante principale (PC1) varie <strong>en</strong>tre<br />
−0.999 <strong>et</strong> −0.702 (corrélation négative forte). La corrélation <strong>en</strong>tre la variable GRA <strong>et</strong><br />
la deuxième <strong>com</strong>posante principale (PC2) est l’intervalle [−0.995, 0.315], cela veut dire<br />
que la corrélation <strong>en</strong>tre GRA <strong>et</strong> PC2 varie <strong>en</strong>tre −0.995 <strong>et</strong> 0.315 (corrélation négative<br />
ou corrélation positive faible). Pour c<strong>et</strong>te variable l’information qui fait référ<strong>en</strong>ce à la<br />
PC1 PC2 PC3 PC4<br />
GRA −0.9210665 −0.3537703 0.0246894 −0.1608524<br />
FRE 0.9130654 0.2080771 −0.3238118 −0.1347643<br />
IOD −0.8724116 0.0337627 −0.4827661 0.0685206<br />
SAP 0.7354523 −0.6613331 −0.1397354 0.0471425<br />
Table 4.2: Les corrélations classiques <strong>en</strong>tre le c<strong>en</strong>tre de gravité des variables <strong>et</strong> le c<strong>en</strong>tre<br />
de gravité des <strong>com</strong>posants principales pour la méthode des c<strong>en</strong>tres.
Le Cercle des Corrélations Symbolique 97<br />
PC1 PC2 PC3 PC4<br />
GRA [−0.999, −0.702] [−0.995, 0.315] [−0.558, 0.530] [−0.832, 0.772]<br />
FRE [0.698, 0.978] [−0.507, 0.996] [−0.767, 0.383] [−0.943, 0.826]<br />
IOD [−0.951, −0.654] [−0.965, 0.626] [−0.916, 0.262] [−0.816, 0.906]<br />
SAP [−1.000, 0.939] [−1.000, 0.978] [−1.000, 0.895] [−1.000, 0.978]<br />
Table 4.3: Les corrélations symboliques <strong>en</strong>tre les variables <strong>et</strong> les <strong>com</strong>posants principales<br />
pour la méthode de c<strong>en</strong>tres.<br />
première <strong>com</strong>posante principale est meilleur que l’information qui fait référ<strong>en</strong>ce à la<br />
deuxième <strong>com</strong>posante principale, parce qu’elle a la plus p<strong>et</strong>ite variation.<br />
C<strong>et</strong>te corrélation peut être écrite <strong>com</strong>me l’obj<strong>et</strong> symbolique s = (a, R, d) où a(w) =<br />
[[R(GRA,PC1) ⊆ [−0.999, −0.702]] ∧ [R(GRA,PC2) ⊆ [−0.995, 0.315]]], R = “ ⊆ ” <strong>et</strong><br />
d = [−1, 1].<br />
Il y a des points hors du cercle de rayon 1, parce que, par exemple quoique −1 ≤<br />
R (X s , Y r ) ≤ 1 <strong>et</strong> −1 ≤ R ( X l , Y r) √<br />
≤ 1 il est possible que R 2 (X s , Y r ) + R 2 (X l , Y r ) ><br />
1. Le point ( R (X s , Y r ) , R ( X l , Y r)) est alors hors du cercle de rayon 1. On a éliminé<br />
ces points du graphique, alors le cercle des corrélations symbolique pour les données<br />
d’Ichino (oils and fats data) est montré dans la Figure 4.4.<br />
Si on utilise la Méthode des Somm<strong>et</strong>s (voir section 4.1.3) pour calculer les <strong>com</strong>posantes<br />
principales on obti<strong>en</strong>t les corrélations classiques <strong>en</strong>tre le c<strong>en</strong>tre de gravité des variables <strong>et</strong><br />
le c<strong>en</strong>tre de gravité des <strong>com</strong>posantes principales qui sont prés<strong>en</strong>tés dans le Tableau 4.4,<br />
tandis que les corrélations symboliques sont prés<strong>en</strong>tées dans le Tableau 4.5.<br />
Le cercle des corrélations symbolique obt<strong>en</strong>u avec la Méthode des Somm<strong>et</strong>s est montré<br />
dans la Figure 4.5. On obti<strong>en</strong>t des résultats très semblables à ceux obt<strong>en</strong>us <strong>en</strong> employant<br />
la Méthode des C<strong>en</strong>tres, mais pas exactem<strong>en</strong>t les mêmes, parce que les <strong>com</strong>posantes
La dualité dans la Méthode des C<strong>en</strong>tres 98<br />
Figure 4.3: Cercle des corrélations symbolique de “Oils and Fats data” avec la méthode<br />
des c<strong>en</strong>tres.<br />
principales ne sont pas id<strong>en</strong>tiques.<br />
4.1.2 La dualité dans la Méthode des C<strong>en</strong>tres<br />
[16, Cazes, Chouakria, Diday <strong>et</strong> Schektman (1997)] ont proposé la méthode des c<strong>en</strong>tres<br />
pour ét<strong>en</strong>dre la méthode bi<strong>en</strong> connue de l’analyse <strong>en</strong> <strong>com</strong>posantes principales à un g<strong>en</strong>re<br />
particulier d’obj<strong>et</strong>s symboliques caractérisée par des variables multi–valuées de type intervalle.<br />
L’idée de la méthode des c<strong>en</strong>tres est de transformer la matrice prés<strong>en</strong>tée à (4.1) <strong>en</strong> la<br />
matrice suivante (4.6):
La dualité dans la Méthode des C<strong>en</strong>tres 99<br />
Figure 4.4: Cercle des corrélations symbolique de “Oils and Fats data” avec la méthode<br />
des c<strong>en</strong>tres.<br />
⎛<br />
X c =<br />
⎜<br />
⎝<br />
x c 11 x c 12 · · · x c 1n<br />
x c 21 x c 22 · · · x c 2n<br />
.<br />
. . .. .<br />
x c m1 x c m2 · · · x c mn<br />
⎞ ⎛<br />
=<br />
⎟ ⎜<br />
⎠ ⎝<br />
x 11 +x 11<br />
2<br />
x 21 +x 21<br />
2<br />
.<br />
x m1 +x m1<br />
2<br />
x 12 +x 12<br />
2<br />
· · ·<br />
x 22 +x 22<br />
x 1n +x 1n<br />
2<br />
x 2n +x 2n<br />
2<br />
2<br />
· · ·<br />
.<br />
. .. .<br />
x m2 +x m2<br />
2<br />
· · ·<br />
x mn+x mn<br />
2<br />
⎞<br />
. (4.6)<br />
⎟<br />
⎠<br />
Dans la méthode des c<strong>en</strong>tres on applique alors l’analyse <strong>en</strong> <strong>com</strong>posantes principales standard<br />
à la matrice (4.6). Pour appliquer c<strong>et</strong>te ACP [17, Chouakria (1998)] utilise la matrice<br />
de variance–covariance V c = (X c ) t X c <strong>et</strong> pour calculer les <strong>com</strong>posantes principales de<br />
type intervalle [y ik , y ik ] [16, Cazes, Chouakria, Diday <strong>et</strong> Schektman (1997)] propos<strong>en</strong>t les<br />
équations (4.7) <strong>et</strong> (4.8).
La dualité dans la Méthode des C<strong>en</strong>tres 100<br />
PC1 PC2 PC3 PC4<br />
GRA −0.9332322 −0.2648751 −0.0893481 0.2256897<br />
FRE 0.9045301 0.1666284 0.3507403 0.1761861<br />
IOD −0.8571848 −0.0616307 0.5052051 −0.0787637<br />
SAP 0.5353956 −0.8418808 0.0605469 −0.0303697<br />
Table 4.4: Les corrélations classiques <strong>en</strong>tre le c<strong>en</strong>tre de gravité des variables <strong>et</strong> le c<strong>en</strong>tre<br />
de gravité des <strong>com</strong>posantes principales pour la méthode des somm<strong>et</strong>s.<br />
PC1 PC2 PC3 PC4<br />
GRA [−0.999, −0.802] [−0.996, 0.284] [−0.516, 0.390] [−0.620, 0.916]<br />
FRE [0.766, 0.973] [−0.489, 0.992] [−0.202, 0.743] [−0.789, 0.879]<br />
IOD [−0.955, −0.694] [−0.979, 1.000] [−0.043, 0.843] [−0.822, 0.852]<br />
SAP [−0.858, 0.871] [−0.994, 0.977] [−0.820, 0.927] [−0.970, 0.986]<br />
Table 4.5: Les corrélations symbolique <strong>en</strong>tre le c<strong>en</strong>tre de gravité des variables <strong>et</strong> le c<strong>en</strong>tre<br />
de gravité des <strong>com</strong>posantes principales pour la méthode des somm<strong>et</strong>s.<br />
y ik = ∑<br />
j,u jk0<br />
y ik = ∑ ( )<br />
x ij − Xj<br />
c u jk + ∑ ( )<br />
xij − Xj<br />
c ujk . (4.8)<br />
j,u jk0<br />
où X c j est la moy<strong>en</strong>ne de la colonne j–ième de la matrice Xc , <strong>et</strong> u = (u 1k , u 2k , . . . , u nk )<br />
est le k−ième vecteur propre de V c .<br />
Néanmoins dans [16, Cazes, Chouakria, Diday <strong>et</strong> Schektman (1997)], on utilise le cercle<br />
des corrélations classique pour représ<strong>en</strong>ter les variables. La corrélation <strong>en</strong>tre les vari-
La dualité dans la Méthode des C<strong>en</strong>tres 101<br />
Figure 4.5: Cercle des corrélations symbolique de “Oils and Fats data” avec la méthode<br />
des somm<strong>et</strong>s.<br />
ables <strong>et</strong> les <strong>com</strong>posantes principales ne sont pas symboliques, parce qu’ils calcul<strong>en</strong>t les<br />
corrélations standard <strong>en</strong>tre les c<strong>en</strong>tres de gravité des variables <strong>et</strong> les c<strong>en</strong>tres de gravité des<br />
<strong>com</strong>posantes principales.<br />
Il est bi<strong>en</strong> connu que dans la méthode standard d’analyse <strong>en</strong> <strong>com</strong>posantes principales on<br />
peut calculer la corrélation <strong>en</strong>tre les variables <strong>et</strong> les <strong>com</strong>posantes principales <strong>en</strong> utilisant<br />
les relations de dualité à partir des coordonnées des individus dans le plan principal. On<br />
peut égalem<strong>en</strong>t calculer les coordonnées des individus dans le plan principal <strong>en</strong> utilisant<br />
des relations de dualité à partir de la corrélation <strong>en</strong>tre les variables <strong>et</strong> les <strong>com</strong>posantes<br />
principales.<br />
Dans c<strong>et</strong>te section on propose une méthode pour calculer le cercle des corrélations symbolique<br />
<strong>en</strong> utilisant des relations de dualité.
La dualité dans la Méthode des C<strong>en</strong>tres 102<br />
On va c<strong>en</strong>trer <strong>et</strong> réduire la matrice X c afin de travailler avec des corrélations <strong>com</strong>me on<br />
montre dans (4.9) où X c j <strong>et</strong> σc j sont la moy<strong>en</strong>ne <strong>et</strong> l’écart–type de la colonne j–ième de la<br />
matrice X c respectivem<strong>en</strong>t:<br />
z ij = √ 1 x c ij − Xj<br />
c . (4.9)<br />
m σj<br />
c<br />
Alors on travaillera avec la matrice Z = (z ij ) i=1,2,...,m . Si on désigne par z j la colonne<br />
j=1,2,...,n<br />
j–ième de la matrice Z, on a que (z j ) t · z i = R(z j , z i ) ≤ 1, alors le c<strong>en</strong>tre de la variable<br />
hypercube est toujours à l’intérieur du cercle de rayon 1. On illustre cela dans la Figure<br />
4.6. On désigne par z c ij = 1 √ m<br />
x ij −X c j<br />
σ c j<br />
<strong>et</strong> z c ij = √ 1 x ij −Xj<br />
c<br />
m<br />
.<br />
σj<br />
c<br />
Figure 4.6: Projection des variables hypercubes.<br />
La matrice d’inertie ZZ t étant symétrique, ses vecteurs propres sont orthonormaux <strong>et</strong> ses<br />
valeurs propres sont toutes positives. On désigne par v 1 , v 2 , . . . , v q les q vecteurs propres<br />
de ZZ t associés aux valeurs propres λ 1 ≥ λ 2 ≥ · · · ≥ λ q > 0. On désigne aussi par<br />
V = [v 1 |v 2 | · · · |v q ] la matrice de la taille m × q qui a <strong>com</strong>me colonne les vecteurs propres
La dualité dans la Méthode des C<strong>en</strong>tres 103<br />
de ZZ t . Il est bi<strong>en</strong> connu qu’on peut calculer les coordonnées des variables <strong>en</strong> cercle<br />
des corrélations par Z t V , alors on peut calculer la coordonnée de l’i–ième colonne de X c<br />
(c<strong>en</strong>ter point–variable) sur la j–ième <strong>com</strong>posante principale (dans la direction de v j ) par<br />
l’équation (4.10):<br />
r ij =<br />
m∑<br />
z ki v kj . (4.10)<br />
k=1<br />
Comme Z est la matrice X c<strong>en</strong>trée <strong>et</strong> réduite le núméro r ij représ<strong>en</strong>te aussi la corrélation<br />
<strong>en</strong>tre le c<strong>en</strong>tre de gravité de la variable de type intervalle X i <strong>et</strong> la j–ième <strong>com</strong>posante<br />
principal.<br />
Theorem 5 Si on proj<strong>et</strong>te la variable hypercube définie par le i–ième colonne de Z sur<br />
la j–ième <strong>com</strong>posante principale (dans la direction de v i ), alors on a que les valeurs<br />
maximum <strong>et</strong> minimum sont données respectivem<strong>en</strong>t par les équations (4.11) <strong>et</strong> (4.12):<br />
m∑<br />
m∑<br />
r ij = z c kiv kj + z c kiv kj , (4.11)<br />
k=1,v kj 0<br />
m∑<br />
m∑<br />
r ij = z c kiv kj + z c kiv kj . (4.12)<br />
k=1,v kj 0<br />
Démonstration: Pour prouver cela, soit ẑ j = (ẑ 1j , ẑ 2j , . . . , ẑ mj ) ∈ Z j H<br />
(le hyper–rectangle<br />
défini par j-ième colonne de Z) alors ẑ ij ∈ [z c ij, z c ij] pour tout i = 1, 2, . . . , m <strong>et</strong> j =<br />
1, 2, . . . , q. On désigne par pẑ ij la projection de ẑ j sur l’axe factoriel avec la direction v i ,<br />
puisque ẑ ij ∈ [z c ij, z c ij] on a (4.13) <strong>et</strong> (4.14):<br />
z c kiv kj ≤ ẑ ki v kj ≤ z c kiv kj si v kj ≥ 0, (4.13)
La dualité dans la Méthode des C<strong>en</strong>tres 104<br />
z c kiv kj ≥ ẑ ki v kj ≥ z c kiv kj si v kj ≤ 0. (4.14)<br />
m∑<br />
Par définition pẑ ij = ẑ ki v kj alors:<br />
k=1<br />
m∑<br />
pẑ ij = ẑ ki v kj =<br />
k=1<br />
m∑<br />
m∑<br />
ẑ ki v kj + ẑ ki v kj .<br />
k=1,v kj>0 k=1,v kj
La dualité dans la Méthode des C<strong>en</strong>tres 105<br />
Il y a quelques relations très bi<strong>en</strong> connues de dualité <strong>en</strong>tre les vecteurs propres de ZZ t<br />
<strong>et</strong> Z t Z. On sait que les deux matrices ont les mêmes q valeurs propres strictem<strong>en</strong>t positifs<br />
λ 1 , λ 2 , . . . , λ q <strong>et</strong> si on désigne par u 1 , u 2 , . . . , u q les q premiers vecteurs propres de<br />
Z t Z, puis les relations <strong>en</strong>tre les vecteurs propres de ZZ t <strong>et</strong> Z t Z sont montrées dans les<br />
équations (4.17) <strong>et</strong> (4.18):<br />
u l = Zt v<br />
√ l<br />
pour l = 1, 2, . . . , q. (4.17)<br />
λl<br />
v l = Zu l<br />
√ pour l = 1, 2, . . . , q. (4.18)<br />
λl<br />
Avec ces idées nous proposons deux algorithmes, pour appliquer une analyse <strong>en</strong> <strong>com</strong>posantes<br />
principales, lesquels généralis<strong>en</strong>t l’algorithme proposé dans [16, Cazes, Chouakria,<br />
Diday and Schektman (1997)] afin de produire un cercle de corrélation symbolique. Nous<br />
proposons égalem<strong>en</strong>t un 3–ième algorithme pour améliorer la période de l’exécution <strong>en</strong><br />
considérant quelle matrice est la plus p<strong>et</strong>ite <strong>en</strong> dim<strong>en</strong>sion <strong>en</strong>tre ZZ t <strong>et</strong> Z t Z.<br />
ALGORITHME 4.2: ANALYSE EN COMPOSANTES PRINCIPALES AVEC<br />
ZZ t<br />
Entrée :<br />
• m =nombre d’obj<strong>et</strong>s symboliques.<br />
• n =nombre de variables symboliques.<br />
• Le tableau de données symbolique<br />
⎛ [ ] [ ] [ ]<br />
x11 , x 11 x12 , x 12 · · · x1n , x 1n [ ] [ ] [ ]<br />
x21 , x<br />
X =<br />
21 x22 , x 22 · · · x2n , x 2n .<br />
⎜ .<br />
. .. .<br />
⎝<br />
[ ] [ ] [ ]<br />
xm1 , x m1 xm2 , x m2 · · · xmn , x mn<br />
⎞<br />
.<br />
⎟<br />
⎠
La dualité dans la Méthode des C<strong>en</strong>tres 106<br />
Sortie :<br />
• La corrélation symbolique <strong>en</strong>tre les variables <strong>et</strong> les <strong>com</strong>posantes principales<br />
dans la matrice suivante:<br />
⎛ [<br />
R(X 1 , Y 1 ), R(X 1 , Y 1 ) ] [<br />
· · · R(X 1 , Y n ), R(X 1 , Y n ) ] ⎞<br />
R =<br />
.<br />
⎜<br />
.<br />
.. .<br />
⎟<br />
⎝<br />
[<br />
R(X n , Y 1 ), R(X n , Y 1 ) ] [<br />
· · · R(X n , Y n ), R(X n , Y n ) ] ⎠ .<br />
• La matrice symbolique avec les premières q <strong>com</strong>posantes principales:<br />
⎛<br />
Y =<br />
⎜<br />
⎝<br />
[ ] [ ]<br />
] ⎞<br />
y11 , y 11 y12 , y 12 · · ·<br />
[y 1q , y 1q<br />
[ ] [ ]<br />
]<br />
y21 , y 21 y22 , y 22 · · ·<br />
[y 2q , y 2q .<br />
. . .. .<br />
. ⎟<br />
[ ] [ ] ] ⎠<br />
ym1 , y m1 ym2 , y m2 · · ·<br />
[y mq , y mq<br />
Etape 1: Calculer la matrice X c = (x c ij) i=1,2,...,m<br />
j=1,2,...,n<br />
Etape 2: Calculer la matrice Z = (z ij ) i=1,2,...,m<br />
j=1,2,...,n<br />
Etape 3: Calculer la matrice Z = (z ij ) i=1,2,...,m<br />
j=1,2,...,n<br />
Etape 4: Calculer la matrice H = ZZ t .<br />
par:<br />
x c ij = x ij + x ij<br />
.<br />
2<br />
par:<br />
z ij = √ 1 x c ij − Xj<br />
c .<br />
m σj<br />
c<br />
z ij = √ 1 x ij − Xj<br />
c ,<br />
m σj<br />
c<br />
z ij = √ 1 x ij − Xj<br />
c .<br />
m σj<br />
c<br />
<strong>et</strong> Z = (z ij ) i=1,2,...,m<br />
j=1,2,...,n<br />
par:
La dualité dans la Méthode des C<strong>en</strong>tres 107<br />
Etape 5: Calculer les q premiers vecteurs propres v 1 , v 2 , . . . , v q de H <strong>et</strong> les valeurs propres<br />
associées λ 1 ≥ λ 2 ≥ · · · ≥ λ q > 0.<br />
Etape 6: Pour i = 1, 2, . . . , n<br />
Etape 6.1: Pour j = 1, , 2, . . . , q calculer<br />
⎡<br />
R(X i , Y j ) = max ⎣<br />
m∑<br />
m∑<br />
z ki v kj +<br />
⎤<br />
z ki v kj , −1⎦ .<br />
Etape 7: Pour i = 1, 2, . . . , n<br />
k=1,v kj 0<br />
⎡<br />
⎤<br />
R(X i , Y j ) = min ⎣<br />
m∑<br />
m∑<br />
z ki v kj + z ki v kj , 1⎦ .<br />
k=1,v kj 0<br />
Etape 7.1: Pour j = 1, 2, . . . , q calculer<br />
(<br />
u ij = √ 1<br />
m<br />
)<br />
∑<br />
z ki v kj .<br />
λj<br />
Etape 8: Pour i = 1, 2, . . . , m<br />
k=1<br />
Etape 8.1: Pour j = 1, 2, . . . , q calculer<br />
n∑<br />
n∑<br />
y ij = z ik u kj + z ik u kj<br />
k=1,u kj0<br />
n∑<br />
n∑<br />
y ij = z ik u kj + z ik u kj<br />
k=1,u kj0<br />
Etape 9: FIN de l’algorithme.<br />
Example 32 Pour illustrer le cercle des corrélations symbolique avec dualité on emploie<br />
<strong>en</strong>core les données d’Ichino (“oils and fats”) qu’on a prés<strong>en</strong>tées dans le Tableau 5.1. Les<br />
corrélations symboliques qu’on a obt<strong>en</strong>ues <strong>en</strong> utilisant l’algorithme 4.2 sont prés<strong>en</strong>tées
La dualité dans la Méthode des C<strong>en</strong>tres 108<br />
PC1 PC2 PC3 PC4<br />
GRA [0.827, 1.000] [−0.443, −0.265] [−0.038, 0.087] [−0.238, −0.084]<br />
FRE [−1.000, −0.760] [0.044, 0.372] [−0.428, −0.220] [−0.288, 0.019]<br />
IOD [0.726, 1.000] [−0.124, 0.191] [−0.565, −0.401] [−0.024, 0.161]<br />
SAP [−1.000, 0.190] [−1.000, 0.371] [−0.442, 0.163] [−0.231, 0.325]<br />
Table 4.6: Corrélations symboliques <strong>en</strong>tre les variables <strong>et</strong> les <strong>com</strong>posants principales avec<br />
la méthode des c<strong>en</strong>tres <strong>en</strong> employant l’algorithme 4.2.<br />
PC1 PC2 PC3 PC4<br />
GRA 0.9210665 −0.3537703 0.0246894 −0.1608524<br />
FRE −0.9130654 0.2080771 −0.3238118 −0.1347643<br />
IOD 0.8724116 0.0337627 −0.4827661 0.0685206<br />
SAP −0.7354523 −0.6613331 −0.1397354 0.0471425<br />
Table 4.7: Corrélations classiques <strong>en</strong>tre les variables <strong>et</strong> les <strong>com</strong>posants principales avec<br />
la méthode des c<strong>en</strong>tres.<br />
dans le Tableau 4.6 <strong>et</strong> les corrélations classiques <strong>en</strong>tre le c<strong>en</strong>tre de gravité des variables<br />
<strong>et</strong> le c<strong>en</strong>tre de gravité des <strong>com</strong>posantes principales (pour la méthode de c<strong>en</strong>tres) sont<br />
prés<strong>en</strong>tées dans le Tableau 4.7. On peut noter qu’avec c<strong>et</strong>te méthode on a égalem<strong>en</strong>t<br />
que les corrélations classiques sont toujours cont<strong>en</strong>ues dans l’intervalle qui représ<strong>en</strong>te la<br />
corrélation symbolique.<br />
Le cercle des corrélations symbolique des données “oils and fats” obt<strong>en</strong>u par dualité avec<br />
la méthode des c<strong>en</strong>tres est montré dans la Figure 4.7. Il est important de noter qu’il y avait<br />
une rotation par rapport au cercle représ<strong>en</strong>té sur la Figure 4.4. Le plan principal obt<strong>en</strong>u
La dualité dans la Méthode des C<strong>en</strong>tres 109<br />
PC1 PC2 PC3 PC4<br />
L [1.275, 4.733] [−1.353, 4.428] [−1.025, 1.289] [−0.989, 0.989]<br />
P [1.059, 1.701] [−1.128, −0.343] [−1.508, −1.046] [−0.134, 0.334]<br />
Co [−0.236, 0.399] [−0.969, −0.213] [−0.170, 0.368] [−0.246, 0.204]<br />
S [0.154, 0.658] [−0.745, −0.179] [−0.027, 0.342] [−0.369, 0.028]<br />
Ca [0.151, 0.613] [−0.881, −0.437] [0.807, 1.204] [0.113, 0.538]<br />
O [−0.594, 0.100] [−0.775, 0.043] [0.019, 0.545] [−0.645, −0.101]<br />
B [−3.046, −2.226] [0.234, 1.162] [−0.392, 0.152] [−0.530, 0.193]<br />
H [−2.900, −1.841] [0.020, 1.135] [−0.729, 0.171] [−0.105, 0.720]<br />
Table 4.8: Composantes principales avec la méthode des c<strong>en</strong>tres duale.<br />
par la méthode duale des c<strong>en</strong>tres associée à ce cercle des corrélations est prés<strong>en</strong>té dans la<br />
Figure 4.8 <strong>et</strong> les <strong>com</strong>posantes principales sont prés<strong>en</strong>tées dans le Tableau 4.8.<br />
Le prochain algorithme généralise celui proposé dans [16, Cazes, Chouakria, Diday and<br />
Schektman (1997)]. Il fonctionne avec la même matrice de<br />
variance–covariance que [17, Chouakria (1998)], mais nous prés<strong>en</strong>tons quelques étapes<br />
pour calculer la corrélation symbolique <strong>en</strong> utilisant des relations de dualité afin de tracer<br />
le cercle des corrélations symbolique.<br />
ALGORITHME 4.3: ANALYSE EN COMPOSANTES PRINCIPALES AVEC<br />
Z t Z.<br />
Entrée :
La dualité dans la Méthode des C<strong>en</strong>tres 110<br />
Figure 4.7: Le cercle des corrélations symbolique avec le algorithme 4.2.<br />
Figure 4.8: Le plan principal symbolique avec la méthode des c<strong>en</strong>tres dual.
La dualité dans la Méthode des C<strong>en</strong>tres 111<br />
• m =nombre d’obj<strong>et</strong>s symboliques.<br />
• n =nombre variables symboliques.<br />
• Le tableau des données symboliques<br />
⎛ [ ] [ ] [ ]<br />
x11 , x 11 x12 , x 12 · · · x1n , x 1n [ ] [ ] [ ]<br />
x21 , x<br />
X =<br />
21 x22 , x 22 · · · x2n , x 2n ⎜ .<br />
.<br />
.. . .<br />
⎝<br />
[ ] [ ] [ ]<br />
xm1 , x m1 xm2 , x m2 · · · xmn , x mn<br />
⎞<br />
.<br />
⎟<br />
⎠<br />
Sortie :<br />
• La corrélation symbolique <strong>en</strong>tre les variables <strong>et</strong> les <strong>com</strong>posantes principales<br />
dans la matrice suivante:<br />
⎛ [<br />
R(X 1 , Y 1 ), R(X 1 , Y 1 ) ] [<br />
· · · R(X 1 , Y n ), R(X 1 , Y n ) ] ⎞<br />
R =<br />
.<br />
⎜<br />
.<br />
.. .<br />
⎟<br />
⎝<br />
[<br />
R(X n , Y 1 ), R(X n , Y 1 ) ] [<br />
· · · R(X n , Y n ), R(X n , Y n ) ] ⎠ .<br />
• La matrice symbolique avec les q premiers <strong>com</strong>posantes principales:<br />
⎛ [ ] [ ]<br />
] ⎞<br />
y11 , y 11 y12 , y 12 · · ·<br />
[y 1q , y 1q [ ] [ ]<br />
]<br />
y21 , y<br />
Y =<br />
21 y22 , y 22 · · ·<br />
[y 2q , y 2q ⎜<br />
.<br />
. . .. .<br />
. ⎟<br />
⎝<br />
[ ] [ ] ] ⎠<br />
ym1 , y m1 ym2 , y m2 · · ·<br />
[y mq , y mq<br />
Etape 1: Calculer la matrice X c = (x c ij) i=1,2,...,m<br />
j=1,2,...,n<br />
Etape 2: Calculer la matrice Z = (z ij ) i=1,2,...,m<br />
j=1,2,...,n<br />
par:<br />
x c ij = x ij + x ij<br />
.<br />
2<br />
par:<br />
z ij = √ 1 x c ij − Xj<br />
c .<br />
m σj<br />
c
La dualité dans la Méthode des C<strong>en</strong>tres 112<br />
Etape 3: Calculer la matrice Z = (z ij ) i=1,2,...,m<br />
j=1,2,...,n<br />
Etape 4: Calculer la matrice R = Z t Z.<br />
z ij = √ 1 x ij − Xj<br />
c ,<br />
m σj<br />
c<br />
z ij = √ 1 x ij − Xj<br />
c .<br />
m σj<br />
c<br />
<strong>et</strong> Z = (z ij ) i=1,2,...,m<br />
j=1,2,...,n<br />
Etape 5: Calculer les q premiers vecteurs propres u 1 , u 2 , . . . , u q de R <strong>et</strong> les valeurs propres<br />
associées λ 1 ≥ λ 2 ≥ · · · ≥ λ q > 0.<br />
Etape 6: Pour i = 1, 2, . . . , m<br />
Etape 6.1: Pour j = 1, 2, . . . , q calculer<br />
n∑<br />
y ij = z ik u kj +<br />
k=1,u kj0<br />
z ik u kj<br />
( n∑<br />
)<br />
v ij = √ 1 z ik u kj .<br />
λj<br />
k=1<br />
par:<br />
Etape 8: Pour i = 1, 2, . . . , n<br />
Etape 8.1: Pour j = 1, 2, . . . , q calculer<br />
⎡<br />
R(X i , Y j ) = max ⎣<br />
m∑<br />
m∑<br />
z ki v kj +<br />
⎤<br />
z ki v kj , −1⎦ .<br />
⎡<br />
R(X i , Y j ) = min ⎣<br />
k=1,v kj 0<br />
m∑<br />
m∑<br />
z ki v kj +<br />
k=1,v kj 0<br />
⎤<br />
z ki v kj , 1⎦ .
La dualité dans la Méthode des C<strong>en</strong>tres 113<br />
PC1 PC2 PC3 PC4<br />
GRA [−1.000, −0.827] [−0.443, −0.265] [−0.038, 0.087] [−0.238, −0.084]<br />
FRE [0.760, 1.000] [0.044, 0.372] [−0.428, −0.220] [−0.288, 0.019]<br />
IOD [−1.000, −0.726] [−0.124, 0.191] [−0.565, −0.401] [−0.024, 0.161]<br />
SAP [−0.190, 1.000] [−1.000, 0.371] [−0.442, 0.163] [−0.231, 0.325]<br />
Table 4.9: Corrélations symboliques <strong>en</strong>tre les variables <strong>et</strong> les <strong>com</strong>posantes principales<br />
avec la méthode des c<strong>en</strong>tres duale.<br />
Etape 9: FIN de l’algorithme.<br />
Example 33 Pour illustrer le cercle des corrélations symbolique dual avec Z t Z on emploie<br />
les données d’Ichino (“oils and fats”) qu’on a prés<strong>en</strong>té dans le Tableau 5.1. Les<br />
corrélations symboliques que nous avons obt<strong>en</strong>ues <strong>en</strong> utilisant l’algorithme 4.3 sont prés<strong>en</strong>tées<br />
dans le Tableau 4.9 <strong>et</strong> les corrélations classiques <strong>en</strong>tre le c<strong>en</strong>tre de gravité des variables <strong>et</strong><br />
le c<strong>en</strong>tre de gravité des <strong>com</strong>posantes principales ont été prés<strong>en</strong>tées dans le Tableau 4.2 de<br />
la section précéd<strong>en</strong>te.<br />
Le cercle des corrélations symbolique avec les données d’Ichino (“oils and fats”) obt<strong>en</strong>u<br />
avec les données du Tableau 4.9 est montré dans la Figure 4.9. Le plan principal correspondant<br />
à ce cercle de corrélation est prés<strong>en</strong>té dans la Figure 4.10.<br />
La taille de la matrice ZZ t est m × m tandis que la taille de Z t Z est n × n, parfois ZZ t<br />
est très grand <strong>et</strong> Z t Z est très p<strong>et</strong>it, dans ce cas–ci il est mieux d’employer l’algorithme<br />
4.3 que l’algorithme 4.2, ou inversem<strong>en</strong>t il peut arriver que Z t Z est très grand <strong>et</strong> ZZ t<br />
est très p<strong>et</strong>it, dans ce cas l’algorithme 4.2 est donc plus rapide que l’algorithme 4.3. Par<br />
conséqu<strong>en</strong>t, <strong>en</strong> considérant si m ≤ n ou pas, nous proposons l’algorithme 4.4.
La dualité dans la Méthode des C<strong>en</strong>tres 114<br />
Figure 4.9:<br />
<strong>com</strong>m<strong>en</strong>çant par Z t Z.<br />
Le cercle des corrélations symbolique avec la méthode des c<strong>en</strong>tres<br />
ALGORITHME 4.4: ALGORITHME OPTIMAL POUR L’ANALYSE EN COM-<br />
POSANTES PRINCIPALES.<br />
Entrée :<br />
• m =nombre d’obj<strong>et</strong>s symboliques.<br />
• n =nombre de variables symboliques.<br />
• Le tableau des données symboliques<br />
⎛ [ ] [ ] [ ]<br />
x11 , x 11 x12 , x 12 · · · x1n , x 1n [ ] [ ] [ ]<br />
x21 , x<br />
X =<br />
21 x22 , x 22 · · · x2n , x 2n ⎜ .<br />
.<br />
.. . .<br />
⎝<br />
[ ] [ ] [ ]<br />
xm1 , x m1 xm2 , x m2 · · · xmn , x mn<br />
⎞<br />
.<br />
⎟<br />
⎠
La dualité dans la Méthode des C<strong>en</strong>tres 115<br />
Figure 4.10: Plan principal symbolique avec la méthode des c<strong>en</strong>tres <strong>com</strong>m<strong>en</strong>çant par<br />
Z t Z.<br />
Sortie :<br />
• La corrélation symbolique <strong>en</strong>tre les variables <strong>et</strong> les <strong>com</strong>posantes principales<br />
dans la matrice suivante:<br />
⎛ [<br />
R(X 1 , Y 1 ), R(X 1 , Y 1 ) ] [<br />
· · · R(X 1 , Y n ), R(X 1 , Y n ) ] ⎞<br />
R =<br />
.<br />
⎜<br />
.<br />
.. .<br />
⎟<br />
⎝<br />
[<br />
R(X n , Y 1 ), R(X n , Y 1 ) ] [<br />
· · · R(X n , Y n ), R(X n , Y n ) ] ⎠ .<br />
• La matrice symbolique avec les premières q <strong>com</strong>posantes principales:<br />
⎛ [ ] [ ]<br />
] ⎞<br />
y11 , y 11 y12 , y 12 · · ·<br />
[y 1q , y 1q [ ] [ ]<br />
]<br />
y21 , y<br />
Y =<br />
21 y22 , y 22 · · ·<br />
[y 2q , y 2q ⎜<br />
.<br />
. . .. .<br />
. ⎟<br />
⎝<br />
[ ] [ ] ] ⎠<br />
ym1 , y m1 ym2 , y m2 · · ·<br />
[y mq , y mq<br />
Etape 1: Si m ≤ n alors on applique l’algorithme 4.2 autrem<strong>en</strong>t on applique l’algorithme<br />
4.3.
La dualité dans la Méthode des Somm<strong>et</strong>s 116<br />
Etape 2: FIN de l’algorithme.<br />
Theorem 6 L’<strong>Analyse</strong> <strong>en</strong> Composantes Principales classique est un cas particulier de la<br />
méthode des c<strong>en</strong>tres proposée dans l’algorithme 4.4.<br />
Démostration: Supposons sans perte de généralité que l’algorithme 4.4 exécute l’algorithme<br />
]<br />
4.2. Si tous les intervalles<br />
[x ij , x ij sont triviaux, c’est–à–dire x ij = x ij = x ij , alors on<br />
a dans l’étape 2 que x c ij = x ij <strong>et</strong> dans l’étape 3 on a z ij = z ij donc à la étape 4 la matrice<br />
H = ZZ t est la matrice des corrélations classique. On a ainsi que z ki v kj<br />
m∑<br />
+<br />
m∑<br />
m∑<br />
m∑<br />
m∑<br />
z ki v kj = z ki v kj ≥ −1 <strong>et</strong> z ki v kj +<br />
z ki v kj =<br />
k=1,v kj 0<br />
k=1<br />
k=1,v kj 0<br />
k=1<br />
m∑<br />
z ki v kj ≤ 1,<br />
alors à l’étape 6.1 de l’algorithme 4.2 on a R(X i , Y j ) = R(X i , Y j ) = R(X i , Y j )<br />
(corrélation classique), <strong>et</strong> donc le cercle des corrélations symboliques sera le cercle des<br />
corrélations classique. D’une manière semblable on peut montrer que le plan principal<br />
symbolique sera le plan principal classique.<br />
<br />
4.1.3 La dualité dans la Méthode des Somm<strong>et</strong>s<br />
Il est impossible de généraliser l’algorithme de la méthode des somm<strong>et</strong>s proposé dans<br />
[16, Cazes, Chouakria, Diday <strong>et</strong> Schektman (1997)] <strong>en</strong> utilisant la relation de dualité<br />
pour calculer le cercle des corrélations parce qu’on peut proj<strong>et</strong>er le c<strong>en</strong>tre de gravité<br />
des variables mais on ne peut pas proj<strong>et</strong>er l’hypercube défini par les variables. Pour<br />
proj<strong>et</strong>er le c<strong>en</strong>tre de gravité des variables on doit calculer les vecteurs propres de ZZ t<br />
<strong>en</strong> utilisant la relation v l<br />
= Zu l √ λl<br />
, ce qui est possible parce que la taille de Z est (m ·<br />
2 n ) × n <strong>et</strong> la taille de u l est n × n puis la taille de la matrice V = [v 1 |v 2 | · · · |v q ] est<br />
(m · 2 n ) × q, ainsi il est possible d’obt<strong>en</strong>ir les coordonnées des variables calculant Z t V .<br />
Mais, pour calculer la projection symbolique des variables <strong>com</strong>me des rectangles, on doit
La dualité dans la Méthode des Somm<strong>et</strong>s 117<br />
m∑<br />
m∑<br />
m∑<br />
calculer R(X i , Y j ) = z ki v kj + z ki v kj <strong>et</strong> R(X i , Y j ) = z ki v kj +<br />
m∑<br />
k=1,v kj >0<br />
k=1,v kj 0<br />
k=1,v kj
La dualité dans la Méthode des Somm<strong>et</strong>s 118<br />
⎛<br />
R = ⎜<br />
⎝<br />
[<br />
R(X 1 , Y 1 ), R(X 1 , Y 1 ) ] [<br />
· · · R(X 1 , Y n ), R(X 1 , Y n ) ] ⎞<br />
.<br />
.<br />
.. .<br />
⎟<br />
[<br />
R(X n , Y 1 ), R(X n , Y 1 ) ] [<br />
· · · R(X n , Y n ), R(X n , Y n ) ] ⎠ .<br />
Etape 1: On calcule la matrice N taille m × (n · 2 m ), <strong>et</strong> on désigne C X j l’<strong>en</strong>semble des<br />
numéros de colonne associé à la variable X j dans la matrice N.<br />
⎛ ⎡<br />
N = (N 1 , . . . , N n ) =<br />
⎜ ⎢<br />
⎝ ⎣<br />
⎤<br />
x 11 · · · x 11<br />
x 21 · · · x 21<br />
.<br />
. .. · · ·<br />
. ⎥<br />
⎦<br />
x m1 · · · x m1<br />
⎡<br />
⎢<br />
⎣<br />
⎤ ⎞<br />
x 1n · · · x 1n<br />
x 2n · · · x 2n<br />
. . . . . ⎥ ⎟<br />
⎦ ⎠<br />
x mn · · · x mn<br />
Etape 2: On désigne par X j N la moy<strong>en</strong>ne de la j–column de N <strong>et</strong> par σj N<br />
l’écart type de<br />
la j–column de N, alors on calcule la matrice Z = (z ij )<br />
Etape 3: On calcule H = ZZ t .<br />
z ij = √ 1 n ij − X j N<br />
m σ j .<br />
N<br />
i=1,2,...,m :<br />
j=1,2,...,m×n·2 m<br />
Etape 4: On calcule les q premières vecteurs propres v 1 , v 2 , . . . , v q de H <strong>et</strong> les valeurs<br />
propres correspondants λ 1 ≥ λ 2 ≥ · · · ≥ λ q > 0.<br />
Etape 5: Pour i = 1, 2, . . . , m<br />
Etape 5.1: Pour j = 1, 2, . . . , q on calcule<br />
Etape 6: FIN de l’algorithme.<br />
R(X i , Y j ) = min<br />
k∈C X j<br />
R(X i , Y j ) = max<br />
k∈C X j<br />
(r ik )<br />
(r ik ).
Paramètres symboliques d’interprétation 119<br />
PC1 PC2 PC3 PC4<br />
GRA [−0.928, −0.972] [−0.314, −0.180] [−0.014, −0.139] [0.019, 0.190]<br />
FRE [0.956, 0.862] [0.057, 0.368] [−0.173, −0.352] [−0.027, 0.296]<br />
IOD [−0.802, −0.917] [0.211, 0.476] [−0.218, −0.465] [−0.139, 0.067]<br />
SAP [0.708, −0.772] [−0.726, 0.815] [0.690, −0.563] [−0.789, 0.788]<br />
Table 4.10: Corrélations symboliques <strong>en</strong>tre les variables <strong>et</strong> les <strong>com</strong>posantes principales<br />
avec la méthode des somm<strong>et</strong>s.<br />
Example 34 En employant les données d’Ichino (“oils and fats”) qu’on a prés<strong>en</strong>tées dans<br />
le Tableau 5.1 <strong>et</strong> l’algorithme 4.5, on a obt<strong>en</strong>u les corrélations symboliques prés<strong>en</strong>tées<br />
dans le Tableau 4.10.<br />
Le cercle des corrélations symbolique avec les données d’Ichino (“oils and fats”) obt<strong>en</strong>u<br />
<strong>en</strong> employant des données du Tableau 4.10 est montré dans la Figure 4.11.<br />
4.1.4 Les aides symboliques à l’interprétation<br />
[16, Cazes, Chouakria, Diday and Schektman (1997)] propos<strong>en</strong>t des paramètres classiques<br />
d’interprétation pour la méthode des somm<strong>et</strong>s. Dans c<strong>et</strong>te section nous proposons<br />
des paramètres classiques d’interprétation pour la méthode des c<strong>en</strong>tres <strong>et</strong> égalem<strong>en</strong>t nous<br />
proposons des paramètres symboliques d’interprétation pour les deux méthodes qui considèr<strong>en</strong>t<br />
la variabilité ou l’inexactitude de la <strong>en</strong>trée.<br />
Pour mesurer la qualité de représ<strong>en</strong>tation de l’obj<strong>et</strong> S i selon le j–ième axe factoriel [16,<br />
Cazes, Chouakria, Diday and Schektman (1997)] ont proposé l’indice (4.19):
Paramètres symboliques d’interprétation 120<br />
COR(S i , u j ) =<br />
∑<br />
k∈L Si<br />
y 2 kj<br />
∑<br />
k∈L Si<br />
d 2 (k, G) =<br />
∑<br />
k∈L Si<br />
y 2 kj<br />
n∑<br />
∑<br />
x 2 kp<br />
p=1 k∈L Si<br />
. (4.19)<br />
Figure 4.11: Cercle des corrélations symbolique avec la méthode des somm<strong>et</strong>s.<br />
Pour la méthode des c<strong>en</strong>tres, on propose l’indice (4.20) pour mesurer la qualité de représ<strong>en</strong>tation<br />
de l’obj<strong>et</strong> S i selon le j–ième axe factoriel:<br />
COR(S i , u j ) =<br />
(<br />
y<br />
c<br />
ij<br />
) 2<br />
. (4.20)<br />
n∑ ( )<br />
x<br />
c 2<br />
ij<br />
Ces deux indices (4.19) <strong>et</strong> (4.20) calcul<strong>en</strong>t le cosinus de l’angle <strong>en</strong>tre un vecteur représ<strong>en</strong>tant<br />
l’obj<strong>et</strong> S i <strong>et</strong> la <strong>com</strong>posante principale avec la direction u j . Mais S i est représ<strong>en</strong>té dans<br />
l’espace factoriel <strong>com</strong>me un hypercube alors on peut avoir une meilleure idée de la qualité<br />
j=1
Paramètres symboliques d’interprétation 121<br />
✻<br />
cos(α) = cor(S i , Y j )<br />
cos(β) = cor(S i , Y j )<br />
★ ★★<br />
★ ★★<br />
✑<br />
✓✥✥✥✥✥✥✥✥✥✥✥<br />
✑✑ ✑ ✑✑<br />
✓✓✓✓✓✓ α<br />
β<br />
<br />
<br />
<br />
<br />
<br />
<br />
✠<br />
S i<br />
✲ y j<br />
Figure 4.12: La qualité symbolique de S i selon le j–ième axe factoriel.<br />
de représ<strong>en</strong>tation de l’obj<strong>et</strong> S i selon le j–ième axe factoriel si on calcule la valeur minimum<br />
<strong>et</strong> maximum du cosinus de l’angle <strong>en</strong>tre l’obj<strong>et</strong> S i (hypercube) <strong>et</strong> la <strong>com</strong>posante<br />
principale dans la direction u j . Dans ce but on propose l’algorithme 4.6. L’idée de<br />
l’algorithme est de calculer le cosinus de l’angle <strong>en</strong>tre tous les somm<strong>et</strong>s de l’hypercube S i<br />
<strong>et</strong> l’axe factoriel <strong>et</strong> on choisit le minimum <strong>et</strong> le maximum. On illustre ceci dans la Figure<br />
4.12. L’algorithme vérifie égalem<strong>en</strong>t si l’hypercube conti<strong>en</strong>t l’origine ou si l’hypercube<br />
coupe l’axe, parce que dans ces deux cas le cosinus de l’angle devrait être 1.<br />
ALGORITHME 4.6: LA QUALITE SYMBOLIQUE DE S i SELON L’AXE<br />
FACTORIEL<br />
Entrée :<br />
• m =nombre d’obj<strong>et</strong>s symboliques.<br />
• n =nombre de variables symboliques.
Paramètres symboliques d’interprétation 122<br />
• Le tableau des données symboliques<br />
⎛ [ ] [ ] [ ]<br />
x11 , x 11 x12 , x 12 · · · x1n , x 1n [ ] [ ] [ ]<br />
x21 , x<br />
X =<br />
21 x22 , x 22 · · · x2n , x 2n ⎜ .<br />
.<br />
.. . .<br />
⎝<br />
[ ] [ ] [ ]<br />
xm1 , x m1 xm2 , x m2 · · · xmn , x mn<br />
⎞<br />
.<br />
⎟<br />
⎠<br />
• La matrice des <strong>com</strong>posantes principales symboliques:<br />
⎛ [ ] [ ] [ ]<br />
y11 , y 11 y12 , y 12 · · · y1n , y 1n [ ] [ ] [ ]<br />
y21 , y<br />
Y =<br />
21 y22 , y 22 · · · y2n , y 2n ⎜ . .<br />
.. . .<br />
⎝<br />
[ ] [ ] [ ]<br />
ym1 , y m1 ym2 , y m2 · · · ymn , y mn<br />
⎞<br />
.<br />
⎟<br />
⎠<br />
Sortie : Les cosinus symbolique <strong>en</strong>tre les variables <strong>et</strong> les <strong>com</strong>posantes principales dans<br />
la matrice suivante:<br />
⎛<br />
⎞<br />
[cor(S 1 , u 1 ), cor(S 1 , u 1 )] · · · [cor(S 1 , u n ), cor(S 1 , u n )]<br />
COR =<br />
.<br />
⎜<br />
.<br />
.. .<br />
⎟<br />
⎝<br />
⎠ .<br />
[cor(S m , u 1 ), cor(S m , u 1 )] · · · [cor(S m , u n ), cor(S m , u n )]<br />
Etape 1: total= m · 2 m , i = 1, j = 1.<br />
Etape 2: P<strong>en</strong>dant que i ≤ n<br />
Etape 2.1: P<strong>en</strong>dant que j ≤ m<br />
Etape 2.1.1: Si → 0∈Y<br />
◦ j<br />
H alors 2<br />
Etape 2.1.1.1: cor(S i , u j ) = 1.<br />
Etape 2.1.1.2: cor(S i , u j ) = 1.<br />
Etape 2.1.2: Autrem<strong>en</strong>t<br />
2 Où → 0 note le vecteur zéro dans R m <strong>et</strong> ◦ A note l’<strong>en</strong>semble de points intérieurs de A.
Paramètres symboliques d’interprétation 123<br />
Etape 2.1.2.1 cor(S i , u j ) = 1.<br />
Etape 2.1.2.2 cor(S i , u j ) = 0.<br />
Etape 2.1.3: Si S i ∩axis j ≠ ∅<br />
Etape 2.1.3.1 cor(S i , u j ) = 1.<br />
Etape 2.1.3.2 cor(S i , u j ) = 1.<br />
Etape 2.1.4: Autrem<strong>en</strong>t<br />
Etape 2.1.4.1 cor(S i , u j ) = 1.<br />
Etape 2.1.4.2 cor(S i , u j ) = 0.<br />
Etape 2.1.5: s = 1<br />
Etape 2.1.6: P<strong>en</strong>dant que s ≤ total<br />
Etape 2.1.6.1: x = s−ième somm<strong>et</strong> de S i<br />
Etape 2.1.6.2: cor= (x j)<br />
n∑<br />
2<br />
k=1<br />
(x k ) 2<br />
Etape 2.1.6.3: Si cor< cor(S i , u j )<br />
⋄ cor(S i , Y j ) =cor<br />
Etape 2.1.6.4: Si cor> cor(S i , u j )<br />
⋄ cor(S i , Y j ) =cor<br />
Sortie: La matrice COR= (cor(S i , u j ), cor(S i , u j )), i = 1, 2, . . . , m <strong>et</strong> j = 1, 2, . . . , n.<br />
Pour mesurer la contribution de S i à l’inertie λ j du j–ième axe factoriel [16, Cazes,<br />
Chouakria, Diday and Schektman (1997)] propos<strong>en</strong>t la formule (4.21) pour la méthode<br />
des somm<strong>et</strong>s:<br />
CTR(S i , u j ) = 1<br />
m2 n λ j<br />
∑<br />
On propose la formule (4.22) pour la méthode des c<strong>en</strong>tres:<br />
k∈L Si<br />
y 2 kj. (4.21)
Le logiciel pour l’analyse <strong>en</strong> <strong>com</strong>posantes principales symbolique 124<br />
CTR(S i , u j ) =<br />
(<br />
y<br />
c<br />
ij<br />
) 2<br />
mλ j<br />
. (4.22)<br />
Dans le cas symbolique on propose un indice dans lequel on calcule la contribution de tous<br />
les somm<strong>et</strong>s S i à l’inertie λ j du j–ième axe factoriel. On calcule <strong>en</strong>suite la contribution<br />
minimum <strong>et</strong> maximum. Cela est prés<strong>en</strong>té dans l’algorithme 4.7.<br />
Pour mesurer la contribution de S i à l’inertie totale [16, Cazes, Chouakria, Diday and<br />
Schektman (1997)] propos<strong>en</strong>t l’indice (4.23) pour la méthode des somm<strong>et</strong>s:<br />
INR(S i ) = 1<br />
m2 n<br />
∑<br />
k∈L Si<br />
d 2 (k, G)<br />
n∑<br />
j=1<br />
λ j<br />
= 1<br />
m2 n<br />
n∑<br />
p=1<br />
∑<br />
(x kp ) 2<br />
k∈L Si<br />
. (4.23)<br />
n∑<br />
λ j<br />
Pour la méthode des c<strong>en</strong>tres on propose la formule (4.24) qui mesure la contribution de<br />
S i à l’inertie total:<br />
INR(S i ) = 1 m<br />
n∑ ( )<br />
x<br />
c 2<br />
ij<br />
j=1<br />
j=1<br />
. (4.24)<br />
n∑<br />
λ j<br />
j=1<br />
4.1.5 Le logiciel pour l’analyse <strong>en</strong> <strong>com</strong>posantes principales symbolique<br />
Nous avons mis <strong>en</strong> application un programme <strong>en</strong> C++ pour l’analyse <strong>en</strong> <strong>com</strong>posantes principales<br />
pour des données de type intervalle. Ce programme est un module de<br />
PIMAD-Symbolique (voir annexe 1) <strong>et</strong> possede les caractéristiques suivantes:<br />
1. Il trace le plan principal symbolique avec les deux méthodes: la méthode des somm<strong>et</strong>s<br />
<strong>et</strong> la méthode des c<strong>en</strong>tres.
Le logiciel pour l’analyse <strong>en</strong> <strong>com</strong>posantes principales symbolique 125<br />
2. Il trace le cercle des corrélations symbolique <strong>en</strong> utilisant trois algorithmes différ<strong>en</strong>ts,<br />
ceci est une option de l’utilisateur (consultez l’annexe 1).<br />
3. Il calcule les paramètres classiques d’interprétation mais égalem<strong>en</strong>t les paramètres<br />
symboliques d’interprétation.<br />
4. L’algorithme mis <strong>en</strong> application dans le programme d’analyse <strong>en</strong> <strong>com</strong>posantes principales<br />
symbolique est vraim<strong>en</strong>t une généralisation de l’analyse classique <strong>en</strong> <strong>com</strong>posantes<br />
principales parce que s’il s’applique sur un tableau classique de données,<br />
alors il produit automatiquem<strong>en</strong>t des résultats classiques.<br />
5. Par défaut le programme fonctionne avec l’algorithme 4.4 qui est optimal <strong>en</strong> temps.<br />
6. On peut exécuter le programme étape à étape de l’algorithme, <strong>en</strong> <strong>en</strong>registrant les<br />
résultats intermédiaires dans un fichier, <strong>com</strong>me la matrice de corrélation, les valeurs<br />
propres, les vecteurs propres, <strong>et</strong>c. (consultez l’annexe 1).<br />
L’utilisateur peut choisir la méthode que le programme emploiera dans le m<strong>en</strong>u Options.<br />
Si l’utilisateur choisit l’option Choose-M<strong>et</strong>hod le programme SPCA prés<strong>en</strong>te la boîte<br />
de dialogue prés<strong>en</strong>tée dans la Figure A.5. Dans c<strong>et</strong>te boîte de dialogue l’utilisateur peut<br />
choisir la méthode <strong>et</strong> choisir alors l’algorithme pour établir le cercle des corrélations. Si<br />
l’utilisateur choisit les options C<strong>en</strong>ter <strong>et</strong> Dual le programme emploie l’algorithme 4.4;<br />
si l’utilisateur choisit les options Tops <strong>et</strong> Dual le programme emploie les algorithmes<br />
4.5 <strong>et</strong> si l’utilisateur choisit les options Tops <strong>et</strong> Definition le programme emploie<br />
l’algorithme 4.1.
L’ACP avec données de type histogramme 126<br />
4.2 Généralisation de l’analyse <strong>en</strong> <strong>com</strong>posantes principales<br />
aux données de type histogramme<br />
4.2.1 L’algorithme<br />
Dans c<strong>et</strong>te section nous proposons un algorithme pour appliquer l’analyse de <strong>com</strong>posantes<br />
principales quand les variables sont de type histogramme. C<strong>et</strong> algorithme fonctionne<br />
égalem<strong>en</strong>t si le tableau de données a des variables de type intervalle <strong>et</strong> de type histogramme.<br />
Si toutes les variables sont de type intervalle, il produit le même résultat<br />
que celui produit par l’algorithme de la méthode des c<strong>en</strong>tres proposée dans [16, Cazes,<br />
Chouakria, Diday <strong>et</strong> Schektman (1997)].<br />
Dans c<strong>et</strong> algorithme on utilise l’idée proposée dans [38, Diday (1998)] qui consiste à<br />
représ<strong>en</strong>ter chaque histogramme–individu par une suite de k intervalle–individus (le premier<br />
inclus dans le second, le second inclus dans le troisième <strong>et</strong> ainsi de suite) où k est le<br />
nombre maximum des modalités prises par une certaine variable dans le tableau symbolique<br />
de données.<br />
Nous ne représ<strong>en</strong>tons pas vraim<strong>en</strong>t dans le plan factoriel les histogrammes, nous allons<br />
représ<strong>en</strong>ter la Fonction de Distribution Empirique F Y définie dans [7, Bock and Diday<br />
(2000)] associée à chaque histogramme. En d’autres termes, si nous avons une variable<br />
de type histogramme Y sur un <strong>en</strong>semble E = {a 1 , a 2 , . . .} d’obj<strong>et</strong>s avec le domaine Y<br />
représ<strong>en</strong>té par la fonction Y (a) = (U(a), π a ), pour a ∈ E, où π a est la distribution de<br />
fréqu<strong>en</strong>ce, alors nous utiliserons dans l’algorithme la fonction F (x) =<br />
∑<br />
π i au lieu<br />
de l’histogramme.<br />
i / π i ≤x<br />
Definition 37 Soit X = (x ij ) i=1,2,...,m un tableau de données symbolique avec variables<br />
j=1,2,...,n<br />
de type continu, intervalle <strong>et</strong> histogramme, <strong>et</strong> soit k = max{s, où s est le nombre de
L’ACP avec données de type histogramme 127<br />
modalités de Y j , j = 1, 2, . . . , n} quand Y j est de type histogramme 3 . On définit le<br />
vecteur–colonne des intervalles associés à chaque élém<strong>en</strong>t de X de la façon suivante:<br />
1. Si x ij = [a, b], le vecteur–colonne des intervalles associés est:<br />
⎡ ⎤<br />
[a, b]<br />
x ↓ ij = [a, b]<br />
.<br />
⎢ . ⎥<br />
⎣ ⎦<br />
[a, b]<br />
2. Si x ij = (1(p 1 ), 2(p 2 ), . . . , s(p s )) avec s ≤ k (histogramme), le vecteur–colonne<br />
k×1<br />
des intervalles associés est:<br />
⎡<br />
⎤<br />
[0, p 1 ]<br />
[0, p<br />
x ↓ ij = 1 + p 2 ]<br />
.<br />
[ ]<br />
⎢<br />
⎣<br />
s∑ ⎥<br />
⎦<br />
0, p w<br />
w=1<br />
k×1<br />
3. Si x ij = a, le vecteur–colonne des intervalles associés est:<br />
⎡ ⎤<br />
[a, a]<br />
x ↓ ij = [a, a]<br />
.<br />
⎢ . ⎥<br />
⎣ ⎦<br />
[a, a]<br />
Definition 38 Soit X = (x ij ) i=1,2,...,m un tableau de données symbolique avec variables<br />
j=1,2,...,n<br />
de type continu, intervalle <strong>et</strong> histogramme. On définit la matrice X ↓ = (x ↓ ij ) pour i =<br />
1, 2, . . . , m <strong>et</strong> j = 1, 2, . . . , n. Il est important de noter que X ↓ a m · k lignes 4 <strong>et</strong> n<br />
colonnes.<br />
k×1<br />
3 Si toutes la variable Y j est de type intervalle ou de type continu alors s = 1.<br />
4 k <strong>com</strong>me dans la définition précéd<strong>en</strong>te.<br />
.
L’ACP avec données de type histogramme 128<br />
⎡<br />
Example 35 Si X = ⎣<br />
[1, 3] (1(0.2), 2(0.3), 3(0.5))<br />
[7, 9] (1(0.8), 2(0.1), 3(0.1))<br />
⎤<br />
⎦ alors<br />
⎡<br />
X ↓ =<br />
⎢<br />
⎣<br />
[1, 3] [0.0000, 0.2000]<br />
[1, 3] [0.0000, 0.5000]<br />
[1, 3] [0.0000, 1.0000]<br />
[7, 9] [0.0000, 0.8000]<br />
[7, 9] [0.0000, 0.9000]<br />
[7, 9] [0.0000, 1.0000]<br />
⎤<br />
.<br />
⎥<br />
⎦<br />
L’idée est d’appliquer l’algorithme 4.4 à la matrice X ↓ . Avec c<strong>et</strong>te analyse <strong>en</strong> <strong>com</strong>posantes<br />
principales on peut trouver la “forme” de l’individu–histogramme dans le plan<br />
principal, mais il y a un problème parce que tous les individus–histogramme seront proj<strong>et</strong>és<br />
presque à la même position autour de l’origine. Alors on doit appliquer une autre<br />
analyse <strong>en</strong> <strong>com</strong>posantes principales afin de trouver une bonne structure du groupe pour<br />
les individu–histogramme, c’est pourquoi on appliquera une analyse classique <strong>en</strong> <strong>com</strong>posantes<br />
principales à la matrice prés<strong>en</strong>tée dans les définitions qui suiv<strong>en</strong>t.<br />
Definition 39 Soit X = (x ij ) i=1,2,...,m un tableau de données symbolique avec variables<br />
j=1,2,...,n<br />
de type continu, intervalle <strong>et</strong> histogramme. On définit le vecteur–ligne associé à chaque<br />
élém<strong>en</strong>t de X de la façon suivante:<br />
1. Si x ij = [a, b] alors le vecteur–ligne associé est:<br />
[ ] a + b<br />
x → ij =<br />
2<br />
.<br />
1×1<br />
2. Si x ij = (1(p 1 ), 2(p 2 ), . . . , s(p s )) où s est le nombre de modalités de la j–ième<br />
variable, alors le vecteur–ligne associé est:<br />
x → ij = [p 1 , p 2 , . . . , p s ] 1×s<br />
.
L’ACP avec données de type histogramme 129<br />
3. Si x ij = a alors le vecteur–ligne associé est:<br />
x → ij = [a] 1×1<br />
.<br />
Definition 40 Soit X = (x ij ) i=1,2,...,m un tableau de données symbolique avec variables<br />
j=1,2,...,n<br />
de type continu, intervalle <strong>et</strong> histogramme. On définit la matrice X → = (x → ij ) de m lignes<br />
n∑<br />
<strong>et</strong> p = s j colonnes, où<br />
j=1<br />
⎧<br />
⎪⎨<br />
s j =<br />
⎪⎩<br />
nombre de modalités Si la variable j est de type histogramme,<br />
1 Si la variable j est de type intervalle,<br />
1 Si la variable j est de type continu.<br />
⎡<br />
Example 36 Si X = ⎣<br />
[1, 3] (1(0.2), 2(0.3), 3(0.5))<br />
[7, 9] (1(0.8), 2(0.1), 3(0.1))<br />
⎤<br />
⎦ alors<br />
⎡<br />
X → = ⎣<br />
2 0.2 0.3 0.5<br />
8 0.8 0.1 0.1<br />
⎤<br />
⎦ .<br />
L’idée du prochain algorithme est d’appliquer une analyse <strong>en</strong> <strong>com</strong>posantes principales à<br />
la matrice X ↓ pour trouver la forme de l’individu–histogramme. On applique alors une<br />
autre analyse <strong>en</strong> <strong>com</strong>posantes principales à la matrice X → , <strong>et</strong> avec ces <strong>com</strong>posantes principales<br />
obt<strong>en</strong>ues, on déplacera l’individu–histogramme pour trouver une bonne structure<br />
du groupe dans le plan principal.<br />
ALGORITHME 4.7: ANALYSE EN COMPOSANTES PRINCIPALES POUR<br />
VARIABLES DE TYPE HISTOGRAMME<br />
Entrée :<br />
• m =nombre d’obj<strong>et</strong>s symboliques.
L’ACP avec données de type histogramme 130<br />
• n =nombre de variables symboliques.<br />
• Le tableau des données symboliques<br />
⎛<br />
⎞<br />
x 11 x 12 · · · x 1n<br />
x<br />
X =<br />
21 x 22 · · · x 2n<br />
.<br />
⎜ . . .. .<br />
. ⎟<br />
⎝<br />
⎠<br />
x m1 x m2 · · · x mn<br />
Sortie :<br />
• La matrice symbolique avec les q premières <strong>com</strong>posantes principales:<br />
⎛<br />
⎞<br />
y ↓ 11 y ↓ 12 · · · y ↓ 1q<br />
y ↓<br />
Y =<br />
21 y ↓ 22 · · · y ↓ 2q<br />
.<br />
⎜ . . .. ,<br />
. ⎟<br />
⎝<br />
⎠<br />
y ↓ m1 y ↓ m2 · · · ymq<br />
↓<br />
où (k <strong>com</strong>me dans la définition 37):<br />
⎡<br />
y ↓ ij = ⎢<br />
⎣<br />
[ ]<br />
yij, 1 yij<br />
1<br />
[ ]<br />
yij, 2 yij<br />
2<br />
.<br />
[<br />
yij, k yij<br />
k<br />
]<br />
⎤<br />
.<br />
⎥<br />
⎦<br />
Etape 1: Calculer la matrice X ↓ de la définition 38.<br />
Etape 2: Appliquer l’algorithme 4.4 pr<strong>en</strong>ant <strong>com</strong>me <strong>en</strong>trée X ↓ . Il produit la matrice:<br />
⎛<br />
⎞<br />
ŷ ↓ 11 ŷ ↓ 12 · · · ŷ ↓ 1q 1<br />
ŷ ↓<br />
Ŷ ↓ =<br />
21 ŷ ↓ 22 · · · ŷ ↓ 2q 1<br />
.<br />
⎜ . . .. ,<br />
. ⎟<br />
⎝<br />
⎠<br />
ŷ ↓ m1 ŷ ↓ m2 · · · ŷmq ↓ 1
L’ACP avec données de type histogramme 131<br />
où (k <strong>com</strong>me dans la définition 37):<br />
⎡ [ ] ⎤<br />
ŷ ij, 1 ŷij<br />
1<br />
[ ]<br />
ŷ ↓ ij = ŷ ij, 2 ŷij<br />
2 .<br />
⎢ . ⎥<br />
⎣ [ ] ⎦<br />
ŷij, k ŷij<br />
k<br />
pour i = 1, 2, . . . , n <strong>et</strong> j = 1, 2, . . . , q 1 avec q 1 ≤ n.<br />
Etape 3: Calculer la matrice X → de la définition 40.<br />
Etape 4: Appliquer une analyse classique <strong>en</strong> <strong>com</strong>posantes principales à la matrice X → .<br />
Il produit la matrice:<br />
où q 2 ≤ p =<br />
⎛<br />
Ỹ → =<br />
⎜<br />
⎝<br />
⎞<br />
ỹ 11 ỹ 12 · · · ỹ 1q2<br />
ỹ 21 ỹ 22 · · · ỹ 2q2<br />
. .<br />
.. ,<br />
. . ⎟<br />
⎠<br />
ỹ m1 ỹ m2 · · · ỹ mq2<br />
n∑<br />
s j (s j <strong>com</strong>me dans la définition 40):<br />
j=1<br />
Etape 5: q = min(q 1 , q 2 ).<br />
Etape 6: Calculer les q premières <strong>com</strong>posantes principales:<br />
⎛<br />
⎞<br />
y ↓ 11 y ↓ 12 · · · y ↓ 1q<br />
y ↓<br />
Y =<br />
21 y ↓ 22 · · · y ↓ 2q<br />
.<br />
⎜ . . .. ,<br />
. ⎟<br />
⎝<br />
⎠<br />
y ↓ m1 y ↓ m2 · · · ymq<br />
↓<br />
<strong>en</strong> utilisant la translation:<br />
⎡ [ ] ⎤ ⎡ [<br />
] ⎤<br />
yij 1 , y1 ij<br />
[ ]<br />
ŷij 1 + ỹ ij , ŷ1 ij + ỹ ij<br />
Etape 6.1: Si k > 1 alors y ↓ ij = yij 2 , [<br />
]<br />
y2 ij<br />
ŷij 2 =<br />
+ ỹ ij , ŷ2 ij + ỹ ij<br />
⎢ .<br />
⎥ ⎢ .<br />
⎥<br />
⎣ [ ] ⎦ ⎣ [<br />
] ⎦<br />
yij k , yk ij<br />
ŷij k + ỹ ij , ŷk ij + ỹ ij
L’ACP avec données de type histogramme 132<br />
⎡<br />
Etape 6.2: Si k = 1 alors y ↓ ij = ⎢<br />
⎣<br />
[ ]<br />
yij, 1 yij<br />
1<br />
[ ]<br />
yij, 2 yij<br />
2<br />
.<br />
[ ]<br />
yij, k yij<br />
k<br />
⎤ ⎡<br />
=<br />
⎥ ⎢<br />
⎦ ⎣<br />
[ ]<br />
ŷij, 1 ŷij<br />
1<br />
[ ]<br />
ŷij, 2 ŷij<br />
2<br />
.<br />
[ ]<br />
ŷij, k ŷij<br />
k<br />
⎤<br />
⎥<br />
⎦<br />
Etape 7: Fin de l’algorithme.<br />
Theorem 7 La méthode des c<strong>en</strong>ters pour l’analyse <strong>en</strong> <strong>com</strong>posantes principales proposée<br />
dans l’algorithme 4.4. est un cas particulier de la méthode proposée dans l’algorithme<br />
4.7.<br />
Démonstration: Si x ij = [a, b] ∀ i = 1, 2, . . . , m, j = 1, 2, . . . , n alors dans la matrice<br />
X ↓ de la définition 38 on a k = 1 donc la matrice X ↓ = X <strong>et</strong> dans l’étape 6 <strong>com</strong>me k = 1<br />
on ne déplacera pas les individus–histogramme.<br />
<br />
Remark 10 Comme on l’a démontré dans le théorème 6, l’analyse <strong>en</strong> <strong>com</strong>posantes principales<br />
classique est un cas particulier de la méthode des c<strong>en</strong>tres proposée dans l’algorithme<br />
4.4, <strong>et</strong> on a démontré dans le théorème 7 que la méthode proposée dans l’algorithme 4.4<br />
est un cas particulier de la méthode proposée dans l’algorithme 4.7, alors l’analyse <strong>en</strong><br />
<strong>com</strong>posantes principales pour des données de type histogramme proposé dans l’algorithme<br />
4.7 est une généralisation de l’ACP pour des données de type intervalle qui est une<br />
généralisation de l’ACP classique.<br />
4.2.2 Exemples d’application<br />
Pour illustrer <strong>com</strong>m<strong>en</strong>t l’algorithme 4.7 fonctionne dans c<strong>et</strong>te section on prés<strong>en</strong>te deux<br />
exemples d’exécution.
L’ACP avec données de type histogramme 133<br />
Example 37 Dans c<strong>et</strong> exemple on prés<strong>en</strong>te l’exécution de l’algorithme 4.7 avec la table<br />
de données symbolique prés<strong>en</strong>tée dans (4.25). C<strong>et</strong>te matrice a cinq variables, la première<br />
est de type intervalle, la seconde est une variable discr<strong>et</strong>e quantitative, <strong>et</strong> les trois dernières<br />
variables sont type histogramme (les valeurs sont tronquées).<br />
⎡<br />
X =<br />
⎢<br />
⎣<br />
[1, 4] 2 (1(0.4), 2(0.1), 3(0.2), 4(0.07), 5(0.02)) (1(0.1), 2(0.9)) (1(0.7), 2(0.2))<br />
[1, 4] 3 (1(0.6), 2(0.1), 3(0.1), 5(0.0)) (1(0.1), 2(0.9)) (1(0.7), 2(0.2))<br />
[1, 5] 2 (1(0.7), 2(0.2)) (1(0.0), 2(0.9)) (1(0.7), 2(0.2))<br />
[1, 4] 1 (1(0.7), 2(0.0), 3(0.1), 4(0.0), 5(0.0), 6(0.0) (1(0.0), 2(0.9)) (1(0.7), 2(0.2))<br />
[1, 4] 1 (1(0.4), 3(0.4), 4(0.0), 5(0.0)) (1(0.0), 2(0.9)) (1(0.8), 2(0.1))<br />
[1, 6] 2 (2(0.4), 3(0.1), 4(0.3), 5(0.0), 6(0.0) (1(0.0), 2(0.9)) (1(0.7), 2(0.2))<br />
⎤<br />
⎥<br />
⎦<br />
(4.25)<br />
En appliquant l’algorithme 4.7 on obti<strong>en</strong>t le plan principal de la Figure 4.13<br />
Figure 4.13: Le plan principal avec des données de type continu, intervalle <strong>et</strong> histogramme.<br />
Si on trace la pyramide (voir la Figure 4.14) associé à la matrice (4.25) on obti<strong>en</strong>t la même<br />
structure de classes que celle qu’on a obti<strong>en</strong>ue dans le premier axe dans le plan principal<br />
de la Figure 4.13. C’est–à–dire, le individu “Northern Ireland” est isolé <strong>et</strong> les individus
L’ACP avec données de type histogramme 134<br />
“North non–m<strong>et</strong>ropolitan”, “Yorks and Humberside m<strong>et</strong>ropoli”, “Yorks and Humberside<br />
non-m<strong>et</strong>ro” <strong>et</strong> “East midlands non-m<strong>et</strong>ropolitan” sont groupés.<br />
Figure 4.14: La pyramide avec des données de type continue, intervalles <strong>et</strong> histogramme.<br />
4.2.3 L’interprétation<br />
Pour expliquer <strong>com</strong>m<strong>en</strong>t interpréter l’<strong>Analyse</strong> <strong>en</strong> Composantes Principales pour de données<br />
de type histogramme nous employons un p<strong>et</strong>it exemple. L’interprétation de la position<br />
du individu–histogramme dans le plan principal est la même que dans la situation<br />
classique du analyse <strong>en</strong> <strong>com</strong>posantes principales, alors on devrait expliquer quelle est<br />
l’interprétation de la colonne de rectangles qui représ<strong>en</strong>t<strong>en</strong>t chaque individu.<br />
Example 38 Soit<br />
X =<br />
VAR-1<br />
VAR-2<br />
IND-1 (1(0.1), 2(0.4), 3(0.5)) (1(0.2), 2(0.3), 3(0.5))<br />
IND-2 (1(0.7), 2(0.2), 3(0.1)) (1(0.8), 2(0.1), 3(0.1))<br />
.<br />
C<strong>et</strong>te matrice peut être égalem<strong>en</strong>t représ<strong>en</strong>tée <strong>com</strong>me on montre dans la Figure 4.15.
L’ACP avec données de type histogramme 135<br />
Figure 4.15: Tableau des données avec deux individus <strong>et</strong> deux variables de type histogramme.<br />
Si nous appliquons l’analyse <strong>en</strong> <strong>com</strong>posantes principales de l’algorithme 4.7 à la table de<br />
données précéd<strong>en</strong>te, nous obt<strong>en</strong>ons le plan principal qu’on montre dans la Figure 4.16.<br />
Le plus p<strong>et</strong>it rectangle de la projection de l’individu–1 (Ind1) représ<strong>en</strong>te la probabilité<br />
que l’individu–1 pr<strong>en</strong>ne la modalité 1 pour la variable 1 ou la modalité 1 pour la variable<br />
2. La taille du rectangle est conforme à la représ<strong>en</strong>tation de l’individu–1 dans la Figure<br />
4.15, parce que la valeur de la modalité 1 pour la variable 1 est 0.1 <strong>et</strong> la valeur de la<br />
modalité 1 pour la variable 2 est 0.2, c’est–à–dire la moy<strong>en</strong>ne pour la modalité 1 est<br />
0.15. Le deuxième rectangle de la projection de l’individu–1 représ<strong>en</strong>te la probabilité que<br />
l’individu–1 pr<strong>en</strong>ne la modalité 1 ou la modalité 2 pour la variable 1, ou la probabilité<br />
que l’individu–1 pr<strong>en</strong>ne la modalité 1 ou la modalité 2 pour la variable 2. La taille du<br />
deuxième rectangle est conforme égalem<strong>en</strong>t à la représ<strong>en</strong>tation de l’individu–1 dans la<br />
Figure 4.15, parce que la valeur de la fonction de distribution empirique pour la modalité<br />
2 de la variable 1 est 0.5 <strong>et</strong> la valeur de la fonction de distribution empirique pour la<br />
modalité 2 de la variable 2 est égalem<strong>en</strong>t 0.5. Le troisième rectangle de l’individu–1<br />
représ<strong>en</strong>te la probabilité 1, c’est la probabilité que l’individu 1 pr<strong>en</strong>ne n’importe laquelle
L’ACP avec données de type histogramme 136<br />
des modalités.<br />
Le plus p<strong>et</strong>it rectangle de la projection de l’individu–2 (Ind2) est plus grand que le plus<br />
p<strong>et</strong>it rectangle de la projection de l’individu–1 (voir la Figure 4.16); ceci est conforme<br />
à l’interprétation, parce que la probabilité que l’individu–2 pr<strong>en</strong>ne la modalité 1 pour la<br />
variable 1 est 0.7 <strong>et</strong> la probabilité que l’individu–2 pr<strong>en</strong>ne la modalité 1 pour la variable 2<br />
est 0.8, c’est-à-dire la moy<strong>en</strong>ne de pris la modalité 1 est 0.75. C<strong>et</strong>te valeur est plus grande<br />
que la même valeur pour l’individu–1 qui est 0.15; c’est pourquoi, le plus p<strong>et</strong>it rectangle<br />
de la projection de “Ind1” est plus p<strong>et</strong>it que le plus p<strong>et</strong>it rectangle de la projection de<br />
“Ind2”. Pour les mêmes raisons, le deuxième rectangle de la projection de “Ind1” est plus<br />
p<strong>et</strong>it que le deuxième rectangle de la projection de “Ind2”.<br />
Figure 4.16: TPlan principal du tableau.
Chapter 5<br />
L’<strong>Analyse</strong> Symbolique des Tableaux de<br />
Proximités<br />
5.1 Introduction<br />
La méthode d’analyse des tableaux de dissimilarités standard pr<strong>en</strong>d <strong>com</strong>me <strong>en</strong>trée une<br />
matrice de dissimilarité de terme général δ ij qui est une valeur numérique. Soi<strong>en</strong>t<br />
S 1 , S 2 , . . . , S m , m obj<strong>et</strong>s symboliques, dans c<strong>et</strong>te section nous supposons que les données<br />
se <strong>com</strong>pos<strong>en</strong>t d’une matrice symétrique ∆ = [δ ij ] = [δ ij , δ ij ], i, j = 1, 2, . . . , m où<br />
[δ ij , δ ij ] représ<strong>en</strong>te un intervalle des valeurs possibles pour la dissimilarité <strong>en</strong>tre l’obj<strong>et</strong><br />
symbolique S i <strong>et</strong> l’object symbolique S j .<br />
L’<strong>en</strong>semble de valeurs possibles pour la dissimilarité <strong>en</strong>tre l’obj<strong>et</strong> S i <strong>et</strong> l’object S j pourrait<br />
résulter de la <strong>com</strong>binaison des données de N juges, ou alternativem<strong>en</strong>t ce pourrait être une<br />
région de dissimilarité proposée par un simple juge.<br />
Comme sortie, au lieu de représ<strong>en</strong>ter chaque obj<strong>et</strong> symbolique sur le plan factoriel par<br />
un point, <strong>com</strong>me dans d’autres méthodes d’analyse des tableaux de dissimilarités, dans<br />
137
L’analyse classique des tableaux de proximités 138<br />
la méthode proposée chaque obj<strong>et</strong> symbolique est visualisé par un rectangle, afin de<br />
représ<strong>en</strong>ter la variation de la dissimilarité.<br />
D<strong>en</strong>œux <strong>et</strong> Masson dans [22, D<strong>en</strong>œux (1999)] ont trouvé une solution à ce problème<br />
réduisant au minimum par desc<strong>en</strong>te de gradi<strong>en</strong>t la fonction d’effort:<br />
σ(R) = ∑ i
L’analyse classique des tableaux de proximités 139<br />
L’analyse classique des tableaux de dissimilarités provi<strong>en</strong>t des années 30 quand Young <strong>et</strong><br />
Householder ont montré <strong>com</strong>m<strong>en</strong>t, <strong>en</strong> <strong>com</strong>m<strong>en</strong>çant par une matrice des distances <strong>en</strong>tre<br />
les points dans un espace Euclidi<strong>en</strong>, les coordonnées des points peuv<strong>en</strong>t être trouvées de<br />
telle façon que les distances soi<strong>en</strong>t préservées.<br />
Soi<strong>en</strong>t les coordonnées cherchées de m points dans un espace Euclidi<strong>en</strong> n dim<strong>en</strong>sionnel<br />
x i = (x i1 , x i2 , . . . , x in ) t , i = 1, 2, . . . , m. La distance Euclidi<strong>en</strong>ne d ij <strong>en</strong>tre le i−ième <strong>et</strong><br />
le j−ième point doit satisfaire:<br />
d 2 ij = (x i − x j ) t (x i − x j ). (5.1)<br />
Soit B la matrice de produit scalaire associée à d, telle que:<br />
[B] ij = b ij = x i x j . (5.2)<br />
L’idée de l’analyse des tableaux de dissimilarités est la suivante: on a une mesure de dissimilarité,<br />
d ij , pour chaque paire d’obj<strong>et</strong>s. À partir des distances carrées {d 2 ij} i,j=1,2,...,m la<br />
matrice B peut être trouvé <strong>et</strong> puis à partir de B les coordonnées inconnues (pour chaque<br />
obj<strong>et</strong>) peuv<strong>en</strong>t être trouvées.<br />
Pour trouver B on a localisé le c<strong>en</strong>tre de gravité de la configuration des points à l’origine,<br />
n∑<br />
par conséqu<strong>en</strong>t x ij = 0 pour i = 1, 2, . . . , m. Alors il n’est pas très difficile de prouver<br />
j=1<br />
([20, Cox <strong>et</strong> Cox (1994)]) que:<br />
b ij = − 1 2<br />
(<br />
d 2 ij − 1 m<br />
m∑<br />
d 2 rj − 1 m<br />
r=1<br />
m∑<br />
d 2 is + 1 n 2<br />
s=1<br />
m∑<br />
∑ m<br />
d 2 rs<br />
r=1 s=1<br />
)<br />
(5.3)<br />
Pour récupérer les coordonnées (<strong>com</strong>posantes principales), la matrice B peut être exprimé<br />
<strong>com</strong>me B = XX t où X = [x 1 , x 2 , . . . , x m ] est une matrice de taille m × n. Notez que
L’analyse classique des tableaux de proximités 140<br />
B est symétrique, semi–définie positive <strong>et</strong> de rang n alors B a n valeurs propres non<br />
négatives <strong>et</strong> m − n valeurs propres zéro.<br />
B peut être écrit <strong>en</strong> termes de sa dé<strong>com</strong>position spectrale (dé<strong>com</strong>position aux valeurs<br />
singulières) B = V ΛV t où Λ = diag(λ 1 , λ 2 , . . . , λ m ) <strong>et</strong> V = [v 1 , v 2 , . . . , v m ] avec v i le<br />
i−ième vecteur propre tels que v t iv i = 1 <strong>et</strong> λ 1 ≥ λ 2 ≥ · · · ≥ λ m ≥ 0.<br />
En raison des m − n valeurs propres zéro B peut être écrit <strong>com</strong>me B = V 1 Λ 1 V t<br />
1 où Λ 1 =<br />
diag(λ 1 , λ 2 , . . . , λ n ) <strong>et</strong> V = [v 1 , v 2 , . . . , v n ]. Puis <strong>com</strong>me B = XX t ; X est donné par:<br />
X = V 1 Λ 1 2<br />
1 , (5.4)<br />
où Λ 1 2<br />
1 =diag(λ 1 2<br />
1 , λ 1 2<br />
2 , . . . , λ 1 2 n ).<br />
Il y a une propriété de dualité <strong>en</strong>tre l’analyse <strong>en</strong> <strong>com</strong>posantes principales <strong>et</strong> l’analyse<br />
des tableaux de dissimilarités quand les dissimilarités sont données par des distances Euclideannes.<br />
Plus formellem<strong>en</strong>t:<br />
Proposition 8 [20, Cox <strong>et</strong> Cox (1994)] Si µ i <strong>et</strong> ξ i sont les valeurs propres <strong>et</strong> les vecteurs<br />
propres de l’analyse <strong>en</strong> <strong>com</strong>posantes principales de X respectivem<strong>en</strong>t pour i = 1, 2, . . . , n,<br />
<strong>et</strong> on dénote par λ i <strong>et</strong> v i les valeurs propres <strong>et</strong> les vecteurs propres de l’analyse classique<br />
du tableau de dissimilarité de ∆ = {d ij } i,j=1,2,...,m respectivem<strong>en</strong>t pour i = 1, 2, . . . , n,<br />
alors:<br />
µ i = λ i <strong>et</strong> ξ i = X t v i pour i = 1, 2, . . . , n. (5.5)<br />
ALGORITHME 5.1: ANALYSE CLASSIQUE DES TABLEAUX DE DISSIMI-<br />
LARITÉS [20, Cox <strong>et</strong> Cox (1994)]<br />
Etape 1: Obt<strong>en</strong>ir les dissimilarités {δ ij } i,j=1,2,...,m .
L’analyse des tableaux de proximités de type intervalle 141<br />
Etape 2: Calculer la matrice B:<br />
(<br />
b ij = − 1 δij 2 − 1 2 m<br />
m∑<br />
δrj 2 − 1 m<br />
r=1<br />
m∑<br />
δis 2 + 1 n 2<br />
s=1<br />
m∑<br />
∑ m<br />
δrs<br />
2<br />
r=1 s=1<br />
)<br />
.<br />
Etape 3: Calculer les valeurs propres λ 1 , λ 2 , . . . , λ m <strong>et</strong> les vecteurs propres v 1 , v 2 , . . . v m<br />
de B.<br />
Etape 4: Calculer les coordonnées des m points dans R n <strong>en</strong> employant l’égalité:<br />
x ij = √ λ i · v ji pour i = 1, 2, . . . , m <strong>et</strong> j = 1, 2, . . . , n.<br />
5.3 L’analyse des tableaux de dissimilarités de type intervalle:<br />
INTERSCAL<br />
Soi<strong>en</strong>t S 1 , S 2 , . . . , S m , m obj<strong>et</strong>s symboliques, dans c<strong>et</strong>te section on suppose que les données<br />
d’<strong>en</strong>trée se <strong>com</strong>pos<strong>en</strong>t d’une matrice symétrique ∆ défini par:<br />
⎡<br />
∆ =<br />
⎢<br />
⎣<br />
[0, δ 11 ] [δ 12 , δ 12 ] · · · [δ 1m , δ 1m ]<br />
[δ 21 , δ 21 ] [0, δ 22 ] · · · [δ 2m , δ 2m ]<br />
. .<br />
.. . .<br />
[δ m1 , δ m1 ] [δ m2 , δ m2 ] · · · [0, δ mm ]<br />
⎤<br />
, (5.6)<br />
⎥<br />
⎦<br />
où δ ij représ<strong>en</strong>te la dissimilarité minimum possible <strong>en</strong>tre l’obj<strong>et</strong> S i <strong>et</strong> l’obj<strong>et</strong> S j , <strong>et</strong> δ ij<br />
représ<strong>en</strong>te la dissimilarité maximum possible <strong>en</strong>tre l’obj<strong>et</strong> S i <strong>et</strong> l’obj<strong>et</strong> S j .<br />
Si on veut obt<strong>en</strong>ir une méthode symbolique d’analyse des tableaux de dissimilarités qui<br />
a la propriété de dualité (proposition 8) avec la méthode des somm<strong>et</strong>s d’analyse <strong>en</strong> <strong>com</strong>posantes<br />
principales, quand la dissimilarité est modelée par une distance Euclidi<strong>en</strong>ne. On<br />
doit avoir <strong>com</strong>me <strong>en</strong>trée les dissimilarités <strong>en</strong>tre toutes les lignes de la matrice M définie
L’analyse des tableaux de proximités de type intervalle 142<br />
dans (5.7), parce que la méthode des somm<strong>et</strong>s de l’analyse <strong>en</strong> <strong>com</strong>posantes principales<br />
<strong>com</strong>m<strong>en</strong>ce par faire une analyse classique <strong>en</strong> <strong>com</strong>posantes principales de la matrice M<br />
(voir [16, Cazes, Chouakria, Diday <strong>et</strong> Schektman (1997)]).<br />
⎡<br />
M =<br />
⎢<br />
⎣<br />
⎡<br />
⎤<br />
x 11 x 12 · · · x 1n<br />
x 11 x 12 · · · x 1n<br />
.<br />
⎢ . . .. . ⎥<br />
⎣<br />
⎦<br />
x 11 x 12 · · · x<br />
⎡<br />
1n<br />
⎤<br />
x 21 x 22 · · · x 2n<br />
x 21 x 22 · · · x 2n<br />
.<br />
⎢ . . .. . ⎥<br />
⎣<br />
⎦<br />
x 21 x 22 · · · x 2n<br />
.<br />
⎡<br />
⎤<br />
x m1 x m2 · · · x mn<br />
x m1 x m2 · · · x mn<br />
.<br />
⎢ . . . . . ⎥<br />
⎣<br />
⎦<br />
x m1 x m2 · · · x mn<br />
⎤<br />
, (5.7)<br />
⎥<br />
⎦<br />
Comme la taille de la matrice M est (m · 2 n ) × n, on devrait avoir <strong>com</strong>me <strong>en</strong>trée une<br />
matrice ∆ de la taille (m · 2 n ) × (m · 2 n ) mais c’est clairem<strong>en</strong>t impossible, parce qu’on<br />
a seulem<strong>en</strong>t deux dissimilarités, la maximale <strong>et</strong> la minimale, pour chaque paire d’obj<strong>et</strong>s<br />
symboliques.<br />
Ainsi il est impossible de trouver une méthode d’analyse des tableaux de dissimilarités de<br />
type intervalle qui a la propriété de dualité avec la méthode des somm<strong>et</strong>s dans l’analyse<br />
<strong>en</strong> <strong>com</strong>posantes principales. On cherchera donc une solution approximative.<br />
Soit:
L’analyse des tableaux de proximités de type intervalle 143<br />
δ ij<br />
β ij<br />
R Si<br />
α ij<br />
δ ij<br />
α ji<br />
R Sj<br />
β ji<br />
Figure 5.1: Distances minimum <strong>et</strong> maximum <strong>en</strong>tre les deux hypercubes.<br />
δ ij = min d(x, y)<br />
x∈R Si , y∈R Sj<br />
δ ij = max d(x, y)<br />
x∈R Si , y∈R Sj<br />
, (5.8)<br />
où R Si est l’hypercube dans R n défini par l’obj<strong>et</strong> symbolique S i , R Sj est l’hypercube<br />
défini par l’obj<strong>et</strong> symbolique S j <strong>et</strong> d(x, y) est la distance Euclidi<strong>en</strong>ne 2 <strong>en</strong>tre x <strong>et</strong> y.<br />
Si on fixe l’hypercube R Si , il est clair qu’il y a des points α ij = (α ij<br />
1 , α ij<br />
2 , . . . , α ij<br />
n ) ∈ R Si <strong>et</strong><br />
α ji = (α ji<br />
1 , α ji<br />
2 , . . . , α ji<br />
n ) ∈ R Sj , pour j = 1, 2, . . . , m tels que δ ij = d(α ij , α ji ). De façon<br />
analogue il y a des points β ij = (β ij<br />
1 , β ij<br />
2 , . . . , β ij<br />
n ) ∈ R Si <strong>et</strong> β ji =<br />
(β ji<br />
1 , β ji<br />
2 , . . . , β ji<br />
n ) ∈ R Sj tels que δ ij = d(β ij , β ji ) pour j = 1, 2, . . . , m, <strong>com</strong>me on<br />
le montre dans la Figure 5.1 pour n = 2. Comme j parcourt l’<strong>en</strong>semble {1, 2, . . . , m},<br />
alors, pour chaque hypercube R Si on a m points α ij <strong>et</strong> m points β ij <strong>et</strong> donc on a 2mm dissimilarités<br />
(on ti<strong>en</strong>t <strong>en</strong> <strong>com</strong>pte la dissimilarité maximum <strong>et</strong> minimum parmi un hypercube<br />
<strong>et</strong> lui–même). Mais, <strong>com</strong>me δ ij = d(α ij , α ji ) = δ ji = d(α ji , α ij ) <strong>et</strong> δ ij = d(β ij , β ji ) =<br />
δ ji = d(β ji , β ij ), on a 2m + 2(m − 1) + · · · + 2 = 2 ∑ m<br />
i=1<br />
i = m(m + 1) dissimilarités.<br />
Si on fixe l’hypercube R Si , il y a aussi des points γ ij = (γ ij<br />
1 , γ ij<br />
2 , . . . , γ ij<br />
n ) ∈ R Si <strong>et</strong> γ ji =<br />
(γ ji<br />
1 , γ ji<br />
2 , . . . , γ ji<br />
n ) ∈ R Sj , pour j = 1, 2, . . . , m tels que d(γ ij , γ ji ) = δ ij+δ ij<br />
2<br />
, <strong>com</strong>me on le<br />
montre dans la Figure 5.2. Ceci produit m dissimilarités.<br />
2 Comme dans l’analyse classique des tableaux de proximités, c<strong>et</strong>te supposition est théorique parce que<br />
la méthode pourrait être utilisée avec n’importe quelle dissimilarité.
L’analyse des tableaux de proximités de type intervalle 144<br />
β i<br />
<br />
✔ R Si<br />
✔<br />
✔<br />
✔<br />
γ ij <br />
✔<br />
✔<br />
✔<br />
✔<br />
✔<br />
✔ α i<br />
✔<br />
✔<br />
❛ <br />
✔<br />
✔<br />
❛❛❛❛❛ δ ij<br />
✔<br />
✔<br />
<br />
✔<br />
✔<br />
α j R Sj<br />
✔<br />
✔<br />
γ<br />
✔<br />
✔<br />
ji<br />
<br />
✔<br />
✔✔ ✔ d(γ ij , γ ji ) = δ ij+δ ij<br />
2<br />
✁ ✁✁✁<br />
β j <br />
δ<br />
✁ ✁✁ ✡ ✡✡✡<br />
ij ✡✡ ✡<br />
Figure 5.2: Distances moy<strong>en</strong>nes parmi les deux hypercubes.<br />
L’idée est c<strong>et</strong>te de faire une analyse des tableaux de proximités de la matrice de distances<br />
˜∆ définie par l’équation (5.9). Pour chaque hypercube R Si<br />
la matrice ˜∆ a deux lignes,<br />
dans la première ligne on emploie la dissimilarité minimum <strong>et</strong> la dissimilarité maximum<br />
parmi un hypercube <strong>et</strong> lui–même, alors qu’on emploie la dissimilarité minimum <strong>et</strong> la<br />
dissimilarité moy<strong>en</strong>ne parmi chaque couple d’hypercubes différ<strong>en</strong>ts, c’est–à–dire on emploie<br />
2m dissimilarités. Dans la second ligne de la matrice ˜∆ on emploie la dissimilarité<br />
maximum <strong>et</strong> la dissimilarité minimum parmi un hypercube <strong>et</strong> lui–même <strong>et</strong> on emploie<br />
la dissimilarité moy<strong>en</strong>ne <strong>et</strong> la dissimilarité maximum parmi chaque couple d’hypecubes<br />
différ<strong>en</strong>ts, <strong>en</strong> c<strong>et</strong>te ligne on emploie aussi 2m dissimilarités, mais <strong>com</strong>me les dissimilarités<br />
moy<strong>en</strong>nes ont déjà été employées on utilise vraim<strong>en</strong>t m dissimilarités, donc pour<br />
chaque hypercube on emploie 3m dissimilarités. Alors, <strong>com</strong>me d(x, y) = d(y, x) au total<br />
on emploie 3m + 3(m − 1) + · · · + 3 = 3 ∑ m<br />
i=1 i = 3 m(m + 1) > m(m + 1) dissimi-<br />
2<br />
larités. Notez que ˜∆ est une matrice symétrique <strong>et</strong> que sa taille est 2m×2m. Comme pour<br />
chaque hypercube R Si on a deux lignes, alors on peut calculer une coordonnée principale
L’analyse des tableaux de proximités de type intervalle 145<br />
minimum <strong>et</strong> maximum, c’est–à–dire la coordonnée principale de type intervalle.<br />
⎡<br />
˜∆ =<br />
⎢<br />
⎣<br />
δ<br />
0 δ 11 δ<br />
12 +δ 12<br />
δ<br />
12 · · · δ<br />
1m +δ 1m<br />
2 1m 2<br />
δ 11 0<br />
δ 12 +δ 12<br />
2<br />
δ 12 · · ·<br />
δ 1m +δ 1m<br />
2<br />
δ 1m<br />
δ<br />
δ<br />
21 +δ 21<br />
δ<br />
21 0 δ<br />
2 22 · · · δ<br />
2m +δ 2m<br />
2m 2<br />
δ 21 +δ 21<br />
δ<br />
δ<br />
2 21 δ 22 0 · · ·<br />
2m +δ 2m<br />
δ<br />
2 2m<br />
δ 31<br />
δ 31 +δ 31<br />
2<br />
δ 32<br />
δ 32 +δ 32<br />
2<br />
· · · δ 3m<br />
δ 3m +δ 3m<br />
δ 31 +δ 31<br />
2<br />
δ 31<br />
δ 32 +δ 32<br />
.<br />
.<br />
δ<br />
2 32 · · ·<br />
.<br />
. . .. .<br />
2<br />
δ 3m +δ 3m<br />
2<br />
δ 3m<br />
δ<br />
δ<br />
m1 +δ m1<br />
δ<br />
m1<br />
δ<br />
m2 +δ m2<br />
2 m2 · · · 0 δ<br />
2 mm<br />
δ m1 +δ m1<br />
δ<br />
δ<br />
m2 +δ m2<br />
2 m1 δ<br />
2 m2 · · · δ mm 0<br />
.<br />
⎤<br />
. (5.9)<br />
⎥<br />
⎦<br />
ALGORITHME 5.2: L’ANALYSE DES TABLEAUX DE DISSIMILARITÉS DE<br />
TYPE INTERVALLE<br />
]}<br />
Etape 1: Obt<strong>en</strong>ir les dissimilarités de type intervalle<br />
{[δ ij , δ ij<br />
i,j=1,2,...,m<br />
Etape 2: Calculer la matrice ˜∆ = (˜δ ij ) i,j=1,2,...,2m définie dans l’équation (5.9).<br />
Etape 3: Trouver la matrice ˜B = {[˜b ij ]} i,j=1,2,...,2m :<br />
˜bij = − 1 2<br />
(<br />
˜δ 2 ij − 1<br />
2m<br />
2m∑<br />
r=1<br />
˜δ 2 rj − 1<br />
2m<br />
2m∑<br />
s=1<br />
˜δ 2 is + 1<br />
(2m) 2<br />
2m<br />
∑<br />
r=1 s=1<br />
.<br />
2m∑<br />
˜δ rs<br />
2<br />
Etape 4: Trouver les valeurs propres ˜λ 1 , ˜λ 2 , . . . , ˜λ 2m <strong>et</strong> les vecteurs propres associés<br />
ṽ 1 , ṽ 2 , . . . , ṽ 2m de ˜B.<br />
Etape 5: Calculer les coordonnées des 2m points dans R n <strong>en</strong> utilisant la formule:<br />
√<br />
˜x ri = ˜λ r · ṽ ir pour r = 1, 2, . . . , 2m <strong>et</strong> i = 1, 2, . . . , n.<br />
)
L’analyse des tableaux de proximités de type intervalle 146<br />
Etape 6: Construire les coordonnées principales de type intervalle<br />
X1 I , X2 I , . . . , Xm I à partir des coordonnées numériques X 1, X 2 , . . . , X 2m<br />
(X i = (˜x i1 , ˜x i2 , . . . , ˜x in )). Soit L Si l’<strong>en</strong>semble de nombres de lignes dans la matrice<br />
˜M <strong>en</strong> référ<strong>en</strong>ce à l’obj<strong>et</strong> S i . Il est clair que L Si = {2i − 1, 2i}. Si X Si j = [x ij , x ij ]<br />
est la valeur de la <strong>com</strong>posante principale de type intervalle Xj I pour l’obj<strong>et</strong> S i alors:<br />
x ij = min (˜x kj ) =<br />
k∈L Si<br />
x ij =max (˜x kj ) =<br />
k∈L Si<br />
min<br />
k∈{2i−1,2i}<br />
max<br />
k∈{2i−1,2i}<br />
(˜x kj ),<br />
(˜x kj ).<br />
Theorem 9 La méthode classique de l’analyse des tableaux de dissimilarités de [71, Torg<strong>en</strong>son<br />
(1958)] <strong>et</strong> [45, Gower (1966)] proposée dans l’algorithme 5.1 est un cas particulier<br />
de la méthode INTERSCAL proposée dans l’algorithme 5.2.<br />
]<br />
Démonstration: Si tous les intervalles<br />
[δ ij , δ ij sont triviaux, c’est–à–dire δ ij = δ ij =<br />
δ ij , alors les dissimilarités moy<strong>en</strong>ne δ ij+δ ij<br />
2<br />
= δ ij , donc on a que ˜λ s = 2 · λ s pour s =<br />
1, 2, . . . , q, où q est le nombre de valeurs propres strictem<strong>en</strong>t positives de la matrice B de<br />
l’algorithme 5.1. En plus on a que v ir = √ 2 · ṽ 2i−1,r = ˜x 2i−1,r = √ 2 · ṽ 2i,r = ˜x 2i,r pour<br />
r = 1, 2, . . . , 2m <strong>et</strong> i = 1, 2, . . . , n. Alors on obti<strong>en</strong>t x ij = x ij = x ij pour i = 1, 2, . . . , m<br />
<strong>et</strong> j = 1, 2, . . . , n.<br />
La solution pour X n’est pas unique car B = V ΛV t = XT T t X t pour tout T tel que<br />
T T t = I. N’importe quelle rotation rigide est un exemple de la matrice de type T . Nous<br />
choisissons la solution correspondant aux axes principales. Le premier axe maximise<br />
l’inertie des α i , β i i = 1, 2, . . . , m. Cep<strong>en</strong>dant, puisque n’importe quelle rotation est<br />
égalem<strong>en</strong>t une solution, on peut souhaiter tourner les axes principales à fin d’obt<strong>en</strong>ir des<br />
solutions (axes) qui soi<strong>en</strong>t plus interpr<strong>et</strong>ables.<br />
INTERSCAL, la méthode de l’analyse des tableaux de dissimilarités de type intervalle, a<br />
un avantage par rapport la méthode de l’analyse <strong>en</strong> <strong>com</strong>posantes principales des somm<strong>et</strong>s.
L’analyse des tableaux de proximités de type intervalle 147<br />
La taille de la matrice dont l’algorithme calcule les valeurs propres <strong>et</strong> les vecteurs propres<br />
pour la méthode de l’analyse des tableaux de dissimilarités de type intervalle (INTER-<br />
SCAL) est 2m×2m, tandis que dans la méthode de l’analyse <strong>en</strong> <strong>com</strong>posantes principales<br />
des somm<strong>et</strong>s, elle peut être m · 2 n × m · 2 n .<br />
5.4 Exemples<br />
Nous avons analysé deux <strong>en</strong>sembles de données. D’abord, un <strong>en</strong>semble de données déjà<br />
exploré dans le contexte de l’analyse <strong>en</strong> <strong>com</strong>posantes principales des somm<strong>et</strong>s, <strong>et</strong> <strong>en</strong>suite<br />
un <strong>en</strong>semble de données plus traditionnel dans l’analyse des tableaux de dissimilarités<br />
impliquant des dissimilitudes des jugées. Nous avons d’abord analysé l’exemple des<br />
huiles <strong>et</strong> des graisses (Ichino’s Oils and Fats data) parce que c<strong>et</strong> <strong>en</strong>semble de données<br />
a été expliqué dans le contexte de l’analyse <strong>en</strong> <strong>com</strong>posantes principales pour données de<br />
type intervalle <strong>et</strong> donc nous pouvons <strong>com</strong>parer nos résultats à ceux obt<strong>en</strong>us à partir des<br />
<strong>com</strong>posantes principales.<br />
5.4.1 Exemple des huiles <strong>et</strong> des graisses<br />
L’<strong>en</strong>semble de données des huiles <strong>et</strong> des graisses (les données d’Ichino [50, Ichino (1994)])<br />
est montré dans le Tableau 5.1. Chaque ligne du tableau de données représ<strong>en</strong>te une classe<br />
d’huile décrite par 4 variables quantitatives de type intervalle: “Specific gravity”, “Freezing<br />
point”, “Iodine value” <strong>et</strong> “Saponification”. La matrice des distances ∆ qu’on a utilisé<br />
<strong>com</strong>me <strong>en</strong>trée pour INTERSCAL (méthode d’analyse des tableaux de dissimilarités de<br />
type intervalle) a été calculée <strong>en</strong> utilisant la matrice X qu’on a obt<strong>en</strong>u <strong>en</strong> normalisant<br />
la matrice des huiles <strong>et</strong> des graisses. Pour calculer ∆ on a employé les équations (5.12)<br />
<strong>et</strong> (5.13). En utilisant l’algorithme INTERSCAL on obti<strong>en</strong>t le plan principal représ<strong>en</strong>té<br />
dans la Figure 5.3. Si on emploie l’analyse <strong>en</strong> <strong>com</strong>posantes principales des somm<strong>et</strong>s avec
L’analyse des tableaux de proximités de type intervalle 148<br />
GRA FRE IOD SAP<br />
Linsed (L) [0.93, 0.935] [−27, −18] [170, 204] [118, 196]<br />
Perilla (P) [0.93, 0.937] [−5, −4] [192, 208] [188, 197]<br />
Cotton (Co) [0.916, 0.918] [−6, −1] [99, 113] [189, 198]<br />
Sesame (S) [0.92, 0.926] [−6, −4] [104, 116] [187, 193]<br />
Camellia (Ca) [0.916, 0.917] [−25, −15] [80, 82] [189, 193]<br />
Olive (O) [0.914, 0.919] [0, 6] [79, 90] [187, 196]<br />
Beef (B) [0.86, 0.87] [30, 38] [40, 48] [190, 199]<br />
Hog (H) [0.858, 0.864] [22, 32] [53, 77] [190, 202]<br />
Table 5.1: L’<strong>en</strong>semble de données des huiles <strong>et</strong> des graisses.<br />
des données des huiles <strong>et</strong> des graisses on obti<strong>en</strong>t les résultats qui sont montrés dans la<br />
Figure 5.4.<br />
La matrice des distances ∆ <strong>en</strong>tre les individus de l’exemple des huiles <strong>et</strong> des graisses<br />
qu’on a employé <strong>com</strong>me <strong>en</strong>trée pour la méthode de l’analyse des tableaux de dissimilarités<br />
de type intervalle est prés<strong>en</strong>tée dans (5.11). On a calculé c<strong>et</strong>te matrice <strong>en</strong> utilisant<br />
la matrice X (prés<strong>en</strong>té dans (5.10)) qu’on a obt<strong>en</strong>u <strong>en</strong> normalisant la matrice du Tableau<br />
5.1. Pour calculer ∆, on a employé les équations (5.12) <strong>et</strong> (5.13).
L’analyse des tableaux de proximités de type intervalle 149<br />
⎡<br />
X =<br />
⎢<br />
⎣<br />
[0.82, 1.00] [−1.49, −1.01] [1.15, 1.80] [−5.88, 0.65]<br />
[0.82, 1.08] [−0.32, −0.27] [1.57, 1.88] [−0.02, 0.73]<br />
[0.29, 0.37] [−0.37, −0.11] [−0.20, 0.06] [0.06, 0.82]<br />
[0.44, 0.67] [−0.37, −0.27] [−0.11, 0.12] [−0.10, 0.40]<br />
[0.29, 0.33] [−1.38, −0.85] [−0.57, −0.53] [0.06, 0.40]<br />
[0.22, 0.41] [−0.06, 0.26] [−0.59, −0.38] [−0.10, 0.65]<br />
[−1.79, −1.42] [1.53, 1.96] [−1.33, −1.18] [0.15, 0.90]<br />
[−1.87, −1.64] [1.11, 1.64] [−1.08, −0.62] [0.15, 1.15]<br />
⎤<br />
⎥<br />
⎦<br />
(5.10)<br />
⎡<br />
∆ =<br />
⎢<br />
⎣<br />
⎤<br />
[0.00,6.58][0.69,6.77][1.34,7.16][1.22,6.70][1.75,6.78][1.85,7.21][4.11,8.69][3.70,8.70]<br />
[0.69,6.77][0.00,0.86][1.57,2.39][1.46,2.25][2.22,2.88][2.00,2.80][3.98,4.96][3.57,4.76]<br />
[1.34,7.16][1.57,2.39][0.00,0.85][0.07,1.08][0.58,1.61][0.18,1.30][2.57,3.57][2.33,3.40]<br />
[1.22,6.70][1.46,2.25][0.07,1.08][0.00,0.60][0.65,1.45][0.34,1.29][2.80,3.82][2.55,3.67]<br />
[1.75,6.78][2.22,2.88][0.58,1.61][0.65,1.45][0.00,0.63][0.79,1.76][3.00,4.12][2.76,3.93]<br />
[1.85,7.21][2.00,2.80][0.18,1.30][0.34,1.29][0.79,1.76][0.00,0.86][2.16,3.29][2.05,3.18]<br />
[4.11,8.69][3.98,4.96][2.57,3.57][2.80,3.82][3.00,4.12][2.16,3.29][0.00,0.95][0.10,1.56] ⎥<br />
⎦<br />
[3.70,8.70][3.57,4.76][2.33,3.40][2.55,3.67][2.76,3.93][2.05,3.18][0.10,1.56][0.00,1.24]<br />
(5.11)<br />
En utilisant notre algorithme INTERSCAL nous obt<strong>en</strong>ons le plan principal représ<strong>en</strong>té sur<br />
la Figure 5.3.<br />
Si on emploie l’analyse <strong>en</strong> <strong>com</strong>posantes principales des somm<strong>et</strong>s avec les données des<br />
huiles <strong>et</strong> des graisses prés<strong>en</strong>tées dans le Tableau 5.1, on obti<strong>en</strong>t le résultat qui est montré<br />
dans la Figure 5.4.<br />
La structure de groupe obt<strong>en</strong>ue dans la Figure 5.3 <strong>et</strong> dans la Figure 5.4 sont similaires<br />
parce que les groupes sont semblables <strong>et</strong> les tailles des rectangles sont proportionnelles.<br />
Ainsi l’interprétation des deux graphiques sera presque id<strong>en</strong>tique.
L’analyse des tableaux de proximités de type intervalle 150<br />
Figure 5.3: Plan principal de données des huiles <strong>et</strong> des graisses <strong>en</strong> utilisant l’algorithme<br />
INTERSCAL.<br />
Figure 5.4: Le plan principal symbolique avec la méthode des c<strong>en</strong>tres dual.<br />
5.4.2 Exemple de jugem<strong>en</strong>ts de rectangles<br />
Les deuxièmes données que nous avons considérés se <strong>com</strong>pos<strong>en</strong>t des jugem<strong>en</strong>ts de la<br />
dissemblance des rectangles de différ<strong>en</strong>te aire <strong>et</strong> rapport haut–large, jugés par 16 suj<strong>et</strong>s.
L’analyse des tableaux de proximités de type intervalle 151<br />
Ces données ont été prés<strong>en</strong>tées dans un papier sur la méthode de l’analyse des tableaux<br />
de dissimilarités contrainte ([74, Winsberg <strong>et</strong> De So<strong>et</strong>e, 1997]). D’autres chercheurs ont<br />
regardé les rectangles, cep<strong>en</strong>dant, <strong>en</strong> général, ils ont limité leur att<strong>en</strong>tion aux rectangles<br />
où la hauteur est plus grande que la largeur ou vice versa. C<strong>et</strong> <strong>en</strong>semble de données inclut<br />
tous les deux, des rectangles dont la hauteur est plus grande que la largeur <strong>et</strong> vice versa.<br />
Dans une étude des données de dominance de rectangle discutées par [14, Carroll (1972)]<br />
la dim<strong>en</strong>sion de cons<strong>en</strong>sus a assez bi<strong>en</strong> correspondu à la taille; mais il était égalem<strong>en</strong>t clair<br />
dans ce cas que les suj<strong>et</strong>s chang<strong>en</strong>t considérablem<strong>en</strong>t quant à ce que ils signifi<strong>en</strong>t par taille.<br />
Quelques suj<strong>et</strong>s ont égalisé la taille à la hauteur, quelques uns à l’aire, d’autres à la largeur,<br />
<strong>et</strong> finalem<strong>en</strong>t quelques uns au rapport hauteur–largeur. Quand [74, Winsberg <strong>et</strong> De So<strong>et</strong>e,<br />
1997] ont analysé leurs données pour les 16 suj<strong>et</strong>s, pris <strong>en</strong>semble, trois dim<strong>en</strong>sions ont<br />
été récupérés: la première était l’aire, qui se relie à la taille; la deuxième dim<strong>en</strong>sion était<br />
le rapport de hauteur–largeur, avec des valeurs récupérées tombant ess<strong>en</strong>tiellem<strong>en</strong>t dans<br />
trois catégories, selon si le rapport de hauteur–largeur était plus grand qu’un, égale à<br />
un, ou moins d’un, qui se relie à la position du rectangle, (haut–bas); la troisième était<br />
le rapport de hauteur–largeur, ou alternativem<strong>en</strong>t rapport de largeur–hauteur, tels que la<br />
valeur était inférieure ou égale à un, c’est–à–dire de forme carrée. Ainsi, la première<br />
dim<strong>en</strong>sion se relie à la taille, <strong>et</strong> les deux autres dim<strong>en</strong>sions se reli<strong>en</strong>t à la forme. Trois<br />
classes lat<strong>en</strong>tes ont été trouvées dans l’analyse de CLASCAL [75, Winsberg <strong>et</strong> De So<strong>et</strong>e,<br />
1993]. La différ<strong>en</strong>ce parmi les classes était principalem<strong>en</strong>t due à la façon dont ils ont pesé<br />
la dim<strong>en</strong>sion deux.<br />
Notre solution INTERSCAL, pour ces données, récupère les mêmes trois dim<strong>en</strong>sions.<br />
Les Figures 5.5 <strong>et</strong> 5.6 montr<strong>en</strong>t les résultats. La deuxième dim<strong>en</strong>sion sépare les rectangles<br />
dont la hauteur est inférieure à leur largeur dans la partie dessus de la Figure 5.5, de ceux<br />
dont la hauteur est plus grande que leur largeur dans la partie dessous de la Figure 5.5. La<br />
dim<strong>en</strong>sion un est liée à la forme carrée, c’est le rapport de largeur–hauteur ou le rapport<br />
de hauteur–largeur, n’importe lequel est inférieur à un. Les rectangles qui sont presque
L’analyse des tableaux de proximités de type intervalle 152<br />
Figure 5.5: Rectangles dont la hauteur est inférieure à leur largeur du côté droit.<br />
carrés sont dans le côté droit de la Figure 5.5. La troisième dim<strong>en</strong>sion est liée à la taille<br />
ou à l’aire avec les rectangles plus p<strong>et</strong>its apparaissant sur le dessus de la Figure 5.6.<br />
Figure 5.6: a troisième dim<strong>en</strong>sion s’est reliée à la taille ou à l’aire des rectangles avec les<br />
plus p<strong>et</strong>its apparaissant sur le dessus.
L’analyse des tableaux de proximités de type intervalle 153<br />
Notez que chaque object symbolique est représ<strong>en</strong>té <strong>com</strong>me un hypercube de trois dim<strong>en</strong>sions.<br />
Ainsi pour le rectangle numéro huit on a que a(w) = [Y 1 (w) ⊆ [4.43, 7.22]] ∧<br />
[Y 2 (w) ⊆ [−35.12, −14.94]] ∧ [Y 3 (w) ⊆ [−0.05, 0.49]]. Les rectangles “psychologiques”<br />
occup<strong>en</strong>t un hypercube de sorte que pour le rectangle object symbolique physique numéro<br />
huit, le modèle de l’obj<strong>et</strong> psychologique correspondant est l’obj<strong>et</strong> symbolique avec une<br />
conjonction de trois attributs, chacun décrit par un intervalle, un intervalle pour haut–<br />
bas [4.43, 7.22], un intervalle pour la forme carrée [−35.12, −14.94], (largeur–hauteur ou<br />
hauteur–largeur n’importe lequel est inférieur à un), <strong>et</strong> un intervalle pour l’aire ou la taille<br />
[−0.05, 0.49]. Notez que haut–bas n’est pas localisé avec précision. Il est représ<strong>en</strong>té<br />
par un intervalle pour chaque obj<strong>et</strong> symbolique, quoique les rectangles “physiques” <strong>en</strong>tr<strong>en</strong>t<br />
dans trois catégories sur c<strong>et</strong>te variable c’est–à–dire, vers le haut, (la hauteur est plus<br />
grande que la largeur), vers le bas (la largeur est plus grande que la hauteur), ou ni l’un ni<br />
l’autre, (le rectangle est carré). Le haut–bas n’est pas localisé avec précision pour chaque<br />
rectangle “psychologique”, parce que pour certains des juges, c<strong>et</strong>te dim<strong>en</strong>sion était plus<br />
importante que pour d’autres <strong>en</strong> faisant les jugem<strong>en</strong>ts de dissimilitude, occasionn<strong>en</strong>t que<br />
la distance <strong>en</strong>tre les rectangles hauts <strong>et</strong> les rectangles bas être un intervalle. Notez que la<br />
taille de c<strong>et</strong> intervalle est plus p<strong>et</strong>ite pour ces rectangles qui sont plus presque carré, celui<br />
est ces rectangles dessous de la Figure 5.5.<br />
Ces résultats sont conformes aux résultats des analyses prés<strong>en</strong>tées dans [74, Winsberg<br />
<strong>et</strong> De So<strong>et</strong>e, 1997]. En plus, c<strong>et</strong>te nouvelle technique indique précisém<strong>en</strong>t <strong>com</strong>m<strong>en</strong>t les<br />
rectangles sont localisés dans l’espace. Nous avons obt<strong>en</strong>u <strong>com</strong>me résultat intéressant que<br />
la taille de l’hypercube occupé par un rectangle est inversem<strong>en</strong>t lié à son aire (r = −0.72).<br />
Ceci indique qu’il est plus facile que les suj<strong>et</strong>s distingu<strong>en</strong>t des rectangles plus grands les<br />
uns des autres qu’il doit faire ainsi pour des rectangles plus p<strong>et</strong>its.
Le programme INTERSCAL 154<br />
5.5 Le programme de l’algorithme INTERSCAL<br />
L’interface du programme est prés<strong>en</strong>tée dans la Figure (A.9). Avec le premier bouton<br />
de la barre à outils il est possible de démarrer le programme avec un tableau de données<br />
symbolique, puis le programme calcule la matrice de dissimilitudes ∆ <strong>en</strong> utilisant les<br />
équations (5.12) <strong>et</strong> (5.13), <strong>et</strong> avec le deuxième bouton de la barre à outils le programme<br />
démarre directem<strong>en</strong>t avec la matrice de dissimilarités.<br />
Proposition 10 [22, D<strong>en</strong>œux <strong>et</strong> Masson (1999)] Soi<strong>en</strong>t R Si<br />
l’hypercube défini dans R n<br />
par l’obj<strong>et</strong> symbolique S i <strong>et</strong> R Sj l’hypercube défini dans R n par l’obj<strong>et</strong> symbolique S j .<br />
Soi<strong>en</strong>t d ij <strong>et</strong> d ij le minimum <strong>et</strong> le maximum distance euclidi<strong>en</strong>nes <strong>en</strong>tre R Si <strong>et</strong> R Sj , alors:<br />
d ij = 1 ∑<br />
√ n [<br />
(xik ) )<br />
− x ik +<br />
(x jk − x jk + 2<br />
x ik + x ik<br />
2<br />
∣ 2<br />
k=1<br />
d ij = 1 [ n∑ √<br />
( ) )<br />
xik − x ik +<br />
(x jk − x jk − 2<br />
4<br />
∣<br />
k=1<br />
( ) )<br />
∼<br />
∣ xik − x ik +<br />
(x jk − x jk − 2<br />
∣<br />
x ik + x ik<br />
2<br />
x ik + x ik<br />
2<br />
− x jk + x jk<br />
2<br />
− x jk + x jk<br />
2<br />
− x jk + x jk<br />
2<br />
2<br />
∣<br />
∣]<br />
(5.12)<br />
∣ − ∼<br />
2 ∣<br />
∣∣] (5.13)
Conclusion 155<br />
Conclusion<br />
En ce qui concerne la classification, nous avons proposé deux algorithmes qui construis<strong>en</strong>t<br />
une pyramide symbolique à partir d’une matrice de données symboliques. Le premier<br />
algorithme donne un ordre total <strong>com</strong>patible avec la pyramide de n obj<strong>et</strong>s, alors que<br />
le deuxième construit la pyramide à partir d’un ordre donné (a priori) sur les obj<strong>et</strong>s. Ces<br />
deux algorithmes, <strong>en</strong> plus de construire la pyramide, trouv<strong>en</strong>t pour chaque palier l’obj<strong>et</strong><br />
symbolique associé, son ext<strong>en</strong>sion <strong>et</strong> vérifi<strong>en</strong>t sa <strong>com</strong>plétude. Les deux algorithmes peuv<strong>en</strong>t<br />
égalem<strong>en</strong>t construire une pyramide même si le tableau de données symboliques a des<br />
variables de type intervalle, quantitatives discrètes ou de type histogramme.<br />
En ce qui concerne les modèles linéaires, nous avons généralisé au cas symbolique certains<br />
des indicateurs de la statistique d’une variable <strong>et</strong> de deux variables, <strong>com</strong>me par exemple:<br />
la moy<strong>en</strong>ne, l’écart type <strong>et</strong> la corrélation, <strong>en</strong>tre autres. Nous avons généralisé<br />
d’une part la méthode classique de la régression simple au cas des données symbol-
Conclusion 156<br />
iques de type intervalle, <strong>et</strong> puis la méthode de l’<strong>Analyse</strong> <strong>en</strong> Composantes Principales<br />
des données de type intervalle dans deux s<strong>en</strong>s: d’abord, nous avons étudié le problème<br />
de la dualité pour le cas de l’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des données de<br />
type intervalle <strong>et</strong> puis nous avons proposé trois manières de proj<strong>et</strong>er les variables de type<br />
intervalle dans le cercle des corrélations. En suite, nous avons proposé une méthode pour<br />
l’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des données de type histogramme. Enfin, nous<br />
avons généralisé la méthode classique de l’analyse des tableaux de dissimilarités pour les<br />
disimilarités de type intervalle.<br />
Nous avons proposé plusieurs algorithmes:<br />
• Les algorithmes CAPS <strong>et</strong> CAPSO qui produis<strong>en</strong>t une pyramide symbolique <strong>et</strong> qui<br />
sont une généralisation de l’algorithme CAP proposé par Diday.<br />
• Trois algorithmes différ<strong>en</strong>ts pour appliquer l’analyse <strong>en</strong> <strong>com</strong>posantes principales<br />
à tableaux des données avec des variables de type intervalle. Le dernier de ces<br />
algorithmes est optimal <strong>en</strong> temps d’exécution grâce à l’utilisation des relations de<br />
dualité.<br />
• Trois algorithmes différ<strong>en</strong>ts pour la régression simple pour des données de type intervalle:<br />
l’algorithme Maximum–Minimum, l’algorithme Inférieur–Haut <strong>et</strong> l’algorithme<br />
des–Somm<strong>et</strong>s.<br />
• L’algorithme pour l’analyse des tableaux de dissimilarités des données de type intervalle,<br />
qui est dénommé INTERSCAL.<br />
De plus, nous avons mis <strong>en</strong> application un logiciel pour chacun des algorithmes proposés<br />
dans c<strong>et</strong>te thèse. Des programmes ont été mis <strong>en</strong> application pour la classification<br />
pyramidale symbolique, l’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des données de type<br />
intervalle, l’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des données de type histogramme,
Conclusion 157<br />
l’algorithme INTERSCAL pour la méthode d’analyse des tableaux de proximités de type<br />
intervalle <strong>et</strong> pour la régression linéaire symbolique.<br />
Les perpectives du développem<strong>en</strong>t de l’analyse des données symbolique sont énormes, <strong>en</strong><br />
ce qui concerne le développem<strong>en</strong>t de nouvelles techniques de l’analyse des données symboliques<br />
ainsi que le développem<strong>en</strong>t des algorithmes <strong>et</strong> du logiciel. En ce qui concerne<br />
les méthodes étudiées dans c<strong>et</strong>te thèse, il y a beaucoup d’aspects à développer, <strong>com</strong>me<br />
par exemple:<br />
• L’élimination des paliers inutiles ou superflus dans les pyramides symboliques.<br />
• L’étude du cons<strong>en</strong>sus parmi les pyramides symboliques <strong>et</strong> la mise au point d’algorithmes<br />
de cons<strong>en</strong>sus.<br />
• En ce qui concerne l’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des données de type<br />
histogramme, la construction des cercles de corrélation.<br />
• Dans l’analyse factorielle, la généralisation de l’analyse factorielle des correspondances<br />
au cas de variables qualitatives <strong>en</strong>semble–évalué (s<strong>et</strong>–value).<br />
• Concernant la régression, il y a beaucoup de choses qui devrai<strong>en</strong>t être faites, par<br />
exemple: la régression sur les variables nominales <strong>en</strong>semble–évalué, les tests symboliques<br />
<strong>et</strong> l’étude de la qualité de l’ajustem<strong>en</strong>t.<br />
• Dans l’analyse des tableaux de dissimilarités pour les dissimilarites de type intervalle,<br />
il reste à étudier les modèles à trois indices, la spécificité <strong>et</strong> la généralisation<br />
de l’analyse des tableaux de dissimilarités pour les dissimilarités de type histogramme.<br />
De même, il reste à ét<strong>en</strong>dre l’étude au cas de la minimization d’un critère numérique<br />
par l’utilisation d’une technique d’optimisation telle que le recuit simulé, la recherche<br />
tabou ou la majorisation.
Bibliography<br />
[1] Aude J.C. <strong>Analyse</strong> de génomes microbi<strong>en</strong>s: Apports de la classification pyramidale.<br />
Thèse de doctorat, Université Paris IX Dauphine, 1999.<br />
[2] Bertrand P. Etude de la représ<strong>en</strong>tation pyramidale, Thèse de 3 cycle, Université<br />
Paris IX-Dauphine, 1986.<br />
[3] Bertrand P. <strong>et</strong> Diday E. Une géneralisation des arbres hiérarchiques: Les<br />
représ<strong>en</strong>tations pyramidales, Statistique Appliquée, Vol. 3, 53-78, 1990.<br />
[4] Bertrand P. <strong>et</strong> Goupil F. Descriptive statistics for symbolic data, In: Symbolic official<br />
data analysis, Springer, 103-124, 1999.<br />
[5] Billard L. and Diday E. Regression analysis for interval–value data, In data analysis,<br />
classification and related m<strong>et</strong>hods, Eds. Kiers H., Rasson J., Gro<strong>en</strong><strong>en</strong> P. and<br />
Schader M., IFCS 2000.<br />
[6] Borg I. and Gro<strong>en</strong><strong>en</strong> P. Modern Multidim<strong>en</strong>sional Scaling – Theory and Applications,<br />
Springer–Verlag, New York, 1997.<br />
[7] Bock H-H. and Diday E. (eds.) Analysis of Symbolic Data. Exploratory m<strong>et</strong>hods for<br />
extracting statistical information from <strong>com</strong>plex data. Springer Verlag, Heidelberg,<br />
425 pages, 2000.<br />
158
Bibliographie 159<br />
[8] Bravo C. Strata decision tree SDA software, In data analysis, classification and<br />
related m<strong>et</strong>hods, Eds. Kiers H., Rasson J., Gro<strong>en</strong><strong>en</strong> P. and Schader M., IFCS 2000.<br />
[9] Brito P. <strong>Analyse</strong> de données symboliques: Pyramides d’héritage, Thèse de doctorat,<br />
Université Paris IX Dauphine, 1991.<br />
[10] Brito P. Symbolic pyramidal clustering, Indo–Fr<strong>en</strong>ch Workshop on symbolic data<br />
analysis ans its applications, Université Paris 9 Dauphine, 1997.<br />
[11] Brito P., Diday E. y Rodríguez O. Algoritmos para la Clasificación Piramidal Simbólica.<br />
Por aparecer <strong>en</strong> Revista de Matemática: Teoría y Aplicaciones, Universidad<br />
de Costa Rica, 2000.<br />
[12] Brito P. Galois correspondances in symbolic data analysis. Fac. Economia, Univ.<br />
Porto, Portugal, 1999.<br />
[13] Bry X. <strong>Analyse</strong>s factorielles simples, Ed. Economica, Paris, 1995.<br />
[14] Carroll J.D. Individual Differ<strong>en</strong>ces and Multidim<strong>en</strong>sional Scaling. in Multidim<strong>en</strong>sional<br />
Scaling Theory and Applications in the Behavioral Sci<strong>en</strong>ces, vol I, Theory,<br />
New York: Seminar Press, 1972.<br />
[15] Casin P. <strong>Analyse</strong> des données <strong>et</strong> des panels de données, Ed. DeBoech Université,<br />
Paris, 1999.<br />
[16] Cazes P., Chouakria A., Diday E. <strong>et</strong> Schektman Y. Ext<strong>en</strong>sion de l’analyse <strong>en</strong> <strong>com</strong>posantes<br />
principales à des données de type intervalle, Rev. Statistique Appliquée,<br />
Vol. XLV Num. 3 pag. 5-24, Francia, 1997.<br />
[17] Chouakria A. Ext<strong>en</strong>sion des méthodes d’analyse factorielle à des données de type<br />
intervalle, Thèse de doctorat, Université Paris IX Dauphine, 1998.<br />
[18] Coad P. and Yourdon E. Object-Ori<strong>en</strong>ted analysis, Yourdon Press,Texas USA,<br />
1991.
Bibliographie 160<br />
[19] Coad P. and Yourdon E. Object-Ori<strong>en</strong>ted design, Yourdon Press,Texas USA, 1991.<br />
[20] Cox T. and Cox M. Multidim<strong>en</strong>sional Scaling, Chapman and Hall, New York, 1994.<br />
[21] De Carvalho F.A.T. Proximity coeffici<strong>en</strong>ts b<strong>et</strong>we<strong>en</strong> boolean symbolic objects, in<br />
New Approaches in <strong>Classification</strong> and Data Analysis. E. Diday <strong>et</strong> al. edit. pp. 387-<br />
394. Springer–Verlag, 1994.<br />
[22] D<strong>en</strong>oeux T. and Masson M. Multidim<strong>en</strong>sional Scaling of interval–valued dissimilarity<br />
data. Université de Technologie de Compiègne, France, 1999.<br />
[23] Diday E., Emilion R. Lattices and Capacities in Analysis of Probabilist Objects.<br />
OSDA’95. Springer Verlag, 1996.<br />
[24] Diday E., Emilion R., Hillali Y. Symbolic Data Analysis of Probabilistic objects<br />
by capacities and credibilities. Atti della XXXVIII. Riunione Soci<strong>et</strong>à Italiana Di<br />
Statistica. Rimini, 1996.<br />
[25] Diday E., Emilion R. Stochastic Lattices Proc. of the Int. Conf. on Ordinal and<br />
Symbolic Data Analysis. Edit.: Technische Hochschule Darmstadt, Fachbereich<br />
Mathematik, Darmstadt D-64289, 1997.<br />
[26] Diday E., Emilion R. A mesure que la connaissance des obj<strong>et</strong>s s’améliore, les<br />
concepts s’organis<strong>en</strong>t se précis<strong>en</strong>t <strong>et</strong> se stabilis<strong>en</strong>t. Actes des Journées de la Société<br />
francophone de classification. Lyon, 1997.<br />
[27] Diday E., Emilion R. Treillis de Galois maximaux <strong>et</strong> Capacités de Choqu<strong>et</strong>. CR<br />
Acad. Sci. Paris. <strong>Analyse</strong> Mathématique, t. 324, série 1, 1997.<br />
[28] Diday E. Une représ<strong>en</strong>tation visuelle des classes empiétantes. Rapport INRIA n.<br />
291. Rocqu<strong>en</strong>court 78150, France, 1984.<br />
[29] Diday E. Lemaire J., Poug<strong>et</strong> J., Testu F. Elém<strong>en</strong>ts d’<strong>Analyse</strong> des Données. Dunod,<br />
Paris, 1984.
Bibliographie 161<br />
[30] Diday E. Introduction à l’approche symbolique <strong>en</strong> <strong>Analyse</strong> des Donnés. Premières<br />
Journées Symbolique-Numérique. Université Paris IX Dauphine. Décembre 1987.<br />
[31] Diday E. Introduction à l’approche symbolique <strong>en</strong> analyse des données. RAIRO<br />
(Revue d’Automatique, d’Informatique <strong>et</strong> de Recherche Opérationnelle), vol. 23,<br />
num. 2, 1989.<br />
[32] Diday, E. Des obj<strong>et</strong>s de l’analyse des données à ceux de l’analyse des connaissances.<br />
In: Y. Kodratoff and E. Diday (eds.), 9-75, 1991.<br />
[33] Diday, E. An introduction to symbolic data analysis. Tutorial of the 4th Confer<strong>en</strong>ce<br />
of IFCS, Paris. Report INRIA no. 1936. Paris, 1993.<br />
[34] Diday, E. Probabilist, possibilist and belief objects for knowledge analysis. Annals<br />
of Operations Research 55, 227-276, 1995.<br />
[35] Diday, E. From data to knowledge: Probabilistic objects for a symbolic data analysis.<br />
In: DIMACS Series in Discr<strong>et</strong>e Mathematics and Theor<strong>et</strong>ical Computer Sci<strong>en</strong>ce<br />
19, 1995.<br />
[36] Diday, E. Extracting information from multivalued surveys or from very ext<strong>en</strong>sive<br />
data s<strong>et</strong>s by symbolic data analysis. In: A. Ferligoj (ed.): Advances in m<strong>et</strong>hology,<br />
data analysis and statistics. M<strong>et</strong>hodoloski zveski 14, FDV, Ljubljana, 1996.<br />
[37] Diday, E. Symbolic data analysis: A mathematical framework and tool for data<br />
mining. In: A. Rizzi, M. Vichi, H.H. Bock (eds.) (1998): Advances in data sci<strong>en</strong>ce<br />
and classification. Proc. 6th Conf of the International Federation of <strong>Classification</strong><br />
Soci<strong>et</strong>ies (IFCS-98), Rome, July 1998. Springer Verlag, Heidelberg, 1998,409-416,<br />
1998.<br />
[38] Diday E. L’<strong>Analyse</strong> des Données Symboliques: un cadre théorique <strong>et</strong> des outils.<br />
Cahiers du CEREMADE, 1998.
Bibliographie 162<br />
[39] Diday E. An Introduction to symbolic data analysis ans its application to the SO-<br />
DAS project: purpose, history and perspective, Paris IX–University Dauphine,<br />
Paris, 1999.<br />
[40] Diday E. and Bisdorff R. Symbolic data analysis and the SODAS software in official<br />
statistics, In: data analysis, classification and related m<strong>et</strong>hods, Eds. Kiers H.,<br />
Rasson J., Gro<strong>en</strong><strong>en</strong> P. and Schader M., IFCS 2000.<br />
[41] Diday E. and Rodríguez, O. (eds.) Workshop on Symbolic Data Analysis. PKDD–<br />
Lyon, 2000.<br />
[42] Diday E. Obj<strong>et</strong>os probabilísticos, posibilísticos y cre<strong>en</strong>cia para el análisis de<br />
conocimi<strong>en</strong>tos. Simposios VII y VIII de métodos matemáticos aplicados a las ci<strong>en</strong>cias.<br />
Ed. Universidad de Costa Rica, Eds Castillo W. y Trejos J., San José, Costa<br />
Rica, 1994.<br />
[43] G<strong>et</strong>tler Summa M. Factorial axis interpr<strong>et</strong>ation by symbolic objects, Actes des<br />
Journées Symbolique-Numérique, Ed. E. Diday, Y. Kodratoff, S. Pinson. Editeurs<br />
Univ. Paris IX–Dauphine.<br />
[44] Gil A., Capdevila C. and Arcas A. On the effici<strong>en</strong>cy and s<strong>en</strong>sitivity of a pyramidal<br />
classification algorithm, Economics working paper 270, Barcelona, 1998.<br />
[45] Gower, J. C. Some distances properties of lat<strong>en</strong>t root and vector m<strong>et</strong>hods using<br />
multivariate analysis. Biom<strong>et</strong>rika, 53, 325–338, 1966.<br />
[46] Gowda C., Diday E. Symbolic clustering using a new dissimilarity measure, Pattern<br />
Recognition, Vol. 24, num. 6, 1991.<br />
[47] Gowda C., Diday E., A new similarity measure for clustering Hoard and Synth<strong>et</strong>ic<br />
type of symbolic objects, IEEE Trans. Pattern Analysis and Machine Intellig<strong>en</strong>ce,<br />
Vol. 22, n2, 368-378, 1992.
Bibliographie 163<br />
[48] Gre<strong>en</strong>acre M. J. Theory and applications of correspond<strong>en</strong>ce analysis, Academic<br />
Press, New York, 1984.<br />
[49] Hébrail G. and Lechevallier Y. DB2SO A software for building symbolic objects<br />
from databases, In: Data analysis, classification and related m<strong>et</strong>hods, Eds. Kiers<br />
H., Rasson J., Gro<strong>en</strong><strong>en</strong> P. and Schader M., IFCS 2000.<br />
[50] Ichino M. G<strong>en</strong>eralized Minkowsky m<strong>et</strong>rics for mixed features type data analysis.<br />
IEEE, transactions on systems, man and cybern<strong>et</strong>ics, vol. 24, num 4, 1994.<br />
[51] Lauro C., Verde, R. and Palumbo, F. Factorial Discriminant Analysis on Symbolic<br />
Objects. In Bock, H. H. and Diday E. (eds). Analysis of Symbolic Data, Springer<br />
Verlag, Heidelberg, 1999.<br />
[52] Lauro C., Verde, R. and Palumbo, F. Factorial M<strong>et</strong>hods with Cohesion Constrainsts<br />
on Symbolic Objects. In: Data analysis, classification and related m<strong>et</strong>hods, Eds.<br />
Kiers H., Rasson J., Gro<strong>en</strong><strong>en</strong> P. and Schader M., IFCS 2000.<br />
[53] Lebart L., Morineau A., Piron M. Statistique Exploratoire Multidim<strong>en</strong>sionnelle,<br />
Dunod, Paris, 1995.<br />
[54] Lécluse, Richard y Velez. un modelo de datos ori<strong>en</strong>tado a obj<strong>et</strong>os, IEEE <strong>com</strong>puter,<br />
vol 25, No. 10, octuber 1992.<br />
[55] Mfoumoune E. Les aspects algorithmiques de la classification asc<strong>en</strong>dante pyramidale<br />
<strong>et</strong> incrém<strong>en</strong>tale. Thèse de doctorat, Université Paris IX Dauphine, 1998.<br />
[56] Rodríguez, O., Introducción a la programación C++ para ambi<strong>en</strong>te Windows. Editorial<br />
Tecnológica de Costa Rica, Cartago, Costa Rica, 1997.<br />
[57] Rodríguez O., Desarrollo ori<strong>en</strong>tado a obj<strong>et</strong>os: una aplicación al análisis de datos,<br />
Tesis de maestría pres<strong>en</strong>tada <strong>en</strong> el Instituto Tecnológico de Costa Rica, Cartago,<br />
1994.
Bibliographie 164<br />
[58] Rodríguez O., Symbolic correlation circle in principal <strong>com</strong>pon<strong>en</strong>t analysis, IFCS<br />
2000.<br />
[59] Rodríguez O. and Diday E., Symbolic pyramidal clustering: An algorithm and<br />
software, IFCS 2000.<br />
[60] Rodríguez O., Diday E. and Winsberg S., Multidim<strong>en</strong>sional scaling for interval<br />
data, IFCS 2000.<br />
[61] Polaillon G. Organisation <strong>et</strong> interprétation par les treillis de Galois de données de<br />
type multivalué, intervalle ou histogramme. Thèse de doctorat, Université Paris IX<br />
Dauphine, 1998.<br />
[62] Périnel E. Segm<strong>en</strong>tation <strong>et</strong> analyse des données symboliques: application à des<br />
données probabilistes imprécises. Thèse de doctorat, Université Paris IX Dauphine,<br />
1996.<br />
[63] Polaillon G. <strong>et</strong> Diday E., Galois lattices: construction and application in Symbolic<br />
Data Analysis. Cahiers de Mathématiques du CEREMADE N 9631. CEREMADE,<br />
Université Paris 9 Dauphine, 1996.<br />
[64] Saporta G., L’<strong>Analyse</strong> des Données. Que sais-je?. Presses Universitaires de France,<br />
Paris, 1980.<br />
[65] Snyder A. The ess<strong>en</strong>ce of objects: Concepts and terms, IEEE software, vol 10,<br />
No.1, January 1993.<br />
[66] Stéphan V. Description de classes par des assertions Ecole d’été Sept. 1996. Lise-<br />
CEREMADE. Univ. Paris IX Dauphine <strong>et</strong> INRIA (Rocqu<strong>en</strong>court 78150, France),<br />
1996.<br />
[67] Stéphan V. Construction d’objects symboliques par synthèse des résultats de<br />
requêtes SQL. Th`‘ese de doctorat, Université Paris IX Dauphine, 1998.
Bibliographie 165<br />
[68] Stéphan V., Hébrail G., Lechevallier Y. Improving symbolic descriptions of s<strong>et</strong>s of<br />
individuals: the reduction of assertions. In 8 th intemational symposium on Applied<br />
Stochastic Models and Data Analysis, 407-412, Anacapri, Italy, 1997.<br />
[69] Stéphan V., Hébrail G., Lechevallier Y. G<strong>en</strong>eration of Symbolic Objects from Relational<br />
Databases. In Analysis of Symbolic Data, Exploratory m<strong>et</strong>hods for extracting<br />
statistical information from <strong>com</strong>plex data, Springer-Verlag, 1999.<br />
[70] Torg<strong>en</strong>son W. S. Multidim<strong>en</strong>sional scaling: 1 Theory and m<strong>et</strong>hod, Psychom<strong>et</strong>rika,<br />
17, 401–419, 1952.<br />
[71] Torg<strong>en</strong>son W. S. Theory and m<strong>et</strong>hods of scaling, Wiley, New York, 1958.<br />
[72] Trejos, J. Principios de estadística matemática, Universidad de Costa Rica, San<br />
José, 1998.<br />
[73] Wegner P. Dim<strong>en</strong>sions of Object–Ori<strong>en</strong>ted modeling, IEEE <strong>com</strong>puter, vol 25, No.<br />
10, octuber 1992.<br />
[74] Winsberg, S. and DeSo<strong>et</strong>e, G. Multidim<strong>en</strong>sional scaling with constrained dim<strong>en</strong>sions:<br />
CONSCAL, British Journal of Mathematical and Statistical Psychology , 50,<br />
55-72, 1997.<br />
[75] Winsberg, S. and DeSo<strong>et</strong>e, G. A Lat<strong>en</strong>t class approch to fitting the wighted Euclidean<br />
model, CLASCAL, Psychom<strong>et</strong>rika, 58, 315-331, 1993.<br />
[76] Ziani D. Sélection de variables sur un <strong>en</strong>semble d’obj<strong>et</strong>s symboliques, Thèse, Paris<br />
IX–Dauphine, 1996.
App<strong>en</strong>dix A<br />
Programme Intégré de Méthodes<br />
d’<strong>Analyse</strong> des Données Symboliques<br />
(PIMAD–Symbolique)<br />
Pour chacune des méthodes développées dans c<strong>et</strong>te thèse nous avons mis <strong>en</strong> application<br />
un outil logiciel <strong>en</strong> C++. Des programmes ont été mis <strong>en</strong> application pour la classification<br />
pyramidale symbolique, l’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des données de type<br />
intervalle, l’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des données de type histogramme,<br />
l’algorithme INTERSCAL pour la méthode d’analyse des tableaux de proximités de type<br />
intervalle <strong>et</strong> pour la régression linéare symbolique. Ce logiciel est dénommé “Programme<br />
Intégré de Méthodes d’<strong>Analyse</strong> des Données Symboliques” (PIMAD–Symbolique).<br />
Dans c<strong>et</strong>te annexe nous expliquerons <strong>com</strong>m<strong>en</strong>t installer <strong>et</strong> <strong>com</strong>m<strong>en</strong>t on peut désinstaller<br />
le logiciel PIMAD–Symbolique, nous expliquerons égalem<strong>en</strong>t <strong>en</strong> détail <strong>com</strong>m<strong>en</strong>t chacun<br />
des modules est employé. Pour faciliter l’utilisation des modules, ceux ci ont été conçus<br />
de telle manière que tous soi<strong>en</strong>t employés d’une façon très semblable au moy<strong>en</strong> d’une<br />
barre d’outils.<br />
166
Programme Intégré de Méthodes d’<strong>Analyse</strong> des Données Symboliques 167<br />
A.1 L’installation <strong>et</strong> la désinstallation<br />
Pour installer le logiciel on doit exécuter le programme INSTALL.EXE qui est dans le<br />
disque numéro un, on doit <strong>en</strong>suite continuer les instructions que le programme d’installation<br />
prés<strong>en</strong>te. Quand le logiciel d’installation finit son exécution automatiquem<strong>en</strong>t il installe<br />
dans le m<strong>en</strong>u Démarrer/Programmes de Windows une f<strong>en</strong>être avec les icônes de<br />
chacun des modules de PIMAD–Symbolique, <strong>com</strong>me il est montré dans la Figure A.1.<br />
Pour désinstaller le PIMAD–Symbolique on doit exécuter le programme Desinstall<br />
qui est montré dans Figure A.1.<br />
Figure A.1: PIMAD–Symbolique dans le m<strong>en</strong>u Démarrer de Windows.<br />
A.2 Le module de classification asc<strong>en</strong>dante pyramidale<br />
symbolique<br />
Pour exécuter le module de classification asc<strong>en</strong>dante pyramidale symbolique<br />
on doit cliquer sur l’icône “Pyramidal Clustering” qui est montré dans
Programme Intégré de Méthodes d’<strong>Analyse</strong> des Données Symboliques 168<br />
la Figure A.1. Quand ce programme est exécuté la f<strong>en</strong>être principale qui est montrée sur<br />
la Figure A.2 apparaît. La manière le plus facile d’utiliser tous les modules de PIMAD–<br />
Symbolique est par la barre d’outils, dans le Tableau A.1 on explique la fonction de chacun<br />
des boutons de la barre à outils aussi bi<strong>en</strong> que ses équival<strong>en</strong>ts dans le m<strong>en</strong>u principal.<br />
Figure A.2: F<strong>en</strong>être principal du module de classification asc<strong>en</strong>dante pyramidale symbolique.<br />
Il est important de savoir que le format des dossiers d’<strong>en</strong>trée de PIMAD–Symbolique<br />
est le même qui celui employé par le système SODAS (voir [7, Bock H-H. <strong>et</strong> Diday E.<br />
(2000)]) (excepté le module INTERSCAL d’analyse des tableaux de dissimilarités de<br />
type intervalle).<br />
Le premier <strong>et</strong> les deux derniers boutons du Tableau A.1 sont employés dans tous les<br />
modules de PIMAD–Symbolique. En plus de ces trois boutons, les boutons du Tableau<br />
A.2 sont égalem<strong>en</strong>t employés dans tous les modules de PIMAD–Symbolique, <strong>et</strong> ils sont<br />
employés pour éditer les dossiers d’<strong>en</strong>trée <strong>et</strong> de sortie du logiciel PIMAD–Symbolique.<br />
Le bouton de sélection de variables<br />
est aussi employé dans les modules d’analyse
Programme Intégré de Méthodes d’<strong>Analyse</strong> des Données Symboliques 169<br />
Fonction<br />
Equival<strong>en</strong>ts dans le m<strong>en</strong>u<br />
Ouvrir le tableau de données symbolique<br />
File/Op<strong>en</strong> the Data Table...<br />
Ouvrir la matrice de dissimilarités<br />
File/Op<strong>en</strong> the Matrix of Dissimilarity...<br />
Choisir les variables<br />
<strong>Classification</strong>/Select the Variables<br />
Lire l’ordre initial des obj<strong>et</strong>s symboliques<br />
<strong>Classification</strong>/Read the order<br />
Construire la pyramide (exécuter l’algorithme)<br />
<strong>Classification</strong>/Build the Pyramid...<br />
Graphique la pyramide<br />
<strong>Classification</strong>/Graphic the Pyramid<br />
Changer la taille de la pyramide<br />
Options/Change the Clusters Height<br />
Imprimer le graphique<br />
File/Print Graphic...<br />
Effacer le graphique<br />
<strong>Classification</strong>/Erase the Graphic<br />
Table A.1: Barre d’outils du module de Pyramide.<br />
<strong>en</strong> <strong>com</strong>posantes principales pour des données de type intervalles <strong>et</strong> dans le module de<br />
régression linéaire symbolique. Quand on clique sur ce bouton le programme prés<strong>en</strong>te la<br />
boîte de dialogue qu’on prés<strong>en</strong>te dans la Figure A.3. Pour sélectionner une variable il faut<br />
déplacer la souris sur l’étiqu<strong>et</strong>te de la variable <strong>et</strong> cliquer deux fois. On doit <strong>en</strong>core cliquer<br />
deux fois sur l’étiqu<strong>et</strong>te de la variable pour éliminer la sélection. Les boutons pour ouvrir<br />
le tableau de données symbolique , pour imprimer le graphique , <strong>et</strong> pour effacer le<br />
graphique sont aussi employés dans tous les modules de PIMAD-Symbolique.<br />
A.3 Le module d’analyse <strong>en</strong> <strong>com</strong>posantes principales pour<br />
des données de type intervalle<br />
Pour exécuter le module d’analyse <strong>en</strong> <strong>com</strong>posantes principales pour<br />
des données de type intervalle on doit cliquer sur l’icône “Principal Compon<strong>en</strong>t
Programme Intégré de Méthodes d’<strong>Analyse</strong> des Données Symboliques 170<br />
Fonction<br />
Equival<strong>en</strong>ts dans le m<strong>en</strong>u<br />
Nouveau tableau de données<br />
File/New Data Table<br />
Ouvre un docum<strong>en</strong>t SODAS existant<br />
File/ Op<strong>en</strong> Data Table for Edition<br />
Enregistrer ce docum<strong>en</strong>t<br />
File/Save the Data Table<br />
Imprimer ce docum<strong>en</strong>t<br />
File/Print the Data Table...<br />
Coupe la sélection <strong>et</strong> le m<strong>et</strong> sur le presse–papiers<br />
Edit/Cut<br />
Copie la sélection <strong>et</strong> le m<strong>et</strong> sur le Presse–papiers<br />
Edit/Copy<br />
Insère le cont<strong>en</strong>u du presse-papiers au point de l’insertion<br />
Edit/Paste<br />
R<strong>en</strong>verse la dernière opération<br />
Edit/Undo<br />
Il prés<strong>en</strong>te l’aide<br />
Help/Cont<strong>en</strong>ts<br />
Arrêter le programme<br />
File/Exit<br />
Table A.2: Barre d’outils <strong>com</strong>muns à tous les modules de PIMAD–Symbolique.<br />
Figure A.3: La boîte de dialogue pour la selection de variables.<br />
Analysis” qui est montré dans la Figure A.1. Quand ce programme est exécuté la<br />
f<strong>en</strong>être principal qui est montrée sur la Figure A.4 apparaît. La manière la plus simple<br />
d’utiliser ce module est aussi par la barre d’outils, dans le Tableau A.3 on explique la fonction<br />
de chacun des boutons de la barre d’outils que nous n’avons pas <strong>en</strong>core expliqués, <strong>et</strong>
Programme Intégré de Méthodes d’<strong>Analyse</strong> des Données Symboliques 171<br />
on explique aussi ses équival<strong>en</strong>ts dans le m<strong>en</strong>u principal.<br />
Figure A.4: F<strong>en</strong>être principale du module d’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des<br />
données de type intervalle.<br />
Le module d’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des données de type intervalles a<br />
un m<strong>en</strong>u dénommé “Step-by-Step” au moy<strong>en</strong> duquel on peut exécuter l’algorithme<br />
étape par étape, c’est–à–dire, dans une telle manière que on peut voir <strong>et</strong> <strong>en</strong>registrer dans un<br />
dossier les calculs intermédiaires, tels que la matrice des corrélations, les valeurs propres,<br />
les vecteurs propres, les <strong>com</strong>posantes principales symboliques <strong>et</strong> les corrélations symboliques<br />
<strong>en</strong>tre les variables <strong>et</strong> les <strong>com</strong>posantes. Le module d’analyse <strong>en</strong> <strong>com</strong>posantes principales<br />
pour des données de type intervalle a aussi un m<strong>en</strong>u dénommé “Options/Choose<br />
the M<strong>et</strong>hod” par lequel l’utilisateur peut choisir l’algorithme qu’il veut employer. Si<br />
l’utilisateur choisit c<strong>et</strong>te option le programme lui prés<strong>en</strong>tera la boîte de dialogue qui est<br />
prés<strong>en</strong>té dans la Figure A.5.<br />
Si l’utilisateur choisit “C<strong>en</strong>ter” <strong>et</strong> “Dual” le programme exécutera l’algorithme 4.4<br />
pour calculer les <strong>com</strong>posantes principales symboliques <strong>et</strong> aussi les corrélations sym-
Programme Intégré de Méthodes d’<strong>Analyse</strong> des Données Symboliques 172<br />
Fonction<br />
Equival<strong>en</strong>ts dans le m<strong>en</strong>u<br />
Enregistrer tous les calculs effectués par le système<br />
File/Save in a File the Final Result<br />
Construire <strong>et</strong> dessiner le plan principal<br />
PCA/Principal Plan<br />
Construire <strong>et</strong> dessiner le cercle des corrélations<br />
PCA/Correlation Circle<br />
Calculer les paramètres d’interprétation<br />
PCA/Interpr<strong>et</strong>ation Param<strong>et</strong>ers<br />
Changer la taille du graphique dans l’écran<br />
PCA/Size Change<br />
Table A.3: Barre d’outils du module d’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des<br />
données de type intervalle.<br />
Figure A.5: Boîte de dialogue pour choisir l’algorithme.<br />
boliques <strong>en</strong>tre les <strong>com</strong>posantes principales symboliques <strong>et</strong> les variables, <strong>et</strong> s’il choisit<br />
“C<strong>en</strong>ter” <strong>et</strong> “Definition” alors le programme exécutera l’algorithme 4.4 pour calculer<br />
les <strong>com</strong>posantes principales symboliques <strong>et</strong> l’algorithme 4.1 pour calculer les corrélationes<br />
symboliques <strong>en</strong>tre les <strong>com</strong>posantes principales symboliques <strong>et</strong> les variables. Au contraire,<br />
si l’utilisateur choisit “Top” <strong>et</strong> “Dual” le programme exécutera l’algorithme 3.1
Programme Intégré de Méthodes d’<strong>Analyse</strong> des Données Symboliques 173<br />
prés<strong>en</strong>té dans [16, Cazes, Chouakria, Diday and Schektman (1997)] pour calculer les<br />
<strong>com</strong>posantes principales symboliques <strong>et</strong> l’algorithme 4.5 pour calculer les corrélationes<br />
symboliques <strong>en</strong>tre les <strong>com</strong>posantes principales symboliques <strong>et</strong> les variables, <strong>et</strong> s’il choisit<br />
“Top” <strong>et</strong> “Definition” alors le programme exécutera l’algorithme 3.1 prés<strong>en</strong>té dans<br />
[16, Cazes, Chouakria, Diday and Schektman (1997)] pour calculer les <strong>com</strong>posantes principales<br />
symboliques <strong>et</strong> l’algorithme 4.1 pour calculer les corrélationes symboliques <strong>en</strong>tre<br />
les <strong>com</strong>posantes principales symboliques <strong>et</strong> les variables.<br />
A.4 Le module d’analyse <strong>en</strong> <strong>com</strong>posantes principales pour<br />
des données de type histogramme<br />
Pour exécuter le module d’analyse <strong>en</strong> <strong>com</strong>posantes principales pour<br />
des données de type histogramme on doit cliquer sur l’icône “Histogram Principal<br />
Compon<strong>en</strong>t Analysis” qui est montré dans la Figure A.1. Quand ce programme est<br />
exécuté, la f<strong>en</strong>être principale qui est montrée sur la Figure A.6 apparaît.<br />
Ce module est utilisé de la même manière que le module d’analyse <strong>en</strong> <strong>com</strong>posantes principales<br />
pour des données de type intervalles, on devrait exécuter ce module si on veut<br />
exécuter l’algorithme 4.7. Les données d’<strong>en</strong>trée pour ce module doiv<strong>en</strong>t être dans le<br />
format SODAS, <strong>et</strong> elles peuv<strong>en</strong>t <strong>com</strong>biner les variables de type continu, intervalle <strong>et</strong> de<br />
type histogramme. Si toutes les variables sont de type intervalle le programme produit<br />
la même sortie que le module d’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des données de<br />
type intervalle, parce que l’algorithme 4.7 est une généralisation de l’algorithme 4.2.
Programme Intégré de Méthodes d’<strong>Analyse</strong> des Données Symboliques 174<br />
Figure A.6: F<strong>en</strong>être principale du module d’analyse <strong>en</strong> <strong>com</strong>posantes principales pour des<br />
données de type histogramme.<br />
A.5 Le module de régression linéare symbolique<br />
Pour exécuter le module de régression symbolique simple on doit cliquer<br />
sur l’icône “Linear Regression” qui est montré dans la Figure A.1. Quand ce<br />
programme est exécuté, la f<strong>en</strong>être principale qui est montrée sur la Figure A.7 apparaît.<br />
Avec ce module on peut effectuer la régression symbolique simple <strong>en</strong> utilisant quatre<br />
algorithmes différ<strong>en</strong>ts. Les statistiques descriptives élém<strong>en</strong>taires symboliques définies<br />
par Bertrand <strong>et</strong> Goupil dans ([7, Bock <strong>et</strong> Diday (2000)]) peuv<strong>en</strong>t être calculées avec ce<br />
module <strong>et</strong> on peut aussi calculer les statistiques descriptives élém<strong>en</strong>taires symboliques<br />
(<strong>en</strong>trée <strong>et</strong> sortie symbolique) définies dans le chapitre 3 de c<strong>et</strong>te thèse. La manière la<br />
plus facile d’utiliser ce module est aussi par la barre d’outils, dans le Tableau A.4 on<br />
explique la fonction de chacun des boutons de la barre d’outils que nous n’avons toujours
Programme Intégré de Méthodes d’<strong>Analyse</strong> des Données Symboliques 175<br />
Figure A.7: F<strong>en</strong>être principal du module de régression symbolique simple.<br />
pas expliqués, on explique aussi ses équival<strong>en</strong>ts dans le m<strong>en</strong>u principal.<br />
Pour faire les calculs, d’abord vous devriez sélectionner le dossier de données <strong>en</strong> format<br />
SODAS avec le bouton , alors les variables devrai<strong>en</strong>t être choisies <strong>en</strong> utilisant le bouton<br />
, si on veut calculer la covariance, la corrélation ou faire la régression linéaire on<br />
devrait choisir seulem<strong>en</strong>t deux variables. Pour la régression linéare la variable explicative<br />
devrait être choisie d’abord.<br />
Quand l’utilisateur choisit le bouton pour effectuer la régression linéaire le programme<br />
déploie la boîte de dialogue qui est prés<strong>en</strong>té dans la Figure A.8. À l’aide de c<strong>et</strong>te boîte<br />
de dialogue, l’utilisateur peut choisir un titre pour le graphique, déterminer le nombre de<br />
classes, choisir l’algorithme voulu (parmi les algorithmes prés<strong>en</strong>tés dans le chapitre 2 de<br />
c<strong>et</strong>te thèse) <strong>et</strong> l’utilisateur peut aussi choisir un intervalle de prédiction.
Programme Intégré de Méthodes d’<strong>Analyse</strong> des Données Symboliques 176<br />
Fonction<br />
Equival<strong>en</strong>ts dans le m<strong>en</strong>u<br />
Calcule la moy<strong>en</strong>ne arithmétique<br />
Descriptive-Statistics/Mean<br />
Calcule la médiane<br />
Descriptive-Statistics/Median<br />
Calcule la moy<strong>en</strong>ne des extrêmes<br />
Descriptive-Statistics/Mean of the Extreme Values<br />
Calcule la variance<br />
Descriptive-Statistics/Variance<br />
Calcule l’écart type<br />
Descriptive-Statistics/Standard Deviation<br />
Calcule le coeffici<strong>en</strong>t de variation<br />
Descriptive-Statistics/Coeffici<strong>en</strong>t of Variation<br />
Calcule la déviation moy<strong>en</strong>ne<br />
Descriptive-Statistics/Mean Deviation<br />
Calcule la déviation quartile<br />
Descriptive-Statistics/Deviation Quartil<br />
Produit un histogramme<br />
Descriptive-Statistics/Histogram<br />
Produit un diagramme des barres<br />
Descriptive-Statistics/Polygon of Frequ<strong>en</strong>cies<br />
Produit une boîte de dispersion<br />
Descriptive-Statistics/Dispersion Boxes<br />
Calcule la covariance<br />
Regression/Covariance<br />
Calcule la corrélation<br />
Regression/Correlation<br />
Produit un diagramme de dispersion<br />
Regression/Diagram of Dispersion<br />
Trace la droite de régression<br />
Regression/Linear Regression<br />
Table A.4: Barre d’outils du module de régression linéale symbolique.<br />
A.6 Le module de l’algorithme INTERSCAL pour la méthode<br />
d’analyse des tableaux de proximités de type intervalle<br />
Pour exécuter le module pour l’algorithme INTERSCAL pour la méthode<br />
d’analyse des tableaux de proximités de type intervalle, on doit cliquer sur l’icône<br />
“Multidim<strong>en</strong>sional Analysis” qui est montré dans la Figure A.1. Quand ce programme<br />
est exécuté la f<strong>en</strong>être principale qui est montrée dans la Figure A.9 apparaît.
Programme Intégré de Méthodes d’<strong>Analyse</strong> des Données Symboliques 177<br />
Figure A.8: Options du module de régression.<br />
Ce module est utilisé d’une manière très semblable aux modules d’analyse <strong>en</strong> <strong>com</strong>posantes<br />
principales. Si l’utilisateur ouvre le dossier des données avec le bouton<br />
alors le programme démarre avec un tableau des données symboliques dans le format<br />
SODAS, tout de suite le programme calcule la matrice de disimilarities <strong>en</strong> utilisant les<br />
équations (5.12) <strong>et</strong> (5.13). Au contraire si l’utilisateur charge le dossier des données avec<br />
le bouton , alors le programme exécute l’algorithme INTERSCAL directem<strong>en</strong>t à partir
Programme Intégré de Méthodes d’<strong>Analyse</strong> des Données Symboliques 178<br />
Figure A.9: F<strong>en</strong>être principal du module pour l’algorithme INTERSCAL.<br />
de la matrice des dissimilarités. C<strong>et</strong>te matrice des dissimilarités doit être dans un dossier<br />
ASCII dont le premier nombre doit être un <strong>en</strong>tier M qui indique la quantité de lignes de<br />
la matrice <strong>et</strong> dont le deuxième nombre doit égalem<strong>en</strong>t être un <strong>en</strong>tier qui indique la quantité<br />
de colonnes 2 · N de la matrice. Alors le programme lit M ∗ N distances minimum <strong>et</strong><br />
maximum.<br />
Par exemple, dans le dossier suivant sont <strong>en</strong>registrés le minimum <strong>et</strong> le maximun distances<br />
des parmi 3 obj<strong>et</strong>s symboliques:<br />
3 3<br />
0.0000000 6.5791700 0.6889117 6.7661952 1.3380545 7.1580905<br />
0.6889117 6.7661952 0.0000000 0.8552774 1.5742122 2.3863359<br />
1.3380545 7.1580905 1.5742122 2.3863359 0.0000000 0.8452722
Résumé 179<br />
Résumé<br />
Ce travail s’inscrit dans le cadre de l’analyse de données symbolique. Le but de ce travail<br />
est de généraliser au cas symbolique certaines techniques de la classification automatique,<br />
aussi bi<strong>en</strong> que quelques modèles linéaux. Ces généralisations seront toujours<br />
faites d’après deux principes fondam<strong>en</strong>taux de l’analyse de données symbolique, à savoir:<br />
L’analyse de données classique devrait être toujours un cas particulier de l’analyse de<br />
données symbolique <strong>et</strong> dans une analyse de données symbolique, tant la sortie <strong>com</strong>me<br />
la <strong>en</strong>trée devrai<strong>en</strong>t être symboliques. Nous prés<strong>en</strong>tons deux nouveaux algorithmes, qui<br />
généralis<strong>en</strong>t au cas symbolique de l’algorithme CAP, l’algorithme CAP <strong>et</strong> l’algorithme<br />
CAPSO. Nous généralisons, pour les variables de type intervalle, la moy<strong>en</strong>ne, la médiane,<br />
la moy<strong>en</strong>ne des valeurs extrêmes, l’écart type, la déviation quartile, boîtes de dispersion<br />
(boxplot) <strong>et</strong> la corrélation. Trois nouvelles méthodes sont aussi prés<strong>en</strong>tées pour<br />
effectuer la régression simple pour les variables de type intervalle. Nous ét<strong>en</strong>dons la<br />
méthode d’analyse <strong>en</strong> <strong>com</strong>posantes principales pour données de type histogramme, nous<br />
généralisons le cercle des corrélations au cas des variables de type intervalle. Nous proposons<br />
une méthode pour l’analyse des tableaux de proximités (multidim<strong>en</strong>sional scaling)<br />
pour des données de type intervalle, que nous avons dénommée INTERSCAL. Pour<br />
chacune des méthodes prés<strong>en</strong>tées dans c<strong>et</strong>te thèse un outil de logiciel a été mis <strong>en</strong> application.<br />
Ce logiciel a été dénommé PIMAD-Symbolique (Programme Intégré de<br />
Méthodes d’<strong>Analyse</strong> de Données Symbolique).<br />
Mots–clés: analyse de données symbolique, classification automatique, modèles linéaux,<br />
algorithme, pyramide, intervalle, régression simple, histogramme, Tableaux de proximités,<br />
analyse <strong>en</strong> <strong>com</strong>posantes principales.
Abstract 180<br />
<strong>Classification</strong> and Linear Models in Symbolic Data<br />
Analysis<br />
Abstract<br />
This work is framed inside the symbolic data analysis. The objective of this work is to<br />
g<strong>en</strong>eralize to the symbolic case certain techniques of the automatic classification, as well<br />
as some linear models. These g<strong>en</strong>eralizations will always be made following two fundam<strong>en</strong>tal<br />
principles in Symbolic Data Analysis like they are: Classic Data Analysis should<br />
always be a case particular case of the Symbolic Data Analysis and both, the exit as the<br />
input in an Symbolic Data Analysis should be symbolic. We pres<strong>en</strong>t two new algorithms,<br />
which are a g<strong>en</strong>eralization to the symbolic case of the algorithm CAP. The first of these<br />
two, d<strong>en</strong>ominated CAPS and the second algorithm d<strong>en</strong>ominated CAPSO. We g<strong>en</strong>eralize<br />
for variables of type interval the mean, the median, the mean of the extreme values, the<br />
standard deviation, the deviation quartil, the dispersion boxes and the correlation also<br />
three new m<strong>et</strong>hods are also pres<strong>en</strong>ted to carry out the lineal regression for variables of<br />
type interval. We ext<strong>en</strong>d the m<strong>et</strong>hod of Principal Compon<strong>en</strong>ts Analysis in two s<strong>en</strong>ses:<br />
First, we propose three ways to project the interval variables in the circle of correlations<br />
in such way that is reflected the variation or the inexactness of the variables. Second, we<br />
propose an algorithm to make the Principal Compon<strong>en</strong>ts Analysis for variables of type<br />
histogram. We propose a m<strong>et</strong>hod for multidim<strong>en</strong>sional scaling of interval data, d<strong>en</strong>ominated<br />
INTERSCAL. For each one of the m<strong>et</strong>hods pres<strong>en</strong>ted in this thesis a software tool<br />
was implem<strong>en</strong>ted d<strong>en</strong>ominated PIMAD-Symbolique.<br />
Keywords: symbolic data analysis, automatic classification, linear models, algorithm,<br />
pyramid, interval, lineal regression, Principal Compon<strong>en</strong>ts Analysis, histogram, multidim<strong>en</strong>sional<br />
scaling.