13.07.2015 Views

nouveaux resultats theoriques concernant les cartes topologiques 1

nouveaux resultats theoriques concernant les cartes topologiques 1

nouveaux resultats theoriques concernant les cartes topologiques 1

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Bulletin d’information des Laboratoires Centraux de Thomson CSF, décembre 1992NOUVEAUX RESULTATS THEORIQUESCONCERNANT LES CARTES TOPOLOGIQUESGil<strong>les</strong> BUREL 1Thomson CSF, Laboratoires Electroniques de Rennes,Avenue de Belle Fontaine, 35510 Cesson-SévignéRESUME :L’algorithme d’auto-organisation de Kohonen, connu sous le nom d’algorithme des “<strong>cartes</strong><strong>topologiques</strong>”, a été largement mis en œuvre sur diverses applications. Cependant, peu d’étudesthéoriques du point de vue du traitement du signal ont été proposées. Notre objectif est de présenterdes résultats théoriques susceptib<strong>les</strong> d’aider à la compréhension et à la mise en œuvre de cetalgorithme. L’attention est portée sur l’interprétation comme algorithme de minimisation d’unefonction de Lyapounov, et des algorithmes similaires, plus proches des algorithmes traditionnels deQuantication Vectorielle sont proposés. Finalement, des résultats expérimentaux obtenus sur desdonnées extraites d’images sont présentés.ABSTRACT :Kohonen’s self-organization algorithm, known as “topologic maps algorithm”, has been largelyused in many applications. However, few theoretical studies from a signal processing point of viewhave been proposed. Our objective is to provide mathematical results that help to understand itsproperties. Emphasis is put on the interpretation as a Lyapunov function minimization algorithm,and similar algorithms, closer to classical Vector Quantization algorithms are proposed. Finaly,experimental results obtained on image data are presented.MOTS-CLES : Algorithme de Kohonen, Réseaux de Neurones, Auto-Organisation, CartesTopologiques, Quantication Vectorielle.KEYWORDS :Kohonen’s Algorithm, Neural Networks, Self-Organization, Topologic Maps, Vector Quantization.1 nouvelle adresse : UBO/LEST, BP 809, 29285 Brest cedex1


Bulletin d’information des Laboratoires Centraux de Thomson CSF, décembre 19921 IntroductionL’algorithme d’auto-organisation de Kohonen (Kohonen,1984) est un algorithme dequantication vectorielle possédant d’intéressantes propriétés de conservation de latopologie. Cet algorithme, également connu sous le nom d’algorithme des <strong>cartes</strong><strong>topologiques</strong>, a été mis en œuvre dans diverses applications (Burel,1991 ; Burel &Pottier,1991 ; Hemani,1990 ; Martinelli,1990). Toutefois, il a été très peu étudié d’un pointde vue théorique (Kohonen,1984), ce qui limite son usage par <strong>les</strong> chercheurs de formation“Traitement du Signal”.Nous présentons de <strong>nouveaux</strong> résultats théoriques qui aident à la compréhension despropriétés de l’algorithme de Kohonen, et nous proposons des algorithmes équivalents,plus proches des algorithmes classiquement utilisés en traitement du signal.L’article est organisé comme suit. L’algorithme des <strong>cartes</strong> <strong>topologiques</strong> et <strong>les</strong> algorithmestraditionnels de quantication vectorielle sont rappelés dans <strong>les</strong> sections 2 et 3. Dans lasection 4, une analyse de l’état d’équilibre des <strong>cartes</strong> <strong>topologiques</strong> nous conduira à proposerun nouvel algorithme : VQN (Vector Quantization with Neighbourhood), plus proche desalgorithmes classiques, mais possédant <strong>les</strong> mêmes propriétés <strong>topologiques</strong> que l’algorithmede Kohonen. Dans le section 5, nous montrons que, sous une condition d’organisationsufsante, l’algorithme de Kohonen et VQN minimisent une fonction de Lyapounov.Ensuite, nous proposerons une légère modication de ces algorithmes, qui permet delever la condition. Enn, dans la section 6, nous présentons des résultats expérimentauxobtenus sur des données image. Nous comparons notamment la convergence des différentsalgorithmes présentés dans l’article.2 L’algorithme des Cartes Topologiques de Kohonen(KH)Le modèle des <strong>cartes</strong> <strong>topologiques</strong> est inspiré d’une structure neuronale présente danscertaines aires cortica<strong>les</strong> (g 1). Les neurones sont organisés en couches, et, à l’intérieur dechaque couche, chaque neurone émet des connexions excitatrices vers ses voisins <strong>les</strong> plusproches, et des connexions inhibitrices vers <strong>les</strong> neurones plus éloignés. Tous <strong>les</strong> neuronesrecoivent <strong>les</strong> mêmes entrées.Kohonen a simulé le comportement de ce type de structure, et a montré qu’il peut êtreapproximé par l’algorithme suivant. Considérons un réseau de M neurones, et notons K2


Bulletin d’information des Laboratoires Centraux de Thomson CSF, décembre 1992sortiesentreesFIG. 1: Le modèle des <strong>cartes</strong> <strong>topologiques</strong> (1D)le nombre d’entrées, et x [x 1 x 2 x K ] T un vecteur d’entrée. Les vecteurs d’entréesont extraits d’un ensemble d’apprentissage A. Cet ensemble contient cardA vecteurs.Chaque neurone est caractérisé par un vecteur de poids W j [W 1 j W Kj ] T ,où j est lenuméro du neurone. En réponse à un vecteur d’entrée x, le neurone pour lequel la distancequadratique W j x 2 est minimale est appelé neurone vainqueur. Nous noterons O j lasortie du neurone j :O j W j x 2 KW ij x i 2i1L’algorithme d’apprentissage est le suivant (t est l’indice d’itération et T le nombre totald’itérations) :1. t 0Initialisation des vecteurs poids W 1 W 2 W M 2. n 1Choix aléatoire d’une permutation de l’ensemble 1 2cardA3. Présentation du vecteur xn en entrée.4. Calcul des sorties des neurones : O j5. Determination du vainqueur (neurone k quialaplusfaib<strong>les</strong>ortie)6. Modication des poids : W j jk t[x W j ] (1)3


Bulletin d’information des Laboratoires Centraux de Thomson CSF, décembre 19927. n n 1Si n cardA,alleren(3)8. t=t+1Si t T aller en (2)Les coefcients jk t sont de la forme t d j k. La distance d détermine la dimensiondu réseau. Pour <strong>les</strong> réseaux 1D, nous avons d j k j k, et nous proposons deprendre un voisinage gaussien, qui donne de meilleurs résultats en pratique que le voisinageuniforme proposé par Kohonen : jk t 0 e jk22 2 t (2)La constante 0 est nommée “vitesse d’apprentissage”. Kohonen suggère des valeurs del’ordre de 10 1 . L’écart type t décroît avec t selon une loi exponentielle : tT 1T 1 t 0 0Il est clair qu’à chaque modication des poids, le vainqueur et ses voisins vont déplacerleurs vecteurs poids en direction du vecteur d’entré x. Par conséquent, la dynamiquedu réseau peut être vue comme le résultat d’une force externe (adaptation aux vecteursd’entrée), et d’une force interne (<strong>les</strong> relations de voisinage, qui forcent des neurones voisinsà avoir des poids voisins). Kohonen a validé son algorithme sur des données issues dutraitement de la parole, et a montré que <strong>les</strong> neurones s’organisent automatiquement demanière à représenter au mieux <strong>les</strong> phonèmes, tout en préservant <strong>les</strong> relations <strong>topologiques</strong>(des neurones voisins répondent à des phonèmes de sonorités voisines).On peut illustrer <strong>les</strong> propriétés du réseau de Kohonen sur un exemple simple. Supposonsque le vecteur d’entrée soit de dimension 2 et que ses composantes correspondent auxcoordonnées d’un point tiré au hasard à l’intérieur d’un triangle On réalise l’apprentissageen présentant un grand nombre de tels vecteurs. Comme chaque neurone a deux poids,on peut représenter <strong>les</strong> neurones par des points du plan. A l’issue de l’apprentissage, onconstate qu’ils respectent une disposition du type de celle qui est représentée sur la gure2. Le réseau de neurones, qui peut être considéré comme une courbe monodimensionnellea donc réalisé une approximation d’une partie d’un espace à deux dimensions (le triangle).L’algorithme de Kohonen peut également s’appliquer pour un réseau de neurones dedimension supérieure. Par exemple, pour un réseau à deux dimensions, <strong>les</strong> neuronessont distribués dans un plan et <strong>les</strong> relations de voisinage correspondent au voisinagebidimensionnel (g 3).4


Bulletin d’information des Laboratoires Centraux de Thomson CSF, décembre 1992yFIG. 2: Auto-Organisation dans un trianglexneuronevoisinageentreesFIG. 3: Le modèle des Cartes Topologiques (2D)Pour la clarté de la présentation, seuls <strong>les</strong> réseaux de dimension 1 sont considérés dansla suite. La généralisation aux dimensions supérieures est aisée car la dimension duréseau est entièrement déterminée par <strong>les</strong> valeurs des coefcients jk .Ilsuft donc de5


Bulletin d’information des Laboratoires Centraux de Thomson CSF, décembre 1992remplacer j k par d j k dans l’équation 2, où d est la distance entre <strong>les</strong> neurones j et k.On prendra garde dans la suite à ne pas confondre la dimension du réseau (déterminéepar <strong>les</strong> jk ) et la dimension des entrées (K ), de même que la distance entre <strong>les</strong> neurones( j k en 1D) et la distance entre <strong>les</strong> poids des ces neurones ( W j W k ).3 Algorithmes classiques de quantication vectorielleLa quantication vectorielle (Gray,1984) peut être vue comme une fonction :q : K Wx x où W W 1 W M est un ensemble ni de vecteurs de K . Les vecteurs W j serontappelés “prototypes”, et nous noterons D j le domaine contenant <strong>les</strong> vecteurs x qui ontpour image W j .La fonction q peut être décomposée en un encodeur (classieur) et un décodeur(recherche du prototype de la classe) :q : K 1 2M Wx j x W j qxPour une application de compression d’image, ce vecteur x sera un bloc d’image (parexemple un bloc 3x3). Donc, l’encodage transforme le vecteur d’entrée x en un nombre j,et le décodage utilise j pour générer le vecteur x W j .Pour la compression, une image est décomposée en blocs carrés disjoints, et chaque blocest encodé. Pour la reconstruction, chaque bloc est remplacé par le prototype correspondant.Notre objectif est bien entendu que x soit une bonne représentation de x, ausensdela métrique choisie. Si l’on utilise la métrique euclidienne, une bonne mesure de la qualitéde la quantication réalisée est l’erreur quadratique moyenne :e QM Ex x 2L’espérance mathématique sera en pratique remplacée par une moyenne sur un ensembled’apprentissage A. Cet ensemble est supposé assez grand pour bien représenter <strong>les</strong>statistiques du problème.6


Bulletin d’information des Laboratoires Centraux de Thomson CSF, décembre 1992e QM 1cardAx x 2On ne connait pas d’algorithme conduisant toujours à la solution optimale. La seu<strong>les</strong>tratégie connue consiste à résoudre alternativement <strong>les</strong> 2 problèmes suivants :1. Quand <strong>les</strong> prototypes W j sont xés, comment choisir au mieux <strong>les</strong> domaines D j ?2. Quand <strong>les</strong> domaines D j sont xés, comment positionner au mieux <strong>les</strong> prototypes W j ?xASolution au problème 1 :Pour minimiser l’erreur quadratique, le vecteur x doit être le prototype le plus proche dex. Les domaines D j doivent donc être tels que :D j x A tels que j x W j 2 x W 2Solution au problème 2 :L’erreur quadratique moyenne peut s’écrire :e QM 1cardAM j1xD jx W j 2Le prototype W j doit donc être le vecteur qui minimise xD jx W j 2 .Onpeutaisément montrer que la solution est le barycentre de la classe j :W j 1cardD j xD jxAlgorithme :Ceci nous conduit à l’algorithme d’apprentissage suivant, connu sous le nom d’algorithmedes “k-means” (MacQueen,1967). On note t l’indice d’itération.1. t 0Initialisation : choix aléatoire (ou guidé) de W 1 W 2 W M 2. Mise à jour des domaines D j7


Bulletin d’information des Laboratoires Centraux de Thomson CSF, décembre 19923. Remplacer chaque prototype W j parlecentredegravitédeD j .4. t t 1Si t T aller en (2)On vérie aisément que l’erreur quadratique moyenne ne peut que diminuer à chaqueitération. En effet, dans <strong>les</strong> étapes (2) et (3), <strong>les</strong> mises à jours se font selon <strong>les</strong> solutionsoptima<strong>les</strong> présentées plus haut.Par contre, on n’est pas à l’abri d’un piégeage dans un minimum local de l’erreurquadratique. Pour réduire ce risque, Linde, Buzo et Gray ont proposé un algorithme quiinclut sa propre initialisation (Linde,1980). Cet algorithme, que nous nommerons LBG,consiste à faire tourner <strong>les</strong> “k-means” en augmentant progressivement la valeur de M.A chaque étape, M est multiplié par 2 et <strong>les</strong> prototypes sont perturbés par un vecteurP [] T ,ou est un réel positif proche de zéro (d’où le nom d’initialisation par“splitting”, souvent employé).1. M 1, W 1 0 barycentreA, t=02. t=t+1Pour j=1 à M faire :W 2 j t W j t 1 PW 2 j1 t W j t 1 PMultiplier M par 23. Faire tourner <strong>les</strong> k-means sur T itérations.4. Tant que M n’a pas atteint la valeur souhaitée, aller en (2)4 Algorithme VQN4.1 Idées généra<strong>les</strong>L’algorithme de Kohonen présente l’intérêt de conserver la topologie. Un problème lié àcet algorithme est le choix de la vitesse d’apprentissage ( 0 ). Pour contourner ce problème,nous proposons un nouvel algorithme d’apprentissage qui ne nécessite pas de paramètre“vitesse d’apprentissage”. L’idée consiste à s’inspirer de l’algorithme des “k-means”, etd’y introduire un voisinage entre <strong>les</strong> classes. On notera A l’ensemble d’apprentissage, etl’erreur quadratique moyenne est estimée par :8


Bulletin d’information des Laboratoires Centraux de Thomson CSF, décembre 1992e QM 1cardAx x 2L’algorithme proposé possède le même état d’équilibre que l’algorithme de Kohonen, etpeut donc être considéré comme similaire. En particulier, il présente <strong>les</strong> mêmes propriétésde conservation de la topologie.xA4.2 Etat d’équilibre de l’algorithme de KohonenSi <strong>les</strong> jk ne varient pas avec le temps, le réseau va se stabiliser dans un état tel que : j E xA W j 0 (3)En pratique, <strong>les</strong> jk varient très lentement, et on peut supposer que le réseau est enpermanence proche de cet état. Nous dirons que le réseau est en état de “quasi-équilibre”.Nous nommerons D j l’ensemble suivant :D j x A l j x W j 2 x W l 2 et nous désignerons par kx l’indice du vecteur W j le plus proche de x. En combinant <strong>les</strong>équations 1 et 3, on obtient :1W j E xA jkx E xA jkx xEn notant p k la probabilité pour qu’un vecteur x appartienne au domaine D k ,etb k lebarycentre de D k ,ona:ME xA jkx jk p kk1D’oùE xA jkx xW j M E xDk jk xp kk1M jk p kb kk1M jk p kb kk1(4)M jk p kk19


Bulletin d’information des Laboratoires Centraux de Thomson CSF, décembre 19924.3 Description de l’algorithmeL’algorithme proposé est le suivant (on note t l’indice d’itération) :1. t 0Initialisation des prototypes W 1 W 2 W M 2. Mise à jour des domaines D k :D k x A tels que j k x W k 2 x W j 23. Mise à jour des poids :W j M jk p kb kk1M jk p kk14. t t 1Si t T aller en (2)On rappelle que jk t 0 e jk22t . En conséquence, le choix de la vitessed’apprentissage 0 est sans importance car il intervient aussi bien au numérateurqu’au dénominateur dans l’équation de mise à jour des poids.Si <strong>les</strong> jk ne varient pas trop vite, on peut admettre que l’algorithme est en permanence enétat de quasi-équilibre, c’est à dire que <strong>les</strong> classes et <strong>les</strong> prototypes sont simultanément àjour. Dans ce cas, notre algorithme est très proche de l’algorithme de Kohonen.10


Bulletin d’information des Laboratoires Centraux de Thomson CSF, décembre 19925 Interprétation comme algorithme de minimisationd’une fonction de Lyapounov5.1 Quelques résultats théoriquesPropriété 1 : Propriété du barycentre :E xDkx W l 2 W l b k 2 E xDkx b k 2Démonstration :E xDkx W l 2 E xDk x b k b k W l 2 E xDk x b k 2 W l b k 2 2E xDkx b k b k W l E xDk x b k 2 W l b k 22E xDk xb k E xDk x W l b k b k b k W l E xDk x b k 2 W l b k 2Propriété 2 :Lorsque le réseau est sufsamment organisé, l’algorithme de Kohonen et l’algorithme VQNsont des algorithmes de minimisation de la fonction de Lyapounov suivante :e QMV MMl1 k1 kl p k E xDkx W l 2Démonstration :Lorsque <strong>les</strong> classes D k sont xées, minimiser e QMV revient à minimiser :e QMV MMl1 k1 kl p k W l b k 2car d’après la propriété 1 :E xDkx W l 2 W l b k 2 E xDkx b k 211


Bulletin d’information des Laboratoires Centraux de Thomson CSF, décembre 1992Les dérivées partiel<strong>les</strong> de e QMVpar rapport aux poids s’écrivent :e QMV M kj p k W j b k 2W ij W ij k1 M kj p k W ij b ik 2W ij k1M 2 kj p k W ij b ik En annulant ces dérivées, on obtient :k1W j M kj p kb kk1M kj p kCe qui correspond bien à l’étape 3 de l’algorithme VQN, car jk kj .k1Lorsque <strong>les</strong> poids sont xés, e QMV peut s’écrire :e QMVPour chaque vecteur x, on doit donc minimiser : card D kxD kx W l 2klcard A card Dlkk1 M kxl x W l 2card AxA l1M kxl x W l 2l1On a vu que, pour <strong>les</strong> réseaux mono-dimensionnels, kl k l. Nous poserons àprésent :h kl klf l x W l 2Le terme à minimiser s’écrit alors (en désignant par “” le produit de convolution) : kl x W l 2 h kl f lll h f k12


Bulletin d’information des Laboratoires Centraux de Thomson CSF, décembre 1992f(l)avant filtrageapres filtrageminimumavant filtrageminimumapres filtragelFIG. 4:Effetdultrage sur un réseau faiblement organiséf(l)avant filtrageapres filtrageminimumlFIG. 5:Effetdultrage sur un réseau bien organiséPour minimiser e QMV , on doit donc associer x au domaine D k tel que k soit la position duminimum de f après ltrage par h. Avec la forme que nous avons proposée pour <strong>les</strong> kl ,le ltre h est un ltre gaussien.Mais l’étape 2 de l’algorithme VQN affecte x au domaine D k tel que k est la positiondu minimum de f avant ltrage. L’algorithme VQN et l’algorithme de Kohonen ne13


Bulletin d’information des Laboratoires Centraux de Thomson CSF, décembre 1992peuvent donc rigoureusement être considérés comme des algorithmes de minimisationde e QMV que lorsque ces 2 minima sont confondus. Ceci sera le cas si le réseau est bienorganisé, c’est à dire si <strong>les</strong> poids de neurones voisins sont assez proches. Les gures 4 et 5illustrent cet énoncé. Normalement, après quelques itérations de l’algorithme, <strong>les</strong> neuronescommencent effectivement à s’organiser, et l’on peut donc sans grand risque d’erreurinterpréter ces algorithmes comme des algorithmes de minimisation de e QMV .Deplus,l’initialisation des poids est généralement effectuée de telle sorte que l’organisation soiteffective dès le début, et cette propriété est conservée durant l’apprentissage.5.2 Deux algorithmes de minimisation de e QMVL’objet de ce paragraphe est de proposer deux algorithmes qui minimisent rigoureusementla fonction de Lyapounov e QMV .Algorithme de Kohonen ltré (KHf)1. t 0Initialiser <strong>les</strong> vecteurs poids W j [W 1 j W Kj ] T2. n 1Tirer une permutation aléatoire de l’ensemble 1 2 cardA3. Présenter le vecteur xn à l’entrée du réseau4. Calculer <strong>les</strong> sorties O j des neurones5. Filtrer <strong>les</strong> sorties par h kl kl t6. Déterminer le neurone k dont la sortie ltrée est la plus faible7. Modier <strong>les</strong> poids conformément à :8. n n 1Si n cardA,alleren(3)9. t t 1Si t T ,alleren(2)Algorithme VQN ltré (VQNf) W j jk t[x W j ]1. t 0Initialisation des prototypes W 1 W 2 W M 14


Bulletin d’information des Laboratoires Centraux de Thomson CSF, décembre 19922. Mise à jour des domaines D k :D k x A tels que j k3. Mise à jour des prototypes :M kl x W l 2 l1M jl x W l 2l1W j M jk p kb kk1M jk p kk14. t t 1Si t T aller en (2)x 2apresfiltragebxavantfiltrageax1FIG. 6:Effetdultrage sur le choix du vainqueurLa gure 6 illustre la différence, sur un cas où <strong>les</strong> entrées sont de dimension 2, entre <strong>les</strong>algorithmes ci-dessus et <strong>les</strong> algorithmes de Kohonen et VQN. Le vecteur x représenté surcette gure sera associé au neurone (a) avec <strong>les</strong> algorithmes de Kohonen et VQN, car ceneurone est le plus proche de x. Par contre, avec <strong>les</strong> algorithmes ci-dessus, il sera associéau neurone (b). Ce neurone n’est pas le plus proche de x, mais il est soutenu par sonvoisinage qui forme autour de lui un bloc relativement proche de x. En d’autres termes, la15


Bulletin d’information des Laboratoires Centraux de Thomson CSF, décembre 1992distance ltrée entre (b) et x est plus faible que la distance ltrée entre (a) et x.D’un point de vue intuitif, on pourrait penser que ces 2 derniers algorithmes vontconverger plus vite que <strong>les</strong> algorithmes de Kohonen et VQN. En effet, <strong>les</strong> neurones tropéloignés de leurs voisins vont être défavorisés, et vont donc revenir rapidement à proximitéde ces voisins. En conséquence, l’organisation du réseau serait plus rapide.5.3 Forme approchée de e QMVLorsque l’inuence du voisinage n’est pas trop importante (i.e. l’écart type de la gaussiennen’est pas trop fort), <strong>les</strong> vecteurs W k sont proches des barycentres (b k ) de leurs domainesrespectifs (D k ). On a alors l’approximation suivante pour e QMV :e QMVMl1 k1Ml1 k1Ml1Ml1M kl p k E xDk x W l 2 M kl p k W l b k 2 E xDk x b k 2 M kl p k W l W k 2 k1klMl1Ml1M kl p k E xDk x b k 2 k1klM kl p k W l W k 2 k1kl ll p l W l b l 2 ll p l E xDl x b l 2 MM M ll p l W l b l 2 kl p k E xDk x b k 2 k1 l1l1Cette formule approchée fait apparaître un terme dépendant des distances entre <strong>les</strong>prototypes. Les propriétés de conservation de la topologie des algorithmes précédentsapparaissent donc explicitement.16


Bulletin d’information des Laboratoires Centraux de Thomson CSF, décembre 19926 Résultats expérimentauxNous présentons ci-dessous des résultats expérimentaux obtenus sur des données image,avec des entrées de dimension 2 et des réseaux de dimension 1, ce qui présente l’avantagede permettre une visualisation aisée des résultats.L’ensemble d’apprentissage A contient 4092 vecteurs de dimension K 2. Il s’agit deblocs de 2x1 pixels extraits d’une image (<strong>les</strong> composantes d’un vecteur sont donc <strong>les</strong>luminances l 1 et l 2 des 2 pixels du bloc). L’image est à 256 niveaux de gris. La gure 7représente la densité de probabilité conjointe pl 1 l 2 . Une image contient beaucoup dezones uniformes, d’où une forte densité sur la diagonale (l 1 l 2 ).FIG. 7: Densité de probabilité pour des blocs image 2x1Les expérimentations ont été menées avec M 32 prototypes. Le nombre d’itérationsaccordées est T 100. Pour <strong>les</strong> algorithmes présentant une notion de voisinage, on a 0 40 et T 1 02. L’initialisation des prototypes est réalisée comme suit (sauf pourl’algorithme LBG qui possède sa propre initialisation) :255 j 1i j W ij b ijM 1b ij est un bruit de densité uniforme entre 5 et5.Les gures 8 et 9 permettent de comparer <strong>les</strong> courbes d’apprentissage de divers17


Bulletin d’information des Laboratoires Centraux de Thomson CSF, décembre 1992E_ms183KH (0.02)KH (0.10)VQN450100iterationFIG. 8: Comparaison des courbes d’apprentissage : Kohonen (KH) et VQNalgorithmes. On représente l’évolution de l’erreur quadratique moyenne (et non de e QMV ,car cela n’aurait pas de sens pour <strong>les</strong> algorithmes classiques).La gure 8 permet de comparer <strong>les</strong> courbes d’apprentissage de l’algorithme de Kohonen(pour 0 002 et 0 010) et de l’algorithme VQN. Une assez forte vitessed’apprentissage ( 0 010) conduit à un apprentissage relativement bruité et à un résultatnal moins bon. La valeur 0 002, qui correspond au meilleur choix que nous ayonspu obtenir, conduit à une courbe d’apprentissage très proche de VQN, ce qui conrme lasimilarité des deux algorithmes. L’intérêt de VQN est qu’il ne nécessite pas le réglage dela vitesse d’apprentissage.La gure 9 permet de comparer <strong>les</strong> courbes d’apprentissage des algorithmes VQN,VQNf, “k-means”, et LBG. L’état initial est le même pour tous <strong>les</strong> algorithmes (etcorrespond à e QM 1618), sauf pour LBG qui a effectué au préalable 80 itérations18


Bulletin d’information des Laboratoires Centraux de Thomson CSF, décembre 1992E_ms175VQNfVQNk-means450 100LBGVQNfiterationFIG. 9: Comparaison des courbes d’apprentissage : k-means, LBG, VQN et VQNfavec des valeurs croissantes de M, an de créer son état initial. L’observation de cescourbes montre que <strong>les</strong> algorithmes classiques convergent plus vite que VQN et VQNf(qui sont limités par la vitesse de décroissance du voisinage). Par contre, <strong>les</strong> algorithmes<strong>topologiques</strong> conduisent à une meilleure solution en n d’apprentissage. Les intéractions<strong>topologiques</strong> ont donc pour effet de réduire le risque de piégeage dans un minimum localde l’erreur quadratique.En dimension 2, il est possible de représenter <strong>les</strong> vecteurs W j par des points du plan. Surla gure 10, on a représenté l’état de ces vecteurs en n d’apprentissage pour <strong>les</strong> différentsalgorithmes. Des segments relient W j à W j1 an d’indiquer la topologie. L’état initialétait relativement organisé, et l’algorithme des “k-means” a partiellement conservé cetteorganisation, bien que cet algorithme ne tienne pas compte du voisinage. Les algorithmesKH, VQN et VQNf présentent une bonne organisation topologique (sauf pour KH lorsque19


Bulletin d’information des Laboratoires Centraux de Thomson CSF, décembre 1992la vitesse d’apprentissage est trop élevée).Le tableau ci-dessous indique <strong>les</strong> valeurs na<strong>les</strong> de e QM pour ces différents algorithmes :algorithme e QMVQNf 50.60VQN 51.59KH(0.02) 51.61KH(0.10) 54.38LBG 54.84k-means 57.57Il est intéressant de voir dans quelle mesure ces algorithmes sont capab<strong>les</strong> de se réorganiserlorsque l’état initial est totalement désordonné. Pour cela, on a initialisé <strong>les</strong> vecteurs W ijcomme suit :i jW ij b ijoù b ijest un bruit de densité uniforme entre 0 et 255. La gure 11 indique l’état initial,ainsi que <strong>les</strong> états atteints par <strong>les</strong> différents algorithmes. LBG n’est pas représenté car ilpossède sa propre initialisation, et conduit donc au même résultat que sur la gure 10.7 ConclusionNous avons établi des résultats théoriques qui aident à la compréhension des remarquab<strong>les</strong>propriétés de l’algorithme de Kohonen (KH). L’accent a été mis sur l’interprétation dupoint de vue de la minimisation d’une fonction de Lyapounov. Nous avons montré quel’algorithme de Kohonen minimise une telle fonction, sous réserve d’une organisationsufsante du réseau. Nous avons proposé une légère modication de l’algorithme deKohonen an d’obtenir un algorithme (KHf) qui minimise inconditionnellement unefonction de Lyapounov. Nous avons également proposé des algorithmes similaires (VQNet VQNf) qui présentent <strong>les</strong> mêmes propriétés <strong>topologiques</strong> que l’algorithme de Kohonen,et permettent de plus d’éviter le réglage d’une vitesse d’apprentissage.Une comparaison expérimentale de diverses stratégies de quantication vectorielle aété réalisée sur des données image. Cette comparaison montre que <strong>les</strong> algorithmes<strong>topologiques</strong> (KH, KHf, VQN, et VQNf) convergent plus lentement que <strong>les</strong>20


Bulletin d’information des Laboratoires Centraux de Thomson CSF, décembre 1992algorithmes classiques (k-means et LBG), mais aboutissent à un meilleur étatnal. De plus, la conservation de la topologie est une propriété tout à faitremarquable, qui peut être mise à prot avec succès dans diverses applications(Burel 1991 Hemani 1990 Martinelli 1990 Kohonen 1984).REFERENCESBurel, G. (1991)“Réseaux de Neurones en Traitement d’Images :des modè<strong>les</strong> théoriques aux applications industriel<strong>les</strong>”Thèse de doctorat, Université de Brest, 6 décembre 1991Burel, G., & Pottier, I. (1991)“Vector Quantization of Images using Kohonen algorithm : Theory and Implementation”Revue Technique Thomson CSF, vol 23, n o 1, mars 1991Gray, R.M. (1984)“Vector Quantization”IEEE ASSP Magazine, April 1984Hemani90, A., & Postula, A., (1990)“Cell placement by self-organization”Neural Networks, vol 3, n o 4, 1990Kohonen, T., (1984)“Self-Organization and Associative Memory”Springer-Verlag, 1984Linde, Y., Buzo, A., & Gray, R.M., (1980)“An algorithmm for Vector Quantizer design”IEEE Trans. on Communications, vol 28, n 1, January 1980Mac Queen, J., (1967)“Some methods for classication and analysis of multivariate observations”Proc. of the fth Berkeley Symposium on Math., Stat. and Prob.Vol 1, pp 281-296, 1967Martinelli, G., Ricotti, L.P., & Ragazzani, S., (1990)“Nonstationary lattice quantization by self-organizing neural network”Neural Networks, vol 3, n o 4, 199021


Bulletin d’information des Laboratoires Centraux de Thomson CSF, décembre 1992LBGk-meansKH(0.10)KH(0.02)VQNVQNfFIG. 10: Etat des prototypes en n d’apprentissage (initialisation diagonale)22


Bulletin d’information des Laboratoires Centraux de Thomson CSF, décembre 1992initk-meansKH(0.10)KH(0.02)VQNVQNfFIG. 11: Etat des prototypes en n d’apprentissage (initialisation uniforme)23


Bulletin d’information des Laboratoires Centraux de Thomson CSF, décembre 1992Table des matières1 Introduction 22 L’algorithme des Cartes Topologiques de Kohonen (KH) 23 Algorithmes classiques de quantication vectorielle 64 Algorithme VQN 84.1 Idéesgénéra<strong>les</strong> ................................ 84.2 Etatd’équilibredel’algorithmedeKohonen................. 94.3 Descriptiondel’algorithme.......................... 105 Interprétation comme algorithme de minimisation d’une fonction de Lyapounov115.1 Quelquesrésultatsthéoriques......................... 115.2 Deux algorithmes de minimisation de e QMV ................. 145.3 Forme approchée de e QMV .......................... 166 Résultats expérimentaux 177 Conclusion 2024


Bulletin d’information des Laboratoires Centraux de Thomson CSF, décembre 1992Table des gures1 Le modèle des <strong>cartes</strong> <strong>topologiques</strong> (1D) . . . ................ 32 Auto-Organisationdansuntriangle...................... 53 LemodèledesCartesTopologiques(2D)................... 54 Effetdultragesurunréseaufaiblementorganisé.............. 135 Effetdultragesurunréseaubienorganisé ................. 136 Effetdultrage sur le choix du vainqueur . . ................ 157 Densité de probabilité pour des blocs image 2x1 . . . ............ 178 Comparaison des courbes d’apprentissage : Kohonen (KH) et VQN . . . . 189 Comparaison des courbes d’apprentissage : k-means, LBG, VQN et VQNf . 1910 Etat des prototypes en n d’apprentissage (initialisation diagonale) ..... 2211 Etat des prototypes en nd’apprentissage(initialisationuniforme) ..... 2325

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!