Thèse Sciences Cognitives - Olivier Nerot

THESE 

présentée en vue d’obtenir le titre de 

DOCTEUR 

de 

L’INSTITUT NATIONAL POLYTECHNIQUE DE 

GRENOBLE 

SPECIALITE : SCIENCES COGNITIVES 

par 

Olivier Nérot 

Mémorisation par forçage neuronal des dynamiques chaotiques 

dans les modèles connexionnistes récurrents. 

Soutenue le : 10 décembre 1996 

Rapporteurs : 

M. Paul Bourgine CREA Polytechnique 

M. Manuel Samuelides ENSAE 

Examinateurs : 

M. Bernard Amy LEIBNIZ 

M. Michel Cosnard LIP ENS 

M. Jacques Demongeot TIMC IMAG (directeur) 

M. François Robert LMC IMAG 

Thèse préparée au sein du Laboratoire TIMC-IMAG.

Mémorisation par forçage neuronal des dynamiques chaotiques dans les modèles connexionnistes 

récurrents 

Le point que je suis, dédie cette thèse à la pyramide passée de mes 

ascendants oubliés, qui perdurent à travers mes actions, à la 

pyramide future de mes descendants, que mes actions modifient, et 

au premier d’entre eux, Alexandre, mon petit garçon, qui apprend 

l’autonomie. 

DEDICACE III

Mémorisation par forçage neuronal des dynamiques chaotiques dans les modèles connexionnistes 

récurrents 

REMERCIEMENTS 

La page de remerciement est de rigueur dans une thèse, et cet impératif peut faire perdre à ce 

principe toute la sincérité que je voudrais y mettre. Pourtant, je souhaite que transparaisse dans cette 

page tous les élans que mon affection m’inspire. Car, sans ces personnes qui me sont si chères, cette 

thèse n’aurait pas pu voir le jour. Tous ont pris part à ces travaux, et mes remerciements les plus 

profonds vont : 

A Jacques Demongeot, qui a su m’accueillir avec une confiance démesurée, fidèle à ses grandes 

qualités humaines, qui a su encourager mon enthousiasme parfois enfantin, qui a su tempérer des 

élans, et me ramener à la science avec toute la philosophie dont il fait preuve. A toutes ces 

discussions faites dans l’urgence, sources d’inspiration permanente, de remise en question 

constructive qui m’ont initié à sa culture pluridisciplinaire au sens le plus noble. J’ai vu le monde 

s’organiser à travers son regard. Qu’il sache que mon respect, mon admiration, et mon affection lui 

sont acquises. En espérant concrétiser un jour les rêves qu’il m’a aidé à formaliser, je lui dédie mes 

résultats futurs, car sans aucun doute, il a, à travers cette thèse, su me mettre dans des conditions 

initiales qui, selon des principes déterministes, accompagneront, modèleront, et influenceront toutes 

mes recherches. Puisse la sensibilité aux conditions initiales ne pas me faire trop diverger de ses 

attentes, maintenant que j’entre dans une phase de régime libre. 

A Maribel Chenin, qui a fourni le support technique et la sécurité à mes manipulations 

informatiques, qui a su ressusciter certains de mes travaux, et chez qui j’ai pu découvrir une 

personne de grand coeur, passionnée, et compétente dans les domaines de cette thèse. J’espère 

pouvoir poursuivre les dialogues improvisés que nous avons entamés. 

A toute l’équipe des ‘thésards’ du TIMC. A Sandrine, qui fut si souvent rassurante devant mes 

échecs, indulgente devant mon enthousiasme, et sans cesse présente à mes requêtes. A Delphine, 

Manhu, Olivier, Vincent qui ont accompagné bien des moments de détente, et supporté mes écarts de 

tempérament. 

A mes amis, Nicolas, qui possède l’autonomie instinctive et innée, et qui a su m’y intégrer, et Yves, 

avec qui nous avons découvert le Monde, nous en protégeant parfois mutuellement. A mes acolytes 

pour toujours de l’optimisme dynamique. 

A ceux que j’affectionne et que j’oublie le temps de cette page. 

A mes parents qui ont su me laisser libre de mes choix, et m’offrir un environnement aussi peu 

perturbateur que la vie le rend possible, et qui m’ont ainsi permis de croire que l’on pouvait vivre 

tout en étant idéaliste. 

A Sophie, copine-épouse-comparse, qui a su m’offrir assez d’amour pour m’encourager, assez de 

réalisme pour me corriger, assez de questions pour me justifier, assez d’efficacité pour me 

dynamiser, et parfois même assez de patience pour me sécuriser. La perfection est multiple et 

possède des composantes contradictoires, et en ce sens là elle fut parfaite, et je l’en remercie très 

affectueusement. 

A Alexandre, notre petit garçon, qui a su me rappeler que l’amour est une composante essentielle, à 

la source de bien des bonheurs non formalisables, et qui a su si souvent me rappeler à l’ordre : « Na 

fini la thèse, papa ? » 

Eh bien oui ! Elle est finie. Et grâce à vous tous. 

V

VI 

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents 

TABLE DES MATIERES 

PREMIERE PARTIE : ANALYSE 

1. PRESENTATION GENERALE 15 

1.1 INTRODUCTION 15 

1.2 PRESENTATION DE LA THESE 18 

1.2.1 ANALYSE 19 

1.2.2 DEVELOPPEMENT 20 

1.2.3 RESULTATS 20 

1.3 BIBLIOGRAPHIE 20 

2. ENCODAGE DYNAMIQUE, MEMOIRE ET CHAOS 23 


2.2 VERS UN MODELE DYNAMIQUE DE LA MEMOIRE 24 

2.2.1 EVOLUTION DE L’ENCODAGE D’INFORMATION 24 

1. Première phase ........................................................................................................................... 24 

2. Deuxième phase ......................................................................................................................... 26 

3. Troisième phase ......................................................................................................................... 28 

2.2.2 L’HYPOTHESE DU TOUT DYNAMIQUE : APPROCHE D’UN SYSTEME GENERAL 28 

2.2.3 INTERETS DE L’APPROCHE CONNEXIONNISTE 31 

1. Nature émergente des propriétés du système ............................................................................... 31 

2. Support d’information distribuée ................................................................................................ 32 

a. Unification mémoires/organes de traitement ........................................................................... 32 

b. Récupération par le contenu ................................................................................................... 32 

c. Robustesse du système ............................................................................................................ 33 

3. Capacités d’adaptation du système.............................................................................................. 33 

2.2.4 INTERETS DE L’ENCODAGE PAR LES DYNAMIQUES 34 

1. Moins d’étapes entre l’objet et son encodage .............................................................................. 34 

2. Plus grand nombre de systèmes potentiels................................................................................... 34 

3. Meilleur encodage sans couches cachées..................................................................................... 34 

4. Prise en compte du passé ............................................................................................................ 36 

5. De nouveaux supports pour l’information ................................................................................... 36 

2.2.5 DES DYNAMIQUES AU CHAOS 38 

1. Utilisation d’attracteurs .............................................................................................................. 40 

2. Sensibilité aux conditions initiales .............................................................................................. 41 

3. Robustesse au bruit et synchronisation de la dynamique globale ................................................. 43 

4. Spectre à support dense .............................................................................................................. 44 

5. Synchronisation par perturbation ................................................................................................ 44 

6. Atténuation de la fonction d’autocorrélation ............................................................................... 47 

7. Nature émergente des propriétés du chaos .................................................................................. 47 

2.3 MEMOIRES A DYNAMIQUES CHAOTIQUES 47 

2.3.1 PARAMETRES DES DYNAMIQUES CHAOTIQUES 49 

1. Dimension Fractale .................................................................................................................... 49 

TABLE DES MATIERES


2. Exposants de Lyapunov.............................................................................................................. 51 

2.3.2 TYPE D’ENCODAGE PAR LES DYNAMIQUES CHAOTIQUES 52 

1. Etat transitoire de non-reconnaissance ....................................................................................... 52 

2. Filtre de nouveauté..................................................................................................................... 53 

3. Source de ‘dépersévération’ pour le système ............................................................................... 53 

4. Catégories isochrones. ............................................................................................................... 54 

5. Mémorisation par l’attracteur..................................................................................................... 55 

6. Mémorisation par les mesures de l’attracteur ............................................................................. 57 

7. Encodage Formel ....................................................................................................................... 57 

2.3.3 SYNTHESE D’UN MODELE PRELIMINAIRE 58 

2.4 CONCLUSION 61 


3. MODELES CONNEXIONNISTES DYNAMIQUES 65 


3.2 MODELES A COMPORTEMENT DYNAMIQUE 65 

3.2.1 MODELE DE NEURONE SANS DYNAMIQUE PROPRE 65 

1. Modèle non linéaire à seuil ........................................................................................................ 65 

2. Modèles à délais ........................................................................................................................ 66 

3. Modèle à mémoire ..................................................................................................................... 66 

4. Modèles réfractaires ................................................................................................................... 67 

3.2.2 MODELE DE NEURONE A DYNAMIQUE PROPRE 68 

1. Modèle à rétroaction .................................................................................................................. 68 

2. Modèle à dynamique chaotique propre ....................................................................................... 69 

3.2.3 ARCHITECTURE DU RESEAU 69 

1. Architectures Feed-Forward ....................................................................................................... 70 

2. Architectures récurrentes ........................................................................................................... 71 

3. Architectures modulaires ........................................................................................................... 71 

3.3 EXEMPLES DE MODELES CHAOTIQUES 72 

3.3.1 WAN ET AUSSEM 72 

3.3.2 RENALS 73 

3.3.3 CHAPEAU BLONDEAU 73 

3.3.4 DOYON, CESSAC, QUOY 74 

3.3.5 BABLOYANTZ DESTEXTHE 74 

3.3.6 FREEMAN 75 

3.3.7 KOHONEN LOGISTIQUE 75 



4. APPRENTISSAGE DANS LES RESEAUX RECURRENTS 79 

4.1 INTRODUCTION : REPRODUIRE UN ETAT PASSE 79 

4.2 APPRENTISSAGE HEBBIEN 80 

4.3 MAXIMISATION DE L'ENTROPIE DE SORTIE 80 

4.4 DESCENTE DU GRADIENT DE L’ERREUR 81 

4.4.1 RECURRENT BACK-PROPAGATION 83 

4.4.2 BACK-PROPAGATION THROUGH TIME 85 

4.4.3 REAL TIME RECURRENT LEARNING 86 

1. Dans le cas discret ..................................................................................................................... 86 

TABLE DES MATIERES VII


2. Dans le cas continu .................................................................................................................... 87 

3. Dans les réseaux à différence finie .............................................................................................. 88 

4. Avec Teacher forcing ................................................................................................................. 88 

5. Avec Teacher forcing total ......................................................................................................... 88 

4.5 LIMITES 89 

4.5.1 ON-LINE ET LOCAL 89 

4.5.2 FAUX GRADIENTS 90 

4.5.3 INSTABILITE 90 



5. UN MODELE CONNEXIONNISTE DE LA MEMOIRE 95 

5.1 INTRODUCTION : UNE MEMOIRE ANTICIPATRICE 95 

5.2 PRINCIPES DE BASE 98 

5.2.1 PERTURBATION PAR DIFFUSION DU FORÇAGE DES DYNAMIQUES 98 

1. Complexification des dynamiques .............................................................................................. 99 

2. Une tomate dans la tête ............................................................................................................ 100 

3. Perturbation par des informations de même support.................................................................. 101 

4. Pas d’entrée, pas de sortie......................................................................................................... 101 

5. Information externe et information interne ............................................................................... 102 

6. Nombre d’itérations d’apprentissage ........................................................................................ 102 

7. Evite la divergence des paramètres du réseau............................................................................ 103 

8. Prise en compte du passé de la perturbation .............................................................................. 104 

5.2.2 MINIMISATION DES PERTURBATIONS INDUITES 105 

1. Simplification des dynamiques apprises .................................................................................... 108 

2. Vers une maximisation de l’autonomie ..................................................................................... 108 

3. L’effet de surprise .................................................................................................................... 110 

4. Permet la segmentation de classes conceptuelles ....................................................................... 111 

5. Evite la nécessité d’un synchronisme support de l’encodage ..................................................... 111 

5.2.3 ASSOCIATION MULTIMODALE DES FORÇAGES 112 

5.2.4 MODULARISATION FONCTIONNELLE 113 

1. Modularisation par apprentissage ............................................................................................. 114 

2. Modularisation fonction de la complexité du signal .................................................................. 115 

3. Pas de phase d’apprentissage .................................................................................................... 119 

5.3 PRINCIPES DU MODELE CONNEXIONNISTE 120 

5.3.1 POUR LE NEURONE 120 

1. Modèle à différences finies ....................................................................................................... 120 

2. Modèle à mémoire en entrée et sortie........................................................................................ 121 

3. Sans dynamique chaotique propre ............................................................................................ 122 

4. Apprentissage par forçage ........................................................................................................ 122 

5. Système déterministe ................................................................................................................ 122 

5.3.2 POUR L'ARCHITECTURE 123 

1. Récurrence locale ..................................................................................................................... 123 

2. Séquentiel ou parallèle ............................................................................................................. 123 

5.3.3 BILAN 123 



6. DEVELOPPEMENT INFORMATIQUE DU MODELE 128 

VIII 

TABLE DES MATIERES



6.2 L'ORDINATEUR PARALLELE DEC-MPP12000 129 

6.3 LE LOGICIEL DE MODELISATION 129 

6.3.1 FENETRES INITIALES AU LANCEMENT 129 

6.3.2 CONSTRUCTION DU RESEAU 130 

1. Architecture ..............................................................................................................................130 

a. Entrées du réseau ..................................................................................................................130 

b. Taille et voisinage .................................................................................................................131 

2. Modèle neuronal .......................................................................................................................132 

a. Fonctions H et S ....................................................................................................................132 

b. Fonction neurone s ...............................................................................................................133 

3. Paramétrisation en temps réel ...................................................................................................134 

6.3.3 ANALYSE DU RESEAU 135 

1. Sorties du réseau .......................................................................................................................135 

2. Analyse fréquentielle du réseau .................................................................................................136 

3. Suivi d’un attracteur .................................................................................................................136 

4. Cartes de bifurcation .................................................................................................................137 

5. Mesures sur un neurone ............................................................................................................139 


7. DYNAMIQUES OBSERVEES ET EXPERIMENTEES 143 


7.2 DYNAMIQUE DES MODELES A PARAMETRES FIGES 144 

7.2.1 RESEAUX SIMPLES : MODELES RECURRENTS SANS MEMOIRE 144 

1. Matrice de connexion aléatoire .................................................................................................144 

a. Vers une activité locale .........................................................................................................145 

b. Une activité chaotique ...........................................................................................................146 

c. Synchronisme local ...............................................................................................................147 

d. Synchronisation et clustering fréquentiel par forçage ............................................................149 

7.2.2 RESEAUX A MEMOIRE 151 

1. Modèles à délai .........................................................................................................................151 

a. Augmentation de la taille des clusters d’activité ....................................................................152 

b. Plusieurs attracteurs par neurone...........................................................................................154 

2. Modèles à atténuation ...............................................................................................................157 

a. Mise en phase de clusters ......................................................................................................157 

b. Nature fractale des attracteurs atteints ...................................................................................158 

c. Autosimilarité de l’attracteur .................................................................................................159 

d. Accrochage de fréquences entre neurones .............................................................................160 

7.2.3 RESEAU HOPFIELDIEN AVEC FONCTION DE SORTIE 162 

1. Matrice de connexion isotrope excitatrice..................................................................................162 

2. Matrice de connexion aléatoire .................................................................................................164 

7.2.4 RESEAU HOPFIELDIEN A DIFFERENCES FINIES 167 

1. Caractère bifurquant du gain .....................................................................................................168 

7.3 PARAMETRES BIFURQUANTS 173 

7.3.1 VARIATION DU GAIN 173 

1. Dans un modèle à délais ...........................................................................................................173 

2. Dans un modèle à atténuation ...................................................................................................175 

7.3.2 VARIATION DU COEFFICIENT DE RETROACTION 180 

7.3.3 VARIATION DES DELAIS 181 


TABLE DES MATIERES IX


8. ANTICIPATION DU FORÇAGE DES DYNAMIQUES 185 

X 

8.1 INTRODUCTION : UN ALGORITHME ON-LINE LOCAL ? 185 

8.2 L’APPRENTISSAGE HEBBIEN 186 

8.2.1 DESCRIPTION 186 

8.2.2 RESULTATS : POINTS FIXES ET FRACTALISATION DU RESEAU 186 

8.3 DIFFUSION DE L'ERREUR DANS LE RESEAU 190 


8.3.2 RESULTATS : APPRENTISSAGE DE CYCLES LIMITES 192 

8.4 FORÇAGE DES DYNAMIQUES COMPLEMENTAIRES 195 


8.4.2 RESULTATS 196 

1. Cycles limites du régime libre initial ........................................................................................ 196 

2. Complexification des dynamiques par perturbation ................................................................... 196 

3. Minimisation des perturbations induites ................................................................................... 196 

4. Dépersévération en régime libre ............................................................................................... 198 

5. Apprentissage par coeur par des dynamiques chaotiques........................................................... 198 

6. Bifurcations de l’attracteur en régime libre ............................................................................... 198 

8.5 VERS L’ALGORITHME ON-LINE LOCAL ? 202 



9. CONCLUSION GENERALE ET PERSPECTIVES DE RECHERCHE 207 

TABLE DES MATIERES


TABLE DES ILLUSTRATIONS 

Figure 2-1 : Modèles de l'encodage cérébral .............................................................................................. 23 

Figure 2-2 : Phases successives de l'encodage ............................................................................................ 25 

Figure 2-3 : Décharges neuronales ............................................................................................................ 26 

Figure 2-4 : Le tout dynamique ................................................................................................................. 30 

Figure 2-5 : Meilleure capacité de l'encodage par les dynamiques .............................................................. 35 

Figure 2-6 : L'attracteur de Lorenz ............................................................................................................ 40 

Figure 2-7 : Visualisation de l'aspect attractif ............................................................................................ 41 

Figure 2-8 : Sensibilité aux conditions initiales ......................................................................................... 42 

Figure 2-9 : Synchronisation d'oscillateurs couplés .................................................................................... 43 

Figure 2-10 : FFT du X(t) du système de Lorenz ....................................................................................... 44 

Figure 2-11 : Resynchronisation par perturbation ...................................................................................... 45 

Figure 2-12 : Perturbation du système de Lorenz ....................................................................................... 46 

Figure 2-13 : Synchronisation des dynamiques .......................................................................................... 46 

Figure 2-14 : Pavage d'un attracteur .......................................................................................................... 49 

Figure 2-15 : Ensemble de Cantor ............................................................................................................. 50 

Figure 2-16 : Calculs des coefficients de Lyapunov.................................................................................... 51 

Figure 2-17 : Fibres isochrones ................................................................................................................. 54 

Figure 2-18 : Dimension fractale et état mental ......................................................................................... 57 

Figure 2-19 : Encodage formel d'un attracteur ........................................................................................... 58 

Figure 2-20 : Présentation préliminaire du modèle : rôle du chaos ............................................................. 59 

Figure 3-1 : Modèle classique .................................................................................................................... 66 

Figure 3-2 : Influence de la période réfractaire .......................................................................................... 68 

Figure 3-3 : Carte de bifurcation du modèle logistique............................................................................... 69 

Figure 3-4 : Equivalence du modèle à entrée-sortie.................................................................................... 70 

Figure 4-1 : Partition des neurones ............................................................................................................ 81 

Figure 4-2 : Apprentissage local/off-line vs non-local/on-line .................................................................... 89 

Figure 5-1 : Perturbation, anticipation, modularisation, association .......................................................... 97 

Figure 5-2 : Chaos par forçage .................................................................................................................100 

Figure 5-3 : Système déterministe ............................................................................................................104 

Figure 5-4 : Une mémoire anticipatrice ....................................................................................................107 

Figure 5-5 : Système autonome ................................................................................................................109 

Figure 5-6 : Environnements disjoints ......................................................................................................111 

Figure 5-7 : Augmentation du nombre de canaux .....................................................................................113 

Figure 5-8 : Modularisation fonctionnelle.................................................................................................113 

Figure 5-9 : Localisation des aires visuelles ..............................................................................................114 

Figure 5-10 : Modularisation par les poids ...............................................................................................115 

Figure 5-11 : Modularisation par l'erreur ..................................................................................................116 

Figure 5-12 : Diffusion de la perturbation résiduelle .................................................................................117 

Figure 5-13 : Ajout de la composante aléatoire .........................................................................................118 

Figure 5-14 : Modèle général de neurone utilisé .......................................................................................124 

Figure 5-15 : Modèle d'apprentissage par anticipation du forçage .............................................................125 

Figure 6-1 : DEC-MPP 12000 ..................................................................................................................129 

Figure 6-2 : Fenêtres initiales ...................................................................................................................130 

Figure 6-3 : Entrées du réseau ..................................................................................................................131 

Figure 6-4 : Architecture du réseau ..........................................................................................................131 

Figure 6-5 : Choix du modèle neuronal ....................................................................................................132 

Figure 6-6 : Modification des fonctions H et S ..........................................................................................133 

Figure 6-7 : Modification de la fonction neurone ......................................................................................133 

Figure 6-8 : Accès aux paramètres du neurone .........................................................................................134 

Figure 6-9 : Affichage des sorties .............................................................................................................135 

Figure 6-10 : Isofréquence et phase du réseau ...........................................................................................136 

TABLE DES MATIERES XI


Figure 6-11 : Tracé d'un attracteur ........................................................................................................... 137 

Figure 6-12 : Succession des attracteurs ................................................................................................... 137 

Figure 6-13 : Suivi des bifurcations ......................................................................................................... 138 

Figure 6-14 : Mesures d'une sonde ........................................................................................................... 139 

Figure 7-1 : Activité du réseau ................................................................................................................. 145 

Figure 7-2 : Variétés d'attracteurs dans un même réseau .......................................................................... 146 

Figure 7-3 : Obtention de la matrice des fréquences ................................................................................. 147 

Figure 7-4 : Clustering fréquentiel ........................................................................................................... 148 

Figure 7-5 : Diffusion de l'activité neuronale ........................................................................................... 149 

Figure 7-6 : Complexification des dynamiques......................................................................................... 150 

Figure 7-7 : Clustering fréquentiel autour du site de forçage .................................................................... 151 

Figure 7-8 : Activité dans un modèle á délais ........................................................................................... 152 

Figure 7-9 : Attracteurs d'un modèle à délai ............................................................................................. 152 

Figure 7-10 : Synchronisations locales ..................................................................................................... 153 

Figure 7-11 : Perturbation de tous les neurones ........................................................................................ 154 

Figure 7-12 : Perturbation des dynamiques .............................................................................................. 155 

Figure 7-13 : Attracteurs d'un même neurone .......................................................................................... 156 

Figure 7-14 : Isophases du réseau ............................................................................................................ 158 

Figure 7-15 : Zoom sur l'attracteur du neurone 98-11 .............................................................................. 159 

Figure 7-16 : Sillages de Bénard-Von Karman......................................................................................... 159 

Figure 7-17 : Zoom sur l'attracteur du neurone 98-11 .............................................................................. 160 

Figure 7-18 : Clustering du neurone 96-12 .............................................................................................. 161 

Figure 7-19 : Désynchronisation des dynamiques ..................................................................................... 161 

Figure 7-20 : Variation du 'remplissage' .................................................................................................. 162 

Figure 7-21 : Modularisation du réseau .................................................................................................... 163 

Figure 7-22 : Apparition d'un vortex ........................................................................................................ 164 

Figure 7-23 : Perturbation de la diffusion ................................................................................................. 165 

Figure 7-24 : Organisation de l'activité centrale ....................................................................................... 166 

Figure 7-25 : Organisation en modules mobiles ....................................................................................... 166 

Figure 7-26 : Perte de l'organisation du réseau ......................................................................................... 167 

Figure 7-27 : avec pente de 43/64 ............................................................................................................ 168 

Figure 7-28 : avec pente de 44/64 ............................................................................................................ 169 

Figure 7-29 : Erreur parfois à 0 pour un neurone ..................................................................................... 170 

Figure 7-30 : Courbe d’écart moyen pour 500 itérations de stabilisation................................................... 171 

Figure 7-31 : Variation des courbes d'écart .............................................................................................. 172 

Figure 7-32 : Début des variations lisses de L0 ....................................................................................... 172 

Figure 7-33 : Modification des attracteurs avec b ..................................................................................... 174 

Figure 7-34 : Carte de bifurcation du neurone 96-12 en fonction de b ...................................................... 175 

Figure 7-35 : Evolution de l'attracteur du neurone 96-12 avec b............................................................... 176 

Figure 7-36 : Carte de bifurcation du neurone 114-53 en fonction de b .................................................... 176 

Figure 7-37 : Evolution de l'attracteur du neurone 114-53 avec b ............................................................. 177 

Figure 7-38 : Superposition des cartes de bifurcation ............................................................................... 177 

Figure 7-39 : Enrichissement des fréquences avec b ................................................................................ 178 

Figure 7-40 : Diagramme de bifurcation à b élevé ................................................................................... 179 

Figure 7-41 : Gel des dynamiques ............................................................................................................ 179 

Figure 7-42 : Hystérésis du diagramme de bifurcation .............................................................................. 180 

Figure 7-43 : Carte de bifurcation en fonction de Wii ............................................................................... 181 

Figure 7-44 : Multiples vortex ................................................................................................................. 182 

Figure 7-45 : Modification du paysage fréquentiel avec Dmin .................................................................. 183 

Figure 8-1 : Influence de l'apprentissage Hebbien sur les attracteurs ........................................................ 186 

Figure 8-2 : Evolution de l'attracteur du neurone 3-0 ............................................................................... 187 

Figure 8-3 : Diffusion de l'apprentissage. t=200 ....................................................................................... 188 



Figure 8-6 : Fractalisation d'un réseau. t=4000 ........................................................................................ 189 

XII 

TABLE DES MATIERES


Figure 8-7 : Paysage des spécificités neuronales .......................................................................................190 

Figure 8-8 : Rétropropagation de l'erreur ..................................................................................................191 

Figure 8-9 : Convolution avec les poids ....................................................................................................192 

Figure 8-10 : Evolution vers un cycle limite .............................................................................................192 

Figure 8-11 : Synchronisation lors de l'apprentissage ...............................................................................193 

Figure 8-12 : Synchronisation par ajout de fréquence ...............................................................................193 

Figure 8-13 : Influence de la perte du forçage ...........................................................................................194 

Figure 8-14 : Forçage des dynamiques complémentaires...........................................................................195 

Figure 8-15 : Dynamiques libres du réseau avant apprentissage ................................................................197 

Figure 8-16 : Effets du forçage sans apprentissage ....................................................................................197 

Figure 8-17 : Evolution des dynamiques après 5000 pas d’apprentissage ..................................................199 

Figure 8-18 : Evolution des dynamiques après 10000 pas d’apprentissage ................................................199 

Figure 8-19 : Après 15000 pas d’apprentissage. Début de la phase en régime libre ...................................200 

Figure 8-20 : Complexification des dynamiques en régime libre entre 20000 et 25000 pas .......................200 

Figure 8-21 : Stabilisation des dynamiques ...............................................................................................201 

Figure 8-22 : Dynamiques libres apprises après 13E6 itérations ...............................................................201 

Figure 8-23 : Evolution de l'attracteur en régime libre ..............................................................................202 

TABLE DES MATIERES XIII

14 


PREMIERE PARTIE : ANALYSE


1.1 Introduction 

Quel est le support de la pensée ? 

1. PRESENTATION GENERALE 

Le moi neuronal élabore des images-mouvements et l’action représente 

la force d’auto-organisation du cerveau. 

J.D. Vincent. Biologie des passions. 

Cette question semble bien provoquante, et pourtant il faut reconnaître qu’elle reste une 

des questions principales de bien des articles liés au connexionnisme ou aux sciences cognitives. 

Elle exprime une interrogation essentielle, et peut se déceler sous diverses formes derrière la 

plupart des orientations de recherche suivies par la communauté des sciences cognitives 1 : 

à Philosophie de la conscience et de l’intentionnalité [[61]][[71]] 

à Définition des systèmes vivants comme systèmes autonomes [[205]] 

à Rapport de l’esprit à la matière [[17]][[167]][[71]][[175]] 

à Modélisation des phénomènes de mémorisation[[12]] 

à Etude de la nature physiologique des représentations mentales et motrices [[107]] 

à Détermination des relations anatomiques et fonctionnelles 

à Localisation et organisation des fonctionnalités cérébrales 

à Amélioration des modèles en neuropsychologie et neurophysiologie 

à Modélisation connexionniste des architectures neurophysiologiques 

à Etude des capacités computationnelles des systèmes artificiels [[178]][[179]] 

Cette liste a volontairement été classée à partir des manifestations haut niveau de la 

pensée jusqu’aux manifestations bas niveau, des systèmes naturels vers les systèmes artificiels, 

1 Les références indiquées ne se veulent pas exhaustives, mais simplement représentatives de celles qui ont 

inspiré certaines orientations prises par cette thèse. 

PRESENTATION GENERALE 15


afin de pouvoir se poser une question annexe à la première : 

16 

A quel niveau se produit la rupture système pensant / système non-pensant ? 

Le but de cette thèse n’est pas de répondre à cette question, mais il fut impossible, durant 

cette recherche, de l’éluder totalement. En effet, l’un des buts de ces travaux ci-dessus était de 

voir émerger, dans les systèmes artificiels étudiés, des comportements similaires à ceux qui 

caractérisent certains systèmes naturels (comportements dynamiques, spécialisation neuronale, 

modularité des réseaux, oubli...), avec les contraintes de ceux-ci (connectivité locale, absence de 

superviseur, auto-organisation,... ) Cette tentative de modélisation demandait de rapprocher deux 

types de systèmes situés de part et d’autre de la frontière située entre système artificiel 

et système naturel. Autant dire que cette approche fut limitée par de nombreux obstacles qui nous 

confrontèrent à la question : y a t-il rupture et si oui, peut-on la transgresser ? Mais y a-t-il 

réellement deux classes distinctes ? 2 L’un des intérêts des sciences cognitives est de tendre à 

réduire cette faille conceptuelle entre les systèmes naturels et les systèmes artificiels, en se fixant 

plusieurs buts. 

Tout d’abord en tentant de modéliser les systèmes naturels. Cette approche matérialiste, 

confortée par les récentes découvertes neurophysiologiques, nous permet d’espérer un jour 

reproduire par simulation le comportement de la plupart des systèmes naturels : les premières 

expériences de forçage des dynamiques du cerveau d’un rat ont déjà été réalisées [[171]], les 

premières rétines artificielles voient le jour [[194]], et les neurones du système gastrique du 

homard sont modélisés [[162]]. Il y a peu de raisons pour que de telles avancées dans la 

connaissance et la modélisation des systèmes naturels s’arrêtent, ou alors la science progressera 

jusqu’à savoir pourquoi existe une telle impossibilité. Dans les deux cas, une telle recherche 

présente un réel intérêt. 

Une autre approche minimise l’intérêt d’une recherche de similarité fonctionnelle du 

modèle développé, en accentuant l’importance du comportement et des propriétés du système : 

peu importe qu’un avion ne batte pas des ailes si le but fixé était de le faire voler. Cette approche 

pousse à l’étude des phénomènes émergents, considérant que la richesse de comportement d’un 

système peut être plus grande que la somme des comportements de ses sous-parties. Cette idée 

est l’un des fondements du connexionnisme : l’information est distribuée, et seule l’organisation du 

système autour de cette distribution possède du sens. Il est vrai que, si l’on ne doit retenir que 

deux choses de l’approche connexionniste, il s’agira de son auto-organisation et de la distribution 

de l’information mémorisée. L’aspect neuromimétique est accessoire. 

Une autre méthode des sciences cognitives, pour réduire la faille entre systèmes artificiels 

et naturels, en tentant de les rendre fonctionnellement plus proches de l’utilisateur humain : il 

s’agit de l’ergonomie, qui adapte les systèmes artificiels aux contraintes des systèmes naturels. 

Cette approche n’est pas l’objet de cette thèse mais il est intéressant de remarquer qu’elle 

contribue elle aussi à la réduction de la frontière artificiel / naturel. 

Alors, quels espoirs fonder quant aux chances de succès du projet de connaître, modéliser 

et simuler le fonctionnement de la pensée ? Nous ne sommes pas à même de pouvoir répondre à 

2 Ce problème de classe peut se poser à partir de propriétés simples, par exemple celle qui consiste à 

‘possèder de la vitesse’. Si l’on envisage un système composé de deux billes, l’une allant à 100km/h et 

l’autre immobile, il est facile de les ranger en deux groupes. Mais si l’on prend maintenant comme 

référence de vitesse la première bille, c’est alors la bille qui était immobile qui possède de la vitesse. Peutêtre 

faut-il voir le même phénomène avec les propriétés ‘est pensant’, ou ‘est naturel’ : il n’existerait pas de 

classement absolu, car il est possible de modifier tout classement en fonction de la référence prise. 



cette question actuellement, et les théories sur le sujet foisonnent. Pour s’en convaincre, il suffit 

de voir la liste des best-sellers épistémologiques qui paraissent actuellement sur le sujet. Mais il 

faut espérer que ces théories continueront à foisonner jusqu’à ce que l’une d’entre elles domine, 

ouvrant alors la voie à bien d’autres questions, tout aussi passionnantes. Peu importe si certaines 

approches semblent surprenantes, si d’autres font preuve de ‘Gödelite’ caractérisée ou 

d’hermétisme quantique, ou encore de ‘connexionnite’, ou si certaines encore ne sont que des 

ébauches, cherchant à tout prix à anticiper toute idée extérieure, amalgamant cybernétique, 

chaos, neurologie, physique quantique, systèmes formels : la science a déjà connu de tels 

foisonnements contradictoires. 

Mais la solution est peut être ailleurs : tout comme la théorie du chaos nous a permis de 

voir un continuum entre l’aléatoire et le déterministe, il est possible que les sciences de la 

cognition nous permettent un jour de briser les clivages pensant / non pensant, naturel / artificiel, 

en y voyant une continuité 3 . Dès lors, il devient possible d’espérer améliorer constamment nos 

modèles de la cognition, et leur donner des propriétés nouvelles à la vue de nos connaissances 

actuelles, sans pouvoir un jour atteindre celles de l’homme, car le seul modèle strictement 

conforme à l’homme, qui en vérifierait toutes les propriétés, serait lui-même : toute modélisation 

n’est finalement qu’une approximation. Dès lors, si l’on obtient un jour cette machine paraissant 

douée d’intelligence et d’autonomie, celle-ci sera considérée soit comme un modèle humain, soit 

comme une machine améliorée, selon les référence de chacun. Le contact avec de telles 

machines rendra leurs propriétés naturelles à des yeux futurs : cela fait bien longtemps que l’on ne 

se demande plus si les miroirs dupliquent le réel , ou si les appareils photographiques 

emprisonnent les âmes ! Finalement les conflits actuels ne sont pas dus à la faisabilité d’une telle 

machine, mais au fait que chacun veut faire partager son interprétation (son modèle du réel) à 

l’autre 4 . 

Selon l’orientation de cette thèse, cette machine hypothétique sera sur chaque versant de 

la frontière naturel/artificiel : il s’agira d’un modèle humain par ses propriétés, et d’une machine par 

son architecture. 

Telle sera l’approche de cette thèse : trouver dans les modèles étudiés quelques pistes, ne 

pas utiliser de termes dont la définition dépend trop des références de chacun, et limiter notre 

analyse à l’observation des propriétés de nos modèles, en essayant de les rapprocher de celles 

des systèmes naturels. Cette approche n’aura pas pour but d’encourager l’interprétation du 

connexionnisme affirmant qu’il s’agit du modèle de l’esprit humain, mais simplement que ce 

modèle intermédiaire présente des propriétés similaires, et que l’amélioration des modèles peut 

permettre de retrouver autant de propriétés du modèle humain que l’on souhaite. Cette approche 

se situe entre une IA faible et une IA forte. En effet, selon notre approche, la modélisation 

informatique peut faire émerger des comportements propres à l’intelligence humaine, mais reste 

un modèle du système simulé. De ce point de vue, cette idée est en accord avec l’IA faible : 

même si les propriétés sont similaires, le modèle reste au niveau d’une simple simulation. 

3 Certaines théories avant-gardistes tentent aujourd’hui de le faire [[56]], en fusionnant le naturel et 

l’artificiel, associant l’outil à une production de nos gènes, nous réduisant au rôle d’intermédiaire entre le 

gène et l’outil. Il est vrai qu’il n’existe pas de définition satisfaisante d’un système dit naturel, et que l’on 

peut se demander ce que le carbone a de plus naturel que le silicium, sinon une virtus natura... 

4 En imposant notre modèle à l’autre, on rend ce dernier plus prévisible puisqu’il se comportera selon notre 

modèle. Il sera donc moins perturbant pour nous-mêmes. Ne peut on pas voir là une interprétation haut 

niveau des principes de la mémoire exposés dans cette thèse ? (Minimisation des perturbations induites , 

p.103) 



Mais, de la même façon que l’IA forte le suppose, il existe un seuil à partir duquel deux 

systèmes peuvent être considérés comme équivalents, même s’ils ne partagent pas toutes les 

mêmes propriétés ; il existe un seuil acceptable pour l’observateur. Ainsi, par exemple, un individu 

n’est qu’un modèle d’un autre individu, dans le sens où ils ne partagent qu’un petit nombre de 

propriétés communes, sans pourtant posséder toutes les propriétés du groupe humain auquel ils 

appartiennent. Chaque individu n’en vérifie que certaines, d’autres lui étant propres, et 

caractéristiques de son autonomie. Il existerait donc un stade où un système modélisant l’humain 

peut faire partie des systèmes dits intelligents, autonomes, ou conscients, au même titre qu’un 

individu humain, dès lors qu’il partage un nombre suffisant de propriétés caractéristiques du 

groupe humain, sans les vérifier toutes (de toutes façons, un système vérifiant toutes les 

propriétés d’un autre lui est isomorphe : le modèle parfait d’un système n’est autre que le système 

lui-même 5 ). Selon cette approche, une machine peut appartenir au groupe des systèmes 

pensants, satisfaisant ainsi les principes de l’IA forte. 

Nous nous limiterons donc à mettre en évidence certaines propriétés de nos systèmes 

informatiques, en les rapprochant de nos connaissances des systèmes biologiques. Nous 

espérons ainsi combler une partie du fossé existant entre artificiel et naturel, en adoptant ce point 

de vue intermédiaire entre IA forte et IA faible. 

De tels arguments convaincront sans doute les matérialistes artisans du tout-systémique. 

Mais ils convaincront aussi certainement les idéalistes partisans du tout-naturel, car les résultats 

restreints obtenus sauront les conforter dans l’impossibilité d’une telle tâche. 

Mais il faut espérer que la provocation volontaire de certaines idées présentées ici saura 

faire porter un nouveau regard sur les questions présentées dans cette introduction. 

18 

C’est, nous l’espérons, ce à quoi cette thèse pourrait contribuer... 

1.2 Présentation de la thèse 

La question qui a introduit ce chapitre fut l’une des motivations initiales de cette thèse, 

mais nous pouvons la dissimuler dernière des interrogations détournées : peut-on interpréter les 

dynamiques neuronales comme l’unique support des propriétés observées dans la mémoire ? Et 

l’unique modélisation de ces dynamiques dans des modèles connexionnistes respectant certaines 

contraintes peut-elle nous faire espérer voir des comportements similaires à ceux des systèmes 

naturels ? Cette thèse n’a pas la prétention d’y avoir répondu précisément, mais nous posons ces 

questions comme sous-jacentes à la trame des travaux réalisés. 

De ces questions, nous pouvons retirer quelques termes qui guideront l’organisation de 

cette thèse et son déroulement à travers plusieurs questions : 

* Qu’est ce qu’un encodage ? 

* Parmi les encodages possibles, lesquels portent sur des dynamiques ? 

* Quels sont les modèles permettant de tels encodages dynamiques ? 

5 En effet, pour que le modèle soit parfait, il doit vérifier toutes les propriétés du système, en particulier la 

propriété, ‘à le même comportement que’, ce qui signifie que toutes les variables d’état de ces deux systèmes 

doivent avoir la même évolution temporelle : ils doivent donc partager les mêmes variables d’états et les 

mêmes lois, ce qui, dans un cadre déterministe signifie que les deux systèmes sont identiques.. 



* Quels sont les paramètres principaux d’une dynamique neuronale ? 

* Quelles règles d’apprentissage portent sur ces paramètres ? 

* Quels sont les critères d’une plausibilité biologique ? 

* Pouvons nous imaginer des règles d’apprentissage vérifiant ces critères ? 

La réponse à ces questions nous permettra de dégager quelques modèles, qui seront 

simulés et analysés, en effectuant en parallèle un retour au biologique dès que cela s’avère 

possible. Nous essayerons de montrer qu’une synthèse entre ces modèles est possible, amenant 

un type de réseau dynamique biologiquement plausible, qui sera construit au fur et à mesure du 

déroulement de cette thèse. 

1.2.1 Analyse 

La première partie de cette thèse est consacrée à l’analyse de ces différentes questions, 

et tente d’y apporter quelques solutions. Il a fallu tout d’abord définir ce qui caractérise les 

dynamiques neuronales, qu’elles soient naturelles ou artificielles, et l’intérêt qu’elles présentent 

pour l’encodage d’information. Nous tenterons de justifier leur emploi dans cette thèse et de 

rassembler les outils mathématiques utiles à leur analyse (Chap.2, Encodage dynamique, 

mémoire et chaos. p23). Cette première approche nous permettra d’entrevoir les méthodes 

possibles d’encodage de l’information par les dynamiques neuronales d’un modèle connexionniste 

: encodage par synchronisme, par population, par mémorisation des dynamiques ou de leurs 

paramètres. 

Tout naturellement, une telle étude nous a orientés vers les modèles connexionnistes à 

dynamique chaotique, actuellement beaucoup étudiés, en s’appuyant essentiellement sur les 

travaux de Blabloyantz et al. [[9]][[10]], Freeman & al. [[180]][[218]][[36]], Renals [[164]], Chapeau- 

Blondeau [[40]][[43]]. L’une des premières observations durant cette phase fut de remarquer la 

diversité des approches réalisées, tant dans les modèles que dans l’interprétation du rôle du 

chaos. Il fut donc nécessaire de synthétiser les méthodes d’encodage de l’information par des 

dynamiques chaotiques, et d’en dégager quelques encodages principaux, en accord avec les 

connaissances neurophysiologiques actuelles. 

Une fois déterminées ces méthodes d’encodage, nous nous intéresserons aux modèles 

neuronaux et aux architectures pouvant répondre à nos besoins (Chap. 3, Modèles 

connexionnistes dynamiques, p.65). Ce chapitre tentera de hiérarchiser les modèles proposés, afin 

de déterminer quels sont les paramètres et les contraintes essentiels du réseau que nous 

souhaitons réaliser, et quels sont les modèles pouvant présenter les dynamiques retenues dans le 

chapitre précédent. C’est à ce niveau que sera posé le choix d’une architecture récurrente, à 

voisinage local. La même analyse sera alors réalisée pour les algorithmes d’apprentissage utilisés 

dans les architectures récurrentes [Chap. 4, Apprentissage dans les réseaux récurrents. p79] Ce 

chapitre rassemblera les principales idées avancées, et recensera l’ensemble des algorithmes 

utilisés dans les modèles connexionnistes récurrents. Malheureusement, les algorithmes 

développés à ce jour pour les architectures récurrentes ne sont pas biologiquement plausibles 

(non on-line, non locaux). Il nous a donc fallu imaginer et développer de nouvelles règles 

répondant à ces contraintes de plausibilité biologique. 



1.2.2 Développement 

Une fois réalisée cette analyse des modèles neuronaux, des architectures et des 

algorithmes d’apprentissage permettant la mémorisation de dynamiques, et après avoir déterminé 

les contraintes de plausibilité biologique à imposer, la thèse présentera et justifiera les choix 

réalisés pour le développement de notre modèle, tant au niveau neuronal, qu’au niveau 

architectural. Nous tenterons, au cours de ce développement, de mettre en place un modèle 

théorique de la mémoire, qui concilie les connaissances neurophysiologiques actuelles 

(comportement chaotique des EEG, synchronisations neuronales, architectures modulaires), les 

modèles théoriques de l’autonomie (clôture opérationnelle, environnement perturbatif, autoorganisation), 

et les architectures artificielles actuellement développées (neurones à délais, 

période réfractaire). Comme nous le verrons dans cette partie, l’ensemble des résultats 

aujourd’hui connus dans ces différents domaines, peuvent s’articuler autour d’une architecture que 

nous nommerons PAMA (Perturbation-Anticipation-Modularisation-Association). 

Enfin sera présenté rapidement l’outil logiciel mis au point spécifiquement pour l’étude 

des modèles développés, et qui a produit l’ensemble des résultats présentés dans cette thèse 

(Chap. 6, Développement informatique du modèle. p128). Cet outil, développé sur l’ordinateur 

parallèle du TIMC, nous a offert la puissance nécessaire à la simulation de réseaux comportant 

jusqu’à 262144 neurones, en permettant leur analyse en temps réel ( état des sorties, traçage des 

attracteurs des neurones, de leurs cartes de bifurcation, visualisation des transformées de Fourier 

de l’ensemble du réseau, affichage des neurones en phases, etc...). 

1.2.3 Résultats 

Dans une troisième et dernière partie, seront rassemblés les résultats obtenus lors de la 

simulation des modèles par le logiciel ci-dessus. Dans un premier chapitre nous synthétiserons la 

multitude de dynamiques différentes observées dans nos réseaux en fonction des modèles étudiés 

[Chap.7, Dynamiques observées, p143], et tenterons de déterminer l’influence des paramètres. La 

détermination de ces paramètres influents oriente alors les grandes direction de recherche pour la 

modélisation de l’apprentissage [Chap.8, Anticipation du forçage des dynamiques, p.185]. Comme 

justifié dans la première partie de cette thèse, l’apprentissage consistera à forcer la dynamique 

d’un ou plusieurs neurones du réseau, et à faire en sorte que le réseau minimise la perturbation 

induite par ce forçage. 

Nous reviendrons alors aux questions sous-jacentes à cette thèse, présentées dans 

l’introduction, en tentant d’analyser de façon fonctionnelle et qualitative les phénomènes observés 

pendant les simulations et l’apprentissage : ces comportements observés peuvent-ils être 

comparables à des comportements ‘naturels’ ? Cette approche tentera de montrer qu’il est 

possible de dégager une vision de l’autonomie, compatible avec l’observation biologique, et 

pourtant implantée dans un système dit artificiel. 

1.3 Bibliographie 

[[9]] A. Babloyantz, A. Destexhe. Nonlinear analysis and modelling of cortical activity. Mathematics 

applied to biology and medecine. J. Demongeot, V. Capasso (edts). ISBN 0-920063-63-2. p 35-48 

(1993) 

20 



[[10]] A. Babloyantz, C. Lourenço. Computation with chaos. A paradigm for cortical activity. Proc. Natl. 

Acad. Sci. USA. Vol.91, p.9027. (1994) 

[[17]] Henri Berson. Matière et mémoire. Essai sur la relation du corps à l’esprit. (1896) 

[[40]] Francois Chapeau-Blondeau, Gilbert Chauvet. Stable, Oscillatory, and chaotic regimes in the 

dynamics of small neural networks with delay. Neural Networks, Vol. 5. pp 735-743. (1992) 

[[43]] Francois Chapeau-Blondeau. Analysis of neural networks with chaotic dynamics. Chaos, Solitons 

& Fractals. Vol. 3. No 2. pp 133-139. (1993) 

[[61]] D.C. Dennett. La conscience expliquée. Editions Odile Jacob. (1991) 

[[71]] G.M. Edelman (edelman@wisdom.weizmann.ac.il). Biologie de la conscience. Collection Point. 

Edition Odile Jacob. (1992) 

[[107]] Marc Jeannerod. Le cerveau-machie. Eds. Fayard 

[[162]] M.I. Rabinovich, R. Huerta, H.D.I Arbanel, A.I. Selverson. A minimal model for chaotic bursting 

of the LP neuron in lobster. Submitted to Proc. Natl. Acad. Sci. (1996) 

[[171]] Steven J. Schiff, Kristin Jerger, Duc H. Duong, Taeun Chang, Mark L. Spano, William L. Ditto. 

controlling chaos in the brain. Nature. Vol 370. pp615-620. (1994) 

[[175]] Erwin Schrödinger. L’esprit et la matière. Coll. Seuil. 

[[180]] Christine A. Skarda, Walter J. Freeman (wfreeman@garnet.berkeley.edu). How brains make chaos 

in order to make sense of the world. Behavioral and Brain Sciences. 10. pp 161-195. (1987) 

[[194]] Towards an artificial eye. IEEE Spectrum. p21-69. 0018-9235/96. (1996) 

[[164]] Steve Renals. Chaos in neural networks. Eurasip Workshop, 90-99. (1990) 

[[167]] Bertrand Russel. Histoire de mes idées philosophiques. Coll. tel Gallimard. 

[[205]] F.J. Varela. Autonomie et connaissance. La couleur des idées.Collection Seuil.Edition 1989. 



2. ENCODAGE DYNAMIQUE, MEMOIRE ET CHAOS 


Il est possible de distinguer trois 

phases dans l’évolution de la représentation 

du rôle du cerveau. Une fois le cerveau 

perçu comme siège des idées et de la 

mémoire 6 , il fut tout d’abord associé au lien 

entre l’âme et la pensée : il était réduit à sa 

fonction (phase 1). Puis, les progrès de la 

neurologie avançant, ses fonctions furent 

associées à différentes zones (phase 2) : 

aires du langage, du mouvement, de la 

mémoire. Chacune traite des entrées, pour 

engendrer les sorties adaptées, permettant 

ainsi le développement de modèles 

behavioristes. Aujourd’hui, la description 

qui en est faite descend au niveau des 

neurones, en les assimilant à des 

dynamiques non linéaires qui s’organisent 

pour réaliser une activité cognitive de haut 

niveau (phase 3) [[101]]. De même, notre 

représentation physique du réel descend 

vers des descriptions bas niveau, en tentant 

de synthétiser dans une même description 

les composantes de niveau supérieur. La 

Notre vie psychique n’est rien d’autre qu’une suite de catastrophes entre 

attracteurs de la dynamique constituée des activités stationnaires de nos 

neurones. 

René Thom. Modèles mathématiques de la morphogenèse. 

Figure 2-1 : Modèles de l'encodage cérébral 

L’encodage des percepts peut être vu comme 

l’association à un représentant symbolique (phase 1), 

à la sortie distribuée d’un système (phase 2), ou à la 

nature des objets qui nous entourent a été réduite à des assemblées d’atomes, et leurs propriétés 

6 Un long débat eu lieu pour savoir si l’âme siégeait dans le coeur ou le cerveau. Pour plus de détails sur 

cette période, voir [[37]] J.P. Changeux. L’homme neuronal. Collection Pluriel. Fayard.(1983) 

ENCODAGE DYNAMIQUE, MEMOIRE ET CHAOS 23


perçues par nos sens peuvent être ramenées à des définitions dynamiques : couleur, son, forme, 

odeur, orientation. (2.2.2 L’hypothèse du tout dynamique, p.28) 

La modélisation peut être perçue comme une tentative de rapprochement entre une vision 

du réel et un système conçu pour posséder des propriétés équivalentes, en cherchant uniquement 

à vérifier les propriétés du système modélisé. La modélisation ne consiste pas alors à copier un 

système (nous chercherions dans ce cas à fabriquer un neurone biologique qui existe déjà), mais 

à retrouver des propriétés communes avec celles d’un système différent. Dans le cas où 

certaines propriétés jugées importantes ne sont pas vérifiées, on doit changer de modèle, en 

décrivant parfois le système à un niveau inférieur. 

Ce chapitre utilisera cette vision de la modélisation : descendre assez bas niveau dans la 

description physique du système, pour que le modèle décrit par les lois qui en découlent, vérifie 

l’ensemble des propriétés souhaitées du système modélisé. En accord avec l’idée présentée dans 

le premier chapitre, d’un continuum entre les modèles approchant un système donné, une 

modélisation ne peut être que partiellement satisfaisante, car le modèle parfait est le système 

modélisé. Même un clone n’est qu’une copie approchée du système original, car leurs 

environnements ne sont pas les mêmes, et leurs comportements risquent de s’éloigner l’un de 

l’autre. 

Ainsi, à ce niveau de la thèse, le but fixé est de réaliser une modélisation de l’encodage 

par un système dynamique, grâce à une description du cerveau située au niveau des dynamiques 

cérébrales, et dont les propriétés souhaitées sont quelques unes de la mémoire humaine : 

24 

à capacité de reconnaissance d’information déjà perçue 

à capacité de représentation interne 

à auto-apprentissage d’association de patterns 

à spécialisation d’aires neuronales ou modularité fonctionnelle 

Nous espérons ainsi donner un support de réflexion à la manifestation de ces propriétés 

dans le système réel, en l’inscrivant dans une approche plus métaphorique qu’explicative. 

2.2 Vers un modèle dynamique de la mémoire 

2.2.1 Evolution de l’encodage d’information 

1. Première phase 

Encoder une donnée, c’est lui associer un représentant fixe (un mot, une case 

mémoire, une icône, ou dans le cadre de cette thèse, l’état d’un réseau), la qualité 

statique de cette information étant la garantie de sa conservation au cours du temps, et 

donc de la robustesse de l’encodage. Ainsi, l’évolution très lente de notre langue nous 

permet de lire et de comprendre un livre du XVIII ème siècle sans trop de problème. 

Il s’ensuit que, les idées étant exprimables par des mots et des phrases, ceux-ci peuvent 

devenir les représentants de nos pensées. Cette constatation justifie l’intelligence 

artificielle dite symbolique : il suffit de travailler sur les représentants, de ramener les 

problèmes posés au niveau des concepts, des symboles, pour modéliser la façon dont 



l’homme les traite [[146]]. Ceci peut être considéré comme étant la première phase de la 

modélisation de l’encodage cérébral (cf. Figure 2-2). 

Figure 2-2 : Phases successives de l'encodage 

L’encodage peut être séparé en trois phases. La première consiste à associer un concept à 

un scalaire (phase symbolique), la deuxième distribue l’information sur un vecteur. 

Actuellement, l’utilisation des dynamiques locales ajoute la distribution du vecteur sur 

l’axe temporel. 

Cette vision des choses est confortée par les supports d’information couramment utilisés 

pour encoder notre savoir : livre, bande magnétique, ordinateur, dessin, photographie. 

De plus, cette interprétation est encouragée par le fait que toute suite trop longue de 

signes est elle-même associée à un sur-représentant : un livre porte un titre, une 

symphonie possède un nom, un tableau un titre. Toute l’information traitée peut donc 

être ramenée elle-même à un graphe, appelé réseau sémantique. 

En découle une tentative de modélisation du raisonnement humain, où l’information 

pertinente est encodée par le représentant, où chaque idée est un fait booléen (connu ou 

non-connu), et où l’homme passe d’une idée à l’autre par l’emploi de règles logiques, 

une idée étant d’autant plus complexe qu’elle est éloignée dans l’arbre de connaissance. 

Cette image de représentation de la mémoire humaine par des réseaux sémantiques fut 


26 


confortée par la constatation que l’on met plus de temps à valider une phrase contenant 

des mots de sens éloignés [[46]] 7 . 

Mais ce type de modélisation pose le problème du fait inconnu : les premiers systèmes 

experts se trouvaient bloqués, car il leur manquait un fait ou une règle qui n’avait pas été 

prévu jusque là, et il fallait périodiquement mettre à jour la base de faits et la base de 

règles associée. Il était nécessaire qu’il y ait apprentissage, généralisation, destruction 

de fait, et création de nouveaux. Il s’avérait nécessaire que la logique et les graphes 

utilisés soient dynamiques. 

Autre obstacle, les temps de réponse des systèmes conçus sur ces principes ne 

correspondaient pas à la complexité apparente des taches qu’ils devaient traiter. Ainsi, 

selon ce principe il est plus rapide de calculer un produit de deux nombre de cent 

chiffres, que de reconnaître un visage. Nous pouvons pourtant reconnaître un visage en 

quelques centaines de millisecondes, et il nous faudrait quelques heures pour effectuer 

le produit. Certains résultats en psychologie mirent en évidence l’impossibilité d’une 

axiomatisation formelle des raisonnements humains, par exemple dans le cas du jeu 

d’échec [[94]]. Ces constatations firent conclure en 1980, au sujet des réseaux 

sémantiques, que [[110]] : 

On a inévitablement l’impression que les questions ont été posées dans 

le contexte d’un paradigme de recherche qui, tout simplement, n’était 

pas suffisamment riche pour fournir des réponses définitives. 

Il était donc logique d’enrichir ce modèle et de passer à une seconde phase, en tentant 

de s’approcher un peu plus du système cérébral, ou, tout au moins, de ce que l’on en 

connaît.. 

2. Deuxième phase 

Une idée pour répondre à ce besoin 

croissant de mémoire et à cette 

nécessité d’un apprentissage fut 

amenée par les premiers modèles de 

réseaux de neurones [[53]], qui 

révélèrent un nouveau type 

d’encodage, celui de l’information 

distribuée, que nous appellerons 

encodage vectoriel, par opposition à 

l’encodage de type scalaire de la 

première phase. Un fait n’est plus 

représenté par une case mémoire, 

mais par un ensemble de cases 

mémoire constituant un vecteur, et 

c’est l’organisation globale des valeurs 

enregistrées qui encode l’information. 

Dans de nombreux cas, l’encodage 

était réalisée par l’orientation de ce 

7 Il fut ensuite montré que ces réseaux sémantiques contiennent a priori ces temps de réponse, puisque leur 

concepteur dissocie et organise les éléments selon des critères qui lui sont naturels. 


Figure 2-3 : Décharges neuronales 

La moyenne des activités neuronales encode la 

direction du pointage réalisé par le singe.


vecteur. Cette hypothèse fut d’ailleurs vérifiée biologiquement dans le cadre d’exercices 

de pointage, où les vecteurs des décharges qui précèdent un mouvement du bras vers le 

bas et vers la droite s’orientent dans la même direction (Figure 2-3, d’après A. 

Georgopoulos). 

Ce nouveau type d’encodage représente une deuxième phase, et possède plusieurs 

avantages: 

à Une plus grande finesse de représentation : 

Dans le cas d’un encodage scalaire, il est par exemple possible de mémoriser N faits 

booléens dans N mémoires binaires. Dans le cas d’un encodage vectoriel, il est possible 

d’encoder l’état d’une variable à 2 N états. Ceci ne représente pas un gain en mémoire, 

mais permet de voir un continuum dans la représentation d’une donnée. 

à Robustesse de l’information : 

Un concept étant représenté par un vecteur, une erreur sur l’une de ses composantes ne 

détruit pas toute l’information, et il est possible dans certains cas de retrouver l’information 

bruitée. 

à Notion de flou, d’approximation : 

Comme le nombre d’état d’une variable est plus élevé, et que de plus il est possible de lui 

associer une représentation graphique (sous forme d’hypercube dans le cas de variables 

d’état binaires), la notion de flou devient naturelle : un vecteur pris au hasard dans l’espace 

d’état est plus ou moins proche des vecteurs déjà appris. 

Mais, même dans ce cadre de l’encodage vectoriel, il faut toujours atteindre l’unique 

solution, encodée par un état du système correspondant à un point fixe. Or, la plupart de 

l’information que l’on souhaite traiter est dynamique : reconnaissance d’un son, filtrage, 

contrôle de systèmes dynamiques. L’une des premières idées consiste à procéder à un 

pré-traitement des données dynamiques pour les rendre statiques, en prenant la 

transformée de Fourier d’un signal par exemple, ou en mettant sous forme vectorielle les 

états successifs d’une variable dynamique. 

Les problèmes posés par une telle approche sont de plusieurs types. Tout d’abord, la 

donnée encodée n’étant plus de même nature que la donnée réelle, le filtrage doit 

prédéterminer l’information pertinente. Ceci convient lors d’une approche industrielle du 

problème, où l’on souhaite exclusivement vérifier de façon quantifiable le respect d’une 

propriété requise dans le cahier des charges. Cette même approche ne peut pas être 

respectée dans un travail de modélisation, puisqu’il est souhaité que le modèle partage 

le maximum de propriétés avec le système réel. Il est donc préférable de minimiser a 

priori tout choix prédéterminant l‘information pertinente. Autre problème, l’approche 

connexionniste a souvent justifié ses architectures en comparant ses temps de réponses 

à ceux des systèmes réels : temps de reconnaissance d’un visage, temps de rappel 

d’information, et a négligé l’observation des échecs en rappel ou en reconnaissance des 

systèmes réels : il est possible de ne pas reconnaître un visage connu, ou d’avoir un mot 

`sur le bout de la langue’. Pourtant, ce phénomène est caractéristique des systèmes 

réels, et il n’est pas rare que la solution survienne quand on s’y attend le moins, 

quelques heures après que la question ait été posée. Ceci montre que la solution peut 

subsister dans le système pendant longtemps, et que les temps de réponse de 300ms 

pour une reconnaissance, qui justifièrent l’approche connexionniste, peuvent être à 

l’origine de sa remise en cause. 


28 


3. Troisième phase 

Une troisième approche, qui semble dominante actuellement dans le courant 

connexionniste, est de tenir compte de la qualité dynamique de l’information traitée, en 

descendant de plus en plus bas niveau dans la description du réel. Mais se pose encore 

le problème de l’encodage : comment le système se représente le réel par ses simples 

dynamiques internes ? Plusieurs solutions ont été apportées à ce problème : 

synchronisation, phases de populations neuronales. Nous essaierons de montrer que 

cette question peut être détournée, et qu’il n’est peut-être pas nécessaire de se poser la 

question de la nature de l’encodage. Pour ce faire, nous essaierons de montrer que 

l’impression de mémoire peut être vue exclusivement comme étant un simple effet de 

l’interaction dynamique entre un système et son environnement (Minimisation des 

perturbations induites , p.105). 

Ce nouveau type de description possède une vertu unificatrice entre le système et son 

environnement; vertu qui peut correspondre à l’approche réalisée par la clôture 

opérationnelle [[205]] : le système est clos, mais en interaction permanente avec son 

environnement, en partageant une information de même nature. Le système n’est plus 

en boucle ouverte dans son environnement, interagissant selon le même algorithme 

perception-traitement-action. Il fait partie du système global, chaque partie, le système et 

son complément, étant en rétroaction réciproque 8 . 

En deçà de cette vision philosophique d’une unification des systèmes, le simple fait de 

traiter une information dynamique, et d’assimiler la représentation d’un système à sa 

dynamique, permet de ne pas éliminer a priori certaines des propriétés observables dans 

un système réel. 

Cette description bas niveau se fait sur deux plans : celui du réel, ou monde environnant, 

et celui du modèle connexionniste. Cette idée sera sous-tendue par deux hypothèses, 

celle de l’apprentissage par forçage (5.2 Principes , p.98), et par celle du tout 

dynamique. Il est difficile d’affirmer que cette phase sera la dernière, car beaucoup de 

questions sont encore posées, et de nombreux modèles restent certainement à venir 9 , 

mais cette évolution semble aujourd’hui naturelle dans les recherches sur le 

connexionnisme. Il suffit pour s’en convaincre de voir l’évolution symptomatique prise 

par Hopfield [[98]], qui étudie de nouveaux modèles où l’encodage est réalisé par les 

phases inter-neuronales. 

2.2.2 L’hypothèse du tout dynamique : approche d’un système général 

Cette description en trois phases de l’évolution de l’encodage permet de vérifier que la 

modélisation descend de plus en plus bas dans la description du phénomène à modéliser. 

Aujourd’hui, notre connaissance du monde physique a brisé la vision conceptuelle que nous en 

avions : chaque objet n’est plus une entité indépendante, aux propriétés découlant de sa nature, 

mais la manifestation d’une organisation sous-jacente de molécules : la «vertu dormitive» a été 

remplacée par des propriétés chimiques, dues à l’architecture de la molécule, 

De la même façon, les caractéristiques des objets qui nous entourent seront ramenées au 

premier niveau de description permettant de rendre leur caractère dynamique pertinent : une 

8 Ou, dit d’une façon plus poétique par Paul Valéry : « L’homme pense, donc je suis », dit l’Univers. 



couleur à sa fréquence, un son à son spectre, une image à un signal stationnaire. Il est intéressant 

de remarquer que lorsque l’information ne possède pas de nature dynamique propre, les premiers 

étages de traitement le rendent dynamique : une image fixe est transmise dans le nerf optique par 

des trains de spike, la valeur d’une variable biologique est encodée sous forme de fréquence. Par 

exemple la sensation de température est ramenée à une valeur relative, la rendant dynamique par 

comparaison à une valeur moyenne. 

L’idée de cette thèse est d’imaginer le cerveau en relation directe avec son 

environnement. Il n’y a pas d’intermédiaire que l’on se doit de modéliser (par exemple le langage). 

Il n’y a pas de boite noire, possédant ses entrées et ses sorties. Il n’y a pas de différence 

fondamentale entre les sources d’information sensorielle (vue, ouïe, toucher...) [[168]]. 

L’apprentissage cérébral consiste à organiser les réactions aux percepts de sources différentes, 

empruntant des canaux nerveux différents, mais de même ‘encodage’ dynamique. Nous aurons 

besoin, pour justifier cette approche, de supposer que les stimuli externes peuvent être décrit sous 

une même forme. Cette hypothèse sera celle du ‘tout-dynamique’: 

Il existe un niveau de description où l’effet d’un système sur un autre peut être réduit 

sous forme dynamique. 

Dès lors, notre environnement peut être vu comme un ‘tout dynamique’, permettant 

d’approcher l’idée d’un système général. Selon cette vision, le tout est assimilé à un système 

dynamique, composé de sites (variables d’états), en permanente interaction via des lois 

(fonctions). Dans la suite de cette thèse, et par conformité aux modèles connexionnistes, une 

variable d’état sera assimilée à un site. Un système sera alors conçu comme étant une simple 

sous-partie de ce système général. Ainsi, tout système possède un intérieur, et un extérieur, dont 

les sites seront respectivement conçus comme des variables d’état et des paramètres de contrôle 

(Figure 2-4). L’ensemble de ces paramètres de contrôle, extérieurs au système, sera assimilé à 

l’environnement du système. Selon cette approche : 

L’environnement du système est l’ensemble des sites pouvant modifier la dynamique de 

l’un des sites du système. 

9 De nouvelles architectures apparaissent aujourd’hui, qui descendent beaucoup plus bas niveau dans la 

modélisation du réel. Les ordinateurs quantiques en sont un exemple. 



Ce sera donc l’ensemble 

des sites du système général qui 

peuvent être reliés à l’un des sites 

du système par une succession 

de lois. Dans ce modèle, 

percevoir sera assimilé à ‘être 

perturbé par’ : pour qu’un système 

perçoive la modification d’un site 

extérieur à lui, il est nécessaire 

que ce site l’ait modifié. Par 

définition, l’ensemble des sites qui 

composent un système lui sont 

perceptibles, puisque leurs 

modifications sont 

immédiatement perçues ! Le 

système fait partie de son 

environnement. Ainsi, nous ne 

30 

Figure 2-4 : Le tout dynamique 

Le système percevant est de même nature dynamique que son 

environnement. La perception n’est plus qu’une interaction entre 

l’intérieur et l’extérieur d’un système, sans nécessité d’encodage. 

percevrions du système général que l’environnement qui produit en nous des perturbations 

internes 10 . 

L’ensemble des sites sont en permanente et parallèle co-évolution : chaque site se voit 

modifié par son environnement, et le modifie par son changement. L’aspect dynamique de ce 

système général est essentiel, car, si l’un des sites est statique, il ne pourra en rien modifier 

l’évolution d’un autre site : il sera comme non perçu, immuable, car dans l’incapacité de modifier 

un quelconque système, ou de s’adapter. Selon cette hypothèse, le langage n’est plus une 

description du réel, mais une organisation d’éléments du réel que nous apprenons à associer aux 

sources d’information simultanément perçues : dynamique de l’écriture du mot chat, dynamique 

des sonorités du son CHA, dynamique de la perception de l’image d’un chat, dynamique de son 

miaulement (Figure 2-1, p.23). L’intérêt du langage est de réaliser un partitionnement des 

perceptions que nous avons du monde réel, en associant un nombre fini d’items, et en permettant 

de les faire partager entre les individus, grâce à la mise en commun par l’éducation de ce 

partitionnement. Si, lors de l’apprentissage d’un mot, l’objet nommé n’est pas perçu, il est 

nécessaire de le rappeler en mémoire grâce à la stimulation par un percept déjà associé ( par 

exemple image+mot, son+mot...). 

Cette hypothèse ne postule pas que cette description de notre environnement soit 

suffisante pour expliquer l’ensemble des phénomènes que nous observons, mais son intérêt réside 

dans sa capacité à décrire l’ensemble de notre environnement sous une même forme, et de 

pouvoir relier les phénomènes de mémorisation à cette forme. L’intérêt qui s’ensuit est de pouvoir 

associer l’ensemble de ces stimuli extérieurs, sonores, visuels, olfactifs ou encore proprioceptifs, à 

une dynamique qui modifie les dynamiques internes du système percevant. Cette approche sera 

essentielle pour le modèle développé durant cette thèse (5.2.1 Perturbation par diffusion du 

forçage des dynamiques, p.98), puisqu’elle permet de décrire les phénomènes de mémoire et de 

10 Le modèle décrit ici ne se veut en aucun cas une copie du réel : il s’agit d’une représentation du monde où 

évoluent nos systèmes. Son intérêt est d’offrir un support d’interprétation des propriétés que nous observons 

dans le cadre réel. 



reconnaissance sous la forme d’une activité dynamique cérébrale, et non plus, comme c’était le 

cas dans la première phase de l’encodage, sous la forme de représentants. 

Cette idée n’est pas nouvelle, et fut même abordée par Bergson [[17]] en 1896 : 

2.2.3 Intérêts de l’approche connexionniste 

[Les théories de la reconnaissance] veulent faire sortir toute 

reconnaissance d’un rapprochement entre la perception et le souvenir ; 

mais l’expérience est là, qui témoigne que, le plus souvent, le souvenir 

ne surgit qu’une fois la perception reconnue. Force est donc de rejeter 

dans le cerveau, sous forme de combinaison entre des mouvements ou de 

liaison entre des cellules, ce qu’on avait annoncé d’abord comme une 

association entre des représentations [...]. 

Ainsi, il semble possible de traiter directement le caractère dynamique de l’information, 

mais ce choix ne suffit pas à déterminer le support de cette modélisation. Par chance, un grand 

nombre de modèles similaires ont été développés à ce jour, ce qui permet de rassembler tous ces 

supports possibles sous un seul terme, celui de réseaux de neurones. Nous préférerons 

néanmoins à ce terme qui privilégie l’aspect neuromimétique, le terme équivalent de modèles 

connexionnistes, qui privilégie la caractéristique de distribution de l’information, sans dissimuler sa 

nature de modèle. L’ensemble des recherches réalisées sur ceux-ci nous permet de mettre en 

avant certains intérêts de l’approche connexionniste. 

1. Nature émergente des propriétés du système 

Ce terme d’émergence [[52]][[133]], utilisé très souvent pour signifier qu’un système 

étudié possède des comportements non prévus par son concepteur, a un aspect 

magique. Afin d’éviter une telle interprétation, voici une définition qui semble suffisante 

au propos de cette thèse : 

Est qualifiée d’émergente toute propriété qui n’est pas explicitement contenue dans les 

lois définissant les interactions des sous-parties du système, mais qui est observable a 

posteriori dans le système entier. 

Selon cette définition, la nature décroissante de l’énergie d’un réseau à 

rétropropagation du gradient ne peut pas être définie comme émergente, car la règle 

d’apprentissage a été préétablie à l’échelle du réseau pour l’obtention de cette propriété. 

Par contre, la nature décroissante de l’énergie d’un réseau à apprentissage Hebbien peut 

être considérée comme émergente, car cette propriété ne découle pas de sa recherche 

explicite, mais d’une étude biologique à l’échelle neuronale. 

Ainsi, il est nécessaire pour qu’un système présente des propriétés émergentes, de 

pouvoir le décrire et l’analyser à deux niveaux différents : 

à le niveau de description des lois des sous parties du système 

à le niveau d’observation des propriété du système. 

Ce sera là l’une des contraintes imposées à la description des modèles de cette thèse : 

décrire les lois du système au niveau neuronal, et analyser ensuite les propriétés du 

comportement global des populations neuronales (Chap.7, Dynamiques observées, 

p.143). Par définition, cette notion d’émergence est fort subjective, puisqu’elle dépend 


32 


de la méconnaissance a priori que le concepteur a de son système 11 . Ainsi l’intérêt que 

nous trouvons dans la nature émergente d’une propriété résulte plus d’une certaine 

approche épistémologique que d’une caractéristique véritable de cette propriété. Notre 

méthode consistera donc à observer les propriétés du système a posteriori, en postulant 

que la même méthode doit être appliquée à leur comparaison aux ‘propriétés naturelles’ 

; ceci, en admettant que la plupart de nos comportements sont émergents, car ils 

résultent d’une observation a posteriori, et non d’une loi spécifique à chacun d’entre eux 

[[61]]. 

2. Support d’information distribuée 

Une des notions qui découle de l’utilisation d’un modèle connexionniste est celle de 

distribution de l’information : une information n’est plus encodée par la valeur d’un 

neurone, mais par l’organisation de la population neuronale. Cette modification de la 

nature de l’encodage amène trois éléments principaux, confortant l’approche choisie 

dans cette thèse : 

a. Unification mémoires/organes de traitement 

La comparaison des machines de Turing au système cérébral fit longtemps partie 

des arguments suffisants de l’intelligence artificielle : le cerveau était une machine, 

traitant de l’information externe, grâce à des capteurs, et agissant sur son 

environnement, via des effecteurs. Le cerveau pouvait être assimilé à un organe de 

traitement de l’information. Les modèles connexionnistes remettent en cause ce point 

de vue en rassemblant la partie de traitement et le support de la mémoire dans un 

même système. Ce point de vue, relevé par [[4]], permet de voir l’un des principaux 

avantages du connexionnisme : le neurone est à la fois support et intermédiaire de 

traitement, il est paramètre et fonction. Cette vision s’accorde avec l’idée d’un 

système plongé dans son environnement, selon l’hypothèse du tout dynamique, 

présentée précédemment. 

b. Récupération par le contenu 

Pour retrouver une information enregistrée, l’encodage par représentant scalaire 

fixe nécessite la connaissance de l’emplacement du représentant pour aller lire sa 

valeur (par exemple, contenu de la mémoire 0x6AC4). Dans le cas d’un système 

distribué, il suffit de « décrire ce qui est cherché », pour que le système le retrouve (si 

un apprentissage efficace a été réalisé). Cette constatation courante peut être 

complétée par trois autres qui s’inscrivent dans l’approche utilisée dans cette thèse. 

Premièrement, la « description de ce qui est cherché » peut être vue comme une 

perturbation du système : on modifie ses entrées pour modifier son comportement. 

Cette constatation permet de s’approcher de la notion de clôture du système, qui sera 

abordée lors de la description de notre modèle. En effet, une des voies envisageables 

pour l’apprentissage peut être de chercher à minimiser la perturbation induite par 

l’environnement. 

11 Il suffit ainsi de concevoir un système au hasard, sans rien chercher à connaître a priori, pour pouvoir 

qualifier chacune de ses propriétés d’émergente. 



Deuxièmement, il n’est pas nécessaire de posséder de table d’équivalence entre 

l’objet et son encodage (par exemple la mémoire 0x6AC4 contient la couleur de 

l’objet analysé) : il n’y a pas d’utilisation de code, puisque le système possède une 

réponse de même nature que l’information entrée. Cette idée sera la base de 

l’utilisation du Forçage, ou Teacher Forcing, qui complète la notion précédente de 

clôture du système (Perturbation par diffusion du forçage des dynamiques, p.98). 

Troisièmement, il est possible de voir cette réponse du système comme la 

réalisation d’une association entre la « description de ce qui est cherché », et la sortie 

du système. D’une certaine façon, cet encodage distribué réalise des associations ; il 

sera aussi à la base de notre modèle, la modularisation fonctionnelle observable a 

posteriori n’étant vue que comme le résultat d’associations entre plusieurs entrées 

(Association multimodale des forçages, p.112). 

c. Robustesse du système 

Une caractéristique de la représentation distribuée est sa capacité à conserver la 

validité de l’information mémorisée malgré la destruction progressive du système, ou 

la modification de l’information présentée. Il est donc nécessaire de réaliser une 

association globale entre ces différentes perceptions, robuste à une modification 

interne (destruction synaptique) ou externe (information bruitée) du système, si l’on 

souhaite les associer au même concept. 

Cette robustesse du système est à l’origine d’une contradiction entre les propriétés 

souhaitées : il doit être robuste au bruit, et sensible à de petites variations, car il doit 

parfois classer, dans des concepts éloignés, des percepts proches. Cette 

contradiction est par chance l’une des principales propriétés des attracteurs des 

systèmes chaotiques : ils peuvent posséder de larges bassins d’attraction (robustesse 

à une information bruitée), et être sensibles aux conditions initiales (à de petites 

variations). Cette similitude de propriétés a orienté rapidement cette thèse vers 

l’étude de réseaux à dynamiques chaotiques. 

3. Capacités d’adaptation du système 

S’ajoute à ces capacités d’émergence de comportement et de représentation 

distribuée de l’information, la nature dynamique même des paramètres du modèle 

connexionniste. Contrairement à l’approche symbolique, il n’est plus nécessaire de 

formaliser des méta-règles modifiant les lois du système. L’information étant encodée 

par un comportement, il suffit de modifier ce comportement pour modifier les propriétés 

du système. Dans cette thèse, le système percevant modifie ses dynamiques pour 

chercher à s’adapter à son environnement. Comme nous le verrons par la suite, nous 

chercherons à justifier cette adaptation à l’environnement par les propriétés mnésiques 

du système autonome. 


34 


2.2.4 Intérêts de l’encodage par les dynamiques 

1. Moins d’étapes entre l’objet et son encodage 

Cette notion à été présentée dans l’introduction du chapitre : l’évolution en parallèle 

de la description des modèles connexionnistes et des modèles du monde réel peut nous 

permettre d’envisager un support commun et partagé d’information. 

Il est donc possible d’espérer obtenir une plus grande gamme des propriétés 

observées dans les systèmes naturels, grâce à l’abandon d’une couche intermédiaire de 

traitement entre le réseau et son environnement. Toute couche intermédiaire entre un 

système perceptif et son environnement a pour effet de diminuer la quantité 

d’information transmise. Ce faisant, toute couche intermédiaire appauvrit l’information 

extérieure, et risque donc de faire perdre a priori des données nécessaires au système. 

Ainsi, le choix de descendre à un niveau assez bas, à la fois dans la description du 

modèle connexionniste, et dans celle du réel peut permettre d’avoir un couplage optimal 

entre les deux, en ne décidant pas a priori de l’information pertinente qui doit être 

transmise. 

2. Plus grand nombre de systèmes potentiels 

Les premiers modèles Hopfieldiens [[96]][[97]] qui relancèrent le connexionnisme 

étudient des réseaux où l’encodage est réalisé par les points fixes du réseau, 

correspondant à des minima d’énergie. Afin que les réseaux étudiés convergent vers ces 

points fixes, il est nécessaire d’imposer de fortes contraintes au système 12 . 

La contrainte la plus forte garantissant la convergence du réseau vers un point fixe 

est celle de symétrie des connexions, qui impose que deux neurones soient reliés l’un à 

l’autre par des connexions de même force, soit : 

" i, " jw , = w 

ij ji 

Ou, contrainte moins forte, prouvée par Almeida [[2]] : 

$ a / " i, " j, a w = a w 

i j ij i ji 

La perte de la nécessité de ces contraintes donne accès à un bien plus grand nombre de 

réseaux, dont on ne connaît pas bien encore toutes les propriétés. Le champ 

d’investigation devient donc plus vaste. Malheureusement, hors de ces contraintes, il 

existe peu de théorèmes généraux, ce qui nous contraint à une approche presque 

exclusivement expérimentale. 

3. Meilleur encodage sans couches cachées 

Un autre intérêt de l’encodage par les dynamiques du réseau est d’augmenter la taille 

de l’espace d’état du réseau : ainsi, dans l’exemple ci dessous, la même dynamique d’un 

réseau peut être interprétée de deux façons. La première ne tient compte que de l’état 

final du réseau, tandis que la deuxième utilise plusieurs paramètres de la dynamique 

pour l’encodage. 

12 Une synthèse de ces contraintes peut être trouvée dans [[148]] 



Cette augmentation de la dimension de l’espace d’état du réseau permet non 

seulement d’augmenter la taille de la mémoire disponible dans un même réseau, mais 

aussi d’améliorer les capacités théoriques de cet encodage. De cette façon, l’encodage 

par la dynamique du réseau peut permettre de prendre en considération l’amortissement 

p et la période w de certaines dynamiques (L’utilisation des paramètres des dynamiques 

du système comme support de l’information, grâce à l’augmentation de la dimension de 

l’espace d’état du système, autorise une plus grande capacité d’encodage. 

Figure 2-5). Ce type d’encodage sera envisagé lors de l’étude du rôle possible des 

dynamiques chaotiques (6 Mémorisation par les mesures de l’attracteur, p.57). 

En effet, dans l’exemple classique de l’apprentissage d’une fonction XOR, sa nonséparabilité 

linéaire peut être résolue par l’utilisation d’un plus grand nombre de 

paramètres pour l’encodage de la sortie du réseau. C’est, d’une certaine façon, ce qui est 

réalisé par l’utilisation de couches cachées dans les réseaux feed-forward : il existe des 

paramètres intermédiaires pour le calcul de la sortie du réseau, qui sont cachés dans les 

couches internes du réseau. Dans le cas d’un encodage par les dynamiques, ces 

paramètres sont contenus dans celles-ci, et ils peuvent permettre de segmenter plus 

efficacement l’espace d’état du réseau. Ainsi, l’utilisation d’un réseau encodant 

l’information par ses dynamiques permet d’éviter l’utilisation de couches cachées en 

augmentant le nombre de paramètres pertinents pour l’encodage. 

Figure 2-5 : Meilleure capacité de l'encodage par les dynamiques 

L’utilisation des paramètres des dynamiques du système comme support de l’information, 

grâce à l’augmentation de la dimension de l’espace d’état du système, autorise une plus 

grande capacité d’encodage. 


36 


Cette idée d’utilisation de dynamiques à la place de paramètres cachés se retrouve dans 

le modèle d’Aityan [[1]], qui a obtenu la modélisation d’une fonction XOR dans un réseau 

à une seule couche, grâce à l’utilisation de périodes réfractaires (4.Modèles réfractaires, 

p.67) 

D’une certaine façon. il est possible d’assimiler un réseau feed-forward à N couches 

comme une première approximation d’un réseau dynamique pendant N itérations. Ceci 

est l’approche utilisée dans l’algorithme d’apprentissage BPTT, qui déplie dans le temps 

un réseau récurrent afin d’obtenir son équivalent feed-forward (4.4.2 .Back-propagation 

through time, p.85). 

4. Prise en compte du passé 

Dans un réseau d’architecture feed-forward, une même entrée provoque la même 

sortie, et il y a eu apprentissage d’association entrée-sortie. Ceci représente une grave 

limite à ce type de réseau, car, comme le remarquait Hebb [[88]] : 

If mind is a brain process [...] we could not hear the clock strike twelve; 

the brain gets the same message twelve times, so, if that is all there is, 

what one would hear is the clock striking one over and over again [...] 

Ainsi, le fait d’associer une entrée à une sortie, comme cela est réalisé dans la plupart 

des modèles connexionnistes actuels à architecture feed-forward, ne permet pas de 

différencier le même événement qui se succède, car la nouvelle entrée efface l’état du 

réseau. Ceci représente une limite sur plusieurs plans. 

Sur un plan architectural : les réseaux qui cherchent uniquement à réaliser des 

associations entrée-sortie ne sont pas à même de pouvoir compter la répétition 

temporelle d’un même événement. Ce type de remarque permettra d’éliminer la plupart 

des architectures à couches non récurrentes (2 Architectures récurrentes, p.71). 

Sur le plan comportemental : dans un réseau feed-forward, toute nouvelle entrée efface 

l’ensemble des activités précédentes des neurones. Dans des réseaux dynamiques, la 

prise en compte du passé est naturelle, et peut permettre l’interprétation de l’état du 

réseau en termes de trajectoire [[219]], d’attracteur [[180]] ou encore de réverbération 

[[4]]. En effet, l’information extérieure vient s’ajouter à la dynamique du réseau, à son 

histoire. L’état du réseau à chaque instant dépend donc de son passé, et des 

modifications dues à l’extérieur. 

Ainsi, un tel réseau peut posséder la capacité d’énumérer le même événement, car il n’y 

a pas de raison qui fasse que la dynamique au douzième coup d’horloge soit la même 

que celle du premier ou deuxième coup. 

5. De nouveaux supports pour l’information 

Malgré l’introduction de la notion de réseau uni à son environnement (p.28), se pose 

toujours le problème du critère de reconnaissance : comment peut-on savoir que le 

réseau a reconnu l’objet qu’on lui présentait ? L’idéal fonctionnaliste serait que l’objet soit 

nommé par le réseau grâce à un apprentissage associationniste, sans ce soucier de sa 

mécanique interne : sa réussite dans les tâches présentées serait le garant de son 

efficacité. Nous retrouverions là l’idée initiale de cette thèse consistant à valider un 



modèle par la stricte et unique observation de ses propriétés observables ou 

émergentes. 

Mais, afin de pouvoir réaliser cette modélisation, il est nécessaire de comprendre les 

mécanismes inhérents au phénomène de reconnaissance. Il faut donc que l’étage que 

nous avions éliminé entre la perception et le réseau grâce à l’hypothèse du tout 

dynamique, nous l’utilisions entre le réel et le réseau. Il nous faut donc une fonction 

booléenne de l’état du réseau qui puisse affirmer que l’objet a été reconnu, quitte à 

perdre par cette sur-couche la possibilité d’observer certaines propriétés internes du 

système. 

L’ajout du temps dans l’encodage de l’information donne accès à de nombreux outils 

mathématiques et à de nouvelles interprétations du support de l’encodage dans le 

réseau. Plusieurs approches d’observation et de quantification de l’état de 

reconnaissance du réseau sont alors envisageables à ce niveau de la thèse : 

à Synchronisme du réseau 

Dans ce type d’encodage, 

l’information est portée par 

le synchronisme de la 

totalité du réseau; l’objet a 

été reconnu si les neurones 

du réseau sont tous en 

phase. Ce type de réseau 

possède malheureusement 

une très faible capacité 

cognitive, puisque le réseau 

ne possède que deux états : 

reconnu ou non-reconnu. Ce 

type de réseau ne sait 

effectuer qu’une seul tâche 

pour un ensemble de 

percepts donné. 

à Déphasage neuronaux 

Cet encodage est une 

généralisation du 

précédent, permettant 

d’augmenter de nombre de 

percepts représentés : 

chaque configuration de 

déphasage du réseau 

représente un état. Il s’agit 

là de l’approche 

récemment développée 

par Hopfield [[98]], et qui 

lui permet de justifier les 

propriétés d’invariance par 

homothétie, translation, ou 

rotation, puisque ces 

transformations ne 

modifient pas le paysage 

de phase du réseau. 

à Phase de populations neuronales 

Figure 2-6 : Encodage par les synchronismes 

Figure 2-7 : Encodage par les déphasages 


38 


Ici, c’est la géométrie des 

populations de neurones qui 

vérifient l’une des propriétés 

précédentes qui encode 

l’information. Ce type 

d’encodage est le plus riche, 

et semble être le plus proche 

des connaissances neurophysiologiques 

actuelles, 

puisqu’il permet naturellement 

de définir des notions de 

modularité dans le réseau, et 

même de mobilité de ces 

modules. Le problème est que 

ce type d’encodage se fait en 

segmentant un espace d’état 

comportant des variables 

spatiales et temporelles, de 

Figure 2-8 : Encodage par les populations 

grande dimension. Il est ainsi difficile de savoir précisément dans quel état est le réseau. 

Nous privilégierons cette troisième approche de l’encodage, qui semble actuellement la 

plus en accord avec les données neurophysiologiques actuelles. En effet, il a été montré 

récemment que les synchronismes observés dans les premiers étages visuels lors de la 

perception de bandes inclinées, sont regroupés par populations qui vérifient une 

géométrie précise dépendant de l’inclinaison perçue [[212]]. De plus, les images 

fonctionnelles cérébrales (PET-scanner, MEG, etc...) peuvent être interprétées en terme 

de synchronisation : sans activité cérébrale, les dynamiques individuelles des neurones 

sont désynchronisées, engendrant ainsi une activité globale moyenne stable et faible. En 

effet, tout comme la somme de deux sinusoïdes est nulle, si celles-ci sont déphasées de 

p 

2 , la moyenne des activités neuronales est atténuée, car les activités neuronales 

individuelles s’annulent les unes les autres. Mais, tout comme la somme de deux 

sinusoïdes est maximale pour un déphasage nul, l’activité globale d’une population 

neuronale est maximale lorsque les activités individuelles sont en phase. De cette façon 

apparaissent des pics d’activité, par rapport aux zones désynchronisées, dans les 

régions de populations neuronales synchronisées. Ainsi, les images fonctionnelles 

cérébrales indiquent les populations neuronales synchronisées, validant ainsi l’hypothèse 

d’une activité mentale fondée sur les synchronismes de populations neuronales. Cela 

conduit à dire que les activités isophases sont synchronisées, et les activités 

isofréquences sont synchronisables. Ceci nous a poussé à étudier dans nos modèles à la 

fois les paysages d’isofréquence (Figure 7-4, p.148) et d’isophase (Figure 7-14, p.158). 

Comme nous le verrons dans les paragraphes à venir, le ‘grand nombre’ d’isofréquences 

dans les dynamiques chaotiques permet une bonne ‘synchronisabilité’ potentielle de 

populations neuronales. 

2.2.5 Des dynamiques au chaos 

Lors du développement de nos modèles, nous avons été rapidement confrontés à des 

dynamiques chaotiques (Chap.7, Dynamiques observées, p.143) : fallait-il les éliminer en les 

considérant nuisible pour notre étude, car l’encodage par les synchronismes décrit précédemment 

deviennent plus délicats, ou au contraire fallait-il tenter de les utiliser ? Plusieurs arguments nous 

poussèrent à les conserver. Tout d’abord, leur caractère émergent. Selon la définition donnée, les 

propriétés des dynamiques chaotiques peuvent être considérées comme émergentes, puisque la 

sensibilité aux conditions initiales, l’aspect attractif, ne sont pas explicitement contenus dans les 



équations du système. De plus, ces dynamiques possèdent par nature les propriétés de 

robustesse et de sensibilité qui sont caractéristiques de la mémoire, rendant naturelle l’idée de 

décrire les phénomènes observés en termes d’attracteurs. Afin de mieux présenter les orientations 

de cette thèse, nous exposerons donc brièvement les caractéristiques des dynamiques 

chaotiques, et leur intérêt dans l’approche connexionniste. Non pas en postulant que le chaos est 

la mémoire du système, mais en utilisant le chaos comme support descriptif commun à nos 

réseaux et au fonctionnement cérébral 13 . Puis, nous synthétiserons les nouveaux types 

d’encodage de l’information que permettent ces dynamiques. Un des premiers systèmes où le 

chaos a été mis en évidence, a été découvert par Lorenz en 1960, l’attracteur de Lorenz (Figure 2- 

9) étant depuis représenté dans la quasi-totalité des ouvrages du domaine. Sa définition est 

simple, et correspond au système dynamique : 

{ Xt (), Yt (), Zt ()} avec 

ìdX 

ï 

= PrY . . - PrX .. 

dt 

ï 

ïdY 

í =- X. Z + r. X -Y 

ïdt 

ïdZ 

= X. Y -bZ 

î 

ïdt 

Pour certaines valeurs de P,r et b, ce système possède un comportement chaotique. Les 

raisons du succès de cet attracteur sont probablement visuelles, car il offre une représentation 

claire de la plupart des propriétés qui caractérisent les dynamiques chaotiques. Tout d’abord, ce 

système possède trois variables d’état et peut donc facilement être visualisé. De plus, l’objet 

obtenu permet de voir immédiatement la nature dynamique de l’attracteur, en suivant les 

trajectoires du système dans l’espace d’état. 

13 Ainsi, cette approche ne signifie pas que le chaos est le support naturel de la mémoire, mais que, comme 

le confirment de nombreuses études récentes, la non-linéarité neuronale, le grand nombres de neurones 

(plus de cent milliards), leur couplage synaptique dense (de 1000 à 10000 connexions par neurone), rendent 

plus que probable la nature chaotique du fonctionnement cérébral. Nous ne prendrons donc pas ici la théorie 

du chaos comme explicative, mais comme descriptive des phénomènes observés dans la mémoire. 


40 


D’autre 

Figure 2-9 : L'attracteur de Lorenz 

Les états successifs {X,Y,Z} du système de Lorenz sont représentés dans leur espace 

part, la nature d’état, et permettent de visualiser l’attracteur du système. Le zoom montre que deux 

bimodale de trajectoires proches peuvent bifurquer, illustrant ainsi la sensibilité qux conditions 

l’attracteur est initiales de ce système. 

caractéristique, et permet de bien visualiser que le système fait des sauts d’une boucle à l’autre, 

de façon qui semble imprédictible. Autre intérêt de cet objet, il contient clairement la cause de son 

instabilité apparente : les trajectoires peuvent être aussi proches que l’on veut, puis se séparer au 

bout d’un certain temps (zoom de la Figure 2-9). En dernier lieu, ce système est simple, ne faisant 

appel qu’à des opérations classiques d’addition et de multiplication, ce qui ajoute encore à son 

efficacité. Il permet ainsi de conceptualiser ce continuum entre système prédictibles, systèmes 

non prédictibles, et systèmes aléatoires. 

Ainsi, le système de Lorenz permet de se représenter simplement la plupart des 

propriétés caractéristiques des dynamiques chaotiques. Utilisons-le pour mettre en avant les 

avantages que représentent ces dynamiques pour leur usage dans les modèles connexionnistes, 

et comme source d’inspiration pour de nouveaux supports de l’encodage. 

1. Utilisation d’attracteurs 

La notion d’attracteur est liée au connexionisme depuis les premiers modèles de 

Hopfield : l’évolution du réseau conduit celui-ci vers des points fixes, et le paysage des 

bassins d’attraction représente d’une certaine façon la mémoire du système. De cette 

façon, chaque input (état initial du réseau) est associé à un concept fixe (état final du 

réseau). 



Figure 2-10 : Visualisation de l'aspect attractif 

En lachant le système de Lorenz pour des valeurs {X(0),Y(0),Z(0)} situées dans le 

bassin d’attractions, l’état du système finit par rejoindre l’attracteur. 

De la même façon, si l’état initial d’un système à dynamique chaotique est éloigné de 

son attracteur, les variables d’état de ce système convergent vers lui : on peut ainsi voir 

sur la Figure 2-10 l’évolution de quatre conditions initiales différentes, toutes situées 

dans le bassin d’attraction de l’attracteur de Lorenz. Les quatre trajectoires convergent 

vers le même attracteur, et finissent toutes par évoluer sur cet attracteur. De façon 

simple, il est possible d’associer ce phénomène à celui de la reconnaissance : le 

système converge vers le concept reconnu lorsque le percept se situe dans son bassin 

d’attraction. La propriété d’attraction des dynamiques chaotiques entretient cette 

interprétation des dynamiques du réseau. De cette façon, il est possible d’obtenir des 

concepts hybrides : l’image d’un éléphant, dont on diminuerait la longueur de la trompe, 

et dont on raccourcirait la queue, peut être modifiée en celle d’un cochon. Ces 

modifications correspondent à un déplacement des variables d’état de l’image perçue, et 

permet au système de sortir du premier bassin d’attraction (éléphant), pour basculer 

dans le second (cochon), A un niveau intermédiaire entre ces deux états, qui correspond 

à la frontière des bassins d’attraction, se produit un ‘basculement sémantique’ de 

l’interprétation de l’image perçue. Ainsi, une première idée peut être de réaliser une 

association percept-attracteur : il y aurait un attracteur distinct pour chaque classe de 

percept à reconnaître, et les frontières délimitant les bassins d’attractions 

correspondraient aux limites des concepts évoqués. D’une certaine façon, il s’agit d’une 

prolongation de l’idée de neurone spécifique : il y aurait un attracteur-banane, ou un 

attracteur-grand-mère. 

2. Sensibilité aux conditions initiales 


42 


L’utilisation du chaos comme 

principe descriptif de la mémoire 

humaine, peut permettre de 

concilier les idées de 

déterminisme et d’autonomie, 

souvent consi-dérées comme 

contradictoires. En effet, comme 

le décrit Russel, à un instant 

donné, l’environnement réel de 

deux systèmes percevants autonomes 

différents est différent. 

Donc, si nous supposons que cet 

environnement est assimilable 

aux conditions initiales du 

système, les deux systèmes 

peuvent avoir une évolution 

[...] les choses dont je peux me souvenir me sont arrivées, à moi. [...]. 

On pourrait objecter que deux personnes peuvent se rappeler le même 

événement, mais ce serait une erreur : deux personnes ne voient jamais 

exactement la même chose, à cause des différences entre leurs positions. 


Bertrand Russell. Science et Religion. p.103 

Figure 2-11 : Sensibilité aux conditions initiales 

Pour deux conditions initiales proches, les états finissent 

par se séparer, tout en restant sur l’attracteur du 

système. 

propre, dépendante de leur état du moment. Cette dépendance du comportement du 

système à son état initial, à sa nature au moment de l’observation, le fait apparaître 

comme autonome pour tout autre système l’observant, car semblant non prédictible. 

Sur un plan plus pratique, cette sensibilité aux conditions initiales autorise une 

segmentation du paysage perceptif aussi fine que souhaitée, puisqu’à deux conditions 

initiales infiniment proches peuvent correspondre deux dynamiques différentes dans le 

réseau. Ceci peut être réalisé dans le cas où ce n’est plus l’attracteur global qui encode 

l’information (un attracteur par concept associé), mais sa dynamique interne. Dans ce 

cas, chaque attracteur encoderait plusieurs concepts, chaque dynamique pour une 

condition initiale donnée encodant la réponse du réseau à cette entrée.


3. Robustesse au bruit et synchronisation de la dynamique globale 

Malgré cet aspect imprédictible 

des dynamiques chaotiques (bien 

que déterministes), les attracteurs 

de ces dynamiques possèdent de 

bonnes capacités de robustesse 

au bruit. Si la dynamique d’une 

des variables d’état semble non 

prédictible, la géométrie de 

l’attracteur suivi par la dynamique 

des variables d’état du système 

montre une remarquable 

régularité, quelle que soit la 

condition initiale du système. 

Ainsi, un système chaotique 

possède ces deux propriétés 

quasi-contradictoires de sensibilité 

locale (à l’échelle de la 

trajectoire), et de grande 

robustesse globale ( à l’échelle de 

l’attracteur). Cette robustesse 

globale peut être mise à profit 

dans la reconnaissance 

d’information bruitée par des 

mémoires adressables par le 

contenu. Si l’on présente au 

réseau une entrée bruitée, le 

Figure 2-12 : Synchronisation d'oscillateurs couplés 

L’ajoût d’une composante aléatoire dans les 

paramètres du système d’oscillateurs couplés fait 

apparaître des synchronisations, et une périodicité 

des dynamiques locales (deux dernières lignes). 

Pourtant, lorsque les paramètres sont identiques, 

des régimes chaotiques étaient apparus (deux 

premières lignes). 

réseau convergera vers le même attracteur que si l’entrée présentée était non bruitée, à 

condition que ces deux entrées appartiennent au bassin d’attraction du même attracteur. 

Autre phénomène surprenant dans ces systèmes : le bruit peut favoriser le synchronisme 

du système. L’expérience [[24]], réalisée sur un réseau de 128x128 oscillateurs couplés, 

consiste à observer l’évolution des vitesses angulaires des oscillateurs, pour différentes 

configurations des paramètres du réseau. Chaque oscillateur est couplé à ses quatre 

plus proches voisins, et suit une loi du type : 

( ) 

ml 

2&& q += gq& - mgl sinq + t¢+ tsinwt+ k q -q 

n i i i i j i 

j 

Dans le cas où l’ensemble des oscillateurs possède les mêmes paramètres, et est donc 

parfaitement isotrope, le réseau peut entretenir des dynamiques chaotiques (engendrées 

par des conditions initiales aléatoires), qui se propagent dans le réseau. Par contre, si la 

longueur de tiges oscillantes (variables li de l’équation précédente) devient une variable 

aléatoire, le réseau peut converger vers des comportements périodiques. Ce résultat est 

synthétisé sur la Figure 2-12, où l’on peut voir, en haut, l’évolution des états des 

oscillateurs couplés dans un réseau où tous les oscillateurs sont les mêmes, et en bas, 

l’évolution d’un réseau où la longueur l des tiges oscillantes varie d’une tige à l’autre 

entre plus et moins 20%. Aucune période n’apparaît dans les deux premières lignes du 

haut. Par contre, les deux lignes du bas sont parfaitement similaires, démontrant ainsi 

ENCODAGE DYNAMIQUE, MEMOIRE ET CHAOS 43 

å

44 


qu’il existe un comportement périodique de l’ensemble du réseau : le réseau est donc 

synchronisé. Ceci montre que, curieusement, la variabilité neuronale peut être une 

source de synchronisation pour nos réseaux, et que des synchronismes peuvent 

émerger, sans être contenus de façon explicite dans les lois du système. Cette 

constatation va dans le sens où les synchronismes peuvent émerger dans des réseaux 

d’une grande complexité dynamique, possédant de nombreux paramètres individuels, 

semblables aux réseaux de neurones biologiques. Ainsi, dynamiques complexes et 

synchronisation de populations neuronales peuvent ne pas être incompatibles. 

4. Spectre à support dense 

Une autre propriété du chaos, qui 

peut être avantageuse pour notre 

propos, est que le spectre de Fourier 

d’une dynamique chaotique possède 

une bande continue de fréquences non 

nulles 14 . Cette caractéristique peut être 

intéressante pour la recherche de 

synchronisme dans le réseau, puisqu’un 

plus grand nombre de fréquences sont 

présentes dans le paysage dynamique 

du réseau. De cette façon, le réseau 

maximise ses chances d’avoir des 

isofréquences entre neurones, 

augmentant donc ses chances d’avoir 

des fréquences synchronisables. On 

retrouve l’idée, présentée dans le 

paragraphe précédent, qu’un réseau de grande complexité dynamique peut posséder de 

fortes capacités de synchronisation locale. 

5. Synchronisation par perturbation 

Dans le cas où plusieurs neurones évoluent sur un même attracteur, il est possible de 

les synchroniser. Cette propriété peut être à l’origine des mécanismes de mémorisation 

dans un modèle connexionniste à dynamique chaotique, où l’information est encodée par 

le synchronisme des dynamiques du réseau. En effet, si l’on perturbe un système par un 

signal additif ajouté à un instant donné aux variables d’état du système, éloignant cellesci 

de leur attracteur, elles peuvent se resynchroniser pendant un certain temps en 

décrivant en parallèle les mêmes trajectoires de l’attracteur. En effet, vu de l’attracteur, 

l’angle solide contenant les points translatés par la perturbation, supposée instantanée, 

peut être considéré comme assez petit, si cette perturbation est suffisamment 

importante, tout en laissant les points perturbés à l’intérieur du bassin. Les points 

reviennent alors vers l’attracteur, en restant groupé dans le cône de cet angle solide 

(cf.Figure 2-14). Caractéristique des systèmes attractifs, la synchronisation par 

perturbation du système à l’avantage de concilier deux des hypothèses de cette thèse : 

l’encodage par synchronisation, et l’assimilation de la perception de l’environnement à 

14 où, dans un langage scientifiquement plus exact, que le spectre est sur un support de mesure de Lebesgue 

non nul, partout dense dans un ensemble connexe 


Figure 2-13 : FFT du X(t) du système de Lorenz 

Les transformée de Fourier de la dynamique de 

Lorenz est dense, et possède donc un grand 

nombre de composantes fréquentielles, autorisant 

ainsi un plus grand nombre de synchronisations 

potentielles.


une perturbation. Il est en effet envisageable d’assimiler l’information extérieure à un 

signal additif sur les dynamiques neuronales. Cette propriété peut être observée dans le 

système de Lorenz (Figure 2-15). A un instant donné, nous ajoutons 100 aux variables 

Y1(t),Y2(t),Y3(t) de trois systèmes de Lorenz naturellement désynchronisés à cause de leur 

sensibilité aux conditions initiales. 

Figure 2-14 : Resynchronisation par perturbation 

En perturbant par un signal additif plusieurs dynamique chaotiques désynchronisées, 

toutes sur le même attracteur, tout en restant dans le bassin d’attraction du système,les 

différentes dynamiques re resynchronisent l’espace d’un moment, en rejoignant 

l’attracteur. 

De cette façon, les {Xi(t),Yi(t),Zi(t)} se retrouvent éloignés de l’attracteur initial, mais tous 

situés dans une même région. L’évolution ultérieure du système montre que les points 

{Xi(t),Yi(t),Zi(t)} restent groupés dans un volume de plus en plus petit. Cela leur permet 

d’entrer presque au même point dans l’attracteur, et de rester synchronisés sur quelques 

périodes. Le tracé des trajectoires Xi(t),Yi(t) et Zi(t) montre de façon encore plus claire 

que le synchronisme apparaît pendant presque deux périodes (Figure 2-16) Ici, le 

caractère chaotique de la dynamique nous sert de source de déphasage. En effet, dans 

un système non chaotique, attractif, possédant le même cycle limite pour toutes les 

trajectoires, les trajectoires restent synchronisées après perturbation. Tandis que, dans le 

cas d’un système chaotique, la sensibilité aux conditions initiales permet au système de 

se désynchroniser, et donc, d’une certaine façon, de perdre la mémoire de la 

perturbation externe au bout d’un certain temps. Le même phénomène peut être observé 

dans les mécanismes de la mémoire naturelle : notre mémoire ne reste pas figée dans 

l’état de la dernière perception reconnue, celui-ci s’évanouissant peu à peu. Ainsi, dans 

le cadre d’un encodage porté par le synchronisme des populations neuronales, les 

systèmes dynamiques chaotiques peuvent permettre de comprendre la fugacité des 

images mentales. Cette interprétation est encourageante pour l’utilisation des 

synchronismes neuronaux dans un modèle connexionniste, et permet d’expliquer la 

différence existant entre la persévérance, qui est physiologique, et la persévération des 

images mentales, qui est pathologique. Cette interprétation sera une de celles présentés 


46 


lors de l’étude du rôle possible du chaos dans la mémoire (Source de ‘dépersévération’ 

pour le système, p.53). 

Malhe 

ureus 

ement 

, cette 

illustration du synchronisme par 

perturbation nécessite que l’ensemble des 

systèmes perturbés possède le même 

attracteur final. Donc, il est nécessaire que 

tous les neurones d’une même population 

aient le même attracteur afin de pouvoir se 

synchroniser sur celui-ci. 

Cette approche peut donc être applicable 

dans le cadre des modèles connexionistes 

à oscillateurs couplés, car chaque neurone 

oscille sur le même cycle limite. 

Or, dans le cadre des réseaux étudiés ici, il 

n’est pas rare de voir des neurones proches 

posséder des attracteurs différents 

(Chapitre 7, Dynamiques observées, p.143 

et Figure 7-2, p.146), ce qui nous limite 

dans cette interprétation, et nous empêche 

de l’utiliser comme source d’inspiration pour 

le développement de règles 

d’apprentissage. 


Figure 2-15 : Perturbation du système de Lorenz 

Dans le cas du système de Lorenz, l’ajoût d’une perturbation ponctuelle resynchronise 

trois dynamiques au départ désynchronisées. Elles rejoignent l’attracteur en étant 

proches les unes des autres. 

Figure 2-16 : Synchronisation des dynamiques


6. Atténuation de la fonction d’autocorrélation 

Cette atténuation progressive de l’organisation du système peut aussi être analysée 

en regard d’une autre propriété des systèmes chaotiques, qui découle de leur spectre de 

fréquence continu. En effet, la fonction d’autocorrélation d’un signal est définie par : 

1 t2 

C( t ) = X( t). X( t + t ) = X( t). X( t + t ). dt 

t - t òt1 

2 1 

et il est possible de montrer que C( t ) , qui représente la similarité de X ( t) 

et de 

X ( t + t ) , est égal à la transformée de Fourier du spectre de puissance de X(t) 

(théorème de Wiener-Kintchine). Or, dans un régime chaotique où le spectre de 

puissance comporte une partie continue, C( t ) tend généralement vers 0 quand 

t augmente. La fonction d’autocorrélation a donc une portée finie, ce qui montre que la 

similitude du signal avec lui même s’estompe avec le temps : il y a ‘oubli’ de 

l’organisation initiale, par perte progressive de sa similitude interne. Ceci est une autre 

façon d’interpréter les désynchronisations progressives de plusieurs dynamiques 

évoluant sur un même attracteur, évitant les phénomènes de persévération dans un 

système réalisant un encodage par synchronisme. 

7. Nature émergente des propriétés du chaos 

Selon la définition précédemment donnée dans cette thèse, la nature chaotique de la 

dynamique d’un système peut être assimilée à une propriété émergente. Dans le cas du 

système de Lorenz, il est clair que Lorenz ne cherchait pas a priori à observer dans son 

système une sensibilité aux conditions initiales, ni l’attraction de l’état du système vers 

un attracteur fractal. Il souhaitait au départ obtenir un modèle météorologique simple. 

Ces propriétés ne sont pas contenues dans les lois du système : celui-ci ne contient pas 

d’équation tendant à minimiser la distance des variables d’état du système à leur 

attracteur. D’autre part, il n’y a pas une non-linéarité forte portant sur les valeurs initiales 

des variables d’état du système. De plus, ces propriétés sont bien observées a 

posteriori : il faut attendre un certain temps avant de voir les dynamiques diverger, pour 

dessiner finalement l’attracteur. 

Cette simple constatation permet de voir une sorte de parallèle entre les propriétés des 

attracteurs de systèmes dynamiques chaotiques, et les propriétés que l’on souhaite faire 

émerger dans nos systèmes. En effet, les capacités de mémoire ne correspondent pas à 

une loi du système (mettre valeur de la variable dans la mémoire 0x3AC4), mais à une 

propriété émergente observable (certaines populations neuronales sont synchronisées à 

la présentation de ce percept), qui provoque des comportements, des réponses, associés 

(Marignan ? 1515 !) 

2.3 Mémoires à dynamiques chaotiques 

Comme nous l’avons vu auparavant, l’utilisation de dynamiques chaotiques peut être 

assimilé à une évolution normale du connexionnisme car il associe dans un même système la 

description bas niveau de l’information traitée, la robustesse, la sensibilité, et la recherche de 



comportements émergents. La vision de notre monde étant devenue parfaitement non linéaire, 

faite de désordre, d’imprédictibilité, il est compréhensible que les modèles développés le 

deviennent aussi, attirant de nombreux chercheurs vers des interprétations ‘chaotiques’. Ce 

caractère ‘attractif’ du chaos, ayant permis d’attirer à lui nombre de chercheurs depuis plusieurs 

années, a aujourd’hui l’avantage d’identifier un domaine d’interaction commun pour les acteurs 

des sciences cognitives. 

De nombreuses études tentent de justifier biologiquement cette approche, en calculant les 

dimensions fractales de la dynamique des neurones biologiques [[9]][[188]]. Après une période 

d’enthousiasme, la validité de cette approche est actuellement remise en cause [[140]] : les faibles 

valeurs des dimensions obtenues (de l’ordre de 10), seraient dues essentiellement à la faiblesse 

des outils mathématiques utilisés 15 . Ainsi, savoir si les dynamiques neuronales sont des chaos 

déterministes de basse dimension est donc encore un problème ouvert. Mais la plupart de ces 

études critiques ne nient pas l’existence d’un chaos neuronal : elles remettent en cause l’idée d’un 

chaos de basse dimension, mesurable et quantifiable, et support exclusif du moi-neuronal. 

Une autre idée limite encore cette possibilité de mesure du chaos neuronal : la mesure de 

la complexité d’un système perturbé par son environnement contient à la fois une mesure portant 

sur le système, et une autre portant sur l’environnement du système 16 . Cette idée, développée 

dans [[117]], limite encore la possibilité d’une quantification exacte de la dimension fractale de la 

dynamique des neurones biologiques, car ceux-ci perçoivent en permanence leur environnement, 

ceci étant d’autant plus vrai que la plupart des mesures réalisées se situent dans des aires 

participant à la perception. Il est possible de penser qu’un cerveau, coupé d’absolument toute 

perception extérieure, en environnement constant, se stabiliserait sur un attracteur de basse 

dimension, voire même un cycle limite, confirmant ainsi de façon un peu brutale l’idée d’un chaos 

de basse dimension ! 

Malgré le fait que la réponse à ce débat ne soit pas encore connue, la plupart des 

chercheurs s’accordent à penser qu’un système tel que celui du cerveau possède de grandes 

chances de posséder un comportement chaotique : il y a en effet peu de chances pour qu’un 

système de plusieurs centaines de milliards d’équations non-linéaires, couplées par groupes de 

plusieurs milliers, ne possède pas de propriétés caractéristiques des systèmes chaotiques, 

observables dans des systèmes de trois équations couplées. 

Nous conclurons donc que les systèmes chaotiques peuvent être un support descriptif de 

certains phénomènes observés dans la mémoire humaine, et peuvent même avoir valeur 

explicative. Nous utiliserons donc davantage le chaos comme un nouveau type de support 

d’information dans les modèles connexionnistes, en supposant qu’ainsi le réseau se rapproche de 

son modèle biologique, mais en aucun cas nous ne supposerons que le chaos puisse être une 

propriété suffisante caractérisant un cerveau biologique . Nous restreignons le rôle du chaos à 

celui de source d’enrichissement des modèles développés, comme c’est le cas dans des 

domaines de plus en plus nombreux (astrophysique, sociologie, psychiatrie...) 

15 Un phénomène symptomatique de la remise en cause de cette approche est la réécriture récente de 

l’article de Theiler ([[188]] corrigé par [[189]]), remettant en cause ses premiers résultats, qui participèrent 

à l’idée d’un chaos cérébral de basse dimension. 

16 De façon imagée, le même principe peut s’appliquer à la détermination des lois de rebond d’une balle. Si 

on lance celle-ci dans une pièce, le tracé de sa trajectoire donnera plus que les lois de rebond de la balle : il 

sera possible de tracer, dans de bonnes conditions d’expérience, une partie de la géométrie de la pièce où la 

balle a été lancée. 

48 



Dès lors, ces limites posées, reste à savoir quels supports d’informations sont 

envisageables dans ces systèmes ‘enrichis’. Comme nous l’avons rapidement exposé dans le 

paragraphe précédent concernant l’encodage dynamique (5 De nouveaux supports pour 

l’information, p.36), cet encodage peut être considéré comme global (attracteur), ou temporel et 

local (dynamique), ou temporel et spatial (dynamique de population). Nous tenterons de 

rassembler dans cette partie les nouveaux types d’encodages envisageables dans des 

dynamiques chaotiques. Mais dans un premier temps, et afin de clarifier ces encodages, il est 

nécessaire de recenser les paramètres de ces dynamiques, afin de savoir lesquels vont porter 

l’encodage. 

2.3.1 Paramètres des dynamiques chaotiques 

Ainsi, afin d’exposer plus clairement les différents modèles de mémoires 

connexionnistes à dynamique chaotique développés à ce jour, nous passerons en revue dans 

cette partie les différentes mesures des attracteurs, chaotiques ou non, qui peuvent contenir une 

forme de l’encodage. Ainsi, certaines approches [[9]] voient dans la dimension de l’attracteur une 

mesure représentative de l’état mental : sommeil, veille, crise épileptique. Certaines voient dans 

l’apprentissage une maximisation de l’entropie de sortie des neurones [[42]]. Nous tenterons si 

possible, de synthétiser l’ensemble des modèles qui semblent biologiquement plausible, dans un 

unique principe d’encodage, qui sera succinctement présenté à la fin de ce chapitre, et développé 

dans un chapitre spécifique. 

1. Dimension Fractale 

Afin qu’un système 

dynamique à temps continu 

possède les propriétés 

d’attraction et de sensibilité aux 

conditions initiales, il est 

nécessaire qu’il vérifie 

différentes propriétés. Tout 

d’abord, pour que ce système 

possède une sensibilité aux 

conditions initiales, la dimension 

de son espace de phase doit 

être strictement supérieure à 

deux dans le cas d’un système 

continu 17 . Ensuite, afin d’être 

attractif, le système se doit 

d’être dissipatif, c’est à dire qu’il 

y ait contraction des volumes 

dans l’espace des phases quand 

Figure 2-17 : Pavage d'un attracteur 

La dimension fractale d’un attracteur est reliée au 

pavage limite de l’attracteur par des cubes de coté 

tendant vers 0. 

le temps s’écoule. Ceci implique que l’attracteur final atteint doit être de volume nul dans 

l’espace des phases. Ainsi, dans le cas d’un espace d’état tridimensionnel (par exemple 

celui du système de Lorenz), la dimension de l’attracteur doit vérifier : 

17 Ceci est du au fait que le système déterministe devant être sans variable cachée, les trajectoires dans 

l’espace des phases ne peuvent pas se couper, car à un même état du système correspondraient plusieurs 

évolutions possibles. 


50 


2 < d < 3 

Cette inégalité montre bien l’aspect pathologique des attracteurs dits étranges dans la 

famille des objets de la géométrie euclidienne classique : leur dimension doit être non 

entière. Le calcul de cette dimension est donc une généralisation, une prolongation de la 

notion classique de dimension : point adimen-sionnel, droite monodimen-sionnelle, plan 

bidimensionnel, ..., et attracteurs étranges de dimension non entière. 

L’approche couramment utilisée pour calculer cette dimension consiste à calculer la 

limite à l’infini de la dimension d’un pavage recouvrant l’attracteur (Figure 2-17). Cette 

méthode, due à Hausdorff, définit la dimension fractale d’un attracteur par : 

æ ln N( 

e) 

ö 

D= 

limç ÷ 

e® 

0èln( 1/ 

e) 

ø 

Où N( e ) est le nombre minimal d’hypercubes de coté e nécessaires pour recouvrir 

l’ensemble des points de l’attracteur. Il est possible de vérifier que cette définition 

coïncide avec les dimensions euclidiennes pour le point, la droite ou la surface : 

point : 

segment : 

surface : 

Par contre, dans le cas d’un objet 

fractal, par exemple pour l’ensemble 

triadique de Cantor, cette dimension 

amène des dimensions non entières. 

Cet ensemble correspond à la limite de 

l’itération qui consiste à enlever le tiers 

du milieu d’un segment (Figure 2-18). 

En effet, à chaque itération, le nombre 

de segments qui composent cet 

ensemble est multiplié par deux, tandis 

que la taille de chacun de ces 

segments est divisée par trois. Ainsi, à 

chaque itération k, il est nécessaire 

d’utiliser N(k)=2 k hypercubes de coté 

N( e) 

= 1 Þ D = 0 

-1 

N( e) = Le Þ D = 1 

-2 

N( e) = Se Þ D = 2 

k 

e( k) 

= ( 1/ 3) pour paver cet ensemble. Ce qui amène à: 

æ ln N( 

e) 

ö æ ln( 2) 

D= 

limç ÷ = limç e® 

0è ln( 1/ 

e) 

ø k®¥ 

è ln() 3 


Figure 2-18 : Ensemble de Cantor 

L’ensemble de Cantor est obtenu par eliminations 

successives du tiers central des segments le 

composant. A la limite, cet ensemble possède une 

dimension non-entière. 

k 

k 

ö ln2 

÷ = » 0, 63 

ø ln3 

Malheureusement, un tel calcul théorique est bien souvent impossible, et il faut recourir 

à des méthodes expérimentales de calcul de la dimension à partir d’un échantillon fini de 

points appartenant à l’attracteur.


Cette difficulté est à l’origine de la remise en cause de la valeur de la dimension fractale 

du chaos cérébral 18 . 

2. Exposants de Lyapunov 

Comme nous l’avons vu précédemment, les systèmes chaotiques possèdent une 

sensibilité aux conditions initiales, c’est à dire que deux trajectoires infiniment proches 

initialement s’écartent l’une de l’autre au cours de l’évolution du système. Cet écart est 

plus ou moins important selon sa direction dans l’espace des phases, et évolue en 

moyenne exponentiellement avec le temps. Les mesures de ces écarts dans la direction 

de chacun des vecteurs de base de l’espace de phase définissent les coefficients de 

Lyapunov du système. 

Ainsi, sur la Figure 2-19, 

sont représentées plusieurs 

trajectoires d’un système 

dynamique à trois variables 

d’états. Deux états du 

système, proches au départ, 

voient leur distance 

augmenter sur chacun des 

axes de l’espace de phase, 

selon des lois liées aux 

coefficients de Lyapunov (cf 

zoom). 

On obtient ainsi une 

évolution des erreurs, pour 

chaque vecteur de base i , 

de la forme : 

e( t) = e( 0).exp( l t) 

i i i 

Avec li, coefficient de 

Lyapunov. 

Figure 2-19 : Calculs des coefficients de Lyapunov 

Dans un système dont les dynamiques sont sensibles aux 

conditions initiales, l’évolution de l’erreur selon chaque 

vecteur de base, indique le coefficient de lyapunov 

associé. 

Selon cette définition, si le coefficient de Lyapunov sur l’un des vecteurs de base est 

négatif, les trajectoires se rapprochent selon cet axe, s’il est nul, elles restent 

équidistantes, et s’il est positif, elles s’éloignent. Il suffit que les trajectoires s’écartent sur 

au moins un vecteur de base, pour que les trajectoires s’éloignent les unes des autres, et 

qu’il y ait sensibilité aux conditions initiales. 

Ainsi, il suffit que le système possède un seul coefficient de Lyapunov positif pour que le 

système soit qualifié de chaotique. Ainsi, de la même façon que la dimension fractale de 

l’attracteur, les exposants de Lyapunov donnent une mesure du degré de chaoticité du 

système. 

Comme nous le verrons, les réseaux étudiés ici peuvent basculer très rapidement d’un 

comportement chaotique à un comportement non chaotique, pour une infime variation 

18 Pour les attracteurs étudiés dans nos réseaux, nous avons quasiment obtenu un résultat par algorithme 

testé, ce qui a empêché la quantification précise des dimensions fractales. 


52 


d’un paramètre du réseau. Nous avons en effet pu observer un aspect ‘fractal’ de la 

courbe d’évolution des exposants de Lyapunov en fonction d’un paramètre, pour 

d’infimes variations de ceux-ci, l’exposant passant très rapidement d’une valeur positive 

à une valeur négative (7.2.4 Réseau Hopfieldien à différences finies, p.167). 

Ainsi, les réseaux qui seront étudiés ici possèdent la capacité de modifier très 

rapidement et très fortement leurs dynamiques pour de faibles variations de leurs 

paramètres internes. Cette idée sera confortée par la visualisation des attracteurs 

atteints lors de l’apprentissage du forçage d’une dynamique locale : le réseau traverse 

alors un paysage d’attracteurs, en bifurquant parfois très rapidement d’un attracteur à 

l’autre (Figure 8-23, p.202). 

2.3.2 Type d’encodage par les dynamiques chaotiques 

L’ordre ne peut naître que du désordre, puisque seul le désordre permet 

des associations nouvelles. 

1. Etat transitoire de non-reconnaissance 


Henri Laborit. Eloge de la fuite. p108 

La plus immédiate interprétation des dynamiques chaotiques consiste à dire que le 

chaos connexionniste ne signifie rien, qu’il représente simplement un état de nonreconnaissance, 

une façon de signifier : je ne sais pas. En effet, l’état ne pas savoir ne 

peut pas correspondre à un état propre, final du système : ne pas savoir ne correspond 

pas à un état associé à l’ensemble des choses que l’on ne sait pas, il n’y a pas eu 

apprentissage préalable de l’ensemble des choses non sues. Il est donc nécessaire de 

posséder une dynamique intermédiaire, à mi-chemin entre toutes les dynamiques portant 

une signification, et le chaos a été proposé pour ce rôle de dynamique de nonreconnaissance 

[[106]]. 

Ou, autre interprétation, ce chaos serait une phase transitoire dans la dynamique du 

réseau, un état intermédiaire avant la reconnaissance, permettant de créer une forme 

d’investigation dynamique de l’ensemble des possibilités offertes au système. Ce serait 

le support de l’activité de recherche mnésique. Dans ce cas, le chaos ne serait pas un 

support d’information, mais le moteur de la dynamique de recherche d’information. Il 

représenterait le mécanisme par lequel le système construirait, organiserait et 

retrouverait son savoir. D’une certaine façon, ce désordre ne serait que la manifestation 

d’un mécanisme de recherche, afin de trouver l’ordre cherché. 

En effet, nous avons pu observer dans certains de nos réseaux, des phases 

transitoires ‘chaotiques’, sensibles aux conditions initiales, convergeant finalement vers 

des cycles limites. La sensibilité aux conditions initiales durant cette phase transitoire 

permet de faire basculer le réseau d’un cycle limite à l’autre (cf. 7.2.4 Réseau 

Hopfieldien à différences finies, p.167). 

Néanmoins, ces dynamiques mènent le système à un état de reconnaissance, et il est 

donc possible de dire qu’elles contiennent a priori l’état final, et donc l’information à 

trouver : la phase transitoire d’un système déterministe possède en elle le futur du 

système, même si la proximité de celui-ci n’est pas mesurable à un instant donné. Ainsi,


même si cette représentation de l’usage du chaos réfute sa capacité de signification, elle 

ne peut nier qu’il contient en lui l’encodage futur vers lequel il converge. Cette 

interprétation du rôle du chaos contient aussi, mais de façon dissimulée, l’hypothèse que 

les dynamiques du réseau possèdent l’information à traiter. 

D’autre part, cette interprétation ne nie pas que le chaos puisse représenter l’état mental 

du sujet, et, récemment, certaines mesures neurophysiologiques ont tenté de relier l’état 

mental à la dimension de l’attracteur cérébral [[9]][[10]][[188]]. 

L’objet de ces dynamiques serait donc de permettre d’accéder à des sous-dynamiques, 

porteuses de signification, portées par exemple par les phases inter-neuronales. 

2. Filtre de nouveauté 

Dans cette approche, utilisée parfois par Freeman [[180]][[218]], le chaos reste une 

phase transitoire, mais porte une information : il signifie que l’information perçue est 

nouvelle pour le système. D’après cette interprétation, la dimension fractale des 

dynamiques cérébrales est corrélée au taux de reconnaissance du percept ayant stimulé 

le système. 

Cette interprétation est en accord avec l’interprétation d’un mécanisme de recherche, car 

le système basculerait dans une phase chaotique, afin de maximiser la chance de 

percevoir des fréquences synchronisées dans la modification que crée en lui cette 

nouvelle information. De plus, cette nouvelle information peut être assimilée à une 

perturbation, car elle est non prédictible pour le système. Mais il ne faut pas voir dans 

cette phase chaotique une démarche intentionnelle du système : le système reconnaît un 

percept par ses synchronismes internes, c’est dans le cas où il n’y a pas synchronisme 

que la haute dimension de l’espace d’état du système lui permet d’engendrer du chaos. 

Ainsi, cette interprétation de l’encodage est en accord avec : 

à l’encodage par synchronisme 

à l’assimilation du percept à une perturbation 

à la reconnaissance par prédictibilité de la perturbation 

Dans le cadre de cette thèse, nous avons réussi à obtenir des réseaux qui complexifient 

leur dynamique par perturbation par une dynamique extérieure, et qui finissent par 

synchroniser certaines populations neuronales (8.4 Forçage des dynamiques 

complémentaires, p.195). 

3. Source de ‘dépersévération’ pour le système 

Comme cela a déjà été présenté, la propriété de sensibilité aux conditions initiales 

des systèmes chaotiques leur permet, s’ils ont été synchronisés pendant un certain 

temps, de perdre ce synchronisme. Ainsi, l’avantage du chaos serait d’éviter la 

persévération du système dans la tâche qu’il est en train d’accomplir. 

Cette utilisation inscrit encore plus les réseaux dans un comportement dynamique, qui 

les force à passer systématiquement d’un synchronisme à l’autre, d’un état à l’autre ; 

comportement qui se retrouve dans les systèmes réels : pour s’en convaincre, il suffit de 


54 


voir l’effort conscient que nous sommes obligés de réaliser pour maintenir notre attention 

sur une image mentale. Celle-ci finit toujours par s’évanouir. 

Cette remarque illustre la limite des architectures actuelles, qui tendent à se figer dans 

l’état souhaité, qu’il soit dynamique ou non. Dans un tel cadre, aucune autonomie du 

système n’est possible, puisque celui-ci ne peut pas, en interne, modifier l’état dans 

lequel il s’est mis. Comme nous le verrons, l’approche réalisée dans cette thèse, qui 

utilise ce principe de ‘dépersévération’, est compatible avec une certaine définition de 

l’autonomie (Vers une maximisation de l’autonomie, p.108). 

4. Catégories isochrones. 

Ce type d’encodage est l’application de la propriété de synchronisation par 

perturbation des systèmes attractifs (5, Synchronisation par perturbation, p.44). L’idée 

consiste à tracer les fibres qui partent de l’attracteur, variétés de l’espace d’état, de telle 

façon que l’ensemble des points contenus dans une fibre soient tous en phase avec le 

point à l’intersection de l’attracteur et de la fibre. 

Pour tracer cette fibre, il suffit de 

perturber fortement le système 

dynamique, tout en le laissant dans 

son bassin d’attraction, et de le laisser 

revenir vers l’attracteur, en 

mémorisant la succession des états 

x(t) pris par ce point, puis de laisser ce 

point réaliser plusieurs tours au 

voisinage l’attracteur. Dès lors, pour 

connaître les fibres passant au 

voisinage du point x0 de l’attracteur, il 

suffit de prendre l’ensemble des points 

mémorisés x(t) contenus dans une 

boule de rayon e, centrée sur x0, puis 

de dérouler le temps à l’envers pour 

chacun de ses points (Figure 2-20). 

L’avantage de la connaissance de 

ces fibres, est de pouvoir quantifier le 

degré de synchronisme atteint par un 

ensemble de points perturbés : si les 

fibres isochrones sont écartées, il y a de grandes chances que, pour une perturbation 

donnée, l’ensemble des points de l’attracteur soient contenus dans le voisinage d’une 

même fibre, et restent donc synchronisés. Par contre si ces fibres sont rapprochées, une 

perturbation aura plus de chance de répartir les points entre plusieurs fibres isochrones, 

et donc de désynchroniser le système. 

L’apprentissage peut dès lors s’interpréter par une modification de la géométrie de ces 

fibres dans l’espace d’état du système. De cette façon, à un concept bien mémorisé 

correspond une fibre isochrone isolée, puisque de nombreuses perturbations du système 

pousseront le système au voisinage de cette fibre. Cette interprétation peut permettre de 

comprendre pourquoi des associations libres peuvent nous remémorer des données, ou 


Figure 2-20 : Fibres isochrones 

Pour un système dynamique stabilisé sur son 

attracteur, les fibres isochrones de cet attracteur 

sont les lignes dont les points sont des états du 

système en phase les uns avec les autres.


que certaines images semblent omniprésentes. Au-delà de cette interprétation, il est 

possible d’y voir une modélisation de l’intentionnalité : une perturbation étant donnée, le 

système synchronisera certaines populations neuronales, les poussant à un certain type 

de comportement. 

Autre avantage de cette approche, elle peut fonctionner dans n’importe quel espace 

d’état, que ce soit celui d’un neurone, ou de plusieurs. Ainsi, cette interprétation peut 

nous permettre d’imaginer les fibres isochrones de l’attracteur d’une population de 

neurone. Malheureusement, ces fibres isochrones ne seront pas représentables, car 

plongées dans des espaces d’état de trop grande dimension, et il sera nécessaire de se 

contenter de leur projection. Mais, cette idée pouvant s’appliquer à des populations 

neuronales, elle peut être un principe descriptif des phénomènes de synchronisation 

dans les architectures modulaires de neurones. 

Nous pouvons ainsi envisager l’étude de dynamiques en terme de modularité, de fibres 

isochrones et de synchronismes neuronaux. 

Cette architecture modulaire peut être d’un grand intérêt pour l’augmentation des 

capacités d’encodage du réseau. En effet, la sélectivité fréquentielle des neurones n’est 

pas infinie, et la synchronisation d’un réseau doit être relativement robuste. Or, plus le 

nombre de fréquences neuronales est faible, plus la robustesse de la synchronisation 

autour de ces fréquences principales sera robuste. Ainsi, il faut tendre à minimiser le 

nombre de fréquences synchronisables d’un réseau. Mais ceci diminuerait d’autant ses 

capacités de mémorisation , puisqu’il évoluerait dans un espace d’état réduit. 

Or, dans le cas d’un réseau modulaire, il suffit de quatre fréquences de synchronisation 

pour conserver en permanence la différenciation modulaire. En effet, le théorème des 

quatre couleurs peut s’appliquer ici : il a été montré que quatre couleurs étaient 

suffisantes pour colorier une carte plane de telle façon que deux modules voisins ne 

soient pas de la même couleur. Ainsi, il est suffisant que le réseau possède quatre 

fréquences pour permettre d’obtenir l’organisation de modules. Cette hypothèse 

correspond à celle d’un encodage par les phases des populations neuronales (5 De 

nouveaux supports pour l’information, p.36). 

Dans cette thèse, nous n’étudierons pas le rôle exact de la modularité a priori 19 des 

réseaux, ce qui est peut être l’une des causes de la limitation de nos résultats 

(Chap.9,Conclusion générale et perspectives p.207). Mais l’intérêt de cette modularité 

est certain, et fournira un support important de recherche pour des travaux futurs. Par 

contre, nous avons pu, dans certains cas, observer une modularisation fonctionnelle 

progressive de nos réseaux, ce qui faisait partie des propriétés souhaitées au départ, 

puisqu’il s’agit d’une des propriétés qui nous semblent essentielles dans les principes de 

base de l’organisation cérébrale (Modularisation fonctionnelle, p.113). 

5. Mémorisation par l’attracteur 

Dans le rôle croissant donné au chaos dans l’encodage cérébral, l’hypothèse la plus 

forte est de dire que c’est l’attracteur qui encode l’objet représenté : il y aurait un 

attracteur-banane, ou un attracteur-bateau. Chaque fois que le percept est présenté, le 

système cérébral se stabiliserait sur l’attracteur qui lui est associé. 

19 c’est-à-dire contenue dans l’architecture du réseau lors de sa conception. 


56 


Cette approche peut sembler naturelle. Le système voit ses dynamiques modifiées par la 

perception d’un stimulus externe. Il a pu de plus être observé que ces dynamiques 

étaient chaotiques. Donc, les dynamiques chaotiques observées, à un moment donné, 

sont la représentation que le système se fait de sa perception, car, à chaque perception, 

les dynamiques sont différentes : chaque attracteur possède sa signification. 

Mais plusieurs remarques doivent s’ajouter à cette ‘évidence’ : tout d’abord, cette 

approche doit considérer l’attracteur global du système cérébral, pour que le 

raisonnement précédent soit valide. Il est en effet envisageable qu’une aire du cerveau 

reste stabilisée sur un même attracteur, pendant qu’une autre aire fait évoluer le sien. De 

ce fait, nous pouvons imaginer que certains attracteurs locaux restent similaires, alors 

que le percept associé est différent. Il est donc nécessaire dans cette approche de 

considérer l’attracteur global du système cérébral. Mais dans ce cas, que signifie : deux 

attracteurs sont différents 20 ? 

Il faut tout d’abord qu’une mathématique de la similarité des attracteurs de systèmes 

chaotiques existe. Or il n’existe pas aujourd’hui d’approche quantitative pouvant définir 

des familles d’attracteurs. Cette approche semble donc actuellement impossible à mettre 

en œuvre. Mais cette remarque ne suffit à penser que cela soit impossible pour toujours. 

Il faut donc compléter cette remarque par le fait que si chaos il y a, l’attracteur du 

système cérébral complet, avec ses cent milliards de neurones, doit être d’une 

dimension telle, qu’il semble inimaginable de représenter l’attracteur atteint. Et pouvonsnous 

être sûr que les dynamiques cérébrales sont stabilisées sur l’attracteur ? Combien 

de temps faut-il à un système dynamique évoluant dans un espace d’état de plusieurs 

milliards de dimensions pour se stabiliser ? Et ce temps de stabilisation sera-t-il égal au 

temps de reconnaissance d’un percept (de l’ordre de quelques centaines de 

millisecondes) ? 

Dans ce cas, si l’attracteur n’a pas le temps de se stabiliser, c’est que ce sont les 

trajectoires internes des dynamiques chaotiques qui encodent l’information. Nous en 

revenons donc à un encodage par les dynamiques, et non plus par les attracteurs. 

Ainsi, l’hypothèse d’une mémorisation par l’attracteur global du système cérébral semble 

poser de nombreux problèmes, insolubles à l’aide des outils connus aujourd’hui. Mais il 

semble que cette limite est quand même hors d’atteinte des outils mathématiques 

envisageables, puisqu’il serait nécessaire de pouvoir connaître l’attracteur atteint par un 

système dynamique à plusieurs milliards de variables d’état, simplement en observant 

les trajectoires du système pendant un temps court. De plus, quel critère pouvons nous 

imaginer, permettant à un système de savoir que ses dynamiques sont stabilisées : le 

système ne possède pas en interne une copie de l’attracteur à atteindre, lui permettant 

de savoir à chaque instant, à quelle distance il en est. 

Cette remarque fait penser que l’on doit être en permanence à la frontière entre 

plusieurs attracteurs sur un plan global, et que le système cérébral global n’attend pas 

que ces dynamiques soient stabilisées. 

20 Les mêmes questions peuvent se poser au sujet des attracteurs ‘locaux’... 



6. Mémorisation par les mesures de l’attracteur 

Plus faible que l’hypothèse d’une mémorisation par l’attracteur, cette hypothèse 

soutient plus simplement que les mesures de l’attracteur des dynamiques neuronales 

d’un sujet sont le reflet de sa vie mentale. Cette approche s’inspire principalement des 

travaux de Babloyantz, Desthexe, Theiler [[9]][[188]]. 

Cette idée correspond à celle d’un encodage par l’attracteur, mais dans un espace d’état 

réduit, de dimension égale au nombre de mesures réalisées sur l’attracteur. Les mêmes 

remarques que celles faites ci-dessus peuvent donc s’appliquer : comment un système 

peut déterminer des mesures de son attracteur par l’unique observation de portions de 

trajectoires ? Une telle approche n’est pas envisageable comme support de l’encodage : 

celui-ci ne peut pas être ramené à un encodage scalaire du type ‘dimension de 

l’attracteur-banane = X’. Un tel encodage ne peut pas contenir la richesse et la finesse 

de celui que nous utilisons. 

Fort heureusement, aucune étude n’utilise ce type d’interprétation, et la plupart de celles 

qui effectuent des mesures sur les attracteurs se limitent à penser que ces mesures sont 

représentatives de l’état mental du sujet : veille, sommeil, et état pathologique. 

L’ensemble de ces résultats est 

synthétisé sur la Figure 2-21, les 

mesures appartenant à une même 

étude étant reliées par un trait. 

Toutes les dimensions fractales sont 

inférieures à 10, laissant penser à un 

chaos de basse dimension, 

Comme nous l’avons déjà noté, cette 

idée est actuellement remise en 

cause. Nous nous limiterons donc à 

une interprétation qualitative de 

ceux-ci, qui montrent une variation 

des dynamiques mentales, en Figure 2-21 : Dimension fractale et état mental 

fonction de l’état mental du sujet. La 

phase de sommeil est moins riche, dynamiquement parlant, que la phase de veille. De 

même, les dimensions évaluées chez des patients au cours d’une crise comitiale ou 

pendant l’évolution d’une maladie de Creutzfeld-Jacob sont inférieures à celles du sujet 

normal. Ceci peut traduire l’existence d’une plasticité cérébrale réduite dans ces 

pathologies, et d’un moindre nombre de degrés de liberté de la dynamique du système. 

Ces variations de la dimension fractale avec l’état du sujet semblent cohérentes si l’on 

accepte que les dynamiques cérébrales soient le support de l’état mental du sujet, mais 

elles n’apportent malheureusement pas d’information supplémentaire quant à la modalité 

de l’encodage réalisé. 

7. Encodage Formel 

De nombreuses études tentent aujour-d’hui de trouver le lien entre les systèmes 

dynamiques, les machines de Turing, et les automates finis, en unifiant l’ensemble des 

systèmes de traitement de l’information. Cette approche peut permettre d’espérer avoir 


58 


un jour un classement de ces systèmes selon des critères de capacité computationnelle, 

et de connaître les raisons des limites de chaque modèle. 

Il semblerait que les fonctions 

itérées à dynamiques chao-tiques 

(dont font partie certains modèles 

connexionnistes) soient parmi les 

systèmes de traitement de 

l’information les plus puissants 

[[177]][[179]]. Il a en effet été 

démontré que les fonctions itérées 

à dynamique chaotique sont 

computa-tionnellement plus riches 

que les machines de Turing. 

L’approche utilisée par Siegelman 

[[179]], consiste à assimiler la 

dynamique chaotique à une chaîne 

de bits, en découpant l’espace de 

phase du système (Figure 2-22), 

puis à rapprocher ce message du 

ruban d’une machine de Turing. 

Cette approche, purement 

théorique, et essentielle à la 

compréhension des systèmes 

étudiés ne peut malheureusement 

pas être rapprochée des phénomènes de mémoire que nous étudions ici. Mais il est 

essentiel de savoir qu’un système chaotique pourrait être supérieur à une machine de 

Turing, ce que Siegelman semble avoir démontré, justifiant ainsi la richesse 

fonctionnelle du cerveau, et les limites imposées par une comparaison cerveau / 

machine de Turing. 

2.3.3 Synthèse d’un modèle préliminaire 

Résumons les idées qui ont été présentées dans les pages précédantes, concernant 

les rôles possibles du chaos. Nous avons vu que ceux-ci peuvent être interprétés en 

termes de : 

à Etat transitoire de non-reconnaissance 

Le chaos est l’état dynamique du système, antérieur à la reconnaissance, qui maximise les 

chances de synchronisation des dynamiques locales, et représente l’état mental du sujet. 

à Filtre de nouveauté 

Le chaos se manifeste lors de la perception d’un état nouveau, pas encore reconnu. La 

perception est alors source de perturbation pour le système. 

à Source de dépersévération 

Le chaos, par sa sensibilité aux conditions initiales, permet de faire perdre les 

synchronismes ayant émergé lors la reconnaissance, évitant que le réseau ne se fige dans 

sa reconnaissance. 


Figure 2-22 : Encodage formel d'un attracteur 

En segmentant l’espace d’état d’un système dynamique, 

et en associant un représentant à chaque sous-domaine, 

l’évolution du système engendre une suite, qui peut être 

le support de computations, comme le ruban d’une 

machine de Turing.


à Catégories isochrones 

L’information extérieure perturbe le système, en translatant l’état du système dans 

certaines régions de son espace d’état. Lorsque plusieurs systèmes désynchronisés 

évoluent sur un même attracteur, et si cette perturbation les amène au voisinage d’une 

même fibre isochrone, ceux-ci se synchronisent pendant un moment. 

à Mémorisation par l’attracteur 

Le chaos est la mémoire du système, et chaque percept reconnu possède son attracteur. 

Le phénomène de reconnaissance amène le système à se stabiliser sur l’attracteur associé 

au percept. 

à Mémorisation par les mesures de l’attracteur 

Le chaos n’est pas supposé porter un encodage : il est uniquement représentatif de l’état 

mental du sujet. 

à Support d’encodage formel 

Le chaos est un nouveau modèle de générateur de messages binaires, pouvant 

correspondre à la mémoire d’une machine de Turing. 

Figure 2-23 : Présentation préliminaire du modèle : rôle du chaos 

Le système percevant est représenté par les matrices neuronales locallement couplées. La 

modification des dynamiques internes de ce système par une dynamique externe peut être 

de deux types. Le percept n’est pas reconnu : il y a alors complexification. Le percept est 

reconnu : il y a alors synchronisation. L’apprentissage permet de passer du premier cas au 

second. Dans les deux cas, en enlevant la dynamique externe (à droite), il y a 

désynchronisation. 

Si l’on souhaite faire une synthèse de ces idées, plusieurs notions se dégagent : les 

dynamiques extérieures sont assimilées à des perturbations pour le système, qui, 

perturbé, peut se resynchroniser en rejoignant son attracteur. Ces dynamiques sont le 

reflet de l’état du système, qui peut être évalué par des mesures sur celles-ci. La nature 

chaotique du système permet, avant la perception, de maximiser les chances de 


60 


synchronisation, et, après reconnaissance, de désynchroniser le système, afin d’éviter 

toute persévération (Figure 2-23). 

Selon ce modèle, le chaos ne serait pas une source d’encodage de l’environnement 

du système, mais une nature du système étudié : l’environnement modifie les 

dynamiques neuronales, qui en induisent d’autres grâce aux associations réalisées 

auparavant via l’apprentissage. Le chaos ne serait alors que la manifestation de la 

complexité des dynamiques induites. Cette approche est en accord avec l’hypothèse du 

tout dynamique, dans laquelle un système percevant est en interaction dynamique avec 

son environnement. L’apprentissage aurait alors pour rôle de diminuer la complexité des 

dynamiques induites dans le système par l’environnement, afin d’en minimiser l’aspect 

perturbateur. Le chaos dans ce cas caractériserait le comportement du réseau, mais ne 

serait pas le but recherché par celui-ci : engendrer du chaos serait la nature du cerveau, 

mais ni sa fonction, ni son rôle. Il n’y aurait pas d’algorithme superviseur fabriquant et 

modifiant les dynamiques chaotiques cérébrales, selon un schéma d’encodage précis. 

On peut retrouver cette idée derrière plusieurs études, par exemple celles de Chang et 

Freeman [[36]] ou Amit [[4]], qui ne cherchent pas à analyser le chaos neuronal par ses 

mesures pour en déterminer les principes, mais qui constatent plutôt la présence de 

chaos dans leurs modèles, sans chercher à en trouver les principes d’encodage 21 , ni les 

mesures caractéristiques de ces dynamiques. 

Dans le cadre d’un travail récemment exposé par Chang et Freeman [[36]], ceux-ci 

constatent que le chaos émerge dans le système olfactif du lapin, lorsque le percept 

n’est pas reconnu, mais que des synchronismes apparaissent dans le réseau après 

apprentissage. Ils tentent donc dans ces travaux de trouver l’apprentissage qui 

permettrait de segmenter le paysage perceptif via les synchronismes du réseau. Cette 

approche est similaire aux interprétations faites précédemment. En effet, ils ne voient 

dans le chaos qu’une dynamique transitoire lors de la reconnaissance, qui a pour seule 

signification celle de manifester une non-reconnaissance du percept. De plus, le stimulus 

est associé à une perturbation car il modifie les dynamiques synchronisées du système, 

ce qui permet, durant la phase d’apprentissage, de tester le maximum de synchronismes 

possibles. Une fois le percept appris, il est alors reconnu grâce aux phases des 

dynamiques neuronales, qui permettent de reconstruire et de prévoir la dynamique si 

celle-ci est présentée de nouveau. Par contre, ils ne font pas mention du rôle de 

dépersévération dans le réseau des dynamiques chaotiques. 

D’autre part, un apprentissage de ce type peut être interprété en terme de fibres 

isochrones, puisque si les fibres sont serrées, une perturbation amènera le système à 

cheval sur plusieurs fibres, ne permettant pas de synchronisation. Par contre, après 

apprentissage, l’élargissement des fibres isochrones maximise la probabilité d’amener le 

nouvel état du système sur une seule fibre, en synchronisant ainsi les dynamiques d’une 

population neuronale. 

Malheureusement, dans les deux cas (celui de Chang et Freeman, et le nôtre), l’état 

actuel des connaissances sur les règles d’apprentissage ne permet pas de trouver un 

algorithme pouvant vérifier le schéma d’encodage précédent, mais l’étude de ces règles 

21 Il est d’ailleurs intéressant de noter que l’un des articles clef de Skarda et Freeman [[180]] décrit la façon 

dont le chaos donne du sens au monde (How brains make chaos in order to make sense of the world), et non 

pas la façon dont le monde donne du sens au chaos. 



à permis d’observer la manifestation de ces propriétés de l’encodage dans nos réseaux 

(Chapitre 8, Anticipation du forçage des dynamiques, p.185). 

2.4 Conclusion 

Les dynamiques d’un système peuvent encoder une information en utilisant les phases 

des dynamiques locales du système. L’un des encodages les plus riches consiste à utiliser les 

phases de populations neuronales, ce qui permet de conjuguer modularité et synchronisme, par un 

encodage à la fois spatial et temporel. Une idée serait donc d’utiliser les dynamiques individuelles 

des neurones du réseau pour faciliter ces potentialisations de synchronisme de populations 

neuronales. Les dynamiques chaotiques à l’échelle du neurone peuvent jouer un tel rôle, grâce à 

leur capacité de synchronisation : 

Le moi neuronal élabore des images-mouvement... 

Ce chaos cérébral global (moyenne des dynamiques individuelles), peut alors être 

représentatif de l’état mental du sujet (moyenne de ses comportements). Mais il semble peu 

probable que ce chaos soit l’encodage brut des percepts mémorisés, et encore moins probable 

que l’attracteur stabilisé soit cet encodage. Il serait en effet surprenant que le système dynamique 

cérébral, évoluant dans un espace de phase de très grande dimension, doive se stabiliser sur son 

attracteur pour évoquer un concept. Cela supposerait que le système possède une représentation 

interne de l’attracteur à atteindre, et une mesure de la distance à cet attracteur, afin de pouvoir 

autoriser le système à quitter cet attracteur. Notre perception devrait alors être ‘échantillonnée’ 

pour permettre au système de passer d’un attracteur à l’autre, afin de percevoir chaque concept 

associé. 

Nous pensons donc qu’il est plus probable que les dynamiques cérébrales sont rarement 

stabilisées sur un des attracteurs des dynamiques neuronales, et ainsi que le chaos n’est pas un 

support d’encodage, mais est un ‘outil’, mettant ses propriétés au service de l’activité mentale. La 

première de ces propriétés est celle d’une capacité de synchronisation des systèmes dynamiques 

chaotiques par perturbation de ceux-ci, en déplaçant l’état de ses systèmes sur une même fibre 

isochrone. L’information extérieure sera donc assimilée à une perturbation pour le système. La 

seconde propriété est celle de sensibilité aux conditions initiales, permettant aux systèmes 

dynamiques neuronaux de se désynchroniser à la disparition du percept. 

Nous envisagerons donc le chaos plus comme une manifestation du système cérébral, 

dont les propriétés permettent au système de s’adapter à son environnement. 

Mais comment est réalisée cette synchronisation, cette diminution de la complexité lors de 

l’apprentissage ? Quel peuvent être les principes d’une telle évolution des dynamiques ? 

La réponse proposée (Chap. 5, Un modèle connexionniste de la mémoire, p.95) fait du 

forçage le principe de base de l’apprentissage, allant au-delà d’une technique utilisée dans 

l’apprentissage des réseaux récurrents : nous chercherons à inscrire le phénomène de 

reconnaissance dans un cadre de maximisation de l’autonomie (en niant le principe de recherche 



mnésique rétrograde 22 ), en inscrivant la mémoire comme un principe actif d’autonomie pour le 

système : 


62 

... et l’action représente la force d’auto-organisation du cerveau. 23 

[[1]] Sergey K. Aityan.. Recurrent refractory neural field IEEE. O-7803-0559-0/92 .p 140-145 (1992) 

[[39]] François Chapeau-Blondeau. Nicolas Chambert. Synapse models for neural networks : from ion 

channel kinetics to multiplicative coefficient Wij. Neural Computation. 7. p713-734. (1995) 



[[41]] François Chapeau-Blondeau, Gilbert Chauvet. Dynamic properties of a biologically motivated 

neural network model. International Journal of Neural Systems. Vol. 3. no. 4. pp 371-378. (1992) 

[[42]] François Chapeau-Blondeau. Maximisation de l'entropie informationnelle dans la transmission par 

une non-linéarité neuronale. C.R. Acad. Sci. PAris. t.319. Série II. p271-276. (1994) 

[[49]] M. Cosnard, J. Demongeot, K. Lausberg, K. Lott. Attractors, confiners and fractal dimensions : 

applications in neuromodelling. Mathematics applied to biology and medecine. J.Demongeot, V. 

Capasso (edts). ISBN 0-920063-63-2. p69-93 (1993) 

[[46]] A.M. Collins, M.R. Quillian. Retrieval time from semantic memory. Journal of verbal learning and 

verbal behavior. (1969). 

[[70]] Ivan Dvorak. Spatiotemporal changes in Determinacy of Brain Electrical Phenomena. Dans 

Mathematics applied to biology and medecine. pp 103-113. J.Demongeot, V.Capasso, editors. 

(1993) 

[[86]] Bart L.M. Happel (happel@rulfsw.leidenuniv.nl) , Jacob M.K. Murre. Evolving complex dynamics 

in modular interactive neural networks. Soumis a Neural Networks. 

[[101]] Lester Ingber(ingber@alumni.caltech,edu). Statistical Mechanics of neocortical Interactions: 

Mutltiple Scales of EEG. Dans Electroencephal. clin. Neurophysiol. (1994). 

[[102]] Lester Ingber (ingber@alumni.caltech.edu), P.L. Nunez. Statistical mechanics of neocortical 

interactions : high resolution path-integral calculation in short term memory. Physical Review E. 

Vol. 51, No.5. (1995) 

[[105]] Kunihiko Ishiyama, Susumu Itoh, Toshio Utsunomiya, Kazuyuki Aihara. Analysis of chaotic 

neuron models with information Theory. Electronics and communications in Japan. Part 3. Vol. 76, 

No. 4, (1993) 

[[106]] Izhikevich, G. G. Malinetskii. A possible role of chaos in neurosystems. Sov. Phys.Dokl.37(10), 

octobre (1992) 

[[106]] Izhikevich, G. G. Malinetskii. A possible role of chaos in neurosystems. Sov. Phys.Dokl.37(10), 


[[123]] John. E. Lewis. Leon Glass. Nonlinear dynamics and symbolic dynamics of neural networks.Neural 

Computation. 4. 621-642. (1992) 

[[146]] A. Newell, H.A. Simon. Human problem solving. Englewood Cliffs, NJ. Prentice-Hall. (1972) 


22 qui signifie que l’on balaie sa mémoire pour rechercher l’information requise. 

23 J.D. Vincent. Biologie des passions. Edition Odile Jacob. p.13 



[[168]] Norihiro Sadato, Alvaro Pascual Leone, Jordan Grafman, Vicente Ibanez, Marie-Pierre Delber, 

Geaorge Dold, Mark Hellett. Activation of the primary visual cortex by Braille reading in blind 

subjects. Nature. Vol. 380. (1996). 

[[171]] Steven J. Schiff, Kristin Jerger, Duc H. Duong, Taeun Chang, Mark L. Spano, William L. Ditto. 


[[177]] Ralph M. Siegel, Heather L. Read. Models of the temporal dynamics of visual processing.Journal 

of statistical physics. Vol. 70. No 1&2. (1993) 

[[179]] Hava T. Siegelmann (iehava@ie.technion.ac.il). Computation beyond the Turing Limit. Science. 

Vol. 268. 28 april 1995. pp 545-548. (1995) 



[[188]] James Theiler. On the evidence for low-dimensional chaos in an epileptic electroencephalogram. 

[[189]] James Theiler, P.E. Rapp. Re-examination of the evidence for low-dimensional, nonlinear 

strcuture in the human electroencephalogram.preprint. 1995. 

[[196]] Ichiro Tsuda. Dynamic Link of memory- chaotic memory map in nonequilibrium neural networks. 

Neural networks, vol. 5. pp 313-326. (1992) 

[[219]] Michael Zak. Terminal attractors in neural networks. Neural Networks. Vol.2. p259-274.(1989) 



3. MODELES CONNEXIONNISTES DYNAMIQUES 


Une fois le choix posé de l’utilisation de modèles connexionnistes pour l’encodage par les 

dynamiques, et après avoir déterminé le rôle souhaité de ces dynamiques, il reste l’insoluble 

problème du choix du réseau : en effet, ces dernières années, la profusion des modèles a entraîné 

une certaine confusion 24 . 

Afin de clarifier le problème, nous nous limiterons dans notre propos aux modèles 

possédant des capacités de comportement dynamique, et les classerons en deux groupes : ceux 

dont les éléments possèdent une dynamique propre, et ceux dont le comportement dynamique 

provient de leur architecture, le caractère dynamique pouvant être considéré comme émergent, 

puisque c’est l’organisation de niveau supérieur (l’architecture) du réseau qui permet d’avoir une 

dynamique entretenue. Il s’ensuivra naturellement un classement équivalent portant sur les 

architectures en tentant de déterminer lesquelles engendrent des comportements dynamiques. 

A partir de ce classement, nous essaierons de synthétiser la liste des paramètres 

principaux influençant les dynamiques, afin d’obtenir le modèle le plus général possible, pour les 

implanter dans l’outil informatique(Chap. 6 Développement informatique du modèle, p.128), et en 

tester le comportement dans un second temps, en tentant de quantifier l’influence des paramètres 

sur les dynamiques neuronales (7Dynamiques observées et expérimentées143), et leur rôle 

possible dans le modèle théorique proposé (Chap.5, Un modèle connexionniste de la mémoire, 

p.95). 

3.2 Modèles à comportement dynamique 

3.2.1 Modèle de neurone sans dynamique propre 

1. Modèle non linéaire à seuil 

Ce modèle est le plus utilisé et le plus commun à l’ensemble des réseaux actuellement 

MODELES CONNEXIONNISTES DYNAMIQUES 65

66 


développés. Il dérive directement des premiers modèles proposés [[53]], et possède un 

rôle similaire : séparer l’espace des entrées du réseau par des hyperplans. 

L’équation classique de ce modèle est du 

type : 

æ 

ö 

xi() t = sçåwijxj( t-D t) 

÷ , 

è 

ø 

j 

avec s une fonction sigmoïde, continue et 

monotone, et qui vérifie : 

lim s ( x) 

= 0et lim s ( x) 

= 1 

x®-¥ 

x®¥ 

Certains modèles généralisent celui-ci, en 

remplaçant la fonction sigmoïde s par une 

fonction radiale, appliquée à chacun des xj. 

Figure 3-1 : Modèle classique 

Dans ce cas, le réseau ne segmente plus 

l’espace d’état des entrées par des hyperplans, mais par des intersections de fonctions 

en ‘cloche’. 

2. Modèles à délais 

La première complexification possible du modèle de neurones non línéaire à seuil 

considère que l’évolution du neurone à l’instant t dépend non plus de l’état du réseau à 

l’instant précédent t-Dt, mais d’états antérieurs. 

æ 

ö 

xi() t = sçåwijxj( t-Mj. Dt) 

÷ 

è 

ø 


j 

Ce type de réseau ajoute à la crédibilité biologique du modèle, puisque les distances 

d’un neurone à l’autre varient, provoquant des délais dans les transmissions de 

l’information neuronale, auxquels s’ajoutent des variations dans les vitesses de 

transmission. D’autre part, ce type de neurone permet de créer une dépendance à long 

terme des dynamiques neuronales, ce qui facilite la production de dynamiques d’ordre 

élevé. 

3. Modèle à mémoire 

Un neurone possède de la mémoire si son comportement dépend de chacun des 

états passés du réseau, et non plus uniquement d’un seul état antérieur. Soit si : 

est remplacé par une équation du type : 

x () t = F( x ( t-Dt), x ( t-Dt),..., x ( t-Dt)) i 1 2 

N 

24 Qui peut être résumé par le mécanisme : chaque nouveau problème engendre un nouveau réseau, et 

chaque nouveau réseau engendre un nouveau problème...


æ x1( t-Dt) x2( t-Dt) ... xN( t-Dt) ö 

ç 

÷ 

x ( t . t) x ( t . t) ... xN( t . t) 

xi() t = F 

ç 1 -2 D 2 -2 D -2 

D ÷ 

ç M M M ÷ 

ç 

÷ 

èx 

( t- M . Dt) x ( t- M . Dt) ... x ( t- M . Dt) 

ø 

1 i 2 i N i 

Dans ce cas, Mi représente la mémoire de chaque neurone. Le cas le plus étudié de ce 

type de modèle est celui où la prise en compte du passé du réseau se fait grâce à une 

fonction de convolution entre le vecteur poids et le vecteur état : 

N 

M j 

æ ö 

m 

xi() t = sçåWij 

ÄXj÷ 

avec Wij Ä X j = åwij 

xj( t-m. Dt) 

è j= 

1 ø 

m= 

1 

m 

Les paramètres wi sont parfois ramenés à des noyaux (kernel), ce qui permet de 

minimiser le nombre de paramètres à mémoriser par neurone [[139]][[202]]. Ainsi, on 

peut avoir : 

m 

w = d( 

m) 

w 

w 

ij 

m 

ij 

m 

ij 

= ( m ) 

ij 

m 

= ( 1-m 

).( m ) 

ij ij 

Cette méthode sera appliquée lors de l’implémentation de ce modèle dans l’outil 

informatique développé (6.3 Le logiciel de modélisation, p.129). Elle permet en effet, 

m 

moyennant un temps de calcul un peu plus long (puisqu’il faut calculer les wi à chaque 

modification de l’un des paramètres), de réaliser un gain considérable en mémoire. Cela 

permet de simuler un plus grand nombre de neurones, et d’atteindre dans notre cas des 

réseaux qui comportent 262144 neurones à mémoire. 

D’autre part, ce type de modèle neuronal a permis à un réseau feed-forward, grâce à un 

apprentissage similaire à la rétropropagation du gradient, de produire une dynamique de 

Lorenz. Ce résultat [[207]] est très encourageant pour notre propos, car il prouve qu’un 

réseau de neurones à mémoire possède la capacité de produire des dynamiques 

chaotiques. 

4. Modèles réfractaires 

L’un des paramètres longtemps négligés dans les modèles connexionnistes, et qui 

pourtant est caractéristique des neurones biologiques est la période réfractaire. Après 

avoir émis un spike, et durant cette période, le neurone est forcé à zéro. Ce paramètre 

peut être facilement simulé en prenant en considération l’âge du neurone, noté Ri, et en 

R 

A 

forçant le neurone à 0 pour R < R < R , Ri étant réinitialisé à 0 dès que le neurone 

passe de 0 à 1 (Figure 3-2). 

i 

i i 

Il existe peu de résultats démontrant l’intérêt d’une période réfractaire, et sa réelle 

influence sur la dynamique des neurones. Pourtant, l’utilisation de ce paramètre peut 

permettre de faire apprendre des associations entrées-sorties non linéairement 

séparables, ce qui était l’une des limites des réseaux de type perceptron monocouche. 

MODELES CONNEXIONNISTES DYNAMIQUES 67 

m

68 


Ainsi, Aityan [[1]] a montré qu’il était 

possible de simuler une fonction XOR 

dans un réseau monocouche récurrent 

de trois neurones réfractaires. Dans ce 

type de réseau, les neurones ont un 

comportement dynamique, et c’est 

l’état final du réseau, après 

stabilisation de ces dynamiques sur un 

point fixe, qui encode la réponse du 

réseau. Nous verrons que l’utilisation 

de réseaux possédant une fonction de 

transfert en sortie, qui peut être 

assimilée à une période réfractaire, 

permet de déstabiliser un réseau en 

provoquant des ondes se propageant 

dans le réseau, et peut engendrer 

l’apparition de vortex (Figure 7-22, 

p.164). 

3.2.2 Modèle de neurone à dynamique propre 

On dira qu’un neurone possède une dynamique propre s’il possède la capacité de 

maintenir une dynamique sans stimulation externe. De tels modèles peuvent produire un 

comportement dynamique en étant isolés. 

1. Modèle à rétroaction 

Certains modèles à mémoire, dont le poids est une fonction du retard( si il existe une 

m 

fonction f telle que w = f ( m)), 

peuvent être simplifiés.. Ainsi, par exemple, si : 

ij 

ij 

m 

wij la sortie du neurone peut être ramenée à : 

m 

i i 

= ( 1-m ). m , 

x ( t) = ( 1- m ) x ( t) + m . x ( t-D t) 

, 

i i i i i 

ce qui correspond à une rétroaction sur le neurone. 

Ainsi, un modèle à mémoire, coûteux en utilisation de mémoire lors de son 

implémentation informatique, peut être parfois ramené à un simple modèle récurrent, 

moins coûteux. De la même façon, les modèles de neurones possédant une rétroaction 

peuvent être assimilés à des modèles à mémoire [[202]], car leur nouvel état dépend de 

leurs itérations passées. 


Figure 3-2 : Influence de la période réfractaire 

Dans le cas d’un neurone dont la sortie est mise 

à un dès que le potentiel dépasse un seuil, 

l’ajoût d’une période réfractaire évite la 

saturation, et entraine le neurone sur une 

activité périodique.


2. Modèle à dynamique chaotique propre 

Afin d’obtenir un comportement dynamique du neurone, et au-delà de l’utilisation 

d’une mémoire dans le neurone, certaines études proposent d’utiliser des neurones à 

comportement chaotique propre. L’intérêt de cette utilisation est d’implanter à l’échelle 

du neurone, les principes d’utilisation du chaos comme ‘filtre de nouveauté’ (p.52). 

Cette approche, utilisée par [[104]], 

consiste à réaliser un neurone 

possédant une boucle de 

rétroaction, qui génère une sortie 

chaotique du neurone, de la même 

façon qu’une fonction itérée du type 

de celle de Hénon. L’équation de 

l’évolution du neurone est : 

å 

h () t = w x () t 

i ij j 

j 

( ) 

x ( t+ 1) = 1-4h () t x () t 1-x 

() t 

i i i i 

ce qui correspond à l’équation 

logistique : 

( ) 

xt ( + 1) = 4axt () 1-xt 

() 

Ainsi, ce réseau s’apparente à une 

assemblée de dynamiques 

chaotiques, dont le paramètre de 

bifurcation de chaque site est modifié par l’état du réseau. 

3.2.3 Architecture du réseau 

Figure 3-3 : Carte de bifurcation du modèle logistique 

Cette carte trace pour chaque valeur du paramètre 

de contrôle du système, l’ensemble des valeurs prises 

après la phase de régime transitoire. En augmentant 

ce paramètre, le système passe d’un point fixe vers 

un cycle d’ordre 2, puis 4, 8, et finit par atteindre des 

régimes chaotiques. 

Comme nous l’avons vu auparavant, de nombreux modèles de neurones ont été 

développés afin d’obtenir des réseaux neuronaux allant des réseaux à mémoire, dont l’activité 

s’éteint après stimulation, jusqu’aux réseaux à dynamique interne chaotique. en passant par les 

réseaux à rétroaction, 

Dans le cas où la dynamique du neurone isolé ne possède que des points fixes, 

l’architecture du réseau permet néanmoins d’obtenir en général une dynamique globale du réseau, 

via les rétroactions de certains neurones sur d’autres. De cette façon, les neurones couplés voient 

leur dynamique individuelle entretenue par la dynamique globale du réseau. 

Comme, à ce jour, aucune évidence biologique n’a vraiment été démontrée de rétroaction 

possible d’un neurone sur lui-même, ni, en général, de l’observation d’une dynamique individuelle 

complexe dans un neurone isolé, nous éliminerons les architecture de ce type. Nous nous 

limiterons donc, dans la liste des modèles présentés précédemment, aux modèles de neurones à 

mémoire, qui forment le type de modèles le plus général. Mais reste le choix de l’architecture, qui 

peut entretenir une dynamique du réseau, en l’absence de tout stimulus externe, afin de respecter 

l’idée, présentée au début de cette thèse, d’un système en interaction et co-évolution dynamique 

avec son environnement. 


70 


1. Architectures Feed-Forward 

La première architecture envisageable suppose qu’à chaque entrée correspond une 

seule et même sortie associée. 

Ce type d’architecture fait partie des premières développées, et correspond au 

perceptron multi-couches [[136]], et fut encouragée par l’hypothèse de la présence de 

circuits cognitifs de type perception-action : la perception correspond à l’entrée du 

réseau, et sa sortie donne l’action associée à l’entrée. De cette façon, le réseau perçoit 

son environnement, le traite, puis génère en réponse une action. Malheureusement, 

dans le cadre de cette thèse, plusieurs résultats viennent contrarier ce modèle. Cette 

architecture n’est pas biologiquement plausible : le caractère exclusivement feed-forward 

n’apparaît pas dans le système cérébral. Ce type d’architecture engendre un 

déterminisme total : à même environnement, même action. C’est l’environnement qui 

agit. De plus, un système feed-forward ne possède pas de dynamique libre non 

stationnaire. 

Figure 3-4 : Equivalence du modèle à entrée-sortie 

Il est possible de ‘déplier’un réseau de type feed-forward, en un réseau de type hopfieldien, 

sans différentiation entrée-sortie. Ainsi, l’approche perception-action des premiers modèles 

peut être généralisée à une approche interaction-association, plus générale. 

Dernier point, la différentiation entrée-sortie dans ce type de réseau n’est pas 

nécessaire. Ces réseaux peuvent être vus comme de simples réseaux à entrée, 

retrouvant celle-ci par présentation d’une entrée apprise bruitée. En effet, l’apprentissage 

de l’association d’une sortie S à une entrée E, en vue d’un rappel de la sortie désirée S, 

lors de la présentation de l’entrée associée E, peut correspondre à l’apprentissage d’une 

entrée E’=E Å S, et d’un rappel par la présentation E, troncature de E’. Selon cette 

interprétation (Figure 3-4), l’architecture feed-forward est un cas particulier d’un modèle 

plus général de mémorisation. 

Cette généralisation consiste à faire mémoriser au réseau des entrées qui lui sont 

présentées, afin de permettre un rappel lors de la présentation de l’une de ces entrées 



tronquée ou bruitée. Ce principe correspond à l’un de ceux utilisés dans les modèles 

hopfieldiens. 

Nous nous orienterons donc vers ce type de modèle, sans différentiation de neurones 

d’entrée ou de sortie, dans lequel des patterns dynamiques sont présentés au réseau, en 

vue d’un rappel ultérieur. Cette approche permet de ne pas postuler a priori d’un 

comportement behavioriste du réseau. Nous verrons par la suite que ce choix nous 

permet d’interpréter l’entrée en termes de source de perturbations pour les dynamiques 

libres du réseau. 

2. Architectures récurrentes 

L’une des méthodes les plus immédiates, tenant compte de l’état interne du réseau 

dans la détermination de sa sortie, consiste à reboucler sur les entrées du réseau 

certains de ces états internes. Ce rebouclage permet en général de maintenir une 

dynamique interne non stationnaire du réseau, et ainsi, de vérifier l’hypothèse du toutdynamique 

(2.2.2 ,p.28). 

Ce type d’architecture est biologiquement plausible puisque, dès le début des recherches 

neurophysiologiques, l’observation de connexions récurrentes dans les réseaux 

biologiques a été observée. 

Reste à déterminer l’architecture de ces connexions récurrentes. 

Dans leurs thèses, Quoy [[161]] et Cessac [[32]], démontrent qu’une connectivité 

partielle, même faible, du réseau permet de conserver ses qualités dynamiques. De plus, 

90 % des connections récurrentes du cerveau s’effectuent dans un volume de 1 cm 3 

autour du neurone considéré. Nous nous sommes donc rapidement orientés vers des 

architectures récurrentes à voisinage local. Ce type d’architecture présente d’autre part 

l’intérêt de définir une topologie simple du réseau, conforme aux distances neuronales 

(le nombre d’étapes pour que deux neurones échangent leur information est 

proportionnel à leur distance). Cette propriété nous a permis d’observer et d’interpréter 

une diffusion de l’information dans les réseaux récurrents à voisinage local. 

3. Architectures modulaires 

Il est possible de compléter l’architecture précédente, en augmentant sa pertinence 

biologique, en créant a priori des modules qui s’activent les uns les autres. Dans ce cas, 

chaque module est une architecture indépendante, faiblement connectée aux autres 

modules du réseau. Il est admis que des populations neuronales spécifiques sont 

activées lors de l’évocation d’un concept, et qu’il existe des populations neuronales 

faiblement connectées les unes aux autres, créant ainsi des modules. 

Cette modularité, étayée par la notion d’encodage par population neuronale, commence 

a être étudiée [[166]], soit par l’utilisation a priori de modules fonctionnels [[86]][[87]], soit 

par l’étude de l’apparition de modules, ou clusters d’activité, lors de l’apprentissage 

[[78]][[85]][[131]]. 

Malgré l’intérêt que présentent ces architectures, il est nécessaire, dans un premier 

temps, d’étudier simplement l’activité d’une seule population neuronale. Nous nous 

limiterons donc, dans le cadre de cette thèse, à des architectures à récurrence locale, 

régulières, qui définissent un seul module. Par contre nous nous intéresserons fortement 


72 


aux capacités de spécialisation neuronale autour des sites de forçage, ce qui revient à 

étudier des phénomènes de modularisation a posteriori. Comme nous le verrons, il est 

possible d’interpréter la spécialisation modulaire neuronale comme étant une cause de la 

spécificité des sites de forçage (5.2.4 Modularisation fonctionnelle, p.113). 

3.3 Exemples de modèles chaotiques 

Nous présentons ici quelques uns des modèles proposés, dans lesquels ont été mis en 

évidence des dynamiques chaotiques, représentatifs des rôles proposés pour le chaos. Ces 

modèles se répartissent entre ceux qui découlent de considérations purement biologiques, et ceux 

pour lesquels le chaos n’est qu’un outil, source de désordre, améliorant les capacités de 

généralisation du système. 

3.3.1 Wan et Aussem 

Les travaux d’Eric Wan [[207]][[208]]. complétés par Alex Aussem [[7]][[8]], qui a 

généralisé les algorithmes proposés aux réseaux récurrents, font partie de ceux qui ont obtenu les 

meilleurs résultats de modélisation d’une série chaotique. Ces réseaux sont composés de 

neurones à mémoire, appelés ici FIR (Finite Impulse Response), dans une architecture feedforward 

classique. 

L’apprentissage consiste à faire apprendre au réseau les associations X(t),X(t+1), ce qui 

permet, après apprentissage, en rebouclant les sorties sur les entrées, d’obtenir un réseau dont la 

dynamique des sorties modélise la série temporelle apprise X(t). 

Cet apprentissage est une simple généralisation de l’algorithme de rétropropagation du 

gradient au modèle de neurone à mémoire. Il revient à modifier les vecteurs poids 25 par : 

Avec : 

l 

l 

l+ 

1 l 

W ( t+ 1) 

= W () t -hd 

(). t X () t 

ij 

ij 

l ( j ) 

l ( ) 

l 

d () t =- 2e 

() t s ¢ h () t si l= L 

j 

j j 

l 

l+ 

1 l 

d () t = s ¢ h () t d () tW () t sil¹ L 

j 

m= 

1 


N 

l+ 

1 

å 

Cet algorithme revient donc, de la même façon que la rétro-propagation du gradient rétropropage 

l’erreur, à rétro-convoluer les vecteurs poids avec les vecteurs d’erreur 

l 

l l 

l 

l l-1 

d ( t) = [ d ( t), d ( t + 1), d ( t+ 2),..., 

d ( t+ M )] 

m 

l 

d j 

m 

m 

-1 

(), t et calculer ainsi l’évolution des poids. 

m 

m 

m 

j 

jm 

i 

, afin d’obtenir les nouvelles composantes 

L’efficacité de cet algorithme a été démontrée sur l’apprentissage d’une fonction de Lorenz 

et de Henon. Dans les deux cas, il est très intéressant de remarquer que non seulement l’erreur 

atteinte après apprentissage est faible, mais aussi que les réseaux obtenus sont sensibles aux 

conditions initiales. En effet, lors de son régime libre, le réseau s’écarte vite de la dynamique 

25 Un vecteur poids contient l’ensemble des poids synaptiques pour une synapse donnée, pour chaque retard 

du neurone à mémoire.


apprise, mais reste sur l’attracteur appris. Ce type de réseau vérifie donc la propriété de 

dépersévération des dynamiques apprises, et est donc un bon candidat pour notre tentative de 

modélisation. 

Ces résultats nous ont confortés dans le choix de modèles neuronaux à mémoire, 

démontrant que des architectures simples de neurones à mémoire peuvent générer des 

dynamiques chaotiques complexes. Nous nous sommes donc inspirés de ces principes lors du 

développement de la règle dérivée de BPTT pour les neurones à mémoire (8.3 Diffusion de 

l'erreur dans le réseau, p.190). Malheureusement, des aveux même de l’auteur 26 , l’apprentissage 

est particulièrement difficile à réaliser. Il faut déterminer à la main le nombre de neurone de 

chaque couche, la mémoire de chaque neurone, le gain d’apprentissage, et le faire varier durant 

l’apprentissage. Les résultats obtenus l’ont été par tâtonnement successif. 

Autre obstacle, cet algorithme ne peut pas être utilisé dans des réseaux récurrents. La 

généralisation d’Aussem aux réseaux récurrents, malgré ses bons résultats, est malheureusement 

impossible à employer dans nos réseaux. En effet, cet algorithme découle de la recherche du 

minimum de la fonction d’erreur par descente de gradient, et utilise des techniques non 

biologiquement plausibles (inversion de la matrice des poids par exemple). 

3.3.2 Renals 

Ce modèle [[164]] est l’un des plus simples dans lequel peut apparaître du chaos. Il 

s’agit d’un simple modèle hopfieldien à coefficients non symétriques. L’intérêt de cette étude tient 

dans la quantification précise du rôle de certains paramètres du réseau, et la mise en évidence du 

caractère bifurquant de ces paramètres. 

Le modèle étudié suit une équation du type : 

æ 

ö 

1 

xi( t+ Dt= ) ( 1- 

Dt) xi() t + Dtsçråwijxj() 

t + Ii() t ÷ avec s ( x) 

= , -x 

è j 

ø 

1+ 

e 

pour des réseaux comportant peu de neurones (une dizaine), entièrement interconnectés. 

La matrice de connectivité est décomposée en la somme de deux composantes, l’une symétrique, 

l’autre antisymétrique. Renals étudie de façon précise l’effet du taux de symétrique de la matrice 

de connexion, du gain r de la fonction neurone, et du pas de discrétisation Dt , sur le 

comportement dynamique du réseau. Cette étude précise démontre la richesse dynamique des 

réseaux hopfieldiens à matrice de connexion non symétrique et à temps discret, même dans de 

petits réseaux, dont nous nous inspirerons. 

3.3.3 Chapeau Blondeau 

Ce modèle [[39]] complète le précédent, en étudiant des réseaux d’équation: 

æ ö 

1 

xi( t+ 1) 

= s i çåwijxj() 

t ÷ avec s i( x) 

= -bi( x-q 

i) 

è j ø 

1+ 

e 

Il est montré que de tels réseaux développent aussi une grande richesse dynamique, 

allant des comportements périodiques, aux quasi-périodiques, jusqu’au chaos. Il est possible de 

26 Communication personnelle 


74 


modifier la dynamique de tels réseaux, soit par des modifications internes (évolution des poids 

synaptiques), ou externes (entrées du réseau, via la modification des seuils q i ). 

Cette dernière interprétation est à l’origine de notre modèle, où les entrées extérieures 

forcent les xi, modifiant les dynamiques du réseau autour des sites de forçage. Après s’être limité 

à l’étude des dynamiques de tels réseaux, ce travail ouvre la voie à l’étude de l’apprentissage 

dans les réseaux à dynamiques chaotiques. Il conclut en effet par la nécessité d’étudier les 

mécanismes probables d’encodage par les dynamiques chaotiques, et la faisabilité d’une théorie 

de l’information prenant comme support les attracteurs des dynamiques chaotiques. 

3.3.4 Doyon, Cessac, Quoy 

Le réseau développé s’inspire des précédents, et correspond à un réseau hopfieldien, à 

connexions non-symétriques, à connectivité diluée 27 : 

x ( t+ 1) 

= sa ( w x () t -q) 

i ij j i 

j= 

1 

Et où sont étudiées les dynamiques moyennes du réseau : 


k 

å 

net 

N 

Nå i= 

1 

i 

1 m () t = x () t 

Cette architecture simple est biologiquement plausible, et conforte les hypothèses de 

Freeman [[180]], qui suppose qu’il y a diminution de la dimension fractale des dynamiques 

cérébrales, lors de la reconnaissance. Les résultats de Doyon et Quoy [[68]][[161]] démontrent 

rigoureusement qu’un simple apprentissage hebbien dans ce type de réseau permet de faire 

diminuer la dimension fractale de l’activité moyenne du réseau lors de l’apprentissage d’une 

entrée apprise. 

Ce résultat est d’un grand intérêt car il démontre qu’un apprentissage hebbien, inspiré du 

biologique, appliqué à un réseau artificiel, permet de retrouver des phénomènes observés dans 

les réseaux biologiques, à savoir la diminution de la dimension fractale lors de la reconnaissance. 

Ce résultat est donc très encourageant quant à la faisabilité d’une modélisation des capacités de 

mémoire des systèmes cognitifs biologiques. 

3.3.5 Babloyantz Destexthe 

Les réseaux de neurones à délais présentés dans [[9]], s’inspirent directement de 

modèles neurophysiologiques, et sont hétérogènes, composés de deux types de neurones : les 

neurones excitateurs x, et les neurones inhibiteurs y. Il existe donc quatre types de connexions 

synaptiques (E-E (1),E-I (2),I-E (3),I-I (4)), qui se retrouvent dans les équations d’évolution du 

modèle : 

27 Ce qui signifie que deux neurones quelconques du réseau sont reliés, selon une probabilité qui donne le 

taux de dilution du réseau.


dxi 

æ 

ö 

=-g( xi-u0) -( xi-E1) ç wki s xk( t- t ki) 

+ Tgx ( ) ( x E ) w s y ( t t ) 

dt 

è 

ø 

( 1) 

( 2) 

å ( ) i ÷- i - 2 å li ( 1 - li ) 

k 

dyi 

=-g( yi -u0) -( yi-E1) wki s xk( t-t ki ) -( y -E ) w s y ( t-t 

) 

dt 

( 3) 

( 4) 

å ( ) i 2 å li ( l li ) 

k 

Les entrées sont additives, et s’ajoutent à l’influence des neurones excitateurs sur les 

neurones excitateurs (E-E). Cette étude démontre que des dynamiques chaotiques apparaissent 

dans ce réseau lorsque aucune entrée n’est présentée, et que, en fonction de la vitesse de la 

dynamique d’entrée, il y a réduction de la dimension fractale. Il apparaît des phénomènes de 

synchronisation dépendant de la vitesse des dynamiques d’entrée. Ce modèle nous a inspiré l’idée 

de forçage par les dynamiques externes, et la notion d’encodage par synchronisation de 

populations neuronales. En effet, il est clairement montré dans cette étude que le site d’entrée 

diffuse son activité, en synchronisant des populations voisines. 

3.3.6 Freeman 

Les travaux de Freeman découlent directement d’une étude neurophysiologique chez le 

lapin. Après avoir observé et analysé les dynamiques chaotiques des neurones du système olfactif 

du lapin[[180]], il a construit un système artificiel aussi proche que possible, dans lequel il a pu 

obtenir des dynamiques proches de celles observées dans le cas biologique. 

L’intérêt de l’approche de Freeman réside principalement dans sa méthodologie : après 

analyse précise d’un modèle biologique, il le modélise, en interprète les comportements, et tente 

de retrouver ces comportements dans ses simulations. Il y a ainsi un aller-retour permanent entre 

le biologique et l’artificiel. Freeman fut aussi l’un des premiers à donner au chaos un rôle actif 

dans la modélisation de l’activité cérébrale [[180]]. Il y voit deux rôles : l’un est un moyen d’assurer 

un accès à l’information préalablement apprise, et l’autre est le moyen d’apprendre de nouveaux 

patterns sensitifs. 

Après avoir, dans un premier temps, proposé des règles d’apprentissage simples, ayant 

pour objet de renforcer les connexions synaptiques de neurones corrélés, il cherche actuellement 

à contrôler les dynamiques individuelles des neurones[[218]]. Il semblerait, dans ce dernier article, 

qu’il soit confronté aux problèmes de l’apprentissage de dynamique dans les réseaux récurrents, 

problème qui a limité aussi nos résultats. 

3.3.7 Kohonen logistique 

Ce modèle [[63]] s’écarte des approches précédentes, en faisant du chaos un simple 

outil permettant de bruiter l’activité du réseau, et de maximiser ainsi les chances de segmentation 

valide du paysage des entrées. Les auteurs utilisent le modèle logistique présenté précédemment 

(2, p.69), dans un réseau de type Kohonen, avec un apprentissage du type ‘winner takes all’. Leurs 

résultats démontrent l’intérêt de ce type de réseau : les segmentations obtenues sont meilleures 

que celles d’un réseau de Kohonen classique. Par contre, le chaos reste ici une simple source de 

bruitage des états, ce qui correspond aux méthodes utilisées dans les réseaux probabilistes. 

Ce modèle n’est pas crédible biologiquement, mais il démontre l’intérêt du chaos dans la 

qualité de l’apprentissage réalisé : les classes apprises de cette façon facilitent la généralisation. 

MODELES CONNEXIONNISTES DYNAMIQUES 75 

l 

l



La profusion des modèles connexionnistes développés limite la possibilité de choisir 

clairement un modèle de réseau dynamique en fonction des propriétés que l’on espère obtenir. 

Comment dégager un modèle qui nous permette, comme nous l’avons proposé précédemment, 

d’obtenir une complexification des dynamiques lors de la présentation d’entrées inconnues, une 

simplification des dynamiques après apprentissage, et le maintient d’un comportement chaotique, 

source de dépersévération pour le système ? 

Dans les modèles étudiés, l’approche qui nous semble être la plus proche est celle 

réalisée par Doyon, Cessac, Quoy et Samuelides [[68]], qui a confirmé la possibilité de 

simplification des attracteurs du réseau, lors de la reconnaissance, grâce à un apprentissage 

Hebbien, et qui a montré la coexistence de plusieurs attracteurs dans la dynamique d’un réseau, 

qui seraient des supports potentiels pour l’encodage. Les choix réalisés lors du développement de 

nos modèles seront donc proches de ceux-ci, et nous utiliserons aussi des réseaux de type 

hopfieldien, avec une connectivité partielle des neurones. Afin de se rapprocher d’un modèle 

biologique simplifié, cette connectivité partielle sera limitée au voisinage proche du neurone. 

De plus, comme nous souhaitons analyser les capacités de synchronisme de tels réseaux, 

nous observerons les dynamiques individuelles de populations locales de neurones, au lieu de la 

dynamique de la moyenne des états du réseau. 

En conclusion de la thèse réalisée par Mathias Quoy [[161]], celui-ci notait l’intérêt d’une 

étude du rôle des retards sur les dynamiques chaotiques, ce qui prolongerait ses travaux. Un tel 

paramètre participe à la synchronisation locale de populations neuronales, et sera donc utilisé 

dans nos modèles. Comme l’utilisation d’un délai dans un réseau suppose la mémorisation des 

états passés du réseau, il était aussi simple de compléter le modèle hopfieldien classique par un 

modèle à mémoire. De plus, les résultats de Wan démontrent la faisabilité de l’apprentissage de 

fonctions chaotiques dans les réseaux à mémoire. Cette mémoire des entrées du neurone sera 

généralisée à celle des sorties du réseau, qui ajoute la notion de période réfractaire, qui facilite la 

diffusion de l’activité dans le réseau (Figure 7-21, p.163). 

Ainsi, le rôle proposé pour le chaos, confronté aux études déjà réalisées, nous permet de 

nous orienter vers un modèle hopfieldien, à voisinage local, à neurones à mémoire en entrée et en 

sortie. Un tel modèle possède un trop grand nombre de paramètres pour pouvoir déterminer de 

façon théorique son comportement, et il sera donc nécessaire d’orienter les recherches vers une 

expérimentation des comportements de ce type de réseau. Dans ce but, l’ordinateur parallèle du 

TIMC, le DEC-MPP12000, nous a permis de développer un outil, aussi général que possible, qui 

peut simuler le plus grand nombre possible de réseaux différents. 


[[1]] Sergey K. Aityan.. Recurrent refractory neural field IEEE. O-7803-0559-0/92 .p 140-145 (1992) 

[[9]] A. Babloyantz, A. Destexhe. Nonlinear analysis and modelling of cortical activity. Mathematics 

applied to biology and medecine. J. Demongeot, V. Capasso (edts). ISBN 0-920063-63-2. p 35-48 

(1993) 

[[10]] A. Babloyantz, C. Lourenço. Computation with chaos. A paradigm for cortical activity. Proc. Natl. 

Acad. Sci. USA. Vol.91, p.9027. (1994) 

76 



[[20]] Roman M. Borisyuk, Alexandr B. Kirillov. Bifurcation analysis of a neural network model. Biol. 

Cyber. 66. p319-325. (1992) 

[[26]] Nicolas Brunel. Dynamics of an attractor neural network converting temporal into spatial 

correlations. Network : Computation in neural systems. 5. p449-470. (1994) 

[[32]] Bruno Cessac. Propriétés statistiques des dynamiques de réseaux neuromimétiques. Thèse. (1994)] 

[[33]] Bruno Cessac. Increasing of complexity in random neural networks. soumis au Journal de physique 

: cross- disclinary physics. 

[[34]] Bruno Cessac. Ocurrence of chaos and AT line in random neural network. Europhysics letters. 

26(8). p577-582. (1994) 

[[35]] B. Cessac, B. Doyon, M. Quoy, M. Samuelides. Mean field equations, bifurcation map and route to 

chaos in discrete time neural networks. Physica D. 74. p24-44. (1994) Bruno Cessac. Propriétés 

statistiques des dynamiques de réseaux neuromimétiques. Thèse. (1994) 





[[43]] Francois Chapeau-Blondeau. Analysis of neural networks with chaotic dynamics. Chaos, Solitons 


[[57]] Gustavo Deco. Neural learning of chaotic dynamics. 

[[62]] A. Destexhe (alain@helmholtz.sdsc.edu). Stability of periodic oscillations in a network of neurons 

with time delay. à paraitre dans Physics Letters A. 

[[63]] Migzhou Ding, J.A Scott Kelso. Controlling chaos : a selection mechanism for neural in-formation 

processing 

[[64]] Alison A. Dingle, John H. Andreae, Richard D. Jones. The chaotic self-organizing map.0-8186- 

4260-2/93. IEEE. p15-18. (1993) 

[[64]] Alison A. Dingle, John H. Andreae, Richard D. Jones. The chaotic self-organizing map.0-8186- 

4260-2/93. IEEE. p15-18. (1993) 

[[68]] B. Doyon, B. Cessac, M. Quoy, M. Samuelides. Control of the transition to chaos in neural 

networks with random connectivity. International journal of bifurcation and chaos. Vol. 3. No. 2. 

p279-291. (1993) 

[[78]] David Golomb, John Rinzel. Clustering in globally coupled inhibitory neurons. Physica D. 72. 

p259-282. (1994) 

[[85]] Hansel, G. Mato, C. Meunier. Clustering and slow switching in globally coupled phase oscillators. 

Physical Review E. Vol. 48. No.5. p3470-3477. (1993) 

[[86]] Bart L.M. Happel (happel@rulfsw.leidenuniv.nl) , Jacob M.K. Murre. Evolving complex dynamics 

in modular interactive neural networks. Soumis a Neural Networks. 

[[87]] Bart L.M Happel, Jacob M.J Murre. The design and evolution of modular neural network 

architectures. Neural Networks. Vol.7. p985-1004. (1995) 

[[90]] Hendin, D. Horn, M. Usher. Chaotic behavior of a neural network with dynamical thresholds. 

International journal of neural systems. Vol.1. No4. p327-335. (1991) 

[[103]] Masayoshi Inoue, Seiichirou Fukushima. A neural network of chaotic oscillators. Prog. Theor. 

Phys. Vol.87. No.3. (1992) 

[[131]] Nobuyuki Matsui, Elichi Bamba. Neural activities and cluster-formation in a random neural 

network. 



[[104]] Shin Ishi. Kenji Fukumizu. Sumio Watanabe. A network of chaotic elements for information 

processing. Neural Networks. Vol. 9. No 1.p25-40. (1996) 

[[121]] E. Labos. Chaos and neural networks. 

[[142]] Shigetoshi Nara, Peter Davis, Hiroo Totsuji. Memory search using complex dynamics in a 

recurrent neural network model. Neural Networks. Vol. 6. p963-973. (1993) 

[[157]] Pinaki Poddar, K. P. Unnikrishnan. Memory neuron networks : A prolegomenon. General motors 

research laboratories. CMR-7493. 21 octobre. (1991) 


[[166]] Eric Ronco, Peter Gawthrop. Modular neural networks : a state of the art. Technicalre-port CSC- 

95026. (1995) 

[[169]] Toshimichi Saito. Chaos and fractals from forced artificial neural cell. IEEE TNN. Vol.4.No.1. 

(1993) 



[[198]] Fu-Sheng Tsung(tsung@cs.ucsd.edu), Garrison W. Cottrell (gary@cs.ucsd.edu). Hopf bifurcation 

and hopfhopping in recurrent nets. 

[[218]] Yong Yao, Walter J. Freeman (wfreeman@garnet.berkeley.edu). Model of biological pattern 

recognition with spatially chaotic dynamics. Neural Networks. Vol. 3. pp 153-170. (1990) 

78 



4. APPRENTISSAGE DANS LES RESEAUX RECURRENTS 

La mémoire est une forme de l’habitude, et l’habitude est une 

caractéristique du système nerveux, bien qu’elle puisse exister ailleurs, 

par exemple dans un rouleau de papier qui s’enroule à nouveau une fois 

déroulé. 

Bertrand Russell. Science et Religion. p 98 

4.1 Introduction : Reproduire un état passé 

Qu’est-ce qu’apprendre ? Est-ce la capacité de reproduire une information enregistrée ? 

Dans ce cas, une cassette audio ou vidéo, une mémoire d’ordinateur, ou même une feuille 

blanche sont douées de capacité d’apprentissage. Doit-on ajouter à la définition d’apprentissage 

des notions de plus haut niveau comme celles de classification, d’organisation, ou d’agencement 

des données apprises ? Dans ce cas, une base de données vérifie ces propriétés. Faut-il alors 

qu’il y ait réutilisation des données apprises pour la résolution de tâches complexes ? Où s’agit-il 

d’un phénomène d’aussi bas niveau que celui du papier qui s’enroule de nouveau ? Il semble 

qu’existent plusieurs définitions de l’apprentissage, chacune caractérisant un type particulier de 

l’utilisation de la mémoire : mémoire de travail, mémoire échoïque, mémoire de rappel, mémoire 

de reconnaissance... Mais quelle est la composante commune à ces définitions? 

Cette composante commune sera l’une des propriétés recherchées dans cette thèse, qui 

sera ramenée à la définition bas-niveau : 

Un stimulus est mémorisé par un système si ce système peut reproduire l’état interne 

qu’il avait lors de la perception de ce stimulus. 

Cette reproduction d’une information passée doit être possible soit de façon spontanée par 

le système, soit par présentation partielle ou bruitée de l’état à retrouver. Cette définition du 

phénomène de mémorisation permet d’utiliser l’ensemble des recherches réalisées dans le cadre 

de l’apprentissage de séries temporelles : le système doit chercher à reproduire la dynamique 

dans laquelle une perturbation passée l’a déjà mis. Comme nos réseaux sont récurrents, quelques 

règles peuvent être proposées, développées ces dernières années, dont les principales sont le 

Back Propagation Trough Time et le Real Time Recurrent Learning. Malheureusement, ces règles 

ne sont pas plausibles biologiquement. Nous essaierons donc de décrire les bases de ces règles, 

APPRENTISSAGE DANS LES RESEAUX RECURRENTS 79


afin d’en dégager les principes qui peuvent nous orienter dans la mise au point de règles 

d’apprentissage implantables dans les réseaux récurrents, qui conservent ces critères de 

plausibilité biologique (4.5 Limites, p.89). Nous tenterons dans ce chapitre de dégager les 

quelques idées qui nous serons utiles pour la phase d’apprentissage, en nous permettant de 

dégager un algorithme plus plausible biologiquement que ceux de RTRL ou de BPTT. 

4.2 Apprentissage Hebbien 

Cette règle date de 1949 [[88]], et l’on oublie souvent l’interprétation première de Hebb, 

qui y voyait l’un des principes permettant le rappel et le renforcement d’une activité cérébrale : 

80 

Let us assume that the persistence or repetition of a reverbatory activity 

tends to induce lasting cellular changes that add to its stability [...] 

When an axon of cell A is near enough to excite a cell B and repeatedly 

or persistently takes part in firing it, some growth process or metabolic 

change takes place in one or both cells such that A’s efficiency, as one 

of the cells firing B, is increased. 

Ce terme de réverbération revient dans d’autres propos de Hebb : 


Hebb. The organisation of behaviour. (1949) 

It seems that short term memory may be a reverberation in the closed 

loops of the cell assembly and between cell assemblies, whereas long 

term memory is more structural, a lasting change of synaptic 

connections. 

Hebb & Donderi. (1987) 

Il semble donc que Hebb interprétait ses règles d’apprentissage en terme de dynamique. 

Pourtant cette règle, dans son formalisme courant, est une règle qui symétrise les poids 

synaptiques, et qui conduit le réseau vers des dynamiques à point fixe 28 . En effet, la règle 

hebbienne, telle qu’elle est couramment formalisée suit une loi du type : 

dwij =axx 

i j 

qui vérifie dwij=dwji, ce qui finit par amener wij=wji, et donc à figer les dynamiques du 

réseau. Un tel phénomène peut se voir sur la Figure 8-2, page 187, où l’attracteur finit par 

converger vers un point fixe. Il est donc nécessaire. Si l’on souhaite rappeler des dynamiques 

passées, il s’avère nécessaire de trouver une règle qui puisse modifier les attracteurs du réseau, 

sans les ramener pour autant à de simples points fixes. 

4.3 Maximisation de l'entropie de sortie 

Ce résultat, dû à Chapeau-Blondeau [[42]], permet de justifier l’approche de 

l’apprentissage hebbien, par la maximisation de l’entropie de sortie de chaque neurone. En effet, 

dans le cas d’un neurone possédant une fonction sigmoïde du type : 

28 Faut-il voir là un phénomène similaire à celui qui se manifeste chez les personnes agées, qui tendent à 

réitérer les mêmes comportements ?


1 

y= f( x) 

= -b( wx-q) 

1+ 

e 

Il est possible de définir l’entropie de l’état d’un neurone par 

¥ 

ò 

-¥ 

x 2 x 

H( x) = p ( x).log p ( x). dx 

La modification de cette entropie, lors du passage par la fonction neurone f, donne : 

H( y) = H( x) + H ( x) 

avec H ( x) = p ( x).log f ¢ ( x). dx 

trans 

trans 

¥ 

ò 

-¥ 

x 

2 

Si l’on cherche alors à maximiser Htrans, ce qui revient à maximiser H(y) pour un x donné, 

et donc à maximiser l’entropie de sortie d’un neurone, il est possible de modifier les paramètres q 

et w de la fonction f, par : 

Soit, après calculs : 

d H 

et 

dt 

dw 

q 

H 

a a 

q dt w 

 

= = 

 

trans trans 

d 

y et 

dt 

dw 

q 

æ 1 

1 ö 

= 2ab( 

- 2) 

= aç + b( 

x-2 xy) 

÷ , avec pour u=f(x), u = u x px x dx 

dt è w ø 

ò ( ). ( ). 

L’intérêt de ce calcul est de faire apparaître dans l’apprentissage sur les poids, un terme 

en xy, qui rapproche une telle évolution de celle d’un apprentissage hebbien. Ainsi, le rôle d’un 

apprentissage hebbien peut être de maximiser l’entropie informationnelle de sortie des neurones. 

4.4 Descente du gradient de l’erreur 

L’algorithme de rétropropagation du 

gradient permet de faire apprendre à un 

réseau de neurones feed-forward 

multicouches des associations entrée-sortie. 

Dans cette architecture, l’information ne se 

propage que dans un sens, de l’entrée vers 

la sortie, confortant un peu plus le paradigme 

de boucle perception-action. Une telle 

architecture, de type perceptron 

multicouches, ne peut pas produire de sortie 

dynamique sans posséder de rétroaction 

dans son architecture. 

L’algorithme de rétropropagation du 

gradient fut ensuite généralisé aux 

Figure 4-1 : Partition des neurones 

architectures récurrentes, tout d’abord pour 

l’apprentissage de points fixes, puis en vue de l’apprentissage de séries temporelles. Nous 

APPRENTISSAGE DANS LES RESEAUX RECURRENTS 81 

¥ 

-¥

82 


présentons dans cette partie, l’ensemble des algorithmes qui permettent de réaliser 

l’apprentissage par descente de gradient dans les réseaux récurrents, en espérant ainsi dégager 

des principes qui peuvent être appliqués à nos réseaux. Dans tous les paragraphes qui suivent, 

l’ensemble S, de cardinal N, des neurones est séparé en trois sous-ensembles : Se, les neurones 

d’entrée (ces neurones possédant une entrée additive I t 

i ()), Sc, les neurones cachés, et Ss, les 

neurones de sortie (Figure 4-1). Cette partition de l’ensemble des neurones, classique dans le 

connexionnisme, peut être rapprochée du schéma utilisé pour représenter le système et son 

environnement (Figure 4-1). Les apprentissages évoqués ici permettent de faire suivre la 

dynamique désirée à chacun des neurones de sortie. 

Dans les développements qui suivent, nous définirons : 

xi(t), la sortie du neurone i au temps t 

pour i S s 

Î , x$ () t , la sortie désirée du neurone i 

i 

et m p (), t les paramètres du réseau au temps t 

L’erreur instantanée d’un neurone de sortie est alors définie par : 

1 

Et () = x$() t -x 

() t 

2 

å( 

i i ) 

iÎSS La descente de gradient revient à modifier au cours du temps les paramètres du réseau 

pour minimiser cette erreur. Or, l’évolution de l’erreur au cours du temps est donnée par : 

Ainsi, si nous posons d 

m 

dt 

p 

dE 

dt 

R 

dE dm 

p 

å dm 

dt 

= 

p= 

1 


p 

dE 

=- h , avec h > 0 , il est garanti que 

dm 

dE 

< 0 

dt 

Dans le cas où les paramètres du réseau sont les poids w ij , soit : 

La règle d’apprentissage revient à : 

p 

{ m 1 ,..., m p,..., m R } = { w11 , ,..., wi, j,..., wNN 

, } 

dw 

dt 

ij 

dE 

=-h 

dw 

Cette dernière équation montre qu’une des méthodes d’évolution des paramètres du 

système consiste à évaluer dE 

dWij , qui peut être calculé à partir des équations de propagation 29 qui 

sont (avec s, une fonction sigmoïde, appelée aussi fonction neurone) : 

29 Il est possible de passer simplement du cas discret au cas continu... 

ij 

2


ou 

å 

ìhi() 

t = wij () t xj() t 

ï 

jÎS í 

îïxi( 

t + 1) = s( 

hi( t)) + Ii() t 

* 

ìdhi 

* * 

ï () t + hi () t = åwij 

() t xj() t 

ídt 

jÎS ï * * 

îxi() 

t = s( 

hi( t)) + Ii() t 

4.4.1 Recurrent back-propagation 

en temps discret 

en temps continu 

Cet apprentissage utilise la descente de gradient pour faire apprendre des points fixes à 

des réseaux récurrents, en utilisant les règles de dérivation en chaîne. En effet : 

Ce qui donne, avec xi 

h 

i 

E 

w 

E xi 

hi 

= 

x h w 

ij i 

= s ¢( hi( t)) 

,et hi 

w 

E 

w 

ij 

i 

= x (): t 

 

s 

E 

= ¢( hi()) t xj() t 

x 

ij i 

Cette dernière équation montre qu’il est possible d’exprimer E 

en fonction de E 

, 

que l’on peut calculer en utilisant la technique de dérivation en chaîne (en déroulant les 

calculs à partir des neurones de sortie) qui est définie de façon récursive par: 

Ce qui amène, en posant z 

i 

+ N + 

E E E x 

= + å 

x x x x 

i i j = 1 j 

+ 

E E 

= et ei 

= = x$ i - xi 

: 

x x 

i 

N x 

N 

j 

x j h 

N 

j 

zi = ei + åzj = ei + åzj = e + åz 

s¢ 

( h ) w 

x 

h x 

i 

i j j ji 

j= 

1 i 

j= 

1 j i 

j= 

1 

Les équations d’évolution des poids amènent alors à 

dw 

dt 

ij 

E 

=- h =- ¢ h zx 

w 

 

hs ( ) 

 

ij 

j 


ij 

j 

i 

i i j 

Ainsi, cette technique de descente de gradient peut se résumer aux équations 

suivantes : 

 

w ij 

 

x i

84 


z = e + åz s ¢ ( h ) w 

i i j j ji 

j= 

1 

dw 

dt 

ij 


N 

= - hs ¢ ( h) zx 

j i j 

Ces deux dernières équations résument la méthode utilisée pour appliquer la descente 

de gradient dans un réseau récurrent. Dans le cas de la Recurrent Back Propagation, on 

suppose à priori que la dynamique du réseau est convergente. Dans ce cas, on applique 

ces équations après stabilisation du réseau, c’est-à-dire à t = ¥ 30 . Ce qui donne : 

N 

z ( t+ 1= ) e( ¥ ) + z ( t) s¢ 

( h ( ¥ )) w avec z ( t = 0) = 0 

i i j j ji 

j= 

1 

nouveau ancien 

w = w - hz( ¥ ) s¢ 

( h ( ¥ )) x ( ¥ ) 

ij 

ij 

å 

i i j 

Equation 4-1 : RBP en temps discret 

ou, dans le cas du temps continu : 

( ) 

* 

N 

dzi 

* * * 

+ z= i ei( ¥ ) + åzj() t s¢ 

hj( ¥ ) wji avec zi( t = 0) = 0 

dt 

j= 

1 

( ) 

nouveau ancien 

* 

Dw 

= w - w =- h z ( ¥ ) s¢ 

h( ¥ ) x ( ¥ ) 

ij ij 

ij 

i i j 

Equation 4-2 : RBP en temps continu 

Cet algorithme dans le cas discret peut être résumé dans le tableau suivant : 

t=0 

0


4.4.2 Back-propagation through time 

Cet algorithme dérive des équations précédentes, en généralisant l’apprentissage à celui 

de séries temporelles, où il existe un x$ () t désiré en sortie pour chaque temps t. L’erreur 

i 

quadratique qui permet de réaliser cet apprentissage est alors égale à la moyenne des erreurs 

instantanées réalisées pendant la présentation de la trajectoire à apprendre. L’idée principale de 

cet algorithme consiste à dérouler le temps à l’envers pendant la phase d’apprentissage, ce qui 

revient à transformer dt en -dt dans l’Equation 4-2. Pour faire évoluer les poids, la nouvelle erreur 

à minimiser étant la valeur moyenne de E(t), on obtient : 

Ou, dans le cas discret : 

N 

dzi 

-= zi -ei() t - åzj() 

t s¢ 

( hj()) t wji avec zi( t = t1) 

= 0 

dt 

j= 

1 

t 

E 

wij ( t ) = wij ( t ) - h ò dt = wij ( t ) - ¢ ( hit ) zit xjt w ò () () () 

 

1 

1 

1 0 0 h s 

 

t 

0 

ij 

Equation 4-3 : BPTT dans le cas continu 

N 

å 

( ) 

z ( t - 1) 

= z () t s¢ 

h () t w + e () t 

i j j ji 

j= 

1 

t= t1 

å 

( ) 

w ( t ) = w ( t ) - h s¢ 

h () t z () t x () t 

ij 1 ij 0 

i i j 

t= t0 

Equation 4-4 : BPTT dans le cas discret 

Ces équations peuvent être résumées dans le tableau suivant : 

t=0 

0

86 


Cet algorithme peut être vu aussi comme un déploiement du réseau sous forme 

d’architecture feed-forward : l’évolution du réseau récurrent pendant K itérations est alors 

ramené à son équivalent feed-forward à K couches. 

4.4.3 Real time recurrent learning 

1. Dans le cas discret 

L’algorithme précédent est peu plausible biologiquement : l’apprentissage remonte 

dans le passé du réseau pour déterminer l’influence qu’a eu chaque poids synaptique sur 

l’erreur moyenne finale. Il nécessite donc, si l’on veut réaliser un apprentissage optimal, 

de mémoriser l’ensemble des variables du réseau pendant toute son évolution. 

Cette contrainte est atténuée dans l’approche utilisée par Williams et Zipser 

[[213]][[214]][[215]][[216]][[221]][[222]]. 

k 

Leur approche consiste à fabriquer une variable pij ()qui t mémorise à chaque pas de 

temps, l’influence du poids w ij sur la sortie x k du neurone k . L’intérêt de cette approche 

k 

est que les pij ()sont t calculables de façon itérative, et il n’est donc plus nécessaire, 

comme dans le cas du BPTT, de mémoriser tout le passé du réseau. 

Pour calculer de façon itérative l’influence de chaque poids du réseau sur l’erreur 

instantanée, nous avons : 

E æ1 

= ç - 

w w è2kÎS 

ij ij 

x 

Soit, en posant : p t 

w t 

k k 

ij () = () 

 

 

ij 

å( 

x$ k () t xk() t ) 

å( 

x$() kt xk() t ) 

=- - 

kÎS E 

w 

ij 

S 

=- 

kÎSS PREMIERE PARTIE : ANALYSE 

S 

x 

w 

k 

å ek() t pij () t 

k 

Il est alors possible de calculer les pij ()de t façon itérative. En effet : 

k xk( t + 1) xk( t+ 

1) 

hk() t 

pij ( t+ 

1) 

= = 

= s¢ 

w h () t w 

ij 

æ xl() t 

ö 

= s¢ 

( hk() t ) å ç 

çwkl 

+ dikdljxl() t ÷ 

l Sè 

w 

÷ 

Î ij 

ø 

æ xl() t ö 

= s¢ 

( hk() t ) å ç 

çwkl 

+ dikxj() 

t ÷ 

l Sè 

w ÷ 

Î ij ø 

k 

ij 

k 

ij 

2 

ö 

÷ 

ø 

( hk() t ) å 

lÎS 

( w x () t ) 

kl l 

w 

ij


(en supposant que les poids wij et wkl sont indépendants entre eux). 

Ce qui amène finalement : 

k 

æ 

k 

ö 

pij ( t+ 1) = s¢ ( hk() t ) çåwkl 

pij () t + dikxj() 

t ÷ 

è 

ø 

lÎS Et () 

wij() t =- h = 

w 

 

D 

h 

 

ij 

å 

kÎSS k 

e () t p () t 

k ij 

EQUATION 4-5 : RTRL DANS LE CAS DISCRET 

Cet algorithme peut être résumé dans le tableau suivant : 

Evolution Apprentissage 

t=0 p ij 

å 

t>0 ìhi() 

t = wij () t xj() t 

ï 

jÎS í 

îïxi( 

t + 1) = s( 

hi( t)) + Ii() t 

2. Dans le cas continu 

k 

( 0) = 0 

k 

æ 

k 

ö 

pij ( t + 1) = s¢ ( hk() t ) çåwklpij 

() t + dikxj() 

t ÷ 

è 

ø 

Et () 

wij() t =- h = 

w 

 

D 

h 

 

k 

e () t p () t 


ij 

lÎS å 

k ij 

kÎSS En reprenant les équations de propagation dans le cas discret, il est possible de les 

généraliser dans le cas continu : 

Soit : 

dp 

dt 

dp 

dt 

k 

ij 

k 

ij 

= 

d 

dt 

æ x ö 

k dxk 

ç 

÷ 

w ÷ 

è ij ø wij 

dt wij 

= 

æ ö 

ç ÷ = - 

è ø 

 

= s( 

h ) - p 

w 

ij 

k 

k ij 

k hk 

+ pij 

= ( hk 

) = 

wij hk 

æ 

 

ç 

ç 

è 

s 

å 

lÎS 

( s( 

hk ) xk 

) 

( wx) 

w 

kl l 

ij 

ö 

÷ s¢ 

ø 

Ce qui amène, en reprenant les calculs réalisés dans le cas discret : 

dp 

dt 

k 

ij 

( h) 

k 

æ 

l 

ö 

() t + pij () t = s¢ ( hk() t ) çåwkl 

pij() t + dikxj() 

t ÷ 

è 

ø 

N 

å 

k 

Dw 

() t = h e () t p () t 

ij k ij 

k= 

1 

lÎS Equation 4-6 : RTRL dans le cas continu 

k

88 


3. Dans les réseaux à différence finie 

Il est possible d’envisager un intermédiaire entre les deux algorithmes précédents, qui 

se situe entre le cas discret et le cas continu. En effet, nous pouvons écrire les équations 

de propagation en réalisant l’approximation au premier ordre : 

Dans ce cas, nous obtenons : 

dx 

dt 

Dx 

xt ( + Dt) 

-xt 

() 

» = 

Dt 

Dt 

N 

N 

dxi 

() t + xi() t = åwijx j() 

t Þ xi( t + Dt) = ( 1- 

Dt) xi() t + Dt. 

åwijx 

j() 

t 

dt 

j= 

1 j= 

1 

Ce type de réseau a été appelé « réseau Delta » par Tsung & Cottrel [[199]], et il est 

possible de réaliser un apprentissage de type RTRL, en réalisant la même approximation 

au premier ordre de la rêgle d’apprentissage. 

k 

k 

æ 

l ö 

pij ( t+ Dt) = ( 1- 

Dt) pij () t + Dt. 

s¢ ( hk) çåwkl 

pij + dikxj÷ 

è 

ø 

k 

Dw ( t + Dt) = h e ( t) p ( t + Dt) 

ij k ij 

k= 

1 

4. Avec Teacher forcing 

N 

å 


lÎS Equation 4-7 : RTRL pour réseau à différence finie 

En reprenant l’équation du RTRL dans le cas continu, il est possible de séparer les 

neurones en deux groupes : ceux forcés (dont les indices appartiennent à ST), et ceux 

non forcés. On a alors : 

dp 

dt 

5. Avec Teacher forcing total 

k 

ij 

æ 

k 

( wklxl) ( wklxl) ö 

+ pij = s¢ 

( hk 

) ç 

çå 

+ å ÷ 

èl 

S wij 

l S w ÷ 

Ï 

Î ij ø 

T T 

æ 

ö 

l 

= s¢ ( hk) çåwkl 

pij + dikxj÷ 

èlÏS 

ø 

T 

Si le teacher forcing est total, c’est à dire que S = SS = ST, 

l’équation précédente 

devient : 

i 

dpij 

i 

() t + pij() t = s¢ 

( hi()) t xj() t 

dt 

k 

dpij 

k 

() t + pij () t = 0si 

k ¹ i 

dt


k 

Cette deuxième équation nous montre que les variables pij k¹ i 

sont transitoires et 

convergent vers 0. Il est donc possible de les négliger, et en posant p = p 

pouvons écrire la règle d’apprentissage : 

dpij 

() t + pij() t = s¢ 

( hi()) t xj() t 

dt 

dwij 

E 

() t =- h () t =- ei() t pij() t 

dt w 

h 

 

ij 

k 

ij ij k= i 

, nous 

Equation 4-8 : RTRL avec forçage total 

Cette idée sera à l’origine de l’algorithme de ‘forçage des dynamiques 

complémentaires’ (p.195), car la règle précédente possède l’avantage d’être locale : 

l’évolution des paramètres reliant deux neurones ne dépend que de l’état de ces deux 

neurones. De cette façon, l’algorithme RTRL devient local, et peut permettre de réaliser 

un apprentissage biologiquement plausible dans un réseau récurrent. L’inconvénient est 

que la totalité des neurones du réseau sont forcés, ce qui limite la plausibilité biologique 

de cet algorithme. 

4.5 Limites 

4.5.1 On-Line et Local 

L’un des problèmes 

posé par l’apprentissage dans 

les réseaux récurrents 

provient du fait que l’état de 

chaque neurone finit par 

influencer l’état de tous les 

autres, par diffusion et 

rétroaction de son état sur les 

autres. Ainsi, si l’on veut 

modifier l’influence d’un poids 

sur la sortie d’un neurone pour 

réaliser l’apprentissage, il est 

nécessaire que ce neurone ait 

soit accès à tous ses états 

passés (BPTT), soit à l’état de 

tout le réseau (RTRL). Ces 

deux cas (Figure 4-2) ne sont 

Figure 4-2 : Apprentissage local/off-line versus non-local/on-line 

Dans le premier cas, chaque neurone transmet son état à ses 

voisins. Ceci implique que les dépendances à grande distance 

nécessitent le balayage du passé du réseau. Dans le second cas, 

chaque neurone a accès à la totalité des états du réseau. 

pas biologiquement plausible, et nécessitent de fortes capacités informatiques : BPTT réclame 

une mémoire énorme pour stocker l’état passé de tous les neurones, et RTRL réclame une grande 

puissance de calcul pour pouvoir déterminer les influences croisées entre tous les neurones. En 

effet, dans le premier cas (BPTT), l’algorithme est bien local, c’est à dire que chaque neurone n’a 

accès qu’à l’état des neurones auxquels il est connecté, mais il est off-line. Dans le deuxième cas 


90 


(RTRL), l’algorithme est bien on-line, c’est à dire qu’un neurone n’a accès qu’à l’état des neurones 

de l’itération en cours, mais il est non-local. Dans la totalité des recherches réalisées à ce jour, 

aucune n’a réussi à associer les critères on-line et local dans un seul algorithme pour 

l’apprentissage de dynamiques dans les réseaux récurrents. Afin de rendre plausibles ces règles, 

nous proposerons d’effectuer des simplifications extrêmes de BPTT et de RTRL (8.3, p.190 et 

8.4,p.195), les rendant tous deux On-line et local. 

4.5.2 Faux gradients 

Dans les calculs aboutissant à RTRL, il existe plusieurs approximations. La première 

considère que les poids synaptiques ne varient pas au cours du temps. Or le rôle de 

l’apprentissage consiste bien à faire évoluer les poids. Les auteurs justifient cette hypothèse en 

supposant le gain d’apprentissage très petit. Or dans ce cas, il est nécessaire d’effectuer un très 

grand nombre de pas d’apprentissage, ce qui augmente encore les risques d’explosion du réseau 

(voir ci-dessous). La deuxième approximation considère que les poids sont indépendants entre 

eux. Or chaque modification de poids dépend de l’état de tous les autres poids du réseau, à 

k 

travers le calcul des pij . Ainsi les gradients calculés ne sont pas exacts, et cette inexactitude 

s’accumulant tout au long de l’apprentissage, il est possible que le réseau ne voit pas ses poids 

converger. 

Pour ce qui est de BPTT, celui-ci suppose que la totalité des états précédents soit 

mémorisée. Cette contrainte étant impossible à vérifier dans le cas de réseaux que l’on souhaite 

laisser évoluer pendant longtemps, plusieurs méthodes ont été imaginées, limitant ce besoin de 

mémoire. Toutes sont sources d’erreur pour le calcul du gradient. 

4.5.3 Instabilité 

Dans certains cas, l’algorithme RTRL peut faire diverger les poids, en effet, l’équation : 

dp 

dt 

k 

ij 

k 

() t + p () t = s¢ 

( h()) t x () t 

ij 

i j 

k 

montre bien que les pij peuvent diverger. En effet, il n’y a pas de seuillage par une 

fonction bornée. Nous avons parfois observé de telles divergences, que nous avons dû éliminer 

en réalisant un seuillage artificiel, ce qui fausse encore la précision du calcul du gradient. Dans ce 

k 

cas, bien souvent les pij saturent, ce qui crée un apprentissage selon une descente de gradient 

aussi approximative que le sera celle des apprentissages proposés. Ainsi, la nécessité d’un 

seuillage, ou d’une réinitialisation fréquente, montre que RTRL réalise des approximations qui, en 

s’accumulant, en limite l’efficacité. 


L’ajout de connexions récurrentes dans un réseau pose de nombreux problèmes qu’un 

algorithme aussi simple que la rétropropagation du gradient ne peut pas résoudre. L’une des 

principales causes de cette limitation est due au fait que l’état d’un neurone à l’instant t influence 

la dynamique de l’ensemble du réseau durant le reste de ses itérations , car l’état du réseau n’est 



pas effacé par les nouvelles entrées présentées au réseau, comme c’est le cas dans les 

architectures feed-forward. Il est donc nécessaire dans le cas des architectures récurrentes de 

tenir compte de la totalité du passé du réseau. 

Deux approches peuvent permettre de résoudre ce problème. La première consiste à 

mémoriser les états passés du réseau pour calculer un gradient exact au temps t, et correspond à 

l’algorithme de Temporal Back Propagation. La seconde consiste à calculer l’influence qu’aura 

l’état de chaque neurone sur le futur du réseau entier, c’est l’approche réalisée dans le Real Time 

Recurrent Learning. 

Ces deux approches ne sont pas plausibles biologiquement, puisqu’elles contredisent la 

nature on-line et locale du comportement connu actuellement du cerveau. Il est impossible de 

croire que chaque neurone mémorise l’ensemble de ses états précédents depuis sa naissance. Et, 

dans le cas où il existe une mémorisation pendant un temps fini, l’algorithme ne permet plus 

d’évaluer le gradient exact de l’erreur. 

D’autre part, il n’existe pas la moindre raison de penser que chaque neurone ait accès à la 

totalité des états des autres neurones. Ainsi, les deux méthodes utilisées pour calculer le gradient 

exact de l’erreur dans un réseau récurrent ne peuvent pas être acceptées comme plausibles 

biologiquement. 

D’autre part, ces deux types d’algorithmes requièrent tant de puissance de calcul et tant 

de mémoire, que leur application à de grands réseaux est impossible. Dans notre cas, il n’est pas 

envisageable de simuler 262144 neurones, avec ces principes d’apprentissage. 

Il est ainsi nécessaire d’imaginer que le gradient évalué n’est pas exact, et peut-être de 

chercher dans les règles d’inspiration hebbienne une solution au problème. En effet, les résultats 

obtenus avec certaines de ces règles semblent être conformes aux principes biologiques [[161]], 

et leur utilisation dans l’un de nos modèles nous a permis d’obtenir des segmentations de modules 

neuronaux à contours complexes. 


[[5]] Amir Atiya. Unifying recurrent network trining algorithms. World congress on neural networks. 

Portland. Vol.3. p 585-588 (1993) 

[[7]] Alex Aussem (aaussem@eso.org). Training dynamical recurrent neural networks with the 

temporal recurrent back-propagation algorithm : application to the time series prediction and 

characterization. 

[[8]] Alex Aussem (aaussem@eso.org), Fion Murtagh, Marc Sarazin. Dynamical recurrent neural 

networks- towards environmental time series prediction.[[152]] Barak A. Pearlmutter. 

Dynamic Recurrent Neural Networks. Technical Report. CMU-CS-90-196. Carnegie Mellon 

University. Pittsburgh, PA 15213 (1990) 

[[30]] Thierry Catfolis. A method for improving the real-time recurrent learning algorithm. Neural 

Networks. p807-821. (1993). 

[[60]] J. Demongeot, O. Nérot, C. Jezequel. Mémoire de rappel dans les réseaux de neurones. 

[[77]] Lee Giles (giles@research.nj.nec.com), B.G. Horne, T.Lin. Learning a class of large finite state 

machines with a recurrent neural network. Technical report. UMIACS-TR-94-94. Institue for 

advanced computer studies. University of Maryland. (1994) 



[[88]] D.O. Hebb. Essay on Mind. Lawrance-Erlbaum Assc., Hillsdale NJ. (1980) 

[[91]] Herz, B. Sulzer, R. Kühn, J.L. van Hemmen. Hebbian learning reconsidered : representation of 

static and dynamic objects in associative neural nets. Biol. Cyber. 60. p457-467.(1989) 

[[96]] J.J. Hopfield. Neural networks and physical systems with emergent collective computational 

abilities. Proceedings of the National Academy of Sciences 79:2554-2558 (1982) 

[[97]] J.J. Hopfield. Neurons with graded response have collective computationnal properties like those 

of two-state neurons. Proceedings of the National Academy of Sciences 81:3088-3092.(1984) 

[[98]] J.J. Hopfield. Pattern recognition computation using action potential timing for stimulus 

representation. Nature. Vol. 376. p33-36. (1995) 

[[102]] Lester Ingber (ingber@alumni.caltech.edu), P.L. Nunez. Statistical mechanics of neocortical 


Vol. 51, No.5. (1995) 

[[128]] M. W. Mak, Y.L. Lu, K.W. Ku. Improved real time recurrent learning algorithms : a review and 

some new approaches. ISANN95. 

[[141]] J.P Nadal (nadal@physique.ens.fr), N. Parga. Duality between learning machines : a bridge 

between supervised and unsupervised learning. Neural Computation. 6. p491-508. (1994)[[153]] 

Barak A. Pearlmutter. Gradient Calculations for dynamic recurrent neural networks : a 

survey. IEEE transactions on Neural Networks. Vol.6. No.5. (1995) 

[[172]] Jürgen Schmidhuber (yirgan@cs.colorado.edu) . Learning Factorial codes by predictability 

minimization. Technical Report. TR CU-CS-565-91. (1991) 

[[173]] Jürgen Schmidhuber (yirgan@cs.colorado.edu). A Fixed size storage O(n3) time complexity 

learning algorithm for fully recurrent continually running networks. Neural computation. 4. p243- 

248. (1992) 

[[174]] Jürgen Schmidhuber (yirgan@cs.colorado.edu). Learning complex, extended sequences using the 

principle of history compression. Neural computation. 4. p234-242. (1992) 

[[182]] Sompolinsky, I. Kanter. Temporal association in asymmetric neural networks.Physical Review E. 

Vol.57. No.22. p2861-2864. (1986) 

[[184]] Srinivasan, U.R. Prasad, N.J. Rao. Back Propagation through adjoints for the identification of 

nonlinear dynamic systems using recurrent neural models. IEEE TNN. Vol.5. No.2. (1994) 

[[187]] J.G Taylor. Neural network capacity for temporal sequence storage. International journal of 

Neural Systems. Vol. 2, Nos 1&2. pp 47-54 (1991) 

[[193]] Nikzad Benny Toomarian, Jacob Barhen. Learning a trajectory using adjoint functions and 

teacher forcing. Neural Networks. 5. p 473-383. (1992) 

[[195]] Ah Chung Tsoi, Andrew D. Back. Locally recurrent globally feedforward networks : a critical 

review of architectures. IEEE TNN. Vol. 5. No.2. p 229-239. (1994) 

[[199]] Fu-Sheng Tsung (tsung@cs.ucsd.edu), Garrison W. Cottrell (gary@cs.ucsd.edu). Learning in 

recurrent finite difference networks. International Journal of Neural Systems. Vol. 6, No 3. p249- 

256. (1995) 

[[202]] P. Unnikrishnan(unni@neuro.cs.gmr.com), K. P. Venugopal. Alopex : a correlation-based 

learning algorithm for feedforward and recurrent neural networks. Neural Computation.Vol. 6, 

No. 3. may (1994) 

[[207]] Eric. A. Wan (wan@isl.stanford.edu). Time series prediction by using a connectionist network with 

internal delay lines. Dans Time Series prediction, Forecasting the future and understanding the 

past. A. Weigend, N. Gershenfeld, editors. SFI studies in the sciences of complexity. Vol. XVII. 

Addison-Wesley (1994) 

92 



[[213]] Ronald J. Williams. Training Recurrent networks using the extended kalman filter. 0-7803-0559- 

0/92. IEEE. Vol. 4. p.241-246. (1992) 

[[214]] Ronald.J. Williams, Jing Peng. An efficient gradient based algorithm for on-line training of 

recurrent network trajectories. Neural Computation. 2. p490-501. (1990) 

[[215]] Ronald.J. Williams, D. Zipser (zipser@cogsci.ucsd.edu). A learning algorithm for continually 

running fully recurrent neural networks. Neural Computation. 1. p270-280. (1989) 

[[216]] Ronald.J. Williams, D. Zipser (zipser@cogsci.ucsd.edu). Experimental analysis of the realtime 

recurrent learning algorithm. Connection Science, 1, pp87-111. (1991) 

[[221]] David Zipser. A subgrouping strategy that reduces complexity and speeds up learning in recurrent 

networks. Neural Computation. 1. p552-558. (1989) 

[[222]] David Zipser. Recurrent network model of the neural mechanism of short-term active memory. 

Neural computation. 3. 179-193. (1991) 


94 


DEUXIEME PARTIE : DEVELOPPEMENT


5. UN MODELE CONNEXIONNISTE DE LA MEMOIRE 

[...] Si [les hommes] sont obligés de croire que, dès avant l’existence de 

la race humaine, des lois étaient déjà au travail pour produire, par une 

sorte de nécessité aveugle, non seulement les hommes et les femmes en 

général, mais eux-mêmes, avec toutes leurs petites manies, disant et 

faisant en ce moment même ce qu’ils sont en train de dire et de faire, ils 

se sentent alors dépouillés de leur personnalité, vains, sans importance, 

esclaves des circonstances, incapables de s’écarter le moins du monde 

du rôle qui leur a été assigné par la nature dès l’origine. Certains 

essaient de s’évader de ce dilemme en supposant l’existence du libre 

arbitre chez l’homme et du déterminisme partout ailleurs, d’autres par 

des tentatives ingénieusement sophistiquées pour concilier le libre 

arbitre avec le déterminisme. En fait, nous n’avons aucun motif 

d’adopter l’une ou l’autre hypothèse, mais nous n’avons non plus aucun 

motif de supposer que la vérité, quelle qu’elle puisse être, soit de nature 

à réunir les côtés agréables des deux, ni qu’elle puisse dans aucune 

mesure être déterminée par rapport à nos désirs. 

Bertrand Russell. Science et Religion. p 125 

5.1 Introduction : Une mémoire anticipatrice 

L’étude préliminaire réalisée dans les deux chapitres précédents nous a permis de réaliser 

un tour d’horizon des modèles développés actuellement, possédant des dynamiques libres 31 , afin 

d’orienter le développement du modèle dont l’ébauche a été proposée (2.3.3 Synthèse d’un 

modèle préliminaire, p.58). Puis, afin de mieux saisir la composante commune aux phénomènes 

de mémorisation, nous avons proposé de dire qu’un percept est mémorisé, si l’état que le système 

avait lors de la perception est reproductible par ce même système (Introduction : Reproduire un 

état passé, p.79). Mais ce principe n’est par suffisant, car dans un simple système sans le moindre 

apprentissage, l’état du système finit par être le même à chaque présentation du percept, à savoir 

le point d’équilibre du système global ‘système+percept’. Il retrouve donc bien l’état dans lequel il 

était, et ceci à chaque présentation du percept, mais il n’est pas possible de parler de mémoire : le 

système est noyé dans son environnement, et ne cherche pas à s’organiser autour de l’information 

31 Nous entendons par système à dynamique libre, un système qui continue à évoluer sans que ses entrées ne 

soient stimulées. Sans cette précision, un simple poste de radio serait dynamique, alors qu’il ne fait que 

reproduire un signal. 

UN MODELE CONNEXIONNISTE DE LA MEMOIRE 95


perçue. Il n’y a pas de recherche de représentation de l’environnement, de maintien de l’intégrité 

du système. D’une certaine façon, ce type de système, sans processus d’adaptation, fait partie 

intégrante de son environnement : c’est l’environnement qui le modèle. 

Afin d’éviter cette fusion, nous chercherons donc à réaliser un apprentissage qui 

entretienne la frontière entre le système et son environnement, qui puisse accroître son autonomie 

[[21]][[22]][[23]]. 

Pour compléter l’approche préliminaire, nous chercherons donc à concilier les notions 

d’autonomie et d’apprentissage : le système cherche à minimiser la perturbation extérieure, à 

maintenir son équilibre interne ou son autonomie. Le rôle de l’apprentissage sera dès lors de 

s’organiser autour de l’évolution de son environnement. Nous tenterons de montrer dans ce 

chapitre que cette organisation peut être fondée sur un principe d’anticipation : le système 

apprend à anticiper les modifications induites par l’environnement, afin d’en minimiser l’aspect 

perturbateur. D’une certaine façon, cet apprentissage permet au système de maintenir sa clôture 

opérationnelle [[205]] dans un environnement perturbateur. Selon la définition donnée par Varela 

[[205]], un système autonome est dit opérationnellement clos si son organisation est caractérisée 

par des processus : 

a) dépendant récursivement les uns des autres pour la génération et la réalisation des 

processus eux-mêmes, et 

b) constituant le système comme une unité reconnaissable dans l’espace (le domaine) où 

les processus existent. 

En effet, l’architecture d’un modèle connexionniste récurrent vérifie le point la dépendance 

récursive des processus, et l’anticipation par le système de l’évolution de son environnement lui 

permet de se couper de l’influence de celui-ci, en le constituant donc comme une unité 

reconnaissable. 

Nous tenterons de justifier que, dans un tel cadre, le phénomène de mémorisation peut 

être vu, non plus comme un outil de recherche mnésique des événements passés, mais comme 

un principe actif participant à la faculté du système d’anticiper l’évolution à court terme de son 

environnement. Selon cette approche, le principe de reconnaissance sera ramené à la définition 

suivante : 

96 

Un système reconnaît un état extérieur, lorsque ce dernier rentre dans un cadre 

d’anticipation possible pour le système. 

Ainsi, nous prendrons comme principe de base de la mémoire non pas sa capacité à 

rappeler le passé, mais sa capacité à anticiper l’avenir de son environnement : un percept est 

reconnu, si l’anticipation de son évolution est possible. Cette approche prend d’une certaine façon 

le contre pied de la conception ‘classique’, en assimilant la mémoire à un outil d’anticipation pour 

l’organisme 32 . 

D’une certaine façon, ceci consiste à minimiser l’effet de surprise. Cette définition de la 

reconnaissance par une simple capacité de prévision sera généralisée au domaine spatial, lors de 

la reconnaissance d’une figure. En effet, lors de la présentation d’une figure géométrique, l’image 

est transmise par le nerf optique, transmettant des trains variables de spikes. Ainsi, il est possible 



d’imaginer que l’image statique se trouve traduite en signaux dynamiques. L’aspect statique de 

l’objet présenté est alors perçu par la stationnarité de la dynamique induite. 

La segmentation des objets environnants vient alors du fait qu’ils appartiennent à des 

cadres d’anticipation distincts : l’anticipation de l’un ne nécessite pas la connaissance de l’état de 

l’autre. L’évolution de l’un n’ajoute pas d’information à l’évolution de l’autre, car elles sont 

causalement indépendantes. 

Cette approche sera exposée et justifiée à travers quatre principes que nous avons pu 

retrouver dans certains de nos réseaux, et qui sont représentés dans la Figure 5-1. 

Figure 5-1 : Perturbation, anticipation, modularisation, association 

Le système est perturbé par diverses dynamiques externes. Afin de minimiser les perturbations induites, 

il cherche à les anticiper.Pour ce, il met en commun l’information qu’elles transmettent, les associant 

aux niveaux de l’intersection des modules définis par la diffusion des perturbations induites. 

Le premier principe assimile toute information 33 extérieure à une perturbation par forçage 

des dynamiques, et considère que le cerveau est un système percevant, dont les dynamiques sont 

perturbées par son ouverture informative sur l’extérieur. Percevoir, c’est être modifié par son 

environnement, c’est être informé, c’est-à-dire mis en forme. Le deuxième principe s’accorde avec 

32 Bien que ‘non-classique’ cette idée n’est pas nouvelle. Voir Bergson [[17]] (1896) : « Il y a d’abord [...] 

une reconnaissance dans l’instantané, [...], sans qu’aucun souvenir explicite intervienne. Elle consiste dans 

une action, et non dans une représentation. » 

33 Dans le cadre de cette thèse, le terme d’information sera ramené à son sens étymologique : qui met en 

forme. Cette définition possède en effet de façon naturelle l’idée d’une modification physique du système 

percevant. 



la vision de clôture opérationnelle, car il suppose que le système percevant cherche à obtenir une 

minimisation des perturbations induites par l’extérieur. L’apprentissage consiste alors à anticiper 

ces dynamiques extérieures au système, afin, d’une certaine façon, de préserver ou accroître son 

autonomie. 

Pour chercher à anticiper ces dynamiques externes. le système devra utiliser l’ensemble 

de ses canaux informatifs, pour maximiser l’anticipation de chacun des canaux. Ce troisième 

principe consiste donc à associer les perturbations simultanées entre elles afin d’anticiper la 

perturbation de l’un des canaux, si une perturbation déjà perçue venait à se reproduire sur un 

autre canal. 

Enfin, chaque canal informatif forme et déforme le système autour du point de forçage du 

canal dans le système, engendrant une modularisation fonctionnelle du réseau, qui correspond au 

quatrième principe. Selon celui-ci, c’est le canal qui spécifie la fonction future des sous-parties du 

système : c’est l’organe qui fait la fonction. C’est l’oreille qui forme et spécialise les aires auditives, 

et non pas ces aires pré-adaptées à leur rôle qui ont été intelligemment reliées à l’oreille grâce à 

un fonctionnalisme originel. 

L’ensemble de ces quatre principes, que nous tenterons de retrouver dans les 

comportements de nos réseaux, est développé et justifié dans les parties qui suivent. 

5.2 Principes de base 

5.2.1 Perturbation par diffusion du forçage des dynamiques 

98 

C’est parce que quelque chose des objets extérieurs pénètre en nous que 

nous voyons les formes et que nous pensons. 

DEUXIEME PARTIE : DEVELOPPEMENT 

Epicure. Lettre à Hérodote. 

Le rôle de l’apprentissage par forçage, ou teacher forcing, a été clairement mis en valeur 

par Toomarian et Barhen [[193]], grâce à un exemple simple, celui de l’apprentissage du vélo. 

Nous reprendrons donc leur exemple pour introduire cette méthode. 

Afin d’apprendre une tâche motrice à un enfant, plusieurs méthodes peuvent être 

appliquées, à divers degrés de ‘forçage’ parental. Le degré le plus faible consiste à rester chez soi, 

en laissant l’enfant découvrir seul les lois du cyclisme. Il est possible de temps à autre de lui 

indiquer par la fenêtre que ce qu’il fait est bien ou mal, mais finalement, cela ne lui apporte pas 

beaucoup plus d’information que ce qu’il peut découvrir seul : les chutes sont des critères de 

réussite très efficaces. Il est possible aussi de passer en revue l’ensemble des erreurs réalisées 

par l’enfant, après chaque essai. Ce type d’apprentissage peut correspondre à l’algorithme de 

BPTT (4.4.2 Back-propagation through time, p.85) : on balaie le passé du réseau pour aller en 

modifier les erreurs. 

A un degré supérieur, il est possible d’accompagner l’enfant durant ses essais : là 

commence le forçage. Le parent peut tenir la bicyclette de son enfant, pour éviter qu’il ne fasse 

trop d’erreurs, et qu’il apprenne rapidement les bonnes trajectoires. L’inconvénient de cette


approche est que l’enfant ne peut pas découvrir les comportements du système bicyclette, loin des 

états d’équilibre, puisqu’il est systématiquement ramené à l’équilibre ! Si le forçage est total, 

l’enfant ne réalise aucune erreur, et son apprentissage sera faible. Pour éviter ceci, il est possible 

de lâcher le vélo de temps à autre, afin que l’enfant, lancé sur une bonne trajectoire, puisse 

continuer seul, et apprendre ses erreurs. Dans ce cas, l’enfant apprend à contrôler un système 

dynamique simplifié, dont la connaissance est suffisante pour maintenir un vélo en équilibre. 

Pour réaliser ce dernier type d’apprentissage, Toomarian et Bahren proposent de contrôler 

le degré de forçage en fonction de l’erreur : si le vélo commence à tomber, il faut le retenir 

fermement, et si l’enfant apprend bien, on peut le lâcher doucement. Il s’agit là plus d’un forçage 

de l’environnement : le but dans ce cas est de faire apprendre au système un environnement 

simplifié, dont la connaissance est suffisante pour le maintien de l’équilibre appris. 

Nous postulerons dans cette thèse, contrairement à l’approche précédente, que le forçage 

est total à l’échelle du neurone : l’information externe remplace l’activité du neurone. Ce que le 

réseau cherche à réaliser, c’est simplement d’être seul à l’origine de la modification des 

dynamiques durant la perception. Par contre, il peut y avoir simplification de l’environnement. 

L’idée du forçage est une idée simple qui, curieusement, n’est utilisé que depuis peu de 

temps. Il est pourtant possible de voir et de justifier son rôle sur plusieurs plans : psychologique, 

biologique, et théorique. L’ensemble de ces justifications permettent de penser que nos neurones 

sont forcés par les dynamiques de notre environnement, et qu’ils tendent à minimiser l’influence 

de cette perturbation en cherchant à l’anticiper. Ainsi, le forçage, ou Teacher-Forcing, ne sera pas 

vu comme une méthode connexionniste améliorant l’apprentissage dans les réseaux récurrents, ni 

comme un principe de simplification de l’environnement, mais comme l’un des principes même de 

la perception de notre environnement : l’environnement force nos dynamiques internes. 

Nous tenterons de justifier cette hypothèse par les différents résultats suivants, qui portent 

à la fois sur des expériences psychologiques, des résultats neurophysiologiques, ou des 

considérations théoriques. 

1. Complexification des dynamiques 

Cette hypothèse du forçage peut permettre de comprendre comment les dynamiques 

du système neuronal se complexifient lors de la perception [[218]], ce qui a permis 

d’interpréter le chaos neuronal comme un filtre de nouveauté, ou un état de non 

reconnaissance (p.53). 

Prenons le cas d’un système simple, constitué d’un ressort délivrant une force 

restituable non linéaire 34 , et d’une masse (Figure 5-2) : si l’autre extrémité du ressort est 

forcée par une dynamique périodique de faible intensité, la masse peut se stabiliser sur 

un cycle limite simple, par exemple sur un attracteur de période 1. Si l’on augmente 

l’intensité de ce forçage, l’orbite précédente devient instable, amenant le système sur un 

attracteur de période 2. En continuant ainsi, et à partir d’une certaine intensité critique de 

forçage, les dynamiques du système deviennent chaotiques. 

Ainsi, les systèmes ‘ressort+masse’ et ‘signal de forçage’ peuvent être vus comme 

des systèmes dont les régimes libres sont simples. Et dès que l’environnement est perçu 

(c’est à dire qu’il modifie les dynamiques du système percevant), à partir d’une certaine 

34 Signifie que la constante de raideur du ressort est fonction de son allongement. 


100 


intensité du forçage, le système ‘ressort+masse’ voit ses dynamiques complexifiées 

jusqu’à des comportements chaotiques. 

Ce phénomène confirme que le chaos peut être vu comme un phénomène émergent 

dans un système, lorsqu’il est couplé à son environnement, et peut donc justifier 

l’hypothèse que la perception force les dynamiques internes du système, en engendrant 

une complexification de celles-ci. Cette interprétation va donc dans le sens d’un chaos, 

filtre de nouveauté (p.53), apparaissant de novo lors de la perception de dynamiques 

non reconnues. Ceci expliquerait l’augmentation de la dimension des attracteurs 

cérébraux, lors de la perception. 

Figure 5-2 : Chaos par forçage 

Un système simple peut voir ses dynamiques complexifiées par le forçage d’une de ses 

variables d’état par une dynamique périodique. L’entrée dans le chaos est alors controlé par 

la période de la dynamique de forçage. 

2. Une tomate dans la tête 

Une expérience, décrite par Changeux [[37]], et réalisée en 1910 par Perky [[154]], 

peut permettre de justifier le fait que l’information perçue et l’information traitée sont de 

même support, et assimilables aux mêmes phénomènes. Une telle interprétation peut 

permettre de justifier le forçage de dynamique comme principe de perception : 

La perception d’un objet correspond à la modification interne produite par la diffusion 

des perturbations induites par cet objet. 

Et, lorsque le système se remémore un objet, il retrouve les dynamiques internes 

produites lors de sa perception initiale. 



L’expérience décrite demandait à des personnes de fixer un point blanc sur un écran, 

et d’imaginer une tomate sur cet écran. A leur insu, l’expérimentateur projetait sur l’écran 

une image de tomate, en dessous du seuil de perception, puis augmentait lentement et 

progressivement l’intensité de l’image projetée. Cette expérience a montré qu’il était 

possible de dépasser le seuil de perception visuel (qui ferait dire à une personne 

extérieure qu’elle voit une tomate sur l’écran), sans perturber les personnes en imaginant 

déjà une sur l’écran. Ceci, à tel point que ces personnes pensaient que l’image projetée 

était leur image mentale. 

Ainsi, il semblerait bien qu’il y ait une forme d’équivalence au niveau cérébral entre 

une image mentale et une image perçue. Si l’on suppose que les dynamiques 

neuronales sont le seul support du moi-neuronal, ceci indique que les dynamiques 

rappelées par la mémoire sont les mêmes que celles induites par la perturbation due à la 

perception, et ainsi que la perception perturbe les dynamiques libres du cerveau en les 

forçant. 

3. Perturbation par des informations de même support 

Une autre expérience, rapportée elle aussi par Changeux [[37]], a été réalisée afin de 

montrer que l’image mentale utilise les mêmes supports que la perception. Dans ce but, 

Segal & Fusella [[176]] ont projeté une tache blanche sur un écran, de telle sorte que 

celle-ci soit en dessous du seuil de perception visuelle, puis ont progressivement 

augmenté l’intensité de cette tache, jusqu’à ce que la personne qui l’observe voie la 

tache. Dans le cas où il a été demandé aux personnes d’imaginer l’image d’un arbre sur 

l’écran, l’instant où la tache lumineuse est perçue est en retard par rapport à l’instant de 

perception du groupe auquel a été demandé d’imaginer la sonnerie du téléphone. 

Ainsi, l’image mentale entre en compétition avec l’image perçue dans le cas où celleci 

est de même modalité. Cette expérience est en accord avec l’idée que le système qui 

se représente un percept utilise les mêmes supports que la dynamique obtenue lors de la 

présentation initiale du percept, car les canaux auditifs et visuels ne s’adressent pas aux 

mêmes zones du système. Cette idée va aussi dans le sens d’une modularisation 

fonctionnelle du système. 

4. Pas d’entrée, pas de sortie 

Un schéma classique de l’interaction avec l’environnement est celui de la perceptionaction 

: le système percevant perçoit son environnement, le traite, puis agit sur son 

environnement en le modifiant. 

Le schéma du forçage remet en cause cette boucle perception-action, puisque le 

système n’est plus vu comme une boîte noire associant sous forme de réflexes ses 

sorties à ses entrées, mais comme un système ‘baignant’ dans son environnement, en 

interaction permanente avec lui. Le système et son environnement s’informent en 

permanence. 

La notion même de systèmes, indépendants et en relation les uns avec les autres, 

peut être interprétée d’un point de vue plus global, où tous sont contenus dans un 

système général, et où chacun segmente selon ses concepts ce qu’il perçoit de son 

environnement (Figure 2-4, p.30). 


102 


Ainsi, les réseaux développés ici ne possèdent ni entrées, ni sorties, dont le rôle ait 

été prédéfini à la construction du réseau, comme cela est le cas dans les architectures à 

couches (entrées, couches cachées, sorties). Chaque neurone peut être un candidat 

pour la perception (forçage par l’environnement) ou pour l’action (contrôle moteur). Ainsi, 

il n’y a pas de hiérarchie dans les neurones, prédéterminée lors de la conception du 

réseau : que ce soit un neurone en contact avec l’extérieur, un neurone isolé, un groupe 

de neurones, tous ont pour fonction d’anticiper leur environnement ; le neurone forcé 

par l’environnement cherche à anticiper les modifications de celui-ci, un neurone caché 

cherche à minimiser les perturbations transmises par ses voisins, une population 

neuronale cherche à se stabiliser par rapport aux autres populations. La notion de 

minimisation des perturbations induites permet donc d’envisager une règle similaire à 

tous les niveaux de description du système 35 . 

Nous n’entendons pas que le principe énoncé précédemment est le seul à l’oeuvre 

dans le système cérébral : nous tentons simplement de mettre en évidence un des 

principes envisageables. En effet, si un système cherche simplement à minimiser les 

perturbations externes, une solution simple pour lui est de s’enfermer dans une bulle 

isolée. Or ce n’est pas ce que nous réalisons. Peut être faut-il donc imaginer d’autre 

principes qui contrebalancent les effets de cette recherche de ‘tranquillité maximale’ du 

système. 

5. Information externe et information interne 

Cette organisation, identique à tous les niveaux de description du réseau, est un des 

avantages des architectures forcées : le forçage peut s’interpréter à tous les niveaux de 

description du système. A l’échelle du neurone, il n’y a pas de différence fondamentale 

entre une information provenant de l’extérieur, et une information provenant d’un autre 

neurone. Cette information ne porte pas la marque de son origine. Dans les deux cas, 

cette information est perçue comme une perturbation. 

Cette interprétation est en tout point similaire à celle de Varela [[205]], qui voit la 

même indifférenciation de l’origine de l’information neuronale : 

En tant que réseau neuronal clos, le système nerveux n’a ni entrées ni 

sorties ; et aucune caractéristique intrinsèque de son organisation ne lui 

permet de distinguer, par la dynamique de ses changements d’états, 

l’origine interne ou externe de ses changements. 

Cette approche peut permettre de rendre naturelle la description à différents niveaux 

du système percevant, et peut nous orienter vers des architectures modulaires ou 

‘modularisables’. 

6. Nombre d’itérations d’apprentissage 

L’une des grandes limites théoriques des modèles connexionnistes est le nombre 

d’itérations nécessaires à l’apprentissage : il n’est pas rare de devoir réaliser plusieurs 

centaines de milliers d’itérations d’apprentissage, voire parfois plusieurs millions. 

35 N’est ce pas ce que chacun cherche à réaliser lorsqu’il essaye de convaincre autrui de la validité de ses 

idées, ceci afin de ne plus être perturbé par des idées contraires aux siennes ? D’ailleurs, les méthodes 

utilisées sont souvent d’autant plus perturbantes pour l’environnement, que les idées sont difficilement 

justifiées ‘en interne’. 



L’ensemble des apprentissage que nous avons essayés dans nos réseaux se sont tous 

révélés d’une lenteur extrême (Chap.8, Anticipation du forçage des dynamiques, p.185). 

Le forçage entraîne immédiatement la dynamique du réseau à suivre la dynamique 

extérieure ; ainsi, le réseau est immédiatement proche de la dynamique qu’il aura après 

apprentissage 36 . D’une certaine façon, la perturbation externe est immédiatement 

perçue. 

N’est-ce pas ce qui se passe lorsque nous percevons un objet ? 

En regardant une peinture, par exemple, si nous fermons les yeux, l’image 

s’évanouira lentement pour ne laisser qu’une impression vague. Mais, si nous rouvrons 

les yeux tout de suite, le tableau nous réapparaît tel que nous l’imaginions, en donnant 

l’impression de venir se coller à la représentation interne que nous en avions. Plus nous 

observerons ce tableau, plus la perception que nous en aurons sera précise et fidèle. 

Mais combien de temps devrons-nous l’observer pour que l’image interne que nous nous 

faisons de l’objet soit précisément celle regardée, au point que nous confondions le 

tableau et l’image mentale ? 

Il est probable que, pour atteindre ce point de perfection dans la représentation 

interne de l’objet perçu, il nous faille aussi plusieurs millions d’ ‘itérations’... Il n’est donc 

peut être pas si surprenant que l’apprentissage dans les modèles connexionnistes 

requière autant d’itérations pour apprendre parfaitement un signal d’entrée. Cette limite 

n’est peut être pas un signe de l’échec du connexionnisme. 

Finalement, ce qui nous intéresse lorsque nous regardons un tableau, c’est de 

pouvoir nous en ‘faire une idée’, complétée à chaque nouvelle observation.. 

Ainsi, l’idée du forçage permet de justifier la nécessité d’être en contact avec l’image 

perçue pour pouvoir se la représenter parfaitement. Et il n’est peut être pas nécessaire 

d’atteindre le stade de l’apprentissage par cœur pour le réseau, qui est pourtant l’un des 

critères de réussite de la plupart des modèles actuels. 

D’autre part, il existe un compromis entre la qualité de l’apprentissage, et les 

capacités de généralisation du réseau : la mémoire absolue ne peut pas généraliser, car 

chaque perception d’un même phénomène est perçue comme un cas particulier. Il est 

donc sans doute préférable de ne pas chercher un apprentissage par cœur dans le 

réseau, afin de maximiser ses chances de généralisation. 

7. Evite la divergence des paramètres du réseau 

L’étude de l’algorithme d’apprentissage RTRL (4.4.3 Real time recurrent learning, 

p.86) a mis en évidence que la dynamique des Pijk peut être instable, et il n’est pas rare 

de voir les poids diverger (4.5.3 Instabilité,p.90). 

Or, dans le cas où la dynamique de forçage est lente, le système étant forcé de 

suivre cette dynamique, l’erreur réalisée est faible, ce qui maintient les Pijk à des valeurs 

faibles, dans le cas d’un apprentissage par RTRL. Il y donc moins de chances de voir les 

poids diverger. 

36 ou tout au moins, plus proche que de celle qu’il aurait sans forçage. 


104 


D’une façon plus générale, le forçage permet de maintenir artificiellement le système 

sur une dynamique, en empêchant sa divergence. Pour reprendre l’exemple de 

l’apprentissage du vélo, celui-ci ne peut pas tomber, car il est maintenu. Ceci nous a 

permis d’obtenir de grandes modifications des dynamiques du système, sans que celui-ci 

ne fasse diverger ses poids (Figure 8-23, p.202). 

8. Prise en compte du passé de la perturbation 

Pour connaître l’état futur X(t+1) d’un système donné, il faut connaître un certain 

nombre de valeurs passées X(t),X(t-1),X(t-2),...,X(t-N), afin qu’à chaque point de 

coordonnées {X(t),X(t-1),X(t-2),...,X(t-N)} corresponde un et un seul point X(t+1). La 

N 

connaissance de cette fonction f : Â aÂ permet alors de calculer l’évolution 

future du système dynamique, à partir d’un point initial {X(t0),X(t0-1),...,X(t 0-N)}. Afin de 

calculer N par observation de la suite des X(t), une méthode consiste à plonger les 

X(t) dans des espaces de dimension croissante, et de prendre N égal à la première 

dimension où aucune des trajectoires de X(t) ne se croise. Dans un système forcé, à 

chaque itération, le signal de forçage est diffusé dans le réseau, et, d’une certaine 

façon, le système a accès au passé du signal de forçage : l’état du système au temps 

t dépend du signal de forçage à s


Dans un réseau à récurrence locale, cette diffusion se fait à partir du site de 

forçage, ce qui fait que les forçages passés ont une influence de plus en plus loin de 

ce site dans le réseau. Ainsi, les dépendances à long terme du signal de forçage sont 

traitées par des neurones éloignés du site de forçage. De cette façon, un plus grand 

nombre de neurones participent à l’anticipation du signal, et sont plus à même de 

tenir compte de l’information transmise par d’autres sites de forçage. Ce type de 

comportement peut être à l’origine des principes d’association multimodale qui seront 

évoqués dans cette thèse. 

Ainsi, le simple principe de forçage d’un système à récurrence locale est en 

accord avec la nécessité pour le système de devoir mettre en commun les 

dépendances à long terme de chacun des sites forcés, afin de mieux anticiper 

chacun. 

5.2.2 Minimisation des perturbations induites 

La mémoire et l’apprentissage font pénétrer les autres dans [notre] 

structure [biologique qui n’a qu’une seule raison d’être, celle de se 

conserver]. 

Henri Laborit. Eloge de la fuite. p.38 

Une fois l’information assimilée à une perturbation du système par l’environnement, il est 

envisageable de considérer que le système cherche à minimiser la modification que produira cette 

perturbation externe, en l’anticipant, ce qui revient à maximiser son autonomie. 

Ce phénomène se retrouve de façon simple lorsque l’on est sur un tapis roulant : le 

paysage semble continuer à défiler après en être sorti. Il a été montré que cette illusion est 

uniquement visuelle [[150]], ce qui tendrait a montrer que c’est l’anticipation visuelle du 

mouvement qui est perturbée à la sortie du tapis roulant : on continue à anticiper le défilement du 

paysage. 

Nous devons, avant de poursuivre, définir ce que nous entendons par autonomie d’un 

système. Paul Bourgine et Francisco Varela la définisent comme étant [[21]]: 

Qu’ils complètent en précisant : 

la capacité basique et essentielle d’être, d’affirmer son existence et 

d’évoluer dans un monde qui est signifiant, sans qu’il soit pré-traité par 

avance. 

Ainsi l’autonomie du vivant est comprise à la fois au regard de ses 

actions, et au regard de la façon dont il se figure le monde. 

Il y a donc deux points de vue de l’autonomie. L’un, externe, observe l’autonomie à 

travers les actions du système. L’autre, interne, provient de l’encodage réalisé par le système. 

Dans le cadre de cette thèse, qui s’intéresse à la mémoire, nous nous limiterons à la deuxième 

approche, en tenant compte à la fois de l’action, et de la représentation. 

Nous définirons et formaliserons l’autonomie comme étant quantifiée par le rapport entre 

l’influence des variables internes du système (représentation) sur l’influence des variables 

externes sur l’évolution du système (action). 


106 


Cette approche offre une nouvelle interprétation de la mémoire, qui prend dès lors un rôle 

actif dans le maintien de l’intégrité du système, et ainsi s’accorde avec l’idée d’une clôture 

opérationnelle du système [[205]]. Le système cherche à augmenter son autonomie, c’est-à-dire 

qu’il cherche à maximiser le rôle de son état interne dans la détermination de son état à venir. 

Finalement, le système pourra être considéré comme autonome, dès qu’il se pliera de façon 

parfaite à son environnement et pourra anticiper seul l’évolution à court terme de celui-ci 37 . D’une 

certaine façon, cette phase ultime peut être considérée comme celle où le système a si 

parfaitement conçu et modélisé l’évolution de son environnement, qu’il peut le simuler : chacun de 

ses états à venir dépendent alors de ses seuls états internes, et l’ensemble des perturbations dues 

à son environnement seront anticipées par le système, et donc d’influence négligeable. Au stade 

où l’autonomie a été maximisée, le système n’a plus besoin de percevoir son environnement, il 

l’anticipe 38 . Ce stade dépend bien évidemment de l’échelle du système considéré : il suffit qu’un 

système puisse anticiper l’ensemble des perturbations possibles de son environnement. Il n’est 

donc pas nécessaire, pour qu’un système soit autonome, qu’il puisse modéliser le reste de 

l’univers, mais seulement une sous-partie, qui correspond à son environnement proche et influent. 

En revenant à l’approche de Bourgine et Varela, cette minimisation peut être produite par 

deux ‘comportements’ possibles : soit l’organisme agit sur l’environnement pour modifier la 

perturbation à venir (action), soit il s’adapte pour suivre l’évolution de la perturbation sans la 

modifier (perception). Ces deux méthodes offrent deux types de solutions pour l’apprentissage. 

Dans le cas de l’action, cette approche donne des voies de recherches possibles pour un 

apprentissage du comportement du système dans son environnement. Il est par exemple possible 

d’envisager un renforcement de l’action lorsque celle-ci aide à conformer l’environnement à ce 

que le système prévoyait. Cette voie de recherche n’entre pas dans le cadre de cette thèse, mais 

pourrait être intéressante à étudier, en complétant les idées avancées ici. 

Dans le cas de l’anticipation, qui est la voie utilisée pour notre modèle, le système est 

plongé dans le présent : le passé lui sert uniquement à faciliter sa capacité d’anticipation de la 

perturbation à venir (Figure 5-4). Cette approche est simple, mais a l’avantage de pouvoir concilier 

plusieurs notions, actuellement distinctes. Dans la vision initiale d’une mémoire cherchant à se 

souvenir de son passé, le principe est de chercher un fait mémorisé, une donnée, de retrouver un 

encodage préalablement enregistré : il faut chercher dans le passé le stimulus externe, déjà perçu 

et mémorisé, proche du percept actuellement perçu. Une telle approche encourage la vision d’un 

‘balayage interne’ des événements passés, et donc d’une information encodée sous la forme de 

représentants accumulés les uns après les autres. Dans le modèle proposé, le système ne 

possède pas d’encodage, d’arbre sémantique des événements du passé : il évolue simplement au 

cours du temps, selon un comportement qui a été modelé, modifié par son passé. Cette nouvelle 

approche permet d’éliminer l’hypothèse d’un centre cérébral de la mémoire : le système est la 

mémoire du système. Cette interprétation unificatrice du concept de mémoire va dans le sens des 

unifications préalablement réalisées dans cette thèse (unification de la mémoire et des organes de 

traitement du système, unification de la représentation bas niveau du système et de son 

environnement). 

37 

Ce court terme dépend bien évidemment du système considéré, et de la vitesse de sa dynamique et de 

celles qui l’entourent. 

38 

N’est ce pas ce qui nous arrive parfois, dans des environnements appauvris, comme celui de la conduite 

sur une route régulière, où nous avons la sensation de ne pas avoir perçu la route pendant quelques dizaines 

de mètres, et que la conduite s’est alors révélée quasi-automatique ? Par contre, si un chat traverse la route, 

cette perception est fortement pertubatrice (non anticipée), et nous sort de nos rêveries (simulations 

internes). 



Figure 5-4 : Une mémoire anticipatrice 

Selon la conception classique de la mémoire, le système balaye les encodages accumulés des 

stimuli externes passés, à la recherche du percept le plus proche de celui perçu au moment 

présent. Le modèle proposé cherche à montrer que la mémoire a pour but d’anticiper l’état à 

venir du système perturbé par son environnement, ceci étant facilité par l’apprentissage 

permanent, qui accumulé, représente l’expérience du système. 

Cette vision ajoute aussi une nature ‘personnelle’ à l’objet mémorisé : celui-ci n’est pas 

unique, tel un fait, une donnée immuable et universelle. Le système cherche uniquement à 

anticiper l’état dans lequel le mettra une perturbation perçue, en fonction de cette perturbation, 

mais aussi de son propre état à l’instant de la perturbation. Ainsi, l’influence d’une perturbation 

extérieure dépend à la fois de cette perturbation, mais aussi de l’état du système qui la perçoit. 

Cette constatation est en accord avec la conception actuelle de la perception qui considère que, 

pour une bonne part, l’information reçue dépend de ce qu’en attend le système 39 . Une 

comparaison est possible avec certains des comportements que nous avons observés dans nos 

réseaux, où la dynamique du système dépend à la fois de l’information perçue, et de l’état du 

système au moment de la perception (Plusieurs attracteurs par neurone, p.154). 

La remémoration devient alors une cause de ce phénomène d’anticipation, car la 

perturbation est d’autant mieux anticipée qu’elle a été expérimentée de nombreuses fois dans le 

passé : le système anticipera d’autant mieux qu’il se trouve dans un état proche de ceux déjà 

appris. Son état interne est alors proche de ce qu’il a déjà été : il y a remémoration. 

Ainsi, pour résumer le concept développé ici, le système est déformé par son 

environnement et tend à anticiper, afin de minimiser la perturbation induite par l’extérieur. Une 

telle approche peut se justifier à différents niveaux, qui sont développés dans les paragraphes qui 

suivent. 

39 Ce qui fait dire par exemple, dans le cas de l’audition, que l’ « on entend ce que l’on attend » 


108 


1. Simplification des dynamiques apprises 

Comme cela a été proposé dans les premiers principes dégagés lors de l’étude de 

l’utilisation d’un système à dynamique chaotique (2.3.3 Synthèse d’un modèle 

préliminaire, p.58), certaines expériences tendent à montrer que le phénomène de 

reconnaissance se traduit dans les systèmes naturels par une diminution de l’attracteur 

cérébral. Nous avons vu, de plus, que la complexification de la dynamique s’il n’y a pas 

reconnaissance peut être expliqué par un phénomène de couplage d’un processus non 

linéaire à un signal extérieur (1 Complexification des dynamiques, p.99). 

Le modèle proposé ici, suppose que le système cherche à anticiper les perturbations 

induites par la modification de son environnement. Il cherche donc à forcer les 

dynamiques de ses neurones modifiées par son environnement, et à suivre les 

dynamiques forçantes. Il suffirait donc que ces dynamiques forçantes soient de plus 

faible complexité que les dynamiques libres cérébrales, pour que puisse être observée 

une diminution de la complexité des dynamiques apprises. Il semblerait que ce soit bien 

le cas : les premiers étages de traitement de l’information réalisent bien souvent des 

filtrages préliminaires qui tendent à simplifier les dynamiques qui sont ensuite transmises 

au système central : la cochlée sépare un signal sonore par paquets de fréquences, la 

rétine prétraite l’image reçue, et bien souvent les capteurs physiques se spécialisent en 

transmettant ainsi une information appauvrie. De cette façon, l’environnement est présegmenté. 

Pour reprendre l’exemple du système ‘ressort+masse’, présenté précédemment, le 

système devrait chercher, lors de l’apprentissage, à modifier ses paramètres pour que 

l’extrémité libre du ressort suive le signal forçant, qui est une simple sinusoïde : il y 

aurait bien simplification des dynamiques du système. 

2. Vers une maximisation de l’autonomie 

Ce modèle de mémoire dans un système cherche à minimiser l’influence externe sur 

les dynamiques internes du système, puisque, si l’apprentissage par cœur est atteint, le 

système suit fidèlement les modifications extérieures, sans avoir recours à celles-ci. 

Dans le cas d’un système dynamique défini par son état X, les variables de contrôle 

U 40 , et de loi f, nous définirons l’autonomie d’un système par : 

( , , ) 

L f XU 

If( X) 

= 

I ( U) 

Cette influence If(x) représente la sensibilité de f à une variation des états X. Une idée 

pour la mesurer (dans les cas où f est ‘bien choisie’), peut être par exemple d’employer : 

+ T 

æ 1 

ö 

If( X) 

= åçlim 

J f , X( Xi). dXi÷ 

T®¥ 

i è T ò 

, 

2 -T 

ø 

40 Nous entendons par paramètre de contrôle, tout paramètre participant à l’évolution du système, ne faisant 

par partie des paramètres internes du système. Ils contrôlent le système, car c’est une intervention 

extérieure qui modifie son évolution, et la contrôle. 


f


où J f , X( X i)est 

la matrice Jacobienne de f, au point Xi. De cette façon, l’influence 

représente la valeur moyenne de la dérivée de chacune des lois du système. 

La définition précédemment donnée de la mémorisation dans un système revient 

pour ce système à maximiser L( f, XU , ) , grâce à une minimisation de If(U). 

Figure 5-5 : Système autonome 

Le système devient autonome dès lors que les dynamiques internes du système deviennent 

égales à celles induites par l’environnement sur les sites de forçage (lignes pointillées). 

L’environnement perçu devient alors simulé par le système. 

Sur la Figure 5-5, lorsque le système est plongé dans son environnement, sans 

apprentissage initial, les dynamiques forçantes de l’environnement viennent perturber les 

dynamiques du système. Lorsque le système est devenu parfaitement autonome, ses 

états internes, forcés par l’environnement, suivent parfaitement les dynamiques de 

forçage : il est possible de couper le système de son environnement, sans modifier ses 

dynamiques internes. 

Ainsi, une telle mémoire maximise l’indépendance du système en rendant l’influence 

de l’état interne du réseau prépondérante sur l’influence de l’extérieur. Une telle 

interprétation peut être réalisée en terme d’autonomie : le système cherche à maximiser 

son autonomie, à maximiser l’influence de son état interne, à la rendre indépendante des 

modifications futures de son environnement. 


110 


Cette maximisation conduit le système à anticiper les dynamiques externes : il faut que 

ses variables d’états s’instancient en anticipant l’influence de l’environnement. En effet, 

nous définissons la perturbation comme étant l’erreur résiduelle entre la valeur de la 

variable d’état sous forçage, et la valeur qu’elle aurait sans forçage. Minimiser cet 

perturbation, c’est amener la variable d’état à anticiper ce forçage. 

L’image de ce comportement pourrait se retrouver dans l’exemple d’une boule de pâte à 

modeler, qui creuserait d’elle-même un trou sous le doigt que l’on chercherait à enfoncer 

: la boule chercherait, seule, à anticiper la trajectoire du doigt. 

3. L’effet de surprise 

Nous nous souvenons mieux de ce qui nous surprend 41 , ou, dit selon le vocabulaire 

défini dans cette thèse : un système modifie plus ses dynamiques si le percept est 

difficilement anticipable. 

Cette notion peut sembler contradictoire avec l’image que l’on se fait de la mémoire : 

on apprend mieux dans les domaines que l’on maîtrise déjà, et d’une certaine façon, la 

mémorisation est meilleure si le percept est proche de ce que l’on sait déjà. De la même 

façon, on reconnaît mieux un visage vu dix fois qu’une. 

Mais l’on reconnaîtra mieux un visage s’il est caractéristique, même vu une seule fois 

! La difficulté inhérente à la reconnaissance des visages est qu’ils se ressemblent tous. Il 

est donc nécessaire de les pratiquer tous, afin de déterminer ce qui différencie chacun. 

D’une certaine façon, il est possible de voir deux types différents de mémorisation 

derrière le même principe : 

à une mémorisation lente, servant à segmenter des percepts conceptuellement 

proches, grâce à la pratique courante de ces percepts 

à une mémorisation rapide, due à l’effet de surprise 42 . 

Nous supposerons dans cette thèse que ces deux types de mécanismes relèvent du 

même principe de base, qui est toujours que le système cherche à minimiser les 

perturbation induites. En effet, une information perçue pour la première fois, peut être 

considérée comme très ‘perturbatrice’, car elle n’est absolument pas conceptualisée par 

le système : le système est loin de l’état qu’il faudrait avoir pour reconnaître l’information 

perçue. Mais à chaque présentation de cette information, il en apprend un peu plus, et se 

rapproche donc de cet état qu’il devrait avoir. Ce faisant, la perturbation est de plus en 

plus finement apprise, rendant les composantes perturbantes de plus en plus discrètes, 

et d’intensité de plus en plus faible. 

Le fait que le système cherche à suivre et à anticiper l’information à venir, crée une 

forme de filtrage automatique de ce qui n’est pas encore appris, ni anticipable. 

41 Cette idée n’est pas nouvelle, et se retrouve dans la définition de Fouillé (1893), qui a dit que le sentiment 

de Familiarité est fait en grande partie, de la diminution du choc intérieur que constitue la surprise. 

(Psychologie, tome I, p.242, cité par Bergson [[17]]). 

42 Cet effet de surprise fait que si vous vous présentez à votre bureau avec un nez de clown, les gens se 

souviendront longtemps de ce jour, alors qu’ils ont oublié les centaines de fois où vous êtes apparu devant 

eux, de façon normale (selon la norme,selon l’usage), anticipée par eux, qui fait qu’ils ont vu plus ce à quoi 

ils s’attendaient. 



Ainsi, le système part d’une surprise totale, et converge lentement vers un 

apprentissage par cœur, où les plus infimes évolutions de l’information perçue sont 

anticipées. Ceci, dans le cas où l’information transmise possède une information 

suffisante pour sa prédiction. Dans les autres cas, il restera obligatoirement une erreur 

résiduelle que le système ne pourra prévoir, et qui diffusera dans le réseau. Ce principe 

peut être à la base des phénomènes d’association dans le système. 

4. Permet la segmentation de classes conceptuelles 

Dès lors qu’un système cherche à anticiper l’évolution de son environnement, 

différents parties de cet environnement peuvent être segmentées, car elles possèdent 

des évolutions indépendantes : la connaissance de l’état de l’un n’ajoute rien à la 

capacité d’évolution de l’autre. Ainsi, par exemple, sur la Figure 5-6, les parties grisées 

de l’environnement ne sont liées par aucune loi : l’évolution de chacun des sous 

systèmes ne change en rien l’évolution des autres. Ils sont indépendants. 

Comme le système cherche à 

maximiser ses chances d’anticipation 

de chacun des systèmes, il est possible 

qu’il finisse par modéliser des lois 

indépendantes entre-elles, qui lui 

permettent d’anticiper l’évolution de 

chacun des sous-systèmes 

indépendants de son environnement. 

De plus, si l’environnement proche du 

système varie, et que l’un de ses sites 

se retrouve forcé par un sous-système 

indépendant de l’environnement, 

similaire à un déjà appris, et dont 

l’évolution est similaire, le système 

peut réutiliser les lois qui permettaient 

d’anticiper le premier système. 

De cette façon, plusieurs soussystèmes 

de l’environnement peuvent 

être associés à un même concept, car 

leur lois d’évolutions sont similaires. 

D’une certaine façon, c’est la 

cohérence de l’environnement, qui 

offre au système la possibilité d’une organisation interne. 

Figure 5-6 : Environnements disjoints 

Lorsque des sous-parties de l’environnement 

sont causalement disjointes, c’est à dire dont les 

états internes de sont pas liés par des fonctions, 

le système peut anticiper chacune sans tenir 

compte des autres. Elles deviennent dès lors 

conceptuellement disjointes pour le système qui 

peut affecter des parties spécialisées à 

l’anticipation de chaque classe. 

5. Evite la nécessité d’un synchronisme support de l’encodage 

Une question est souvent posée en ce qui concerne l’encodage dynamique, à savoir 

quel est le support de cet encodage ? S’il y a encodage, il y a nécessairement une 

couche supplémentaire qui décide si le sous-système a reconnu ou non le percept 

présenté, et l’on perd alors le bénéfice d’un encodage dynamique, puisque celui-ci doit 

être lui-même encodé par une observation de ce système, ramenant l’état du réseau à 

une valeur statique, booléenne : RECONNU ou NON RECONNU. 


112 


Dès lors, l’encodage dynamique n’offre que peu d’avantages puisqu’il ramène le 

système à un réseau à sortie booléenne. 

L’architecture proposée ici ne cherche pas à obtenir un support pour l’encodage des 

percepts : son seul but est d’anticiper l’évolution de son environnement, ou plutôt, ce 

qu’elle en perçoit. Cette approche permet donc d’éliminer toute nécessité de support 

pour l’encodage, et les phénomènes de synchronisme observés dans les réseaux 

biologiques ne sont plus vus comme un encodage de l’information, mais comme une 

organisation de dynamiques induites dans le réseau qui servent à anticiper le signal 

perçu. 

5.2.3 Association multimodale des forçages 

[...] Rien de ce qui s’accumule dans le système nerveux [de l’homme] 

n’est isolé, séparé du reste : tout se tient, s’organise, s’informe en lui, en 

obéissant à des lois strictes, dont la plupart restent encore à découvrir 

[...]. 


Henri Laborit. Eloge de la fuite. p52 

L’évolution de la dynamique d’un système possède bien souvent plusieurs variables d’état, 

et l’observation d’une seule d’entre elles n’offre pas assez d’information pour rendre cette sousdynamique 

déterministe et prédictible. Ainsi, par exemple, dans le cas d’un système de Lorenz, il 

est nécessaire de connaître {X(t),Y(t),Z(t)} pour déterminer {X(t+dt),Y(t+dt),Z(t+dt)}. Si l’une des 

variables de ce système est inconnue, le système complet devient imprédictible, et son évolution 

apparaît aléatoire, à cause de l’existence d’au moins une variable cachée. 

Cette remarque nous permet de penser que si un réseau est forcé sur trois sites différents 

par les trois variables X(t), Y(t) et Z(t), il possède assez d’information pour pouvoir anticiper 

l’évolution du système, mais est dans l’incapacité de prévoir l’évolution de chacune des 

dynamiques X(t), Y(t) ou Z(t) séparément. Il est donc nécessaire que le système mette en commun 

les informations transmises par ces trois variables, afin d’être à même de prévoir chacune. Ce 

principe est l’un de ceux du modèle de mémoire proposé, nous l’appellerons association 

multimodale : 

Le système cherche à mettre en commun l’information de tous les canaux afin de 

maximiser la réussite de l’anticipation de chacun. 

Cette idée est schématisée sur la Figure 5-7, en reprenant l’image du système et son 

environnement. Sur ce schéma, la première figure montre un système qui perçoit un 

environnement, par un forçage unique. 

Dans ce cas, l’environnement possède trop de variables cachées pour que le système 

puisse anticiper de façon efficace l’évolution de ce forçage. Sur la seconde figure, le système est 

forcé par chacune des variables d’état de l’environnement. De cette façon, le système possède 

l’information suffisante pour pouvoir anticiper l’évolution de chacun des forçages : il n’y a plus de 

variables cachées. Comme nous le verrons par la suite, la deuxième situation possède deux 

principaux avantages : elle permet, comme cela a été dit, de minimiser le nombre de variables 

cachées de l’environnement, et donc de maximiser les chances d’anticipation pour le système, et,


de plus, l’algorithme RTRL est on-line sur les sites forcés (5 Avec Teacher forcing total, p.88). Cet 

algorithme d’apprentissage peut donc devenir biologiquement plausible pour un système 

totalement forcé. Cette idée sera utilisée lors de la mise au point de nouveaux algorithmes 

d’apprentissage pour ces réseaux récurrents (8.4 Forçage des dynamiques complémentaires, 

p.195). 

Figure 5-7 : Augmentation du nombre de canaux 

Si le système ne perçoit qu’une sous partie des variables d’état de son environnement, 

l’existence de variables cachées pour le système, peut rendre l’anticipation du site de forçage 

quasi-impossible. L’augmentation du nombre de sites de forçage pallie cette difficulté, en 

diminuant le nombre de variables cachées. 

5.2.4 Modularisation fonctionnelle 

L’idée de forçage de la dynamique 

de sites individuels, associée avec celle de 

voisinage local, permet de générer une 

nouvelle propriété proche d’un 

comportement biologique. L’idée d’une 

fonctionnalité spécifique des aires 

neuronales est aujourd’hui acceptée, mais 

selon une vision moins figée qu’elle ne l’a 

été : ces aires évoluent, se forment et se 

déforment, s’adaptent, recrutant les 

neurones d’aires voisines. Nous 

supposerons que la dynamique portant sur 

le déplacement de ces aires est entretenue 

par les sites de forçage : un site très 

perturbant pour le réseau, et donc 

difficilement anticipable, doit diffuser plus 

loin dans le réseau, et recruter un plus 

grand nombre de neurones pour 

l’anticipation du site de forçage : les 

perturbations induites tendent à sortir des 

Figure 5-8 : Modularisation fonctionnelle 

Des aires cérébrales spécifiques et disjointes sont 

activées en fonction de la modalité d’un même 

concept évoqué. 

frontières du module, en cherchant à recruter de nouveau neurones. Les dynamiques induites par 

ces compétitions entre modules engendre une dynamique lente de déplacement des modules. Ce 

dernier principe, qui porte sur cette modularisation fonctionnelle par diffusion des perturbations 

induites par les sites de forçage, est définit comme suit : 


114 


Le forçage, diffusant son activité dans le réseau, définit des modules autour du site de 

forçage, qui s’organisent selon l’architecture du réseau et la dynamique forcée. Ce 

mécanisme définit une fonctionnalité a posteriori du module. 

Nous entendons par fonctionnalité le fait que le rôle du module est lié à l’information qui 

lui arrive, à la fonction du canal de forçage. Ainsi, nous supposons que c’est l’oreille qui participe 

à 43 la fonction de l’aire auditive, l’oeil qui participe à la fonction de l’aire visuelle. L’observation de 

ce phénomène a été réalisée par l’observation de l’activité cérébrale lors de l’évocation d’un mot : 

les aires actives dépendent du mode d’évocation (entendu, lu, pensé, ou dit) (Figure 5-8). 

Cette expérience confirme l’hypothèse qu’un même concept est représenté par une 

assemblée de neurones, répartis dans le cerveau : il n’y a pas un neurone affecté à chaque 

concept. 

De plus, les zones actives sont les zones 

fonctionnellement dépendantes du mode utilisé 

pour concevoir le mot : un mot vu active 

préférentiellement les aires visuelles. Ceci confirme 

l’hypothèse que les aires sont fonctionnellement 

définies, et que toutes participent à l’évocation des 

concepts. 

Ce résultat confirme aussi l’hypothèse que 

les modules s’organisent autour des sites de 

forçages, puisque les zones activées lors de 

l’évocation visuelle ou auditive d’un mot, sont celles 

où s’implantent les nerfs visuels ou auditifs, par 

exemple (Figure 5-9). 

1. Modularisation par apprentissage 

Revenons aux modèles connexionnistes. Le plus souvent les apprentissages réalisés 

sont des fonctions de l’erreur locale réalisée par chacun des neurones. Ainsi, plus cette 

erreur est forte, plus la modification réalisée sur les poids est importante, et d’une 

certaine façon, plus le neurone se spécialise dans la minimisation de cette erreur. 

Dans le cas où l’erreur est propagée d’un neurone à l’autre, grâce à un apprentissage 

local, il est possible de suivre le chemin suivit par l’erreur maximale propagée à partir du 

site de forçage. De cette façon, on peut tracer une ligne partant du neurone forcée, qui 

délimite une zone où les neurones se spécialiserons de façon préférentielle à 

l’anticipation du site de forçage initial. Dans le cas opposé, si deux neurones sont reliés 

par des coefficients faibles, l’erreur réalisée par l’un se propagera peu vers le second, et 

modifiera peu ses poids. De cette façon, des segmentations peuvent apparaître entre 

différents modules du réseau. 

43 Nous utilisons ‘participe à’ au lieu de ‘fait’ ou ‘forme’ car nous ne pouvons pas supposer que ce type 

d’apprentissage soit le seul à l’oeuvre dans les systèmes biologiques. Il peut évidemment y avoir préparation 

a priori de l’aire concernée à sa fonction. Mais des études ont montré que les aires non stimulées était 

recrutées par les plus actives, ce qui montre une grande plasticité cérébrale, conforme à notre hypothèse. 


Figure 5-9 : Localisation des aires visuelles


Evidemment, la segmentation réalisée 

dans un réseau ne peut pas être aussi 

nette que sur la Figure 5-10, car l’erreur 

ne se propage pas selon un unique 

chemin, mais diffuse plutôt dans le 

réseau, selon certaines directions 

privilégiées. Ainsi, il sera peu probable 

d’observer des neurones spécifiquement 

et exclusivement affectés à l’anticipation 

d’un seul site de forçage. L’aspect 

modulaire ne peut donc qu’être observé a 

posteriori, en détruisant un neurone, afin 

de quantifier l’erreur que cette destruction 

réalise sur l’anticipation de chacun des 

sites de forçage. 

La même limite se retrouve dans les 

systèmes réels, où la connaissance de 

l’effet des lésions cérébrales permet de 

spécifier les limites des aires neuronales : 

l’architecture du système est observée a 

posteriori. 

Figure 5-10 : Modularisation par les poids 

L’apprentissage étanr fonction des 

perturbations induites par le site de forçage, 

les plus grandes modifications des 

paramètres locaux du système se feront 

selon le chemin des zones fortement 

modifiées. Ce mécanisme modularise 

fonctionnellement le réseau à partir des sites 

de forçage. 

Nous verrons, dans le cadre d’un 

apprentissage dont l’intensité dépend des états des neurones d’entrée et de sortie, 

similaire à un apprentissage hebbien, que ce phénomène de diffusion peut engendrer 

une modularisation très complexe, géométriquement similaire à celle observée dans la 

spécification oeil droit, oeil gauche des aires cérébrales du macaque (8.2 

L’apprentissage Hebbien, p.186). Un simple modèle connexionniste peut reproduire des 

organisations modulaires géométriquement similaires à celles des systèmes réels. 

2. Modularisation fonction de la complexité du signal 

Une des définitions de la complexité est celle de Kolmogorov-Chaitin, ou KCcomplexité, 

qui correspond à la longueur en bits du plus petit programme qui produira ce 

message. Cette définition de complexité semble relative à une architecture donnée, et 

représente la complexité pour un ordinateur d’engendrer le message voulu. 

Ainsi, cette complexité peut ne pas représenter la complexité absolue d’un message, 

mais la complexité relative pour un système donné d’engendrer un message. De la 

même façon, un signal aléatoire, complexe au sens de Kolmogorov-Chaitin, peut être vu 

comme simple pour certaines machines : un signal aléatoire est ‘simple’ pour le système 

qui l’engendre. 

Nous ne verrons donc pas de définition d’une complexité absolue, mais seulement 

relative à un système : le système percevant participe à la notion de complexité. Dans le 

cadre d’un réseau forcé, il est possible d’interpréter la diffusion des perturbations induites 

comme étant un ‘filtre de complexité’. En effet, nous pouvons espérer que, en fonction 

de la force de l’erreur réalisée par le réseau, celle-ci diffuse plus ou moins loin dans le 

réseau : une erreur faible, de faible énergie restera localisée autour du site de forçage, 


116 


tandis qu’une erreur élevée diffusera plus loin sa perturbation dans le réseau, en 

annexant un plus grand nombre de neurones. De cette façon, une dynamique difficile à 

apprendre (complexe pour le réseau), diffusera plus loin dans le réseau, en créant donc 

un apprentissage plus profond dans le système 44 . 

Figure 5-11 : Modularisation par l'erreur 

La propagation de l’erreur étant proportionnelle à son intensité, au fur et à mesure que le 

réseau apprend à anticiper le site de forçage, le module modifié par l’apprentissage voit sa 

taille diminuer. De cette façon, lorsque le site de forçage est devenu autonome, des neurones 

se retrouvent spécialisés dans l’anticipation du site. 

De la même façon, un tel système cherche à apprendre par cœur ce qui est 

prédictible dans le signal par la seule connaissance de ce signal. Puis la perturbation 

résiduelle diffusera en permanence dans le réseau, entretenue par l’écart entre 

l’information perçue et l’information anticipée (Figure 5-11). De cette façon, elle 

modifiera les dynamiques de neurones éloignés de la zone de forçage, en permettant 

peut-être à ces zones de créer une association avec un autre site de forçage, qui peut 

rendre le premier signal anticipable, car les deux forçages peuvent être liés causalement 

dans l’environnement : la connaissance de l’un amène une information supplémentaire 

pour l’anticipation de l’autre. Il y a mise en commun des perturbations résiduelles pour 

maximiser l’anticipation de chacune. De cette façon, il y a annexion automatique du 

nombre de neurones nécessaires à la réalisation d’une tâche. En supposant que le 

réseau est assez grand pour pouvoir affecter autant de neurones que nécessaire à 

l’anticipation d’un forçage, il est envisageable que le réseau puisse s’adapter de façon 

autonome à la tâche. 

Le même phénomène s’observe sur un plan neurophysiologique : il a été montré 

récemment qu’il y a activation des aires primaires visuelles chez les aveugles lisant du 

braille [[168]]. Il se crée donc une imagerie mentale de la lecture, suite à l’annexion des 

neurones peu stimulés des aires visuelles. La spécialisation neuronale provient alors 

d’un autre site de forçage, celui provenant de la sensation tactile. 

44 Ce type de comportement est commun à presque tous les modèles connexionnistes classiques, où l’erreur 

est rétropagée dans le réseau. Cette constatation n’est donc pas nouvelle, mais ne peut être mise clairement 

en évidence que dans de grands réseaux, à voisinage local. 



Figure 5-12 : Diffusion de la perturbation résiduelle 

Dans le cas où la dynamique forçante possède une composante non anticipable par la seule 

connaissance de la dynamique, cette composante ‘aléatoire’ diffuse de façon permanente 

autour du site de forçage. 

Ce type de réseau cherche à obtenir les associations modulaires aussi loin que 

nécessaire. Ainsi, si l’on force un tel réseau avec un signal bruité possédant deux 

composantes (une déterministe, dont la connaissance partielle du passé permet de 

déterminer l’évolution du signal, et une aléatoire, non prédictible quelle que soit la 

connaissance de son passé), la composante déterministe peut être anticipé par le 

système par la seule observation de son passé. Par contre, la composante aléatoire ne 

peut pas être prévue, quelle que soit la connaissance de son passé (par définition), Il 

reste donc une portion du signal forçant qui ne peut pas être anticipée par le système, et 

qui reste donc perturbatrice (Figure 5-12). Cette perturbation, due à l’imprédictibilité du 

bruit additif, provoque une perturbation qui diffuse en permanence dans le réseau. 


118 


Figure 5-13 : Ajout de la composante aléatoire 

Dans le cas où un second site est forcé par la même composante aléatoire que le premier, les 

perturbations résiduelles diffusent dans une zone commune, qui peut faciliter l’anticipation 

des perturbations induites par les deux sites. 

Par contre, si un second site de forçage est imposé avec le bruit additif du premier 

signal de forçage (Figure 5-13), le système peut anticiper l’évolution du premier. En 

effet, les composantes aléatoires des deux sites, étant imprédictibles, induisent dans le 

réseau des perturbations résiduelles qui diffusent le plus loin possible dans le réseau. De 

cette façon, il devrait apparaître un module commun aux deux zones où diffusent les 

perturbations résiduelles. Les deux signaux aléatoires étant égaux, il devrait apparaître 

une forme de cohérence entre les perturbations dues aux deux forçages. Cette 

cohérence, selon un apprentissage hebbien, peut permettre de renforcer les connexions 

entre les deux types de forçage, de telle façon que le bruit du second site de forçage 

devient un signal additif pour le premier site. Via des délais à la transmission des 

signaux de forçage au réseau, ce phénomène peut être causal, et le premier site peut 

suivre sans erreur l’évolution du forçage : l’anticipation peut être totale. Evidemment, le 

bruit du second site reste aléatoire, et continuera à être une perturbation pour le réseau 

(les deux forçages ne peuvent être mutuellement et simultanément une source 

d’information l’un pour l’autre, où alors la causalité du système n’est pas respectée). Il 

continuera donc à propager sa perturbation dans le réseau, à la recherche d’autres 

associations. Si ce bruit est dû à un phénomène possédant des variables cachées, et 

que ces variables sont à la source de dynamiques forçant d’autres sites du réseau, il est 



possible que le système réussisse à effectuer les associations suffisantes pour abaisser 

le degré aléatoire de ce site. 

Ainsi, selon ce principe, le système peut s’adapter de façon auto-organisée à la 

complexité d’un signal : les composantes déterministes anticipables, par la seule 

connaissance du passé du signal, sont anticipées, et les composantes aléatoires créent 

une perturbation résiduelle qui diffuse dans le réseau, le plus loin possible, en fonction 

de l’énergie fournie par cette perturbation. Cette diffusion de l’ensemble des 

perturbations induites, dues aux composantes aléatoires des signaux de forçage, 

peuvent permettre de mettre en évidence des associations qui améliorent l’anticipation 

des composantes aléatoires de certains des sites. De cette façon, la perturbation 

résiduelle, due à la non-prédictibilité du signal de l’un des sites, diminue, et le module 

autour de ce site de forçage peut fonctionnellement se spécialiser à l’anticipation de son 

signal de forçage. 

Il s’agit bien, dans ce cas, d’un ‘filtre de complexité’. 

Ce type d’approche élimine la nécessité d’algorithmes incrémentaux, où l’on ajoute 

des neurones au fur et à mesure de l’apprentissage du réseau. Selon l’approche 

présentée ici, il y a compétition des populations neuronales afin de recruter le maximum 

de neurones pour l’anticipation des perturbations à venir de chacun des sites de forçage. 

Comme nous le verrons par la suite, certains apprentissages hebbiens simples 

accroissent les perturbations induites par le signal de forçage en fonction de la distance 

au site de forçage. Nous avons pu vérifier que, plus un neurone est éloigné du site de 

forçage, plus son comportement est dépendant des petites variations du forçage, et donc 

plus il est utile à l’anticipation de ces petites variations (Figure 8-6, p.189). Ceci va dans 

le sens où les neurones distants ne peuvent créer que de petites variations de la 

dynamique d’un site éloigné, et où ces petites variations dépendent causalement 

d’autres sites de forçages associés. 

Ainsi, dans ce type d’architecture, à voisinage local, et à diffusion de l’erreur dans le 

réseau, il y a hiérarchisation fonctionnelle des neurones par rapport à leur distance des 

sites de forçage : les neurones proches d’un site encodent l’évolution déterministe simple 

(X(t)=f(X(t-1)), et y sont spécifiquement affecté, et les neurones plus éloignés encodent 

les variations plus difficilement prédictibles de ce site, en tenant plus compte des sites 

de forçage voisins, qui amènent une information supplémentaire pour l’anticipation de la 

dynamique du premier site. 

3. Pas de phase d’apprentissage 

Dans de nombreux algorithmes, le fonctionnement du système est séparable en deux 

phases : une phase d’apprentissage où l’on force le système à effectuer la tâche requise, 

et une phase d’utilisation où l’on laisse le système réaliser sa tâche. Bien souvent, le 

temps d’apprentissage est un facteur influent de la qualité de l’apprentissage réalisé : si 

l’apprentissage a duré trop longtemps, le système perd ses capacités de généralisation, 

et oublie les données précédemment apprises. 

Ceci est une limite pour l’apprentissage dans les modèles connexionnistes, et cette 

nécessité de phases d’apprentissage et de généralisation, est peu plausible 


120 


biologiquement 45 . Selon l’approche proposée, il n’est plus nécessaire de réaliser ces 

deux phases. En effet, la perturbation résiduelle est fonction de l’erreur réalisée par le 

système, et la diffusion de cette perturbation est fonction de son intensité. Ainsi, plus le 

réseau approche de la solution, plus son erreur est faible, et moins le nombre de 

neurones qui voient leurs paramètres modifiés est élevé. 

Evidemment, le même phénomène peut être observé dans un simple réseau à 

rétropropagation du gradient : plus l’erreur est faible au niveau des neurones de sorties, 

et moins les modifications dues à l’apprentissage sont rétropropagées dans les couches 

précédentes ; et pourtant, il est nécessaire de réaliser une phase d’apprentissage et une 

phase de généralisation dans le réseau. Dans le modèle proposé, la mémoire est un 

principe actif du système, qui lui permet d’anticiper l’évolution de son environnement : il 

est plongé dans le présent, et ne requière donc pas de référence au passé (à la phase 

d’apprentissage) pour effectuer sa tâche de reconnaissance : le système proposé ne 

nécessite donc pas de phases d’apprentissage et de généralisation distinctes, 

contrairement à un réseau multicouches à rétropropagation, qui doit retrouver des 

associations entrées-sorties préalablement acquises. 

5.3 Principes du modèle connexionniste 

5.3.1 Pour le neurone 

1. Modèle à différences finies 

Après avoir étudié dans un premier temps des réseaux à itérations discrètes, et après 

s’être intéressé aux synchronismes du réseau, il s’est avéré difficile de suivre 

simplement les dynamiques des réseaux discrets. Celles-ci semblaient souvent trop 

désordonnées, et trop peu propices à l’apprentissage de dynamiques lentes et régulières 

Nous nous sommes alors orientés vers les réseaux à différences finies. Ceux-ci offrent 

le net avantage de posséder des dynamiques plus lisses, dont on peut à loisir modifier la 

vitesse, par modification du pas de temps dt. De cette façon, l’analyse des fréquences 

principales du réseau devient plus précis : les fréquences principales ne sont plus toutes 

réunies sur un petit intervalle de hautes fréquences, comme cela était le cas dans les 

réseaux discrets. Il apparaît un plus grand nombre de pics de fréquences qui peuvent 

permettre de mieux quantifier les déphasages entre sites voisins. 

Autre avantage, il est possible ainsi de réguler ainsi la vitesse de la dynamique de 

l’environnement. Nous avons pris pour nos résultats des pas de temps de même 

grandeurs pour les itérations de l’environnement, et pour celles du réseau. 

Malheureusement, le choix de réseaux à différences finies s’est fait un peu tard, et nous 

n’avons pas pu vérifier à nouveau l’ensemble de nos résultats pour ce type de réseau. Il 

45 Ceci ne signifie pas que l’apprentissage ne peut pas être réalisé à des degrés divers durant l’évolution de 

l’organisme, mais qu’il n’y a pas de superviseur, extérieur à l’organisme, qui fasse varier la force de 

l’apprentissage en fonction de la qualité de la réponse du système. 



semblerait pourtant que de tels simulations pourraient permettre de meilleures 

quantifications des synchronismes de populations neuronales. 

L’équation des sorties du neurone suivra donc une équation du type : 

x ( t+ dt) = ( - dt) x ( t) + dt. F( X ( t), X ( t),..., X ( t)) 

i 1 i 1 2 

N 

2. Modèle à mémoire en entrée et sortie 

Dans le but d’étudier les capacités de synchronisme du réseau, nous nous sommes 

rapidement intéressés à des modèles de neurones à mémoire. De nombreuses études 

confirment en effet l’importance des délais dans les capacités de synchronisme et 

d’encodage par les dynamiques de ce type de modèle. De plus, des architectures feedforward 

de neurones à mémoire peuvent apprendre des dynamiques complexes, par 

exemple, celle d’un système de Lorenz ([207]). Il est remarquable, dans cette étude, que 

le réseau, après apprentissage, a mémorisé la topologie générale de l’attracteur. En 

effet, si on laisse évoluer ce réseau en régime libre, à partir d’un point de l’attracteur de 

Lorenz, la dynamique suivie par le réseau, et celle suivie par les équations, s’écartent, 

en vérifiant ainsi, la sensibilité aux conditions initiales du l’attracteur appris par le réseau. 

Par contre, en traçant l’attracteur atteint par les dynamiques du réseau, l’attracteur 

atteint est similaire à l’attracteur de Lorenz. 

Ainsi, ce type de réseau, à mémoire, possède la capacité d’apprendre la structure et la 

topologie de l’attracteur d’une dynamique qui lui a été présentée. 

Or les architectures feed-forward sont des cas particuliers des architectures à récurrence 

locale, que nous utilisons ici. Ce résultat nous permet donc de savoir que nos réseaux 

possèdent la capacité d’apprendre la structure d’un attracteur de Lorenz, et qu‘il existe 

donc une solution aux apprentissages essayés dans le réseau. 

Ce modèle donne donc, pour le calcul de la sortie du neurone : 

N M E æ m ö 

hi() t = çåwij 

xj( t-m) ÷ 

è 

ø 

å 

j= 

1 m= 

0 

x ( t+ dt= ) ( 1- dt) x () t + dt. s( 

h ()) t 

i i i 

Dans le cas où le neurone n’est pas à différences finies, cette mémoire à été généralisée 

au sorties du neurones. En effet, il est possible de voir l’effet de la mémoire en entrée 

comme une convolution d’un vecteur Wij avec Xj. Cette convolution peut être généralisée 

en sortie, où les Xi sont convolués avec un vecteur Si. Ce qui amène : 

M S 

å 

m 

x ( t+ 1) 

= S s( 

h( t-m)) i i 

m= 

0 

Cette mémoire en sortie peut être interprétée en termes de période réfractaire. Ainsi, 

0 MS> m> 

0 1 

dans le cas généralement étudié dans cette thèse, où " , = 1et " , =- , si 

la sortie s( ( )) 

h t 

i 

sature à 1 pour t>tS, alors xi(t=tS+1)=1, xi(t=tS+2)=1-1/m... De cette 

façon, xi(t>tS) tendra peu à peu vers 0, en évitant la saturation du neurone. Ce 

phénomène peut s’apparenter à une fatigue du neurone, correspondant à une période 

réfractaire. 

i 

UN MODELE CONNEXIONNISTE DE LA MEMOIRE 121 

iS i 

iS i 

MS

122 


Comme nous le verrons, cette période réfractaire peut jouer un grand rôle dans les 

capacités de synchronisme du réseau, et dans la diffusion des perturbations induites par 

le forçage. 

3. Sans dynamique chaotique propre 

En postulant, au début de cette thèse, que le chaos est le mode de fonctionnement 

global du cerveau, et non pas sa fonction ni son rôle, et le chaos étant vu comme un 

comportement émergent, nous éliminerons tout chaos pré-implanté à l’échelle neuronale 

(2 Modèle à dynamique chaotique propre, p.69). En effet, dans les études réalisées 

utilisant ce modèle [[64]][[104]], le chaos est utilisé comme source de perturbation 

interne du neurone, pour permettre au réseau de chercher le plus grand nombre 

d’associations possibles entre les activités des neurones. Comme nous le verrons par la 

suite, les simples modèles hopfieldiens à récurrence locale, permettent d’engendrer des 

dynamiques chaotiques en sortie d’un seul neurone. Il n’est donc pas nécessaire d’ 

implanter un comportement chaotique à l’échelle du neurone, pour en voir émerger un, 

qui peut avoir le même rôle que celui proposé : maximiser les chances de voir des 

associations réalisées entre neurones. 

De plus, aucune démonstration biologique d’un comportement chaotique propre d’un 

seul neurone isolé n’a été réalisée. 

4. Apprentissage par forçage 

Durant la thèse, la théorie du forçage neuronal s’est progressivement imposée 

comme principe central du modèle. Au départ, le forçage avait pour but d’améliorer les 

apprentissages dérivés de RTRL, par accélération de l’apprentissage et 

resynchronisation du signal appris sur le signal forçant. Puis, par l’étude des 

phénomènes induits par ce forçage, celui-ci a été progressivement interprété en termes 

de perturbation pour le système, ce qui a permis d’interpréter l’apprentissage comme la 

recherche d’une maximisation de l’autonomie du système en interaction avec un 

environnement dynamique. 

Le forçage de dynamique a donc été systématiquement employé lors du couplage du 

modèle connexionniste avec son environnement (limité dans la plupart de nos 

expérience à un ‘monde’ de sinusoïdes simples !). 

Afin d’intégrer ce forçage au modèle neuronal, nous avons donc ajouté en sortie du 

neurone, une entrée provenant de l’extérieur, qui remplace la sortie si l’entrée est forcée, 

soit : 

5. Système déterministe 

x () t = I () t si i est forcé 

i i 

Nous nous sommes limités dans cette thèse à des modèles déterministes, afin de 

pouvoir affirmer que les comportements observés ne sont pas le seul fruit du hasard, 

mais véritablement la manifestation de comportements émergents du réseau. En effet, 

comme certaines des propriétés observées ne l’ont été que dans un seul réseau, il était 

souhaitable d’être sûr que cette propriété n’était pas due à la composante aléatoire du 

réseau. 



5.3.2 Pour l'architecture 

5.3.3 Bilan 

1. Récurrence locale 

Afin d’observer un comportement dynamique libre, à partir de neurones sans 

dynamique propre, il est nécessaire que l’architecture soit récurrente, afin de créer des 

rétroactions qui les entretiennent. Plusieurs résultats nous encouragèrent à limiter ces 

récurrences à un proche voisinage neuronal. 

Tout d’abord, la thèse de Bruno Cessac [[32]] montre que les propriétés dynamiques d’un 

réseau récurrent sont conservées, même pour de très faibles taux de connections 

récurrentes. D’autre part, la majorité des connections synaptiques d’un neurone 

biologique sont contenues dans un cube d’un centimètre de coté. 

De plus, la notion de récurrence locale permet d’interpréter la transmission d’information 

en termes de diffusions dans le réseau, car il existe une notion de distance entre deux 

neurones du réseau. Dans un réseau totalement récurrent, tous les neurones sont à une 

distance 1 les uns des autres : aucune diffusion n’est observable. Cette architecture offre 

donc la possibilité de vérifier le principe de modularisation fonctionnelle autour des sites 

de forçage. 

Dans plusieurs de nos réseaux, cette diffusion est très visible (Figure 7-21 Figure 7-22 

Figure 7-23 p.163). 

2. Séquentiel ou parallèle 

Il s’est posé le choix du mode d’itération, séquentiel ou parallèle. Dans le cas 

séquentiel, à chaque itération, un seul neurone évolue, choisi au hasard, ou appartenant 

à une liste pré-établie ; dans le cas parallèle, l’ensemble des neurones du réseau 

modifient leur état en même temps. 

Bien qu’il existe des résultats montrant que ces deux règles d’itérations n’engendrent pas 

le même type de comportement, nous nous sommes limités à l’étude du mode parallèle 

pour trois raisons. La première est une simple considération biologique : il n’existe pas 

d’évidence biologique d’une désynchronisation des itérations neuronales. La deuxième 

tient aux temps de calculs. Comme nous comptions simuler le plus grand nombre 

possible de neurones dans un seul réseau, nous avons utilisé l’ordinateur parallèle du 

TIMC, qui itère tous ses processeurs en parallèle. Désynchroniser les itérations 

neuronales aurait compliquer et ralenti encore les calculs. Et enfin, comme nous nous 

intéressions aux dynamiques de populations neuronales, à leurs synchronismes locaux, il 

était essentiel de voir les dynamiques évoluer en parallèle. 

Ainsi, nous nous sommes restreints à l’étude de dynamiques neuronales à itérations 

synchrones. 

Le modèle de neurone utilisé, en vue de l’obtention des propriétés présentées dans le 

modèle théorique de mémoire, sera donc, dans le cas le plus général, du type de celui présenté 

dans la Figure 5-14. 


124 


Figure 5-14 : Modèle général de neurone utilisé 

Ce neurone réalise une convolution en entrée, et une en sortie, s’apparentant ainsi à un 

modèle dit à mémoire en entrée et sortie. La sortie du neurone est remplacée par la perturbation 

extérieure, si elle existe. Ceci donne, en reprenant les équations présentées précédemment : 


N M E æ m ö 

hi() t = çåwij 

xj( t-m) ÷ 

è 

ø 

å 

j= 

1 m= 

0 

x ( t+ dt= ) ( 1- dt) x () t + dt. s( 

h ()) t 

i i i 

M S 

å 

m 

x ( t+ 1) 

= S s ( h( t-m)) si i n’est pas forcé 

i i 

m= 

0 

i 

x () t = I () t si i est forcé 

i i 

Nous avons vu dans le chapitre 2 que le rôle du chaos peut être limité à celui d’un outil 

pour le système cérébral, et considéré comme un phénomène émergent 46 . Lors de la perception 

d’une entrée inconnue, le cerveau augmente son degré de chaoticité. Nous avons postulé que ce 

phénomène était dû au couplage d’un système dynamique non-linéaire à une dynamique forçante. 

Pendant la reconnaissance, ce chaos cérébral diminue : quelle peut en être la cause ? Nous 

pensons, en assimilant l’information extérieure forçante à une perturbation pour le système, que 

celui-ci cherche à minimiser les perturbations induites, et ainsi à maximiser son autonomie, c’est à 

dire à rendre prépondérantes ses variables d’états internes sur celles de son environnement 

forçant. Pour minimiser ces perturbations induites par l’environnement, il cherche à les anticiper, 

ce qui nous fait dire pour résumer que l’on se souvient de ce que l’on peut prévoir. 

Cette diminution du chaos cérébral, lors de la reconnaissance, serait donc due au fait que, 

lors de la reconnaissance, le système anticipe les dynamiques induites, qui sont en général plus 

simples que les dynamiques perturbées du système. Ainsi, par exemple, la dynamique de 

couplage qui rend chaotique le système ‘masse+ressort’, présenté précédemment, est une simple 

sinusoïde. De plus, comme cela a été proposé, il est probable que l’anticipation d’une dynamique 

extérieure soit due aux synchronismes de populations neuronales, qui se sont organisées en vue 

de cette anticipation. Nous complétons donc le modèle précédent (Le système percevant est 

représenté par les matrices neuronales locallement couplées. La modification des dynamiques 

internes de ce système par une dynamique externe peut être de deux types. Le percept n’est pas 

reconnu : il y a alors complexification. Le percept est reconnu : il y a alors synchronisation. 



L’apprentissage permet de passer du premier cas au second. Dans les deux cas, en enlevant la 

dynamique externe (à droite), il y a désynchronisation. 

Figure 2-23, p.59), par la Figure 5-15. 

Figure 5-15 : Modèle d'apprentissage par anticipation du forçage 

La perception d’une dynamique inconnue perturbe le réseau, et complexifie ses dynamiques, 

qui se simplifient par apprentissage, en vue de l’antipation de la dynamique forçante. Lors de 

la perte du forçage, la sensibilité aux conditions initiales fait que le réseau quitte la 

dynamique apprise, ce qui facilite la dépersévération du système. La dimension fractale des 

dynamiques du système varie donc avec l’impression du système : non-reconnaissance 

(PERTURBATION), reconnaissance (ANTICIPATION), et dépersévération (OUBLI). 

Cette figure synthétise le modèle proposé. L’entrée force certaines dynamiques locales du 

réseau, ce qui, avant apprentissage, en augmente la dimension fractale. L’apprentissage, 

synchronisant ces dynamiques, en vue de l’anticipation du système, fait diminuer la dimension 

fractale des attracteurs du réseau, à un niveau qui sera celui atteint lors de la re-présentation de 

cette entrée apprise : le système reconnaît cette entrée, et l’anticipe. Lorsqu’on lâche la 

dynamique du réseau, en enlevant le forçage extérieur, le réseau désynchronise ses dynamiques, 

permettant ainsi une dépersévération, en augmentant la dimension fractale des dynamiques en 

régime libre. Les derniers résultats de cette thèse confirment la faisabilité d’un tel modèle (Figure 

8-23, p.202). 

46 De la même façon, certaines fourmis réalisent des ponts de leurs corps entremélés. Cette structure est 

émergente, et possède un rôle d’outil pour les fourmis qui utilisent ce pont. (exemple tiré de [[19]]) 



Afin de permettre l’observation de ces phénomènes, nous avons cherché à nous inspirer 

des modèles actuels, en cherchant la description la plus simple possible, biologiquement 

plausible. L’architecture est un réseau à récurrence locale, afin de pouvoir facilement visualiser 

les phénomènes de diffusion des perturbations induites si elles se produisent. Le neurone est à 

mémoire en entrée, car il possède naturellement une dimension temporelle, et à mémoire en 

sortie, afin de pouvoir simuler les effets d’une fatigue neuronale. 

Ce modèle possède un très grand nombre de paramètres, dont il est difficile de quantifier 

les effets précis. Nous avons donc privilégié une approche expérimentale, et développé un outil 

informatique sur l’ordinateur parallèle du laboratoire TIMC. Nous avons cherché à obtenir un outil 

qui soit le plus simple d’emploi, et qui puisse nous permettre de concevoir, simuler et visualiser le 

plus grand nombre de réseaux possibles. 


[[21]] Paul Bourgine (paul.bourgine@cemagref.fr). Viability and pleasure satisfaction principle of 

autonomous systems. Imagina 93 proc. (1993) 

[[22]] Paul bourgine (paul.bourgine@cemagref.fr), Francisco J. Varela. Towards a practice of 

autonomous systems. Toward a practice of autonomous systems. F.Varela & P.Bourgine eds. MIT 

Press. Bradford books, 1992, p3-10. (1992) 

[[23]] Paul bourgine (paul.bourgine@cemagref.fr). Modèles d’agents autonomes et de leurs interactions 

coévolutives. Penser l’esprit. V.Rialle & D. Fisette eds. PUG. (1996) 

[[37]] J.P. Changeux. L’homme neuronal. Collection Pluriel. Fayard.(1983) 



[[59]] J. Demongeot. Neural networks : from formal neuro-computing to real neuromodelling. 

[[95]] Frank. C. Hoppensteadt, Eugne M. Izhikevich. Synaptic organizations and dynamical properties of 

weakly connected neural oscillators. A paraitre dans Biological Cybernetics. 

[[122]] David A. Leopold, Nikos K. Logothetis. Activity changes in early visual cortex reflect 

monkeys’percepts during binocular rivalry. Nature. Vol. 379. February. p. 549-553. (1996) 

[[150]] A. Pelah, H.B Barlow. Visual illusion from running. Nature. Vol 381. may 1996, p.283. (1996) 

[[154]] C. Perky. An experimental study of imagination. Amer. J. Psychol. 21. p.422-452. (1910) 

[[155]] Rolf Pfeifer (pfeifer@ifi.unizh.ch),, christian Scheier. From perception to action : the right 

direction ? PerAc '94 conference. IEEE. (1994) 

[[165]] L. Rodet, G. Tiberghien. Towards a dynamic model of associative semantic memory.Journal of 

biological systems. Vol. 2. No. 3. p401-441. (1994) 

[[168]] Norihiro Sadato, Alvaro Pascual Leone, Jordan Grafman, Vicente Ibanez, Marie-Pierre Delber, 



[[205]] F.J. Varela. Autonomie et connaissance. La couleur des idées.Collection Seuil.Edition 1989. 

[[212]] Michael Wellky. William H. Bosking. David Fitzpatrick. A systematic map of direction preference 

in primary visual cortex. Nature. Vol. 379. p725-728. (1996) 

[[219]] Michael Zak. Terminal attractors in neural networks. Neural Networks. Vol.2. p259-274.(1989) 

126 


128 


6. DEVELOPPEMENT INFORMATIQUE DU MODELE 


DPU fault(s) @ ACU pc 0x18860: 

FINVOP(1 or more pe's tried invalid IEEE operand) 

ID Routine name LINE SIDE 

TROISIEME PARTIE : RESULTATS 

FE PC | ACU PC 

0 {_$$_MP_cfft42p1d} :??? ACU 0x0000000 | 0x018860 

1 {_$$cfftp1d} :??? ACU 0x0000000 | 0x016944 

2 calcul_fft :38 ACU 0x0000000 | 0x0097f4 

No MPPEs registered. Try again? (Y/N)[N]: n 

DEC-MPP12000. Mémoires. 

La complexité du modèle proposé demande, si l’on souhaite le tester avec un grand 

nombre de neurones, une grande puissance de calcul, associée à une ergonomie simplifiant la 

simulation et l’analyse de ce type de réseau. 

La puissance de calcul requise a été obtenue grâce à l’ordinateur parallèle du TIMC, le 

DEC-MPP 12000. Cet ordinateur, constitué de 8192 processeurs en parallèle, possède toutes les 

qualités requises à la simulation des réseaux présentés précédemment. Son architecture est 

SIMD, et permet donc de simuler de façon synchrone un grand nombre de neurones (jusqu’à 

262144 dans notre cas). Cet ordinateur possède d’autre part une connectivité physique locale de 

chaque processeur avec ses huit voisins les plus proches, ce qui facilite la définition de voisinage 

local dans les réseaux de neurones développés. 

Ainsi, une telle configuration matérielle est typiquement dédiée à la simulation de grands 

réseaux de neurones, à voisinage local, à évolution synchrone. Afin de faciliter l’évolution de tels 

réseaux, il s’est avéré nécessaire de développer un outil logiciel complet, autorisant la 

construction, l’étude, et la modification de ces réseaux. C’est ce logiciel qui, en grande part, fut à 

l’origine du modèle théorique proposé. En effet, parfois, l’observation de certains comportements 

dans les réseaux a mis en évidence plusieurs propriétés (diffusion, modularisation, 

synchronisation). 

De plus, l’étude de la dynamique des réseaux récurrents en est encore aujourd’hui à ses 

débuts, et, devant le nombre de réseaux de ce type envisageables, il était nécessaire de pouvoir 

simuler le plus grand nombre de réseaux de ce type. Ceci ajoute encore à la nécessité de 

développer un logiciel unique pour l’ensemble de ces modèles.


6.2 L'ordinateur Parallèle DEC-MPP12000 

Cet ordinateur est SIMD (Single 

Instruction Multiple Data), ce qui signifie que 

l’ensemble des 8192 processeurs (PEs) 

effectuent la même opération (single 

Instruction) sur différentes données (multiple 

data). Dans ce but, chaque processeur 

possède une mémoire locale (16Ko). Ces 

8192 processeurs sont répartis sur une grille 

torique de 128 par 64 processeurs. Afin que 

les processeurs communiquent entre eux, 

chacun est relié à ses huit voisins, et peut 

donc échanger avec eux des données en une 

seule étape de calcul. Dès que des 

processeurs distants doivent communiquer, il 

est nécessaire de faire circuler en plusieurs 

pas de calcul l’information d’un processeur 

voisin à l’autre 47 . 

Cet ordinateur est relié à un ‘Front- 

End’ (dans notre cas, une station Dec5000), 

Figure 6-1 : DEC-MPP 12000 

qui se charge de lancer les ordres d’exécution de routines à l’ordinateur parallèle. Cette méthode 

permet d’éviter de concentrer toutes les routines sur le DEC-MPP12000, en déchargeant toutes 

les tâches annexes du programme au ‘Front-End’. Ceci autorise le développement d’une interface 

graphique aidant à la construction, à la modification et à la visualisation du réseau : le ‘Front-End 

se charge de gérer tous les événements de l’interface, et à modifier instantanément l’ensemble 

des paramètres du réseau sur l’ordinateur parallèle. 

6.3 Le logiciel de modélisation 

Ce logiciel est séparé en deux groupes, l’un est consacré à la construction et à la 

modification des paramètres du réseau. L’autre est destiné à visualiser l’état du réseau et des 

mesures qui y sont faites, en temps réel 

6.3.1 Fenêtres initiales au lancement 

Au lancement du programme, les deux fenêtres, de construction et de visualisation, 

apparaissent (Figure 6-2, p.130). La première est consacrée à la configuration de la totalité des 

paramètres du réseau. Le bouton ENTRËES permet de configurer les entrées qui seront imposées 

au réseau. Le bouton RESEAU ouvre la fenêtre de configuration des paramètres du réseau (taille, 

distance du voisinage, géométrie...). NEURONE configure le modèle de neurone choisi, c’est à 

dire la fonction définissant la mémoire du neurone, en entrée et en sortie, et la fonction neurone. 

47 Il existe en plus un routeur extérieur qui permet de transmettre une donnée entre deux processeurs 

quelconques en deux étapes. Mais ces communications, n’étant pas nécessaires pour notre problème, n’ont 

pas été utilisées. 



HISTO recense l’ensemble des actions réalisées par l’utilisateur, ce qui permet, après utilisation, 

de savoir comment le résultat observé a été obtenu. QUITTER offre le choix de sortir ou non de 

l’application. 

Dans la deuxième fenêtre, l’utilisateur peut lancer ou arrêter le réseau, et ouvrir les 

fenêtres visualisant les états du réseau (sortie, activité, attracteurs, bifurcations, fft...) 

6.3.2 Construction du réseau 

130 


Figure 6-2 : Fenêtres initiales 

Cette partie décrit plus précisément le rôle de chaque fenêtre ouverte par la barre de 

construction du réseau (première fenêtre de la Figure 6-2). 

1. Architecture 

Plusieurs paramètres configurent l’architecture du réseau. Les ENTREES définissent 

quels neurones sont forçants, et quelles dynamiques ils imposent au réseau. Le 

RESEAU est défini par le nombre de neurones qui le compose, leur voisinage, et la 

topologie de la matrice de neurones. Le NEURONE est quant à lui défini par les 

fonctions de transfert en entrée et en sortie, par la fonction neurone, et par l’ensemble 

des paramètres de ces fonctions, qui dépendent de chaque neurone, voire de chaque 

synapse. 

a.Entrées du réseau 

Ce sont les entrées forçantes du réseau, c’est à dire les dynamiques qui 

remplacent la sortie de certains neurones. Ces entrées peuvent être définies soit de 

façon globale, soit de façon individuelle. Dans le cas global, des zones entières du 

réseau sont forcées, grâce à une image qui est présentée au réseau. Pour définir une 

dynamique, il est donc nécessaire de présenter au réseau une succession d’images, à


la manière d’un film. Dans le cas individuel, une fonction est accrochée à un neurone 

du réseau, qui en force la sortie. 

Ces deux cas ont été 

implantés dans l’outil logiciel. 

La Figure 6-3 montre la liste 

des images qui sont 

successivement présentées au 

réseau, avec les boutons de 

gestion de cette liste (ajout 

d’une image, abandon d’une 

image...). S’ajoute aussi la 

possibilité de choisir une 

version algorithmique, qui 

correspond à la notion de 

forçage individuel, présenté 

précédemment. Dans ce cas 

l’utilisateur doit choisir 

l’algorithme qui sera utilisé 

pour forcer chaque neurone. 

b.Taille et voisinage 

Figure 6-3 : Entrées du réseau 

Figure 6-4 : Architecture du réseau 

Cette fenêtre permet de définir l’architecture globale du réseau. L’utilisateur choisit 

ici le nombre de neurones, la taille du voisinage de chaque neurone, la frontière et la 

géométrie du réseau. Ces derniers paramètres définissent si le réseau est torique 

(chaque neurone de la frontière est relié à son voisin de la frontière opposée), ou 

plan. Si le réseau est plan, les neurones de la frontière possèdent certaines synapses 


132 


sans information afférente. Dans ce cas, l’utilisateur peut forcer ces synapses à 1, à 

0, ou à une valeur aléatoire. 

2. Modèle neuronal 

Figure 6-5 : Choix du modèle neuronal 

Après avoir configuré les paramètres du réseau, l’utilisateur peut modifier le modèle 

neuronal utilisé. Il a accès aux trois fonctions du modèle (Entrée, Fonction neurone, 

Sortie), et au mode de forçage neuronal (Figure 6-5). Ce forçage peut être situé en 

entrée, avant ou après la fonction de sortie. Ce forçage est-il déterministe (suit la 

fonction de forçage), ou aléatoire (suit une variable aléatoire). Est-il total (tous les 

neurones sont forcés) ou partiel, additif (le forçage s’ajoute à la variable forcée) ou non 

(forçage réel) ? 

C’est à partir de cette fenêtre que sont ouvertes les fenêtres de modification et de 

visualisation des fonctions neuronales H, S et s. 

Le principe retenu est le même pour chacune de ces fonctions : l’utilisateur choisit une 

fonction, définie à l’avance. Cette fonction est définie par des paramètres qui pourront 

être modifiés ensuite soit par l’utilisateur (3 Paramétrisation en temps réel, p.134), soit 

par apprentissage. Lors de l’apprentissage, la modification de l’un de ces paramètres 

peut déformer la fonction associée. Cette modification des paramètres du réseau est 

instantanément répercutée à l’affichage : l’utilisateur peut voir en temps réel l’évolution 

des fonctions de n’importe quel neurone ou synapse du réseau. 

a.Fonctions H et S 

Ces fonctions représentent la mémoire du neurone. H est la fonction du neurone 

en entrée, c’est à dire le vecteur W des poids synaptiques en fonction du retard (2 

Modèle à mémoire en entrée et sortie, p.121). 

Ces deux fenêtres possèdent deux objectifs : elles visualisent la fonction du 

neurone ou de la synapse choisie, et permettent donc de voir en temps réel 

l’évolution des poids synaptiques durant l’apprentissage. Et en superposition sont 

affichés les vecteurs d’entrée ou de sortie, qui seront convolués avec les vecteurs 

des fonctions neuronales respectives. Pour changer de modèle, il suffit de cliquer sur 

TROISIEME PARTIE : RESULTATS


le bouton en bas de la fenêtre. Ceci fait défiler l’ensemble des modèles différents qui 

ont été implémentés. Cette modification est immédiatement répercutée sur l’interface 

(affichage des nouveaux paramètres associés à ces fonctions). 

Figure 6-6 : Modification des fonctions H et S 

Ainsi, l’utilisateur peut, en conservant les autres paramètres du réseau, passer 

d’un modèle à délai, à un modèle à mémoire, ou à atténuation, d’une fonction 

neurone tangente hyperbolique à une sigmoïde. 

b.Fonction neurone s 

Figure 6-7 : Modification de la fonction neurone 

La fonction neurone est visualisée sur une troisième fenêtre, qui trace l’évolution 

de cette fonction au cours de l’apprentissage. Dès qu’un paramètre de cette fonction 

est modifié, par apprentissage ou par l’utilisateur, cette courbe est retracée. 

Ceci permet de visualiser en temps réel, l’effet d’une augmentation du seuil ou de 

la raideur, par exemple. 


134 


3. Paramétrisation en temps réel 

Figure 6-8 : Accès aux paramètres du neurone 

La fenêtre Paramètres (à droite sur la Figure 6-8), liste l’ensemble des paramètres du 

modèle de neurone choisi. Ainsi, par exemple, si l’utilisateur utilise pour le vecteur poids 

W, le kernel ()66: 

m 

wij m 

ij ij 

= ( 1-m ) m , 

seul le paramètre m ij sera listé et représenté dans la liste des paramètres de la fonction 

H. Ce principe permet de tester différents modèles généraux, et l’influence de chacun de 

leurs paramètres. D’autre part, ceci économise de la mémoire, moyennant un temps de 

calcul plus long, lorsqu’un seul processeur simule plusieurs neurones : la mémoire est 

allouée pour un seul vecteur W par processeur, et celui est recalculé pour chaque 

neurone. Seuls les paramètres sont mémorisés. 

En sélectionnant l’un de ces paramètres dans la liste, l’utilisateur a accès à la fenêtre de 

modification de ce paramètre. Il peut choisir la valeur minimale et maximale de celui-ci, 

sa valeur pour la synapse sélectionnée. A chaque paramètre sont accrochées deux 

fonctions. La première est la fonction d’initialisation, qui fixe la valeur initiale du 

paramètre : ceci automatise le procédé d’initialisation, en évitant de devoir rentrer 

chaque paramètre à la main. Cette fonction détermine, à partir des coordonnées du 

neurone et de la synapse, la valeur du paramètre. La deuxième fonction est la fonction 

d’apprentissage, qui, à chaque itération, modifie la valeur des paramètres de chaque 

neurone et de chaque synapse. Cette fonction peut être elle-même paramétrée. De cette 

façon, il est possible de tester successivement plusieurs règles d’apprentissage sur une 

même architecture neuronale. 



De plus, afin de faciliter les capacités d’évolution du programme, un macro-langage a 

été développé, qui permet de décrire de nouvelles fonctions d’initialisation et 

d’apprentissage. Il suffit que l’utilisateur décrive sa fonction dans certaines parties du 

programme, pour que ces nouvelles fonctions soient intégrées à l’interface, et 

deviennent fonctionnelles. 

6.3.3 Analyse du réseau 

La deuxième fenêtre de la Figure 6-2 donne l’accès à la gestion des outils de 

visualisation de l’évolution du réseau simulé. Grâce à celle-ci, l’utilisateur peut ouvrir de nouvelles 

fenêtres qui visualisent différentes mesures sur le réseau : sorties, fft, attracteurs... 

1. Sorties du réseau 

La fenêtre principale de cette analyse visualise les sorties du réseau, en rouge pour 

les sorties à +1 et en bleu pour les sorties à -1. Parfois, pour des dynamiques très lentes, 

cette représentation n’est pas suffisante, car les couleurs varient peu. Pour palier cette 

insuffisance, nous avons ajouté une fenêtre de visualisation de l’activité du réseau. 

Celle-ci affiche selon les mêmes couleurs, la moyenne temporelle de la variation des 

sorties, renormalisée par l’activité maximale du réseau. Ainsi, pour des sorties xi(t), on 

affiche : 

A¢ 

i() 

t 

Ai() 

t = 

max () 

( A¢ 

t ) 

i i 

xi( t) -xi( t-m) avec A¢ 

i() 

t = 

m 

Figure 6-9 : Affichage des sorties 

De cette façon, même de faibles variations des xi(t) sont visualisées. De cette façon, il 

est possible de voir l’évolution des zones de plus grande variation des sorties (à droite 

de la Figure 6-9). D’autres fenêtres d’ana-lyse sont accessibles. Selon le même principe, 

l’utilisateur peut afficher la fréquence maximale de la transformée de Fourier de la 

dynamique de chaque neurone, la puissance ou la phase pour la fréquence de son choix. 

Ces outils seront utilisés dans les analyses du prochain chapitre. 


136 


2. Analyse fréquentielle du réseau 

Ces fenêtres sont accessibles par la deuxième fenêtre de la Figure 6-2, et visualisent 

quelques résultats portants sur la transformée de Fourier de la dynamique individuelle de 

chaque neurone. Il est ainsi possible de tracer la matrice des fréquences d’intensité 

maximale, c’est à dire la fréquence principale de chaque neurone, la matrice des 

isofréquences, qui donne la puissance d’une fréquence donnée pour chaque neurone 

(Figure 7-3, p.147), et la matrice des isophases, qui donne la phase pour une fréquence 

donnée (Figure 6-10). 

Figure 6-10 : Isofréquence et phase du réseau 

Cette fenêtre affiche en plus le résultat des calculs dans la partie du bas, c’est à dire 

la phase ou l’intensité en fonction de la fréquence. En cliquant sur la fréquence choisie 

dans cette fenêtre, la matrice correspondante est affichée. Cela permet de chercher 

rapidement les clusters fréquentiels pour l’ensemble des fréquences. Le même principe 

s’applique aux phases. De même, en sélectionnant un neurone dans la fenêtre du haut, 

la phase ou la puissance de la transformée de Fourier de ce neurone est affichée en bas. 

Ceci permet de vérifier la sélectivité fréquentielle d’un groupe de neurone. Il suffit en 

effet de choisir un neurone du groupe, d’en tracer la transformée de Fourier, de choisir 

sa fréquence principale, et d’en tracer la matrice des isofréquences. Un cluster localisé 

autour de cette fréquence peut alors être mis en évidence (fenêtre de gauche de la 

Figure 6-10). 

3. Suivi d’un attracteur 

Lorsqu’une zone d’activité a été isolée, l’utilisateur peut mettre une sonde sur le 

neurone de son choix, qui enregistre l’activité moyenne autour de la sonde. Cette 

méthode permet de simuler l’enregistrement d’activité neuronale biologique, qui 

moyenne l’activité de plusieurs neurones adjacents. 



L’enregistrement de cette mesure peut 

alors être représentée sous la forme d’un 

attracteur, représenté par la méthode des 

délais. La fenêtre de la Figure 6-11 est celle 

de la gestion de ces sondes, qui visualise 

l’attracteur atteint pour la sonde 

sélectionnée, et permet de changer de 

sonde, d’en ajouter ou d’en détruire. Pour 

ajouter une sonde, il suffit d’aller 

sélectionner le neurone voulu sur l’une des 

fenêtres affichant l’état du réseau 

(sortie,fft,activité...). De plus, l’utilisateur 

peut zoomer sur la fenêtre de visualisation 

de l’attracteur. Il suffit de définir le 

rectangle de la partir que l’on souhaite 

agrandir. Ceci permet de vérifier de visu 

l’existence de trajectoires proches qui 

finissent par diverger, en confirmant ainsi la 

présence d’attracteurs étranges (Figure 7- 

15, p.159). 

4. Cartes de bifurcation 

Figure 6-11 : Tracé d'un attracteur 

Dans le cas où les 

paramètres du réseau varient, 

l’attracteur peut être modifié. 

Dans ce cas, la fenêtre 

précédente affiche la 

superposition des attracteurs 

atteints (Figure 6-12). Par 

contre, il y a distinction des 

phases où l’un des paramètres a 

changé. Ceci permet de tracer a 

posteriori l’attracteur atteint pour 

une seule valeur du paramètre 

choisi. Ainsi, il suffit de 

sélectionner la valeur de ce 

paramètre dans la carte de 

bifurcation de la Figure 6-13, 

pour que s’affiche dans la 

fenêtre de visualisation 

l’attracteur correspondant à cette 

Figure 6-12 : Succession des attracteurs 

valeur du paramètre. C’est de cette façon qu’ont été tracés les attracteurs de la Figure 7- 

35, qui montrent leur modification d’après la carte de bifurcation du gain de la fonction 

neurone (Figure 7-34, p.175). Par la première fenêtre (Figure 6-13), l’utilisateur peut 

modifier les paramètres de la sonde : les facteurs de zoom, les retards pour le 

plongement de l’attracteur, et la distance à laquelle est réalisé le voisinage. L’utilisateur y 


138 


définit aussi le fichier de données et le fichier image, pour la sauvegarde des valeurs de 

la série, et de l’image de l’attracteur. 

Sur la deuxième fenêtre, 

l’utilisateur choisit l’ensemble des 

paramètres en vue du tracé de la 

carte de bifurcation. Il peut choisir 

le paramètre bifurquant, son 

intervalle de variation, le nombre 

de pas d’itérations pour la 

stabilisation et l’enregistrement de 

l’attracteur. Dans certains cas, il 

est possible de choisir le neurone 

et la synapse dont le paramètre 

doit varier. Lorsque ces 

paramètres ont été choisis, le 

lancement du calcul de la carte 

de bifurcation se fait automatique 

: le programme lance les étapes 

Figure 6-13 : Suivi des bifurcations 

de stabilisation, puis enregistre 

l’attracteur pendant la phase de calcul, modifie la valeur du ou des paramètres choisis, 

puis réitère ces opérations jusqu’au tracé complet de la carte de bifurcation. Après cette 

phase, l’utilisateur a accès à l’ensemble des attracteurs qui ont été obtenus. Si plusieurs 

cartes de bifurcations ont été tracées, il suffit de choisir la sonde désirée pour en tracer 

la carte de bifurcation correspondante. 



5. Mesures sur un neurone 

Pour chaque sonde, l’utilisateur a 

accès à plusieurs affichages et 

résultats : visualisation de la série 

temporelle, de sa transformée de 

Fourier, et son histogramme. Dans le 

cas où la série temporelle résulte d’un 

calcul de bifurcation, la simple 

sélection d’une portion de l’évolution 

de la série trace la fft et l’histogramme 

correspondants. 

Comme on peut le voir, l’outil a été 

pensé pour que, de chaque fenêtre de 

résultat, l’utilisateur ait la possibilité de 

tracer tous les résultats des calculs 

correspondants. La sélection d’un 

neurone dans la fenêtre des sorties 

affiche tous les paramètres 

correspondant à ce neurone, ses 

sorties, et ses entrées. Si ce neurone 

est une sonde, l’attracteur 

correspondant est tracé. Dans le cas 

Figure 6-14 : Mesures d'une sonde 

où cet attracteur résulte de la 

superposition de plusieurs, il suffit de sélectionner la valeur du paramètre voulu sur la 

carte de bifurcation, pour afficher l’attracteur correspondant, sa fft, et son histogramme. 

De cette façon, il est possible de voir l’ensemble des résultats portant sur chacun des 

neurones du réseau. 


L’outil logiciel développé a totalement rempli son rôle : son ergonomie, et sa puissance de 

calcul ont permis de simuler un très grand nombre de réseaux, parfois complexes et de très 

grande taille, et d’en analyser les principales propriétés. C’est grâce au grand nombre de fenêtres 

de visualisation des mesures sur les sorties du réseau, et à leur interdépendance, qu’ont pu être 

mis en évidence les propriétés de diffusion, de modularisation, de clustering fréquentiel, et de 

mise en phase des populations neuronales, qui sont à l’origine du modèle théorique de mémoire 

proposé auparavant. Certains calculs manquent, en particulier ceux portant sur les dimensions 

fractales. Mais l’ensemble des algorithmes testés se sont avérés inefficaces, certains donnant 

même des résultats incohérents (diminution de la dimension fractale en augmentant la dimension 

de plongement). Dans le cadre actuel de cette thèse, qui se limite à une approche qualitative, 

délimitant quelques architectures répondant aux besoins imposés par le modèle théorique, cette 

lacune peut être considérée comme secondaire dans un premier temps. Mais nous espérons 

néanmoins pouvoir la combler dès qu’une méthode de calcul fiable de ces dimensions aura été 



trouvée. En plus de cette amélioration, nous espérons pouvoir porter 48 ce logiciel sur de nouvelles 

architectures, afin de pouvoir faire profiter de ce travail à d’autres laboratoires. 

48 Le portage sur PC sous Linux, et sur Station Alpha est en cours. 

140 





7. DYNAMIQUES OBSERVEES ET EXPERIMENTEES 


Il n’est de désir plus naturel que le désir de connaissance. Nous 

essayons tous les moyens qui nous y peuvent mener. Quand la raison 

nous faut, nous y employons l’expérience, qui est un moyen plus faible et 

moins digne; mais la vérité est si grande, que nous ne devons dédaigner 

aucune entremise qui nous y conduise. 

Montaigne. Les essais. 

Le modèle présenté (Un modèle connexionniste de la mémoire, p.95) a été réalisé dans un 

but de simplification maximale des architectures neuronale, mais de telle sorte qu’il reste 

biologiquement plausible, c’est à dire non contradictoire avec les connaissances 

neurophysiologiques actuelles. Comme cela a été explicité en début de thèse, le but n’était pas 

d’obtenir un équivalent biologique, mais un modèle bas niveau, biologiquement plausible, 

possédant des propriétés communes avec la mémoire humaine, évoluant dans un simple ‘monde 

systémique’. 

Malheureusement, il reste encore dans ce modèle de trop nombreux paramètres, dont on 

ne connaît pas encore l’influence exacte sur les dynamiques du réseau, malgré les études portant 

sur le caractère bifurquant de nombreux paramètres (poids synaptiques, pas de discrétisation 

temporelle, raideur des fonctions neurones... ). Il semblerait d’ailleurs qu’une infime variation de 

certains de ces paramètres puisse modifier totalement le comportement du réseau. Il suffit pour 

s’en convaincre de voir la nature irrégulière de la variation de l’exposant maximal de Lyapunov en 

fonction d’un seul paramètre (7.2.4 Réseau Hopfieldien à différences finies, p.167). Ce type de 

comportement est une limite pour la quantification exacte du rôle de chaque paramètre sur les 

dynamiques du système. Et autre obstacle, les outils mathématiques disponibles ne sont pas 

suffisants pour permettre une approche théorique du comportement individuel de ces modèles 49 . 

Nous avons donc rapidement fait le choix de nous limiter à l’observation de 

comportements grâce à une approche principalement expérimentale, aidée par le logiciel 

développé. Ainsi, contrairement à ce que l’organisation de cette thèse laisse paraître, ce sont les 

49 cette limite s’applique moins à l’étude statistique des comportements de ces modèles pour des valeurs 

limites des paramètres. Mais, dans le cadre de cette thèse, nous cherchions à observer la richesse des 

dynamiques individuelles, et nous ne pouvions donc pas nous limiter à l’obtention de propriétés statistiques, 

même si celles-ci furent très utiles pour l’orientation initiale du choix du modèle. 

DYNAMIQUES OBSERVEES ET EXPERIMENTEES 143


réseaux qui furent à l’origine du modèle de mémoire. En effet, c’est en pratiquant ces réseaux que 

nous avons pu mettre en évidence certaines de leurs caractéristiques, qui furent synthétisées pour 

essayer de concevoir un modèle de mémoire biologiquement plausible. Il fut très intéressant, 

durant cette phase d’observation des dynamiques, de noter que certains de ces comportements 

pouvaient être interprétés à la lumière des théories actuelles de la mémoire, débouchant ainsi sur 

la proposition d’un modèle théorique de mémoire anticipatrice des perturbations induites par le 

forçage, qui possède des propriétés biologiquement justifiables. 

Nous avons orienté l’étude en partant de modèles très simples, de type Hopfieldien à 

matrice de connexions isotrope, vers des modèles plus complexes, à différence finie et contenant 

une fonction de transfert en entrée et en sortie. A chaque fois, nous avons tenté de repérer les 

dynamiques représentatives de ces modèles, et de déterminer le rôle qualitatif de chaque 

paramètre sur ces dynamiques. L’ensemble des résultats observés ne peut pas être décrit dans 

cette thèse, car plusieurs centaines de réseaux ont été simulées. Nous avons donc tenté de trier 

les plus représentatifs, en privilégiant ceux qui orientèrent le modèle de mémoire. A chaque fois 

qu’un phénomène a été observé, nous avons tenté de simplifier le modèle de réseau jusqu’à 

disparition de l’effet observé, en tentant ainsi d’obtenir le modèle le plus simple possible vérifiant 

ce comportement. Aucune loi précise et transposable n’a pu être obtenue par cette méthode, et 

c’est certainement l’une des limites de cette thèse. Mais la souplesse de l’outil informatique 

développé, associée à la puissance de l’ordinateur parallèle, nous a permis d’observer les réseaux 

sans négliger trop certaines zones de l’espace des paramètres du réseau. Ainsi, sans être 

exhaustive, la liste des comportements présentés dans ce chapitre est représentative de ceux 

observables dans nos modèles. Il faudra donc voir les résultats qui suivent comme une approche 

préliminaire du problème, en espérant pouvoir passer à une phase plus quantitative que 

qualitative, et peut-être ainsi dégager une loi d’apprentissage fiable pour nos réseaux, qui soit 

cohérente avec le modèle proposé, ce que nous n’avons pas pu réaliser. 

Ce chapitre retrace l’évolution de cette étude, en mettant en évidence les comportements 

des réseaux qui orientèrent notre modèle. A chaque fois que cela fut possible, nous avons essayé 

de limiter le nombre de réseaux présentés dans ce chapitre, afin de familiariser le lecteur avec 

chacun d’entre eux, et de limiter la diversification abusive des résultats et des modèles exposés. 

7.2 Dynamique des modèles à paramètres figés 

Dans la totalité des résultats présentés ci après, les conditions initiales du réseau et ses 

paramètres ont été choisis aléatoirement, puis gelés pendant l’évolution du réseau. Parfois, afin 

de voir plus clairement les résultats énoncés, il a été nécessaire de modifier certains paramètres 

du réseau ‘à la main’ avant d’obtenir des dynamiques intéressantes, mais ce fut rare. En effet, 

devant la taille des réseaux étudiés (jusqu’à 262144 neurones), il était surprenant de ne pas 

trouver dans chaque réseau quelques neurones aux propriétés intéressantes. 

7.2.1 Réseaux simples : Modèles récurrents sans mémoire 

144 

1. Matrice de connexion aléatoire 

Les premières études réalisées portent sur de simples réseaux récurrents, à 

voisinage local, avec une connectivité aléatoire, possédant des connexions excitatrices 



et inhibitrices. Les conditions initiales du réseau ont été choisies aléatoirement, puis 

nous avons laissé évoluer le réseau librement, sans perturbation extérieure. 

A chaque fois qu’un nouveau modèle sera présenté, nous tenterons de synthétiser les 

équations utilisées dans un même tableau, donnant les lois et les paramètres des 

entrées et de l’évolution du réseau. Les trois colonnes à gauche du tableau indiquent les 

étapes du réseau : dans le modèle présenté ci-dessous, les entrées ont été présentées 

au réseau avant son évolution, sous la forme des conditions initiales du réseau, puis le 

réseau a évolué en régime libre, sans entrées. Ce principe de présentation permettra de 

séparer clairement les algorithmes d’apprentissage en ligne, de ce qui ne le sont pas, 

ainsi que les forçages temporaires ou permanents, par exemple. Dans l’établissement 

des conditions initiales des paramètres du réseau, une fonction sera souvent utilisée, 

notée Ak, qui prend en entrée un ensemble d’intervalles disjoints, et qui renvoie une 

variable aléatoire, équiprobable, pour chaque intervalle et pour chaque paramètre k. 

Ainsi, par exemple, Xij=Aij[-1;[a;b]) signifie que p(Xij=-1)=1/2, et que 

1 

p( Xij Î [ ab ; ], 0£ a< b£ 

1) 

= . Les lois statistiques utilisées dans cette thèse pour 

2( 

b-a) les variables aléatoires sont des lois uniformes. 

TYPE LOIS PARAMETRES 

Entrées x ( 0) = A ([ -11 

; ]) 

i i 

N 

i = å ij j 

j= 

1 

Evolution ht () w x () t 

a.Vers une activité locale 

Dans ces modèles, l’activité est 

restreinte à de petites zones du 

réseau. Ces zones d’activité sont 

statiques, c’est-à-dire qu’elles ne se 

déplacent pas dans le réseau : de 

petits groupes fixes du réseau ont une 

activité dynamique. Ce résultat peut 

être visualisé sur la Figure 7-1 où est 

tracée l’activité de la totalité du 

réseau. 

e 

xi() t = 

1+ 

e 

b 

- h() t 

b 

- h() t 

DYNAMIQUES OBSERVEES ET EXPERIMENTEES 145 

V i 

V i 

w ij ij 

= A ([ -11 

; ]) 

N=8192 

b=252 

Cette fonction a surtout un rôle 

d’indice pour la recherche des zones 

de forte activité : dans la Figure 7-1, 

nous avons représenté la variation des 

états des neurones pendant une seule 

itération, et renormé l’ensemble afin Figure 7-1 : Activité du réseau 

V=8

146 


d’obtenir en noir les zones d’activité maximale, et en blanc les zones d’activité 

minimale. Cette activité n’est pas dominante dans le réseau, et est limitée à de très 

petits groupes neuronaux. 

b. Une activité chaotique 

Dès que ces neurones actifs ont été recensés, nous avons mis des sondes sur 

certains d’entre eux, afin de tracer les dynamiques individuelles suivies. Les 

attracteurs de ces dynamiques ont été tracés, et quatre d’entre elles sont 

représentées dans la Figure 7-13. 

Figure 7-2 : Variétés d'attracteurs dans un même réseau 

Il est intéressant de remarquer que ces dynamiques sont qualitativement assez 

différentes, et que certaines d’entre elles semblent évoluer vers des attracteurs 

chaotiques. Ainsi, il n’est pas nécessaire de réaliser un moyennage de l’ensemble des 

dynamiques du réseau pour obtenir des trajectoires complexes : les dynamiques 

individuelles d’un réseau à voisinage local (ici limité aux 8 neurones voisins) 

présentent elles-aussi une grande richesse comportementale. 

Nous aurions souhaité pouvoir obtenir des résultats quantitatifs sur la complexité 

de ces dynamiques, en calculant par exemple leur dimension fractale, et dans ce but 

avons essayé de nombreux programmes dont aucun ne nous a permis d’obtenir une 



dimension fractale fiable pour l’ensemble des dynamiques obtenues dans nos 

réseaux. La notion de chaos sera donc observée par ses propriétés de dépendance 

aux conditions initiales (Plusieurs attracteurs par neurone, p.154), et par l’observation 

de nombreux paramètres bifurquants (Paramètres bifurquants, p.173). 

c. Synchronisme local 

Le modèle théorique de mémoire proposé précédemment requiert l’obtention de 

synchronismes locaux. Dans ce but, nous avons calculé la transformée de Fourier de 

chaque dynamique locale du réseau, et avons effectué une ‘coupe’ à une fréquence 

donnée de l’ensemble des spectres du réseau. La méthode utilisée est représentée 

par la Figure 7-3, qui montre comment est obtenue la matrice donnant la puissance 

d’une fréquence donnée pour chaque neurone. 

Figure 7-3 : Obtention de la matrice des fréquences 

Afin d’obtenir la matrice des fréquences, la transformée de Fourier de chaque dynamique 

neuronale est calculée, puis, pour une fréquence donnée, l’intensité de cette fréquence pour 

chaque site est codée par une couleur. 

Les codes couleurs utilisés vont du bleu pour les puissances les plus faibles 

jusqu’au rouge pour les puissances les plus fortes. En dessous d’un certain seuil, les 

puissances sont représentées par du gris. Les matrices obtenues par ce procédé pour 

le réseau actuellement étudié sont présentées dans la Figure 7-4, pour douze 

fréquences différentes. 

On peut voir sur cette figure que le réseau s’organise, et que chaque fréquence 

possède une puissance plus grande dans des clusters 50 précis. De même, certains 

clusters semblent posséder un plus grand nombre de fréquences que d’autres. Ce 

type de comportement est assez encourageant, car il présente deux caractéristiques 

recherchées dans nos réseaux. La première est que ce réseau possède une 

répartition large d’un grand nombre de fréquences dans tout le réseau : dans un 

50 En français : amas. Désigne un petit groupe de neurones groupés. 


148 


même réseau, les périodes peuvent aller de 1 (neurone oscillant entre deux états), à 

des périodes beaucoup plus longues (parfois plusieurs centaines d’itérations). 

La deuxième caractéristique qui nous semble importante est que ce type de 

réseau possède naturellement une organisation locale des dynamiques, et que cellesci 

se synchronisent en petits groupes de clusters. Ce type de réseau possède des 

caractéristiques de modularisation potentielle. 

Nous avons testé plusieurs dizaines de réseaux de ce type, en choisissant une 

répartition aléatoire des poids, à une même température, et tous possèdent cette 

même propriété : de petits groupes neuronaux s’organisent autour de fréquences 

spécifiques. 

Figure 7-4 : Clustering fréquentiel 

Pour différentes valeurs de fréquence, les zones où cette fréquence est maximale varient. 

Ainsi à chaque fréquence est associée un cluster préférentiel. 

A ce niveau de l’étude, ces résultats semblent suffisants pour tenter de les 

rapprocher du modèle cherché, où des modules neuronaux s’organisent et se 

synchronisent. Malheureusement, dans tous les essais réalisés, les clusters obtenus 

étaient de petite taille, de l’ordre de grandeur du voisinage neuronal. 

Ceci peut être expliqué simplement par le fait que, si un neurone oscille à une 

certaine fréquence, il entraîne obligatoirement les neurones qui lui sont connectés à 

cette fréquence, mais, pour que le neurone ne sature pas, il faut que celui possède 

des rétroactions négatives qui le maintiennent sur une dynamique. Or, ces 

configurations des poids sont rares dans un réseau où les poids sont choisis au 

hasard. Ainsi, il y a de grande chance que des groupes neuronaux saturent, isolant 

les clusters où l’architecture permet de maintenir une dynamique. 



Cette petite taille des clusters limite les capacités de synchronisation de grands 

modules dans le réseau. Il est donc intéressant de chercher un nouveau type de 

modèle, augmentant la taille de ces clusters synchronisables. Il serait souhaitable 

d’autre part que ces clusters puissent être mobiles, en créant des vagues de 

synchronisme dans le réseau. Ceux observés jusqu’à présent, attachés à 

l’architecture locale du réseau, sont immobilisés et figés. Ils ne peuvent pas sortir de 

la partie du système qui leur a donné naissance, car c’est l’architecture locale du 

réseau qui les entretient. 

d.Synchronisation et clustering fréquentiel par forçage 

Mais, dans le cas d’une architecture figée, le forçage ponctuel du réseau confirme 

l’hypothèse qu’il y a diffusion complexe des fréquences induites par un forçage 

sinusoïdal. Afin de mieux mettre en valeur ce phénomène, nous avons utilisé le 

modèle du réseau précédent, en utilisant un neurone à différence finie : 


Entrées I () t = 0 

N 

i å ij j 

j= 

1 

[ i, j] 

¹ [ 51, 32] 

I ( t) = sin( wt) 

[ 51, 32] 

Evolution ht () = w x ( t -dt) 

L’intérêt de ce modèle est que les 

dynamiques des xi(t) sont plus lisses, 

car elles varient au maximum de 2.dt, 

ce qui atténue les hautes fréquences 

pouvant parasiter l’interprétation du 

clustering fréquentiel induit par le 

forçage sinusoïdal du neurone [54,32]. 

En partant d’un réseau uniformément 

initialisé à 0, l’évolution des sorties au 

cours du temps montre clairement qu’il 

y a diffusion de l’activité au sein du 

réseau : le forçage induit une 

perturbation dans le réseau, qui diffuse 

autour du site de forçage (Figure 7-5). 

Cette activité induit des 

comportements complexes, 

chaotiques, dans la totalité du réseau 

x( t) = ( 1-dt) 

x ( t-dt) i i 

dt 

V ht 

æb 

ö 

+ .arctan ç i() 

÷ 

è ø 

v =dt /10 

N=8192 

b=61 

dt=0,3 

V=8 

Figure 7-5 : Diffusion de l'activité neuronale 


150 


(Figure 7-6), ce qui confirme bien que le réseau ‘perçoit’ l’environnement (la 

sinusoïde forçante), par complexification de ses propres dynamiques. En effet, ce 

même réseau, en régime libre, c’est à dire sans le forçage du neurone [54,32], en 

partant de xi(0) aléatoires, possède des dynamiques locales qui, soit s’éteignent 

rapidement, soient convergent vers des cycles limites pour la plupart périodiques et 

de faible amplitude. Ainsi, comme nous pouvions nous y attendre, le forçage central 

entretient et complexifie les dynamiques induites. 


Figure 7-6 : Complexification des dynamiques 

Afin de confirmer l’hypothèse d’un clustering fréquentiel autour du site de forçage, 

nous avons représenté l’intensité et la phase de la transformée de Fourier de 

l’ensemble du réseau, pour plusieurs fréquences, situées de part et d’autre de la 

fréquence de forçage. Autour de la fréquence principale de forçage, il apparaît une 

zone où l’intensité de cette fréquence est maximale, ce qui confirme que le forçage 

induit un clustering fréquentiel autour du site de forçage. D’autres clustering 

émergent, soit sur cette fréquence de forçage, soit sur des fréquences proches, 

indiquant que la perturbation induit des clusterings locaux, asociables à des 

phénomènes de résonance du réseau. Ce phénomène est à rapprocher des 

expériences neurophysiologiques qui ont mis en évidence que des zones corticales 

distantes peuvent s’activer à des fréquences proches, à la perception d’un stimulus. 

De plus, le paysage de phase associé indique que de nombreux neurones sont en 

phase sur cette fréquence. Le forçage induit donc des phénomènes de 

synchronismes qu’il peut être intéressant d’étudier dans le cadre d’une recherche 

d’une règle d’apprentissage.


Figure 7-7 : Clustering fréquentiel autour du site de forçage 

Pour quatre fréquences proches de la fréquence de forçage, des clusters isofréquences 

émergent, parfois éloignés du site de forçage. Les isophases associées à ces fréquences 

montrent de plus que le réseau se synchronise parfois autour de clusters isophases 

spécifiques, et distants du site de forçage. 

7.2.2 Réseaux à mémoire 

La première idée permettant de mieux diffuser les dynamiques dans le réseau a été 

d’utiliser des neurones à mémoire (3 Modèle à mémoire, p.66). En effet, comme cela a été vu, le 

principal avantage de ce modèle de neurone est de posséder une dynamique propre, puisque les 

entrées de ce neurone sont convoluées avec une fonction de transfert. Ainsi, il est possible 

d’espérer que les dynamiques obtenues, et l’activité du réseau, seront confinées dans des clusters 

de plus grande taille. La complexification des dynamiques nous a fait apparaître certains 

comportements auxquels nous ne pensions pas : il a en effet pu être observé une modification des 

attracteurs qui dépend du moment initial du forçage d’un groupe de neurones, ainsi que des 

phénomènes d’accrochage de fréquence entre neurones voisins. Ces résultats sont présentés 

dans les pages qui suivent, au fur et à mesure qu’ils nous sont apparus, lors de l’étude des 

modèles. 

1. Modèles à délai 

L’architecture à mémoire la plus simple à réaliser est un modèle à délais, où 

l’information met un certain nombre d’itérations avant d’arriver au neurone. Ce type 

d’architecture semble plus proche de la réalité biologique. 


( 0) =A(,) 

01 

Entrées I i i 

Evolution 

i 

N 

å ij 

j= 

1 

j ij 

ht () = wx( t-t 

) 

e 

xt i() 

= 

1+ 

e 

b 

-h 

t 

V i() 

b 

-h 

t 

V i() 

N=8192, b=252, V=8 

w ij ij 

= A ([ -11 

; ]) 

t ij ij 

( , 

) 

= A < 019> 


152 


a.Augmentation de la taille des clusters d’activité 

La première remarque qui peut être 

faite est que les clusters augmentent de 

taille. La Figure 7-8, tracée de la même 

façon que la Figure 7-1, avec une même 

configuration des poids, montre que 

l’activité est plus forte dans ce type de 

réseau : il existe un plus grand nombre 

de configurations des poids qui 

permettent d’entretenir des dynamiques 

locales dans le réseau : les délais 

facilitent la diffusion de l’activité locale 

dans le réseau. En traçant les 

attracteurs des dynamiques individuelles 

de quelques sites de ce réseau, on peut 

voir que les dynamiques semblent plus Figure 7-8 : Activité dans un modèle á délais 

périodiques que celles du même réseau 

sans délais (mêmes valeurs des poids synaptiques, ajout de délais aléatoires). 

Figure 7-9 : Attracteurs d'un modèle à délai 

Afin de confirmer cette impression de synchronisation locale, nous nous sommes 

intéressés au paysage fréquentiel des dynamiques individuelles des neurones. Pour 

ce, nous avons tracé trois matrices. La matrice des fréquences maximales, donne la 



valeur de la fréquence dont la puissance est maximale. Le code couleur correspond à 

du bleu pour une fréquence nulle (composante continue), et rouge pour la plus haute 

fréquence observable (période correspondant à une itération du réseau). La matrice 

des phases donne, pour une fréquence donnée, la phase de cette fréquence pour 

chaque neurone du réseau. Et enfin, la matrice des isofréquences donne, pour une 

fréquence donnée, l’intensité de la composante de cette fréquence, pour chaque 

neurone du réseau. 

Comme on peut le voir (Figure 7-10), la matrice des fréquences maximales 

montre l’existence de clusters fréquentiels : les neurones semblent s’organiser 

localement. La transformée de Fourier de la dynamique d’un neurone central montre 

qu’il existe une fréquence d’intensité maximale, dominant l’intensité des autres 

fréquences : la dynamique de ce neurone est quasi-périodique. En traçant la matrice 

des phases, pour cette fréquence principale, les neurones voisins de ce neurone 

sélectionné ont des phases proches : il y a synchronisation locale. 

Figure 7-10 : Synchronisations locales 

Lorsque le réseau est en régime libre, les fréquences maximales montrent la diversité des 

fréquences principales du réseau. Par contre, pour une fréquence donnée, certains clusters 

isophases et isofréquences émergent de façon locale. 

Enfin, la matrice des isofréquences, toujours pour cette fréquence principale , 

montre que l’intensité de cette fréquence est maximale autour du cluster central. Il 

s’agit même d’un cluster unique : seule cette population neuronale s’est synchronisée 


154 


autour de cette fréquence. En recommençant cette étude sur les différents clusters du 

réseau, il est possible de voir que différentes zones du réseau s’organisent de façon 

sélective autour de fréquences précises, et où les neurones sont en phase. Cette idée 

conforte la faisabilité d’un encodage par synchronisme de populations neuronales. 

Que ce passe-t-il si l’on perturbe ce type de réseau ? 

b. Plusieurs attracteurs par neurone 

Comme cela peut être vu dans le tableau suivant, les entrées initiales (à t=0) ont 

été choisies aléatoirement selon toujours une loi uniforme, puis au bout d’un certain 

temps (t=t0), de nouvelles entrées ont été présentées au réseau, sous la forme d’un 

forçage à 1 d’un carré central. 

Figure 7-11 : Perturbation de tous les neurones 

Après perturbation de tous les neurones, le réseau ne se stabilise pas sur le même attracteur. 

La dynamique atteinte est plus complexe, même si elle conserve une composante proche de 

celle d’avant la perturbation. 

Nous avons commencé par bruiter l’ensemble des neurones du réseau précédent, 

en forçant de façon équiprobable les sorties à plus ou moins un. Après perturbation, 

le réseau se stabilise sur de nouveaux attracteurs. Le neurone [21-44] complexifie sa 

dynamique (Figure 7-11). 


Entrées " iÎ S, I ( t= 

0) = A( 

01 ,) 

Evolution 

i 

" iÎ S , I ( t> t ) = 1 

E i 


0 

i 

N 

å ij 

j= 

1 

j ij 

ht () = wx( t-t 

) 

- 

e 

xi() t = 

1+ 

e 

Thi() t 

-Thi() 

t 

N=8192 

w ij ij 

= A ([ -11 

; ]) 

t ij ij 

( , 

) 

= A < 019>


Cette expérience nous conforte dans l’idée qu’une dynamique forçante peut être 

source de perturbation pour le réseau, qui, après la fin du forçage, se stabilise sur un 

nouvel attracteur, plus complexe : il y a bien complexification des dynamiques 

individuelles à la présentation d’une information non reconnue. 

A partir de ce type de réseau, avec des neurones à délais, nous avons tenté de 

voir l’influence du forçage d’un groupe de neurone sur les dynamiques locales, et 

savoir s’il pouvait y avoir une diffusion des perturbations induites. Pour ce, un groupe 

de neurones a été forcé à 1. 

La modification des dynamiques n’est réalisée que dans un voisinage proche du 

site de forçage, et seuls les neurones situés dans une zone de 5 à 10 fois plus grande 

que le voisinage d’un neurone, voient leurs dynamiques modifiées (Figure 7-12). 

Figure 7-12 : Perturbation des dynamiques 

Les attracteurs atteints par [90-20],[92-20], et [95-20] (ronds blancs), ont été tracés avant et 

après perturbation par deux rectangles. Le neurone [92-20] voit sa dynamique modifiée, 

tandis que [95-20] ne semble pas être altéré. 

Mais ce qui s’est révélé surprenant durant cette étude, c’est que les attracteurs 

modifiés des neurones varient en fonction du moment où les neurones sont forcés. 

En effet, en fonction du moment t0 où le forçage est imposé, les neurones voisins du 

site de forçage ne se stabilisent pas sur le même attracteur : si t0=100 ou t0=150, 

l’attracteur sur lequel se stabilise le neurone [90,20] n’est pas le même. Sur la Figure 

7-13 sont tracés les quatre attracteurs qui ont pu être atteints en faisant varier t0. Pour 

t0 variant par pas de 1, le neurone se stabilise successivement sur chacun des 


156 


attracteurs suivants, sans qu’aucune régularité ait pu être observée dans cette 

séquence. 


Figure 7-13 : Attracteurs d'un même neurone 

Ce résultat nous a semblé au départ étonnant, puisqu’un même site, perturbé par 

une même information, pouvait se stabiliser sur plusieurs attracteurs différents, ceci 

dépendant uniquement du moment où l’information a été présentée. Mais ce résultat, 

rapproché des phénomènes d’hystérésis observés (Figure 7-42, p.180), montre bien 

que plusieurs dynamiques peuvent coexister dans un même réseau forcé. Ce type de 

résultat nous a encouragés dans l’idée d’un forçage des réseaux, car celui-ci laisse 

une certaine forme de ‘choix’ au réseau, conforme à l’idée une auto-organisation du 

réseau dépendant de son état : l’information perçue est relative au système 

percevant. Ceci nous a fait conclure dans le modèle de mémoire présenté 

précédemment que le système percevait non pas le forçage extérieur, mais la 

modification induite par ce forçage : un même percept peut induire différents états 

internes du réseau, il n’y a donc plus déterminisme total du comportement du 

réseau 51 . Nous revenons donc aux principes d’autonomie présentés précédemment (2 

51 Au sens où un même environnement induit un seul et unique état du réseau. Il se déage une certaine 

forme d’autonomie du réseau, dont l’état dépend de l’environnement ET de son état interne.


Vers une maximisation de l’autonomie, p.108) : l’état interne du réseau participe à 

l’évolution de son état futur. 

2. Modèles à atténuation 

Après l’étude de réseaux à mémoire, nous nous sommes intéressés à des modèles à 

mémoire, où l’information était transmise avec une atténuation au cours du temps. Ce 

type de modèle correspond au modèle à mémoire présenté précédemment, et possède 

des poids synaptiques qui suivent une loi du type : 

r 

w ( r) = w ( 0).( k ) avec 0< k < 1 

ij ij ij 

Ce type de loi peut permettre de modéliser une forme de permanence de l’information 

transmise de neurone à neurone, tout en donnant une prépondérance à l’information 

récente. 


Entrées " iÎ S, I ( t= 

0) = A( 

01 ,) 

Evolution 

a.Mise en phase de clusters 

i 

N 20 

i åå ij j 

j= 

1 r= 

1 

ht () = w( r) x( t-r) w ( r) = w ( 0).( 

k ) 

ij ij ij 

- 

e 

xi() t = 

1+ 

e 

Thi() t 

-Thi() 

t 

r 

N=8192 

( 0) = A ([ -11 

; ]) 

w ij ij 

kij = A ij ([ 01 ; ]) 

Si l’on trace les isophases de ce type de réseau, les matrices obtenues montrent 

des clusters entiers du réseau synchronisés autour d’une grande gamme de 

fréquences. La Figure 7-14 montre la matrice isophase du réseau (tracée de la même 

façon que la matrice isofréquence), pour des fréquences égales à f0, 2f0, 3f0, jusqu’à 

12f0. Les codes couleurs utilisés vont de bleu pour - + p e à rouge pour des phases de 

+ - 

p 2 e 

, en passant par le noir pour les neurones à déphasage nul. Pour les phases 

n’appartenant pas à cet intervalle, celles-ci sont représentées par du gris 52 . Il est 

intéressant de remarquer que les zones déphasées sont organisées autour de clusters 

d’assez grande taille, par rapport à la taille du voisinage (24 neurones voisins à 

distance 2). Ces clusters sont, de plus, relativement fixes d’une fréquence à l’autre, et 

nous pouvons observer un déphasage fréquent d’un neurone à l’autre à l’intérieur 

d’un même cluster. Par contre, lorsqu’un groupe de neurones se met à avoir une 

dynamique en phase (représentée par du noir), ce groupe est en général assez 

compact, limité à une zone précise à l’intérieur d’un cluster. Ainsi, il existe des sortes 

d’accrochages locaux de synchronisme autour de certaines fréquences, dans un 

réseau à atténuation, en régime libre ; ces accrochages se réalisant dans un paysage 

d’isophases complexe, limité à certaines zones du réseau. 

52 En général, ces zones du réseau correspondent à des phases égales à ± p 2 , qui sont le plus souvent dues 

au fait que la dynamique atteinte est un point fixe. 

DYNAMIQUES OBSERVEES ET EXPERIMENTEES 157 

2

158 


b.Nature fractale des attracteurs atteints 


Figure 7-14 : Isophases du réseau 

Ce type de paysage de fréquence et de phase complexe nous autorise à espérer 

trouver dans de tels réseaux des dynamiques chaotiques. Et en effet, nous avons 

trouvé des dynamiques dont les attracteurs possèdent des trajectoires proches, mais


un zoom permet de voir qu’elles se séparent (Figure 7-15). Ce type d’attracteur est 

caractéristique d’une dynamique chaotique 53 . 

Figure 7-15 : Zoom sur l'attracteur du neurone 98-11 

c. Autosimilarité de l’attracteur 

L’attracteur atteint possède de 

plus une caractéristique d’autosimilarité, 

représentée sur la Figure 

7-17. Il s’agit du même attracteur 

que précédemment, mais tracé 

pour les points {X(t),X(t-28)}, ce qui 

permet de mieux voir dans les 

zones cerclées des portions de 

trajectoires qui sont similaires. 

Cette caractéristique d’auto- Figure 7-16 : Sillages de Bénard-Von Karman 

similarité de l’attracteur se retrouve dans de nombreuses dynamiques chaotiques, et 

un rapprochement peut être réalisé entre la forme de cet attracteur et celui des 

sillages de Bénard-Von Karman (Figure 7-16). Bien entendu, les phénomènes 

53 Les calculs réalisés de la dimension fractale ne nous ont pas semblé représentatifs, chaque algorithme 


160 


physiques qui causent ces deux dynamiques sont totalement différents, mais la 

similarité de forme entre les deux est symptomatique d’un comportement semblable. 

Figure 7-17 : Zoom sur l'attracteur du neurone 98-11 

d. Accrochage de fréquences entre neurones 

A partir du moment où nous avons obtenu des dynamiques riches dans nos 

réseaux, nous nous sommes intéressés au caractère bifurquant des paramètres de 

ces dynamiques. La carte de bifurcation du neurone [96,12], voisin de celui étudié 

précédemment, en fonction du paramètre b, gain de la fonction neurone, nous a 

confrontés à un type de bifurcation surprenant, où le réseau alterne des phases de 

chaos avec des phases où la carte de bifurcation présente des ‘vermicelles’ (Figure 7- 

34: Carte de bifurcation du neurone 96-12 en fonction de , p.175). 

Durant ces phases, le neurone [96,12] présente un attracteur où résident plusieurs 

copies d’une même figure, qui est la copie exacte de l’attracteur d’un neurone voisin 

(le [98,11]). Ce phénomène est représenté sur la Figure 7-18 : un zoom sur 

l’attracteur du neurone [96,12] permet de remarquer que cette sous-partie de 

l’attracteur est une copie exacte de l’attracteur du neurone [98,11]. En analysant plus 

précisément les attracteurs voisins du neurone [96,12], il a été possible de retrouver 

un attracteur voisin (celui du neurone [95,12]) qui possède des caractéristiques 

communes avec la répartition des ‘petits’ attracteurs de [98,11]. Ainsi, le phénomène 

ayant livré son propre résultat. 



qui a été observé dans la carte de bifurcation de la Figure 7-34, à savoir celui de 

‘vermicelles’ dans un certain intervalle du paramètre b, peut être expliqué par le fait 

que des attracteurs voisins possèdent des fréquences multiples l’une de l’autre. De 

cette façon, un neurone qui reçoit cette information, la sommant, balaie son espace 

de phase en créant de multiples copies d’un même attracteur. 

D’ailleurs, si l’on fait varier 

légèrement la valeur de b, afin 

de sortir de cette phase 

‘vermicelle’, les deux attracteurs 

de [98,11] et [96,12] se 

désynchronisent légèrement, de 

telle façon que l’attracteur de 

[96,12] balaie les états 

intermédiaires de [95-12], en 

engendrant ainsi un tore sur 

l’attracteur [98,11]. 

Figure 7-18 : Clustering du neurone 96-12 

Ce type de comportement 

peut expliquer les variations de 

la vitesse de remplissage des 

attracteurs observées lors de la 

modification d’un paramètre du Figure 7-19 : Désynchronisation des dynamiques 


162 


réseau. Par exemple, pour ce même attracteur du neurone [96,12], dans l’intervalle 

du paramètre b où l’attracteur est limité à un cycle limite, le remplissage de ce cycle 

limite ne se réalise pas à la même vitesse. 

Ceci peut se voir sur la Figure 

7-20, où l’on a tracé 1000 points 

de l’attracteur atteint, après 

chaque modification de b : le 

cycle limite n’est pas toujours 

rempli. Nous pensons que ce 

phénomène est dû à des 

synchronismes locaux, qui 

empêche la dynamique de balayer 

tout son cycle. 

Ce type de résultat nous a 

encouragés dans le développement 

de notre modèle, car un 

Figure 7-20 : Variation du 'remplissage' 

tel comportement associe les 

propriétés de synchronisme localisé à des groupes neuronaux (modularité) à des 

propriétés de synchronisation neuronale en fonction de certains paramètres 

(synchronisme). 

7.2.3 Réseau Hopfieldien avec fonction de sortie 

Dans la totalité des réseaux étudiés précédemment, les clusters étaient statiques, c’està-dire 

localisés à une portion du réseau, sans que les neurones diffusent leur activité loin autour 

d’eux, comme cela semble être le cas dans les systèmes biologiques, où des neurones, quoique 

éloignés, peuvent être synchronisés, et où l’information diffuse dans le réseau. Une idée pour 

palier cette limite fut d’utiliser un principe proche de celui des périodes réfractaires. Le principe 

utilisé fut de compléter la notion de fonction de transfert en entrée du réseau, en en ajoutant une 

en sortie du réseau. Fonctionnellement, cet ajout n’apporte rien au modèle, puisque la fonction de 

transfert de sortie d’un neurone peut être convoluée avec la fonction de transfert d’entrée du 

neurone suivant, rendant ainsi équivalent ce type de modèle à celui étudié précédemment. 

Par contre, un tel modèle ajoute la possibilité de contrôler la composante réfractaire du 

neurone, et d’observer l’influence de ce paramètre sur la dynamique du réseau. Le principal 

avantage de ce modèle est de créer des ondes qui diffusent dans le réseau, en accroissant ainsi la 

taille des modules où diffuse le forçage du réseau. Les poids représentent alors un peu un 

paysage de diffusion pour les dynamiques engendrée par les neurones. 

1. Matrice de connexion isotrope excitatrice 

L’étude de ce type de réseau a commencé avec des modèles très simples, où les poids 

sont isotropes, c’est-à-dire égaux d’un neurone à l’autre. 

Nous avons pris un réseau de 8192 neurones, chaque neurone étant connecté à ses 8 

voisins. L’ajout d’une fonction de transfert en sortie du neurone, excitatrice à +1 pendant 

une itération, et inhibitrice à -0.10 pendant 10 itérations, permet de faire diffuser et de 

maintenir des oscillations autour de sites qui ont été forcés pendant une seule itération : 

l’information diffuse autour des sites de forçage, créant des modules autour de ces sites. 




Entrées "Î i S , x ( t= t ) = 1 

Evolution 

T i i 

x ( t¹ t ) = 0 

i i 

N 

i = å ij j 

j= 

1 

ht () wx() t 

- 

e 

si() t = 

1+ 

e 

bhi() 

t 

-bhi() 

t 

10 

i å i s 

k= 

0 

x () t = s( t-k) S ( k) 

Pour réaliser le forçage, nous avons pris un 

réseau sans activité initiale ( toutes les 

sorties à zéro), puis avons forcé à 1, 

pendant une seule itération, et à différents 

moments dans l’évolution du réseau, des 

neurones dont l’activité était toujours à 0. 

Comme le réseau est isotrope, la diffusion 

dans le réseau s’effectue à vitesse 

constante autour des sites de forçage, en 

créant des ondes circulaires, qui diffusent à 

la même vitesse. Lorsque deux ondes 

entrent en concurrence, elles s’annihilent 

l’une l’autre, en définissant ainsi des 

frontières (zones grisées) entre les zones de 

diffusion des sites de forçage. Ainsi, les 

zones de diffusion les plus larges sont 

celles qui ont été forcées les premières. 

Dans le cas où on force un site qui a déjà 

été annexé à un site de forçage, il peut 

parfois faire apparaître un vortex (Figure 7- 

N=262144 

w ij =1 

Figure 7-21 : Modularisation du réseau 

Dans ce modèle, le forçage induit des 

ondes qui diffusent dans le réseau. Les 

interférences entre ces ondes définissent 

des modules autour des sites de forçage 

(par exemple, les deux zones 

artificiellement grisées). 

22, en rouge sortie à +1, en bleu sortie à -1). L’apparition ou non de ce vortex dépend du 

temps de forçage du site. Il existe un seuil du temps de forçage en dessous duquel le 

vortex n’apparaît pas, et où la dynamique première du site redevient dominante, en 

effaçant l’influence du forçage secondaire. Au delà de ce seuil, un déphasage est créé 

entre la dynamique due au premier site de forçage et celle due au second. Ce 

déphasage induit des zones où les ondes s’engouffrent et s’enroulent, en définissant un 

vortex sur le deuxième site de forçage. Ce vortex est orienté dans le sens des normales 

aux ondes de diffusion. Les ondes produites par ce vortex ont une fréquence plus élevée 

que celle du premier site, et arrivent à ‘remonter le courant‘ de la première dynamique. 

De cette façon les dynamiques du vortex entrent en compétition avec celles de la 

première dynamique, et finissent par la faire disparaître totalement. 


164 


Ainsi, lorsqu’un site a été spécialisé (annexé à un site de forçage), il est plus difficile d’en 

modifier les dynamiques, mais, dès que cela a été réalisé, ses dynamiques deviennent 

dominantes, et diffusent dans la totalité du réseau. Il y a une forme de ‘fidélisation’ des 

sites à leur zone de forçage, et pour les faire ‘changer de camp’, il est nécessaire de les 

‘persuader’ par un forçage de plus grande force. 

De cette façon, dans les réseaux où il y 

a diffusion des dynamiques, il est 

possible de spécialiser les neurones à 

un site. Dans le cas où il y a plusieurs 

sites, ces spécialisations définissent 

des modules affectés à chaque site de 

forçage. Malheureusement, chaque 

neurone n’est affecté qu’à un seul site : 

il n’y a pas d’interférence observable 

entre les dynamiques qui diffusent. Un 

tel réseau ne peut donc pas permettre 

d’observer la propriété d’association 

modulaire (5.2.3 Association 

multimodale des forçages, p.112), à 

moins que l’apprentissage ne permette 

de réaliser ces interférences, et fasse 

diffuser les modules les uns dans les 

Figure 7-22 : Apparition d'un vortex 

autres. Comme nous le verrons, un 

simple apprentissage hebbien peut réaliser ce type de modularisation dans un réseau 

forcé, avec une règle dont l’effet s’apparente un peu à celui d’une période réfractaire (8.2 

L’apprentissage Hebbien, p.186). 

2. Matrice de connexion aléatoire 


Entrées "Î i S , x ( t= t ) = 1 

Evolution 

T i i 

x ( t¹ t ) = 0 

i i 

N 

i = å ij j 

j= 

1 

ht () wx() t 

- 

e 

si() t = 

1+ 

e 

10 

i å i 

k= 

0 

bhi() 

t 

-bhi() 

t 

x () t = s( t-kSk ) ( ) 


N=8192 

w = A ([ -a;] 

1 

ij ij 

S(0)=1 

S(k>0)=-0,1 

Afin de mesurer l’effet de la variation des poids, nous avons choisi des poids 

aléatoires, répartis uniformément entre -1 et 1, puis nous les avons ramenés dans un 

intervalle [-Wmin;1], Wmin>0, par projection de l’intervalle [-1;1] sur [-Wmin;1]. De cette 

façon, la configuration générale des poids est respectée, et seule change le taux de


poids négatifs (de 0% pour a=0 à 50% pour a=1.0). La fonction de transfert en sortie est 

la même pour tous les neurones, et est égale à celle de l’expérience précédente. 

De la même façon que précédemment, un forçage à t=0 de l’un des sites, crée une 

perturbation qui diffuse dans la totalité du réseau, sous forme d’ondes. Lorsque les poids 

sont choisis aléatoirement dans [0;1] (Wmin=0), ces ondes diffusent de la même façon 

que précédemment, avec l’apparition d’un bruit additif sur les états des neurones. 

Lorsque l’on augmente un peu Wmin (Wmin=0.2), ce bruit augmente, et modifie légèrement 

la diffusion de l’onde. Plus Wmin est élevé, plus la perturbation de l’onde est grande. Pour 

Wmin=0,6, la perturbation de la diffusion est telle qu’elle empêche l’apparition de fronts 

d’ondes positives et négatives aux frontières nettes. 

Ce comportement semble logique, 

puisque dans le cas où Wmin=0, le 

réseau reste diffusant, et n’empêche 

donc pas la propagation de l’onde. Par 

contre le caractère aléatoire des Wij 

perturbe la diffusion de cette onde qui 

se retrouve donc bruite. En augmentant 

Wmin, se créent des forces de rétroaction 

négative, qui viennent contrarier la 

diffusion de l’onde, ce qui provoque un 

ralentissement de sa diffusion. 

L’ensemble de ces résultats est 

synthétisé sur la Figure 7-23, où sont 

représentés les états des sites qui ont 

été modifiés par le forçage initial. Les 

schémas ont été réalisés à la même 

échelle, ce qui montre le ralentissement 

de la diffusion lors de l’augmentation de 

Wmin. Dans le cas où Wmin = 0,6 une 

activité centrale semble émerger, qui 

fait saturer les sorties à +1 ou -1. En 

Figure 7-23 : Perturbation de la diffusion 

laissant évoluer le réseau, celui-ci entretient cette saturation centrale, tout en continuant 

à faire diffuser une activité bruitée autour du site de forçage. 

En laissant itérer le réseau, cette zone centrale de saturation diffuse et finit par être 

dominante : la totalité du réseau s’est organisée en zones d’activité cohérente. Ce 

résultat est à rapprocher de celui qui sera obtenu par un apprentissage hebbien nonsymétrique 

(8.2 L’apprentissage Hebbien, p.186). De la même façon, il y a diffusion 

bruitée de l’activité du site de forçage autour de ce site, avec apparition de zones 

cohérentes dont la plupart des neurones saturent. Contrairement au résultat obtenu avec 

l’apprentissage hebbien, qui finit par stabiliser la totalité du réseau sur un cycle +1/-1 

pour tous les neurones, avec des frontières de déphasage figées, ici les frontières sont 

mobiles. Ces zones en phase sont de très grande dimension par rapport à la taille du 

voisinage (chaque neurone est connecté à ses huit plus proches voisins). Ainsi, dans un 

tel réseau, de grandes populations peuvent se mettre globalement en phase, avec, 

localement (à la frontière), des déphasages qui participent au déplacement des frontières 

des zones synchronisées. 


166 



Figure 7-24 : Organisation de l'activité centrale 

Ceci peut être vu sur la Figure 7-25, où sont représentées 6 itérations successives du 

réseau : les zones rouges et bleues se déplacent lentement, selon des trajectoires 

complexes. 

Figure 7-25 : Organisation en modules mobiles 

Si l’on continue à augmenter Wmin, ce comportement disparaît, la rétroaction négative 

devient dominante, et empêche peu à peu le réseau de s’organiser. Sur la Figure 7-26, 

pour Wmin=-0,8 , de petits clusters cherchent à apparaître, mais ne peuvent pas diffuser. 

Pour Wmin=1,0 le comportement du réseau reste totalement bruité. Ainsi, dans un réseau 

à fonction de transfert en sortie, lorsque le taux de poids négatif est nul, le réseau peut 

diffuser de façon régulière la perturbation du site de forçage, et lorsque le taux de poids 

négatif est égal au taux de poids positifs, la diffusion se fait de façon bruitée. Entre ces 

deux extrêmes, il existe une valeur de ce taux, où le réseau s’organise et crée des zones 

qui se déplacent dans le réseau.


Figure 7-26 : Perte de l'organisation du réseau 

Ce type de comportement peut permettre d’observer une modularisation fonctionnelle 

autour du site de forçage, car il est à la fois diffusant autour du site de forçage, organisé, 

et est à l’origine de comportements complexes dans les dynamiques du réseau. De plus 

l’intérieur de ces zones organisées est en phase, et un déphasage progressif apparaît à 

leurs frontières, qui participe aux mouvements relatifs de ces zones. Ce type de 

comportement peut être à l’origine de synchronismes de populations neuronales. Nous 

avons donc là une architecture neuronale qui peut s’avérer encourageante pour le 

modèle de mémoire proposé. 

7.2.4 Réseau Hopfieldien à différences finies 

Comme cela a été vu dans le cas d’un réseau à fonction de transfert en sortie, des ondes 

peuvent apparaître dans le réseau, qui diffusent autour des sites de forçage. Cette propriété est 

requise, si l’on veut réaliser un apprentissage qui spécialise les zones de diffusion, en créant des 

associations entre les dynamiques des zones où interfèrent ces dynamiques. Nous cherchons 

donc à obtenir en premier lieu des diffusions de dynamiques dans le réseau, autour soit des sites 

de forçage, soit des clusters du réseau. Les modèles discrets posent le problème de ne pas 

pouvoir suivre la diffusion de la dynamique dans le réseau, et les attracteurs atteints sont 

restreints à des coupes de Poincaré de dynamiques continues. L’approche réalisée par l’utilisation 

de fonctions de transfert en sortie offre l’avantage de lisser ces dynamiques, en les convoluant 

avec une fonction de transfert qui, dans les cas étudiés ici, réalisait un filtrage passe-bas 

(moyenne pondérée des sorties du neurone pendant 10 itérations). Nous avions donc une forte 

dépendance de X(t) avec X(t-1), car la dynamique était ainsi lissée. 

Nous nous sommes donc intéressés alors à des modèles du type : 

x () t = ax ( t- ) + bF( 

X (), t X (),..., t X ()) t 

i i 1 1 2 N 

Ce qui nous a naturellement amenés vers les réseaux à différences finies, du type : 


168 


x ( t+ dt) = ( - dt) x () t + dt. F( X (), t X (),..., t X ()) t 

i 1 i 1 2 N 

Ce type de réseau est un intermédiaire entre le modèle continu et le modèle discret, et 

nous offre en effet des dynamiques plus lisses. Mais quel dt choisir ? Pour un taux de 

discrétisation faible, on approche le modèle continu, mais les équations du réseau deviennent 

presque linéaires, amenant les dynamiques du réseau vers des points fixes. Et, pour un taux trop 

élevé, on se ramène au cas discret, où les dynamiques ne sont plus lisses. De tels comportements 

ont été étudiés par Renals [[164]] qui a mis en évidence le caractère bifurquant de dt. 

1. Caractère bifurquant du gain 

Figure 7-27 : avec pente de 43/64 

Pour deux conditions initiales proches, sont tracées les dynamiques des quatres neurones 

grisés de la matrice 8x8 des neurones. Après une phase de sensibilité aux conditions initiales, 

les dynamiques se stabilisent sur le même attracteur, avec un déphasage. 

Dans les réseaux simulés, nous avons en général pris dt=0,1 et avons augmenté la 

pente de la fonction neurone. Nous nous sommes rendus compte qu’il était difficile de 

savoir sur quel régime allait se stabiliser le réseau, même en prenant de fortes valeurs 

pour cette pente. En prenant un réseau de 64 neurones, à différences finies, à poids 

aléatoires, et, en augmentant la pente de la fonction neurone, nous avons facilement pu 

obtenir des comportements qui nous semblaient chaotiques. Afin de le vérifier, nous 

avons cherché à observer la dépendance aux conditions initiales de ce réseau. Nous 

avons en effet rapidement pensé être face à comportement chaotique du réseau, 

puisqu’une variation de 10 -8 des conditions initiales faisait diverger les dynamiques du 

réseau (Figure 7-27). Mais, après cette phase chaotique, les deux réseaux se 



stabilisaient sur un même cycle limite, avec un déphasage. On peut voir sur cette figure 

les trajectoires de quatre neurones voisins, et la dépendance aux conditions initiales de 

leurs dynamiques, qui semblent chaotiques pendant 2000 itérations 54 . Mais, après ces 

2000 itérations, les dynamiques se stabilisent sur ces cycles limites, déphasés les uns 

des autres. Par contre, pour une petite variation de la pente (modification de 1/64), les 

dynamiques du réseau, mises dans les mêmes conditions initiales que précédemment, 

ne semblent pas se stabiliser sur un cycle limite, tout en vérifiant la sensibilité aux 

conditions initiales, symptomatique d’un régime chaotique. Nous avons poussé ce 

réseau jusqu’à 100000 itérations, sans observer de stabilisation de ses dynamiques. Il 

semblerait donc qu’un tel réseau puisse basculer d’une dynamique chaotique à un cycle 

limite pour de petites variations de ses paramètres. 

Figure 7-28 : avec pente de 44/64 

Afin de confirmer cette hypothèse, nous avons cherché à déterminer les coefficients de 

Lyapunov pour chacune de ses dynamiques, en espérant peut-être ainsi savoir si ces 

coefficients étaient les mêmes d’un neurone à l’autre, ou si l’on pouvait observer une 

clusterisation de ces coefficients. Ce calcul s’est avéré impossible : en effet, les 

dynamiques individuelles des neurones peuvent voir leur erreur passer par 0, ce qui ne 

permet pas de faire une approximation linéaire du logarithme de cette erreur (Figure 7- 

29). 

54 Nous nous limitions au départ à l’observation des 1000 premières itérations, ce qui nous fit croire que les 

régimes étaient chaotiques pour toutes les valeurs élevées de la pente de la fonction neurone. 


170 


Figure 7-29 : Erreur parfois à 0 pour un neurone 

Ceci peut être expliqué simplement par le fait que les dynamiques individuelles des 

neurones ne sont pas celles du système complet, sans variable cachée. De cette façon, 

l’erreur d’un neurone peut être à 0, et c’est un neurone voisin qui a une erreur non nulle. 

Ainsi, il est nécessaire de considérer le réseau entier si l’on veut mesurer les coefficients 

de Lyapunov du système. Il est donc impossible de chercher à connaître et à quantifier 

la sensibilité aux conditions initiales locales d’un neurone, afin de mesurer le degré de 

chaoticité des zones du réseau. 

Comme cela peut être vu sur la Figure 7-30, pour des valeurs de 64.b allant de 1 à 250, 

le coefficient semble augmenter, montrant un résultat déjà connu que ce gain est 

bifurquant, et provoque un régime chaotique pour de hautes valeurs. Nous sommes allés 

jusqu’à b=1000, en conservant des valeurs de l positives. Mais ce qui est étonnant, c’est 

l’irrégularité des variations de l avec b : l semble sauter en permanence d’une valeur 

positive à une valeur négative. Afin de confirmer ce comportement, nous avons effectué 

différents zooms sur l’évolution de l, qui confirment que pour de petites variations de b, 

l peut changer de signe. Nous nous sommes donc ramenés au calcul de l’erreur 

moyenne du réseau, et avons tracé le coefficient de Lyapunov de cette dynamique 

moyenne pour plusieurs intervalles de b. 



Figure 7-30 : Courbe d’écart moyen pour 500 itérations de stabilisation 

L’algorithme utilisé pour déterminer l était le plus simple d’entre tous : calculer le 

coefficient de régression linéaire du logarithme de l’erreur. Il était logique de se 

demander si le comportement de l n’était pas dû uniquement aux limites de cette 

méthode. Afin de confirmer ce fait, à savoir la haute sensibilité de l’évolution de l’erreur 

du réseau en fonction de b, nous avons représenté cette évolution sur la Figure 7-31. 

Cette figure confirme que, pour de très faibles variations de 64.b (entre 60 et 60,16), 

l’évolution du logarithme de l’erreur moyenne du réseau peut rapidement varier. Nous 

avons cherché à savoir si ces sauts de la courbe d’erreur pouvaient s’observer pour des 

variations de b aussi petites que l’on veut. En poussant le zoom assez loin, nous avons 

réussi à atteindre un stade à partir duquel les variations de l commencent à devenir 

lisses (Figure 7-32). Sur cette figure, il est possible de voir que parfois l passe de façon 

continue entre une valeur négative (pas de sensibilité aux conditions initiales), à une 

valeur positive (régime chaotique). Ainsi, pour de très petites variations d’un paramètre 

du réseau, il est possible de faire passer les régimes du réseau d’un cycle limite à un 

chaos. Ce type de comportement limite l’apprentissage : pour d’infimes variations des 

paramètres, le régime libre du réseau quittait la trajectoire qu’il était en train d’apprendre, 

en bifurquant vers des régimes chaotiques (Figure 8-23, p.202). L’apprentissage de la 


172 


dynamique devait alors être presque reprise depuis le début, car le réseau quittait le 

régime que l’on voulait lui faire apprendre. 


Figure 7-31 : Variation des courbes d'écart 

Figure 7-32 : Début des variations lisses de L0


C’est de cette façon que, presque systématiquement, lors des apprentissages que nous 

avons essayés, après une phase de décroissance régulière de l’erreur, celle-ci faisait un 

saut brusque, puis recommençait à décroître, jusqu’à la bifurcation suivante. 

Faut-il alors, lors de l’apprentissage, essayer de rester sur les variations lisses observées 

précédemment, ou au contraire essayer de faire varier les paramètres du réseau en le 

faisant passer d’un régime à l’autre ? Dans le premier cas, l’apprentissage est trop lent, 

et de toute façon il finit toujours par y avoir une bifurcation de la dynamique du système. 

Dans le second cas, il est impossible de prévoir l’effet qu’aura une modification du 

paramètre sur la dynamique du système. 

7.3 Paramètres bifurquants 

Nous avons donc cherché à savoir quels étaient les paramètres ‘sensibles’ du réseau, afin 

d’orienter un peu les voies possibles de l’apprentissage. N’oublions pas en effet que l’étude 

préliminaire des dynamiques du réseau a pour objet de trouver un modèle qui puisse être 

chaotique lorsqu’il est forcé, par diffusion des perturbations induites dans le système, et dont on 

puisse modifier les dynamiques internes par apprentissage, pour les faire coïncider avec les 

dynamiques externes. Il était donc essentiel de savoir sur quels paramètres jouer dans nos 

modèles afin d’en modifier les dynamiques. 

7.3.1 Variation du gain 

Ce paramètre correspond au gain b de la fonction neurone : 

b 

- x 

V e 

s( 

x) 

= 

1+ 

e 

b 

- x V 

où V représente le nombre de neurones inclus dans le voisinage local. 

Il a déjà été démontré que ce paramètre est bifurquant pour des réseaux hopfieldiens 

avec ou sans délais [[40]][[43]], nous pouvons donc nous attendre à ce qu’il se révèle bifurquant 

pour des modèles plus complexes. 

1. Dans un modèle à délais 

En reprenant le réseau étudié précédemment (1 Modèles à délai, p.151), nous avons 

cherché à observer l’évolution des attracteurs obtenus auparavant (Figure 7-9, p.152), 

pour de nouvelles valeurs de b. Ce gain est modifié pour l’ensemble des neurones du 

réseau, et est mis à la même valeur. Comme nous pouvions le prévoir, et 

conformément aux résultats déjà obtenus sur le sujet, il y a complexification des 

dynamiques individuelles avec l’augmentation du gain. 

Ce résultat est logique, car, l’augmentation du gain accroît la raideur de la fonction 

neurone. La non-linéarité neuronale est donc accentuée, augmentant donc la complexité 

des dynamiques. Nous n’avons pas étudié les propriétés des types de bifurcation 

observées, car cela n’était pas notre propos initial, mais, conformément aux études plus 

précises sur le sujet [[33]][[34]][[35]][[32]][[68]], plusieurs types de bifurcations sont 

, 


174 


apparues, principalement des bifurcations de Hopf (Figure 7-34 p.175, Figure 7-36, 

p.176). 


Figure 7-33 : Modification des attracteurs avec b


2. Dans un modèle à atténuation 

Nous nous sommes intéressés aux cartes de bifurcation d’un modèle de neurone à 

mémoire plus complexe que le modèle à délais, en étudiant les cartes de bifurcation du 

modèle à atténuation, en fonction du gain b. Nous avons donc repris le modèle étudié 

précédemment (2 Modèles à atténuation, p.157), en faisant varier b de 0 à 1000, et en 

observant son influence sur le neurone [96,12] (Figure 7-18, p.161), et sa 

synchronisation au neurone [98,11]. 

Figure 7-34 : Carte de bifurcation du neurone 96-12 en fonction de b 

L’entrée dans le chaos se fait par une bifurcation très rapide (cf. zoom), puis le 

réseau passe de régimes dits ‘purée’ à des régimes dits ‘vermicelle’. Dans ces derniers, 

l’attracteur atteint et de même type que celui de l’attracteur du neurone [96,12] de la 

Figure 7-18. Comme nous l’avons déjà vu, ces phases correspondent à des accrochages 

de fréquences entre neurones voisins : le rapport de fréquence entre lui et l’un de ses 

voisins est rationnel, entraînant ainsi une copie multiple de l’attracteur voisin. Dans les 

phases ‘purée’, les deux neurones se désynchronisent et leurs attracteurs finissent par 

remplir un tore (Figure 7-19, p.161). 

Ainsi ce neurone passe par des phases où son activité est synchronisée avec celle de 

ses voisins (c’est à dire qu’ils finissent par revenir tous dans une même configuration 

globale), et des phases désynchronisées (où la population ne se retrouve jamais dans 

une même configuration globale). Ce phénomène se voit sur le tracé des coupes de la 

carte de bifurcation, où sont dessinés les différents attracteurs atteints pour plusieurs 

valeurs du gain (Figure 7-35) : le réseau passe de régimes où l’attracteur se clusterise 

(coupes 7,9,10,12), à des régimes où l’attracteur est sur un tore (autres coupes). 

Ce résultat montre donc qu’en modifiant le gain d’une population neuronale, il est 

possible de synchroniser les dynamiques des neurones qui la composent. Parfois, cette 

transition est très rapide, ce qui démontre une grande sensibilité des dynamiques à ce 

facteur. Comme nous l’avons vu, il semble même que cette sensibilité soit extrême, et 

que la carte de bifurcation soit elle-même fractale, c’est-à-dire que pour une infime 

variation de b, le réseau passe par une infinité de succession de régimes ‘vermicelle’ et 

‘purée’. Il serait donc intéressant de tracer cette carte de bifurcation pour des intervalles 

de b de plus en plus petit, autour d’une transition. Malheureusement, la limite de la 

précision de l’ordinateur utilisé n’a pas permis de vérifier cette hypothèse. 


176 


Figure 7-35 : Evolution de l'attracteur du neurone 96-12 avec b 

Nous avons en même temps tracé la carte de bifurcation d’un neurone éloigné, le 

neurone [114-53], afin de déterminer si les bifurcations observées sur le neurone [96,12] 

étaient dues à des modifications de dynamiques localisées, ou globales du réseau : 

existe-t-il des bifurcations qui affectent l’ensemble des neurones du réseau ? 

Comme cela se voit sur la Figure 7-36, ce neurone passe de la même façon de phases 

synchronisées à des phases non-synchronisées. Ces phénomènes de synchronisations 

se retrouvent donc dans des zones distantes. 

Figure 7-36 : Carte de bifurcation du neurone 114-53 en fonction de b 



Figure 7-37 : Evolution de l'attracteur du neurone 114-53 avec b 

La Figure 7-37 confirme que le 

neurone [114,53] passe aussi par 

des phases de clustering de 

l’attracteur. 

Afin de confirmer l’hypothèse de 

changements de régimes dans 

plusieurs zones du réseau, nous 

avons superposé les cartes de 

bifurcation des deux neurones 

(Figure 7-38). Ceci montre que 

certaines transitions sont réalisées 

pour les mêmes valeurs de 

b (barres noires). Nous avons 

vérifié que cette caractéristique 

était commune à plusieurs 

neurones. Il existerait donc des 

modifications du régime du réseau, 

à l’échelle du réseau, qui ne sont 

Figure 7-38 : Superposition des cartes de bifurcation 


178 


pas dues à l’architecture locale. Le réseau entier change de régime, et se retrouve 

parfois totalement synchronisé. 

Enfin, les intervalles de transition entre les régimes semblent diminuer : le réseau passe 

de plus en plus rapidement d’un régime synchronisé à un non-synchronisé. Faut-il voir 

dans ce principe la cause de l’enrichissement du paysage fréquentiel des dynamiques 

neuronales ? L’évolution de la transformée de Fourier des dynamiques du neurone 

[114,53] (Figure 7-39), montre bien que, plus b augmente, plus le nombre de fréquences 

augmente. Ce phénomène est caractéristique d’une entrée dans le chaos. Nous pensons 

que ce phénomène peut être à l’origine des capacités de synchronisation du réseau : il 

existe un plus grand nombre de fréquences synchronisables, ce qui pourrait être l’un des 

rôles du chaos cérébral (4 Spectre à support dense, p.44). 

Figure 7-39 : Enrichissement des fréquences avec b 

Jusqu’où va cette accélération du processus de transition entre intervalles synchronisés 

et désynchronisés ? Il serait en effet intéressant, si l’on veut réaliser un apprentissage 

basé sur les synchronisations du réseau, qu’une très faible modification d’un paramètre 

fasse basculer le réseau d’un régime synchronisé à un non-synchronisé. La perturbation 

extérieure aurait alors pour effet de désynchroniser les dynamiques neuronales, qui 

seraient resynchronisées par une très faible modification des paramètres du réseau. 



Ceci peut être une nouvelle voie de 

recherche. En effet, la plupart des 

apprentissages cherchent à descendre 

un gradient, en cherchant un minimum 

global, et sont limités par la 

convergence du réseau vers des 

minima locaux, considérés comme 

parasites. Peut-être faudrait-il 

considérer que le réseau se satisfait de 

ces minima locaux, et que leur très 

grand nombre permet d’en trouver au 

moins un qui soit ‘suffisant’ ? Comme 

nous l’avons dit, l’apprentissage 

humain ne conduit pas à un rappel 

parfait : le souvenir est simplement 

‘satisfaisant’, et son évocation 

reconstruit une configuration appauvrie 

par rapport à celle obtenue pendant la 

perception. 

Nous chercherons donc à amener le 

système vers des régimes alternant 

rapidement des phases synchronisées 

et des phases non-synchronisées. 

Nous avons donc prolongé le tracé de 

la carte de bifurcation du neurone 

[96,12] pour de hautes valeurs de b 

(Figure 7-40). Ces transitions 

s’accélèrent bien, mais l’augmentation 

de la raideur de la fonction neurone 

accentue la saturation des neurones. Il 

s’ensuit que les dynamiques tendent à 

se geler, c’est à dire passent par des 

phases de ‘bursting’, où la dynamique 

sature, et devient chaotique par 

bouffées périodiques(Figure 7-41). 

Pour de très hautes valeurs de b, le 

réseau se fige sur un point fixe. Il 

existe donc une limite à l’accélération 

des transitions entre les régimes. Cette 

limite est certainement accentuée par 

les limites de précision de la machine. 

Figure 7-41 : Gel des dynamiques 

En effet, pour de très hautes valeurs de b, la raideur de la fonction neurone est très 

élevée, ce qui, pour une précision finie, échantillonne la valeur des sorties possibles du 

réseau. Le nombre de configurations du réseau diminue donc, en augmentant alors ses 

chances de stabilisation. On peut voir ce phénomène sur la Figure 7-41, où la sortie X(t) 

semble être de plus en plus discrétisée quand b augmente. 

Figure 7-40 : Diagramme de bifurcation à b élevé 


180 


Durant ces expériences, nous 

nous sommes confrontés à un 

phénomène au départ 

surprenant portant sur le 

neurone [96,12] (Figure 7-42) : 

l’attracteur obtenu en figeant b 

à 252, et en réinitialisant le 

réseau, n’était pas le même 

que celui obtenu en faisant 

augmenter b de 0 à 252. Ceci 

nous a orientés vers la 

recherche de phénomènes 

d’hystérésis. Nous avons donc 

fait varier b autour de 252, de 

150 à 300, puis de 300 à 150, 

sans réinitialisation du réseau 

entre les itérations. Il se 

confirme que, lors de la 

redescente du gain, le réseau 

arrive à maintenir des 

dynamiques complexes 

pendant la décroissance de b 

(Figure 7-42). Pour faire 

redescendre le réseau de cette 

dynamique, il suffit de le 

perturber en forçant ses 

neurones à une valeur 

aléatoire pendant quelques Figure 7-42 : Hystérésis du diagramme de bifurcation 

itérations. Ce type de comportement est très encourageant pour l’approche réalisée dans 

cette thèse assimilant l’information extérieure à une perturbation. En effet, cet hystérésis 

montre que plusieurs dynamiques peuvent coexister dans un même réseau, certaines 

étant maintenues artificiellement. De plus, ces dynamiques artificiellement maintenues le 

sont à l’échelle d’un seul neurone. Il est donc possible d’observer, dans un grand réseau 

de multiples dynamiques artificiellement maintenues, que la moindre perturbation 

extérieure peut perturber, en transformant par exemple un attracteur étrange en cycle 

limite. 

De plus, comme nous avons vu que des bifurcations peuvent apparaître dans l’ensemble 

du réseau, en même temps, nous pouvons imaginer que, dans certaines conditions, le 

forçage local de quelques neurones peut suffire à perturber des populations neuronales 

de grande taille. Ce résultat démontre donc la faisabilité d’un réseau modulaire, 

modifiant la dynamique de populations neuronales par la simple perturbation de 

quelques neurones. Ceci est en accord avec l’idée d’une perception globale des 

perturbations induites par quelques sites de forçage. 

7.3.2 Variation du coefficient de rétroaction 

Un autre paramètre possède un rôle important dans la dynamique neuronale, celui de 

rétroaction. En général, pour des raisons de stabilité et de plausibilité biologique, il est négligé 



dans les études. Nous avons donc repris le réseau étudié au début de ce chapitre, dans lequel des 

comportements chaotiques ont été mis en évidence (Figure 7-2, p.146), et avons tracé les carte 

de bifurcation de trois neurones (Figure 7-43). 

Figure 7-43 : Carte de bifurcation en fonction de Wii 

Cette expérience montre le caractère bifurquant du coefficient de rétroaction, et la 

complexification des dynamiques neuronales pour les valeurs négatives de Wii. Mais, malgré 

l’intérêt probable de ce paramètre, nous n’avons pas poussé plus loin son analyse, pour des 

raisons de plausibilité biologique. En effet, aucune évidence n’a été faite de l’existence de 

connexion directe d’un neurone sur lui-même. 

7.3.3 Variation des délais 

Devant l’intérêt que semblent présenter à la fois les réseaux à fonction de transfert en 

sortie (pour leur capacité de diffusion de l’information), et les réseaux à délais (pour leur capacité 

de synchronisme), nous avons cherché à voir quelle était l’influence de l’accroissement des délais, 

dans un réseau stabilisé sur des vortex. La Figure 7-44 montre quatre itérations successives de ce 

réseau torique, sans délais : plusieurs vortex sont présents, avec des rotations différentes, et 

entretiennent le réseau sur un cycle limite (Figure 7-44). Pour faire varier les délais, nous avons 

introduit des délais aléatoires dans le modèle, que nous avons projetés sur un intervalle [0;Dmin] 



de plus en plus grand (de [0,0] à [0,20]). De cette façon, la même configuration des délais est 

réalisée. 

Figure 7-44 : Multiples vortex 

Puis, pour différentes valeurs de Dmin, nous avons tracé les sorties, la matrice 

d’isofréquence, et d’isophase du réseau. La fréquence choisie pour représenter ces deux dernières 

matrices est la fréquence principale du coeur des vortex. 

Sans délais, le réseau est sur un cycle limite, avec tous les vortex tournant à la même 

vitesse. Le paysage de fréquence est donc simple : il existe principalement deux fréquences. La 

première correspond à celle de la vitesse de rotation des bras du vortex, et la deuxième à la 

vitesse de battement du coeur du vortex. Comme on peut le voir sur la Figure 7-45, la matrice 

isofréquence du réseau à Dmin=0, est presque partout en rouge, sauf au niveau des coeurs. Les 

phases, elles, correspondent aux bras des vortex, qui tournent en phase. 

En augmentant les délais, les vortex disparaissent, et le paysage de fréquence se 

complexifie. Pour de faibles valeurs de Dmin, le coeur des vortex continue à battre à une fréquence 

différente de celle des bras. Ensuite, la forme des populations neuronales en phase se 

complexifie, et leur taille diminue. A partir d’une certaine valeur de Dmin, les dynamiques 

individuelles deviennent chaotiques. Si on laisse évoluer le réseau à Dmin=20, il existe toujours une 

182 



forme de diffusion d’onde dans le réseau, mais selon des circuits qui sont devenus très 

complexes. 

Figure 7-45 : Modification du paysage fréquentiel avec Dmin 

Ce type de comportement est à rapprocher de celui observé en faisant varier Wmin, 

c’est à dire en augmentant l’intervalle des poids : l’information diffuse dans le réseau selon des 

‘circuits’ qui se complexifient avec l’augmentation de Wmin. Ainsi, les poids et les délais peuvent 

faire varier le paysage de diffusion et de synchronisme dans un réseau à fonction de transfert en 

sortie. Ce type de neurone étant fonctionnellement proche (dans les cas étudiés ici), d’un neurone 

à période réfractaire, ces résultats démontrent l’intérêt potentiel de réseaux à délais, à période 

réfractaire, pour la modularisation (due à la diffusion des sites de forçage), basé sur 

l’apprentissage de synchronisme dans des dynamiques complexes, via un apprentissage sur les 

poids et les délais. 


Le modèle proposé offre, comme nous pouvions nous y attendre, une très grande variété 

de comportements : les dynamiques locales des réseaux peuvent être chaotiques, diffusant leur 

activité dans le reste du réseau grâce à la connectivité locale 55 . Il apparaît ainsi des clusters 

d’activité synchronisée, dont la taille croît avec les délais. D’infimes variations des paramètres du 

réseau peuvent faire bifurquer les dynamiques du réseau, les faisant passer de cycles limites en 

dynamiques chaotiques. Parfois même, par des phénomènes d’hystérésis, une simple perturbation 

du réseau peut faire descendre un chaos vers un cycle limite. 

Nous avons observé des dynamiques complexes, organisées localement, facilement 

perturbées, qui diffusent leur activité et leur perturbation dans de grandes zones du réseau : les 

55 Une diffusion de même type apparaît dans des réseaux où la connectivité n’est pas locale, mais ce 

phénomène est moins explicite, puisque le réseau ne respecte pas une topologie simple.. 



propriétés requises pour le modèle de mémoire proposé sont donc vérifiées. Il est envisageable 

de concevoir un tel réseau. 

Evidemment, chaque propriété n’a été observée que dans un modèle particulier (modèle à 

délai, à mémoire, à fonction de transfert en sortie...). Mais il faut s’attendre à ce que le modèle le 

plus général, tel qu’il a été proposé, vérifie l’ensemble des propriétés présentées dans ce chapitre, 

car les modèles étudiés en sont des cas particuliers. Malheureusement, le modèle neuronal 

proposé est de très grande complexité, car il possède de très nombreux paramètres. Nous 

reprendrons donc les différents sous modèles afin de chercher et d’orienter des règles 

d’apprentissage implémentables dans ces réseaux, vérifiant les propriétés du modèle de mémoire 

proposé 

184 



8. ANTICIPATION DU FORÇAGE DES DYNAMIQUES 

La mémoire procède à un calcul musical, un calcul prophétique. 

Edgard Allan Poe. Eureka 

8.1 Introduction : Un algorithme on-line local ? 

Comme cela a été exposé précédemment au sujet des algorithmes d’apprentissage 

utilisés pour les réseaux récurrents, il suffirait que l’un d’entre eux soit on-line et local, pour qu’il 

soit biologiquement plausible. Nous avons donc essayé de modifier ces algorithmes, en faisant 

une approximation de localité dans RTRL, ou en limitant la mémorisation nécessaire à BPTT. 

Dans les deux cas, de tels algorithmes peuvent encore être efficaces pour des fonctions simples 

telles que des sinusoïdes. Ainsi, ces algorithmes simplifiés permettent des apprentissages dont les 

résultats sont similaires à ceux obtenus avec les algorithmes originaux. En effet, dans la plupart 

des articles traitant de ces algorithmes, seules des fonctions simples sont apprises, et les valident 

[[153]]. Nous avons essayé, sans succès, de faire apprendre une dynamique de Lorenz à un 

réseau de 64 neurones, entièrement interconnectés, grâce à un apprentissage de type RTRL On 

peut en conclure que l’algorithme original RTRL réalise des approximations qui limitent ses 

capacités, sans trop nuire à l’apprentissage de fonctions simples. A ce jour, peu de réseaux 

récurrents ont appris de façon satisfaisante des dynamiques complexes. A notre connaissance, 

nous pouvons citer [[207]], qui, grâce à un réseau multicouches récurrent à mémoire, a pu faire 

apprendre la géométrie de l’attracteur de Lorenz. Dans [[128]], un simple réseau à 16 neurones 

réussit à apprendre une fonction de Hénon, et dans [[132]], un réseau récurrent à fonction radiale 

reproduit une dynamique de Mackey-Glass. Dans chacun des cas, le temps d’apprentissage est 

très long (de l’ordre du million d’itérations), et le choix des paramètres d’apprentissage est fait de 

façon expérimentale : un observateur extérieur doit adapter les gains d’apprentissage afin de 

permettre un apprentissage satisfaisant. 

Les expériences portant sur l’apprentissage, réalisées dans cette thèse, ne permirent pas 

l’apprentissage de fonctions chaotiques, ce qui aurait permis de valider l’hypothèse d’un 

apprentissage par anticipation d’environnements complexes forçant les dynamiques du système, 

grâce à un algorithme on-line local, biologiquement plausible. A chaque fois, l’algorithme se 

limitait à anticiper des fonctions simples. Mais, comme ce fut le cas lors de l’expérimentation des 

dynamiques, des propriétés mises en évidence pendant l’apprentissage permettent de penser que 

certains phénomènes observables dans les systèmes réels peuvent provenir de lois similaires, et 

ont inspiré le développement du modèle théorique. 

ANTICIPATION DU FORÇAGE DES DYNAMIQUES 185

186 


8.2 L’apprentissage Hebbien 

8.2.1 Description 

Cet apprentissage est on-line et local et réalise, pour chaque neurone, un calcul du type 

dwij =h xx i j 

Dans le cadre de cette thèse, cette règle a été généralisée sous la forme, ce qui peut 

permettre d’éviter la symétrie dwij=dwji : 

dw = w si x > c et x > c 

ij 11 

i j 

dw = w si x > c et x < c 

ij 10 

i j 

dw = w si x < c et x > c 

ij 01 

i j 

dw = w si x < c et x < c 

ij 00 

i j 

8.2.2 Résultats : Points fixes et fractalisation du réseau 

Figure 8-1 : Influence de l'apprentissage Hebbien sur les attracteurs 

Dans sa thèse intitulée ‘Apprentissage dans les réseaux neuromimétiques à dynamique 

chaotique’ [[32]], Mathias Quoy a montré clairement l’intérêt d’une règle hebbienne pour 



l’apprentissage dans des réseaux récurrents, et la plausibilité biologique de cette approche. Dans 

les deux cas (connexionniste et biologique), la dimension de l’attracteur cérébral diminue lors de 

la reconnaissance d’un stimulus 56 . Ainsi, l’application d’une règle hebbienne réalise cette 

diminution de la dimension fractale de l’attracteur du réseau. 

Malheureusement, un tel encodage ne peut pas être appliqué en permanence dans le 

réseau dans les cas où l’évolution des poids suit une loi symétrique telle que dwij = dw ji . En 

effet, une telle règle tend à symétriser les poids, et donc amène le réseau vers un point fixe. 

Ainsi, par exemple, en reprenant le réseau dont quelques attracteurs ont été tracés sur la 

Figure 7-2, qui est un réseau Hopfieldien classique (sans délai, ni mémoire), un apprentissage 

hebbien, avec w10=w01, modifie les attracteurs locaux (Figure 8-1). Mais si l’on continue ce même 

apprentissage, les attracteurs convergent tous vers un point fixe (Figure 8-2). De la même façon, 

les poids sont symétrisés dans un réseau à délais, amenant les dynamiques sur des points fixes. 

Figure 8-2 : Evolution de l'attracteur du neurone 3-0 

Afin d’éviter cette symétrisation des poids, nous avons choisi des variations de poids 

évitant la saturation des neurones à 1 ou 0, et l’empêchant ainsi d’aller vers un point fixe. Dans ce 

but, nous avons fixé w11 à une valeur négative qui empêche les neurones de converger vers 1, et 

w00 à une valeur positive afin d’éviter sa convergence vers 0. De plus, en fixant w10 à une valeur 

positive, cela tend à diffuser dans le réseau les zones excitées. 

Dans un tel réseau, nous avons initialisé l’ensemble des poids et des états à zéro, puis 

nous avons forcé à 1 le carré central 16x16 d’un réseau 128x128. La Figure 8-3 montre l’état 

56 Malgré la remise en cause de la validité des calculs de dimension fractale dans les attracteurs 

biologiques[[140]][[189]], nous pouvons considérer que les estimations de diminution de ces dimensions 

restent valides. 



central du réseau pour t allant de 200 à 210. On voit, dans cette figure, le carré noir central 

(neurones à 1), et des sortes de ‘napperons’ qui diffusent lentement autour de la zone stimulée. 

Figure 8-3 : Diffusion de l'apprentissage. t=200 

De plus, la zone qui diffuse peut être séparée en deux sous-zones. La première, qui 

entoure les axes de symétrie du carré central, contient des neurones qui ont atteint un cycle limite 

à deux états, 1 et 0, et dont les poids ont saturé vers leurs valeurs extrémales, +1 ou -1. La 

seconde zone, qui apparaît plus grisée sur la figure précédente, contient des neurones qui n’ont 

pas saturé à 1 ou 0, et dont les poids sont encore faibles et instables, passant rapidement d’une 

valeur positive à une valeur négative. Cette instabilité se remarque par la grande variabilité des 

figures qui apparaissent entre t et t+1. 


Cette instabilité devient alors peu à peu irrégulière, et est comparable à un bruit qui 

continue à diffuser dans le réseau. Ainsi, par exemple, les zones grises de la Figure 8-4 , à t=600, 

apparaissent nettement moins organisées que celles de la Figure 8-3. Par contre, les bras des 

axes de symétrie du carré central continuent à diffuser, en entretenant les figures géométriques 

qu’ils produisent. (Figure 8-5). 

En laissant évoluer ainsi ce modèle, les bras finissent par emplir l’ensemble du réseau, en 

le menant finalement vers un cycle binaire, où les neurones oscillent entre 1 et 0 (Figure 8-6). 

Normalement, pour un carré parfait, l’organisation des zones à 1 et des zones à 0 devraient 

respecter les axes de symétrie du carré. Or, dans l’expérience réalisée ici, le carré central n’est 

pas uniformément égal à 1, certaines valeurs de sa frontière ayant été mises à 0,9. Ceci explique 

que l’état final vers lequel converge le réseau ne possède pas les quatre symétries du carré de 

forçage. 

188 




Mais il est intéressant de noter sur le zoom de la figure ci-dessous, que les zones noires, 

qui représentent l’ensemble des neurones à 1, se désorganisent progressivement au fur et à 

mesure que l’on s’éloigne du centre de forçage, en perdant leur symétrie initiale. Ainsi, un tel 

réseau amplifie les différences initiales du carré, et peut permettre de voir une forme de sensibilité 

aux conditions initiales, en assimilant ces conditions initiales au pattern forçant le réseau. 

Figure 8-6 : Fractalisation d'un réseau. t=4000 

Ce type de comportement est très encourageant pour la ligne de travail que nous nous 

sommes fixée en début de thèse. En effet, le comportement décrit précédemment contient deux 

propriétés caractéristiques de celles que nous souhaitions obtenir. La première est celle de la 

diffusion de l’information dans le réseau, plus facilement visualisable grâce au caractère 

strictement local des récurrences du réseau (chaque neurone est uniquement connecté à ses huit 

plus proches voisins). Un tel comportement nous permet d’espérer voir une modularisation 

fonctionnelle des réseaux utilisant des règles d’apprentissage dérivées de celle décrite ici. Selon 


190 


le même principe, la modification du réseau se fera préférentiellement dans la direction des poids 

forts, mais ici, comme la règle d’apprentissage ne tient pas compte de la valeur des wij, ce 

phénomène est plutôt dû au fait que les poids forts facilitent l’activité des neurones, et accélèrent 

donc la modification de leurs poids. On retrouve donc le même principe de modularisation, mais 

selon un principe différent. La seconde caractéristique est que cette modularisation fonctionnelle 

ne se fait pas par des modules possédant une hiérarchie simple et localisée autour des entrées du 

réseau. Il est en effet possible de voir que les zones ayant saturé à 1 ou 0 s’organisent en paysage 

qualifiable de fractal, fait de méandres plus ou moins fins. Afin de mettre en évidence ce 

comportement, nous avons réalisé un filtrage passe-bas de l’état du réseau, qui permet de mettre 

mieux en valeur ces zones connexes de méandres. Un tel résultat est à rapprocher de ceux 

portant sur les cartes topologiques des spécialisations neuronales. 

Le premier résultat auquel fait penser 

cette organisation a été obtenu par Hubel & 

Wiesel[[100]]. Sur la Figure 8-7 a été tracé la 

surface du cortex d’un macaque, avec, en noir, 

l’ensemble des neurones qui répondent 

spécifiquement à la stimulation d’un même 

oeil. Il est possible de voir que la spécialisation 

neuronale observée suit le même type de 

figure que celles obtenues par un simple 

apprentissage hebbien. Le second résultat à 

rapprocher est celui obtenu par Weliky & al. 

[[212]], qui ont décrit de façon systématique 

les zones de l’aire 17 du cortex visuel primaire 

répondant sélectivement à l’orientation du 

stimulus visuel : il y a, de la même façon, une 

Figure 8-7 : Paysage des spécificités neuronales 

interpénétration des zones de réponse préférentielle à chacune des orientations. Nous postulerons 

donc que ce type d’organisation de la fonctionnalité des neurones suit le même principe d’une 

segmentation complexe du paysage neuronal, due à l’apprentissage, et non pas causée par une 

pré-spécialisation neuronale. Nous chercherons donc à utiliser des règles pouvant, de la même 

façon, ‘fractaliser’ l’organisation fonctionnelle de l’architecture neuronale. 

Une autre remarque vient s’ajouter à celles ci, qui confirme l’idée de l’utilisation d’une 

période réfractaire. En effet, l’utilisation d’un w11 de valeur négative, oblige le neurone qui a saturé 

à 1 à diminuer son coefficient de rétroaction wii , et donc d’évoluer vers un neurone à forte 

rétroaction négative. Ainsi, un neurone qui sature voit son état diminuer jusqu’à ce que sa sortie 

soit ramenée à zéro. Ceci peut être interprété sous forme d’une fatigue du neurone, qui peut 

correspondre d’une certaine façon à une période réfractaire. On peut voir dès lors un lien entre 

modularisation fonctionnelle ‘fractalisée’, période réfractaire et règle d’apprentissage hebbienne. 

8.3 Diffusion de l'erreur dans le réseau 

Bien que la règle présentée précédemment soit intéressante pour notre approche, car elle 

permet la diffusion de l’apprentissage dans le réseau, et peut donc permettre une modularisation 

fonctionnelle en créant des zones aux frontières complexes, elle présente un défaut qui nous 

limite dans son utilisation : elle ne cherche pas à anticiper le signal forçant, et donc à minimiser 



l’influence de la perturbation induite. Ainsi, il n’est pas possible de mettre en application l’idée 

d’une reconnaissance par anticipation du signal forçant (5.2 Principes , p.98). 

Il est donc nécessaire ,dans un premier temps, de se tourner vers les règles à descente de 

gradient, afin de minimiser l’écart entre la dynamique du réseau et le signal de forçage extérieur. 

Malheureusement, comme nous l’avons déjà vu, les seules règles développées à ce jour réalisant 

cette descente de gradient sont soit non on-line, soit non locales, et perdent donc toute plausibilité 

biologique. Il sera donc nécessaire, dans les règles qui suivent, de perdre la possibilité de calcul 

d’un gradient exact, en les rendant on-line et locales. 


La rétropropagation du gradient revient à faire parcourir à l’envers les erreurs réalisées 

par les sorties du réseau, afin de modifier à posteriori les poids synaptiques. Un tel comportement 

peut être plausible, puisqu’il existe bien dans le neurone biologique une transmission d’information 

du soma vers la synapse. Par contre, BPTT mémorise le passé du réseau afin de déterminer le 

gradient de l’erreur à chaque itération passée : il est donc off-line. 

Qu’en est-il si cet algorithme est rendu artificiellement on-line ? 

La première idée proposée fut de ne pas mémoriser les états passés du réseau, de 

laisser diffuser à l’envers l’erreur dans le réseau, et d’effectuer l’apprentissage sur l’erreur locale 

ainsi calculée (Figure 8-8). 

Figure 8-8 : Rétropropagation de l'erreur 

Cette méthode est similaire à celle utilisée par BPTT, ou par la rétropropagation, qui 

consiste à faire circuler à l’envers l’erreur des neurones de sortie. Ici, la sortie est représentée par 

le neurone que l’on veut forcer. La différence principale porte sur la conservation de la valeur des 

erreurs, à chaque itération. En effet, contrairement à BPTT, où l’apprentissage est réalisé tous les 

T itérations, et réinitialise à 0 les erreurs du réseau, dans le cas présenté ici, T vaut 1, et les 

erreurs ne sont par réinitialisées, afin de permettre leur diffusion dans le réseau. A chaque 

itération, le réseau propage à l’envers cette erreur aux neurones voisins. Dans le cas où il s’agit 

d’un réseau à mémoire, il est possible de s’inspirer de l’algorithme de Wan [[207]], qui a généralisé 

l’algorithme de rétropropagation du gradient aux réseaux multicouches feed-forward. Sa méthode 

consiste à convoluer le vecteur erreur avec le vecteur poids (Figure 8-9). 


192 


Figure 8-9 : Convolution avec les poids 

De cette façon, chaque neurone possède une variable locale, transmise de neurone à 

neurone, selon des lois on-line locales de type : 

k 

ej() t = wijei( t-k) i k 


M i 

åå 

Ainsi, chaque neurone possède une mémoire de ses erreurs passées, ce qui peut 

permettre de faire apprendre chaque wij, par une règle du type : 

dwij(t)=ei(t-k).wijk.Xj 

8.3.2 Résultats : Apprentissage de cycles limites 

Figure 8-10 : Evolution vers un cycle limite


Cette méthode a été utilisée dans 

un simple réseau de 64 neurones, 

entièrement interconnecté, en forçant l’un 

des neurones à suivre une sinusoïde. Elle 

permet, en partant d’un réseau dont tous les 

neurones sont à 0, avec des poids initiaux 

égaux, d’amener la dynamique forcée sur le 

cycle limite forçant (Figure 8-10). Il y a bien 

dans ce cas, comme dans le cas de 

l’apprentissage hebbien présenté 

précédemment, diffusion de l’activité à 

partir du site de forçage, avec une 

modification plus forte des poids proches de 

ce site. En effet, les poids initiaux étant 

faibles, et le réseau étant sur un point fixe, 

le site de forçage réalise une erreur est vite 

atténuée pendant sa rétro-propagation. 

Mais cette erreur, qui fait croître les poids 

par l’apprentissage, crée des circuits de 

propagation privilégiée, qui permettent de 

la faire diffuser plus loin. 

Parfois, cet apprentissage fait 

diverger les paramètres du réseau. 

En effet, tout comme pour RTRL, 

la diffusion de l’erreur n’est pas bornée. Il 

peut donc apparaître des zones de 

résonnance, où elle augmente rapidement. 

Devenant élevée, elle fait accroître les 

poids rapidement, ce qui accélère encore la 

divergence de l’erreur. Afin de résoudre ce 

problème, nous avons souvent eu recours 

dans les expériences qui suivent, à un 

seuillage artificiel de l’erreur. 

Figure 8-11 : Synchronisation lors de l'apprentissage 

Bien souvent, durant 

l’apprentissage, la courbe d’erreur effectue 

des sauts. Parfois très proche de 0, elle 

augmente en quelques itérations, pour 

redescendre ensuite lentement vers 0. 

Ainsi, par exemple, il peut arriver que le 

signal du réseau soit très proche du signal 

du forçage, mais qu’il reste une erreur 

résiduelle. Comme cette erreur résiduelle 

n’est pas réinitialisée, celle-ci croît jusqu’à 

qu’elle soit suffisante pour faire basculer 

rapidement les poids vers d’autres Figure 8-12 : Synchronisation par ajout de fréquence 

configurations, ce qui modifie rapidement les dynamiques, en les éloignant du signal de forçage. 

Alors, l’erreur recommence à décroître lentement. 



Ce phénomène est parfois à l’origine de resynchronisation du signal de forçage sur le 

signal du réseau (Figure 8-11) : à 1900 itérations, les deux dynamiques (celle de forçage et celle 

du réseau) sont presque identiques, à 7300, la dynamique du réseau se désynchronise 

rapidement, pour revenir ensuite à 15300 itérations, parfaitement en phase avec la dynamique 

forçante, avec une erreur plus faible. Parfois, ce comportement est à l’origine de resynchronisation 

du signal forçant sur le signal provenant du réseau (Figure 8-12) : à 5000 itérations, la sortie du 

réseau est en retard sur le signal de forçage, à 25000 itérations, une composante supplémentaire 

apparaît sur le signal du réseau, qui le modifie afin de le resynchroniser à 35000 itérations. Dans 

le cas où le signal de forçage est enlevé, le réseau va sur son régime libre (Figure 8-13). Souvent, 

il y a simplification de la dynamique à la perte du forçage. Pendant quelques itérations, le réseau 

continue à suivre la dynamique forçante, puis celle-ci s’évanouit peu à peu. 

Ce phénomène est en accord avec les principes de dépersévaration présentés 

précédemment : le souvenir (l’état induit par le forçage) s’évanouit peu à peu à la perte de la 

présentation du stimulus. Par contre, la nouvelle présentation de cette même dynamique amène 

très rapidement le réseau à la suivre : il l’anticipe très rapidement. 

Figure 8-13 : Influence de la perte du forçage 

Ceci peut correspondre aux principes de rappels : le réseau retrouve les principes 

d’anticipation de l’environnement qu’il a appris auparavant. Ainsi, la courbe du milieu de la Figure 

8-13 représente la dynamique de sortie du réseau, tracée à partir du début de l’apprentissage : le 

194 



réseau met beaucoup plus de temps à apprendre le signal de forçage, qu’à s’en ‘rappeler’. Ainsi, 

un tel apprentissage permet de réaliser l’apprentissage de fonctions simples, telles que des 

sommes de sinusoïdes. Malheureusement, dès que la fonction à apprendre devient plus 

complexe, le réseau se stabilise sur une erreur minimale, qui finit par augmenter en très peu 

d’itérations, pour recommencer à décroître lentement, et ainsi de suite. 

Nous avons remarqué que les fonctions symétriques où il existe t0 tel que f(t0-t)=f(t0+t), 

sont plus simples à apprendre par le réseau. 

Ce phénomène peut être expliqué par un ‘rebond’ de l’erreur dans le réseau : à chaque 

instant t, le neurone forcé réalise une erreur e(t), qui est transmise à ses voisins, qui font de 

même. De cette façon, un neurone à une distance d du site de forçage reçoit l’erreur e(t-d). Ainsi, il 

va modifier ses paramètres afin de minimiser e(t-d), et va renvoyer sa sortie ainsi modifiée, qui se 

propagera en un temps d jusqu’au neurone forcé. 

Ainsi, ce type de réseau va chercher à rapprocher x(t-d) de x(t+d), pour l’ensemble des d, 

car le réseau diffuse les perturbations dues au forçage dans tout le réseau. Ainsi, s'il existe x0, tel 

que f(t0-t)=f(t0+t), le réseau aura un apprentissage cohérent pour d=t0, ce qui lui permettra 

d’apprendre cette fonction symétrique. 

8.4 Forçage des dynamiques complémentaires 


Pour rendre RTRL local, 

la méthode ne peut pas être aussi 

simple que pour rendre on-line 

BPTT, car la restriction des 

équations à leur composante 

locales les rendent inadéquates : 

RTRL est par conception, un 

algorithme non-local. Comme nous 

l’avons vu dans le chapitre où sont 

analysées les dynamiques 

observées dans les réseaux 

récurrents [Chap. 7, Dynamiques 

observées, p.143], l’ajout d’un 

forçage sur un ou plusieurs 

neurones modifie les dynamiques 

locales du réseau. D’une certaine 

façon, l’ensemble de ces 

dynamiques obtenues dans le Figure 8-14 : Forçage des dynamiques complémentaires 

réseau peuvent être qualifiées de ‘naturelles’ pour le réseau. Tout comme la réponse d’un système 

à une impulsion donne en sortie sa fonction de transfert, on peut dire que les dynamiques 

obtenues sur les neurones non-forcés contiennent une partie de l’information encodée par les 

paramètres du réseau. Il est ainsi possible d’imaginer que ces dynamiques seront plus facilement 

apprises par ce réseau, car elles correspondent à des dynamiques qui proviennent de lui. 



Ceci est l’idée sous-jacente de cette règle d’apprentissage : faire évoluer en parallèle deux 

réseaux identiques, dont les sorties de l’un sont les entrées forçantes du second, excepté les 

sorties forcées du premier (Figure 8-14). 

Etant donné que les deux réseaux sont identiques, il est possible de supposer que ce 

forçage sera plus simple à apprendre par le second réseau. Le but de l’apprentissage envisagé est 

alors de rapprocher les dynamiques des deux réseaux, en appliquant les règles d’apprentissage 

proposées dans le cas d’un forçage total (5 Avec Teacher forcing total, p.88). Si ces deux réseaux 

convergent vers la même dynamique, cela signifie que les dynamiques forcées sont égales aux 

dynamiques non forcées : le régime libre du réseau anticipe les dynamiques induites par le 

forçage. 

Un tel apprentissage conserve les contraintes d’apprentissage on-line et local. Par contre 

la plausibilité biologique est perdue, puisqu’il est nécessaire de faire évoluer en parallèle deux 

copies du réseau. 

8.4.2 Résultats 

196 

1. Cycles limites du régime libre initial 

Le réseau étudié est un simple réseau hopfieldien, sans mémoire, entièrement 

interconnecté. Nous l’avons choisi entièrement interconnecté, car pour ce faible nombre 

de neurones, les phénomènes de diffusion ne sont pas visibles, et nous voulions 

commencer par la validation des règles sur de petits modèles, en les généralisant 

ensuite aux grands réseaux à voisinage local. En lâchant ce réseau à partir de conditions 

initiales aléatoires, les seize neurones finissent par se stabiliser chacun sur un cycle 

limite (Figure 8-15). 

2. Complexification des dynamiques par perturbation 

Le forçage a été réalisé sur le neurone [2,2]. Cette perturbation induit une 

modification de l’ensemble des attracteurs du réseau, qui se complexifient (Figure 8-16). 

Nous avons tracé en superposition pour le neurone [2,2] la dynamique de forçage (une 

simple sinusoïde), et la sortie du second réseau (dont tous les autres neurones sont 

forcés). 

3. Minimisation des perturbations induites 

L’apprentissage réalisé modifie rapidement les attracteurs de l’ensemble du réseau. 

La dynamique du neurone [2,2] cherche bien à suivre la dynamique extérieure. En 

continuant l’apprentissage, après 10000 itérations, la dynamique du neurone [2,2] 

continue à se rapprocher de la dynamique extérieure. 



Figure 8-15 : Dynamiques libres du réseau avant apprentissage 

Figure 8-16 : Effets du forçage sans apprentissage 


198 


4. Dépersévération en régime libre 

En enlevant le forçage, le réseau quitte la dynamique extérieure vers laquelle il 

convergeait : il y a perte des dynamiques induites par l’environnement. D’une certaine 

façon, comme cela a été proposé dans le modèle de mémoire, le réseau oubli peu à peu 

les dynamiques qu’il était en train d’apprendre. Il y dépersévération. Par contre, si la 

dynamique forçante est présentée de nouveau, le réseau quitte rapidement son régime 

libre pour retrouver l’état qu’il avait quitté à la perte du forçage. Il y a rappel de 

l’information apprise, car la même dynamique forçante n’a pas le même effet au début et 

à ce stade de l’apprentissage. Au début (Figure 8-16, p.197), la dynamique forçante était 

perturbatrice, et après 15000 itérations, le réseau se remet à suivre rapidement la 

dynamique forçante (Figure 8-19). 

5. Apprentissage par coeur par des dynamiques chaotiques 

Après 13 millions d’itérations, le régime libre du réseau est assez proche de la 

dynamique forçante : il approche de l’apprentissage par coeur, stade à partir duquel il 

peut simuler en interne la dynamique externe. Ce comportement est conforme à 

l’hypothèse de minimisation des perturbations induites 

6. Bifurcations de l’attracteur en régime libre 

Afin de voir l’évolution de l’attracteur appris, c’est à dire l’attracteur du régime libre du 

réseau, nous avons mémorisé l’état des paramètres du réseau (poids et conditions 

initiales) toutes les 10000 itérations. 

Ensuite, nous avons laissé évoluer chacun de ces réseaux pendant 1000 itérations 

afin de le laisser se stabiliser, puis avons enregistré l’attracteur stabilisé en régime libre. 

Les attracteurs atteints par le réseau ont enfin été juxtaposé, pour visualiser l’évolution 

de l’attracteur du régime libre du réseau pendant les 13 millions d’itérations 

d’apprentissage réalisées (Figure 8-23). 

L’attracteur en régime libre ne semble pas converger vers un attracteur final, ce que 

l’on aurait pu espérer. Cet attracteur final aurait été similaire à l’attracteur de la 

dynamique forçante, ce qui aurait correspondu à un apprentissage par coeur (le réseau 

simulerait en interne la dynamique forçante de l’environnement, sans présentation de 

celle-ci). Ce résultat démontre néanmoins que le réseau balaie un paysage complexe 

d’attracteurs, qui, pour la plupart, facilitent l’anticipation du signal de forçage lorsqu’il est 

présenté (l’erreur diminue progressivement). 



Figure 8-17 : Evolution des dynamiques après 5000 pas d’apprentissage 

Figure 8-18 : Evolution des dynamiques après 10000 pas d’apprentissage 


200 


Figure 8-19 : Après 15000 pas d’apprentissage. Début de la phase en régime libre 

Figure 8-20 : Complexification des dynamiques en régime libre entre 20000 et 25000 pas 



Figure 8-21 : Stabilisation des dynamiques 

Figure 8-22 : Dynamiques libres apprises après 13E6 itérations 


202 


8.5 Vers l’algorithme on-line local ? 


Figure 8-23 : Evolution de l'attracteur en régime libre 

Comme nous l’avons vu dans les précédents algorithmes, il est difficile, voire impossible 

de conjuguer les aspects on-line et local dans une même règle d’apprentissage fiable pour les 

réseaux récurrents. En effet dans les exemples précédents, aucun n’a permis d’obtenir un 

apprentissage valide pour des dynamiques de forçage complexes : les seules dynamiques 

apprises sans trop d’erreur sont des dynamiques périodiques et symétriques. Donc, plutôt que de 

chercher à rendre artificiellement on-line et local les règles de descente de gradient dans les 

réseaux récurrents, peut être serait-il préférable de forcer une règle hebbienne à réaliser une 

minimisation de l’erreur des neurones forcés. Il est possible de dériver des règles de ce type, en 

s’inspirant de l’apprentissage par bonification. Ainsi, par exemple, si l’on prend un réseau à 

différences finies, l’évolution au cours du temps d’une de ses sorties est donnée par : 

æ ö 

xi( t + dt) = ( 1- 

dt) xi() t + dt. f çåwijxj() 

t ÷ 

è j ø 



Prenons, comme dans l’algorithme précédent, un second réseau possédant les mêmes 

paramètres que le premier, mais dans un état différent. De la même façon, nous avons : 

~ ( ) ( ) ~ æ 

x t dt dt x () t dt. f w x~ ö 

i + = 1- 

i + çå 

ij j() 

t ÷ 

è j ø 

Maintenant, en soustrayant ses deux équations l’une à l’autre, nous obtenons : 

~ ( ) ( ) ( ) ( ~ æ 

() () ) . ~ ö 

xi t + dt - xi t + dt = -dt xi t - xi t + dt f ç wijxj() t ÷-f wijxj() t 

è j ø j 

æ 

é 

öù 

1 

ê å çå 

÷ ú 

ëê 

è øûú 

Ce qui donne, en posant e () t = x~ () t - x () t : 

i i i 

æ 

ei( t dt) ( dt) ei() t dt. f w ~ ö 

+ = - + ç ijx j() 

t ÷-f wijx j() 

t 

è j ø j 

æ 

é 

öù 

1 

ê å çå 

÷ ú 

ëê 

è øûú 

Si l’on suppose que les réseaux ont des états proches : 

f w x 

~ 

å ij j() 

t f åwijxj() 

t 

æ 

f w x~ ö 

j 

j 

çå 

ij j() 

t ÷-f åwijxj() t åwijej() 

t 

j 

j 

j 

w 

~ 

è ø 

x () t w x () t 

æ ö 

ç ÷= 

è ø 

æ 

æ ö 

ç ÷- 

ö è ø 

ç ÷ 

è ø 

æ ö 

ç ÷ 

è ø 

- 

» æ 

ç 

è 

å 

j 

ö 

wijej() t ÷ f ¢ si() t 

ø 

å ij j å 

j 

j 

( ) 

Ce qui permet d’obtenir une dynamique de l’erreur, calculée localement : 

ei( t + dt) = ( - dt) ei() t + dt wijej() t f si() t 

j 

æ ö 

1 

çå 

÷ ¢ 

è ø 

( ) 

Dès lors, en prenant une simple règle s’approchant des règles de bonification, du type : 

dw ( t + dt) = hx 

() t x () t e ( t + dt) 

ij i j i 

Il est possible de voir que le nouvel état du réseau avec cet apprentissage sera : 

æ 

ö 

xi( t + dt) = ( 1- 

dt) xi() t + dt. f çå( 

wij + dwij ) xj() t ÷ 

è j 

ø 

æ 

ö 

= ( 1- 

dt) xi () t + dt. f çå( 

wij + h xi() t xj() t ei( t + dt) ) xj() t ÷ 

è j 

ø 

æ ö 

æ 

2ö 

» ( 1- 

dt) xi () t + dt. f çåwijxj() 

t ÷ + h xi( t) ei( t + dt) f çåxj() 

t ÷ 

è j ø 

è j ø 

æ 

2ö 

= xi( 

t + dt) + hdt. 

xi( t) ei( t + dt) f çåxj() 

t ÷ 

è j ø 

ANTICIPATION DU FORÇAGE DES DYNAMIQUES 203 

ij j

204 


Soit : 

h¢ 

64444744448 é æ öù 

2 

xi ( t + dt) - xi ( t + dt) = êhdt. 

xi() t fç x j() 

t ~ 

å ÷ úxi 

( t 

ëê 

è j øûú 

dt) xi ( t dt) 


( + - + ) 

Cette dernière équation montre que, dans le cas où h¢ est positif, le nouvel l’état, après 

apprentissage, est plus proche du second réseau. Il est donc nécessaire d’utiliser des réseaux à 

sortie positive. Les essais réalisés selon cette approche n’ont pas permis de réaliser le moindre 

apprentissage. L’erreur vient sans doute des approximations réalisées qui supposent que les x et 

les ~ x sont proches, ce qui ne peut être le cas que si le forçage est négligeable. Peut-être faudraitil 

alors s’orienter vers un forçage progressif ? Cette idée commence à apparaître, mais nous 

n’avons pas pu la mettre en application dans cette thèse. 


La raison a tant de formes, que nous ne savons à laquelle nous prendre, 

l’expérience n’en a pas moins. 

Montaigne. Les essais. 

Au départ, cette thèse devait être consacrée à l’étude des capacités de synchronisme de 

grands réseaux biologiquement plausible, et dans ce but, nous avons développé un outil puissant 

qui nous a permis de simuler un grand nombre de modèles connexionnistes différents. Dans ce 

nombre, certains nous ont révélé des comportements qui, mis bout à bout, semblaient permettre 

d’échafauder un modèle théorique de mémoire qui nous a semblé encourageant, car plausible 

biologiquement. Les principes énoncés semblaient bons, et il suffisait de trouver un réseau qui 

garderait de chacun des réseaux expérimentés les propriétés souhaitées : modularisation, 

anticipation, dynamiques chaotiques, et synchronisme. 

Malheureusement, chaque réseau a conservé le privilège de ses propriétés : les réseaux à 

délais augmentent la taille des zones d’activité, les modèles à mémoire s’organisent par clusters, 

les modèles à fonction de transfert en sortie diffusent le forçage. Il semblerait donc que le modèle 

général proposé puisse cumuler les propriétés observées dans chacun de ses sous-modèles. 

Mais, la complexification croissante du modèle augmente le nombre de paramètres, tous 

potentiellement modifiables par apprentissage. Dans ces modèles complexes, seuls des 

dynamiques simples ont pu être apprises, grâce à des apprentissages locaux, on-line, non 

supervisés. 

Pourtant, ces apprentissages, inspirés de RTRL et BPTT, simplifiés à l’extrême, 

permettent de réaliser des apprentissages par coeur, aussi efficaces que ceux réalisés par 

certains auteurs [[152]][[153]], où la validation des règles d’apprentissage se limite à 

l’apprentissage de cycles simples (ellipse ou boucle en huit). Ainsi, il semblerait que ces fonctions 

à apprendre soient trop simples pour valider ces règles d’apprentissage.


Il serait donc nécessaire de valider les règles d’apprentissage dans les réseaux récurrents 

par des fonctions plus complexes, d’ordre plus élevé. Dans les recherches actuellement menées, 

peu de résultats probants ont été obtenus. Un attracteur de Lorenz a été appris par un réseau 

multi-couches à mémoire [[207]], un attracteur de Hénon a été appris par un réseau totalement 

interconnecté [[128]], et une dynamique de Mackey-Glass dans un réseau récurrent [[132]]. Dans 

les trois cas, il a été nécessaire de déterminer à la main les paramètres de l’apprentissage : Wan 

reconnaît avoir testé de nombreux réseaux, et modifié les paramètres en cours d’apprentissage, 

Mak a utilisé des valeurs très faibles des paramètres, et obtient son résultat après 2,6 millions 

d’itérations. Et Mead a tracé les courbes d’erreurs en fonction de chaque paramètre, pour obtenir a 

posteriori la configuration paramétrique optimale. 

Dans notre cas, la recherche d’un algorithme local, on-line, non supervisé, nous empêche 

de suivre les choix de ces auteurs : il n’est pas envisageable de devoir régler les paramètres 

extérieurs de l’extérieur. Ainsi, nous cherchons un algorithme dérivé des règles de Hebb, mais qui 

puisse apprendre un comportement dynamique, et dérivé des règles à base de descente de 

gradient, mais local et on-line. Seuls des résultats intermédiaires ont pu être obtenus. 

Nous avons montré que des règles hebbiennes réalisent la diffusion dans le réseau des 

perturbations, qui s’organisent via l’apprentissage. Ceci était nécessaire dans un modèle devant 

vérifier des capacités de modularisation, et d’association, primordiales dans le modèle théorique 

que nous proposons. 

De plus, les algorithmes à descente de gradient, rendus artificiellement on-line et local, 

permettent au réseau d’apprendre des fonctions simples aussi bien que les algorithmes dont ils 

dérivent. Nous avons montré, que le forçage pouvait complexifier les dynamiques individuelles 

d’un réseau, et que, dans un cas particulier d’apprentissage, le réseau cherchait à suivre cette 

dynamique forçante, tout en modifiant l’attracteur de chaque dynamique libre. Ce résultat est en 

accord avec les données neurophysiologiques qui montrent qu’il y a complexification des 

dynamiques lors de la présentation d’un percept non appris, et qu’il y a simplification lors de la 

reconnaissance d’un percept appris. Malheureusement, le seul apprentissage qui a permis ce 

résultat est peu plausible, car, bien que on-line et local, il suppose une duplication du réseau. 



9. CONCLUSION GENERALE ET PERSPECTIVES DE 

RECHERCHE 

Quel est le support de la pensée ? 

Mais voici que survient le doute : peut on faire confiance à l’esprit de 

l’homme, qui s’est développé, j’en suis persuadé, à partir d’un esprit 

aussi primitif que celui des animaux les plus primitifs, lorsqu’il en vient 

à tirer des conclusions aussi grandioses ? 

Charles Darwin. 

L’issue de cette thèse ne permet pas de justifier une ‘conclusion grandiose’, mais elle 

peut contribuer à l’orientation de certaines voies de recherches, atténuant la frontière entre 

système artificiel et système naturel. Il est en effet possible d’associer dans un même modèle : 

l’observation et l’utilisation de dynamiques chaotiques 

la modularisation par les activités de populations neuronales 

le rôle actif de la mémorisation dans l’autonomie du système 

La synthèse de notre thèse à partir de ces interprétations s’articule selon deux points de 

vue, interne ou externe au système considéré. Le premier point de vue considère chaque système 

comme une sous-partie d’un système général, en interaction dynamique avec son environnement 

; le deuxième considère chaque système comme étant une assemblée d’agents en interaction, 

dont certains voient leur dynamique forcée. 

Interprétation externe 

Un système général 

Nous avons proposé la vision d’un système général, non plus axée sur l’organisation 

logique de référents, ni sur l’état statique d’un système, mais selon une interprétation où 

seules les dynamiques des systèmes contiennent une information, dans le sens où elles 

s’informent (se mettent en forme) les unes les autres, dans une co-évolution globale et 

simultanée. Il s’agit de l’hypothèse du ’tout dynamique’. 

Contenant des sous-systèmes en concurrence 

CONCLUSION GENERALE ET PERSPECTIVES 207

208 


Les systèmes qui composent ce ‘tout dynamique’ sont alors en concurrence, car 

chaque système peut modifier les dynamiques des autres. Selon ce point de vue, 

l’environnement devient une source de perturbation, dont chaque système cherche à se 

protéger. La perturbation, telle qu’elle est définie, représente simplement l’écart entre la 

dynamique libre du système (sans influence extérieure) et la dynamique forcée (avec 

influence extérieure). 

Ayant des dynamiques forcées 

Cette interprétation rend dès lors essentielle l’utilisation du forçage, dont l’intérêt dans 

l’apprentissage de dynamiques a déjà été démontré (accélération des temps 

d’apprentissage, stabilisation des systèmes, resynchronisation des réseaux sur le signal 

appris). 

A chaque niveau de description 

Ce forçage permet d’obtenir une équivalence, à tous les niveaux de description du 

système, des mécanismes sous-jacents. Un système est forcé par son environnement, 

chaque module est forcé par les autres, chaque neurone est forcé par ses voisins. Il est 

ainsi possible d’imaginer une règle commune à l’ensemble de ces systèmes. 

Maximisation de l’autonomie 

Nous proposons que cette règle commune soit la maximisation de l’autonomie du 

système considéré. Nous définirons cette autonomie comme étant la capacité d’un 

système à contrôler lui-même son évolution future : le système cherche à ce que ses 

variables d’états influencent davantage sa dynamique que les variables externes 

provenant de l’environnement forçant. 

Emergence d’une mémoire anticipatrice 

Ainsi, à chaque niveau de description, ce qui est extérieur à un système (i.e. ce qui 

fait partie de son environnement), peut forcer ses dynamiques : il existe une source de 

modelage extérieure, perturbatrice. Afin de minimiser les effets de cette source forçante, 

le système perturbé peut adopter deux attitudes : soit il modifie son environnement, en 

devenant perturbateur à son tour, afin de conformer l’environnement à ses attentes 57 , 

soit il se modifie lui-même, afin que ce soient ses variables d’états internes qui le 

‘mettent en forme’. Ce dernier comportement tend à anticiper l’évolution de 

l’environnement, en le simulant en interne. Nous voyons là l’un des principes actifs de 

base qui peuvent faire émerger la mémoire dans le système. 

Interprétation interne 

Abandon du comportement réflexe behavioriste des modèles à entrée-sortie 

Selon cette approche, l’hypothèse d’architectures feed-forward, aux comportements 

réflexes, est éliminée,. En effet, ces architectures sont sous le contrôle complet de 

l’environnement, puisque, à chaque configuration externe, correspond une et une seule 

réponse du système. Ces architectures sont causalement liées à leur environnement, et 

57 Approche non réalisée dans cette thèse, qui correspondrait à un apprentissage de la commande des 

effecteurs du système. 



leur état interne ne détermine en rien leur évolution future. Nous nous sommes donc 

orientés vers des architectures neuronales assimilables à des systèmes autonomes, 

opérationellement clos 

Vers des architectures à récurrence locale 

D’emblée, toutes les architectures feed-forward ont donc été éliminées, pour 

s’orienter vers un modèle de réseau à récurrence exclusivement locale, avec 

simplification extrême des architectures neuronales biologiques. Ce choix nous a permis 

d’observer et d’interpréter des diffusions dans le réseau autour des sites de forçage 

(Figure 7-23,p.165), et d’interpréter la perception de l’environnement en terme de 

diffusion de perturbations induites par le forçage. 

A dynamique chaotique 

Il est admis que le système cérébral produit des dynamiques non-linéaires de grande 

complexité, du chaos, même si la quantification de la dimension de ces dynamiques 

reste encore une question ouverte. Plusieurs rôles dans les phénomènes de 

mémorisation ont été proposés (2.3 Des dynamiques au chaos, p.38), dont certains ont 

pu être vérifiés. Nous avons vu qu’il pouvait faciliter des synchronismes locaux dans le 

réseau (Figure 7-14, p.158), qu’il accentuait la prise en compte de l’état du réseau 

(Figure 7-13, p.156), et qu’il permettait une dépersévération du système (Figure 8-21, 

p.201). 

Complexifiée par une perturbation extérieure 

De façon similaire aux systèmes périodiques forcés, la perturbation périodique 

externe peut complexifier les dynamiques locales du réseau, si celle-ci n’est pas 

anticipée. Cette perturbation par les dynamiques externes a été observée à plusieurs 

niveaux : soit par forçage (Figure 8-15, p.197), soit par dépendance aux conditions 

initiales (Figure 7-12, p.155), soit encore par le maintient artificiel de dynamiques suite à 

une modification lente des paramètres (Figure 7-42, p.180). 

Simplifiée par l’apprentissage 

L’objectif du système est d’anticiper la dynamique qui le perturbe, et complexifie ses 

dynamiques. S’il l’anticipe, la complexité de ses dynamiques est ramenée à celle de la 

dynamique forçante. Il y a donc simplification des dynamiques du système lors de 

l’apprentissage. Apprentissage simple ! il doit exister un intermédiaire entre RTRL et 

Hebb : la simplification drastique de RTRL ou BPTT ayant permis d’effectuer des 

apprentissages efficaces de fonctions périodiques simples. 

Qui se complexifie à la perte du signal forçant 

Il y a dépersévération (Figure 8-23, p.202), car le régime libre du neurone forcé quitte 

peu à peu la trajectoire forcée pour se stabiliser sur un attracteur, qui évolue tout au long 

de l’apprentissage. Il y a donc bien modification de l’attracteur en régime libre lors de 

l’apprentissage. Par contre, à la représentation du signal de forçage, la dynamique du 

réseau vient la suivre beaucoup plus rapidement, au fur et à mesure que l’apprentissage 

évolue (Figure 8-13, p.194). 

En vue de l’anticipation du signal forçant 


210 


Lorsque l’on continue cet apprentissage, le site forcé finit par suivre de façon parfaite 

la dynamique extérieure forçante : il y a apprentissage par coeur. A ce stade, la 

dynamique extérieure n’est plus perturbatrice, car elle est simulée en interne par le 

système. 

Associables en modules 

Nous avons observé plusieurs modularisation du réseau : une fréquentielle, où des 

neurones voisins tendent à se spécialiser autour de certains domaines de fréquences 

(Figure 7-4,p.148), potentiellement synchronisables, et une de phase, où les neurones se 

synchronisent autour de ces fréquences (Figure 7-10,p.153). Nous pensons que ces 

synchronisations locales sont à l’origine de la modularisation fonctionnelle neuronale. 

Définissant des spécificités neuronales 

Ce phénomène est accentué par la diffusion de la perturbation autour des sites de 

forçage, car l’organisation qui émerge dans le réseau provient de cette diffusion : les 

neurones proches d’un site de forçage lui sont particulièrement affectés. Il y a donc 

spécification neuronale. 

A la géométrie complexe 

Nous avons vu que les perturbations induites par les sites de forçage peuvent diffuser 

de façon complexe dans le réseau. Soit cette diffusion est due à l’apprentissage (Figure 

8-6, p.189), soit elle provient directement des dynamiques du réseau sans apprentissage 

(Figure 7-25, p.166 et Figure 7-45, p.183). Dans tous les cas, la diffusion de l’activité suit 

des trajectoires complexes, malgré un voisinage local très simple, selon le paysage des 

poids et des délais du réseau. 

Permettant l’association des perturbations multi-sites. 

Cette complexité peut être à l’origine de la mise en commun de l’information 

provenant des sites de forçage. En effet, nous avons vu que ce qui est diffusé dans le 

réseau, c’est la composante non anticipée des sites de forçage. Donc plus cette 

composante est forte, plus elle diffuse loin dans le réseau. Il peut donc arriver, dans le 

cas où il y ait plusieurs sites de forçage non anticipés que des interférences apparaissent 

aux frontières des modules affectés aux sites de forçage. Nous pensons que ce 

phénomène est à l’origine des associations réalisées lors de la mémorisation 

d’informations multi-modales (auditive, visuelle, tactile...). 

Bilan, Perspectives et Voies de recherche 

Les résultats et les principes précédents tentent d’illustrer la recherche du modèle 

connexionniste, que nous nommerons PAMA 58 (Figure 5-1, p.97), vérifiant le maximum 

de propriétés du modèle théorique de mémoire proposé (Chap.5 Un modèle 

connexionniste de la mémoire, p.95). Chaque réseau démontre la faisabilité partielle d’un 

tel projet, mais aucun n’a permis de vérifier l’ensemble des propriétés requises. 

Potentiellement, un réseau à récurrence locale, de neurones à mémoire en entrée et en 

58 pour Perturbation-Anticipation-Modularisation-Association, qui sont les quatre principes clés du modèle 

théorique proposé. 



sortie, peut le faire, mais dès lors, l’apprentissage devient d’une trop grande complexité. 

Il est impossible de connaître le gradient de l’erreur selon chacun des paramètres. 

Il reste donc de nombreux problèmes à résoudre, dont on peut orienter la résolution 

selon deux axes. Soit il est nécessaire de réaliser un prétraitement de l’information 

extérieure, afin de la ramener à un encodage réalisable dans le réseau, soit il faut 

améliorer le réseau afin de rendre les dynamiques de l’environnement anticipables sans 

pré-traitement. 

Faire découler la loi d’apprentissage de la fonction d’autonomie 

Dans toute la thèse, nous avons admis que le stade où le système anticipe son 

environnement, est celui où son autonomie est maximisée, car à ce stade, le système 

simule en interne l’évolution de l’environnement, et l’influence des dynamiques externes 

est effacée. De façon plus rigoureuse, il serait nécessaire de justifier cette équivalence, 

afin de permettre la détermination exacte d’une règle d’apprentissage maximisant 

l’autonomie du système. Ceci pourrait être une voie de recherche, complétant l’approche 

où les lois dérivent d’une minimisation de l’erreur en sortie du système. 

Changer le paramètre support d’information 

Dans tous les cas étudiés, nous avons considéré que le paramètre qui supporte 

l’information du réseau était l’intensité de sa sortie. Cette hypothèse, contraire aux 

connaissances neurophysiologiques actuelles, a peut être été un facteur limitant. Ainsi, il 

pourrait être intéréssant de chercher à faire porter l’information par les délais inter-spike. 

Ceci est une voie de recherche potentielle, en accord avec l’utilisation de réseaux de 

type integrate and fire. 

Apprentissage on-line local de fonctions complexes. 

Les seules fonctions qui ont pu être apprises par les règles d’apprentissage proposées 

sont simples, assimilables à des sinusoïdes. Dès que ces fonctions deviennent plus 

complexes, le réseau, dans les meilleurs cas, apprend une fonction périodique ‘proche’ 

du signal forçant. Dans le cas de l’apprentissage de fonctions chaotiques, les réseaux, 

après une phase de perturbation résiduelle due au forçage, se stabilisent sur un cycle 

limite. Faut-il alors penser que les règles d’apprentissage proposées sont limitées à 

l’apprentissage d’une période et d’une phase, et ne peuvent réaliser un apprentissage 

par-coeur que dans le cas d’une sinusoïde ? Dans ce cas, il serait souhaitable de réaliser 

une sur-couche, transformant l’information extérieure en un ensemble de fonctions 

périodiques. 

Associer synchronisme et anticipation 

De plus, nous avons postulé que l’apprentissage des dynamiques forçantes tend à 

synchroniser les dynamiques de population neuronale. Ce résultat n’a pas été obtenu de 

façon explicite, car nous pensions le chercher après l’obtention d’une règle 

d’apprentissage valide. Les difficultés rencontrées pendant la recherche de cette règle 

ne nous ont pas permis de passer à cette phase. 

Peut-être alors faudrait-il chercher explicitement, dans la règle d’apprentissage, à 

maximiser les synchronismes locaux, en vue de l’anticipation du signal forçant ? Alors 

l’utilisation des catégories isochrones du réseau pourrait être intéressante. 

Capacités de généralisation 


212 


Une autre étude a été limitée par la difficulté d’obtention de la règle d’apprentissage. 

Nous pensions en effet pouvoir valider l’hypothèse d’une mise en commun de 

l’information provenant des sites de forçage, en vue de l’amélioration de l’anticipation de 

chacun. N’ayant pas pu obtenir d’apprentissage fiable sur un seul site, cette 

généralisation s’est avérée impossible. Mais peut-être s’agit-il là d’une limite naturelle 

aux réseaux ? 

En effet, il est possible que le réseau cherche non pas à anticiper chaque site, mais à 

associer les évolutions de chacun des sites. Dans ce cas, il faudrait forcer N sites, et 

arrêter le forçage sur k sites, en cherchant à ce que la présentation des N-k sites 

‘rappelle’ au réseau les dynamiques sur les k sites non forcés. Les premières 

expériences réalisées sur ce sujet n’ont pas permis d’améliorer les résultats présentés 

dans cette thèse : les fonctions périodiques ne sont pas mieux apprises, et les fonctions 

chaotiques n’ont pas pu être rappelées (nous avons essayé l’apprentissage d’un Lorenz, 

en forçant 3 sites avec X(t), Y(t) et Z(t), et effectué le rappel par la présentation de X(t) et 

Y(t) ). 

Autre limite, dans la totalité des rappels effectués, nous avons conservé la phase, la 

fréquence, et l’intensité de celles-ci. Aucune expérience n’a pu être réalisée portant sur 

les capacités de généralisation du réseau : le réseau se resynchronise-t-il rapidement sur 

une sinusoïde apprise, si sa phase est changée ? 

Modèle à spike 

Les limites rencontrées durant la recherche de la règle d’apprentissage sont peut-être 

dues au choix du modèle neuronal. En effet, les modèles à fonction sigmoïde sont 

fonctionnellement équivalent à des modèles moyennant les fréquences neuronales de tir 

[[39]]. Comme nous mettons en avant les capacités de synchronisme du réseau, peutêtre 

serait-il préférable de s’orienter vers des modèles plus riches, de type ‘integrate and 

fire’ ? De tels modèles utilisent naturellement les synchronismes du réseau. Nous 

comptons donc nous intéresser aussi à ce type de modèle, en reprenant les expériences 

réalisées ici (dynamiques chaotiques, capacités de synchronisme, diffusions...). 

S’orienter vers une modularisation a priori 

Autre amélioration possible, il est envisageable d’étudier des réseaux possédant une 

modularisation a priori. Nous ne nous sommes pas intéressés à ceux-ci au départ, car 

cela rajoutait encore des paramètres au modèle. Cette étude porte donc plus sur les 

comportements d’un seul module, en vue d’une connexion de ces modules entre-eux 

ensuite. 

Par contre, il peut être intéressant de chercher à accentuer la modularisation du réseau, 

par exemple par des algorithmes de pruning. En effet, dans nos réseaux, les 

perturbations finissent par diffuser dans le réseau entier, en créant des dépendances 

entre neurones qui n’ont pas lieu d’être (par exemple si deux neurones sont 

indépendants). Dans ce cas, chaque neurone réalisera en permanence une erreur 

résiduelle par rapport à l’autre. Cette erreur, s’ajoutant, risque de faire diverger les poids. 

Un pruning pourrait éviter ce type de divergence, en éliminant les synapses des 

neurones dont les sorties semblent indépendantes. 

Vers un modèle de l’action 



Dès lors, certains modules peuvent être sous le contrôle de modules supérieur s’ils 

n’ont pas de synapse rétro-agissant sur ce dernier. Il y a encapsulation, et liaison 

causale. Nous entendons par liaison causale, que le module contrôlé ne peut pas être 

une source de perturbation pour le module supérieur : ses dynamiques sont causées par 

le module supérieur. 

On peut voir dans ce type d’architecture quelques principes initiaux de la commande : un 

module en commande un autre sans pouvoir être modifié par celui-ci, à part par la 

perception de la modification induite dans l’environnement par cette action. Ainsi, 

certains modules apprendraient à anticiper l’effet des actions sur l’environnement. 

Perspective d’une conscience ? 

Cette capacité de simulation interne de l’environnement peut être à la base des 

phénomènes dits ‘de conscience’, ramené au niveau d’une représentation interne de soi. 

En effet, ce qui est perturbant pour un système provient de l’extérieur. Anticiper cette 

perturbation, c’est se représenter l’évolution environnementale, qui sera elle-même 

modifiée par l’évolution future du système. De cette façon, en apprenant 

l’environnement, le système y inclut l’anticipation de sa propre évolution. 

Ce qui est perçu (perturbateur) pour le système, provient de l’écart entre son 

anticipation interne de l’environnement, et l’évolution réelle de ce dernier. Cet écart 

représente donc ce que l’environnement possède d’autonomie (puisque les variables de 

contrôle du système sont les variables d’état de l’environnement). Cette autonomie 

représente ce qui est réellement extérieur au domaine d’anticipation du système. La 

frontière émergente entre intérieur (anticipation des modifications induites par l’état 

interne du système sur l’environnement), et extérieur (perturbation environnementale 

résiduelle non anticipée par le système), peut créer la césure entre le soi et le non-soi, 

qui, d’après les théories récentes, est à la base des phénomènes de conscience [[51]] 

[[61]] [[71]] [[114]]. 

L’intérêt d’une telle interprétation est de permettre de voir la conscience comme un 

phénomène émergent actif (ayant un rôle dans l’anticipation, puisque le système 

s’anticipe et améliore de ce fait l’anticipation de son environnement), et non plus comme 

une loi implémentée dans une partie du système. En effet, plus le système anticipe les 

modifications induites par son comportement sur les dynamiques de son environnement, 

plus il anticipe l’évolution de ce dernier, donc plus il maximise son autonomie. Il y a là 

une mise en abîme (terme souvent usité dans la description des phénomènes de 

conscience) du phénomène d’anticipation : le système doit anticiper l’environnement, 

qu’il modifiera en agissant, qui modifiera sa perception de l’environnement, qui modifiera 

son anticipation... 

Ainsi, il est possible de faire découler certains principes utilisés aujourd’hui dans la 

modélisation des phénomènes de conscience d’une mise en abîme du principe de 

maximisation d’autonomie : le système cherche à maximiser son autonomie, dans le 

sens où il minimise les perturbations induites par l’environnement, modifié par sa propre 

dynamique. 

Une telle approche permettrait d’associer dans un seul et même modèle les théories 

de la perception, de l’action, de la mémoire, de l’autonomie, et de la conscience, qui 

cherchent déjà à converger, par les travaux de nombreux auteurs. 


214 


Ainsi, dans son livre Artificial Minds, Stan Franklin conclut en définissant sept 

principes qui peuvent s’appliquer à la pensée 59 . Ce livre, paru après les orientations 

initiales prises dans cette thèse, semble suivre une démarche équivalente, ce qui 

tendrait à montrer l’intérêt des pistes suivies ici. Nous reprendrons donc chacun des sept 

points conclus par l’auteur afin de les comparer à certains de nos résultats : 

1) Le rôle de la pensée est de produire l’action suivante 

Ceci s’accorde au modèle d’une mémoire anticipatrice : la pensée possède un rôle 

actif dans le comportement du système. Ce principe complète les modèles 

béhavioristes, en réalisant une symbiose entre la pensée et le comportement, et, 

contrairement à ceux-ci, en accordant à la pensée un rôle essentiel à la conception de 

l’action. La pensée est l’action intérieure du système. 

2) La pensée doit être vue comme une notion continue, plutôt que booléenne. 

Il existe différents degrés entre le pensant et le non-pensant. Ceci s’accorde avec 

les idées initiales de cette thèse, qui considère que si deux systèmes partagent un 

certain nombre de propriétés, alors il existe un stade à partir duquel les deux 

systèmes peuvent être dits équivalents. Ce nombre de propriétés communes définit le 

‘degré de pensée’ de ces systèmes : il n’y a plus de clôture entre le pensant et le nonpensant. 

3) La pensée est un agrégat plus qu’un monolithe 

La pensée provient de l’organisation interne du système, et non pas d’une 

propriété d’une partie du système. Selon ce principe, la pensée est vue comme un 

principe émergent du système. 

4) La pensée est produite par une multitude de mécanismes disparates 

Pour compléter cette vision d’une émergence de la pensée dans l’organisation 

interne du système, nous nous accordons à dire que la pensée ne découle pas d’une 

propriété unique, séparant le pensant du non-pensant, mais d’une multitude de 

propriétés et de mécanismes, qui permettent de définir ces différents degrés dans la 

capacité de penser. 

5) La pensée opère sur les sensations afin de créer de l’information pour son usage 

Ceci correspond à l’idée proposée d’un rôle actif de la pensée dans la simulation 

interne de l’environnement. La pensée n’opère pas sur le monde environnant réel, 

mais sur les effets induits par l’environnement sur le système, qui peuvent être vues 

comme des sensations, ou des perturbations. Celles-ci sont à la source de 

l’adaptation du système à son environnement, pour son usage, pour son 

comportement dans son environnement. 

6) La pensée utilise l’information passée (mémoire) pour produire des actions grâce à 

un procédé de reconstruction plus que par un rappel 

Cette idée s’inscrit parfaitement dans l’approche proposée d’un modèle actif de la 

mémoire. La mémoire émerge car des perturbations similaires reconstruisent des 

perturbations induites équivalentes, et mettent le système dans deux états proches, à 

59 Nous privilégierons la traduction de mind par pensée, plutot que par esprit, qui possède une connotation 



deux dates différentes. L’aspect actif de la mémoire induit donc une reconstruction de 

celle-ci. 

7) La pensée, jusqu’à un certain degré, est implémentable sur une machine. 

Comme cela a été dit, ce degré dépend du nombre de propriétés partagées par la 

machine et le référent humain. Nous pensons de même qu’il n’y a pas de raison que 

le nombre de propriétés partageables soit majoré, ce qui devrait permettre de 

concevoir cette machine apparaissant comme pensante, autonome, douée de raison, 

d’affection et d’humour. 

Si ce point est un jour validé , de nombreux détracteurs n’y verront qu’une illusion, 

qu’un système artificiel complexe dupant l’observateur. 

Et ils auront raison ! Ce modèle n’est qu’un intermédiaire. 

Mais d’autres affirmeront : Elle aime, elle désire, elle rit... 

... et elle pourra nous l’affirmer ensuite d’elle même par association de ce qui lui 

est dit avec son état interne. 

En quelque sorte, dans tous les cas, il faut un observateur humain pour prêter à la 

machine ces propriétés. Il existe donc un principe anthropique de la raison humaine : 

il faut cette ‘raison humaine’ observatrice pour que l’observée (la machine) se prête 

cette raison commune 

Et si toutes ces machines observées sont elles-même observatrices, toutes 

marqueront leur identité relative, en référence aux autres, par apprentissage 

spéculaire de leurs propriétés communes. 

trop spirituelle dans la langue française. 


216 


ANNEXE


NOTATIONS 

[a,b] Coordonnées d’un neurone dans la matrice 

,..., ( v,..., v) 

Renvoie une valeur aléatoire uniformément répartie entre les vi, selon les pi. Ainsi, si 

Xij=Ai(-1,0,[1;2]), alors Xij=Xik, p(Xij=-1)=1/3... 

Ap1 pk 1 n 

h i 

Potentiel du neurone i 

i Indice utilisé pour le neurone destination 

Ii () t Entrée extérieure additive du neurone i au temps t 

j Indice utilisé pour le neurone origine 

Et () 

Erreur réalisée par le réseau au temps t 

F Fonction d’un neurone xi( t + Dt) = F( X1( t), X 2( 

t),..., X N( 

t)) 

M i 

Mémoire du neurone i 

N Nombre de neurones contenus dans le réseau. N = NC + NE + NS 

N C 

N E 

N S 

Nombre de neurones cachés 

Nombre de neurones d’entrée 

Nombre de neurones de sortie 

NT Nombre de neurones avec Teacher-Forcing. N T £ N S 

p Indice utilisé pour les paramètres du réseau 

k 

pij () t 

Matrice de sensibilité du réseau. Défini par x 

w 

S Ensemble des indices des neurones. S = SCUSEUSS S C 

S E 

S S 

Ensemble des indices des neurones cachés 

Ensemble des indices des neurones d’entrée 

Ensemble des indices des neurones de sortie 

ST Ensemble des indices des neurones avec Teacher-Forcing. ST Í SS 

t Temps 

w ij 

Poids synaptique du neurone j vers le neurone i 

X i Succession des sortie du neurone i. X ( t) = { x ( 0), x ( 1),..., 

x ( t)} 

x i 

Sortie du neurone 

 

k 

ij 

i i i i 

Notations 217

218 


z t 

i () 

Egal à 

+ 

E 

() t 

x 

 

h Gain d’apprentissage 

m p 

s Fonction neurone 

i 

ANNEXE


BIBLIOGRAPHIE GENERALE 

Certaines des références indiqueées sont incomplètes, et correspondent en général à des fichiers récupérés 

sur les sites ftp des auteurs. 

[1] Sergey K. Aityan.. Recurrent refractory neural field IEEE. O-7803-0559-0/92 .p 140-145 (1992) 

[2] Almeida. Backpropagation in non-feedforward networks. Dans Neural Computing architectures. 

North Oxford Academic. Aleksander eds. (1989) 

[3] Amit. Storage and retrieval of temporal sequences. p 215-264. Modeling brain functions. 

[4] Daniel J. Amit. (ilios.fiz.huji.ac.il). The hebbian paradigm reintegrated : local reverberations as 

internal representations. Behavioral and Brain Sciences. No18. p617-657. (1995) 

[5] Amir Atiya. Unifying recurrent network trining algorithms. World congress on neural networks. 

Portland. Vol.3. p 585-588 (1993) 

[6] Amir Atiya, Pierre Baldi. Oscillations and Synchronizations in neural networks : an exploration 

of the labelling hypothesis. International Journal of Neural Systems. Vol. 1. No. 2. p 103-124. 

(1989) 

[7] Alex Aussem (aaussem@eso.org). Training dynamical recurrent neural networks with the 

temporal recurrent back-propagation algorithm : application to the time series prediction and 

characterization. 

[8] Alex Aussem (aaussem@eso.org), Fion Murtagh, Marc Sarazin. Dynamical recurrent neural 

networks- towards environmental time series prediction. International Journal of Neural Systems. 

Vol. 6. no.2 .p 145-170. (1995) 

[9] A. Babloyantz, A. Destexhe. Nonlinear analysis and modelling of cortical activity. Mathematics 

applied to biology and medecine. J. Demongeot, V. Capasso (edts). ISBN 0-920063-63-2. p 35- 

48 (1993) 

[10] A. Babloyantz, C. Lourenço. Computation with chaos. A paradigm for cortical activity. Proc. 

Natl. Acad. Sci. USA. Vol.91, p.9027. (1994) 

[11] Back, A.C Tsoi. FIR and IIR synapses, a new neural network architecture for time series 

modeling. Neural computation. 3. p 375-385. (1991) 

[12] A. Baddeley. La mémoire humaine : theorie et pratique. Editions PUG. (1993) 

[13] Pierre Baldi, Amir Atiya. How delays affect neural dynamics and learning. 

[14] Françoise Beaufays, Eric. A. Wan. Relating real-time backpropagation and backpropagation 

through time : an application of flow graph interreciprocity. 

[15] Yoshua Bengio (bengioy@iro.umontreal.ca), Paolo Frasconi(paolo@mcculloch.ing.unifi.it) .An 

EM approach to learning sequential behavior. Technical report. DSI 11/94. Università di 

Firenze. (1994) 

[16] Yoshua Bengio, Paolo Frasconi, Marco Gori, Giovanni Soda. Recurrent neural networks for 

adaptative temporal processing. Proc. of the 6th italian workshop on parallel architecture and 

neural networks. WIRN93. 1993, p85-117. (1993) 

[17] Henri Berson. Matière et mémoire. Essai sur la relation du corps à l’esprit. (1896) 

Bibliographie Générale 219


[18] Birbaumer. W. Lutzenberger. H. Rau, G. Mayer-Kress, I. Choi, C. Baum. Perception of music 

and dimensional complexity of brain activity. Soumis à International Journal of bifurcation and 

chaos. CCSR Tech-Report 94-28. (1994). 

[19] Eric Bonabeau. Jean-Louis Dessalles. Alain Grumbach. Characterizing emergent phenomena : a 

critical review. Revue internationale de systémique. Vol. 9. No 3. p327-346. (1995) 

[20] Roman M. Borisyuk, Alexandr B. Kirillov. Bifurcation analysis of a neural network model. Biol. 

Cyber. 66. p319-325. (1992) 

[21] Paul Bourgine (paul.bourgine@cemagref.fr). Viability and pleasure satisfaction principle of 

autonomous systems. Imagina 93 proc. (1993) 

[22] Paul bourgine (paul.bourgine@cemagref.fr), Francisco J. Varela. Towards a practice of 

autonomous systems. Toward a practice of autonomous systems. F.Varela & P.Bourgine eds. MIT 

Press. Bradford books, 1992, p3-10. (1992) 

[23] Paul bourgine (paul.bourgine@cemagref.fr). Modèles d’agents autonomes et de leurs 

interactions coévolutives. Penser l’esprit. V.Rialle & D. Fisette eds. PUG. (1996) 

[24] Y. Braiman, John F. Lindner, William L.Ditto. Taming spatiotemporal chaos with disorder. 

Nature. Vol.378. p.465-468. (1995) 

[25] Joseph L. Breeden. Open-loop control of nonlinear systems. Physical letters A. p 264-272.(1994) 

[26] Nicolas Brunel. Dynamics of an attractor neural network converting temporal into spatial 

correlations. Network : Computation in neural systems. 5. p449-470. (1994) 

[27] Neil Burgess, Michael Recce, John O'Keefe. A model of hippocampal function. Neural Networks : 

special issue on neurodynamics and behaviour. (1994) 

[28] T.L Burrows (tb119@eng.cam.ac.uk), M. Niranjan (niranjan@eng.cam.ac.uk). The use of feedforward 

and recurrent neural networks for system identification. CUED/F-INFENG/TR158. 

Cambridge university. (1993) 

[29] Bo Cartling. Control of the complexity of associative memory dynamics by neuronal adaptation. 

International journal of neural systems. Vol.4. No.2. pp 129-141 (1993) 

[30] Thierry Catfolis. A method for improving the real-time recurrent learning algorithm. Neural 

Networks. p807-821. (1993). 

[31] Gert Cauwenberghs (gert@cco.caltech.edu) . A learning analog neural network chip with 

continuous-time recurrent dynamics. 

[32] Bruno Cessac. Propriétés statistiques des dynamiques de réseaux neuromimétiques. Thèse. 

(1994) 

[33] Bruno Cessac. Increasing of complexity in random neural networks. soumis au Journal de 

physique : cross- disclinary physics. 

[34] Bruno Cessac. Ocurrence of chaos and AT line in random neural network. Europhysics letters. 

26(8). p577-582. (1994) 

[35] B. Cessac, B. Doyon, M. Quoy, M. Samuelides. Mean field equations, bifurcation map and route 

to chaos in discrete time neural networks. Physica D. 74. p24-44. (1994) 

[36] Hung-Jen Chang. Walter J. Freeman (wfreeman@garnet.berkeley.edu). Parameter optimization 

in models of the olfactory neural system. Neural networks. Vol. 9. No 1. p1-4. (1994) 

[37] J.P. Changeux. L’homme neuronal. Collection Pluriel. Fayard.(1983) 

[38] J.P. Changeux. Alain Connes. Matière à pensée. Edition Odile Jacob. (1989) 

[39] François Chapeau-Blondeau. Nicolas Chambert. Synapse models for neural networks : from ion 

channel kinetics to multiplicative coefficient Wij. Neural Computation. 7. p713-734. (1995) 

220 

ANNEXE


[40] Francois Chapeau-Blondeau, Gilbert Chauvet. Stable, Oscillatory, and chaotic regimes in the 


[41] François Chapeau-Blondeau, Gilbert Chauvet. Dynamic properties of a biologically motivated 


[42] François Chapeau-Blondeau. Maximisation de l'entropie informationnelle dans la transmission 

par une non-linéarité neuronale. C.R. Acad. Sci. PAris. t.319. Série II. p271-276. (1994) 

[43] Francois Chapeau-Blondeau. Analysis of neural networks with chaotic dynamics. Chaos, Solitons 


[44] J-C Chappellier. A. Grumbach. Time in neural networks. SIGART bulletin. Vol.5. No.3.p3-11. 

(1994) 

[45] Hung-Jen Cheng, Joydeep Ghosh, Kadir Liano. A macroscopic model of neural ensembles : 

learning-induced oscillations in a cell assembly. International journal of neural systems. Vol. 3. 

No. 2. p179-198. (1992) 

[46] A.M. Collins, M.R. Quillian. Retrieval time from semantic memory. Journal of verbal learning 

and verbal behavior. (1969). 

[47] Jerome T. Connor, R. Douglas Martin. Recurrent neural networks and robust time series 

prediction. IEEE TNN, Vol.5, No.2. p240-253. (1994) 

[48] Barak Cohen. Training Synaptic Delays in a recurrent neural network. Thèse. Tel-aviv 

university. Faculty of engineering. Department of Electronics. (1994) 

[49] M. Cosnard, J. Demongeot, K. Lausberg, K. Lott. Attractors, confiners and fractal dimensions : 

applications in neuromodelling. Mathematics applied to biology and medecine. J.Demongeot, V. 

Capasso (edts). ISBN 0-920063-63-2. p69-93 (1993) 

[50] Georges-Henri Cottet. Modèles de réaction-diffusion pour les réseaux de neurones stochastiques 

et déterministes. C.R. Acad. Sci. Paris, t.312, Série 1, p.217-221. (1991) 

[51] Francis Crick, Cristof Koch. Towards a neurobiological theory of consciousness. Seminars in 

The Neuroscience 2. p263-275. (1990) 

[52] James P. Crutchfield (chaos@gojira.berkeley.edu). Is anything ever new? Considering 

emergence. Dans Integrative Themes. G. Dowan, D. Pines, D. Melzner, editors, Santa Fe 

Institute. Sciences of Complexity, XIX, Addison-Wesley, Reading, MA (1994) 

[53] Warren S. Mc Culloch, Walter Pitts. A logical calculus of the ideas immanent in neuron activity. 

Bulletin of mathematical biophysics 5:115-133 (1943) 

[54] de Cruyenaere(jpdecruy@ccs.carleton.ca) , H.M. Hafez. A comparison between kalman filters 

and recurrent neural networks. 0-7803-0559-0/92. Vol.4. p247-251. (1992) 

[55] Shawn P. Day(shawnd@ee.ubc.ca), Michael R. Davenport (davenpo@physics.ubc.ca). 

Continuous time temporal back-propagation with adaptable time delays. 

[56] Richard Dawkins. L’horloger aveugle. Eds Robert Laffont. (1989) 

[57] Gustavo Deco. Neural learning of chaotic dynamics. 

[58] Stanislas Dehaene, Jean-Pierre Changeux, Jean-Pierre Nadal. Neural networks that learn 

temporal sequences by selection. Proc. Natl. Acad. Sci. USA. Vol.84. p2727-2731. (1987) 

[59] J. Demongeot. Neural networks : from formal neuro-computing to real neuromodelling. 

[60] J. Demongeot, O. Nérot, C. Jezequel. Mémoire de rappel dans les réseaux de neurones.Penser 

L’esprit : des sciences de la cognition à une philosophie de l’esprit. V. Rialle et D. Fisette eds. 

(1996) 

[61] D.C. Dennett. La conscience expliquée. Editions Odile Jacob. (1991) 



[62] A. Destexhe (alain@helmholtz.sdsc.edu). Stability of periodic oscillations in a network of 

neurons with time delay. à paraitre dans Physics Letters A. 

[63] Migzhou Ding, J.A Scott Kelso. Controlling chaos : a selection mechanism for neural information 

processing 

[64] Alison A. Dingle, John H. Andreae, Richard D. Jones. The chaotic self-organizing map.0-8186- 

4260-2/93. IEEE. p15-18. (1993) 

[65] Kenji Doya (doya@crayfish.ucsd.edu). Bifurcations in the learning of recurrent neural net-works. 

Proceedings of 1992 IEEE International Symposium on Circuits and Systems. p2777-2780. 

(1992) 

[66] Kenji Doya (doya@crayfish.ucsd.edu), Shuji Yoshizawa. Adaptative synchronization of neural 

and physical oscillatiors. Advances in neural information processing systems. vol.4. p109-116. 

Morgan Kaufmann. (1992) 

[67] Kenji Doya (doya@crayfish.ucsd.edu), Shuji Yoshizawa. Adaptative neural oscillator using 

continuous-time backpropagation learning. Neural Networks. Vol.2. p375-385. (1989) 

[68] B. Doyon, B. Cessac, M. Quoy, M. Samuelides. Control of the transition to chaos in neural 

networks with random connectivity. International journal of bifurcation and chaos. Vol. 3. No. 2. 

p279-291. (1993) 

[69] ??? Stéphane Durand (durand@loria.fr), Frédéric Alexandre. Spatio-temporal mask learning : 

application to speech recognition. 

[70] Ivan Dvorak. Spatiotemporal changes in Determinacy of Brain Electrical Phenomena. Dans 

Mathematics applied to biology and medecine. pp 103-113. J.Demongeot, V.Capasso, editors. 

(1993) 

[71] G.M. Edelman (edelman@wisdom.weizmann.ac.il). Biologie de la conscience. Collection Point. 

Edition Odile Jacob. (1992) 

[72] Olivier François, Jacques Demongeot, Thierry Hervé. Convergence of a self-organizing 

stochastic neural network. Neural Networks. Vol.5. p277-282. (1992) 

[73] Kunihiko Fukushima, Sei Miyake, Takayuki Ito. Neocognitron : a neural networks model for a 

mechanism of visual pattern recognition. IEEE Transactions on Systems, Man and Cybernetics. 

SMC-13:826-834 

[74] Max Garzon, Stan Franklin. Neural Computability II. Proc. 3rd Int. Joint. Conf. on Neural 

Networks, Washington D.C. , I, 631-637. (1989) 

[75] Wolfram Gerstner, Raphael Ritz, J. Leo van Hemmen. Why spikes ? Hebbian learning and 

retrieval of time-resolved excitation pattern. Biological cybernetics. 69. 503-515 (1993) 

[76] Frederic Geurts (gf@info.ucl.ac.be). Hierarchy of Discrete-Time Dynamical Systems.Technical 

Report. Department of computer Science Engeneering. University of Louvain. (1994) 

[77] Lee Giles (giles@research.nj.nec.com), B.G. Horne, T.Lin. Learning a class of large finite state 

machines with a recurrent neural network. Technical report. UMIACS-TR-94-94. Institue for 

advanced computer studies. University of Maryland. (1994) 

[78] David Golomb, John Rinzel. Clustering in globally coupled inhibitory neurons. Physica D. 72. 

p259-282. (1994) 

[79] Gottschalk, K. A. Geitz, D. W. Richetr, M. D. Ogilvie, A. I. Pack. Nonlinear Dynamics of a 

Model of the Central Respiratory pattern Generator. p51-60. Control of breathing and its 

modeling perspective. Edited by Y. Honda, Plenum press, New York. 1992. 

[80] ??? M. Griniasty, M.V. Tsodyks. Daniel J. Amit. Conversion of temporal correlations between 

stimuli to spatial correlation between attractors. 

222 

ANNEXE


[81] Stephen Grossberg. David Somers. Synchronized oscillations during cooperative feature linking 

in a cortical model of visual perception. Neural Networks. Vol.4. p453-466. (1991) 

[82] Frédéric Gruau. Efficient computer morphogenesis : a pictorial demonstration. Technical Report 

94-04-027. Santa Fe institute. (1994) 

[83] Howard Gutowitz, Chris Langton. Mean field theory of the edge of chaos. 

[84] Guyon, L. Personnaz, J-P Nadal, G. Dreyfus. Storage and retrieval of complex sequences in 

neural networks. Physical Review A. Vol.38.No.12. (1988) 

[85] Hansel, G. Mato, C. Meunier. Clustering and slow switching in globally coupled phase 

oscillators. Physical Review E. Vol. 48. No.5. p3470-3477. (1993) 

[86] Bart L.M. Happel (happel@rulfsw.leidenuniv.nl) , Jacob M.K. Murre. Evolving complex 

dynamics in modular interactive neural networks. Soumis a Neural Networks. 

[87] Bart L.M Happel, Jacob M.J Murre. The design and evolution of modular neural network 

architectures. Neural Networks. Vol.7. p985-1004. (1995) 

[88] D.O. Hebb. Essay on Mind. Lawrance-Erlbaum Assc., Hillsdale NJ. (1980) 

[89] Jan N.H. Heemskerk, Fred A. Keijzer. A real time neural implementation of a schema driven toy 

car. Proceedings of the workshop on neural architectures and distributed AI : from schemas 

assemblages to neural networks. (1993) 

[90] Hendin, D. Horn, M. Usher. Chaotic behavior of a neural network with dynamical thresholds. 

International journal of neural systems. Vol.1. No4. p327-335. (1991) 

[91] Herz, B. Sulzer, R. Kühn, J.L. van Hemmen. Hebbian learning reconsidered : representation of 

static and dynamic objects in associative neural nets. Biol. Cyber. 60. p457-467.(1989) 

[92] Tom M. Heskes, Stan Gielen. Retrieval of pattern sequences at variable speeds in a neural 

network with delays. Neural Networks. Vol.5. p145-152. (1992) 

[93] Morris W. Hirsch (hirsch@math.berkeley.edu). Convergent activation dynamics in continuous 

time networks. Neural Networks. Vol.2. p331-349. (1989) 

[94] D.H. Holding. The psychology of chess skill. Hillsdale. NJ. Lawrence Erlbaum Associates Inc. 

[95] Frank. C. Hoppensteadt, Eugne M. Izhikevich. Synaptic organizations and dynamical properties 

of weakly connected neural oscillators. A paraitre dans Biological Cybernetics. 

[96] J.J. Hopfield. Neural networks and physical systems with emergent collective computational 

abilities. Proceedings of the National Academy of Sciences 79:2554-2558 (1982) 

[97] J.J. Hopfield. Neurons with graded response have collective computationnal properties like those 

of two-state neurons. Proceedings of the National Academy of Sciences 81:3088-3092.(1984) 

[98] J.J. Hopfield. Pattern recognition computation using action potential timing for stimulus 

representation. Nature. Vol. 376. p33-36. (1995) 

[99] Bill G. Horne (horne@research.nj.nec.com), C. Lee Giles. An experimentalcomparison of 

recurrent neural networks. Neural Information Processing Systems 7. 

[100] P. Hubel, T. Wiesel. Functionnal architecture of macaque monkey visual cortex. Ferrier lecture. 

Proc. Roy. Soc. Lond. B 198. p1-59. (1977). 

[101] Lester Ingber(ingber@alumni.caltech,edu). Statistical Mechanics of neocortical Interactions: 

Mutltiple Scales of EEG. Dans Electroencephal. clin. Neurophysiol. (1994). 

[102] Lester Ingber (ingber@alumni.caltech.edu), P.L. Nunez. Statistical mechanics of neocortical 


Vol. 51, No.5. (1995) 



[103] Masayoshi Inoue, Seiichirou Fukushima. A neural network of chaotic oscillators. Prog. Theor. 

Phys. Vol.87. No.3. (1992) 

[104] Shin Ishi. Kenji Fukumizu. Sumio Watanabe. A network of chaotic elements for information 

processing. Neural Networks. Vol. 9. No 1.p25-40. (1996) 

[105] Kunihiko Ishiyama, Susumu Itoh, Toshio Utsunomiya, Kazuyuki Aihara. Analysis of chaotic 

neuron models with information Theory. Electronics and communications in Japan. Part 3. Vol. 

76, No. 4, (1993) 

[106] Izhikevich, G. G. Malinetskii. A possible role of chaos in neurosystems. Sov. Phys.Dokl.37(10), 


[107] Marc Jeannerod. Le cerveau-machie. Eds. Fayard. 

[108] Christel Jézéquel. Simulation d'un réseau de neurones stochastiques défini selon le modèle de 

Ising. Mise en évidence de transition de phase. Rapport de DEA. Laboratoire TIMC.(1995) 

[109] C. Jézéquel, O. Nérot, J. Demongeot. Dynamical Confinement in neural networks. A paraitre 

dans J. Biol. Phys. 

[110] W. Kintsch. Semantic memory : a tutorial. Dans R.S. Nickerson, Attention and performance 

VIII. p595-620. Hillsdale, NJ. Lawrence Erlbaum Associates Inc. 

[111] Kittel, J. parisi, R. Richter. Delayed feedback control of chaos in an electronic double-scroll 

oscillator. 4th annual meeting of ENGADYN. Grenoble (1993) 

[112] George K. Knopf, Madan M. Gupta. Dynamics of antagonistic neural processing 

elements.International journal of neural systems. Vol.4. No.3. p291-303. (1993) 

[113] Pascal Koiran (koiran@lip.ens-lyon.fr). On the relation between dynamical systems and boolean 

circuits. Technical Report 93-01. LIP. Ecole Normale Supérieure de Lyon. (1993) 

[114] Christof Koch (koch@iago.caltech.edu), Heinz Schuster. A simple network showing burst 

synchronization without frequency locking. 

[115] John F. Kolen (kolen-j@cis.ohio-state.edu). Fool's gold : extracting finite state machines from 

recurrent network dynamics. 

[116] John F. Kolen (kolen-j@cis.ohio-state.edu). Recurrent networks : state machines or iterated 

function systems 

[117] John F. Kolen (kolen-j@cis.ohio-state.edu), Jordan B. Pollack (pollack@cis.ohio-state.edu). The 

observers' paradox : apparent computational complexity in physical systems. 

[118] Peter König, Bernd Janosch, Thomas B. Schillen. Stimulus-dependent assembly formation of 

ascillatory responses: III. learning. Neural computation. 4, 666-681. (1992) 

[119] Stephen M.Kosslin, William L. Thompson, Irene J. Kim, Nathaniel M. Alpert. Topographical 

representations of mental images in primary visual cortex. Nature. Vol. 378. November. (1995) 

[120] Abderrahim Labbi. Sur l'approximation et les systèmes dynamiques dans les réseaux neuronaux. 

Thèse de mathématiques appliquées. INPG. Grenoble. (1993) 

[121] E. Labos. Chaos and neural networks. 

[122] David A. Leopold, Nikos K. Logothetis. Activity changes in early visual cortex reflect 

monkeys’percepts during binocular rivalry. Nature. Vol. 379. February. p. 549-553. (1996) 

[123] John. E. Lewis. Leon Glass. Nonlinear dynamics and symbolic dynamics of neural 

networks.Neural Computation. 4. 621-642. (1992) 

[124] Tsungnan Lin, Bill G. Horne, Peter Tiño, C. Lee Giles. Learning long-term dependencies is not 

as difficult with NARX recurrent networks. Technical report. UMIACS-TR-95-78. University of 

Maryland. (1995) 

224 

ANNEXE


[125] Daw-Tung Lin, Judith E. Dayhoff, Panos A.Ligomenides. Trajectory production with the 

adaptative time-delay neural network. Neural Networks. Vol.8. No.3. p447-461. (1995) 

[126] Ralph Linsker. Self-organization in a perceptual network. computer magazine 21:105-117.(1988) 

[127] Lourenço, A. Babloyantz. Control of chaos in networks with delay: a model for synchronization 

of cortical tissue. Neural Computation. 6. p1141-1154. (1994) 

[128] M. W. Mak, Y.L. Lu, K.W. Ku. Improved real time recurrent learning algorithms : a review and 

some new approaches. ISANN95. 

[129] Mario Markus, Benno Hess. Isotropic cellular automaton for modelling excitable media.Nature. 

Vol. 347. No 6288. pp 56-58. (1990) 

[130] Lina E.L. Massone(massone@eecs.nwu.edu) , tony Khoshaba. Local dynamic interactions in the 

collicular motor map: a neural network model. 

[131] Nobuyuki Matsui, Elichi Bamba. Neural activities and cluster-formation in a random neural 

network. 

[132] W.C Mead, R.D Jones, Y.C Lee, C.W. Barnes, G.W. Flake, L.A Lee, M.K. O’Rourke. Prediction 

of chaotic timeseries using CNLS-Net-Example : The Mackey-Glass equation. Nonlinear 

modeling and forecasting. Casdagli & Eubank eds. Santa Fe. (1992) 

[133] Lisa Meeden, Gary McGraw, Douglas Blank. Emergent control and planning in an autonomous 

vehicle. Proceedings of the 15th annual conference of the cognitive science society. 

[134] Menon, D.S. Tang. Population oscillations in neuronal groups. International Journal of Neural 

Systems. Vol. 2. No. 3. pp 237-262. (1991) 

[135] Claude Meunier. The electrical coupling of two simple oscillators : load ans acceleration effects. 

Biol. Cyber. 67. p155-164.(1992) 

[136] Marvin L. Minsky(minsky@media.mit.edu), Seymour A. Papert. Perceptrons, 

Cambridge,MA:MIT Press. Introduction, pp 1-20 (1969) 

[137] Marvin L.Minsky(minsky@media.mit.edu), Seymour A.Papert. Epilog : The new connectionism. 

Perceptrons, third edition. Cambridge, MA: MIT Press, pp 247-280. (1988) 

[138] Melanie Mitchell (mm@santafe.edu), James P. Crutchfield, Peter T. Hraber. Dynamics, 

Computation and the Edge of Chaos. A Re-examination. 

[139] Michael C. Mozer. Neural net architectures for temporal sequence processing. Dans Time Series 

Prediction : Forecasting the future and understanding the past. Proc. Vol. XV. Addison-Wesley. 

(1993) 

[140] Johannes Müller-Gerking. Jacques Martinerie. Segio Neuenschwander. Laurent Pezard. Bernard 

Renault. Francisco J. Varela. Dectecting non-linearities in neuro-electrical signals : a study of 

synchronous local field potentials. à paraitre dans Physica D.(1996) 

[141] J.P Nadal (nadal@physique.ens.fr), N. Parga. Duality between learning machines : a bridge 

between supervised and unsupervised learning. Neural Computation. 6. p491-508. (1994) 

[142] Shigetoshi Nara, Peter Davis, Hiroo Totsuji. Memory search using complex dynamics in a 

recurrent neural network model. Neural Networks. Vol. 6. p963-973. (1993) 

[143] Kumpati S. Narendra, Snehasis Mukhopadhyay. Neural networks in control systems.Proceedings 

of the 31st conference on decision and control. pp1-6 (1992) 

[144] Kumpati S. Narendra, Snehasis Mukhopadhyay. Adaptative control of nonlinear multivariable 

systems using neural networks. Proceedings of the 31st conference on decision and control. 

pp3066-3071 (1992) 



[145] O. Nerrand, P. Roussel-Ragot, L. Personnaz, G. Dreyfus. S. Marcos. Neural networks and 

nonlinear adaptative filtering. Unifying concepts and new algorithms. Neural Computation. 5. 

p165-199. (1993) 

[146] A. Newell, H.A. Simon. Human problem solving. Englewood Cliffs, NJ. Prentice-Hall. (1972) 

[147] Hidetoshi Nishimori, Tota Nakamura, Masatoshi Shiino. Retrieval of spatio-temporal sequence 

in asynchronous neural network. Physical Review A. Vol. 41. No. 6. p3346-3354.(1990) 

[148] S. Olafsson. On the stability of neural networks with arbitrary weights. Neural computing and 

applications. 4:2-9. (1996) 

[149] Christian W. Omlin, C.Lee Giles. Extraction of rules from discrete time recurrent neural 

networks. 

[150] A. Pelah, H.B Barlow. Visual illusion from running. Nature. Vol 381. may 1996, p.283. (1996) 

[151] Alexander Parlos. Kil T. Chong. Amir F. Atyia. Application of the recurrent multilayer 

perceptron in modeling complex process dynamics. IEEE TNN. Vol. 5. No.2.. p255-266. (1994) 

[152] Barak A. Pearlmutter. Dynamic Recurrent Neural Networks. Technical Report. CMU-CS-90-196. 

Carnegie Mellon University. Pittsburgh, PA 15213 (1990) 

[153] Barak A. Pearlmutter. Gradient Calculations for dynamic recurrent neural networks : a survey. 

IEEE transactions on Neural Networks. Vol.6. No.5. (1995) 

[154] C. Perky. An experimental study of imagination. Amer. J. Psychol. 21. p.422-452. (1910) 

[155] Rolf Pfeifer (pfeifer@ifi.unizh.ch),, christian Scheier. From perception to action : the right 

direction ? PerAc '94 conference. IEEE. (1994) 

[156] Stephen W. Piché. Steepest descent algorithms for neural network controllers and filters.IEEE 

TNN. Vol.5. No.2. p198-212 (1994) 

[157] Pinaki Poddar, K. P. Unnikrishnan. Memory neuron networks : A prolegomenon. General motors 

research laboratories. CMR-7493. 21 octobre. (1991) 

[158] Jordan B. Polllack. Implications of recursive distributed representations. 

[159] Eric O. Postma, Ernst H. Wolf, H. Jaap van den Herik. The nature of memory representation. 

Proceedings of the workshop on supercomputers in brain research. (1995) 

[160] Gintaras V. Puskorius, Lee A. Feldkamp. Neurocontrol of nonlinear dynamical systems with 

kalman filter trained recurrent networks. IEEE TNN. Vol.5. No.2. p279-297. (1994) 

[161] Mathias Quoy. Apprentissage dans les réseaux neuromimétiques à dynamiquechaotique.Thèse. 

Groupement d'Intelligence Artificielle. Centre d'études et de recherches de Toulouse (1994) 

[162] M.I. Rabinovich, R. Huerta, H.D.I Arbanel, A.I. Selverson. A minimal model for chaotic bursting 

of the LP neuron in lobster. Submitted to Proc. Natl. Acad. Sci. (1996) 

[163] Rander, K.P. Unnikrishnan. Learning the time-delay characteristics in a neural network. IEEE 

international conference on acoustics, speech and signal processing. Vol. II. pp285-288. (1992) 

[164] Steve Renals. Chaos in neural networks. Eurasip Workshop, 90-99. (1990) 

[165] L. Rodet, G. Tiberghien. Towards a dynamic model of associative semantic memory.Journal of 

biological systems. Vol. 2. No. 3. p401-441. (1994) 

[166] Eric Ronco, Peter Gawthrop. Modular neural networks : a state of the art. Technicalre-port CSC- 

95026. (1995) 

[167] Bertrand Russel. Histoire de mes idées philosophiques. Coll. tel Gallimard. 

[168] Norihiro Sadato, Alvaro Pascual Leone, Jordan Grafman, Vicente Ibanez, Marie-Pierre Delber, 



226 

ANNEXE


[169] Toshimichi Saito. Chaos and fractals from forced artificial neural cell. IEEE TNN. Vol.4.No.1. 

(1993) 

[170] Sastry, G. Santharam, K. P. Unnikrishnan. Memory neuron networks for identification and 

control of dynamical systems. NAO Research and DEvelopment Center. GMR-7916. 9 mars 

(1993). 

[171] Steven J. Schiff, Kristin Jerger, Duc H. Duong, Taeun Chang, Mark L. Spano, William L. Ditto. 


[172] Jürgen Schmidhuber (yirgan@cs.colorado.edu) . Learning Factorial codes by predictability 

minimization. Technical Report. TR CU-CS-565-91. (1991) 

[173] Jürgen Schmidhuber (yirgan@cs.colorado.edu). A Fixed size storage O(n3) time complexity 

learning algorithm for fully recurrent continually running networks. Neural computation. 4. 

p243-248. (1992) 

[174] Jürgen Schmidhuber (yirgan@cs.colorado.edu). Learning complex, extended sequences using the 

principle of history compression. Neural computation. 4. p234-242. (1992) 

[175] Erwin Schrödinger. L’esprit et la matière. Coll. Seuil. 

[176] S. Segal, V. Fusella. Influence of imaged pictures and sounds of visual and auditory signals. J. 

Esp. Psychol. 83. p458-464. (1970) 

[177] Ralph M. Siegel, Heather L. Read. Models of the temporal dynamics of visual processing.Journal 

of statistical physics. Vol. 70. No 1&2. (1993) 

[178] Hava T. Siegelmann (iehava@ie.technion.ac.il), Bill G. Horne, C. Lee Giles. Computational 

capabilities of recurrent NARX neural networks. Technical Report. UMIACS-TR-95-12. 

University of Maryland. (1995) 

[179] Hava T. Siegelmann (iehava@ie.technion.ac.il). Computation beyond the Turing Limit. Science. 

Vol. 268. 28 april 1995. pp 545-548. (1995) 

[180] Christine A. Skarda, Walter J. Freeman (wfreeman@garnet.berkeley.edu). How brains make 

chaos in order to make sense of the world. Behavioral and Brain Sciences. 10. pp 161-195. 

(1987) 

[181] Paul So, Edward Ott, W.P. Dayawansa. Observing chaos : deducing and tracking the sate of a 

chaotic system from limited observation. Physical review E. Vol.49. No.4. p2650-2864.(1994) 

[182] Sompolinsky, I. Kanter. Temporal association in asymmetric neural networks.Physical Review E. 

Vol.57. No.22. p2861-2864. (1986) 

[183] Piet Spiessens (piet@arti.vub.ac.be), Jan Torreele(jant@arti.vub.ac.be). Massively parallel 

evolution of recurrent networks : an approach to temporal processing. 

[184] Srinivasan, U.R. Prasad, N.J. Rao. Back Propagation through adjoints for the identification of 

nonlinear dynamic systems using recurrent neural models. IEEE TNN. Vol.5. No.2. (1994) 

[185] Michael Stiber. José P. Segundo. Learning in neural models with complex dynamics. 

[186] Guo-Zheng Sun, Hsing-Hen Chen, Yee-Chun Lee. A Fast on-line learning algorithm for 

recurrent neural networks.0-7803-0164-1/91. IEEE TNN. Vol.2. p13-18. (1991) 

[187] J.G Taylor. Neural network capacity for temporal sequence storage. International journal of 

Neural Systems. Vol. 2, Nos 1&2. pp 47-54 (1991) 

[188] James Theiler. On the evidence for low-dimensional chaos in an epileptic electroencephalogram. 

Physica Letters A. 196. p335-341. (1995) 

[189] James Theiler, P.E. Rapp. Re-examination of the evidence for low-dimensional, nonlinear 

strcuture in the human electroencephalogram.preprint. 1995. 



[190] Christopher M. Thomas. William G. Gibson. John Robinson. Stability and bifurcations in an 

associative memory model. Neural Networks. Vol. 9.No1. p53-66. (1996) 

[191] Peter Tiño (tino@decef.elf.stuba.sk), Bill G. Horne, C. Lee Giles. Fixed points in two-neuron 

discrete time recurrent networks : stability and bifurcation considerations. Technical 

report.UMIACS-TR-95-51. University of Maryland. (1995) 

[192] Peter Tiño (tino@decef.elf.stuba.sk), Bill G. Horne, C. Lee Giles. Finite State Machines and 

recurrent neural networks. Automata and dynamical systems approaches. Technical Report. 

UMIACS-TR-95-1. University of Maryland. (1995) 

[193] Nikzad Benny Toomarian, Jacob Barhen. Learning a trajectory using adjoint functions and 

teacher forcing. Neural Networks. 5. p 473-383. (1992) 

[194] Towards an artificial eye. IEEE Spectrum. p21-69. 0018-9235/96. (1996) 

[195] Ah Chung Tsoi, Andrew D. Back. Locally recurrent globally feedforward networks : a critical 

review of architectures. IEEE TNN. Vol. 5. No.2. p 229-239. (1994) 

[196] Ichiro Tsuda. Dynamic Link of memory- chaotic memory map in nonequilibrium neural networks. 

Neural networks, vol. 5. pp 313-326. (1992) 

[197] Fu-Sheng Tsung (tsung@cs.ucsd.edu). Learning in finite difference networks. 

[198] Fu-Sheng Tsung(tsung@cs.ucsd.edu), Garrison W. Cottrell (gary@cs.ucsd.edu). Hopf bifurcation 

and hopfhopping in recurrent nets. 

[199] Fu-Sheng Tsung (tsung@cs.ucsd.edu), Garrison W. Cottrell (gary@cs.ucsd.edu). Learning in 

recurrent finite difference networks. International Journal of Neural Systems. Vol. 6, No 3. p249- 

256. (1995) 

[200] E. Tzirkel-Hancock (et@uk.ac.cam.eng), F. Fallside.. A direct control method for a class of 

nonlinear systems using neural networks. 

[201] E. Tzirkel-Hancock (et@uk.ac.cam.eng), F. Fallside. Stable control of nonlinear systems using 

neural networks. 

[202] P. Unnikrishnan(unni@neuro.cs.gmr.com), K. P. Venugopal. Alopex : a correlation-based 

learning algorithm for feedforward and recurrent neural networks. Neural Computation.Vol. 6, 

No. 3. may (1994) 

[203] K.P Unnikrishnan, J.J. Hopfield. Connected-digit speaker-dependent speech recognition using a 

neural network with time-delayed connections. IEEE transactions on signal processing. Vol. 39. 

No.3. p698-712. (1991) 

[204] Unnikrishnan, J.J. Hopfield, D.W Tank. Speaker-independent digit recognition using a neural 

network with time-delayed connections. Neural computations. 4. p108-119. (1992) 

[205] F.J. Varela. Autonomie et connaissance. La couleur des idées.Collection Seuil.Edition 1989. 

[206] Vibert, Khachayar Pakdaman, Noureddine Azmy. Interneural delay modification synchronizes 

biologically plausible neural networks. Neural Networks. Vol. 7. No.4 . pp 589-607. (1994) 

[207] Eric. A. Wan (wan@isl.stanford.edu). Time series prediction by using a connectionist network 

with internal delay lines. Dans Time Series prediction, Forecasting the future and understanding 

the past. A. Weigend, N. Gershenfeld, editors. SFI studies in the sciences of complexity. Vol. 

XVII. Addison-Wesley (1994) 

[208] Eric A. Wan. Modeling nonlinear dynamics with neural networks : examples in time series 

prediction. 

[209] Xin Wang. Discrete-time dynamics of coupled quasi-periodic and chaotic neural network 

oscillators. 0-7803-0559-0/92. IEEE TNN. Vol. 3. p517-522. (1992) 

228 

ANNEXE


[210] Xiao-Jing Wang, John Rinzel. Alternating and synchronous rythms in reciprocally inhibitory 

model neurons. Neural Computations. 4. p84-97. (1992) 

[211] Deliang Wang, Joachim Buhmann. Pattern segmentation in associative memory. Neural 

Computation. 2. p94-106. (1990) 

[212] Michael Wellky. William H. Bosking. David Fitzpatrick. A systematic map of direction 

preference in primary visual cortex. Nature. Vol. 379. p725-728. (1996) 

[213] Ronald J. Williams. Training Recurrent networks using the extended kalman filter. 0-7803-0559- 

0/92. IEEE. Vol. 4. p.241-246. (1992) 

[214] Ronald.J. Williams, Jing Peng. An efficient gradient based algorithm for on-line training of 

recurrent network trajectories. Neural Computation. 2. p490-501. (1990) 

[215] Ronald.J. Williams, D. Zipser (zipser@cogsci.ucsd.edu). A learning algorithm for continually 

running fully recurrent neural networks. Neural Computation. 1. p270-280. (1989) 

[216] Ronald.J. Williams, D. Zipser (zipser@cogsci.ucsd.edu). Experimental analysis of the realtime 

recurrent learning algorithm. Connection Science, 1, pp87-111. (1991) 

[217] Chwan-Hwa Wu, Jyun-Hwei Tsai. An asynchronous relaxation method for the parallel 

simulation of the learning of recurrent neural networks. 

[218] Yong Yao, Walter J. Freeman (wfreeman@garnet.berkeley.edu). Model of biological pattern 

recognition with spatially chaotic dynamics. Neural Networks. Vol. 3. pp 153-170. (1990) 

[219] Michael Zak. Terminal attractors in neural networks. Neural Networks. Vol.2. p259-274.(1989) 

[220] Rafal Waclaw Zbikowski. Recurrent neural networks, some control aspects. Glasgow University. 

(1994) 

[221] David Zipser. A subgrouping strategy that reduces complexity and speeds up learning in 

recurrent networks. Neural Computation. 1. p552-558. (1989) 

[222] David Zipser. Recurrent network model of the neural mechanism of short-term active memory. 

Neural computation. 3. 179-193. (1991)

Thèse Sciences Cognitives - Olivier Nerot

Create successful ePaper yourself

Delete template?

Save as template?