23.06.2013 Views

Thèse Sciences Cognitives - Olivier Nerot

Thèse Sciences Cognitives - Olivier Nerot

Thèse Sciences Cognitives - Olivier Nerot

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

THESE<br />

présentée en vue d’obtenir le titre de<br />

DOCTEUR<br />

de<br />

L’INSTITUT NATIONAL POLYTECHNIQUE DE<br />

GRENOBLE<br />

SPECIALITE : SCIENCES COGNITIVES<br />

par<br />

<strong>Olivier</strong> Nérot<br />

Mémorisation par forçage neuronal des dynamiques chaotiques<br />

dans les modèles connexionnistes récurrents.<br />

Soutenue le : 10 décembre 1996<br />

Rapporteurs :<br />

M. Paul Bourgine CREA Polytechnique<br />

M. Manuel Samuelides ENSAE<br />

Examinateurs :<br />

M. Bernard Amy LEIBNIZ<br />

M. Michel Cosnard LIP ENS<br />

M. Jacques Demongeot TIMC IMAG (directeur)<br />

M. François Robert LMC IMAG<br />

<strong>Thèse</strong> préparée au sein du Laboratoire TIMC-IMAG.


Mémorisation par forçage neuronal des dynamiques chaotiques dans les modèles connexionnistes<br />

récurrents<br />

Le point que je suis, dédie cette thèse à la pyramide passée de mes<br />

ascendants oubliés, qui perdurent à travers mes actions, à la<br />

pyramide future de mes descendants, que mes actions modifient, et<br />

au premier d’entre eux, Alexandre, mon petit garçon, qui apprend<br />

l’autonomie.<br />

DEDICACE III


Mémorisation par forçage neuronal des dynamiques chaotiques dans les modèles connexionnistes<br />

récurrents<br />

REMERCIEMENTS<br />

La page de remerciement est de rigueur dans une thèse, et cet impératif peut faire perdre à ce<br />

principe toute la sincérité que je voudrais y mettre. Pourtant, je souhaite que transparaisse dans cette<br />

page tous les élans que mon affection m’inspire. Car, sans ces personnes qui me sont si chères, cette<br />

thèse n’aurait pas pu voir le jour. Tous ont pris part à ces travaux, et mes remerciements les plus<br />

profonds vont :<br />

A Jacques Demongeot, qui a su m’accueillir avec une confiance démesurée, fidèle à ses grandes<br />

qualités humaines, qui a su encourager mon enthousiasme parfois enfantin, qui a su tempérer des<br />

élans, et me ramener à la science avec toute la philosophie dont il fait preuve. A toutes ces<br />

discussions faites dans l’urgence, sources d’inspiration permanente, de remise en question<br />

constructive qui m’ont initié à sa culture pluridisciplinaire au sens le plus noble. J’ai vu le monde<br />

s’organiser à travers son regard. Qu’il sache que mon respect, mon admiration, et mon affection lui<br />

sont acquises. En espérant concrétiser un jour les rêves qu’il m’a aidé à formaliser, je lui dédie mes<br />

résultats futurs, car sans aucun doute, il a, à travers cette thèse, su me mettre dans des conditions<br />

initiales qui, selon des principes déterministes, accompagneront, modèleront, et influenceront toutes<br />

mes recherches. Puisse la sensibilité aux conditions initiales ne pas me faire trop diverger de ses<br />

attentes, maintenant que j’entre dans une phase de régime libre.<br />

A Maribel Chenin, qui a fourni le support technique et la sécurité à mes manipulations<br />

informatiques, qui a su ressusciter certains de mes travaux, et chez qui j’ai pu découvrir une<br />

personne de grand coeur, passionnée, et compétente dans les domaines de cette thèse. J’espère<br />

pouvoir poursuivre les dialogues improvisés que nous avons entamés.<br />

A toute l’équipe des ‘thésards’ du TIMC. A Sandrine, qui fut si souvent rassurante devant mes<br />

échecs, indulgente devant mon enthousiasme, et sans cesse présente à mes requêtes. A Delphine,<br />

Manhu, <strong>Olivier</strong>, Vincent qui ont accompagné bien des moments de détente, et supporté mes écarts de<br />

tempérament.<br />

A mes amis, Nicolas, qui possède l’autonomie instinctive et innée, et qui a su m’y intégrer, et Yves,<br />

avec qui nous avons découvert le Monde, nous en protégeant parfois mutuellement. A mes acolytes<br />

pour toujours de l’optimisme dynamique.<br />

A ceux que j’affectionne et que j’oublie le temps de cette page.<br />

A mes parents qui ont su me laisser libre de mes choix, et m’offrir un environnement aussi peu<br />

perturbateur que la vie le rend possible, et qui m’ont ainsi permis de croire que l’on pouvait vivre<br />

tout en étant idéaliste.<br />

A Sophie, copine-épouse-comparse, qui a su m’offrir assez d’amour pour m’encourager, assez de<br />

réalisme pour me corriger, assez de questions pour me justifier, assez d’efficacité pour me<br />

dynamiser, et parfois même assez de patience pour me sécuriser. La perfection est multiple et<br />

possède des composantes contradictoires, et en ce sens là elle fut parfaite, et je l’en remercie très<br />

affectueusement.<br />

A Alexandre, notre petit garçon, qui a su me rappeler que l’amour est une composante essentielle, à<br />

la source de bien des bonheurs non formalisables, et qui a su si souvent me rappeler à l’ordre : « Na<br />

fini la thèse, papa ? »<br />

Eh bien oui ! Elle est finie. Et grâce à vous tous.<br />

V


VI<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

TABLE DES MATIERES<br />

PREMIERE PARTIE : ANALYSE<br />

1. PRESENTATION GENERALE 15<br />

1.1 INTRODUCTION 15<br />

1.2 PRESENTATION DE LA THESE 18<br />

1.2.1 ANALYSE 19<br />

1.2.2 DEVELOPPEMENT 20<br />

1.2.3 RESULTATS 20<br />

1.3 BIBLIOGRAPHIE 20<br />

2. ENCODAGE DYNAMIQUE, MEMOIRE ET CHAOS 23<br />

2.1 INTRODUCTION 23<br />

2.2 VERS UN MODELE DYNAMIQUE DE LA MEMOIRE 24<br />

2.2.1 EVOLUTION DE L’ENCODAGE D’INFORMATION 24<br />

1. Première phase ........................................................................................................................... 24<br />

2. Deuxième phase ......................................................................................................................... 26<br />

3. Troisième phase ......................................................................................................................... 28<br />

2.2.2 L’HYPOTHESE DU TOUT DYNAMIQUE : APPROCHE D’UN SYSTEME GENERAL 28<br />

2.2.3 INTERETS DE L’APPROCHE CONNEXIONNISTE 31<br />

1. Nature émergente des propriétés du système ............................................................................... 31<br />

2. Support d’information distribuée ................................................................................................ 32<br />

a. Unification mémoires/organes de traitement ........................................................................... 32<br />

b. Récupération par le contenu ................................................................................................... 32<br />

c. Robustesse du système ............................................................................................................ 33<br />

3. Capacités d’adaptation du système.............................................................................................. 33<br />

2.2.4 INTERETS DE L’ENCODAGE PAR LES DYNAMIQUES 34<br />

1. Moins d’étapes entre l’objet et son encodage .............................................................................. 34<br />

2. Plus grand nombre de systèmes potentiels................................................................................... 34<br />

3. Meilleur encodage sans couches cachées..................................................................................... 34<br />

4. Prise en compte du passé ............................................................................................................ 36<br />

5. De nouveaux supports pour l’information ................................................................................... 36<br />

2.2.5 DES DYNAMIQUES AU CHAOS 38<br />

1. Utilisation d’attracteurs .............................................................................................................. 40<br />

2. Sensibilité aux conditions initiales .............................................................................................. 41<br />

3. Robustesse au bruit et synchronisation de la dynamique globale ................................................. 43<br />

4. Spectre à support dense .............................................................................................................. 44<br />

5. Synchronisation par perturbation ................................................................................................ 44<br />

6. Atténuation de la fonction d’autocorrélation ............................................................................... 47<br />

7. Nature émergente des propriétés du chaos .................................................................................. 47<br />

2.3 MEMOIRES A DYNAMIQUES CHAOTIQUES 47<br />

2.3.1 PARAMETRES DES DYNAMIQUES CHAOTIQUES 49<br />

1. Dimension Fractale .................................................................................................................... 49<br />

TABLE DES MATIERES


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

2. Exposants de Lyapunov.............................................................................................................. 51<br />

2.3.2 TYPE D’ENCODAGE PAR LES DYNAMIQUES CHAOTIQUES 52<br />

1. Etat transitoire de non-reconnaissance ....................................................................................... 52<br />

2. Filtre de nouveauté..................................................................................................................... 53<br />

3. Source de ‘dépersévération’ pour le système ............................................................................... 53<br />

4. Catégories isochrones. ............................................................................................................... 54<br />

5. Mémorisation par l’attracteur..................................................................................................... 55<br />

6. Mémorisation par les mesures de l’attracteur ............................................................................. 57<br />

7. Encodage Formel ....................................................................................................................... 57<br />

2.3.3 SYNTHESE D’UN MODELE PRELIMINAIRE 58<br />

2.4 CONCLUSION 61<br />

2.5 BIBLIOGRAPHIE 62<br />

3. MODELES CONNEXIONNISTES DYNAMIQUES 65<br />

3.1 INTRODUCTION 65<br />

3.2 MODELES A COMPORTEMENT DYNAMIQUE 65<br />

3.2.1 MODELE DE NEURONE SANS DYNAMIQUE PROPRE 65<br />

1. Modèle non linéaire à seuil ........................................................................................................ 65<br />

2. Modèles à délais ........................................................................................................................ 66<br />

3. Modèle à mémoire ..................................................................................................................... 66<br />

4. Modèles réfractaires ................................................................................................................... 67<br />

3.2.2 MODELE DE NEURONE A DYNAMIQUE PROPRE 68<br />

1. Modèle à rétroaction .................................................................................................................. 68<br />

2. Modèle à dynamique chaotique propre ....................................................................................... 69<br />

3.2.3 ARCHITECTURE DU RESEAU 69<br />

1. Architectures Feed-Forward ....................................................................................................... 70<br />

2. Architectures récurrentes ........................................................................................................... 71<br />

3. Architectures modulaires ........................................................................................................... 71<br />

3.3 EXEMPLES DE MODELES CHAOTIQUES 72<br />

3.3.1 WAN ET AUSSEM 72<br />

3.3.2 RENALS 73<br />

3.3.3 CHAPEAU BLONDEAU 73<br />

3.3.4 DOYON, CESSAC, QUOY 74<br />

3.3.5 BABLOYANTZ DESTEXTHE 74<br />

3.3.6 FREEMAN 75<br />

3.3.7 KOHONEN LOGISTIQUE 75<br />

3.4 CONCLUSION 76<br />

3.5 BIBLIOGRAPHIE 76<br />

4. APPRENTISSAGE DANS LES RESEAUX RECURRENTS 79<br />

4.1 INTRODUCTION : REPRODUIRE UN ETAT PASSE 79<br />

4.2 APPRENTISSAGE HEBBIEN 80<br />

4.3 MAXIMISATION DE L'ENTROPIE DE SORTIE 80<br />

4.4 DESCENTE DU GRADIENT DE L’ERREUR 81<br />

4.4.1 RECURRENT BACK-PROPAGATION 83<br />

4.4.2 BACK-PROPAGATION THROUGH TIME 85<br />

4.4.3 REAL TIME RECURRENT LEARNING 86<br />

1. Dans le cas discret ..................................................................................................................... 86<br />

TABLE DES MATIERES VII


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

2. Dans le cas continu .................................................................................................................... 87<br />

3. Dans les réseaux à différence finie .............................................................................................. 88<br />

4. Avec Teacher forcing ................................................................................................................. 88<br />

5. Avec Teacher forcing total ......................................................................................................... 88<br />

4.5 LIMITES 89<br />

4.5.1 ON-LINE ET LOCAL 89<br />

4.5.2 FAUX GRADIENTS 90<br />

4.5.3 INSTABILITE 90<br />

4.6 CONCLUSION 90<br />

4.7 BIBLIOGRAPHIE 91<br />

5. UN MODELE CONNEXIONNISTE DE LA MEMOIRE 95<br />

5.1 INTRODUCTION : UNE MEMOIRE ANTICIPATRICE 95<br />

5.2 PRINCIPES DE BASE 98<br />

5.2.1 PERTURBATION PAR DIFFUSION DU FORÇAGE DES DYNAMIQUES 98<br />

1. Complexification des dynamiques .............................................................................................. 99<br />

2. Une tomate dans la tête ............................................................................................................ 100<br />

3. Perturbation par des informations de même support.................................................................. 101<br />

4. Pas d’entrée, pas de sortie......................................................................................................... 101<br />

5. Information externe et information interne ............................................................................... 102<br />

6. Nombre d’itérations d’apprentissage ........................................................................................ 102<br />

7. Evite la divergence des paramètres du réseau............................................................................ 103<br />

8. Prise en compte du passé de la perturbation .............................................................................. 104<br />

5.2.2 MINIMISATION DES PERTURBATIONS INDUITES 105<br />

1. Simplification des dynamiques apprises .................................................................................... 108<br />

2. Vers une maximisation de l’autonomie ..................................................................................... 108<br />

3. L’effet de surprise .................................................................................................................... 110<br />

4. Permet la segmentation de classes conceptuelles ....................................................................... 111<br />

5. Evite la nécessité d’un synchronisme support de l’encodage ..................................................... 111<br />

5.2.3 ASSOCIATION MULTIMODALE DES FORÇAGES 112<br />

5.2.4 MODULARISATION FONCTIONNELLE 113<br />

1. Modularisation par apprentissage ............................................................................................. 114<br />

2. Modularisation fonction de la complexité du signal .................................................................. 115<br />

3. Pas de phase d’apprentissage .................................................................................................... 119<br />

5.3 PRINCIPES DU MODELE CONNEXIONNISTE 120<br />

5.3.1 POUR LE NEURONE 120<br />

1. Modèle à différences finies ....................................................................................................... 120<br />

2. Modèle à mémoire en entrée et sortie........................................................................................ 121<br />

3. Sans dynamique chaotique propre ............................................................................................ 122<br />

4. Apprentissage par forçage ........................................................................................................ 122<br />

5. Système déterministe ................................................................................................................ 122<br />

5.3.2 POUR L'ARCHITECTURE 123<br />

1. Récurrence locale ..................................................................................................................... 123<br />

2. Séquentiel ou parallèle ............................................................................................................. 123<br />

5.3.3 BILAN 123<br />

5.4 CONCLUSION 124<br />

5.5 BIBLIOGRAPHIE 126<br />

6. DEVELOPPEMENT INFORMATIQUE DU MODELE 128<br />

VIII<br />

TABLE DES MATIERES


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

6.1 INTRODUCTION 128<br />

6.2 L'ORDINATEUR PARALLELE DEC-MPP12000 129<br />

6.3 LE LOGICIEL DE MODELISATION 129<br />

6.3.1 FENETRES INITIALES AU LANCEMENT 129<br />

6.3.2 CONSTRUCTION DU RESEAU 130<br />

1. Architecture ..............................................................................................................................130<br />

a. Entrées du réseau ..................................................................................................................130<br />

b. Taille et voisinage .................................................................................................................131<br />

2. Modèle neuronal .......................................................................................................................132<br />

a. Fonctions H et S ....................................................................................................................132<br />

b. Fonction neurone s ...............................................................................................................133<br />

3. Paramétrisation en temps réel ...................................................................................................134<br />

6.3.3 ANALYSE DU RESEAU 135<br />

1. Sorties du réseau .......................................................................................................................135<br />

2. Analyse fréquentielle du réseau .................................................................................................136<br />

3. Suivi d’un attracteur .................................................................................................................136<br />

4. Cartes de bifurcation .................................................................................................................137<br />

5. Mesures sur un neurone ............................................................................................................139<br />

6.4 CONCLUSION 139<br />

7. DYNAMIQUES OBSERVEES ET EXPERIMENTEES 143<br />

7.1 INTRODUCTION 143<br />

7.2 DYNAMIQUE DES MODELES A PARAMETRES FIGES 144<br />

7.2.1 RESEAUX SIMPLES : MODELES RECURRENTS SANS MEMOIRE 144<br />

1. Matrice de connexion aléatoire .................................................................................................144<br />

a. Vers une activité locale .........................................................................................................145<br />

b. Une activité chaotique ...........................................................................................................146<br />

c. Synchronisme local ...............................................................................................................147<br />

d. Synchronisation et clustering fréquentiel par forçage ............................................................149<br />

7.2.2 RESEAUX A MEMOIRE 151<br />

1. Modèles à délai .........................................................................................................................151<br />

a. Augmentation de la taille des clusters d’activité ....................................................................152<br />

b. Plusieurs attracteurs par neurone...........................................................................................154<br />

2. Modèles à atténuation ...............................................................................................................157<br />

a. Mise en phase de clusters ......................................................................................................157<br />

b. Nature fractale des attracteurs atteints ...................................................................................158<br />

c. Autosimilarité de l’attracteur .................................................................................................159<br />

d. Accrochage de fréquences entre neurones .............................................................................160<br />

7.2.3 RESEAU HOPFIELDIEN AVEC FONCTION DE SORTIE 162<br />

1. Matrice de connexion isotrope excitatrice..................................................................................162<br />

2. Matrice de connexion aléatoire .................................................................................................164<br />

7.2.4 RESEAU HOPFIELDIEN A DIFFERENCES FINIES 167<br />

1. Caractère bifurquant du gain .....................................................................................................168<br />

7.3 PARAMETRES BIFURQUANTS 173<br />

7.3.1 VARIATION DU GAIN 173<br />

1. Dans un modèle à délais ...........................................................................................................173<br />

2. Dans un modèle à atténuation ...................................................................................................175<br />

7.3.2 VARIATION DU COEFFICIENT DE RETROACTION 180<br />

7.3.3 VARIATION DES DELAIS 181<br />

7.4 CONCLUSION 183<br />

TABLE DES MATIERES IX


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

8. ANTICIPATION DU FORÇAGE DES DYNAMIQUES 185<br />

X<br />

8.1 INTRODUCTION : UN ALGORITHME ON-LINE LOCAL ? 185<br />

8.2 L’APPRENTISSAGE HEBBIEN 186<br />

8.2.1 DESCRIPTION 186<br />

8.2.2 RESULTATS : POINTS FIXES ET FRACTALISATION DU RESEAU 186<br />

8.3 DIFFUSION DE L'ERREUR DANS LE RESEAU 190<br />

8.3.1 DESCRIPTION 191<br />

8.3.2 RESULTATS : APPRENTISSAGE DE CYCLES LIMITES 192<br />

8.4 FORÇAGE DES DYNAMIQUES COMPLEMENTAIRES 195<br />

8.4.1 DESCRIPTION 195<br />

8.4.2 RESULTATS 196<br />

1. Cycles limites du régime libre initial ........................................................................................ 196<br />

2. Complexification des dynamiques par perturbation ................................................................... 196<br />

3. Minimisation des perturbations induites ................................................................................... 196<br />

4. Dépersévération en régime libre ............................................................................................... 198<br />

5. Apprentissage par coeur par des dynamiques chaotiques........................................................... 198<br />

6. Bifurcations de l’attracteur en régime libre ............................................................................... 198<br />

8.5 VERS L’ALGORITHME ON-LINE LOCAL ? 202<br />

8.5.1 DESCRIPTION 202<br />

8.6 CONCLUSION 204<br />

9. CONCLUSION GENERALE ET PERSPECTIVES DE RECHERCHE 207<br />

TABLE DES MATIERES


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

TABLE DES ILLUSTRATIONS<br />

Figure 2-1 : Modèles de l'encodage cérébral .............................................................................................. 23<br />

Figure 2-2 : Phases successives de l'encodage ............................................................................................ 25<br />

Figure 2-3 : Décharges neuronales ............................................................................................................ 26<br />

Figure 2-4 : Le tout dynamique ................................................................................................................. 30<br />

Figure 2-5 : Meilleure capacité de l'encodage par les dynamiques .............................................................. 35<br />

Figure 2-6 : L'attracteur de Lorenz ............................................................................................................ 40<br />

Figure 2-7 : Visualisation de l'aspect attractif ............................................................................................ 41<br />

Figure 2-8 : Sensibilité aux conditions initiales ......................................................................................... 42<br />

Figure 2-9 : Synchronisation d'oscillateurs couplés .................................................................................... 43<br />

Figure 2-10 : FFT du X(t) du système de Lorenz ....................................................................................... 44<br />

Figure 2-11 : Resynchronisation par perturbation ...................................................................................... 45<br />

Figure 2-12 : Perturbation du système de Lorenz ....................................................................................... 46<br />

Figure 2-13 : Synchronisation des dynamiques .......................................................................................... 46<br />

Figure 2-14 : Pavage d'un attracteur .......................................................................................................... 49<br />

Figure 2-15 : Ensemble de Cantor ............................................................................................................. 50<br />

Figure 2-16 : Calculs des coefficients de Lyapunov.................................................................................... 51<br />

Figure 2-17 : Fibres isochrones ................................................................................................................. 54<br />

Figure 2-18 : Dimension fractale et état mental ......................................................................................... 57<br />

Figure 2-19 : Encodage formel d'un attracteur ........................................................................................... 58<br />

Figure 2-20 : Présentation préliminaire du modèle : rôle du chaos ............................................................. 59<br />

Figure 3-1 : Modèle classique .................................................................................................................... 66<br />

Figure 3-2 : Influence de la période réfractaire .......................................................................................... 68<br />

Figure 3-3 : Carte de bifurcation du modèle logistique............................................................................... 69<br />

Figure 3-4 : Equivalence du modèle à entrée-sortie.................................................................................... 70<br />

Figure 4-1 : Partition des neurones ............................................................................................................ 81<br />

Figure 4-2 : Apprentissage local/off-line vs non-local/on-line .................................................................... 89<br />

Figure 5-1 : Perturbation, anticipation, modularisation, association .......................................................... 97<br />

Figure 5-2 : Chaos par forçage .................................................................................................................100<br />

Figure 5-3 : Système déterministe ............................................................................................................104<br />

Figure 5-4 : Une mémoire anticipatrice ....................................................................................................107<br />

Figure 5-5 : Système autonome ................................................................................................................109<br />

Figure 5-6 : Environnements disjoints ......................................................................................................111<br />

Figure 5-7 : Augmentation du nombre de canaux .....................................................................................113<br />

Figure 5-8 : Modularisation fonctionnelle.................................................................................................113<br />

Figure 5-9 : Localisation des aires visuelles ..............................................................................................114<br />

Figure 5-10 : Modularisation par les poids ...............................................................................................115<br />

Figure 5-11 : Modularisation par l'erreur ..................................................................................................116<br />

Figure 5-12 : Diffusion de la perturbation résiduelle .................................................................................117<br />

Figure 5-13 : Ajout de la composante aléatoire .........................................................................................118<br />

Figure 5-14 : Modèle général de neurone utilisé .......................................................................................124<br />

Figure 5-15 : Modèle d'apprentissage par anticipation du forçage .............................................................125<br />

Figure 6-1 : DEC-MPP 12000 ..................................................................................................................129<br />

Figure 6-2 : Fenêtres initiales ...................................................................................................................130<br />

Figure 6-3 : Entrées du réseau ..................................................................................................................131<br />

Figure 6-4 : Architecture du réseau ..........................................................................................................131<br />

Figure 6-5 : Choix du modèle neuronal ....................................................................................................132<br />

Figure 6-6 : Modification des fonctions H et S ..........................................................................................133<br />

Figure 6-7 : Modification de la fonction neurone ......................................................................................133<br />

Figure 6-8 : Accès aux paramètres du neurone .........................................................................................134<br />

Figure 6-9 : Affichage des sorties .............................................................................................................135<br />

Figure 6-10 : Isofréquence et phase du réseau ...........................................................................................136<br />

TABLE DES MATIERES XI


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Figure 6-11 : Tracé d'un attracteur ........................................................................................................... 137<br />

Figure 6-12 : Succession des attracteurs ................................................................................................... 137<br />

Figure 6-13 : Suivi des bifurcations ......................................................................................................... 138<br />

Figure 6-14 : Mesures d'une sonde ........................................................................................................... 139<br />

Figure 7-1 : Activité du réseau ................................................................................................................. 145<br />

Figure 7-2 : Variétés d'attracteurs dans un même réseau .......................................................................... 146<br />

Figure 7-3 : Obtention de la matrice des fréquences ................................................................................. 147<br />

Figure 7-4 : Clustering fréquentiel ........................................................................................................... 148<br />

Figure 7-5 : Diffusion de l'activité neuronale ........................................................................................... 149<br />

Figure 7-6 : Complexification des dynamiques......................................................................................... 150<br />

Figure 7-7 : Clustering fréquentiel autour du site de forçage .................................................................... 151<br />

Figure 7-8 : Activité dans un modèle á délais ........................................................................................... 152<br />

Figure 7-9 : Attracteurs d'un modèle à délai ............................................................................................. 152<br />

Figure 7-10 : Synchronisations locales ..................................................................................................... 153<br />

Figure 7-11 : Perturbation de tous les neurones ........................................................................................ 154<br />

Figure 7-12 : Perturbation des dynamiques .............................................................................................. 155<br />

Figure 7-13 : Attracteurs d'un même neurone .......................................................................................... 156<br />

Figure 7-14 : Isophases du réseau ............................................................................................................ 158<br />

Figure 7-15 : Zoom sur l'attracteur du neurone 98-11 .............................................................................. 159<br />

Figure 7-16 : Sillages de Bénard-Von Karman......................................................................................... 159<br />

Figure 7-17 : Zoom sur l'attracteur du neurone 98-11 .............................................................................. 160<br />

Figure 7-18 : Clustering du neurone 96-12 .............................................................................................. 161<br />

Figure 7-19 : Désynchronisation des dynamiques ..................................................................................... 161<br />

Figure 7-20 : Variation du 'remplissage' .................................................................................................. 162<br />

Figure 7-21 : Modularisation du réseau .................................................................................................... 163<br />

Figure 7-22 : Apparition d'un vortex ........................................................................................................ 164<br />

Figure 7-23 : Perturbation de la diffusion ................................................................................................. 165<br />

Figure 7-24 : Organisation de l'activité centrale ....................................................................................... 166<br />

Figure 7-25 : Organisation en modules mobiles ....................................................................................... 166<br />

Figure 7-26 : Perte de l'organisation du réseau ......................................................................................... 167<br />

Figure 7-27 : avec pente de 43/64 ............................................................................................................ 168<br />

Figure 7-28 : avec pente de 44/64 ............................................................................................................ 169<br />

Figure 7-29 : Erreur parfois à 0 pour un neurone ..................................................................................... 170<br />

Figure 7-30 : Courbe d’écart moyen pour 500 itérations de stabilisation................................................... 171<br />

Figure 7-31 : Variation des courbes d'écart .............................................................................................. 172<br />

Figure 7-32 : Début des variations lisses de L0 ....................................................................................... 172<br />

Figure 7-33 : Modification des attracteurs avec b ..................................................................................... 174<br />

Figure 7-34 : Carte de bifurcation du neurone 96-12 en fonction de b ...................................................... 175<br />

Figure 7-35 : Evolution de l'attracteur du neurone 96-12 avec b............................................................... 176<br />

Figure 7-36 : Carte de bifurcation du neurone 114-53 en fonction de b .................................................... 176<br />

Figure 7-37 : Evolution de l'attracteur du neurone 114-53 avec b ............................................................. 177<br />

Figure 7-38 : Superposition des cartes de bifurcation ............................................................................... 177<br />

Figure 7-39 : Enrichissement des fréquences avec b ................................................................................ 178<br />

Figure 7-40 : Diagramme de bifurcation à b élevé ................................................................................... 179<br />

Figure 7-41 : Gel des dynamiques ............................................................................................................ 179<br />

Figure 7-42 : Hystérésis du diagramme de bifurcation .............................................................................. 180<br />

Figure 7-43 : Carte de bifurcation en fonction de Wii ............................................................................... 181<br />

Figure 7-44 : Multiples vortex ................................................................................................................. 182<br />

Figure 7-45 : Modification du paysage fréquentiel avec Dmin .................................................................. 183<br />

Figure 8-1 : Influence de l'apprentissage Hebbien sur les attracteurs ........................................................ 186<br />

Figure 8-2 : Evolution de l'attracteur du neurone 3-0 ............................................................................... 187<br />

Figure 8-3 : Diffusion de l'apprentissage. t=200 ....................................................................................... 188<br />

Figure 8-4 : Diffusion de l'apprentissage. t=600 ....................................................................................... 188<br />

Figure 8-5 : Diffusion de l'apprentissage. t=800 ....................................................................................... 189<br />

Figure 8-6 : Fractalisation d'un réseau. t=4000 ........................................................................................ 189<br />

XII<br />

TABLE DES MATIERES


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Figure 8-7 : Paysage des spécificités neuronales .......................................................................................190<br />

Figure 8-8 : Rétropropagation de l'erreur ..................................................................................................191<br />

Figure 8-9 : Convolution avec les poids ....................................................................................................192<br />

Figure 8-10 : Evolution vers un cycle limite .............................................................................................192<br />

Figure 8-11 : Synchronisation lors de l'apprentissage ...............................................................................193<br />

Figure 8-12 : Synchronisation par ajout de fréquence ...............................................................................193<br />

Figure 8-13 : Influence de la perte du forçage ...........................................................................................194<br />

Figure 8-14 : Forçage des dynamiques complémentaires...........................................................................195<br />

Figure 8-15 : Dynamiques libres du réseau avant apprentissage ................................................................197<br />

Figure 8-16 : Effets du forçage sans apprentissage ....................................................................................197<br />

Figure 8-17 : Evolution des dynamiques après 5000 pas d’apprentissage ..................................................199<br />

Figure 8-18 : Evolution des dynamiques après 10000 pas d’apprentissage ................................................199<br />

Figure 8-19 : Après 15000 pas d’apprentissage. Début de la phase en régime libre ...................................200<br />

Figure 8-20 : Complexification des dynamiques en régime libre entre 20000 et 25000 pas .......................200<br />

Figure 8-21 : Stabilisation des dynamiques ...............................................................................................201<br />

Figure 8-22 : Dynamiques libres apprises après 13E6 itérations ...............................................................201<br />

Figure 8-23 : Evolution de l'attracteur en régime libre ..............................................................................202<br />

TABLE DES MATIERES XIII


14<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

PREMIERE PARTIE : ANALYSE


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

1.1 Introduction<br />

Quel est le support de la pensée ?<br />

1. PRESENTATION GENERALE<br />

Le moi neuronal élabore des images-mouvements et l’action représente<br />

la force d’auto-organisation du cerveau.<br />

J.D. Vincent. Biologie des passions.<br />

Cette question semble bien provoquante, et pourtant il faut reconnaître qu’elle reste une<br />

des questions principales de bien des articles liés au connexionnisme ou aux sciences cognitives.<br />

Elle exprime une interrogation essentielle, et peut se déceler sous diverses formes derrière la<br />

plupart des orientations de recherche suivies par la communauté des sciences cognitives 1 :<br />

à Philosophie de la conscience et de l’intentionnalité [[61]][[71]]<br />

à Définition des systèmes vivants comme systèmes autonomes [[205]]<br />

à Rapport de l’esprit à la matière [[17]][[167]][[71]][[175]]<br />

à Modélisation des phénomènes de mémorisation[[12]]<br />

à Etude de la nature physiologique des représentations mentales et motrices [[107]]<br />

à Détermination des relations anatomiques et fonctionnelles<br />

à Localisation et organisation des fonctionnalités cérébrales<br />

à Amélioration des modèles en neuropsychologie et neurophysiologie<br />

à Modélisation connexionniste des architectures neurophysiologiques<br />

à Etude des capacités computationnelles des systèmes artificiels [[178]][[179]]<br />

Cette liste a volontairement été classée à partir des manifestations haut niveau de la<br />

pensée jusqu’aux manifestations bas niveau, des systèmes naturels vers les systèmes artificiels,<br />

1 Les références indiquées ne se veulent pas exhaustives, mais simplement représentatives de celles qui ont<br />

inspiré certaines orientations prises par cette thèse.<br />

PRESENTATION GENERALE 15


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

afin de pouvoir se poser une question annexe à la première :<br />

16<br />

A quel niveau se produit la rupture système pensant / système non-pensant ?<br />

Le but de cette thèse n’est pas de répondre à cette question, mais il fut impossible, durant<br />

cette recherche, de l’éluder totalement. En effet, l’un des buts de ces travaux ci-dessus était de<br />

voir émerger, dans les systèmes artificiels étudiés, des comportements similaires à ceux qui<br />

caractérisent certains systèmes naturels (comportements dynamiques, spécialisation neuronale,<br />

modularité des réseaux, oubli...), avec les contraintes de ceux-ci (connectivité locale, absence de<br />

superviseur, auto-organisation,... ) Cette tentative de modélisation demandait de rapprocher deux<br />

types de systèmes situés de part et d’autre de la frontière située entre système artificiel<br />

et système naturel. Autant dire que cette approche fut limitée par de nombreux obstacles qui nous<br />

confrontèrent à la question : y a t-il rupture et si oui, peut-on la transgresser ? Mais y a-t-il<br />

réellement deux classes distinctes ? 2 L’un des intérêts des sciences cognitives est de tendre à<br />

réduire cette faille conceptuelle entre les systèmes naturels et les systèmes artificiels, en se fixant<br />

plusieurs buts.<br />

Tout d’abord en tentant de modéliser les systèmes naturels. Cette approche matérialiste,<br />

confortée par les récentes découvertes neurophysiologiques, nous permet d’espérer un jour<br />

reproduire par simulation le comportement de la plupart des systèmes naturels : les premières<br />

expériences de forçage des dynamiques du cerveau d’un rat ont déjà été réalisées [[171]], les<br />

premières rétines artificielles voient le jour [[194]], et les neurones du système gastrique du<br />

homard sont modélisés [[162]]. Il y a peu de raisons pour que de telles avancées dans la<br />

connaissance et la modélisation des systèmes naturels s’arrêtent, ou alors la science progressera<br />

jusqu’à savoir pourquoi existe une telle impossibilité. Dans les deux cas, une telle recherche<br />

présente un réel intérêt.<br />

Une autre approche minimise l’intérêt d’une recherche de similarité fonctionnelle du<br />

modèle développé, en accentuant l’importance du comportement et des propriétés du système :<br />

peu importe qu’un avion ne batte pas des ailes si le but fixé était de le faire voler. Cette approche<br />

pousse à l’étude des phénomènes émergents, considérant que la richesse de comportement d’un<br />

système peut être plus grande que la somme des comportements de ses sous-parties. Cette idée<br />

est l’un des fondements du connexionnisme : l’information est distribuée, et seule l’organisation du<br />

système autour de cette distribution possède du sens. Il est vrai que, si l’on ne doit retenir que<br />

deux choses de l’approche connexionniste, il s’agira de son auto-organisation et de la distribution<br />

de l’information mémorisée. L’aspect neuromimétique est accessoire.<br />

Une autre méthode des sciences cognitives, pour réduire la faille entre systèmes artificiels<br />

et naturels, en tentant de les rendre fonctionnellement plus proches de l’utilisateur humain : il<br />

s’agit de l’ergonomie, qui adapte les systèmes artificiels aux contraintes des systèmes naturels.<br />

Cette approche n’est pas l’objet de cette thèse mais il est intéressant de remarquer qu’elle<br />

contribue elle aussi à la réduction de la frontière artificiel / naturel.<br />

Alors, quels espoirs fonder quant aux chances de succès du projet de connaître, modéliser<br />

et simuler le fonctionnement de la pensée ? Nous ne sommes pas à même de pouvoir répondre à<br />

2 Ce problème de classe peut se poser à partir de propriétés simples, par exemple celle qui consiste à<br />

‘possèder de la vitesse’. Si l’on envisage un système composé de deux billes, l’une allant à 100km/h et<br />

l’autre immobile, il est facile de les ranger en deux groupes. Mais si l’on prend maintenant comme<br />

référence de vitesse la première bille, c’est alors la bille qui était immobile qui possède de la vitesse. Peutêtre<br />

faut-il voir le même phénomène avec les propriétés ‘est pensant’, ou ‘est naturel’ : il n’existerait pas de<br />

classement absolu, car il est possible de modifier tout classement en fonction de la référence prise.<br />

PREMIERE PARTIE : ANALYSE


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

cette question actuellement, et les théories sur le sujet foisonnent. Pour s’en convaincre, il suffit<br />

de voir la liste des best-sellers épistémologiques qui paraissent actuellement sur le sujet. Mais il<br />

faut espérer que ces théories continueront à foisonner jusqu’à ce que l’une d’entre elles domine,<br />

ouvrant alors la voie à bien d’autres questions, tout aussi passionnantes. Peu importe si certaines<br />

approches semblent surprenantes, si d’autres font preuve de ‘Gödelite’ caractérisée ou<br />

d’hermétisme quantique, ou encore de ‘connexionnite’, ou si certaines encore ne sont que des<br />

ébauches, cherchant à tout prix à anticiper toute idée extérieure, amalgamant cybernétique,<br />

chaos, neurologie, physique quantique, systèmes formels : la science a déjà connu de tels<br />

foisonnements contradictoires.<br />

Mais la solution est peut être ailleurs : tout comme la théorie du chaos nous a permis de<br />

voir un continuum entre l’aléatoire et le déterministe, il est possible que les sciences de la<br />

cognition nous permettent un jour de briser les clivages pensant / non pensant, naturel / artificiel,<br />

en y voyant une continuité 3 . Dès lors, il devient possible d’espérer améliorer constamment nos<br />

modèles de la cognition, et leur donner des propriétés nouvelles à la vue de nos connaissances<br />

actuelles, sans pouvoir un jour atteindre celles de l’homme, car le seul modèle strictement<br />

conforme à l’homme, qui en vérifierait toutes les propriétés, serait lui-même : toute modélisation<br />

n’est finalement qu’une approximation. Dès lors, si l’on obtient un jour cette machine paraissant<br />

douée d’intelligence et d’autonomie, celle-ci sera considérée soit comme un modèle humain, soit<br />

comme une machine améliorée, selon les référence de chacun. Le contact avec de telles<br />

machines rendra leurs propriétés naturelles à des yeux futurs : cela fait bien longtemps que l’on ne<br />

se demande plus si les miroirs dupliquent le réel , ou si les appareils photographiques<br />

emprisonnent les âmes ! Finalement les conflits actuels ne sont pas dus à la faisabilité d’une telle<br />

machine, mais au fait que chacun veut faire partager son interprétation (son modèle du réel) à<br />

l’autre 4 .<br />

Selon l’orientation de cette thèse, cette machine hypothétique sera sur chaque versant de<br />

la frontière naturel/artificiel : il s’agira d’un modèle humain par ses propriétés, et d’une machine par<br />

son architecture.<br />

Telle sera l’approche de cette thèse : trouver dans les modèles étudiés quelques pistes, ne<br />

pas utiliser de termes dont la définition dépend trop des références de chacun, et limiter notre<br />

analyse à l’observation des propriétés de nos modèles, en essayant de les rapprocher de celles<br />

des systèmes naturels. Cette approche n’aura pas pour but d’encourager l’interprétation du<br />

connexionnisme affirmant qu’il s’agit du modèle de l’esprit humain, mais simplement que ce<br />

modèle intermédiaire présente des propriétés similaires, et que l’amélioration des modèles peut<br />

permettre de retrouver autant de propriétés du modèle humain que l’on souhaite. Cette approche<br />

se situe entre une IA faible et une IA forte. En effet, selon notre approche, la modélisation<br />

informatique peut faire émerger des comportements propres à l’intelligence humaine, mais reste<br />

un modèle du système simulé. De ce point de vue, cette idée est en accord avec l’IA faible :<br />

même si les propriétés sont similaires, le modèle reste au niveau d’une simple simulation.<br />

3 Certaines théories avant-gardistes tentent aujourd’hui de le faire [[56]], en fusionnant le naturel et<br />

l’artificiel, associant l’outil à une production de nos gènes, nous réduisant au rôle d’intermédiaire entre le<br />

gène et l’outil. Il est vrai qu’il n’existe pas de définition satisfaisante d’un système dit naturel, et que l’on<br />

peut se demander ce que le carbone a de plus naturel que le silicium, sinon une virtus natura...<br />

4 En imposant notre modèle à l’autre, on rend ce dernier plus prévisible puisqu’il se comportera selon notre<br />

modèle. Il sera donc moins perturbant pour nous-mêmes. Ne peut on pas voir là une interprétation haut<br />

niveau des principes de la mémoire exposés dans cette thèse ? (Minimisation des perturbations induites ,<br />

p.103)<br />

PRESENTATION GENERALE 17


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Mais, de la même façon que l’IA forte le suppose, il existe un seuil à partir duquel deux<br />

systèmes peuvent être considérés comme équivalents, même s’ils ne partagent pas toutes les<br />

mêmes propriétés ; il existe un seuil acceptable pour l’observateur. Ainsi, par exemple, un individu<br />

n’est qu’un modèle d’un autre individu, dans le sens où ils ne partagent qu’un petit nombre de<br />

propriétés communes, sans pourtant posséder toutes les propriétés du groupe humain auquel ils<br />

appartiennent. Chaque individu n’en vérifie que certaines, d’autres lui étant propres, et<br />

caractéristiques de son autonomie. Il existerait donc un stade où un système modélisant l’humain<br />

peut faire partie des systèmes dits intelligents, autonomes, ou conscients, au même titre qu’un<br />

individu humain, dès lors qu’il partage un nombre suffisant de propriétés caractéristiques du<br />

groupe humain, sans les vérifier toutes (de toutes façons, un système vérifiant toutes les<br />

propriétés d’un autre lui est isomorphe : le modèle parfait d’un système n’est autre que le système<br />

lui-même 5 ). Selon cette approche, une machine peut appartenir au groupe des systèmes<br />

pensants, satisfaisant ainsi les principes de l’IA forte.<br />

Nous nous limiterons donc à mettre en évidence certaines propriétés de nos systèmes<br />

informatiques, en les rapprochant de nos connaissances des systèmes biologiques. Nous<br />

espérons ainsi combler une partie du fossé existant entre artificiel et naturel, en adoptant ce point<br />

de vue intermédiaire entre IA forte et IA faible.<br />

De tels arguments convaincront sans doute les matérialistes artisans du tout-systémique.<br />

Mais ils convaincront aussi certainement les idéalistes partisans du tout-naturel, car les résultats<br />

restreints obtenus sauront les conforter dans l’impossibilité d’une telle tâche.<br />

Mais il faut espérer que la provocation volontaire de certaines idées présentées ici saura<br />

faire porter un nouveau regard sur les questions présentées dans cette introduction.<br />

18<br />

C’est, nous l’espérons, ce à quoi cette thèse pourrait contribuer...<br />

1.2 Présentation de la thèse<br />

La question qui a introduit ce chapitre fut l’une des motivations initiales de cette thèse,<br />

mais nous pouvons la dissimuler dernière des interrogations détournées : peut-on interpréter les<br />

dynamiques neuronales comme l’unique support des propriétés observées dans la mémoire ? Et<br />

l’unique modélisation de ces dynamiques dans des modèles connexionnistes respectant certaines<br />

contraintes peut-elle nous faire espérer voir des comportements similaires à ceux des systèmes<br />

naturels ? Cette thèse n’a pas la prétention d’y avoir répondu précisément, mais nous posons ces<br />

questions comme sous-jacentes à la trame des travaux réalisés.<br />

De ces questions, nous pouvons retirer quelques termes qui guideront l’organisation de<br />

cette thèse et son déroulement à travers plusieurs questions :<br />

* Qu’est ce qu’un encodage ?<br />

* Parmi les encodages possibles, lesquels portent sur des dynamiques ?<br />

* Quels sont les modèles permettant de tels encodages dynamiques ?<br />

5 En effet, pour que le modèle soit parfait, il doit vérifier toutes les propriétés du système, en particulier la<br />

propriété, ‘à le même comportement que’, ce qui signifie que toutes les variables d’état de ces deux systèmes<br />

doivent avoir la même évolution temporelle : ils doivent donc partager les mêmes variables d’états et les<br />

mêmes lois, ce qui, dans un cadre déterministe signifie que les deux systèmes sont identiques..<br />

PREMIERE PARTIE : ANALYSE


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

* Quels sont les paramètres principaux d’une dynamique neuronale ?<br />

* Quelles règles d’apprentissage portent sur ces paramètres ?<br />

* Quels sont les critères d’une plausibilité biologique ?<br />

* Pouvons nous imaginer des règles d’apprentissage vérifiant ces critères ?<br />

La réponse à ces questions nous permettra de dégager quelques modèles, qui seront<br />

simulés et analysés, en effectuant en parallèle un retour au biologique dès que cela s’avère<br />

possible. Nous essayerons de montrer qu’une synthèse entre ces modèles est possible, amenant<br />

un type de réseau dynamique biologiquement plausible, qui sera construit au fur et à mesure du<br />

déroulement de cette thèse.<br />

1.2.1 Analyse<br />

La première partie de cette thèse est consacrée à l’analyse de ces différentes questions,<br />

et tente d’y apporter quelques solutions. Il a fallu tout d’abord définir ce qui caractérise les<br />

dynamiques neuronales, qu’elles soient naturelles ou artificielles, et l’intérêt qu’elles présentent<br />

pour l’encodage d’information. Nous tenterons de justifier leur emploi dans cette thèse et de<br />

rassembler les outils mathématiques utiles à leur analyse (Chap.2, Encodage dynamique,<br />

mémoire et chaos. p23). Cette première approche nous permettra d’entrevoir les méthodes<br />

possibles d’encodage de l’information par les dynamiques neuronales d’un modèle connexionniste<br />

: encodage par synchronisme, par population, par mémorisation des dynamiques ou de leurs<br />

paramètres.<br />

Tout naturellement, une telle étude nous a orientés vers les modèles connexionnistes à<br />

dynamique chaotique, actuellement beaucoup étudiés, en s’appuyant essentiellement sur les<br />

travaux de Blabloyantz et al. [[9]][[10]], Freeman & al. [[180]][[218]][[36]], Renals [[164]], Chapeau-<br />

Blondeau [[40]][[43]]. L’une des premières observations durant cette phase fut de remarquer la<br />

diversité des approches réalisées, tant dans les modèles que dans l’interprétation du rôle du<br />

chaos. Il fut donc nécessaire de synthétiser les méthodes d’encodage de l’information par des<br />

dynamiques chaotiques, et d’en dégager quelques encodages principaux, en accord avec les<br />

connaissances neurophysiologiques actuelles.<br />

Une fois déterminées ces méthodes d’encodage, nous nous intéresserons aux modèles<br />

neuronaux et aux architectures pouvant répondre à nos besoins (Chap. 3, Modèles<br />

connexionnistes dynamiques, p.65). Ce chapitre tentera de hiérarchiser les modèles proposés, afin<br />

de déterminer quels sont les paramètres et les contraintes essentiels du réseau que nous<br />

souhaitons réaliser, et quels sont les modèles pouvant présenter les dynamiques retenues dans le<br />

chapitre précédent. C’est à ce niveau que sera posé le choix d’une architecture récurrente, à<br />

voisinage local. La même analyse sera alors réalisée pour les algorithmes d’apprentissage utilisés<br />

dans les architectures récurrentes [Chap. 4, Apprentissage dans les réseaux récurrents. p79] Ce<br />

chapitre rassemblera les principales idées avancées, et recensera l’ensemble des algorithmes<br />

utilisés dans les modèles connexionnistes récurrents. Malheureusement, les algorithmes<br />

développés à ce jour pour les architectures récurrentes ne sont pas biologiquement plausibles<br />

(non on-line, non locaux). Il nous a donc fallu imaginer et développer de nouvelles règles<br />

répondant à ces contraintes de plausibilité biologique.<br />

PRESENTATION GENERALE 19


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

1.2.2 Développement<br />

Une fois réalisée cette analyse des modèles neuronaux, des architectures et des<br />

algorithmes d’apprentissage permettant la mémorisation de dynamiques, et après avoir déterminé<br />

les contraintes de plausibilité biologique à imposer, la thèse présentera et justifiera les choix<br />

réalisés pour le développement de notre modèle, tant au niveau neuronal, qu’au niveau<br />

architectural. Nous tenterons, au cours de ce développement, de mettre en place un modèle<br />

théorique de la mémoire, qui concilie les connaissances neurophysiologiques actuelles<br />

(comportement chaotique des EEG, synchronisations neuronales, architectures modulaires), les<br />

modèles théoriques de l’autonomie (clôture opérationnelle, environnement perturbatif, autoorganisation),<br />

et les architectures artificielles actuellement développées (neurones à délais,<br />

période réfractaire). Comme nous le verrons dans cette partie, l’ensemble des résultats<br />

aujourd’hui connus dans ces différents domaines, peuvent s’articuler autour d’une architecture que<br />

nous nommerons PAMA (Perturbation-Anticipation-Modularisation-Association).<br />

Enfin sera présenté rapidement l’outil logiciel mis au point spécifiquement pour l’étude<br />

des modèles développés, et qui a produit l’ensemble des résultats présentés dans cette thèse<br />

(Chap. 6, Développement informatique du modèle. p128). Cet outil, développé sur l’ordinateur<br />

parallèle du TIMC, nous a offert la puissance nécessaire à la simulation de réseaux comportant<br />

jusqu’à 262144 neurones, en permettant leur analyse en temps réel ( état des sorties, traçage des<br />

attracteurs des neurones, de leurs cartes de bifurcation, visualisation des transformées de Fourier<br />

de l’ensemble du réseau, affichage des neurones en phases, etc...).<br />

1.2.3 Résultats<br />

Dans une troisième et dernière partie, seront rassemblés les résultats obtenus lors de la<br />

simulation des modèles par le logiciel ci-dessus. Dans un premier chapitre nous synthétiserons la<br />

multitude de dynamiques différentes observées dans nos réseaux en fonction des modèles étudiés<br />

[Chap.7, Dynamiques observées, p143], et tenterons de déterminer l’influence des paramètres. La<br />

détermination de ces paramètres influents oriente alors les grandes direction de recherche pour la<br />

modélisation de l’apprentissage [Chap.8, Anticipation du forçage des dynamiques, p.185]. Comme<br />

justifié dans la première partie de cette thèse, l’apprentissage consistera à forcer la dynamique<br />

d’un ou plusieurs neurones du réseau, et à faire en sorte que le réseau minimise la perturbation<br />

induite par ce forçage.<br />

Nous reviendrons alors aux questions sous-jacentes à cette thèse, présentées dans<br />

l’introduction, en tentant d’analyser de façon fonctionnelle et qualitative les phénomènes observés<br />

pendant les simulations et l’apprentissage : ces comportements observés peuvent-ils être<br />

comparables à des comportements ‘naturels’ ? Cette approche tentera de montrer qu’il est<br />

possible de dégager une vision de l’autonomie, compatible avec l’observation biologique, et<br />

pourtant implantée dans un système dit artificiel.<br />

1.3 Bibliographie<br />

[[9]] A. Babloyantz, A. Destexhe. Nonlinear analysis and modelling of cortical activity. Mathematics<br />

applied to biology and medecine. J. Demongeot, V. Capasso (edts). ISBN 0-920063-63-2. p 35-48<br />

(1993)<br />

20<br />

PREMIERE PARTIE : ANALYSE


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

[[10]] A. Babloyantz, C. Lourenço. Computation with chaos. A paradigm for cortical activity. Proc. Natl.<br />

Acad. Sci. USA. Vol.91, p.9027. (1994)<br />

[[17]] Henri Berson. Matière et mémoire. Essai sur la relation du corps à l’esprit. (1896)<br />

[[40]] Francois Chapeau-Blondeau, Gilbert Chauvet. Stable, Oscillatory, and chaotic regimes in the<br />

dynamics of small neural networks with delay. Neural Networks, Vol. 5. pp 735-743. (1992)<br />

[[43]] Francois Chapeau-Blondeau. Analysis of neural networks with chaotic dynamics. Chaos, Solitons<br />

& Fractals. Vol. 3. No 2. pp 133-139. (1993)<br />

[[61]] D.C. Dennett. La conscience expliquée. Editions Odile Jacob. (1991)<br />

[[71]] G.M. Edelman (edelman@wisdom.weizmann.ac.il). Biologie de la conscience. Collection Point.<br />

Edition Odile Jacob. (1992)<br />

[[107]] Marc Jeannerod. Le cerveau-machie. Eds. Fayard<br />

[[162]] M.I. Rabinovich, R. Huerta, H.D.I Arbanel, A.I. Selverson. A minimal model for chaotic bursting<br />

of the LP neuron in lobster. Submitted to Proc. Natl. Acad. Sci. (1996)<br />

[[171]] Steven J. Schiff, Kristin Jerger, Duc H. Duong, Taeun Chang, Mark L. Spano, William L. Ditto.<br />

controlling chaos in the brain. Nature. Vol 370. pp615-620. (1994)<br />

[[175]] Erwin Schrödinger. L’esprit et la matière. Coll. Seuil.<br />

[[180]] Christine A. Skarda, Walter J. Freeman (wfreeman@garnet.berkeley.edu). How brains make chaos<br />

in order to make sense of the world. Behavioral and Brain <strong>Sciences</strong>. 10. pp 161-195. (1987)<br />

[[194]] Towards an artificial eye. IEEE Spectrum. p21-69. 0018-9235/96. (1996)<br />

[[164]] Steve Renals. Chaos in neural networks. Eurasip Workshop, 90-99. (1990)<br />

[[167]] Bertrand Russel. Histoire de mes idées philosophiques. Coll. tel Gallimard.<br />

[[205]] F.J. Varela. Autonomie et connaissance. La couleur des idées.Collection Seuil.Edition 1989.<br />

PRESENTATION GENERALE 21


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

2. ENCODAGE DYNAMIQUE, MEMOIRE ET CHAOS<br />

2.1 Introduction<br />

Il est possible de distinguer trois<br />

phases dans l’évolution de la représentation<br />

du rôle du cerveau. Une fois le cerveau<br />

perçu comme siège des idées et de la<br />

mémoire 6 , il fut tout d’abord associé au lien<br />

entre l’âme et la pensée : il était réduit à sa<br />

fonction (phase 1). Puis, les progrès de la<br />

neurologie avançant, ses fonctions furent<br />

associées à différentes zones (phase 2) :<br />

aires du langage, du mouvement, de la<br />

mémoire. Chacune traite des entrées, pour<br />

engendrer les sorties adaptées, permettant<br />

ainsi le développement de modèles<br />

behavioristes. Aujourd’hui, la description<br />

qui en est faite descend au niveau des<br />

neurones, en les assimilant à des<br />

dynamiques non linéaires qui s’organisent<br />

pour réaliser une activité cognitive de haut<br />

niveau (phase 3) [[101]]. De même, notre<br />

représentation physique du réel descend<br />

vers des descriptions bas niveau, en tentant<br />

de synthétiser dans une même description<br />

les composantes de niveau supérieur. La<br />

Notre vie psychique n’est rien d’autre qu’une suite de catastrophes entre<br />

attracteurs de la dynamique constituée des activités stationnaires de nos<br />

neurones.<br />

René Thom. Modèles mathématiques de la morphogenèse.<br />

Figure 2-1 : Modèles de l'encodage cérébral<br />

L’encodage des percepts peut être vu comme<br />

l’association à un représentant symbolique (phase 1),<br />

à la sortie distribuée d’un système (phase 2), ou à la<br />

nature des objets qui nous entourent a été réduite à des assemblées d’atomes, et leurs propriétés<br />

6 Un long débat eu lieu pour savoir si l’âme siégeait dans le coeur ou le cerveau. Pour plus de détails sur<br />

cette période, voir [[37]] J.P. Changeux. L’homme neuronal. Collection Pluriel. Fayard.(1983)<br />

ENCODAGE DYNAMIQUE, MEMOIRE ET CHAOS 23


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

perçues par nos sens peuvent être ramenées à des définitions dynamiques : couleur, son, forme,<br />

odeur, orientation. (2.2.2 L’hypothèse du tout dynamique, p.28)<br />

La modélisation peut être perçue comme une tentative de rapprochement entre une vision<br />

du réel et un système conçu pour posséder des propriétés équivalentes, en cherchant uniquement<br />

à vérifier les propriétés du système modélisé. La modélisation ne consiste pas alors à copier un<br />

système (nous chercherions dans ce cas à fabriquer un neurone biologique qui existe déjà), mais<br />

à retrouver des propriétés communes avec celles d’un système différent. Dans le cas où<br />

certaines propriétés jugées importantes ne sont pas vérifiées, on doit changer de modèle, en<br />

décrivant parfois le système à un niveau inférieur.<br />

Ce chapitre utilisera cette vision de la modélisation : descendre assez bas niveau dans la<br />

description physique du système, pour que le modèle décrit par les lois qui en découlent, vérifie<br />

l’ensemble des propriétés souhaitées du système modélisé. En accord avec l’idée présentée dans<br />

le premier chapitre, d’un continuum entre les modèles approchant un système donné, une<br />

modélisation ne peut être que partiellement satisfaisante, car le modèle parfait est le système<br />

modélisé. Même un clone n’est qu’une copie approchée du système original, car leurs<br />

environnements ne sont pas les mêmes, et leurs comportements risquent de s’éloigner l’un de<br />

l’autre.<br />

Ainsi, à ce niveau de la thèse, le but fixé est de réaliser une modélisation de l’encodage<br />

par un système dynamique, grâce à une description du cerveau située au niveau des dynamiques<br />

cérébrales, et dont les propriétés souhaitées sont quelques unes de la mémoire humaine :<br />

24<br />

à capacité de reconnaissance d’information déjà perçue<br />

à capacité de représentation interne<br />

à auto-apprentissage d’association de patterns<br />

à spécialisation d’aires neuronales ou modularité fonctionnelle<br />

Nous espérons ainsi donner un support de réflexion à la manifestation de ces propriétés<br />

dans le système réel, en l’inscrivant dans une approche plus métaphorique qu’explicative.<br />

2.2 Vers un modèle dynamique de la mémoire<br />

2.2.1 Evolution de l’encodage d’information<br />

1. Première phase<br />

Encoder une donnée, c’est lui associer un représentant fixe (un mot, une case<br />

mémoire, une icône, ou dans le cadre de cette thèse, l’état d’un réseau), la qualité<br />

statique de cette information étant la garantie de sa conservation au cours du temps, et<br />

donc de la robustesse de l’encodage. Ainsi, l’évolution très lente de notre langue nous<br />

permet de lire et de comprendre un livre du XVIII ème siècle sans trop de problème.<br />

Il s’ensuit que, les idées étant exprimables par des mots et des phrases, ceux-ci peuvent<br />

devenir les représentants de nos pensées. Cette constatation justifie l’intelligence<br />

artificielle dite symbolique : il suffit de travailler sur les représentants, de ramener les<br />

problèmes posés au niveau des concepts, des symboles, pour modéliser la façon dont<br />

PREMIERE PARTIE : ANALYSE


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

l’homme les traite [[146]]. Ceci peut être considéré comme étant la première phase de la<br />

modélisation de l’encodage cérébral (cf. Figure 2-2).<br />

Figure 2-2 : Phases successives de l'encodage<br />

L’encodage peut être séparé en trois phases. La première consiste à associer un concept à<br />

un scalaire (phase symbolique), la deuxième distribue l’information sur un vecteur.<br />

Actuellement, l’utilisation des dynamiques locales ajoute la distribution du vecteur sur<br />

l’axe temporel.<br />

Cette vision des choses est confortée par les supports d’information couramment utilisés<br />

pour encoder notre savoir : livre, bande magnétique, ordinateur, dessin, photographie.<br />

De plus, cette interprétation est encouragée par le fait que toute suite trop longue de<br />

signes est elle-même associée à un sur-représentant : un livre porte un titre, une<br />

symphonie possède un nom, un tableau un titre. Toute l’information traitée peut donc<br />

être ramenée elle-même à un graphe, appelé réseau sémantique.<br />

En découle une tentative de modélisation du raisonnement humain, où l’information<br />

pertinente est encodée par le représentant, où chaque idée est un fait booléen (connu ou<br />

non-connu), et où l’homme passe d’une idée à l’autre par l’emploi de règles logiques,<br />

une idée étant d’autant plus complexe qu’elle est éloignée dans l’arbre de connaissance.<br />

Cette image de représentation de la mémoire humaine par des réseaux sémantiques fut<br />

ENCODAGE DYNAMIQUE, MEMOIRE ET CHAOS 25


26<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

confortée par la constatation que l’on met plus de temps à valider une phrase contenant<br />

des mots de sens éloignés [[46]] 7 .<br />

Mais ce type de modélisation pose le problème du fait inconnu : les premiers systèmes<br />

experts se trouvaient bloqués, car il leur manquait un fait ou une règle qui n’avait pas été<br />

prévu jusque là, et il fallait périodiquement mettre à jour la base de faits et la base de<br />

règles associée. Il était nécessaire qu’il y ait apprentissage, généralisation, destruction<br />

de fait, et création de nouveaux. Il s’avérait nécessaire que la logique et les graphes<br />

utilisés soient dynamiques.<br />

Autre obstacle, les temps de réponse des systèmes conçus sur ces principes ne<br />

correspondaient pas à la complexité apparente des taches qu’ils devaient traiter. Ainsi,<br />

selon ce principe il est plus rapide de calculer un produit de deux nombre de cent<br />

chiffres, que de reconnaître un visage. Nous pouvons pourtant reconnaître un visage en<br />

quelques centaines de millisecondes, et il nous faudrait quelques heures pour effectuer<br />

le produit. Certains résultats en psychologie mirent en évidence l’impossibilité d’une<br />

axiomatisation formelle des raisonnements humains, par exemple dans le cas du jeu<br />

d’échec [[94]]. Ces constatations firent conclure en 1980, au sujet des réseaux<br />

sémantiques, que [[110]] :<br />

On a inévitablement l’impression que les questions ont été posées dans<br />

le contexte d’un paradigme de recherche qui, tout simplement, n’était<br />

pas suffisamment riche pour fournir des réponses définitives.<br />

Il était donc logique d’enrichir ce modèle et de passer à une seconde phase, en tentant<br />

de s’approcher un peu plus du système cérébral, ou, tout au moins, de ce que l’on en<br />

connaît..<br />

2. Deuxième phase<br />

Une idée pour répondre à ce besoin<br />

croissant de mémoire et à cette<br />

nécessité d’un apprentissage fut<br />

amenée par les premiers modèles de<br />

réseaux de neurones [[53]], qui<br />

révélèrent un nouveau type<br />

d’encodage, celui de l’information<br />

distribuée, que nous appellerons<br />

encodage vectoriel, par opposition à<br />

l’encodage de type scalaire de la<br />

première phase. Un fait n’est plus<br />

représenté par une case mémoire,<br />

mais par un ensemble de cases<br />

mémoire constituant un vecteur, et<br />

c’est l’organisation globale des valeurs<br />

enregistrées qui encode l’information.<br />

Dans de nombreux cas, l’encodage<br />

était réalisée par l’orientation de ce<br />

7 Il fut ensuite montré que ces réseaux sémantiques contiennent a priori ces temps de réponse, puisque leur<br />

concepteur dissocie et organise les éléments selon des critères qui lui sont naturels.<br />

PREMIERE PARTIE : ANALYSE<br />

Figure 2-3 : Décharges neuronales<br />

La moyenne des activités neuronales encode la<br />

direction du pointage réalisé par le singe.


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

vecteur. Cette hypothèse fut d’ailleurs vérifiée biologiquement dans le cadre d’exercices<br />

de pointage, où les vecteurs des décharges qui précèdent un mouvement du bras vers le<br />

bas et vers la droite s’orientent dans la même direction (Figure 2-3, d’après A.<br />

Georgopoulos).<br />

Ce nouveau type d’encodage représente une deuxième phase, et possède plusieurs<br />

avantages:<br />

à Une plus grande finesse de représentation :<br />

Dans le cas d’un encodage scalaire, il est par exemple possible de mémoriser N faits<br />

booléens dans N mémoires binaires. Dans le cas d’un encodage vectoriel, il est possible<br />

d’encoder l’état d’une variable à 2 N états. Ceci ne représente pas un gain en mémoire,<br />

mais permet de voir un continuum dans la représentation d’une donnée.<br />

à Robustesse de l’information :<br />

Un concept étant représenté par un vecteur, une erreur sur l’une de ses composantes ne<br />

détruit pas toute l’information, et il est possible dans certains cas de retrouver l’information<br />

bruitée.<br />

à Notion de flou, d’approximation :<br />

Comme le nombre d’état d’une variable est plus élevé, et que de plus il est possible de lui<br />

associer une représentation graphique (sous forme d’hypercube dans le cas de variables<br />

d’état binaires), la notion de flou devient naturelle : un vecteur pris au hasard dans l’espace<br />

d’état est plus ou moins proche des vecteurs déjà appris.<br />

Mais, même dans ce cadre de l’encodage vectoriel, il faut toujours atteindre l’unique<br />

solution, encodée par un état du système correspondant à un point fixe. Or, la plupart de<br />

l’information que l’on souhaite traiter est dynamique : reconnaissance d’un son, filtrage,<br />

contrôle de systèmes dynamiques. L’une des premières idées consiste à procéder à un<br />

pré-traitement des données dynamiques pour les rendre statiques, en prenant la<br />

transformée de Fourier d’un signal par exemple, ou en mettant sous forme vectorielle les<br />

états successifs d’une variable dynamique.<br />

Les problèmes posés par une telle approche sont de plusieurs types. Tout d’abord, la<br />

donnée encodée n’étant plus de même nature que la donnée réelle, le filtrage doit<br />

prédéterminer l’information pertinente. Ceci convient lors d’une approche industrielle du<br />

problème, où l’on souhaite exclusivement vérifier de façon quantifiable le respect d’une<br />

propriété requise dans le cahier des charges. Cette même approche ne peut pas être<br />

respectée dans un travail de modélisation, puisqu’il est souhaité que le modèle partage<br />

le maximum de propriétés avec le système réel. Il est donc préférable de minimiser a<br />

priori tout choix prédéterminant l‘information pertinente. Autre problème, l’approche<br />

connexionniste a souvent justifié ses architectures en comparant ses temps de réponses<br />

à ceux des systèmes réels : temps de reconnaissance d’un visage, temps de rappel<br />

d’information, et a négligé l’observation des échecs en rappel ou en reconnaissance des<br />

systèmes réels : il est possible de ne pas reconnaître un visage connu, ou d’avoir un mot<br />

`sur le bout de la langue’. Pourtant, ce phénomène est caractéristique des systèmes<br />

réels, et il n’est pas rare que la solution survienne quand on s’y attend le moins,<br />

quelques heures après que la question ait été posée. Ceci montre que la solution peut<br />

subsister dans le système pendant longtemps, et que les temps de réponse de 300ms<br />

pour une reconnaissance, qui justifièrent l’approche connexionniste, peuvent être à<br />

l’origine de sa remise en cause.<br />

ENCODAGE DYNAMIQUE, MEMOIRE ET CHAOS 27


28<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

3. Troisième phase<br />

Une troisième approche, qui semble dominante actuellement dans le courant<br />

connexionniste, est de tenir compte de la qualité dynamique de l’information traitée, en<br />

descendant de plus en plus bas niveau dans la description du réel. Mais se pose encore<br />

le problème de l’encodage : comment le système se représente le réel par ses simples<br />

dynamiques internes ? Plusieurs solutions ont été apportées à ce problème :<br />

synchronisation, phases de populations neuronales. Nous essaierons de montrer que<br />

cette question peut être détournée, et qu’il n’est peut-être pas nécessaire de se poser la<br />

question de la nature de l’encodage. Pour ce faire, nous essaierons de montrer que<br />

l’impression de mémoire peut être vue exclusivement comme étant un simple effet de<br />

l’interaction dynamique entre un système et son environnement (Minimisation des<br />

perturbations induites , p.105).<br />

Ce nouveau type de description possède une vertu unificatrice entre le système et son<br />

environnement; vertu qui peut correspondre à l’approche réalisée par la clôture<br />

opérationnelle [[205]] : le système est clos, mais en interaction permanente avec son<br />

environnement, en partageant une information de même nature. Le système n’est plus<br />

en boucle ouverte dans son environnement, interagissant selon le même algorithme<br />

perception-traitement-action. Il fait partie du système global, chaque partie, le système et<br />

son complément, étant en rétroaction réciproque 8 .<br />

En deçà de cette vision philosophique d’une unification des systèmes, le simple fait de<br />

traiter une information dynamique, et d’assimiler la représentation d’un système à sa<br />

dynamique, permet de ne pas éliminer a priori certaines des propriétés observables dans<br />

un système réel.<br />

Cette description bas niveau se fait sur deux plans : celui du réel, ou monde environnant,<br />

et celui du modèle connexionniste. Cette idée sera sous-tendue par deux hypothèses,<br />

celle de l’apprentissage par forçage (5.2 Principes , p.98), et par celle du tout<br />

dynamique. Il est difficile d’affirmer que cette phase sera la dernière, car beaucoup de<br />

questions sont encore posées, et de nombreux modèles restent certainement à venir 9 ,<br />

mais cette évolution semble aujourd’hui naturelle dans les recherches sur le<br />

connexionnisme. Il suffit pour s’en convaincre de voir l’évolution symptomatique prise<br />

par Hopfield [[98]], qui étudie de nouveaux modèles où l’encodage est réalisé par les<br />

phases inter-neuronales.<br />

2.2.2 L’hypothèse du tout dynamique : approche d’un système général<br />

Cette description en trois phases de l’évolution de l’encodage permet de vérifier que la<br />

modélisation descend de plus en plus bas dans la description du phénomène à modéliser.<br />

Aujourd’hui, notre connaissance du monde physique a brisé la vision conceptuelle que nous en<br />

avions : chaque objet n’est plus une entité indépendante, aux propriétés découlant de sa nature,<br />

mais la manifestation d’une organisation sous-jacente de molécules : la «vertu dormitive» a été<br />

remplacée par des propriétés chimiques, dues à l’architecture de la molécule,<br />

De la même façon, les caractéristiques des objets qui nous entourent seront ramenées au<br />

premier niveau de description permettant de rendre leur caractère dynamique pertinent : une<br />

8 Ou, dit d’une façon plus poétique par Paul Valéry : « L’homme pense, donc je suis », dit l’Univers.<br />

PREMIERE PARTIE : ANALYSE


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

couleur à sa fréquence, un son à son spectre, une image à un signal stationnaire. Il est intéressant<br />

de remarquer que lorsque l’information ne possède pas de nature dynamique propre, les premiers<br />

étages de traitement le rendent dynamique : une image fixe est transmise dans le nerf optique par<br />

des trains de spike, la valeur d’une variable biologique est encodée sous forme de fréquence. Par<br />

exemple la sensation de température est ramenée à une valeur relative, la rendant dynamique par<br />

comparaison à une valeur moyenne.<br />

L’idée de cette thèse est d’imaginer le cerveau en relation directe avec son<br />

environnement. Il n’y a pas d’intermédiaire que l’on se doit de modéliser (par exemple le langage).<br />

Il n’y a pas de boite noire, possédant ses entrées et ses sorties. Il n’y a pas de différence<br />

fondamentale entre les sources d’information sensorielle (vue, ouïe, toucher...) [[168]].<br />

L’apprentissage cérébral consiste à organiser les réactions aux percepts de sources différentes,<br />

empruntant des canaux nerveux différents, mais de même ‘encodage’ dynamique. Nous aurons<br />

besoin, pour justifier cette approche, de supposer que les stimuli externes peuvent être décrit sous<br />

une même forme. Cette hypothèse sera celle du ‘tout-dynamique’:<br />

Il existe un niveau de description où l’effet d’un système sur un autre peut être réduit<br />

sous forme dynamique.<br />

Dès lors, notre environnement peut être vu comme un ‘tout dynamique’, permettant<br />

d’approcher l’idée d’un système général. Selon cette vision, le tout est assimilé à un système<br />

dynamique, composé de sites (variables d’états), en permanente interaction via des lois<br />

(fonctions). Dans la suite de cette thèse, et par conformité aux modèles connexionnistes, une<br />

variable d’état sera assimilée à un site. Un système sera alors conçu comme étant une simple<br />

sous-partie de ce système général. Ainsi, tout système possède un intérieur, et un extérieur, dont<br />

les sites seront respectivement conçus comme des variables d’état et des paramètres de contrôle<br />

(Figure 2-4). L’ensemble de ces paramètres de contrôle, extérieurs au système, sera assimilé à<br />

l’environnement du système. Selon cette approche :<br />

L’environnement du système est l’ensemble des sites pouvant modifier la dynamique de<br />

l’un des sites du système.<br />

9 De nouvelles architectures apparaissent aujourd’hui, qui descendent beaucoup plus bas niveau dans la<br />

modélisation du réel. Les ordinateurs quantiques en sont un exemple.<br />

ENCODAGE DYNAMIQUE, MEMOIRE ET CHAOS 29


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Ce sera donc l’ensemble<br />

des sites du système général qui<br />

peuvent être reliés à l’un des sites<br />

du système par une succession<br />

de lois. Dans ce modèle,<br />

percevoir sera assimilé à ‘être<br />

perturbé par’ : pour qu’un système<br />

perçoive la modification d’un site<br />

extérieur à lui, il est nécessaire<br />

que ce site l’ait modifié. Par<br />

définition, l’ensemble des sites qui<br />

composent un système lui sont<br />

perceptibles, puisque leurs<br />

modifications sont<br />

immédiatement perçues ! Le<br />

système fait partie de son<br />

environnement. Ainsi, nous ne<br />

30<br />

Figure 2-4 : Le tout dynamique<br />

Le système percevant est de même nature dynamique que son<br />

environnement. La perception n’est plus qu’une interaction entre<br />

l’intérieur et l’extérieur d’un système, sans nécessité d’encodage.<br />

percevrions du système général que l’environnement qui produit en nous des perturbations<br />

internes 10 .<br />

L’ensemble des sites sont en permanente et parallèle co-évolution : chaque site se voit<br />

modifié par son environnement, et le modifie par son changement. L’aspect dynamique de ce<br />

système général est essentiel, car, si l’un des sites est statique, il ne pourra en rien modifier<br />

l’évolution d’un autre site : il sera comme non perçu, immuable, car dans l’incapacité de modifier<br />

un quelconque système, ou de s’adapter. Selon cette hypothèse, le langage n’est plus une<br />

description du réel, mais une organisation d’éléments du réel que nous apprenons à associer aux<br />

sources d’information simultanément perçues : dynamique de l’écriture du mot chat, dynamique<br />

des sonorités du son CHA, dynamique de la perception de l’image d’un chat, dynamique de son<br />

miaulement (Figure 2-1, p.23). L’intérêt du langage est de réaliser un partitionnement des<br />

perceptions que nous avons du monde réel, en associant un nombre fini d’items, et en permettant<br />

de les faire partager entre les individus, grâce à la mise en commun par l’éducation de ce<br />

partitionnement. Si, lors de l’apprentissage d’un mot, l’objet nommé n’est pas perçu, il est<br />

nécessaire de le rappeler en mémoire grâce à la stimulation par un percept déjà associé ( par<br />

exemple image+mot, son+mot...).<br />

Cette hypothèse ne postule pas que cette description de notre environnement soit<br />

suffisante pour expliquer l’ensemble des phénomènes que nous observons, mais son intérêt réside<br />

dans sa capacité à décrire l’ensemble de notre environnement sous une même forme, et de<br />

pouvoir relier les phénomènes de mémorisation à cette forme. L’intérêt qui s’ensuit est de pouvoir<br />

associer l’ensemble de ces stimuli extérieurs, sonores, visuels, olfactifs ou encore proprioceptifs, à<br />

une dynamique qui modifie les dynamiques internes du système percevant. Cette approche sera<br />

essentielle pour le modèle développé durant cette thèse (5.2.1 Perturbation par diffusion du<br />

forçage des dynamiques, p.98), puisqu’elle permet de décrire les phénomènes de mémoire et de<br />

10 Le modèle décrit ici ne se veut en aucun cas une copie du réel : il s’agit d’une représentation du monde où<br />

évoluent nos systèmes. Son intérêt est d’offrir un support d’interprétation des propriétés que nous observons<br />

dans le cadre réel.<br />

PREMIERE PARTIE : ANALYSE


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

reconnaissance sous la forme d’une activité dynamique cérébrale, et non plus, comme c’était le<br />

cas dans la première phase de l’encodage, sous la forme de représentants.<br />

Cette idée n’est pas nouvelle, et fut même abordée par Bergson [[17]] en 1896 :<br />

2.2.3 Intérêts de l’approche connexionniste<br />

[Les théories de la reconnaissance] veulent faire sortir toute<br />

reconnaissance d’un rapprochement entre la perception et le souvenir ;<br />

mais l’expérience est là, qui témoigne que, le plus souvent, le souvenir<br />

ne surgit qu’une fois la perception reconnue. Force est donc de rejeter<br />

dans le cerveau, sous forme de combinaison entre des mouvements ou de<br />

liaison entre des cellules, ce qu’on avait annoncé d’abord comme une<br />

association entre des représentations [...].<br />

Ainsi, il semble possible de traiter directement le caractère dynamique de l’information,<br />

mais ce choix ne suffit pas à déterminer le support de cette modélisation. Par chance, un grand<br />

nombre de modèles similaires ont été développés à ce jour, ce qui permet de rassembler tous ces<br />

supports possibles sous un seul terme, celui de réseaux de neurones. Nous préférerons<br />

néanmoins à ce terme qui privilégie l’aspect neuromimétique, le terme équivalent de modèles<br />

connexionnistes, qui privilégie la caractéristique de distribution de l’information, sans dissimuler sa<br />

nature de modèle. L’ensemble des recherches réalisées sur ceux-ci nous permet de mettre en<br />

avant certains intérêts de l’approche connexionniste.<br />

1. Nature émergente des propriétés du système<br />

Ce terme d’émergence [[52]][[133]], utilisé très souvent pour signifier qu’un système<br />

étudié possède des comportements non prévus par son concepteur, a un aspect<br />

magique. Afin d’éviter une telle interprétation, voici une définition qui semble suffisante<br />

au propos de cette thèse :<br />

Est qualifiée d’émergente toute propriété qui n’est pas explicitement contenue dans les<br />

lois définissant les interactions des sous-parties du système, mais qui est observable a<br />

posteriori dans le système entier.<br />

Selon cette définition, la nature décroissante de l’énergie d’un réseau à<br />

rétropropagation du gradient ne peut pas être définie comme émergente, car la règle<br />

d’apprentissage a été préétablie à l’échelle du réseau pour l’obtention de cette propriété.<br />

Par contre, la nature décroissante de l’énergie d’un réseau à apprentissage Hebbien peut<br />

être considérée comme émergente, car cette propriété ne découle pas de sa recherche<br />

explicite, mais d’une étude biologique à l’échelle neuronale.<br />

Ainsi, il est nécessaire pour qu’un système présente des propriétés émergentes, de<br />

pouvoir le décrire et l’analyser à deux niveaux différents :<br />

à le niveau de description des lois des sous parties du système<br />

à le niveau d’observation des propriété du système.<br />

Ce sera là l’une des contraintes imposées à la description des modèles de cette thèse :<br />

décrire les lois du système au niveau neuronal, et analyser ensuite les propriétés du<br />

comportement global des populations neuronales (Chap.7, Dynamiques observées,<br />

p.143). Par définition, cette notion d’émergence est fort subjective, puisqu’elle dépend<br />

ENCODAGE DYNAMIQUE, MEMOIRE ET CHAOS 31


32<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

de la méconnaissance a priori que le concepteur a de son système 11 . Ainsi l’intérêt que<br />

nous trouvons dans la nature émergente d’une propriété résulte plus d’une certaine<br />

approche épistémologique que d’une caractéristique véritable de cette propriété. Notre<br />

méthode consistera donc à observer les propriétés du système a posteriori, en postulant<br />

que la même méthode doit être appliquée à leur comparaison aux ‘propriétés naturelles’<br />

; ceci, en admettant que la plupart de nos comportements sont émergents, car ils<br />

résultent d’une observation a posteriori, et non d’une loi spécifique à chacun d’entre eux<br />

[[61]].<br />

2. Support d’information distribuée<br />

Une des notions qui découle de l’utilisation d’un modèle connexionniste est celle de<br />

distribution de l’information : une information n’est plus encodée par la valeur d’un<br />

neurone, mais par l’organisation de la population neuronale. Cette modification de la<br />

nature de l’encodage amène trois éléments principaux, confortant l’approche choisie<br />

dans cette thèse :<br />

a. Unification mémoires/organes de traitement<br />

La comparaison des machines de Turing au système cérébral fit longtemps partie<br />

des arguments suffisants de l’intelligence artificielle : le cerveau était une machine,<br />

traitant de l’information externe, grâce à des capteurs, et agissant sur son<br />

environnement, via des effecteurs. Le cerveau pouvait être assimilé à un organe de<br />

traitement de l’information. Les modèles connexionnistes remettent en cause ce point<br />

de vue en rassemblant la partie de traitement et le support de la mémoire dans un<br />

même système. Ce point de vue, relevé par [[4]], permet de voir l’un des principaux<br />

avantages du connexionnisme : le neurone est à la fois support et intermédiaire de<br />

traitement, il est paramètre et fonction. Cette vision s’accorde avec l’idée d’un<br />

système plongé dans son environnement, selon l’hypothèse du tout dynamique,<br />

présentée précédemment.<br />

b. Récupération par le contenu<br />

Pour retrouver une information enregistrée, l’encodage par représentant scalaire<br />

fixe nécessite la connaissance de l’emplacement du représentant pour aller lire sa<br />

valeur (par exemple, contenu de la mémoire 0x6AC4). Dans le cas d’un système<br />

distribué, il suffit de « décrire ce qui est cherché », pour que le système le retrouve (si<br />

un apprentissage efficace a été réalisé). Cette constatation courante peut être<br />

complétée par trois autres qui s’inscrivent dans l’approche utilisée dans cette thèse.<br />

Premièrement, la « description de ce qui est cherché » peut être vue comme une<br />

perturbation du système : on modifie ses entrées pour modifier son comportement.<br />

Cette constatation permet de s’approcher de la notion de clôture du système, qui sera<br />

abordée lors de la description de notre modèle. En effet, une des voies envisageables<br />

pour l’apprentissage peut être de chercher à minimiser la perturbation induite par<br />

l’environnement.<br />

11 Il suffit ainsi de concevoir un système au hasard, sans rien chercher à connaître a priori, pour pouvoir<br />

qualifier chacune de ses propriétés d’émergente.<br />

PREMIERE PARTIE : ANALYSE


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Deuxièmement, il n’est pas nécessaire de posséder de table d’équivalence entre<br />

l’objet et son encodage (par exemple la mémoire 0x6AC4 contient la couleur de<br />

l’objet analysé) : il n’y a pas d’utilisation de code, puisque le système possède une<br />

réponse de même nature que l’information entrée. Cette idée sera la base de<br />

l’utilisation du Forçage, ou Teacher Forcing, qui complète la notion précédente de<br />

clôture du système (Perturbation par diffusion du forçage des dynamiques, p.98).<br />

Troisièmement, il est possible de voir cette réponse du système comme la<br />

réalisation d’une association entre la « description de ce qui est cherché », et la sortie<br />

du système. D’une certaine façon, cet encodage distribué réalise des associations ; il<br />

sera aussi à la base de notre modèle, la modularisation fonctionnelle observable a<br />

posteriori n’étant vue que comme le résultat d’associations entre plusieurs entrées<br />

(Association multimodale des forçages, p.112).<br />

c. Robustesse du système<br />

Une caractéristique de la représentation distribuée est sa capacité à conserver la<br />

validité de l’information mémorisée malgré la destruction progressive du système, ou<br />

la modification de l’information présentée. Il est donc nécessaire de réaliser une<br />

association globale entre ces différentes perceptions, robuste à une modification<br />

interne (destruction synaptique) ou externe (information bruitée) du système, si l’on<br />

souhaite les associer au même concept.<br />

Cette robustesse du système est à l’origine d’une contradiction entre les propriétés<br />

souhaitées : il doit être robuste au bruit, et sensible à de petites variations, car il doit<br />

parfois classer, dans des concepts éloignés, des percepts proches. Cette<br />

contradiction est par chance l’une des principales propriétés des attracteurs des<br />

systèmes chaotiques : ils peuvent posséder de larges bassins d’attraction (robustesse<br />

à une information bruitée), et être sensibles aux conditions initiales (à de petites<br />

variations). Cette similitude de propriétés a orienté rapidement cette thèse vers<br />

l’étude de réseaux à dynamiques chaotiques.<br />

3. Capacités d’adaptation du système<br />

S’ajoute à ces capacités d’émergence de comportement et de représentation<br />

distribuée de l’information, la nature dynamique même des paramètres du modèle<br />

connexionniste. Contrairement à l’approche symbolique, il n’est plus nécessaire de<br />

formaliser des méta-règles modifiant les lois du système. L’information étant encodée<br />

par un comportement, il suffit de modifier ce comportement pour modifier les propriétés<br />

du système. Dans cette thèse, le système percevant modifie ses dynamiques pour<br />

chercher à s’adapter à son environnement. Comme nous le verrons par la suite, nous<br />

chercherons à justifier cette adaptation à l’environnement par les propriétés mnésiques<br />

du système autonome.<br />

ENCODAGE DYNAMIQUE, MEMOIRE ET CHAOS 33


34<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

2.2.4 Intérêts de l’encodage par les dynamiques<br />

1. Moins d’étapes entre l’objet et son encodage<br />

Cette notion à été présentée dans l’introduction du chapitre : l’évolution en parallèle<br />

de la description des modèles connexionnistes et des modèles du monde réel peut nous<br />

permettre d’envisager un support commun et partagé d’information.<br />

Il est donc possible d’espérer obtenir une plus grande gamme des propriétés<br />

observées dans les systèmes naturels, grâce à l’abandon d’une couche intermédiaire de<br />

traitement entre le réseau et son environnement. Toute couche intermédiaire entre un<br />

système perceptif et son environnement a pour effet de diminuer la quantité<br />

d’information transmise. Ce faisant, toute couche intermédiaire appauvrit l’information<br />

extérieure, et risque donc de faire perdre a priori des données nécessaires au système.<br />

Ainsi, le choix de descendre à un niveau assez bas, à la fois dans la description du<br />

modèle connexionniste, et dans celle du réel peut permettre d’avoir un couplage optimal<br />

entre les deux, en ne décidant pas a priori de l’information pertinente qui doit être<br />

transmise.<br />

2. Plus grand nombre de systèmes potentiels<br />

Les premiers modèles Hopfieldiens [[96]][[97]] qui relancèrent le connexionnisme<br />

étudient des réseaux où l’encodage est réalisé par les points fixes du réseau,<br />

correspondant à des minima d’énergie. Afin que les réseaux étudiés convergent vers ces<br />

points fixes, il est nécessaire d’imposer de fortes contraintes au système 12 .<br />

La contrainte la plus forte garantissant la convergence du réseau vers un point fixe<br />

est celle de symétrie des connexions, qui impose que deux neurones soient reliés l’un à<br />

l’autre par des connexions de même force, soit :<br />

" i, " jw , = w<br />

ij ji<br />

Ou, contrainte moins forte, prouvée par Almeida [[2]] :<br />

$ a / " i, " j, a w = a w<br />

i j ij i ji<br />

La perte de la nécessité de ces contraintes donne accès à un bien plus grand nombre de<br />

réseaux, dont on ne connaît pas bien encore toutes les propriétés. Le champ<br />

d’investigation devient donc plus vaste. Malheureusement, hors de ces contraintes, il<br />

existe peu de théorèmes généraux, ce qui nous contraint à une approche presque<br />

exclusivement expérimentale.<br />

3. Meilleur encodage sans couches cachées<br />

Un autre intérêt de l’encodage par les dynamiques du réseau est d’augmenter la taille<br />

de l’espace d’état du réseau : ainsi, dans l’exemple ci dessous, la même dynamique d’un<br />

réseau peut être interprétée de deux façons. La première ne tient compte que de l’état<br />

final du réseau, tandis que la deuxième utilise plusieurs paramètres de la dynamique<br />

pour l’encodage.<br />

12 Une synthèse de ces contraintes peut être trouvée dans [[148]]<br />

PREMIERE PARTIE : ANALYSE


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Cette augmentation de la dimension de l’espace d’état du réseau permet non<br />

seulement d’augmenter la taille de la mémoire disponible dans un même réseau, mais<br />

aussi d’améliorer les capacités théoriques de cet encodage. De cette façon, l’encodage<br />

par la dynamique du réseau peut permettre de prendre en considération l’amortissement<br />

p et la période w de certaines dynamiques (L’utilisation des paramètres des dynamiques<br />

du système comme support de l’information, grâce à l’augmentation de la dimension de<br />

l’espace d’état du système, autorise une plus grande capacité d’encodage.<br />

Figure 2-5). Ce type d’encodage sera envisagé lors de l’étude du rôle possible des<br />

dynamiques chaotiques (6 Mémorisation par les mesures de l’attracteur, p.57).<br />

En effet, dans l’exemple classique de l’apprentissage d’une fonction XOR, sa nonséparabilité<br />

linéaire peut être résolue par l’utilisation d’un plus grand nombre de<br />

paramètres pour l’encodage de la sortie du réseau. C’est, d’une certaine façon, ce qui est<br />

réalisé par l’utilisation de couches cachées dans les réseaux feed-forward : il existe des<br />

paramètres intermédiaires pour le calcul de la sortie du réseau, qui sont cachés dans les<br />

couches internes du réseau. Dans le cas d’un encodage par les dynamiques, ces<br />

paramètres sont contenus dans celles-ci, et ils peuvent permettre de segmenter plus<br />

efficacement l’espace d’état du réseau. Ainsi, l’utilisation d’un réseau encodant<br />

l’information par ses dynamiques permet d’éviter l’utilisation de couches cachées en<br />

augmentant le nombre de paramètres pertinents pour l’encodage.<br />

Figure 2-5 : Meilleure capacité de l'encodage par les dynamiques<br />

L’utilisation des paramètres des dynamiques du système comme support de l’information,<br />

grâce à l’augmentation de la dimension de l’espace d’état du système, autorise une plus<br />

grande capacité d’encodage.<br />

ENCODAGE DYNAMIQUE, MEMOIRE ET CHAOS 35


36<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Cette idée d’utilisation de dynamiques à la place de paramètres cachés se retrouve dans<br />

le modèle d’Aityan [[1]], qui a obtenu la modélisation d’une fonction XOR dans un réseau<br />

à une seule couche, grâce à l’utilisation de périodes réfractaires (4.Modèles réfractaires,<br />

p.67)<br />

D’une certaine façon. il est possible d’assimiler un réseau feed-forward à N couches<br />

comme une première approximation d’un réseau dynamique pendant N itérations. Ceci<br />

est l’approche utilisée dans l’algorithme d’apprentissage BPTT, qui déplie dans le temps<br />

un réseau récurrent afin d’obtenir son équivalent feed-forward (4.4.2 .Back-propagation<br />

through time, p.85).<br />

4. Prise en compte du passé<br />

Dans un réseau d’architecture feed-forward, une même entrée provoque la même<br />

sortie, et il y a eu apprentissage d’association entrée-sortie. Ceci représente une grave<br />

limite à ce type de réseau, car, comme le remarquait Hebb [[88]] :<br />

If mind is a brain process [...] we could not hear the clock strike twelve;<br />

the brain gets the same message twelve times, so, if that is all there is,<br />

what one would hear is the clock striking one over and over again [...]<br />

Ainsi, le fait d’associer une entrée à une sortie, comme cela est réalisé dans la plupart<br />

des modèles connexionnistes actuels à architecture feed-forward, ne permet pas de<br />

différencier le même événement qui se succède, car la nouvelle entrée efface l’état du<br />

réseau. Ceci représente une limite sur plusieurs plans.<br />

Sur un plan architectural : les réseaux qui cherchent uniquement à réaliser des<br />

associations entrée-sortie ne sont pas à même de pouvoir compter la répétition<br />

temporelle d’un même événement. Ce type de remarque permettra d’éliminer la plupart<br />

des architectures à couches non récurrentes (2 Architectures récurrentes, p.71).<br />

Sur le plan comportemental : dans un réseau feed-forward, toute nouvelle entrée efface<br />

l’ensemble des activités précédentes des neurones. Dans des réseaux dynamiques, la<br />

prise en compte du passé est naturelle, et peut permettre l’interprétation de l’état du<br />

réseau en termes de trajectoire [[219]], d’attracteur [[180]] ou encore de réverbération<br />

[[4]]. En effet, l’information extérieure vient s’ajouter à la dynamique du réseau, à son<br />

histoire. L’état du réseau à chaque instant dépend donc de son passé, et des<br />

modifications dues à l’extérieur.<br />

Ainsi, un tel réseau peut posséder la capacité d’énumérer le même événement, car il n’y<br />

a pas de raison qui fasse que la dynamique au douzième coup d’horloge soit la même<br />

que celle du premier ou deuxième coup.<br />

5. De nouveaux supports pour l’information<br />

Malgré l’introduction de la notion de réseau uni à son environnement (p.28), se pose<br />

toujours le problème du critère de reconnaissance : comment peut-on savoir que le<br />

réseau a reconnu l’objet qu’on lui présentait ? L’idéal fonctionnaliste serait que l’objet soit<br />

nommé par le réseau grâce à un apprentissage associationniste, sans ce soucier de sa<br />

mécanique interne : sa réussite dans les tâches présentées serait le garant de son<br />

efficacité. Nous retrouverions là l’idée initiale de cette thèse consistant à valider un<br />

PREMIERE PARTIE : ANALYSE


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

modèle par la stricte et unique observation de ses propriétés observables ou<br />

émergentes.<br />

Mais, afin de pouvoir réaliser cette modélisation, il est nécessaire de comprendre les<br />

mécanismes inhérents au phénomène de reconnaissance. Il faut donc que l’étage que<br />

nous avions éliminé entre la perception et le réseau grâce à l’hypothèse du tout<br />

dynamique, nous l’utilisions entre le réel et le réseau. Il nous faut donc une fonction<br />

booléenne de l’état du réseau qui puisse affirmer que l’objet a été reconnu, quitte à<br />

perdre par cette sur-couche la possibilité d’observer certaines propriétés internes du<br />

système.<br />

L’ajout du temps dans l’encodage de l’information donne accès à de nombreux outils<br />

mathématiques et à de nouvelles interprétations du support de l’encodage dans le<br />

réseau. Plusieurs approches d’observation et de quantification de l’état de<br />

reconnaissance du réseau sont alors envisageables à ce niveau de la thèse :<br />

à Synchronisme du réseau<br />

Dans ce type d’encodage,<br />

l’information est portée par<br />

le synchronisme de la<br />

totalité du réseau; l’objet a<br />

été reconnu si les neurones<br />

du réseau sont tous en<br />

phase. Ce type de réseau<br />

possède malheureusement<br />

une très faible capacité<br />

cognitive, puisque le réseau<br />

ne possède que deux états :<br />

reconnu ou non-reconnu. Ce<br />

type de réseau ne sait<br />

effectuer qu’une seul tâche<br />

pour un ensemble de<br />

percepts donné.<br />

à Déphasage neuronaux<br />

Cet encodage est une<br />

généralisation du<br />

précédent, permettant<br />

d’augmenter de nombre de<br />

percepts représentés :<br />

chaque configuration de<br />

déphasage du réseau<br />

représente un état. Il s’agit<br />

là de l’approche<br />

récemment développée<br />

par Hopfield [[98]], et qui<br />

lui permet de justifier les<br />

propriétés d’invariance par<br />

homothétie, translation, ou<br />

rotation, puisque ces<br />

transformations ne<br />

modifient pas le paysage<br />

de phase du réseau.<br />

à Phase de populations neuronales<br />

Figure 2-6 : Encodage par les synchronismes<br />

Figure 2-7 : Encodage par les déphasages<br />

ENCODAGE DYNAMIQUE, MEMOIRE ET CHAOS 37


38<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Ici, c’est la géométrie des<br />

populations de neurones qui<br />

vérifient l’une des propriétés<br />

précédentes qui encode<br />

l’information. Ce type<br />

d’encodage est le plus riche,<br />

et semble être le plus proche<br />

des connaissances neurophysiologiques<br />

actuelles,<br />

puisqu’il permet naturellement<br />

de définir des notions de<br />

modularité dans le réseau, et<br />

même de mobilité de ces<br />

modules. Le problème est que<br />

ce type d’encodage se fait en<br />

segmentant un espace d’état<br />

comportant des variables<br />

spatiales et temporelles, de<br />

Figure 2-8 : Encodage par les populations<br />

grande dimension. Il est ainsi difficile de savoir précisément dans quel état est le réseau.<br />

Nous privilégierons cette troisième approche de l’encodage, qui semble actuellement la<br />

plus en accord avec les données neurophysiologiques actuelles. En effet, il a été montré<br />

récemment que les synchronismes observés dans les premiers étages visuels lors de la<br />

perception de bandes inclinées, sont regroupés par populations qui vérifient une<br />

géométrie précise dépendant de l’inclinaison perçue [[212]]. De plus, les images<br />

fonctionnelles cérébrales (PET-scanner, MEG, etc...) peuvent être interprétées en terme<br />

de synchronisation : sans activité cérébrale, les dynamiques individuelles des neurones<br />

sont désynchronisées, engendrant ainsi une activité globale moyenne stable et faible. En<br />

effet, tout comme la somme de deux sinusoïdes est nulle, si celles-ci sont déphasées de<br />

p<br />

2 , la moyenne des activités neuronales est atténuée, car les activités neuronales<br />

individuelles s’annulent les unes les autres. Mais, tout comme la somme de deux<br />

sinusoïdes est maximale pour un déphasage nul, l’activité globale d’une population<br />

neuronale est maximale lorsque les activités individuelles sont en phase. De cette façon<br />

apparaissent des pics d’activité, par rapport aux zones désynchronisées, dans les<br />

régions de populations neuronales synchronisées. Ainsi, les images fonctionnelles<br />

cérébrales indiquent les populations neuronales synchronisées, validant ainsi l’hypothèse<br />

d’une activité mentale fondée sur les synchronismes de populations neuronales. Cela<br />

conduit à dire que les activités isophases sont synchronisées, et les activités<br />

isofréquences sont synchronisables. Ceci nous a poussé à étudier dans nos modèles à la<br />

fois les paysages d’isofréquence (Figure 7-4, p.148) et d’isophase (Figure 7-14, p.158).<br />

Comme nous le verrons dans les paragraphes à venir, le ‘grand nombre’ d’isofréquences<br />

dans les dynamiques chaotiques permet une bonne ‘synchronisabilité’ potentielle de<br />

populations neuronales.<br />

2.2.5 Des dynamiques au chaos<br />

Lors du développement de nos modèles, nous avons été rapidement confrontés à des<br />

dynamiques chaotiques (Chap.7, Dynamiques observées, p.143) : fallait-il les éliminer en les<br />

considérant nuisible pour notre étude, car l’encodage par les synchronismes décrit précédemment<br />

deviennent plus délicats, ou au contraire fallait-il tenter de les utiliser ? Plusieurs arguments nous<br />

poussèrent à les conserver. Tout d’abord, leur caractère émergent. Selon la définition donnée, les<br />

propriétés des dynamiques chaotiques peuvent être considérées comme émergentes, puisque la<br />

sensibilité aux conditions initiales, l’aspect attractif, ne sont pas explicitement contenus dans les<br />

PREMIERE PARTIE : ANALYSE


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

équations du système. De plus, ces dynamiques possèdent par nature les propriétés de<br />

robustesse et de sensibilité qui sont caractéristiques de la mémoire, rendant naturelle l’idée de<br />

décrire les phénomènes observés en termes d’attracteurs. Afin de mieux présenter les orientations<br />

de cette thèse, nous exposerons donc brièvement les caractéristiques des dynamiques<br />

chaotiques, et leur intérêt dans l’approche connexionniste. Non pas en postulant que le chaos est<br />

la mémoire du système, mais en utilisant le chaos comme support descriptif commun à nos<br />

réseaux et au fonctionnement cérébral 13 . Puis, nous synthétiserons les nouveaux types<br />

d’encodage de l’information que permettent ces dynamiques. Un des premiers systèmes où le<br />

chaos a été mis en évidence, a été découvert par Lorenz en 1960, l’attracteur de Lorenz (Figure 2-<br />

9) étant depuis représenté dans la quasi-totalité des ouvrages du domaine. Sa définition est<br />

simple, et correspond au système dynamique :<br />

{ Xt (), Yt (), Zt ()} avec<br />

ìdX<br />

ï<br />

= PrY . . - PrX ..<br />

dt<br />

ï<br />

ïdY<br />

í =- X. Z + r. X -Y<br />

ïdt<br />

ïdZ<br />

= X. Y -bZ<br />

î<br />

ïdt<br />

Pour certaines valeurs de P,r et b, ce système possède un comportement chaotique. Les<br />

raisons du succès de cet attracteur sont probablement visuelles, car il offre une représentation<br />

claire de la plupart des propriétés qui caractérisent les dynamiques chaotiques. Tout d’abord, ce<br />

système possède trois variables d’état et peut donc facilement être visualisé. De plus, l’objet<br />

obtenu permet de voir immédiatement la nature dynamique de l’attracteur, en suivant les<br />

trajectoires du système dans l’espace d’état.<br />

13 Ainsi, cette approche ne signifie pas que le chaos est le support naturel de la mémoire, mais que, comme<br />

le confirment de nombreuses études récentes, la non-linéarité neuronale, le grand nombres de neurones<br />

(plus de cent milliards), leur couplage synaptique dense (de 1000 à 10000 connexions par neurone), rendent<br />

plus que probable la nature chaotique du fonctionnement cérébral. Nous ne prendrons donc pas ici la théorie<br />

du chaos comme explicative, mais comme descriptive des phénomènes observés dans la mémoire.<br />

ENCODAGE DYNAMIQUE, MEMOIRE ET CHAOS 39


40<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

D’autre<br />

Figure 2-9 : L'attracteur de Lorenz<br />

Les états successifs {X,Y,Z} du système de Lorenz sont représentés dans leur espace<br />

part, la nature d’état, et permettent de visualiser l’attracteur du système. Le zoom montre que deux<br />

bimodale de trajectoires proches peuvent bifurquer, illustrant ainsi la sensibilité qux conditions<br />

l’attracteur est initiales de ce système.<br />

caractéristique, et permet de bien visualiser que le système fait des sauts d’une boucle à l’autre,<br />

de façon qui semble imprédictible. Autre intérêt de cet objet, il contient clairement la cause de son<br />

instabilité apparente : les trajectoires peuvent être aussi proches que l’on veut, puis se séparer au<br />

bout d’un certain temps (zoom de la Figure 2-9). En dernier lieu, ce système est simple, ne faisant<br />

appel qu’à des opérations classiques d’addition et de multiplication, ce qui ajoute encore à son<br />

efficacité. Il permet ainsi de conceptualiser ce continuum entre système prédictibles, systèmes<br />

non prédictibles, et systèmes aléatoires.<br />

Ainsi, le système de Lorenz permet de se représenter simplement la plupart des<br />

propriétés caractéristiques des dynamiques chaotiques. Utilisons-le pour mettre en avant les<br />

avantages que représentent ces dynamiques pour leur usage dans les modèles connexionnistes,<br />

et comme source d’inspiration pour de nouveaux supports de l’encodage.<br />

1. Utilisation d’attracteurs<br />

La notion d’attracteur est liée au connexionisme depuis les premiers modèles de<br />

Hopfield : l’évolution du réseau conduit celui-ci vers des points fixes, et le paysage des<br />

bassins d’attraction représente d’une certaine façon la mémoire du système. De cette<br />

façon, chaque input (état initial du réseau) est associé à un concept fixe (état final du<br />

réseau).<br />

PREMIERE PARTIE : ANALYSE


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Figure 2-10 : Visualisation de l'aspect attractif<br />

En lachant le système de Lorenz pour des valeurs {X(0),Y(0),Z(0)} situées dans le<br />

bassin d’attractions, l’état du système finit par rejoindre l’attracteur.<br />

De la même façon, si l’état initial d’un système à dynamique chaotique est éloigné de<br />

son attracteur, les variables d’état de ce système convergent vers lui : on peut ainsi voir<br />

sur la Figure 2-10 l’évolution de quatre conditions initiales différentes, toutes situées<br />

dans le bassin d’attraction de l’attracteur de Lorenz. Les quatre trajectoires convergent<br />

vers le même attracteur, et finissent toutes par évoluer sur cet attracteur. De façon<br />

simple, il est possible d’associer ce phénomène à celui de la reconnaissance : le<br />

système converge vers le concept reconnu lorsque le percept se situe dans son bassin<br />

d’attraction. La propriété d’attraction des dynamiques chaotiques entretient cette<br />

interprétation des dynamiques du réseau. De cette façon, il est possible d’obtenir des<br />

concepts hybrides : l’image d’un éléphant, dont on diminuerait la longueur de la trompe,<br />

et dont on raccourcirait la queue, peut être modifiée en celle d’un cochon. Ces<br />

modifications correspondent à un déplacement des variables d’état de l’image perçue, et<br />

permet au système de sortir du premier bassin d’attraction (éléphant), pour basculer<br />

dans le second (cochon), A un niveau intermédiaire entre ces deux états, qui correspond<br />

à la frontière des bassins d’attraction, se produit un ‘basculement sémantique’ de<br />

l’interprétation de l’image perçue. Ainsi, une première idée peut être de réaliser une<br />

association percept-attracteur : il y aurait un attracteur distinct pour chaque classe de<br />

percept à reconnaître, et les frontières délimitant les bassins d’attractions<br />

correspondraient aux limites des concepts évoqués. D’une certaine façon, il s’agit d’une<br />

prolongation de l’idée de neurone spécifique : il y aurait un attracteur-banane, ou un<br />

attracteur-grand-mère.<br />

2. Sensibilité aux conditions initiales<br />

ENCODAGE DYNAMIQUE, MEMOIRE ET CHAOS 41


42<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

L’utilisation du chaos comme<br />

principe descriptif de la mémoire<br />

humaine, peut permettre de<br />

concilier les idées de<br />

déterminisme et d’autonomie,<br />

souvent consi-dérées comme<br />

contradictoires. En effet, comme<br />

le décrit Russel, à un instant<br />

donné, l’environnement réel de<br />

deux systèmes percevants autonomes<br />

différents est différent.<br />

Donc, si nous supposons que cet<br />

environnement est assimilable<br />

aux conditions initiales du<br />

système, les deux systèmes<br />

peuvent avoir une évolution<br />

[...] les choses dont je peux me souvenir me sont arrivées, à moi. [...].<br />

On pourrait objecter que deux personnes peuvent se rappeler le même<br />

événement, mais ce serait une erreur : deux personnes ne voient jamais<br />

exactement la même chose, à cause des différences entre leurs positions.<br />

PREMIERE PARTIE : ANALYSE<br />

Bertrand Russell. Science et Religion. p.103<br />

Figure 2-11 : Sensibilité aux conditions initiales<br />

Pour deux conditions initiales proches, les états finissent<br />

par se séparer, tout en restant sur l’attracteur du<br />

système.<br />

propre, dépendante de leur état du moment. Cette dépendance du comportement du<br />

système à son état initial, à sa nature au moment de l’observation, le fait apparaître<br />

comme autonome pour tout autre système l’observant, car semblant non prédictible.<br />

Sur un plan plus pratique, cette sensibilité aux conditions initiales autorise une<br />

segmentation du paysage perceptif aussi fine que souhaitée, puisqu’à deux conditions<br />

initiales infiniment proches peuvent correspondre deux dynamiques différentes dans le<br />

réseau. Ceci peut être réalisé dans le cas où ce n’est plus l’attracteur global qui encode<br />

l’information (un attracteur par concept associé), mais sa dynamique interne. Dans ce<br />

cas, chaque attracteur encoderait plusieurs concepts, chaque dynamique pour une<br />

condition initiale donnée encodant la réponse du réseau à cette entrée.


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

3. Robustesse au bruit et synchronisation de la dynamique globale<br />

Malgré cet aspect imprédictible<br />

des dynamiques chaotiques (bien<br />

que déterministes), les attracteurs<br />

de ces dynamiques possèdent de<br />

bonnes capacités de robustesse<br />

au bruit. Si la dynamique d’une<br />

des variables d’état semble non<br />

prédictible, la géométrie de<br />

l’attracteur suivi par la dynamique<br />

des variables d’état du système<br />

montre une remarquable<br />

régularité, quelle que soit la<br />

condition initiale du système.<br />

Ainsi, un système chaotique<br />

possède ces deux propriétés<br />

quasi-contradictoires de sensibilité<br />

locale (à l’échelle de la<br />

trajectoire), et de grande<br />

robustesse globale ( à l’échelle de<br />

l’attracteur). Cette robustesse<br />

globale peut être mise à profit<br />

dans la reconnaissance<br />

d’information bruitée par des<br />

mémoires adressables par le<br />

contenu. Si l’on présente au<br />

réseau une entrée bruitée, le<br />

Figure 2-12 : Synchronisation d'oscillateurs couplés<br />

L’ajoût d’une composante aléatoire dans les<br />

paramètres du système d’oscillateurs couplés fait<br />

apparaître des synchronisations, et une périodicité<br />

des dynamiques locales (deux dernières lignes).<br />

Pourtant, lorsque les paramètres sont identiques,<br />

des régimes chaotiques étaient apparus (deux<br />

premières lignes).<br />

réseau convergera vers le même attracteur que si l’entrée présentée était non bruitée, à<br />

condition que ces deux entrées appartiennent au bassin d’attraction du même attracteur.<br />

Autre phénomène surprenant dans ces systèmes : le bruit peut favoriser le synchronisme<br />

du système. L’expérience [[24]], réalisée sur un réseau de 128x128 oscillateurs couplés,<br />

consiste à observer l’évolution des vitesses angulaires des oscillateurs, pour différentes<br />

configurations des paramètres du réseau. Chaque oscillateur est couplé à ses quatre<br />

plus proches voisins, et suit une loi du type :<br />

( )<br />

ml<br />

2&& q += gq& - mgl sinq + t¢+ tsinwt+ k q -q<br />

n i i i i j i<br />

j<br />

Dans le cas où l’ensemble des oscillateurs possède les mêmes paramètres, et est donc<br />

parfaitement isotrope, le réseau peut entretenir des dynamiques chaotiques (engendrées<br />

par des conditions initiales aléatoires), qui se propagent dans le réseau. Par contre, si la<br />

longueur de tiges oscillantes (variables li de l’équation précédente) devient une variable<br />

aléatoire, le réseau peut converger vers des comportements périodiques. Ce résultat est<br />

synthétisé sur la Figure 2-12, où l’on peut voir, en haut, l’évolution des états des<br />

oscillateurs couplés dans un réseau où tous les oscillateurs sont les mêmes, et en bas,<br />

l’évolution d’un réseau où la longueur l des tiges oscillantes varie d’une tige à l’autre<br />

entre plus et moins 20%. Aucune période n’apparaît dans les deux premières lignes du<br />

haut. Par contre, les deux lignes du bas sont parfaitement similaires, démontrant ainsi<br />

ENCODAGE DYNAMIQUE, MEMOIRE ET CHAOS 43<br />

å


44<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

qu’il existe un comportement périodique de l’ensemble du réseau : le réseau est donc<br />

synchronisé. Ceci montre que, curieusement, la variabilité neuronale peut être une<br />

source de synchronisation pour nos réseaux, et que des synchronismes peuvent<br />

émerger, sans être contenus de façon explicite dans les lois du système. Cette<br />

constatation va dans le sens où les synchronismes peuvent émerger dans des réseaux<br />

d’une grande complexité dynamique, possédant de nombreux paramètres individuels,<br />

semblables aux réseaux de neurones biologiques. Ainsi, dynamiques complexes et<br />

synchronisation de populations neuronales peuvent ne pas être incompatibles.<br />

4. Spectre à support dense<br />

Une autre propriété du chaos, qui<br />

peut être avantageuse pour notre<br />

propos, est que le spectre de Fourier<br />

d’une dynamique chaotique possède<br />

une bande continue de fréquences non<br />

nulles 14 . Cette caractéristique peut être<br />

intéressante pour la recherche de<br />

synchronisme dans le réseau, puisqu’un<br />

plus grand nombre de fréquences sont<br />

présentes dans le paysage dynamique<br />

du réseau. De cette façon, le réseau<br />

maximise ses chances d’avoir des<br />

isofréquences entre neurones,<br />

augmentant donc ses chances d’avoir<br />

des fréquences synchronisables. On<br />

retrouve l’idée, présentée dans le<br />

paragraphe précédent, qu’un réseau de grande complexité dynamique peut posséder de<br />

fortes capacités de synchronisation locale.<br />

5. Synchronisation par perturbation<br />

Dans le cas où plusieurs neurones évoluent sur un même attracteur, il est possible de<br />

les synchroniser. Cette propriété peut être à l’origine des mécanismes de mémorisation<br />

dans un modèle connexionniste à dynamique chaotique, où l’information est encodée par<br />

le synchronisme des dynamiques du réseau. En effet, si l’on perturbe un système par un<br />

signal additif ajouté à un instant donné aux variables d’état du système, éloignant cellesci<br />

de leur attracteur, elles peuvent se resynchroniser pendant un certain temps en<br />

décrivant en parallèle les mêmes trajectoires de l’attracteur. En effet, vu de l’attracteur,<br />

l’angle solide contenant les points translatés par la perturbation, supposée instantanée,<br />

peut être considéré comme assez petit, si cette perturbation est suffisamment<br />

importante, tout en laissant les points perturbés à l’intérieur du bassin. Les points<br />

reviennent alors vers l’attracteur, en restant groupé dans le cône de cet angle solide<br />

(cf.Figure 2-14). Caractéristique des systèmes attractifs, la synchronisation par<br />

perturbation du système à l’avantage de concilier deux des hypothèses de cette thèse :<br />

l’encodage par synchronisation, et l’assimilation de la perception de l’environnement à<br />

14 où, dans un langage scientifiquement plus exact, que le spectre est sur un support de mesure de Lebesgue<br />

non nul, partout dense dans un ensemble connexe<br />

PREMIERE PARTIE : ANALYSE<br />

Figure 2-13 : FFT du X(t) du système de Lorenz<br />

Les transformée de Fourier de la dynamique de<br />

Lorenz est dense, et possède donc un grand<br />

nombre de composantes fréquentielles, autorisant<br />

ainsi un plus grand nombre de synchronisations<br />

potentielles.


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

une perturbation. Il est en effet envisageable d’assimiler l’information extérieure à un<br />

signal additif sur les dynamiques neuronales. Cette propriété peut être observée dans le<br />

système de Lorenz (Figure 2-15). A un instant donné, nous ajoutons 100 aux variables<br />

Y1(t),Y2(t),Y3(t) de trois systèmes de Lorenz naturellement désynchronisés à cause de leur<br />

sensibilité aux conditions initiales.<br />

Figure 2-14 : Resynchronisation par perturbation<br />

En perturbant par un signal additif plusieurs dynamique chaotiques désynchronisées,<br />

toutes sur le même attracteur, tout en restant dans le bassin d’attraction du système,les<br />

différentes dynamiques re resynchronisent l’espace d’un moment, en rejoignant<br />

l’attracteur.<br />

De cette façon, les {Xi(t),Yi(t),Zi(t)} se retrouvent éloignés de l’attracteur initial, mais tous<br />

situés dans une même région. L’évolution ultérieure du système montre que les points<br />

{Xi(t),Yi(t),Zi(t)} restent groupés dans un volume de plus en plus petit. Cela leur permet<br />

d’entrer presque au même point dans l’attracteur, et de rester synchronisés sur quelques<br />

périodes. Le tracé des trajectoires Xi(t),Yi(t) et Zi(t) montre de façon encore plus claire<br />

que le synchronisme apparaît pendant presque deux périodes (Figure 2-16) Ici, le<br />

caractère chaotique de la dynamique nous sert de source de déphasage. En effet, dans<br />

un système non chaotique, attractif, possédant le même cycle limite pour toutes les<br />

trajectoires, les trajectoires restent synchronisées après perturbation. Tandis que, dans le<br />

cas d’un système chaotique, la sensibilité aux conditions initiales permet au système de<br />

se désynchroniser, et donc, d’une certaine façon, de perdre la mémoire de la<br />

perturbation externe au bout d’un certain temps. Le même phénomène peut être observé<br />

dans les mécanismes de la mémoire naturelle : notre mémoire ne reste pas figée dans<br />

l’état de la dernière perception reconnue, celui-ci s’évanouissant peu à peu. Ainsi, dans<br />

le cadre d’un encodage porté par le synchronisme des populations neuronales, les<br />

systèmes dynamiques chaotiques peuvent permettre de comprendre la fugacité des<br />

images mentales. Cette interprétation est encourageante pour l’utilisation des<br />

synchronismes neuronaux dans un modèle connexionniste, et permet d’expliquer la<br />

différence existant entre la persévérance, qui est physiologique, et la persévération des<br />

images mentales, qui est pathologique. Cette interprétation sera une de celles présentés<br />

ENCODAGE DYNAMIQUE, MEMOIRE ET CHAOS 45


46<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

lors de l’étude du rôle possible du chaos dans la mémoire (Source de ‘dépersévération’<br />

pour le système, p.53).<br />

Malhe<br />

ureus<br />

ement<br />

, cette<br />

illustration du synchronisme par<br />

perturbation nécessite que l’ensemble des<br />

systèmes perturbés possède le même<br />

attracteur final. Donc, il est nécessaire que<br />

tous les neurones d’une même population<br />

aient le même attracteur afin de pouvoir se<br />

synchroniser sur celui-ci.<br />

Cette approche peut donc être applicable<br />

dans le cadre des modèles connexionistes<br />

à oscillateurs couplés, car chaque neurone<br />

oscille sur le même cycle limite.<br />

Or, dans le cadre des réseaux étudiés ici, il<br />

n’est pas rare de voir des neurones proches<br />

posséder des attracteurs différents<br />

(Chapitre 7, Dynamiques observées, p.143<br />

et Figure 7-2, p.146), ce qui nous limite<br />

dans cette interprétation, et nous empêche<br />

de l’utiliser comme source d’inspiration pour<br />

le développement de règles<br />

d’apprentissage.<br />

PREMIERE PARTIE : ANALYSE<br />

Figure 2-15 : Perturbation du système de Lorenz<br />

Dans le cas du système de Lorenz, l’ajoût d’une perturbation ponctuelle resynchronise<br />

trois dynamiques au départ désynchronisées. Elles rejoignent l’attracteur en étant<br />

proches les unes des autres.<br />

Figure 2-16 : Synchronisation des dynamiques


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

6. Atténuation de la fonction d’autocorrélation<br />

Cette atténuation progressive de l’organisation du système peut aussi être analysée<br />

en regard d’une autre propriété des systèmes chaotiques, qui découle de leur spectre de<br />

fréquence continu. En effet, la fonction d’autocorrélation d’un signal est définie par :<br />

1 t2<br />

C( t ) = X( t). X( t + t ) = X( t). X( t + t ). dt<br />

t - t òt1<br />

2 1<br />

et il est possible de montrer que C( t ) , qui représente la similarité de X ( t)<br />

et de<br />

X ( t + t ) , est égal à la transformée de Fourier du spectre de puissance de X(t)<br />

(théorème de Wiener-Kintchine). Or, dans un régime chaotique où le spectre de<br />

puissance comporte une partie continue, C( t ) tend généralement vers 0 quand<br />

t augmente. La fonction d’autocorrélation a donc une portée finie, ce qui montre que la<br />

similitude du signal avec lui même s’estompe avec le temps : il y a ‘oubli’ de<br />

l’organisation initiale, par perte progressive de sa similitude interne. Ceci est une autre<br />

façon d’interpréter les désynchronisations progressives de plusieurs dynamiques<br />

évoluant sur un même attracteur, évitant les phénomènes de persévération dans un<br />

système réalisant un encodage par synchronisme.<br />

7. Nature émergente des propriétés du chaos<br />

Selon la définition précédemment donnée dans cette thèse, la nature chaotique de la<br />

dynamique d’un système peut être assimilée à une propriété émergente. Dans le cas du<br />

système de Lorenz, il est clair que Lorenz ne cherchait pas a priori à observer dans son<br />

système une sensibilité aux conditions initiales, ni l’attraction de l’état du système vers<br />

un attracteur fractal. Il souhaitait au départ obtenir un modèle météorologique simple.<br />

Ces propriétés ne sont pas contenues dans les lois du système : celui-ci ne contient pas<br />

d’équation tendant à minimiser la distance des variables d’état du système à leur<br />

attracteur. D’autre part, il n’y a pas une non-linéarité forte portant sur les valeurs initiales<br />

des variables d’état du système. De plus, ces propriétés sont bien observées a<br />

posteriori : il faut attendre un certain temps avant de voir les dynamiques diverger, pour<br />

dessiner finalement l’attracteur.<br />

Cette simple constatation permet de voir une sorte de parallèle entre les propriétés des<br />

attracteurs de systèmes dynamiques chaotiques, et les propriétés que l’on souhaite faire<br />

émerger dans nos systèmes. En effet, les capacités de mémoire ne correspondent pas à<br />

une loi du système (mettre valeur de la variable dans la mémoire 0x3AC4), mais à une<br />

propriété émergente observable (certaines populations neuronales sont synchronisées à<br />

la présentation de ce percept), qui provoque des comportements, des réponses, associés<br />

(Marignan ? 1515 !)<br />

2.3 Mémoires à dynamiques chaotiques<br />

Comme nous l’avons vu auparavant, l’utilisation de dynamiques chaotiques peut être<br />

assimilé à une évolution normale du connexionnisme car il associe dans un même système la<br />

description bas niveau de l’information traitée, la robustesse, la sensibilité, et la recherche de<br />

ENCODAGE DYNAMIQUE, MEMOIRE ET CHAOS 47


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

comportements émergents. La vision de notre monde étant devenue parfaitement non linéaire,<br />

faite de désordre, d’imprédictibilité, il est compréhensible que les modèles développés le<br />

deviennent aussi, attirant de nombreux chercheurs vers des interprétations ‘chaotiques’. Ce<br />

caractère ‘attractif’ du chaos, ayant permis d’attirer à lui nombre de chercheurs depuis plusieurs<br />

années, a aujourd’hui l’avantage d’identifier un domaine d’interaction commun pour les acteurs<br />

des sciences cognitives.<br />

De nombreuses études tentent de justifier biologiquement cette approche, en calculant les<br />

dimensions fractales de la dynamique des neurones biologiques [[9]][[188]]. Après une période<br />

d’enthousiasme, la validité de cette approche est actuellement remise en cause [[140]] : les faibles<br />

valeurs des dimensions obtenues (de l’ordre de 10), seraient dues essentiellement à la faiblesse<br />

des outils mathématiques utilisés 15 . Ainsi, savoir si les dynamiques neuronales sont des chaos<br />

déterministes de basse dimension est donc encore un problème ouvert. Mais la plupart de ces<br />

études critiques ne nient pas l’existence d’un chaos neuronal : elles remettent en cause l’idée d’un<br />

chaos de basse dimension, mesurable et quantifiable, et support exclusif du moi-neuronal.<br />

Une autre idée limite encore cette possibilité de mesure du chaos neuronal : la mesure de<br />

la complexité d’un système perturbé par son environnement contient à la fois une mesure portant<br />

sur le système, et une autre portant sur l’environnement du système 16 . Cette idée, développée<br />

dans [[117]], limite encore la possibilité d’une quantification exacte de la dimension fractale de la<br />

dynamique des neurones biologiques, car ceux-ci perçoivent en permanence leur environnement,<br />

ceci étant d’autant plus vrai que la plupart des mesures réalisées se situent dans des aires<br />

participant à la perception. Il est possible de penser qu’un cerveau, coupé d’absolument toute<br />

perception extérieure, en environnement constant, se stabiliserait sur un attracteur de basse<br />

dimension, voire même un cycle limite, confirmant ainsi de façon un peu brutale l’idée d’un chaos<br />

de basse dimension !<br />

Malgré le fait que la réponse à ce débat ne soit pas encore connue, la plupart des<br />

chercheurs s’accordent à penser qu’un système tel que celui du cerveau possède de grandes<br />

chances de posséder un comportement chaotique : il y a en effet peu de chances pour qu’un<br />

système de plusieurs centaines de milliards d’équations non-linéaires, couplées par groupes de<br />

plusieurs milliers, ne possède pas de propriétés caractéristiques des systèmes chaotiques,<br />

observables dans des systèmes de trois équations couplées.<br />

Nous conclurons donc que les systèmes chaotiques peuvent être un support descriptif de<br />

certains phénomènes observés dans la mémoire humaine, et peuvent même avoir valeur<br />

explicative. Nous utiliserons donc davantage le chaos comme un nouveau type de support<br />

d’information dans les modèles connexionnistes, en supposant qu’ainsi le réseau se rapproche de<br />

son modèle biologique, mais en aucun cas nous ne supposerons que le chaos puisse être une<br />

propriété suffisante caractérisant un cerveau biologique . Nous restreignons le rôle du chaos à<br />

celui de source d’enrichissement des modèles développés, comme c’est le cas dans des<br />

domaines de plus en plus nombreux (astrophysique, sociologie, psychiatrie...)<br />

15 Un phénomène symptomatique de la remise en cause de cette approche est la réécriture récente de<br />

l’article de Theiler ([[188]] corrigé par [[189]]), remettant en cause ses premiers résultats, qui participèrent<br />

à l’idée d’un chaos cérébral de basse dimension.<br />

16 De façon imagée, le même principe peut s’appliquer à la détermination des lois de rebond d’une balle. Si<br />

on lance celle-ci dans une pièce, le tracé de sa trajectoire donnera plus que les lois de rebond de la balle : il<br />

sera possible de tracer, dans de bonnes conditions d’expérience, une partie de la géométrie de la pièce où la<br />

balle a été lancée.<br />

48<br />

PREMIERE PARTIE : ANALYSE


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Dès lors, ces limites posées, reste à savoir quels supports d’informations sont<br />

envisageables dans ces systèmes ‘enrichis’. Comme nous l’avons rapidement exposé dans le<br />

paragraphe précédent concernant l’encodage dynamique (5 De nouveaux supports pour<br />

l’information, p.36), cet encodage peut être considéré comme global (attracteur), ou temporel et<br />

local (dynamique), ou temporel et spatial (dynamique de population). Nous tenterons de<br />

rassembler dans cette partie les nouveaux types d’encodages envisageables dans des<br />

dynamiques chaotiques. Mais dans un premier temps, et afin de clarifier ces encodages, il est<br />

nécessaire de recenser les paramètres de ces dynamiques, afin de savoir lesquels vont porter<br />

l’encodage.<br />

2.3.1 Paramètres des dynamiques chaotiques<br />

Ainsi, afin d’exposer plus clairement les différents modèles de mémoires<br />

connexionnistes à dynamique chaotique développés à ce jour, nous passerons en revue dans<br />

cette partie les différentes mesures des attracteurs, chaotiques ou non, qui peuvent contenir une<br />

forme de l’encodage. Ainsi, certaines approches [[9]] voient dans la dimension de l’attracteur une<br />

mesure représentative de l’état mental : sommeil, veille, crise épileptique. Certaines voient dans<br />

l’apprentissage une maximisation de l’entropie de sortie des neurones [[42]]. Nous tenterons si<br />

possible, de synthétiser l’ensemble des modèles qui semblent biologiquement plausible, dans un<br />

unique principe d’encodage, qui sera succinctement présenté à la fin de ce chapitre, et développé<br />

dans un chapitre spécifique.<br />

1. Dimension Fractale<br />

Afin qu’un système<br />

dynamique à temps continu<br />

possède les propriétés<br />

d’attraction et de sensibilité aux<br />

conditions initiales, il est<br />

nécessaire qu’il vérifie<br />

différentes propriétés. Tout<br />

d’abord, pour que ce système<br />

possède une sensibilité aux<br />

conditions initiales, la dimension<br />

de son espace de phase doit<br />

être strictement supérieure à<br />

deux dans le cas d’un système<br />

continu 17 . Ensuite, afin d’être<br />

attractif, le système se doit<br />

d’être dissipatif, c’est à dire qu’il<br />

y ait contraction des volumes<br />

dans l’espace des phases quand<br />

Figure 2-17 : Pavage d'un attracteur<br />

La dimension fractale d’un attracteur est reliée au<br />

pavage limite de l’attracteur par des cubes de coté<br />

tendant vers 0.<br />

le temps s’écoule. Ceci implique que l’attracteur final atteint doit être de volume nul dans<br />

l’espace des phases. Ainsi, dans le cas d’un espace d’état tridimensionnel (par exemple<br />

celui du système de Lorenz), la dimension de l’attracteur doit vérifier :<br />

17 Ceci est du au fait que le système déterministe devant être sans variable cachée, les trajectoires dans<br />

l’espace des phases ne peuvent pas se couper, car à un même état du système correspondraient plusieurs<br />

évolutions possibles.<br />

ENCODAGE DYNAMIQUE, MEMOIRE ET CHAOS 49


50<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

2 < d < 3<br />

Cette inégalité montre bien l’aspect pathologique des attracteurs dits étranges dans la<br />

famille des objets de la géométrie euclidienne classique : leur dimension doit être non<br />

entière. Le calcul de cette dimension est donc une généralisation, une prolongation de la<br />

notion classique de dimension : point adimen-sionnel, droite monodimen-sionnelle, plan<br />

bidimensionnel, ..., et attracteurs étranges de dimension non entière.<br />

L’approche couramment utilisée pour calculer cette dimension consiste à calculer la<br />

limite à l’infini de la dimension d’un pavage recouvrant l’attracteur (Figure 2-17). Cette<br />

méthode, due à Hausdorff, définit la dimension fractale d’un attracteur par :<br />

æ ln N(<br />

e)<br />

ö<br />

D=<br />

limç ÷<br />

e®<br />

0èln( 1/<br />

e)<br />

ø<br />

Où N( e ) est le nombre minimal d’hypercubes de coté e nécessaires pour recouvrir<br />

l’ensemble des points de l’attracteur. Il est possible de vérifier que cette définition<br />

coïncide avec les dimensions euclidiennes pour le point, la droite ou la surface :<br />

point :<br />

segment :<br />

surface :<br />

Par contre, dans le cas d’un objet<br />

fractal, par exemple pour l’ensemble<br />

triadique de Cantor, cette dimension<br />

amène des dimensions non entières.<br />

Cet ensemble correspond à la limite de<br />

l’itération qui consiste à enlever le tiers<br />

du milieu d’un segment (Figure 2-18).<br />

En effet, à chaque itération, le nombre<br />

de segments qui composent cet<br />

ensemble est multiplié par deux, tandis<br />

que la taille de chacun de ces<br />

segments est divisée par trois. Ainsi, à<br />

chaque itération k, il est nécessaire<br />

d’utiliser N(k)=2 k hypercubes de coté<br />

N( e)<br />

= 1 Þ D = 0<br />

-1<br />

N( e) = Le Þ D = 1<br />

-2<br />

N( e) = Se Þ D = 2<br />

k<br />

e( k)<br />

= ( 1/ 3) pour paver cet ensemble. Ce qui amène à:<br />

æ ln N(<br />

e)<br />

ö æ ln( 2)<br />

D=<br />

limç ÷ = limç e®<br />

0è ln( 1/<br />

e)<br />

ø k®¥<br />

è ln() 3<br />

PREMIERE PARTIE : ANALYSE<br />

Figure 2-18 : Ensemble de Cantor<br />

L’ensemble de Cantor est obtenu par eliminations<br />

successives du tiers central des segments le<br />

composant. A la limite, cet ensemble possède une<br />

dimension non-entière.<br />

k<br />

k<br />

ö ln2<br />

÷ = » 0, 63<br />

ø ln3<br />

Malheureusement, un tel calcul théorique est bien souvent impossible, et il faut recourir<br />

à des méthodes expérimentales de calcul de la dimension à partir d’un échantillon fini de<br />

points appartenant à l’attracteur.


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Cette difficulté est à l’origine de la remise en cause de la valeur de la dimension fractale<br />

du chaos cérébral 18 .<br />

2. Exposants de Lyapunov<br />

Comme nous l’avons vu précédemment, les systèmes chaotiques possèdent une<br />

sensibilité aux conditions initiales, c’est à dire que deux trajectoires infiniment proches<br />

initialement s’écartent l’une de l’autre au cours de l’évolution du système. Cet écart est<br />

plus ou moins important selon sa direction dans l’espace des phases, et évolue en<br />

moyenne exponentiellement avec le temps. Les mesures de ces écarts dans la direction<br />

de chacun des vecteurs de base de l’espace de phase définissent les coefficients de<br />

Lyapunov du système.<br />

Ainsi, sur la Figure 2-19,<br />

sont représentées plusieurs<br />

trajectoires d’un système<br />

dynamique à trois variables<br />

d’états. Deux états du<br />

système, proches au départ,<br />

voient leur distance<br />

augmenter sur chacun des<br />

axes de l’espace de phase,<br />

selon des lois liées aux<br />

coefficients de Lyapunov (cf<br />

zoom).<br />

On obtient ainsi une<br />

évolution des erreurs, pour<br />

chaque vecteur de base i ,<br />

de la forme :<br />

e( t) = e( 0).exp( l t)<br />

i i i<br />

Avec li, coefficient de<br />

Lyapunov.<br />

Figure 2-19 : Calculs des coefficients de Lyapunov<br />

Dans un système dont les dynamiques sont sensibles aux<br />

conditions initiales, l’évolution de l’erreur selon chaque<br />

vecteur de base, indique le coefficient de lyapunov<br />

associé.<br />

Selon cette définition, si le coefficient de Lyapunov sur l’un des vecteurs de base est<br />

négatif, les trajectoires se rapprochent selon cet axe, s’il est nul, elles restent<br />

équidistantes, et s’il est positif, elles s’éloignent. Il suffit que les trajectoires s’écartent sur<br />

au moins un vecteur de base, pour que les trajectoires s’éloignent les unes des autres, et<br />

qu’il y ait sensibilité aux conditions initiales.<br />

Ainsi, il suffit que le système possède un seul coefficient de Lyapunov positif pour que le<br />

système soit qualifié de chaotique. Ainsi, de la même façon que la dimension fractale de<br />

l’attracteur, les exposants de Lyapunov donnent une mesure du degré de chaoticité du<br />

système.<br />

Comme nous le verrons, les réseaux étudiés ici peuvent basculer très rapidement d’un<br />

comportement chaotique à un comportement non chaotique, pour une infime variation<br />

18 Pour les attracteurs étudiés dans nos réseaux, nous avons quasiment obtenu un résultat par algorithme<br />

testé, ce qui a empêché la quantification précise des dimensions fractales.<br />

ENCODAGE DYNAMIQUE, MEMOIRE ET CHAOS 51


52<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

d’un paramètre du réseau. Nous avons en effet pu observer un aspect ‘fractal’ de la<br />

courbe d’évolution des exposants de Lyapunov en fonction d’un paramètre, pour<br />

d’infimes variations de ceux-ci, l’exposant passant très rapidement d’une valeur positive<br />

à une valeur négative (7.2.4 Réseau Hopfieldien à différences finies, p.167).<br />

Ainsi, les réseaux qui seront étudiés ici possèdent la capacité de modifier très<br />

rapidement et très fortement leurs dynamiques pour de faibles variations de leurs<br />

paramètres internes. Cette idée sera confortée par la visualisation des attracteurs<br />

atteints lors de l’apprentissage du forçage d’une dynamique locale : le réseau traverse<br />

alors un paysage d’attracteurs, en bifurquant parfois très rapidement d’un attracteur à<br />

l’autre (Figure 8-23, p.202).<br />

2.3.2 Type d’encodage par les dynamiques chaotiques<br />

L’ordre ne peut naître que du désordre, puisque seul le désordre permet<br />

des associations nouvelles.<br />

1. Etat transitoire de non-reconnaissance<br />

PREMIERE PARTIE : ANALYSE<br />

Henri Laborit. Eloge de la fuite. p108<br />

La plus immédiate interprétation des dynamiques chaotiques consiste à dire que le<br />

chaos connexionniste ne signifie rien, qu’il représente simplement un état de nonreconnaissance,<br />

une façon de signifier : je ne sais pas. En effet, l’état ne pas savoir ne<br />

peut pas correspondre à un état propre, final du système : ne pas savoir ne correspond<br />

pas à un état associé à l’ensemble des choses que l’on ne sait pas, il n’y a pas eu<br />

apprentissage préalable de l’ensemble des choses non sues. Il est donc nécessaire de<br />

posséder une dynamique intermédiaire, à mi-chemin entre toutes les dynamiques portant<br />

une signification, et le chaos a été proposé pour ce rôle de dynamique de nonreconnaissance<br />

[[106]].<br />

Ou, autre interprétation, ce chaos serait une phase transitoire dans la dynamique du<br />

réseau, un état intermédiaire avant la reconnaissance, permettant de créer une forme<br />

d’investigation dynamique de l’ensemble des possibilités offertes au système. Ce serait<br />

le support de l’activité de recherche mnésique. Dans ce cas, le chaos ne serait pas un<br />

support d’information, mais le moteur de la dynamique de recherche d’information. Il<br />

représenterait le mécanisme par lequel le système construirait, organiserait et<br />

retrouverait son savoir. D’une certaine façon, ce désordre ne serait que la manifestation<br />

d’un mécanisme de recherche, afin de trouver l’ordre cherché.<br />

En effet, nous avons pu observer dans certains de nos réseaux, des phases<br />

transitoires ‘chaotiques’, sensibles aux conditions initiales, convergeant finalement vers<br />

des cycles limites. La sensibilité aux conditions initiales durant cette phase transitoire<br />

permet de faire basculer le réseau d’un cycle limite à l’autre (cf. 7.2.4 Réseau<br />

Hopfieldien à différences finies, p.167).<br />

Néanmoins, ces dynamiques mènent le système à un état de reconnaissance, et il est<br />

donc possible de dire qu’elles contiennent a priori l’état final, et donc l’information à<br />

trouver : la phase transitoire d’un système déterministe possède en elle le futur du<br />

système, même si la proximité de celui-ci n’est pas mesurable à un instant donné. Ainsi,


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

même si cette représentation de l’usage du chaos réfute sa capacité de signification, elle<br />

ne peut nier qu’il contient en lui l’encodage futur vers lequel il converge. Cette<br />

interprétation du rôle du chaos contient aussi, mais de façon dissimulée, l’hypothèse que<br />

les dynamiques du réseau possèdent l’information à traiter.<br />

D’autre part, cette interprétation ne nie pas que le chaos puisse représenter l’état mental<br />

du sujet, et, récemment, certaines mesures neurophysiologiques ont tenté de relier l’état<br />

mental à la dimension de l’attracteur cérébral [[9]][[10]][[188]].<br />

L’objet de ces dynamiques serait donc de permettre d’accéder à des sous-dynamiques,<br />

porteuses de signification, portées par exemple par les phases inter-neuronales.<br />

2. Filtre de nouveauté<br />

Dans cette approche, utilisée parfois par Freeman [[180]][[218]], le chaos reste une<br />

phase transitoire, mais porte une information : il signifie que l’information perçue est<br />

nouvelle pour le système. D’après cette interprétation, la dimension fractale des<br />

dynamiques cérébrales est corrélée au taux de reconnaissance du percept ayant stimulé<br />

le système.<br />

Cette interprétation est en accord avec l’interprétation d’un mécanisme de recherche, car<br />

le système basculerait dans une phase chaotique, afin de maximiser la chance de<br />

percevoir des fréquences synchronisées dans la modification que crée en lui cette<br />

nouvelle information. De plus, cette nouvelle information peut être assimilée à une<br />

perturbation, car elle est non prédictible pour le système. Mais il ne faut pas voir dans<br />

cette phase chaotique une démarche intentionnelle du système : le système reconnaît un<br />

percept par ses synchronismes internes, c’est dans le cas où il n’y a pas synchronisme<br />

que la haute dimension de l’espace d’état du système lui permet d’engendrer du chaos.<br />

Ainsi, cette interprétation de l’encodage est en accord avec :<br />

à l’encodage par synchronisme<br />

à l’assimilation du percept à une perturbation<br />

à la reconnaissance par prédictibilité de la perturbation<br />

Dans le cadre de cette thèse, nous avons réussi à obtenir des réseaux qui complexifient<br />

leur dynamique par perturbation par une dynamique extérieure, et qui finissent par<br />

synchroniser certaines populations neuronales (8.4 Forçage des dynamiques<br />

complémentaires, p.195).<br />

3. Source de ‘dépersévération’ pour le système<br />

Comme cela a déjà été présenté, la propriété de sensibilité aux conditions initiales<br />

des systèmes chaotiques leur permet, s’ils ont été synchronisés pendant un certain<br />

temps, de perdre ce synchronisme. Ainsi, l’avantage du chaos serait d’éviter la<br />

persévération du système dans la tâche qu’il est en train d’accomplir.<br />

Cette utilisation inscrit encore plus les réseaux dans un comportement dynamique, qui<br />

les force à passer systématiquement d’un synchronisme à l’autre, d’un état à l’autre ;<br />

comportement qui se retrouve dans les systèmes réels : pour s’en convaincre, il suffit de<br />

ENCODAGE DYNAMIQUE, MEMOIRE ET CHAOS 53


54<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

voir l’effort conscient que nous sommes obligés de réaliser pour maintenir notre attention<br />

sur une image mentale. Celle-ci finit toujours par s’évanouir.<br />

Cette remarque illustre la limite des architectures actuelles, qui tendent à se figer dans<br />

l’état souhaité, qu’il soit dynamique ou non. Dans un tel cadre, aucune autonomie du<br />

système n’est possible, puisque celui-ci ne peut pas, en interne, modifier l’état dans<br />

lequel il s’est mis. Comme nous le verrons, l’approche réalisée dans cette thèse, qui<br />

utilise ce principe de ‘dépersévération’, est compatible avec une certaine définition de<br />

l’autonomie (Vers une maximisation de l’autonomie, p.108).<br />

4. Catégories isochrones.<br />

Ce type d’encodage est l’application de la propriété de synchronisation par<br />

perturbation des systèmes attractifs (5, Synchronisation par perturbation, p.44). L’idée<br />

consiste à tracer les fibres qui partent de l’attracteur, variétés de l’espace d’état, de telle<br />

façon que l’ensemble des points contenus dans une fibre soient tous en phase avec le<br />

point à l’intersection de l’attracteur et de la fibre.<br />

Pour tracer cette fibre, il suffit de<br />

perturber fortement le système<br />

dynamique, tout en le laissant dans<br />

son bassin d’attraction, et de le laisser<br />

revenir vers l’attracteur, en<br />

mémorisant la succession des états<br />

x(t) pris par ce point, puis de laisser ce<br />

point réaliser plusieurs tours au<br />

voisinage l’attracteur. Dès lors, pour<br />

connaître les fibres passant au<br />

voisinage du point x0 de l’attracteur, il<br />

suffit de prendre l’ensemble des points<br />

mémorisés x(t) contenus dans une<br />

boule de rayon e, centrée sur x0, puis<br />

de dérouler le temps à l’envers pour<br />

chacun de ses points (Figure 2-20).<br />

L’avantage de la connaissance de<br />

ces fibres, est de pouvoir quantifier le<br />

degré de synchronisme atteint par un<br />

ensemble de points perturbés : si les<br />

fibres isochrones sont écartées, il y a de grandes chances que, pour une perturbation<br />

donnée, l’ensemble des points de l’attracteur soient contenus dans le voisinage d’une<br />

même fibre, et restent donc synchronisés. Par contre si ces fibres sont rapprochées, une<br />

perturbation aura plus de chance de répartir les points entre plusieurs fibres isochrones,<br />

et donc de désynchroniser le système.<br />

L’apprentissage peut dès lors s’interpréter par une modification de la géométrie de ces<br />

fibres dans l’espace d’état du système. De cette façon, à un concept bien mémorisé<br />

correspond une fibre isochrone isolée, puisque de nombreuses perturbations du système<br />

pousseront le système au voisinage de cette fibre. Cette interprétation peut permettre de<br />

comprendre pourquoi des associations libres peuvent nous remémorer des données, ou<br />

PREMIERE PARTIE : ANALYSE<br />

Figure 2-20 : Fibres isochrones<br />

Pour un système dynamique stabilisé sur son<br />

attracteur, les fibres isochrones de cet attracteur<br />

sont les lignes dont les points sont des états du<br />

système en phase les uns avec les autres.


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

que certaines images semblent omniprésentes. Au-delà de cette interprétation, il est<br />

possible d’y voir une modélisation de l’intentionnalité : une perturbation étant donnée, le<br />

système synchronisera certaines populations neuronales, les poussant à un certain type<br />

de comportement.<br />

Autre avantage de cette approche, elle peut fonctionner dans n’importe quel espace<br />

d’état, que ce soit celui d’un neurone, ou de plusieurs. Ainsi, cette interprétation peut<br />

nous permettre d’imaginer les fibres isochrones de l’attracteur d’une population de<br />

neurone. Malheureusement, ces fibres isochrones ne seront pas représentables, car<br />

plongées dans des espaces d’état de trop grande dimension, et il sera nécessaire de se<br />

contenter de leur projection. Mais, cette idée pouvant s’appliquer à des populations<br />

neuronales, elle peut être un principe descriptif des phénomènes de synchronisation<br />

dans les architectures modulaires de neurones.<br />

Nous pouvons ainsi envisager l’étude de dynamiques en terme de modularité, de fibres<br />

isochrones et de synchronismes neuronaux.<br />

Cette architecture modulaire peut être d’un grand intérêt pour l’augmentation des<br />

capacités d’encodage du réseau. En effet, la sélectivité fréquentielle des neurones n’est<br />

pas infinie, et la synchronisation d’un réseau doit être relativement robuste. Or, plus le<br />

nombre de fréquences neuronales est faible, plus la robustesse de la synchronisation<br />

autour de ces fréquences principales sera robuste. Ainsi, il faut tendre à minimiser le<br />

nombre de fréquences synchronisables d’un réseau. Mais ceci diminuerait d’autant ses<br />

capacités de mémorisation , puisqu’il évoluerait dans un espace d’état réduit.<br />

Or, dans le cas d’un réseau modulaire, il suffit de quatre fréquences de synchronisation<br />

pour conserver en permanence la différenciation modulaire. En effet, le théorème des<br />

quatre couleurs peut s’appliquer ici : il a été montré que quatre couleurs étaient<br />

suffisantes pour colorier une carte plane de telle façon que deux modules voisins ne<br />

soient pas de la même couleur. Ainsi, il est suffisant que le réseau possède quatre<br />

fréquences pour permettre d’obtenir l’organisation de modules. Cette hypothèse<br />

correspond à celle d’un encodage par les phases des populations neuronales (5 De<br />

nouveaux supports pour l’information, p.36).<br />

Dans cette thèse, nous n’étudierons pas le rôle exact de la modularité a priori 19 des<br />

réseaux, ce qui est peut être l’une des causes de la limitation de nos résultats<br />

(Chap.9,Conclusion générale et perspectives p.207). Mais l’intérêt de cette modularité<br />

est certain, et fournira un support important de recherche pour des travaux futurs. Par<br />

contre, nous avons pu, dans certains cas, observer une modularisation fonctionnelle<br />

progressive de nos réseaux, ce qui faisait partie des propriétés souhaitées au départ,<br />

puisqu’il s’agit d’une des propriétés qui nous semblent essentielles dans les principes de<br />

base de l’organisation cérébrale (Modularisation fonctionnelle, p.113).<br />

5. Mémorisation par l’attracteur<br />

Dans le rôle croissant donné au chaos dans l’encodage cérébral, l’hypothèse la plus<br />

forte est de dire que c’est l’attracteur qui encode l’objet représenté : il y aurait un<br />

attracteur-banane, ou un attracteur-bateau. Chaque fois que le percept est présenté, le<br />

système cérébral se stabiliserait sur l’attracteur qui lui est associé.<br />

19 c’est-à-dire contenue dans l’architecture du réseau lors de sa conception.<br />

ENCODAGE DYNAMIQUE, MEMOIRE ET CHAOS 55


56<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Cette approche peut sembler naturelle. Le système voit ses dynamiques modifiées par la<br />

perception d’un stimulus externe. Il a pu de plus être observé que ces dynamiques<br />

étaient chaotiques. Donc, les dynamiques chaotiques observées, à un moment donné,<br />

sont la représentation que le système se fait de sa perception, car, à chaque perception,<br />

les dynamiques sont différentes : chaque attracteur possède sa signification.<br />

Mais plusieurs remarques doivent s’ajouter à cette ‘évidence’ : tout d’abord, cette<br />

approche doit considérer l’attracteur global du système cérébral, pour que le<br />

raisonnement précédent soit valide. Il est en effet envisageable qu’une aire du cerveau<br />

reste stabilisée sur un même attracteur, pendant qu’une autre aire fait évoluer le sien. De<br />

ce fait, nous pouvons imaginer que certains attracteurs locaux restent similaires, alors<br />

que le percept associé est différent. Il est donc nécessaire dans cette approche de<br />

considérer l’attracteur global du système cérébral. Mais dans ce cas, que signifie : deux<br />

attracteurs sont différents 20 ?<br />

Il faut tout d’abord qu’une mathématique de la similarité des attracteurs de systèmes<br />

chaotiques existe. Or il n’existe pas aujourd’hui d’approche quantitative pouvant définir<br />

des familles d’attracteurs. Cette approche semble donc actuellement impossible à mettre<br />

en œuvre. Mais cette remarque ne suffit à penser que cela soit impossible pour toujours.<br />

Il faut donc compléter cette remarque par le fait que si chaos il y a, l’attracteur du<br />

système cérébral complet, avec ses cent milliards de neurones, doit être d’une<br />

dimension telle, qu’il semble inimaginable de représenter l’attracteur atteint. Et pouvonsnous<br />

être sûr que les dynamiques cérébrales sont stabilisées sur l’attracteur ? Combien<br />

de temps faut-il à un système dynamique évoluant dans un espace d’état de plusieurs<br />

milliards de dimensions pour se stabiliser ? Et ce temps de stabilisation sera-t-il égal au<br />

temps de reconnaissance d’un percept (de l’ordre de quelques centaines de<br />

millisecondes) ?<br />

Dans ce cas, si l’attracteur n’a pas le temps de se stabiliser, c’est que ce sont les<br />

trajectoires internes des dynamiques chaotiques qui encodent l’information. Nous en<br />

revenons donc à un encodage par les dynamiques, et non plus par les attracteurs.<br />

Ainsi, l’hypothèse d’une mémorisation par l’attracteur global du système cérébral semble<br />

poser de nombreux problèmes, insolubles à l’aide des outils connus aujourd’hui. Mais il<br />

semble que cette limite est quand même hors d’atteinte des outils mathématiques<br />

envisageables, puisqu’il serait nécessaire de pouvoir connaître l’attracteur atteint par un<br />

système dynamique à plusieurs milliards de variables d’état, simplement en observant<br />

les trajectoires du système pendant un temps court. De plus, quel critère pouvons nous<br />

imaginer, permettant à un système de savoir que ses dynamiques sont stabilisées : le<br />

système ne possède pas en interne une copie de l’attracteur à atteindre, lui permettant<br />

de savoir à chaque instant, à quelle distance il en est.<br />

Cette remarque fait penser que l’on doit être en permanence à la frontière entre<br />

plusieurs attracteurs sur un plan global, et que le système cérébral global n’attend pas<br />

que ces dynamiques soient stabilisées.<br />

20 Les mêmes questions peuvent se poser au sujet des attracteurs ‘locaux’...<br />

PREMIERE PARTIE : ANALYSE


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

6. Mémorisation par les mesures de l’attracteur<br />

Plus faible que l’hypothèse d’une mémorisation par l’attracteur, cette hypothèse<br />

soutient plus simplement que les mesures de l’attracteur des dynamiques neuronales<br />

d’un sujet sont le reflet de sa vie mentale. Cette approche s’inspire principalement des<br />

travaux de Babloyantz, Desthexe, Theiler [[9]][[188]].<br />

Cette idée correspond à celle d’un encodage par l’attracteur, mais dans un espace d’état<br />

réduit, de dimension égale au nombre de mesures réalisées sur l’attracteur. Les mêmes<br />

remarques que celles faites ci-dessus peuvent donc s’appliquer : comment un système<br />

peut déterminer des mesures de son attracteur par l’unique observation de portions de<br />

trajectoires ? Une telle approche n’est pas envisageable comme support de l’encodage :<br />

celui-ci ne peut pas être ramené à un encodage scalaire du type ‘dimension de<br />

l’attracteur-banane = X’. Un tel encodage ne peut pas contenir la richesse et la finesse<br />

de celui que nous utilisons.<br />

Fort heureusement, aucune étude n’utilise ce type d’interprétation, et la plupart de celles<br />

qui effectuent des mesures sur les attracteurs se limitent à penser que ces mesures sont<br />

représentatives de l’état mental du sujet : veille, sommeil, et état pathologique.<br />

L’ensemble de ces résultats est<br />

synthétisé sur la Figure 2-21, les<br />

mesures appartenant à une même<br />

étude étant reliées par un trait.<br />

Toutes les dimensions fractales sont<br />

inférieures à 10, laissant penser à un<br />

chaos de basse dimension,<br />

Comme nous l’avons déjà noté, cette<br />

idée est actuellement remise en<br />

cause. Nous nous limiterons donc à<br />

une interprétation qualitative de<br />

ceux-ci, qui montrent une variation<br />

des dynamiques mentales, en Figure 2-21 : Dimension fractale et état mental<br />

fonction de l’état mental du sujet. La<br />

phase de sommeil est moins riche, dynamiquement parlant, que la phase de veille. De<br />

même, les dimensions évaluées chez des patients au cours d’une crise comitiale ou<br />

pendant l’évolution d’une maladie de Creutzfeld-Jacob sont inférieures à celles du sujet<br />

normal. Ceci peut traduire l’existence d’une plasticité cérébrale réduite dans ces<br />

pathologies, et d’un moindre nombre de degrés de liberté de la dynamique du système.<br />

Ces variations de la dimension fractale avec l’état du sujet semblent cohérentes si l’on<br />

accepte que les dynamiques cérébrales soient le support de l’état mental du sujet, mais<br />

elles n’apportent malheureusement pas d’information supplémentaire quant à la modalité<br />

de l’encodage réalisé.<br />

7. Encodage Formel<br />

De nombreuses études tentent aujour-d’hui de trouver le lien entre les systèmes<br />

dynamiques, les machines de Turing, et les automates finis, en unifiant l’ensemble des<br />

systèmes de traitement de l’information. Cette approche peut permettre d’espérer avoir<br />

ENCODAGE DYNAMIQUE, MEMOIRE ET CHAOS 57


58<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

un jour un classement de ces systèmes selon des critères de capacité computationnelle,<br />

et de connaître les raisons des limites de chaque modèle.<br />

Il semblerait que les fonctions<br />

itérées à dynamiques chao-tiques<br />

(dont font partie certains modèles<br />

connexionnistes) soient parmi les<br />

systèmes de traitement de<br />

l’information les plus puissants<br />

[[177]][[179]]. Il a en effet été<br />

démontré que les fonctions itérées<br />

à dynamique chaotique sont<br />

computa-tionnellement plus riches<br />

que les machines de Turing.<br />

L’approche utilisée par Siegelman<br />

[[179]], consiste à assimiler la<br />

dynamique chaotique à une chaîne<br />

de bits, en découpant l’espace de<br />

phase du système (Figure 2-22),<br />

puis à rapprocher ce message du<br />

ruban d’une machine de Turing.<br />

Cette approche, purement<br />

théorique, et essentielle à la<br />

compréhension des systèmes<br />

étudiés ne peut malheureusement<br />

pas être rapprochée des phénomènes de mémoire que nous étudions ici. Mais il est<br />

essentiel de savoir qu’un système chaotique pourrait être supérieur à une machine de<br />

Turing, ce que Siegelman semble avoir démontré, justifiant ainsi la richesse<br />

fonctionnelle du cerveau, et les limites imposées par une comparaison cerveau /<br />

machine de Turing.<br />

2.3.3 Synthèse d’un modèle préliminaire<br />

Résumons les idées qui ont été présentées dans les pages précédantes, concernant<br />

les rôles possibles du chaos. Nous avons vu que ceux-ci peuvent être interprétés en<br />

termes de :<br />

à Etat transitoire de non-reconnaissance<br />

Le chaos est l’état dynamique du système, antérieur à la reconnaissance, qui maximise les<br />

chances de synchronisation des dynamiques locales, et représente l’état mental du sujet.<br />

à Filtre de nouveauté<br />

Le chaos se manifeste lors de la perception d’un état nouveau, pas encore reconnu. La<br />

perception est alors source de perturbation pour le système.<br />

à Source de dépersévération<br />

Le chaos, par sa sensibilité aux conditions initiales, permet de faire perdre les<br />

synchronismes ayant émergé lors la reconnaissance, évitant que le réseau ne se fige dans<br />

sa reconnaissance.<br />

PREMIERE PARTIE : ANALYSE<br />

Figure 2-22 : Encodage formel d'un attracteur<br />

En segmentant l’espace d’état d’un système dynamique,<br />

et en associant un représentant à chaque sous-domaine,<br />

l’évolution du système engendre une suite, qui peut être<br />

le support de computations, comme le ruban d’une<br />

machine de Turing.


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

à Catégories isochrones<br />

L’information extérieure perturbe le système, en translatant l’état du système dans<br />

certaines régions de son espace d’état. Lorsque plusieurs systèmes désynchronisés<br />

évoluent sur un même attracteur, et si cette perturbation les amène au voisinage d’une<br />

même fibre isochrone, ceux-ci se synchronisent pendant un moment.<br />

à Mémorisation par l’attracteur<br />

Le chaos est la mémoire du système, et chaque percept reconnu possède son attracteur.<br />

Le phénomène de reconnaissance amène le système à se stabiliser sur l’attracteur associé<br />

au percept.<br />

à Mémorisation par les mesures de l’attracteur<br />

Le chaos n’est pas supposé porter un encodage : il est uniquement représentatif de l’état<br />

mental du sujet.<br />

à Support d’encodage formel<br />

Le chaos est un nouveau modèle de générateur de messages binaires, pouvant<br />

correspondre à la mémoire d’une machine de Turing.<br />

Figure 2-23 : Présentation préliminaire du modèle : rôle du chaos<br />

Le système percevant est représenté par les matrices neuronales locallement couplées. La<br />

modification des dynamiques internes de ce système par une dynamique externe peut être<br />

de deux types. Le percept n’est pas reconnu : il y a alors complexification. Le percept est<br />

reconnu : il y a alors synchronisation. L’apprentissage permet de passer du premier cas au<br />

second. Dans les deux cas, en enlevant la dynamique externe (à droite), il y a<br />

désynchronisation.<br />

Si l’on souhaite faire une synthèse de ces idées, plusieurs notions se dégagent : les<br />

dynamiques extérieures sont assimilées à des perturbations pour le système, qui,<br />

perturbé, peut se resynchroniser en rejoignant son attracteur. Ces dynamiques sont le<br />

reflet de l’état du système, qui peut être évalué par des mesures sur celles-ci. La nature<br />

chaotique du système permet, avant la perception, de maximiser les chances de<br />

ENCODAGE DYNAMIQUE, MEMOIRE ET CHAOS 59


60<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

synchronisation, et, après reconnaissance, de désynchroniser le système, afin d’éviter<br />

toute persévération (Figure 2-23).<br />

Selon ce modèle, le chaos ne serait pas une source d’encodage de l’environnement<br />

du système, mais une nature du système étudié : l’environnement modifie les<br />

dynamiques neuronales, qui en induisent d’autres grâce aux associations réalisées<br />

auparavant via l’apprentissage. Le chaos ne serait alors que la manifestation de la<br />

complexité des dynamiques induites. Cette approche est en accord avec l’hypothèse du<br />

tout dynamique, dans laquelle un système percevant est en interaction dynamique avec<br />

son environnement. L’apprentissage aurait alors pour rôle de diminuer la complexité des<br />

dynamiques induites dans le système par l’environnement, afin d’en minimiser l’aspect<br />

perturbateur. Le chaos dans ce cas caractériserait le comportement du réseau, mais ne<br />

serait pas le but recherché par celui-ci : engendrer du chaos serait la nature du cerveau,<br />

mais ni sa fonction, ni son rôle. Il n’y aurait pas d’algorithme superviseur fabriquant et<br />

modifiant les dynamiques chaotiques cérébrales, selon un schéma d’encodage précis.<br />

On peut retrouver cette idée derrière plusieurs études, par exemple celles de Chang et<br />

Freeman [[36]] ou Amit [[4]], qui ne cherchent pas à analyser le chaos neuronal par ses<br />

mesures pour en déterminer les principes, mais qui constatent plutôt la présence de<br />

chaos dans leurs modèles, sans chercher à en trouver les principes d’encodage 21 , ni les<br />

mesures caractéristiques de ces dynamiques.<br />

Dans le cadre d’un travail récemment exposé par Chang et Freeman [[36]], ceux-ci<br />

constatent que le chaos émerge dans le système olfactif du lapin, lorsque le percept<br />

n’est pas reconnu, mais que des synchronismes apparaissent dans le réseau après<br />

apprentissage. Ils tentent donc dans ces travaux de trouver l’apprentissage qui<br />

permettrait de segmenter le paysage perceptif via les synchronismes du réseau. Cette<br />

approche est similaire aux interprétations faites précédemment. En effet, ils ne voient<br />

dans le chaos qu’une dynamique transitoire lors de la reconnaissance, qui a pour seule<br />

signification celle de manifester une non-reconnaissance du percept. De plus, le stimulus<br />

est associé à une perturbation car il modifie les dynamiques synchronisées du système,<br />

ce qui permet, durant la phase d’apprentissage, de tester le maximum de synchronismes<br />

possibles. Une fois le percept appris, il est alors reconnu grâce aux phases des<br />

dynamiques neuronales, qui permettent de reconstruire et de prévoir la dynamique si<br />

celle-ci est présentée de nouveau. Par contre, ils ne font pas mention du rôle de<br />

dépersévération dans le réseau des dynamiques chaotiques.<br />

D’autre part, un apprentissage de ce type peut être interprété en terme de fibres<br />

isochrones, puisque si les fibres sont serrées, une perturbation amènera le système à<br />

cheval sur plusieurs fibres, ne permettant pas de synchronisation. Par contre, après<br />

apprentissage, l’élargissement des fibres isochrones maximise la probabilité d’amener le<br />

nouvel état du système sur une seule fibre, en synchronisant ainsi les dynamiques d’une<br />

population neuronale.<br />

Malheureusement, dans les deux cas (celui de Chang et Freeman, et le nôtre), l’état<br />

actuel des connaissances sur les règles d’apprentissage ne permet pas de trouver un<br />

algorithme pouvant vérifier le schéma d’encodage précédent, mais l’étude de ces règles<br />

21 Il est d’ailleurs intéressant de noter que l’un des articles clef de Skarda et Freeman [[180]] décrit la façon<br />

dont le chaos donne du sens au monde (How brains make chaos in order to make sense of the world), et non<br />

pas la façon dont le monde donne du sens au chaos.<br />

PREMIERE PARTIE : ANALYSE


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

à permis d’observer la manifestation de ces propriétés de l’encodage dans nos réseaux<br />

(Chapitre 8, Anticipation du forçage des dynamiques, p.185).<br />

2.4 Conclusion<br />

Les dynamiques d’un système peuvent encoder une information en utilisant les phases<br />

des dynamiques locales du système. L’un des encodages les plus riches consiste à utiliser les<br />

phases de populations neuronales, ce qui permet de conjuguer modularité et synchronisme, par un<br />

encodage à la fois spatial et temporel. Une idée serait donc d’utiliser les dynamiques individuelles<br />

des neurones du réseau pour faciliter ces potentialisations de synchronisme de populations<br />

neuronales. Les dynamiques chaotiques à l’échelle du neurone peuvent jouer un tel rôle, grâce à<br />

leur capacité de synchronisation :<br />

Le moi neuronal élabore des images-mouvement...<br />

Ce chaos cérébral global (moyenne des dynamiques individuelles), peut alors être<br />

représentatif de l’état mental du sujet (moyenne de ses comportements). Mais il semble peu<br />

probable que ce chaos soit l’encodage brut des percepts mémorisés, et encore moins probable<br />

que l’attracteur stabilisé soit cet encodage. Il serait en effet surprenant que le système dynamique<br />

cérébral, évoluant dans un espace de phase de très grande dimension, doive se stabiliser sur son<br />

attracteur pour évoquer un concept. Cela supposerait que le système possède une représentation<br />

interne de l’attracteur à atteindre, et une mesure de la distance à cet attracteur, afin de pouvoir<br />

autoriser le système à quitter cet attracteur. Notre perception devrait alors être ‘échantillonnée’<br />

pour permettre au système de passer d’un attracteur à l’autre, afin de percevoir chaque concept<br />

associé.<br />

Nous pensons donc qu’il est plus probable que les dynamiques cérébrales sont rarement<br />

stabilisées sur un des attracteurs des dynamiques neuronales, et ainsi que le chaos n’est pas un<br />

support d’encodage, mais est un ‘outil’, mettant ses propriétés au service de l’activité mentale. La<br />

première de ces propriétés est celle d’une capacité de synchronisation des systèmes dynamiques<br />

chaotiques par perturbation de ceux-ci, en déplaçant l’état de ses systèmes sur une même fibre<br />

isochrone. L’information extérieure sera donc assimilée à une perturbation pour le système. La<br />

seconde propriété est celle de sensibilité aux conditions initiales, permettant aux systèmes<br />

dynamiques neuronaux de se désynchroniser à la disparition du percept.<br />

Nous envisagerons donc le chaos plus comme une manifestation du système cérébral,<br />

dont les propriétés permettent au système de s’adapter à son environnement.<br />

Mais comment est réalisée cette synchronisation, cette diminution de la complexité lors de<br />

l’apprentissage ? Quel peuvent être les principes d’une telle évolution des dynamiques ?<br />

La réponse proposée (Chap. 5, Un modèle connexionniste de la mémoire, p.95) fait du<br />

forçage le principe de base de l’apprentissage, allant au-delà d’une technique utilisée dans<br />

l’apprentissage des réseaux récurrents : nous chercherons à inscrire le phénomène de<br />

reconnaissance dans un cadre de maximisation de l’autonomie (en niant le principe de recherche<br />

ENCODAGE DYNAMIQUE, MEMOIRE ET CHAOS 61


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

mnésique rétrograde 22 ), en inscrivant la mémoire comme un principe actif d’autonomie pour le<br />

système :<br />

2.5 Bibliographie<br />

62<br />

... et l’action représente la force d’auto-organisation du cerveau. 23<br />

[[1]] Sergey K. Aityan.. Recurrent refractory neural field IEEE. O-7803-0559-0/92 .p 140-145 (1992)<br />

[[39]] François Chapeau-Blondeau. Nicolas Chambert. Synapse models for neural networks : from ion<br />

channel kinetics to multiplicative coefficient Wij. Neural Computation. 7. p713-734. (1995)<br />

[[40]] Francois Chapeau-Blondeau, Gilbert Chauvet. Stable, Oscillatory, and chaotic regimes in the<br />

dynamics of small neural networks with delay. Neural Networks, Vol. 5. pp 735-743. (1992)<br />

[[41]] François Chapeau-Blondeau, Gilbert Chauvet. Dynamic properties of a biologically motivated<br />

neural network model. International Journal of Neural Systems. Vol. 3. no. 4. pp 371-378. (1992)<br />

[[42]] François Chapeau-Blondeau. Maximisation de l'entropie informationnelle dans la transmission par<br />

une non-linéarité neuronale. C.R. Acad. Sci. PAris. t.319. Série II. p271-276. (1994)<br />

[[49]] M. Cosnard, J. Demongeot, K. Lausberg, K. Lott. Attractors, confiners and fractal dimensions :<br />

applications in neuromodelling. Mathematics applied to biology and medecine. J.Demongeot, V.<br />

Capasso (edts). ISBN 0-920063-63-2. p69-93 (1993)<br />

[[46]] A.M. Collins, M.R. Quillian. Retrieval time from semantic memory. Journal of verbal learning and<br />

verbal behavior. (1969).<br />

[[70]] Ivan Dvorak. Spatiotemporal changes in Determinacy of Brain Electrical Phenomena. Dans<br />

Mathematics applied to biology and medecine. pp 103-113. J.Demongeot, V.Capasso, editors.<br />

(1993)<br />

[[86]] Bart L.M. Happel (happel@rulfsw.leidenuniv.nl) , Jacob M.K. Murre. Evolving complex dynamics<br />

in modular interactive neural networks. Soumis a Neural Networks.<br />

[[101]] Lester Ingber(ingber@alumni.caltech,edu). Statistical Mechanics of neocortical Interactions:<br />

Mutltiple Scales of EEG. Dans Electroencephal. clin. Neurophysiol. (1994).<br />

[[102]] Lester Ingber (ingber@alumni.caltech.edu), P.L. Nunez. Statistical mechanics of neocortical<br />

interactions : high resolution path-integral calculation in short term memory. Physical Review E.<br />

Vol. 51, No.5. (1995)<br />

[[105]] Kunihiko Ishiyama, Susumu Itoh, Toshio Utsunomiya, Kazuyuki Aihara. Analysis of chaotic<br />

neuron models with information Theory. Electronics and communications in Japan. Part 3. Vol. 76,<br />

No. 4, (1993)<br />

[[106]] Izhikevich, G. G. Malinetskii. A possible role of chaos in neurosystems. Sov. Phys.Dokl.37(10),<br />

octobre (1992)<br />

[[106]] Izhikevich, G. G. Malinetskii. A possible role of chaos in neurosystems. Sov. Phys.Dokl.37(10),<br />

octobre (1992)<br />

[[123]] John. E. Lewis. Leon Glass. Nonlinear dynamics and symbolic dynamics of neural networks.Neural<br />

Computation. 4. 621-642. (1992)<br />

[[146]] A. Newell, H.A. Simon. Human problem solving. Englewood Cliffs, NJ. Prentice-Hall. (1972)<br />

[[164]] Steve Renals. Chaos in neural networks. Eurasip Workshop, 90-99. (1990)<br />

22 qui signifie que l’on balaie sa mémoire pour rechercher l’information requise.<br />

23 J.D. Vincent. Biologie des passions. Edition Odile Jacob. p.13<br />

PREMIERE PARTIE : ANALYSE


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

[[168]] Norihiro Sadato, Alvaro Pascual Leone, Jordan Grafman, Vicente Ibanez, Marie-Pierre Delber,<br />

Geaorge Dold, Mark Hellett. Activation of the primary visual cortex by Braille reading in blind<br />

subjects. Nature. Vol. 380. (1996).<br />

[[171]] Steven J. Schiff, Kristin Jerger, Duc H. Duong, Taeun Chang, Mark L. Spano, William L. Ditto.<br />

controlling chaos in the brain. Nature. Vol 370. pp615-620. (1994)<br />

[[177]] Ralph M. Siegel, Heather L. Read. Models of the temporal dynamics of visual processing.Journal<br />

of statistical physics. Vol. 70. No 1&2. (1993)<br />

[[179]] Hava T. Siegelmann (iehava@ie.technion.ac.il). Computation beyond the Turing Limit. Science.<br />

Vol. 268. 28 april 1995. pp 545-548. (1995)<br />

[[180]] Christine A. Skarda, Walter J. Freeman (wfreeman@garnet.berkeley.edu). How brains make chaos<br />

in order to make sense of the world. Behavioral and Brain <strong>Sciences</strong>. 10. pp 161-195. (1987)<br />

[[188]] James Theiler. On the evidence for low-dimensional chaos in an epileptic electroencephalogram.<br />

[[189]] James Theiler, P.E. Rapp. Re-examination of the evidence for low-dimensional, nonlinear<br />

strcuture in the human electroencephalogram.preprint. 1995.<br />

[[196]] Ichiro Tsuda. Dynamic Link of memory- chaotic memory map in nonequilibrium neural networks.<br />

Neural networks, vol. 5. pp 313-326. (1992)<br />

[[219]] Michael Zak. Terminal attractors in neural networks. Neural Networks. Vol.2. p259-274.(1989)<br />

ENCODAGE DYNAMIQUE, MEMOIRE ET CHAOS 63


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

3. MODELES CONNEXIONNISTES DYNAMIQUES<br />

3.1 Introduction<br />

Une fois le choix posé de l’utilisation de modèles connexionnistes pour l’encodage par les<br />

dynamiques, et après avoir déterminé le rôle souhaité de ces dynamiques, il reste l’insoluble<br />

problème du choix du réseau : en effet, ces dernières années, la profusion des modèles a entraîné<br />

une certaine confusion 24 .<br />

Afin de clarifier le problème, nous nous limiterons dans notre propos aux modèles<br />

possédant des capacités de comportement dynamique, et les classerons en deux groupes : ceux<br />

dont les éléments possèdent une dynamique propre, et ceux dont le comportement dynamique<br />

provient de leur architecture, le caractère dynamique pouvant être considéré comme émergent,<br />

puisque c’est l’organisation de niveau supérieur (l’architecture) du réseau qui permet d’avoir une<br />

dynamique entretenue. Il s’ensuivra naturellement un classement équivalent portant sur les<br />

architectures en tentant de déterminer lesquelles engendrent des comportements dynamiques.<br />

A partir de ce classement, nous essaierons de synthétiser la liste des paramètres<br />

principaux influençant les dynamiques, afin d’obtenir le modèle le plus général possible, pour les<br />

implanter dans l’outil informatique(Chap. 6 Développement informatique du modèle, p.128), et en<br />

tester le comportement dans un second temps, en tentant de quantifier l’influence des paramètres<br />

sur les dynamiques neuronales (7Dynamiques observées et expérimentées143), et leur rôle<br />

possible dans le modèle théorique proposé (Chap.5, Un modèle connexionniste de la mémoire,<br />

p.95).<br />

3.2 Modèles à comportement dynamique<br />

3.2.1 Modèle de neurone sans dynamique propre<br />

1. Modèle non linéaire à seuil<br />

Ce modèle est le plus utilisé et le plus commun à l’ensemble des réseaux actuellement<br />

MODELES CONNEXIONNISTES DYNAMIQUES 65


66<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

développés. Il dérive directement des premiers modèles proposés [[53]], et possède un<br />

rôle similaire : séparer l’espace des entrées du réseau par des hyperplans.<br />

L’équation classique de ce modèle est du<br />

type :<br />

æ<br />

ö<br />

xi() t = sçåwijxj( t-D t)<br />

÷ ,<br />

è<br />

ø<br />

j<br />

avec s une fonction sigmoïde, continue et<br />

monotone, et qui vérifie :<br />

lim s ( x)<br />

= 0et lim s ( x)<br />

= 1<br />

x®-¥<br />

x®¥<br />

Certains modèles généralisent celui-ci, en<br />

remplaçant la fonction sigmoïde s par une<br />

fonction radiale, appliquée à chacun des xj.<br />

Figure 3-1 : Modèle classique<br />

Dans ce cas, le réseau ne segmente plus<br />

l’espace d’état des entrées par des hyperplans, mais par des intersections de fonctions<br />

en ‘cloche’.<br />

2. Modèles à délais<br />

La première complexification possible du modèle de neurones non línéaire à seuil<br />

considère que l’évolution du neurone à l’instant t dépend non plus de l’état du réseau à<br />

l’instant précédent t-Dt, mais d’états antérieurs.<br />

æ<br />

ö<br />

xi() t = sçåwijxj( t-Mj. Dt)<br />

÷<br />

è<br />

ø<br />

PREMIERE PARTIE : ANALYSE<br />

j<br />

Ce type de réseau ajoute à la crédibilité biologique du modèle, puisque les distances<br />

d’un neurone à l’autre varient, provoquant des délais dans les transmissions de<br />

l’information neuronale, auxquels s’ajoutent des variations dans les vitesses de<br />

transmission. D’autre part, ce type de neurone permet de créer une dépendance à long<br />

terme des dynamiques neuronales, ce qui facilite la production de dynamiques d’ordre<br />

élevé.<br />

3. Modèle à mémoire<br />

Un neurone possède de la mémoire si son comportement dépend de chacun des<br />

états passés du réseau, et non plus uniquement d’un seul état antérieur. Soit si :<br />

est remplacé par une équation du type :<br />

x () t = F( x ( t-Dt), x ( t-Dt),..., x ( t-Dt)) i 1 2<br />

N<br />

24 Qui peut être résumé par le mécanisme : chaque nouveau problème engendre un nouveau réseau, et<br />

chaque nouveau réseau engendre un nouveau problème...


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

æ x1( t-Dt) x2( t-Dt) ... xN( t-Dt) ö<br />

ç<br />

÷<br />

x ( t . t) x ( t . t) ... xN( t . t)<br />

xi() t = F<br />

ç 1 -2 D 2 -2 D -2<br />

D ÷<br />

ç M M M ÷<br />

ç<br />

÷<br />

èx<br />

( t- M . Dt) x ( t- M . Dt) ... x ( t- M . Dt)<br />

ø<br />

1 i 2 i N i<br />

Dans ce cas, Mi représente la mémoire de chaque neurone. Le cas le plus étudié de ce<br />

type de modèle est celui où la prise en compte du passé du réseau se fait grâce à une<br />

fonction de convolution entre le vecteur poids et le vecteur état :<br />

N<br />

M j<br />

æ ö<br />

m<br />

xi() t = sçåWij<br />

ÄXj÷<br />

avec Wij Ä X j = åwij<br />

xj( t-m. Dt)<br />

è j=<br />

1 ø<br />

m=<br />

1<br />

m<br />

Les paramètres wi sont parfois ramenés à des noyaux (kernel), ce qui permet de<br />

minimiser le nombre de paramètres à mémoriser par neurone [[139]][[202]]. Ainsi, on<br />

peut avoir :<br />

m<br />

w = d(<br />

m)<br />

w<br />

w<br />

ij<br />

m<br />

ij<br />

m<br />

ij<br />

= ( m )<br />

ij<br />

m<br />

= ( 1-m<br />

).( m )<br />

ij ij<br />

Cette méthode sera appliquée lors de l’implémentation de ce modèle dans l’outil<br />

informatique développé (6.3 Le logiciel de modélisation, p.129). Elle permet en effet,<br />

m<br />

moyennant un temps de calcul un peu plus long (puisqu’il faut calculer les wi à chaque<br />

modification de l’un des paramètres), de réaliser un gain considérable en mémoire. Cela<br />

permet de simuler un plus grand nombre de neurones, et d’atteindre dans notre cas des<br />

réseaux qui comportent 262144 neurones à mémoire.<br />

D’autre part, ce type de modèle neuronal a permis à un réseau feed-forward, grâce à un<br />

apprentissage similaire à la rétropropagation du gradient, de produire une dynamique de<br />

Lorenz. Ce résultat [[207]] est très encourageant pour notre propos, car il prouve qu’un<br />

réseau de neurones à mémoire possède la capacité de produire des dynamiques<br />

chaotiques.<br />

4. Modèles réfractaires<br />

L’un des paramètres longtemps négligés dans les modèles connexionnistes, et qui<br />

pourtant est caractéristique des neurones biologiques est la période réfractaire. Après<br />

avoir émis un spike, et durant cette période, le neurone est forcé à zéro. Ce paramètre<br />

peut être facilement simulé en prenant en considération l’âge du neurone, noté Ri, et en<br />

R<br />

A<br />

forçant le neurone à 0 pour R < R < R , Ri étant réinitialisé à 0 dès que le neurone<br />

passe de 0 à 1 (Figure 3-2).<br />

i<br />

i i<br />

Il existe peu de résultats démontrant l’intérêt d’une période réfractaire, et sa réelle<br />

influence sur la dynamique des neurones. Pourtant, l’utilisation de ce paramètre peut<br />

permettre de faire apprendre des associations entrées-sorties non linéairement<br />

séparables, ce qui était l’une des limites des réseaux de type perceptron monocouche.<br />

MODELES CONNEXIONNISTES DYNAMIQUES 67<br />

m


68<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Ainsi, Aityan [[1]] a montré qu’il était<br />

possible de simuler une fonction XOR<br />

dans un réseau monocouche récurrent<br />

de trois neurones réfractaires. Dans ce<br />

type de réseau, les neurones ont un<br />

comportement dynamique, et c’est<br />

l’état final du réseau, après<br />

stabilisation de ces dynamiques sur un<br />

point fixe, qui encode la réponse du<br />

réseau. Nous verrons que l’utilisation<br />

de réseaux possédant une fonction de<br />

transfert en sortie, qui peut être<br />

assimilée à une période réfractaire,<br />

permet de déstabiliser un réseau en<br />

provoquant des ondes se propageant<br />

dans le réseau, et peut engendrer<br />

l’apparition de vortex (Figure 7-22,<br />

p.164).<br />

3.2.2 Modèle de neurone à dynamique propre<br />

On dira qu’un neurone possède une dynamique propre s’il possède la capacité de<br />

maintenir une dynamique sans stimulation externe. De tels modèles peuvent produire un<br />

comportement dynamique en étant isolés.<br />

1. Modèle à rétroaction<br />

Certains modèles à mémoire, dont le poids est une fonction du retard( si il existe une<br />

m<br />

fonction f telle que w = f ( m)),<br />

peuvent être simplifiés.. Ainsi, par exemple, si :<br />

ij<br />

ij<br />

m<br />

wij la sortie du neurone peut être ramenée à :<br />

m<br />

i i<br />

= ( 1-m ). m ,<br />

x ( t) = ( 1- m ) x ( t) + m . x ( t-D t)<br />

,<br />

i i i i i<br />

ce qui correspond à une rétroaction sur le neurone.<br />

Ainsi, un modèle à mémoire, coûteux en utilisation de mémoire lors de son<br />

implémentation informatique, peut être parfois ramené à un simple modèle récurrent,<br />

moins coûteux. De la même façon, les modèles de neurones possédant une rétroaction<br />

peuvent être assimilés à des modèles à mémoire [[202]], car leur nouvel état dépend de<br />

leurs itérations passées.<br />

PREMIERE PARTIE : ANALYSE<br />

Figure 3-2 : Influence de la période réfractaire<br />

Dans le cas d’un neurone dont la sortie est mise<br />

à un dès que le potentiel dépasse un seuil,<br />

l’ajoût d’une période réfractaire évite la<br />

saturation, et entraine le neurone sur une<br />

activité périodique.


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

2. Modèle à dynamique chaotique propre<br />

Afin d’obtenir un comportement dynamique du neurone, et au-delà de l’utilisation<br />

d’une mémoire dans le neurone, certaines études proposent d’utiliser des neurones à<br />

comportement chaotique propre. L’intérêt de cette utilisation est d’implanter à l’échelle<br />

du neurone, les principes d’utilisation du chaos comme ‘filtre de nouveauté’ (p.52).<br />

Cette approche, utilisée par [[104]],<br />

consiste à réaliser un neurone<br />

possédant une boucle de<br />

rétroaction, qui génère une sortie<br />

chaotique du neurone, de la même<br />

façon qu’une fonction itérée du type<br />

de celle de Hénon. L’équation de<br />

l’évolution du neurone est :<br />

å<br />

h () t = w x () t<br />

i ij j<br />

j<br />

( )<br />

x ( t+ 1) = 1-4h () t x () t 1-x<br />

() t<br />

i i i i<br />

ce qui correspond à l’équation<br />

logistique :<br />

( )<br />

xt ( + 1) = 4axt () 1-xt<br />

()<br />

Ainsi, ce réseau s’apparente à une<br />

assemblée de dynamiques<br />

chaotiques, dont le paramètre de<br />

bifurcation de chaque site est modifié par l’état du réseau.<br />

3.2.3 Architecture du réseau<br />

Figure 3-3 : Carte de bifurcation du modèle logistique<br />

Cette carte trace pour chaque valeur du paramètre<br />

de contrôle du système, l’ensemble des valeurs prises<br />

après la phase de régime transitoire. En augmentant<br />

ce paramètre, le système passe d’un point fixe vers<br />

un cycle d’ordre 2, puis 4, 8, et finit par atteindre des<br />

régimes chaotiques.<br />

Comme nous l’avons vu auparavant, de nombreux modèles de neurones ont été<br />

développés afin d’obtenir des réseaux neuronaux allant des réseaux à mémoire, dont l’activité<br />

s’éteint après stimulation, jusqu’aux réseaux à dynamique interne chaotique. en passant par les<br />

réseaux à rétroaction,<br />

Dans le cas où la dynamique du neurone isolé ne possède que des points fixes,<br />

l’architecture du réseau permet néanmoins d’obtenir en général une dynamique globale du réseau,<br />

via les rétroactions de certains neurones sur d’autres. De cette façon, les neurones couplés voient<br />

leur dynamique individuelle entretenue par la dynamique globale du réseau.<br />

Comme, à ce jour, aucune évidence biologique n’a vraiment été démontrée de rétroaction<br />

possible d’un neurone sur lui-même, ni, en général, de l’observation d’une dynamique individuelle<br />

complexe dans un neurone isolé, nous éliminerons les architecture de ce type. Nous nous<br />

limiterons donc, dans la liste des modèles présentés précédemment, aux modèles de neurones à<br />

mémoire, qui forment le type de modèles le plus général. Mais reste le choix de l’architecture, qui<br />

peut entretenir une dynamique du réseau, en l’absence de tout stimulus externe, afin de respecter<br />

l’idée, présentée au début de cette thèse, d’un système en interaction et co-évolution dynamique<br />

avec son environnement.<br />

MODELES CONNEXIONNISTES DYNAMIQUES 69


70<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

1. Architectures Feed-Forward<br />

La première architecture envisageable suppose qu’à chaque entrée correspond une<br />

seule et même sortie associée.<br />

Ce type d’architecture fait partie des premières développées, et correspond au<br />

perceptron multi-couches [[136]], et fut encouragée par l’hypothèse de la présence de<br />

circuits cognitifs de type perception-action : la perception correspond à l’entrée du<br />

réseau, et sa sortie donne l’action associée à l’entrée. De cette façon, le réseau perçoit<br />

son environnement, le traite, puis génère en réponse une action. Malheureusement,<br />

dans le cadre de cette thèse, plusieurs résultats viennent contrarier ce modèle. Cette<br />

architecture n’est pas biologiquement plausible : le caractère exclusivement feed-forward<br />

n’apparaît pas dans le système cérébral. Ce type d’architecture engendre un<br />

déterminisme total : à même environnement, même action. C’est l’environnement qui<br />

agit. De plus, un système feed-forward ne possède pas de dynamique libre non<br />

stationnaire.<br />

Figure 3-4 : Equivalence du modèle à entrée-sortie<br />

Il est possible de ‘déplier’un réseau de type feed-forward, en un réseau de type hopfieldien,<br />

sans différentiation entrée-sortie. Ainsi, l’approche perception-action des premiers modèles<br />

peut être généralisée à une approche interaction-association, plus générale.<br />

Dernier point, la différentiation entrée-sortie dans ce type de réseau n’est pas<br />

nécessaire. Ces réseaux peuvent être vus comme de simples réseaux à entrée,<br />

retrouvant celle-ci par présentation d’une entrée apprise bruitée. En effet, l’apprentissage<br />

de l’association d’une sortie S à une entrée E, en vue d’un rappel de la sortie désirée S,<br />

lors de la présentation de l’entrée associée E, peut correspondre à l’apprentissage d’une<br />

entrée E’=E Å S, et d’un rappel par la présentation E, troncature de E’. Selon cette<br />

interprétation (Figure 3-4), l’architecture feed-forward est un cas particulier d’un modèle<br />

plus général de mémorisation.<br />

Cette généralisation consiste à faire mémoriser au réseau des entrées qui lui sont<br />

présentées, afin de permettre un rappel lors de la présentation de l’une de ces entrées<br />

PREMIERE PARTIE : ANALYSE


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

tronquée ou bruitée. Ce principe correspond à l’un de ceux utilisés dans les modèles<br />

hopfieldiens.<br />

Nous nous orienterons donc vers ce type de modèle, sans différentiation de neurones<br />

d’entrée ou de sortie, dans lequel des patterns dynamiques sont présentés au réseau, en<br />

vue d’un rappel ultérieur. Cette approche permet de ne pas postuler a priori d’un<br />

comportement behavioriste du réseau. Nous verrons par la suite que ce choix nous<br />

permet d’interpréter l’entrée en termes de source de perturbations pour les dynamiques<br />

libres du réseau.<br />

2. Architectures récurrentes<br />

L’une des méthodes les plus immédiates, tenant compte de l’état interne du réseau<br />

dans la détermination de sa sortie, consiste à reboucler sur les entrées du réseau<br />

certains de ces états internes. Ce rebouclage permet en général de maintenir une<br />

dynamique interne non stationnaire du réseau, et ainsi, de vérifier l’hypothèse du toutdynamique<br />

(2.2.2 ,p.28).<br />

Ce type d’architecture est biologiquement plausible puisque, dès le début des recherches<br />

neurophysiologiques, l’observation de connexions récurrentes dans les réseaux<br />

biologiques a été observée.<br />

Reste à déterminer l’architecture de ces connexions récurrentes.<br />

Dans leurs thèses, Quoy [[161]] et Cessac [[32]], démontrent qu’une connectivité<br />

partielle, même faible, du réseau permet de conserver ses qualités dynamiques. De plus,<br />

90 % des connections récurrentes du cerveau s’effectuent dans un volume de 1 cm 3<br />

autour du neurone considéré. Nous nous sommes donc rapidement orientés vers des<br />

architectures récurrentes à voisinage local. Ce type d’architecture présente d’autre part<br />

l’intérêt de définir une topologie simple du réseau, conforme aux distances neuronales<br />

(le nombre d’étapes pour que deux neurones échangent leur information est<br />

proportionnel à leur distance). Cette propriété nous a permis d’observer et d’interpréter<br />

une diffusion de l’information dans les réseaux récurrents à voisinage local.<br />

3. Architectures modulaires<br />

Il est possible de compléter l’architecture précédente, en augmentant sa pertinence<br />

biologique, en créant a priori des modules qui s’activent les uns les autres. Dans ce cas,<br />

chaque module est une architecture indépendante, faiblement connectée aux autres<br />

modules du réseau. Il est admis que des populations neuronales spécifiques sont<br />

activées lors de l’évocation d’un concept, et qu’il existe des populations neuronales<br />

faiblement connectées les unes aux autres, créant ainsi des modules.<br />

Cette modularité, étayée par la notion d’encodage par population neuronale, commence<br />

a être étudiée [[166]], soit par l’utilisation a priori de modules fonctionnels [[86]][[87]], soit<br />

par l’étude de l’apparition de modules, ou clusters d’activité, lors de l’apprentissage<br />

[[78]][[85]][[131]].<br />

Malgré l’intérêt que présentent ces architectures, il est nécessaire, dans un premier<br />

temps, d’étudier simplement l’activité d’une seule population neuronale. Nous nous<br />

limiterons donc, dans le cadre de cette thèse, à des architectures à récurrence locale,<br />

régulières, qui définissent un seul module. Par contre nous nous intéresserons fortement<br />

MODELES CONNEXIONNISTES DYNAMIQUES 71


72<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

aux capacités de spécialisation neuronale autour des sites de forçage, ce qui revient à<br />

étudier des phénomènes de modularisation a posteriori. Comme nous le verrons, il est<br />

possible d’interpréter la spécialisation modulaire neuronale comme étant une cause de la<br />

spécificité des sites de forçage (5.2.4 Modularisation fonctionnelle, p.113).<br />

3.3 Exemples de modèles chaotiques<br />

Nous présentons ici quelques uns des modèles proposés, dans lesquels ont été mis en<br />

évidence des dynamiques chaotiques, représentatifs des rôles proposés pour le chaos. Ces<br />

modèles se répartissent entre ceux qui découlent de considérations purement biologiques, et ceux<br />

pour lesquels le chaos n’est qu’un outil, source de désordre, améliorant les capacités de<br />

généralisation du système.<br />

3.3.1 Wan et Aussem<br />

Les travaux d’Eric Wan [[207]][[208]]. complétés par Alex Aussem [[7]][[8]], qui a<br />

généralisé les algorithmes proposés aux réseaux récurrents, font partie de ceux qui ont obtenu les<br />

meilleurs résultats de modélisation d’une série chaotique. Ces réseaux sont composés de<br />

neurones à mémoire, appelés ici FIR (Finite Impulse Response), dans une architecture feedforward<br />

classique.<br />

L’apprentissage consiste à faire apprendre au réseau les associations X(t),X(t+1), ce qui<br />

permet, après apprentissage, en rebouclant les sorties sur les entrées, d’obtenir un réseau dont la<br />

dynamique des sorties modélise la série temporelle apprise X(t).<br />

Cet apprentissage est une simple généralisation de l’algorithme de rétropropagation du<br />

gradient au modèle de neurone à mémoire. Il revient à modifier les vecteurs poids 25 par :<br />

Avec :<br />

l<br />

l<br />

l+<br />

1 l<br />

W ( t+ 1)<br />

= W () t -hd<br />

(). t X () t<br />

ij<br />

ij<br />

l ( j )<br />

l ( )<br />

l<br />

d () t =- 2e<br />

() t s ¢ h () t si l= L<br />

j<br />

j j<br />

l<br />

l+<br />

1 l<br />

d () t = s ¢ h () t d () tW () t sil¹ L<br />

j<br />

m=<br />

1<br />

PREMIERE PARTIE : ANALYSE<br />

N<br />

l+<br />

1<br />

å<br />

Cet algorithme revient donc, de la même façon que la rétro-propagation du gradient rétropropage<br />

l’erreur, à rétro-convoluer les vecteurs poids avec les vecteurs d’erreur<br />

l<br />

l l<br />

l<br />

l l-1<br />

d ( t) = [ d ( t), d ( t + 1), d ( t+ 2),...,<br />

d ( t+ M )]<br />

m<br />

l<br />

d j<br />

m<br />

m<br />

-1<br />

(), t et calculer ainsi l’évolution des poids.<br />

m<br />

m<br />

m<br />

j<br />

jm<br />

i<br />

, afin d’obtenir les nouvelles composantes<br />

L’efficacité de cet algorithme a été démontrée sur l’apprentissage d’une fonction de Lorenz<br />

et de Henon. Dans les deux cas, il est très intéressant de remarquer que non seulement l’erreur<br />

atteinte après apprentissage est faible, mais aussi que les réseaux obtenus sont sensibles aux<br />

conditions initiales. En effet, lors de son régime libre, le réseau s’écarte vite de la dynamique<br />

25 Un vecteur poids contient l’ensemble des poids synaptiques pour une synapse donnée, pour chaque retard<br />

du neurone à mémoire.


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

apprise, mais reste sur l’attracteur appris. Ce type de réseau vérifie donc la propriété de<br />

dépersévération des dynamiques apprises, et est donc un bon candidat pour notre tentative de<br />

modélisation.<br />

Ces résultats nous ont confortés dans le choix de modèles neuronaux à mémoire,<br />

démontrant que des architectures simples de neurones à mémoire peuvent générer des<br />

dynamiques chaotiques complexes. Nous nous sommes donc inspirés de ces principes lors du<br />

développement de la règle dérivée de BPTT pour les neurones à mémoire (8.3 Diffusion de<br />

l'erreur dans le réseau, p.190). Malheureusement, des aveux même de l’auteur 26 , l’apprentissage<br />

est particulièrement difficile à réaliser. Il faut déterminer à la main le nombre de neurone de<br />

chaque couche, la mémoire de chaque neurone, le gain d’apprentissage, et le faire varier durant<br />

l’apprentissage. Les résultats obtenus l’ont été par tâtonnement successif.<br />

Autre obstacle, cet algorithme ne peut pas être utilisé dans des réseaux récurrents. La<br />

généralisation d’Aussem aux réseaux récurrents, malgré ses bons résultats, est malheureusement<br />

impossible à employer dans nos réseaux. En effet, cet algorithme découle de la recherche du<br />

minimum de la fonction d’erreur par descente de gradient, et utilise des techniques non<br />

biologiquement plausibles (inversion de la matrice des poids par exemple).<br />

3.3.2 Renals<br />

Ce modèle [[164]] est l’un des plus simples dans lequel peut apparaître du chaos. Il<br />

s’agit d’un simple modèle hopfieldien à coefficients non symétriques. L’intérêt de cette étude tient<br />

dans la quantification précise du rôle de certains paramètres du réseau, et la mise en évidence du<br />

caractère bifurquant de ces paramètres.<br />

Le modèle étudié suit une équation du type :<br />

æ<br />

ö<br />

1<br />

xi( t+ Dt= ) ( 1-<br />

Dt) xi() t + Dtsçråwijxj()<br />

t + Ii() t ÷ avec s ( x)<br />

= , -x<br />

è j<br />

ø<br />

1+<br />

e<br />

pour des réseaux comportant peu de neurones (une dizaine), entièrement interconnectés.<br />

La matrice de connectivité est décomposée en la somme de deux composantes, l’une symétrique,<br />

l’autre antisymétrique. Renals étudie de façon précise l’effet du taux de symétrique de la matrice<br />

de connexion, du gain r de la fonction neurone, et du pas de discrétisation Dt , sur le<br />

comportement dynamique du réseau. Cette étude précise démontre la richesse dynamique des<br />

réseaux hopfieldiens à matrice de connexion non symétrique et à temps discret, même dans de<br />

petits réseaux, dont nous nous inspirerons.<br />

3.3.3 Chapeau Blondeau<br />

Ce modèle [[39]] complète le précédent, en étudiant des réseaux d’équation:<br />

æ ö<br />

1<br />

xi( t+ 1)<br />

= s i çåwijxj()<br />

t ÷ avec s i( x)<br />

= -bi( x-q<br />

i)<br />

è j ø<br />

1+<br />

e<br />

Il est montré que de tels réseaux développent aussi une grande richesse dynamique,<br />

allant des comportements périodiques, aux quasi-périodiques, jusqu’au chaos. Il est possible de<br />

26 Communication personnelle<br />

MODELES CONNEXIONNISTES DYNAMIQUES 73


74<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

modifier la dynamique de tels réseaux, soit par des modifications internes (évolution des poids<br />

synaptiques), ou externes (entrées du réseau, via la modification des seuils q i ).<br />

Cette dernière interprétation est à l’origine de notre modèle, où les entrées extérieures<br />

forcent les xi, modifiant les dynamiques du réseau autour des sites de forçage. Après s’être limité<br />

à l’étude des dynamiques de tels réseaux, ce travail ouvre la voie à l’étude de l’apprentissage<br />

dans les réseaux à dynamiques chaotiques. Il conclut en effet par la nécessité d’étudier les<br />

mécanismes probables d’encodage par les dynamiques chaotiques, et la faisabilité d’une théorie<br />

de l’information prenant comme support les attracteurs des dynamiques chaotiques.<br />

3.3.4 Doyon, Cessac, Quoy<br />

Le réseau développé s’inspire des précédents, et correspond à un réseau hopfieldien, à<br />

connexions non-symétriques, à connectivité diluée 27 :<br />

x ( t+ 1)<br />

= sa ( w x () t -q)<br />

i ij j i<br />

j=<br />

1<br />

Et où sont étudiées les dynamiques moyennes du réseau :<br />

PREMIERE PARTIE : ANALYSE<br />

k<br />

å<br />

net<br />

N<br />

Nå i=<br />

1<br />

i<br />

1 m () t = x () t<br />

Cette architecture simple est biologiquement plausible, et conforte les hypothèses de<br />

Freeman [[180]], qui suppose qu’il y a diminution de la dimension fractale des dynamiques<br />

cérébrales, lors de la reconnaissance. Les résultats de Doyon et Quoy [[68]][[161]] démontrent<br />

rigoureusement qu’un simple apprentissage hebbien dans ce type de réseau permet de faire<br />

diminuer la dimension fractale de l’activité moyenne du réseau lors de l’apprentissage d’une<br />

entrée apprise.<br />

Ce résultat est d’un grand intérêt car il démontre qu’un apprentissage hebbien, inspiré du<br />

biologique, appliqué à un réseau artificiel, permet de retrouver des phénomènes observés dans<br />

les réseaux biologiques, à savoir la diminution de la dimension fractale lors de la reconnaissance.<br />

Ce résultat est donc très encourageant quant à la faisabilité d’une modélisation des capacités de<br />

mémoire des systèmes cognitifs biologiques.<br />

3.3.5 Babloyantz Destexthe<br />

Les réseaux de neurones à délais présentés dans [[9]], s’inspirent directement de<br />

modèles neurophysiologiques, et sont hétérogènes, composés de deux types de neurones : les<br />

neurones excitateurs x, et les neurones inhibiteurs y. Il existe donc quatre types de connexions<br />

synaptiques (E-E (1),E-I (2),I-E (3),I-I (4)), qui se retrouvent dans les équations d’évolution du<br />

modèle :<br />

27 Ce qui signifie que deux neurones quelconques du réseau sont reliés, selon une probabilité qui donne le<br />

taux de dilution du réseau.


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

dxi<br />

æ<br />

ö<br />

=-g( xi-u0) -( xi-E1) ç wki s xk( t- t ki)<br />

+ Tgx ( ) ( x E ) w s y ( t t )<br />

dt<br />

è<br />

ø<br />

( 1)<br />

( 2)<br />

å ( ) i ÷- i - 2 å li ( 1 - li )<br />

k<br />

dyi<br />

=-g( yi -u0) -( yi-E1) wki s xk( t-t ki ) -( y -E ) w s y ( t-t<br />

)<br />

dt<br />

( 3)<br />

( 4)<br />

å ( ) i 2 å li ( l li )<br />

k<br />

Les entrées sont additives, et s’ajoutent à l’influence des neurones excitateurs sur les<br />

neurones excitateurs (E-E). Cette étude démontre que des dynamiques chaotiques apparaissent<br />

dans ce réseau lorsque aucune entrée n’est présentée, et que, en fonction de la vitesse de la<br />

dynamique d’entrée, il y a réduction de la dimension fractale. Il apparaît des phénomènes de<br />

synchronisation dépendant de la vitesse des dynamiques d’entrée. Ce modèle nous a inspiré l’idée<br />

de forçage par les dynamiques externes, et la notion d’encodage par synchronisation de<br />

populations neuronales. En effet, il est clairement montré dans cette étude que le site d’entrée<br />

diffuse son activité, en synchronisant des populations voisines.<br />

3.3.6 Freeman<br />

Les travaux de Freeman découlent directement d’une étude neurophysiologique chez le<br />

lapin. Après avoir observé et analysé les dynamiques chaotiques des neurones du système olfactif<br />

du lapin[[180]], il a construit un système artificiel aussi proche que possible, dans lequel il a pu<br />

obtenir des dynamiques proches de celles observées dans le cas biologique.<br />

L’intérêt de l’approche de Freeman réside principalement dans sa méthodologie : après<br />

analyse précise d’un modèle biologique, il le modélise, en interprète les comportements, et tente<br />

de retrouver ces comportements dans ses simulations. Il y a ainsi un aller-retour permanent entre<br />

le biologique et l’artificiel. Freeman fut aussi l’un des premiers à donner au chaos un rôle actif<br />

dans la modélisation de l’activité cérébrale [[180]]. Il y voit deux rôles : l’un est un moyen d’assurer<br />

un accès à l’information préalablement apprise, et l’autre est le moyen d’apprendre de nouveaux<br />

patterns sensitifs.<br />

Après avoir, dans un premier temps, proposé des règles d’apprentissage simples, ayant<br />

pour objet de renforcer les connexions synaptiques de neurones corrélés, il cherche actuellement<br />

à contrôler les dynamiques individuelles des neurones[[218]]. Il semblerait, dans ce dernier article,<br />

qu’il soit confronté aux problèmes de l’apprentissage de dynamique dans les réseaux récurrents,<br />

problème qui a limité aussi nos résultats.<br />

3.3.7 Kohonen logistique<br />

Ce modèle [[63]] s’écarte des approches précédentes, en faisant du chaos un simple<br />

outil permettant de bruiter l’activité du réseau, et de maximiser ainsi les chances de segmentation<br />

valide du paysage des entrées. Les auteurs utilisent le modèle logistique présenté précédemment<br />

(2, p.69), dans un réseau de type Kohonen, avec un apprentissage du type ‘winner takes all’. Leurs<br />

résultats démontrent l’intérêt de ce type de réseau : les segmentations obtenues sont meilleures<br />

que celles d’un réseau de Kohonen classique. Par contre, le chaos reste ici une simple source de<br />

bruitage des états, ce qui correspond aux méthodes utilisées dans les réseaux probabilistes.<br />

Ce modèle n’est pas crédible biologiquement, mais il démontre l’intérêt du chaos dans la<br />

qualité de l’apprentissage réalisé : les classes apprises de cette façon facilitent la généralisation.<br />

MODELES CONNEXIONNISTES DYNAMIQUES 75<br />

l<br />

l


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

3.4 Conclusion<br />

La profusion des modèles connexionnistes développés limite la possibilité de choisir<br />

clairement un modèle de réseau dynamique en fonction des propriétés que l’on espère obtenir.<br />

Comment dégager un modèle qui nous permette, comme nous l’avons proposé précédemment,<br />

d’obtenir une complexification des dynamiques lors de la présentation d’entrées inconnues, une<br />

simplification des dynamiques après apprentissage, et le maintient d’un comportement chaotique,<br />

source de dépersévération pour le système ?<br />

Dans les modèles étudiés, l’approche qui nous semble être la plus proche est celle<br />

réalisée par Doyon, Cessac, Quoy et Samuelides [[68]], qui a confirmé la possibilité de<br />

simplification des attracteurs du réseau, lors de la reconnaissance, grâce à un apprentissage<br />

Hebbien, et qui a montré la coexistence de plusieurs attracteurs dans la dynamique d’un réseau,<br />

qui seraient des supports potentiels pour l’encodage. Les choix réalisés lors du développement de<br />

nos modèles seront donc proches de ceux-ci, et nous utiliserons aussi des réseaux de type<br />

hopfieldien, avec une connectivité partielle des neurones. Afin de se rapprocher d’un modèle<br />

biologique simplifié, cette connectivité partielle sera limitée au voisinage proche du neurone.<br />

De plus, comme nous souhaitons analyser les capacités de synchronisme de tels réseaux,<br />

nous observerons les dynamiques individuelles de populations locales de neurones, au lieu de la<br />

dynamique de la moyenne des états du réseau.<br />

En conclusion de la thèse réalisée par Mathias Quoy [[161]], celui-ci notait l’intérêt d’une<br />

étude du rôle des retards sur les dynamiques chaotiques, ce qui prolongerait ses travaux. Un tel<br />

paramètre participe à la synchronisation locale de populations neuronales, et sera donc utilisé<br />

dans nos modèles. Comme l’utilisation d’un délai dans un réseau suppose la mémorisation des<br />

états passés du réseau, il était aussi simple de compléter le modèle hopfieldien classique par un<br />

modèle à mémoire. De plus, les résultats de Wan démontrent la faisabilité de l’apprentissage de<br />

fonctions chaotiques dans les réseaux à mémoire. Cette mémoire des entrées du neurone sera<br />

généralisée à celle des sorties du réseau, qui ajoute la notion de période réfractaire, qui facilite la<br />

diffusion de l’activité dans le réseau (Figure 7-21, p.163).<br />

Ainsi, le rôle proposé pour le chaos, confronté aux études déjà réalisées, nous permet de<br />

nous orienter vers un modèle hopfieldien, à voisinage local, à neurones à mémoire en entrée et en<br />

sortie. Un tel modèle possède un trop grand nombre de paramètres pour pouvoir déterminer de<br />

façon théorique son comportement, et il sera donc nécessaire d’orienter les recherches vers une<br />

expérimentation des comportements de ce type de réseau. Dans ce but, l’ordinateur parallèle du<br />

TIMC, le DEC-MPP12000, nous a permis de développer un outil, aussi général que possible, qui<br />

peut simuler le plus grand nombre possible de réseaux différents.<br />

3.5 Bibliographie<br />

[[1]] Sergey K. Aityan.. Recurrent refractory neural field IEEE. O-7803-0559-0/92 .p 140-145 (1992)<br />

[[9]] A. Babloyantz, A. Destexhe. Nonlinear analysis and modelling of cortical activity. Mathematics<br />

applied to biology and medecine. J. Demongeot, V. Capasso (edts). ISBN 0-920063-63-2. p 35-48<br />

(1993)<br />

[[10]] A. Babloyantz, C. Lourenço. Computation with chaos. A paradigm for cortical activity. Proc. Natl.<br />

Acad. Sci. USA. Vol.91, p.9027. (1994)<br />

76<br />

PREMIERE PARTIE : ANALYSE


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

[[20]] Roman M. Borisyuk, Alexandr B. Kirillov. Bifurcation analysis of a neural network model. Biol.<br />

Cyber. 66. p319-325. (1992)<br />

[[26]] Nicolas Brunel. Dynamics of an attractor neural network converting temporal into spatial<br />

correlations. Network : Computation in neural systems. 5. p449-470. (1994)<br />

[[32]] Bruno Cessac. Propriétés statistiques des dynamiques de réseaux neuromimétiques. <strong>Thèse</strong>. (1994)]<br />

[[33]] Bruno Cessac. Increasing of complexity in random neural networks. soumis au Journal de physique<br />

: cross- disclinary physics.<br />

[[34]] Bruno Cessac. Ocurrence of chaos and AT line in random neural network. Europhysics letters.<br />

26(8). p577-582. (1994)<br />

[[35]] B. Cessac, B. Doyon, M. Quoy, M. Samuelides. Mean field equations, bifurcation map and route to<br />

chaos in discrete time neural networks. Physica D. 74. p24-44. (1994) Bruno Cessac. Propriétés<br />

statistiques des dynamiques de réseaux neuromimétiques. <strong>Thèse</strong>. (1994)<br />

[[40]] Francois Chapeau-Blondeau, Gilbert Chauvet. Stable, Oscillatory, and chaotic regimes in the<br />

dynamics of small neural networks with delay. Neural Networks, Vol. 5. pp 735-743. (1992)<br />

[[41]] François Chapeau-Blondeau, Gilbert Chauvet. Dynamic properties of a biologically motivated<br />

neural network model. International Journal of Neural Systems. Vol. 3. no. 4. pp 371-378. (1992)<br />

[[43]] Francois Chapeau-Blondeau. Analysis of neural networks with chaotic dynamics. Chaos, Solitons<br />

& Fractals. Vol. 3. No 2. pp 133-139. (1993)<br />

[[57]] Gustavo Deco. Neural learning of chaotic dynamics.<br />

[[62]] A. Destexhe (alain@helmholtz.sdsc.edu). Stability of periodic oscillations in a network of neurons<br />

with time delay. à paraitre dans Physics Letters A.<br />

[[63]] Migzhou Ding, J.A Scott Kelso. Controlling chaos : a selection mechanism for neural in-formation<br />

processing<br />

[[64]] Alison A. Dingle, John H. Andreae, Richard D. Jones. The chaotic self-organizing map.0-8186-<br />

4260-2/93. IEEE. p15-18. (1993)<br />

[[64]] Alison A. Dingle, John H. Andreae, Richard D. Jones. The chaotic self-organizing map.0-8186-<br />

4260-2/93. IEEE. p15-18. (1993)<br />

[[68]] B. Doyon, B. Cessac, M. Quoy, M. Samuelides. Control of the transition to chaos in neural<br />

networks with random connectivity. International journal of bifurcation and chaos. Vol. 3. No. 2.<br />

p279-291. (1993)<br />

[[78]] David Golomb, John Rinzel. Clustering in globally coupled inhibitory neurons. Physica D. 72.<br />

p259-282. (1994)<br />

[[85]] Hansel, G. Mato, C. Meunier. Clustering and slow switching in globally coupled phase oscillators.<br />

Physical Review E. Vol. 48. No.5. p3470-3477. (1993)<br />

[[86]] Bart L.M. Happel (happel@rulfsw.leidenuniv.nl) , Jacob M.K. Murre. Evolving complex dynamics<br />

in modular interactive neural networks. Soumis a Neural Networks.<br />

[[87]] Bart L.M Happel, Jacob M.J Murre. The design and evolution of modular neural network<br />

architectures. Neural Networks. Vol.7. p985-1004. (1995)<br />

[[90]] Hendin, D. Horn, M. Usher. Chaotic behavior of a neural network with dynamical thresholds.<br />

International journal of neural systems. Vol.1. No4. p327-335. (1991)<br />

[[103]] Masayoshi Inoue, Seiichirou Fukushima. A neural network of chaotic oscillators. Prog. Theor.<br />

Phys. Vol.87. No.3. (1992)<br />

[[131]] Nobuyuki Matsui, Elichi Bamba. Neural activities and cluster-formation in a random neural<br />

network.<br />

MODELES CONNEXIONNISTES DYNAMIQUES 77


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

[[104]] Shin Ishi. Kenji Fukumizu. Sumio Watanabe. A network of chaotic elements for information<br />

processing. Neural Networks. Vol. 9. No 1.p25-40. (1996)<br />

[[121]] E. Labos. Chaos and neural networks.<br />

[[142]] Shigetoshi Nara, Peter Davis, Hiroo Totsuji. Memory search using complex dynamics in a<br />

recurrent neural network model. Neural Networks. Vol. 6. p963-973. (1993)<br />

[[157]] Pinaki Poddar, K. P. Unnikrishnan. Memory neuron networks : A prolegomenon. General motors<br />

research laboratories. CMR-7493. 21 octobre. (1991)<br />

[[164]] Steve Renals. Chaos in neural networks. Eurasip Workshop, 90-99. (1990)<br />

[[166]] Eric Ronco, Peter Gawthrop. Modular neural networks : a state of the art. Technicalre-port CSC-<br />

95026. (1995)<br />

[[169]] Toshimichi Saito. Chaos and fractals from forced artificial neural cell. IEEE TNN. Vol.4.No.1.<br />

(1993)<br />

[[180]] Christine A. Skarda, Walter J. Freeman (wfreeman@garnet.berkeley.edu). How brains make chaos<br />

in order to make sense of the world. Behavioral and Brain <strong>Sciences</strong>. 10. pp 161-195. (1987)<br />

[[198]] Fu-Sheng Tsung(tsung@cs.ucsd.edu), Garrison W. Cottrell (gary@cs.ucsd.edu). Hopf bifurcation<br />

and hopfhopping in recurrent nets.<br />

[[218]] Yong Yao, Walter J. Freeman (wfreeman@garnet.berkeley.edu). Model of biological pattern<br />

recognition with spatially chaotic dynamics. Neural Networks. Vol. 3. pp 153-170. (1990)<br />

78<br />

PREMIERE PARTIE : ANALYSE


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

4. APPRENTISSAGE DANS LES RESEAUX RECURRENTS<br />

La mémoire est une forme de l’habitude, et l’habitude est une<br />

caractéristique du système nerveux, bien qu’elle puisse exister ailleurs,<br />

par exemple dans un rouleau de papier qui s’enroule à nouveau une fois<br />

déroulé.<br />

Bertrand Russell. Science et Religion. p 98<br />

4.1 Introduction : Reproduire un état passé<br />

Qu’est-ce qu’apprendre ? Est-ce la capacité de reproduire une information enregistrée ?<br />

Dans ce cas, une cassette audio ou vidéo, une mémoire d’ordinateur, ou même une feuille<br />

blanche sont douées de capacité d’apprentissage. Doit-on ajouter à la définition d’apprentissage<br />

des notions de plus haut niveau comme celles de classification, d’organisation, ou d’agencement<br />

des données apprises ? Dans ce cas, une base de données vérifie ces propriétés. Faut-il alors<br />

qu’il y ait réutilisation des données apprises pour la résolution de tâches complexes ? Où s’agit-il<br />

d’un phénomène d’aussi bas niveau que celui du papier qui s’enroule de nouveau ? Il semble<br />

qu’existent plusieurs définitions de l’apprentissage, chacune caractérisant un type particulier de<br />

l’utilisation de la mémoire : mémoire de travail, mémoire échoïque, mémoire de rappel, mémoire<br />

de reconnaissance... Mais quelle est la composante commune à ces définitions?<br />

Cette composante commune sera l’une des propriétés recherchées dans cette thèse, qui<br />

sera ramenée à la définition bas-niveau :<br />

Un stimulus est mémorisé par un système si ce système peut reproduire l’état interne<br />

qu’il avait lors de la perception de ce stimulus.<br />

Cette reproduction d’une information passée doit être possible soit de façon spontanée par<br />

le système, soit par présentation partielle ou bruitée de l’état à retrouver. Cette définition du<br />

phénomène de mémorisation permet d’utiliser l’ensemble des recherches réalisées dans le cadre<br />

de l’apprentissage de séries temporelles : le système doit chercher à reproduire la dynamique<br />

dans laquelle une perturbation passée l’a déjà mis. Comme nos réseaux sont récurrents, quelques<br />

règles peuvent être proposées, développées ces dernières années, dont les principales sont le<br />

Back Propagation Trough Time et le Real Time Recurrent Learning. Malheureusement, ces règles<br />

ne sont pas plausibles biologiquement. Nous essaierons donc de décrire les bases de ces règles,<br />

APPRENTISSAGE DANS LES RESEAUX RECURRENTS 79


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

afin d’en dégager les principes qui peuvent nous orienter dans la mise au point de règles<br />

d’apprentissage implantables dans les réseaux récurrents, qui conservent ces critères de<br />

plausibilité biologique (4.5 Limites, p.89). Nous tenterons dans ce chapitre de dégager les<br />

quelques idées qui nous serons utiles pour la phase d’apprentissage, en nous permettant de<br />

dégager un algorithme plus plausible biologiquement que ceux de RTRL ou de BPTT.<br />

4.2 Apprentissage Hebbien<br />

Cette règle date de 1949 [[88]], et l’on oublie souvent l’interprétation première de Hebb,<br />

qui y voyait l’un des principes permettant le rappel et le renforcement d’une activité cérébrale :<br />

80<br />

Let us assume that the persistence or repetition of a reverbatory activity<br />

tends to induce lasting cellular changes that add to its stability [...]<br />

When an axon of cell A is near enough to excite a cell B and repeatedly<br />

or persistently takes part in firing it, some growth process or metabolic<br />

change takes place in one or both cells such that A’s efficiency, as one<br />

of the cells firing B, is increased.<br />

Ce terme de réverbération revient dans d’autres propos de Hebb :<br />

PREMIERE PARTIE : ANALYSE<br />

Hebb. The organisation of behaviour. (1949)<br />

It seems that short term memory may be a reverberation in the closed<br />

loops of the cell assembly and between cell assemblies, whereas long<br />

term memory is more structural, a lasting change of synaptic<br />

connections.<br />

Hebb & Donderi. (1987)<br />

Il semble donc que Hebb interprétait ses règles d’apprentissage en terme de dynamique.<br />

Pourtant cette règle, dans son formalisme courant, est une règle qui symétrise les poids<br />

synaptiques, et qui conduit le réseau vers des dynamiques à point fixe 28 . En effet, la règle<br />

hebbienne, telle qu’elle est couramment formalisée suit une loi du type :<br />

dwij =axx<br />

i j<br />

qui vérifie dwij=dwji, ce qui finit par amener wij=wji, et donc à figer les dynamiques du<br />

réseau. Un tel phénomène peut se voir sur la Figure 8-2, page 187, où l’attracteur finit par<br />

converger vers un point fixe. Il est donc nécessaire. Si l’on souhaite rappeler des dynamiques<br />

passées, il s’avère nécessaire de trouver une règle qui puisse modifier les attracteurs du réseau,<br />

sans les ramener pour autant à de simples points fixes.<br />

4.3 Maximisation de l'entropie de sortie<br />

Ce résultat, dû à Chapeau-Blondeau [[42]], permet de justifier l’approche de<br />

l’apprentissage hebbien, par la maximisation de l’entropie de sortie de chaque neurone. En effet,<br />

dans le cas d’un neurone possédant une fonction sigmoïde du type :<br />

28 Faut-il voir là un phénomène similaire à celui qui se manifeste chez les personnes agées, qui tendent à<br />

réitérer les mêmes comportements ?


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

1<br />

y= f( x)<br />

= -b( wx-q)<br />

1+<br />

e<br />

Il est possible de définir l’entropie de l’état d’un neurone par<br />

¥<br />

ò<br />

-¥<br />

x 2 x<br />

H( x) = p ( x).log p ( x). dx<br />

La modification de cette entropie, lors du passage par la fonction neurone f, donne :<br />

H( y) = H( x) + H ( x)<br />

avec H ( x) = p ( x).log f ¢ ( x). dx<br />

trans<br />

trans<br />

¥<br />

ò<br />

-¥<br />

x<br />

2<br />

Si l’on cherche alors à maximiser Htrans, ce qui revient à maximiser H(y) pour un x donné,<br />

et donc à maximiser l’entropie de sortie d’un neurone, il est possible de modifier les paramètres q<br />

et w de la fonction f, par :<br />

Soit, après calculs :<br />

d H<br />

et<br />

dt<br />

dw<br />

q <br />

H<br />

a a<br />

q dt w<br />

<br />

= =<br />

<br />

trans trans<br />

d<br />

y et<br />

dt<br />

dw<br />

q<br />

æ 1<br />

1 ö<br />

= 2ab(<br />

- 2)<br />

= aç + b(<br />

x-2 xy)<br />

÷ , avec pour u=f(x), u = u x px x dx<br />

dt è w ø<br />

ò ( ). ( ).<br />

L’intérêt de ce calcul est de faire apparaître dans l’apprentissage sur les poids, un terme<br />

en xy, qui rapproche une telle évolution de celle d’un apprentissage hebbien. Ainsi, le rôle d’un<br />

apprentissage hebbien peut être de maximiser l’entropie informationnelle de sortie des neurones.<br />

4.4 Descente du gradient de l’erreur<br />

L’algorithme de rétropropagation du<br />

gradient permet de faire apprendre à un<br />

réseau de neurones feed-forward<br />

multicouches des associations entrée-sortie.<br />

Dans cette architecture, l’information ne se<br />

propage que dans un sens, de l’entrée vers<br />

la sortie, confortant un peu plus le paradigme<br />

de boucle perception-action. Une telle<br />

architecture, de type perceptron<br />

multicouches, ne peut pas produire de sortie<br />

dynamique sans posséder de rétroaction<br />

dans son architecture.<br />

L’algorithme de rétropropagation du<br />

gradient fut ensuite généralisé aux<br />

Figure 4-1 : Partition des neurones<br />

architectures récurrentes, tout d’abord pour<br />

l’apprentissage de points fixes, puis en vue de l’apprentissage de séries temporelles. Nous<br />

APPRENTISSAGE DANS LES RESEAUX RECURRENTS 81<br />

¥<br />


82<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

présentons dans cette partie, l’ensemble des algorithmes qui permettent de réaliser<br />

l’apprentissage par descente de gradient dans les réseaux récurrents, en espérant ainsi dégager<br />

des principes qui peuvent être appliqués à nos réseaux. Dans tous les paragraphes qui suivent,<br />

l’ensemble S, de cardinal N, des neurones est séparé en trois sous-ensembles : Se, les neurones<br />

d’entrée (ces neurones possédant une entrée additive I t<br />

i ()), Sc, les neurones cachés, et Ss, les<br />

neurones de sortie (Figure 4-1). Cette partition de l’ensemble des neurones, classique dans le<br />

connexionnisme, peut être rapprochée du schéma utilisé pour représenter le système et son<br />

environnement (Figure 4-1). Les apprentissages évoqués ici permettent de faire suivre la<br />

dynamique désirée à chacun des neurones de sortie.<br />

Dans les développements qui suivent, nous définirons :<br />

xi(t), la sortie du neurone i au temps t<br />

pour i S s<br />

Î , x$ () t , la sortie désirée du neurone i<br />

i<br />

et m p (), t les paramètres du réseau au temps t<br />

L’erreur instantanée d’un neurone de sortie est alors définie par :<br />

1<br />

Et () = x$() t -x<br />

() t<br />

2<br />

å(<br />

i i )<br />

iÎSS La descente de gradient revient à modifier au cours du temps les paramètres du réseau<br />

pour minimiser cette erreur. Or, l’évolution de l’erreur au cours du temps est donnée par :<br />

Ainsi, si nous posons d<br />

m<br />

dt<br />

p<br />

dE<br />

dt<br />

R<br />

dE dm<br />

p<br />

å dm<br />

dt<br />

=<br />

p=<br />

1<br />

PREMIERE PARTIE : ANALYSE<br />

p<br />

dE<br />

=- h , avec h > 0 , il est garanti que<br />

dm<br />

dE<br />

< 0<br />

dt<br />

Dans le cas où les paramètres du réseau sont les poids w ij , soit :<br />

La règle d’apprentissage revient à :<br />

p<br />

{ m 1 ,..., m p,..., m R } = { w11 , ,..., wi, j,..., wNN<br />

, }<br />

dw<br />

dt<br />

ij<br />

dE<br />

=-h<br />

dw<br />

Cette dernière équation montre qu’une des méthodes d’évolution des paramètres du<br />

système consiste à évaluer dE<br />

dWij , qui peut être calculé à partir des équations de propagation 29 qui<br />

sont (avec s, une fonction sigmoïde, appelée aussi fonction neurone) :<br />

29 Il est possible de passer simplement du cas discret au cas continu...<br />

ij<br />

2


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

ou<br />

å<br />

ìhi()<br />

t = wij () t xj() t<br />

ï<br />

jÎS í<br />

îïxi(<br />

t + 1) = s(<br />

hi( t)) + Ii() t<br />

*<br />

ìdhi<br />

* *<br />

ï () t + hi () t = åwij<br />

() t xj() t<br />

ídt<br />

jÎS ï * *<br />

îxi()<br />

t = s(<br />

hi( t)) + Ii() t<br />

4.4.1 Recurrent back-propagation<br />

en temps discret<br />

en temps continu<br />

Cet apprentissage utilise la descente de gradient pour faire apprendre des points fixes à<br />

des réseaux récurrents, en utilisant les règles de dérivation en chaîne. En effet :<br />

Ce qui donne, avec xi<br />

h<br />

i<br />

E<br />

w<br />

E xi<br />

hi<br />

=<br />

x h w<br />

ij i<br />

= s ¢( hi( t))<br />

,et hi<br />

w<br />

E<br />

w<br />

ij<br />

i<br />

= x (): t<br />

<br />

s<br />

E<br />

= ¢( hi()) t xj() t<br />

x<br />

ij i<br />

Cette dernière équation montre qu’il est possible d’exprimer E<br />

en fonction de E<br />

,<br />

que l’on peut calculer en utilisant la technique de dérivation en chaîne (en déroulant les<br />

calculs à partir des neurones de sortie) qui est définie de façon récursive par:<br />

Ce qui amène, en posant z<br />

i<br />

+ N +<br />

E E E x<br />

= + å<br />

x x x x<br />

i i j = 1 j<br />

+<br />

E E<br />

= et ei<br />

= = x$ i - xi<br />

:<br />

x x<br />

i<br />

N x<br />

N<br />

j<br />

x j h<br />

N<br />

j<br />

zi = ei + åzj = ei + åzj = e + åz<br />

s¢<br />

( h ) w<br />

x<br />

h x<br />

i<br />

i j j ji<br />

j=<br />

1 i<br />

j=<br />

1 j i<br />

j=<br />

1<br />

Les équations d’évolution des poids amènent alors à<br />

dw<br />

dt<br />

ij<br />

E<br />

=- h =- ¢ h zx<br />

w<br />

<br />

hs ( )<br />

<br />

ij<br />

j<br />

APPRENTISSAGE DANS LES RESEAUX RECURRENTS 83<br />

ij<br />

j<br />

i<br />

i i j<br />

Ainsi, cette technique de descente de gradient peut se résumer aux équations<br />

suivantes :<br />

<br />

w ij<br />

<br />

x i


84<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

z = e + åz s ¢ ( h ) w<br />

i i j j ji<br />

j=<br />

1<br />

dw<br />

dt<br />

ij<br />

PREMIERE PARTIE : ANALYSE<br />

N<br />

= - hs ¢ ( h) zx<br />

j i j<br />

Ces deux dernières équations résument la méthode utilisée pour appliquer la descente<br />

de gradient dans un réseau récurrent. Dans le cas de la Recurrent Back Propagation, on<br />

suppose à priori que la dynamique du réseau est convergente. Dans ce cas, on applique<br />

ces équations après stabilisation du réseau, c’est-à-dire à t = ¥ 30 . Ce qui donne :<br />

N<br />

z ( t+ 1= ) e( ¥ ) + z ( t) s¢<br />

( h ( ¥ )) w avec z ( t = 0) = 0<br />

i i j j ji<br />

j=<br />

1<br />

nouveau ancien<br />

w = w - hz( ¥ ) s¢<br />

( h ( ¥ )) x ( ¥ )<br />

ij<br />

ij<br />

å<br />

i i j<br />

Equation 4-1 : RBP en temps discret<br />

ou, dans le cas du temps continu :<br />

( )<br />

*<br />

N<br />

dzi<br />

* * *<br />

+ z= i ei( ¥ ) + åzj() t s¢<br />

hj( ¥ ) wji avec zi( t = 0) = 0<br />

dt<br />

j=<br />

1<br />

( )<br />

nouveau ancien<br />

*<br />

Dw<br />

= w - w =- h z ( ¥ ) s¢<br />

h( ¥ ) x ( ¥ )<br />

ij ij<br />

ij<br />

i i j<br />

Equation 4-2 : RBP en temps continu<br />

Cet algorithme dans le cas discret peut être résumé dans le tableau suivant :<br />

t=0<br />

0


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

4.4.2 Back-propagation through time<br />

Cet algorithme dérive des équations précédentes, en généralisant l’apprentissage à celui<br />

de séries temporelles, où il existe un x$ () t désiré en sortie pour chaque temps t. L’erreur<br />

i<br />

quadratique qui permet de réaliser cet apprentissage est alors égale à la moyenne des erreurs<br />

instantanées réalisées pendant la présentation de la trajectoire à apprendre. L’idée principale de<br />

cet algorithme consiste à dérouler le temps à l’envers pendant la phase d’apprentissage, ce qui<br />

revient à transformer dt en -dt dans l’Equation 4-2. Pour faire évoluer les poids, la nouvelle erreur<br />

à minimiser étant la valeur moyenne de E(t), on obtient :<br />

Ou, dans le cas discret :<br />

N<br />

dzi<br />

-= zi -ei() t - åzj()<br />

t s¢<br />

( hj()) t wji avec zi( t = t1)<br />

= 0<br />

dt<br />

j=<br />

1<br />

t<br />

E<br />

wij ( t ) = wij ( t ) - h ò dt = wij ( t ) - ¢ ( hit ) zit xjt w ò () () ()<br />

<br />

1<br />

1<br />

1 0 0 h s<br />

<br />

t<br />

0<br />

ij<br />

Equation 4-3 : BPTT dans le cas continu<br />

N<br />

å<br />

( )<br />

z ( t - 1)<br />

= z () t s¢<br />

h () t w + e () t<br />

i j j ji<br />

j=<br />

1<br />

t= t1<br />

å<br />

( )<br />

w ( t ) = w ( t ) - h s¢<br />

h () t z () t x () t<br />

ij 1 ij 0<br />

i i j<br />

t= t0<br />

Equation 4-4 : BPTT dans le cas discret<br />

Ces équations peuvent être résumées dans le tableau suivant :<br />

t=0<br />

0


86<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Cet algorithme peut être vu aussi comme un déploiement du réseau sous forme<br />

d’architecture feed-forward : l’évolution du réseau récurrent pendant K itérations est alors<br />

ramené à son équivalent feed-forward à K couches.<br />

4.4.3 Real time recurrent learning<br />

1. Dans le cas discret<br />

L’algorithme précédent est peu plausible biologiquement : l’apprentissage remonte<br />

dans le passé du réseau pour déterminer l’influence qu’a eu chaque poids synaptique sur<br />

l’erreur moyenne finale. Il nécessite donc, si l’on veut réaliser un apprentissage optimal,<br />

de mémoriser l’ensemble des variables du réseau pendant toute son évolution.<br />

Cette contrainte est atténuée dans l’approche utilisée par Williams et Zipser<br />

[[213]][[214]][[215]][[216]][[221]][[222]].<br />

k<br />

Leur approche consiste à fabriquer une variable pij ()qui t mémorise à chaque pas de<br />

temps, l’influence du poids w ij sur la sortie x k du neurone k . L’intérêt de cette approche<br />

k<br />

est que les pij ()sont t calculables de façon itérative, et il n’est donc plus nécessaire,<br />

comme dans le cas du BPTT, de mémoriser tout le passé du réseau.<br />

Pour calculer de façon itérative l’influence de chaque poids du réseau sur l’erreur<br />

instantanée, nous avons :<br />

E æ1<br />

= ç -<br />

w w è2kÎS<br />

ij ij<br />

x<br />

Soit, en posant : p t<br />

w t<br />

k k<br />

ij () = ()<br />

<br />

<br />

ij<br />

å(<br />

x$ k () t xk() t )<br />

å(<br />

x$() kt xk() t )<br />

=- -<br />

kÎS E<br />

w<br />

ij<br />

S<br />

=-<br />

kÎSS PREMIERE PARTIE : ANALYSE<br />

S<br />

x<br />

w<br />

k<br />

å ek() t pij () t<br />

k<br />

Il est alors possible de calculer les pij ()de t façon itérative. En effet :<br />

k xk( t + 1) xk( t+<br />

1)<br />

hk() t<br />

pij ( t+<br />

1)<br />

= =<br />

= s¢<br />

w h () t w<br />

ij<br />

æ xl() t<br />

ö<br />

= s¢<br />

( hk() t ) å ç<br />

çwkl<br />

+ dikdljxl() t ÷<br />

l Sè<br />

w<br />

÷<br />

Î ij<br />

ø<br />

æ xl() t ö<br />

= s¢<br />

( hk() t ) å ç<br />

çwkl<br />

+ dikxj()<br />

t ÷<br />

l Sè<br />

w ÷<br />

Î ij ø<br />

k<br />

ij<br />

k<br />

ij<br />

2<br />

ö<br />

÷<br />

ø<br />

( hk() t ) å<br />

lÎS <br />

( w x () t )<br />

kl l<br />

w<br />

ij


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

(en supposant que les poids wij et wkl sont indépendants entre eux).<br />

Ce qui amène finalement :<br />

k<br />

æ<br />

k<br />

ö<br />

pij ( t+ 1) = s¢ ( hk() t ) çåwkl<br />

pij () t + dikxj()<br />

t ÷<br />

è<br />

ø<br />

lÎS Et ()<br />

wij() t =- h =<br />

w<br />

<br />

D<br />

h<br />

<br />

ij<br />

å<br />

kÎSS k<br />

e () t p () t<br />

k ij<br />

EQUATION 4-5 : RTRL DANS LE CAS DISCRET<br />

Cet algorithme peut être résumé dans le tableau suivant :<br />

Evolution Apprentissage<br />

t=0 p ij<br />

å<br />

t>0 ìhi()<br />

t = wij () t xj() t<br />

ï<br />

jÎS í<br />

îïxi(<br />

t + 1) = s(<br />

hi( t)) + Ii() t<br />

2. Dans le cas continu<br />

k<br />

( 0) = 0<br />

k<br />

æ<br />

k<br />

ö<br />

pij ( t + 1) = s¢ ( hk() t ) çåwklpij<br />

() t + dikxj()<br />

t ÷<br />

è<br />

ø<br />

Et ()<br />

wij() t =- h =<br />

w<br />

<br />

D<br />

h<br />

<br />

k<br />

e () t p () t<br />

APPRENTISSAGE DANS LES RESEAUX RECURRENTS 87<br />

ij<br />

lÎS å<br />

k ij<br />

kÎSS En reprenant les équations de propagation dans le cas discret, il est possible de les<br />

généraliser dans le cas continu :<br />

Soit :<br />

dp<br />

dt<br />

dp<br />

dt<br />

k<br />

ij<br />

k<br />

ij<br />

=<br />

d<br />

dt<br />

æ x ö<br />

k dxk<br />

ç<br />

÷<br />

w ÷<br />

è ij ø wij<br />

dt wij<br />

=<br />

æ ö <br />

ç ÷ = -<br />

è ø <br />

<br />

= s(<br />

h ) - p<br />

w<br />

ij<br />

k<br />

k ij<br />

k hk<br />

+ pij<br />

= ( hk<br />

) =<br />

wij hk<br />

æ<br />

<br />

ç<br />

ç<br />

è<br />

s<br />

å<br />

lÎS <br />

( s(<br />

hk ) xk<br />

)<br />

( wx)<br />

w<br />

kl l<br />

ij<br />

ö<br />

÷ s¢<br />

ø<br />

Ce qui amène, en reprenant les calculs réalisés dans le cas discret :<br />

dp<br />

dt<br />

k<br />

ij<br />

( h)<br />

k<br />

æ<br />

l<br />

ö<br />

() t + pij () t = s¢ ( hk() t ) çåwkl<br />

pij() t + dikxj()<br />

t ÷<br />

è<br />

ø<br />

N<br />

å<br />

k<br />

Dw<br />

() t = h e () t p () t<br />

ij k ij<br />

k=<br />

1<br />

lÎS Equation 4-6 : RTRL dans le cas continu<br />

k


88<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

3. Dans les réseaux à différence finie<br />

Il est possible d’envisager un intermédiaire entre les deux algorithmes précédents, qui<br />

se situe entre le cas discret et le cas continu. En effet, nous pouvons écrire les équations<br />

de propagation en réalisant l’approximation au premier ordre :<br />

Dans ce cas, nous obtenons :<br />

dx<br />

dt<br />

Dx<br />

xt ( + Dt)<br />

-xt<br />

()<br />

» =<br />

Dt<br />

Dt<br />

N<br />

N<br />

dxi<br />

() t + xi() t = åwijx j()<br />

t Þ xi( t + Dt) = ( 1-<br />

Dt) xi() t + Dt.<br />

åwijx<br />

j()<br />

t<br />

dt<br />

j=<br />

1 j=<br />

1<br />

Ce type de réseau a été appelé « réseau Delta » par Tsung & Cottrel [[199]], et il est<br />

possible de réaliser un apprentissage de type RTRL, en réalisant la même approximation<br />

au premier ordre de la rêgle d’apprentissage.<br />

k<br />

k<br />

æ<br />

l ö<br />

pij ( t+ Dt) = ( 1-<br />

Dt) pij () t + Dt.<br />

s¢ ( hk) çåwkl<br />

pij + dikxj÷<br />

è<br />

ø<br />

k<br />

Dw ( t + Dt) = h e ( t) p ( t + Dt)<br />

ij k ij<br />

k=<br />

1<br />

4. Avec Teacher forcing<br />

N<br />

å<br />

PREMIERE PARTIE : ANALYSE<br />

lÎS Equation 4-7 : RTRL pour réseau à différence finie<br />

En reprenant l’équation du RTRL dans le cas continu, il est possible de séparer les<br />

neurones en deux groupes : ceux forcés (dont les indices appartiennent à ST), et ceux<br />

non forcés. On a alors :<br />

dp<br />

dt<br />

5. Avec Teacher forcing total<br />

k<br />

ij<br />

æ<br />

k<br />

( wklxl) ( wklxl) ö<br />

+ pij = s¢<br />

( hk<br />

) ç<br />

çå<br />

+ å ÷<br />

èl<br />

S wij<br />

l S w ÷<br />

Ï <br />

Î ij ø<br />

T T<br />

æ<br />

ö<br />

l<br />

= s¢ ( hk) çåwkl<br />

pij + dikxj÷<br />

èlÏS<br />

ø<br />

T<br />

Si le teacher forcing est total, c’est à dire que S = SS = ST,<br />

l’équation précédente<br />

devient :<br />

i<br />

dpij<br />

i<br />

() t + pij() t = s¢<br />

( hi()) t xj() t<br />

dt<br />

k<br />

dpij<br />

k<br />

() t + pij () t = 0si<br />

k ¹ i<br />

dt


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

k<br />

Cette deuxième équation nous montre que les variables pij k¹ i<br />

sont transitoires et<br />

convergent vers 0. Il est donc possible de les négliger, et en posant p = p<br />

pouvons écrire la règle d’apprentissage :<br />

dpij<br />

() t + pij() t = s¢<br />

( hi()) t xj() t<br />

dt<br />

dwij<br />

E<br />

() t =- h () t =- ei() t pij() t<br />

dt w <br />

h<br />

<br />

ij<br />

k<br />

ij ij k= i<br />

, nous<br />

Equation 4-8 : RTRL avec forçage total<br />

Cette idée sera à l’origine de l’algorithme de ‘forçage des dynamiques<br />

complémentaires’ (p.195), car la règle précédente possède l’avantage d’être locale :<br />

l’évolution des paramètres reliant deux neurones ne dépend que de l’état de ces deux<br />

neurones. De cette façon, l’algorithme RTRL devient local, et peut permettre de réaliser<br />

un apprentissage biologiquement plausible dans un réseau récurrent. L’inconvénient est<br />

que la totalité des neurones du réseau sont forcés, ce qui limite la plausibilité biologique<br />

de cet algorithme.<br />

4.5 Limites<br />

4.5.1 On-Line et Local<br />

L’un des problèmes<br />

posé par l’apprentissage dans<br />

les réseaux récurrents<br />

provient du fait que l’état de<br />

chaque neurone finit par<br />

influencer l’état de tous les<br />

autres, par diffusion et<br />

rétroaction de son état sur les<br />

autres. Ainsi, si l’on veut<br />

modifier l’influence d’un poids<br />

sur la sortie d’un neurone pour<br />

réaliser l’apprentissage, il est<br />

nécessaire que ce neurone ait<br />

soit accès à tous ses états<br />

passés (BPTT), soit à l’état de<br />

tout le réseau (RTRL). Ces<br />

deux cas (Figure 4-2) ne sont<br />

Figure 4-2 : Apprentissage local/off-line versus non-local/on-line<br />

Dans le premier cas, chaque neurone transmet son état à ses<br />

voisins. Ceci implique que les dépendances à grande distance<br />

nécessitent le balayage du passé du réseau. Dans le second cas,<br />

chaque neurone a accès à la totalité des états du réseau.<br />

pas biologiquement plausible, et nécessitent de fortes capacités informatiques : BPTT réclame<br />

une mémoire énorme pour stocker l’état passé de tous les neurones, et RTRL réclame une grande<br />

puissance de calcul pour pouvoir déterminer les influences croisées entre tous les neurones. En<br />

effet, dans le premier cas (BPTT), l’algorithme est bien local, c’est à dire que chaque neurone n’a<br />

accès qu’à l’état des neurones auxquels il est connecté, mais il est off-line. Dans le deuxième cas<br />

APPRENTISSAGE DANS LES RESEAUX RECURRENTS 89


90<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

(RTRL), l’algorithme est bien on-line, c’est à dire qu’un neurone n’a accès qu’à l’état des neurones<br />

de l’itération en cours, mais il est non-local. Dans la totalité des recherches réalisées à ce jour,<br />

aucune n’a réussi à associer les critères on-line et local dans un seul algorithme pour<br />

l’apprentissage de dynamiques dans les réseaux récurrents. Afin de rendre plausibles ces règles,<br />

nous proposerons d’effectuer des simplifications extrêmes de BPTT et de RTRL (8.3, p.190 et<br />

8.4,p.195), les rendant tous deux On-line et local.<br />

4.5.2 Faux gradients<br />

Dans les calculs aboutissant à RTRL, il existe plusieurs approximations. La première<br />

considère que les poids synaptiques ne varient pas au cours du temps. Or le rôle de<br />

l’apprentissage consiste bien à faire évoluer les poids. Les auteurs justifient cette hypothèse en<br />

supposant le gain d’apprentissage très petit. Or dans ce cas, il est nécessaire d’effectuer un très<br />

grand nombre de pas d’apprentissage, ce qui augmente encore les risques d’explosion du réseau<br />

(voir ci-dessous). La deuxième approximation considère que les poids sont indépendants entre<br />

eux. Or chaque modification de poids dépend de l’état de tous les autres poids du réseau, à<br />

k<br />

travers le calcul des pij . Ainsi les gradients calculés ne sont pas exacts, et cette inexactitude<br />

s’accumulant tout au long de l’apprentissage, il est possible que le réseau ne voit pas ses poids<br />

converger.<br />

Pour ce qui est de BPTT, celui-ci suppose que la totalité des états précédents soit<br />

mémorisée. Cette contrainte étant impossible à vérifier dans le cas de réseaux que l’on souhaite<br />

laisser évoluer pendant longtemps, plusieurs méthodes ont été imaginées, limitant ce besoin de<br />

mémoire. Toutes sont sources d’erreur pour le calcul du gradient.<br />

4.5.3 Instabilité<br />

Dans certains cas, l’algorithme RTRL peut faire diverger les poids, en effet, l’équation :<br />

dp<br />

dt<br />

k<br />

ij<br />

k<br />

() t + p () t = s¢<br />

( h()) t x () t<br />

ij<br />

i j<br />

k<br />

montre bien que les pij peuvent diverger. En effet, il n’y a pas de seuillage par une<br />

fonction bornée. Nous avons parfois observé de telles divergences, que nous avons dû éliminer<br />

en réalisant un seuillage artificiel, ce qui fausse encore la précision du calcul du gradient. Dans ce<br />

k<br />

cas, bien souvent les pij saturent, ce qui crée un apprentissage selon une descente de gradient<br />

aussi approximative que le sera celle des apprentissages proposés. Ainsi, la nécessité d’un<br />

seuillage, ou d’une réinitialisation fréquente, montre que RTRL réalise des approximations qui, en<br />

s’accumulant, en limite l’efficacité.<br />

4.6 Conclusion<br />

L’ajout de connexions récurrentes dans un réseau pose de nombreux problèmes qu’un<br />

algorithme aussi simple que la rétropropagation du gradient ne peut pas résoudre. L’une des<br />

principales causes de cette limitation est due au fait que l’état d’un neurone à l’instant t influence<br />

la dynamique de l’ensemble du réseau durant le reste de ses itérations , car l’état du réseau n’est<br />

PREMIERE PARTIE : ANALYSE


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

pas effacé par les nouvelles entrées présentées au réseau, comme c’est le cas dans les<br />

architectures feed-forward. Il est donc nécessaire dans le cas des architectures récurrentes de<br />

tenir compte de la totalité du passé du réseau.<br />

Deux approches peuvent permettre de résoudre ce problème. La première consiste à<br />

mémoriser les états passés du réseau pour calculer un gradient exact au temps t, et correspond à<br />

l’algorithme de Temporal Back Propagation. La seconde consiste à calculer l’influence qu’aura<br />

l’état de chaque neurone sur le futur du réseau entier, c’est l’approche réalisée dans le Real Time<br />

Recurrent Learning.<br />

Ces deux approches ne sont pas plausibles biologiquement, puisqu’elles contredisent la<br />

nature on-line et locale du comportement connu actuellement du cerveau. Il est impossible de<br />

croire que chaque neurone mémorise l’ensemble de ses états précédents depuis sa naissance. Et,<br />

dans le cas où il existe une mémorisation pendant un temps fini, l’algorithme ne permet plus<br />

d’évaluer le gradient exact de l’erreur.<br />

D’autre part, il n’existe pas la moindre raison de penser que chaque neurone ait accès à la<br />

totalité des états des autres neurones. Ainsi, les deux méthodes utilisées pour calculer le gradient<br />

exact de l’erreur dans un réseau récurrent ne peuvent pas être acceptées comme plausibles<br />

biologiquement.<br />

D’autre part, ces deux types d’algorithmes requièrent tant de puissance de calcul et tant<br />

de mémoire, que leur application à de grands réseaux est impossible. Dans notre cas, il n’est pas<br />

envisageable de simuler 262144 neurones, avec ces principes d’apprentissage.<br />

Il est ainsi nécessaire d’imaginer que le gradient évalué n’est pas exact, et peut-être de<br />

chercher dans les règles d’inspiration hebbienne une solution au problème. En effet, les résultats<br />

obtenus avec certaines de ces règles semblent être conformes aux principes biologiques [[161]],<br />

et leur utilisation dans l’un de nos modèles nous a permis d’obtenir des segmentations de modules<br />

neuronaux à contours complexes.<br />

4.7 Bibliographie<br />

[[5]] Amir Atiya. Unifying recurrent network trining algorithms. World congress on neural networks.<br />

Portland. Vol.3. p 585-588 (1993)<br />

[[7]] Alex Aussem (aaussem@eso.org). Training dynamical recurrent neural networks with the<br />

temporal recurrent back-propagation algorithm : application to the time series prediction and<br />

characterization.<br />

[[8]] Alex Aussem (aaussem@eso.org), Fion Murtagh, Marc Sarazin. Dynamical recurrent neural<br />

networks- towards environmental time series prediction.[[152]] Barak A. Pearlmutter.<br />

Dynamic Recurrent Neural Networks. Technical Report. CMU-CS-90-196. Carnegie Mellon<br />

University. Pittsburgh, PA 15213 (1990)<br />

[[30]] Thierry Catfolis. A method for improving the real-time recurrent learning algorithm. Neural<br />

Networks. p807-821. (1993).<br />

[[60]] J. Demongeot, O. Nérot, C. Jezequel. Mémoire de rappel dans les réseaux de neurones.<br />

[[77]] Lee Giles (giles@research.nj.nec.com), B.G. Horne, T.Lin. Learning a class of large finite state<br />

machines with a recurrent neural network. Technical report. UMIACS-TR-94-94. Institue for<br />

advanced computer studies. University of Maryland. (1994)<br />

APPRENTISSAGE DANS LES RESEAUX RECURRENTS 91


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

[[88]] D.O. Hebb. Essay on Mind. Lawrance-Erlbaum Assc., Hillsdale NJ. (1980)<br />

[[91]] Herz, B. Sulzer, R. Kühn, J.L. van Hemmen. Hebbian learning reconsidered : representation of<br />

static and dynamic objects in associative neural nets. Biol. Cyber. 60. p457-467.(1989)<br />

[[96]] J.J. Hopfield. Neural networks and physical systems with emergent collective computational<br />

abilities. Proceedings of the National Academy of <strong>Sciences</strong> 79:2554-2558 (1982)<br />

[[97]] J.J. Hopfield. Neurons with graded response have collective computationnal properties like those<br />

of two-state neurons. Proceedings of the National Academy of <strong>Sciences</strong> 81:3088-3092.(1984)<br />

[[98]] J.J. Hopfield. Pattern recognition computation using action potential timing for stimulus<br />

representation. Nature. Vol. 376. p33-36. (1995)<br />

[[102]] Lester Ingber (ingber@alumni.caltech.edu), P.L. Nunez. Statistical mechanics of neocortical<br />

interactions : high resolution path-integral calculation in short term memory. Physical Review E.<br />

Vol. 51, No.5. (1995)<br />

[[128]] M. W. Mak, Y.L. Lu, K.W. Ku. Improved real time recurrent learning algorithms : a review and<br />

some new approaches. ISANN95.<br />

[[141]] J.P Nadal (nadal@physique.ens.fr), N. Parga. Duality between learning machines : a bridge<br />

between supervised and unsupervised learning. Neural Computation. 6. p491-508. (1994)[[153]]<br />

Barak A. Pearlmutter. Gradient Calculations for dynamic recurrent neural networks : a<br />

survey. IEEE transactions on Neural Networks. Vol.6. No.5. (1995)<br />

[[172]] Jürgen Schmidhuber (yirgan@cs.colorado.edu) . Learning Factorial codes by predictability<br />

minimization. Technical Report. TR CU-CS-565-91. (1991)<br />

[[173]] Jürgen Schmidhuber (yirgan@cs.colorado.edu). A Fixed size storage O(n3) time complexity<br />

learning algorithm for fully recurrent continually running networks. Neural computation. 4. p243-<br />

248. (1992)<br />

[[174]] Jürgen Schmidhuber (yirgan@cs.colorado.edu). Learning complex, extended sequences using the<br />

principle of history compression. Neural computation. 4. p234-242. (1992)<br />

[[182]] Sompolinsky, I. Kanter. Temporal association in asymmetric neural networks.Physical Review E.<br />

Vol.57. No.22. p2861-2864. (1986)<br />

[[184]] Srinivasan, U.R. Prasad, N.J. Rao. Back Propagation through adjoints for the identification of<br />

nonlinear dynamic systems using recurrent neural models. IEEE TNN. Vol.5. No.2. (1994)<br />

[[187]] J.G Taylor. Neural network capacity for temporal sequence storage. International journal of<br />

Neural Systems. Vol. 2, Nos 1&2. pp 47-54 (1991)<br />

[[193]] Nikzad Benny Toomarian, Jacob Barhen. Learning a trajectory using adjoint functions and<br />

teacher forcing. Neural Networks. 5. p 473-383. (1992)<br />

[[195]] Ah Chung Tsoi, Andrew D. Back. Locally recurrent globally feedforward networks : a critical<br />

review of architectures. IEEE TNN. Vol. 5. No.2. p 229-239. (1994)<br />

[[199]] Fu-Sheng Tsung (tsung@cs.ucsd.edu), Garrison W. Cottrell (gary@cs.ucsd.edu). Learning in<br />

recurrent finite difference networks. International Journal of Neural Systems. Vol. 6, No 3. p249-<br />

256. (1995)<br />

[[202]] P. Unnikrishnan(unni@neuro.cs.gmr.com), K. P. Venugopal. Alopex : a correlation-based<br />

learning algorithm for feedforward and recurrent neural networks. Neural Computation.Vol. 6,<br />

No. 3. may (1994)<br />

[[207]] Eric. A. Wan (wan@isl.stanford.edu). Time series prediction by using a connectionist network with<br />

internal delay lines. Dans Time Series prediction, Forecasting the future and understanding the<br />

past. A. Weigend, N. Gershenfeld, editors. SFI studies in the sciences of complexity. Vol. XVII.<br />

Addison-Wesley (1994)<br />

92<br />

PREMIERE PARTIE : ANALYSE


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

[[213]] Ronald J. Williams. Training Recurrent networks using the extended kalman filter. 0-7803-0559-<br />

0/92. IEEE. Vol. 4. p.241-246. (1992)<br />

[[214]] Ronald.J. Williams, Jing Peng. An efficient gradient based algorithm for on-line training of<br />

recurrent network trajectories. Neural Computation. 2. p490-501. (1990)<br />

[[215]] Ronald.J. Williams, D. Zipser (zipser@cogsci.ucsd.edu). A learning algorithm for continually<br />

running fully recurrent neural networks. Neural Computation. 1. p270-280. (1989)<br />

[[216]] Ronald.J. Williams, D. Zipser (zipser@cogsci.ucsd.edu). Experimental analysis of the realtime<br />

recurrent learning algorithm. Connection Science, 1, pp87-111. (1991)<br />

[[221]] David Zipser. A subgrouping strategy that reduces complexity and speeds up learning in recurrent<br />

networks. Neural Computation. 1. p552-558. (1989)<br />

[[222]] David Zipser. Recurrent network model of the neural mechanism of short-term active memory.<br />

Neural computation. 3. 179-193. (1991)<br />

APPRENTISSAGE DANS LES RESEAUX RECURRENTS 93


94<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

DEUXIEME PARTIE : DEVELOPPEMENT


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

5. UN MODELE CONNEXIONNISTE DE LA MEMOIRE<br />

[...] Si [les hommes] sont obligés de croire que, dès avant l’existence de<br />

la race humaine, des lois étaient déjà au travail pour produire, par une<br />

sorte de nécessité aveugle, non seulement les hommes et les femmes en<br />

général, mais eux-mêmes, avec toutes leurs petites manies, disant et<br />

faisant en ce moment même ce qu’ils sont en train de dire et de faire, ils<br />

se sentent alors dépouillés de leur personnalité, vains, sans importance,<br />

esclaves des circonstances, incapables de s’écarter le moins du monde<br />

du rôle qui leur a été assigné par la nature dès l’origine. Certains<br />

essaient de s’évader de ce dilemme en supposant l’existence du libre<br />

arbitre chez l’homme et du déterminisme partout ailleurs, d’autres par<br />

des tentatives ingénieusement sophistiquées pour concilier le libre<br />

arbitre avec le déterminisme. En fait, nous n’avons aucun motif<br />

d’adopter l’une ou l’autre hypothèse, mais nous n’avons non plus aucun<br />

motif de supposer que la vérité, quelle qu’elle puisse être, soit de nature<br />

à réunir les côtés agréables des deux, ni qu’elle puisse dans aucune<br />

mesure être déterminée par rapport à nos désirs.<br />

Bertrand Russell. Science et Religion. p 125<br />

5.1 Introduction : Une mémoire anticipatrice<br />

L’étude préliminaire réalisée dans les deux chapitres précédents nous a permis de réaliser<br />

un tour d’horizon des modèles développés actuellement, possédant des dynamiques libres 31 , afin<br />

d’orienter le développement du modèle dont l’ébauche a été proposée (2.3.3 Synthèse d’un<br />

modèle préliminaire, p.58). Puis, afin de mieux saisir la composante commune aux phénomènes<br />

de mémorisation, nous avons proposé de dire qu’un percept est mémorisé, si l’état que le système<br />

avait lors de la perception est reproductible par ce même système (Introduction : Reproduire un<br />

état passé, p.79). Mais ce principe n’est par suffisant, car dans un simple système sans le moindre<br />

apprentissage, l’état du système finit par être le même à chaque présentation du percept, à savoir<br />

le point d’équilibre du système global ‘système+percept’. Il retrouve donc bien l’état dans lequel il<br />

était, et ceci à chaque présentation du percept, mais il n’est pas possible de parler de mémoire : le<br />

système est noyé dans son environnement, et ne cherche pas à s’organiser autour de l’information<br />

31 Nous entendons par système à dynamique libre, un système qui continue à évoluer sans que ses entrées ne<br />

soient stimulées. Sans cette précision, un simple poste de radio serait dynamique, alors qu’il ne fait que<br />

reproduire un signal.<br />

UN MODELE CONNEXIONNISTE DE LA MEMOIRE 95


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

perçue. Il n’y a pas de recherche de représentation de l’environnement, de maintien de l’intégrité<br />

du système. D’une certaine façon, ce type de système, sans processus d’adaptation, fait partie<br />

intégrante de son environnement : c’est l’environnement qui le modèle.<br />

Afin d’éviter cette fusion, nous chercherons donc à réaliser un apprentissage qui<br />

entretienne la frontière entre le système et son environnement, qui puisse accroître son autonomie<br />

[[21]][[22]][[23]].<br />

Pour compléter l’approche préliminaire, nous chercherons donc à concilier les notions<br />

d’autonomie et d’apprentissage : le système cherche à minimiser la perturbation extérieure, à<br />

maintenir son équilibre interne ou son autonomie. Le rôle de l’apprentissage sera dès lors de<br />

s’organiser autour de l’évolution de son environnement. Nous tenterons de montrer dans ce<br />

chapitre que cette organisation peut être fondée sur un principe d’anticipation : le système<br />

apprend à anticiper les modifications induites par l’environnement, afin d’en minimiser l’aspect<br />

perturbateur. D’une certaine façon, cet apprentissage permet au système de maintenir sa clôture<br />

opérationnelle [[205]] dans un environnement perturbateur. Selon la définition donnée par Varela<br />

[[205]], un système autonome est dit opérationnellement clos si son organisation est caractérisée<br />

par des processus :<br />

a) dépendant récursivement les uns des autres pour la génération et la réalisation des<br />

processus eux-mêmes, et<br />

b) constituant le système comme une unité reconnaissable dans l’espace (le domaine) où<br />

les processus existent.<br />

En effet, l’architecture d’un modèle connexionniste récurrent vérifie le point la dépendance<br />

récursive des processus, et l’anticipation par le système de l’évolution de son environnement lui<br />

permet de se couper de l’influence de celui-ci, en le constituant donc comme une unité<br />

reconnaissable.<br />

Nous tenterons de justifier que, dans un tel cadre, le phénomène de mémorisation peut<br />

être vu, non plus comme un outil de recherche mnésique des événements passés, mais comme<br />

un principe actif participant à la faculté du système d’anticiper l’évolution à court terme de son<br />

environnement. Selon cette approche, le principe de reconnaissance sera ramené à la définition<br />

suivante :<br />

96<br />

Un système reconnaît un état extérieur, lorsque ce dernier rentre dans un cadre<br />

d’anticipation possible pour le système.<br />

Ainsi, nous prendrons comme principe de base de la mémoire non pas sa capacité à<br />

rappeler le passé, mais sa capacité à anticiper l’avenir de son environnement : un percept est<br />

reconnu, si l’anticipation de son évolution est possible. Cette approche prend d’une certaine façon<br />

le contre pied de la conception ‘classique’, en assimilant la mémoire à un outil d’anticipation pour<br />

l’organisme 32 .<br />

D’une certaine façon, ceci consiste à minimiser l’effet de surprise. Cette définition de la<br />

reconnaissance par une simple capacité de prévision sera généralisée au domaine spatial, lors de<br />

la reconnaissance d’une figure. En effet, lors de la présentation d’une figure géométrique, l’image<br />

est transmise par le nerf optique, transmettant des trains variables de spikes. Ainsi, il est possible<br />

DEUXIEME PARTIE : DEVELOPPEMENT


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

d’imaginer que l’image statique se trouve traduite en signaux dynamiques. L’aspect statique de<br />

l’objet présenté est alors perçu par la stationnarité de la dynamique induite.<br />

La segmentation des objets environnants vient alors du fait qu’ils appartiennent à des<br />

cadres d’anticipation distincts : l’anticipation de l’un ne nécessite pas la connaissance de l’état de<br />

l’autre. L’évolution de l’un n’ajoute pas d’information à l’évolution de l’autre, car elles sont<br />

causalement indépendantes.<br />

Cette approche sera exposée et justifiée à travers quatre principes que nous avons pu<br />

retrouver dans certains de nos réseaux, et qui sont représentés dans la Figure 5-1.<br />

Figure 5-1 : Perturbation, anticipation, modularisation, association<br />

Le système est perturbé par diverses dynamiques externes. Afin de minimiser les perturbations induites,<br />

il cherche à les anticiper.Pour ce, il met en commun l’information qu’elles transmettent, les associant<br />

aux niveaux de l’intersection des modules définis par la diffusion des perturbations induites.<br />

Le premier principe assimile toute information 33 extérieure à une perturbation par forçage<br />

des dynamiques, et considère que le cerveau est un système percevant, dont les dynamiques sont<br />

perturbées par son ouverture informative sur l’extérieur. Percevoir, c’est être modifié par son<br />

environnement, c’est être informé, c’est-à-dire mis en forme. Le deuxième principe s’accorde avec<br />

32 Bien que ‘non-classique’ cette idée n’est pas nouvelle. Voir Bergson [[17]] (1896) : « Il y a d’abord [...]<br />

une reconnaissance dans l’instantané, [...], sans qu’aucun souvenir explicite intervienne. Elle consiste dans<br />

une action, et non dans une représentation. »<br />

33 Dans le cadre de cette thèse, le terme d’information sera ramené à son sens étymologique : qui met en<br />

forme. Cette définition possède en effet de façon naturelle l’idée d’une modification physique du système<br />

percevant.<br />

UN MODELE CONNEXIONNISTE DE LA MEMOIRE 97


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

la vision de clôture opérationnelle, car il suppose que le système percevant cherche à obtenir une<br />

minimisation des perturbations induites par l’extérieur. L’apprentissage consiste alors à anticiper<br />

ces dynamiques extérieures au système, afin, d’une certaine façon, de préserver ou accroître son<br />

autonomie.<br />

Pour chercher à anticiper ces dynamiques externes. le système devra utiliser l’ensemble<br />

de ses canaux informatifs, pour maximiser l’anticipation de chacun des canaux. Ce troisième<br />

principe consiste donc à associer les perturbations simultanées entre elles afin d’anticiper la<br />

perturbation de l’un des canaux, si une perturbation déjà perçue venait à se reproduire sur un<br />

autre canal.<br />

Enfin, chaque canal informatif forme et déforme le système autour du point de forçage du<br />

canal dans le système, engendrant une modularisation fonctionnelle du réseau, qui correspond au<br />

quatrième principe. Selon celui-ci, c’est le canal qui spécifie la fonction future des sous-parties du<br />

système : c’est l’organe qui fait la fonction. C’est l’oreille qui forme et spécialise les aires auditives,<br />

et non pas ces aires pré-adaptées à leur rôle qui ont été intelligemment reliées à l’oreille grâce à<br />

un fonctionnalisme originel.<br />

L’ensemble de ces quatre principes, que nous tenterons de retrouver dans les<br />

comportements de nos réseaux, est développé et justifié dans les parties qui suivent.<br />

5.2 Principes de base<br />

5.2.1 Perturbation par diffusion du forçage des dynamiques<br />

98<br />

C’est parce que quelque chose des objets extérieurs pénètre en nous que<br />

nous voyons les formes et que nous pensons.<br />

DEUXIEME PARTIE : DEVELOPPEMENT<br />

Epicure. Lettre à Hérodote.<br />

Le rôle de l’apprentissage par forçage, ou teacher forcing, a été clairement mis en valeur<br />

par Toomarian et Barhen [[193]], grâce à un exemple simple, celui de l’apprentissage du vélo.<br />

Nous reprendrons donc leur exemple pour introduire cette méthode.<br />

Afin d’apprendre une tâche motrice à un enfant, plusieurs méthodes peuvent être<br />

appliquées, à divers degrés de ‘forçage’ parental. Le degré le plus faible consiste à rester chez soi,<br />

en laissant l’enfant découvrir seul les lois du cyclisme. Il est possible de temps à autre de lui<br />

indiquer par la fenêtre que ce qu’il fait est bien ou mal, mais finalement, cela ne lui apporte pas<br />

beaucoup plus d’information que ce qu’il peut découvrir seul : les chutes sont des critères de<br />

réussite très efficaces. Il est possible aussi de passer en revue l’ensemble des erreurs réalisées<br />

par l’enfant, après chaque essai. Ce type d’apprentissage peut correspondre à l’algorithme de<br />

BPTT (4.4.2 Back-propagation through time, p.85) : on balaie le passé du réseau pour aller en<br />

modifier les erreurs.<br />

A un degré supérieur, il est possible d’accompagner l’enfant durant ses essais : là<br />

commence le forçage. Le parent peut tenir la bicyclette de son enfant, pour éviter qu’il ne fasse<br />

trop d’erreurs, et qu’il apprenne rapidement les bonnes trajectoires. L’inconvénient de cette


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

approche est que l’enfant ne peut pas découvrir les comportements du système bicyclette, loin des<br />

états d’équilibre, puisqu’il est systématiquement ramené à l’équilibre ! Si le forçage est total,<br />

l’enfant ne réalise aucune erreur, et son apprentissage sera faible. Pour éviter ceci, il est possible<br />

de lâcher le vélo de temps à autre, afin que l’enfant, lancé sur une bonne trajectoire, puisse<br />

continuer seul, et apprendre ses erreurs. Dans ce cas, l’enfant apprend à contrôler un système<br />

dynamique simplifié, dont la connaissance est suffisante pour maintenir un vélo en équilibre.<br />

Pour réaliser ce dernier type d’apprentissage, Toomarian et Bahren proposent de contrôler<br />

le degré de forçage en fonction de l’erreur : si le vélo commence à tomber, il faut le retenir<br />

fermement, et si l’enfant apprend bien, on peut le lâcher doucement. Il s’agit là plus d’un forçage<br />

de l’environnement : le but dans ce cas est de faire apprendre au système un environnement<br />

simplifié, dont la connaissance est suffisante pour le maintien de l’équilibre appris.<br />

Nous postulerons dans cette thèse, contrairement à l’approche précédente, que le forçage<br />

est total à l’échelle du neurone : l’information externe remplace l’activité du neurone. Ce que le<br />

réseau cherche à réaliser, c’est simplement d’être seul à l’origine de la modification des<br />

dynamiques durant la perception. Par contre, il peut y avoir simplification de l’environnement.<br />

L’idée du forçage est une idée simple qui, curieusement, n’est utilisé que depuis peu de<br />

temps. Il est pourtant possible de voir et de justifier son rôle sur plusieurs plans : psychologique,<br />

biologique, et théorique. L’ensemble de ces justifications permettent de penser que nos neurones<br />

sont forcés par les dynamiques de notre environnement, et qu’ils tendent à minimiser l’influence<br />

de cette perturbation en cherchant à l’anticiper. Ainsi, le forçage, ou Teacher-Forcing, ne sera pas<br />

vu comme une méthode connexionniste améliorant l’apprentissage dans les réseaux récurrents, ni<br />

comme un principe de simplification de l’environnement, mais comme l’un des principes même de<br />

la perception de notre environnement : l’environnement force nos dynamiques internes.<br />

Nous tenterons de justifier cette hypothèse par les différents résultats suivants, qui portent<br />

à la fois sur des expériences psychologiques, des résultats neurophysiologiques, ou des<br />

considérations théoriques.<br />

1. Complexification des dynamiques<br />

Cette hypothèse du forçage peut permettre de comprendre comment les dynamiques<br />

du système neuronal se complexifient lors de la perception [[218]], ce qui a permis<br />

d’interpréter le chaos neuronal comme un filtre de nouveauté, ou un état de non<br />

reconnaissance (p.53).<br />

Prenons le cas d’un système simple, constitué d’un ressort délivrant une force<br />

restituable non linéaire 34 , et d’une masse (Figure 5-2) : si l’autre extrémité du ressort est<br />

forcée par une dynamique périodique de faible intensité, la masse peut se stabiliser sur<br />

un cycle limite simple, par exemple sur un attracteur de période 1. Si l’on augmente<br />

l’intensité de ce forçage, l’orbite précédente devient instable, amenant le système sur un<br />

attracteur de période 2. En continuant ainsi, et à partir d’une certaine intensité critique de<br />

forçage, les dynamiques du système deviennent chaotiques.<br />

Ainsi, les systèmes ‘ressort+masse’ et ‘signal de forçage’ peuvent être vus comme<br />

des systèmes dont les régimes libres sont simples. Et dès que l’environnement est perçu<br />

(c’est à dire qu’il modifie les dynamiques du système percevant), à partir d’une certaine<br />

34 Signifie que la constante de raideur du ressort est fonction de son allongement.<br />

UN MODELE CONNEXIONNISTE DE LA MEMOIRE 99


100<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

intensité du forçage, le système ‘ressort+masse’ voit ses dynamiques complexifiées<br />

jusqu’à des comportements chaotiques.<br />

Ce phénomène confirme que le chaos peut être vu comme un phénomène émergent<br />

dans un système, lorsqu’il est couplé à son environnement, et peut donc justifier<br />

l’hypothèse que la perception force les dynamiques internes du système, en engendrant<br />

une complexification de celles-ci. Cette interprétation va donc dans le sens d’un chaos,<br />

filtre de nouveauté (p.53), apparaissant de novo lors de la perception de dynamiques<br />

non reconnues. Ceci expliquerait l’augmentation de la dimension des attracteurs<br />

cérébraux, lors de la perception.<br />

Figure 5-2 : Chaos par forçage<br />

Un système simple peut voir ses dynamiques complexifiées par le forçage d’une de ses<br />

variables d’état par une dynamique périodique. L’entrée dans le chaos est alors controlé par<br />

la période de la dynamique de forçage.<br />

2. Une tomate dans la tête<br />

Une expérience, décrite par Changeux [[37]], et réalisée en 1910 par Perky [[154]],<br />

peut permettre de justifier le fait que l’information perçue et l’information traitée sont de<br />

même support, et assimilables aux mêmes phénomènes. Une telle interprétation peut<br />

permettre de justifier le forçage de dynamique comme principe de perception :<br />

La perception d’un objet correspond à la modification interne produite par la diffusion<br />

des perturbations induites par cet objet.<br />

Et, lorsque le système se remémore un objet, il retrouve les dynamiques internes<br />

produites lors de sa perception initiale.<br />

DEUXIEME PARTIE : DEVELOPPEMENT


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

L’expérience décrite demandait à des personnes de fixer un point blanc sur un écran,<br />

et d’imaginer une tomate sur cet écran. A leur insu, l’expérimentateur projetait sur l’écran<br />

une image de tomate, en dessous du seuil de perception, puis augmentait lentement et<br />

progressivement l’intensité de l’image projetée. Cette expérience a montré qu’il était<br />

possible de dépasser le seuil de perception visuel (qui ferait dire à une personne<br />

extérieure qu’elle voit une tomate sur l’écran), sans perturber les personnes en imaginant<br />

déjà une sur l’écran. Ceci, à tel point que ces personnes pensaient que l’image projetée<br />

était leur image mentale.<br />

Ainsi, il semblerait bien qu’il y ait une forme d’équivalence au niveau cérébral entre<br />

une image mentale et une image perçue. Si l’on suppose que les dynamiques<br />

neuronales sont le seul support du moi-neuronal, ceci indique que les dynamiques<br />

rappelées par la mémoire sont les mêmes que celles induites par la perturbation due à la<br />

perception, et ainsi que la perception perturbe les dynamiques libres du cerveau en les<br />

forçant.<br />

3. Perturbation par des informations de même support<br />

Une autre expérience, rapportée elle aussi par Changeux [[37]], a été réalisée afin de<br />

montrer que l’image mentale utilise les mêmes supports que la perception. Dans ce but,<br />

Segal & Fusella [[176]] ont projeté une tache blanche sur un écran, de telle sorte que<br />

celle-ci soit en dessous du seuil de perception visuelle, puis ont progressivement<br />

augmenté l’intensité de cette tache, jusqu’à ce que la personne qui l’observe voie la<br />

tache. Dans le cas où il a été demandé aux personnes d’imaginer l’image d’un arbre sur<br />

l’écran, l’instant où la tache lumineuse est perçue est en retard par rapport à l’instant de<br />

perception du groupe auquel a été demandé d’imaginer la sonnerie du téléphone.<br />

Ainsi, l’image mentale entre en compétition avec l’image perçue dans le cas où celleci<br />

est de même modalité. Cette expérience est en accord avec l’idée que le système qui<br />

se représente un percept utilise les mêmes supports que la dynamique obtenue lors de la<br />

présentation initiale du percept, car les canaux auditifs et visuels ne s’adressent pas aux<br />

mêmes zones du système. Cette idée va aussi dans le sens d’une modularisation<br />

fonctionnelle du système.<br />

4. Pas d’entrée, pas de sortie<br />

Un schéma classique de l’interaction avec l’environnement est celui de la perceptionaction<br />

: le système percevant perçoit son environnement, le traite, puis agit sur son<br />

environnement en le modifiant.<br />

Le schéma du forçage remet en cause cette boucle perception-action, puisque le<br />

système n’est plus vu comme une boîte noire associant sous forme de réflexes ses<br />

sorties à ses entrées, mais comme un système ‘baignant’ dans son environnement, en<br />

interaction permanente avec lui. Le système et son environnement s’informent en<br />

permanence.<br />

La notion même de systèmes, indépendants et en relation les uns avec les autres,<br />

peut être interprétée d’un point de vue plus global, où tous sont contenus dans un<br />

système général, et où chacun segmente selon ses concepts ce qu’il perçoit de son<br />

environnement (Figure 2-4, p.30).<br />

UN MODELE CONNEXIONNISTE DE LA MEMOIRE 101


102<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Ainsi, les réseaux développés ici ne possèdent ni entrées, ni sorties, dont le rôle ait<br />

été prédéfini à la construction du réseau, comme cela est le cas dans les architectures à<br />

couches (entrées, couches cachées, sorties). Chaque neurone peut être un candidat<br />

pour la perception (forçage par l’environnement) ou pour l’action (contrôle moteur). Ainsi,<br />

il n’y a pas de hiérarchie dans les neurones, prédéterminée lors de la conception du<br />

réseau : que ce soit un neurone en contact avec l’extérieur, un neurone isolé, un groupe<br />

de neurones, tous ont pour fonction d’anticiper leur environnement ; le neurone forcé<br />

par l’environnement cherche à anticiper les modifications de celui-ci, un neurone caché<br />

cherche à minimiser les perturbations transmises par ses voisins, une population<br />

neuronale cherche à se stabiliser par rapport aux autres populations. La notion de<br />

minimisation des perturbations induites permet donc d’envisager une règle similaire à<br />

tous les niveaux de description du système 35 .<br />

Nous n’entendons pas que le principe énoncé précédemment est le seul à l’oeuvre<br />

dans le système cérébral : nous tentons simplement de mettre en évidence un des<br />

principes envisageables. En effet, si un système cherche simplement à minimiser les<br />

perturbations externes, une solution simple pour lui est de s’enfermer dans une bulle<br />

isolée. Or ce n’est pas ce que nous réalisons. Peut être faut-il donc imaginer d’autre<br />

principes qui contrebalancent les effets de cette recherche de ‘tranquillité maximale’ du<br />

système.<br />

5. Information externe et information interne<br />

Cette organisation, identique à tous les niveaux de description du réseau, est un des<br />

avantages des architectures forcées : le forçage peut s’interpréter à tous les niveaux de<br />

description du système. A l’échelle du neurone, il n’y a pas de différence fondamentale<br />

entre une information provenant de l’extérieur, et une information provenant d’un autre<br />

neurone. Cette information ne porte pas la marque de son origine. Dans les deux cas,<br />

cette information est perçue comme une perturbation.<br />

Cette interprétation est en tout point similaire à celle de Varela [[205]], qui voit la<br />

même indifférenciation de l’origine de l’information neuronale :<br />

En tant que réseau neuronal clos, le système nerveux n’a ni entrées ni<br />

sorties ; et aucune caractéristique intrinsèque de son organisation ne lui<br />

permet de distinguer, par la dynamique de ses changements d’états,<br />

l’origine interne ou externe de ses changements.<br />

Cette approche peut permettre de rendre naturelle la description à différents niveaux<br />

du système percevant, et peut nous orienter vers des architectures modulaires ou<br />

‘modularisables’.<br />

6. Nombre d’itérations d’apprentissage<br />

L’une des grandes limites théoriques des modèles connexionnistes est le nombre<br />

d’itérations nécessaires à l’apprentissage : il n’est pas rare de devoir réaliser plusieurs<br />

centaines de milliers d’itérations d’apprentissage, voire parfois plusieurs millions.<br />

35 N’est ce pas ce que chacun cherche à réaliser lorsqu’il essaye de convaincre autrui de la validité de ses<br />

idées, ceci afin de ne plus être perturbé par des idées contraires aux siennes ? D’ailleurs, les méthodes<br />

utilisées sont souvent d’autant plus perturbantes pour l’environnement, que les idées sont difficilement<br />

justifiées ‘en interne’.<br />

DEUXIEME PARTIE : DEVELOPPEMENT


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

L’ensemble des apprentissage que nous avons essayés dans nos réseaux se sont tous<br />

révélés d’une lenteur extrême (Chap.8, Anticipation du forçage des dynamiques, p.185).<br />

Le forçage entraîne immédiatement la dynamique du réseau à suivre la dynamique<br />

extérieure ; ainsi, le réseau est immédiatement proche de la dynamique qu’il aura après<br />

apprentissage 36 . D’une certaine façon, la perturbation externe est immédiatement<br />

perçue.<br />

N’est-ce pas ce qui se passe lorsque nous percevons un objet ?<br />

En regardant une peinture, par exemple, si nous fermons les yeux, l’image<br />

s’évanouira lentement pour ne laisser qu’une impression vague. Mais, si nous rouvrons<br />

les yeux tout de suite, le tableau nous réapparaît tel que nous l’imaginions, en donnant<br />

l’impression de venir se coller à la représentation interne que nous en avions. Plus nous<br />

observerons ce tableau, plus la perception que nous en aurons sera précise et fidèle.<br />

Mais combien de temps devrons-nous l’observer pour que l’image interne que nous nous<br />

faisons de l’objet soit précisément celle regardée, au point que nous confondions le<br />

tableau et l’image mentale ?<br />

Il est probable que, pour atteindre ce point de perfection dans la représentation<br />

interne de l’objet perçu, il nous faille aussi plusieurs millions d’ ‘itérations’... Il n’est donc<br />

peut être pas si surprenant que l’apprentissage dans les modèles connexionnistes<br />

requière autant d’itérations pour apprendre parfaitement un signal d’entrée. Cette limite<br />

n’est peut être pas un signe de l’échec du connexionnisme.<br />

Finalement, ce qui nous intéresse lorsque nous regardons un tableau, c’est de<br />

pouvoir nous en ‘faire une idée’, complétée à chaque nouvelle observation..<br />

Ainsi, l’idée du forçage permet de justifier la nécessité d’être en contact avec l’image<br />

perçue pour pouvoir se la représenter parfaitement. Et il n’est peut être pas nécessaire<br />

d’atteindre le stade de l’apprentissage par cœur pour le réseau, qui est pourtant l’un des<br />

critères de réussite de la plupart des modèles actuels.<br />

D’autre part, il existe un compromis entre la qualité de l’apprentissage, et les<br />

capacités de généralisation du réseau : la mémoire absolue ne peut pas généraliser, car<br />

chaque perception d’un même phénomène est perçue comme un cas particulier. Il est<br />

donc sans doute préférable de ne pas chercher un apprentissage par cœur dans le<br />

réseau, afin de maximiser ses chances de généralisation.<br />

7. Evite la divergence des paramètres du réseau<br />

L’étude de l’algorithme d’apprentissage RTRL (4.4.3 Real time recurrent learning,<br />

p.86) a mis en évidence que la dynamique des Pijk peut être instable, et il n’est pas rare<br />

de voir les poids diverger (4.5.3 Instabilité,p.90).<br />

Or, dans le cas où la dynamique de forçage est lente, le système étant forcé de<br />

suivre cette dynamique, l’erreur réalisée est faible, ce qui maintient les Pijk à des valeurs<br />

faibles, dans le cas d’un apprentissage par RTRL. Il y donc moins de chances de voir les<br />

poids diverger.<br />

36 ou tout au moins, plus proche que de celle qu’il aurait sans forçage.<br />

UN MODELE CONNEXIONNISTE DE LA MEMOIRE 103


104<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

D’une façon plus générale, le forçage permet de maintenir artificiellement le système<br />

sur une dynamique, en empêchant sa divergence. Pour reprendre l’exemple de<br />

l’apprentissage du vélo, celui-ci ne peut pas tomber, car il est maintenu. Ceci nous a<br />

permis d’obtenir de grandes modifications des dynamiques du système, sans que celui-ci<br />

ne fasse diverger ses poids (Figure 8-23, p.202).<br />

8. Prise en compte du passé de la perturbation<br />

Pour connaître l’état futur X(t+1) d’un système donné, il faut connaître un certain<br />

nombre de valeurs passées X(t),X(t-1),X(t-2),...,X(t-N), afin qu’à chaque point de<br />

coordonnées {X(t),X(t-1),X(t-2),...,X(t-N)} corresponde un et un seul point X(t+1). La<br />

N<br />

connaissance de cette fonction f :  a permet alors de calculer l’évolution<br />

future du système dynamique, à partir d’un point initial {X(t0),X(t0-1),...,X(t 0-N)}. Afin de<br />

calculer N par observation de la suite des X(t), une méthode consiste à plonger les<br />

X(t) dans des espaces de dimension croissante, et de prendre N égal à la première<br />

dimension où aucune des trajectoires de X(t) ne se croise. Dans un système forcé, à<br />

chaque itération, le signal de forçage est diffusé dans le réseau, et, d’une certaine<br />

façon, le système a accès au passé du signal de forçage : l’état du système au temps<br />

t dépend du signal de forçage à s


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Dans un réseau à récurrence locale, cette diffusion se fait à partir du site de<br />

forçage, ce qui fait que les forçages passés ont une influence de plus en plus loin de<br />

ce site dans le réseau. Ainsi, les dépendances à long terme du signal de forçage sont<br />

traitées par des neurones éloignés du site de forçage. De cette façon, un plus grand<br />

nombre de neurones participent à l’anticipation du signal, et sont plus à même de<br />

tenir compte de l’information transmise par d’autres sites de forçage. Ce type de<br />

comportement peut être à l’origine des principes d’association multimodale qui seront<br />

évoqués dans cette thèse.<br />

Ainsi, le simple principe de forçage d’un système à récurrence locale est en<br />

accord avec la nécessité pour le système de devoir mettre en commun les<br />

dépendances à long terme de chacun des sites forcés, afin de mieux anticiper<br />

chacun.<br />

5.2.2 Minimisation des perturbations induites<br />

La mémoire et l’apprentissage font pénétrer les autres dans [notre]<br />

structure [biologique qui n’a qu’une seule raison d’être, celle de se<br />

conserver].<br />

Henri Laborit. Eloge de la fuite. p.38<br />

Une fois l’information assimilée à une perturbation du système par l’environnement, il est<br />

envisageable de considérer que le système cherche à minimiser la modification que produira cette<br />

perturbation externe, en l’anticipant, ce qui revient à maximiser son autonomie.<br />

Ce phénomène se retrouve de façon simple lorsque l’on est sur un tapis roulant : le<br />

paysage semble continuer à défiler après en être sorti. Il a été montré que cette illusion est<br />

uniquement visuelle [[150]], ce qui tendrait a montrer que c’est l’anticipation visuelle du<br />

mouvement qui est perturbée à la sortie du tapis roulant : on continue à anticiper le défilement du<br />

paysage.<br />

Nous devons, avant de poursuivre, définir ce que nous entendons par autonomie d’un<br />

système. Paul Bourgine et Francisco Varela la définisent comme étant [[21]]:<br />

Qu’ils complètent en précisant :<br />

la capacité basique et essentielle d’être, d’affirmer son existence et<br />

d’évoluer dans un monde qui est signifiant, sans qu’il soit pré-traité par<br />

avance.<br />

Ainsi l’autonomie du vivant est comprise à la fois au regard de ses<br />

actions, et au regard de la façon dont il se figure le monde.<br />

Il y a donc deux points de vue de l’autonomie. L’un, externe, observe l’autonomie à<br />

travers les actions du système. L’autre, interne, provient de l’encodage réalisé par le système.<br />

Dans le cadre de cette thèse, qui s’intéresse à la mémoire, nous nous limiterons à la deuxième<br />

approche, en tenant compte à la fois de l’action, et de la représentation.<br />

Nous définirons et formaliserons l’autonomie comme étant quantifiée par le rapport entre<br />

l’influence des variables internes du système (représentation) sur l’influence des variables<br />

externes sur l’évolution du système (action).<br />

UN MODELE CONNEXIONNISTE DE LA MEMOIRE 105


106<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Cette approche offre une nouvelle interprétation de la mémoire, qui prend dès lors un rôle<br />

actif dans le maintien de l’intégrité du système, et ainsi s’accorde avec l’idée d’une clôture<br />

opérationnelle du système [[205]]. Le système cherche à augmenter son autonomie, c’est-à-dire<br />

qu’il cherche à maximiser le rôle de son état interne dans la détermination de son état à venir.<br />

Finalement, le système pourra être considéré comme autonome, dès qu’il se pliera de façon<br />

parfaite à son environnement et pourra anticiper seul l’évolution à court terme de celui-ci 37 . D’une<br />

certaine façon, cette phase ultime peut être considérée comme celle où le système a si<br />

parfaitement conçu et modélisé l’évolution de son environnement, qu’il peut le simuler : chacun de<br />

ses états à venir dépendent alors de ses seuls états internes, et l’ensemble des perturbations dues<br />

à son environnement seront anticipées par le système, et donc d’influence négligeable. Au stade<br />

où l’autonomie a été maximisée, le système n’a plus besoin de percevoir son environnement, il<br />

l’anticipe 38 . Ce stade dépend bien évidemment de l’échelle du système considéré : il suffit qu’un<br />

système puisse anticiper l’ensemble des perturbations possibles de son environnement. Il n’est<br />

donc pas nécessaire, pour qu’un système soit autonome, qu’il puisse modéliser le reste de<br />

l’univers, mais seulement une sous-partie, qui correspond à son environnement proche et influent.<br />

En revenant à l’approche de Bourgine et Varela, cette minimisation peut être produite par<br />

deux ‘comportements’ possibles : soit l’organisme agit sur l’environnement pour modifier la<br />

perturbation à venir (action), soit il s’adapte pour suivre l’évolution de la perturbation sans la<br />

modifier (perception). Ces deux méthodes offrent deux types de solutions pour l’apprentissage.<br />

Dans le cas de l’action, cette approche donne des voies de recherches possibles pour un<br />

apprentissage du comportement du système dans son environnement. Il est par exemple possible<br />

d’envisager un renforcement de l’action lorsque celle-ci aide à conformer l’environnement à ce<br />

que le système prévoyait. Cette voie de recherche n’entre pas dans le cadre de cette thèse, mais<br />

pourrait être intéressante à étudier, en complétant les idées avancées ici.<br />

Dans le cas de l’anticipation, qui est la voie utilisée pour notre modèle, le système est<br />

plongé dans le présent : le passé lui sert uniquement à faciliter sa capacité d’anticipation de la<br />

perturbation à venir (Figure 5-4). Cette approche est simple, mais a l’avantage de pouvoir concilier<br />

plusieurs notions, actuellement distinctes. Dans la vision initiale d’une mémoire cherchant à se<br />

souvenir de son passé, le principe est de chercher un fait mémorisé, une donnée, de retrouver un<br />

encodage préalablement enregistré : il faut chercher dans le passé le stimulus externe, déjà perçu<br />

et mémorisé, proche du percept actuellement perçu. Une telle approche encourage la vision d’un<br />

‘balayage interne’ des événements passés, et donc d’une information encodée sous la forme de<br />

représentants accumulés les uns après les autres. Dans le modèle proposé, le système ne<br />

possède pas d’encodage, d’arbre sémantique des événements du passé : il évolue simplement au<br />

cours du temps, selon un comportement qui a été modelé, modifié par son passé. Cette nouvelle<br />

approche permet d’éliminer l’hypothèse d’un centre cérébral de la mémoire : le système est la<br />

mémoire du système. Cette interprétation unificatrice du concept de mémoire va dans le sens des<br />

unifications préalablement réalisées dans cette thèse (unification de la mémoire et des organes de<br />

traitement du système, unification de la représentation bas niveau du système et de son<br />

environnement).<br />

37<br />

Ce court terme dépend bien évidemment du système considéré, et de la vitesse de sa dynamique et de<br />

celles qui l’entourent.<br />

38<br />

N’est ce pas ce qui nous arrive parfois, dans des environnements appauvris, comme celui de la conduite<br />

sur une route régulière, où nous avons la sensation de ne pas avoir perçu la route pendant quelques dizaines<br />

de mètres, et que la conduite s’est alors révélée quasi-automatique ? Par contre, si un chat traverse la route,<br />

cette perception est fortement pertubatrice (non anticipée), et nous sort de nos rêveries (simulations<br />

internes).<br />

DEUXIEME PARTIE : DEVELOPPEMENT


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Figure 5-4 : Une mémoire anticipatrice<br />

Selon la conception classique de la mémoire, le système balaye les encodages accumulés des<br />

stimuli externes passés, à la recherche du percept le plus proche de celui perçu au moment<br />

présent. Le modèle proposé cherche à montrer que la mémoire a pour but d’anticiper l’état à<br />

venir du système perturbé par son environnement, ceci étant facilité par l’apprentissage<br />

permanent, qui accumulé, représente l’expérience du système.<br />

Cette vision ajoute aussi une nature ‘personnelle’ à l’objet mémorisé : celui-ci n’est pas<br />

unique, tel un fait, une donnée immuable et universelle. Le système cherche uniquement à<br />

anticiper l’état dans lequel le mettra une perturbation perçue, en fonction de cette perturbation,<br />

mais aussi de son propre état à l’instant de la perturbation. Ainsi, l’influence d’une perturbation<br />

extérieure dépend à la fois de cette perturbation, mais aussi de l’état du système qui la perçoit.<br />

Cette constatation est en accord avec la conception actuelle de la perception qui considère que,<br />

pour une bonne part, l’information reçue dépend de ce qu’en attend le système 39 . Une<br />

comparaison est possible avec certains des comportements que nous avons observés dans nos<br />

réseaux, où la dynamique du système dépend à la fois de l’information perçue, et de l’état du<br />

système au moment de la perception (Plusieurs attracteurs par neurone, p.154).<br />

La remémoration devient alors une cause de ce phénomène d’anticipation, car la<br />

perturbation est d’autant mieux anticipée qu’elle a été expérimentée de nombreuses fois dans le<br />

passé : le système anticipera d’autant mieux qu’il se trouve dans un état proche de ceux déjà<br />

appris. Son état interne est alors proche de ce qu’il a déjà été : il y a remémoration.<br />

Ainsi, pour résumer le concept développé ici, le système est déformé par son<br />

environnement et tend à anticiper, afin de minimiser la perturbation induite par l’extérieur. Une<br />

telle approche peut se justifier à différents niveaux, qui sont développés dans les paragraphes qui<br />

suivent.<br />

39 Ce qui fait dire par exemple, dans le cas de l’audition, que l’ « on entend ce que l’on attend »<br />

UN MODELE CONNEXIONNISTE DE LA MEMOIRE 107


108<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

1. Simplification des dynamiques apprises<br />

Comme cela a été proposé dans les premiers principes dégagés lors de l’étude de<br />

l’utilisation d’un système à dynamique chaotique (2.3.3 Synthèse d’un modèle<br />

préliminaire, p.58), certaines expériences tendent à montrer que le phénomène de<br />

reconnaissance se traduit dans les systèmes naturels par une diminution de l’attracteur<br />

cérébral. Nous avons vu, de plus, que la complexification de la dynamique s’il n’y a pas<br />

reconnaissance peut être expliqué par un phénomène de couplage d’un processus non<br />

linéaire à un signal extérieur (1 Complexification des dynamiques, p.99).<br />

Le modèle proposé ici, suppose que le système cherche à anticiper les perturbations<br />

induites par la modification de son environnement. Il cherche donc à forcer les<br />

dynamiques de ses neurones modifiées par son environnement, et à suivre les<br />

dynamiques forçantes. Il suffirait donc que ces dynamiques forçantes soient de plus<br />

faible complexité que les dynamiques libres cérébrales, pour que puisse être observée<br />

une diminution de la complexité des dynamiques apprises. Il semblerait que ce soit bien<br />

le cas : les premiers étages de traitement de l’information réalisent bien souvent des<br />

filtrages préliminaires qui tendent à simplifier les dynamiques qui sont ensuite transmises<br />

au système central : la cochlée sépare un signal sonore par paquets de fréquences, la<br />

rétine prétraite l’image reçue, et bien souvent les capteurs physiques se spécialisent en<br />

transmettant ainsi une information appauvrie. De cette façon, l’environnement est présegmenté.<br />

Pour reprendre l’exemple du système ‘ressort+masse’, présenté précédemment, le<br />

système devrait chercher, lors de l’apprentissage, à modifier ses paramètres pour que<br />

l’extrémité libre du ressort suive le signal forçant, qui est une simple sinusoïde : il y<br />

aurait bien simplification des dynamiques du système.<br />

2. Vers une maximisation de l’autonomie<br />

Ce modèle de mémoire dans un système cherche à minimiser l’influence externe sur<br />

les dynamiques internes du système, puisque, si l’apprentissage par cœur est atteint, le<br />

système suit fidèlement les modifications extérieures, sans avoir recours à celles-ci.<br />

Dans le cas d’un système dynamique défini par son état X, les variables de contrôle<br />

U 40 , et de loi f, nous définirons l’autonomie d’un système par :<br />

( , , )<br />

L f XU<br />

If( X)<br />

=<br />

I ( U)<br />

Cette influence If(x) représente la sensibilité de f à une variation des états X. Une idée<br />

pour la mesurer (dans les cas où f est ‘bien choisie’), peut être par exemple d’employer :<br />

+ T<br />

æ 1<br />

ö<br />

If( X)<br />

= åçlim<br />

J f , X( Xi). dXi÷<br />

T®¥<br />

i è T ò<br />

,<br />

2 -T<br />

ø<br />

40 Nous entendons par paramètre de contrôle, tout paramètre participant à l’évolution du système, ne faisant<br />

par partie des paramètres internes du système. Ils contrôlent le système, car c’est une intervention<br />

extérieure qui modifie son évolution, et la contrôle.<br />

DEUXIEME PARTIE : DEVELOPPEMENT<br />

f


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

où J f , X( X i)est<br />

la matrice Jacobienne de f, au point Xi. De cette façon, l’influence<br />

représente la valeur moyenne de la dérivée de chacune des lois du système.<br />

La définition précédemment donnée de la mémorisation dans un système revient<br />

pour ce système à maximiser L( f, XU , ) , grâce à une minimisation de If(U).<br />

Figure 5-5 : Système autonome<br />

Le système devient autonome dès lors que les dynamiques internes du système deviennent<br />

égales à celles induites par l’environnement sur les sites de forçage (lignes pointillées).<br />

L’environnement perçu devient alors simulé par le système.<br />

Sur la Figure 5-5, lorsque le système est plongé dans son environnement, sans<br />

apprentissage initial, les dynamiques forçantes de l’environnement viennent perturber les<br />

dynamiques du système. Lorsque le système est devenu parfaitement autonome, ses<br />

états internes, forcés par l’environnement, suivent parfaitement les dynamiques de<br />

forçage : il est possible de couper le système de son environnement, sans modifier ses<br />

dynamiques internes.<br />

Ainsi, une telle mémoire maximise l’indépendance du système en rendant l’influence<br />

de l’état interne du réseau prépondérante sur l’influence de l’extérieur. Une telle<br />

interprétation peut être réalisée en terme d’autonomie : le système cherche à maximiser<br />

son autonomie, à maximiser l’influence de son état interne, à la rendre indépendante des<br />

modifications futures de son environnement.<br />

UN MODELE CONNEXIONNISTE DE LA MEMOIRE 109


110<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Cette maximisation conduit le système à anticiper les dynamiques externes : il faut que<br />

ses variables d’états s’instancient en anticipant l’influence de l’environnement. En effet,<br />

nous définissons la perturbation comme étant l’erreur résiduelle entre la valeur de la<br />

variable d’état sous forçage, et la valeur qu’elle aurait sans forçage. Minimiser cet<br />

perturbation, c’est amener la variable d’état à anticiper ce forçage.<br />

L’image de ce comportement pourrait se retrouver dans l’exemple d’une boule de pâte à<br />

modeler, qui creuserait d’elle-même un trou sous le doigt que l’on chercherait à enfoncer<br />

: la boule chercherait, seule, à anticiper la trajectoire du doigt.<br />

3. L’effet de surprise<br />

Nous nous souvenons mieux de ce qui nous surprend 41 , ou, dit selon le vocabulaire<br />

défini dans cette thèse : un système modifie plus ses dynamiques si le percept est<br />

difficilement anticipable.<br />

Cette notion peut sembler contradictoire avec l’image que l’on se fait de la mémoire :<br />

on apprend mieux dans les domaines que l’on maîtrise déjà, et d’une certaine façon, la<br />

mémorisation est meilleure si le percept est proche de ce que l’on sait déjà. De la même<br />

façon, on reconnaît mieux un visage vu dix fois qu’une.<br />

Mais l’on reconnaîtra mieux un visage s’il est caractéristique, même vu une seule fois<br />

! La difficulté inhérente à la reconnaissance des visages est qu’ils se ressemblent tous. Il<br />

est donc nécessaire de les pratiquer tous, afin de déterminer ce qui différencie chacun.<br />

D’une certaine façon, il est possible de voir deux types différents de mémorisation<br />

derrière le même principe :<br />

à une mémorisation lente, servant à segmenter des percepts conceptuellement<br />

proches, grâce à la pratique courante de ces percepts<br />

à une mémorisation rapide, due à l’effet de surprise 42 .<br />

Nous supposerons dans cette thèse que ces deux types de mécanismes relèvent du<br />

même principe de base, qui est toujours que le système cherche à minimiser les<br />

perturbation induites. En effet, une information perçue pour la première fois, peut être<br />

considérée comme très ‘perturbatrice’, car elle n’est absolument pas conceptualisée par<br />

le système : le système est loin de l’état qu’il faudrait avoir pour reconnaître l’information<br />

perçue. Mais à chaque présentation de cette information, il en apprend un peu plus, et se<br />

rapproche donc de cet état qu’il devrait avoir. Ce faisant, la perturbation est de plus en<br />

plus finement apprise, rendant les composantes perturbantes de plus en plus discrètes,<br />

et d’intensité de plus en plus faible.<br />

Le fait que le système cherche à suivre et à anticiper l’information à venir, crée une<br />

forme de filtrage automatique de ce qui n’est pas encore appris, ni anticipable.<br />

41 Cette idée n’est pas nouvelle, et se retrouve dans la définition de Fouillé (1893), qui a dit que le sentiment<br />

de Familiarité est fait en grande partie, de la diminution du choc intérieur que constitue la surprise.<br />

(Psychologie, tome I, p.242, cité par Bergson [[17]]).<br />

42 Cet effet de surprise fait que si vous vous présentez à votre bureau avec un nez de clown, les gens se<br />

souviendront longtemps de ce jour, alors qu’ils ont oublié les centaines de fois où vous êtes apparu devant<br />

eux, de façon normale (selon la norme,selon l’usage), anticipée par eux, qui fait qu’ils ont vu plus ce à quoi<br />

ils s’attendaient.<br />

DEUXIEME PARTIE : DEVELOPPEMENT


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Ainsi, le système part d’une surprise totale, et converge lentement vers un<br />

apprentissage par cœur, où les plus infimes évolutions de l’information perçue sont<br />

anticipées. Ceci, dans le cas où l’information transmise possède une information<br />

suffisante pour sa prédiction. Dans les autres cas, il restera obligatoirement une erreur<br />

résiduelle que le système ne pourra prévoir, et qui diffusera dans le réseau. Ce principe<br />

peut être à la base des phénomènes d’association dans le système.<br />

4. Permet la segmentation de classes conceptuelles<br />

Dès lors qu’un système cherche à anticiper l’évolution de son environnement,<br />

différents parties de cet environnement peuvent être segmentées, car elles possèdent<br />

des évolutions indépendantes : la connaissance de l’état de l’un n’ajoute rien à la<br />

capacité d’évolution de l’autre. Ainsi, par exemple, sur la Figure 5-6, les parties grisées<br />

de l’environnement ne sont liées par aucune loi : l’évolution de chacun des sous<br />

systèmes ne change en rien l’évolution des autres. Ils sont indépendants.<br />

Comme le système cherche à<br />

maximiser ses chances d’anticipation<br />

de chacun des systèmes, il est possible<br />

qu’il finisse par modéliser des lois<br />

indépendantes entre-elles, qui lui<br />

permettent d’anticiper l’évolution de<br />

chacun des sous-systèmes<br />

indépendants de son environnement.<br />

De plus, si l’environnement proche du<br />

système varie, et que l’un de ses sites<br />

se retrouve forcé par un sous-système<br />

indépendant de l’environnement,<br />

similaire à un déjà appris, et dont<br />

l’évolution est similaire, le système<br />

peut réutiliser les lois qui permettaient<br />

d’anticiper le premier système.<br />

De cette façon, plusieurs soussystèmes<br />

de l’environnement peuvent<br />

être associés à un même concept, car<br />

leur lois d’évolutions sont similaires.<br />

D’une certaine façon, c’est la<br />

cohérence de l’environnement, qui<br />

offre au système la possibilité d’une organisation interne.<br />

Figure 5-6 : Environnements disjoints<br />

Lorsque des sous-parties de l’environnement<br />

sont causalement disjointes, c’est à dire dont les<br />

états internes de sont pas liés par des fonctions,<br />

le système peut anticiper chacune sans tenir<br />

compte des autres. Elles deviennent dès lors<br />

conceptuellement disjointes pour le système qui<br />

peut affecter des parties spécialisées à<br />

l’anticipation de chaque classe.<br />

5. Evite la nécessité d’un synchronisme support de l’encodage<br />

Une question est souvent posée en ce qui concerne l’encodage dynamique, à savoir<br />

quel est le support de cet encodage ? S’il y a encodage, il y a nécessairement une<br />

couche supplémentaire qui décide si le sous-système a reconnu ou non le percept<br />

présenté, et l’on perd alors le bénéfice d’un encodage dynamique, puisque celui-ci doit<br />

être lui-même encodé par une observation de ce système, ramenant l’état du réseau à<br />

une valeur statique, booléenne : RECONNU ou NON RECONNU.<br />

UN MODELE CONNEXIONNISTE DE LA MEMOIRE 111


112<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Dès lors, l’encodage dynamique n’offre que peu d’avantages puisqu’il ramène le<br />

système à un réseau à sortie booléenne.<br />

L’architecture proposée ici ne cherche pas à obtenir un support pour l’encodage des<br />

percepts : son seul but est d’anticiper l’évolution de son environnement, ou plutôt, ce<br />

qu’elle en perçoit. Cette approche permet donc d’éliminer toute nécessité de support<br />

pour l’encodage, et les phénomènes de synchronisme observés dans les réseaux<br />

biologiques ne sont plus vus comme un encodage de l’information, mais comme une<br />

organisation de dynamiques induites dans le réseau qui servent à anticiper le signal<br />

perçu.<br />

5.2.3 Association multimodale des forçages<br />

[...] Rien de ce qui s’accumule dans le système nerveux [de l’homme]<br />

n’est isolé, séparé du reste : tout se tient, s’organise, s’informe en lui, en<br />

obéissant à des lois strictes, dont la plupart restent encore à découvrir<br />

[...].<br />

DEUXIEME PARTIE : DEVELOPPEMENT<br />

Henri Laborit. Eloge de la fuite. p52<br />

L’évolution de la dynamique d’un système possède bien souvent plusieurs variables d’état,<br />

et l’observation d’une seule d’entre elles n’offre pas assez d’information pour rendre cette sousdynamique<br />

déterministe et prédictible. Ainsi, par exemple, dans le cas d’un système de Lorenz, il<br />

est nécessaire de connaître {X(t),Y(t),Z(t)} pour déterminer {X(t+dt),Y(t+dt),Z(t+dt)}. Si l’une des<br />

variables de ce système est inconnue, le système complet devient imprédictible, et son évolution<br />

apparaît aléatoire, à cause de l’existence d’au moins une variable cachée.<br />

Cette remarque nous permet de penser que si un réseau est forcé sur trois sites différents<br />

par les trois variables X(t), Y(t) et Z(t), il possède assez d’information pour pouvoir anticiper<br />

l’évolution du système, mais est dans l’incapacité de prévoir l’évolution de chacune des<br />

dynamiques X(t), Y(t) ou Z(t) séparément. Il est donc nécessaire que le système mette en commun<br />

les informations transmises par ces trois variables, afin d’être à même de prévoir chacune. Ce<br />

principe est l’un de ceux du modèle de mémoire proposé, nous l’appellerons association<br />

multimodale :<br />

Le système cherche à mettre en commun l’information de tous les canaux afin de<br />

maximiser la réussite de l’anticipation de chacun.<br />

Cette idée est schématisée sur la Figure 5-7, en reprenant l’image du système et son<br />

environnement. Sur ce schéma, la première figure montre un système qui perçoit un<br />

environnement, par un forçage unique.<br />

Dans ce cas, l’environnement possède trop de variables cachées pour que le système<br />

puisse anticiper de façon efficace l’évolution de ce forçage. Sur la seconde figure, le système est<br />

forcé par chacune des variables d’état de l’environnement. De cette façon, le système possède<br />

l’information suffisante pour pouvoir anticiper l’évolution de chacun des forçages : il n’y a plus de<br />

variables cachées. Comme nous le verrons par la suite, la deuxième situation possède deux<br />

principaux avantages : elle permet, comme cela a été dit, de minimiser le nombre de variables<br />

cachées de l’environnement, et donc de maximiser les chances d’anticipation pour le système, et,


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

de plus, l’algorithme RTRL est on-line sur les sites forcés (5 Avec Teacher forcing total, p.88). Cet<br />

algorithme d’apprentissage peut donc devenir biologiquement plausible pour un système<br />

totalement forcé. Cette idée sera utilisée lors de la mise au point de nouveaux algorithmes<br />

d’apprentissage pour ces réseaux récurrents (8.4 Forçage des dynamiques complémentaires,<br />

p.195).<br />

Figure 5-7 : Augmentation du nombre de canaux<br />

Si le système ne perçoit qu’une sous partie des variables d’état de son environnement,<br />

l’existence de variables cachées pour le système, peut rendre l’anticipation du site de forçage<br />

quasi-impossible. L’augmentation du nombre de sites de forçage pallie cette difficulté, en<br />

diminuant le nombre de variables cachées.<br />

5.2.4 Modularisation fonctionnelle<br />

L’idée de forçage de la dynamique<br />

de sites individuels, associée avec celle de<br />

voisinage local, permet de générer une<br />

nouvelle propriété proche d’un<br />

comportement biologique. L’idée d’une<br />

fonctionnalité spécifique des aires<br />

neuronales est aujourd’hui acceptée, mais<br />

selon une vision moins figée qu’elle ne l’a<br />

été : ces aires évoluent, se forment et se<br />

déforment, s’adaptent, recrutant les<br />

neurones d’aires voisines. Nous<br />

supposerons que la dynamique portant sur<br />

le déplacement de ces aires est entretenue<br />

par les sites de forçage : un site très<br />

perturbant pour le réseau, et donc<br />

difficilement anticipable, doit diffuser plus<br />

loin dans le réseau, et recruter un plus<br />

grand nombre de neurones pour<br />

l’anticipation du site de forçage : les<br />

perturbations induites tendent à sortir des<br />

Figure 5-8 : Modularisation fonctionnelle<br />

Des aires cérébrales spécifiques et disjointes sont<br />

activées en fonction de la modalité d’un même<br />

concept évoqué.<br />

frontières du module, en cherchant à recruter de nouveau neurones. Les dynamiques induites par<br />

ces compétitions entre modules engendre une dynamique lente de déplacement des modules. Ce<br />

dernier principe, qui porte sur cette modularisation fonctionnelle par diffusion des perturbations<br />

induites par les sites de forçage, est définit comme suit :<br />

UN MODELE CONNEXIONNISTE DE LA MEMOIRE 113


114<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Le forçage, diffusant son activité dans le réseau, définit des modules autour du site de<br />

forçage, qui s’organisent selon l’architecture du réseau et la dynamique forcée. Ce<br />

mécanisme définit une fonctionnalité a posteriori du module.<br />

Nous entendons par fonctionnalité le fait que le rôle du module est lié à l’information qui<br />

lui arrive, à la fonction du canal de forçage. Ainsi, nous supposons que c’est l’oreille qui participe<br />

à 43 la fonction de l’aire auditive, l’oeil qui participe à la fonction de l’aire visuelle. L’observation de<br />

ce phénomène a été réalisée par l’observation de l’activité cérébrale lors de l’évocation d’un mot :<br />

les aires actives dépendent du mode d’évocation (entendu, lu, pensé, ou dit) (Figure 5-8).<br />

Cette expérience confirme l’hypothèse qu’un même concept est représenté par une<br />

assemblée de neurones, répartis dans le cerveau : il n’y a pas un neurone affecté à chaque<br />

concept.<br />

De plus, les zones actives sont les zones<br />

fonctionnellement dépendantes du mode utilisé<br />

pour concevoir le mot : un mot vu active<br />

préférentiellement les aires visuelles. Ceci confirme<br />

l’hypothèse que les aires sont fonctionnellement<br />

définies, et que toutes participent à l’évocation des<br />

concepts.<br />

Ce résultat confirme aussi l’hypothèse que<br />

les modules s’organisent autour des sites de<br />

forçages, puisque les zones activées lors de<br />

l’évocation visuelle ou auditive d’un mot, sont celles<br />

où s’implantent les nerfs visuels ou auditifs, par<br />

exemple (Figure 5-9).<br />

1. Modularisation par apprentissage<br />

Revenons aux modèles connexionnistes. Le plus souvent les apprentissages réalisés<br />

sont des fonctions de l’erreur locale réalisée par chacun des neurones. Ainsi, plus cette<br />

erreur est forte, plus la modification réalisée sur les poids est importante, et d’une<br />

certaine façon, plus le neurone se spécialise dans la minimisation de cette erreur.<br />

Dans le cas où l’erreur est propagée d’un neurone à l’autre, grâce à un apprentissage<br />

local, il est possible de suivre le chemin suivit par l’erreur maximale propagée à partir du<br />

site de forçage. De cette façon, on peut tracer une ligne partant du neurone forcée, qui<br />

délimite une zone où les neurones se spécialiserons de façon préférentielle à<br />

l’anticipation du site de forçage initial. Dans le cas opposé, si deux neurones sont reliés<br />

par des coefficients faibles, l’erreur réalisée par l’un se propagera peu vers le second, et<br />

modifiera peu ses poids. De cette façon, des segmentations peuvent apparaître entre<br />

différents modules du réseau.<br />

43 Nous utilisons ‘participe à’ au lieu de ‘fait’ ou ‘forme’ car nous ne pouvons pas supposer que ce type<br />

d’apprentissage soit le seul à l’oeuvre dans les systèmes biologiques. Il peut évidemment y avoir préparation<br />

a priori de l’aire concernée à sa fonction. Mais des études ont montré que les aires non stimulées était<br />

recrutées par les plus actives, ce qui montre une grande plasticité cérébrale, conforme à notre hypothèse.<br />

DEUXIEME PARTIE : DEVELOPPEMENT<br />

Figure 5-9 : Localisation des aires visuelles


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Evidemment, la segmentation réalisée<br />

dans un réseau ne peut pas être aussi<br />

nette que sur la Figure 5-10, car l’erreur<br />

ne se propage pas selon un unique<br />

chemin, mais diffuse plutôt dans le<br />

réseau, selon certaines directions<br />

privilégiées. Ainsi, il sera peu probable<br />

d’observer des neurones spécifiquement<br />

et exclusivement affectés à l’anticipation<br />

d’un seul site de forçage. L’aspect<br />

modulaire ne peut donc qu’être observé a<br />

posteriori, en détruisant un neurone, afin<br />

de quantifier l’erreur que cette destruction<br />

réalise sur l’anticipation de chacun des<br />

sites de forçage.<br />

La même limite se retrouve dans les<br />

systèmes réels, où la connaissance de<br />

l’effet des lésions cérébrales permet de<br />

spécifier les limites des aires neuronales :<br />

l’architecture du système est observée a<br />

posteriori.<br />

Figure 5-10 : Modularisation par les poids<br />

L’apprentissage étanr fonction des<br />

perturbations induites par le site de forçage,<br />

les plus grandes modifications des<br />

paramètres locaux du système se feront<br />

selon le chemin des zones fortement<br />

modifiées. Ce mécanisme modularise<br />

fonctionnellement le réseau à partir des sites<br />

de forçage.<br />

Nous verrons, dans le cadre d’un<br />

apprentissage dont l’intensité dépend des états des neurones d’entrée et de sortie,<br />

similaire à un apprentissage hebbien, que ce phénomène de diffusion peut engendrer<br />

une modularisation très complexe, géométriquement similaire à celle observée dans la<br />

spécification oeil droit, oeil gauche des aires cérébrales du macaque (8.2<br />

L’apprentissage Hebbien, p.186). Un simple modèle connexionniste peut reproduire des<br />

organisations modulaires géométriquement similaires à celles des systèmes réels.<br />

2. Modularisation fonction de la complexité du signal<br />

Une des définitions de la complexité est celle de Kolmogorov-Chaitin, ou KCcomplexité,<br />

qui correspond à la longueur en bits du plus petit programme qui produira ce<br />

message. Cette définition de complexité semble relative à une architecture donnée, et<br />

représente la complexité pour un ordinateur d’engendrer le message voulu.<br />

Ainsi, cette complexité peut ne pas représenter la complexité absolue d’un message,<br />

mais la complexité relative pour un système donné d’engendrer un message. De la<br />

même façon, un signal aléatoire, complexe au sens de Kolmogorov-Chaitin, peut être vu<br />

comme simple pour certaines machines : un signal aléatoire est ‘simple’ pour le système<br />

qui l’engendre.<br />

Nous ne verrons donc pas de définition d’une complexité absolue, mais seulement<br />

relative à un système : le système percevant participe à la notion de complexité. Dans le<br />

cadre d’un réseau forcé, il est possible d’interpréter la diffusion des perturbations induites<br />

comme étant un ‘filtre de complexité’. En effet, nous pouvons espérer que, en fonction<br />

de la force de l’erreur réalisée par le réseau, celle-ci diffuse plus ou moins loin dans le<br />

réseau : une erreur faible, de faible énergie restera localisée autour du site de forçage,<br />

UN MODELE CONNEXIONNISTE DE LA MEMOIRE 115


116<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

tandis qu’une erreur élevée diffusera plus loin sa perturbation dans le réseau, en<br />

annexant un plus grand nombre de neurones. De cette façon, une dynamique difficile à<br />

apprendre (complexe pour le réseau), diffusera plus loin dans le réseau, en créant donc<br />

un apprentissage plus profond dans le système 44 .<br />

Figure 5-11 : Modularisation par l'erreur<br />

La propagation de l’erreur étant proportionnelle à son intensité, au fur et à mesure que le<br />

réseau apprend à anticiper le site de forçage, le module modifié par l’apprentissage voit sa<br />

taille diminuer. De cette façon, lorsque le site de forçage est devenu autonome, des neurones<br />

se retrouvent spécialisés dans l’anticipation du site.<br />

De la même façon, un tel système cherche à apprendre par cœur ce qui est<br />

prédictible dans le signal par la seule connaissance de ce signal. Puis la perturbation<br />

résiduelle diffusera en permanence dans le réseau, entretenue par l’écart entre<br />

l’information perçue et l’information anticipée (Figure 5-11). De cette façon, elle<br />

modifiera les dynamiques de neurones éloignés de la zone de forçage, en permettant<br />

peut-être à ces zones de créer une association avec un autre site de forçage, qui peut<br />

rendre le premier signal anticipable, car les deux forçages peuvent être liés causalement<br />

dans l’environnement : la connaissance de l’un amène une information supplémentaire<br />

pour l’anticipation de l’autre. Il y a mise en commun des perturbations résiduelles pour<br />

maximiser l’anticipation de chacune. De cette façon, il y a annexion automatique du<br />

nombre de neurones nécessaires à la réalisation d’une tâche. En supposant que le<br />

réseau est assez grand pour pouvoir affecter autant de neurones que nécessaire à<br />

l’anticipation d’un forçage, il est envisageable que le réseau puisse s’adapter de façon<br />

autonome à la tâche.<br />

Le même phénomène s’observe sur un plan neurophysiologique : il a été montré<br />

récemment qu’il y a activation des aires primaires visuelles chez les aveugles lisant du<br />

braille [[168]]. Il se crée donc une imagerie mentale de la lecture, suite à l’annexion des<br />

neurones peu stimulés des aires visuelles. La spécialisation neuronale provient alors<br />

d’un autre site de forçage, celui provenant de la sensation tactile.<br />

44 Ce type de comportement est commun à presque tous les modèles connexionnistes classiques, où l’erreur<br />

est rétropagée dans le réseau. Cette constatation n’est donc pas nouvelle, mais ne peut être mise clairement<br />

en évidence que dans de grands réseaux, à voisinage local.<br />

DEUXIEME PARTIE : DEVELOPPEMENT


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Figure 5-12 : Diffusion de la perturbation résiduelle<br />

Dans le cas où la dynamique forçante possède une composante non anticipable par la seule<br />

connaissance de la dynamique, cette composante ‘aléatoire’ diffuse de façon permanente<br />

autour du site de forçage.<br />

Ce type de réseau cherche à obtenir les associations modulaires aussi loin que<br />

nécessaire. Ainsi, si l’on force un tel réseau avec un signal bruité possédant deux<br />

composantes (une déterministe, dont la connaissance partielle du passé permet de<br />

déterminer l’évolution du signal, et une aléatoire, non prédictible quelle que soit la<br />

connaissance de son passé), la composante déterministe peut être anticipé par le<br />

système par la seule observation de son passé. Par contre, la composante aléatoire ne<br />

peut pas être prévue, quelle que soit la connaissance de son passé (par définition), Il<br />

reste donc une portion du signal forçant qui ne peut pas être anticipée par le système, et<br />

qui reste donc perturbatrice (Figure 5-12). Cette perturbation, due à l’imprédictibilité du<br />

bruit additif, provoque une perturbation qui diffuse en permanence dans le réseau.<br />

UN MODELE CONNEXIONNISTE DE LA MEMOIRE 117


118<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Figure 5-13 : Ajout de la composante aléatoire<br />

Dans le cas où un second site est forcé par la même composante aléatoire que le premier, les<br />

perturbations résiduelles diffusent dans une zone commune, qui peut faciliter l’anticipation<br />

des perturbations induites par les deux sites.<br />

Par contre, si un second site de forçage est imposé avec le bruit additif du premier<br />

signal de forçage (Figure 5-13), le système peut anticiper l’évolution du premier. En<br />

effet, les composantes aléatoires des deux sites, étant imprédictibles, induisent dans le<br />

réseau des perturbations résiduelles qui diffusent le plus loin possible dans le réseau. De<br />

cette façon, il devrait apparaître un module commun aux deux zones où diffusent les<br />

perturbations résiduelles. Les deux signaux aléatoires étant égaux, il devrait apparaître<br />

une forme de cohérence entre les perturbations dues aux deux forçages. Cette<br />

cohérence, selon un apprentissage hebbien, peut permettre de renforcer les connexions<br />

entre les deux types de forçage, de telle façon que le bruit du second site de forçage<br />

devient un signal additif pour le premier site. Via des délais à la transmission des<br />

signaux de forçage au réseau, ce phénomène peut être causal, et le premier site peut<br />

suivre sans erreur l’évolution du forçage : l’anticipation peut être totale. Evidemment, le<br />

bruit du second site reste aléatoire, et continuera à être une perturbation pour le réseau<br />

(les deux forçages ne peuvent être mutuellement et simultanément une source<br />

d’information l’un pour l’autre, où alors la causalité du système n’est pas respectée). Il<br />

continuera donc à propager sa perturbation dans le réseau, à la recherche d’autres<br />

associations. Si ce bruit est dû à un phénomène possédant des variables cachées, et<br />

que ces variables sont à la source de dynamiques forçant d’autres sites du réseau, il est<br />

DEUXIEME PARTIE : DEVELOPPEMENT


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

possible que le système réussisse à effectuer les associations suffisantes pour abaisser<br />

le degré aléatoire de ce site.<br />

Ainsi, selon ce principe, le système peut s’adapter de façon auto-organisée à la<br />

complexité d’un signal : les composantes déterministes anticipables, par la seule<br />

connaissance du passé du signal, sont anticipées, et les composantes aléatoires créent<br />

une perturbation résiduelle qui diffuse dans le réseau, le plus loin possible, en fonction<br />

de l’énergie fournie par cette perturbation. Cette diffusion de l’ensemble des<br />

perturbations induites, dues aux composantes aléatoires des signaux de forçage,<br />

peuvent permettre de mettre en évidence des associations qui améliorent l’anticipation<br />

des composantes aléatoires de certains des sites. De cette façon, la perturbation<br />

résiduelle, due à la non-prédictibilité du signal de l’un des sites, diminue, et le module<br />

autour de ce site de forçage peut fonctionnellement se spécialiser à l’anticipation de son<br />

signal de forçage.<br />

Il s’agit bien, dans ce cas, d’un ‘filtre de complexité’.<br />

Ce type d’approche élimine la nécessité d’algorithmes incrémentaux, où l’on ajoute<br />

des neurones au fur et à mesure de l’apprentissage du réseau. Selon l’approche<br />

présentée ici, il y a compétition des populations neuronales afin de recruter le maximum<br />

de neurones pour l’anticipation des perturbations à venir de chacun des sites de forçage.<br />

Comme nous le verrons par la suite, certains apprentissages hebbiens simples<br />

accroissent les perturbations induites par le signal de forçage en fonction de la distance<br />

au site de forçage. Nous avons pu vérifier que, plus un neurone est éloigné du site de<br />

forçage, plus son comportement est dépendant des petites variations du forçage, et donc<br />

plus il est utile à l’anticipation de ces petites variations (Figure 8-6, p.189). Ceci va dans<br />

le sens où les neurones distants ne peuvent créer que de petites variations de la<br />

dynamique d’un site éloigné, et où ces petites variations dépendent causalement<br />

d’autres sites de forçages associés.<br />

Ainsi, dans ce type d’architecture, à voisinage local, et à diffusion de l’erreur dans le<br />

réseau, il y a hiérarchisation fonctionnelle des neurones par rapport à leur distance des<br />

sites de forçage : les neurones proches d’un site encodent l’évolution déterministe simple<br />

(X(t)=f(X(t-1)), et y sont spécifiquement affecté, et les neurones plus éloignés encodent<br />

les variations plus difficilement prédictibles de ce site, en tenant plus compte des sites<br />

de forçage voisins, qui amènent une information supplémentaire pour l’anticipation de la<br />

dynamique du premier site.<br />

3. Pas de phase d’apprentissage<br />

Dans de nombreux algorithmes, le fonctionnement du système est séparable en deux<br />

phases : une phase d’apprentissage où l’on force le système à effectuer la tâche requise,<br />

et une phase d’utilisation où l’on laisse le système réaliser sa tâche. Bien souvent, le<br />

temps d’apprentissage est un facteur influent de la qualité de l’apprentissage réalisé : si<br />

l’apprentissage a duré trop longtemps, le système perd ses capacités de généralisation,<br />

et oublie les données précédemment apprises.<br />

Ceci est une limite pour l’apprentissage dans les modèles connexionnistes, et cette<br />

nécessité de phases d’apprentissage et de généralisation, est peu plausible<br />

UN MODELE CONNEXIONNISTE DE LA MEMOIRE 119


120<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

biologiquement 45 . Selon l’approche proposée, il n’est plus nécessaire de réaliser ces<br />

deux phases. En effet, la perturbation résiduelle est fonction de l’erreur réalisée par le<br />

système, et la diffusion de cette perturbation est fonction de son intensité. Ainsi, plus le<br />

réseau approche de la solution, plus son erreur est faible, et moins le nombre de<br />

neurones qui voient leurs paramètres modifiés est élevé.<br />

Evidemment, le même phénomène peut être observé dans un simple réseau à<br />

rétropropagation du gradient : plus l’erreur est faible au niveau des neurones de sorties,<br />

et moins les modifications dues à l’apprentissage sont rétropropagées dans les couches<br />

précédentes ; et pourtant, il est nécessaire de réaliser une phase d’apprentissage et une<br />

phase de généralisation dans le réseau. Dans le modèle proposé, la mémoire est un<br />

principe actif du système, qui lui permet d’anticiper l’évolution de son environnement : il<br />

est plongé dans le présent, et ne requière donc pas de référence au passé (à la phase<br />

d’apprentissage) pour effectuer sa tâche de reconnaissance : le système proposé ne<br />

nécessite donc pas de phases d’apprentissage et de généralisation distinctes,<br />

contrairement à un réseau multicouches à rétropropagation, qui doit retrouver des<br />

associations entrées-sorties préalablement acquises.<br />

5.3 Principes du modèle connexionniste<br />

5.3.1 Pour le neurone<br />

1. Modèle à différences finies<br />

Après avoir étudié dans un premier temps des réseaux à itérations discrètes, et après<br />

s’être intéressé aux synchronismes du réseau, il s’est avéré difficile de suivre<br />

simplement les dynamiques des réseaux discrets. Celles-ci semblaient souvent trop<br />

désordonnées, et trop peu propices à l’apprentissage de dynamiques lentes et régulières<br />

Nous nous sommes alors orientés vers les réseaux à différences finies. Ceux-ci offrent<br />

le net avantage de posséder des dynamiques plus lisses, dont on peut à loisir modifier la<br />

vitesse, par modification du pas de temps dt. De cette façon, l’analyse des fréquences<br />

principales du réseau devient plus précis : les fréquences principales ne sont plus toutes<br />

réunies sur un petit intervalle de hautes fréquences, comme cela était le cas dans les<br />

réseaux discrets. Il apparaît un plus grand nombre de pics de fréquences qui peuvent<br />

permettre de mieux quantifier les déphasages entre sites voisins.<br />

Autre avantage, il est possible ainsi de réguler ainsi la vitesse de la dynamique de<br />

l’environnement. Nous avons pris pour nos résultats des pas de temps de même<br />

grandeurs pour les itérations de l’environnement, et pour celles du réseau.<br />

Malheureusement, le choix de réseaux à différences finies s’est fait un peu tard, et nous<br />

n’avons pas pu vérifier à nouveau l’ensemble de nos résultats pour ce type de réseau. Il<br />

45 Ceci ne signifie pas que l’apprentissage ne peut pas être réalisé à des degrés divers durant l’évolution de<br />

l’organisme, mais qu’il n’y a pas de superviseur, extérieur à l’organisme, qui fasse varier la force de<br />

l’apprentissage en fonction de la qualité de la réponse du système.<br />

DEUXIEME PARTIE : DEVELOPPEMENT


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

semblerait pourtant que de tels simulations pourraient permettre de meilleures<br />

quantifications des synchronismes de populations neuronales.<br />

L’équation des sorties du neurone suivra donc une équation du type :<br />

x ( t+ dt) = ( - dt) x ( t) + dt. F( X ( t), X ( t),..., X ( t))<br />

i 1 i 1 2<br />

N<br />

2. Modèle à mémoire en entrée et sortie<br />

Dans le but d’étudier les capacités de synchronisme du réseau, nous nous sommes<br />

rapidement intéressés à des modèles de neurones à mémoire. De nombreuses études<br />

confirment en effet l’importance des délais dans les capacités de synchronisme et<br />

d’encodage par les dynamiques de ce type de modèle. De plus, des architectures feedforward<br />

de neurones à mémoire peuvent apprendre des dynamiques complexes, par<br />

exemple, celle d’un système de Lorenz ([207]). Il est remarquable, dans cette étude, que<br />

le réseau, après apprentissage, a mémorisé la topologie générale de l’attracteur. En<br />

effet, si on laisse évoluer ce réseau en régime libre, à partir d’un point de l’attracteur de<br />

Lorenz, la dynamique suivie par le réseau, et celle suivie par les équations, s’écartent,<br />

en vérifiant ainsi, la sensibilité aux conditions initiales du l’attracteur appris par le réseau.<br />

Par contre, en traçant l’attracteur atteint par les dynamiques du réseau, l’attracteur<br />

atteint est similaire à l’attracteur de Lorenz.<br />

Ainsi, ce type de réseau, à mémoire, possède la capacité d’apprendre la structure et la<br />

topologie de l’attracteur d’une dynamique qui lui a été présentée.<br />

Or les architectures feed-forward sont des cas particuliers des architectures à récurrence<br />

locale, que nous utilisons ici. Ce résultat nous permet donc de savoir que nos réseaux<br />

possèdent la capacité d’apprendre la structure d’un attracteur de Lorenz, et qu‘il existe<br />

donc une solution aux apprentissages essayés dans le réseau.<br />

Ce modèle donne donc, pour le calcul de la sortie du neurone :<br />

N M E æ m ö<br />

hi() t = çåwij<br />

xj( t-m) ÷<br />

è<br />

ø<br />

å<br />

j=<br />

1 m=<br />

0<br />

x ( t+ dt= ) ( 1- dt) x () t + dt. s(<br />

h ()) t<br />

i i i<br />

Dans le cas où le neurone n’est pas à différences finies, cette mémoire à été généralisée<br />

au sorties du neurones. En effet, il est possible de voir l’effet de la mémoire en entrée<br />

comme une convolution d’un vecteur Wij avec Xj. Cette convolution peut être généralisée<br />

en sortie, où les Xi sont convolués avec un vecteur Si. Ce qui amène :<br />

M S<br />

å<br />

m<br />

x ( t+ 1)<br />

= S s(<br />

h( t-m)) i i<br />

m=<br />

0<br />

Cette mémoire en sortie peut être interprétée en termes de période réfractaire. Ainsi,<br />

0 MS> m><br />

0 1<br />

dans le cas généralement étudié dans cette thèse, où " , = 1et " , =- , si<br />

la sortie s( ( ))<br />

h t<br />

i<br />

sature à 1 pour t>tS, alors xi(t=tS+1)=1, xi(t=tS+2)=1-1/m... De cette<br />

façon, xi(t>tS) tendra peu à peu vers 0, en évitant la saturation du neurone. Ce<br />

phénomène peut s’apparenter à une fatigue du neurone, correspondant à une période<br />

réfractaire.<br />

i<br />

UN MODELE CONNEXIONNISTE DE LA MEMOIRE 121<br />

iS i<br />

iS i<br />

MS


122<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Comme nous le verrons, cette période réfractaire peut jouer un grand rôle dans les<br />

capacités de synchronisme du réseau, et dans la diffusion des perturbations induites par<br />

le forçage.<br />

3. Sans dynamique chaotique propre<br />

En postulant, au début de cette thèse, que le chaos est le mode de fonctionnement<br />

global du cerveau, et non pas sa fonction ni son rôle, et le chaos étant vu comme un<br />

comportement émergent, nous éliminerons tout chaos pré-implanté à l’échelle neuronale<br />

(2 Modèle à dynamique chaotique propre, p.69). En effet, dans les études réalisées<br />

utilisant ce modèle [[64]][[104]], le chaos est utilisé comme source de perturbation<br />

interne du neurone, pour permettre au réseau de chercher le plus grand nombre<br />

d’associations possibles entre les activités des neurones. Comme nous le verrons par la<br />

suite, les simples modèles hopfieldiens à récurrence locale, permettent d’engendrer des<br />

dynamiques chaotiques en sortie d’un seul neurone. Il n’est donc pas nécessaire d’<br />

implanter un comportement chaotique à l’échelle du neurone, pour en voir émerger un,<br />

qui peut avoir le même rôle que celui proposé : maximiser les chances de voir des<br />

associations réalisées entre neurones.<br />

De plus, aucune démonstration biologique d’un comportement chaotique propre d’un<br />

seul neurone isolé n’a été réalisée.<br />

4. Apprentissage par forçage<br />

Durant la thèse, la théorie du forçage neuronal s’est progressivement imposée<br />

comme principe central du modèle. Au départ, le forçage avait pour but d’améliorer les<br />

apprentissages dérivés de RTRL, par accélération de l’apprentissage et<br />

resynchronisation du signal appris sur le signal forçant. Puis, par l’étude des<br />

phénomènes induits par ce forçage, celui-ci a été progressivement interprété en termes<br />

de perturbation pour le système, ce qui a permis d’interpréter l’apprentissage comme la<br />

recherche d’une maximisation de l’autonomie du système en interaction avec un<br />

environnement dynamique.<br />

Le forçage de dynamique a donc été systématiquement employé lors du couplage du<br />

modèle connexionniste avec son environnement (limité dans la plupart de nos<br />

expérience à un ‘monde’ de sinusoïdes simples !).<br />

Afin d’intégrer ce forçage au modèle neuronal, nous avons donc ajouté en sortie du<br />

neurone, une entrée provenant de l’extérieur, qui remplace la sortie si l’entrée est forcée,<br />

soit :<br />

5. Système déterministe<br />

x () t = I () t si i est forcé<br />

i i<br />

Nous nous sommes limités dans cette thèse à des modèles déterministes, afin de<br />

pouvoir affirmer que les comportements observés ne sont pas le seul fruit du hasard,<br />

mais véritablement la manifestation de comportements émergents du réseau. En effet,<br />

comme certaines des propriétés observées ne l’ont été que dans un seul réseau, il était<br />

souhaitable d’être sûr que cette propriété n’était pas due à la composante aléatoire du<br />

réseau.<br />

DEUXIEME PARTIE : DEVELOPPEMENT


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

5.3.2 Pour l'architecture<br />

5.3.3 Bilan<br />

1. Récurrence locale<br />

Afin d’observer un comportement dynamique libre, à partir de neurones sans<br />

dynamique propre, il est nécessaire que l’architecture soit récurrente, afin de créer des<br />

rétroactions qui les entretiennent. Plusieurs résultats nous encouragèrent à limiter ces<br />

récurrences à un proche voisinage neuronal.<br />

Tout d’abord, la thèse de Bruno Cessac [[32]] montre que les propriétés dynamiques d’un<br />

réseau récurrent sont conservées, même pour de très faibles taux de connections<br />

récurrentes. D’autre part, la majorité des connections synaptiques d’un neurone<br />

biologique sont contenues dans un cube d’un centimètre de coté.<br />

De plus, la notion de récurrence locale permet d’interpréter la transmission d’information<br />

en termes de diffusions dans le réseau, car il existe une notion de distance entre deux<br />

neurones du réseau. Dans un réseau totalement récurrent, tous les neurones sont à une<br />

distance 1 les uns des autres : aucune diffusion n’est observable. Cette architecture offre<br />

donc la possibilité de vérifier le principe de modularisation fonctionnelle autour des sites<br />

de forçage.<br />

Dans plusieurs de nos réseaux, cette diffusion est très visible (Figure 7-21 Figure 7-22<br />

Figure 7-23 p.163).<br />

2. Séquentiel ou parallèle<br />

Il s’est posé le choix du mode d’itération, séquentiel ou parallèle. Dans le cas<br />

séquentiel, à chaque itération, un seul neurone évolue, choisi au hasard, ou appartenant<br />

à une liste pré-établie ; dans le cas parallèle, l’ensemble des neurones du réseau<br />

modifient leur état en même temps.<br />

Bien qu’il existe des résultats montrant que ces deux règles d’itérations n’engendrent pas<br />

le même type de comportement, nous nous sommes limités à l’étude du mode parallèle<br />

pour trois raisons. La première est une simple considération biologique : il n’existe pas<br />

d’évidence biologique d’une désynchronisation des itérations neuronales. La deuxième<br />

tient aux temps de calculs. Comme nous comptions simuler le plus grand nombre<br />

possible de neurones dans un seul réseau, nous avons utilisé l’ordinateur parallèle du<br />

TIMC, qui itère tous ses processeurs en parallèle. Désynchroniser les itérations<br />

neuronales aurait compliquer et ralenti encore les calculs. Et enfin, comme nous nous<br />

intéressions aux dynamiques de populations neuronales, à leurs synchronismes locaux, il<br />

était essentiel de voir les dynamiques évoluer en parallèle.<br />

Ainsi, nous nous sommes restreints à l’étude de dynamiques neuronales à itérations<br />

synchrones.<br />

Le modèle de neurone utilisé, en vue de l’obtention des propriétés présentées dans le<br />

modèle théorique de mémoire, sera donc, dans le cas le plus général, du type de celui présenté<br />

dans la Figure 5-14.<br />

UN MODELE CONNEXIONNISTE DE LA MEMOIRE 123


124<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Figure 5-14 : Modèle général de neurone utilisé<br />

Ce neurone réalise une convolution en entrée, et une en sortie, s’apparentant ainsi à un<br />

modèle dit à mémoire en entrée et sortie. La sortie du neurone est remplacée par la perturbation<br />

extérieure, si elle existe. Ceci donne, en reprenant les équations présentées précédemment :<br />

5.4 Conclusion<br />

N M E æ m ö<br />

hi() t = çåwij<br />

xj( t-m) ÷<br />

è<br />

ø<br />

å<br />

j=<br />

1 m=<br />

0<br />

x ( t+ dt= ) ( 1- dt) x () t + dt. s(<br />

h ()) t<br />

i i i<br />

M S<br />

å<br />

m<br />

x ( t+ 1)<br />

= S s ( h( t-m)) si i n’est pas forcé<br />

i i<br />

m=<br />

0<br />

i<br />

x () t = I () t si i est forcé<br />

i i<br />

Nous avons vu dans le chapitre 2 que le rôle du chaos peut être limité à celui d’un outil<br />

pour le système cérébral, et considéré comme un phénomène émergent 46 . Lors de la perception<br />

d’une entrée inconnue, le cerveau augmente son degré de chaoticité. Nous avons postulé que ce<br />

phénomène était dû au couplage d’un système dynamique non-linéaire à une dynamique forçante.<br />

Pendant la reconnaissance, ce chaos cérébral diminue : quelle peut en être la cause ? Nous<br />

pensons, en assimilant l’information extérieure forçante à une perturbation pour le système, que<br />

celui-ci cherche à minimiser les perturbations induites, et ainsi à maximiser son autonomie, c’est à<br />

dire à rendre prépondérantes ses variables d’états internes sur celles de son environnement<br />

forçant. Pour minimiser ces perturbations induites par l’environnement, il cherche à les anticiper,<br />

ce qui nous fait dire pour résumer que l’on se souvient de ce que l’on peut prévoir.<br />

Cette diminution du chaos cérébral, lors de la reconnaissance, serait donc due au fait que,<br />

lors de la reconnaissance, le système anticipe les dynamiques induites, qui sont en général plus<br />

simples que les dynamiques perturbées du système. Ainsi, par exemple, la dynamique de<br />

couplage qui rend chaotique le système ‘masse+ressort’, présenté précédemment, est une simple<br />

sinusoïde. De plus, comme cela a été proposé, il est probable que l’anticipation d’une dynamique<br />

extérieure soit due aux synchronismes de populations neuronales, qui se sont organisées en vue<br />

de cette anticipation. Nous complétons donc le modèle précédent (Le système percevant est<br />

représenté par les matrices neuronales locallement couplées. La modification des dynamiques<br />

internes de ce système par une dynamique externe peut être de deux types. Le percept n’est pas<br />

reconnu : il y a alors complexification. Le percept est reconnu : il y a alors synchronisation.<br />

DEUXIEME PARTIE : DEVELOPPEMENT


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

L’apprentissage permet de passer du premier cas au second. Dans les deux cas, en enlevant la<br />

dynamique externe (à droite), il y a désynchronisation.<br />

Figure 2-23, p.59), par la Figure 5-15.<br />

Figure 5-15 : Modèle d'apprentissage par anticipation du forçage<br />

La perception d’une dynamique inconnue perturbe le réseau, et complexifie ses dynamiques,<br />

qui se simplifient par apprentissage, en vue de l’antipation de la dynamique forçante. Lors de<br />

la perte du forçage, la sensibilité aux conditions initiales fait que le réseau quitte la<br />

dynamique apprise, ce qui facilite la dépersévération du système. La dimension fractale des<br />

dynamiques du système varie donc avec l’impression du système : non-reconnaissance<br />

(PERTURBATION), reconnaissance (ANTICIPATION), et dépersévération (OUBLI).<br />

Cette figure synthétise le modèle proposé. L’entrée force certaines dynamiques locales du<br />

réseau, ce qui, avant apprentissage, en augmente la dimension fractale. L’apprentissage,<br />

synchronisant ces dynamiques, en vue de l’anticipation du système, fait diminuer la dimension<br />

fractale des attracteurs du réseau, à un niveau qui sera celui atteint lors de la re-présentation de<br />

cette entrée apprise : le système reconnaît cette entrée, et l’anticipe. Lorsqu’on lâche la<br />

dynamique du réseau, en enlevant le forçage extérieur, le réseau désynchronise ses dynamiques,<br />

permettant ainsi une dépersévération, en augmentant la dimension fractale des dynamiques en<br />

régime libre. Les derniers résultats de cette thèse confirment la faisabilité d’un tel modèle (Figure<br />

8-23, p.202).<br />

46 De la même façon, certaines fourmis réalisent des ponts de leurs corps entremélés. Cette structure est<br />

émergente, et possède un rôle d’outil pour les fourmis qui utilisent ce pont. (exemple tiré de [[19]])<br />

UN MODELE CONNEXIONNISTE DE LA MEMOIRE 125


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Afin de permettre l’observation de ces phénomènes, nous avons cherché à nous inspirer<br />

des modèles actuels, en cherchant la description la plus simple possible, biologiquement<br />

plausible. L’architecture est un réseau à récurrence locale, afin de pouvoir facilement visualiser<br />

les phénomènes de diffusion des perturbations induites si elles se produisent. Le neurone est à<br />

mémoire en entrée, car il possède naturellement une dimension temporelle, et à mémoire en<br />

sortie, afin de pouvoir simuler les effets d’une fatigue neuronale.<br />

Ce modèle possède un très grand nombre de paramètres, dont il est difficile de quantifier<br />

les effets précis. Nous avons donc privilégié une approche expérimentale, et développé un outil<br />

informatique sur l’ordinateur parallèle du laboratoire TIMC. Nous avons cherché à obtenir un outil<br />

qui soit le plus simple d’emploi, et qui puisse nous permettre de concevoir, simuler et visualiser le<br />

plus grand nombre de réseaux possibles.<br />

5.5 Bibliographie<br />

[[21]] Paul Bourgine (paul.bourgine@cemagref.fr). Viability and pleasure satisfaction principle of<br />

autonomous systems. Imagina 93 proc. (1993)<br />

[[22]] Paul bourgine (paul.bourgine@cemagref.fr), Francisco J. Varela. Towards a practice of<br />

autonomous systems. Toward a practice of autonomous systems. F.Varela & P.Bourgine eds. MIT<br />

Press. Bradford books, 1992, p3-10. (1992)<br />

[[23]] Paul bourgine (paul.bourgine@cemagref.fr). Modèles d’agents autonomes et de leurs interactions<br />

coévolutives. Penser l’esprit. V.Rialle & D. Fisette eds. PUG. (1996)<br />

[[37]] J.P. Changeux. L’homme neuronal. Collection Pluriel. Fayard.(1983)<br />

[[41]] François Chapeau-Blondeau, Gilbert Chauvet. Dynamic properties of a biologically motivated<br />

neural network model. International Journal of Neural Systems. Vol. 3. no. 4. pp 371-378. (1992)<br />

[[59]] J. Demongeot. Neural networks : from formal neuro-computing to real neuromodelling.<br />

[[95]] Frank. C. Hoppensteadt, Eugne M. Izhikevich. Synaptic organizations and dynamical properties of<br />

weakly connected neural oscillators. A paraitre dans Biological Cybernetics.<br />

[[122]] David A. Leopold, Nikos K. Logothetis. Activity changes in early visual cortex reflect<br />

monkeys’percepts during binocular rivalry. Nature. Vol. 379. February. p. 549-553. (1996)<br />

[[150]] A. Pelah, H.B Barlow. Visual illusion from running. Nature. Vol 381. may 1996, p.283. (1996)<br />

[[154]] C. Perky. An experimental study of imagination. Amer. J. Psychol. 21. p.422-452. (1910)<br />

[[155]] Rolf Pfeifer (pfeifer@ifi.unizh.ch),, christian Scheier. From perception to action : the right<br />

direction ? PerAc '94 conference. IEEE. (1994)<br />

[[165]] L. Rodet, G. Tiberghien. Towards a dynamic model of associative semantic memory.Journal of<br />

biological systems. Vol. 2. No. 3. p401-441. (1994)<br />

[[168]] Norihiro Sadato, Alvaro Pascual Leone, Jordan Grafman, Vicente Ibanez, Marie-Pierre Delber,<br />

Geaorge Dold, Mark Hellett. Activation of the primary visual cortex by Braille reading in blind<br />

subjects. Nature. Vol. 380. (1996).<br />

[[205]] F.J. Varela. Autonomie et connaissance. La couleur des idées.Collection Seuil.Edition 1989.<br />

[[212]] Michael Wellky. William H. Bosking. David Fitzpatrick. A systematic map of direction preference<br />

in primary visual cortex. Nature. Vol. 379. p725-728. (1996)<br />

[[219]] Michael Zak. Terminal attractors in neural networks. Neural Networks. Vol.2. p259-274.(1989)<br />

126<br />

DEUXIEME PARTIE : DEVELOPPEMENT


128<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

6. DEVELOPPEMENT INFORMATIQUE DU MODELE<br />

6.1 Introduction<br />

DPU fault(s) @ ACU pc 0x18860:<br />

FINVOP(1 or more pe's tried invalid IEEE operand)<br />

ID Routine name LINE SIDE<br />

TROISIEME PARTIE : RESULTATS<br />

FE PC | ACU PC<br />

0 {_$$_MP_cfft42p1d} :??? ACU 0x0000000 | 0x018860<br />

1 {_$$cfftp1d} :??? ACU 0x0000000 | 0x016944<br />

2 calcul_fft :38 ACU 0x0000000 | 0x0097f4<br />

No MPPEs registered. Try again? (Y/N)[N]: n<br />

DEC-MPP12000. Mémoires.<br />

La complexité du modèle proposé demande, si l’on souhaite le tester avec un grand<br />

nombre de neurones, une grande puissance de calcul, associée à une ergonomie simplifiant la<br />

simulation et l’analyse de ce type de réseau.<br />

La puissance de calcul requise a été obtenue grâce à l’ordinateur parallèle du TIMC, le<br />

DEC-MPP 12000. Cet ordinateur, constitué de 8192 processeurs en parallèle, possède toutes les<br />

qualités requises à la simulation des réseaux présentés précédemment. Son architecture est<br />

SIMD, et permet donc de simuler de façon synchrone un grand nombre de neurones (jusqu’à<br />

262144 dans notre cas). Cet ordinateur possède d’autre part une connectivité physique locale de<br />

chaque processeur avec ses huit voisins les plus proches, ce qui facilite la définition de voisinage<br />

local dans les réseaux de neurones développés.<br />

Ainsi, une telle configuration matérielle est typiquement dédiée à la simulation de grands<br />

réseaux de neurones, à voisinage local, à évolution synchrone. Afin de faciliter l’évolution de tels<br />

réseaux, il s’est avéré nécessaire de développer un outil logiciel complet, autorisant la<br />

construction, l’étude, et la modification de ces réseaux. C’est ce logiciel qui, en grande part, fut à<br />

l’origine du modèle théorique proposé. En effet, parfois, l’observation de certains comportements<br />

dans les réseaux a mis en évidence plusieurs propriétés (diffusion, modularisation,<br />

synchronisation).<br />

De plus, l’étude de la dynamique des réseaux récurrents en est encore aujourd’hui à ses<br />

débuts, et, devant le nombre de réseaux de ce type envisageables, il était nécessaire de pouvoir<br />

simuler le plus grand nombre de réseaux de ce type. Ceci ajoute encore à la nécessité de<br />

développer un logiciel unique pour l’ensemble de ces modèles.


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

6.2 L'ordinateur Parallèle DEC-MPP12000<br />

Cet ordinateur est SIMD (Single<br />

Instruction Multiple Data), ce qui signifie que<br />

l’ensemble des 8192 processeurs (PEs)<br />

effectuent la même opération (single<br />

Instruction) sur différentes données (multiple<br />

data). Dans ce but, chaque processeur<br />

possède une mémoire locale (16Ko). Ces<br />

8192 processeurs sont répartis sur une grille<br />

torique de 128 par 64 processeurs. Afin que<br />

les processeurs communiquent entre eux,<br />

chacun est relié à ses huit voisins, et peut<br />

donc échanger avec eux des données en une<br />

seule étape de calcul. Dès que des<br />

processeurs distants doivent communiquer, il<br />

est nécessaire de faire circuler en plusieurs<br />

pas de calcul l’information d’un processeur<br />

voisin à l’autre 47 .<br />

Cet ordinateur est relié à un ‘Front-<br />

End’ (dans notre cas, une station Dec5000),<br />

Figure 6-1 : DEC-MPP 12000<br />

qui se charge de lancer les ordres d’exécution de routines à l’ordinateur parallèle. Cette méthode<br />

permet d’éviter de concentrer toutes les routines sur le DEC-MPP12000, en déchargeant toutes<br />

les tâches annexes du programme au ‘Front-End’. Ceci autorise le développement d’une interface<br />

graphique aidant à la construction, à la modification et à la visualisation du réseau : le ‘Front-End<br />

se charge de gérer tous les événements de l’interface, et à modifier instantanément l’ensemble<br />

des paramètres du réseau sur l’ordinateur parallèle.<br />

6.3 Le logiciel de modélisation<br />

Ce logiciel est séparé en deux groupes, l’un est consacré à la construction et à la<br />

modification des paramètres du réseau. L’autre est destiné à visualiser l’état du réseau et des<br />

mesures qui y sont faites, en temps réel<br />

6.3.1 Fenêtres initiales au lancement<br />

Au lancement du programme, les deux fenêtres, de construction et de visualisation,<br />

apparaissent (Figure 6-2, p.130). La première est consacrée à la configuration de la totalité des<br />

paramètres du réseau. Le bouton ENTRËES permet de configurer les entrées qui seront imposées<br />

au réseau. Le bouton RESEAU ouvre la fenêtre de configuration des paramètres du réseau (taille,<br />

distance du voisinage, géométrie...). NEURONE configure le modèle de neurone choisi, c’est à<br />

dire la fonction définissant la mémoire du neurone, en entrée et en sortie, et la fonction neurone.<br />

47 Il existe en plus un routeur extérieur qui permet de transmettre une donnée entre deux processeurs<br />

quelconques en deux étapes. Mais ces communications, n’étant pas nécessaires pour notre problème, n’ont<br />

pas été utilisées.<br />

UN MODELE CONNEXIONNISTE DE LA MEMOIRE 129


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

HISTO recense l’ensemble des actions réalisées par l’utilisateur, ce qui permet, après utilisation,<br />

de savoir comment le résultat observé a été obtenu. QUITTER offre le choix de sortir ou non de<br />

l’application.<br />

Dans la deuxième fenêtre, l’utilisateur peut lancer ou arrêter le réseau, et ouvrir les<br />

fenêtres visualisant les états du réseau (sortie, activité, attracteurs, bifurcations, fft...)<br />

6.3.2 Construction du réseau<br />

130<br />

TROISIEME PARTIE : RESULTATS<br />

Figure 6-2 : Fenêtres initiales<br />

Cette partie décrit plus précisément le rôle de chaque fenêtre ouverte par la barre de<br />

construction du réseau (première fenêtre de la Figure 6-2).<br />

1. Architecture<br />

Plusieurs paramètres configurent l’architecture du réseau. Les ENTREES définissent<br />

quels neurones sont forçants, et quelles dynamiques ils imposent au réseau. Le<br />

RESEAU est défini par le nombre de neurones qui le compose, leur voisinage, et la<br />

topologie de la matrice de neurones. Le NEURONE est quant à lui défini par les<br />

fonctions de transfert en entrée et en sortie, par la fonction neurone, et par l’ensemble<br />

des paramètres de ces fonctions, qui dépendent de chaque neurone, voire de chaque<br />

synapse.<br />

a.Entrées du réseau<br />

Ce sont les entrées forçantes du réseau, c’est à dire les dynamiques qui<br />

remplacent la sortie de certains neurones. Ces entrées peuvent être définies soit de<br />

façon globale, soit de façon individuelle. Dans le cas global, des zones entières du<br />

réseau sont forcées, grâce à une image qui est présentée au réseau. Pour définir une<br />

dynamique, il est donc nécessaire de présenter au réseau une succession d’images, à


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

la manière d’un film. Dans le cas individuel, une fonction est accrochée à un neurone<br />

du réseau, qui en force la sortie.<br />

Ces deux cas ont été<br />

implantés dans l’outil logiciel.<br />

La Figure 6-3 montre la liste<br />

des images qui sont<br />

successivement présentées au<br />

réseau, avec les boutons de<br />

gestion de cette liste (ajout<br />

d’une image, abandon d’une<br />

image...). S’ajoute aussi la<br />

possibilité de choisir une<br />

version algorithmique, qui<br />

correspond à la notion de<br />

forçage individuel, présenté<br />

précédemment. Dans ce cas<br />

l’utilisateur doit choisir<br />

l’algorithme qui sera utilisé<br />

pour forcer chaque neurone.<br />

b.Taille et voisinage<br />

Figure 6-3 : Entrées du réseau<br />

Figure 6-4 : Architecture du réseau<br />

Cette fenêtre permet de définir l’architecture globale du réseau. L’utilisateur choisit<br />

ici le nombre de neurones, la taille du voisinage de chaque neurone, la frontière et la<br />

géométrie du réseau. Ces derniers paramètres définissent si le réseau est torique<br />

(chaque neurone de la frontière est relié à son voisin de la frontière opposée), ou<br />

plan. Si le réseau est plan, les neurones de la frontière possèdent certaines synapses<br />

UN MODELE CONNEXIONNISTE DE LA MEMOIRE 131


132<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

sans information afférente. Dans ce cas, l’utilisateur peut forcer ces synapses à 1, à<br />

0, ou à une valeur aléatoire.<br />

2. Modèle neuronal<br />

Figure 6-5 : Choix du modèle neuronal<br />

Après avoir configuré les paramètres du réseau, l’utilisateur peut modifier le modèle<br />

neuronal utilisé. Il a accès aux trois fonctions du modèle (Entrée, Fonction neurone,<br />

Sortie), et au mode de forçage neuronal (Figure 6-5). Ce forçage peut être situé en<br />

entrée, avant ou après la fonction de sortie. Ce forçage est-il déterministe (suit la<br />

fonction de forçage), ou aléatoire (suit une variable aléatoire). Est-il total (tous les<br />

neurones sont forcés) ou partiel, additif (le forçage s’ajoute à la variable forcée) ou non<br />

(forçage réel) ?<br />

C’est à partir de cette fenêtre que sont ouvertes les fenêtres de modification et de<br />

visualisation des fonctions neuronales H, S et s.<br />

Le principe retenu est le même pour chacune de ces fonctions : l’utilisateur choisit une<br />

fonction, définie à l’avance. Cette fonction est définie par des paramètres qui pourront<br />

être modifiés ensuite soit par l’utilisateur (3 Paramétrisation en temps réel, p.134), soit<br />

par apprentissage. Lors de l’apprentissage, la modification de l’un de ces paramètres<br />

peut déformer la fonction associée. Cette modification des paramètres du réseau est<br />

instantanément répercutée à l’affichage : l’utilisateur peut voir en temps réel l’évolution<br />

des fonctions de n’importe quel neurone ou synapse du réseau.<br />

a.Fonctions H et S<br />

Ces fonctions représentent la mémoire du neurone. H est la fonction du neurone<br />

en entrée, c’est à dire le vecteur W des poids synaptiques en fonction du retard (2<br />

Modèle à mémoire en entrée et sortie, p.121).<br />

Ces deux fenêtres possèdent deux objectifs : elles visualisent la fonction du<br />

neurone ou de la synapse choisie, et permettent donc de voir en temps réel<br />

l’évolution des poids synaptiques durant l’apprentissage. Et en superposition sont<br />

affichés les vecteurs d’entrée ou de sortie, qui seront convolués avec les vecteurs<br />

des fonctions neuronales respectives. Pour changer de modèle, il suffit de cliquer sur<br />

TROISIEME PARTIE : RESULTATS


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

le bouton en bas de la fenêtre. Ceci fait défiler l’ensemble des modèles différents qui<br />

ont été implémentés. Cette modification est immédiatement répercutée sur l’interface<br />

(affichage des nouveaux paramètres associés à ces fonctions).<br />

Figure 6-6 : Modification des fonctions H et S<br />

Ainsi, l’utilisateur peut, en conservant les autres paramètres du réseau, passer<br />

d’un modèle à délai, à un modèle à mémoire, ou à atténuation, d’une fonction<br />

neurone tangente hyperbolique à une sigmoïde.<br />

b.Fonction neurone s<br />

Figure 6-7 : Modification de la fonction neurone<br />

La fonction neurone est visualisée sur une troisième fenêtre, qui trace l’évolution<br />

de cette fonction au cours de l’apprentissage. Dès qu’un paramètre de cette fonction<br />

est modifié, par apprentissage ou par l’utilisateur, cette courbe est retracée.<br />

Ceci permet de visualiser en temps réel, l’effet d’une augmentation du seuil ou de<br />

la raideur, par exemple.<br />

UN MODELE CONNEXIONNISTE DE LA MEMOIRE 133


134<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

3. Paramétrisation en temps réel<br />

Figure 6-8 : Accès aux paramètres du neurone<br />

La fenêtre Paramètres (à droite sur la Figure 6-8), liste l’ensemble des paramètres du<br />

modèle de neurone choisi. Ainsi, par exemple, si l’utilisateur utilise pour le vecteur poids<br />

W, le kernel ()66:<br />

m<br />

wij m<br />

ij ij<br />

= ( 1-m ) m ,<br />

seul le paramètre m ij sera listé et représenté dans la liste des paramètres de la fonction<br />

H. Ce principe permet de tester différents modèles généraux, et l’influence de chacun de<br />

leurs paramètres. D’autre part, ceci économise de la mémoire, moyennant un temps de<br />

calcul plus long, lorsqu’un seul processeur simule plusieurs neurones : la mémoire est<br />

allouée pour un seul vecteur W par processeur, et celui est recalculé pour chaque<br />

neurone. Seuls les paramètres sont mémorisés.<br />

En sélectionnant l’un de ces paramètres dans la liste, l’utilisateur a accès à la fenêtre de<br />

modification de ce paramètre. Il peut choisir la valeur minimale et maximale de celui-ci,<br />

sa valeur pour la synapse sélectionnée. A chaque paramètre sont accrochées deux<br />

fonctions. La première est la fonction d’initialisation, qui fixe la valeur initiale du<br />

paramètre : ceci automatise le procédé d’initialisation, en évitant de devoir rentrer<br />

chaque paramètre à la main. Cette fonction détermine, à partir des coordonnées du<br />

neurone et de la synapse, la valeur du paramètre. La deuxième fonction est la fonction<br />

d’apprentissage, qui, à chaque itération, modifie la valeur des paramètres de chaque<br />

neurone et de chaque synapse. Cette fonction peut être elle-même paramétrée. De cette<br />

façon, il est possible de tester successivement plusieurs règles d’apprentissage sur une<br />

même architecture neuronale.<br />

TROISIEME PARTIE : RESULTATS


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

De plus, afin de faciliter les capacités d’évolution du programme, un macro-langage a<br />

été développé, qui permet de décrire de nouvelles fonctions d’initialisation et<br />

d’apprentissage. Il suffit que l’utilisateur décrive sa fonction dans certaines parties du<br />

programme, pour que ces nouvelles fonctions soient intégrées à l’interface, et<br />

deviennent fonctionnelles.<br />

6.3.3 Analyse du réseau<br />

La deuxième fenêtre de la Figure 6-2 donne l’accès à la gestion des outils de<br />

visualisation de l’évolution du réseau simulé. Grâce à celle-ci, l’utilisateur peut ouvrir de nouvelles<br />

fenêtres qui visualisent différentes mesures sur le réseau : sorties, fft, attracteurs...<br />

1. Sorties du réseau<br />

La fenêtre principale de cette analyse visualise les sorties du réseau, en rouge pour<br />

les sorties à +1 et en bleu pour les sorties à -1. Parfois, pour des dynamiques très lentes,<br />

cette représentation n’est pas suffisante, car les couleurs varient peu. Pour palier cette<br />

insuffisance, nous avons ajouté une fenêtre de visualisation de l’activité du réseau.<br />

Celle-ci affiche selon les mêmes couleurs, la moyenne temporelle de la variation des<br />

sorties, renormalisée par l’activité maximale du réseau. Ainsi, pour des sorties xi(t), on<br />

affiche :<br />

A¢<br />

i()<br />

t<br />

Ai()<br />

t =<br />

max ()<br />

( A¢<br />

t )<br />

i i<br />

xi( t) -xi( t-m) avec A¢<br />

i()<br />

t =<br />

m<br />

Figure 6-9 : Affichage des sorties<br />

De cette façon, même de faibles variations des xi(t) sont visualisées. De cette façon, il<br />

est possible de voir l’évolution des zones de plus grande variation des sorties (à droite<br />

de la Figure 6-9). D’autres fenêtres d’ana-lyse sont accessibles. Selon le même principe,<br />

l’utilisateur peut afficher la fréquence maximale de la transformée de Fourier de la<br />

dynamique de chaque neurone, la puissance ou la phase pour la fréquence de son choix.<br />

Ces outils seront utilisés dans les analyses du prochain chapitre.<br />

UN MODELE CONNEXIONNISTE DE LA MEMOIRE 135


136<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

2. Analyse fréquentielle du réseau<br />

Ces fenêtres sont accessibles par la deuxième fenêtre de la Figure 6-2, et visualisent<br />

quelques résultats portants sur la transformée de Fourier de la dynamique individuelle de<br />

chaque neurone. Il est ainsi possible de tracer la matrice des fréquences d’intensité<br />

maximale, c’est à dire la fréquence principale de chaque neurone, la matrice des<br />

isofréquences, qui donne la puissance d’une fréquence donnée pour chaque neurone<br />

(Figure 7-3, p.147), et la matrice des isophases, qui donne la phase pour une fréquence<br />

donnée (Figure 6-10).<br />

Figure 6-10 : Isofréquence et phase du réseau<br />

Cette fenêtre affiche en plus le résultat des calculs dans la partie du bas, c’est à dire<br />

la phase ou l’intensité en fonction de la fréquence. En cliquant sur la fréquence choisie<br />

dans cette fenêtre, la matrice correspondante est affichée. Cela permet de chercher<br />

rapidement les clusters fréquentiels pour l’ensemble des fréquences. Le même principe<br />

s’applique aux phases. De même, en sélectionnant un neurone dans la fenêtre du haut,<br />

la phase ou la puissance de la transformée de Fourier de ce neurone est affichée en bas.<br />

Ceci permet de vérifier la sélectivité fréquentielle d’un groupe de neurone. Il suffit en<br />

effet de choisir un neurone du groupe, d’en tracer la transformée de Fourier, de choisir<br />

sa fréquence principale, et d’en tracer la matrice des isofréquences. Un cluster localisé<br />

autour de cette fréquence peut alors être mis en évidence (fenêtre de gauche de la<br />

Figure 6-10).<br />

3. Suivi d’un attracteur<br />

Lorsqu’une zone d’activité a été isolée, l’utilisateur peut mettre une sonde sur le<br />

neurone de son choix, qui enregistre l’activité moyenne autour de la sonde. Cette<br />

méthode permet de simuler l’enregistrement d’activité neuronale biologique, qui<br />

moyenne l’activité de plusieurs neurones adjacents.<br />

TROISIEME PARTIE : RESULTATS


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

L’enregistrement de cette mesure peut<br />

alors être représentée sous la forme d’un<br />

attracteur, représenté par la méthode des<br />

délais. La fenêtre de la Figure 6-11 est celle<br />

de la gestion de ces sondes, qui visualise<br />

l’attracteur atteint pour la sonde<br />

sélectionnée, et permet de changer de<br />

sonde, d’en ajouter ou d’en détruire. Pour<br />

ajouter une sonde, il suffit d’aller<br />

sélectionner le neurone voulu sur l’une des<br />

fenêtres affichant l’état du réseau<br />

(sortie,fft,activité...). De plus, l’utilisateur<br />

peut zoomer sur la fenêtre de visualisation<br />

de l’attracteur. Il suffit de définir le<br />

rectangle de la partir que l’on souhaite<br />

agrandir. Ceci permet de vérifier de visu<br />

l’existence de trajectoires proches qui<br />

finissent par diverger, en confirmant ainsi la<br />

présence d’attracteurs étranges (Figure 7-<br />

15, p.159).<br />

4. Cartes de bifurcation<br />

Figure 6-11 : Tracé d'un attracteur<br />

Dans le cas où les<br />

paramètres du réseau varient,<br />

l’attracteur peut être modifié.<br />

Dans ce cas, la fenêtre<br />

précédente affiche la<br />

superposition des attracteurs<br />

atteints (Figure 6-12). Par<br />

contre, il y a distinction des<br />

phases où l’un des paramètres a<br />

changé. Ceci permet de tracer a<br />

posteriori l’attracteur atteint pour<br />

une seule valeur du paramètre<br />

choisi. Ainsi, il suffit de<br />

sélectionner la valeur de ce<br />

paramètre dans la carte de<br />

bifurcation de la Figure 6-13,<br />

pour que s’affiche dans la<br />

fenêtre de visualisation<br />

l’attracteur correspondant à cette<br />

Figure 6-12 : Succession des attracteurs<br />

valeur du paramètre. C’est de cette façon qu’ont été tracés les attracteurs de la Figure 7-<br />

35, qui montrent leur modification d’après la carte de bifurcation du gain de la fonction<br />

neurone (Figure 7-34, p.175). Par la première fenêtre (Figure 6-13), l’utilisateur peut<br />

modifier les paramètres de la sonde : les facteurs de zoom, les retards pour le<br />

plongement de l’attracteur, et la distance à laquelle est réalisé le voisinage. L’utilisateur y<br />

UN MODELE CONNEXIONNISTE DE LA MEMOIRE 137


138<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

définit aussi le fichier de données et le fichier image, pour la sauvegarde des valeurs de<br />

la série, et de l’image de l’attracteur.<br />

Sur la deuxième fenêtre,<br />

l’utilisateur choisit l’ensemble des<br />

paramètres en vue du tracé de la<br />

carte de bifurcation. Il peut choisir<br />

le paramètre bifurquant, son<br />

intervalle de variation, le nombre<br />

de pas d’itérations pour la<br />

stabilisation et l’enregistrement de<br />

l’attracteur. Dans certains cas, il<br />

est possible de choisir le neurone<br />

et la synapse dont le paramètre<br />

doit varier. Lorsque ces<br />

paramètres ont été choisis, le<br />

lancement du calcul de la carte<br />

de bifurcation se fait automatique<br />

: le programme lance les étapes<br />

Figure 6-13 : Suivi des bifurcations<br />

de stabilisation, puis enregistre<br />

l’attracteur pendant la phase de calcul, modifie la valeur du ou des paramètres choisis,<br />

puis réitère ces opérations jusqu’au tracé complet de la carte de bifurcation. Après cette<br />

phase, l’utilisateur a accès à l’ensemble des attracteurs qui ont été obtenus. Si plusieurs<br />

cartes de bifurcations ont été tracées, il suffit de choisir la sonde désirée pour en tracer<br />

la carte de bifurcation correspondante.<br />

TROISIEME PARTIE : RESULTATS


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

5. Mesures sur un neurone<br />

Pour chaque sonde, l’utilisateur a<br />

accès à plusieurs affichages et<br />

résultats : visualisation de la série<br />

temporelle, de sa transformée de<br />

Fourier, et son histogramme. Dans le<br />

cas où la série temporelle résulte d’un<br />

calcul de bifurcation, la simple<br />

sélection d’une portion de l’évolution<br />

de la série trace la fft et l’histogramme<br />

correspondants.<br />

Comme on peut le voir, l’outil a été<br />

pensé pour que, de chaque fenêtre de<br />

résultat, l’utilisateur ait la possibilité de<br />

tracer tous les résultats des calculs<br />

correspondants. La sélection d’un<br />

neurone dans la fenêtre des sorties<br />

affiche tous les paramètres<br />

correspondant à ce neurone, ses<br />

sorties, et ses entrées. Si ce neurone<br />

est une sonde, l’attracteur<br />

correspondant est tracé. Dans le cas<br />

Figure 6-14 : Mesures d'une sonde<br />

où cet attracteur résulte de la<br />

superposition de plusieurs, il suffit de sélectionner la valeur du paramètre voulu sur la<br />

carte de bifurcation, pour afficher l’attracteur correspondant, sa fft, et son histogramme.<br />

De cette façon, il est possible de voir l’ensemble des résultats portant sur chacun des<br />

neurones du réseau.<br />

6.4 Conclusion<br />

L’outil logiciel développé a totalement rempli son rôle : son ergonomie, et sa puissance de<br />

calcul ont permis de simuler un très grand nombre de réseaux, parfois complexes et de très<br />

grande taille, et d’en analyser les principales propriétés. C’est grâce au grand nombre de fenêtres<br />

de visualisation des mesures sur les sorties du réseau, et à leur interdépendance, qu’ont pu être<br />

mis en évidence les propriétés de diffusion, de modularisation, de clustering fréquentiel, et de<br />

mise en phase des populations neuronales, qui sont à l’origine du modèle théorique de mémoire<br />

proposé auparavant. Certains calculs manquent, en particulier ceux portant sur les dimensions<br />

fractales. Mais l’ensemble des algorithmes testés se sont avérés inefficaces, certains donnant<br />

même des résultats incohérents (diminution de la dimension fractale en augmentant la dimension<br />

de plongement). Dans le cadre actuel de cette thèse, qui se limite à une approche qualitative,<br />

délimitant quelques architectures répondant aux besoins imposés par le modèle théorique, cette<br />

lacune peut être considérée comme secondaire dans un premier temps. Mais nous espérons<br />

néanmoins pouvoir la combler dès qu’une méthode de calcul fiable de ces dimensions aura été<br />

UN MODELE CONNEXIONNISTE DE LA MEMOIRE 139


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

trouvée. En plus de cette amélioration, nous espérons pouvoir porter 48 ce logiciel sur de nouvelles<br />

architectures, afin de pouvoir faire profiter de ce travail à d’autres laboratoires.<br />

48 Le portage sur PC sous Linux, et sur Station Alpha est en cours.<br />

140<br />

TROISIEME PARTIE : RESULTATS


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

UN MODELE CONNEXIONNISTE DE LA MEMOIRE 141


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

7. DYNAMIQUES OBSERVEES ET EXPERIMENTEES<br />

7.1 Introduction<br />

Il n’est de désir plus naturel que le désir de connaissance. Nous<br />

essayons tous les moyens qui nous y peuvent mener. Quand la raison<br />

nous faut, nous y employons l’expérience, qui est un moyen plus faible et<br />

moins digne; mais la vérité est si grande, que nous ne devons dédaigner<br />

aucune entremise qui nous y conduise.<br />

Montaigne. Les essais.<br />

Le modèle présenté (Un modèle connexionniste de la mémoire, p.95) a été réalisé dans un<br />

but de simplification maximale des architectures neuronale, mais de telle sorte qu’il reste<br />

biologiquement plausible, c’est à dire non contradictoire avec les connaissances<br />

neurophysiologiques actuelles. Comme cela a été explicité en début de thèse, le but n’était pas<br />

d’obtenir un équivalent biologique, mais un modèle bas niveau, biologiquement plausible,<br />

possédant des propriétés communes avec la mémoire humaine, évoluant dans un simple ‘monde<br />

systémique’.<br />

Malheureusement, il reste encore dans ce modèle de trop nombreux paramètres, dont on<br />

ne connaît pas encore l’influence exacte sur les dynamiques du réseau, malgré les études portant<br />

sur le caractère bifurquant de nombreux paramètres (poids synaptiques, pas de discrétisation<br />

temporelle, raideur des fonctions neurones... ). Il semblerait d’ailleurs qu’une infime variation de<br />

certains de ces paramètres puisse modifier totalement le comportement du réseau. Il suffit pour<br />

s’en convaincre de voir la nature irrégulière de la variation de l’exposant maximal de Lyapunov en<br />

fonction d’un seul paramètre (7.2.4 Réseau Hopfieldien à différences finies, p.167). Ce type de<br />

comportement est une limite pour la quantification exacte du rôle de chaque paramètre sur les<br />

dynamiques du système. Et autre obstacle, les outils mathématiques disponibles ne sont pas<br />

suffisants pour permettre une approche théorique du comportement individuel de ces modèles 49 .<br />

Nous avons donc rapidement fait le choix de nous limiter à l’observation de<br />

comportements grâce à une approche principalement expérimentale, aidée par le logiciel<br />

développé. Ainsi, contrairement à ce que l’organisation de cette thèse laisse paraître, ce sont les<br />

49 cette limite s’applique moins à l’étude statistique des comportements de ces modèles pour des valeurs<br />

limites des paramètres. Mais, dans le cadre de cette thèse, nous cherchions à observer la richesse des<br />

dynamiques individuelles, et nous ne pouvions donc pas nous limiter à l’obtention de propriétés statistiques,<br />

même si celles-ci furent très utiles pour l’orientation initiale du choix du modèle.<br />

DYNAMIQUES OBSERVEES ET EXPERIMENTEES 143


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

réseaux qui furent à l’origine du modèle de mémoire. En effet, c’est en pratiquant ces réseaux que<br />

nous avons pu mettre en évidence certaines de leurs caractéristiques, qui furent synthétisées pour<br />

essayer de concevoir un modèle de mémoire biologiquement plausible. Il fut très intéressant,<br />

durant cette phase d’observation des dynamiques, de noter que certains de ces comportements<br />

pouvaient être interprétés à la lumière des théories actuelles de la mémoire, débouchant ainsi sur<br />

la proposition d’un modèle théorique de mémoire anticipatrice des perturbations induites par le<br />

forçage, qui possède des propriétés biologiquement justifiables.<br />

Nous avons orienté l’étude en partant de modèles très simples, de type Hopfieldien à<br />

matrice de connexions isotrope, vers des modèles plus complexes, à différence finie et contenant<br />

une fonction de transfert en entrée et en sortie. A chaque fois, nous avons tenté de repérer les<br />

dynamiques représentatives de ces modèles, et de déterminer le rôle qualitatif de chaque<br />

paramètre sur ces dynamiques. L’ensemble des résultats observés ne peut pas être décrit dans<br />

cette thèse, car plusieurs centaines de réseaux ont été simulées. Nous avons donc tenté de trier<br />

les plus représentatifs, en privilégiant ceux qui orientèrent le modèle de mémoire. A chaque fois<br />

qu’un phénomène a été observé, nous avons tenté de simplifier le modèle de réseau jusqu’à<br />

disparition de l’effet observé, en tentant ainsi d’obtenir le modèle le plus simple possible vérifiant<br />

ce comportement. Aucune loi précise et transposable n’a pu être obtenue par cette méthode, et<br />

c’est certainement l’une des limites de cette thèse. Mais la souplesse de l’outil informatique<br />

développé, associée à la puissance de l’ordinateur parallèle, nous a permis d’observer les réseaux<br />

sans négliger trop certaines zones de l’espace des paramètres du réseau. Ainsi, sans être<br />

exhaustive, la liste des comportements présentés dans ce chapitre est représentative de ceux<br />

observables dans nos modèles. Il faudra donc voir les résultats qui suivent comme une approche<br />

préliminaire du problème, en espérant pouvoir passer à une phase plus quantitative que<br />

qualitative, et peut-être ainsi dégager une loi d’apprentissage fiable pour nos réseaux, qui soit<br />

cohérente avec le modèle proposé, ce que nous n’avons pas pu réaliser.<br />

Ce chapitre retrace l’évolution de cette étude, en mettant en évidence les comportements<br />

des réseaux qui orientèrent notre modèle. A chaque fois que cela fut possible, nous avons essayé<br />

de limiter le nombre de réseaux présentés dans ce chapitre, afin de familiariser le lecteur avec<br />

chacun d’entre eux, et de limiter la diversification abusive des résultats et des modèles exposés.<br />

7.2 Dynamique des modèles à paramètres figés<br />

Dans la totalité des résultats présentés ci après, les conditions initiales du réseau et ses<br />

paramètres ont été choisis aléatoirement, puis gelés pendant l’évolution du réseau. Parfois, afin<br />

de voir plus clairement les résultats énoncés, il a été nécessaire de modifier certains paramètres<br />

du réseau ‘à la main’ avant d’obtenir des dynamiques intéressantes, mais ce fut rare. En effet,<br />

devant la taille des réseaux étudiés (jusqu’à 262144 neurones), il était surprenant de ne pas<br />

trouver dans chaque réseau quelques neurones aux propriétés intéressantes.<br />

7.2.1 Réseaux simples : Modèles récurrents sans mémoire<br />

144<br />

1. Matrice de connexion aléatoire<br />

Les premières études réalisées portent sur de simples réseaux récurrents, à<br />

voisinage local, avec une connectivité aléatoire, possédant des connexions excitatrices<br />

TROISIEME PARTIE : RESULTATS


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

et inhibitrices. Les conditions initiales du réseau ont été choisies aléatoirement, puis<br />

nous avons laissé évoluer le réseau librement, sans perturbation extérieure.<br />

A chaque fois qu’un nouveau modèle sera présenté, nous tenterons de synthétiser les<br />

équations utilisées dans un même tableau, donnant les lois et les paramètres des<br />

entrées et de l’évolution du réseau. Les trois colonnes à gauche du tableau indiquent les<br />

étapes du réseau : dans le modèle présenté ci-dessous, les entrées ont été présentées<br />

au réseau avant son évolution, sous la forme des conditions initiales du réseau, puis le<br />

réseau a évolué en régime libre, sans entrées. Ce principe de présentation permettra de<br />

séparer clairement les algorithmes d’apprentissage en ligne, de ce qui ne le sont pas,<br />

ainsi que les forçages temporaires ou permanents, par exemple. Dans l’établissement<br />

des conditions initiales des paramètres du réseau, une fonction sera souvent utilisée,<br />

notée Ak, qui prend en entrée un ensemble d’intervalles disjoints, et qui renvoie une<br />

variable aléatoire, équiprobable, pour chaque intervalle et pour chaque paramètre k.<br />

Ainsi, par exemple, Xij=Aij[-1;[a;b]) signifie que p(Xij=-1)=1/2, et que<br />

1<br />

p( Xij Î [ ab ; ], 0£ a< b£<br />

1)<br />

= . Les lois statistiques utilisées dans cette thèse pour<br />

2(<br />

b-a) les variables aléatoires sont des lois uniformes.<br />

TYPE LOIS PARAMETRES<br />

Entrées x ( 0) = A ([ -11<br />

; ])<br />

i i<br />

N<br />

i = å ij j<br />

j=<br />

1<br />

Evolution ht () w x () t<br />

a.Vers une activité locale<br />

Dans ces modèles, l’activité est<br />

restreinte à de petites zones du<br />

réseau. Ces zones d’activité sont<br />

statiques, c’est-à-dire qu’elles ne se<br />

déplacent pas dans le réseau : de<br />

petits groupes fixes du réseau ont une<br />

activité dynamique. Ce résultat peut<br />

être visualisé sur la Figure 7-1 où est<br />

tracée l’activité de la totalité du<br />

réseau.<br />

e<br />

xi() t =<br />

1+<br />

e<br />

b<br />

- h() t<br />

b<br />

- h() t<br />

DYNAMIQUES OBSERVEES ET EXPERIMENTEES 145<br />

V i<br />

V i<br />

w ij ij<br />

= A ([ -11<br />

; ])<br />

N=8192<br />

b=252<br />

Cette fonction a surtout un rôle<br />

d’indice pour la recherche des zones<br />

de forte activité : dans la Figure 7-1,<br />

nous avons représenté la variation des<br />

états des neurones pendant une seule<br />

itération, et renormé l’ensemble afin Figure 7-1 : Activité du réseau<br />

V=8


146<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

d’obtenir en noir les zones d’activité maximale, et en blanc les zones d’activité<br />

minimale. Cette activité n’est pas dominante dans le réseau, et est limitée à de très<br />

petits groupes neuronaux.<br />

b. Une activité chaotique<br />

Dès que ces neurones actifs ont été recensés, nous avons mis des sondes sur<br />

certains d’entre eux, afin de tracer les dynamiques individuelles suivies. Les<br />

attracteurs de ces dynamiques ont été tracés, et quatre d’entre elles sont<br />

représentées dans la Figure 7-13.<br />

Figure 7-2 : Variétés d'attracteurs dans un même réseau<br />

Il est intéressant de remarquer que ces dynamiques sont qualitativement assez<br />

différentes, et que certaines d’entre elles semblent évoluer vers des attracteurs<br />

chaotiques. Ainsi, il n’est pas nécessaire de réaliser un moyennage de l’ensemble des<br />

dynamiques du réseau pour obtenir des trajectoires complexes : les dynamiques<br />

individuelles d’un réseau à voisinage local (ici limité aux 8 neurones voisins)<br />

présentent elles-aussi une grande richesse comportementale.<br />

Nous aurions souhaité pouvoir obtenir des résultats quantitatifs sur la complexité<br />

de ces dynamiques, en calculant par exemple leur dimension fractale, et dans ce but<br />

avons essayé de nombreux programmes dont aucun ne nous a permis d’obtenir une<br />

TROISIEME PARTIE : RESULTATS


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

dimension fractale fiable pour l’ensemble des dynamiques obtenues dans nos<br />

réseaux. La notion de chaos sera donc observée par ses propriétés de dépendance<br />

aux conditions initiales (Plusieurs attracteurs par neurone, p.154), et par l’observation<br />

de nombreux paramètres bifurquants (Paramètres bifurquants, p.173).<br />

c. Synchronisme local<br />

Le modèle théorique de mémoire proposé précédemment requiert l’obtention de<br />

synchronismes locaux. Dans ce but, nous avons calculé la transformée de Fourier de<br />

chaque dynamique locale du réseau, et avons effectué une ‘coupe’ à une fréquence<br />

donnée de l’ensemble des spectres du réseau. La méthode utilisée est représentée<br />

par la Figure 7-3, qui montre comment est obtenue la matrice donnant la puissance<br />

d’une fréquence donnée pour chaque neurone.<br />

Figure 7-3 : Obtention de la matrice des fréquences<br />

Afin d’obtenir la matrice des fréquences, la transformée de Fourier de chaque dynamique<br />

neuronale est calculée, puis, pour une fréquence donnée, l’intensité de cette fréquence pour<br />

chaque site est codée par une couleur.<br />

Les codes couleurs utilisés vont du bleu pour les puissances les plus faibles<br />

jusqu’au rouge pour les puissances les plus fortes. En dessous d’un certain seuil, les<br />

puissances sont représentées par du gris. Les matrices obtenues par ce procédé pour<br />

le réseau actuellement étudié sont présentées dans la Figure 7-4, pour douze<br />

fréquences différentes.<br />

On peut voir sur cette figure que le réseau s’organise, et que chaque fréquence<br />

possède une puissance plus grande dans des clusters 50 précis. De même, certains<br />

clusters semblent posséder un plus grand nombre de fréquences que d’autres. Ce<br />

type de comportement est assez encourageant, car il présente deux caractéristiques<br />

recherchées dans nos réseaux. La première est que ce réseau possède une<br />

répartition large d’un grand nombre de fréquences dans tout le réseau : dans un<br />

50 En français : amas. Désigne un petit groupe de neurones groupés.<br />

DYNAMIQUES OBSERVEES ET EXPERIMENTEES 147


148<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

même réseau, les périodes peuvent aller de 1 (neurone oscillant entre deux états), à<br />

des périodes beaucoup plus longues (parfois plusieurs centaines d’itérations).<br />

La deuxième caractéristique qui nous semble importante est que ce type de<br />

réseau possède naturellement une organisation locale des dynamiques, et que cellesci<br />

se synchronisent en petits groupes de clusters. Ce type de réseau possède des<br />

caractéristiques de modularisation potentielle.<br />

Nous avons testé plusieurs dizaines de réseaux de ce type, en choisissant une<br />

répartition aléatoire des poids, à une même température, et tous possèdent cette<br />

même propriété : de petits groupes neuronaux s’organisent autour de fréquences<br />

spécifiques.<br />

Figure 7-4 : Clustering fréquentiel<br />

Pour différentes valeurs de fréquence, les zones où cette fréquence est maximale varient.<br />

Ainsi à chaque fréquence est associée un cluster préférentiel.<br />

A ce niveau de l’étude, ces résultats semblent suffisants pour tenter de les<br />

rapprocher du modèle cherché, où des modules neuronaux s’organisent et se<br />

synchronisent. Malheureusement, dans tous les essais réalisés, les clusters obtenus<br />

étaient de petite taille, de l’ordre de grandeur du voisinage neuronal.<br />

Ceci peut être expliqué simplement par le fait que, si un neurone oscille à une<br />

certaine fréquence, il entraîne obligatoirement les neurones qui lui sont connectés à<br />

cette fréquence, mais, pour que le neurone ne sature pas, il faut que celui possède<br />

des rétroactions négatives qui le maintiennent sur une dynamique. Or, ces<br />

configurations des poids sont rares dans un réseau où les poids sont choisis au<br />

hasard. Ainsi, il y a de grande chance que des groupes neuronaux saturent, isolant<br />

les clusters où l’architecture permet de maintenir une dynamique.<br />

TROISIEME PARTIE : RESULTATS


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Cette petite taille des clusters limite les capacités de synchronisation de grands<br />

modules dans le réseau. Il est donc intéressant de chercher un nouveau type de<br />

modèle, augmentant la taille de ces clusters synchronisables. Il serait souhaitable<br />

d’autre part que ces clusters puissent être mobiles, en créant des vagues de<br />

synchronisme dans le réseau. Ceux observés jusqu’à présent, attachés à<br />

l’architecture locale du réseau, sont immobilisés et figés. Ils ne peuvent pas sortir de<br />

la partie du système qui leur a donné naissance, car c’est l’architecture locale du<br />

réseau qui les entretient.<br />

d.Synchronisation et clustering fréquentiel par forçage<br />

Mais, dans le cas d’une architecture figée, le forçage ponctuel du réseau confirme<br />

l’hypothèse qu’il y a diffusion complexe des fréquences induites par un forçage<br />

sinusoïdal. Afin de mieux mettre en valeur ce phénomène, nous avons utilisé le<br />

modèle du réseau précédent, en utilisant un neurone à différence finie :<br />

TYPE LOIS PARAMETRES<br />

Entrées I () t = 0<br />

N<br />

i å ij j<br />

j=<br />

1<br />

[ i, j]<br />

¹ [ 51, 32]<br />

I ( t) = sin( wt)<br />

[ 51, 32]<br />

Evolution ht () = w x ( t -dt)<br />

L’intérêt de ce modèle est que les<br />

dynamiques des xi(t) sont plus lisses,<br />

car elles varient au maximum de 2.dt,<br />

ce qui atténue les hautes fréquences<br />

pouvant parasiter l’interprétation du<br />

clustering fréquentiel induit par le<br />

forçage sinusoïdal du neurone [54,32].<br />

En partant d’un réseau uniformément<br />

initialisé à 0, l’évolution des sorties au<br />

cours du temps montre clairement qu’il<br />

y a diffusion de l’activité au sein du<br />

réseau : le forçage induit une<br />

perturbation dans le réseau, qui diffuse<br />

autour du site de forçage (Figure 7-5).<br />

Cette activité induit des<br />

comportements complexes,<br />

chaotiques, dans la totalité du réseau<br />

x( t) = ( 1-dt)<br />

x ( t-dt) i i<br />

dt<br />

V ht<br />

æb<br />

ö<br />

+ .arctan ç i()<br />

÷<br />

è ø<br />

v =dt /10<br />

N=8192<br />

b=61<br />

dt=0,3<br />

V=8<br />

Figure 7-5 : Diffusion de l'activité neuronale<br />

DYNAMIQUES OBSERVEES ET EXPERIMENTEES 149


150<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

(Figure 7-6), ce qui confirme bien que le réseau ‘perçoit’ l’environnement (la<br />

sinusoïde forçante), par complexification de ses propres dynamiques. En effet, ce<br />

même réseau, en régime libre, c’est à dire sans le forçage du neurone [54,32], en<br />

partant de xi(0) aléatoires, possède des dynamiques locales qui, soit s’éteignent<br />

rapidement, soient convergent vers des cycles limites pour la plupart périodiques et<br />

de faible amplitude. Ainsi, comme nous pouvions nous y attendre, le forçage central<br />

entretient et complexifie les dynamiques induites.<br />

TROISIEME PARTIE : RESULTATS<br />

Figure 7-6 : Complexification des dynamiques<br />

Afin de confirmer l’hypothèse d’un clustering fréquentiel autour du site de forçage,<br />

nous avons représenté l’intensité et la phase de la transformée de Fourier de<br />

l’ensemble du réseau, pour plusieurs fréquences, situées de part et d’autre de la<br />

fréquence de forçage. Autour de la fréquence principale de forçage, il apparaît une<br />

zone où l’intensité de cette fréquence est maximale, ce qui confirme que le forçage<br />

induit un clustering fréquentiel autour du site de forçage. D’autres clustering<br />

émergent, soit sur cette fréquence de forçage, soit sur des fréquences proches,<br />

indiquant que la perturbation induit des clusterings locaux, asociables à des<br />

phénomènes de résonance du réseau. Ce phénomène est à rapprocher des<br />

expériences neurophysiologiques qui ont mis en évidence que des zones corticales<br />

distantes peuvent s’activer à des fréquences proches, à la perception d’un stimulus.<br />

De plus, le paysage de phase associé indique que de nombreux neurones sont en<br />

phase sur cette fréquence. Le forçage induit donc des phénomènes de<br />

synchronismes qu’il peut être intéressant d’étudier dans le cadre d’une recherche<br />

d’une règle d’apprentissage.


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Figure 7-7 : Clustering fréquentiel autour du site de forçage<br />

Pour quatre fréquences proches de la fréquence de forçage, des clusters isofréquences<br />

émergent, parfois éloignés du site de forçage. Les isophases associées à ces fréquences<br />

montrent de plus que le réseau se synchronise parfois autour de clusters isophases<br />

spécifiques, et distants du site de forçage.<br />

7.2.2 Réseaux à mémoire<br />

La première idée permettant de mieux diffuser les dynamiques dans le réseau a été<br />

d’utiliser des neurones à mémoire (3 Modèle à mémoire, p.66). En effet, comme cela a été vu, le<br />

principal avantage de ce modèle de neurone est de posséder une dynamique propre, puisque les<br />

entrées de ce neurone sont convoluées avec une fonction de transfert. Ainsi, il est possible<br />

d’espérer que les dynamiques obtenues, et l’activité du réseau, seront confinées dans des clusters<br />

de plus grande taille. La complexification des dynamiques nous a fait apparaître certains<br />

comportements auxquels nous ne pensions pas : il a en effet pu être observé une modification des<br />

attracteurs qui dépend du moment initial du forçage d’un groupe de neurones, ainsi que des<br />

phénomènes d’accrochage de fréquence entre neurones voisins. Ces résultats sont présentés<br />

dans les pages qui suivent, au fur et à mesure qu’ils nous sont apparus, lors de l’étude des<br />

modèles.<br />

1. Modèles à délai<br />

L’architecture à mémoire la plus simple à réaliser est un modèle à délais, où<br />

l’information met un certain nombre d’itérations avant d’arriver au neurone. Ce type<br />

d’architecture semble plus proche de la réalité biologique.<br />

TYPE LOIS PARAMETRES<br />

( 0) =A(,)<br />

01<br />

Entrées I i i<br />

Evolution<br />

i<br />

N<br />

å ij<br />

j=<br />

1<br />

j ij<br />

ht () = wx( t-t<br />

)<br />

e<br />

xt i()<br />

=<br />

1+<br />

e<br />

b<br />

-h<br />

t<br />

V i()<br />

b<br />

-h<br />

t<br />

V i()<br />

N=8192, b=252, V=8<br />

w ij ij<br />

= A ([ -11<br />

; ])<br />

t ij ij<br />

( ,<br />

)<br />

= A < 019><br />

DYNAMIQUES OBSERVEES ET EXPERIMENTEES 151


152<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

a.Augmentation de la taille des clusters d’activité<br />

La première remarque qui peut être<br />

faite est que les clusters augmentent de<br />

taille. La Figure 7-8, tracée de la même<br />

façon que la Figure 7-1, avec une même<br />

configuration des poids, montre que<br />

l’activité est plus forte dans ce type de<br />

réseau : il existe un plus grand nombre<br />

de configurations des poids qui<br />

permettent d’entretenir des dynamiques<br />

locales dans le réseau : les délais<br />

facilitent la diffusion de l’activité locale<br />

dans le réseau. En traçant les<br />

attracteurs des dynamiques individuelles<br />

de quelques sites de ce réseau, on peut<br />

voir que les dynamiques semblent plus Figure 7-8 : Activité dans un modèle á délais<br />

périodiques que celles du même réseau<br />

sans délais (mêmes valeurs des poids synaptiques, ajout de délais aléatoires).<br />

Figure 7-9 : Attracteurs d'un modèle à délai<br />

Afin de confirmer cette impression de synchronisation locale, nous nous sommes<br />

intéressés au paysage fréquentiel des dynamiques individuelles des neurones. Pour<br />

ce, nous avons tracé trois matrices. La matrice des fréquences maximales, donne la<br />

TROISIEME PARTIE : RESULTATS


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

valeur de la fréquence dont la puissance est maximale. Le code couleur correspond à<br />

du bleu pour une fréquence nulle (composante continue), et rouge pour la plus haute<br />

fréquence observable (période correspondant à une itération du réseau). La matrice<br />

des phases donne, pour une fréquence donnée, la phase de cette fréquence pour<br />

chaque neurone du réseau. Et enfin, la matrice des isofréquences donne, pour une<br />

fréquence donnée, l’intensité de la composante de cette fréquence, pour chaque<br />

neurone du réseau.<br />

Comme on peut le voir (Figure 7-10), la matrice des fréquences maximales<br />

montre l’existence de clusters fréquentiels : les neurones semblent s’organiser<br />

localement. La transformée de Fourier de la dynamique d’un neurone central montre<br />

qu’il existe une fréquence d’intensité maximale, dominant l’intensité des autres<br />

fréquences : la dynamique de ce neurone est quasi-périodique. En traçant la matrice<br />

des phases, pour cette fréquence principale, les neurones voisins de ce neurone<br />

sélectionné ont des phases proches : il y a synchronisation locale.<br />

Figure 7-10 : Synchronisations locales<br />

Lorsque le réseau est en régime libre, les fréquences maximales montrent la diversité des<br />

fréquences principales du réseau. Par contre, pour une fréquence donnée, certains clusters<br />

isophases et isofréquences émergent de façon locale.<br />

Enfin, la matrice des isofréquences, toujours pour cette fréquence principale ,<br />

montre que l’intensité de cette fréquence est maximale autour du cluster central. Il<br />

s’agit même d’un cluster unique : seule cette population neuronale s’est synchronisée<br />

DYNAMIQUES OBSERVEES ET EXPERIMENTEES 153


154<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

autour de cette fréquence. En recommençant cette étude sur les différents clusters du<br />

réseau, il est possible de voir que différentes zones du réseau s’organisent de façon<br />

sélective autour de fréquences précises, et où les neurones sont en phase. Cette idée<br />

conforte la faisabilité d’un encodage par synchronisme de populations neuronales.<br />

Que ce passe-t-il si l’on perturbe ce type de réseau ?<br />

b. Plusieurs attracteurs par neurone<br />

Comme cela peut être vu dans le tableau suivant, les entrées initiales (à t=0) ont<br />

été choisies aléatoirement selon toujours une loi uniforme, puis au bout d’un certain<br />

temps (t=t0), de nouvelles entrées ont été présentées au réseau, sous la forme d’un<br />

forçage à 1 d’un carré central.<br />

Figure 7-11 : Perturbation de tous les neurones<br />

Après perturbation de tous les neurones, le réseau ne se stabilise pas sur le même attracteur.<br />

La dynamique atteinte est plus complexe, même si elle conserve une composante proche de<br />

celle d’avant la perturbation.<br />

Nous avons commencé par bruiter l’ensemble des neurones du réseau précédent,<br />

en forçant de façon équiprobable les sorties à plus ou moins un. Après perturbation,<br />

le réseau se stabilise sur de nouveaux attracteurs. Le neurone [21-44] complexifie sa<br />

dynamique (Figure 7-11).<br />

TYPE LOIS PARAMETRES<br />

Entrées " iÎ S, I ( t=<br />

0) = A(<br />

01 ,)<br />

Evolution<br />

i<br />

" iÎ S , I ( t> t ) = 1<br />

E i<br />

TROISIEME PARTIE : RESULTATS<br />

0<br />

i<br />

N<br />

å ij<br />

j=<br />

1<br />

j ij<br />

ht () = wx( t-t<br />

)<br />

-<br />

e<br />

xi() t =<br />

1+<br />

e<br />

Thi() t<br />

-Thi()<br />

t<br />

N=8192<br />

w ij ij<br />

= A ([ -11<br />

; ])<br />

t ij ij<br />

( ,<br />

)<br />

= A < 019>


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Cette expérience nous conforte dans l’idée qu’une dynamique forçante peut être<br />

source de perturbation pour le réseau, qui, après la fin du forçage, se stabilise sur un<br />

nouvel attracteur, plus complexe : il y a bien complexification des dynamiques<br />

individuelles à la présentation d’une information non reconnue.<br />

A partir de ce type de réseau, avec des neurones à délais, nous avons tenté de<br />

voir l’influence du forçage d’un groupe de neurone sur les dynamiques locales, et<br />

savoir s’il pouvait y avoir une diffusion des perturbations induites. Pour ce, un groupe<br />

de neurones a été forcé à 1.<br />

La modification des dynamiques n’est réalisée que dans un voisinage proche du<br />

site de forçage, et seuls les neurones situés dans une zone de 5 à 10 fois plus grande<br />

que le voisinage d’un neurone, voient leurs dynamiques modifiées (Figure 7-12).<br />

Figure 7-12 : Perturbation des dynamiques<br />

Les attracteurs atteints par [90-20],[92-20], et [95-20] (ronds blancs), ont été tracés avant et<br />

après perturbation par deux rectangles. Le neurone [92-20] voit sa dynamique modifiée,<br />

tandis que [95-20] ne semble pas être altéré.<br />

Mais ce qui s’est révélé surprenant durant cette étude, c’est que les attracteurs<br />

modifiés des neurones varient en fonction du moment où les neurones sont forcés.<br />

En effet, en fonction du moment t0 où le forçage est imposé, les neurones voisins du<br />

site de forçage ne se stabilisent pas sur le même attracteur : si t0=100 ou t0=150,<br />

l’attracteur sur lequel se stabilise le neurone [90,20] n’est pas le même. Sur la Figure<br />

7-13 sont tracés les quatre attracteurs qui ont pu être atteints en faisant varier t0. Pour<br />

t0 variant par pas de 1, le neurone se stabilise successivement sur chacun des<br />

DYNAMIQUES OBSERVEES ET EXPERIMENTEES 155


156<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

attracteurs suivants, sans qu’aucune régularité ait pu être observée dans cette<br />

séquence.<br />

TROISIEME PARTIE : RESULTATS<br />

Figure 7-13 : Attracteurs d'un même neurone<br />

Ce résultat nous a semblé au départ étonnant, puisqu’un même site, perturbé par<br />

une même information, pouvait se stabiliser sur plusieurs attracteurs différents, ceci<br />

dépendant uniquement du moment où l’information a été présentée. Mais ce résultat,<br />

rapproché des phénomènes d’hystérésis observés (Figure 7-42, p.180), montre bien<br />

que plusieurs dynamiques peuvent coexister dans un même réseau forcé. Ce type de<br />

résultat nous a encouragés dans l’idée d’un forçage des réseaux, car celui-ci laisse<br />

une certaine forme de ‘choix’ au réseau, conforme à l’idée une auto-organisation du<br />

réseau dépendant de son état : l’information perçue est relative au système<br />

percevant. Ceci nous a fait conclure dans le modèle de mémoire présenté<br />

précédemment que le système percevait non pas le forçage extérieur, mais la<br />

modification induite par ce forçage : un même percept peut induire différents états<br />

internes du réseau, il n’y a donc plus déterminisme total du comportement du<br />

réseau 51 . Nous revenons donc aux principes d’autonomie présentés précédemment (2<br />

51 Au sens où un même environnement induit un seul et unique état du réseau. Il se déage une certaine<br />

forme d’autonomie du réseau, dont l’état dépend de l’environnement ET de son état interne.


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Vers une maximisation de l’autonomie, p.108) : l’état interne du réseau participe à<br />

l’évolution de son état futur.<br />

2. Modèles à atténuation<br />

Après l’étude de réseaux à mémoire, nous nous sommes intéressés à des modèles à<br />

mémoire, où l’information était transmise avec une atténuation au cours du temps. Ce<br />

type de modèle correspond au modèle à mémoire présenté précédemment, et possède<br />

des poids synaptiques qui suivent une loi du type :<br />

r<br />

w ( r) = w ( 0).( k ) avec 0< k < 1<br />

ij ij ij<br />

Ce type de loi peut permettre de modéliser une forme de permanence de l’information<br />

transmise de neurone à neurone, tout en donnant une prépondérance à l’information<br />

récente.<br />

TYPE LOIS PARAMETRES<br />

Entrées " iÎ S, I ( t=<br />

0) = A(<br />

01 ,)<br />

Evolution<br />

a.Mise en phase de clusters<br />

i<br />

N 20<br />

i åå ij j<br />

j=<br />

1 r=<br />

1<br />

ht () = w( r) x( t-r) w ( r) = w ( 0).(<br />

k )<br />

ij ij ij<br />

-<br />

e<br />

xi() t =<br />

1+<br />

e<br />

Thi() t<br />

-Thi()<br />

t<br />

r<br />

N=8192<br />

( 0) = A ([ -11<br />

; ])<br />

w ij ij<br />

kij = A ij ([ 01 ; ])<br />

Si l’on trace les isophases de ce type de réseau, les matrices obtenues montrent<br />

des clusters entiers du réseau synchronisés autour d’une grande gamme de<br />

fréquences. La Figure 7-14 montre la matrice isophase du réseau (tracée de la même<br />

façon que la matrice isofréquence), pour des fréquences égales à f0, 2f0, 3f0, jusqu’à<br />

12f0. Les codes couleurs utilisés vont de bleu pour - + p e à rouge pour des phases de<br />

+ -<br />

p 2 e<br />

, en passant par le noir pour les neurones à déphasage nul. Pour les phases<br />

n’appartenant pas à cet intervalle, celles-ci sont représentées par du gris 52 . Il est<br />

intéressant de remarquer que les zones déphasées sont organisées autour de clusters<br />

d’assez grande taille, par rapport à la taille du voisinage (24 neurones voisins à<br />

distance 2). Ces clusters sont, de plus, relativement fixes d’une fréquence à l’autre, et<br />

nous pouvons observer un déphasage fréquent d’un neurone à l’autre à l’intérieur<br />

d’un même cluster. Par contre, lorsqu’un groupe de neurones se met à avoir une<br />

dynamique en phase (représentée par du noir), ce groupe est en général assez<br />

compact, limité à une zone précise à l’intérieur d’un cluster. Ainsi, il existe des sortes<br />

d’accrochages locaux de synchronisme autour de certaines fréquences, dans un<br />

réseau à atténuation, en régime libre ; ces accrochages se réalisant dans un paysage<br />

d’isophases complexe, limité à certaines zones du réseau.<br />

52 En général, ces zones du réseau correspondent à des phases égales à ± p 2 , qui sont le plus souvent dues<br />

au fait que la dynamique atteinte est un point fixe.<br />

DYNAMIQUES OBSERVEES ET EXPERIMENTEES 157<br />

2


158<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

b.Nature fractale des attracteurs atteints<br />

TROISIEME PARTIE : RESULTATS<br />

Figure 7-14 : Isophases du réseau<br />

Ce type de paysage de fréquence et de phase complexe nous autorise à espérer<br />

trouver dans de tels réseaux des dynamiques chaotiques. Et en effet, nous avons<br />

trouvé des dynamiques dont les attracteurs possèdent des trajectoires proches, mais


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

un zoom permet de voir qu’elles se séparent (Figure 7-15). Ce type d’attracteur est<br />

caractéristique d’une dynamique chaotique 53 .<br />

Figure 7-15 : Zoom sur l'attracteur du neurone 98-11<br />

c. Autosimilarité de l’attracteur<br />

L’attracteur atteint possède de<br />

plus une caractéristique d’autosimilarité,<br />

représentée sur la Figure<br />

7-17. Il s’agit du même attracteur<br />

que précédemment, mais tracé<br />

pour les points {X(t),X(t-28)}, ce qui<br />

permet de mieux voir dans les<br />

zones cerclées des portions de<br />

trajectoires qui sont similaires.<br />

Cette caractéristique d’auto- Figure 7-16 : Sillages de Bénard-Von Karman<br />

similarité de l’attracteur se retrouve dans de nombreuses dynamiques chaotiques, et<br />

un rapprochement peut être réalisé entre la forme de cet attracteur et celui des<br />

sillages de Bénard-Von Karman (Figure 7-16). Bien entendu, les phénomènes<br />

53 Les calculs réalisés de la dimension fractale ne nous ont pas semblé représentatifs, chaque algorithme<br />

DYNAMIQUES OBSERVEES ET EXPERIMENTEES 159


160<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

physiques qui causent ces deux dynamiques sont totalement différents, mais la<br />

similarité de forme entre les deux est symptomatique d’un comportement semblable.<br />

Figure 7-17 : Zoom sur l'attracteur du neurone 98-11<br />

d. Accrochage de fréquences entre neurones<br />

A partir du moment où nous avons obtenu des dynamiques riches dans nos<br />

réseaux, nous nous sommes intéressés au caractère bifurquant des paramètres de<br />

ces dynamiques. La carte de bifurcation du neurone [96,12], voisin de celui étudié<br />

précédemment, en fonction du paramètre b, gain de la fonction neurone, nous a<br />

confrontés à un type de bifurcation surprenant, où le réseau alterne des phases de<br />

chaos avec des phases où la carte de bifurcation présente des ‘vermicelles’ (Figure 7-<br />

34: Carte de bifurcation du neurone 96-12 en fonction de , p.175).<br />

Durant ces phases, le neurone [96,12] présente un attracteur où résident plusieurs<br />

copies d’une même figure, qui est la copie exacte de l’attracteur d’un neurone voisin<br />

(le [98,11]). Ce phénomène est représenté sur la Figure 7-18 : un zoom sur<br />

l’attracteur du neurone [96,12] permet de remarquer que cette sous-partie de<br />

l’attracteur est une copie exacte de l’attracteur du neurone [98,11]. En analysant plus<br />

précisément les attracteurs voisins du neurone [96,12], il a été possible de retrouver<br />

un attracteur voisin (celui du neurone [95,12]) qui possède des caractéristiques<br />

communes avec la répartition des ‘petits’ attracteurs de [98,11]. Ainsi, le phénomène<br />

ayant livré son propre résultat.<br />

TROISIEME PARTIE : RESULTATS


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

qui a été observé dans la carte de bifurcation de la Figure 7-34, à savoir celui de<br />

‘vermicelles’ dans un certain intervalle du paramètre b, peut être expliqué par le fait<br />

que des attracteurs voisins possèdent des fréquences multiples l’une de l’autre. De<br />

cette façon, un neurone qui reçoit cette information, la sommant, balaie son espace<br />

de phase en créant de multiples copies d’un même attracteur.<br />

D’ailleurs, si l’on fait varier<br />

légèrement la valeur de b, afin<br />

de sortir de cette phase<br />

‘vermicelle’, les deux attracteurs<br />

de [98,11] et [96,12] se<br />

désynchronisent légèrement, de<br />

telle façon que l’attracteur de<br />

[96,12] balaie les états<br />

intermédiaires de [95-12], en<br />

engendrant ainsi un tore sur<br />

l’attracteur [98,11].<br />

Figure 7-18 : Clustering du neurone 96-12<br />

Ce type de comportement<br />

peut expliquer les variations de<br />

la vitesse de remplissage des<br />

attracteurs observées lors de la<br />

modification d’un paramètre du Figure 7-19 : Désynchronisation des dynamiques<br />

DYNAMIQUES OBSERVEES ET EXPERIMENTEES 161


162<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

réseau. Par exemple, pour ce même attracteur du neurone [96,12], dans l’intervalle<br />

du paramètre b où l’attracteur est limité à un cycle limite, le remplissage de ce cycle<br />

limite ne se réalise pas à la même vitesse.<br />

Ceci peut se voir sur la Figure<br />

7-20, où l’on a tracé 1000 points<br />

de l’attracteur atteint, après<br />

chaque modification de b : le<br />

cycle limite n’est pas toujours<br />

rempli. Nous pensons que ce<br />

phénomène est dû à des<br />

synchronismes locaux, qui<br />

empêche la dynamique de balayer<br />

tout son cycle.<br />

Ce type de résultat nous a<br />

encouragés dans le développement<br />

de notre modèle, car un<br />

Figure 7-20 : Variation du 'remplissage'<br />

tel comportement associe les<br />

propriétés de synchronisme localisé à des groupes neuronaux (modularité) à des<br />

propriétés de synchronisation neuronale en fonction de certains paramètres<br />

(synchronisme).<br />

7.2.3 Réseau Hopfieldien avec fonction de sortie<br />

Dans la totalité des réseaux étudiés précédemment, les clusters étaient statiques, c’està-dire<br />

localisés à une portion du réseau, sans que les neurones diffusent leur activité loin autour<br />

d’eux, comme cela semble être le cas dans les systèmes biologiques, où des neurones, quoique<br />

éloignés, peuvent être synchronisés, et où l’information diffuse dans le réseau. Une idée pour<br />

palier cette limite fut d’utiliser un principe proche de celui des périodes réfractaires. Le principe<br />

utilisé fut de compléter la notion de fonction de transfert en entrée du réseau, en en ajoutant une<br />

en sortie du réseau. Fonctionnellement, cet ajout n’apporte rien au modèle, puisque la fonction de<br />

transfert de sortie d’un neurone peut être convoluée avec la fonction de transfert d’entrée du<br />

neurone suivant, rendant ainsi équivalent ce type de modèle à celui étudié précédemment.<br />

Par contre, un tel modèle ajoute la possibilité de contrôler la composante réfractaire du<br />

neurone, et d’observer l’influence de ce paramètre sur la dynamique du réseau. Le principal<br />

avantage de ce modèle est de créer des ondes qui diffusent dans le réseau, en accroissant ainsi la<br />

taille des modules où diffuse le forçage du réseau. Les poids représentent alors un peu un<br />

paysage de diffusion pour les dynamiques engendrée par les neurones.<br />

1. Matrice de connexion isotrope excitatrice<br />

L’étude de ce type de réseau a commencé avec des modèles très simples, où les poids<br />

sont isotropes, c’est-à-dire égaux d’un neurone à l’autre.<br />

Nous avons pris un réseau de 8192 neurones, chaque neurone étant connecté à ses 8<br />

voisins. L’ajout d’une fonction de transfert en sortie du neurone, excitatrice à +1 pendant<br />

une itération, et inhibitrice à -0.10 pendant 10 itérations, permet de faire diffuser et de<br />

maintenir des oscillations autour de sites qui ont été forcés pendant une seule itération :<br />

l’information diffuse autour des sites de forçage, créant des modules autour de ces sites.<br />

TROISIEME PARTIE : RESULTATS


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

TYPE LOIS PARAMETRES<br />

Entrées "Î i S , x ( t= t ) = 1<br />

Evolution<br />

T i i<br />

x ( t¹ t ) = 0<br />

i i<br />

N<br />

i = å ij j<br />

j=<br />

1<br />

ht () wx() t<br />

-<br />

e<br />

si() t =<br />

1+<br />

e<br />

bhi()<br />

t<br />

-bhi()<br />

t<br />

10<br />

i å i s<br />

k=<br />

0<br />

x () t = s( t-k) S ( k)<br />

Pour réaliser le forçage, nous avons pris un<br />

réseau sans activité initiale ( toutes les<br />

sorties à zéro), puis avons forcé à 1,<br />

pendant une seule itération, et à différents<br />

moments dans l’évolution du réseau, des<br />

neurones dont l’activité était toujours à 0.<br />

Comme le réseau est isotrope, la diffusion<br />

dans le réseau s’effectue à vitesse<br />

constante autour des sites de forçage, en<br />

créant des ondes circulaires, qui diffusent à<br />

la même vitesse. Lorsque deux ondes<br />

entrent en concurrence, elles s’annihilent<br />

l’une l’autre, en définissant ainsi des<br />

frontières (zones grisées) entre les zones de<br />

diffusion des sites de forçage. Ainsi, les<br />

zones de diffusion les plus larges sont<br />

celles qui ont été forcées les premières.<br />

Dans le cas où on force un site qui a déjà<br />

été annexé à un site de forçage, il peut<br />

parfois faire apparaître un vortex (Figure 7-<br />

N=262144<br />

w ij =1<br />

Figure 7-21 : Modularisation du réseau<br />

Dans ce modèle, le forçage induit des<br />

ondes qui diffusent dans le réseau. Les<br />

interférences entre ces ondes définissent<br />

des modules autour des sites de forçage<br />

(par exemple, les deux zones<br />

artificiellement grisées).<br />

22, en rouge sortie à +1, en bleu sortie à -1). L’apparition ou non de ce vortex dépend du<br />

temps de forçage du site. Il existe un seuil du temps de forçage en dessous duquel le<br />

vortex n’apparaît pas, et où la dynamique première du site redevient dominante, en<br />

effaçant l’influence du forçage secondaire. Au delà de ce seuil, un déphasage est créé<br />

entre la dynamique due au premier site de forçage et celle due au second. Ce<br />

déphasage induit des zones où les ondes s’engouffrent et s’enroulent, en définissant un<br />

vortex sur le deuxième site de forçage. Ce vortex est orienté dans le sens des normales<br />

aux ondes de diffusion. Les ondes produites par ce vortex ont une fréquence plus élevée<br />

que celle du premier site, et arrivent à ‘remonter le courant‘ de la première dynamique.<br />

De cette façon les dynamiques du vortex entrent en compétition avec celles de la<br />

première dynamique, et finissent par la faire disparaître totalement.<br />

DYNAMIQUES OBSERVEES ET EXPERIMENTEES 163


164<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Ainsi, lorsqu’un site a été spécialisé (annexé à un site de forçage), il est plus difficile d’en<br />

modifier les dynamiques, mais, dès que cela a été réalisé, ses dynamiques deviennent<br />

dominantes, et diffusent dans la totalité du réseau. Il y a une forme de ‘fidélisation’ des<br />

sites à leur zone de forçage, et pour les faire ‘changer de camp’, il est nécessaire de les<br />

‘persuader’ par un forçage de plus grande force.<br />

De cette façon, dans les réseaux où il y<br />

a diffusion des dynamiques, il est<br />

possible de spécialiser les neurones à<br />

un site. Dans le cas où il y a plusieurs<br />

sites, ces spécialisations définissent<br />

des modules affectés à chaque site de<br />

forçage. Malheureusement, chaque<br />

neurone n’est affecté qu’à un seul site :<br />

il n’y a pas d’interférence observable<br />

entre les dynamiques qui diffusent. Un<br />

tel réseau ne peut donc pas permettre<br />

d’observer la propriété d’association<br />

modulaire (5.2.3 Association<br />

multimodale des forçages, p.112), à<br />

moins que l’apprentissage ne permette<br />

de réaliser ces interférences, et fasse<br />

diffuser les modules les uns dans les<br />

Figure 7-22 : Apparition d'un vortex<br />

autres. Comme nous le verrons, un<br />

simple apprentissage hebbien peut réaliser ce type de modularisation dans un réseau<br />

forcé, avec une règle dont l’effet s’apparente un peu à celui d’une période réfractaire (8.2<br />

L’apprentissage Hebbien, p.186).<br />

2. Matrice de connexion aléatoire<br />

TYPE LOIS PARAMETRES<br />

Entrées "Î i S , x ( t= t ) = 1<br />

Evolution<br />

T i i<br />

x ( t¹ t ) = 0<br />

i i<br />

N<br />

i = å ij j<br />

j=<br />

1<br />

ht () wx() t<br />

-<br />

e<br />

si() t =<br />

1+<br />

e<br />

10<br />

i å i<br />

k=<br />

0<br />

bhi()<br />

t<br />

-bhi()<br />

t<br />

x () t = s( t-kSk ) ( )<br />

TROISIEME PARTIE : RESULTATS<br />

N=8192<br />

w = A ([ -a;]<br />

1<br />

ij ij<br />

S(0)=1<br />

S(k>0)=-0,1<br />

Afin de mesurer l’effet de la variation des poids, nous avons choisi des poids<br />

aléatoires, répartis uniformément entre -1 et 1, puis nous les avons ramenés dans un<br />

intervalle [-Wmin;1], Wmin>0, par projection de l’intervalle [-1;1] sur [-Wmin;1]. De cette<br />

façon, la configuration générale des poids est respectée, et seule change le taux de


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

poids négatifs (de 0% pour a=0 à 50% pour a=1.0). La fonction de transfert en sortie est<br />

la même pour tous les neurones, et est égale à celle de l’expérience précédente.<br />

De la même façon que précédemment, un forçage à t=0 de l’un des sites, crée une<br />

perturbation qui diffuse dans la totalité du réseau, sous forme d’ondes. Lorsque les poids<br />

sont choisis aléatoirement dans [0;1] (Wmin=0), ces ondes diffusent de la même façon<br />

que précédemment, avec l’apparition d’un bruit additif sur les états des neurones.<br />

Lorsque l’on augmente un peu Wmin (Wmin=0.2), ce bruit augmente, et modifie légèrement<br />

la diffusion de l’onde. Plus Wmin est élevé, plus la perturbation de l’onde est grande. Pour<br />

Wmin=0,6, la perturbation de la diffusion est telle qu’elle empêche l’apparition de fronts<br />

d’ondes positives et négatives aux frontières nettes.<br />

Ce comportement semble logique,<br />

puisque dans le cas où Wmin=0, le<br />

réseau reste diffusant, et n’empêche<br />

donc pas la propagation de l’onde. Par<br />

contre le caractère aléatoire des Wij<br />

perturbe la diffusion de cette onde qui<br />

se retrouve donc bruite. En augmentant<br />

Wmin, se créent des forces de rétroaction<br />

négative, qui viennent contrarier la<br />

diffusion de l’onde, ce qui provoque un<br />

ralentissement de sa diffusion.<br />

L’ensemble de ces résultats est<br />

synthétisé sur la Figure 7-23, où sont<br />

représentés les états des sites qui ont<br />

été modifiés par le forçage initial. Les<br />

schémas ont été réalisés à la même<br />

échelle, ce qui montre le ralentissement<br />

de la diffusion lors de l’augmentation de<br />

Wmin. Dans le cas où Wmin = 0,6 une<br />

activité centrale semble émerger, qui<br />

fait saturer les sorties à +1 ou -1. En<br />

Figure 7-23 : Perturbation de la diffusion<br />

laissant évoluer le réseau, celui-ci entretient cette saturation centrale, tout en continuant<br />

à faire diffuser une activité bruitée autour du site de forçage.<br />

En laissant itérer le réseau, cette zone centrale de saturation diffuse et finit par être<br />

dominante : la totalité du réseau s’est organisée en zones d’activité cohérente. Ce<br />

résultat est à rapprocher de celui qui sera obtenu par un apprentissage hebbien nonsymétrique<br />

(8.2 L’apprentissage Hebbien, p.186). De la même façon, il y a diffusion<br />

bruitée de l’activité du site de forçage autour de ce site, avec apparition de zones<br />

cohérentes dont la plupart des neurones saturent. Contrairement au résultat obtenu avec<br />

l’apprentissage hebbien, qui finit par stabiliser la totalité du réseau sur un cycle +1/-1<br />

pour tous les neurones, avec des frontières de déphasage figées, ici les frontières sont<br />

mobiles. Ces zones en phase sont de très grande dimension par rapport à la taille du<br />

voisinage (chaque neurone est connecté à ses huit plus proches voisins). Ainsi, dans un<br />

tel réseau, de grandes populations peuvent se mettre globalement en phase, avec,<br />

localement (à la frontière), des déphasages qui participent au déplacement des frontières<br />

des zones synchronisées.<br />

DYNAMIQUES OBSERVEES ET EXPERIMENTEES 165


166<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

TROISIEME PARTIE : RESULTATS<br />

Figure 7-24 : Organisation de l'activité centrale<br />

Ceci peut être vu sur la Figure 7-25, où sont représentées 6 itérations successives du<br />

réseau : les zones rouges et bleues se déplacent lentement, selon des trajectoires<br />

complexes.<br />

Figure 7-25 : Organisation en modules mobiles<br />

Si l’on continue à augmenter Wmin, ce comportement disparaît, la rétroaction négative<br />

devient dominante, et empêche peu à peu le réseau de s’organiser. Sur la Figure 7-26,<br />

pour Wmin=-0,8 , de petits clusters cherchent à apparaître, mais ne peuvent pas diffuser.<br />

Pour Wmin=1,0 le comportement du réseau reste totalement bruité. Ainsi, dans un réseau<br />

à fonction de transfert en sortie, lorsque le taux de poids négatif est nul, le réseau peut<br />

diffuser de façon régulière la perturbation du site de forçage, et lorsque le taux de poids<br />

négatif est égal au taux de poids positifs, la diffusion se fait de façon bruitée. Entre ces<br />

deux extrêmes, il existe une valeur de ce taux, où le réseau s’organise et crée des zones<br />

qui se déplacent dans le réseau.


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Figure 7-26 : Perte de l'organisation du réseau<br />

Ce type de comportement peut permettre d’observer une modularisation fonctionnelle<br />

autour du site de forçage, car il est à la fois diffusant autour du site de forçage, organisé,<br />

et est à l’origine de comportements complexes dans les dynamiques du réseau. De plus<br />

l’intérieur de ces zones organisées est en phase, et un déphasage progressif apparaît à<br />

leurs frontières, qui participe aux mouvements relatifs de ces zones. Ce type de<br />

comportement peut être à l’origine de synchronismes de populations neuronales. Nous<br />

avons donc là une architecture neuronale qui peut s’avérer encourageante pour le<br />

modèle de mémoire proposé.<br />

7.2.4 Réseau Hopfieldien à différences finies<br />

Comme cela a été vu dans le cas d’un réseau à fonction de transfert en sortie, des ondes<br />

peuvent apparaître dans le réseau, qui diffusent autour des sites de forçage. Cette propriété est<br />

requise, si l’on veut réaliser un apprentissage qui spécialise les zones de diffusion, en créant des<br />

associations entre les dynamiques des zones où interfèrent ces dynamiques. Nous cherchons<br />

donc à obtenir en premier lieu des diffusions de dynamiques dans le réseau, autour soit des sites<br />

de forçage, soit des clusters du réseau. Les modèles discrets posent le problème de ne pas<br />

pouvoir suivre la diffusion de la dynamique dans le réseau, et les attracteurs atteints sont<br />

restreints à des coupes de Poincaré de dynamiques continues. L’approche réalisée par l’utilisation<br />

de fonctions de transfert en sortie offre l’avantage de lisser ces dynamiques, en les convoluant<br />

avec une fonction de transfert qui, dans les cas étudiés ici, réalisait un filtrage passe-bas<br />

(moyenne pondérée des sorties du neurone pendant 10 itérations). Nous avions donc une forte<br />

dépendance de X(t) avec X(t-1), car la dynamique était ainsi lissée.<br />

Nous nous sommes donc intéressés alors à des modèles du type :<br />

x () t = ax ( t- ) + bF(<br />

X (), t X (),..., t X ()) t<br />

i i 1 1 2 N<br />

Ce qui nous a naturellement amenés vers les réseaux à différences finies, du type :<br />

DYNAMIQUES OBSERVEES ET EXPERIMENTEES 167


168<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

x ( t+ dt) = ( - dt) x () t + dt. F( X (), t X (),..., t X ()) t<br />

i 1 i 1 2 N<br />

Ce type de réseau est un intermédiaire entre le modèle continu et le modèle discret, et<br />

nous offre en effet des dynamiques plus lisses. Mais quel dt choisir ? Pour un taux de<br />

discrétisation faible, on approche le modèle continu, mais les équations du réseau deviennent<br />

presque linéaires, amenant les dynamiques du réseau vers des points fixes. Et, pour un taux trop<br />

élevé, on se ramène au cas discret, où les dynamiques ne sont plus lisses. De tels comportements<br />

ont été étudiés par Renals [[164]] qui a mis en évidence le caractère bifurquant de dt.<br />

1. Caractère bifurquant du gain<br />

Figure 7-27 : avec pente de 43/64<br />

Pour deux conditions initiales proches, sont tracées les dynamiques des quatres neurones<br />

grisés de la matrice 8x8 des neurones. Après une phase de sensibilité aux conditions initiales,<br />

les dynamiques se stabilisent sur le même attracteur, avec un déphasage.<br />

Dans les réseaux simulés, nous avons en général pris dt=0,1 et avons augmenté la<br />

pente de la fonction neurone. Nous nous sommes rendus compte qu’il était difficile de<br />

savoir sur quel régime allait se stabiliser le réseau, même en prenant de fortes valeurs<br />

pour cette pente. En prenant un réseau de 64 neurones, à différences finies, à poids<br />

aléatoires, et, en augmentant la pente de la fonction neurone, nous avons facilement pu<br />

obtenir des comportements qui nous semblaient chaotiques. Afin de le vérifier, nous<br />

avons cherché à observer la dépendance aux conditions initiales de ce réseau. Nous<br />

avons en effet rapidement pensé être face à comportement chaotique du réseau,<br />

puisqu’une variation de 10 -8 des conditions initiales faisait diverger les dynamiques du<br />

réseau (Figure 7-27). Mais, après cette phase chaotique, les deux réseaux se<br />

TROISIEME PARTIE : RESULTATS


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

stabilisaient sur un même cycle limite, avec un déphasage. On peut voir sur cette figure<br />

les trajectoires de quatre neurones voisins, et la dépendance aux conditions initiales de<br />

leurs dynamiques, qui semblent chaotiques pendant 2000 itérations 54 . Mais, après ces<br />

2000 itérations, les dynamiques se stabilisent sur ces cycles limites, déphasés les uns<br />

des autres. Par contre, pour une petite variation de la pente (modification de 1/64), les<br />

dynamiques du réseau, mises dans les mêmes conditions initiales que précédemment,<br />

ne semblent pas se stabiliser sur un cycle limite, tout en vérifiant la sensibilité aux<br />

conditions initiales, symptomatique d’un régime chaotique. Nous avons poussé ce<br />

réseau jusqu’à 100000 itérations, sans observer de stabilisation de ses dynamiques. Il<br />

semblerait donc qu’un tel réseau puisse basculer d’une dynamique chaotique à un cycle<br />

limite pour de petites variations de ses paramètres.<br />

Figure 7-28 : avec pente de 44/64<br />

Afin de confirmer cette hypothèse, nous avons cherché à déterminer les coefficients de<br />

Lyapunov pour chacune de ses dynamiques, en espérant peut-être ainsi savoir si ces<br />

coefficients étaient les mêmes d’un neurone à l’autre, ou si l’on pouvait observer une<br />

clusterisation de ces coefficients. Ce calcul s’est avéré impossible : en effet, les<br />

dynamiques individuelles des neurones peuvent voir leur erreur passer par 0, ce qui ne<br />

permet pas de faire une approximation linéaire du logarithme de cette erreur (Figure 7-<br />

29).<br />

54 Nous nous limitions au départ à l’observation des 1000 premières itérations, ce qui nous fit croire que les<br />

régimes étaient chaotiques pour toutes les valeurs élevées de la pente de la fonction neurone.<br />

DYNAMIQUES OBSERVEES ET EXPERIMENTEES 169


170<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Figure 7-29 : Erreur parfois à 0 pour un neurone<br />

Ceci peut être expliqué simplement par le fait que les dynamiques individuelles des<br />

neurones ne sont pas celles du système complet, sans variable cachée. De cette façon,<br />

l’erreur d’un neurone peut être à 0, et c’est un neurone voisin qui a une erreur non nulle.<br />

Ainsi, il est nécessaire de considérer le réseau entier si l’on veut mesurer les coefficients<br />

de Lyapunov du système. Il est donc impossible de chercher à connaître et à quantifier<br />

la sensibilité aux conditions initiales locales d’un neurone, afin de mesurer le degré de<br />

chaoticité des zones du réseau.<br />

Comme cela peut être vu sur la Figure 7-30, pour des valeurs de 64.b allant de 1 à 250,<br />

le coefficient semble augmenter, montrant un résultat déjà connu que ce gain est<br />

bifurquant, et provoque un régime chaotique pour de hautes valeurs. Nous sommes allés<br />

jusqu’à b=1000, en conservant des valeurs de l positives. Mais ce qui est étonnant, c’est<br />

l’irrégularité des variations de l avec b : l semble sauter en permanence d’une valeur<br />

positive à une valeur négative. Afin de confirmer ce comportement, nous avons effectué<br />

différents zooms sur l’évolution de l, qui confirment que pour de petites variations de b,<br />

l peut changer de signe. Nous nous sommes donc ramenés au calcul de l’erreur<br />

moyenne du réseau, et avons tracé le coefficient de Lyapunov de cette dynamique<br />

moyenne pour plusieurs intervalles de b.<br />

TROISIEME PARTIE : RESULTATS


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Figure 7-30 : Courbe d’écart moyen pour 500 itérations de stabilisation<br />

L’algorithme utilisé pour déterminer l était le plus simple d’entre tous : calculer le<br />

coefficient de régression linéaire du logarithme de l’erreur. Il était logique de se<br />

demander si le comportement de l n’était pas dû uniquement aux limites de cette<br />

méthode. Afin de confirmer ce fait, à savoir la haute sensibilité de l’évolution de l’erreur<br />

du réseau en fonction de b, nous avons représenté cette évolution sur la Figure 7-31.<br />

Cette figure confirme que, pour de très faibles variations de 64.b (entre 60 et 60,16),<br />

l’évolution du logarithme de l’erreur moyenne du réseau peut rapidement varier. Nous<br />

avons cherché à savoir si ces sauts de la courbe d’erreur pouvaient s’observer pour des<br />

variations de b aussi petites que l’on veut. En poussant le zoom assez loin, nous avons<br />

réussi à atteindre un stade à partir duquel les variations de l commencent à devenir<br />

lisses (Figure 7-32). Sur cette figure, il est possible de voir que parfois l passe de façon<br />

continue entre une valeur négative (pas de sensibilité aux conditions initiales), à une<br />

valeur positive (régime chaotique). Ainsi, pour de très petites variations d’un paramètre<br />

du réseau, il est possible de faire passer les régimes du réseau d’un cycle limite à un<br />

chaos. Ce type de comportement limite l’apprentissage : pour d’infimes variations des<br />

paramètres, le régime libre du réseau quittait la trajectoire qu’il était en train d’apprendre,<br />

en bifurquant vers des régimes chaotiques (Figure 8-23, p.202). L’apprentissage de la<br />

DYNAMIQUES OBSERVEES ET EXPERIMENTEES 171


172<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

dynamique devait alors être presque reprise depuis le début, car le réseau quittait le<br />

régime que l’on voulait lui faire apprendre.<br />

TROISIEME PARTIE : RESULTATS<br />

Figure 7-31 : Variation des courbes d'écart<br />

Figure 7-32 : Début des variations lisses de L0


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

C’est de cette façon que, presque systématiquement, lors des apprentissages que nous<br />

avons essayés, après une phase de décroissance régulière de l’erreur, celle-ci faisait un<br />

saut brusque, puis recommençait à décroître, jusqu’à la bifurcation suivante.<br />

Faut-il alors, lors de l’apprentissage, essayer de rester sur les variations lisses observées<br />

précédemment, ou au contraire essayer de faire varier les paramètres du réseau en le<br />

faisant passer d’un régime à l’autre ? Dans le premier cas, l’apprentissage est trop lent,<br />

et de toute façon il finit toujours par y avoir une bifurcation de la dynamique du système.<br />

Dans le second cas, il est impossible de prévoir l’effet qu’aura une modification du<br />

paramètre sur la dynamique du système.<br />

7.3 Paramètres bifurquants<br />

Nous avons donc cherché à savoir quels étaient les paramètres ‘sensibles’ du réseau, afin<br />

d’orienter un peu les voies possibles de l’apprentissage. N’oublions pas en effet que l’étude<br />

préliminaire des dynamiques du réseau a pour objet de trouver un modèle qui puisse être<br />

chaotique lorsqu’il est forcé, par diffusion des perturbations induites dans le système, et dont on<br />

puisse modifier les dynamiques internes par apprentissage, pour les faire coïncider avec les<br />

dynamiques externes. Il était donc essentiel de savoir sur quels paramètres jouer dans nos<br />

modèles afin d’en modifier les dynamiques.<br />

7.3.1 Variation du gain<br />

Ce paramètre correspond au gain b de la fonction neurone :<br />

b<br />

- x<br />

V e<br />

s(<br />

x)<br />

=<br />

1+<br />

e<br />

b<br />

- x V<br />

où V représente le nombre de neurones inclus dans le voisinage local.<br />

Il a déjà été démontré que ce paramètre est bifurquant pour des réseaux hopfieldiens<br />

avec ou sans délais [[40]][[43]], nous pouvons donc nous attendre à ce qu’il se révèle bifurquant<br />

pour des modèles plus complexes.<br />

1. Dans un modèle à délais<br />

En reprenant le réseau étudié précédemment (1 Modèles à délai, p.151), nous avons<br />

cherché à observer l’évolution des attracteurs obtenus auparavant (Figure 7-9, p.152),<br />

pour de nouvelles valeurs de b. Ce gain est modifié pour l’ensemble des neurones du<br />

réseau, et est mis à la même valeur. Comme nous pouvions le prévoir, et<br />

conformément aux résultats déjà obtenus sur le sujet, il y a complexification des<br />

dynamiques individuelles avec l’augmentation du gain.<br />

Ce résultat est logique, car, l’augmentation du gain accroît la raideur de la fonction<br />

neurone. La non-linéarité neuronale est donc accentuée, augmentant donc la complexité<br />

des dynamiques. Nous n’avons pas étudié les propriétés des types de bifurcation<br />

observées, car cela n’était pas notre propos initial, mais, conformément aux études plus<br />

précises sur le sujet [[33]][[34]][[35]][[32]][[68]], plusieurs types de bifurcations sont<br />

,<br />

DYNAMIQUES OBSERVEES ET EXPERIMENTEES 173


174<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

apparues, principalement des bifurcations de Hopf (Figure 7-34 p.175, Figure 7-36,<br />

p.176).<br />

TROISIEME PARTIE : RESULTATS<br />

Figure 7-33 : Modification des attracteurs avec b


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

2. Dans un modèle à atténuation<br />

Nous nous sommes intéressés aux cartes de bifurcation d’un modèle de neurone à<br />

mémoire plus complexe que le modèle à délais, en étudiant les cartes de bifurcation du<br />

modèle à atténuation, en fonction du gain b. Nous avons donc repris le modèle étudié<br />

précédemment (2 Modèles à atténuation, p.157), en faisant varier b de 0 à 1000, et en<br />

observant son influence sur le neurone [96,12] (Figure 7-18, p.161), et sa<br />

synchronisation au neurone [98,11].<br />

Figure 7-34 : Carte de bifurcation du neurone 96-12 en fonction de b<br />

L’entrée dans le chaos se fait par une bifurcation très rapide (cf. zoom), puis le<br />

réseau passe de régimes dits ‘purée’ à des régimes dits ‘vermicelle’. Dans ces derniers,<br />

l’attracteur atteint et de même type que celui de l’attracteur du neurone [96,12] de la<br />

Figure 7-18. Comme nous l’avons déjà vu, ces phases correspondent à des accrochages<br />

de fréquences entre neurones voisins : le rapport de fréquence entre lui et l’un de ses<br />

voisins est rationnel, entraînant ainsi une copie multiple de l’attracteur voisin. Dans les<br />

phases ‘purée’, les deux neurones se désynchronisent et leurs attracteurs finissent par<br />

remplir un tore (Figure 7-19, p.161).<br />

Ainsi ce neurone passe par des phases où son activité est synchronisée avec celle de<br />

ses voisins (c’est à dire qu’ils finissent par revenir tous dans une même configuration<br />

globale), et des phases désynchronisées (où la population ne se retrouve jamais dans<br />

une même configuration globale). Ce phénomène se voit sur le tracé des coupes de la<br />

carte de bifurcation, où sont dessinés les différents attracteurs atteints pour plusieurs<br />

valeurs du gain (Figure 7-35) : le réseau passe de régimes où l’attracteur se clusterise<br />

(coupes 7,9,10,12), à des régimes où l’attracteur est sur un tore (autres coupes).<br />

Ce résultat montre donc qu’en modifiant le gain d’une population neuronale, il est<br />

possible de synchroniser les dynamiques des neurones qui la composent. Parfois, cette<br />

transition est très rapide, ce qui démontre une grande sensibilité des dynamiques à ce<br />

facteur. Comme nous l’avons vu, il semble même que cette sensibilité soit extrême, et<br />

que la carte de bifurcation soit elle-même fractale, c’est-à-dire que pour une infime<br />

variation de b, le réseau passe par une infinité de succession de régimes ‘vermicelle’ et<br />

‘purée’. Il serait donc intéressant de tracer cette carte de bifurcation pour des intervalles<br />

de b de plus en plus petit, autour d’une transition. Malheureusement, la limite de la<br />

précision de l’ordinateur utilisé n’a pas permis de vérifier cette hypothèse.<br />

DYNAMIQUES OBSERVEES ET EXPERIMENTEES 175


176<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Figure 7-35 : Evolution de l'attracteur du neurone 96-12 avec b<br />

Nous avons en même temps tracé la carte de bifurcation d’un neurone éloigné, le<br />

neurone [114-53], afin de déterminer si les bifurcations observées sur le neurone [96,12]<br />

étaient dues à des modifications de dynamiques localisées, ou globales du réseau :<br />

existe-t-il des bifurcations qui affectent l’ensemble des neurones du réseau ?<br />

Comme cela se voit sur la Figure 7-36, ce neurone passe de la même façon de phases<br />

synchronisées à des phases non-synchronisées. Ces phénomènes de synchronisations<br />

se retrouvent donc dans des zones distantes.<br />

Figure 7-36 : Carte de bifurcation du neurone 114-53 en fonction de b<br />

TROISIEME PARTIE : RESULTATS


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Figure 7-37 : Evolution de l'attracteur du neurone 114-53 avec b<br />

La Figure 7-37 confirme que le<br />

neurone [114,53] passe aussi par<br />

des phases de clustering de<br />

l’attracteur.<br />

Afin de confirmer l’hypothèse de<br />

changements de régimes dans<br />

plusieurs zones du réseau, nous<br />

avons superposé les cartes de<br />

bifurcation des deux neurones<br />

(Figure 7-38). Ceci montre que<br />

certaines transitions sont réalisées<br />

pour les mêmes valeurs de<br />

b (barres noires). Nous avons<br />

vérifié que cette caractéristique<br />

était commune à plusieurs<br />

neurones. Il existerait donc des<br />

modifications du régime du réseau,<br />

à l’échelle du réseau, qui ne sont<br />

Figure 7-38 : Superposition des cartes de bifurcation<br />

DYNAMIQUES OBSERVEES ET EXPERIMENTEES 177


178<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

pas dues à l’architecture locale. Le réseau entier change de régime, et se retrouve<br />

parfois totalement synchronisé.<br />

Enfin, les intervalles de transition entre les régimes semblent diminuer : le réseau passe<br />

de plus en plus rapidement d’un régime synchronisé à un non-synchronisé. Faut-il voir<br />

dans ce principe la cause de l’enrichissement du paysage fréquentiel des dynamiques<br />

neuronales ? L’évolution de la transformée de Fourier des dynamiques du neurone<br />

[114,53] (Figure 7-39), montre bien que, plus b augmente, plus le nombre de fréquences<br />

augmente. Ce phénomène est caractéristique d’une entrée dans le chaos. Nous pensons<br />

que ce phénomène peut être à l’origine des capacités de synchronisation du réseau : il<br />

existe un plus grand nombre de fréquences synchronisables, ce qui pourrait être l’un des<br />

rôles du chaos cérébral (4 Spectre à support dense, p.44).<br />

Figure 7-39 : Enrichissement des fréquences avec b<br />

Jusqu’où va cette accélération du processus de transition entre intervalles synchronisés<br />

et désynchronisés ? Il serait en effet intéressant, si l’on veut réaliser un apprentissage<br />

basé sur les synchronisations du réseau, qu’une très faible modification d’un paramètre<br />

fasse basculer le réseau d’un régime synchronisé à un non-synchronisé. La perturbation<br />

extérieure aurait alors pour effet de désynchroniser les dynamiques neuronales, qui<br />

seraient resynchronisées par une très faible modification des paramètres du réseau.<br />

TROISIEME PARTIE : RESULTATS


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Ceci peut être une nouvelle voie de<br />

recherche. En effet, la plupart des<br />

apprentissages cherchent à descendre<br />

un gradient, en cherchant un minimum<br />

global, et sont limités par la<br />

convergence du réseau vers des<br />

minima locaux, considérés comme<br />

parasites. Peut-être faudrait-il<br />

considérer que le réseau se satisfait de<br />

ces minima locaux, et que leur très<br />

grand nombre permet d’en trouver au<br />

moins un qui soit ‘suffisant’ ? Comme<br />

nous l’avons dit, l’apprentissage<br />

humain ne conduit pas à un rappel<br />

parfait : le souvenir est simplement<br />

‘satisfaisant’, et son évocation<br />

reconstruit une configuration appauvrie<br />

par rapport à celle obtenue pendant la<br />

perception.<br />

Nous chercherons donc à amener le<br />

système vers des régimes alternant<br />

rapidement des phases synchronisées<br />

et des phases non-synchronisées.<br />

Nous avons donc prolongé le tracé de<br />

la carte de bifurcation du neurone<br />

[96,12] pour de hautes valeurs de b<br />

(Figure 7-40). Ces transitions<br />

s’accélèrent bien, mais l’augmentation<br />

de la raideur de la fonction neurone<br />

accentue la saturation des neurones. Il<br />

s’ensuit que les dynamiques tendent à<br />

se geler, c’est à dire passent par des<br />

phases de ‘bursting’, où la dynamique<br />

sature, et devient chaotique par<br />

bouffées périodiques(Figure 7-41).<br />

Pour de très hautes valeurs de b, le<br />

réseau se fige sur un point fixe. Il<br />

existe donc une limite à l’accélération<br />

des transitions entre les régimes. Cette<br />

limite est certainement accentuée par<br />

les limites de précision de la machine.<br />

Figure 7-41 : Gel des dynamiques<br />

En effet, pour de très hautes valeurs de b, la raideur de la fonction neurone est très<br />

élevée, ce qui, pour une précision finie, échantillonne la valeur des sorties possibles du<br />

réseau. Le nombre de configurations du réseau diminue donc, en augmentant alors ses<br />

chances de stabilisation. On peut voir ce phénomène sur la Figure 7-41, où la sortie X(t)<br />

semble être de plus en plus discrétisée quand b augmente.<br />

Figure 7-40 : Diagramme de bifurcation à b élevé<br />

DYNAMIQUES OBSERVEES ET EXPERIMENTEES 179


180<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Durant ces expériences, nous<br />

nous sommes confrontés à un<br />

phénomène au départ<br />

surprenant portant sur le<br />

neurone [96,12] (Figure 7-42) :<br />

l’attracteur obtenu en figeant b<br />

à 252, et en réinitialisant le<br />

réseau, n’était pas le même<br />

que celui obtenu en faisant<br />

augmenter b de 0 à 252. Ceci<br />

nous a orientés vers la<br />

recherche de phénomènes<br />

d’hystérésis. Nous avons donc<br />

fait varier b autour de 252, de<br />

150 à 300, puis de 300 à 150,<br />

sans réinitialisation du réseau<br />

entre les itérations. Il se<br />

confirme que, lors de la<br />

redescente du gain, le réseau<br />

arrive à maintenir des<br />

dynamiques complexes<br />

pendant la décroissance de b<br />

(Figure 7-42). Pour faire<br />

redescendre le réseau de cette<br />

dynamique, il suffit de le<br />

perturber en forçant ses<br />

neurones à une valeur<br />

aléatoire pendant quelques Figure 7-42 : Hystérésis du diagramme de bifurcation<br />

itérations. Ce type de comportement est très encourageant pour l’approche réalisée dans<br />

cette thèse assimilant l’information extérieure à une perturbation. En effet, cet hystérésis<br />

montre que plusieurs dynamiques peuvent coexister dans un même réseau, certaines<br />

étant maintenues artificiellement. De plus, ces dynamiques artificiellement maintenues le<br />

sont à l’échelle d’un seul neurone. Il est donc possible d’observer, dans un grand réseau<br />

de multiples dynamiques artificiellement maintenues, que la moindre perturbation<br />

extérieure peut perturber, en transformant par exemple un attracteur étrange en cycle<br />

limite.<br />

De plus, comme nous avons vu que des bifurcations peuvent apparaître dans l’ensemble<br />

du réseau, en même temps, nous pouvons imaginer que, dans certaines conditions, le<br />

forçage local de quelques neurones peut suffire à perturber des populations neuronales<br />

de grande taille. Ce résultat démontre donc la faisabilité d’un réseau modulaire,<br />

modifiant la dynamique de populations neuronales par la simple perturbation de<br />

quelques neurones. Ceci est en accord avec l’idée d’une perception globale des<br />

perturbations induites par quelques sites de forçage.<br />

7.3.2 Variation du coefficient de rétroaction<br />

Un autre paramètre possède un rôle important dans la dynamique neuronale, celui de<br />

rétroaction. En général, pour des raisons de stabilité et de plausibilité biologique, il est négligé<br />

TROISIEME PARTIE : RESULTATS


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

dans les études. Nous avons donc repris le réseau étudié au début de ce chapitre, dans lequel des<br />

comportements chaotiques ont été mis en évidence (Figure 7-2, p.146), et avons tracé les carte<br />

de bifurcation de trois neurones (Figure 7-43).<br />

Figure 7-43 : Carte de bifurcation en fonction de Wii<br />

Cette expérience montre le caractère bifurquant du coefficient de rétroaction, et la<br />

complexification des dynamiques neuronales pour les valeurs négatives de Wii. Mais, malgré<br />

l’intérêt probable de ce paramètre, nous n’avons pas poussé plus loin son analyse, pour des<br />

raisons de plausibilité biologique. En effet, aucune évidence n’a été faite de l’existence de<br />

connexion directe d’un neurone sur lui-même.<br />

7.3.3 Variation des délais<br />

Devant l’intérêt que semblent présenter à la fois les réseaux à fonction de transfert en<br />

sortie (pour leur capacité de diffusion de l’information), et les réseaux à délais (pour leur capacité<br />

de synchronisme), nous avons cherché à voir quelle était l’influence de l’accroissement des délais,<br />

dans un réseau stabilisé sur des vortex. La Figure 7-44 montre quatre itérations successives de ce<br />

réseau torique, sans délais : plusieurs vortex sont présents, avec des rotations différentes, et<br />

entretiennent le réseau sur un cycle limite (Figure 7-44). Pour faire varier les délais, nous avons<br />

introduit des délais aléatoires dans le modèle, que nous avons projetés sur un intervalle [0;Dmin]<br />

DYNAMIQUES OBSERVEES ET EXPERIMENTEES 181


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

de plus en plus grand (de [0,0] à [0,20]). De cette façon, la même configuration des délais est<br />

réalisée.<br />

Figure 7-44 : Multiples vortex<br />

Puis, pour différentes valeurs de Dmin, nous avons tracé les sorties, la matrice<br />

d’isofréquence, et d’isophase du réseau. La fréquence choisie pour représenter ces deux dernières<br />

matrices est la fréquence principale du coeur des vortex.<br />

Sans délais, le réseau est sur un cycle limite, avec tous les vortex tournant à la même<br />

vitesse. Le paysage de fréquence est donc simple : il existe principalement deux fréquences. La<br />

première correspond à celle de la vitesse de rotation des bras du vortex, et la deuxième à la<br />

vitesse de battement du coeur du vortex. Comme on peut le voir sur la Figure 7-45, la matrice<br />

isofréquence du réseau à Dmin=0, est presque partout en rouge, sauf au niveau des coeurs. Les<br />

phases, elles, correspondent aux bras des vortex, qui tournent en phase.<br />

En augmentant les délais, les vortex disparaissent, et le paysage de fréquence se<br />

complexifie. Pour de faibles valeurs de Dmin, le coeur des vortex continue à battre à une fréquence<br />

différente de celle des bras. Ensuite, la forme des populations neuronales en phase se<br />

complexifie, et leur taille diminue. A partir d’une certaine valeur de Dmin, les dynamiques<br />

individuelles deviennent chaotiques. Si on laisse évoluer le réseau à Dmin=20, il existe toujours une<br />

182<br />

TROISIEME PARTIE : RESULTATS


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

forme de diffusion d’onde dans le réseau, mais selon des circuits qui sont devenus très<br />

complexes.<br />

Figure 7-45 : Modification du paysage fréquentiel avec Dmin<br />

Ce type de comportement est à rapprocher de celui observé en faisant varier Wmin,<br />

c’est à dire en augmentant l’intervalle des poids : l’information diffuse dans le réseau selon des<br />

‘circuits’ qui se complexifient avec l’augmentation de Wmin. Ainsi, les poids et les délais peuvent<br />

faire varier le paysage de diffusion et de synchronisme dans un réseau à fonction de transfert en<br />

sortie. Ce type de neurone étant fonctionnellement proche (dans les cas étudiés ici), d’un neurone<br />

à période réfractaire, ces résultats démontrent l’intérêt potentiel de réseaux à délais, à période<br />

réfractaire, pour la modularisation (due à la diffusion des sites de forçage), basé sur<br />

l’apprentissage de synchronisme dans des dynamiques complexes, via un apprentissage sur les<br />

poids et les délais.<br />

7.4 Conclusion<br />

Le modèle proposé offre, comme nous pouvions nous y attendre, une très grande variété<br />

de comportements : les dynamiques locales des réseaux peuvent être chaotiques, diffusant leur<br />

activité dans le reste du réseau grâce à la connectivité locale 55 . Il apparaît ainsi des clusters<br />

d’activité synchronisée, dont la taille croît avec les délais. D’infimes variations des paramètres du<br />

réseau peuvent faire bifurquer les dynamiques du réseau, les faisant passer de cycles limites en<br />

dynamiques chaotiques. Parfois même, par des phénomènes d’hystérésis, une simple perturbation<br />

du réseau peut faire descendre un chaos vers un cycle limite.<br />

Nous avons observé des dynamiques complexes, organisées localement, facilement<br />

perturbées, qui diffusent leur activité et leur perturbation dans de grandes zones du réseau : les<br />

55 Une diffusion de même type apparaît dans des réseaux où la connectivité n’est pas locale, mais ce<br />

phénomène est moins explicite, puisque le réseau ne respecte pas une topologie simple..<br />

DYNAMIQUES OBSERVEES ET EXPERIMENTEES 183


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

propriétés requises pour le modèle de mémoire proposé sont donc vérifiées. Il est envisageable<br />

de concevoir un tel réseau.<br />

Evidemment, chaque propriété n’a été observée que dans un modèle particulier (modèle à<br />

délai, à mémoire, à fonction de transfert en sortie...). Mais il faut s’attendre à ce que le modèle le<br />

plus général, tel qu’il a été proposé, vérifie l’ensemble des propriétés présentées dans ce chapitre,<br />

car les modèles étudiés en sont des cas particuliers. Malheureusement, le modèle neuronal<br />

proposé est de très grande complexité, car il possède de très nombreux paramètres. Nous<br />

reprendrons donc les différents sous modèles afin de chercher et d’orienter des règles<br />

d’apprentissage implémentables dans ces réseaux, vérifiant les propriétés du modèle de mémoire<br />

proposé<br />

184<br />

TROISIEME PARTIE : RESULTATS


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

8. ANTICIPATION DU FORÇAGE DES DYNAMIQUES<br />

La mémoire procède à un calcul musical, un calcul prophétique.<br />

Edgard Allan Poe. Eureka<br />

8.1 Introduction : Un algorithme on-line local ?<br />

Comme cela a été exposé précédemment au sujet des algorithmes d’apprentissage<br />

utilisés pour les réseaux récurrents, il suffirait que l’un d’entre eux soit on-line et local, pour qu’il<br />

soit biologiquement plausible. Nous avons donc essayé de modifier ces algorithmes, en faisant<br />

une approximation de localité dans RTRL, ou en limitant la mémorisation nécessaire à BPTT.<br />

Dans les deux cas, de tels algorithmes peuvent encore être efficaces pour des fonctions simples<br />

telles que des sinusoïdes. Ainsi, ces algorithmes simplifiés permettent des apprentissages dont les<br />

résultats sont similaires à ceux obtenus avec les algorithmes originaux. En effet, dans la plupart<br />

des articles traitant de ces algorithmes, seules des fonctions simples sont apprises, et les valident<br />

[[153]]. Nous avons essayé, sans succès, de faire apprendre une dynamique de Lorenz à un<br />

réseau de 64 neurones, entièrement interconnectés, grâce à un apprentissage de type RTRL On<br />

peut en conclure que l’algorithme original RTRL réalise des approximations qui limitent ses<br />

capacités, sans trop nuire à l’apprentissage de fonctions simples. A ce jour, peu de réseaux<br />

récurrents ont appris de façon satisfaisante des dynamiques complexes. A notre connaissance,<br />

nous pouvons citer [[207]], qui, grâce à un réseau multicouches récurrent à mémoire, a pu faire<br />

apprendre la géométrie de l’attracteur de Lorenz. Dans [[128]], un simple réseau à 16 neurones<br />

réussit à apprendre une fonction de Hénon, et dans [[132]], un réseau récurrent à fonction radiale<br />

reproduit une dynamique de Mackey-Glass. Dans chacun des cas, le temps d’apprentissage est<br />

très long (de l’ordre du million d’itérations), et le choix des paramètres d’apprentissage est fait de<br />

façon expérimentale : un observateur extérieur doit adapter les gains d’apprentissage afin de<br />

permettre un apprentissage satisfaisant.<br />

Les expériences portant sur l’apprentissage, réalisées dans cette thèse, ne permirent pas<br />

l’apprentissage de fonctions chaotiques, ce qui aurait permis de valider l’hypothèse d’un<br />

apprentissage par anticipation d’environnements complexes forçant les dynamiques du système,<br />

grâce à un algorithme on-line local, biologiquement plausible. A chaque fois, l’algorithme se<br />

limitait à anticiper des fonctions simples. Mais, comme ce fut le cas lors de l’expérimentation des<br />

dynamiques, des propriétés mises en évidence pendant l’apprentissage permettent de penser que<br />

certains phénomènes observables dans les systèmes réels peuvent provenir de lois similaires, et<br />

ont inspiré le développement du modèle théorique.<br />

ANTICIPATION DU FORÇAGE DES DYNAMIQUES 185


186<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

8.2 L’apprentissage Hebbien<br />

8.2.1 Description<br />

Cet apprentissage est on-line et local et réalise, pour chaque neurone, un calcul du type<br />

dwij =h xx i j<br />

Dans le cadre de cette thèse, cette règle a été généralisée sous la forme, ce qui peut<br />

permettre d’éviter la symétrie dwij=dwji :<br />

dw = w si x > c et x > c<br />

ij 11<br />

i j<br />

dw = w si x > c et x < c<br />

ij 10<br />

i j<br />

dw = w si x < c et x > c<br />

ij 01<br />

i j<br />

dw = w si x < c et x < c<br />

ij 00<br />

i j<br />

8.2.2 Résultats : Points fixes et fractalisation du réseau<br />

Figure 8-1 : Influence de l'apprentissage Hebbien sur les attracteurs<br />

Dans sa thèse intitulée ‘Apprentissage dans les réseaux neuromimétiques à dynamique<br />

chaotique’ [[32]], Mathias Quoy a montré clairement l’intérêt d’une règle hebbienne pour<br />

TROISIEME PARTIE : RESULTATS


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

l’apprentissage dans des réseaux récurrents, et la plausibilité biologique de cette approche. Dans<br />

les deux cas (connexionniste et biologique), la dimension de l’attracteur cérébral diminue lors de<br />

la reconnaissance d’un stimulus 56 . Ainsi, l’application d’une règle hebbienne réalise cette<br />

diminution de la dimension fractale de l’attracteur du réseau.<br />

Malheureusement, un tel encodage ne peut pas être appliqué en permanence dans le<br />

réseau dans les cas où l’évolution des poids suit une loi symétrique telle que dwij = dw ji . En<br />

effet, une telle règle tend à symétriser les poids, et donc amène le réseau vers un point fixe.<br />

Ainsi, par exemple, en reprenant le réseau dont quelques attracteurs ont été tracés sur la<br />

Figure 7-2, qui est un réseau Hopfieldien classique (sans délai, ni mémoire), un apprentissage<br />

hebbien, avec w10=w01, modifie les attracteurs locaux (Figure 8-1). Mais si l’on continue ce même<br />

apprentissage, les attracteurs convergent tous vers un point fixe (Figure 8-2). De la même façon,<br />

les poids sont symétrisés dans un réseau à délais, amenant les dynamiques sur des points fixes.<br />

Figure 8-2 : Evolution de l'attracteur du neurone 3-0<br />

Afin d’éviter cette symétrisation des poids, nous avons choisi des variations de poids<br />

évitant la saturation des neurones à 1 ou 0, et l’empêchant ainsi d’aller vers un point fixe. Dans ce<br />

but, nous avons fixé w11 à une valeur négative qui empêche les neurones de converger vers 1, et<br />

w00 à une valeur positive afin d’éviter sa convergence vers 0. De plus, en fixant w10 à une valeur<br />

positive, cela tend à diffuser dans le réseau les zones excitées.<br />

Dans un tel réseau, nous avons initialisé l’ensemble des poids et des états à zéro, puis<br />

nous avons forcé à 1 le carré central 16x16 d’un réseau 128x128. La Figure 8-3 montre l’état<br />

56 Malgré la remise en cause de la validité des calculs de dimension fractale dans les attracteurs<br />

biologiques[[140]][[189]], nous pouvons considérer que les estimations de diminution de ces dimensions<br />

restent valides.<br />

ANTICIPATION DU FORÇAGE DES DYNAMIQUES 187


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

central du réseau pour t allant de 200 à 210. On voit, dans cette figure, le carré noir central<br />

(neurones à 1), et des sortes de ‘napperons’ qui diffusent lentement autour de la zone stimulée.<br />

Figure 8-3 : Diffusion de l'apprentissage. t=200<br />

De plus, la zone qui diffuse peut être séparée en deux sous-zones. La première, qui<br />

entoure les axes de symétrie du carré central, contient des neurones qui ont atteint un cycle limite<br />

à deux états, 1 et 0, et dont les poids ont saturé vers leurs valeurs extrémales, +1 ou -1. La<br />

seconde zone, qui apparaît plus grisée sur la figure précédente, contient des neurones qui n’ont<br />

pas saturé à 1 ou 0, et dont les poids sont encore faibles et instables, passant rapidement d’une<br />

valeur positive à une valeur négative. Cette instabilité se remarque par la grande variabilité des<br />

figures qui apparaissent entre t et t+1.<br />

Figure 8-4 : Diffusion de l'apprentissage. t=600<br />

Cette instabilité devient alors peu à peu irrégulière, et est comparable à un bruit qui<br />

continue à diffuser dans le réseau. Ainsi, par exemple, les zones grises de la Figure 8-4 , à t=600,<br />

apparaissent nettement moins organisées que celles de la Figure 8-3. Par contre, les bras des<br />

axes de symétrie du carré central continuent à diffuser, en entretenant les figures géométriques<br />

qu’ils produisent. (Figure 8-5).<br />

En laissant évoluer ainsi ce modèle, les bras finissent par emplir l’ensemble du réseau, en<br />

le menant finalement vers un cycle binaire, où les neurones oscillent entre 1 et 0 (Figure 8-6).<br />

Normalement, pour un carré parfait, l’organisation des zones à 1 et des zones à 0 devraient<br />

respecter les axes de symétrie du carré. Or, dans l’expérience réalisée ici, le carré central n’est<br />

pas uniformément égal à 1, certaines valeurs de sa frontière ayant été mises à 0,9. Ceci explique<br />

que l’état final vers lequel converge le réseau ne possède pas les quatre symétries du carré de<br />

forçage.<br />

188<br />

TROISIEME PARTIE : RESULTATS


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Figure 8-5 : Diffusion de l'apprentissage. t=800<br />

Mais il est intéressant de noter sur le zoom de la figure ci-dessous, que les zones noires,<br />

qui représentent l’ensemble des neurones à 1, se désorganisent progressivement au fur et à<br />

mesure que l’on s’éloigne du centre de forçage, en perdant leur symétrie initiale. Ainsi, un tel<br />

réseau amplifie les différences initiales du carré, et peut permettre de voir une forme de sensibilité<br />

aux conditions initiales, en assimilant ces conditions initiales au pattern forçant le réseau.<br />

Figure 8-6 : Fractalisation d'un réseau. t=4000<br />

Ce type de comportement est très encourageant pour la ligne de travail que nous nous<br />

sommes fixée en début de thèse. En effet, le comportement décrit précédemment contient deux<br />

propriétés caractéristiques de celles que nous souhaitions obtenir. La première est celle de la<br />

diffusion de l’information dans le réseau, plus facilement visualisable grâce au caractère<br />

strictement local des récurrences du réseau (chaque neurone est uniquement connecté à ses huit<br />

plus proches voisins). Un tel comportement nous permet d’espérer voir une modularisation<br />

fonctionnelle des réseaux utilisant des règles d’apprentissage dérivées de celle décrite ici. Selon<br />

ANTICIPATION DU FORÇAGE DES DYNAMIQUES 189


190<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

le même principe, la modification du réseau se fera préférentiellement dans la direction des poids<br />

forts, mais ici, comme la règle d’apprentissage ne tient pas compte de la valeur des wij, ce<br />

phénomène est plutôt dû au fait que les poids forts facilitent l’activité des neurones, et accélèrent<br />

donc la modification de leurs poids. On retrouve donc le même principe de modularisation, mais<br />

selon un principe différent. La seconde caractéristique est que cette modularisation fonctionnelle<br />

ne se fait pas par des modules possédant une hiérarchie simple et localisée autour des entrées du<br />

réseau. Il est en effet possible de voir que les zones ayant saturé à 1 ou 0 s’organisent en paysage<br />

qualifiable de fractal, fait de méandres plus ou moins fins. Afin de mettre en évidence ce<br />

comportement, nous avons réalisé un filtrage passe-bas de l’état du réseau, qui permet de mettre<br />

mieux en valeur ces zones connexes de méandres. Un tel résultat est à rapprocher de ceux<br />

portant sur les cartes topologiques des spécialisations neuronales.<br />

Le premier résultat auquel fait penser<br />

cette organisation a été obtenu par Hubel &<br />

Wiesel[[100]]. Sur la Figure 8-7 a été tracé la<br />

surface du cortex d’un macaque, avec, en noir,<br />

l’ensemble des neurones qui répondent<br />

spécifiquement à la stimulation d’un même<br />

oeil. Il est possible de voir que la spécialisation<br />

neuronale observée suit le même type de<br />

figure que celles obtenues par un simple<br />

apprentissage hebbien. Le second résultat à<br />

rapprocher est celui obtenu par Weliky & al.<br />

[[212]], qui ont décrit de façon systématique<br />

les zones de l’aire 17 du cortex visuel primaire<br />

répondant sélectivement à l’orientation du<br />

stimulus visuel : il y a, de la même façon, une<br />

Figure 8-7 : Paysage des spécificités neuronales<br />

interpénétration des zones de réponse préférentielle à chacune des orientations. Nous postulerons<br />

donc que ce type d’organisation de la fonctionnalité des neurones suit le même principe d’une<br />

segmentation complexe du paysage neuronal, due à l’apprentissage, et non pas causée par une<br />

pré-spécialisation neuronale. Nous chercherons donc à utiliser des règles pouvant, de la même<br />

façon, ‘fractaliser’ l’organisation fonctionnelle de l’architecture neuronale.<br />

Une autre remarque vient s’ajouter à celles ci, qui confirme l’idée de l’utilisation d’une<br />

période réfractaire. En effet, l’utilisation d’un w11 de valeur négative, oblige le neurone qui a saturé<br />

à 1 à diminuer son coefficient de rétroaction wii , et donc d’évoluer vers un neurone à forte<br />

rétroaction négative. Ainsi, un neurone qui sature voit son état diminuer jusqu’à ce que sa sortie<br />

soit ramenée à zéro. Ceci peut être interprété sous forme d’une fatigue du neurone, qui peut<br />

correspondre d’une certaine façon à une période réfractaire. On peut voir dès lors un lien entre<br />

modularisation fonctionnelle ‘fractalisée’, période réfractaire et règle d’apprentissage hebbienne.<br />

8.3 Diffusion de l'erreur dans le réseau<br />

Bien que la règle présentée précédemment soit intéressante pour notre approche, car elle<br />

permet la diffusion de l’apprentissage dans le réseau, et peut donc permettre une modularisation<br />

fonctionnelle en créant des zones aux frontières complexes, elle présente un défaut qui nous<br />

limite dans son utilisation : elle ne cherche pas à anticiper le signal forçant, et donc à minimiser<br />

TROISIEME PARTIE : RESULTATS


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

l’influence de la perturbation induite. Ainsi, il n’est pas possible de mettre en application l’idée<br />

d’une reconnaissance par anticipation du signal forçant (5.2 Principes , p.98).<br />

Il est donc nécessaire ,dans un premier temps, de se tourner vers les règles à descente de<br />

gradient, afin de minimiser l’écart entre la dynamique du réseau et le signal de forçage extérieur.<br />

Malheureusement, comme nous l’avons déjà vu, les seules règles développées à ce jour réalisant<br />

cette descente de gradient sont soit non on-line, soit non locales, et perdent donc toute plausibilité<br />

biologique. Il sera donc nécessaire, dans les règles qui suivent, de perdre la possibilité de calcul<br />

d’un gradient exact, en les rendant on-line et locales.<br />

8.3.1 Description<br />

La rétropropagation du gradient revient à faire parcourir à l’envers les erreurs réalisées<br />

par les sorties du réseau, afin de modifier à posteriori les poids synaptiques. Un tel comportement<br />

peut être plausible, puisqu’il existe bien dans le neurone biologique une transmission d’information<br />

du soma vers la synapse. Par contre, BPTT mémorise le passé du réseau afin de déterminer le<br />

gradient de l’erreur à chaque itération passée : il est donc off-line.<br />

Qu’en est-il si cet algorithme est rendu artificiellement on-line ?<br />

La première idée proposée fut de ne pas mémoriser les états passés du réseau, de<br />

laisser diffuser à l’envers l’erreur dans le réseau, et d’effectuer l’apprentissage sur l’erreur locale<br />

ainsi calculée (Figure 8-8).<br />

Figure 8-8 : Rétropropagation de l'erreur<br />

Cette méthode est similaire à celle utilisée par BPTT, ou par la rétropropagation, qui<br />

consiste à faire circuler à l’envers l’erreur des neurones de sortie. Ici, la sortie est représentée par<br />

le neurone que l’on veut forcer. La différence principale porte sur la conservation de la valeur des<br />

erreurs, à chaque itération. En effet, contrairement à BPTT, où l’apprentissage est réalisé tous les<br />

T itérations, et réinitialise à 0 les erreurs du réseau, dans le cas présenté ici, T vaut 1, et les<br />

erreurs ne sont par réinitialisées, afin de permettre leur diffusion dans le réseau. A chaque<br />

itération, le réseau propage à l’envers cette erreur aux neurones voisins. Dans le cas où il s’agit<br />

d’un réseau à mémoire, il est possible de s’inspirer de l’algorithme de Wan [[207]], qui a généralisé<br />

l’algorithme de rétropropagation du gradient aux réseaux multicouches feed-forward. Sa méthode<br />

consiste à convoluer le vecteur erreur avec le vecteur poids (Figure 8-9).<br />

ANTICIPATION DU FORÇAGE DES DYNAMIQUES 191


192<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Figure 8-9 : Convolution avec les poids<br />

De cette façon, chaque neurone possède une variable locale, transmise de neurone à<br />

neurone, selon des lois on-line locales de type :<br />

k<br />

ej() t = wijei( t-k) i k<br />

TROISIEME PARTIE : RESULTATS<br />

M i<br />

åå<br />

Ainsi, chaque neurone possède une mémoire de ses erreurs passées, ce qui peut<br />

permettre de faire apprendre chaque wij, par une règle du type :<br />

dwij(t)=ei(t-k).wijk.Xj<br />

8.3.2 Résultats : Apprentissage de cycles limites<br />

Figure 8-10 : Evolution vers un cycle limite


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Cette méthode a été utilisée dans<br />

un simple réseau de 64 neurones,<br />

entièrement interconnecté, en forçant l’un<br />

des neurones à suivre une sinusoïde. Elle<br />

permet, en partant d’un réseau dont tous les<br />

neurones sont à 0, avec des poids initiaux<br />

égaux, d’amener la dynamique forcée sur le<br />

cycle limite forçant (Figure 8-10). Il y a bien<br />

dans ce cas, comme dans le cas de<br />

l’apprentissage hebbien présenté<br />

précédemment, diffusion de l’activité à<br />

partir du site de forçage, avec une<br />

modification plus forte des poids proches de<br />

ce site. En effet, les poids initiaux étant<br />

faibles, et le réseau étant sur un point fixe,<br />

le site de forçage réalise une erreur est vite<br />

atténuée pendant sa rétro-propagation.<br />

Mais cette erreur, qui fait croître les poids<br />

par l’apprentissage, crée des circuits de<br />

propagation privilégiée, qui permettent de<br />

la faire diffuser plus loin.<br />

Parfois, cet apprentissage fait<br />

diverger les paramètres du réseau.<br />

En effet, tout comme pour RTRL,<br />

la diffusion de l’erreur n’est pas bornée. Il<br />

peut donc apparaître des zones de<br />

résonnance, où elle augmente rapidement.<br />

Devenant élevée, elle fait accroître les<br />

poids rapidement, ce qui accélère encore la<br />

divergence de l’erreur. Afin de résoudre ce<br />

problème, nous avons souvent eu recours<br />

dans les expériences qui suivent, à un<br />

seuillage artificiel de l’erreur.<br />

Figure 8-11 : Synchronisation lors de l'apprentissage<br />

Bien souvent, durant<br />

l’apprentissage, la courbe d’erreur effectue<br />

des sauts. Parfois très proche de 0, elle<br />

augmente en quelques itérations, pour<br />

redescendre ensuite lentement vers 0.<br />

Ainsi, par exemple, il peut arriver que le<br />

signal du réseau soit très proche du signal<br />

du forçage, mais qu’il reste une erreur<br />

résiduelle. Comme cette erreur résiduelle<br />

n’est pas réinitialisée, celle-ci croît jusqu’à<br />

qu’elle soit suffisante pour faire basculer<br />

rapidement les poids vers d’autres Figure 8-12 : Synchronisation par ajout de fréquence<br />

configurations, ce qui modifie rapidement les dynamiques, en les éloignant du signal de forçage.<br />

Alors, l’erreur recommence à décroître lentement.<br />

ANTICIPATION DU FORÇAGE DES DYNAMIQUES 193


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Ce phénomène est parfois à l’origine de resynchronisation du signal de forçage sur le<br />

signal du réseau (Figure 8-11) : à 1900 itérations, les deux dynamiques (celle de forçage et celle<br />

du réseau) sont presque identiques, à 7300, la dynamique du réseau se désynchronise<br />

rapidement, pour revenir ensuite à 15300 itérations, parfaitement en phase avec la dynamique<br />

forçante, avec une erreur plus faible. Parfois, ce comportement est à l’origine de resynchronisation<br />

du signal forçant sur le signal provenant du réseau (Figure 8-12) : à 5000 itérations, la sortie du<br />

réseau est en retard sur le signal de forçage, à 25000 itérations, une composante supplémentaire<br />

apparaît sur le signal du réseau, qui le modifie afin de le resynchroniser à 35000 itérations. Dans<br />

le cas où le signal de forçage est enlevé, le réseau va sur son régime libre (Figure 8-13). Souvent,<br />

il y a simplification de la dynamique à la perte du forçage. Pendant quelques itérations, le réseau<br />

continue à suivre la dynamique forçante, puis celle-ci s’évanouit peu à peu.<br />

Ce phénomène est en accord avec les principes de dépersévaration présentés<br />

précédemment : le souvenir (l’état induit par le forçage) s’évanouit peu à peu à la perte de la<br />

présentation du stimulus. Par contre, la nouvelle présentation de cette même dynamique amène<br />

très rapidement le réseau à la suivre : il l’anticipe très rapidement.<br />

Figure 8-13 : Influence de la perte du forçage<br />

Ceci peut correspondre aux principes de rappels : le réseau retrouve les principes<br />

d’anticipation de l’environnement qu’il a appris auparavant. Ainsi, la courbe du milieu de la Figure<br />

8-13 représente la dynamique de sortie du réseau, tracée à partir du début de l’apprentissage : le<br />

194<br />

TROISIEME PARTIE : RESULTATS


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

réseau met beaucoup plus de temps à apprendre le signal de forçage, qu’à s’en ‘rappeler’. Ainsi,<br />

un tel apprentissage permet de réaliser l’apprentissage de fonctions simples, telles que des<br />

sommes de sinusoïdes. Malheureusement, dès que la fonction à apprendre devient plus<br />

complexe, le réseau se stabilise sur une erreur minimale, qui finit par augmenter en très peu<br />

d’itérations, pour recommencer à décroître lentement, et ainsi de suite.<br />

Nous avons remarqué que les fonctions symétriques où il existe t0 tel que f(t0-t)=f(t0+t),<br />

sont plus simples à apprendre par le réseau.<br />

Ce phénomène peut être expliqué par un ‘rebond’ de l’erreur dans le réseau : à chaque<br />

instant t, le neurone forcé réalise une erreur e(t), qui est transmise à ses voisins, qui font de<br />

même. De cette façon, un neurone à une distance d du site de forçage reçoit l’erreur e(t-d). Ainsi, il<br />

va modifier ses paramètres afin de minimiser e(t-d), et va renvoyer sa sortie ainsi modifiée, qui se<br />

propagera en un temps d jusqu’au neurone forcé.<br />

Ainsi, ce type de réseau va chercher à rapprocher x(t-d) de x(t+d), pour l’ensemble des d,<br />

car le réseau diffuse les perturbations dues au forçage dans tout le réseau. Ainsi, s'il existe x0, tel<br />

que f(t0-t)=f(t0+t), le réseau aura un apprentissage cohérent pour d=t0, ce qui lui permettra<br />

d’apprendre cette fonction symétrique.<br />

8.4 Forçage des dynamiques complémentaires<br />

8.4.1 Description<br />

Pour rendre RTRL local,<br />

la méthode ne peut pas être aussi<br />

simple que pour rendre on-line<br />

BPTT, car la restriction des<br />

équations à leur composante<br />

locales les rendent inadéquates :<br />

RTRL est par conception, un<br />

algorithme non-local. Comme nous<br />

l’avons vu dans le chapitre où sont<br />

analysées les dynamiques<br />

observées dans les réseaux<br />

récurrents [Chap. 7, Dynamiques<br />

observées, p.143], l’ajout d’un<br />

forçage sur un ou plusieurs<br />

neurones modifie les dynamiques<br />

locales du réseau. D’une certaine<br />

façon, l’ensemble de ces<br />

dynamiques obtenues dans le Figure 8-14 : Forçage des dynamiques complémentaires<br />

réseau peuvent être qualifiées de ‘naturelles’ pour le réseau. Tout comme la réponse d’un système<br />

à une impulsion donne en sortie sa fonction de transfert, on peut dire que les dynamiques<br />

obtenues sur les neurones non-forcés contiennent une partie de l’information encodée par les<br />

paramètres du réseau. Il est ainsi possible d’imaginer que ces dynamiques seront plus facilement<br />

apprises par ce réseau, car elles correspondent à des dynamiques qui proviennent de lui.<br />

ANTICIPATION DU FORÇAGE DES DYNAMIQUES 195


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Ceci est l’idée sous-jacente de cette règle d’apprentissage : faire évoluer en parallèle deux<br />

réseaux identiques, dont les sorties de l’un sont les entrées forçantes du second, excepté les<br />

sorties forcées du premier (Figure 8-14).<br />

Etant donné que les deux réseaux sont identiques, il est possible de supposer que ce<br />

forçage sera plus simple à apprendre par le second réseau. Le but de l’apprentissage envisagé est<br />

alors de rapprocher les dynamiques des deux réseaux, en appliquant les règles d’apprentissage<br />

proposées dans le cas d’un forçage total (5 Avec Teacher forcing total, p.88). Si ces deux réseaux<br />

convergent vers la même dynamique, cela signifie que les dynamiques forcées sont égales aux<br />

dynamiques non forcées : le régime libre du réseau anticipe les dynamiques induites par le<br />

forçage.<br />

Un tel apprentissage conserve les contraintes d’apprentissage on-line et local. Par contre<br />

la plausibilité biologique est perdue, puisqu’il est nécessaire de faire évoluer en parallèle deux<br />

copies du réseau.<br />

8.4.2 Résultats<br />

196<br />

1. Cycles limites du régime libre initial<br />

Le réseau étudié est un simple réseau hopfieldien, sans mémoire, entièrement<br />

interconnecté. Nous l’avons choisi entièrement interconnecté, car pour ce faible nombre<br />

de neurones, les phénomènes de diffusion ne sont pas visibles, et nous voulions<br />

commencer par la validation des règles sur de petits modèles, en les généralisant<br />

ensuite aux grands réseaux à voisinage local. En lâchant ce réseau à partir de conditions<br />

initiales aléatoires, les seize neurones finissent par se stabiliser chacun sur un cycle<br />

limite (Figure 8-15).<br />

2. Complexification des dynamiques par perturbation<br />

Le forçage a été réalisé sur le neurone [2,2]. Cette perturbation induit une<br />

modification de l’ensemble des attracteurs du réseau, qui se complexifient (Figure 8-16).<br />

Nous avons tracé en superposition pour le neurone [2,2] la dynamique de forçage (une<br />

simple sinusoïde), et la sortie du second réseau (dont tous les autres neurones sont<br />

forcés).<br />

3. Minimisation des perturbations induites<br />

L’apprentissage réalisé modifie rapidement les attracteurs de l’ensemble du réseau.<br />

La dynamique du neurone [2,2] cherche bien à suivre la dynamique extérieure. En<br />

continuant l’apprentissage, après 10000 itérations, la dynamique du neurone [2,2]<br />

continue à se rapprocher de la dynamique extérieure.<br />

TROISIEME PARTIE : RESULTATS


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Figure 8-15 : Dynamiques libres du réseau avant apprentissage<br />

Figure 8-16 : Effets du forçage sans apprentissage<br />

ANTICIPATION DU FORÇAGE DES DYNAMIQUES 197


198<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

4. Dépersévération en régime libre<br />

En enlevant le forçage, le réseau quitte la dynamique extérieure vers laquelle il<br />

convergeait : il y a perte des dynamiques induites par l’environnement. D’une certaine<br />

façon, comme cela a été proposé dans le modèle de mémoire, le réseau oubli peu à peu<br />

les dynamiques qu’il était en train d’apprendre. Il y dépersévération. Par contre, si la<br />

dynamique forçante est présentée de nouveau, le réseau quitte rapidement son régime<br />

libre pour retrouver l’état qu’il avait quitté à la perte du forçage. Il y a rappel de<br />

l’information apprise, car la même dynamique forçante n’a pas le même effet au début et<br />

à ce stade de l’apprentissage. Au début (Figure 8-16, p.197), la dynamique forçante était<br />

perturbatrice, et après 15000 itérations, le réseau se remet à suivre rapidement la<br />

dynamique forçante (Figure 8-19).<br />

5. Apprentissage par coeur par des dynamiques chaotiques<br />

Après 13 millions d’itérations, le régime libre du réseau est assez proche de la<br />

dynamique forçante : il approche de l’apprentissage par coeur, stade à partir duquel il<br />

peut simuler en interne la dynamique externe. Ce comportement est conforme à<br />

l’hypothèse de minimisation des perturbations induites<br />

6. Bifurcations de l’attracteur en régime libre<br />

Afin de voir l’évolution de l’attracteur appris, c’est à dire l’attracteur du régime libre du<br />

réseau, nous avons mémorisé l’état des paramètres du réseau (poids et conditions<br />

initiales) toutes les 10000 itérations.<br />

Ensuite, nous avons laissé évoluer chacun de ces réseaux pendant 1000 itérations<br />

afin de le laisser se stabiliser, puis avons enregistré l’attracteur stabilisé en régime libre.<br />

Les attracteurs atteints par le réseau ont enfin été juxtaposé, pour visualiser l’évolution<br />

de l’attracteur du régime libre du réseau pendant les 13 millions d’itérations<br />

d’apprentissage réalisées (Figure 8-23).<br />

L’attracteur en régime libre ne semble pas converger vers un attracteur final, ce que<br />

l’on aurait pu espérer. Cet attracteur final aurait été similaire à l’attracteur de la<br />

dynamique forçante, ce qui aurait correspondu à un apprentissage par coeur (le réseau<br />

simulerait en interne la dynamique forçante de l’environnement, sans présentation de<br />

celle-ci). Ce résultat démontre néanmoins que le réseau balaie un paysage complexe<br />

d’attracteurs, qui, pour la plupart, facilitent l’anticipation du signal de forçage lorsqu’il est<br />

présenté (l’erreur diminue progressivement).<br />

TROISIEME PARTIE : RESULTATS


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Figure 8-17 : Evolution des dynamiques après 5000 pas d’apprentissage<br />

Figure 8-18 : Evolution des dynamiques après 10000 pas d’apprentissage<br />

ANTICIPATION DU FORÇAGE DES DYNAMIQUES 199


200<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Figure 8-19 : Après 15000 pas d’apprentissage. Début de la phase en régime libre<br />

Figure 8-20 : Complexification des dynamiques en régime libre entre 20000 et 25000 pas<br />

TROISIEME PARTIE : RESULTATS


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Figure 8-21 : Stabilisation des dynamiques<br />

Figure 8-22 : Dynamiques libres apprises après 13E6 itérations<br />

ANTICIPATION DU FORÇAGE DES DYNAMIQUES 201


202<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

8.5 Vers l’algorithme on-line local ?<br />

8.5.1 Description<br />

Figure 8-23 : Evolution de l'attracteur en régime libre<br />

Comme nous l’avons vu dans les précédents algorithmes, il est difficile, voire impossible<br />

de conjuguer les aspects on-line et local dans une même règle d’apprentissage fiable pour les<br />

réseaux récurrents. En effet dans les exemples précédents, aucun n’a permis d’obtenir un<br />

apprentissage valide pour des dynamiques de forçage complexes : les seules dynamiques<br />

apprises sans trop d’erreur sont des dynamiques périodiques et symétriques. Donc, plutôt que de<br />

chercher à rendre artificiellement on-line et local les règles de descente de gradient dans les<br />

réseaux récurrents, peut être serait-il préférable de forcer une règle hebbienne à réaliser une<br />

minimisation de l’erreur des neurones forcés. Il est possible de dériver des règles de ce type, en<br />

s’inspirant de l’apprentissage par bonification. Ainsi, par exemple, si l’on prend un réseau à<br />

différences finies, l’évolution au cours du temps d’une de ses sorties est donnée par :<br />

æ ö<br />

xi( t + dt) = ( 1-<br />

dt) xi() t + dt. f çåwijxj()<br />

t ÷<br />

è j ø<br />

TROISIEME PARTIE : RESULTATS


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Prenons, comme dans l’algorithme précédent, un second réseau possédant les mêmes<br />

paramètres que le premier, mais dans un état différent. De la même façon, nous avons :<br />

~ ( ) ( ) ~ æ<br />

x t dt dt x () t dt. f w x~ ö<br />

i + = 1-<br />

i + çå<br />

ij j()<br />

t ÷<br />

è j ø<br />

Maintenant, en soustrayant ses deux équations l’une à l’autre, nous obtenons :<br />

~ ( ) ( ) ( ) ( ~ æ<br />

() () ) . ~ ö<br />

xi t + dt - xi t + dt = -dt xi t - xi t + dt f ç wijxj() t ÷-f wijxj() t<br />

è j ø j<br />

æ<br />

é<br />

öù<br />

1<br />

ê å çå<br />

÷ ú<br />

ëê<br />

è øûú<br />

Ce qui donne, en posant e () t = x~ () t - x () t :<br />

i i i<br />

æ<br />

ei( t dt) ( dt) ei() t dt. f w ~ ö<br />

+ = - + ç ijx j()<br />

t ÷-f wijx j()<br />

t<br />

è j ø j<br />

æ<br />

é<br />

öù<br />

1<br />

ê å çå<br />

÷ ú<br />

ëê<br />

è øûú<br />

Si l’on suppose que les réseaux ont des états proches :<br />

f w x<br />

~<br />

å ij j()<br />

t f åwijxj()<br />

t<br />

æ<br />

f w x~ ö<br />

j<br />

j<br />

çå<br />

ij j()<br />

t ÷-f åwijxj() t åwijej()<br />

t<br />

j<br />

j<br />

j<br />

w<br />

~<br />

è ø<br />

x () t w x () t<br />

æ ö<br />

ç ÷=<br />

è ø<br />

æ<br />

æ ö<br />

ç ÷-<br />

ö è ø<br />

ç ÷<br />

è ø<br />

æ ö<br />

ç ÷<br />

è ø<br />

-<br />

» æ<br />

ç<br />

è<br />

å<br />

j<br />

ö<br />

wijej() t ÷ f ¢ si() t<br />

ø<br />

å ij j å<br />

j<br />

j<br />

( )<br />

Ce qui permet d’obtenir une dynamique de l’erreur, calculée localement :<br />

ei( t + dt) = ( - dt) ei() t + dt wijej() t f si() t<br />

j<br />

æ ö<br />

1<br />

çå<br />

÷ ¢<br />

è ø<br />

( )<br />

Dès lors, en prenant une simple règle s’approchant des règles de bonification, du type :<br />

dw ( t + dt) = hx<br />

() t x () t e ( t + dt)<br />

ij i j i<br />

Il est possible de voir que le nouvel état du réseau avec cet apprentissage sera :<br />

æ<br />

ö<br />

xi( t + dt) = ( 1-<br />

dt) xi() t + dt. f çå(<br />

wij + dwij ) xj() t ÷<br />

è j<br />

ø<br />

æ<br />

ö<br />

= ( 1-<br />

dt) xi () t + dt. f çå(<br />

wij + h xi() t xj() t ei( t + dt) ) xj() t ÷<br />

è j<br />

ø<br />

æ ö<br />

æ<br />

2ö<br />

» ( 1-<br />

dt) xi () t + dt. f çåwijxj()<br />

t ÷ + h xi( t) ei( t + dt) f çåxj()<br />

t ÷<br />

è j ø<br />

è j ø<br />

æ<br />

2ö<br />

= xi(<br />

t + dt) + hdt.<br />

xi( t) ei( t + dt) f çåxj()<br />

t ÷<br />

è j ø<br />

ANTICIPATION DU FORÇAGE DES DYNAMIQUES 203<br />

ij j


204<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Soit :<br />

h¢<br />

64444744448 é æ öù<br />

2<br />

xi ( t + dt) - xi ( t + dt) = êhdt.<br />

xi() t fç x j()<br />

t ~<br />

å ÷ úxi<br />

( t<br />

ëê<br />

è j øûú<br />

dt) xi ( t dt)<br />

TROISIEME PARTIE : RESULTATS<br />

( + - + )<br />

Cette dernière équation montre que, dans le cas où h¢ est positif, le nouvel l’état, après<br />

apprentissage, est plus proche du second réseau. Il est donc nécessaire d’utiliser des réseaux à<br />

sortie positive. Les essais réalisés selon cette approche n’ont pas permis de réaliser le moindre<br />

apprentissage. L’erreur vient sans doute des approximations réalisées qui supposent que les x et<br />

les ~ x sont proches, ce qui ne peut être le cas que si le forçage est négligeable. Peut-être faudraitil<br />

alors s’orienter vers un forçage progressif ? Cette idée commence à apparaître, mais nous<br />

n’avons pas pu la mettre en application dans cette thèse.<br />

8.6 Conclusion<br />

La raison a tant de formes, que nous ne savons à laquelle nous prendre,<br />

l’expérience n’en a pas moins.<br />

Montaigne. Les essais.<br />

Au départ, cette thèse devait être consacrée à l’étude des capacités de synchronisme de<br />

grands réseaux biologiquement plausible, et dans ce but, nous avons développé un outil puissant<br />

qui nous a permis de simuler un grand nombre de modèles connexionnistes différents. Dans ce<br />

nombre, certains nous ont révélé des comportements qui, mis bout à bout, semblaient permettre<br />

d’échafauder un modèle théorique de mémoire qui nous a semblé encourageant, car plausible<br />

biologiquement. Les principes énoncés semblaient bons, et il suffisait de trouver un réseau qui<br />

garderait de chacun des réseaux expérimentés les propriétés souhaitées : modularisation,<br />

anticipation, dynamiques chaotiques, et synchronisme.<br />

Malheureusement, chaque réseau a conservé le privilège de ses propriétés : les réseaux à<br />

délais augmentent la taille des zones d’activité, les modèles à mémoire s’organisent par clusters,<br />

les modèles à fonction de transfert en sortie diffusent le forçage. Il semblerait donc que le modèle<br />

général proposé puisse cumuler les propriétés observées dans chacun de ses sous-modèles.<br />

Mais, la complexification croissante du modèle augmente le nombre de paramètres, tous<br />

potentiellement modifiables par apprentissage. Dans ces modèles complexes, seuls des<br />

dynamiques simples ont pu être apprises, grâce à des apprentissages locaux, on-line, non<br />

supervisés.<br />

Pourtant, ces apprentissages, inspirés de RTRL et BPTT, simplifiés à l’extrême,<br />

permettent de réaliser des apprentissages par coeur, aussi efficaces que ceux réalisés par<br />

certains auteurs [[152]][[153]], où la validation des règles d’apprentissage se limite à<br />

l’apprentissage de cycles simples (ellipse ou boucle en huit). Ainsi, il semblerait que ces fonctions<br />

à apprendre soient trop simples pour valider ces règles d’apprentissage.


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Il serait donc nécessaire de valider les règles d’apprentissage dans les réseaux récurrents<br />

par des fonctions plus complexes, d’ordre plus élevé. Dans les recherches actuellement menées,<br />

peu de résultats probants ont été obtenus. Un attracteur de Lorenz a été appris par un réseau<br />

multi-couches à mémoire [[207]], un attracteur de Hénon a été appris par un réseau totalement<br />

interconnecté [[128]], et une dynamique de Mackey-Glass dans un réseau récurrent [[132]]. Dans<br />

les trois cas, il a été nécessaire de déterminer à la main les paramètres de l’apprentissage : Wan<br />

reconnaît avoir testé de nombreux réseaux, et modifié les paramètres en cours d’apprentissage,<br />

Mak a utilisé des valeurs très faibles des paramètres, et obtient son résultat après 2,6 millions<br />

d’itérations. Et Mead a tracé les courbes d’erreurs en fonction de chaque paramètre, pour obtenir a<br />

posteriori la configuration paramétrique optimale.<br />

Dans notre cas, la recherche d’un algorithme local, on-line, non supervisé, nous empêche<br />

de suivre les choix de ces auteurs : il n’est pas envisageable de devoir régler les paramètres<br />

extérieurs de l’extérieur. Ainsi, nous cherchons un algorithme dérivé des règles de Hebb, mais qui<br />

puisse apprendre un comportement dynamique, et dérivé des règles à base de descente de<br />

gradient, mais local et on-line. Seuls des résultats intermédiaires ont pu être obtenus.<br />

Nous avons montré que des règles hebbiennes réalisent la diffusion dans le réseau des<br />

perturbations, qui s’organisent via l’apprentissage. Ceci était nécessaire dans un modèle devant<br />

vérifier des capacités de modularisation, et d’association, primordiales dans le modèle théorique<br />

que nous proposons.<br />

De plus, les algorithmes à descente de gradient, rendus artificiellement on-line et local,<br />

permettent au réseau d’apprendre des fonctions simples aussi bien que les algorithmes dont ils<br />

dérivent. Nous avons montré, que le forçage pouvait complexifier les dynamiques individuelles<br />

d’un réseau, et que, dans un cas particulier d’apprentissage, le réseau cherchait à suivre cette<br />

dynamique forçante, tout en modifiant l’attracteur de chaque dynamique libre. Ce résultat est en<br />

accord avec les données neurophysiologiques qui montrent qu’il y a complexification des<br />

dynamiques lors de la présentation d’un percept non appris, et qu’il y a simplification lors de la<br />

reconnaissance d’un percept appris. Malheureusement, le seul apprentissage qui a permis ce<br />

résultat est peu plausible, car, bien que on-line et local, il suppose une duplication du réseau.<br />

ANTICIPATION DU FORÇAGE DES DYNAMIQUES 205


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

9. CONCLUSION GENERALE ET PERSPECTIVES DE<br />

RECHERCHE<br />

Quel est le support de la pensée ?<br />

Mais voici que survient le doute : peut on faire confiance à l’esprit de<br />

l’homme, qui s’est développé, j’en suis persuadé, à partir d’un esprit<br />

aussi primitif que celui des animaux les plus primitifs, lorsqu’il en vient<br />

à tirer des conclusions aussi grandioses ?<br />

Charles Darwin.<br />

L’issue de cette thèse ne permet pas de justifier une ‘conclusion grandiose’, mais elle<br />

peut contribuer à l’orientation de certaines voies de recherches, atténuant la frontière entre<br />

système artificiel et système naturel. Il est en effet possible d’associer dans un même modèle :<br />

l’observation et l’utilisation de dynamiques chaotiques<br />

la modularisation par les activités de populations neuronales<br />

le rôle actif de la mémorisation dans l’autonomie du système<br />

La synthèse de notre thèse à partir de ces interprétations s’articule selon deux points de<br />

vue, interne ou externe au système considéré. Le premier point de vue considère chaque système<br />

comme une sous-partie d’un système général, en interaction dynamique avec son environnement<br />

; le deuxième considère chaque système comme étant une assemblée d’agents en interaction,<br />

dont certains voient leur dynamique forcée.<br />

Interprétation externe<br />

Un système général<br />

Nous avons proposé la vision d’un système général, non plus axée sur l’organisation<br />

logique de référents, ni sur l’état statique d’un système, mais selon une interprétation où<br />

seules les dynamiques des systèmes contiennent une information, dans le sens où elles<br />

s’informent (se mettent en forme) les unes les autres, dans une co-évolution globale et<br />

simultanée. Il s’agit de l’hypothèse du ’tout dynamique’.<br />

Contenant des sous-systèmes en concurrence<br />

CONCLUSION GENERALE ET PERSPECTIVES 207


208<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Les systèmes qui composent ce ‘tout dynamique’ sont alors en concurrence, car<br />

chaque système peut modifier les dynamiques des autres. Selon ce point de vue,<br />

l’environnement devient une source de perturbation, dont chaque système cherche à se<br />

protéger. La perturbation, telle qu’elle est définie, représente simplement l’écart entre la<br />

dynamique libre du système (sans influence extérieure) et la dynamique forcée (avec<br />

influence extérieure).<br />

Ayant des dynamiques forcées<br />

Cette interprétation rend dès lors essentielle l’utilisation du forçage, dont l’intérêt dans<br />

l’apprentissage de dynamiques a déjà été démontré (accélération des temps<br />

d’apprentissage, stabilisation des systèmes, resynchronisation des réseaux sur le signal<br />

appris).<br />

A chaque niveau de description<br />

Ce forçage permet d’obtenir une équivalence, à tous les niveaux de description du<br />

système, des mécanismes sous-jacents. Un système est forcé par son environnement,<br />

chaque module est forcé par les autres, chaque neurone est forcé par ses voisins. Il est<br />

ainsi possible d’imaginer une règle commune à l’ensemble de ces systèmes.<br />

Maximisation de l’autonomie<br />

Nous proposons que cette règle commune soit la maximisation de l’autonomie du<br />

système considéré. Nous définirons cette autonomie comme étant la capacité d’un<br />

système à contrôler lui-même son évolution future : le système cherche à ce que ses<br />

variables d’états influencent davantage sa dynamique que les variables externes<br />

provenant de l’environnement forçant.<br />

Emergence d’une mémoire anticipatrice<br />

Ainsi, à chaque niveau de description, ce qui est extérieur à un système (i.e. ce qui<br />

fait partie de son environnement), peut forcer ses dynamiques : il existe une source de<br />

modelage extérieure, perturbatrice. Afin de minimiser les effets de cette source forçante,<br />

le système perturbé peut adopter deux attitudes : soit il modifie son environnement, en<br />

devenant perturbateur à son tour, afin de conformer l’environnement à ses attentes 57 ,<br />

soit il se modifie lui-même, afin que ce soient ses variables d’états internes qui le<br />

‘mettent en forme’. Ce dernier comportement tend à anticiper l’évolution de<br />

l’environnement, en le simulant en interne. Nous voyons là l’un des principes actifs de<br />

base qui peuvent faire émerger la mémoire dans le système.<br />

Interprétation interne<br />

Abandon du comportement réflexe behavioriste des modèles à entrée-sortie<br />

Selon cette approche, l’hypothèse d’architectures feed-forward, aux comportements<br />

réflexes, est éliminée,. En effet, ces architectures sont sous le contrôle complet de<br />

l’environnement, puisque, à chaque configuration externe, correspond une et une seule<br />

réponse du système. Ces architectures sont causalement liées à leur environnement, et<br />

57 Approche non réalisée dans cette thèse, qui correspondrait à un apprentissage de la commande des<br />

effecteurs du système.<br />

TROISIEME PARTIE : RESULTATS


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

leur état interne ne détermine en rien leur évolution future. Nous nous sommes donc<br />

orientés vers des architectures neuronales assimilables à des systèmes autonomes,<br />

opérationellement clos<br />

Vers des architectures à récurrence locale<br />

D’emblée, toutes les architectures feed-forward ont donc été éliminées, pour<br />

s’orienter vers un modèle de réseau à récurrence exclusivement locale, avec<br />

simplification extrême des architectures neuronales biologiques. Ce choix nous a permis<br />

d’observer et d’interpréter des diffusions dans le réseau autour des sites de forçage<br />

(Figure 7-23,p.165), et d’interpréter la perception de l’environnement en terme de<br />

diffusion de perturbations induites par le forçage.<br />

A dynamique chaotique<br />

Il est admis que le système cérébral produit des dynamiques non-linéaires de grande<br />

complexité, du chaos, même si la quantification de la dimension de ces dynamiques<br />

reste encore une question ouverte. Plusieurs rôles dans les phénomènes de<br />

mémorisation ont été proposés (2.3 Des dynamiques au chaos, p.38), dont certains ont<br />

pu être vérifiés. Nous avons vu qu’il pouvait faciliter des synchronismes locaux dans le<br />

réseau (Figure 7-14, p.158), qu’il accentuait la prise en compte de l’état du réseau<br />

(Figure 7-13, p.156), et qu’il permettait une dépersévération du système (Figure 8-21,<br />

p.201).<br />

Complexifiée par une perturbation extérieure<br />

De façon similaire aux systèmes périodiques forcés, la perturbation périodique<br />

externe peut complexifier les dynamiques locales du réseau, si celle-ci n’est pas<br />

anticipée. Cette perturbation par les dynamiques externes a été observée à plusieurs<br />

niveaux : soit par forçage (Figure 8-15, p.197), soit par dépendance aux conditions<br />

initiales (Figure 7-12, p.155), soit encore par le maintient artificiel de dynamiques suite à<br />

une modification lente des paramètres (Figure 7-42, p.180).<br />

Simplifiée par l’apprentissage<br />

L’objectif du système est d’anticiper la dynamique qui le perturbe, et complexifie ses<br />

dynamiques. S’il l’anticipe, la complexité de ses dynamiques est ramenée à celle de la<br />

dynamique forçante. Il y a donc simplification des dynamiques du système lors de<br />

l’apprentissage. Apprentissage simple ! il doit exister un intermédiaire entre RTRL et<br />

Hebb : la simplification drastique de RTRL ou BPTT ayant permis d’effectuer des<br />

apprentissages efficaces de fonctions périodiques simples.<br />

Qui se complexifie à la perte du signal forçant<br />

Il y a dépersévération (Figure 8-23, p.202), car le régime libre du neurone forcé quitte<br />

peu à peu la trajectoire forcée pour se stabiliser sur un attracteur, qui évolue tout au long<br />

de l’apprentissage. Il y a donc bien modification de l’attracteur en régime libre lors de<br />

l’apprentissage. Par contre, à la représentation du signal de forçage, la dynamique du<br />

réseau vient la suivre beaucoup plus rapidement, au fur et à mesure que l’apprentissage<br />

évolue (Figure 8-13, p.194).<br />

En vue de l’anticipation du signal forçant<br />

CONCLUSION GENERALE ET PERSPECTIVES 209


210<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Lorsque l’on continue cet apprentissage, le site forcé finit par suivre de façon parfaite<br />

la dynamique extérieure forçante : il y a apprentissage par coeur. A ce stade, la<br />

dynamique extérieure n’est plus perturbatrice, car elle est simulée en interne par le<br />

système.<br />

Associables en modules<br />

Nous avons observé plusieurs modularisation du réseau : une fréquentielle, où des<br />

neurones voisins tendent à se spécialiser autour de certains domaines de fréquences<br />

(Figure 7-4,p.148), potentiellement synchronisables, et une de phase, où les neurones se<br />

synchronisent autour de ces fréquences (Figure 7-10,p.153). Nous pensons que ces<br />

synchronisations locales sont à l’origine de la modularisation fonctionnelle neuronale.<br />

Définissant des spécificités neuronales<br />

Ce phénomène est accentué par la diffusion de la perturbation autour des sites de<br />

forçage, car l’organisation qui émerge dans le réseau provient de cette diffusion : les<br />

neurones proches d’un site de forçage lui sont particulièrement affectés. Il y a donc<br />

spécification neuronale.<br />

A la géométrie complexe<br />

Nous avons vu que les perturbations induites par les sites de forçage peuvent diffuser<br />

de façon complexe dans le réseau. Soit cette diffusion est due à l’apprentissage (Figure<br />

8-6, p.189), soit elle provient directement des dynamiques du réseau sans apprentissage<br />

(Figure 7-25, p.166 et Figure 7-45, p.183). Dans tous les cas, la diffusion de l’activité suit<br />

des trajectoires complexes, malgré un voisinage local très simple, selon le paysage des<br />

poids et des délais du réseau.<br />

Permettant l’association des perturbations multi-sites.<br />

Cette complexité peut être à l’origine de la mise en commun de l’information<br />

provenant des sites de forçage. En effet, nous avons vu que ce qui est diffusé dans le<br />

réseau, c’est la composante non anticipée des sites de forçage. Donc plus cette<br />

composante est forte, plus elle diffuse loin dans le réseau. Il peut donc arriver, dans le<br />

cas où il y ait plusieurs sites de forçage non anticipés que des interférences apparaissent<br />

aux frontières des modules affectés aux sites de forçage. Nous pensons que ce<br />

phénomène est à l’origine des associations réalisées lors de la mémorisation<br />

d’informations multi-modales (auditive, visuelle, tactile...).<br />

Bilan, Perspectives et Voies de recherche<br />

Les résultats et les principes précédents tentent d’illustrer la recherche du modèle<br />

connexionniste, que nous nommerons PAMA 58 (Figure 5-1, p.97), vérifiant le maximum<br />

de propriétés du modèle théorique de mémoire proposé (Chap.5 Un modèle<br />

connexionniste de la mémoire, p.95). Chaque réseau démontre la faisabilité partielle d’un<br />

tel projet, mais aucun n’a permis de vérifier l’ensemble des propriétés requises.<br />

Potentiellement, un réseau à récurrence locale, de neurones à mémoire en entrée et en<br />

58 pour Perturbation-Anticipation-Modularisation-Association, qui sont les quatre principes clés du modèle<br />

théorique proposé.<br />

TROISIEME PARTIE : RESULTATS


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

sortie, peut le faire, mais dès lors, l’apprentissage devient d’une trop grande complexité.<br />

Il est impossible de connaître le gradient de l’erreur selon chacun des paramètres.<br />

Il reste donc de nombreux problèmes à résoudre, dont on peut orienter la résolution<br />

selon deux axes. Soit il est nécessaire de réaliser un prétraitement de l’information<br />

extérieure, afin de la ramener à un encodage réalisable dans le réseau, soit il faut<br />

améliorer le réseau afin de rendre les dynamiques de l’environnement anticipables sans<br />

pré-traitement.<br />

Faire découler la loi d’apprentissage de la fonction d’autonomie<br />

Dans toute la thèse, nous avons admis que le stade où le système anticipe son<br />

environnement, est celui où son autonomie est maximisée, car à ce stade, le système<br />

simule en interne l’évolution de l’environnement, et l’influence des dynamiques externes<br />

est effacée. De façon plus rigoureuse, il serait nécessaire de justifier cette équivalence,<br />

afin de permettre la détermination exacte d’une règle d’apprentissage maximisant<br />

l’autonomie du système. Ceci pourrait être une voie de recherche, complétant l’approche<br />

où les lois dérivent d’une minimisation de l’erreur en sortie du système.<br />

Changer le paramètre support d’information<br />

Dans tous les cas étudiés, nous avons considéré que le paramètre qui supporte<br />

l’information du réseau était l’intensité de sa sortie. Cette hypothèse, contraire aux<br />

connaissances neurophysiologiques actuelles, a peut être été un facteur limitant. Ainsi, il<br />

pourrait être intéréssant de chercher à faire porter l’information par les délais inter-spike.<br />

Ceci est une voie de recherche potentielle, en accord avec l’utilisation de réseaux de<br />

type integrate and fire.<br />

Apprentissage on-line local de fonctions complexes.<br />

Les seules fonctions qui ont pu être apprises par les règles d’apprentissage proposées<br />

sont simples, assimilables à des sinusoïdes. Dès que ces fonctions deviennent plus<br />

complexes, le réseau, dans les meilleurs cas, apprend une fonction périodique ‘proche’<br />

du signal forçant. Dans le cas de l’apprentissage de fonctions chaotiques, les réseaux,<br />

après une phase de perturbation résiduelle due au forçage, se stabilisent sur un cycle<br />

limite. Faut-il alors penser que les règles d’apprentissage proposées sont limitées à<br />

l’apprentissage d’une période et d’une phase, et ne peuvent réaliser un apprentissage<br />

par-coeur que dans le cas d’une sinusoïde ? Dans ce cas, il serait souhaitable de réaliser<br />

une sur-couche, transformant l’information extérieure en un ensemble de fonctions<br />

périodiques.<br />

Associer synchronisme et anticipation<br />

De plus, nous avons postulé que l’apprentissage des dynamiques forçantes tend à<br />

synchroniser les dynamiques de population neuronale. Ce résultat n’a pas été obtenu de<br />

façon explicite, car nous pensions le chercher après l’obtention d’une règle<br />

d’apprentissage valide. Les difficultés rencontrées pendant la recherche de cette règle<br />

ne nous ont pas permis de passer à cette phase.<br />

Peut-être alors faudrait-il chercher explicitement, dans la règle d’apprentissage, à<br />

maximiser les synchronismes locaux, en vue de l’anticipation du signal forçant ? Alors<br />

l’utilisation des catégories isochrones du réseau pourrait être intéressante.<br />

Capacités de généralisation<br />

CONCLUSION GENERALE ET PERSPECTIVES 211


212<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Une autre étude a été limitée par la difficulté d’obtention de la règle d’apprentissage.<br />

Nous pensions en effet pouvoir valider l’hypothèse d’une mise en commun de<br />

l’information provenant des sites de forçage, en vue de l’amélioration de l’anticipation de<br />

chacun. N’ayant pas pu obtenir d’apprentissage fiable sur un seul site, cette<br />

généralisation s’est avérée impossible. Mais peut-être s’agit-il là d’une limite naturelle<br />

aux réseaux ?<br />

En effet, il est possible que le réseau cherche non pas à anticiper chaque site, mais à<br />

associer les évolutions de chacun des sites. Dans ce cas, il faudrait forcer N sites, et<br />

arrêter le forçage sur k sites, en cherchant à ce que la présentation des N-k sites<br />

‘rappelle’ au réseau les dynamiques sur les k sites non forcés. Les premières<br />

expériences réalisées sur ce sujet n’ont pas permis d’améliorer les résultats présentés<br />

dans cette thèse : les fonctions périodiques ne sont pas mieux apprises, et les fonctions<br />

chaotiques n’ont pas pu être rappelées (nous avons essayé l’apprentissage d’un Lorenz,<br />

en forçant 3 sites avec X(t), Y(t) et Z(t), et effectué le rappel par la présentation de X(t) et<br />

Y(t) ).<br />

Autre limite, dans la totalité des rappels effectués, nous avons conservé la phase, la<br />

fréquence, et l’intensité de celles-ci. Aucune expérience n’a pu être réalisée portant sur<br />

les capacités de généralisation du réseau : le réseau se resynchronise-t-il rapidement sur<br />

une sinusoïde apprise, si sa phase est changée ?<br />

Modèle à spike<br />

Les limites rencontrées durant la recherche de la règle d’apprentissage sont peut-être<br />

dues au choix du modèle neuronal. En effet, les modèles à fonction sigmoïde sont<br />

fonctionnellement équivalent à des modèles moyennant les fréquences neuronales de tir<br />

[[39]]. Comme nous mettons en avant les capacités de synchronisme du réseau, peutêtre<br />

serait-il préférable de s’orienter vers des modèles plus riches, de type ‘integrate and<br />

fire’ ? De tels modèles utilisent naturellement les synchronismes du réseau. Nous<br />

comptons donc nous intéresser aussi à ce type de modèle, en reprenant les expériences<br />

réalisées ici (dynamiques chaotiques, capacités de synchronisme, diffusions...).<br />

S’orienter vers une modularisation a priori<br />

Autre amélioration possible, il est envisageable d’étudier des réseaux possédant une<br />

modularisation a priori. Nous ne nous sommes pas intéressés à ceux-ci au départ, car<br />

cela rajoutait encore des paramètres au modèle. Cette étude porte donc plus sur les<br />

comportements d’un seul module, en vue d’une connexion de ces modules entre-eux<br />

ensuite.<br />

Par contre, il peut être intéressant de chercher à accentuer la modularisation du réseau,<br />

par exemple par des algorithmes de pruning. En effet, dans nos réseaux, les<br />

perturbations finissent par diffuser dans le réseau entier, en créant des dépendances<br />

entre neurones qui n’ont pas lieu d’être (par exemple si deux neurones sont<br />

indépendants). Dans ce cas, chaque neurone réalisera en permanence une erreur<br />

résiduelle par rapport à l’autre. Cette erreur, s’ajoutant, risque de faire diverger les poids.<br />

Un pruning pourrait éviter ce type de divergence, en éliminant les synapses des<br />

neurones dont les sorties semblent indépendantes.<br />

Vers un modèle de l’action<br />

TROISIEME PARTIE : RESULTATS


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Dès lors, certains modules peuvent être sous le contrôle de modules supérieur s’ils<br />

n’ont pas de synapse rétro-agissant sur ce dernier. Il y a encapsulation, et liaison<br />

causale. Nous entendons par liaison causale, que le module contrôlé ne peut pas être<br />

une source de perturbation pour le module supérieur : ses dynamiques sont causées par<br />

le module supérieur.<br />

On peut voir dans ce type d’architecture quelques principes initiaux de la commande : un<br />

module en commande un autre sans pouvoir être modifié par celui-ci, à part par la<br />

perception de la modification induite dans l’environnement par cette action. Ainsi,<br />

certains modules apprendraient à anticiper l’effet des actions sur l’environnement.<br />

Perspective d’une conscience ?<br />

Cette capacité de simulation interne de l’environnement peut être à la base des<br />

phénomènes dits ‘de conscience’, ramené au niveau d’une représentation interne de soi.<br />

En effet, ce qui est perturbant pour un système provient de l’extérieur. Anticiper cette<br />

perturbation, c’est se représenter l’évolution environnementale, qui sera elle-même<br />

modifiée par l’évolution future du système. De cette façon, en apprenant<br />

l’environnement, le système y inclut l’anticipation de sa propre évolution.<br />

Ce qui est perçu (perturbateur) pour le système, provient de l’écart entre son<br />

anticipation interne de l’environnement, et l’évolution réelle de ce dernier. Cet écart<br />

représente donc ce que l’environnement possède d’autonomie (puisque les variables de<br />

contrôle du système sont les variables d’état de l’environnement). Cette autonomie<br />

représente ce qui est réellement extérieur au domaine d’anticipation du système. La<br />

frontière émergente entre intérieur (anticipation des modifications induites par l’état<br />

interne du système sur l’environnement), et extérieur (perturbation environnementale<br />

résiduelle non anticipée par le système), peut créer la césure entre le soi et le non-soi,<br />

qui, d’après les théories récentes, est à la base des phénomènes de conscience [[51]]<br />

[[61]] [[71]] [[114]].<br />

L’intérêt d’une telle interprétation est de permettre de voir la conscience comme un<br />

phénomène émergent actif (ayant un rôle dans l’anticipation, puisque le système<br />

s’anticipe et améliore de ce fait l’anticipation de son environnement), et non plus comme<br />

une loi implémentée dans une partie du système. En effet, plus le système anticipe les<br />

modifications induites par son comportement sur les dynamiques de son environnement,<br />

plus il anticipe l’évolution de ce dernier, donc plus il maximise son autonomie. Il y a là<br />

une mise en abîme (terme souvent usité dans la description des phénomènes de<br />

conscience) du phénomène d’anticipation : le système doit anticiper l’environnement,<br />

qu’il modifiera en agissant, qui modifiera sa perception de l’environnement, qui modifiera<br />

son anticipation...<br />

Ainsi, il est possible de faire découler certains principes utilisés aujourd’hui dans la<br />

modélisation des phénomènes de conscience d’une mise en abîme du principe de<br />

maximisation d’autonomie : le système cherche à maximiser son autonomie, dans le<br />

sens où il minimise les perturbations induites par l’environnement, modifié par sa propre<br />

dynamique.<br />

Une telle approche permettrait d’associer dans un seul et même modèle les théories<br />

de la perception, de l’action, de la mémoire, de l’autonomie, et de la conscience, qui<br />

cherchent déjà à converger, par les travaux de nombreux auteurs.<br />

CONCLUSION GENERALE ET PERSPECTIVES 213


214<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

Ainsi, dans son livre Artificial Minds, Stan Franklin conclut en définissant sept<br />

principes qui peuvent s’appliquer à la pensée 59 . Ce livre, paru après les orientations<br />

initiales prises dans cette thèse, semble suivre une démarche équivalente, ce qui<br />

tendrait à montrer l’intérêt des pistes suivies ici. Nous reprendrons donc chacun des sept<br />

points conclus par l’auteur afin de les comparer à certains de nos résultats :<br />

1) Le rôle de la pensée est de produire l’action suivante<br />

Ceci s’accorde au modèle d’une mémoire anticipatrice : la pensée possède un rôle<br />

actif dans le comportement du système. Ce principe complète les modèles<br />

béhavioristes, en réalisant une symbiose entre la pensée et le comportement, et,<br />

contrairement à ceux-ci, en accordant à la pensée un rôle essentiel à la conception de<br />

l’action. La pensée est l’action intérieure du système.<br />

2) La pensée doit être vue comme une notion continue, plutôt que booléenne.<br />

Il existe différents degrés entre le pensant et le non-pensant. Ceci s’accorde avec<br />

les idées initiales de cette thèse, qui considère que si deux systèmes partagent un<br />

certain nombre de propriétés, alors il existe un stade à partir duquel les deux<br />

systèmes peuvent être dits équivalents. Ce nombre de propriétés communes définit le<br />

‘degré de pensée’ de ces systèmes : il n’y a plus de clôture entre le pensant et le nonpensant.<br />

3) La pensée est un agrégat plus qu’un monolithe<br />

La pensée provient de l’organisation interne du système, et non pas d’une<br />

propriété d’une partie du système. Selon ce principe, la pensée est vue comme un<br />

principe émergent du système.<br />

4) La pensée est produite par une multitude de mécanismes disparates<br />

Pour compléter cette vision d’une émergence de la pensée dans l’organisation<br />

interne du système, nous nous accordons à dire que la pensée ne découle pas d’une<br />

propriété unique, séparant le pensant du non-pensant, mais d’une multitude de<br />

propriétés et de mécanismes, qui permettent de définir ces différents degrés dans la<br />

capacité de penser.<br />

5) La pensée opère sur les sensations afin de créer de l’information pour son usage<br />

Ceci correspond à l’idée proposée d’un rôle actif de la pensée dans la simulation<br />

interne de l’environnement. La pensée n’opère pas sur le monde environnant réel,<br />

mais sur les effets induits par l’environnement sur le système, qui peuvent être vues<br />

comme des sensations, ou des perturbations. Celles-ci sont à la source de<br />

l’adaptation du système à son environnement, pour son usage, pour son<br />

comportement dans son environnement.<br />

6) La pensée utilise l’information passée (mémoire) pour produire des actions grâce à<br />

un procédé de reconstruction plus que par un rappel<br />

Cette idée s’inscrit parfaitement dans l’approche proposée d’un modèle actif de la<br />

mémoire. La mémoire émerge car des perturbations similaires reconstruisent des<br />

perturbations induites équivalentes, et mettent le système dans deux états proches, à<br />

59 Nous privilégierons la traduction de mind par pensée, plutot que par esprit, qui possède une connotation<br />

TROISIEME PARTIE : RESULTATS


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

deux dates différentes. L’aspect actif de la mémoire induit donc une reconstruction de<br />

celle-ci.<br />

7) La pensée, jusqu’à un certain degré, est implémentable sur une machine.<br />

Comme cela a été dit, ce degré dépend du nombre de propriétés partagées par la<br />

machine et le référent humain. Nous pensons de même qu’il n’y a pas de raison que<br />

le nombre de propriétés partageables soit majoré, ce qui devrait permettre de<br />

concevoir cette machine apparaissant comme pensante, autonome, douée de raison,<br />

d’affection et d’humour.<br />

Si ce point est un jour validé , de nombreux détracteurs n’y verront qu’une illusion,<br />

qu’un système artificiel complexe dupant l’observateur.<br />

Et ils auront raison ! Ce modèle n’est qu’un intermédiaire.<br />

Mais d’autres affirmeront : Elle aime, elle désire, elle rit...<br />

... et elle pourra nous l’affirmer ensuite d’elle même par association de ce qui lui<br />

est dit avec son état interne.<br />

En quelque sorte, dans tous les cas, il faut un observateur humain pour prêter à la<br />

machine ces propriétés. Il existe donc un principe anthropique de la raison humaine :<br />

il faut cette ‘raison humaine’ observatrice pour que l’observée (la machine) se prête<br />

cette raison commune<br />

Et si toutes ces machines observées sont elles-même observatrices, toutes<br />

marqueront leur identité relative, en référence aux autres, par apprentissage<br />

spéculaire de leurs propriétés communes.<br />

trop spirituelle dans la langue française.<br />

CONCLUSION GENERALE ET PERSPECTIVES 215


216<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

ANNEXE


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

NOTATIONS<br />

[a,b] Coordonnées d’un neurone dans la matrice<br />

,..., ( v,..., v)<br />

Renvoie une valeur aléatoire uniformément répartie entre les vi, selon les pi. Ainsi, si<br />

Xij=Ai(-1,0,[1;2]), alors Xij=Xik, p(Xij=-1)=1/3...<br />

Ap1 pk 1 n<br />

h i<br />

Potentiel du neurone i<br />

i Indice utilisé pour le neurone destination<br />

Ii () t Entrée extérieure additive du neurone i au temps t<br />

j Indice utilisé pour le neurone origine<br />

Et ()<br />

Erreur réalisée par le réseau au temps t<br />

F Fonction d’un neurone xi( t + Dt) = F( X1( t), X 2(<br />

t),..., X N(<br />

t))<br />

M i<br />

Mémoire du neurone i<br />

N Nombre de neurones contenus dans le réseau. N = NC + NE + NS<br />

N C<br />

N E<br />

N S<br />

Nombre de neurones cachés<br />

Nombre de neurones d’entrée<br />

Nombre de neurones de sortie<br />

NT Nombre de neurones avec Teacher-Forcing. N T £ N S<br />

p Indice utilisé pour les paramètres du réseau<br />

k<br />

pij () t<br />

Matrice de sensibilité du réseau. Défini par x<br />

w<br />

S Ensemble des indices des neurones. S = SCUSEUSS S C<br />

S E<br />

S S<br />

Ensemble des indices des neurones cachés<br />

Ensemble des indices des neurones d’entrée<br />

Ensemble des indices des neurones de sortie<br />

ST Ensemble des indices des neurones avec Teacher-Forcing. ST Í SS<br />

t Temps<br />

w ij<br />

Poids synaptique du neurone j vers le neurone i<br />

X i Succession des sortie du neurone i. X ( t) = { x ( 0), x ( 1),...,<br />

x ( t)}<br />

x i<br />

Sortie du neurone<br />

<br />

k<br />

ij<br />

i i i i<br />

Notations 217


218<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

z t<br />

i ()<br />

Egal à <br />

+<br />

E<br />

() t<br />

x<br />

<br />

h Gain d’apprentissage<br />

m p<br />

s Fonction neurone<br />

i<br />

ANNEXE


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

BIBLIOGRAPHIE GENERALE<br />

Certaines des références indiqueées sont incomplètes, et correspondent en général à des fichiers récupérés<br />

sur les sites ftp des auteurs.<br />

[1] Sergey K. Aityan.. Recurrent refractory neural field IEEE. O-7803-0559-0/92 .p 140-145 (1992)<br />

[2] Almeida. Backpropagation in non-feedforward networks. Dans Neural Computing architectures.<br />

North Oxford Academic. Aleksander eds. (1989)<br />

[3] Amit. Storage and retrieval of temporal sequences. p 215-264. Modeling brain functions.<br />

[4] Daniel J. Amit. (ilios.fiz.huji.ac.il). The hebbian paradigm reintegrated : local reverberations as<br />

internal representations. Behavioral and Brain <strong>Sciences</strong>. No18. p617-657. (1995)<br />

[5] Amir Atiya. Unifying recurrent network trining algorithms. World congress on neural networks.<br />

Portland. Vol.3. p 585-588 (1993)<br />

[6] Amir Atiya, Pierre Baldi. Oscillations and Synchronizations in neural networks : an exploration<br />

of the labelling hypothesis. International Journal of Neural Systems. Vol. 1. No. 2. p 103-124.<br />

(1989)<br />

[7] Alex Aussem (aaussem@eso.org). Training dynamical recurrent neural networks with the<br />

temporal recurrent back-propagation algorithm : application to the time series prediction and<br />

characterization.<br />

[8] Alex Aussem (aaussem@eso.org), Fion Murtagh, Marc Sarazin. Dynamical recurrent neural<br />

networks- towards environmental time series prediction. International Journal of Neural Systems.<br />

Vol. 6. no.2 .p 145-170. (1995)<br />

[9] A. Babloyantz, A. Destexhe. Nonlinear analysis and modelling of cortical activity. Mathematics<br />

applied to biology and medecine. J. Demongeot, V. Capasso (edts). ISBN 0-920063-63-2. p 35-<br />

48 (1993)<br />

[10] A. Babloyantz, C. Lourenço. Computation with chaos. A paradigm for cortical activity. Proc.<br />

Natl. Acad. Sci. USA. Vol.91, p.9027. (1994)<br />

[11] Back, A.C Tsoi. FIR and IIR synapses, a new neural network architecture for time series<br />

modeling. Neural computation. 3. p 375-385. (1991)<br />

[12] A. Baddeley. La mémoire humaine : theorie et pratique. Editions PUG. (1993)<br />

[13] Pierre Baldi, Amir Atiya. How delays affect neural dynamics and learning.<br />

[14] Françoise Beaufays, Eric. A. Wan. Relating real-time backpropagation and backpropagation<br />

through time : an application of flow graph interreciprocity.<br />

[15] Yoshua Bengio (bengioy@iro.umontreal.ca), Paolo Frasconi(paolo@mcculloch.ing.unifi.it) .An<br />

EM approach to learning sequential behavior. Technical report. DSI 11/94. Università di<br />

Firenze. (1994)<br />

[16] Yoshua Bengio, Paolo Frasconi, Marco Gori, Giovanni Soda. Recurrent neural networks for<br />

adaptative temporal processing. Proc. of the 6th italian workshop on parallel architecture and<br />

neural networks. WIRN93. 1993, p85-117. (1993)<br />

[17] Henri Berson. Matière et mémoire. Essai sur la relation du corps à l’esprit. (1896)<br />

Bibliographie Générale 219


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

[18] Birbaumer. W. Lutzenberger. H. Rau, G. Mayer-Kress, I. Choi, C. Baum. Perception of music<br />

and dimensional complexity of brain activity. Soumis à International Journal of bifurcation and<br />

chaos. CCSR Tech-Report 94-28. (1994).<br />

[19] Eric Bonabeau. Jean-Louis Dessalles. Alain Grumbach. Characterizing emergent phenomena : a<br />

critical review. Revue internationale de systémique. Vol. 9. No 3. p327-346. (1995)<br />

[20] Roman M. Borisyuk, Alexandr B. Kirillov. Bifurcation analysis of a neural network model. Biol.<br />

Cyber. 66. p319-325. (1992)<br />

[21] Paul Bourgine (paul.bourgine@cemagref.fr). Viability and pleasure satisfaction principle of<br />

autonomous systems. Imagina 93 proc. (1993)<br />

[22] Paul bourgine (paul.bourgine@cemagref.fr), Francisco J. Varela. Towards a practice of<br />

autonomous systems. Toward a practice of autonomous systems. F.Varela & P.Bourgine eds. MIT<br />

Press. Bradford books, 1992, p3-10. (1992)<br />

[23] Paul bourgine (paul.bourgine@cemagref.fr). Modèles d’agents autonomes et de leurs<br />

interactions coévolutives. Penser l’esprit. V.Rialle & D. Fisette eds. PUG. (1996)<br />

[24] Y. Braiman, John F. Lindner, William L.Ditto. Taming spatiotemporal chaos with disorder.<br />

Nature. Vol.378. p.465-468. (1995)<br />

[25] Joseph L. Breeden. Open-loop control of nonlinear systems. Physical letters A. p 264-272.(1994)<br />

[26] Nicolas Brunel. Dynamics of an attractor neural network converting temporal into spatial<br />

correlations. Network : Computation in neural systems. 5. p449-470. (1994)<br />

[27] Neil Burgess, Michael Recce, John O'Keefe. A model of hippocampal function. Neural Networks :<br />

special issue on neurodynamics and behaviour. (1994)<br />

[28] T.L Burrows (tb119@eng.cam.ac.uk), M. Niranjan (niranjan@eng.cam.ac.uk). The use of feedforward<br />

and recurrent neural networks for system identification. CUED/F-INFENG/TR158.<br />

Cambridge university. (1993)<br />

[29] Bo Cartling. Control of the complexity of associative memory dynamics by neuronal adaptation.<br />

International journal of neural systems. Vol.4. No.2. pp 129-141 (1993)<br />

[30] Thierry Catfolis. A method for improving the real-time recurrent learning algorithm. Neural<br />

Networks. p807-821. (1993).<br />

[31] Gert Cauwenberghs (gert@cco.caltech.edu) . A learning analog neural network chip with<br />

continuous-time recurrent dynamics.<br />

[32] Bruno Cessac. Propriétés statistiques des dynamiques de réseaux neuromimétiques. <strong>Thèse</strong>.<br />

(1994)<br />

[33] Bruno Cessac. Increasing of complexity in random neural networks. soumis au Journal de<br />

physique : cross- disclinary physics.<br />

[34] Bruno Cessac. Ocurrence of chaos and AT line in random neural network. Europhysics letters.<br />

26(8). p577-582. (1994)<br />

[35] B. Cessac, B. Doyon, M. Quoy, M. Samuelides. Mean field equations, bifurcation map and route<br />

to chaos in discrete time neural networks. Physica D. 74. p24-44. (1994)<br />

[36] Hung-Jen Chang. Walter J. Freeman (wfreeman@garnet.berkeley.edu). Parameter optimization<br />

in models of the olfactory neural system. Neural networks. Vol. 9. No 1. p1-4. (1994)<br />

[37] J.P. Changeux. L’homme neuronal. Collection Pluriel. Fayard.(1983)<br />

[38] J.P. Changeux. Alain Connes. Matière à pensée. Edition Odile Jacob. (1989)<br />

[39] François Chapeau-Blondeau. Nicolas Chambert. Synapse models for neural networks : from ion<br />

channel kinetics to multiplicative coefficient Wij. Neural Computation. 7. p713-734. (1995)<br />

220<br />

ANNEXE


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

[40] Francois Chapeau-Blondeau, Gilbert Chauvet. Stable, Oscillatory, and chaotic regimes in the<br />

dynamics of small neural networks with delay. Neural Networks, Vol. 5. pp 735-743. (1992)<br />

[41] François Chapeau-Blondeau, Gilbert Chauvet. Dynamic properties of a biologically motivated<br />

neural network model. International Journal of Neural Systems. Vol. 3. no. 4. pp 371-378. (1992)<br />

[42] François Chapeau-Blondeau. Maximisation de l'entropie informationnelle dans la transmission<br />

par une non-linéarité neuronale. C.R. Acad. Sci. PAris. t.319. Série II. p271-276. (1994)<br />

[43] Francois Chapeau-Blondeau. Analysis of neural networks with chaotic dynamics. Chaos, Solitons<br />

& Fractals. Vol. 3. No 2. pp 133-139. (1993)<br />

[44] J-C Chappellier. A. Grumbach. Time in neural networks. SIGART bulletin. Vol.5. No.3.p3-11.<br />

(1994)<br />

[45] Hung-Jen Cheng, Joydeep Ghosh, Kadir Liano. A macroscopic model of neural ensembles :<br />

learning-induced oscillations in a cell assembly. International journal of neural systems. Vol. 3.<br />

No. 2. p179-198. (1992)<br />

[46] A.M. Collins, M.R. Quillian. Retrieval time from semantic memory. Journal of verbal learning<br />

and verbal behavior. (1969).<br />

[47] Jerome T. Connor, R. Douglas Martin. Recurrent neural networks and robust time series<br />

prediction. IEEE TNN, Vol.5, No.2. p240-253. (1994)<br />

[48] Barak Cohen. Training Synaptic Delays in a recurrent neural network. <strong>Thèse</strong>. Tel-aviv<br />

university. Faculty of engineering. Department of Electronics. (1994)<br />

[49] M. Cosnard, J. Demongeot, K. Lausberg, K. Lott. Attractors, confiners and fractal dimensions :<br />

applications in neuromodelling. Mathematics applied to biology and medecine. J.Demongeot, V.<br />

Capasso (edts). ISBN 0-920063-63-2. p69-93 (1993)<br />

[50] Georges-Henri Cottet. Modèles de réaction-diffusion pour les réseaux de neurones stochastiques<br />

et déterministes. C.R. Acad. Sci. Paris, t.312, Série 1, p.217-221. (1991)<br />

[51] Francis Crick, Cristof Koch. Towards a neurobiological theory of consciousness. Seminars in<br />

The Neuroscience 2. p263-275. (1990)<br />

[52] James P. Crutchfield (chaos@gojira.berkeley.edu). Is anything ever new? Considering<br />

emergence. Dans Integrative Themes. G. Dowan, D. Pines, D. Melzner, editors, Santa Fe<br />

Institute. <strong>Sciences</strong> of Complexity, XIX, Addison-Wesley, Reading, MA (1994)<br />

[53] Warren S. Mc Culloch, Walter Pitts. A logical calculus of the ideas immanent in neuron activity.<br />

Bulletin of mathematical biophysics 5:115-133 (1943)<br />

[54] de Cruyenaere(jpdecruy@ccs.carleton.ca) , H.M. Hafez. A comparison between kalman filters<br />

and recurrent neural networks. 0-7803-0559-0/92. Vol.4. p247-251. (1992)<br />

[55] Shawn P. Day(shawnd@ee.ubc.ca), Michael R. Davenport (davenpo@physics.ubc.ca).<br />

Continuous time temporal back-propagation with adaptable time delays.<br />

[56] Richard Dawkins. L’horloger aveugle. Eds Robert Laffont. (1989)<br />

[57] Gustavo Deco. Neural learning of chaotic dynamics.<br />

[58] Stanislas Dehaene, Jean-Pierre Changeux, Jean-Pierre Nadal. Neural networks that learn<br />

temporal sequences by selection. Proc. Natl. Acad. Sci. USA. Vol.84. p2727-2731. (1987)<br />

[59] J. Demongeot. Neural networks : from formal neuro-computing to real neuromodelling.<br />

[60] J. Demongeot, O. Nérot, C. Jezequel. Mémoire de rappel dans les réseaux de neurones.Penser<br />

L’esprit : des sciences de la cognition à une philosophie de l’esprit. V. Rialle et D. Fisette eds.<br />

(1996)<br />

[61] D.C. Dennett. La conscience expliquée. Editions Odile Jacob. (1991)<br />

Bibliographie Générale 221


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

[62] A. Destexhe (alain@helmholtz.sdsc.edu). Stability of periodic oscillations in a network of<br />

neurons with time delay. à paraitre dans Physics Letters A.<br />

[63] Migzhou Ding, J.A Scott Kelso. Controlling chaos : a selection mechanism for neural information<br />

processing<br />

[64] Alison A. Dingle, John H. Andreae, Richard D. Jones. The chaotic self-organizing map.0-8186-<br />

4260-2/93. IEEE. p15-18. (1993)<br />

[65] Kenji Doya (doya@crayfish.ucsd.edu). Bifurcations in the learning of recurrent neural net-works.<br />

Proceedings of 1992 IEEE International Symposium on Circuits and Systems. p2777-2780.<br />

(1992)<br />

[66] Kenji Doya (doya@crayfish.ucsd.edu), Shuji Yoshizawa. Adaptative synchronization of neural<br />

and physical oscillatiors. Advances in neural information processing systems. vol.4. p109-116.<br />

Morgan Kaufmann. (1992)<br />

[67] Kenji Doya (doya@crayfish.ucsd.edu), Shuji Yoshizawa. Adaptative neural oscillator using<br />

continuous-time backpropagation learning. Neural Networks. Vol.2. p375-385. (1989)<br />

[68] B. Doyon, B. Cessac, M. Quoy, M. Samuelides. Control of the transition to chaos in neural<br />

networks with random connectivity. International journal of bifurcation and chaos. Vol. 3. No. 2.<br />

p279-291. (1993)<br />

[69] ??? Stéphane Durand (durand@loria.fr), Frédéric Alexandre. Spatio-temporal mask learning :<br />

application to speech recognition.<br />

[70] Ivan Dvorak. Spatiotemporal changes in Determinacy of Brain Electrical Phenomena. Dans<br />

Mathematics applied to biology and medecine. pp 103-113. J.Demongeot, V.Capasso, editors.<br />

(1993)<br />

[71] G.M. Edelman (edelman@wisdom.weizmann.ac.il). Biologie de la conscience. Collection Point.<br />

Edition Odile Jacob. (1992)<br />

[72] <strong>Olivier</strong> François, Jacques Demongeot, Thierry Hervé. Convergence of a self-organizing<br />

stochastic neural network. Neural Networks. Vol.5. p277-282. (1992)<br />

[73] Kunihiko Fukushima, Sei Miyake, Takayuki Ito. Neocognitron : a neural networks model for a<br />

mechanism of visual pattern recognition. IEEE Transactions on Systems, Man and Cybernetics.<br />

SMC-13:826-834<br />

[74] Max Garzon, Stan Franklin. Neural Computability II. Proc. 3rd Int. Joint. Conf. on Neural<br />

Networks, Washington D.C. , I, 631-637. (1989)<br />

[75] Wolfram Gerstner, Raphael Ritz, J. Leo van Hemmen. Why spikes ? Hebbian learning and<br />

retrieval of time-resolved excitation pattern. Biological cybernetics. 69. 503-515 (1993)<br />

[76] Frederic Geurts (gf@info.ucl.ac.be). Hierarchy of Discrete-Time Dynamical Systems.Technical<br />

Report. Department of computer Science Engeneering. University of Louvain. (1994)<br />

[77] Lee Giles (giles@research.nj.nec.com), B.G. Horne, T.Lin. Learning a class of large finite state<br />

machines with a recurrent neural network. Technical report. UMIACS-TR-94-94. Institue for<br />

advanced computer studies. University of Maryland. (1994)<br />

[78] David Golomb, John Rinzel. Clustering in globally coupled inhibitory neurons. Physica D. 72.<br />

p259-282. (1994)<br />

[79] Gottschalk, K. A. Geitz, D. W. Richetr, M. D. Ogilvie, A. I. Pack. Nonlinear Dynamics of a<br />

Model of the Central Respiratory pattern Generator. p51-60. Control of breathing and its<br />

modeling perspective. Edited by Y. Honda, Plenum press, New York. 1992.<br />

[80] ??? M. Griniasty, M.V. Tsodyks. Daniel J. Amit. Conversion of temporal correlations between<br />

stimuli to spatial correlation between attractors.<br />

222<br />

ANNEXE


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

[81] Stephen Grossberg. David Somers. Synchronized oscillations during cooperative feature linking<br />

in a cortical model of visual perception. Neural Networks. Vol.4. p453-466. (1991)<br />

[82] Frédéric Gruau. Efficient computer morphogenesis : a pictorial demonstration. Technical Report<br />

94-04-027. Santa Fe institute. (1994)<br />

[83] Howard Gutowitz, Chris Langton. Mean field theory of the edge of chaos.<br />

[84] Guyon, L. Personnaz, J-P Nadal, G. Dreyfus. Storage and retrieval of complex sequences in<br />

neural networks. Physical Review A. Vol.38.No.12. (1988)<br />

[85] Hansel, G. Mato, C. Meunier. Clustering and slow switching in globally coupled phase<br />

oscillators. Physical Review E. Vol. 48. No.5. p3470-3477. (1993)<br />

[86] Bart L.M. Happel (happel@rulfsw.leidenuniv.nl) , Jacob M.K. Murre. Evolving complex<br />

dynamics in modular interactive neural networks. Soumis a Neural Networks.<br />

[87] Bart L.M Happel, Jacob M.J Murre. The design and evolution of modular neural network<br />

architectures. Neural Networks. Vol.7. p985-1004. (1995)<br />

[88] D.O. Hebb. Essay on Mind. Lawrance-Erlbaum Assc., Hillsdale NJ. (1980)<br />

[89] Jan N.H. Heemskerk, Fred A. Keijzer. A real time neural implementation of a schema driven toy<br />

car. Proceedings of the workshop on neural architectures and distributed AI : from schemas<br />

assemblages to neural networks. (1993)<br />

[90] Hendin, D. Horn, M. Usher. Chaotic behavior of a neural network with dynamical thresholds.<br />

International journal of neural systems. Vol.1. No4. p327-335. (1991)<br />

[91] Herz, B. Sulzer, R. Kühn, J.L. van Hemmen. Hebbian learning reconsidered : representation of<br />

static and dynamic objects in associative neural nets. Biol. Cyber. 60. p457-467.(1989)<br />

[92] Tom M. Heskes, Stan Gielen. Retrieval of pattern sequences at variable speeds in a neural<br />

network with delays. Neural Networks. Vol.5. p145-152. (1992)<br />

[93] Morris W. Hirsch (hirsch@math.berkeley.edu). Convergent activation dynamics in continuous<br />

time networks. Neural Networks. Vol.2. p331-349. (1989)<br />

[94] D.H. Holding. The psychology of chess skill. Hillsdale. NJ. Lawrence Erlbaum Associates Inc.<br />

[95] Frank. C. Hoppensteadt, Eugne M. Izhikevich. Synaptic organizations and dynamical properties<br />

of weakly connected neural oscillators. A paraitre dans Biological Cybernetics.<br />

[96] J.J. Hopfield. Neural networks and physical systems with emergent collective computational<br />

abilities. Proceedings of the National Academy of <strong>Sciences</strong> 79:2554-2558 (1982)<br />

[97] J.J. Hopfield. Neurons with graded response have collective computationnal properties like those<br />

of two-state neurons. Proceedings of the National Academy of <strong>Sciences</strong> 81:3088-3092.(1984)<br />

[98] J.J. Hopfield. Pattern recognition computation using action potential timing for stimulus<br />

representation. Nature. Vol. 376. p33-36. (1995)<br />

[99] Bill G. Horne (horne@research.nj.nec.com), C. Lee Giles. An experimentalcomparison of<br />

recurrent neural networks. Neural Information Processing Systems 7.<br />

[100] P. Hubel, T. Wiesel. Functionnal architecture of macaque monkey visual cortex. Ferrier lecture.<br />

Proc. Roy. Soc. Lond. B 198. p1-59. (1977).<br />

[101] Lester Ingber(ingber@alumni.caltech,edu). Statistical Mechanics of neocortical Interactions:<br />

Mutltiple Scales of EEG. Dans Electroencephal. clin. Neurophysiol. (1994).<br />

[102] Lester Ingber (ingber@alumni.caltech.edu), P.L. Nunez. Statistical mechanics of neocortical<br />

interactions : high resolution path-integral calculation in short term memory. Physical Review E.<br />

Vol. 51, No.5. (1995)<br />

Bibliographie Générale 223


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

[103] Masayoshi Inoue, Seiichirou Fukushima. A neural network of chaotic oscillators. Prog. Theor.<br />

Phys. Vol.87. No.3. (1992)<br />

[104] Shin Ishi. Kenji Fukumizu. Sumio Watanabe. A network of chaotic elements for information<br />

processing. Neural Networks. Vol. 9. No 1.p25-40. (1996)<br />

[105] Kunihiko Ishiyama, Susumu Itoh, Toshio Utsunomiya, Kazuyuki Aihara. Analysis of chaotic<br />

neuron models with information Theory. Electronics and communications in Japan. Part 3. Vol.<br />

76, No. 4, (1993)<br />

[106] Izhikevich, G. G. Malinetskii. A possible role of chaos in neurosystems. Sov. Phys.Dokl.37(10),<br />

octobre (1992)<br />

[107] Marc Jeannerod. Le cerveau-machie. Eds. Fayard.<br />

[108] Christel Jézéquel. Simulation d'un réseau de neurones stochastiques défini selon le modèle de<br />

Ising. Mise en évidence de transition de phase. Rapport de DEA. Laboratoire TIMC.(1995)<br />

[109] C. Jézéquel, O. Nérot, J. Demongeot. Dynamical Confinement in neural networks. A paraitre<br />

dans J. Biol. Phys.<br />

[110] W. Kintsch. Semantic memory : a tutorial. Dans R.S. Nickerson, Attention and performance<br />

VIII. p595-620. Hillsdale, NJ. Lawrence Erlbaum Associates Inc.<br />

[111] Kittel, J. parisi, R. Richter. Delayed feedback control of chaos in an electronic double-scroll<br />

oscillator. 4th annual meeting of ENGADYN. Grenoble (1993)<br />

[112] George K. Knopf, Madan M. Gupta. Dynamics of antagonistic neural processing<br />

elements.International journal of neural systems. Vol.4. No.3. p291-303. (1993)<br />

[113] Pascal Koiran (koiran@lip.ens-lyon.fr). On the relation between dynamical systems and boolean<br />

circuits. Technical Report 93-01. LIP. Ecole Normale Supérieure de Lyon. (1993)<br />

[114] Christof Koch (koch@iago.caltech.edu), Heinz Schuster. A simple network showing burst<br />

synchronization without frequency locking.<br />

[115] John F. Kolen (kolen-j@cis.ohio-state.edu). Fool's gold : extracting finite state machines from<br />

recurrent network dynamics.<br />

[116] John F. Kolen (kolen-j@cis.ohio-state.edu). Recurrent networks : state machines or iterated<br />

function systems<br />

[117] John F. Kolen (kolen-j@cis.ohio-state.edu), Jordan B. Pollack (pollack@cis.ohio-state.edu). The<br />

observers' paradox : apparent computational complexity in physical systems.<br />

[118] Peter König, Bernd Janosch, Thomas B. Schillen. Stimulus-dependent assembly formation of<br />

ascillatory responses: III. learning. Neural computation. 4, 666-681. (1992)<br />

[119] Stephen M.Kosslin, William L. Thompson, Irene J. Kim, Nathaniel M. Alpert. Topographical<br />

representations of mental images in primary visual cortex. Nature. Vol. 378. November. (1995)<br />

[120] Abderrahim Labbi. Sur l'approximation et les systèmes dynamiques dans les réseaux neuronaux.<br />

<strong>Thèse</strong> de mathématiques appliquées. INPG. Grenoble. (1993)<br />

[121] E. Labos. Chaos and neural networks.<br />

[122] David A. Leopold, Nikos K. Logothetis. Activity changes in early visual cortex reflect<br />

monkeys’percepts during binocular rivalry. Nature. Vol. 379. February. p. 549-553. (1996)<br />

[123] John. E. Lewis. Leon Glass. Nonlinear dynamics and symbolic dynamics of neural<br />

networks.Neural Computation. 4. 621-642. (1992)<br />

[124] Tsungnan Lin, Bill G. Horne, Peter Tiño, C. Lee Giles. Learning long-term dependencies is not<br />

as difficult with NARX recurrent networks. Technical report. UMIACS-TR-95-78. University of<br />

Maryland. (1995)<br />

224<br />

ANNEXE


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

[125] Daw-Tung Lin, Judith E. Dayhoff, Panos A.Ligomenides. Trajectory production with the<br />

adaptative time-delay neural network. Neural Networks. Vol.8. No.3. p447-461. (1995)<br />

[126] Ralph Linsker. Self-organization in a perceptual network. computer magazine 21:105-117.(1988)<br />

[127] Lourenço, A. Babloyantz. Control of chaos in networks with delay: a model for synchronization<br />

of cortical tissue. Neural Computation. 6. p1141-1154. (1994)<br />

[128] M. W. Mak, Y.L. Lu, K.W. Ku. Improved real time recurrent learning algorithms : a review and<br />

some new approaches. ISANN95.<br />

[129] Mario Markus, Benno Hess. Isotropic cellular automaton for modelling excitable media.Nature.<br />

Vol. 347. No 6288. pp 56-58. (1990)<br />

[130] Lina E.L. Massone(massone@eecs.nwu.edu) , tony Khoshaba. Local dynamic interactions in the<br />

collicular motor map: a neural network model.<br />

[131] Nobuyuki Matsui, Elichi Bamba. Neural activities and cluster-formation in a random neural<br />

network.<br />

[132] W.C Mead, R.D Jones, Y.C Lee, C.W. Barnes, G.W. Flake, L.A Lee, M.K. O’Rourke. Prediction<br />

of chaotic timeseries using CNLS-Net-Example : The Mackey-Glass equation. Nonlinear<br />

modeling and forecasting. Casdagli & Eubank eds. Santa Fe. (1992)<br />

[133] Lisa Meeden, Gary McGraw, Douglas Blank. Emergent control and planning in an autonomous<br />

vehicle. Proceedings of the 15th annual conference of the cognitive science society.<br />

[134] Menon, D.S. Tang. Population oscillations in neuronal groups. International Journal of Neural<br />

Systems. Vol. 2. No. 3. pp 237-262. (1991)<br />

[135] Claude Meunier. The electrical coupling of two simple oscillators : load ans acceleration effects.<br />

Biol. Cyber. 67. p155-164.(1992)<br />

[136] Marvin L. Minsky(minsky@media.mit.edu), Seymour A. Papert. Perceptrons,<br />

Cambridge,MA:MIT Press. Introduction, pp 1-20 (1969)<br />

[137] Marvin L.Minsky(minsky@media.mit.edu), Seymour A.Papert. Epilog : The new connectionism.<br />

Perceptrons, third edition. Cambridge, MA: MIT Press, pp 247-280. (1988)<br />

[138] Melanie Mitchell (mm@santafe.edu), James P. Crutchfield, Peter T. Hraber. Dynamics,<br />

Computation and the Edge of Chaos. A Re-examination.<br />

[139] Michael C. Mozer. Neural net architectures for temporal sequence processing. Dans Time Series<br />

Prediction : Forecasting the future and understanding the past. Proc. Vol. XV. Addison-Wesley.<br />

(1993)<br />

[140] Johannes Müller-Gerking. Jacques Martinerie. Segio Neuenschwander. Laurent Pezard. Bernard<br />

Renault. Francisco J. Varela. Dectecting non-linearities in neuro-electrical signals : a study of<br />

synchronous local field potentials. à paraitre dans Physica D.(1996)<br />

[141] J.P Nadal (nadal@physique.ens.fr), N. Parga. Duality between learning machines : a bridge<br />

between supervised and unsupervised learning. Neural Computation. 6. p491-508. (1994)<br />

[142] Shigetoshi Nara, Peter Davis, Hiroo Totsuji. Memory search using complex dynamics in a<br />

recurrent neural network model. Neural Networks. Vol. 6. p963-973. (1993)<br />

[143] Kumpati S. Narendra, Snehasis Mukhopadhyay. Neural networks in control systems.Proceedings<br />

of the 31st conference on decision and control. pp1-6 (1992)<br />

[144] Kumpati S. Narendra, Snehasis Mukhopadhyay. Adaptative control of nonlinear multivariable<br />

systems using neural networks. Proceedings of the 31st conference on decision and control.<br />

pp3066-3071 (1992)<br />

Bibliographie Générale 225


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

[145] O. Nerrand, P. Roussel-Ragot, L. Personnaz, G. Dreyfus. S. Marcos. Neural networks and<br />

nonlinear adaptative filtering. Unifying concepts and new algorithms. Neural Computation. 5.<br />

p165-199. (1993)<br />

[146] A. Newell, H.A. Simon. Human problem solving. Englewood Cliffs, NJ. Prentice-Hall. (1972)<br />

[147] Hidetoshi Nishimori, Tota Nakamura, Masatoshi Shiino. Retrieval of spatio-temporal sequence<br />

in asynchronous neural network. Physical Review A. Vol. 41. No. 6. p3346-3354.(1990)<br />

[148] S. Olafsson. On the stability of neural networks with arbitrary weights. Neural computing and<br />

applications. 4:2-9. (1996)<br />

[149] Christian W. Omlin, C.Lee Giles. Extraction of rules from discrete time recurrent neural<br />

networks.<br />

[150] A. Pelah, H.B Barlow. Visual illusion from running. Nature. Vol 381. may 1996, p.283. (1996)<br />

[151] Alexander Parlos. Kil T. Chong. Amir F. Atyia. Application of the recurrent multilayer<br />

perceptron in modeling complex process dynamics. IEEE TNN. Vol. 5. No.2.. p255-266. (1994)<br />

[152] Barak A. Pearlmutter. Dynamic Recurrent Neural Networks. Technical Report. CMU-CS-90-196.<br />

Carnegie Mellon University. Pittsburgh, PA 15213 (1990)<br />

[153] Barak A. Pearlmutter. Gradient Calculations for dynamic recurrent neural networks : a survey.<br />

IEEE transactions on Neural Networks. Vol.6. No.5. (1995)<br />

[154] C. Perky. An experimental study of imagination. Amer. J. Psychol. 21. p.422-452. (1910)<br />

[155] Rolf Pfeifer (pfeifer@ifi.unizh.ch),, christian Scheier. From perception to action : the right<br />

direction ? PerAc '94 conference. IEEE. (1994)<br />

[156] Stephen W. Piché. Steepest descent algorithms for neural network controllers and filters.IEEE<br />

TNN. Vol.5. No.2. p198-212 (1994)<br />

[157] Pinaki Poddar, K. P. Unnikrishnan. Memory neuron networks : A prolegomenon. General motors<br />

research laboratories. CMR-7493. 21 octobre. (1991)<br />

[158] Jordan B. Polllack. Implications of recursive distributed representations.<br />

[159] Eric O. Postma, Ernst H. Wolf, H. Jaap van den Herik. The nature of memory representation.<br />

Proceedings of the workshop on supercomputers in brain research. (1995)<br />

[160] Gintaras V. Puskorius, Lee A. Feldkamp. Neurocontrol of nonlinear dynamical systems with<br />

kalman filter trained recurrent networks. IEEE TNN. Vol.5. No.2. p279-297. (1994)<br />

[161] Mathias Quoy. Apprentissage dans les réseaux neuromimétiques à dynamiquechaotique.<strong>Thèse</strong>.<br />

Groupement d'Intelligence Artificielle. Centre d'études et de recherches de Toulouse (1994)<br />

[162] M.I. Rabinovich, R. Huerta, H.D.I Arbanel, A.I. Selverson. A minimal model for chaotic bursting<br />

of the LP neuron in lobster. Submitted to Proc. Natl. Acad. Sci. (1996)<br />

[163] Rander, K.P. Unnikrishnan. Learning the time-delay characteristics in a neural network. IEEE<br />

international conference on acoustics, speech and signal processing. Vol. II. pp285-288. (1992)<br />

[164] Steve Renals. Chaos in neural networks. Eurasip Workshop, 90-99. (1990)<br />

[165] L. Rodet, G. Tiberghien. Towards a dynamic model of associative semantic memory.Journal of<br />

biological systems. Vol. 2. No. 3. p401-441. (1994)<br />

[166] Eric Ronco, Peter Gawthrop. Modular neural networks : a state of the art. Technicalre-port CSC-<br />

95026. (1995)<br />

[167] Bertrand Russel. Histoire de mes idées philosophiques. Coll. tel Gallimard.<br />

[168] Norihiro Sadato, Alvaro Pascual Leone, Jordan Grafman, Vicente Ibanez, Marie-Pierre Delber,<br />

Geaorge Dold, Mark Hellett. Activation of the primary visual cortex by Braille reading in blind<br />

subjects. Nature. Vol. 380. (1996).<br />

226<br />

ANNEXE


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

[169] Toshimichi Saito. Chaos and fractals from forced artificial neural cell. IEEE TNN. Vol.4.No.1.<br />

(1993)<br />

[170] Sastry, G. Santharam, K. P. Unnikrishnan. Memory neuron networks for identification and<br />

control of dynamical systems. NAO Research and DEvelopment Center. GMR-7916. 9 mars<br />

(1993).<br />

[171] Steven J. Schiff, Kristin Jerger, Duc H. Duong, Taeun Chang, Mark L. Spano, William L. Ditto.<br />

controlling chaos in the brain. Nature. Vol 370. pp615-620. (1994)<br />

[172] Jürgen Schmidhuber (yirgan@cs.colorado.edu) . Learning Factorial codes by predictability<br />

minimization. Technical Report. TR CU-CS-565-91. (1991)<br />

[173] Jürgen Schmidhuber (yirgan@cs.colorado.edu). A Fixed size storage O(n3) time complexity<br />

learning algorithm for fully recurrent continually running networks. Neural computation. 4.<br />

p243-248. (1992)<br />

[174] Jürgen Schmidhuber (yirgan@cs.colorado.edu). Learning complex, extended sequences using the<br />

principle of history compression. Neural computation. 4. p234-242. (1992)<br />

[175] Erwin Schrödinger. L’esprit et la matière. Coll. Seuil.<br />

[176] S. Segal, V. Fusella. Influence of imaged pictures and sounds of visual and auditory signals. J.<br />

Esp. Psychol. 83. p458-464. (1970)<br />

[177] Ralph M. Siegel, Heather L. Read. Models of the temporal dynamics of visual processing.Journal<br />

of statistical physics. Vol. 70. No 1&2. (1993)<br />

[178] Hava T. Siegelmann (iehava@ie.technion.ac.il), Bill G. Horne, C. Lee Giles. Computational<br />

capabilities of recurrent NARX neural networks. Technical Report. UMIACS-TR-95-12.<br />

University of Maryland. (1995)<br />

[179] Hava T. Siegelmann (iehava@ie.technion.ac.il). Computation beyond the Turing Limit. Science.<br />

Vol. 268. 28 april 1995. pp 545-548. (1995)<br />

[180] Christine A. Skarda, Walter J. Freeman (wfreeman@garnet.berkeley.edu). How brains make<br />

chaos in order to make sense of the world. Behavioral and Brain <strong>Sciences</strong>. 10. pp 161-195.<br />

(1987)<br />

[181] Paul So, Edward Ott, W.P. Dayawansa. Observing chaos : deducing and tracking the sate of a<br />

chaotic system from limited observation. Physical review E. Vol.49. No.4. p2650-2864.(1994)<br />

[182] Sompolinsky, I. Kanter. Temporal association in asymmetric neural networks.Physical Review E.<br />

Vol.57. No.22. p2861-2864. (1986)<br />

[183] Piet Spiessens (piet@arti.vub.ac.be), Jan Torreele(jant@arti.vub.ac.be). Massively parallel<br />

evolution of recurrent networks : an approach to temporal processing.<br />

[184] Srinivasan, U.R. Prasad, N.J. Rao. Back Propagation through adjoints for the identification of<br />

nonlinear dynamic systems using recurrent neural models. IEEE TNN. Vol.5. No.2. (1994)<br />

[185] Michael Stiber. José P. Segundo. Learning in neural models with complex dynamics.<br />

[186] Guo-Zheng Sun, Hsing-Hen Chen, Yee-Chun Lee. A Fast on-line learning algorithm for<br />

recurrent neural networks.0-7803-0164-1/91. IEEE TNN. Vol.2. p13-18. (1991)<br />

[187] J.G Taylor. Neural network capacity for temporal sequence storage. International journal of<br />

Neural Systems. Vol. 2, Nos 1&2. pp 47-54 (1991)<br />

[188] James Theiler. On the evidence for low-dimensional chaos in an epileptic electroencephalogram.<br />

Physica Letters A. 196. p335-341. (1995)<br />

[189] James Theiler, P.E. Rapp. Re-examination of the evidence for low-dimensional, nonlinear<br />

strcuture in the human electroencephalogram.preprint. 1995.<br />

Bibliographie Générale 227


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

[190] Christopher M. Thomas. William G. Gibson. John Robinson. Stability and bifurcations in an<br />

associative memory model. Neural Networks. Vol. 9.No1. p53-66. (1996)<br />

[191] Peter Tiño (tino@decef.elf.stuba.sk), Bill G. Horne, C. Lee Giles. Fixed points in two-neuron<br />

discrete time recurrent networks : stability and bifurcation considerations. Technical<br />

report.UMIACS-TR-95-51. University of Maryland. (1995)<br />

[192] Peter Tiño (tino@decef.elf.stuba.sk), Bill G. Horne, C. Lee Giles. Finite State Machines and<br />

recurrent neural networks. Automata and dynamical systems approaches. Technical Report.<br />

UMIACS-TR-95-1. University of Maryland. (1995)<br />

[193] Nikzad Benny Toomarian, Jacob Barhen. Learning a trajectory using adjoint functions and<br />

teacher forcing. Neural Networks. 5. p 473-383. (1992)<br />

[194] Towards an artificial eye. IEEE Spectrum. p21-69. 0018-9235/96. (1996)<br />

[195] Ah Chung Tsoi, Andrew D. Back. Locally recurrent globally feedforward networks : a critical<br />

review of architectures. IEEE TNN. Vol. 5. No.2. p 229-239. (1994)<br />

[196] Ichiro Tsuda. Dynamic Link of memory- chaotic memory map in nonequilibrium neural networks.<br />

Neural networks, vol. 5. pp 313-326. (1992)<br />

[197] Fu-Sheng Tsung (tsung@cs.ucsd.edu). Learning in finite difference networks.<br />

[198] Fu-Sheng Tsung(tsung@cs.ucsd.edu), Garrison W. Cottrell (gary@cs.ucsd.edu). Hopf bifurcation<br />

and hopfhopping in recurrent nets.<br />

[199] Fu-Sheng Tsung (tsung@cs.ucsd.edu), Garrison W. Cottrell (gary@cs.ucsd.edu). Learning in<br />

recurrent finite difference networks. International Journal of Neural Systems. Vol. 6, No 3. p249-<br />

256. (1995)<br />

[200] E. Tzirkel-Hancock (et@uk.ac.cam.eng), F. Fallside.. A direct control method for a class of<br />

nonlinear systems using neural networks.<br />

[201] E. Tzirkel-Hancock (et@uk.ac.cam.eng), F. Fallside. Stable control of nonlinear systems using<br />

neural networks.<br />

[202] P. Unnikrishnan(unni@neuro.cs.gmr.com), K. P. Venugopal. Alopex : a correlation-based<br />

learning algorithm for feedforward and recurrent neural networks. Neural Computation.Vol. 6,<br />

No. 3. may (1994)<br />

[203] K.P Unnikrishnan, J.J. Hopfield. Connected-digit speaker-dependent speech recognition using a<br />

neural network with time-delayed connections. IEEE transactions on signal processing. Vol. 39.<br />

No.3. p698-712. (1991)<br />

[204] Unnikrishnan, J.J. Hopfield, D.W Tank. Speaker-independent digit recognition using a neural<br />

network with time-delayed connections. Neural computations. 4. p108-119. (1992)<br />

[205] F.J. Varela. Autonomie et connaissance. La couleur des idées.Collection Seuil.Edition 1989.<br />

[206] Vibert, Khachayar Pakdaman, Noureddine Azmy. Interneural delay modification synchronizes<br />

biologically plausible neural networks. Neural Networks. Vol. 7. No.4 . pp 589-607. (1994)<br />

[207] Eric. A. Wan (wan@isl.stanford.edu). Time series prediction by using a connectionist network<br />

with internal delay lines. Dans Time Series prediction, Forecasting the future and understanding<br />

the past. A. Weigend, N. Gershenfeld, editors. SFI studies in the sciences of complexity. Vol.<br />

XVII. Addison-Wesley (1994)<br />

[208] Eric A. Wan. Modeling nonlinear dynamics with neural networks : examples in time series<br />

prediction.<br />

[209] Xin Wang. Discrete-time dynamics of coupled quasi-periodic and chaotic neural network<br />

oscillators. 0-7803-0559-0/92. IEEE TNN. Vol. 3. p517-522. (1992)<br />

228<br />

ANNEXE


Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

[210] Xiao-Jing Wang, John Rinzel. Alternating and synchronous rythms in reciprocally inhibitory<br />

model neurons. Neural Computations. 4. p84-97. (1992)<br />

[211] Deliang Wang, Joachim Buhmann. Pattern segmentation in associative memory. Neural<br />

Computation. 2. p94-106. (1990)<br />

[212] Michael Wellky. William H. Bosking. David Fitzpatrick. A systematic map of direction<br />

preference in primary visual cortex. Nature. Vol. 379. p725-728. (1996)<br />

[213] Ronald J. Williams. Training Recurrent networks using the extended kalman filter. 0-7803-0559-<br />

0/92. IEEE. Vol. 4. p.241-246. (1992)<br />

[214] Ronald.J. Williams, Jing Peng. An efficient gradient based algorithm for on-line training of<br />

recurrent network trajectories. Neural Computation. 2. p490-501. (1990)<br />

[215] Ronald.J. Williams, D. Zipser (zipser@cogsci.ucsd.edu). A learning algorithm for continually<br />

running fully recurrent neural networks. Neural Computation. 1. p270-280. (1989)<br />

[216] Ronald.J. Williams, D. Zipser (zipser@cogsci.ucsd.edu). Experimental analysis of the realtime<br />

recurrent learning algorithm. Connection Science, 1, pp87-111. (1991)<br />

[217] Chwan-Hwa Wu, Jyun-Hwei Tsai. An asynchronous relaxation method for the parallel<br />

simulation of the learning of recurrent neural networks.<br />

[218] Yong Yao, Walter J. Freeman (wfreeman@garnet.berkeley.edu). Model of biological pattern<br />

recognition with spatially chaotic dynamics. Neural Networks. Vol. 3. pp 153-170. (1990)<br />

[219] Michael Zak. Terminal attractors in neural networks. Neural Networks. Vol.2. p259-274.(1989)<br />

[220] Rafal Waclaw Zbikowski. Recurrent neural networks, some control aspects. Glasgow University.<br />

(1994)<br />

[221] David Zipser. A subgrouping strategy that reduces complexity and speeds up learning in<br />

recurrent networks. Neural Computation. 1. p552-558. (1989)<br />

[222] David Zipser. Recurrent network model of the neural mechanism of short-term active memory.<br />

Neural computation. 3. 179-193. (1991)<br />

Bibliographie Générale 229

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!