Thèse Sciences Cognitives - Olivier Nerot

Recommendations

Info

102 Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents Ainsi, les réseaux développés ici ne possèdent ni entrées, ni sorties, dont le rôle ait été prédéfini à la construction du réseau, comme cela est le cas dans les architectures à couches (entrées, couches cachées, sorties). Chaque neurone peut être un candidat pour la perception (forçage par l’environnement) ou pour l’action (contrôle moteur). Ainsi, il n’y a pas de hiérarchie dans les neurones, prédéterminée lors de la conception du réseau : que ce soit un neurone en contact avec l’extérieur, un neurone isolé, un groupe de neurones, tous ont pour fonction d’anticiper leur environnement ; le neurone forcé par l’environnement cherche à anticiper les modifications de celui-ci, un neurone caché cherche à minimiser les perturbations transmises par ses voisins, une population neuronale cherche à se stabiliser par rapport aux autres populations. La notion de minimisation des perturbations induites permet donc d’envisager une règle similaire à tous les niveaux de description du système 35 . Nous n’entendons pas que le principe énoncé précédemment est le seul à l’oeuvre dans le système cérébral : nous tentons simplement de mettre en évidence un des principes envisageables. En effet, si un système cherche simplement à minimiser les perturbations externes, une solution simple pour lui est de s’enfermer dans une bulle isolée. Or ce n’est pas ce que nous réalisons. Peut être faut-il donc imaginer d’autre principes qui contrebalancent les effets de cette recherche de ‘tranquillité maximale’ du système. 5. Information externe et information interne Cette organisation, identique à tous les niveaux de description du réseau, est un des avantages des architectures forcées : le forçage peut s’interpréter à tous les niveaux de description du système. A l’échelle du neurone, il n’y a pas de différence fondamentale entre une information provenant de l’extérieur, et une information provenant d’un autre neurone. Cette information ne porte pas la marque de son origine. Dans les deux cas, cette information est perçue comme une perturbation. Cette interprétation est en tout point similaire à celle de Varela [[205]], qui voit la même indifférenciation de l’origine de l’information neuronale : En tant que réseau neuronal clos, le système nerveux n’a ni entrées ni sorties ; et aucune caractéristique intrinsèque de son organisation ne lui permet de distinguer, par la dynamique de ses changements d’états, l’origine interne ou externe de ses changements. Cette approche peut permettre de rendre naturelle la description à différents niveaux du système percevant, et peut nous orienter vers des architectures modulaires ou ‘modularisables’. 6. Nombre d’itérations d’apprentissage L’une des grandes limites théoriques des modèles connexionnistes est le nombre d’itérations nécessaires à l’apprentissage : il n’est pas rare de devoir réaliser plusieurs centaines de milliers d’itérations d’apprentissage, voire parfois plusieurs millions. 35 N’est ce pas ce que chacun cherche à réaliser lorsqu’il essaye de convaincre autrui de la validité de ses idées, ceci afin de ne plus être perturbé par des idées contraires aux siennes ? D’ailleurs, les méthodes utilisées sont souvent d’autant plus perturbantes pour l’environnement, que les idées sont difficilement justifiées ‘en interne’. DEUXIEME PARTIE : DEVELOPPEMENT
Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents L’ensemble des apprentissage que nous avons essayés dans nos réseaux se sont tous révélés d’une lenteur extrême (Chap.8, Anticipation du forçage des dynamiques, p.185). Le forçage entraîne immédiatement la dynamique du réseau à suivre la dynamique extérieure ; ainsi, le réseau est immédiatement proche de la dynamique qu’il aura après apprentissage 36 . D’une certaine façon, la perturbation externe est immédiatement perçue. N’est-ce pas ce qui se passe lorsque nous percevons un objet ? En regardant une peinture, par exemple, si nous fermons les yeux, l’image s’évanouira lentement pour ne laisser qu’une impression vague. Mais, si nous rouvrons les yeux tout de suite, le tableau nous réapparaît tel que nous l’imaginions, en donnant l’impression de venir se coller à la représentation interne que nous en avions. Plus nous observerons ce tableau, plus la perception que nous en aurons sera précise et fidèle. Mais combien de temps devrons-nous l’observer pour que l’image interne que nous nous faisons de l’objet soit précisément celle regardée, au point que nous confondions le tableau et l’image mentale ? Il est probable que, pour atteindre ce point de perfection dans la représentation interne de l’objet perçu, il nous faille aussi plusieurs millions d’ ‘itérations’... Il n’est donc peut être pas si surprenant que l’apprentissage dans les modèles connexionnistes requière autant d’itérations pour apprendre parfaitement un signal d’entrée. Cette limite n’est peut être pas un signe de l’échec du connexionnisme. Finalement, ce qui nous intéresse lorsque nous regardons un tableau, c’est de pouvoir nous en ‘faire une idée’, complétée à chaque nouvelle observation.. Ainsi, l’idée du forçage permet de justifier la nécessité d’être en contact avec l’image perçue pour pouvoir se la représenter parfaitement. Et il n’est peut être pas nécessaire d’atteindre le stade de l’apprentissage par cœur pour le réseau, qui est pourtant l’un des critères de réussite de la plupart des modèles actuels. D’autre part, il existe un compromis entre la qualité de l’apprentissage, et les capacités de généralisation du réseau : la mémoire absolue ne peut pas généraliser, car chaque perception d’un même phénomène est perçue comme un cas particulier. Il est donc sans doute préférable de ne pas chercher un apprentissage par cœur dans le réseau, afin de maximiser ses chances de généralisation. 7. Evite la divergence des paramètres du réseau L’étude de l’algorithme d’apprentissage RTRL (4.4.3 Real time recurrent learning, p.86) a mis en évidence que la dynamique des Pijk peut être instable, et il n’est pas rare de voir les poids diverger (4.5.3 Instabilité,p.90). Or, dans le cas où la dynamique de forçage est lente, le système étant forcé de suivre cette dynamique, l’erreur réalisée est faible, ce qui maintient les Pijk à des valeurs faibles, dans le cas d’un apprentissage par RTRL. Il y donc moins de chances de voir les poids diverger. 36 ou tout au moins, plus proche que de celle qu’il aurait sans forçage. UN MODELE CONNEXIONNISTE DE LA MEMOIRE 103
Page 1:
THESE présentée en vue d’obteni
Page 5 and 6:
Mémorisation par forçage neuronal
Page 7 and 8:
Mémorisation par forçage des dyna
Page 9 and 10:
Page 11 and 12:
Page 13 and 14:
Page 15 and 16:
Page 17 and 18:
Page 19 and 20:
Page 21:
Page 24 and 25:
Page 26 and 27:
26 Mémorisation par forçage des d
Page 28 and 29:
Page 30 and 31:
Page 32 and 33:
Page 34 and 35:
Page 36 and 37:
Page 38 and 39:
Page 40 and 41:
Page 42 and 43:
Page 44 and 45:
Page 46 and 47:
Page 48 and 49:
Page 50 and 51:
Page 52 and 53: 52 Mémorisation par forçage des d
Page 62 and 63: Mémorisation par forçage des dyna
Page 101: Mémorisation par forçage des dyna
Page 128 and 129: 128 Mémorisation par forçage des
Page 153 and 154:
Page 155 and 156:
Page 157 and 158:
Page 159 and 160:
Page 161 and 162:
Page 163 and 164:
Page 165 and 166:
Page 167 and 168:
Page 169 and 170:
Page 171 and 172:
Page 173 and 174:
Page 175 and 176:
Page 177 and 178:
Page 179 and 180:
Page 181 and 182:
Page 183 and 184:
Page 185 and 186:
Page 187 and 188:
Page 189 and 190:
Page 191 and 192:
Page 193 and 194:
Page 195 and 196:
Page 197 and 198:
Page 199 and 200:
Page 201 and 202:
Page 203 and 204:
Page 205:
Page 208 and 209:
208 Mémorisation par forçage des
Page 210 and 211:
Page 212 and 213:
Page 214 and 215:
Page 216 and 217:
Page 218 and 219:
Page 220 and 221:
Page 222 and 223:
Page 224 and 225:
Page 226 and 227:
Page 228 and 229:
show all

Thèse Sciences Cognitives - Olivier Nerot

Create successful ePaper yourself

Delete template?

Save as template?