Thèse Sciences Cognitives - Olivier Nerot
Thèse Sciences Cognitives - Olivier Nerot
Thèse Sciences Cognitives - Olivier Nerot
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
82<br />
Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />
présentons dans cette partie, l’ensemble des algorithmes qui permettent de réaliser<br />
l’apprentissage par descente de gradient dans les réseaux récurrents, en espérant ainsi dégager<br />
des principes qui peuvent être appliqués à nos réseaux. Dans tous les paragraphes qui suivent,<br />
l’ensemble S, de cardinal N, des neurones est séparé en trois sous-ensembles : Se, les neurones<br />
d’entrée (ces neurones possédant une entrée additive I t<br />
i ()), Sc, les neurones cachés, et Ss, les<br />
neurones de sortie (Figure 4-1). Cette partition de l’ensemble des neurones, classique dans le<br />
connexionnisme, peut être rapprochée du schéma utilisé pour représenter le système et son<br />
environnement (Figure 4-1). Les apprentissages évoqués ici permettent de faire suivre la<br />
dynamique désirée à chacun des neurones de sortie.<br />
Dans les développements qui suivent, nous définirons :<br />
xi(t), la sortie du neurone i au temps t<br />
pour i S s<br />
Î , x$ () t , la sortie désirée du neurone i<br />
i<br />
et m p (), t les paramètres du réseau au temps t<br />
L’erreur instantanée d’un neurone de sortie est alors définie par :<br />
1<br />
Et () = x$() t -x<br />
() t<br />
2<br />
å(<br />
i i )<br />
iÎSS La descente de gradient revient à modifier au cours du temps les paramètres du réseau<br />
pour minimiser cette erreur. Or, l’évolution de l’erreur au cours du temps est donnée par :<br />
Ainsi, si nous posons d<br />
m<br />
dt<br />
p<br />
dE<br />
dt<br />
R<br />
dE dm<br />
p<br />
å dm<br />
dt<br />
=<br />
p=<br />
1<br />
PREMIERE PARTIE : ANALYSE<br />
p<br />
dE<br />
=- h , avec h > 0 , il est garanti que<br />
dm<br />
dE<br />
< 0<br />
dt<br />
Dans le cas où les paramètres du réseau sont les poids w ij , soit :<br />
La règle d’apprentissage revient à :<br />
p<br />
{ m 1 ,..., m p,..., m R } = { w11 , ,..., wi, j,..., wNN<br />
, }<br />
dw<br />
dt<br />
ij<br />
dE<br />
=-h<br />
dw<br />
Cette dernière équation montre qu’une des méthodes d’évolution des paramètres du<br />
système consiste à évaluer dE<br />
dWij , qui peut être calculé à partir des équations de propagation 29 qui<br />
sont (avec s, une fonction sigmoïde, appelée aussi fonction neurone) :<br />
29 Il est possible de passer simplement du cas discret au cas continu...<br />
ij<br />
2