23.06.2013 Views

Thèse Sciences Cognitives - Olivier Nerot

Thèse Sciences Cognitives - Olivier Nerot

Thèse Sciences Cognitives - Olivier Nerot

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

82<br />

Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />

présentons dans cette partie, l’ensemble des algorithmes qui permettent de réaliser<br />

l’apprentissage par descente de gradient dans les réseaux récurrents, en espérant ainsi dégager<br />

des principes qui peuvent être appliqués à nos réseaux. Dans tous les paragraphes qui suivent,<br />

l’ensemble S, de cardinal N, des neurones est séparé en trois sous-ensembles : Se, les neurones<br />

d’entrée (ces neurones possédant une entrée additive I t<br />

i ()), Sc, les neurones cachés, et Ss, les<br />

neurones de sortie (Figure 4-1). Cette partition de l’ensemble des neurones, classique dans le<br />

connexionnisme, peut être rapprochée du schéma utilisé pour représenter le système et son<br />

environnement (Figure 4-1). Les apprentissages évoqués ici permettent de faire suivre la<br />

dynamique désirée à chacun des neurones de sortie.<br />

Dans les développements qui suivent, nous définirons :<br />

xi(t), la sortie du neurone i au temps t<br />

pour i S s<br />

Î , x$ () t , la sortie désirée du neurone i<br />

i<br />

et m p (), t les paramètres du réseau au temps t<br />

L’erreur instantanée d’un neurone de sortie est alors définie par :<br />

1<br />

Et () = x$() t -x<br />

() t<br />

2<br />

å(<br />

i i )<br />

iÎSS La descente de gradient revient à modifier au cours du temps les paramètres du réseau<br />

pour minimiser cette erreur. Or, l’évolution de l’erreur au cours du temps est donnée par :<br />

Ainsi, si nous posons d<br />

m<br />

dt<br />

p<br />

dE<br />

dt<br />

R<br />

dE dm<br />

p<br />

å dm<br />

dt<br />

=<br />

p=<br />

1<br />

PREMIERE PARTIE : ANALYSE<br />

p<br />

dE<br />

=- h , avec h > 0 , il est garanti que<br />

dm<br />

dE<br />

< 0<br />

dt<br />

Dans le cas où les paramètres du réseau sont les poids w ij , soit :<br />

La règle d’apprentissage revient à :<br />

p<br />

{ m 1 ,..., m p,..., m R } = { w11 , ,..., wi, j,..., wNN<br />

, }<br />

dw<br />

dt<br />

ij<br />

dE<br />

=-h<br />

dw<br />

Cette dernière équation montre qu’une des méthodes d’évolution des paramètres du<br />

système consiste à évaluer dE<br />

dWij , qui peut être calculé à partir des équations de propagation 29 qui<br />

sont (avec s, une fonction sigmoïde, appelée aussi fonction neurone) :<br />

29 Il est possible de passer simplement du cas discret au cas continu...<br />

ij<br />

2

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!