Thèse Sciences Cognitives - Olivier Nerot
Thèse Sciences Cognitives - Olivier Nerot
Thèse Sciences Cognitives - Olivier Nerot
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
90<br />
Mémorisation par forçage des dynamiques chaotiques dans les modèles connexionnistes récurrents<br />
(RTRL), l’algorithme est bien on-line, c’est à dire qu’un neurone n’a accès qu’à l’état des neurones<br />
de l’itération en cours, mais il est non-local. Dans la totalité des recherches réalisées à ce jour,<br />
aucune n’a réussi à associer les critères on-line et local dans un seul algorithme pour<br />
l’apprentissage de dynamiques dans les réseaux récurrents. Afin de rendre plausibles ces règles,<br />
nous proposerons d’effectuer des simplifications extrêmes de BPTT et de RTRL (8.3, p.190 et<br />
8.4,p.195), les rendant tous deux On-line et local.<br />
4.5.2 Faux gradients<br />
Dans les calculs aboutissant à RTRL, il existe plusieurs approximations. La première<br />
considère que les poids synaptiques ne varient pas au cours du temps. Or le rôle de<br />
l’apprentissage consiste bien à faire évoluer les poids. Les auteurs justifient cette hypothèse en<br />
supposant le gain d’apprentissage très petit. Or dans ce cas, il est nécessaire d’effectuer un très<br />
grand nombre de pas d’apprentissage, ce qui augmente encore les risques d’explosion du réseau<br />
(voir ci-dessous). La deuxième approximation considère que les poids sont indépendants entre<br />
eux. Or chaque modification de poids dépend de l’état de tous les autres poids du réseau, à<br />
k<br />
travers le calcul des pij . Ainsi les gradients calculés ne sont pas exacts, et cette inexactitude<br />
s’accumulant tout au long de l’apprentissage, il est possible que le réseau ne voit pas ses poids<br />
converger.<br />
Pour ce qui est de BPTT, celui-ci suppose que la totalité des états précédents soit<br />
mémorisée. Cette contrainte étant impossible à vérifier dans le cas de réseaux que l’on souhaite<br />
laisser évoluer pendant longtemps, plusieurs méthodes ont été imaginées, limitant ce besoin de<br />
mémoire. Toutes sont sources d’erreur pour le calcul du gradient.<br />
4.5.3 Instabilité<br />
Dans certains cas, l’algorithme RTRL peut faire diverger les poids, en effet, l’équation :<br />
dp<br />
dt<br />
k<br />
ij<br />
k<br />
() t + p () t = s¢<br />
( h()) t x () t<br />
ij<br />
i j<br />
k<br />
montre bien que les pij peuvent diverger. En effet, il n’y a pas de seuillage par une<br />
fonction bornée. Nous avons parfois observé de telles divergences, que nous avons dû éliminer<br />
en réalisant un seuillage artificiel, ce qui fausse encore la précision du calcul du gradient. Dans ce<br />
k<br />
cas, bien souvent les pij saturent, ce qui crée un apprentissage selon une descente de gradient<br />
aussi approximative que le sera celle des apprentissages proposés. Ainsi, la nécessité d’un<br />
seuillage, ou d’une réinitialisation fréquente, montre que RTRL réalise des approximations qui, en<br />
s’accumulant, en limite l’efficacité.<br />
4.6 Conclusion<br />
L’ajout de connexions récurrentes dans un réseau pose de nombreux problèmes qu’un<br />
algorithme aussi simple que la rétropropagation du gradient ne peut pas résoudre. L’une des<br />
principales causes de cette limitation est due au fait que l’état d’un neurone à l’instant t influence<br />
la dynamique de l’ensemble du réseau durant le reste de ses itérations , car l’état du réseau n’est<br />
PREMIERE PARTIE : ANALYSE