Algorithmes de prediction et de recherche de multi-structures d'ARN
Algorithmes de prediction et de recherche de multi-structures d'ARN
Algorithmes de prediction et de recherche de multi-structures d'ARN
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
6 Résumé<br />
représentation en arbre <strong>de</strong>s ARNs <strong>et</strong> factorise les paires <strong>de</strong> bases ou les hélices communes entre<br />
plusieurs <strong>structures</strong>. Le chapitre 2 présente mes définitions <strong>de</strong> <strong>structures</strong> secondaires, que cela<br />
soit sur <strong>de</strong>s paires <strong>de</strong> bases ou sur <strong>de</strong>s hélices. J’ai ensuite étudié les <strong>de</strong>ux suj<strong>et</strong>s suivants :<br />
• Quelle est la <strong>multi</strong>-structure représentant toutes les <strong>structures</strong> secondaires “pertinentes”<br />
d’un ARN ?<br />
Il y a souvent beaucoup <strong>de</strong> <strong>structures</strong> sous-optimales qui ont une énergie proche <strong>de</strong><br />
l’optimale, mais qui sont topologiquement très proches. Je choisis donc <strong>de</strong> gar<strong>de</strong>r uniquement<br />
les <strong>structures</strong> localement optimales pour décrire toutes les <strong>structures</strong> possibles.<br />
Ces <strong>structures</strong> sont, en un certain sens, “saturées” : on ne peut leur ajouter aucune paire<br />
<strong>de</strong> bases. Ces <strong>structures</strong> ont été introduites par Clote dans [22], dans un contexte limité<br />
aux paires <strong>de</strong> bases. La thèse généralise c<strong>et</strong>te définition aux hélices thermodynamiquement<br />
stables.<br />
Le chapitre 3 propose un algorithme efficace pour énumérer les <strong>structures</strong> localement optimales.<br />
Dans une telle structure, chaque structure plate est maximale en un certain sens:<br />
l’algorithme manipule donc <strong>de</strong>s <strong>structures</strong> maximales par juxtaposition. Pour <strong>de</strong>s<br />
raisons pédagogiques, la thèse présente tout d’abord l’algorithme sur un modèle simple<br />
<strong>de</strong> Nussinov-Jacobson (section 3.2), puis l’étend à <strong>de</strong>s hélices thermodynamiquement stables<br />
(section 3.3). J’ai implémenté c<strong>et</strong> algorithme dans le logiciel Regliss, <strong>et</strong> j’ai effectué<br />
plusieurs expériences montrant comment Regliss peut décrire le paysage énergétique <strong>de</strong><br />
séquences d’ARN (pages 51 <strong>et</strong> suivantes).<br />
• Comment trouver toutes les occurences d’une <strong>multi</strong>-structure dans une séquence ?<br />
Dans ce problème <strong>de</strong> <strong>recherche</strong> <strong>de</strong> motifs, on part d’une <strong>multi</strong>-structure, donnée comme<br />
imbrication <strong>de</strong> <strong>structures</strong> plates. C<strong>et</strong>te <strong>multi</strong>-structure peut représenter <strong>de</strong>s <strong>structures</strong><br />
putatives (comme <strong>de</strong>s strucutres sous-optimales produites par un logiciel <strong>de</strong> prédiction, ou<br />
comme les <strong>structures</strong> localment optimales produites par Regliss) ou <strong>de</strong>s <strong>structures</strong> réelles<br />
(pour <strong>de</strong>s ARNs ayant plusieurs <strong>structures</strong> stables, ou bien pour plusieurs <strong>structures</strong> similaires<br />
au sein <strong>de</strong> familles d’ARNs).<br />
Le chapitre 4 propose un algorithme efficace <strong>de</strong> programmation dynamique pour localiser<br />
toutes les occurences d’une telle <strong>multi</strong>-structure dans une séquence génomique. Ici encore,<br />
la décomposition en imbrication <strong>de</strong> <strong>structures</strong> plates est la clé <strong>de</strong> l’algorithme (section<br />
4.2). La thèse présente aussi comment <strong>de</strong>s contraintes supplémentaires peuvent donner<br />
<strong>de</strong>s résultats biologiquement plus pertinents (section 4.3).<br />
J’ai implémenté c<strong>et</strong> algorithme dans le logiciel Alterna, <strong>et</strong> testé plusieurs cas d’utilisation<br />
(pages 74 <strong>et</strong> suivantes). J’ai essayé <strong>de</strong> montrer que, lorsqu’on connaît un ensemble <strong>de</strong> <strong>structures</strong><br />
putatives (même sans connaître la “bonne” structure), il est possible <strong>de</strong> <strong>recherche</strong>r<br />
<strong>de</strong> telles <strong>structures</strong> sur le génome <strong>et</strong> d’annoter <strong>de</strong>s séquences pouvant être <strong>de</strong>s ARNs avec<br />
la même fonction.<br />
Je conclus ma thèse, pages 79 <strong>et</strong> suivantes, en donnant quelques pistes <strong>de</strong> <strong>recherche</strong>: est-ce<br />
possible <strong>de</strong> définir <strong>de</strong>s <strong>multi</strong>-<strong>structures</strong> pondérées, où certaines instances seraient plus privilégiées<br />
que d’autres ? Comment visualiser, comparer, in<strong>de</strong>xer <strong>de</strong>s <strong>multi</strong>-<strong>structures</strong> ? À la fin <strong>de</strong> c<strong>et</strong>te<br />
thèse, je pense pouvoir affirmer que les <strong>multi</strong>-<strong>structures</strong> sont un outil prom<strong>et</strong>teur pour explorer<br />
la richesse <strong>de</strong>s <strong>structures</strong> secondaires <strong>de</strong>s ARN non-codants.