11.01.2013 Views

Algorithmes de prediction et de recherche de multi-structures d'ARN

Algorithmes de prediction et de recherche de multi-structures d'ARN

Algorithmes de prediction et de recherche de multi-structures d'ARN

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

6 Résumé<br />

représentation en arbre <strong>de</strong>s ARNs <strong>et</strong> factorise les paires <strong>de</strong> bases ou les hélices communes entre<br />

plusieurs <strong>structures</strong>. Le chapitre 2 présente mes définitions <strong>de</strong> <strong>structures</strong> secondaires, que cela<br />

soit sur <strong>de</strong>s paires <strong>de</strong> bases ou sur <strong>de</strong>s hélices. J’ai ensuite étudié les <strong>de</strong>ux suj<strong>et</strong>s suivants :<br />

• Quelle est la <strong>multi</strong>-structure représentant toutes les <strong>structures</strong> secondaires “pertinentes”<br />

d’un ARN ?<br />

Il y a souvent beaucoup <strong>de</strong> <strong>structures</strong> sous-optimales qui ont une énergie proche <strong>de</strong><br />

l’optimale, mais qui sont topologiquement très proches. Je choisis donc <strong>de</strong> gar<strong>de</strong>r uniquement<br />

les <strong>structures</strong> localement optimales pour décrire toutes les <strong>structures</strong> possibles.<br />

Ces <strong>structures</strong> sont, en un certain sens, “saturées” : on ne peut leur ajouter aucune paire<br />

<strong>de</strong> bases. Ces <strong>structures</strong> ont été introduites par Clote dans [22], dans un contexte limité<br />

aux paires <strong>de</strong> bases. La thèse généralise c<strong>et</strong>te définition aux hélices thermodynamiquement<br />

stables.<br />

Le chapitre 3 propose un algorithme efficace pour énumérer les <strong>structures</strong> localement optimales.<br />

Dans une telle structure, chaque structure plate est maximale en un certain sens:<br />

l’algorithme manipule donc <strong>de</strong>s <strong>structures</strong> maximales par juxtaposition. Pour <strong>de</strong>s<br />

raisons pédagogiques, la thèse présente tout d’abord l’algorithme sur un modèle simple<br />

<strong>de</strong> Nussinov-Jacobson (section 3.2), puis l’étend à <strong>de</strong>s hélices thermodynamiquement stables<br />

(section 3.3). J’ai implémenté c<strong>et</strong> algorithme dans le logiciel Regliss, <strong>et</strong> j’ai effectué<br />

plusieurs expériences montrant comment Regliss peut décrire le paysage énergétique <strong>de</strong><br />

séquences d’ARN (pages 51 <strong>et</strong> suivantes).<br />

• Comment trouver toutes les occurences d’une <strong>multi</strong>-structure dans une séquence ?<br />

Dans ce problème <strong>de</strong> <strong>recherche</strong> <strong>de</strong> motifs, on part d’une <strong>multi</strong>-structure, donnée comme<br />

imbrication <strong>de</strong> <strong>structures</strong> plates. C<strong>et</strong>te <strong>multi</strong>-structure peut représenter <strong>de</strong>s <strong>structures</strong><br />

putatives (comme <strong>de</strong>s strucutres sous-optimales produites par un logiciel <strong>de</strong> prédiction, ou<br />

comme les <strong>structures</strong> localment optimales produites par Regliss) ou <strong>de</strong>s <strong>structures</strong> réelles<br />

(pour <strong>de</strong>s ARNs ayant plusieurs <strong>structures</strong> stables, ou bien pour plusieurs <strong>structures</strong> similaires<br />

au sein <strong>de</strong> familles d’ARNs).<br />

Le chapitre 4 propose un algorithme efficace <strong>de</strong> programmation dynamique pour localiser<br />

toutes les occurences d’une telle <strong>multi</strong>-structure dans une séquence génomique. Ici encore,<br />

la décomposition en imbrication <strong>de</strong> <strong>structures</strong> plates est la clé <strong>de</strong> l’algorithme (section<br />

4.2). La thèse présente aussi comment <strong>de</strong>s contraintes supplémentaires peuvent donner<br />

<strong>de</strong>s résultats biologiquement plus pertinents (section 4.3).<br />

J’ai implémenté c<strong>et</strong> algorithme dans le logiciel Alterna, <strong>et</strong> testé plusieurs cas d’utilisation<br />

(pages 74 <strong>et</strong> suivantes). J’ai essayé <strong>de</strong> montrer que, lorsqu’on connaît un ensemble <strong>de</strong> <strong>structures</strong><br />

putatives (même sans connaître la “bonne” structure), il est possible <strong>de</strong> <strong>recherche</strong>r<br />

<strong>de</strong> telles <strong>structures</strong> sur le génome <strong>et</strong> d’annoter <strong>de</strong>s séquences pouvant être <strong>de</strong>s ARNs avec<br />

la même fonction.<br />

Je conclus ma thèse, pages 79 <strong>et</strong> suivantes, en donnant quelques pistes <strong>de</strong> <strong>recherche</strong>: est-ce<br />

possible <strong>de</strong> définir <strong>de</strong>s <strong>multi</strong>-<strong>structures</strong> pondérées, où certaines instances seraient plus privilégiées<br />

que d’autres ? Comment visualiser, comparer, in<strong>de</strong>xer <strong>de</strong>s <strong>multi</strong>-<strong>structures</strong> ? À la fin <strong>de</strong> c<strong>et</strong>te<br />

thèse, je pense pouvoir affirmer que les <strong>multi</strong>-<strong>structures</strong> sont un outil prom<strong>et</strong>teur pour explorer<br />

la richesse <strong>de</strong>s <strong>structures</strong> secondaires <strong>de</strong>s ARN non-codants.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!