11.04.2013 Views

Recherche de similarité

Recherche de similarité

Recherche de similarité

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Odile Lecompte -IGBMC<br />

Plan<br />

1 Banques <strong>de</strong> données<br />

2<br />

3<br />

4<br />

Comparaison <strong>de</strong> 2 séquences<br />

• Dotplot, alignement optimal<br />

• <strong>Recherche</strong> <strong>de</strong> <strong>similarité</strong><br />

Alignement li multiple l i l<br />

Phylogénie moléculaire<br />

<strong>Recherche</strong> <strong>de</strong> <strong>similarité</strong><br />

1 séquence q (Query) (Q y) comparée p à <strong>de</strong>s milliers ou <strong>de</strong>s<br />

millions <strong>de</strong> séquences par comparaison 2 à 2<br />

Utilisation d’heuristiques<br />

Principaux programmes<br />

Fasta<br />

Blast<br />

Blat<br />

1


Métho<strong>de</strong>s heuristiques<br />

Y<br />

C<br />

W<br />

Q<br />

A<br />

T<br />

D<br />

S<br />

G<br />

Odile Lecompte -IGBMC<br />

I<strong>de</strong>ntification <strong>de</strong> régions (“mots”) fortement conservées<br />

=> limiter le nombre <strong>de</strong> solutions à explorer<br />

L N A K S I M W Q A T R C I S V<br />

☺ l’alignement est rapi<strong>de</strong> recherche <strong>de</strong> <strong>similarité</strong><br />

la solution proposée n’est pas obligatoirement optimale<br />

FASTA<br />

Odile Lecompte -IGBMC<br />

Reférence<br />

Pearson and Lipman. Improved tools for biological sequence<br />

comparison. i PNAS 85(8):2444-8 85(8) 2444 8 (1988)<br />

Versions<br />

La version actuelle est fasta3.<br />

Accessibilité<br />

Disponible par FTP<br />

Intégré dans la plupart <strong>de</strong>s « packages » bioinformatiques<br />

ex : GCG<br />

Nombreux serveurs Web :<br />

EBI : http://www.ebi.ac.uk/fasta33/<br />

disponible sur les serveurs SRS …<br />

2


Odile Lecompte -IGBMC<br />

Odile Lecompte -IGBMC<br />

L’algorithme <strong>de</strong> FASTA<br />

Séquence B<br />

1 ère étape : mots i<strong>de</strong>ntiques<br />

Par défaut :<br />

k=2 pour les séquences protéiques<br />

k=6 pour les séquences nucléiques<br />

k (ktup) peut être modifié par l ’utilisateur.<br />

Si k augmente :<br />

-gain en rapidité<br />

- perte en sensibilité<br />

L’algorithme <strong>de</strong> FASTA<br />

Séquence B<br />

Dist < 16<br />

2 ème étape : segments conservés<br />

Les mots situés<br />

- sur une même diagonale<br />

- à une distance inférieure à une valeur seuil<br />

sont réunis ainsi que q la région g qui q les sépare. p<br />

segments <strong>de</strong>nses en i<strong>de</strong>ntité<br />

absence <strong>de</strong> gaps dans ces segments<br />

3


Odile Lecompte -IGBMC<br />

L ’algorithme <strong>de</strong> FASTA<br />

2 ème étape : segments conservés (score init1)<br />

Séquence B<br />

* init1<br />

*<br />

Les 10 régions les plus <strong>de</strong>nses en i<strong>de</strong>ntité sont<br />

retenues.<br />

Calcul <strong>de</strong>s scores initiaux<br />

utilisation <strong>de</strong>s matrices <strong>de</strong> scores<br />

(prise en compte <strong>de</strong>s substitutions)<br />

L ’algorithme <strong>de</strong> FASTA<br />

Séquence B<br />

Introduction<br />

<strong>de</strong> gaps<br />

Odile Lecompte -IGBMC<br />

*<br />

Le meilleur <strong>de</strong>s scores initiaux est appelé init1 et<br />

sera fourni à l’utilisateur.<br />

3 ème étape : calcul du score initn<br />

* init1<br />

Réunions <strong>de</strong>s segments proches si:<br />

scores initiaux – pénalité <strong>de</strong> jonction > à un <strong>de</strong>s scores<br />

initiaux<br />

Le meilleur <strong>de</strong> ces nouveaux scores est appelé score<br />

initn.<br />

Les segments dont le score est inférieur à une<br />

valeur seuil sont éliminés.<br />

4


Odile Lecompte -IGBMC<br />

L ’algorithme <strong>de</strong> FASTA<br />

Séquence B<br />

4 ème étape : alignement optimal “limité”<br />

*<br />

* init1<br />

L ’algorithme <strong>de</strong> FASTA<br />

Y<br />

C<br />

W<br />

Q<br />

A<br />

T<br />

D<br />

S<br />

G<br />

Odile Lecompte -IGBMC<br />

Alignement optimal (Smith & Waterman) dans<br />

une fenêtre entourant la région <strong>de</strong> <strong>similarité</strong><br />

ayant obtenu le score init1.<br />

On calcule alors un nouveau score sur cet<br />

alignement optimal : le score opt.<br />

Dans certains cas, construction d’un alignement<br />

optimal Smith & Waterman « normal » pour les<br />

séquences ayant obtenu les meilleurs scores<br />

alignement optimal “limité”<br />

L N A K S I M W Q A T R C I S V<br />

5


Comparer les scores !<br />

Init1 = score du meilleur segment initial<br />

Initn = score du meilleur alignement initial (après ajout <strong>de</strong> gaps)<br />

iinitn it iinit1 it1<br />

Opt = score <strong>de</strong> l’alignement optimal sur un<br />

fenêtre autour d’init1<br />

Si opt < initn : problème !!!<br />

Région <strong>de</strong> forte <strong>similarité</strong> ignorée dans<br />

l’alignement<br />

B<br />

A<br />

B<br />

A<br />

Odile Lecompte -IGBMC<br />

Expect<br />

Odile Lecompte -IGBMC<br />

Expect :<br />

nombre attendu d’alignements g avec un score S<br />

Plus l’expect est proche <strong>de</strong> 0, plus le score est significatif<br />

E = Kmn e -S<br />

Séquence B<br />

initn<br />

init1<br />

K constante <strong>de</strong> Karlin<br />

m longueur <strong>de</strong> la séquence requête<br />

n longueur <strong>de</strong> la banque<br />

λ dépend du système <strong>de</strong> score employé<br />

FASTA :<br />

calcul <strong>de</strong>s paramètres à partir <strong>de</strong> l’ensemble <strong>de</strong>s scores trouvés lors <strong>de</strong> la<br />

recherche dans la banque (sauf les scores les plus extrêmes).<br />

BLAST2 :<br />

détermination empirique à partir <strong>de</strong> séquences modèles pour chaque type <strong>de</strong><br />

matrice et <strong>de</strong> pénalité <strong>de</strong> gap<br />

6


Histogramme<br />

Colonne 1:<br />

intervalle <strong>de</strong> valeurs <strong>de</strong>s scores<br />

Colonne 2 (opt):<br />

Nombre <strong>de</strong> séquences ayant obtenu<br />

un score opt compris dans<br />

l’intervalle donné<br />

Colonne 3 (E) :<br />

Nombre attendu <strong>de</strong> séquences avec<br />

un score compris dans l’intervalle<br />

donné<br />

= distribution observée<br />

* distribution théorique<br />

Odile Lecompte -IGBMC<br />

Fasta<br />

http://www.ebi.ac.uk/Tools/sss/fasta/<br />

Odile Lecompte -IGBMC<br />

7


Fasta<br />

Séquences ayant<br />

obtenu bt les l meilleurs ill<br />

scores<br />

Odile Lecompte -IGBMC<br />

Fasta<br />

Odile Lecompte -IGBMC<br />

8


Alignements<br />

Séquence<br />

requête (query)<br />

: i<strong>de</strong>ntité<br />

. Score 0<br />

Séquence <strong>de</strong><br />

la banque<br />

Odile Lecompte -IGBMC<br />

Odile Lecompte -IGBMC<br />

…<br />

Alignements<br />

Biais en<br />

composition<br />

9


Blast<br />

BLAST : Basic Local Alignment Search Tool<br />

Références éfé<br />

Odile Lecompte -IGBMC<br />

Mot 1<br />

Altschul et al. Basic local alignment search tool.<br />

J Mol Biol. 1990 Oct 5;215(3):403-10.<br />

Altschul et al. (1997), "Gapped BLAST and PSI-BLAST: a new generation<br />

of protein database search programs",<br />

Nucleic Acids Res. 25:3389-3402.<br />

Accessibilité<br />

ftp, packages (dont GCG)<br />

Nombreux serveurs Web<br />

…<br />

Mot 2<br />

Etc…<br />

Odile Lecompte -IGBMC<br />

- Au NCBI : http://www.ncbi.nlm.nih.gov/BLAST/<br />

- ..<br />

Algorithme <strong>de</strong> blast<br />

Construction <strong>de</strong> la liste <strong>de</strong>s mots similaires aux mots <strong>de</strong> la query<br />

Séquence requête (query)<br />

tous les mots <strong>de</strong> longueur w<br />

Pour les protéines : w= 3 par défaut<br />

Pour l’ADN : w = 11 par défaut<br />

Parmi tous les mots possibles <strong>de</strong> longueur w (20x20x20=8000 possibilités si w=3) :<br />

Sélection <strong>de</strong>s mots dont l’alignement avec le mot <strong>de</strong> la séquence query donne un score T<br />

=> protéines : matrice <strong>de</strong> scores (blosum62 par défaut)<br />

=> ADN : match = 2, mismatch –3<br />

Ex : PQG PQG<br />

PEG<br />

PQA<br />

…<br />

Score = 7 + 5 + 6 =18<br />

Score = 15<br />

Score = 12<br />

…<br />

Remarque : dans le blast original, T=13<br />

~ 50 mots atteignent ce seuil<br />

Si T =13<br />

PQG<br />

PEG<br />

Élimination <strong>de</strong> PQA<br />

10


Odile Lecompte -IGBMC<br />

Algorithme <strong>de</strong> Blast<br />

Localisation <strong>de</strong>s mots sur les séquences <strong>de</strong> la banque<br />

Liste <strong>de</strong> mots Séquences <strong>de</strong> la banque<br />

…<br />

Chaque « hit » est i<strong>de</strong>ntifié<br />

Il s’agit d’une liste finie et pré-établie.<br />

Algorithme <strong>de</strong> Blast<br />

Construction <strong>de</strong>s HSP (Blast1)<br />

Construction <strong>de</strong>s HSPs Pour chaque hit, hit extension <strong>de</strong> l’alignement l alignement (dans les 2 directions) tant que:<br />

(Blast original )<br />

- l’extrémité d’une <strong>de</strong>s séquences n’est pas atteinte<br />

- le score ne chute pas plus d’une valeur X en <strong>de</strong>ssous du meilleur<br />

score obtenu jusque-là pour cet alignement<br />

HSP<br />

I<strong>de</strong>ntification <strong>de</strong>s meilleures HSPs<br />

Odile Lecompte -IGBMC<br />

L’alignement ainsi obtenu est appelé HSP (High-scoring segment pair) et a<br />

un score supérieur au score du hit initial<br />

Seules les HSPs dont le score est supérieur à un seuil fixé sont retenues.<br />

Il peut exister plusieurs HSPs entre <strong>de</strong>ux séquences (leur score est alors combiné).<br />

absence <strong>de</strong> gap dans les alignements <strong>de</strong> Blast1 « ungapped » blast<br />

11


Algorithme <strong>de</strong> Blast<br />

HSP<br />

Odile Lecompte -IGBMC<br />

Construction <strong>de</strong>s HSP (Blast2=gapped blast )<br />

Extension sans gap : « Two–hits method »<br />

au moins 2 hits non chevauchants<br />

situés sur la même diagonale (pas <strong>de</strong> gaps)<br />

situés à une distance A<br />

Dans blast2 : T=11<br />

Algorithme <strong>de</strong> Blast<br />

Exemple:<br />

+ 15 hits avec score > 13<br />

. 22 hits additionnels avec un score > 11<br />

Alignement optimal (Smith & Waterman)<br />

2 paires <strong>de</strong> hits sont sur une même diagonale et à<br />

une distance gain <strong>de</strong> temps<br />

- Sélection <strong>de</strong>s HSPs avec score suffisant<br />

- Ch Choix i d’une d’ paire i <strong>de</strong> d résidus é id (amorce) ( ) dans d l’HSP : paire i centrale t l du d meilleur ill segment t <strong>de</strong> d 11 paires i<br />

- Alignement optimal « limité » à partir <strong>de</strong> l’amorce => introduction <strong>de</strong> gaps<br />

Odile Lecompte -IGBMC<br />

L’alignement optimal se fait en considérant<br />

seulement les alignements qui ne tombent pas plus<br />

<strong>de</strong> Xg en <strong>de</strong>ssous du meilleur score obtenu.<br />

amorce<br />

12


Algorithme <strong>de</strong> Blast<br />

Y<br />

C<br />

W<br />

Q<br />

A<br />

T<br />

D<br />

S<br />

G<br />

Odile Lecompte -IGBMC<br />

Odile Lecompte -IGBMC<br />

Alignement optimal limité<br />

L N A K S I M W Q A T R C I S V<br />

Algorithme <strong>de</strong> Blast<br />

amorce<br />

Alignement optimal obtenu<br />

Lettre : i<strong>de</strong>ntité<br />

+ : score positif<br />

Alignements g e e tsobte obtenus uspa par Blast1 ast<br />

13


Les différentes comparaisons<br />

Programmes Requête Banque Comparaison Exemples d’utilisation<br />

Blastn ADN ADN nucléique <strong>Recherche</strong> d’ARN structuraux,<br />

d’éléments régulateurs<br />

Blastp Protéine protéines protéique <strong>Recherche</strong> <strong>de</strong> protéines homologues<br />

Tblastn Protéine ADN (traduit dans protéique <strong>Recherche</strong> <strong>de</strong> <strong>similarité</strong>s entre une<br />

les 6 cadres)<br />

protéine et une séquence<br />

génomique mal annotée<br />

Blastx ADN (traduit dans protéines protéique <strong>Recherche</strong> <strong>de</strong>s phases <strong>de</strong> lecture<br />

les 6 cadres)<br />

dans une séquence codante<br />

Tblastx ADN (traduit dans ADN (traduit dans protéique Avantages <strong>de</strong> tblastn et blastx mais<br />

les 6 cadres) les 6 cadres)<br />

très long<br />

Odile Lecompte -IGBMC<br />

Odile Lecompte -IGBMC<br />

Megablast => optimisé pour <strong>de</strong>s séquences nucléiques quasi-i<strong>de</strong>ntiques (>95% i<strong>de</strong>ntité)<br />

(taille <strong>de</strong>s mots = 28), très rapi<strong>de</strong><br />

14


Odile Lecompte -IGBMC<br />

Odile Lecompte -IGBMC<br />

Interface Blast (NCBI)<br />

Sortie Blast<br />

<strong>Recherche</strong> <strong>de</strong> domaines conservés (Conserved Domain Database, CDD)<br />

http://www.ncbi.nlm.nih.gov/sites/entrez?db=cdd<br />

NCBI-curated domains<br />

(use ( 3D-structure information) )<br />

Domain mo<strong>de</strong>ls from<br />

Pfam<br />

SMART<br />

COG<br />

PRK<br />

TIGRFAM<br />

15


Odile Lecompte -IGBMC<br />

Sortie Blast<br />

Sortie<br />

Odile Lecompte -IGBMC<br />

Banque et séquence requête utilisées<br />

16


Séquence<br />

requête (query)<br />

Séquence <strong>de</strong><br />

la banque<br />

Odile Lecompte -IGBMC<br />

Odile Lecompte -IGBMC<br />

Blast : alignements<br />

Blast : alignements<br />

Biais en<br />

composition<br />

17


Filtres<br />

Odile Lecompte -IGBMC<br />

Filtres<br />

Certaines régions peuvent être filtrées :<br />

-faible complexité<br />

- courts motifs répétés<br />

- éléments répétés dispersés connus<br />

(ALUs repeats…)<br />

=> non prises en compte dans la<br />

recherche<br />

Odile Lecompte -IGBMC<br />

18


Filtres<br />

Odile Lecompte -IGBMC<br />

Odile Lecompte -IGBMC<br />

Blast : taxonomy report<br />

19


BLAT : the Blast-Like Alignment Tool<br />

But : i<strong>de</strong>ntifier rapi<strong>de</strong>ment <strong>de</strong>s régions <strong>de</strong> forte <strong>similarité</strong><br />

nucléique => au moins 95% sur 40 bases (ex: primates)<br />

protéiques é => au moins 80% sur 20 aa (ex ( : vertébrés éb é terrestres) )<br />

Applications :<br />

localiser une séquence (gène, ARNm, est, protéine) sur un génome<br />

déterminer la structure d’un gène (carte exonique)<br />

Avantages/inconvénients :<br />

gain <strong>de</strong> temps<br />

alignements triés en fonction du génome<br />

prise en compte <strong>de</strong>s sites d’épissages<br />

utilisable uniquement pour séquences très proches<br />

http://genome.ucsc.edu/cgi-bin/hgBlat<br />

Odile Lecompte -IGBMC<br />

Kent, Genome Research 2002<br />

BLAT : the Blast-Like Alignment Tool<br />

• stockage en mémoire <strong>de</strong>s mots <strong>de</strong> k lettres du génome => gain <strong>de</strong> temps<br />

• élimination <strong>de</strong>s mots trop fréquents (séquences répétées)<br />

• recherche <strong>de</strong>s mots i<strong>de</strong>ntiques dans la séquence requête<br />

kk=11 11 pour comparaison i ADN/ADN<br />

k=4 pour comparaisons protéiques<br />

alignement si :<br />

2 mots i<strong>de</strong>ntiques (k=11) pour ADN<br />

3 mots (k=4) i<strong>de</strong>ntiques pour protéines<br />

(version serveur)<br />

1 mmot t (k (k=5) 5) i<strong>de</strong>ntique id nti p pour pprotéines téin s<br />

(version stand-alone)<br />

sur même diagonale et suffisamment proches<br />

prise en compte <strong>de</strong>s sites d’épissages<br />

Odile Lecompte -IGBMC<br />

20


Odile Lecompte -IGBMC<br />

Odile Lecompte -IGBMC<br />

BLAT : the Blast-Like Alignment Tool<br />

BLAT : the Blast-Like Alignment Tool<br />

21


Odile Lecompte -IGBMC<br />

Odile Lecompte -IGBMC<br />

BLAT : the Blast-Like Alignment Tool<br />

…<br />

…<br />

BLAT : the Blast-Like Alignment Tool<br />

22


Odile Lecompte -IGBMC<br />

Comparaison avec BlastN (ou Megablast)<br />

23

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!