23.07.2013 Views

BIOINFORMATIQUE STRUCTURALE MAI 2006 L'objet du TP est de ...

BIOINFORMATIQUE STRUCTURALE MAI 2006 L'objet du TP est de ...

BIOINFORMATIQUE STRUCTURALE MAI 2006 L'objet du TP est de ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>BIOINFORMATIQUE</strong> <strong>STRUCTURALE</strong><br />

<strong>MAI</strong> <strong>2006</strong><br />

<strong>L'objet</strong> <strong>du</strong> <strong>TP</strong> <strong>est</strong> <strong>de</strong> vous familiariser tout d’abord avec l’utilisation d’outils d’analyses et<br />

d’interrogations <strong>de</strong> bases <strong>de</strong> données en biologie. Ces outils seront ensuite appliqués à l’étu<strong>de</strong><br />

<strong>de</strong>s relations séquence – structure – fonction dans une famille <strong>de</strong> protéines. Les aminaocyl-<br />

ARNt synthétases seront utilisées comme exemple d’illustration.<br />

LES REPONSES AUX QUESTIONS SONT A RENDRE SUR UNE COPIE SEPAREE.<br />

1 SEULE COPIE EST DEMANDEE PAR BINOME.<br />

Ce TD/<strong>TP</strong> contient 6 parties :<br />

• PARTIE A: "SEQUENCE RETRIEVAL SOFTWARE (SRS) "<br />

• PARTIE B : UTILISATION D’"ENTREZ" AU NCBI<br />

• PARTIE C : INTERPRO<br />

• PARTIE D : RECHERCHE DE SIMILARITE PAR BLAST<br />

• PARTIE E : RELATIONS SEQUENCE-STRUCTURE-FONCTION<br />

• PARTIE F : D’UNE SEQUENCE A UNE FONCTION ET A UNE<br />

STRUCTURE<br />

Ces parties sont indépendantes et peuvent être traitées librement. Néanmoins, il <strong>est</strong><br />

conseillé <strong>de</strong> suivre la progression proposée.<br />

Les sites Web suivant seront utilisés :<br />

• http://www.infobiogen.fr/<br />

• http://www.ebi.ac.uk<br />

o http://www3.ebi.ac.uk/Services/WebFeat/<br />

• http://www.ncbi.nlm.nih.gov/<br />

• http://pbil.univ-lyon1.fr/<br />

• http://scop.mrc-lmb.cam.ac.uk/scop/<br />

Vous allez utiliser <strong>de</strong>s logiciels présents en local sur vos PCs :<br />

• Pour la visualisation <strong>de</strong>s structures 3D, vous allez utiliser 2 logiciels<br />

o SPDBV et O<br />

• Le logiciel Chimera sera utilisé pour visualiser <strong>de</strong>s corrélations séquence –<br />

structure.<br />

• Le logiciel Pymol sera utilisé pour créer <strong>de</strong>s <strong>de</strong>ssins ou figures couleurs <strong>de</strong><br />

qualité.<br />

• Le logiciel Indonesia sera utilisé pour trouver <strong>de</strong>s similarités <strong>de</strong> structures à<br />

partir <strong>de</strong>s coordonnées.<br />

• Les logiciels BioEdit et PFAAT pour la visualisation <strong>de</strong>s alignements multiples<br />

Pour une vision en 3D <strong>de</strong>s structures, les ordinateurs SGI seront utilisés.


PARTIE A: "Sequence Retrieval Software (SRS) "<br />

On utilisera le serveur SRS7 d’Infobiogen<br />

http://www.infobiogen.fr/<br />

Dans la page d’accueil d’Infobiogen, cliquez sur SRS.<br />

En cas <strong>de</strong> problèmes à Infobiogen, allez à l’EBI (http://srs.ebi.ac.uk/)<br />

1. Familiarisation à la recherche :<br />

Dans le menu "Select Databanks"<br />

• Combien <strong>de</strong> bases <strong>de</strong> données sont accessibles par ce serveur ?<br />

• Parmi celles-ci, quelles sont les banques généralistes <strong>de</strong> séquences <strong>de</strong> protéines ?<br />

• Quelles différences faites vous entre UNIREF100, UNIREF90, UNIREF50 ?<br />

Pour la suite <strong>de</strong> cette qu<strong>est</strong>ion, sélectionnez la base "UNIPROT".<br />

Utilisez si nécessaire le menu "Standard query form" ou "Exten<strong>de</strong>d query form"<br />

• Combien d’entrées contient cette banque <strong>de</strong> données ?<br />

• Combien d’entrées sont relatives aux aminoacyl-ARNt synthétases ?<br />

• Combien d’entrées sont relatives aux arginyl-ARNt synthétases ?<br />

• Combien d’entrées sont relatives à l’arginyl-ARNt synthétase humaine ?<br />

2. Recherche <strong>de</strong> séquences:<br />

Recherchez la séquence dont le numéro d’accès <strong>est</strong> P21889 ("Primary accession number")<br />

dans la banque UNIPROT.<br />

• De quelle protéine s’agit-il ?<br />

• Donnez quelques informations sur la fonction <strong>de</strong> cette protéine.<br />

• Quelles sont ses caractéristiques principales : nombre d’aci<strong>de</strong>s aminés, poids<br />

moléculaire.<br />

• Quel <strong>est</strong> le numéro d’accès <strong>de</strong> cette protéine dans la banque EMBL ?<br />

o A quelle division <strong>de</strong> la banque EMBL appartient-elle ?<br />

o De quel organisme s’agit-il ?<br />

o Quelle <strong>est</strong> la longueur <strong>de</strong> la séquence nucléotidique correspondante ?<br />

o En utilisant les mots clés <strong>de</strong> la rubrique "Features" ("source", "cds",<br />

"mat_pepti<strong>de</strong>",…), faire un schéma représentant les éléments génétiques<br />

connus <strong>de</strong> cette séquence sur un schéma.<br />

Pour cette qu<strong>est</strong>ion, vous pouvez consulter les pages d’ai<strong>de</strong> suivantes :<br />

http://www3.ebi.ac.uk/Services/WebFeat/


PARTIE B : Utilisation d’"ENTREZ" au NCBI<br />

On utilisera le site http://www.ncbi.nlm.nih.gov/<br />

Recherche dans la banque PUBMED.<br />

1) Recherchez l’article intitulé : "Gapped BLAST and PSI-BLAST : a new generation of<br />

protein database search programs". On utilisera l’in<strong>de</strong>x (Preview/In<strong>de</strong>x) pour une recherche<br />

avec combinaison <strong>de</strong> mots clés.<br />

• Quelle <strong>est</strong> la date <strong>de</strong> parution <strong>de</strong> cet article ?<br />

• Quel <strong>est</strong> le nom <strong>de</strong> la publication (nom <strong>de</strong> la revue)?<br />

• Affichez le résumé<br />

• L’article complet <strong>est</strong>-il accessible gratuitement en ligne au format PDF ?<br />

• Certains articles ne sont pas accessibles gratuitement, pourquoi ?<br />

• Combien d’articles sont considérés comme proches <strong>de</strong> celui-ci et répertoriés ?<br />

• Parmi ces articles, combien ont été publiés en 2005 ?<br />

Recherche dans la banque "STRUCTURE"<br />

2) Dans cette banque, recherchez les entrées correspondants aux aspartyl-ARNt synthétases.<br />

• Combien <strong>de</strong> structures tridimensionnelles sont accessibles ? donnez les co<strong>de</strong>s PDB<br />

• Combien sont d’origine bactérienne ?<br />

• Combien sont d’origine eucaryotique ?<br />

• Combien <strong>de</strong> structures contiennent <strong>de</strong>s ligands ? Précisez dans chaque cas les ligands<br />

présents et leurs intérêts dans la fonction <strong>de</strong> cette protéine.<br />

• Combien <strong>de</strong> structures ont été déterminées par diffraction <strong>de</strong>s rayons X ? Pour chaque<br />

structure, donnez la limite <strong>de</strong> diffraction <strong>de</strong>s données.<br />

• Combien <strong>de</strong> structures ont été déterminées par RMN ?<br />

3) Dans cette banque, recherchez les entrées correspondants aux lysyl-ARNt synthétases.<br />

• Combien <strong>de</strong> structures tridimensionnelles sont accessibles ? donnez les co<strong>de</strong>s PDB<br />

• Combien sont d’origine bactérienne ?<br />

• Combien sont d’origine eucaryotique ?<br />

• Combien <strong>de</strong> structures contiennent <strong>de</strong>s ligands ? Précisez dans chaque cas les ligands<br />

présents et leurs intérêts dans la réaction d’aminoacylation.<br />

• Combien <strong>de</strong> structures ont été déterminées par diffraction <strong>de</strong>s rayons X ? Pour chaque<br />

structure, donnez la limite <strong>de</strong> diffraction <strong>de</strong>s données.<br />

• Combien <strong>de</strong> structures ont été déterminées par RMN ? A quoi correspon<strong>de</strong>nt ces<br />

structures RMN ? Comparez avec les structures RX.<br />

PARTIE C : INTERPRO<br />

On utilisera l’accès aux banques <strong>de</strong> l’EBI : http://www.ebi.ac.uk ("Bioinformatics Pro<strong>du</strong>cts<br />

and Services")<br />

• Dans Interpro, cherchez la fiche correspondant aux motifs et profils <strong>de</strong>s aminoacyl-<br />

ARNt synthétase <strong>de</strong> classe II. On pourra par exemple utiliser la séquence <strong>de</strong> la<br />

protéine dont le co<strong>de</strong> <strong>est</strong> P21889 ("Primary accession number") dans la banque<br />

UNIPROT.<br />

• Donnez le numéro <strong>de</strong> cette fiche dans PROSITE (type PS*****)<br />

• Combien y a-t-il <strong>de</strong> faux négatifs pour ce profil ?<br />

• Combine y a-t-il <strong>de</strong> faux positifs pour ce profil ?


PARTIE D : Recherche <strong>de</strong> similarité par BLAST :<br />

Reprendre la protéine dont le numéro d’accès <strong>est</strong> P21889 ("Primary accession number") dans<br />

la banque UNIPROT.<br />

Allez sur la page d’entrée <strong>du</strong> pôle <strong>de</strong> bioinformatique lyonnais : http://pbil.univ-lyon1.fr/<br />

ou alors Blastp au NCBI http://www.ncbi.nlm.nih.gov/BLAST/<br />

Dans Similarity search, Cliquer sur Blast-protein.<br />

Copier et coller la séquence correspondant à P21889 dans la fenêtre <strong>de</strong> Blast et lancer la<br />

recherche sur la base UNIPROT-SWISSPROT<br />

Les résultats apparaissent classés par E croissants.<br />

• Donnez la signification <strong>du</strong> paramètre E-value<br />

• Pour quelle valeur <strong>de</strong> E trouve-t-on la première séquence qui n’<strong>est</strong> plus une AspRS ?<br />

o Quel <strong>est</strong> le pourcentage d’i<strong>de</strong>ntité pour la HSP ?<br />

• Citez 2 aminoacyl-ARNt synthétases similaires aux AspRS.<br />

• Montrez sur un schéma <strong>de</strong> la séquence les zones <strong>de</strong> similarités entre ces 3 aminoacyl-<br />

ARNt synthétases<br />

Multi-alignement (ClustalW)<br />

Sur la page contenant la liste <strong>de</strong>s résultats, inscrire 0.0 dans la case with threshold lesser or<br />

equal, cliquer SELECT puis désélectionner toutes les séquences manuellement.<br />

Ne sélectionner (en cochant) que les séquences d’AspRS suivantes :<br />

• 3 bactéries E. coli, T. thermophilus et M. leprae (suffixe ECO, THETH, MYCLE),<br />

• 3 archaebactéries A. fulgi<strong>du</strong>s, P. kodakaraensis et A. pernix (ARCFU, PYRKO,<br />

AERPE)<br />

• 3 eucaryotes C. elegans, levure (cytosolique) et humain (CAEEL, YEAST, HUMAN).<br />

Cliquer sur EXTRACT puis sur ALIGN. Page suivante, cliquer sur SUBMIT. En examinant<br />

globalement les longueurs <strong>de</strong> séquences,<br />

• en quoi les 3 séquences d’eucaryotes se distinguent-ils <strong>de</strong>s autres groupes ?<br />

• Les bactéries possè<strong>de</strong>nt une particularité, laquelle? La localiser en utilisant les 3<br />

motifs propres aux aminoacyl-ARNt synthétases <strong>de</strong> la classe 2 comme repères.<br />

Un alignement partiel <strong>de</strong> 59 AspRSs.<br />

Récupérer l’alignement <strong>de</strong> 59 AspRSs sur la page <strong>de</strong>s documents <strong>de</strong> cours (http://wwwbio3d-igbmc.u-strasbg.fr/~cava/bioinfo/tps/asprs_pir-59.pir)<br />

et sauvez le sur bureau <strong>de</strong><br />

votre PC. Comme son nom l’indique, c’<strong>est</strong> un fichier au format PIR.<br />

A l’ai<strong>de</strong> <strong>du</strong> logiciel BioEdit (ou PFAAT) disponible sur votre PC, visualisez cet alignement<br />

(menu File, open)<br />

• Les conclusions globales tirées <strong>de</strong> l’alignement <strong>de</strong>s 9 séquences sont-elles<br />

confirmées ?<br />

• Trouvez les aci<strong>de</strong>s aminés strictement conservés dans toutes les séquences.<br />

• Donnez leur position dans la séquence <strong>de</strong> l’aspartyl-ARNt synthétase d’E. coli<br />

(séquence notée esche coli).


CONSERVED DO<strong>MAI</strong>NS :<br />

Accé<strong>de</strong>r à la page <strong>de</strong> Blast au NCBI (http://www.ncbi.nlm.nih.gov/BLAST/)<br />

Utiliser Protein-Protein Blast pour la protéine dont le numéro d’accès <strong>est</strong> P21889 ("Primary<br />

accession number") dans la banque. Entrez la séquence <strong>de</strong> la protéine dans la fenêtre<br />

correspondante, et en vérifiant que l’option do CD-Search <strong>est</strong> activée, cliquez sur BLAST<br />

• Donnez le nom et les principales caractéristiques <strong>de</strong>s domaines conservés trouvés dans<br />

cette protéine.<br />

PARTIE E : RELATIONS SEQUENCE-STRUCTURE-FONCTION<br />

1) Effectuez une recherche dans SCOP (http://scop.mrc-lmb.cam.ac.uk/scop/) par mot clé<br />

pour trouver l'aspartyl-ARNt synthétase d’E. coli (attention aux symboles utilisés)<br />

• Pourquoi obtient-on 2 réponses pour cette protéine précise? Examiner les 2 réponses.<br />

• Dans quels types <strong>de</strong> repliements (fold), superfamilles et familles se classent le<br />

domaine catalytique et le domaine amino-terminal?<br />

• Indiquer ces 2 domaines ainsi que les 3 motifs sur un schéma <strong>de</strong> la séquence.<br />

• Le site catalytique <strong>de</strong>s aminoacyl-ARNt synthétases <strong>est</strong>-il trouvé dans d’autres<br />

protéines ? si oui lesquelles ? pouvez donner un peu plus <strong>de</strong> précision sur la similarité<br />

<strong>de</strong> structure trouvée ?<br />

2) Par un moyen <strong>de</strong> votre choix, en utilisant SCOP ou ENTREZ, récupérer et sauvez sur votre<br />

bureau les fichiers <strong>de</strong> coordonnées suivants :<br />

• le complexe AspRS -ARNt <strong>de</strong> E. coli (2 fichiers, avec et sans aspartyl-a<strong>de</strong>nylate)<br />

• le complexe AspRS-ARNt-A<strong>TP</strong> <strong>de</strong> levure<br />

• le complexe AspRS – ARNt <strong>de</strong> T. Thermophilus<br />

• l’AspRS <strong>de</strong> P. kodakaraensis.<br />

Décrivez les informations présentes dans ces structures (protéines et ligands présents)<br />

3) Examinez la structure <strong>du</strong> complexe AspRS-ARNt Asp <strong>de</strong> levure avec SPDBV. (color by<br />

chain, show Calpha only).<br />

• Quel <strong>est</strong> l'état oligomérique <strong>de</strong> la protéine (structure quaternaire)?<br />

• Affichez le monomère A avec son ARNt (color by secondary structure, supprimer les<br />

chaînes latérales).<br />

• I<strong>de</strong>ntifiez l'extrémité N-terminale (Glu 68).<br />

• A votre avis, pourquoi les 67 premiers aci<strong>de</strong>s aminés ne sont pas présents dans le<br />

fichier PDB ?<br />

Cette protéine comporte 3 domaines: le domaine N-terminal, le domaine catalytique et un<br />

domaine charnière qui les joint.<br />

• Avec quels domaines l'anticodon et le bras accepteur <strong>de</strong> l'ARNt entrent-ils en contact?<br />

4) Affichez les 3 motifs propres aux aminoacyl-ARNt <strong>de</strong> la classe 2 (motif 1 : rési<strong>du</strong>s 240-<br />

273, motif 2 : rési<strong>du</strong>s 311-342 et motif 3 : rési<strong>du</strong>s 518-535, numérotation levure). Quel type<br />

<strong>de</strong> structure forment-ils? (Affichage en Calpha)<br />

Affichez l'A<strong>TP</strong> présent dans le site catalytique et se centrer <strong>de</strong>ssus.<br />

• Quels types d'interactions A<strong>TP</strong>-protéines sont visibles?<br />

• Quelle <strong>est</strong> l’extrémité <strong>de</strong> l’ARNt qui entre dans le site catalytique ?


5) Affichez les aci<strong>de</strong>s aminés strictement conservés dans l’alignement <strong>de</strong>s 59 AspRS fourni.<br />

A l’ai<strong>de</strong> <strong>de</strong>s structures que vous avez à votre disposition, essayez <strong>de</strong> donner une explication à<br />

la pression <strong>de</strong> conservation présente à ces positions <strong>de</strong> la séquence.<br />

6) Exemple d'interaction ARN-protéine (anticodon)<br />

Centrez le complexe sur U35 et n'affichez que les aci<strong>de</strong>s aminés 100 à 200 et les bases 30 à<br />

40.<br />

• Avec quels éléments <strong>de</strong> structure secondaire interagit l'ARNt?<br />

N'affichez les chaînes latérales que pour R119, G121, F127, Q138 et E188 et l'ARNt.<br />

• Quels sont les types d'interactions ARN-protéines visibles ici? (compute Hbonds dans<br />

tools)<br />

7) Superposition <strong>de</strong>s 3 AspRS<br />

Superposez le complexe aspRS-ARNt <strong>de</strong> T. thermophilus à la structure <strong>de</strong> levure (Utilisez<br />

Magic fit dans Fit). Superposez également l’aspRS d’archaebactérie à l’ensemble. (Color by<br />

layer).<br />

Les domaines catalytiques étant superposés que constate-t-on pour les autres domaines et pour<br />

l'ARNt (bonne ou mauvaise)?<br />

Au niveau mo<strong>du</strong>laire, la structure <strong>de</strong> T. thermophilus présente une particularité par rapport à<br />

celle <strong>de</strong> levure. Laquelle ? Indiquez les rési<strong>du</strong>s aux bornes <strong>de</strong> la région concernée.<br />

D’après l'alignement <strong>de</strong> séquences, <strong>est</strong>-elle spécifique <strong>de</strong> T. thermophilus ou plus générale ?<br />

La situer sur le schéma <strong>de</strong> la séquence <strong>de</strong> levure (qu<strong>est</strong>ion 1).<br />

8) OB fold<br />

Examiner dans SCOP la classification correspondant au repliement <strong>du</strong> type OB fold. Que<br />

signifie OB?<br />

Récupérer un fichier PDB <strong>de</strong> la nucléase staphylococcale. Superposer la partie <strong>du</strong> domaine <strong>de</strong><br />

l'aspRS <strong>de</strong> levure correspondant (S105-T200) et l'OB fold <strong>de</strong> la nucléase (K6-K97). Pour cela,<br />

cliquer sur pour la superposition <strong>de</strong>s rési<strong>du</strong>s 118, 123 et 127 <strong>de</strong> l’aspRS respectivement<br />

sur les rési<strong>du</strong>s 15, 20 et 24 <strong>de</strong> la nucléase. Dessiner le diagramme topologique <strong>de</strong> l'OB fold.<br />

PARTIE F : d’une séquence à une fonction et à une structure.<br />

L’objectif ici <strong>est</strong> d’obtenir le maximum d’information à partir d’un fragment <strong>de</strong> séquence<br />

d’une protéine.<br />

Récupérez ce fragment <strong>de</strong> séquence dans<br />

• http://www-bio3d-igbmc.u-strasbg.fr/~cava/bioinfo/tps/seq_unknown.txt<br />

1. Il vous <strong>est</strong> <strong>de</strong>mandé :<br />

a. Le nom et la fonction <strong>de</strong> la protéine susceptible <strong>de</strong> correspondre à ce fragment<br />

b. Le nom <strong>de</strong> l’organisme dont <strong>est</strong> issue cette protéine.<br />

c. La longueur <strong>de</strong> la séquence<br />

2. Quelle <strong>est</strong> référence bibliographique correspondant aux résultats <strong>de</strong> séquençage <strong>de</strong> ce<br />

génome ?<br />

3. Trouvez un arbre phylogénétique indiquant la position <strong>de</strong> cet organisme dans l’arbre <strong>de</strong> la<br />

vie.<br />

4. Après réflexion, vous <strong>de</strong>vez vous rendre compte que la protéine correspondant à ce<br />

fragment n’<strong>est</strong> certainement pas active ? Pourquoi, que semble-t-il manquer? Quelle <strong>est</strong> la<br />

particularité <strong>de</strong> cette protéine ? Trouvez ce qui manque.<br />

5. Donnez les numéros d’accès dans UNIPROT nécessaire pour la protéine fonctionnelle.<br />

6. Des structures tridimensionnelles d’homologues <strong>de</strong> cette protéine sont-elles connues ? si<br />

oui, donnez les co<strong>de</strong>s PDB correspondants.<br />

7. Proposez un schéma <strong>de</strong> la protéine complète en indiquant les régions fonctionnelles<br />

connues.<br />

(Facultatif : illustrez sur un <strong>de</strong>ssin couleur les différents mo<strong>du</strong>les en utilisant PYMOL)

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!