Evolution des techniques de séquençage

Le séquençage du génome Humain : 

Comment a-t-il été séquencé? 

Que nous apprend la séquence? 

Et après ? 

D. Locker 

Professeur émérite Université d’Orléans 

Résumé 

L’ADN contenu dans nos 23 paires de chromosomes porte environ 3 milliards 

de paires de bases (A/T ou G/C). L'ordre de ces 4 bases ATGC constitue le stockage 

de l'information génétique dans la molécule d’ADN de chacun de nos chromosomes. 

Le projet de séquençage de l’ensemble du génome humain a débuté dans les années 

1990 et en février 2001 les résultats complets d’un brouillon de la séquence ont été 

publiés. C'est seulement en 2004 que le séquençage complet a été terminé. Celui-ci a 

coûté 300 millions de dollars et on estime qu’en 2020 le coût du séquençage du 

génome d’un individu ne sera plus que de 100 dollars. Cette baisse des coûts a 

contribué à une accélération de la découverte des gènes impliqués dans les maladies 

génétiques. Grâce au séquençage des génomes individuels nous rentrons dans l’ère 

de la médecine prédictive, ainsi dès la naissance, il sera possible de déterminer les 

probabilités de développer différentes maladies. L’industrie du génome s’est 

développée de façon spectaculaire ces dernières années, notamment grâce à 

l’apparition de nouvelles techniques automatisées de séquençage. Ces avancées ne 

seront pas sans créer des problèmes éthiques considérables. 

Avant de répondre à ces questions, il nous faut définir le génome. D'après le 

dictionnaire Robert, c'est l'ensemble des gènes propres à une espèce ; on peut 

considérer que cette définition ancienne est caduque. En effet, la découverte que 

l'ADN est le support du message génétique dans tous les systèmes vivants permet 

d'établir une équivalence entre les termes de génome, d'ADN et d'information 

génétique. En clair, séquencer le génome humain revient à séquencer l'ADN présent 

dans nos chromosomes et nos mitochondries. L'objectif ultime de ce séquençage est de 

comprendre le « programme génétique » mis en œuvre pour arriver à un organisme 

spécifique et unique à partir d'un œuf. Notre génome comporte 23 paires de 

chromosomes classés suivant un certain nombre de critères (taille, position du 

centromère, série de bandes et d'inter-bandes obtenues après coloration) en paires de 

chromosomes homologues (Cf. Fig. 1). 

1

Chaque chromosome métaphasique contient deux molécules d'ADN ; toutes ces 

molécules mises bout à bout formeraient un filament d’environ 2 mètres de longueur. 

La molécule d'ADN est une double hélice caractérisée par un squelette ose phosphate 

et la présence de bases azotées appariées d'une façon toujours identique Adénine avec 

Thymine et Guanine avec Cytosine (Cf. Fig. 2). L'ordre de ces 4 bases ou nucléotides 

ATGC constitue le stockage de l'information génétique dans les chromosomes ; elle 

est présente dans le noyau de toutes nos cellules. L'information contenue dans l'ADN 

de nos chromosomes sert essentiellement à synthétiser les molécules du vivant, les 

protéines, et ceci en deux étapes. La première correspond à la transcription du message 

c'est-à-dire au passage de l'ADN vers l'ARN (l'ensemble des ARN d'une cellule 

s'appelle le transcriptome) et la seconde à la traduction du message génétique c'est-à- 

dire au passage des ARN vers les protéines (l'ensemble des protéines d'une cellule 

s'appelle le protéome). Notre ADN contient environ 3 milliards de paires de bases 

(A/T ou G/C) réparties dans nos 23 paires de chromosomes. Pour donner une idée de 

la quantité de travail que nécessite le séquençage complet du génome humain, si l'on 

assimile les bases azotées aux caractères d'un livre, l'ensemble du génome tiendrait 

dans 3000 romans de 500 pages posés sur 60 mètres de rayonnage. 

Historique du projet de séquençage du génome humain 

Le projet de séquençage du génome humain est mis en place en 1988 sous 

l'impulsion d'un petit groupe de chercheurs américains. Devant l'ampleur de la tâche, il 

soulève quelques réticences des chercheurs du type :"pourquoi séquencer tout l'ADN 

sachant que 95% ne codent pas au sens strict des protéines ou des ARN". La réponse 

des partisans du séquençage sera :"Ce n'est pas parce que l'on n'a pas encore découvert 

le sens de toute l'information génétique qu'il ne faut pas se lancer dans l'aventure". Des 

laboratoires publics en majorité américains se regroupent pour mener à bien ce projet. 

Il comprendra 3 phases : établissement de la carte génétique, de la carte physique et 

enfin le séquençage. Cette stratégie permet d'obtenir des séquences ordonnées prêtes 

pour le séquençage. 

En 1999 un groupe privé, la firme Celera-Genomics, dirigée par un ancien 

chercheur du consortium public C. Venter annonce qu'elle utilisera, pour séquencer le 

génome humain, la technique dite du "séquençage à la mitraillette" qui consiste à 

2

découper et séquencer les fragments d'ADN sans les ordonner (Cf. Fig. 3). Cette 

stratégie nécessite un gros support informatique pour assembler les séquences et des 

moyens importants en séquençage. Dans un premier temps, la société Celera- 

Genomics rachète la société Perkin Elmer spécialiste des appareils de séquençage se 

dotant ainsi d'un parc important de séquenceurs. La société Celera-Genomics se 

réserve également, en temps que firme privée, le droit de garder secrets ses résultats 

afin de breveter ultérieurement les séquences les plus intéressantes ; ceci soulève un 

tollé général dans la recherche publique. Il faut tout de même signaler que 

l'intervention d'une concurrence public/privé, associée à la baisse du coût du 

séquençage, a permis une accélération de l'obtention des résultats. 

En mars 2000 on assiste, d'une part, à l'annonce d'un brouillon du séquençage 

complet du génome humain par le consortium public dirigé par F. Collins et par la 

société Celera-Genomics représenté par C. Venter et, d'autre part, à la réconciliation 

entre ces 2 groupes, tout ceci à la Maison Blanche sous la houlette de Bill Clinton. En 

février 2001, les résultats complets du séquençage du génome humain sont publiés 

simultanément dans deux revues scientifiques prestigieuses, Nature 1 pour le 

consortium public et Science 2 pour la firme Celera-Genomics. Le coût total de ce 

projet pour le consortium public a été de 300 millions de dollars. 

Qu'en est-il exactement de ces résultats? 

En fait nous n'avons qu'un brouillon de séquence avec de nombreux trous et 

c'est seulement en 2004 que le séquençage complet du génome humain sera terminé 3 . 

De plus cette séquence est une suite de 3 milliards de paires de bases ; il faut l'annoter, 

c'est à dire trouver les gènes et ensuite chercher le rôle de ces gènes (il faut trouver les 

mots et leur signification). Pour cela on peut se servir des génomes déjà séquencés et 

procéder par analogie. En se basant sur les caractéristiques des gènes (structure 

exon/intron, phase de lecture ouverte, signaux de transcription et traduction, etc.) on 

doit rechercher, avec des programmes informatiques, des gènes possibles ou présumés, 

1 

International Human Genome Sequencing Consortium Initial sequencing and analysis of the human genome. 

(2009) Nature 409 : 860-921. 

2 

Venter, J. C. et al. The Sequence of the Human Genome. (2009) Science 291: 1304-1351. 

3 

International Human Genome Sequencing Consortium (2004) Finishing the euchromatic sequence of the human 

genome. Nature 431 : 931-945 

3

dont il faudra par la suite déterminer le rôle. Les conclusions provisoires de 

l’annotation du génome humain sont les suivantes : 

*Seulement 1% du génome code des protéines 

*Il y a de 23 à 28 000 gènes dans le génome humain 

*Les exons représentent ∼5% de chacun des gènes 

*Les gènes (exons+introns) représentent ∼25% du génome humain 

*∼60% des gènes présentent une possibilité d’épissage alternatif. De ce fait les gènes 

humains peuvent permettre de produire chacun de nombreuses protéines différentes 

*La plupart des gènes spécifiques des vertébrés sont impliqués dans les systèmes 

immunitaires ou nerveux 

*Les séquences répétées constituent plus de 50% de notre patrimoine génétique. Ce 

sont surtout des transposons non fonctionnels 

*Il existe de nombreuses duplications de grandes régions des chromosomes 

Que faire maintenant avec cette masse d'information? 

On peut s’attendre à une accélération de la découverte des gènes impliqués dans 

les maladies monogéniques (5 à 6000). On devrait également déterminer les gènes 

impliqués dans les terrains génétiques favorables au développement de certaines 

maladies. Les résultats obtenus permettront de mieux comprendre ces maladies et 

d'envisager de nouvelles thérapies. Pour la recherche de ces gènes, il faut se servir du 

polymorphisme de l'ADN (séquences de l'ADN présentant des variations d'un individu 

à l'autre, et expliquant que nous soyons tous différents). 

De nouveaux marqueurs très intéressants du fait de leur nombre (plusieurs 

millions) dans le génome humain sont apparus avec le séquençage, ce sont les SNP 4 

(polymorphisme d'un seul nucléotide). Une fois localisés très précisément sur les 

chromosomes humains en fonction des données du séquençage, ces marqueurs 

pourront être comparés chez les malades et non malades. Cela va conduire à une 

cartographie beaucoup plus rapide des gènes impliqués dans certaines maladies. Une 

fois ces gènes ou terrains génétiques déterminés, on pourra proposer des diagnostics 

rapides de prédispositions à certaines maladies. La médecine deviendra de plus en 

4 http://www.ncbi.nlm.nih.gov/About/primer/snps.html 

4

plus prédictive. On peut donner comme exemple les résultats obtenus par un 

consortium de laboratoires 5 qui a utilisé 500 000 SNP pour localiser sur nos 

chromosomes 7 gènes impliqués dans des maladies comme la maladie de Crohn, 

l’hypertension ou le diabète (type 1 et 2). Mais pour aller plus loin dans ce type 

d’analyse, il sera nécessaire de réduire le coût de la technique de séquençage pour 

analyser non plus des marqueurs mais l’ensemble du génome des individus. 

Les améliorations de la technique de séquençage 

Depuis l’article de Nature paru en 1953 de J. Watson et FH Crick proposant une 

structure de l’ADN 6 jusqu’à nos jours, la biologie dite moléculaire a connu une suite 

de remarquables progrès technologiques dont le séquençage constitue l’un des 

évènements clés. En ce début de troisième millénaire déjà riche en nouvelles 

technologies, nous assistons à une nouvelle révolution dans le domaine du séquençage. 

Le séquençage 

Le séquençage de l’ADN est une méthode dont le but est de déterminer la 

succession linéaire des bases A, C, G et T prenant part à la structure de l’ADN. La 

lecture de cette séquence permet d’étudier l’information biologique contenue par celle- 

ci. Une des deux techniques initiales largement employé a été décrite par Sanger. Elle 

consiste à jouer sur le recopiage de l’ADN et l’arrêt de celui-ci par incorporation de 

nucléotides sans 3’OH. Elle comprendra, pour simplifier, quatre étapes : 

1) obtention des ADN à séquencer sous la forme de simple brin 

2) hybridation de courte séquence d’ADN (amorces) sur les simples brins 

3) recopiage par l’ADN polymérase de l’ADN en 4 réactions qui contiennent 

toutes les 4 nucléotides triphosphates mais également un des quatre sous la 

forme d’un didéoxynucléotide. L’ADN polymérase a le choix d’incorporer soit 

un dXTP soit un ddXTP pendant la synthèse. 

4) détermination de la taille des fragments d’ADN synthétisés dans chacune des 4 

réactions. 

5 The Wellcome Trust Case Control Consortium (2007) Genome-wide association study of 14,000 cases of 

seven common diseases and 3,000 shared controls. Nature 447 : 661-683 

6 Watson, J.D. and Crick, F.H.C. (1953) A Structure for Deoxyribose Nucleic Acid. Nature 171: 737-738 

5

Le protocole simple du séquençage a valu à son créateur, F. Sanger, le prix Nobel 

en 1980 7 . Jusqu’en 2000 les améliorations viendront du séquençage par PCR 

(Polymérase Chain Reaction) et de la détermination de la taille des fragments d’ADN 

synthétisés non plus par électrophorèse en gel de polyacrylamide mais par 

l’électrophorèse capillaire (Cf. Fig. 4). 

Les innovations dans la technique de séquençage 8 

De nouvelles innovations, dans la technique de séquençage, permettent 

d’abaisser d’une façon drastique le coût du séquençage, le faisant actuellement passer 

du prix d’un voyage Terre Lune à celui d’une voiture haut de gamme. On peut 

facilement envisager que celui-ci sera de quelques centaines de dollars dans une 

dizaine d’années (Cf. Fig. 5). Donnons quelques exemples : 

* le Pyroséquençage 

Une première nouveauté importante apparaît dans le début des années 2000 et 

permet le séquençage en masse, il s’agit du pyroséquençage. Le principe est toujours 

basé sur le recopiage de l’ADN : chaque fois qu’un nucléotide est incorporé dans la 

nouvelle chaîne d’ADN, il y a libération d’un phosphate inorganique qui est 

« transformé » en lumière. On ajoute les nucléotides un par un et dans un premier 

temps on mesure la quantité de lumière libérée. Dans un deuxième temps on élimine 

les nucléotides non incorporés puis on recommence le cycle. Ce système parfaitement 

automatisé a permis de déterminer la séquence complète des premiers génomes 

individuels comme celui de C. Venter. 

Le séquençage par synthèse ou cyclic reversible termination (CRT) 

Dans cette approche, en parallèle et de manière cyclique, chaque molécule 

d’ADN est séquencée par addition du nucléotide complémentaire (fluorescent) 

catalysée par une enzyme. La réaction est suivie en temps réel par une caméra. Chaque 

nucléotide intégré possède un groupe protecteur qui arrête la synthèse de l’ADN. Le 

fluorophore est ensuite éliminé ainsi que le groupe protecteur par une autre enzyme. 

Le cycle peut redémarrer. Cette technique proposée par la société Helicos a permis de 

7 http://nobelprize.org/nobel_prizes/chemistry/laureates/1980/ 

8 Metzker, M. L. Sequencing technologies the next generation. (2010) Nature Reviews Genetics 11 : 31-46 

6

séquencer en 2009 le génome d’un chercheur, S. Quake, pour un coût de 50 000 

dollars avec seulement trois personnes pour effectuer le travail. 

Les techniques de l’avenir 

Technique de détection par sonde atomique (scanning probe) 

Peut être la technique la plus simple, elle utilise comme instrument le 

microscope par force atomique. La sonde de ce dernier reconnaît chaque base d’ADN 

pour en déduire la séquence. 

Le séquençage par exonucléase 

Après recopiage d’un ADN et incorporation de nucléotides fluorescents à l’aide 

d’une ADN polymérase, chaque molécule d’ADN est fixée sur un support (bille, par 

exemple), puis circule dans un microcapillaire où elle est digérée par une exonucléase. 

Cette enzyme libère séquentiellement chaque nucléotide fluorescent dont la lecture se 

fait en temps réel dans un canal microfluidique. 

Le séquençage après traversée de nanopores 

Une molécule d’ADN traverse un nanopore, le passage de chaque nucléotide à 

travers un nanopore soumis à un courant électrique provoque une variation de ce 

courant nucléotide-dépendant au cours de la traversée du nanopore. 

Notons que l’utilisation de l’ensemble de ces nouvelles techniques est 

généralement génératrice de nombreuses erreurs. En attente de la technique simple, 

fidèle, peu coûteuse et rapide, les chercheurs préfèrent le séquençage unique du 1% du 

génome codant des protéines, notamment dans le cas de la recherche de gènes 

impliqués dans des maladies. 

Les apports du séquençage des génomes individuels. 

Détermination du risque de développer différentes maladies 

On peut dès maintenant déterminer les allèles qui augmentent le risque de 

développer des maladies complexes (Cf. Fig. 6). Ces résultats présentés lors du 

séquençage des 6 génomes individuels actuellement réalisés 9 posent de nombreux 

problèmes éthiques liés à la médecine prédictive. 

9 Levy, S. et al. The Diploid Genome Sequence of an Individual Human. (2007) PLoS Biology 5: 2113-2144; 

Wheeler, D. A. et al. The complete genome of an individual by massively parallel DNA sequencing. (2008) 

Nature 452 : 872-877; Jong-I, K. Highly annotated whole-genome sequence of a Korean individual. (2009) 

Nature 460: 1011-1016; Pushkarev1, D. et al. Single-molecule sequencing of an individual human genome. 

7

Développement de la pharmacogénétique 

La pharmacogénétique propose d’administrer le médicament le plus efficace en 

fonction du génotype du malade. Elle propose également de réduire les effets 

secondaires possibles des médicaments. On a déjà pu déterminer les médicaments les 

mieux adaptés pour différents individus en comparant les cartes des marqueurs ADN 

de personnes répondant correctement à un traitement avec celles de personnes ne 

répondant pas ou répondant mal. 

Découverte de nouveaux gènes impliqués dans des maladies 

On assiste également à une meilleure compréhension de certaines maladies 

comme le cancer. Par exemple, en étudiant et en comparant le génome de cellules 

leucémiques et de cellules normales d’un même individu 10 Ley a découvert 8 

nouveaux gènes impliqués dans ce type de cancer (Cf. Fig. 7). 

On peut prendre un autre exemple, celui du syndrome de Miller caractérisé par 

un tonus musculaire diminué, des troubles de la coordination, des anomalies de la face 

et des membres. Cette maladie génétique orpheline présente un mode de transmission 

autosomal mais on ne savait pas s’il était récessif ou dominant. Très récemment, on a 

montré en séquençant le génome de plusieurs malades que la transmission s’effectuait 

sur le mode récessif. Le gène présumé en cause dans cette maladie est impliqué dans le 

métabolisme des bases pyrimidiques 11 . Ce résultat très positif démontre la puissance 

de ce type d'outil et permet d’envisager une possibilité de traitement si on détecte tôt la 

maladie. 

En conclusion 

Dans cette ère de la post-génomique, tout reste à faire. Il se pose actuellement 

des problèmes très complexes à résoudre, par exemple celui des réseaux d'expression 

des gènes et des interactions entre les produits finaux d'expression des différents 

gènes. Les outils indispensables à leur résolution sont à créer. Comprendre les 

relations entre les gènes et le fonctionnement du système nerveux est un des défis 

(2009) Nature Biotechnology 27, 847-850; Wang, J. et al. The diploid genome sequence of an Asian individual. 

(2008) Nature 456: 60-66; Bentley, D. R. Accurate whole human genome sequencing using reversible 

terminator chemistry. (2008) Nature 456 : 53-59 

10 

Ley, T. J. DNA sequencing of a cytogenetically normal acute myeloid leukaemia genome. (2008) Nature 456 : 

66-72 

11 

Ng, S. B. et al. Exome sequencing identifies the cause of a mendelian disorder. (2010) Nature Genetics, 13-14 

8

essentiels du 21 e siècle. Depuis 30 ans, la génétique a progressé très rapidement avec 

des technologies de plus en plus poussées. Il faut maintenant déterminer de nouveaux 

concepts afin d'expliquer des paradoxes évidents comme celui de la complexité de 

l’organisme humain malgré son faible nombre de gènes. 

Par ailleurs, les recherches sur le polymorphisme humain déboucheront sur le 

typage génétique de plus en plus précis des individus. On peut alors craindre, d'une 

part, l’utilisation d'informations concernant une prédisposition à telle ou telle maladie 

dans les domaines de l’embauche, des assurances, des prêts bancaires et, d'autre part, à 

plus ou moins long terme, des dérives eugénistes. En clair, dans ce domaine, le citoyen 

aura un rôle important à jouer et devra rester vigilant. 

Figure 1 Caryotype de C. Venter (PLoS Biology 2007, 5, 10 ) 

9

Figure 2 Double hélice d'ADN avec son squelette phosphate/sucre (P et S) et l'appariement des bases azotées 

(A,T,G,C). http://www.futura-sciences.com/uploads/tx_oxcsfutura/Adn_l_03.jpg 

Séquençage consortium public Séquençage CeleraGenomic 

Figure 3 Les deux stratégies de séquençage du génome humain. 

10

Figure 4 Séquençage d’après Sanger et observation des résultats du séquençage en électrophorèse capillaire. 

http://images.the-scientist.com/content/figures/0890-3670-040927-44-1-1.jpg 

année Coût estimé Technologie utilisée personnel 

2001 300 000 000 $ Sanger (ABI) 251 

2001 100 000 000 $ Sanger (ABI) 274 

2007 10 000 000 $ Sanger (ABI) 31 

2008 2 000 000 $ Roche (454) 27 

2008 1 000 000 $ Illumina 48 

2008 500 000 $ Illumina 77 

2008 250 000 $ Illumina 196 

2009 48 000 $ Helicos 3 

Figure 5 Evolution du coût estimé du séquençage du génome humain ces dix dernières années d’après D. 

Pushkarev et al. Nature Biotechnology (2009) 27 : 847-850 

11

Figure 6 Facteurs de risque pour différentes maladies d’un individu Coréen (Nature 456, 6, 2008) 

Figure 7 Mutations trouvées dans des cellules leucémiques absentes des cellules normales d’un individu (Nature 

456,6 2008) 

12

Evolution des techniques de séquençage

Create successful ePaper yourself

Delete template?

Save as template?