genome
genome
genome
Trasformi i suoi PDF in rivista online e aumenti il suo fatturato!
Ottimizzi le sue riviste online per SEO, utilizza backlink potenti e contenuti multimediali per aumentare la sua visibilità e il suo fatturato.
Bioinformatica<br />
• Prof. Raffaele Calogero<br />
raffaele.calogero@unito.it<br />
Tel. 011 6705417<br />
Cell. 333 3827080<br />
Orari di ricevimento:<br />
– in qualunque momento<br />
• Testo:<br />
– Introduzione alla Genomica, Gibson & Muse (Zanichelli)<br />
• Capitoli trattati durante le lezioni.
Whole Genome Shotgun Assembly<br />
Two strategies t for sequencing:<br />
clone-by-clone approach<br />
whole-<strong>genome</strong> shotgun approach<br />
(Celera, Gene Myers).<br />
Shotgun sequencing was<br />
introduced by F. Sanger et al.<br />
(1977) and has remained the<br />
mainstay of <strong>genome</strong> sequence<br />
assembly for nearly 25 years now.<br />
ED Green, Nat Rev Genet 2, 573 (2001)
Il sequenziamento gerarchico<br />
del genoma umano
• Passaggi principali del sequenziamento<br />
gerarchico
Mappa fisica<br />
• Un punto importante preliminare al sequenziamento del genoma<br />
umano è stata la costruzione di una mappa fisica ad alta risoluzione<br />
di ognuno dei cromosomi umani.<br />
• Per completare una mappa fisica di 3 x 10 9 basi è necessario<br />
disporre di libraries genomiche comprensive di tutto il genoma<br />
suddiviso i in frammenti sovrapposti eclonati in appositi vettori.<br />
• Una delle caratteristiche di queste libraries genomiche è che devono<br />
essere costituite da grossi frammenti di DNA nell’ordine di 100-300<br />
Kb in modo che con 2-5 x 10 5 cloni indipendenti è possibile avere la<br />
completa rappresentazione del genoma.<br />
∼300 kb<br />
Eterocromatina<br />
costitutiva<br />
gaps
BAC: Bacterial artificial chroosome<br />
• Nel 1992 è stato sviluppato un<br />
vettore di clonaggio basato sul<br />
fattore episomale F di<br />
Escherichia coli.<br />
• IlfattoreFdiE.colièunDNA<br />
extracromosomale circolare che<br />
contiene sul suo DNA alcuni<br />
geni regolativi:<br />
• oriS e repE<br />
• parA e parB<br />
• I vettori BAC sono caratterizzati<br />
ti<br />
da:<br />
• un marcatore fenotipico<br />
• siti cosN del batteriofago<br />
lambda e loxP del batteriofago<br />
P1<br />
• una serie di siti di restrizione<br />
rari.
• Costruzione di librerie di cloni contenenti 50-<br />
200Kb
Sequenziamento gerarchico<br />
• Filtrazione: i rimozione i dalle librerie i di<br />
genomiche di materiale spurio (frammenti<br />
di genoma batterico)<br />
• Assemblaggio: ordinamento delle contig di<br />
ciascun BAC/PAC e successivo<br />
allineamento e delle e contig tg sui cromosomi<br />
oso<br />
via STS<br />
• Merging: assemblaggio dei vari contig<br />
negli “scaffolds” cromosomici
Ordinamento dei cloni BAC
BAC<br />
Fingerprint:
• Il chromosome walking<br />
permette di costruire delle<br />
contig in modo sequenziale.<br />
• Usando la sequenza terminale<br />
di un primo clone si<br />
identificano altri che la<br />
condividono.<br />
• Usando l’analisi dei profili di<br />
restrizione è possibile<br />
ricostruire consequenzialità dei<br />
vari cloni.<br />
• Si isola una nuova sequenza<br />
terminale e si ripete la<br />
procedura.
• Dal punto di vista storico il metodo principale per allineare le<br />
mappe fisiche con le genetiche è l’uso delle mappe<br />
citologiche.<br />
i • Le mappe citologiche sono profili di bandeggio cromosomico<br />
osservabili al microscopio i ottico su piastre metafasiche<br />
colorate.<br />
• L’ibridazione in situ di frammenti di DNA (STS, sequence<br />
tagged site) permette l’allineamento con la mappa fisica.
Ricombinazione<br />
genomica<br />
• La ricombinazione tende ad<br />
essere soppressa vicino al<br />
centromero ed incrementare<br />
notevolmente nelle parti distali<br />
del cromosoma con particolare<br />
riguardo per le ultime 20-35 Mb.<br />
• La ricombinazione è più alta in<br />
cromosomi corti per permettere<br />
almeno un crossing-over over per<br />
braccio, anche perche’ i<br />
crossing-over sembrano essere<br />
necessari per la corretta<br />
disgiunzione meiotica delle<br />
coppie di cromosomi omologhi.
Ricombinazione<br />
genomica<br />
• La ricombinazione<br />
media per cromosoma<br />
aumenta in funzione<br />
della riduzione della<br />
lunghezza del braccio<br />
del cromosoma.<br />
• Lunghe braccia<br />
cromosomiche hanno<br />
una media di<br />
ricombinazione di un cM<br />
per Mb mentre braccia<br />
corte possono arrivare a<br />
2 cM per Mb.
Mappatura citogenetica<br />
Bandeggiamento:<br />
• C-banding<br />
• N-banding<br />
• D-banding • T-banding<br />
• G-banding
Integrazione tra citogenetica e sequenze<br />
genomiche<br />
• Il collegamento tra mappa citogenetica e sequenza nucleotidica è<br />
stato realizzato attraverso l’uso delle STS (sequenze tagged site)<br />
che sono delle sequenze uniche del genoma.<br />
• La definizione di una mappa fisica genomica di STS è stato uno dei passi<br />
preliminari al sequenziamento del genoma umano.<br />
• Utilizzando una tecnica nota come FISH è stato possibile mappare<br />
la posizione di lunghi frammenti genomici (100-200 kb), contenenti<br />
una o piu’ STS, sul cromosoma metafasico e di conseguenza<br />
associare la posizione delle STS all’interno delle bande citogenetiche
FISH: Trisomia del 21<br />
FISH
Integrazione tra citogenetica e sequenze<br />
genomiche
Integrazione tra citogenetica e sequenze<br />
genomiche
• Una fase<br />
importantissima nel<br />
sequenziamento del<br />
genoma umano è<br />
stato lo sviluppo di<br />
nuove tecnologie di<br />
sequenziamento<br />
automatico:<br />
– Incremento della<br />
lunghezza dei<br />
frammenti sequenziati<br />
– Maggiore high-<br />
throughput
Automated Sequencing<br />
nearly all automatic ti sequencing is done using the enzymatic dideoxy chaintermination<br />
method of Sanger (1977).<br />
Separation of fragments by gel electrophoresis.<br />
Readout of fragments labeled with fluorescent dyes.<br />
Computer analysis of gel images:<br />
- lane tracking – identify gel boundaries<br />
- lane profiling – sum each of 4 signals across lane width to create a profile<br />
- trace processing – deconvolute and smooth signal estimates + reduce noise<br />
- base-calling in which the processed trace is translated into a sequence of bases.<br />
Program Phred is quasi-standard for last step (base calling).
Base Calling - Phred<br />
B. Ewing, L. Hillier, M.C. Wendl, P. Green Base-calling of automated sequencer traces using Phred.<br />
I. Accuracy assessment. Genome Res 8, 175-185 (1998).<br />
B. Ewing, P. Green. Base-calling of automated sequencer traces using Phred. II. Errror probabilities.<br />
Genome Res 8, 186-194 (1998).<br />
The processed traces are displayed as chromatograms of 4 curves of<br />
different color, each curve representing the signal of 1 of the 4 bases.
Base Calling - Phred<br />
Idealized traces would<br />
consist of evenly spaced,<br />
nonoverlapping peaks.<br />
Quality:<br />
high – no<br />
Real traces deviate from ambiguities<br />
this ideal due to imperfections<br />
of the sequencing<br />
reactions, of gel electro-<br />
phoresis, and of trace medium – some<br />
processing.<br />
ambiguities<br />
The first 50 or so peaks<br />
and peaks over 500 or so<br />
are particularly noisy.<br />
Poor – low<br />
confidence
Phred<br />
• La probabilità di errore di lettura di una base<br />
generata da Phred è data da:<br />
– La variazione di distanza del picco in un intervallo di<br />
sette picchi, con al centro la base in corso di<br />
identificazione.<br />
i<br />
– Il rapporto tra il più alto ed il più basso picco non<br />
identificato nello stesso intervallo.<br />
– Lo stesso rapporto in un intervallo costituito da tre<br />
picchi.<br />
– Il numero di basi tra quelle in esame e quella vicina<br />
non identificata.
Phred<br />
• La probabilità di errore (P) è trasformata in un<br />
punteggio che corrisponde a 10 volte il logaritmo<br />
negativo di P.<br />
• Un punteggio di phred inferiore a 13 indica che<br />
c’è una probabilità di errore >0.05.<br />
• Un punteggio di phred maggiore a 30 indica che<br />
c’è una probabilità di errore
• Ciascun tracciato è<br />
accompagnato da due<br />
righe (automatica e<br />
manuale).<br />
– A) Notevole rumore di<br />
fondo dato dalla lettura<br />
delle prime basi<br />
– B) Presenza di tratti<br />
polimorfici in due<br />
sequenze<br />
– C) Dopo 800 basi si<br />
osserva in genere una<br />
degradazione della<br />
qualità della sequenza<br />
• Distribuzione dei punteggi<br />
phred su 26000 letture di<br />
sequenza. Gli istogrammi<br />
i<br />
più scuri rappresentano la<br />
qualità di lettura per basi<br />
comprese tra 100 e 400.<br />
• Gli istogrammi più chiari<br />
rappresentano i punteggi<br />
assegati a tutta la<br />
sequenza leggibile
Phrap & Consed<br />
• Phrap:<br />
– Programma che permette l’assemblaggio delle sequenze<br />
derivate dallo stesso clone in una contig<br />
• Consed:<br />
– Programma grafico per la valutazione e manipolazione dei<br />
og a a g a co pe a a uta o e e a po a o e de<br />
risultati dell’assemblaggio phrap
Quanti frammenti devo sequenziare<br />
• Considerando N frammenti di lunghezza h<br />
distribuiti su un genoma di lunghezza G, il<br />
grado di copertura è dato da:<br />
Shotgun sequencing<br />
• Se N è grande e h è piccolo la<br />
distribuzione ib i dei frammenti puo’ essere<br />
approssimata ad una distribuzione di<br />
Poisson con media pari al grado di<br />
copertura a.<br />
• Data la distribuzione di Poisson la<br />
probabilità che l’estremo lestremo sinistro di un<br />
frammento sia presente in un punto<br />
scelto casualmente è pari a:<br />
a =<br />
Nh<br />
G<br />
p<br />
=1− e<br />
−a
Quanti frammenti devo sequenziare<br />
p =1−1<br />
e<br />
−a<br />
• Per avere una probabilità bl del 0.99 a=4.6.<br />
• Per avere una probabilità del 0.999 a=6.9<br />
• Essendo il genoma umano 3 x 10 9 basi anche con<br />
un copertura di 6.9 rimangono 3 x 10 6 basi non<br />
sequenziate.
Sequenziamento shotgun
Passaggi del sequenziamento<br />
shotgun<br />
• Screener: mascherare le sequenze<br />
ripetute.<br />
• Overlapper: assemblare tra loro i<br />
frammenti<br />
– Le sovrapposizioni specifiche hanno una<br />
17<br />
probabilità di apparire una volta ogni 10 17<br />
comparazioni quindi è poco probabile che<br />
compaiano 2 volte nello stesso genoma se<br />
non ci sono state duplicazioni recenti.
Passaggi del sequenziamento<br />
shotgun<br />
• Unitigger: ragguppamento delle contig<br />
basate su sequenze non ripetute e ripetute<br />
in unitig, che sono una serie di sequenze<br />
uniche che non si sovrappongono in modo<br />
ambiguo.<br />
• Scaffolder: assemblaggio delle unitig in<br />
scaffolds.
• Assemblaggio nel sequenziamento shotgun:<br />
– A: asseblaggio per sequenze singole (sinistra) e sequenze ripetute (destra)<br />
– B: Overlapper allinea le Unicontig (U-unitig sequenze non ripetute, Unitig<br />
supercollassate sequenze ripetute)<br />
– Orientamento delle U-unitig sulla base delle sequenze terminali di cloni da 10-50 Kb
Rifiniture del sequenziamento<br />
shotgun<br />
• Le lacune restanti vengono risolte in più<br />
passaggi successivi:<br />
– Inserzione delle unitig precedentemente scartate ma<br />
confermate da più di due o tre coppie appaiate<br />
– Inserizione delle sequenze la cui posizione è<br />
confermata da una sola lettura<br />
– BAC walking per completare le lacune rimanenti<br />
– Associazione degli scaffolds alla struttura genomica<br />
via STS
• Rifiniture di assemblaggio shotgun
Verifica delle sequenze<br />
• La valutazione della veridicità ità di un<br />
sequenziamento genomico viene fatta a tre<br />
livelli:<br />
– Completezza: limitata dalla possibilità di clonare e<br />
sequenziare regioni ad altissima ripetitività<br />
(eterocromatina costitutiva)<br />
– Accuratezza: L’accuratezza di sequenza puo’ essere<br />
aumentata semplicemente aumentando la ridondanza<br />
di sequenziamento<br />
– Validità degli allineamenti: E’ determinabile<br />
integrando dati preesistenti quali mappe fisiche o<br />
genetiche con i dati di sequenziamento.
• Valori stimanti di identificazione corretta dei tratti<br />
riuniti di un genoma<br />
• Per il progetto genoma umano l’94% è inserito in<br />
contig di almeno 100Kb
• Discrepanze tra i progetti di sequenziamento alla stesura preliminare della<br />
sequenza.<br />
– Il cromosoma 22 considerato “finito” aveva molte meno discrepanze del 5 ancora in<br />
fase “draft”<br />
– Verde allineamenti appaiati, arancione zone >50kb non ordinate, azzurro regioni<br />
orientate in modo opposto. Trattini neri: interruzioni, trattini blu N di 10 kb
Annotazione dei geni<br />
su sequenze genomiche
Structure and transcription of a Eukaryotic gene
What is gene prediction<br />
Detecting meaningful signals in uncharacterised DNA sequences.<br />
Knowledge of the interesting information in DNA.<br />
Sorting the ‘chaff from the wheat’<br />
GATCGGTCGAGCGTAAGCTAGCTAG<br />
ATCGATGATCGATCGGCCATATATC<br />
ACTAGAGCTAGAATCGATAATCGAT<br />
CGATATAGCTATAGCTATAGCCTAT<br />
Gene prediction is ‘recognising proteincoding<br />
regions in genomic sequence’
Knowing what to look for<br />
What is a gene<br />
Not a full transcript with control regions<br />
The coding sequence (ATG -> STOP)<br />
N<br />
Start Middle End
Annotation of eukaryotic <strong>genome</strong>s<br />
Genomic DNA<br />
Unprocessed RNA<br />
transcription<br />
RNA processing<br />
ab initio gene<br />
prediction<br />
Mature mRNA<br />
Nascent<br />
polypeptide<br />
Gm 3<br />
translation<br />
folding<br />
AAAAAAA<br />
Comparative gene<br />
prediction<br />
Active enzyme<br />
Functional<br />
identification<br />
Function<br />
Reactant A<br />
Product B
Gene finding: Issues<br />
Issues regarding gene finding in general<br />
Genome size<br />
Genome composition<br />
Genome complexity<br />
cis-splicing<br />
trans-splicing<br />
i<br />
alternate splicing
Gene finding: <strong>genome</strong><br />
Genome composition<br />
Long ORFs tend to be coding<br />
Presence of more putative ORFs in GC rich<br />
<strong>genome</strong>s (Stop codons = UAA, UAG & UGA)<br />
Genome complexity<br />
Simple repetitive sequences and dispersed repeats<br />
tend to be anti-coding<br />
May need to mask sequence prior to gene<br />
May need to mask sequence prior to gene<br />
prediction
Gene finding: coding density<br />
As the coding/non-coding length ratio decreases, exon<br />
prediction becomes more complex<br />
Human<br />
Fugu<br />
worm<br />
E.coli<br />
In procarioti e eucarioti inferiori l’identificazione di geni è relativamente facile.<br />
I metodi ab-initio identificano in modo preciso fino al 90% dei geni.
cis-splicing of genes<br />
Gene finding: splicing<br />
Finding multiple (short) exons is harder than<br />
finding a single (long) exon.<br />
In uomo la dimensione media di un esone è 50 basi<br />
trans-splicing of genes<br />
A trans-splice acceptor is no different to a<br />
normal splice acceptor<br />
worm<br />
E.coli
Gene finding: alternate splicing<br />
Alternate splicing (isoforms) are very<br />
difficult to predict.<br />
Human A<br />
Human B<br />
Human C
ab initio prediction<br />
What is ab initio gene prediction<br />
Prediction from first principles using the raw DNA<br />
sequence only.<br />
GATCGGTCGAGCGTAAGCTAGCTAG<br />
ATCGATGATCGATCGGCCATATATC<br />
ACTAGAGCTAGAATCGATAATCGAT<br />
CGATATAGCTATAGCTATAGCCTAT<br />
Requires ‘training sets’ of known gene<br />
structures to generate statistical tests for the<br />
likelihood (probability) of a prediction being<br />
real.
Gene finding: ab initio<br />
What features of a ORF can we use<br />
Size - large open reading frames<br />
DNA composition - codon usage / 3rd position codon bias<br />
Kozak sequence CCGCCAUGG<br />
Ribosome binding sites<br />
Termination signal (stops)<br />
Splice junction boundaries (acceptor/donor)
Gene finding: features<br />
Think of a CDS gene prediction as a linear series<br />
of sequence features:<br />
Initiation codon<br />
Coding sequence (exon)<br />
Splice donor (5’)<br />
Non-coding sequence (intron)<br />
N times<br />
Splice acceptor (3’)<br />
Coding sequence (exon)<br />
Termination codon
Splicing Signals<br />
Exons are interspersed with introns and<br />
typically flanked by GT and AG
Consensus splice sites<br />
Donor: 7.9 bits<br />
Acceptor: 9.4 bits<br />
(Stephens & Schneider, 1996)<br />
(http://www-lmmb.ncifcrf.gov/~toms/sequencelogo.html)
Splice site detection<br />
Donor site<br />
5’ 3’<br />
Position<br />
% -8 … -2 -1 0 1 2 … 17<br />
A 26 … 60 9 0 1 54 … 21<br />
C 26 … 15 5 0 1 2 … 27<br />
G 25 … 12 78 99 0 41 … 27<br />
T 23 … 13 8 1 98 3 … 25<br />
From lectures by Serafim Batzoglou (Stanford)
An end to ab initio prediction<br />
ab binitio ii gene prediction i is inaccurate<br />
High false positive rates for most predictors<br />
Exon prediction sensitivity can be good<br />
Rarely used as a final product<br />
Human annotation runs multiple algorithms and scores<br />
exon predicted by multiple predictors.<br />
Used as a starting point for refinement/verification<br />
Prediction need correction and validation<br />
Why not just build gene models by comparative means
Annotation of eukaryotic <strong>genome</strong>s<br />
Genomic DNA<br />
Unprocessed RNA<br />
transcription<br />
RNA processing<br />
ab initio gene<br />
prediction<br />
Mature mRNA<br />
Nascent<br />
polypeptide<br />
Gm 3<br />
translation<br />
folding<br />
AAAAAAA<br />
Comparative gene<br />
prediction<br />
Active enzyme<br />
Functional<br />
identification<br />
Function<br />
Reactant A<br />
Product B
comparative gene prediction<br />
Use knowledge of known coding sequences to<br />
identify region of genomic DNA by similarity<br />
transcriptome - transcribed DNA sequence<br />
proteome - peptide sequence<br />
<strong>genome</strong> - related genomic sequence
Transcript-based prediction: datasets<br />
Generation of large numbers of Expressed Sequence Tags (ESTs)<br />
Quick, cheap but random<br />
Subtractive hybridisation to find rare transcripts<br />
Use multiple libraries for different life-stages/conditions<br />
Single-pass sequence prone to errors<br />
Generation of small number of full length cDNA sequences<br />
Slow and laborious but focused<br />
Large-scale sequencing of (presumed) full length cDNAs<br />
Systematic, multiplexed l cloning/sequencing i of CDS<br />
Expensive and only viable if part of bigger project
Transcript-based prediction: How it works<br />
Align transcript data to genomic sequence using a pair-wise<br />
sequence comparison<br />
EST<br />
(Expression sequence tag)<br />
cDNA<br />
OST<br />
(ORF sequence tag)
Summary<br />
Genes are complex structure which are difficult to predict with<br />
the required level of accuracy/confidence<br />
We can predict stops better than starts<br />
t<br />
We can only give gross confidence levels to predictions (i.e.<br />
confirmed, partially confirmed or predicted)<br />
Gene prediction is only part of the annotation procedure<br />
Movement from ab initio to comparative methodology as<br />
sequence data becomes available/affordable<br />
Curation of gene models is an active process – the set of gene<br />
models for a <strong>genome</strong> is fluid and WILL change over time.