01.02.2015 Visualizzazioni

genome

genome

genome

SHOW MORE
SHOW LESS

Trasformi i suoi PDF in rivista online e aumenti il suo fatturato!

Ottimizzi le sue riviste online per SEO, utilizza backlink potenti e contenuti multimediali per aumentare la sua visibilità e il suo fatturato.

Bioinformatica<br />

• Prof. Raffaele Calogero<br />

raffaele.calogero@unito.it<br />

Tel. 011 6705417<br />

Cell. 333 3827080<br />

Orari di ricevimento:<br />

– in qualunque momento<br />

• Testo:<br />

– Introduzione alla Genomica, Gibson & Muse (Zanichelli)<br />

• Capitoli trattati durante le lezioni.


Whole Genome Shotgun Assembly<br />

Two strategies t for sequencing:<br />

clone-by-clone approach<br />

whole-<strong>genome</strong> shotgun approach<br />

(Celera, Gene Myers).<br />

Shotgun sequencing was<br />

introduced by F. Sanger et al.<br />

(1977) and has remained the<br />

mainstay of <strong>genome</strong> sequence<br />

assembly for nearly 25 years now.<br />

ED Green, Nat Rev Genet 2, 573 (2001)


Il sequenziamento gerarchico<br />

del genoma umano


• Passaggi principali del sequenziamento<br />

gerarchico


Mappa fisica<br />

• Un punto importante preliminare al sequenziamento del genoma<br />

umano è stata la costruzione di una mappa fisica ad alta risoluzione<br />

di ognuno dei cromosomi umani.<br />

• Per completare una mappa fisica di 3 x 10 9 basi è necessario<br />

disporre di libraries genomiche comprensive di tutto il genoma<br />

suddiviso i in frammenti sovrapposti eclonati in appositi vettori.<br />

• Una delle caratteristiche di queste libraries genomiche è che devono<br />

essere costituite da grossi frammenti di DNA nell’ordine di 100-300<br />

Kb in modo che con 2-5 x 10 5 cloni indipendenti è possibile avere la<br />

completa rappresentazione del genoma.<br />

∼300 kb<br />

Eterocromatina<br />

costitutiva<br />

gaps


BAC: Bacterial artificial chroosome<br />

• Nel 1992 è stato sviluppato un<br />

vettore di clonaggio basato sul<br />

fattore episomale F di<br />

Escherichia coli.<br />

• IlfattoreFdiE.colièunDNA<br />

extracromosomale circolare che<br />

contiene sul suo DNA alcuni<br />

geni regolativi:<br />

• oriS e repE<br />

• parA e parB<br />

• I vettori BAC sono caratterizzati<br />

ti<br />

da:<br />

• un marcatore fenotipico<br />

• siti cosN del batteriofago<br />

lambda e loxP del batteriofago<br />

P1<br />

• una serie di siti di restrizione<br />

rari.


• Costruzione di librerie di cloni contenenti 50-<br />

200Kb


Sequenziamento gerarchico<br />

• Filtrazione: i rimozione i dalle librerie i di<br />

genomiche di materiale spurio (frammenti<br />

di genoma batterico)<br />

• Assemblaggio: ordinamento delle contig di<br />

ciascun BAC/PAC e successivo<br />

allineamento e delle e contig tg sui cromosomi<br />

oso<br />

via STS<br />

• Merging: assemblaggio dei vari contig<br />

negli “scaffolds” cromosomici


Ordinamento dei cloni BAC


BAC<br />

Fingerprint:


• Il chromosome walking<br />

permette di costruire delle<br />

contig in modo sequenziale.<br />

• Usando la sequenza terminale<br />

di un primo clone si<br />

identificano altri che la<br />

condividono.<br />

• Usando l’analisi dei profili di<br />

restrizione è possibile<br />

ricostruire consequenzialità dei<br />

vari cloni.<br />

• Si isola una nuova sequenza<br />

terminale e si ripete la<br />

procedura.


• Dal punto di vista storico il metodo principale per allineare le<br />

mappe fisiche con le genetiche è l’uso delle mappe<br />

citologiche.<br />

i • Le mappe citologiche sono profili di bandeggio cromosomico<br />

osservabili al microscopio i ottico su piastre metafasiche<br />

colorate.<br />

• L’ibridazione in situ di frammenti di DNA (STS, sequence<br />

tagged site) permette l’allineamento con la mappa fisica.


Ricombinazione<br />

genomica<br />

• La ricombinazione tende ad<br />

essere soppressa vicino al<br />

centromero ed incrementare<br />

notevolmente nelle parti distali<br />

del cromosoma con particolare<br />

riguardo per le ultime 20-35 Mb.<br />

• La ricombinazione è più alta in<br />

cromosomi corti per permettere<br />

almeno un crossing-over over per<br />

braccio, anche perche’ i<br />

crossing-over sembrano essere<br />

necessari per la corretta<br />

disgiunzione meiotica delle<br />

coppie di cromosomi omologhi.


Ricombinazione<br />

genomica<br />

• La ricombinazione<br />

media per cromosoma<br />

aumenta in funzione<br />

della riduzione della<br />

lunghezza del braccio<br />

del cromosoma.<br />

• Lunghe braccia<br />

cromosomiche hanno<br />

una media di<br />

ricombinazione di un cM<br />

per Mb mentre braccia<br />

corte possono arrivare a<br />

2 cM per Mb.


Mappatura citogenetica<br />

Bandeggiamento:<br />

• C-banding<br />

• N-banding<br />

• D-banding • T-banding<br />

• G-banding


Integrazione tra citogenetica e sequenze<br />

genomiche<br />

• Il collegamento tra mappa citogenetica e sequenza nucleotidica è<br />

stato realizzato attraverso l’uso delle STS (sequenze tagged site)<br />

che sono delle sequenze uniche del genoma.<br />

• La definizione di una mappa fisica genomica di STS è stato uno dei passi<br />

preliminari al sequenziamento del genoma umano.<br />

• Utilizzando una tecnica nota come FISH è stato possibile mappare<br />

la posizione di lunghi frammenti genomici (100-200 kb), contenenti<br />

una o piu’ STS, sul cromosoma metafasico e di conseguenza<br />

associare la posizione delle STS all’interno delle bande citogenetiche


FISH: Trisomia del 21<br />

FISH


Integrazione tra citogenetica e sequenze<br />

genomiche


Integrazione tra citogenetica e sequenze<br />

genomiche


• Una fase<br />

importantissima nel<br />

sequenziamento del<br />

genoma umano è<br />

stato lo sviluppo di<br />

nuove tecnologie di<br />

sequenziamento<br />

automatico:<br />

– Incremento della<br />

lunghezza dei<br />

frammenti sequenziati<br />

– Maggiore high-<br />

throughput


Automated Sequencing<br />

nearly all automatic ti sequencing is done using the enzymatic dideoxy chaintermination<br />

method of Sanger (1977).<br />

Separation of fragments by gel electrophoresis.<br />

Readout of fragments labeled with fluorescent dyes.<br />

Computer analysis of gel images:<br />

- lane tracking – identify gel boundaries<br />

- lane profiling – sum each of 4 signals across lane width to create a profile<br />

- trace processing – deconvolute and smooth signal estimates + reduce noise<br />

- base-calling in which the processed trace is translated into a sequence of bases.<br />

Program Phred is quasi-standard for last step (base calling).


Base Calling - Phred<br />

B. Ewing, L. Hillier, M.C. Wendl, P. Green Base-calling of automated sequencer traces using Phred.<br />

I. Accuracy assessment. Genome Res 8, 175-185 (1998).<br />

B. Ewing, P. Green. Base-calling of automated sequencer traces using Phred. II. Errror probabilities.<br />

Genome Res 8, 186-194 (1998).<br />

The processed traces are displayed as chromatograms of 4 curves of<br />

different color, each curve representing the signal of 1 of the 4 bases.


Base Calling - Phred<br />

Idealized traces would<br />

consist of evenly spaced,<br />

nonoverlapping peaks.<br />

Quality:<br />

high – no<br />

Real traces deviate from ambiguities<br />

this ideal due to imperfections<br />

of the sequencing<br />

reactions, of gel electro-<br />

phoresis, and of trace medium – some<br />

processing.<br />

ambiguities<br />

The first 50 or so peaks<br />

and peaks over 500 or so<br />

are particularly noisy.<br />

Poor – low<br />

confidence


Phred<br />

• La probabilità di errore di lettura di una base<br />

generata da Phred è data da:<br />

– La variazione di distanza del picco in un intervallo di<br />

sette picchi, con al centro la base in corso di<br />

identificazione.<br />

i<br />

– Il rapporto tra il più alto ed il più basso picco non<br />

identificato nello stesso intervallo.<br />

– Lo stesso rapporto in un intervallo costituito da tre<br />

picchi.<br />

– Il numero di basi tra quelle in esame e quella vicina<br />

non identificata.


Phred<br />

• La probabilità di errore (P) è trasformata in un<br />

punteggio che corrisponde a 10 volte il logaritmo<br />

negativo di P.<br />

• Un punteggio di phred inferiore a 13 indica che<br />

c’è una probabilità di errore >0.05.<br />

• Un punteggio di phred maggiore a 30 indica che<br />

c’è una probabilità di errore


• Ciascun tracciato è<br />

accompagnato da due<br />

righe (automatica e<br />

manuale).<br />

– A) Notevole rumore di<br />

fondo dato dalla lettura<br />

delle prime basi<br />

– B) Presenza di tratti<br />

polimorfici in due<br />

sequenze<br />

– C) Dopo 800 basi si<br />

osserva in genere una<br />

degradazione della<br />

qualità della sequenza<br />

• Distribuzione dei punteggi<br />

phred su 26000 letture di<br />

sequenza. Gli istogrammi<br />

i<br />

più scuri rappresentano la<br />

qualità di lettura per basi<br />

comprese tra 100 e 400.<br />

• Gli istogrammi più chiari<br />

rappresentano i punteggi<br />

assegati a tutta la<br />

sequenza leggibile


Phrap & Consed<br />

• Phrap:<br />

– Programma che permette l’assemblaggio delle sequenze<br />

derivate dallo stesso clone in una contig<br />

• Consed:<br />

– Programma grafico per la valutazione e manipolazione dei<br />

og a a g a co pe a a uta o e e a po a o e de<br />

risultati dell’assemblaggio phrap


Quanti frammenti devo sequenziare<br />

• Considerando N frammenti di lunghezza h<br />

distribuiti su un genoma di lunghezza G, il<br />

grado di copertura è dato da:<br />

Shotgun sequencing<br />

• Se N è grande e h è piccolo la<br />

distribuzione ib i dei frammenti puo’ essere<br />

approssimata ad una distribuzione di<br />

Poisson con media pari al grado di<br />

copertura a.<br />

• Data la distribuzione di Poisson la<br />

probabilità che l’estremo lestremo sinistro di un<br />

frammento sia presente in un punto<br />

scelto casualmente è pari a:<br />

a =<br />

Nh<br />

G<br />

p<br />

=1− e<br />

−a


Quanti frammenti devo sequenziare<br />

p =1−1<br />

e<br />

−a<br />

• Per avere una probabilità bl del 0.99 a=4.6.<br />

• Per avere una probabilità del 0.999 a=6.9<br />

• Essendo il genoma umano 3 x 10 9 basi anche con<br />

un copertura di 6.9 rimangono 3 x 10 6 basi non<br />

sequenziate.


Sequenziamento shotgun


Passaggi del sequenziamento<br />

shotgun<br />

• Screener: mascherare le sequenze<br />

ripetute.<br />

• Overlapper: assemblare tra loro i<br />

frammenti<br />

– Le sovrapposizioni specifiche hanno una<br />

17<br />

probabilità di apparire una volta ogni 10 17<br />

comparazioni quindi è poco probabile che<br />

compaiano 2 volte nello stesso genoma se<br />

non ci sono state duplicazioni recenti.


Passaggi del sequenziamento<br />

shotgun<br />

• Unitigger: ragguppamento delle contig<br />

basate su sequenze non ripetute e ripetute<br />

in unitig, che sono una serie di sequenze<br />

uniche che non si sovrappongono in modo<br />

ambiguo.<br />

• Scaffolder: assemblaggio delle unitig in<br />

scaffolds.


• Assemblaggio nel sequenziamento shotgun:<br />

– A: asseblaggio per sequenze singole (sinistra) e sequenze ripetute (destra)<br />

– B: Overlapper allinea le Unicontig (U-unitig sequenze non ripetute, Unitig<br />

supercollassate sequenze ripetute)<br />

– Orientamento delle U-unitig sulla base delle sequenze terminali di cloni da 10-50 Kb


Rifiniture del sequenziamento<br />

shotgun<br />

• Le lacune restanti vengono risolte in più<br />

passaggi successivi:<br />

– Inserzione delle unitig precedentemente scartate ma<br />

confermate da più di due o tre coppie appaiate<br />

– Inserizione delle sequenze la cui posizione è<br />

confermata da una sola lettura<br />

– BAC walking per completare le lacune rimanenti<br />

– Associazione degli scaffolds alla struttura genomica<br />

via STS


• Rifiniture di assemblaggio shotgun


Verifica delle sequenze<br />

• La valutazione della veridicità ità di un<br />

sequenziamento genomico viene fatta a tre<br />

livelli:<br />

– Completezza: limitata dalla possibilità di clonare e<br />

sequenziare regioni ad altissima ripetitività<br />

(eterocromatina costitutiva)<br />

– Accuratezza: L’accuratezza di sequenza puo’ essere<br />

aumentata semplicemente aumentando la ridondanza<br />

di sequenziamento<br />

– Validità degli allineamenti: E’ determinabile<br />

integrando dati preesistenti quali mappe fisiche o<br />

genetiche con i dati di sequenziamento.


• Valori stimanti di identificazione corretta dei tratti<br />

riuniti di un genoma<br />

• Per il progetto genoma umano l’94% è inserito in<br />

contig di almeno 100Kb


• Discrepanze tra i progetti di sequenziamento alla stesura preliminare della<br />

sequenza.<br />

– Il cromosoma 22 considerato “finito” aveva molte meno discrepanze del 5 ancora in<br />

fase “draft”<br />

– Verde allineamenti appaiati, arancione zone >50kb non ordinate, azzurro regioni<br />

orientate in modo opposto. Trattini neri: interruzioni, trattini blu N di 10 kb


Annotazione dei geni<br />

su sequenze genomiche


Structure and transcription of a Eukaryotic gene


What is gene prediction<br />

Detecting meaningful signals in uncharacterised DNA sequences.<br />

Knowledge of the interesting information in DNA.<br />

Sorting the ‘chaff from the wheat’<br />

GATCGGTCGAGCGTAAGCTAGCTAG<br />

ATCGATGATCGATCGGCCATATATC<br />

ACTAGAGCTAGAATCGATAATCGAT<br />

CGATATAGCTATAGCTATAGCCTAT<br />

Gene prediction is ‘recognising proteincoding<br />

regions in genomic sequence’


Knowing what to look for<br />

What is a gene<br />

Not a full transcript with control regions<br />

The coding sequence (ATG -> STOP)<br />

N<br />

Start Middle End


Annotation of eukaryotic <strong>genome</strong>s<br />

Genomic DNA<br />

Unprocessed RNA<br />

transcription<br />

RNA processing<br />

ab initio gene<br />

prediction<br />

Mature mRNA<br />

Nascent<br />

polypeptide<br />

Gm 3<br />

translation<br />

folding<br />

AAAAAAA<br />

Comparative gene<br />

prediction<br />

Active enzyme<br />

Functional<br />

identification<br />

Function<br />

Reactant A<br />

Product B


Gene finding: Issues<br />

Issues regarding gene finding in general<br />

Genome size<br />

Genome composition<br />

Genome complexity<br />

cis-splicing<br />

trans-splicing<br />

i<br />

alternate splicing


Gene finding: <strong>genome</strong><br />

Genome composition<br />

Long ORFs tend to be coding<br />

Presence of more putative ORFs in GC rich<br />

<strong>genome</strong>s (Stop codons = UAA, UAG & UGA)<br />

Genome complexity<br />

Simple repetitive sequences and dispersed repeats<br />

tend to be anti-coding<br />

May need to mask sequence prior to gene<br />

May need to mask sequence prior to gene<br />

prediction


Gene finding: coding density<br />

As the coding/non-coding length ratio decreases, exon<br />

prediction becomes more complex<br />

Human<br />

Fugu<br />

worm<br />

E.coli<br />

In procarioti e eucarioti inferiori l’identificazione di geni è relativamente facile.<br />

I metodi ab-initio identificano in modo preciso fino al 90% dei geni.


cis-splicing of genes<br />

Gene finding: splicing<br />

Finding multiple (short) exons is harder than<br />

finding a single (long) exon.<br />

In uomo la dimensione media di un esone è 50 basi<br />

trans-splicing of genes<br />

A trans-splice acceptor is no different to a<br />

normal splice acceptor<br />

worm<br />

E.coli


Gene finding: alternate splicing<br />

Alternate splicing (isoforms) are very<br />

difficult to predict.<br />

Human A<br />

Human B<br />

Human C


ab initio prediction<br />

What is ab initio gene prediction<br />

Prediction from first principles using the raw DNA<br />

sequence only.<br />

GATCGGTCGAGCGTAAGCTAGCTAG<br />

ATCGATGATCGATCGGCCATATATC<br />

ACTAGAGCTAGAATCGATAATCGAT<br />

CGATATAGCTATAGCTATAGCCTAT<br />

Requires ‘training sets’ of known gene<br />

structures to generate statistical tests for the<br />

likelihood (probability) of a prediction being<br />

real.


Gene finding: ab initio<br />

What features of a ORF can we use<br />

Size - large open reading frames<br />

DNA composition - codon usage / 3rd position codon bias<br />

Kozak sequence CCGCCAUGG<br />

Ribosome binding sites<br />

Termination signal (stops)<br />

Splice junction boundaries (acceptor/donor)


Gene finding: features<br />

Think of a CDS gene prediction as a linear series<br />

of sequence features:<br />

Initiation codon<br />

Coding sequence (exon)<br />

Splice donor (5’)<br />

Non-coding sequence (intron)<br />

N times<br />

Splice acceptor (3’)<br />

Coding sequence (exon)<br />

Termination codon


Splicing Signals<br />

Exons are interspersed with introns and<br />

typically flanked by GT and AG


Consensus splice sites<br />

Donor: 7.9 bits<br />

Acceptor: 9.4 bits<br />

(Stephens & Schneider, 1996)<br />

(http://www-lmmb.ncifcrf.gov/~toms/sequencelogo.html)


Splice site detection<br />

Donor site<br />

5’ 3’<br />

Position<br />

% -8 … -2 -1 0 1 2 … 17<br />

A 26 … 60 9 0 1 54 … 21<br />

C 26 … 15 5 0 1 2 … 27<br />

G 25 … 12 78 99 0 41 … 27<br />

T 23 … 13 8 1 98 3 … 25<br />

From lectures by Serafim Batzoglou (Stanford)


An end to ab initio prediction<br />

ab binitio ii gene prediction i is inaccurate<br />

High false positive rates for most predictors<br />

Exon prediction sensitivity can be good<br />

Rarely used as a final product<br />

Human annotation runs multiple algorithms and scores<br />

exon predicted by multiple predictors.<br />

Used as a starting point for refinement/verification<br />

Prediction need correction and validation<br />

Why not just build gene models by comparative means


Annotation of eukaryotic <strong>genome</strong>s<br />

Genomic DNA<br />

Unprocessed RNA<br />

transcription<br />

RNA processing<br />

ab initio gene<br />

prediction<br />

Mature mRNA<br />

Nascent<br />

polypeptide<br />

Gm 3<br />

translation<br />

folding<br />

AAAAAAA<br />

Comparative gene<br />

prediction<br />

Active enzyme<br />

Functional<br />

identification<br />

Function<br />

Reactant A<br />

Product B


comparative gene prediction<br />

Use knowledge of known coding sequences to<br />

identify region of genomic DNA by similarity<br />

transcriptome - transcribed DNA sequence<br />

proteome - peptide sequence<br />

<strong>genome</strong> - related genomic sequence


Transcript-based prediction: datasets<br />

Generation of large numbers of Expressed Sequence Tags (ESTs)<br />

Quick, cheap but random<br />

Subtractive hybridisation to find rare transcripts<br />

Use multiple libraries for different life-stages/conditions<br />

Single-pass sequence prone to errors<br />

Generation of small number of full length cDNA sequences<br />

Slow and laborious but focused<br />

Large-scale sequencing of (presumed) full length cDNAs<br />

Systematic, multiplexed l cloning/sequencing i of CDS<br />

Expensive and only viable if part of bigger project


Transcript-based prediction: How it works<br />

Align transcript data to genomic sequence using a pair-wise<br />

sequence comparison<br />

EST<br />

(Expression sequence tag)<br />

cDNA<br />

OST<br />

(ORF sequence tag)


Summary<br />

Genes are complex structure which are difficult to predict with<br />

the required level of accuracy/confidence<br />

We can predict stops better than starts<br />

t<br />

We can only give gross confidence levels to predictions (i.e.<br />

confirmed, partially confirmed or predicted)<br />

Gene prediction is only part of the annotation procedure<br />

Movement from ab initio to comparative methodology as<br />

sequence data becomes available/affordable<br />

Curation of gene models is an active process – the set of gene<br />

models for a <strong>genome</strong> is fluid and WILL change over time.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!