03.06.2013 Views

p - Benvenuti al Laboratorio di Biochimica Clinica e Biologia ...

p - Benvenuti al Laboratorio di Biochimica Clinica e Biologia ...

p - Benvenuti al Laboratorio di Biochimica Clinica e Biologia ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Prefazione<br />

Nel corso degli ultimi anni, la rapida evoluzione delle meto<strong>di</strong>che e<br />

degli strumenti a <strong>di</strong>sposizione della biologia molecolare, ha fatto sì che il<br />

sequenziamento del DNA <strong>di</strong>venisse una tecnica sempre più efficiente e<br />

raffinata. La prima sequenza genomica ad essere stata pubblicata, nel<br />

1995, è stata quella <strong>di</strong> Haemophilus influenzae, un piccolo batterio gram-<br />

negativo con un genoma <strong>di</strong> circa 1,8 milioni <strong>di</strong> basi. Successivamente, nel<br />

1996, è stato completato il sequenziamento del primo genoma eucariotico,<br />

quello del lievito Saccharomyces cerevisiae, che comprende circa 13<br />

milioni <strong>di</strong> basi organizzate in se<strong>di</strong>ci cromosomi.<br />

Nel 2001 è stato raggiunto l’obiettivo primario del Progetto Genoma<br />

Umano, v<strong>al</strong>e a <strong>di</strong>re la pubblicazione della prima bozza del genoma umano,<br />

completata in maniera definitiva nel 2003. Questo evento ha dato un<br />

grosso impulso <strong>al</strong>la bioinformatica e <strong>al</strong>la moltiplicazione delle informazioni<br />

biologiche accessibili in modo più o meno libero sulla rete informatica.<br />

Due aspetti rendono peculiari e complesse le informazioni relative<br />

<strong>al</strong>le sequenze <strong>di</strong> genomi. Il primo aspetto è che la quantità e la varietà dei<br />

dati ottenuti da queste ricerche non hanno precedenti nella storia della<br />

biologia e probabilmente della scienza in gener<strong>al</strong>e. Il secondo aspetto, non<br />

meno importante del primo, è che si tratta <strong>di</strong> problemi nuovi, mai<br />

affrontati prima d’ora, che richiedono lo sviluppo <strong>di</strong> nuovi strumenti <strong>di</strong><br />

an<strong>al</strong>isi.<br />

La bioinformatica trova dunque nell’an<strong>al</strong>isi <strong>di</strong> dati genomici un’area<br />

<strong>di</strong> indagine veramente innovativa e stimolante. Determinare la sequenza <strong>di</strong>


un genoma, infatti, non significa comprendere automaticamente il<br />

programma genetico che essa racchiude. Anche con i più sofisticati<br />

sistemi attu<strong>al</strong>mente <strong>di</strong>sponibili si riescono ad interpretare solo<br />

parzi<strong>al</strong>mente ed approssimativamente gli elementi funzion<strong>al</strong>i contenuti in<br />

un genoma e, ancor meno, si riesce a comprendere il significato<br />

dell’informazione genomica nella sua glob<strong>al</strong>ità.<br />

Il problema princip<strong>al</strong>e consiste, quin<strong>di</strong>, nell’identificare le sequenze<br />

<strong>di</strong> DNA che sono trascritte in RNA messaggero (mRNA) per essere poi<br />

tradotte in proteine. L’an<strong>al</strong>isi del trascrittoma, cioè dell’insieme degli RNA<br />

trascritti, consente <strong>di</strong> mettere a fuoco la questione indagando <strong>di</strong>rettamente<br />

a livello <strong>di</strong> RNA, con due obiettivi princip<strong>al</strong>i:<br />

− identificare e caratterizzare in modo <strong>di</strong>retto i trascritti,<br />

sequenziandone sistematicamente i cDNA corrispondenti e<br />

superando in questo modo i limiti <strong>di</strong> affidabilità degli attu<strong>al</strong>i<br />

programmi <strong>di</strong> pre<strong>di</strong>zione genica;<br />

− determinare il livello <strong>di</strong> espressione <strong>di</strong> vari trascritti in cellule<br />

<strong>di</strong>verse e in con<strong>di</strong>zioni fisiologiche e patologiche <strong>di</strong>verse.<br />

Anche nei più semplici procarioti molti geni sono regolati, cioè si<br />

accendono e spengono in risposta a particolari situazioni. Il profilo<br />

trascrizion<strong>al</strong>e riflette quin<strong>di</strong> lo stato funzion<strong>al</strong>e <strong>di</strong> una cellula; <strong>di</strong><br />

conseguenza, capire in qu<strong>al</strong>i circostanze un gene si è espresso è spesso un<br />

presupposto essenzi<strong>al</strong>e per comprenderne la funzione.<br />

La regolazione dell’espressione genica assume un’ulteriore<br />

<strong>di</strong>mensione negli organismi multicellulari dove tipi <strong>di</strong>versi <strong>di</strong> cellule sono<br />

caratterizzati da profili trascrizion<strong>al</strong>i <strong>di</strong>versi. Lo stu<strong>di</strong>o sistematico del<br />

livello <strong>di</strong> espressione dei trascritti è quin<strong>di</strong> <strong>di</strong> grande importanza per<br />

<strong>al</strong>meno due <strong>di</strong>stinte ragioni: in primo luogo per il fatto che il genoma <strong>di</strong><br />

qu<strong>al</strong>siasi cellula esprime in ogni determinato momento solo una parte dei<br />

suoi geni; in secondo luogo perché non esistono ancora dei v<strong>al</strong>i<strong>di</strong> meto<strong>di</strong><br />

1


pre<strong>di</strong>ttivi che, in base <strong>al</strong>la sequenza genomica, siano in grado <strong>di</strong> dare<br />

in<strong>di</strong>cazioni sulle con<strong>di</strong>zioni in cui un gene viene espresso.<br />

E’ quin<strong>di</strong> importante essere consapevoli dell’esistenza <strong>di</strong> un gene,<br />

ma è <strong>al</strong>trettanto importante capire il contesto in cui esso viene espresso.<br />

Gli aci<strong>di</strong> nucleici offrono un metodo <strong>di</strong> indagine <strong>di</strong>retta basato sulla<br />

specificità <strong>di</strong> ibridazione <strong>di</strong> due eliche complementari, che possono fungere<br />

da sonde per l’identificazione e la quantificazione <strong>di</strong> specifici mRNA. I<br />

microarray rappresentano l’applicazione più avanzata <strong>di</strong> queste tecnologie<br />

<strong>di</strong> ibridazione, essendo in grado <strong>di</strong> ospitare molte migliaia <strong>di</strong> sonde<br />

<strong>di</strong>verse, corrispondenti ad <strong>al</strong>trettanti geni.<br />

Le potenzi<strong>al</strong>ità dei microarray sono sfruttate sia per le scienze<br />

agricole che me<strong>di</strong>che, rimpiazzando i tra<strong>di</strong>zion<strong>al</strong>i saggi biologici basati su<br />

gel, filtri e colonnine <strong>di</strong> purificazione con piccoli chip <strong>di</strong> vetro contenenti<br />

decine <strong>di</strong> migliaia <strong>di</strong> sequenze <strong>di</strong> DNA. Questi <strong>di</strong>spositivi possono essere<br />

paragonati a microprocessori biologici poiché abilitano l’an<strong>al</strong>isi rapida e<br />

quantitativa <strong>di</strong> pattern <strong>di</strong> espressione genica, <strong>di</strong> genotipi, <strong>di</strong> cinetica del<br />

farmaco e <strong>di</strong> m<strong>al</strong>attie.<br />

Un tipico esperimento con i microarray si articola in cinque fasi:<br />

1. deposizione sui vetrini dei campioni <strong>di</strong> DNA che servono come<br />

sonde e che devono essere s<strong>al</strong>damente bloccati <strong>al</strong> supporto del<br />

microarray;<br />

2. preparazione dei campioni fluorescenti, tipicamente marcati<br />

con due tipi <strong>di</strong> cianine (Cy3 e Cy5), a partire dai due campioni<br />

<strong>di</strong> RNA che si vogliono confrontare;<br />

3. ibri<strong>di</strong>zzazione dei campioni fluorescenti sul microarray; le<br />

sequenze nel campione fluorescente marcato si ibri<strong>di</strong>zzano<br />

con le loro complementari sul chip consentendo <strong>di</strong> generare<br />

un segn<strong>al</strong>e <strong>di</strong> fluorescenza d’intensità proporzion<strong>al</strong>e <strong>al</strong><br />

numero <strong>di</strong> copie trascritte del gene;<br />

2


4. lettura dei v<strong>al</strong>ori <strong>di</strong> fluorescenza, effettuata con uno speci<strong>al</strong>e<br />

scanner a due can<strong>al</strong>i che genera due immagini in<strong>di</strong>pendenti<br />

relative ai due fluorocromi usati;<br />

5. an<strong>al</strong>isi statistica e gestione dei dati.<br />

Scopo della tesi<br />

Scopo della presente tesi è stato mettere a confronto in maniera<br />

critica <strong>di</strong>versi approcci statistici utilizzati per l’elaborazione dei dati <strong>di</strong><br />

esperimenti <strong>di</strong> microarray.<br />

Nel primo capitolo sono illustrati i principi biologici che sono <strong>al</strong>la<br />

base dei microarray e le tecnologie utilizzate.<br />

Il secondo capitolo riguarda il pre-trattamento dei dati ricavati a<br />

partire d<strong>al</strong> processo <strong>di</strong> quantizzazione dell’immagine fino <strong>al</strong>la fase <strong>di</strong><br />

3


norm<strong>al</strong>izzazione, fondament<strong>al</strong>e per l’eliminazione degli errori sistematici<br />

che, inevitabilmente, si abbattono sull’insieme delle osservazioni.<br />

Il terzo capitolo presenta <strong>al</strong>cuni criteri <strong>di</strong> an<strong>al</strong>isi che fanno uso <strong>di</strong> un<br />

v<strong>al</strong>ore <strong>di</strong> soglia per la selezione dei geni <strong>di</strong>fferenzi<strong>al</strong>mente espressi, ma che<br />

non possono essere rigorosamente definiti meto<strong>di</strong> statistici.<br />

Nel quarto capitolo viene an<strong>al</strong>izzato l’approccio empirico bayesiano<br />

<strong>di</strong> stima dei parametri come metodo <strong>di</strong> selezione e viene illustrato l’uso<br />

della statistica B nell’ambito <strong>di</strong> un modello gerarchico per i dati <strong>di</strong><br />

espressione genica.<br />

Il quinto capitolo è de<strong>di</strong>cato <strong>al</strong> metodo <strong>di</strong> an<strong>al</strong>isi della varianza dei<br />

dati o ANOVA: partendo d<strong>al</strong>l’identificazione delle sorgenti <strong>di</strong> variabilità<br />

speriment<strong>al</strong>i o intrinseche dei dati è possibile definire dei modelli che<br />

descrivono le osservazioni in modo da separare l’effetto del fattore che si<br />

vuole stu<strong>di</strong>are dagli effetti che, invece, si vogliono eliminare.<br />

Infine, il sesto capitolo mette a confronto le metodologie <strong>di</strong> selezione<br />

illustrate nei capitoli precedenti avv<strong>al</strong>endosi dei dati e dei risultati <strong>di</strong> uno<br />

stu<strong>di</strong>o pubblicato il cui scopo è stato quello <strong>di</strong> in<strong>di</strong>viduare i geni coinvolti<br />

nei processi <strong>di</strong> crescita e invecchiamento del nematode C. Elegans,<br />

facendo uso <strong>di</strong> microarray a cDNA. Nello stesso capitolo viene presenta<br />

una meto<strong>di</strong>ca incrociata per il trattamento statistico dei dati, in<strong>di</strong>viduata<br />

attraverso tre <strong>di</strong>verse sessioni <strong>di</strong> prova re<strong>al</strong>izzate sui dati a <strong>di</strong>sposizione.<br />

4


Capitolo 1<br />

Origini e tecnologia dei microarray<br />

Il primo lavoro sui microarray è stato pubblicato nel 1995 da Mark<br />

Schena e collaboratori (Schena et <strong>al</strong>., 1995) dell’università <strong>di</strong> Stanford.<br />

L’idea ebbe origine d<strong>al</strong>la necessità <strong>di</strong> stu<strong>di</strong>are l’espressione genica<br />

delle piante attraverso la caratterizzazione dei loro fattori <strong>di</strong> trascrizione: la<br />

<strong>di</strong>fficoltà dovuta <strong>al</strong>l’assenza <strong>di</strong> adeguati strumenti <strong>di</strong> an<strong>al</strong>isi fece avanzare<br />

la proposta <strong>di</strong> sviluppare degli appositi chip <strong>di</strong> vetro come <strong>di</strong>spositivi utili<br />

<strong>al</strong>lo stu<strong>di</strong>o dei trascritti.<br />

Il Davis Laboratory e il <strong>di</strong>partimento <strong>di</strong> biochimica <strong>di</strong> Stanford<br />

re<strong>al</strong>izzarono microscopici array (microarray) contenenti sequenze geniche<br />

<strong>di</strong> piante bloccate su un substrato <strong>di</strong> vetro; i microarray furono poi<br />

utilizzati per misurare l’espressione genica <strong>di</strong> t<strong>al</strong>i piante in esperimenti <strong>di</strong><br />

ibridazione con campioni <strong>di</strong> mRNA (RNA messaggero) marcati in<br />

fluorescenza. In con<strong>di</strong>zioni speriment<strong>al</strong>i appropriate, i segn<strong>al</strong>i fluorescenti<br />

sulla superficie del vetrino producono una misura dell’espressione <strong>di</strong> ogni<br />

gene rappresentato sul microarray: d<strong>al</strong>la quantificazione <strong>di</strong> t<strong>al</strong>e<br />

fluorescenza è possibile ris<strong>al</strong>ire <strong>al</strong> livello <strong>di</strong> espressione <strong>di</strong> ciascun gene.<br />

Il laboratorio <strong>di</strong> Stanford utilizzò tecniche fotolitografiche, ink jetting<br />

e contact printing per creare i microarray, mutuando tre approcci tradotti<br />

in re<strong>al</strong>tà solo negli ultimi ventanni in ambiente microelettronico per la<br />

costruzione <strong>di</strong> circuiti microlavorati (MEMS): si può, quin<strong>di</strong>, comprendere<br />

5


il motivo <strong>di</strong> un t<strong>al</strong>e <strong>di</strong>vario tempor<strong>al</strong>e fra la comprensione del para<strong>di</strong>gma<br />

biologico <strong>al</strong>la base dei microarray e la loro effettiva re<strong>al</strong>izzazione.<br />

6


Capitolo 1: Origini e tecnologia dei microarray<br />

1.1 La tecnologia <strong>al</strong>la base dei microarray a DNA<br />

La tecnologia dei microarray a DNA si basa sulla capacità <strong>di</strong><br />

ibri<strong>di</strong>zzazione degli aci<strong>di</strong> nucleici, secondo cui due filamenti <strong>di</strong> DNA<br />

ibri<strong>di</strong>zzano tra <strong>di</strong> loro se sono complementari l’uno <strong>al</strong>l’<strong>al</strong>tro. Questa<br />

complementarità riflette la regola <strong>di</strong> Watson e Crick secondo la qu<strong>al</strong>e<br />

l’adenina si lega <strong>al</strong>la timina e la citosina si lega <strong>al</strong>la guanina. Uno o<br />

entrambi i filamenti <strong>di</strong> DNA ibri<strong>di</strong>zzati possono essere sostituiti con RNA<br />

che, pur <strong>di</strong>fferendo per la presenza dell’uracile <strong>al</strong> posto della timina, va<br />

incontro ugu<strong>al</strong>mente <strong>al</strong> fenomeno dell’ibri<strong>di</strong>zzazione.<br />

L’ibri<strong>di</strong>zzazione è stata per decenni utilizzata in biologia molecolare<br />

come principio base <strong>di</strong> meto<strong>di</strong>che qu<strong>al</strong>i il Southern blotting e il Northern<br />

blotting; i microarray a DNA sono una massiccia par<strong>al</strong>lelizzazione <strong>di</strong><br />

queste tecniche poiché sono in grado <strong>di</strong> an<strong>al</strong>izzare migliaia <strong>di</strong> geni<br />

contemporaneamente.<br />

Figura 1.1: Ibridazione <strong>di</strong> DNA e RNA.<br />

7


Capitolo 1: Origini e tecnologia dei microarray<br />

Nel caso dei microarray invece <strong>di</strong> <strong>di</strong>stribuire le sonde<br />

oligonucleoti<strong>di</strong>che su un gel che contiene i campioni <strong>di</strong> RNA o DNA, esse<br />

vengono bloccate su una superficie <strong>di</strong> vetro. Sonde <strong>di</strong>verse possono essere<br />

posizionate <strong>al</strong>la <strong>di</strong>stanza <strong>di</strong> qu<strong>al</strong>che micron l’una d<strong>al</strong>l’<strong>al</strong>tra in modo da<br />

<strong>di</strong>sporne un numero molto elevato in pochi centimetri quadrati. Il<br />

campione in stu<strong>di</strong>o viene marcato con fluorocromi e lasciato ibri<strong>di</strong>zzare<br />

con le sonde presenti sul microarray. Dopo aver lavato l’eccesso <strong>di</strong><br />

materi<strong>al</strong>e non ibri<strong>di</strong>zzato, i fluorocromi legati <strong>al</strong> campione ibri<strong>di</strong>zzato<br />

vengono eccitati con un laser <strong>di</strong> opportuna lunghezza d’onda che<br />

scan<strong>di</strong>sce la superficie del chip. Poiché la posizione delle sonde è<br />

in<strong>di</strong>viduabile grazie ad uno schema a mappa cartesiana, è possibile<br />

quantificare l’ammontare <strong>di</strong> campione ibri<strong>di</strong>zzato a partire <strong>al</strong>l’immagine<br />

generata con lo scanner.<br />

La concentrazione <strong>di</strong> un particolare mRNA è il risultato<br />

dell’espressione del gene da cui esso viene trascritto; per questo motivo le<br />

applicazioni che fanno uso <strong>di</strong> microarray a cDNA vengono spesso<br />

denominate an<strong>al</strong>isi dell’espressione genica.<br />

Figura 1.2: Processo <strong>di</strong> sintesi delle proteine.<br />

8


Capitolo 1: Origini e tecnologia dei microarray<br />

Quando si vuole evidenziare la <strong>di</strong>fferente risposta <strong>di</strong> un gene <strong>al</strong>la<br />

sua esposizione a trattamenti <strong>di</strong>versi o osservare la sua espressione in<br />

momenti <strong>di</strong>versi si <strong>di</strong>ce che si sta generando un profilo <strong>di</strong> espressione.<br />

Un’<strong>al</strong>tra applicazione tipica dei microarray è la rilevazione <strong>di</strong><br />

polimorfismi in geni specifici: la peculiare struttura par<strong>al</strong>lela dei<br />

microarray consente <strong>di</strong> rilevare simultaneamente numerosi polimorfismi<br />

genetici in più geni, permettendo in questo modo <strong>di</strong> fare una<br />

genotipizzazione.<br />

Esistono <strong>di</strong>versi tipi <strong>di</strong> microarray, cat<strong>al</strong>ogati, a seconda del<br />

materi<strong>al</strong>e che viene utilizzato come sonde, in:<br />

Microarray a cDNA, con sonde <strong>di</strong> lunghezza maggiore <strong>di</strong> 200<br />

basi ottenute per retrotrascrizione da mRNA, frammentate,<br />

amplificate con PCR e depositate su un supporto <strong>di</strong> vetro o <strong>di</strong><br />

nylon;<br />

Microarray ad oligonucleoti<strong>di</strong>, con sonde <strong>di</strong> lunghezza fra 25 e<br />

80 basi ottenute da materi<strong>al</strong>e biologico o per via artifici<strong>al</strong>e e<br />

depositate su un supporto <strong>di</strong> vetro;<br />

Microarray ad oligonucleoti<strong>di</strong>, con sonde <strong>di</strong> lunghezza fra 25 e<br />

30 basi sintetizzate in situ con tecniche fotolitografiche su<br />

wafer <strong>di</strong> silicio.<br />

Per l’an<strong>al</strong>isi dell’espressione sono presenti sul mercato due<br />

tecnologie dominanti: Affymetrix, Inc. GeneChip e quella degli “spotted”<br />

array a cDNA.<br />

1.1.1 Tecnologia Affymetrix GeneChip<br />

Affymetrix utilizza attrezzature simili a quelle che servono a<br />

re<strong>al</strong>izzare i chip <strong>di</strong> silicio per i computer, che consentono <strong>di</strong> avere una<br />

produzione massiva <strong>di</strong> chip ad un costo ragionevole. Così come i chip per<br />

9


Capitolo 1: Origini e tecnologia dei microarray<br />

computer sono fatti utilizzando maschere che controllano il processo <strong>di</strong><br />

deposizione e rimozione del silicio d<strong>al</strong>la superficie del chip, an<strong>al</strong>ogamente<br />

Affymertix usa maschere <strong>di</strong> controllo della sintesi degli oligonucleoti<strong>di</strong> sul<br />

microarray. Il risultato <strong>di</strong> questo processo è la produzione <strong>di</strong> <strong>al</strong>cune<br />

centinaia <strong>di</strong> migliaia <strong>di</strong> oligonucleoti<strong>di</strong> <strong>di</strong>fferenti, ciascuno dei qu<strong>al</strong>i<br />

presente in milioni <strong>di</strong> copie sul vetrino.<br />

Figura 1.3: Microarray Affymetrix.<br />

Per l’an<strong>al</strong>isi <strong>di</strong> espressione sono utilizzati gruppi <strong>di</strong> sonde <strong>di</strong> <strong>al</strong>meno<br />

40 oligonucleoti<strong>di</strong><br />

per gene; Affymetrix ha selezionato, per ogni gene, una<br />

regione con la minor omologia con <strong>al</strong>tri geni. A partire da questa regione<br />

vengono <strong>di</strong>segnati da 11 a 20 oligonucleoti<strong>di</strong> rappresentativi del perfect<br />

match (PM), cioè della perfetta complementarità con l’mRNA bersaglio, e<br />

11-20 oligonucleoti<strong>di</strong> identici ai precedenti tranne che per il nucleotide<br />

centr<strong>al</strong>e, utili per rilevare il mismatch (MM), cioè la non perfetta<br />

complementarità.<br />

Affymetrix afferma<br />

che gli oligonucleoti<strong>di</strong> MM sono capaci <strong>di</strong> mettere<br />

in evidenza<br />

la presenza <strong>di</strong> segn<strong>al</strong>i aspecifici permettendo <strong>di</strong> rilevare con<br />

maggior sicurezza i segn<strong>al</strong>i deboli.<br />

10


Capitolo 1: Origini e tecnologia dei microarray<br />

L’ibri<strong>di</strong>zzazione <strong>di</strong> ogni oligonucleotide con il proprio complementare<br />

<strong>di</strong>pende d<strong>al</strong>la sequenza specifica; poiché si è interessati <strong>al</strong>la misura del<br />

cambiamento <strong>di</strong> espressione <strong>di</strong> un gene è necessario ottenere un dato<br />

cumulativo da tutte le sonde che identificano quel gene. Affymetrix c<strong>al</strong>cola<br />

questo dato cumulativo facendo una me<strong>di</strong>a della <strong>di</strong>fferenza fra sonde PM e<br />

MM dello stesso gene:<br />

AvgDiff<br />

=<br />

∑N<br />

( PM − MM )<br />

dove N è il numero <strong>di</strong> sequenze specifiche che identificano un gene. Se il<br />

numero che si ottiene da questo c<strong>al</strong>colo è negativo o molto piccolo significa<br />

che il cDNA bersaglio è assente o che si è verificata un’ibri<strong>di</strong>zzazione non<br />

specifica.<br />

Figura 1.4: Il principio della tecnologia Affymetrix<br />

N<br />

11


Capitolo 1: Origini e tecnologia dei microarray<br />

Tutti gli <strong>al</strong>goritmi che riguardano la rilevazione <strong>di</strong> ibri<strong>di</strong>zzazione sul chip,<br />

la generazione del dato cumulativo e la sua elaborazione sono protetti<br />

d<strong>al</strong>la tecnologia proprietaria Affymetrix che, per <strong>al</strong>tro, si riserva <strong>di</strong><br />

mo<strong>di</strong>ficarli senza renderli noti.<br />

Le fasi <strong>di</strong> un esperimento <strong>di</strong> an<strong>al</strong>isi dell’espressione genica che fa<br />

uso <strong>di</strong> chip Affymetrix sono:<br />

Estrazione dell’RNA tot<strong>al</strong>e d<strong>al</strong> campione;<br />

Separazione dell’mRNA d<strong>al</strong>l’RNA tot<strong>al</strong>e utilizzando colonnine<br />

con code <strong>di</strong> poly-T;<br />

Conversione dell’mRNA in cDNA utilizzando la trascrittasi<br />

inversa e i primer poly-T;<br />

Amplificazione del cDNA utilizzando T7 RNA polimerasi in<br />

presenza <strong>di</strong> biotina-UTP e biotina-CTP in modo da ottenere da<br />

50 a 100 copie <strong>di</strong> cDNA marcato;<br />

Incubazione del cDNA a 94°C in un buffer <strong>di</strong> frammentazione<br />

per produrre frammenti <strong>di</strong> lunghezza tra 35 e 200 nucleoti<strong>di</strong>;<br />

Ibri<strong>di</strong>zzazione sul chip e successivi lavaggi;<br />

Marcatura del cDNA ibri<strong>di</strong>zzato con Streptavin-Phycoerythrin<br />

e successivi lavaggi;<br />

Acquisizione dell’immagine del chip con scanner laser;<br />

An<strong>al</strong>isi dell’immagine per l’estrapolazione dei dati.<br />

1.1.2 “Spotted” array<br />

L’<strong>al</strong>tra tecnologia largamente utilizzata per produrre microarray è<br />

quella degli “spotted” array; in questo caso viene utilizzato un robot che<br />

preleva una piccola quantità <strong>di</strong> sonda in soluzione da una piastra da<br />

microtitolazione e la deposita sulla superficie del microarray. La sonda<br />

può essere cDNA, prodotto me<strong>di</strong>ante PCR od oligonucleoti<strong>di</strong>; ogni sonda è<br />

12


Capitolo 1: Origini e tecnologia dei microarray<br />

complementare ad un unico gene. Esistono <strong>di</strong>versi meto<strong>di</strong> per fissare le<br />

sonde <strong>al</strong>la superficie del vetrino; il più utilizzato consiste nel ricoprire il<br />

supporto con uno strato <strong>di</strong> poli-lisina che determina la formazione <strong>di</strong><br />

legami aspecifici con le sonde.<br />

Il processo <strong>di</strong> “spotting” <strong>di</strong> questi microarray può essere<br />

schematizzato come segue:<br />

Copertura del vetrino con poli-lisina;<br />

Preparazione delle sonde in una piastra da microtitolazione;<br />

Programmazione del robot per le operazioni <strong>di</strong> “spotting”<br />

me<strong>di</strong>ante pin e ugelli ink-jet;<br />

Deposizione delle sonde in blocchi or<strong>di</strong>nati seguendo la<br />

mappa programmata per stabilire la posizione e la<br />

concentrazione <strong>di</strong> ogni spot;<br />

Saturazione delle aree non stampate con anidride succinica<br />

per sfavorire legami aspecifici fra il cDNA bersaglio e il<br />

supporto;<br />

Denaturazione delle sonde ad <strong>al</strong>ta temperatura in modo che<br />

siano a singolo filamento.<br />

Una volta re<strong>al</strong>izzato il microarray si può procedere <strong>al</strong>la preparazione<br />

del campione e <strong>al</strong>la sua ibri<strong>di</strong>zzazione come segue:<br />

Estrazione dell’RNA tot<strong>al</strong>e d<strong>al</strong>le cellule;<br />

Isolamento (opzion<strong>al</strong>e) dell’mRNA grazie <strong>al</strong>la presenza delle<br />

code <strong>di</strong> poly-A;<br />

Retrotrascrizione dell’RNA in cDNA in presenza <strong>di</strong> amino-<strong>al</strong>lil-<br />

dUTP (AA-dUTP);<br />

Marcatura dei filamenti <strong>di</strong> cDNA con i fluorocromi Cy3 e Cy5,<br />

che si legano <strong>al</strong>l’AA-dUTP;<br />

Ibri<strong>di</strong>zzazione del cDNA marcato con le sequenze presenti sul<br />

vetrino;<br />

Asportazione me<strong>di</strong>ante lavaggi del materi<strong>al</strong>e non ibri<strong>di</strong>zzato;<br />

13


Capitolo 1: Origini e tecnologia dei microarray<br />

Acquisizione dell’immagine del vetrino con scanner laser;<br />

An<strong>al</strong>isi dell’immagine per l’estrapolazione dei dati.<br />

Figura 1.5: Processo <strong>di</strong> spotting dei microarray e ibridazione del campione.<br />

Rispetto <strong>al</strong>la tecnologia Affymetrix, negli “spotted” array l’irregolarità<br />

nell’operazione <strong>di</strong> deposizione delle sonde si può ripercuotere sulla<br />

corretta estrazione del dato. Inoltre, la presenza <strong>di</strong> sonde PM e MM sui<br />

vetrini Affymetrix, conferisce a questi microarray una maggiore affidabilità<br />

nella rilevazione <strong>di</strong> segn<strong>al</strong>i <strong>di</strong> ibri<strong>di</strong>zzazione aspecifica.<br />

Il vantaggio princip<strong>al</strong>e degli “spotted” array, invece, consiste nella<br />

possibilità che ogni laboratorio ha <strong>di</strong> <strong>di</strong>segnare le sonde da utilizzare nello<br />

“spotting” e nella maggiore flessibilità <strong>di</strong> questa tecnologia rispetto ad<br />

Affymetrix, i cui dati spesso non sono an<strong>al</strong>izzabili con gli innumerevoli<br />

software per l’elaborazione <strong>di</strong> dati <strong>di</strong>sponibili.<br />

14


Capitolo 1: Origini e tecnologia dei microarray<br />

1.2 Caratteristiche <strong>di</strong> un microarray<br />

Un microarray può essere definito come una matrice or<strong>di</strong>nata <strong>di</strong><br />

elementi microscopici su un substrato planare che consente il legame<br />

specifico <strong>di</strong> geni o <strong>di</strong> prodotti <strong>di</strong> geni. La parola microarray deriva d<strong>al</strong> greco<br />

mikro, che significa piccolo, e d<strong>al</strong> francese arayer, che significa arrangiare;<br />

i microarray, anche conosciuti come biochip, DNA chip e gene chip,<br />

contengono, infatti, collezioni <strong>di</strong> microscopici elementi, spot, <strong>di</strong>sposti in<br />

righe e colonne.<br />

Ogni riga <strong>di</strong> elementi deve essere <strong>di</strong>sposta sul substrato lungo una<br />

linea orizzont<strong>al</strong>e e ogni colonna deve formare una linea vertic<strong>al</strong>e<br />

perpen<strong>di</strong>colare <strong>al</strong>la riga. Gli elementi or<strong>di</strong>nati devono avere ugu<strong>al</strong>e<br />

<strong>di</strong>mensione, uniforme spaziatura e posizione unica sul substrato (ve<strong>di</strong><br />

figura 1.6).<br />

Figura 1.6: Microarray or<strong>di</strong>nato.<br />

15


Capitolo 1: Origini e tecnologia dei microarray<br />

Su un singolo substrato planare possono essere combinati <strong>di</strong>versi<br />

microarray e ciò è utile sia d<strong>al</strong> punto <strong>di</strong> vista dell’an<strong>al</strong>isi successiva, sia<br />

per i processi <strong>di</strong> re<strong>al</strong>izzazione in par<strong>al</strong>lelo <strong>di</strong> t<strong>al</strong>i <strong>di</strong>spositivi.<br />

L’or<strong>di</strong>namento in righe e colonne degli elementi è un grande<br />

vantaggio per l’an<strong>al</strong>isi dei microarray, poiché questo tipo <strong>di</strong> <strong>di</strong>sposizione<br />

consente una rapida deposizione, in<strong>di</strong>viduazione e quantificazione degli<br />

spot.<br />

La <strong>di</strong>sposizione degli spot in righe e colonne può essere ottenuta<br />

utilizzando tecnologie standard <strong>di</strong> motion control, come attuatori lineari ed<br />

encoder, e ciò permette un abbattimento dei costi <strong>di</strong> produzione, in quanto<br />

i microarray possono essere stampati in mod<strong>al</strong>ità rapida e completamente<br />

automatizzata, con una velocità e una precisione che non sarebbero<br />

possibili con formati irregolari.<br />

La regolarità della <strong>di</strong>sposizione degli spot, inoltre, favorisce il<br />

processo <strong>di</strong> quantificazione, poiché i software <strong>di</strong> elaborazione fanno uso <strong>di</strong><br />

griglie or<strong>di</strong>nate per l’estrazione del dato numerico e <strong>di</strong> una “mappa<br />

cartesiana” per assegnare <strong>al</strong>lo spot l’identificativo del gene che<br />

rappresenta.<br />

Figura 1.7: Printer-head <strong>di</strong> un robot per spotting <strong>di</strong> microarray e camera <strong>di</strong><br />

printing.<br />

16


Capitolo 1: Origini e tecnologia dei microarray<br />

Un tipico spot contiene approssimativamente 10 9 molecole bloccate<br />

sul substrato <strong>di</strong> vetro. Queste molecole sonda possono essere DNA<br />

genomico, cDNA, mRNA, proteine, tessuti o <strong>al</strong>tri tipi <strong>di</strong> molecole che<br />

necessitano <strong>di</strong> un’an<strong>al</strong>isi quantitativa. Oligonucleoti<strong>di</strong> sintetici, cioè<br />

piccole molecole <strong>di</strong> DNA a singolo filamento sintetizzate chimicamente<br />

possono costituire un tipo eccellente <strong>di</strong> sonda.<br />

I vantaggi <strong>di</strong> avere elementi microscopici sono:<br />

<strong>al</strong>ta densità degli spot (> 5000 elementi/cm 2 );<br />

rapida cinetica <strong>di</strong> reazione;<br />

possibilità <strong>di</strong> an<strong>al</strong>izzare interi genomi su un singolo vetrino.<br />

Gli esperimenti che esaminano tutti i geni <strong>di</strong> un genoma su un<br />

singolo substrato procurano una visione glob<strong>al</strong>e del fenomeno biologico,<br />

impossibile da ottenere con tecnologie limitate a sottoinsiemi <strong>di</strong> geni.<br />

Per substrato si intende un supporto par<strong>al</strong>lelo e piatto sul qu<strong>al</strong>e<br />

viene configurato un microarray. Uno dei materi<strong>al</strong>i più utilizzati è il vetro<br />

per la sua capacità ide<strong>al</strong>e <strong>di</strong> consentire il legame con le molecole sonda,<br />

ma possono essere utilizzati anche materi<strong>al</strong>i plastici, silicio, filtri <strong>di</strong> nylon<br />

e nitrocellulosa.<br />

Per essere utilizzato per la costruzione <strong>di</strong> un microarray il substrato<br />

deve essere planare: tutti i materi<strong>al</strong>i planari sono soli<strong>di</strong>, ma non tutti<br />

quelli soli<strong>di</strong> sono planari.<br />

Il vantaggio <strong>di</strong> avere un substrato piatto su tutta la superficie si<br />

ripercuote sull’automatizzazione della procedura <strong>di</strong> stampa me<strong>di</strong>ante pin e<br />

ugelli ink-jet o sulla precisione delle fotomaschere per la fotolitografia. I<br />

materi<strong>al</strong>i planari consentono anche un accurato “scanning” del<br />

microarray, grazie <strong>al</strong>la precisa in<strong>di</strong>viduazione della <strong>di</strong>stanza fra gli<br />

elementi ottici dello scanner e la superficie del microarray (<strong>di</strong>stanza del<br />

fuoco ottico).<br />

17


Capitolo 1: Origini e tecnologia dei microarray<br />

I materi<strong>al</strong>i planari, inoltre, tendono ad essere impermeabili ai<br />

liqui<strong>di</strong>, consentono <strong>di</strong> re<strong>al</strong>izzare piccoli spot e <strong>di</strong> minimizzare il volume <strong>di</strong><br />

reazione durante l’ibri<strong>di</strong>zzazione.<br />

1.3 Applicazioni dei microarray<br />

I microarray si stanno rivelando degli strumenti efficaci in <strong>di</strong>fferenti<br />

campi <strong>di</strong> indagine. I primi esperimenti hanno fatto uso <strong>di</strong> questi supporti<br />

per verificare ipotesi formulate in stu<strong>di</strong> precedenti.<br />

Ultimamente la tendenza si è invertita e i microarray vengono<br />

utilizzati come <strong>di</strong>spositivi <strong>di</strong> indagine primaria, capaci <strong>di</strong> fornire risposte<br />

robuste, ma anche <strong>di</strong> porre nuovi quesiti <strong>al</strong> ricercatore.<br />

Da questo punto <strong>di</strong> vista il grosso vantaggio dei microarray, oltre<br />

<strong>al</strong>l’estesa potenza <strong>di</strong> c<strong>al</strong>colo par<strong>al</strong>lelo, sta nella possibilità <strong>di</strong> poter<br />

coinvolgere nella reazione <strong>di</strong> ibri<strong>di</strong>zzazione molti geni sullo stesso<br />

supporto. Questo dà un contributo <strong>al</strong>la possibilità <strong>di</strong> ricreare pathway <strong>di</strong><br />

co-regolazione e <strong>di</strong> an<strong>al</strong>izzare le inter-relazioni tra geni <strong>di</strong>versi.<br />

microarray.<br />

Di seguito sono descritti <strong>al</strong>cuni esempi dei settori <strong>di</strong> applicazione dei<br />

1.3.1 Tassonomia <strong>di</strong> tessuti<br />

Cellule appartenenti <strong>al</strong>lo stesso organismo possiedono lo stesso<br />

genoma anche se <strong>di</strong>fferiscono per forma e funzione. La <strong>di</strong>fferenziazione <strong>di</strong><br />

ogni cellula in un tipo o in un <strong>al</strong>tro si re<strong>al</strong>izza grazie ad una<br />

18


Capitolo 1: Origini e tecnologia dei microarray<br />

programmazione genetica ben definita che mo<strong>di</strong>fica nel corso dello<br />

sviluppo l’insieme dei geni espressi.<br />

Esaminando il pattern <strong>di</strong> espressione genica su sc<strong>al</strong>a genomica con i<br />

microarray è possibile cat<strong>al</strong>ogare i <strong>di</strong>fferenti tessuti in modo da costituire<br />

un database <strong>di</strong> espressione. Uno degli scopi degli stu<strong>di</strong> <strong>di</strong> questo tipo è la<br />

comprensione dei meccanismi che stanno <strong>al</strong>la base dello sviluppo e della<br />

<strong>di</strong>fferenziazione cellulare, che, una volta <strong>al</strong>terati, possono determinare<br />

l’insorgenza <strong>di</strong> m<strong>al</strong>attie.<br />

1.3.2 Identificazione delle basi molecolari delle m<strong>al</strong>attie<br />

Conoscere le basi molecolari <strong>di</strong> una m<strong>al</strong>attia può aiutare a<br />

comprenderne la trasmissione genetica, la mod<strong>al</strong>ità d’insorgenza e la<br />

prognosi <strong>al</strong> fine <strong>di</strong> poter fare una <strong>di</strong>agnosi precoce o <strong>di</strong> agire con terapie<br />

mirate. Il confronto dell’espressione genica tra tessuti sani e m<strong>al</strong>ati<br />

me<strong>di</strong>ante microarray può essere un v<strong>al</strong>ido strumento per l’identificazione<br />

<strong>di</strong> quei geni che sono coinvolti nello sviluppo <strong>di</strong> una patologia, o come geni<br />

causativi o semplicemente come fattori <strong>di</strong> rischio pre<strong>di</strong>sponenti.<br />

Diversi gruppi <strong>di</strong> ricerca stanno facendo uso dei microarray per<br />

creare una carta d’identità dettagliata dei vari tipi <strong>di</strong> tumore <strong>al</strong> fine <strong>di</strong><br />

costituire una vasta raccolta <strong>di</strong> profili <strong>di</strong> espressione genica da utilizzare a<br />

fini <strong>di</strong>agnostici.<br />

Si possono ricordare in questo ambito lo stu<strong>di</strong>o <strong>di</strong> Ross (Ross et <strong>al</strong>.,<br />

2000) su sessanta linee cellulari <strong>di</strong>fferenti <strong>di</strong> cancro, denominato NCI60, o<br />

gli stu<strong>di</strong> estensivi sui linfomi a cellule B giganti <strong>di</strong> Alizadeh (Alizade et <strong>al</strong>.<br />

2000), entrambi dell’Università <strong>di</strong> Stanford.<br />

Riuscire ad effettuare una classificazione così dettagliata si riflette<br />

sulla possibilità <strong>di</strong> riconoscere la m<strong>al</strong>attia fin dai primi sta<strong>di</strong> <strong>di</strong> sviluppo,<br />

in modo da poter programmare terapie più mirate.<br />

19


Capitolo 1: Origini e tecnologia dei microarray<br />

1.3.3 An<strong>al</strong>isi del meccanismo <strong>di</strong> azione dei farmaci<br />

I farmaci funzionano legandosi a specifiche molecole bersaglio e il<br />

risultato <strong>di</strong> questa interazione può essere l’<strong>al</strong>terazione dell’espressione <strong>di</strong><br />

geni. E’ possibile utilizzare i microarray per in<strong>di</strong>viduare quei geni la cui<br />

espressione viene mo<strong>di</strong>ficata d<strong>al</strong>l’impiego <strong>di</strong> farmaci, sia in stu<strong>di</strong> in vitro su<br />

linee cellulari trattate a confronto con le stesse cellule non trattate, sia in<br />

tri<strong>al</strong> clinici in cui si generano profili <strong>di</strong> espressione in pazienti sottoposti a<br />

trattamento farmacologico. Il profilo <strong>di</strong> espressione in seguito a<br />

trattamento farmacologico può essere utile anche per identificare<br />

l’<strong>al</strong>terazione nell’espressione <strong>di</strong> geni che provocano effetti collater<strong>al</strong>i.<br />

Un approccio <strong>di</strong> questo tipo può ridurre i costi <strong>di</strong> sviluppo dei<br />

farmaci e produrre me<strong>di</strong>cine più efficaci e con meno effetti collater<strong>al</strong>i.<br />

Un’<strong>al</strong>tra applicazione dei microarray in questo ambito è la<br />

genotipizzazione dei pazienti, in modo da sud<strong>di</strong>videre la popolazione in<br />

soggetti farmaco-sensibili e farmaco-resistenti <strong>al</strong>lo scopo <strong>di</strong> definire una<br />

terapia più mirata.<br />

20


Capitolo 2<br />

I primi passi del trattamento del dato e<br />

le princip<strong>al</strong>i tecniche <strong>di</strong> norm<strong>al</strong>izzazione<br />

La facilità nel quantificare i dati provenienti da un microarray è fra<br />

le princip<strong>al</strong>i caratteristiche degli esperimenti che fanno uso <strong>di</strong> questi<br />

supporti e la rapi<strong>di</strong>tà con la qu<strong>al</strong>e questo processo viene eseguito consente<br />

<strong>di</strong> rendere minimo il tempo che intercorre fra la re<strong>al</strong>izzazione<br />

dell’esperimento e l’ottenimento della risposta che si sta cercando.<br />

An<strong>al</strong>isi<br />

tra<strong>di</strong>zion<strong>al</strong>e<br />

Esperimento<br />

Dati<br />

An<strong>al</strong>isi con<br />

microarray<br />

Dati<br />

Esperimento<br />

Tuttavia queste caratteristiche non devono portare <strong>al</strong>la conclusione<br />

che le meto<strong>di</strong>che <strong>di</strong> estrazione e <strong>di</strong> trattamento del dato siano impostate<br />

21


Capitolo 2: I primi passi del trattamento dei dati e le princip<strong>al</strong>i tecniche <strong>di</strong> norm<strong>al</strong>izzazione<br />

su basi matematiche semplici; in re<strong>al</strong>tà, la teoria che è <strong>al</strong>la base della<br />

quantizzazione dei segn<strong>al</strong>i acquisiti, del c<strong>al</strong>colo del rapporto delle loro<br />

intensità, della norm<strong>al</strong>izzazione del dato e dell’estrazione del risultato è<br />

estremamente sofisticata e pone pesanti problemi soprattutto d<strong>al</strong> punto <strong>di</strong><br />

vista dell’an<strong>al</strong>isi statistica <strong>di</strong> dati generati con esperimenti simultanei su<br />

migliaia <strong>di</strong> geni.<br />

Prima ancora <strong>di</strong> occuparsi <strong>di</strong> an<strong>al</strong>isi statistica, è necessario<br />

comprendere qu<strong>al</strong>i siano i passi che portano ad ottenere un dato “ripulito”<br />

dagli errori generati d<strong>al</strong>lo stesso esperimento e d<strong>al</strong> processo <strong>di</strong> estrazione.<br />

La mancata eliminazione <strong>di</strong> questi errori può rendere inconsistente<br />

l’an<strong>al</strong>isi ed inv<strong>al</strong>idare l’intero esperimento.<br />

22


Capitolo 2: I primi passi del trattamento dei dati e le princip<strong>al</strong>i tecniche <strong>di</strong> norm<strong>al</strong>izzazione<br />

2.1 Diagramma del trattamento dei dati<br />

L’utilizzo sempre più <strong>di</strong>ffuso dei microarray ha portato <strong>al</strong>la<br />

formulazione <strong>di</strong> un vero e proprio <strong>di</strong>agramma <strong>di</strong> flusso univers<strong>al</strong>mente<br />

riconosciuto da chi lavora in questo settore, i cui passi consentono<br />

operativamente <strong>di</strong> eliminare gli errori sistematici e <strong>di</strong> preparare il dato per<br />

l’an<strong>al</strong>isi conclusiva. Un esempio estensivo <strong>di</strong> t<strong>al</strong>e <strong>di</strong>agramma è riportato in<br />

figura 2.1.<br />

Stima dei<br />

parametri<br />

Obiettivo dell’esperimento<br />

Esperimento con microarray<br />

Test delle<br />

ipotesi<br />

Disegno speriment<strong>al</strong>e<br />

An<strong>al</strong>isi dell’immagine<br />

Norm<strong>al</strong>izzazione<br />

Verifica biologica ed<br />

interpretazione del risultato<br />

Immagine 16-bit<br />

formatoTIFF<br />

Clustering Discriminazione<br />

Figura 2.1: Diagramma <strong>di</strong> flusso operativo in un esperimento <strong>di</strong> microarray.<br />

23


Capitolo 2: I primi passi del trattamento dei dati e le princip<strong>al</strong>i tecniche <strong>di</strong> norm<strong>al</strong>izzazione<br />

2.2 Il processo <strong>di</strong> quantizzazione del dato<br />

Gli scanner per microarray acquisiscono i dati <strong>di</strong> intensità <strong>di</strong><br />

fluorescenza sottoforma <strong>di</strong> immagini in formato TIFF; l’immagine TIFF è<br />

una mappa d’intensità in due <strong>di</strong>mensioni della superficie del microarray e<br />

i segn<strong>al</strong>i <strong>di</strong> fluorescenza sono immagazzinati nei suoi pixel. Ogni spot del<br />

microarray, che spesso in<strong>di</strong>vidua un unico gene, è formato da <strong>di</strong>versi pixel<br />

ognuno dei qu<strong>al</strong>i contiene un’informazione quantitativa sullo spot.<br />

Laser Fotomoltiplicatore conversione<br />

Fluorocromo Fotoni Elettro Segn<strong>al</strong>e<br />

eccitazione amplificazione Filtraggio<br />

Figura 2.2: Catena <strong>di</strong> generazione del segn<strong>al</strong>e per eccitazione del fluorocromo con scanner<br />

laser.<br />

L’an<strong>al</strong>isi dell’immagine <strong>di</strong> un microarray può essere sud<strong>di</strong>visa in<br />

quattro fasi:<br />

• posizionamento della griglia (grid<strong>di</strong>ng) dell’immagine;<br />

• segmentazione;<br />

• estrazione delle intensità o quantizzazione;<br />

• correzione del background.<br />

24


Capitolo 2: I primi passi del trattamento dei dati e le princip<strong>al</strong>i tecniche <strong>di</strong> norm<strong>al</strong>izzazione<br />

2.2.1 “Grid<strong>di</strong>ng” dell’immagine<br />

Dopo aver portato a termine il protocollo <strong>di</strong> ibri<strong>di</strong>zzazione dei<br />

campioni sul microarray e aver acquisito l’immagine con lo scanner laser è<br />

necessario identificare la posizione <strong>di</strong> ogni spot sul supporto. Ciò avviene<br />

grazie <strong>al</strong>l’<strong>al</strong>lineamento sull’immagine <strong>di</strong> una griglia che viene gener<strong>al</strong>mente<br />

fornita d<strong>al</strong> costruttore del microarray. Ogni cerchietto <strong>di</strong> questa griglia<br />

identifica l’ide<strong>al</strong>e posizione dello spot, secondo quelle che sono le<br />

specifiche costruttive del microarray, e fornisce <strong>al</strong>l’an<strong>al</strong>ista <strong>di</strong>verse<br />

informazioni sullo spot in esame grazie ad un file <strong>al</strong>legato che contiene, fra<br />

tante <strong>al</strong>tre informazioni, anche il nome del gene corrispondente ad ogni<br />

spot e i suoi co<strong>di</strong>ci d’identificazione nelle banche dati genomiche.<br />

Il corretto posizionamento della griglia permette <strong>di</strong> ricavare un dato<br />

consistente sugli spot; per questo motivo, spesse volte è necessario<br />

controllare l’<strong>al</strong>lineamento spot a spot e intervenire manu<strong>al</strong>mente su quegli<br />

spot che non vengono esattamente centrati o delimitati d<strong>al</strong>la griglia.<br />

E’ fondament<strong>al</strong>e, come è facile intuire, che il processo <strong>di</strong> deposizione<br />

delle sonde sul supporto avvenga secondo un ben preciso schema <strong>di</strong> righe<br />

e colonne, in modo da agevolare l’identificazione degli spot.<br />

2.2.2 Segmentazione<br />

Una volta che gli spot sono stati identificati, è necessario separare il<br />

contributo del segn<strong>al</strong>e da quello del background; per questo motivo deve<br />

essere riconosciuta la forma <strong>di</strong> ogni spot attraverso una “spot mask”.<br />

25


Capitolo 2: I primi passi del trattamento dei dati e le princip<strong>al</strong>i tecniche <strong>di</strong> norm<strong>al</strong>izzazione<br />

Background<br />

Segn<strong>al</strong>e<br />

Figura 2.3: Separazione del background d<strong>al</strong> segn<strong>al</strong>e attraverso una “spot mask”.<br />

Gener<strong>al</strong>mente si assume che gli spot abbiano forma circolare <strong>di</strong><br />

<strong>di</strong>ametro costante; coerentemente con questa ipotesi si identifica come<br />

segn<strong>al</strong>e tutto ciò che cade <strong>al</strong>l’interno del cerchio e come background tutto<br />

quello che è <strong>al</strong>l’esterno, operando una segmentazione spazi<strong>al</strong>e.<br />

Figura 2.4: Segmentazione spazi<strong>al</strong>e dello spot con griglia <strong>di</strong> forma prefissata.<br />

Questa semplice assunzione viene raramente rispecchiata dagli spot<br />

sul vetrino e ciò è riconducibile solitamente ad errori nella fase <strong>di</strong><br />

deposizione delle sonde. Per questo motivo molti software <strong>di</strong> an<strong>al</strong>isi<br />

dell’immagine includono la possibilità <strong>di</strong> fare una segmentazione per<br />

intensità dei pixel: in questo proce<strong>di</strong>mento si sfruttano i v<strong>al</strong>ori <strong>di</strong> intensità<br />

dei pixel per delimitare l’area da attribuire <strong>al</strong> segn<strong>al</strong>e, utilizzando <strong>al</strong>goritmi<br />

<strong>di</strong> “Seeded Region Growing” (SRG) comuni a molti software <strong>di</strong><br />

manipolazione <strong>di</strong> immagini.<br />

26


Capitolo 2: I primi passi del trattamento dei dati e le princip<strong>al</strong>i tecniche <strong>di</strong> norm<strong>al</strong>izzazione<br />

Figura 2.5: Segmentazione per intensità con <strong>al</strong>goritmo SRG.<br />

2.2.3 Estrazione delle intensità <strong>di</strong> segn<strong>al</strong>e e <strong>di</strong> background<br />

Il processo che consente <strong>di</strong> passare d<strong>al</strong>l’insieme delle informazioni<br />

relative ad uno spot <strong>al</strong> suo v<strong>al</strong>ore numerico, rappresentativo della<br />

concentrazione <strong>di</strong> mRNA <strong>di</strong> quel gene nel campione, prende il nome <strong>di</strong><br />

quantizzazione o quantificazione.<br />

La quantizzazione assoluta porta ad ottenere un dato cumulativo<br />

dell’intensità dello spot su un can<strong>al</strong>e (ad esempio il rosso) senza metterlo<br />

in relazione con quello ottenuto sull’<strong>al</strong>tro can<strong>al</strong>e (il verde); la<br />

quantizzazione relativa, invece, ricava il rapporto delle intensità assolute<br />

sui due can<strong>al</strong>i, detto fold change, e serve ad avere informazioni sul livello<br />

<strong>di</strong> espressione in un can<strong>al</strong>e rispetto <strong>al</strong>l’<strong>al</strong>tro.<br />

I v<strong>al</strong>ori <strong>di</strong> segn<strong>al</strong>e e <strong>di</strong> background possono essere c<strong>al</strong>colati in <strong>di</strong>versi<br />

mo<strong>di</strong>, fra i qu<strong>al</strong>i il c<strong>al</strong>colo della me<strong>di</strong>a e della me<strong>di</strong>ana sono fra i più<br />

comuni.<br />

Il c<strong>al</strong>colo della me<strong>di</strong>a del segn<strong>al</strong>e o “average intensity sign<strong>al</strong>”<br />

consiste nel rapporto fra la somma delle intensità dei pixel identificati<br />

come segn<strong>al</strong>e e il numero tot<strong>al</strong>e dei pixel che appartengono <strong>al</strong>la regione <strong>di</strong><br />

demarcazione dello spot. Un c<strong>al</strong>colo an<strong>al</strong>ogo può essere fatto per la me<strong>di</strong>a<br />

del background prendendo in considerazione solo i pixel identificati come<br />

rumore <strong>di</strong> fondo d<strong>al</strong>la segmentazione.<br />

Per c<strong>al</strong>colare la me<strong>di</strong>ana, invece, si or<strong>di</strong>nano per v<strong>al</strong>ore ascendente o<br />

<strong>di</strong>scendente tutti i v<strong>al</strong>ori <strong>di</strong> intensità dei pixel della zona <strong>di</strong> demarcazione e<br />

si prende l’intensità del pixel che si posiziona a metà dell’or<strong>di</strong>namento<br />

27


Capitolo 2: I primi passi del trattamento dei dati e le princip<strong>al</strong>i tecniche <strong>di</strong> norm<strong>al</strong>izzazione<br />

come rappresentativa dell’intera zona. Il v<strong>al</strong>ore <strong>di</strong> me<strong>di</strong>ana <strong>di</strong> uno spot è<br />

gener<strong>al</strong>mente più robusto <strong>di</strong> quello <strong>di</strong> me<strong>di</strong>a e ciò è dovuto <strong>al</strong> fatto che il<br />

suo proce<strong>di</strong>mento <strong>di</strong> c<strong>al</strong>colo scarta in maniera automatica quei pixel che<br />

vengono definiti contaminanti, cioè quelli che non sarebbero dovuti<br />

entrare a far parte della zona <strong>di</strong> demarcazione che si sta considerando.<br />

Nel c<strong>al</strong>colo della me<strong>di</strong>a viene assegnato uno stesso peso sia a pixel<br />

buoni che a pixel che dovrebbero essere scartati attraverso la<br />

segmentazione; per questo motivo la me<strong>di</strong>a dei pixel si configura come un<br />

parametro poco affidabile per stabilire il v<strong>al</strong>ore <strong>di</strong> intensità rappresentativo<br />

dello spot. Una verifica sulla eventu<strong>al</strong>e <strong>di</strong>screpanza fra i v<strong>al</strong>ori <strong>di</strong> me<strong>di</strong>a e<br />

<strong>di</strong> me<strong>di</strong>ana è un buon metodo per stabilire se la fase <strong>di</strong> segmentazione è<br />

stata condotta correttamente o per v<strong>al</strong>utare i limiti del programma che si<br />

sta utilizzando.<br />

D<strong>al</strong> punto <strong>di</strong> vista del formato del dato, ogni can<strong>al</strong>e viene<br />

gener<strong>al</strong>mente acquisito in immagini a 16 bit, cioè è possibile <strong>di</strong>scriminare<br />

65535 livelli d’intensità <strong>di</strong> segn<strong>al</strong>e. Come regola gener<strong>al</strong>e i segn<strong>al</strong>i che<br />

arrivano a livello 50000 vengono considerati come limite superiore per una<br />

rilevazione del dato affidabile; <strong>al</strong> <strong>di</strong> sopra <strong>di</strong> questo livello il segn<strong>al</strong>e inizia<br />

ad andare in saturazione e perciò può essere meno atten<strong>di</strong>bile.<br />

In re<strong>al</strong>tà sarebbe consigliabile mandare in saturazione il minor<br />

numero <strong>di</strong> spot e ciò può essere fatto modulando opportunamente il<br />

guadagno del tubo fotomoltiplicatore dello scanner in fase <strong>di</strong> acquisizione<br />

dell’immagine. E’ anche vero che mantenere un basso guadagno non<br />

permette <strong>di</strong> sfruttare a pieno la <strong>di</strong>namica dei fluorocromi e impe<strong>di</strong>sce la<br />

rilevazione <strong>di</strong> segn<strong>al</strong>i deboli che spesso corrispondono a trascritti rari<br />

<strong>di</strong>fficilmente identificabili.<br />

motivi.<br />

2.2.4 Correzione del background<br />

La presenza <strong>di</strong> un segn<strong>al</strong>e <strong>di</strong> fondo sul microarray è dovuta a <strong>di</strong>versi<br />

28


Capitolo 2: I primi passi del trattamento dei dati e le princip<strong>al</strong>i tecniche <strong>di</strong> norm<strong>al</strong>izzazione<br />

Può accadere, per esempio, che parte della soluzione contenente le<br />

sonde da depositare sul vetrino abbia contaminato aree esterne <strong>al</strong>lo spot<br />

consentendo, in questo modo, l’ibri<strong>di</strong>zzazione del campione marcato anche<br />

dove non dovrebbe avvenire<br />

a)<br />

Background <strong>al</strong>to<br />

Segn<strong>al</strong>e debole<br />

c) d)<br />

Figura 2.6: a):Microarray con background <strong>al</strong>to dovuto ad ibri<strong>di</strong>zzazione fuori d<strong>al</strong>lo<br />

spot.<br />

b) Microarray con “comete” dovute a spotting non preciso.<br />

c) Microarray con depositi irregolari <strong>di</strong> soluzione buffer <strong>di</strong> spotting.<br />

d) Microarray con spot sovrapposti e <strong>di</strong> <strong>di</strong>ametro irregolare.<br />

b)<br />

29


Capitolo 2: I primi passi del trattamento dei dati e le princip<strong>al</strong>i tecniche <strong>di</strong> norm<strong>al</strong>izzazione<br />

Un esempio tipico è la rilevazione, in fase <strong>di</strong> scansione del<br />

microarray, delle cosiddette “comete”, che possono essere osservate in<br />

figura 2.6 a e b. Nella stessa figura si osservano <strong>al</strong>tri esempi <strong>di</strong> problemi<br />

riconducibili <strong>al</strong>la fase <strong>di</strong> “spotting”.<br />

Un <strong>al</strong>tro fattore che contribuisce <strong>al</strong>la generazione <strong>di</strong> rumore è<br />

l’instaurarsi <strong>di</strong> legami aspecifici fra il supporto del microarray e il<br />

campione ibri<strong>di</strong>zzato: in questo caso può essere utile sottoporre il vetrino<br />

ad un proce<strong>di</strong>mento che prende il nome <strong>di</strong> pre-ibri<strong>di</strong>zzazione, <strong>al</strong>lo scopo <strong>di</strong><br />

saturare questi legami e non renderli <strong>di</strong>sponibili in fase <strong>di</strong> ibri<strong>di</strong>zzazione<br />

del campione marcato.<br />

Può ancora succedere che i reagenti utilizzati nella soluzione <strong>di</strong><br />

“spotting” abbiano fluorescenza propria oppure siano riflettenti: anche in<br />

questo caso è possibile scambiare per segn<strong>al</strong>e ciò che in re<strong>al</strong>tà è<br />

esclusivamente background.<br />

Questi v<strong>al</strong>ori possono essere esclusi d<strong>al</strong>l’insieme <strong>di</strong> dati che vengono<br />

in prima istanza considerati come segn<strong>al</strong>e attraverso la correzione o<br />

sottrazione del background.<br />

Nella sottrazione loc<strong>al</strong>e del background viene identificato un intorno<br />

sufficientemente ampio centrato sullo spot e viene considerata la me<strong>di</strong>a o<br />

la me<strong>di</strong>ana del pixel esterni <strong>al</strong>lo spot ma interni <strong>al</strong>la zona <strong>di</strong> demarcazione<br />

come v<strong>al</strong>ore loc<strong>al</strong>e del rumore; questo v<strong>al</strong>ore viene poi sottratto <strong>al</strong>la me<strong>di</strong>a<br />

o me<strong>di</strong>ana dello spot can<strong>al</strong>e a can<strong>al</strong>e.<br />

Figura 2.7: Intorno dello spot per il c<strong>al</strong>colo del background in <strong>di</strong>versi software <strong>di</strong><br />

an<strong>al</strong>isi.<br />

30


Capitolo 2: I primi passi del trattamento dei dati e le princip<strong>al</strong>i tecniche <strong>di</strong> norm<strong>al</strong>izzazione<br />

Con questa operazione è possibile gestire la variabilità loc<strong>al</strong>e del<br />

rumore, tuttavia non è un proce<strong>di</strong>mento privo <strong>di</strong> rischi; si pensi, per<br />

esempio, a spot con segn<strong>al</strong>e debole: in questo caso la sottrazione <strong>di</strong> un<br />

livello loc<strong>al</strong>e <strong>di</strong> background che per qu<strong>al</strong>che motivo risulti particolarmente<br />

<strong>al</strong>to porterebbe <strong>al</strong>l’esclusione dello spot d<strong>al</strong>l’insieme <strong>di</strong> quelli considerati<br />

accettabili. Inoltre è poco agevole fare un c<strong>al</strong>colo del genere quando il<br />

microarray è particolarmente denso, per evidenti <strong>di</strong>fficoltà che si creano<br />

nell’identificare la zona sulla qu<strong>al</strong>e impostare il v<strong>al</strong>ore <strong>di</strong> correzione.<br />

Per ovviare a questi inconvenienti l’<strong>al</strong>ternativa possibile è c<strong>al</strong>colare il<br />

v<strong>al</strong>ore <strong>di</strong> background su sotto-griglie del microarray; in questo modo si<br />

conduce il c<strong>al</strong>colo su un ambito meno loc<strong>al</strong>e e si può riuscire a ricavare<br />

una stima del rumore anche su array particolarmente densi <strong>di</strong> spot.<br />

Figura 2.8: Sotto-griglia dell’array sulla qu<strong>al</strong>e c<strong>al</strong>colare il background.<br />

Una via <strong>di</strong> mezzo fra i due proce<strong>di</strong>menti appena illustrati fa uso <strong>di</strong><br />

un’area centrata sullo spot <strong>di</strong> <strong>di</strong>ametro t<strong>al</strong>e da includere un gruppo <strong>di</strong><br />

spot. Lo scopo <strong>di</strong> questo proce<strong>di</strong>mento è quello <strong>di</strong> mantenere il computo<br />

del background su un ambito abbastanza loc<strong>al</strong>e ma non troppo ristretto in<br />

modo da poter catturare anche la sua variabilità; grazie <strong>al</strong>l’ampliamento<br />

dell’intorno è possibile applicare questo metodo anche su array densi.<br />

31


Capitolo 2: I primi passi del trattamento dei dati e le princip<strong>al</strong>i tecniche <strong>di</strong> norm<strong>al</strong>izzazione<br />

Figura 2.9: C<strong>al</strong>colo del background su un intorno ampio dello spot.<br />

Esistono <strong>al</strong>cuni meto<strong>di</strong> <strong>di</strong> correzione che fanno uso <strong>di</strong> un fattore<br />

correttivo c<strong>al</strong>colato su aree nelle qu<strong>al</strong>i non sono presenti spot. Lo scopo è<br />

quello <strong>di</strong> stimare l’effetto dovuto <strong>al</strong>l’interazione del substrato presente<br />

sulla superficie del vetrino con il campione marcato. Questo metodo,<br />

tuttavia, non è completamente affidabile in quando queste aree non sono<br />

rappresentative <strong>di</strong> ciò che re<strong>al</strong>mente avviene dove sono presenti le sonde.<br />

Per questo motivo è più utile ricavare il v<strong>al</strong>ore <strong>di</strong> background su aree<br />

specifiche sulle qu<strong>al</strong>i vengono appositamente depositate sonde <strong>di</strong><br />

controllo, che si sa non essere complementari <strong>al</strong>le sequenze del campione<br />

in esame.<br />

Figura 2.10: C<strong>al</strong>colo del background su aree vuote del microarray.<br />

32


Capitolo 2: I primi passi del trattamento dei dati e le princip<strong>al</strong>i tecniche <strong>di</strong> norm<strong>al</strong>izzazione<br />

E’ già stato illustrato l’effetto che produce la sottrazione del<br />

background su un segn<strong>al</strong>e debole. Ciò deve invitare ad utilizzare cautela<br />

nell’applicazione <strong>di</strong> questo proce<strong>di</strong>mento. Non fare la correzione, tuttavia,<br />

può corrompere i dati, d<strong>al</strong> momento che il contributo del rumore può<br />

mo<strong>di</strong>ficare il dato relativo <strong>al</strong>l’intensità dello spot generando f<strong>al</strong>si positivi o<br />

f<strong>al</strong>si negativi nella rilevazione dei geni <strong>di</strong>fferenzi<strong>al</strong>mente espressi.<br />

L’approccio migliore consiste nel fare una correzione con un fattore che<br />

risulti da proce<strong>di</strong>menti glob<strong>al</strong>i, in modo da contenere <strong>al</strong> minimo gli errori<br />

introdotti da questa operazione.<br />

Il parametro univers<strong>al</strong>mente accettato per la misurazione degli<br />

effetti del rumore su un segn<strong>al</strong>e è il rapporto segn<strong>al</strong>e rumore (Sign<strong>al</strong> to<br />

Noise Ratio – SNR), definito gener<strong>al</strong>mente come:<br />

SNR = Me<strong>di</strong>ana del segn<strong>al</strong>e / STD del rumore<br />

dove <strong>al</strong> denominatore vi è la deviazione standard (STD) del rumore.<br />

Molti software <strong>di</strong> an<strong>al</strong>isi <strong>di</strong> microarray utilizzano il v<strong>al</strong>ore <strong>di</strong> SNR<br />

ricavato per ogni spot per escludere d<strong>al</strong> processo <strong>di</strong> norm<strong>al</strong>izzazione quei<br />

dati che hanno un rumore troppo <strong>al</strong>to: in t<strong>al</strong> caso viene fissata una soglia<br />

per l’SNR, tipicamente pari a 3, in modo cha agli spot con un v<strong>al</strong>ore <strong>di</strong><br />

SNR più <strong>al</strong>to venga applicata una “flag”, ossia un punteggio, che li esclude<br />

automaticamente d<strong>al</strong>l’insieme degli spot utilizzati per la norm<strong>al</strong>izzazione.<br />

Sempre grazie <strong>al</strong>l’applicazione <strong>di</strong> flag, che vengono assegnate in base<br />

<strong>al</strong>la rispondenza delle caratteristiche dello spot a quelle specificate<br />

d<strong>al</strong>l’an<strong>al</strong>ista, è possibile escludere spot con forme irregolari, o con<br />

percentu<strong>al</strong>e <strong>di</strong> pixel saturati superiore ad una soglia definita come<br />

accettabile. La selezione può escludere anche spot che vengono inseriti nel<br />

microarray esclusivamente per facilitare l’operazione <strong>di</strong> <strong>al</strong>lineamento della<br />

griglia, oppure quegli spot che vengono lasciati appositamente vuoti. Si<br />

effettua in questo modo un processo <strong>di</strong> controllo degli spot che prepara il<br />

dato <strong>al</strong>la successiva operazione <strong>di</strong> norm<strong>al</strong>izzazione.<br />

33


Capitolo 2: I primi passi del trattamento dei dati e le princip<strong>al</strong>i tecniche <strong>di</strong> norm<strong>al</strong>izzazione<br />

2.3 Norm<strong>al</strong>izzazione dei dati<br />

Molte variabili possono influire e <strong>di</strong>storcere i risultati <strong>di</strong> un<br />

esperimento <strong>di</strong> microarray:<br />

<strong>di</strong>somogeneità del processo <strong>di</strong> deposizione delle sonde,<br />

quantità inizi<strong>al</strong>i <strong>di</strong>verse <strong>di</strong> RNA,<br />

<strong>di</strong>versa efficienza <strong>di</strong> incorporazione dei due fluorocromi<br />

durante il proce<strong>di</strong>mento <strong>di</strong> marcatura dei campioni,<br />

<strong>di</strong>somogeneità <strong>di</strong> ibri<strong>di</strong>zzazione sul vetrino,<br />

<strong>di</strong>versa efficienza <strong>di</strong> emissione dei due fluorocromi,<br />

<strong>di</strong>versa efficienza dello scanner nel leggere i due can<strong>al</strong>i <strong>di</strong><br />

fluorescenza.<br />

Tutti questi fattori possono influenzare pesantemente i dati<br />

causando spostamenti nelle <strong>di</strong>stribuzioni dei rapporti delle intensità dei<br />

due fluorofori. E’, quin<strong>di</strong>, necessaria, prima <strong>di</strong> ogni tipo <strong>di</strong> an<strong>al</strong>isi<br />

statistica, una norm<strong>al</strong>izzazione dei dati atta ad eliminare <strong>di</strong>storsioni<br />

sistematiche. Un esempio <strong>di</strong> questo tipo <strong>di</strong> <strong>di</strong>storsioni si può vedere in<br />

figura 2.11 in cui è mostrato un grafico della <strong>di</strong>spersione dei dati, detto<br />

“scatterplot” dove sono messe a confronto le intensità dei segn<strong>al</strong>i su due<br />

microarray ibri<strong>di</strong>zzati con lo stesso RNA.<br />

34


Capitolo 2: I primi passi del trattamento dei dati e le princip<strong>al</strong>i tecniche <strong>di</strong> norm<strong>al</strong>izzazione<br />

Figura 2.11: Scatterplot dello stesso mRNA ibri<strong>di</strong>zzato su due microarray <strong>di</strong>versi.<br />

Ide<strong>al</strong>mente, le intensità relative ad ogni segn<strong>al</strong>e dovrebbero<br />

coincidere sui due microarray e i punti che in<strong>di</strong>viduano i v<strong>al</strong>ori <strong>di</strong> t<strong>al</strong>i<br />

intensità sullo scatterplot si dovrebbero posizionare sulla <strong>di</strong>agon<strong>al</strong>e:<br />

quando ciò non accade significa che sono presenti errori sistematici, se la<br />

deviazione della <strong>di</strong>agon<strong>al</strong>e è tutta d<strong>al</strong>la stessa parte, come in questo<br />

esempio, oppure errori casu<strong>al</strong>i (random), quando i punti si <strong>al</strong>lontanano<br />

d<strong>al</strong>la <strong>di</strong>agon<strong>al</strong>e in entrambe le <strong>di</strong>rezioni.<br />

Questo errore <strong>di</strong>venta ancora più evidente quando si mettono a<br />

confronto le due intensità <strong>di</strong> segn<strong>al</strong>e ottenute da un unico microarray su<br />

cui è stato ibri<strong>di</strong>zzato lo stesso materi<strong>al</strong>e marcato con entrambi i<br />

fluorocromi. Questo grafico viene denominato MA e presenta in ascissa il<br />

logaritmo della me<strong>di</strong>a geometrica delle due intensità (A), mentre in<br />

or<strong>di</strong>nata vi è il logaritmo del rapporto dei due can<strong>al</strong>i (M).<br />

35


Capitolo 2: I primi passi del trattamento dei dati e le princip<strong>al</strong>i tecniche <strong>di</strong> norm<strong>al</strong>izzazione<br />

A = ½ log (R*G)<br />

M = log (R/G)<br />

Figura 2.12: Grafico MA <strong>di</strong> un array su cui è stato ibri<strong>di</strong>zzato lo stesso RNA<br />

marcato con entrambi i fluorocromi<br />

Il processo <strong>di</strong> norm<strong>al</strong>izzazione è necessario anche per confrontare<br />

dati provenienti da repliche dello stesso materi<strong>al</strong>e. Solitamente in un<br />

esperimento <strong>di</strong> microarray le repliche fra vetrini possono essere <strong>di</strong> due<br />

tipi:<br />

repliche speriment<strong>al</strong>i: quando l’mRNA sui due vetrini proviene<br />

d<strong>al</strong>la stessa estrazione;<br />

repliche biologiche: quando l’mRNA proviene da campioni<br />

biologici dello stesso tipo ma <strong>di</strong>stinti (ad esempio in<strong>di</strong>vidui<br />

<strong>di</strong>versi).<br />

L’utilizzo <strong>di</strong> repliche biologiche consente <strong>di</strong> stimare l’errore random e<br />

maggiore è il numero delle repliche meglio si riesce a dare una stima della<br />

<strong>di</strong>stribuzione <strong>di</strong> questo errore e del suo peso sui dati. Le repliche<br />

speriment<strong>al</strong>i servono, invece, ad ottenere una stima migliore<br />

dell’espressione <strong>di</strong> un gene sulla base della corrispondenza dei dati relativi<br />

ai suoi spot su <strong>di</strong>versi microarray.<br />

36


Capitolo 2: I primi passi del trattamento dei dati e le princip<strong>al</strong>i tecniche <strong>di</strong> norm<strong>al</strong>izzazione<br />

E’ necessario che la norm<strong>al</strong>izzazione tenga conto del <strong>di</strong>segno<br />

dell’esperimento: la sua scorretta applicazione, infatti, inv<strong>al</strong>ida<br />

completamente il dato e, <strong>di</strong> conseguenza, i risultati.<br />

Si parla <strong>di</strong> norm<strong>al</strong>izzazione within-array quando la tecnica scelta<br />

viene applicata ad ogni vetrino singolarmente, nell’intento <strong>di</strong> correggere gli<br />

errori sistematici su ogni array preso come unità a sé e<br />

in<strong>di</strong>pendentemente d<strong>al</strong> <strong>di</strong>segno speriment<strong>al</strong>e, mentre si fa una<br />

norm<strong>al</strong>izzazione between-arrays quando si cerca <strong>di</strong> ottenere un dato<br />

uniforme considerando sia il <strong>di</strong>segno speriment<strong>al</strong>e applicato che il tipo <strong>di</strong><br />

campione biologico.<br />

In ciascuna <strong>di</strong> queste situazioni è necessario scegliere un gruppo <strong>di</strong><br />

geni da utilizzare per la norm<strong>al</strong>izzazione. Questi possono essere:<br />

tutti i geni sull’array. Quasi tutti i geni sull’array possono<br />

essere utilizzati per la norm<strong>al</strong>izzazione quando è possibile<br />

prevedere che solo una porzione relativamente piccola <strong>di</strong> geni<br />

varierà significativamente in espressione fra i due campioni <strong>di</strong><br />

mRNA.<br />

geni espressi in maniera costante. Invece <strong>di</strong> utilizzare tutti i<br />

geni per la norm<strong>al</strong>izzazione si può scegliere <strong>di</strong> usare un<br />

piccolo sottoinsieme rappresentato dai geni housekeeping,<br />

cioè quei geni che mantengono lo stesso livello <strong>di</strong> espressione<br />

in con<strong>di</strong>zioni speriment<strong>al</strong>i <strong>di</strong>fferenti. Non è facile identificare<br />

questo sottinsieme, ma spesso è possibile trovare un gruppo<br />

<strong>di</strong> geni che si comportano da housekeeping nelle con<strong>di</strong>zioni<br />

speriment<strong>al</strong>i considerate. Una limitazione nell’utilizzo dei geni<br />

housekeeping è che essi tendono ad essere espressi molto e<br />

quin<strong>di</strong> potrebbero non essere rappresentativi <strong>di</strong> <strong>al</strong>tri geni <strong>di</strong><br />

interesse.<br />

37


Capitolo 2: I primi passi del trattamento dei dati e le princip<strong>al</strong>i tecniche <strong>di</strong> norm<strong>al</strong>izzazione<br />

controlli. Un’<strong>al</strong>ternativa <strong>al</strong>la norm<strong>al</strong>izzazione con geni<br />

housekeeping è l’utilizzo <strong>di</strong> controlli spiked o <strong>di</strong> una serie <strong>di</strong><br />

sequenze <strong>di</strong> controllo a concentrazione sc<strong>al</strong>are (titration). Nel<br />

metodo dei controlli spiked, sequenze sintetiche <strong>di</strong> DNA o<br />

sequenze selezionate da organismi <strong>di</strong>fferenti da quello stu<strong>di</strong>ato<br />

sono depositate sull’array e incluse nei due <strong>di</strong>fferenti campioni<br />

<strong>di</strong> mRNA in esame con identica concentrazione. Queste<br />

sequenze <strong>di</strong> controllo possono essere utilizzate per la<br />

norm<strong>al</strong>izzazione perché daranno origine a segn<strong>al</strong>i <strong>di</strong> ugu<strong>al</strong>e<br />

intensità nei due can<strong>al</strong>i. Nell’approccio della serie titration, si<br />

utilizzano spot dello stesso gene a concentrazione sc<strong>al</strong>are, con<br />

ugu<strong>al</strong>e intensità sui due can<strong>al</strong>i nel range considerato, in modo<br />

da monitorare l’amplificazione lineare della risposta in<br />

intensità rispetto <strong>al</strong>la concentrazione.<br />

2.4 Norm<strong>al</strong>izzazione within-array<br />

In questo caso la norm<strong>al</strong>izzazione viene applicata separatamente su<br />

ogni array. Gli scopi princip<strong>al</strong>i sono la correzione del colore e dei problemi<br />

dovuti ad un’eventu<strong>al</strong>e deposizione scorretta delle sonde.<br />

2.4.1 Norm<strong>al</strong>izzazione glob<strong>al</strong>e<br />

I meto<strong>di</strong> glob<strong>al</strong>i <strong>di</strong> norm<strong>al</strong>izzazione assumono che le intensità dei<br />

due fluorocromi siano proporzion<strong>al</strong>i, cioè che v<strong>al</strong>ga la relazione R =K*G,<br />

dove con R si in<strong>di</strong>ca il can<strong>al</strong>e rosso, con G il can<strong>al</strong>e verde e K è la costante<br />

<strong>di</strong> proporzion<strong>al</strong>ità. In funzione <strong>di</strong> questa legge e nell’ipotesi che la maggior<br />

38


Capitolo 2: I primi passi del trattamento dei dati e le princip<strong>al</strong>i tecniche <strong>di</strong> norm<strong>al</strong>izzazione<br />

parte dei geni non si esprima <strong>di</strong>fferenzi<strong>al</strong>mente, la norm<strong>al</strong>izzazione glob<strong>al</strong>e<br />

sposta il logaritmo del rapporto dei due can<strong>al</strong>i sullo zero, operando quello<br />

che viene tipicamente denominato “centraggio” della <strong>di</strong>stribuzione dei dati:<br />

norm<strong>al</strong>izzazione<br />

log2 R/G - - - - - - - - - - - - - -> log2 R/G – c = log2 R/(KG)<br />

dove c = log2 K.<br />

Una particolare scelta per il parametro c è la me<strong>di</strong>ana o, in<br />

<strong>al</strong>ternativa, la me<strong>di</strong>a dei rapporti logaritmici delle intensità.<br />

I meto<strong>di</strong> <strong>di</strong> norm<strong>al</strong>izzazione glob<strong>al</strong>e non hanno un effetto intensità-<br />

<strong>di</strong>pendente sui dati e, quin<strong>di</strong>, non riescono a correggere le tendenze non<br />

lineari dei dati dovute <strong>al</strong> <strong>di</strong>verso comportamento che i fluorocromi<br />

presentano in emissione<br />

b)<br />

Figura 2.13:<br />

a) Distribuzione dei dati prima della<br />

norm<strong>al</strong>izzazione (in rosso) e dopo<br />

lo spostamento della me<strong>di</strong>a (in<br />

blu).<br />

b) Scatterplot dei dati prima della<br />

norm<strong>al</strong>izzazione (in rosso) e dopo<br />

la norm<strong>al</strong>izzazione (in blu).<br />

39


Capitolo 2: I primi passi del trattamento dei dati e le princip<strong>al</strong>i tecniche <strong>di</strong> norm<strong>al</strong>izzazione<br />

2.4.2 Norm<strong>al</strong>izzazione intensità-<strong>di</strong>pendente<br />

In molti casi gli errori sistematici riconducibili <strong>al</strong>la <strong>di</strong>versa efficienza<br />

<strong>di</strong> emissione dei fluorocromi sono <strong>di</strong>pendenti d<strong>al</strong>l’intensità del segn<strong>al</strong>e,<br />

come può essere evidenziato attraverso il grafico MA dei dati. In questi<br />

casi si possono correggere le <strong>di</strong>storsioni attraverso tre meto<strong>di</strong>:<br />

interpolazione <strong>di</strong> curve e correzione,<br />

norm<strong>al</strong>izzazione LOESS o LOWESS,<br />

norm<strong>al</strong>izzazione a tratti.<br />

2.4.2.1 Interpolazione <strong>di</strong> curve e correzione<br />

La norm<strong>al</strong>izzazione del colore può essere re<strong>al</strong>izzata attraverso<br />

l’interpolazione <strong>di</strong> una curva sull’insieme dei dati dell’esperimento, da<br />

utilizzare successivamente per apporre le dovute correzioni. Visu<strong>al</strong>izzando<br />

i dati su uno “scatterplot” che presenta in ascissa il log(R) e in or<strong>di</strong>nata il<br />

log(G/R), si può osservare che la <strong>di</strong>storsione dei dati introdotta dai<br />

fluorocromi ha gener<strong>al</strong>mente un andamento esponenzi<strong>al</strong>e, come si può<br />

osservare in figura 2.14. Sulla base <strong>di</strong> questa osservazione si possono<br />

utilizzare i dati stessi per c<strong>al</strong>colare i parametri della funzione esponenzi<strong>al</strong>e<br />

che li interpola.<br />

La procedura <strong>di</strong> norm<strong>al</strong>izzazione comporta la sud<strong>di</strong>visione dell’asse<br />

delle ascisse in interv<strong>al</strong>li uniformi; questo corrisponde ad identificare<br />

sull’asse delle or<strong>di</strong>nate il sottoinsieme dei dati che ha <strong>al</strong> denominatore del<br />

rapporto logaritmico un v<strong>al</strong>ore <strong>di</strong> intensità compreso nell’interv<strong>al</strong>lo fissato.<br />

Per ogni interv<strong>al</strong>lo si c<strong>al</strong>cola il corrispondente centroide dei dati in esso<br />

compresi, cioè un elemento rappresentativo <strong>di</strong> quel sottoinsieme <strong>di</strong> dati, e<br />

si determina la curva esponenzi<strong>al</strong>e interpolante l’insieme dei centroi<strong>di</strong>:<br />

y = a + b * e-c * x<br />

40


Capitolo 2: I primi passi del trattamento dei dati e le princip<strong>al</strong>i tecniche <strong>di</strong> norm<strong>al</strong>izzazione<br />

Scopo <strong>di</strong> questa interpolazione è trovare la combinazione <strong>di</strong> v<strong>al</strong>ori a,<br />

b e c che genera la miglior curva esponenzi<strong>al</strong>e rappresentativa della<br />

<strong>di</strong>slocazione dei centroi<strong>di</strong>; una volta trovata, la relativa curva viene<br />

utilizzata per correggere i dati, così da posizionare i centroi<strong>di</strong> sull’asse<br />

orizzont<strong>al</strong>e log (G/R)=0.<br />

Figura 2.14: Norm<strong>al</strong>izzazione per interpolazione <strong>di</strong> una curva esponenzi<strong>al</strong>e<br />

2.4.2.2 Norm<strong>al</strong>izzazione LOESS/LOWESS<br />

La trasformazione LOWESS (LOc<strong>al</strong>ly WEighted polynomi<strong>al</strong><br />

regreSSion), così come la sua variante LOESS, <strong>di</strong>vide i dati sull’asse delle<br />

ascisse in interv<strong>al</strong>li sovrapposti e interpola una funzione con una<br />

procedura simile a quella usata nella norm<strong>al</strong>izzazione con curva<br />

esponenzi<strong>al</strong>e, ma, in questo caso viene utilizzanta una funzione<br />

polinomi<strong>al</strong>e:<br />

y = a0 + a1x + a2x 2 + …..<br />

41


Capitolo 2: I primi passi del trattamento dei dati e le princip<strong>al</strong>i tecniche <strong>di</strong> norm<strong>al</strong>izzazione<br />

I polinomi presentano la caratteristica <strong>di</strong> poter passare esattamente<br />

per tanti punti quanto è il loro grado. Tuttavia, questo approccio presenta<br />

il cosiddetto problema dell’“over-fitting”, ossia si ha un’approssimazione<br />

quasi perfetta della funzione bersaglio nei punti conosciuti, ma oscillazioni<br />

eccessive <strong>al</strong> <strong>di</strong> fuori <strong>di</strong> essi.<br />

Per ovviare a ciò, l’approccio LOWESS utilizza polinomi <strong>di</strong> grado1,<br />

mentre il LOESS fa uso <strong>di</strong> parabole in modo da contenere l’over-fitting e<br />

l’eccessiva oscillazione fra i punti delle funzioni interpolanti.<br />

Inoltre, poiché l’approssimazione polinomi<strong>al</strong>e è precisa solo in piccoli<br />

interv<strong>al</strong>li intorno <strong>al</strong> punto scelto, può essere necessario <strong>di</strong>videre il dominio<br />

dei dati in finestre <strong>di</strong> <strong>di</strong>mensioni opportune con l’effetto collater<strong>al</strong>e <strong>di</strong><br />

incrementare anche notevolmente il carico computazion<strong>al</strong>e.<br />

La <strong>di</strong>visione in piccoli interv<strong>al</strong>li ha inizio <strong>al</strong>l’estremità sinistra dei<br />

dati con una finestra <strong>di</strong> larghezza data l e i dati che cadono in questi<br />

interv<strong>al</strong>li sono utilizzati per interpolare il polinomio applicando ad essi dei<br />

pesi <strong>di</strong>versi a seconda della loro posizione nell’interv<strong>al</strong>lo: i dati prossimi <strong>al</strong><br />

punto <strong>di</strong> stima hanno un peso maggiore <strong>di</strong> quelli lontani e ciò può essere<br />

re<strong>al</strong>izzato utilizzando una funzione <strong>di</strong> peso w(x) della forma:<br />

⎪⎧<br />

w ( x)<br />

= ⎨<br />

⎪⎩ 0<br />

3 ( 1−<br />

| x | )<br />

dove x è la <strong>di</strong>stanza fra i punti stimati.<br />

3<br />

, | x | < 1<br />

, |<br />

x | ≥1<br />

Il proce<strong>di</strong>mento continua facendo scorrere la finestra verso destra e<br />

interpolando loc<strong>al</strong>mente <strong>di</strong> volta in volta un nuovo polinomio: il risultato è<br />

una curva <strong>di</strong> “smoothing” attraverso cui correggere i dati. L’effetto<br />

dell’applicazione <strong>di</strong> questi meto<strong>di</strong> ad un insieme <strong>di</strong> dati può essere<br />

osservato in figura 2.15, dove si può notare come la norm<strong>al</strong>izzazione<br />

agisca sui dati avvicinandoli <strong>al</strong>l’asse delle ascisse ed eliminando o,<br />

comunque, riducendo drasticamente l’andamento non lineare.<br />

42


Capitolo 2: I primi passi del trattamento dei dati e le princip<strong>al</strong>i tecniche <strong>di</strong> norm<strong>al</strong>izzazione<br />

LOWESS<br />

Figura 2.15: Correzione dei dati con l’applicazione <strong>di</strong> una norm<strong>al</strong>izzazione<br />

LOWESS.<br />

Il vantaggio del metodo LO(W)ESS è che non ha bisogno <strong>di</strong><br />

specificare una particolare funzione come modello: i soli parametri<br />

necessari sono il grado dei polinomi d e il fattore <strong>di</strong> smoothing q, che<br />

in<strong>di</strong>ca la larghezza della finestra.<br />

Gli svantaggi del metodo LO(W)ESS includono il fatto che esso non<br />

produce una funzione <strong>di</strong> regressione o un modello che sia facilmente<br />

rappresentabile con una formula matematica. In particolare, il modello <strong>di</strong><br />

correzione della <strong>di</strong>storsione del colore trovato su un particolare insieme <strong>di</strong><br />

dati non può essere <strong>di</strong>rettamente trasferito ad un <strong>al</strong>tro: è necessario<br />

riapplicare il metodo ogni volta che si ha un insieme <strong>di</strong> dati <strong>di</strong>stinto e ciò<br />

produce sottili <strong>di</strong>fferenze ad ogni applicazione.<br />

Un ulteriore svantaggio è legato <strong>al</strong> fatto che la procedura è<br />

computazion<strong>al</strong>mente molto pesante, anche se questo è un problema<br />

minore nel contesto <strong>di</strong> tutte le <strong>al</strong>tre problematiche collegate <strong>al</strong>l’an<strong>al</strong>isi dei<br />

dati da microarray.<br />

Il più importante svantaggio è la suscettibilità <strong>di</strong> questo metodo <strong>al</strong><br />

rumore e agli “outlier”, cioè a quei dati che si <strong>di</strong>scostano drasticamente<br />

43


Capitolo 2: I primi passi del trattamento dei dati e le princip<strong>al</strong>i tecniche <strong>di</strong> norm<strong>al</strong>izzazione<br />

d<strong>al</strong>la maggioranza dei dati acquisiti o, per essere più precisi, che si<br />

posizionano oltre 1.5 inter-quartile sopra il 75° percentile o sotto il 25°<br />

percentile della <strong>di</strong>stribuzione dei dati.<br />

Figura 2.16: Identificazione degli outlier sulla <strong>di</strong>stribuzione dei dati<br />

M<strong>al</strong>grado siano state apportate notevoli mo<strong>di</strong>fiche <strong>al</strong> metodo il<br />

problema degli outlier resta tuttora irrisolto e, per questo motivo, è<br />

necessario eliminarli prima dell’applicazione del metodo.<br />

2.4.2.3 Norm<strong>al</strong>izzazione a tratti<br />

La norm<strong>al</strong>izzazione a tratti, o “piece-wise”,è molto simile <strong>al</strong>la<br />

LO(W)ESS, ma rispetto ad essa è computazion<strong>al</strong>mente più leggera, poiché<br />

elimina molti c<strong>al</strong>coli che possono essere considerati in prima istanza<br />

ridondanti per i dati ricavati da microarray. Questo metodo sostituisce<br />

l’approccio a finestre mobili con un insieme fisso <strong>di</strong> finestre sovrapposte;<br />

in ognuno <strong>di</strong> questi interv<strong>al</strong>li i dati sono approssimati grazie ad una<br />

funzione lineare o quadratica. L’utente controlla le curve risultanti<br />

scegliendo il numero <strong>di</strong> t<strong>al</strong>i interv<strong>al</strong>li e il loro grado <strong>di</strong> sovrapposizione.<br />

Il vantaggio <strong>di</strong> questo tipo <strong>di</strong> norm<strong>al</strong>izzazione è la generazione <strong>di</strong> una<br />

descrizione matematica compatta del modello dei dati che può essere<br />

memorizzata e utilizzata su <strong>di</strong>fferenti insiemi. T<strong>al</strong>e descrizione sarà una<br />

44


Capitolo 2: I primi passi del trattamento dei dati e le princip<strong>al</strong>i tecniche <strong>di</strong> norm<strong>al</strong>izzazione<br />

funzione lineare a tratti o quadratica con tanti tratti quanti sono gli<br />

interv<strong>al</strong>li specificati d<strong>al</strong>l’utente.<br />

outlier.<br />

Come la LO(W)ESS, anche la norm<strong>al</strong>izzazione a tratti è sensibile agli<br />

Figura 2.17: Norm<strong>al</strong>izzazione a tratti<br />

2.4.3 Norm<strong>al</strong>izzazione “within-print-tip-group”<br />

Ogni blocco in un array è depositato utilizzando le stesse punte o<br />

“print-tip”: mo<strong>di</strong>ficando la configurazione secondo la qu<strong>al</strong>e viene re<strong>al</strong>izzato<br />

l’array è possibile correggere il “layout” dell’array.<br />

Possono esistere <strong>al</strong>cune <strong>di</strong>fferenze fra le punte, dovute per esempio a<br />

<strong>di</strong>versa larghezza dell’apertura o a deformazione dovuta ad usura.<br />

Solitamente i gruppi <strong>di</strong> punte generano effetti spazi<strong>al</strong>i simili sul vetrino,<br />

per cui è necessario eseguire una norm<strong>al</strong>izzazione fra gruppi in modo da<br />

eliminarli.<br />

45


Capitolo 2: I primi passi del trattamento dei dati e le princip<strong>al</strong>i tecniche <strong>di</strong> norm<strong>al</strong>izzazione<br />

La norm<strong>al</strong>izzazione “within-print-tip-group” <strong>di</strong>pende d<strong>al</strong> gruppo <strong>di</strong><br />

punte e d<strong>al</strong> v<strong>al</strong>ore <strong>di</strong> A = ½ log (R*G) secondo un modello che può essere<br />

schematizzato con:<br />

log2 R/G -> log2 R/G – ci(A) = log2 R/(Ki(A)*G)<br />

dove la funzione <strong>di</strong> correzione ci(A) si trova facendo l’interpolazione<br />

LO(W)ESS <strong>di</strong> M e A sul blocco i-esimo.<br />

2.4.4 Norm<strong>al</strong>izzazione “within-slide”<br />

Dopo aver re<strong>al</strong>izzato la norm<strong>al</strong>izzazione “within-print-tip-group”,<br />

tutte le <strong>di</strong>stribuzioni relative a <strong>di</strong>fferenti gruppi <strong>di</strong> punte saranno centrate<br />

sulla me<strong>di</strong>a del gruppo, tuttavia è possibile che le me<strong>di</strong>e relative a <strong>di</strong>versi<br />

gruppi <strong>di</strong> punte non siano ugu<strong>al</strong>i e si debba operare una risc<strong>al</strong>atura.<br />

Un metodo per re<strong>al</strong>izzarla può essere quello <strong>di</strong> assumere che tutti i<br />

rapporti logaritmici relativi <strong>al</strong>l’i-esimo gruppo <strong>di</strong> print-tip si <strong>di</strong>stribuiscano<br />

secondo una <strong>di</strong>stribuzione norm<strong>al</strong>e con me<strong>di</strong>a nulla e varianza ai 2 σ 2 , dove<br />

σ 2 è la varianza dei rapporti logaritmici ed ai 2 è il fattore <strong>di</strong> sc<strong>al</strong>a per l’i-<br />

esimo gruppo <strong>di</strong> print-tip.<br />

Poiché è necessario ottenere una stima <strong>di</strong> questo fattore <strong>di</strong> sc<strong>al</strong>a, si<br />

procede massimizzando la funzione <strong>di</strong> verosimiglianza e si ottiene per ai la<br />

seguente stima:<br />

aˆ<br />

i<br />

=<br />

I<br />

n<br />

i<br />

∑<br />

M<br />

j=<br />

1<br />

I n<br />

i<br />

∏∑<br />

k=<br />

1 j=<br />

1<br />

2<br />

ij<br />

M<br />

2<br />

kj<br />

46


Capitolo 2: I primi passi del trattamento dei dati e le princip<strong>al</strong>i tecniche <strong>di</strong> norm<strong>al</strong>izzazione<br />

dove Mij denota il rapporto logaritmico j-esimo fra i due can<strong>al</strong>i<br />

<strong>al</strong>l’interno del gruppo <strong>di</strong> punte i-esimo, ni è il numero <strong>di</strong> griglie depositate<br />

con quella testina o gruppo <strong>di</strong> punte, e I è il numero <strong>di</strong> testine utilizzate<br />

per stampare l’array.<br />

Una robusta <strong>al</strong>ternativa a questa stima è:<br />

aˆ<br />

i<br />

=<br />

I<br />

MAD<br />

I<br />

∏<br />

k=<br />

1<br />

i<br />

MAD<br />

dove MAD (Me<strong>di</strong>an Absolute Deviation) è definita come:<br />

MADi= me<strong>di</strong>anj{|Mij – me<strong>di</strong>anj(Mij)|}<br />

Questa procedura assume che solo una piccola porzione <strong>di</strong> geni vari<br />

significativamente nel confronto fra due mRNA e inoltre, si ipotizza che la<br />

<strong>di</strong>spersione della <strong>di</strong>stribuzione dei rapporti logaritmici sia pressoché la<br />

stessa per tutti i gruppi print-tip.<br />

2.5 Correzione “paired-slide”<br />

La correzione “paired-slide” si applica ad esperimenti nei qu<strong>al</strong>i due<br />

campioni <strong>di</strong>versi vengono ibri<strong>di</strong>zzati su due microarray scambiando la<br />

marcatura, cioè il campione che sul primo microarray viene marcato in<br />

rosso, sul secondo sarà marcato in verde e viceversa per l’<strong>al</strong>tro campione.<br />

Si denoti con log2R/G-c il rapporto logaritmico norm<strong>al</strong>izzato fra i<br />

due can<strong>al</strong>i per il primo vetrino, con log2R’/G’-c’ quello per la seconda slide,<br />

mentre c e c’ siano le due funzioni <strong>di</strong> norm<strong>al</strong>izzazione per i due vetrini.<br />

i<br />

47


Capitolo 2: I primi passi del trattamento dei dati e le princip<strong>al</strong>i tecniche <strong>di</strong> norm<strong>al</strong>izzazione<br />

Nell’ipotesi che non vi siano comportamenti <strong>di</strong>sugu<strong>al</strong>i dei due fluorocromi<br />

sui due vetrini, deve v<strong>al</strong>ere che c ≅ c’ e che log2R/G= log2G’/R’,cioè:<br />

1<br />

2<br />

1<br />

2<br />

[ log R/G - c - ( log R' /G'-c')<br />

] ≅ [ log R/G + log G'/R']<br />

= log RG' /GR' = ( M − M ')<br />

2<br />

2<br />

2<br />

Con questo metodo è possibile sc<strong>al</strong>are i livelli <strong>di</strong> espressione relativa<br />

per i due microarray senza esplicitare la norm<strong>al</strong>izzazione: questo<br />

proce<strong>di</strong>mento prende il nome <strong>di</strong> “self-norm<strong>al</strong>ization”.<br />

La v<strong>al</strong>i<strong>di</strong>tà <strong>di</strong> questa assunzione può essere verificata utilizzando un<br />

insieme <strong>di</strong> geni con livelli <strong>di</strong> espressione costante sui due can<strong>al</strong>i. Poiché<br />

l’assegnazione dei fluorocromi è invertita sui due microarray, ci si attende<br />

che su t<strong>al</strong>i geni il rapporto logaritmico norm<strong>al</strong>izzato sui due vetrini abbia<br />

ugu<strong>al</strong>e intensità ma segno opposto:<br />

2<br />

1<br />

2<br />

log2R/G-c ≅ -(log2R’/G’-c’)<br />

Quin<strong>di</strong>, riarrangiando l’equazione e assumendo ancora che c ≅ c’ è<br />

possibile stimare la funzione <strong>di</strong> norm<strong>al</strong>izzazione c come:<br />

1<br />

2<br />

c ≅ [ log R/G log R'/G']<br />

1<br />

2<br />

2 + 2 = ( M + M ')<br />

Da un punto <strong>di</strong> vista operativo, la funzione c = c(A) <strong>di</strong> correzione su<br />

tutto il vetrino è stimata attraverso l’interpolazione LO(W)ESS <strong>di</strong><br />

1<br />

1<br />

( M + M ')<br />

vs ( A + A')<br />

.<br />

2<br />

2<br />

2<br />

1<br />

2<br />

48


Capitolo 2: I primi passi del trattamento dei dati e le princip<strong>al</strong>i tecniche <strong>di</strong> norm<strong>al</strong>izzazione<br />

2.6 Norm<strong>al</strong>izzazione “multiple-slides” o “between arrays”<br />

Dopo la norm<strong>al</strong>izzazione “within array” le <strong>di</strong>stribuzioni dei dati<br />

norm<strong>al</strong>izzati <strong>di</strong> ogni microarray preso singolarmente saranno centrate<br />

sulla propria me<strong>di</strong>a. I meto<strong>di</strong> <strong>di</strong> norm<strong>al</strong>izzazione “multiple-slides”, il cui<br />

scopo è quello <strong>di</strong> consentire confronti fra <strong>di</strong>versi array, servono per<br />

operare una sc<strong>al</strong>atura fra i dati acquisiti con <strong>di</strong>fferenti vetrini quando i<br />

loro rapporti logaritmici norm<strong>al</strong>izzati presentano <strong>di</strong>spersione. Non<br />

effettuare una norm<strong>al</strong>izzazione tra array può indurre un peso non re<strong>al</strong>e<br />

sui dati <strong>di</strong> un vetrino quando si effettua il confronto fra microarray.<br />

a) b)<br />

Figura 2.18: Box-plot degli array prima a) e dopo b) la norm<strong>al</strong>izzazione between-arrays<br />

E’ importante notare, tuttavia, che questo tipo <strong>di</strong> norm<strong>al</strong>izzazione ha<br />

senso esclusivamente fra campioni identici (repliche speriment<strong>al</strong>i); per<br />

esempio, effettuare la norm<strong>al</strong>izzazione tra array fra dati provenienti da un<br />

tessuto sano e uno m<strong>al</strong>ato è un errore poiché si sta involontariamente<br />

49


Capitolo 2: I primi passi del trattamento dei dati e le princip<strong>al</strong>i tecniche <strong>di</strong> norm<strong>al</strong>izzazione<br />

cercando <strong>di</strong> indurre un’omogeneizzazione delle <strong>di</strong>spersioni su campioni<br />

<strong>di</strong>fferenti, introducendo un artefatto.<br />

Le tecniche utilizzate per la norm<strong>al</strong>izzazione “multiple slides” sono<br />

ugu<strong>al</strong>i a quelle per i meto<strong>di</strong> “within array”.<br />

50


Capitolo 3<br />

Meto<strong>di</strong> <strong>di</strong> selezione a soglia e<br />

an<strong>al</strong>isi della significatività statistica<br />

In questo capitolo verranno an<strong>al</strong>izzate <strong>al</strong>cune tecniche utilizzate per<br />

in<strong>di</strong>viduare qu<strong>al</strong>i geni risultano <strong>di</strong>fferenzi<strong>al</strong>mente espressi in un<br />

esperimento <strong>di</strong> microarray.<br />

La tecnica più semplice fa uso <strong>di</strong> una soglia empirica<br />

sull’istogramma del “fold change”, cioè del rapporto fra le intensità dei due<br />

can<strong>al</strong>i, per stabilire l’insieme dei geni che presentano espressione<br />

<strong>di</strong>fferenzi<strong>al</strong>e.<br />

Un metodo maggiormente adattativo è quello della <strong>di</strong>stanza d<strong>al</strong>la<br />

me<strong>di</strong>a, che pone una soglia <strong>di</strong>mensionata in base <strong>al</strong>la varianza della<br />

<strong>di</strong>stribuzione dei rapporti delle intensità.<br />

Il criterio della soglia non lineare cerca, invece, <strong>di</strong> stabilire il livello<br />

<strong>di</strong> abbattimento del rumore sui dati in modo da poter modellare una soglia<br />

che tenga conto <strong>di</strong> questa informazione aggiuntiva.<br />

Nessuno <strong>di</strong> questi meto<strong>di</strong> produce una v<strong>al</strong>utazione statistica degli<br />

errori che possono essere commessi nell’affermare che un gene è<br />

<strong>di</strong>fferenzi<strong>al</strong>mente espresso. Un miglioramento in questo senso viene<br />

re<strong>al</strong>izzato con l’an<strong>al</strong>isi della significatività statistica dei microarray o SAM<br />

(Significance An<strong>al</strong>ysis of Microarray), che propone il F<strong>al</strong>se Discovery Rate<br />

(FDR) come parametro statistico <strong>di</strong> confidenza nella risposta ottenuta.<br />

51


Capitolo 3: Meto<strong>di</strong> <strong>di</strong> selezione a soglia e an<strong>al</strong>isi della significatività statistica<br />

3.1 “Fold change”<br />

I dati <strong>di</strong> espressione genica ottenuti d<strong>al</strong> processo <strong>di</strong> norm<strong>al</strong>izzazione<br />

possono essere rappresentati sottoforma <strong>di</strong> matrice; ogni riga della tabella<br />

in<strong>di</strong>vidua un gene, o una sua sequenza specifica, mentre ogni colonna<br />

contiene, gener<strong>al</strong>mente, v<strong>al</strong>ori qu<strong>al</strong>i la me<strong>di</strong>a e/o la me<strong>di</strong>ana sia del<br />

segn<strong>al</strong>e che del background, la me<strong>di</strong>ana del segn<strong>al</strong>e con il background<br />

sottratto, i punteggi assegnati ad ogni spot d<strong>al</strong> controllo <strong>di</strong> qu<strong>al</strong>ità, le<br />

percentu<strong>al</strong>i <strong>di</strong> pixel saturati in ciascun can<strong>al</strong>e per ogni spot, le posizioni<br />

degli spot sul microarray, i nomi dei geni e i loro co<strong>di</strong>ci identificativi nelle<br />

banche dati ed <strong>al</strong>tro ancora.<br />

Di particolare importanza è il v<strong>al</strong>ore relativo <strong>di</strong> espressione genica,<br />

anche detto “fold change” , definito come il rapporto fra le intensità <strong>di</strong><br />

segn<strong>al</strong>e misurate in entrambi i can<strong>al</strong>i.<br />

fold change = R/G<br />

dove R è l’intensità del segn<strong>al</strong>e generato d<strong>al</strong> campione marcato con il<br />

fluorocromo Cy5 e G è quella prodotta d<strong>al</strong> campione marcato con il Cy3<br />

per ogni spot. Il “fold change” è, dunque, il parametro che, in prima<br />

istanza, può essere utilizzato per <strong>di</strong>chiarare se un gene è <strong>di</strong>fferenzi<strong>al</strong>mente<br />

espresso in uno dei due can<strong>al</strong>i.<br />

Il v<strong>al</strong>ore <strong>di</strong> questa grandezza, mai negativo in quanto rapporto <strong>di</strong><br />

quantità positive o nulle, è compreso nell’interv<strong>al</strong>lo [0,+∞): i geni<br />

sovraespressi sono identificati da v<strong>al</strong>ori del “fold change” compresi in<br />

(1,+∞), mentre i geni sottoespressi presentano v<strong>al</strong>ori in [0,1).<br />

E’ evidente che v<strong>al</strong>ori del “fold change” più gran<strong>di</strong> o più piccoli <strong>di</strong> 1<br />

in<strong>di</strong>cano una maggiore o minore espressione del gene in uno dei due<br />

53


Capitolo 3: Meto<strong>di</strong> <strong>di</strong> selezione a soglia e an<strong>al</strong>isi della significatività statistica<br />

can<strong>al</strong>i, mentre v<strong>al</strong>ori prossimi ad 1 in<strong>di</strong>cano un’espressione simile in<br />

entrambi i can<strong>al</strong>i.<br />

R<br />

log 2<br />

G<br />

= −∞<br />

0<br />

log 2<br />

R<br />

= 1<br />

G<br />

R<br />

G<br />

= 0<br />

log 2<br />

R<br />

= +∞<br />

G<br />

Figura 3.1: Rappresentazione del fold change in sc<strong>al</strong>a lineare e in sc<strong>al</strong>a<br />

logaritmica<br />

R<br />

G<br />

= +∞<br />

Per ovviare <strong>al</strong>la <strong>di</strong>fferente ampiezza dei due interv<strong>al</strong>li <strong>di</strong> v<strong>al</strong>ori <strong>di</strong><br />

espressione viene solitamente applicata una trasformazione logaritmica ai<br />

dati in modo t<strong>al</strong>e che non sia più il semplice rapporto delle intensità il<br />

v<strong>al</strong>ore <strong>di</strong> riferimento ma la sua trasformata logaritmica, gener<strong>al</strong>mente in<br />

base 2.<br />

In conseguenza <strong>di</strong> ciò gli interv<strong>al</strong>li <strong>di</strong> variazione assumono<br />

<strong>di</strong>mensioni ugu<strong>al</strong>i, rispettivamente ]0, +∞] per i geni sovraespressi e [-∞,0[<br />

per i geni sottoespressi, e un gene viene considerato <strong>di</strong>fferenzi<strong>al</strong>mente<br />

espresso se il logaritmo del suo fold change non cade in un intorno<br />

“sufficientemente” largo dello zero.<br />

54


Capitolo 3: Meto<strong>di</strong> <strong>di</strong> selezione a soglia e an<strong>al</strong>isi della significatività statistica<br />

Figura 3.2: Trasformazione logaritmica sui dati <strong>di</strong> espressione <strong>di</strong>fferenzi<strong>al</strong>e<br />

3.2 Metodo del v<strong>al</strong>ore <strong>di</strong> soglia<br />

Un gene viene considerato <strong>di</strong>fferenzi<strong>al</strong>mente espresso se il suo livello<br />

<strong>di</strong> espressione si <strong>di</strong>scosta in modo “significativo” da quello della con<strong>di</strong>zione<br />

<strong>di</strong> controllo. Il termine “significativo” è strettamente correlato <strong>al</strong>la teoria<br />

statistica della verifica delle ipotesi, che v<strong>al</strong>uta se gli scostamenti osservati<br />

da una determinata con<strong>di</strong>zione siano attribuibili o meno <strong>al</strong> caso.<br />

Il metodo più semplice, e forse anche attu<strong>al</strong>mente più usato, è il<br />

metodo del v<strong>al</strong>ore <strong>di</strong> soglia; con questo criterio si determina sui v<strong>al</strong>ori del<br />

“fold change” un interv<strong>al</strong>lo simmetrico rispetto <strong>al</strong>lo zero e i geni che hanno<br />

livelli <strong>di</strong> espressione maggiori del suo limite superiore vengono considerati<br />

55


Capitolo 3: Meto<strong>di</strong> <strong>di</strong> selezione a soglia e an<strong>al</strong>isi della significatività statistica<br />

sovraespressi, mentre quelli con livello minore del limite inferiore vengono<br />

considerati sottoespressi.<br />

Per visu<strong>al</strong>izzare meglio questo metodo è possibile considerare<br />

l’istogramma dei rapporti R/G, come in figura 3.3.<br />

Partendo d<strong>al</strong>l’ipotesi che molti geni non saranno <strong>di</strong>fferenzi<strong>al</strong>mente<br />

espressi, si dovrà trovare una <strong>di</strong>stribuzione gaussiana del “fold change”<br />

centrata sullo zero; per selezionare i geni <strong>di</strong>fferenzi<strong>al</strong>mente espressi si deve<br />

collocare una soglia bilater<strong>al</strong>e sulla <strong>di</strong>stribuzione e considerare tutti quei<br />

geni che sono posizionati <strong>al</strong>l’esterno dell’interv<strong>al</strong>lo così ottenuto.<br />

Se, per esempio, si reputa che il v<strong>al</strong>ore <strong>di</strong> soglia sul “fold change”<br />

possa essere fissato a ±2, <strong>al</strong>lora i geni <strong>di</strong>fferenzi<strong>al</strong>mente espressi saranno<br />

quelli con rapporto logaritmico maggiore <strong>di</strong> +1 e minore <strong>di</strong> –1.<br />

Figura 3.3: Istogramma del fold change con apposizione della soglia empirica bilater<strong>al</strong>e<br />

per la selezione dell’espressione <strong>di</strong>fferenzi<strong>al</strong>e.<br />

D<strong>al</strong> punto <strong>di</strong> vista grafico, se su uno “scatterplot” del logaritmo delle<br />

intensità del controllo verso il logaritmo <strong>di</strong> quelle del trattato si vogliono<br />

visu<strong>al</strong>izzare i geni <strong>di</strong>fferenzi<strong>al</strong>mente espressi, basta tracciare due linee<br />

par<strong>al</strong>lele <strong>al</strong>la bisettrice del quadrante la cui <strong>di</strong>stanza da quest’ultima<br />

56


Capitolo 3: Meto<strong>di</strong> <strong>di</strong> selezione a soglia e an<strong>al</strong>isi della significatività statistica<br />

corrisponde <strong>al</strong> v<strong>al</strong>ore <strong>di</strong> soglia, e selezionare come <strong>di</strong>fferenzi<strong>al</strong>mente<br />

espressi i geni fuori d<strong>al</strong>l’area delimitata d<strong>al</strong>le due rette.<br />

Figura 3.4: Scatterplot del campione <strong>di</strong> controllo contro quello <strong>di</strong> trattato con<br />

apposizione della soglia empirica bilater<strong>al</strong>e.<br />

E’ possibile osservare l’effetto dell’apposizione della soglia anche in<br />

un <strong>al</strong>tro tipo <strong>di</strong> “scatterplot” dei dati, detto RI-plot, che ha in ascissa il<br />

prodotto delle intensità e in or<strong>di</strong>nata il loro rapporto: anche in questo caso<br />

la soglia bilater<strong>al</strong>e in<strong>di</strong>vidua un’area <strong>al</strong> <strong>di</strong> fuori della qu<strong>al</strong>e i geni vengono<br />

considerati <strong>di</strong>fferenzi<strong>al</strong>mente espressi.<br />

57


Capitolo 3: Meto<strong>di</strong> <strong>di</strong> selezione a soglia e an<strong>al</strong>isi della significatività statistica<br />

Figura 3.5: RI-plot dei dati <strong>di</strong> intensità con posizionamento della soglia bilater<strong>al</strong>e<br />

Questo metodo <strong>di</strong> selezione pur avendo il vantaggio <strong>di</strong> essere molto<br />

intuitivo ha, per contro, la tot<strong>al</strong>e mancanza <strong>di</strong> una teoria statistica <strong>al</strong>la<br />

base della scelta dei v<strong>al</strong>ori <strong>di</strong> soglia. Se, per esempio, il trattamento non<br />

provoca un’espressione <strong>di</strong>fferenzi<strong>al</strong>e dell’entità della soglia fissata, non<br />

vengono rilevati geni sovra o sotto regolati anche se è molto probabile che<br />

queste con<strong>di</strong>zioni si siano verificate.<br />

In termini statistici, come specificato nell’appen<strong>di</strong>ce A, questa<br />

caratteristica si traduce nell’incapacità <strong>di</strong> rilevare i veri positivi, cioè la<br />

meto<strong>di</strong>ca manca <strong>di</strong> sensibilità.<br />

An<strong>al</strong>ogamente, quando il trattamento è t<strong>al</strong>e da provocare una<br />

marcata espressione <strong>di</strong>fferenzi<strong>al</strong>e e la soglia selezionata è troppo bassa, si<br />

evidenzia l’inadeguatezza del metodo nel rilevare i veri negativi, cioè la<br />

meto<strong>di</strong>ca è poco specifica.<br />

58


Capitolo 3: Meto<strong>di</strong> <strong>di</strong> selezione a soglia e an<strong>al</strong>isi della significatività statistica<br />

3.3 Metodo della <strong>di</strong>stanza d<strong>al</strong>la me<strong>di</strong>a<br />

Un approccio <strong>al</strong>ternativo basato sul concetto <strong>di</strong> soglia, utilizzato per<br />

in<strong>di</strong>viduare i geni <strong>di</strong>fferenzi<strong>al</strong>mente espressi, consiste nel collocare la<br />

soglia ad una <strong>di</strong>stanza prefissata, prendendo come punto <strong>di</strong> riferimento la<br />

me<strong>di</strong>a della <strong>di</strong>stribuzione del rapporto dei due can<strong>al</strong>i.<br />

Ogni esperimento produce una <strong>di</strong>versa <strong>di</strong>stribuzione ed essa è<br />

gener<strong>al</strong>mente <strong>di</strong> tipo gaussiano, per cui è possibile descriverla attraverso il<br />

suo v<strong>al</strong>ore me<strong>di</strong>o e la sua varianza σ 2 .<br />

Questo metodo posiziona una soglia <strong>di</strong> selezione sulla base della<br />

deviazione standard σ della <strong>di</strong>stribuzione; tipicamente questa soglia viene<br />

fissata a ±2σ.<br />

Si può facilmente intuire che, rispetto <strong>al</strong> metodo <strong>di</strong> soglia empirica,<br />

questo sistema consente <strong>di</strong> “adattare” la larghezza dell’interv<strong>al</strong>lo <strong>al</strong>la<br />

variazione <strong>di</strong> espressione in relazione <strong>al</strong> trattamento applicato, ossia si<br />

adatta <strong>al</strong>la <strong>di</strong>stribuzione dei dati.<br />

D<strong>al</strong> punto <strong>di</strong> vista grafico, per effettuare una scelta sulla base della<br />

deviazione standard è necessario fare una trasformazione dei dati <strong>di</strong> “fold<br />

change” in modo da sottrarre la me<strong>di</strong>a e <strong>di</strong>videre per la deviazione<br />

standard, questo corrisponde a fare una trasformata z dei dati:<br />

− μ<br />

=<br />

σ<br />

X<br />

Z<br />

dove X sono i dati da trasformare, μ è la me<strong>di</strong>a della <strong>di</strong>stribuzione e<br />

σ è la sua deviazione standard.<br />

La nuova <strong>di</strong>stribuzione dei dati avrà me<strong>di</strong>a nulla e varianza unitaria,<br />

quin<strong>di</strong> sul suo istogramma, che ha in ascissa la deviazione standard e in<br />

or<strong>di</strong>nata il v<strong>al</strong>ore <strong>di</strong> z, si posizionerà una soglia su ±2 come nel caso del<br />

v<strong>al</strong>ore empirico.<br />

59


Capitolo 3: Meto<strong>di</strong> <strong>di</strong> selezione a soglia e an<strong>al</strong>isi della significatività statistica<br />

Figura 3.6: Distribuzione dei logaritmi dei rapporti con apposizione della soglia bilater<strong>al</strong>e<br />

a ±2σ<br />

Z<br />

Posizionare la soglia a ±2σ coincide con il considerare il 5% <strong>di</strong> geni<br />

come <strong>di</strong>fferenzi<strong>al</strong>mente espressi e questo perché se si sommano la<br />

probabilità che i nuovi dati trasformati siano +2 si raggiunge questa percentu<strong>al</strong>e. Da questo semplice<br />

c<strong>al</strong>colo si può osservare il limite più evidente del metodo: questa<br />

percentu<strong>al</strong>e resta fissa anche se in re<strong>al</strong>tà non ci sono geni<br />

<strong>di</strong>fferenzi<strong>al</strong>mente espressi, o se ve ne sono <strong>di</strong> più <strong>di</strong> quanto ipotizzato.<br />

Nel primo caso il problema è dovuto essenzi<strong>al</strong>mente <strong>al</strong> fatto che i<br />

dati provenienti da microarray sono sempre affetti da rumore. Si supponga<br />

per esempio <strong>di</strong> fare un esperimento nel qu<strong>al</strong>e lo stesso materi<strong>al</strong>e viene<br />

marcato con entrambi i fluorocromi e poi ibri<strong>di</strong>zzato su un microarray.<br />

Ide<strong>al</strong>mente a tutti i geni dovrebbe corrispondere lo stesso v<strong>al</strong>ore <strong>di</strong><br />

espressione nei due can<strong>al</strong>i, ma ciò non si verifica per la presenza <strong>di</strong><br />

rumore nella misurazione.<br />

Se la con<strong>di</strong>zione ide<strong>al</strong>e venisse rispettata la <strong>di</strong>stribuzione dei<br />

rapporti dovrebbe essere tanto stretta da poter essere approssimata con<br />

un delta <strong>di</strong> Dirac centrato sullo zero e la deviazione standard dovrebbe<br />

essere nulla. A causa della presenza del rumore, invece, la <strong>di</strong>stribuzione<br />

presenta una forma a campana e la deviazione è <strong>di</strong>versa da zero, per<br />

questo motivo viene evidenziata un’espressione <strong>di</strong>fferenzi<strong>al</strong>e anche quando<br />

σ<br />

60


Capitolo 3: Meto<strong>di</strong> <strong>di</strong> selezione a soglia e an<strong>al</strong>isi della significatività statistica<br />

essa è assente. In termini statistici è stata rifiutata l’ipotesi nulla quando<br />

essa è vera, per cui è stato commesso un errore <strong>di</strong> tipo I.<br />

Nel secondo caso, la percentu<strong>al</strong>e <strong>di</strong> geni <strong>di</strong>fferenzi<strong>al</strong>mente espressi<br />

rimane fissa anche quando ve ne è una quantità maggiore, evidenziando<br />

l’incapacità del metodo <strong>di</strong> rilevare f<strong>al</strong>si negativi: ciò corrisponde a<br />

commettere un errore <strong>di</strong> tipo II.<br />

3.4 Metodo della soglia non lineare<br />

Il rumore che presentano i dati <strong>di</strong> espressione genica non si abbatte<br />

uniformemente su <strong>di</strong> essi, ma, poiché presenta una <strong>di</strong>stribuzione<br />

gaussiana, ha un maggior effetto sui dati a bassa intensità piuttosto che<br />

su quelli ad <strong>al</strong>ta intensità.<br />

Figura 3.7: Distribuzione del rumore e banda <strong>di</strong> abbattimento sui dati<br />

Per sfruttare questa informazione d<strong>al</strong> punto <strong>di</strong> vista della selezione<br />

<strong>di</strong> geni <strong>di</strong>fferenzi<strong>al</strong>mente espressi si può pensare <strong>di</strong> generare una soglia<br />

61


Capitolo 3: Meto<strong>di</strong> <strong>di</strong> selezione a soglia e an<strong>al</strong>isi della significatività statistica<br />

non-lineare modulabile con il livello <strong>di</strong> rumore che viene riscontrato. L’idea<br />

è quella <strong>di</strong> dare una caratterizzazione statistica <strong>al</strong> rumore e confrontare la<br />

sua <strong>di</strong>stribuzione con quella dei logaritmi del fold change in modo da<br />

determinarne la “percentu<strong>al</strong>e” <strong>di</strong> abbattimento sul dato a tutte le<br />

intensità.<br />

Da questo confronto si può ricavare una misura dell’affidabilità dei<br />

dati non in maniera glob<strong>al</strong>e, ma puntu<strong>al</strong>mente su ognuno <strong>di</strong> essi e in<br />

modo da poter generare una curva non-lineare che funzioni da soglia per<br />

la selezione dei geni <strong>di</strong>fferenzi<strong>al</strong>mente espressi.<br />

Figura 3.8: Distribuzione dei dati con apposizione della soglia lineare (in<br />

arancione) e della soglia non lineare (in gi<strong>al</strong>lo)<br />

3.5 An<strong>al</strong>isi della significatività sui microarray<br />

I meto<strong>di</strong> precedentemente illustrati non sono re<strong>al</strong>izzati su base<br />

statistica; nessuno <strong>di</strong> loro, infatti, esprime un livello <strong>di</strong> confidenza sui geni<br />

selezionati come <strong>di</strong>fferenzi<strong>al</strong>mente espressi oppure quantifica il numero <strong>di</strong><br />

errori <strong>di</strong> tipo I per caratterizzare l’affidabilità del risultato<br />

62


Capitolo 3: Meto<strong>di</strong> <strong>di</strong> selezione a soglia e an<strong>al</strong>isi della significatività statistica<br />

Sebbene i meto<strong>di</strong> a soglia siano estremamente intuitivi, la presenza<br />

<strong>di</strong> rumore e <strong>di</strong> numerosi fattori <strong>di</strong> variabilità dei dati, non sempre ben<br />

quantificabili ed eliminabili, rende necessaria l’adozione <strong>di</strong> approcci<br />

statistici per la selezione dei geni <strong>di</strong>fferenzi<strong>al</strong>mente espressi.<br />

In questo contesto, il metodo che va sotto il nome <strong>di</strong> an<strong>al</strong>isi della<br />

significatività statistica (Tusher et <strong>al</strong>., 2001) conferisce una solida base<br />

statistica ad un criterio <strong>di</strong> selezione a soglia.<br />

Nell’an<strong>al</strong>isi della significatività statistica (SAM) viene assegnato un<br />

punteggio ad ogni gene effettuando misure virtu<strong>al</strong>i ripetute della sua<br />

espressione e considerando i cambiamenti relativi, rispetto <strong>al</strong>la deviazione<br />

standard, <strong>di</strong> ogni livello <strong>di</strong> espressione.<br />

Capita spesso che un metodo <strong>di</strong> an<strong>al</strong>isi statistica utilizzi “bootstrap”<br />

o permutazioni, cioè un campionamento dei dati con o senza sostituzione<br />

delle osservazioni, per creare degli insiemi <strong>di</strong> dati surrogati a partire dai<br />

qu<strong>al</strong>i effettuare le necessarie speculazioni statistiche; questi approcci<br />

hanno tanto più v<strong>al</strong>ore quanto minore è il numero delle informazioni o dei<br />

dati <strong>di</strong>sponibili.<br />

SAM si basa su un test statistico, noto come t-test, in cui vengono<br />

messe a confronto le me<strong>di</strong>e delle due <strong>di</strong>stribuzioni <strong>di</strong> dati che si vogliono<br />

paragonare, attraverso la verifica <strong>di</strong> due ipotesi: l’ipotesi nulla, secondo<br />

cui i due campioni <strong>di</strong> dati provengono d<strong>al</strong>la stessa popolazione, e l’ipotesi<br />

<strong>al</strong>ternativa, che afferma che i dati appartengono a due popolazioni<br />

<strong>di</strong>stinte.<br />

D<strong>al</strong> punto <strong>di</strong> vista dell’espressione <strong>di</strong>fferenzi<strong>al</strong>e dei geni queste<br />

ipotesi si possono definire come:<br />

Ipotesi nulla: i due v<strong>al</strong>ori <strong>di</strong> espressione che si stanno<br />

confrontando in<strong>di</strong>cano che il gene non è <strong>di</strong>fferenzi<strong>al</strong>mente<br />

espresso;<br />

Ipotesi <strong>al</strong>ternativa: i due v<strong>al</strong>ori <strong>di</strong> espressione in<strong>di</strong>cano che il<br />

gene è <strong>di</strong>fferenzi<strong>al</strong>mente espresso.<br />

63


Capitolo 3: Meto<strong>di</strong> <strong>di</strong> selezione a soglia e an<strong>al</strong>isi della significatività statistica<br />

C<strong>al</strong>colate le me<strong>di</strong>e X A e X B delle misure relative ad ogni gene<br />

nelle due con<strong>di</strong>zioni, nell’assunzione che i dati siano norm<strong>al</strong>mente<br />

<strong>di</strong>stribuiti, esse vengono confrontate attraverso una statistica, detta t, la<br />

cui forma an<strong>al</strong>itica è:<br />

t<br />

≡<br />

( X A − X B )<br />

− 0<br />

e(<br />

X A − X B )<br />

dove <strong>al</strong> numeratore vi è la <strong>di</strong>fferenza fra le me<strong>di</strong>e delle misure<br />

associate ad ogni gene e la me<strong>di</strong>a nulla della <strong>di</strong>stribuzione della statistica,<br />

mentre <strong>al</strong> denominatore vi è l’errore standard relativo <strong>al</strong>lo stesso gene<br />

nelle due con<strong>di</strong>zioni.<br />

Questa statistica è una variabile <strong>al</strong>eatoria che segue una<br />

<strong>di</strong>stribuzione, nota come t-Student, il cui andamento è caratterizzato dai<br />

gra<strong>di</strong> <strong>di</strong> libertà forniti d<strong>al</strong>le osservazioni <strong>di</strong>sponibili. I gra<strong>di</strong> <strong>di</strong> libertà<br />

vengono definiti come il numero <strong>di</strong> osservazioni in<strong>di</strong>pendenti necessarie<br />

per ottenere la misura della statistica rispetto <strong>al</strong> numero <strong>di</strong> osservazioni<br />

tot<strong>al</strong>i.<br />

Per affermare che l’ipotesi nulla è vera ( X A = X B ), o che bisogna<br />

rigettarla ( X A ≠ X B ), occorre stabilire un livello <strong>di</strong> confidenza α,<br />

gener<strong>al</strong>mente posto ugu<strong>al</strong>e a 0.01 o 0.05 nella statistica biome<strong>di</strong>ca, e<br />

ricavare d<strong>al</strong>la <strong>di</strong>stribuzione t-Student, per la qu<strong>al</strong>e si sono fissati i gra<strong>di</strong> <strong>di</strong><br />

libertà, il v<strong>al</strong>ore della variabile t, detto tα, cui corrisponde quel livello <strong>di</strong><br />

confidenza..<br />

D<strong>al</strong> confronto fra la variabile tα e la t ricavata d<strong>al</strong>le misure si<br />

stabilisce che:<br />

|t| < |tα|-> ipotesi nulla vera;<br />

|t| > |tα|-> ipotesi nulla rigettata.<br />

64


Capitolo 3: Meto<strong>di</strong> <strong>di</strong> selezione a soglia e an<strong>al</strong>isi della significatività statistica<br />

La soluzione <strong>di</strong> fare tanti t-test accoppiati per quanti sono i geni è<br />

molto semplice ed intuitiva, tuttavia, come spiegato nell’appen<strong>di</strong>ce A, ciò<br />

fa aumentare la probabilità <strong>di</strong> commettere <strong>al</strong>meno un errore <strong>di</strong> tipo I.<br />

Per ovviare a questo problema, il metodo <strong>di</strong> an<strong>al</strong>isi della<br />

significatività concepisce una nuova statistica, molto simile <strong>al</strong>la statistica<br />

t, con l’intento <strong>di</strong> generare un punteggio per il test che si sta effettuando;<br />

questo punteggio viene poi utilizzato per verificare le ipotesi <strong>di</strong> test sia sui<br />

dati origin<strong>al</strong>i che su quelli surrogati generati attraverso le permutazioni.<br />

Per visu<strong>al</strong>izzare meglio il proce<strong>di</strong>mento, <strong>di</strong> seguito è riportato il<br />

<strong>di</strong>agramma delle operazioni eseguite d<strong>al</strong>l’an<strong>al</strong>isi della significatività:<br />

Definizione e c<strong>al</strong>colo<br />

del punteggio d(i)<br />

Dati <strong>di</strong> espressione genica<br />

Norm<strong>al</strong>izzazione<br />

Identificazione dei geni<br />

potenzi<strong>al</strong>mente significativi<br />

Stima <strong>di</strong> FDR*<br />

Scelta <strong>di</strong> Δ<br />

Selezione dei geni<br />

<strong>di</strong>fferenzi<strong>al</strong>mente espressi<br />

Generazione delle<br />

permutazioni<br />

Definizione e c<strong>al</strong>colo<br />

del punteggio d (i)<br />

Figura 3.9: Diagramma delle operazioni effettuate nell’an<strong>al</strong>isi della significatività<br />

statistica .*FDR (F<strong>al</strong>se Discovery Rate)<br />

p<br />

65


Capitolo 3: Meto<strong>di</strong> <strong>di</strong> selezione a soglia e an<strong>al</strong>isi della significatività statistica<br />

Partendo d<strong>al</strong>l’ipotesi che le fluttuazioni del rumore sul dato sono<br />

gene specifiche, il primo passo del trattamento consiste nella<br />

norm<strong>al</strong>izzazione con i meto<strong>di</strong> usu<strong>al</strong>i e nella visu<strong>al</strong>izzazione dei dati<br />

attraverso “scatterplot” o “cube root plot”, che è il grafico della ra<strong>di</strong>ce<br />

cubica delle due intensità e permette <strong>di</strong> evidenziare il comportamento dei<br />

geni a basse intensità <strong>di</strong> fluorescenza e <strong>di</strong> identificare i geni<br />

<strong>di</strong>fferenzi<strong>al</strong>mente espressi a queste intensità, come mostrato nella figura<br />

3.10.<br />

Figura 3.10: Scatterplot e cube root plot dei dati<br />

Il passo successivo c<strong>al</strong>cola il punteggio d(i) per ogni gene i nelle due<br />

con<strong>di</strong>zioni che si vogliono verificare<br />

dove:<br />

d(<br />

i)<br />

=<br />

x<br />

C1<br />

( i)<br />

− x<br />

s(<br />

i)<br />

+ s<br />

C 2<br />

0<br />

( i)<br />

<strong>al</strong> numeratore vi è la <strong>di</strong>fferenza fra le me<strong>di</strong>e delle misure<br />

relative <strong>al</strong>le due con<strong>di</strong>zioni C1 e C2 per il gene i-esimo (possono<br />

essere, per esempio, trattato e controllo);<br />

66


Capitolo 3: Meto<strong>di</strong> <strong>di</strong> selezione a soglia e an<strong>al</strong>isi della significatività statistica<br />

<strong>al</strong> denominatore vi è la somma fra la stima della deviazione<br />

standard del numeratore e un v<strong>al</strong>ore ad<strong>di</strong>tivo s0, detto “fudge<br />

factor”.<br />

La deviazione standard del numeratore può essere c<strong>al</strong>colata in base<br />

<strong>al</strong>la seguente formula <strong>di</strong> stima:<br />

1 1 ⎛ +<br />

n ⎞ 1<br />

n2<br />

n ⎧<br />

1 n2<br />

2<br />

s(<br />

i)<br />

=<br />

⎜<br />

⎟<br />

⎟⎨∑[<br />

xh<br />

( i)<br />

− xC<br />

( i)]<br />

+<br />

1 ∑[<br />

x<br />

⎝ n1<br />

+ n2<br />

− 2 ⎠⎩<br />

h=<br />

1<br />

k=<br />

1<br />

dove:<br />

k<br />

( i)<br />

− x<br />

C<br />

2<br />

( i)]<br />

le due sommatorie sono estese <strong>al</strong> numero <strong>di</strong> misure effettuate<br />

nei due stati;<br />

n1 è il numero <strong>di</strong> misure nello stato C1;<br />

n2 è il numero <strong>di</strong> misure nello stato C2.<br />

A bassi livelli <strong>di</strong> espressione la varianza <strong>di</strong> d(i) può essere <strong>al</strong>ta a<br />

causa <strong>di</strong> piccoli v<strong>al</strong>ori <strong>di</strong> s(i). Per assicurare l’in<strong>di</strong>pendenza della<br />

<strong>di</strong>stribuzione dei d(i) d<strong>al</strong> livello <strong>di</strong> espressione del gene è necessario<br />

aggiungere un fattore ad<strong>di</strong>tivo so <strong>al</strong> denominatore del punteggio. Il v<strong>al</strong>ore<br />

<strong>di</strong> s0 viene scelto in modo da minimizzare il coefficiente <strong>di</strong> variazione <strong>di</strong> d(i)<br />

in funzione <strong>di</strong> s(i) attraverso un proce<strong>di</strong>mento a finestre mobili sui dati.<br />

In gener<strong>al</strong>e si sceglie s0 in maniera che il coefficiente <strong>di</strong> variazione <strong>di</strong><br />

d(i) sia approssimativamente costante <strong>al</strong> variare <strong>di</strong> s(i).<br />

L’acquisizione <strong>di</strong> una stima <strong>di</strong> confidenza (FDR) sui dati richiede la<br />

re<strong>al</strong>izzazione <strong>di</strong> numerosi esperimenti <strong>al</strong> fine <strong>di</strong> ottenere un’informazione il<br />

più possibile completa sui livelli <strong>di</strong> espressione <strong>di</strong> tutti i geni. Poiché<br />

eseguire molti esperimenti è <strong>di</strong>spen<strong>di</strong>oso sia in termini <strong>di</strong> tempo che<br />

economici, vengono effettuate una serie <strong>di</strong> permutazioni dei dati, ognuna<br />

2<br />

⎫<br />

⎬<br />

⎭<br />

67


Capitolo 3: Meto<strong>di</strong> <strong>di</strong> selezione a soglia e an<strong>al</strong>isi della significatività statistica<br />

delle qu<strong>al</strong>i produce un nuovo v<strong>al</strong>ore del punteggio d(i); t<strong>al</strong>i permutazioni<br />

devono essere bilanciate.<br />

Una permutazione è bilanciata se per ogni gruppo <strong>di</strong> g esperimenti,<br />

con g pari <strong>al</strong> numero <strong>di</strong> campioni che sono stati ibri<strong>di</strong>zzati, vi sono g/2<br />

esperimenti per campione.<br />

Si an<strong>al</strong>izzi, per esempio, l’esperimento effettuato da Tusher su due<br />

linee umane linfoblastoi<strong>di</strong> “wild-type” (Tusher et <strong>al</strong>., 2001). In questo<br />

esperimento le cellule <strong>di</strong> ogni linea sono state fatte crescere in uno stato<br />

irra<strong>di</strong>ato (I), sottoposte a 5 Gy <strong>di</strong> ra<strong>di</strong>azione ionizzante per una durata <strong>di</strong><br />

quattro ore, e in uno stato non irra<strong>di</strong>ato (U). I campioni sono stati, poi,<br />

marcati e <strong>di</strong>visi in due <strong>al</strong>iquote ugu<strong>al</strong>i A e B; si hanno, quin<strong>di</strong>, otto<br />

campioni U1A, U1B, I1A, I1B, U2A, U2B, I2A, I2B. I campioni sono stati<br />

successivamente confrontati fra <strong>di</strong> loro in esperimenti con ugu<strong>al</strong>e linea<br />

cellulare e <strong>al</strong>iquota, ossia (U1A vs I1A), (U1B vs I1B), ecc.<br />

Per ognuna delle due con<strong>di</strong>zioni speriment<strong>al</strong>i (U e I), costituite da<br />

quattro campioni, due per linea cellulare, si possono ottenere<br />

⎛4<br />

⎞<br />

⎜ ⎟ =<br />

⎝2<br />

⎠<br />

4!<br />

4*<br />

3*<br />

2<br />

= = 6<br />

2!<br />

( 4 − 2)!<br />

2*<br />

2<br />

raggruppamenti a due a due dei campioni stessi.<br />

In questo caso, le permutazioni bilanciate sono date da tutti i<br />

possibili accoppiamenti fra le coppie <strong>di</strong> campioni delle due con<strong>di</strong>zioni<br />

⎛ ⎞<br />

speriment<strong>al</strong>i: si ottengono in tot<strong>al</strong>e ⎜ ⎟ = 36 permutazioni bilanciate.<br />

⎝2⎠<br />

4 2<br />

Figura 3.11: Esempio <strong>di</strong> due permutazioni bilanciate con due linee cellulari (i colori<br />

in<strong>di</strong>cano il fluorocromo utilizzato per la marcatura dei campioni).<br />

68


Capitolo 3: Meto<strong>di</strong> <strong>di</strong> selezione a soglia e an<strong>al</strong>isi della significatività statistica<br />

Per stimare l’or<strong>di</strong>ne delle statistiche d(i), vengono c<strong>al</strong>colati per ogni<br />

permutazione p i punteggi dp(i) da attribuire <strong>al</strong> gene i <strong>di</strong> ogni coppia <strong>di</strong><br />

esperimenti, secondo la definizione:<br />

d<br />

p<br />

( i)<br />

=<br />

x<br />

G1<br />

( i)<br />

− x<br />

s(<br />

i)<br />

+ s<br />

dove con Gi si in<strong>di</strong>cano i due gruppi della permutazione, ossia le due<br />

con<strong>di</strong>zioni speriment<strong>al</strong>i.<br />

G2<br />

0<br />

( i)<br />

I punteggi così ottenuti sono or<strong>di</strong>nati in senso ascendente:<br />

d p ( 1)<br />

≥ d p ( 2)<br />

≥ d p ( 3)<br />

≥ ... ≥ d p<br />

( k)<br />

dove k in<strong>di</strong>ca la posizione del punteggio <strong>al</strong>l’interno dell’insieme<br />

or<strong>di</strong>nato dei dp(i) .<br />

come:<br />

Si definisce la <strong>di</strong>fferenza relativa attesa sul numero <strong>di</strong> permutazioni<br />

d<br />

E k (<br />

come nell’esempio in<strong>di</strong>cato in figura 3.12.<br />

)<br />

=<br />

n p<br />

d p ( k )<br />

∑ n p<br />

p=<br />

1<br />

Figura 3.12: Punteggi <strong>di</strong> permutazione e punteggio atteso su tutte le permutazioni<br />

k)<br />

69


Capitolo 3: Meto<strong>di</strong> <strong>di</strong> selezione a soglia e an<strong>al</strong>isi della significatività statistica<br />

Per identificare i geni significativamente espressi si or<strong>di</strong>nano i<br />

punteggi dei dati origin<strong>al</strong>i in senso ascendente e si in<strong>di</strong>ca con d i (k) il<br />

punteggio d(i) del gene che era in posizione i-esima e dopo l’or<strong>di</strong>namento si<br />

trova in posizione k-esima.<br />

Per mettere in relazione i punteggi d i (k) con le <strong>di</strong>fferenze relative<br />

attese dE(k) si fa uno scatterplot che prende il nome <strong>di</strong> “SAM plot”.<br />

d i (k)≅dE(k).<br />

Figura 3.13: “SAM plot”<br />

D<strong>al</strong>la figura 3.13 si può osservare che per <strong>di</strong>versi geni si ha che<br />

Una volta stabilita una soglia Δ si in<strong>di</strong>viduano il più piccolo d(i)<br />

positivo (t1) e il più grande d(i) negativo (t2) t<strong>al</strong>i che:<br />

i<br />

d E<br />

( k)<br />

− d ( k)<br />

e il gene i-esimo viene definito potenzi<strong>al</strong>mente <strong>di</strong>fferenzi<strong>al</strong>mente espresso<br />

se v<strong>al</strong>e che d i (k) ≥ t1 o d i (k) ≤ t2<br />

≥<br />

Δ<br />

70


Capitolo 3: Meto<strong>di</strong> <strong>di</strong> selezione a soglia e an<strong>al</strong>isi della significatività statistica<br />

Figura 3.14: SAM plot con apposizione della soglia superiore t1 e della soglia<br />

inferiore t2<br />

Per dare una v<strong>al</strong>utazione statistica dell’affidabilità con cui si è<br />

in<strong>di</strong>viduato l’insieme <strong>di</strong> geni <strong>di</strong>fferenzi<strong>al</strong>mente espressi si stima il F<strong>al</strong>se<br />

Discovery Rate (FDR):<br />

FDR<br />

1<br />

n p<br />

n p p 1<br />

≈ ∑ =<br />

card{<br />

i | d<br />

card{<br />

i | d(<br />

i)<br />

≥ t<br />

p<br />

( i)<br />

≥ t<br />

1<br />

1<br />

∨ d<br />

p<br />

∨ d(<br />

i)<br />

≤ t<br />

( i)<br />

≤ t<br />

dove, fissati i v<strong>al</strong>ori <strong>di</strong> soglia t1 e t2 , <strong>al</strong> numeratore si ha la me<strong>di</strong>a del<br />

numero <strong>di</strong> geni in<strong>di</strong>viduati come <strong>di</strong>fferenzi<strong>al</strong>mente espressi attraverso le<br />

permutazioni e <strong>al</strong> denominatore il numero <strong>di</strong> geni <strong>di</strong>fferenzi<strong>al</strong>mente<br />

espressi ottenuti d<strong>al</strong>l’an<strong>al</strong>isi dei dati re<strong>al</strong>i.<br />

I geni <strong>di</strong>fferenzi<strong>al</strong>mente espressi prodotti da una permutazione p<br />

sono detti “f<strong>al</strong>samente significativamente espressi” e sono in<strong>di</strong>viduati con<br />

la stessa procedura con cui si selezionano i geni significativamente<br />

espressi, ma sostituendo d i (k) con dp(k), ossia:<br />

d p<br />

E<br />

( k)<br />

− d ( k)<br />

<<br />

Δ<br />

2<br />

}<br />

2<br />

}<br />

71


Capitolo 3: Meto<strong>di</strong> <strong>di</strong> selezione a soglia e an<strong>al</strong>isi della significatività statistica<br />

Ovviamente questa stima è <strong>di</strong>fferente a seconda della soglia<br />

impostata, per cui è possibile determinare il v<strong>al</strong>ore <strong>di</strong> Δ a seconda del FDR<br />

che<br />

si desidera avere sui dati. Come si può osservare nella tabella 3.1, ad<br />

un minore<br />

FDR corrispondono Δ maggiori e, come immaginabile,<br />

<strong>di</strong>minuisce il numero <strong>di</strong> geni <strong>di</strong>fferenzi<strong>al</strong>mente espressi in<strong>di</strong>viduati.<br />

Tabella 3.1: Lista dei geni <strong>di</strong>fferenzi<strong>al</strong>mente espressi in funzione <strong>di</strong> FDR e Δ<br />

Il metodo <strong>di</strong> an<strong>al</strong>isi della significatività statistica utilizza, quin<strong>di</strong>, un<br />

concetto<br />

intuitivo come quello del v<strong>al</strong>ore <strong>di</strong> soglia, irrobustito da una<br />

v<strong>al</strong>utazione statistica del risultato ottenuto.<br />

Rispetto <strong>al</strong>le meto<strong>di</strong>che illustrate nei precedenti paragrafi è bene<br />

evidenziare <strong>al</strong>cuni sostanzi<strong>al</strong>i vantaggi che il metodo qui <strong>di</strong>scusso<br />

presenta.<br />

Il criterio che in<strong>di</strong>vidua i due v<strong>al</strong>ori <strong>di</strong> soglia nel SAM è <strong>di</strong> tipo<br />

iterativo, permettendo un maggiore controllo sui dati e sulle loro<br />

fluttuazioni;<br />

queste ultime vengono catturate attraverso le permutazioni.<br />

Il processo <strong>di</strong> permutazione dei dati consente, infatti, <strong>di</strong> considerare<br />

i due insiemi <strong>di</strong> geni sovraespressi e sottoespressi come “in<strong>di</strong>pendenti”,<br />

ossia è possibile ricavare per essi due v<strong>al</strong>ori <strong>di</strong> soglia che possono portare<br />

ad avere<br />

un interv<strong>al</strong>lo non simmetrico sull’istogramma. Ciò è conseguenza<br />

del fatto che l’espressione <strong>di</strong>fferenzi<strong>al</strong>e non si manifesta necessariamente<br />

con la stessa intensità relativa sui geni sovraespressi e sottoespressi, ma<br />

può succedere che il “fold change” minimo per affermare la presenza <strong>di</strong><br />

espressione <strong>di</strong>fferenzi<strong>al</strong>e non sia lo stesso.<br />

72


Capitolo 3: Meto<strong>di</strong> <strong>di</strong> selezione a soglia e an<strong>al</strong>isi della significatività statistica<br />

L’uso <strong>di</strong> permutazioni, inoltre, ha il vantaggio <strong>di</strong> riuscire a migliorare<br />

la qu<strong>al</strong>ità dell’informazione in esperimenti che utilizzano un numero<br />

piccolo <strong>di</strong> campioni, generando insiemi <strong>di</strong> dati surrogati, coerenti con<br />

l’esperimento re<strong>al</strong>izzato.<br />

Purtroppo, nel caso opposto, ossia con campioni molto numerosi o<br />

con molti geni per microarray,<br />

il carico computazion<strong>al</strong>e <strong>di</strong>viene<br />

estremamente<br />

oneroso e può risultare ingestibile se non si <strong>di</strong>spone <strong>di</strong> un<br />

adeguato supporto hardware.<br />

Infine, l’utilizzo <strong>di</strong> un parametro statistico come il F<strong>al</strong>se Discovery<br />

Rate permette un’imme<strong>di</strong>ata stima<br />

del livello <strong>di</strong> affidabilità dell’insieme <strong>di</strong><br />

geni selezionati come <strong>di</strong>fferenzi<strong>al</strong>mente espressi, evidenziando la<br />

percentu<strong>al</strong>e <strong>di</strong> errori <strong>di</strong> tipo I che si commette selezionando Δ <strong>di</strong>versi.<br />

73


Capitolo 4<br />

Approccio statistico bayesiano e test multipli<br />

in esperimenti <strong>di</strong> microarray<br />

I meto<strong>di</strong> empirici bayesiani si <strong>di</strong>mostrano particolarmente efficienti<br />

quando si vuole re<strong>al</strong>izzare un test multiplo simultaneo <strong>di</strong> ipotesi su un<br />

insieme numeroso <strong>di</strong> soggetti, per ognuno dei qu<strong>al</strong>i sono <strong>di</strong>sponibili poche<br />

osservazioni.<br />

Questo è proprio il caso degli esperimenti <strong>di</strong> microarray, in cui il<br />

numero <strong>di</strong> osservazioni per lo stesso gene è gener<strong>al</strong>mente molto basso<br />

rispetto <strong>al</strong> numero tot<strong>al</strong>e <strong>di</strong> geni an<strong>al</strong>izzati.<br />

In questo ambito, si possono ricordare gli stu<strong>di</strong> <strong>di</strong> Efron et <strong>al</strong>.<br />

(2001), Lönnstedt et <strong>al</strong>. (2001), Efron (2003), Newton (2003) e Smyth<br />

(2004) che fanno uso <strong>di</strong> un approccio bayesiano <strong>al</strong> test delle ipotesi per la<br />

selezione dei geni <strong>di</strong>fferenzi<strong>al</strong>mente espressi.<br />

L’elemento in comune a questi lavori è lo sfruttamento della capacità<br />

insita in questi meto<strong>di</strong> <strong>di</strong> fare inferenza su ogni singolo gene, ossia <strong>di</strong><br />

generare delle stime dei parametri statistici che lo possono descrivere,<br />

traendole da tutto l’insieme <strong>di</strong> dati: per questo motivo t<strong>al</strong>i meto<strong>di</strong> vengono<br />

detti empirici.<br />

Un contesto operativo o “framework” bayesiano genera queste stime<br />

avv<strong>al</strong>endosi del teorema <strong>di</strong> Bayes, <strong>di</strong> ipotesi sulle <strong>di</strong>stribuzioni a priori dei<br />

parametri formulate d<strong>al</strong>l’an<strong>al</strong>ista e dell’insieme dei dati: sono queste le<br />

componenti <strong>di</strong> un processo capace <strong>di</strong> produrre in maniera automatica un<br />

aggiornamento dei parametri delle <strong>di</strong>stribuzioni coinvolte, <strong>al</strong> fine <strong>di</strong><br />

generare gli elementi confrontati nella statistica caratteristica del<br />

“framework”.<br />

74


Capitolo 4: Approccio statistico bayesiano e test multipli in esperimenti <strong>di</strong> microarray<br />

4.1 Inferenza statistica classica e approccio bayesiano empirico<br />

Un processo <strong>di</strong> inferenza statistica su un insieme <strong>di</strong> dati ipotizza un<br />

modello delle osservazioni collezionate e lo verifica attraverso l’an<strong>al</strong>isi dei<br />

dati stessi, producendo delle stime dei parametri descrittivi della<br />

<strong>di</strong>stribuzione dei dati ipotizzata. Per fare inferenza statistica esistono due<br />

tipi <strong>di</strong> approcci:<br />

Approccio frequentistico, detto anche an<strong>al</strong>isi statistica classica;<br />

Approccio soggettivistico, detto anche an<strong>al</strong>isi bayesiana.<br />

4.1.1 Fondamenti del metodo classico: test delle ipotesi<br />

Un’ipotesi statistica, come illustrato in Appen<strong>di</strong>ce A, è<br />

un’assunzione che viene fatta d<strong>al</strong> ricercatore sul problema <strong>di</strong> inferenza che<br />

sta affrontando.<br />

Si supponga <strong>di</strong> ipotizzare un modello per un insieme <strong>di</strong> dati, cioè<br />

che essi si <strong>di</strong>stribuiscano seguendo una determinata funzione <strong>di</strong> densità<br />

<strong>di</strong> probabilità. Per verificare la veri<strong>di</strong>cità del modello occorre determinare<br />

l’incertezza sull’ipotesi formulata attraverso la probabilità con<strong>di</strong>zionata<br />

che il modello ipotizzato sia vero sulla base dei dati osservati, ossia:<br />

P ( Modello ipotizzato è vero | Dati osservati )<br />

Purtroppo, una t<strong>al</strong>e probabilità non è stimabile; è, invece, possibile<br />

esprimere la probabilità con<strong>di</strong>zionata che si ottengano i dati osservati dato<br />

il modello ipotizzato:<br />

75


Capitolo 4: Approccio statistico bayesiano e test multipli in esperimenti <strong>di</strong> microarray<br />

P ( Dati osservati | Modello ipotizzato)<br />

ossia è possibile ipotizzare il modello e verificare se i dati sono<br />

compatibili con esso. Questa verifica si può re<strong>al</strong>izzare con un test delle<br />

ipotesi strutturato nel seguente modo:<br />

Passo 1: Definire l’ipotesi <strong>di</strong> ricerca.<br />

Un’ipotesi <strong>di</strong> ricerca o <strong>al</strong>ternativa è un’assunzione derivata<br />

d<strong>al</strong>la teoria che il ricercatore intende verificare sui dati.<br />

Passo 2: Definire l’ipotesi nulla.<br />

L’ipotesi nulla è un’assunzione che non si deve mai<br />

verificare se l’ipotesi <strong>al</strong>ternativa è consistente con la re<strong>al</strong>tà.<br />

Passo 3: Condurre un’an<strong>al</strong>isi dei dati per determinare se l’ipotesi<br />

nulla è rigettabile con una determinata probabilità.<br />

Attraverso questo proce<strong>di</strong>mento è possibile rifiutare l’ipotesi nulla<br />

con un adeguato livello <strong>di</strong> confidenza nel risultato del test, affermando,<br />

così, che il modello ipotizzato per la <strong>di</strong>stribuzione dei dati è effettivamente<br />

coerente con le osservazioni.<br />

In un problema <strong>di</strong> inferenza statistica classica si suppone che i dati<br />

generati da un processo <strong>di</strong> misura possano essere considerati come un<br />

insieme <strong>di</strong> variabili <strong>al</strong>eatorie, cioè <strong>di</strong> osservazioni prodotte attraverso un<br />

processo statistico con <strong>di</strong>stribuzione <strong>di</strong> probabilità sconosciuta sulla qu<strong>al</strong>e<br />

si vuole “riferire qu<strong>al</strong>cosa”.<br />

In un contesto del genere, la definizione <strong>di</strong> probabilità si basa sul<br />

concetto <strong>di</strong> re<strong>al</strong>izzazioni del processo <strong>al</strong>eatorio, o uscite, ugu<strong>al</strong>mente<br />

probabili: la probabilità, infatti, viene vista come la frequenza relativa con<br />

la qu<strong>al</strong>e una determinata uscita si re<strong>al</strong>izza se si aumenta il numero <strong>di</strong><br />

re<strong>al</strong>izzazioni <strong>al</strong>l’infinito.<br />

76


Capitolo 4: Approccio statistico bayesiano e test multipli in esperimenti <strong>di</strong> microarray<br />

Quando si fa inferenza statistica secondo una prospettiva<br />

frequentistica, si assume che i dati osservati siano un campione<br />

rappresentativo <strong>di</strong> un’intera popolazione molto più numerosa.<br />

T<strong>al</strong>e popolazione può essere rappresentata attraverso la me<strong>di</strong>a e la<br />

varianza <strong>di</strong> popolazione, che sono parametri sconosciuti, mentre il<br />

campione può essere descritto grazie <strong>al</strong>la me<strong>di</strong>a e <strong>al</strong>la varianza campione,<br />

che possono, invece, essere c<strong>al</strong>colate e prendono il nome generico <strong>di</strong><br />

statistiche.<br />

Me<strong>di</strong>a e varianza campione procurano una stima della me<strong>di</strong>a e della<br />

varianza dell’intera popolazione; tuttavia, queste ultime non possono<br />

essere conosciute con precisione, ma sono affette da incertezza che viene<br />

riassunta con la <strong>di</strong>stribuzione <strong>di</strong> campionamento o “sampling” del<br />

parametro che si sta considerando.<br />

La <strong>di</strong>stribuzione <strong>di</strong> “sampling” è un’ipotetica <strong>di</strong>stribuzione <strong>di</strong> tutti i<br />

possibili v<strong>al</strong>ori della statistica <strong>di</strong> interesse per campioni <strong>di</strong> <strong>di</strong>mensione N,<br />

tratti da una data popolazione.Per fare un esempio <strong>di</strong> quanto detto, la<br />

me<strong>di</strong>a campione osservata non è <strong>al</strong>tro che una re<strong>al</strong>izzazione della sua<br />

<strong>di</strong>stribuzione <strong>di</strong> “sampling”.<br />

4.1.2 Approccio bayesiano e interpretazione<br />

soggettivistica della probabilità<br />

Nell’approccio bayesiano, in contrasto con l’interpretazione<br />

frequentistica, la probabilità può essere interpretata come l’aspettativa che<br />

ciascuno esprime sulla possibilità che “verosimilmente” si possa ottenere<br />

una determinata uscita <strong>di</strong> un qu<strong>al</strong>che processo. Ciò significa che in<strong>di</strong>vidui<br />

<strong>di</strong>fferenti possono attribuire una <strong>di</strong>versa probabilità ad uno stesso evento.<br />

Il concetto <strong>di</strong> probabilità assume, dunque, il significato che gli viene<br />

attribuito nel linguaggio comune, ossia è una misura del “grado <strong>di</strong> fiducia”<br />

nel verificarsi dell’evento; conseguenza <strong>di</strong>retta <strong>di</strong> t<strong>al</strong>e interpretazione è che<br />

si respinge il fondamento che vi sia un processo <strong>di</strong> generazione dei dati<br />

77


Capitolo 4: Approccio statistico bayesiano e test multipli in esperimenti <strong>di</strong> microarray<br />

verificabile attraverso un proce<strong>di</strong>mento <strong>di</strong>cotomico qu<strong>al</strong>e il test delle<br />

ipotesi.Il concetto intuitivo sfruttato nell’approccio bayesiano è che la<br />

probabilità <strong>di</strong>pende d<strong>al</strong>lo stato <strong>di</strong> conoscenza (o <strong>di</strong> ignoranza) del<br />

fenomeno in esame; questa conoscenza è, in genere, <strong>di</strong>fferente da persona<br />

a persona.<br />

T<strong>al</strong>i concetti sono in conflitto con l’impostazione classica della<br />

statistica, secondo cui le proprietà probabilistiche sono definite come<br />

proprietà asintotiche, ossia legate ad un numero infinito <strong>di</strong> dati ottenibili<br />

solo attraverso esperienze replicabili, e l’inferenza sui parametri è<br />

effettuata escludendo l’eventu<strong>al</strong>ità <strong>di</strong> utilizzare informazioni pregresse sul<br />

fenomeno che si sta an<strong>al</strong>izzando.<br />

Lo schema operativo dell’approccio Bayesiano <strong>al</strong>la modellazione dei<br />

dati ha la seguente struttura:<br />

Passo 1: Fare inferenza basata su tutte le informazioni a<br />

<strong>di</strong>sposizione e generare un’ipotesi <strong>di</strong> <strong>di</strong>stribuzione a priori per<br />

il parametro che si sta considerando.<br />

Passo 2: Aggiornare le stime avv<strong>al</strong>endosi del teorema <strong>di</strong> Bayes,<br />

illustrato nel paragrafo successivo, e delle <strong>di</strong>stribuzioni a<br />

priori, <strong>al</strong> fine <strong>di</strong> generare una <strong>di</strong>stribuzione a posteriori del<br />

parametro.<br />

Passo 3: Verificare che i nuovi dati confermino le ipotesi a<br />

priori.<br />

Il metodo bayesiano è iterativo, cioè le stime dei parametri generate<br />

<strong>al</strong> passo precedente sono gli ingressi del passo successivo e il processo si<br />

interrompe quando non si osservano apprezzabili variazioni sui parametri<br />

stimati.La <strong>di</strong>fferenza operativa più evidente fra l’approcco classico e quello<br />

bayesiano è che mentre la statistica classica considera i dati D come<br />

re<strong>al</strong>izzazioni <strong>di</strong> variabili <strong>al</strong>eatorie ed i parametri ignoti θ come<br />

78


Capitolo 4: Approccio statistico bayesiano e test multipli in esperimenti <strong>di</strong> microarray<br />

deterministici, la statistica bayesiana considera i dati come costanti ed i<br />

parametri ignoti sono variabili <strong>al</strong>eatorie caratterizzate da una funzione<br />

densità <strong>di</strong> probabilità a priori P(θ).<br />

4.1.3 Teorema <strong>di</strong> Bayes e inferenza sui parametri<br />

L’approccio Bayesiano consente <strong>di</strong> aggiornare le informazioni a<br />

priori contenute nella funzione densità <strong>di</strong> probabilità P(θ) dei parametri,<br />

<strong>al</strong>la luce dei dati osservati. T<strong>al</strong>e aggiornamento si traduce, attraverso<br />

l’applicazione del teorema <strong>di</strong> Bayes, in una funzione densità <strong>di</strong> probabilità<br />

P(θ|D) a posteriori.<br />

seguente:<br />

dove:<br />

Il teorema <strong>di</strong> Bayes per eventi <strong>di</strong>screti può essere espresso nel modo<br />

Pr(<br />

A<br />

i<br />

| B )<br />

=<br />

Pr(<br />

Ai<br />

) Pr(<br />

B | Ai<br />

)<br />

Pr(A<br />

) Pr(B|A<br />

)<br />

∑<br />

k<br />

k<br />

Pr(Ai) = Probabilità a priori dell’evento Ai. Essa riassume le<br />

convinzioni sulla probabilità dell’evento Ai prima che Ai o<br />

l’evento B siano stati osservati<br />

Pr( B | Ai ) = Probabilità con<strong>di</strong>zionata <strong>di</strong> B dato Ai. Essa<br />

riassume la probabilità che l’evento B si verifichi dopo che si è<br />

osservato Ai.<br />

Σk Pr( Ak ) Pr( B | Ak ) = Costante <strong>di</strong> norm<strong>al</strong>izzazione o<br />

probabilità tot<strong>al</strong>e. Essa è ugu<strong>al</strong>e <strong>al</strong>la somma delle quantità <strong>al</strong><br />

numeratore per tutti gli eventi Ak<br />

k<br />

79


Capitolo 4: Approccio statistico bayesiano e test multipli in esperimenti <strong>di</strong> microarray<br />

Pr( A i | B ) = Probabilità a posteriori <strong>di</strong> A i dato B. Essa<br />

rappresenta la probabilità dell’evento A i dopo che l’evento B si<br />

è verificato.<br />

D<strong>al</strong> punto <strong>di</strong> vista dell’approccio bayesiano <strong>al</strong>la stima dei parametri,<br />

ci sono quantità conosciute o osservabili, i dati D, e quantità sconosciute,<br />

i parametri θ.<br />

Per fare inferenza sulle quantità sconosciute si stabilisce una<br />

probabilità congiunta p(θ,D) che descrive la person<strong>al</strong>e “convinzione”<br />

dell’an<strong>al</strong>ista, fondata sul suo grado <strong>di</strong> conoscenza dei dati.<br />

Questa probabilità congiunta può essere riscritta in modo da<br />

ottenere l’inferenza desiderata su θ:<br />

p( θ, D) = p( θ | D)<br />

=<br />

e utilizzando il teorema <strong>di</strong> Bayes <strong>di</strong>venta:<br />

dove:<br />

p( θ ) p( D|<br />

θ )<br />

pD ( )<br />

p(<br />

θ ) p(<br />

D | θ ) p(<br />

θ ) L(<br />

θ | D)<br />

p( θ | D)<br />

=<br />

=<br />

∝ p(<br />

θ)<br />

L(<br />

θ | D)<br />

p(<br />

D)<br />

p(<br />

θ ) p(<br />

D | θ ) dθ<br />

∫<br />

θ<br />

L( θ | D ) è la funzione <strong>di</strong> verosimiglianza o ”likelihood” per θ,<br />

ossia una misura della fiducia che si re<strong>al</strong>izzi un determinato<br />

v<strong>al</strong>ore <strong>di</strong> θ quando i dati D sono stati osservati (Spiegel, 1979);<br />

80


Capitolo 4: Approccio statistico bayesiano e test multipli in esperimenti <strong>di</strong> microarray<br />

∫<br />

θ<br />

p( θ ) p( D | θ ) dθ<br />

è la costante <strong>di</strong> norm<strong>al</strong>izzazione, o <strong>di</strong>stribuzione<br />

pre<strong>di</strong>ttiva a priori, che assicura che la probabilità a posteriori<br />

<strong>di</strong> θ integri a 1.<br />

4.1.4 Scelta della <strong>di</strong>stribuzione a priori e stimatori della<br />

me<strong>di</strong>a e della varianza<br />

La scelta della <strong>di</strong>stribuzione a priori per i parametri che devono<br />

essere stimati può essere effettuata sulla base del significato che si vuole<br />

attribuire ad essa e delle <strong>di</strong>verse informazioni a <strong>di</strong>sposizione dell’an<strong>al</strong>ista.<br />

In gener<strong>al</strong>e esistono tre criteri per procedere a t<strong>al</strong>e scelta e ognuno<br />

<strong>di</strong> essi esprime un <strong>di</strong>fferente modo <strong>di</strong> intendere questa <strong>di</strong>stribuzione:<br />

Metodo bayesiano classico: assume che la a priori non deve<br />

esprimere l’influenza del ricercatore, per cui si scelgono a<br />

priori che siano il meno informative possibile sull’insieme <strong>di</strong><br />

dati.<br />

Metodo bayesiano parametrico moderno: assume che la scelta<br />

della a priori deve essere funzion<strong>al</strong>e ad avere un processo<br />

computazion<strong>al</strong>e più snello, per cui si scelgono a priori con<br />

proprietà convenienti.<br />

Metodo bayesiano soggettivo: assume che la a priori è un<br />

riassunto delle assunzioni del ricercatore, per cui si sceglie<br />

una a priori basata su conoscenze precedenti (risultati <strong>di</strong><br />

precedenti stu<strong>di</strong>, opinioni <strong>di</strong> <strong>al</strong>tri gruppi <strong>di</strong> stu<strong>di</strong>o…).<br />

81


Capitolo 4: Approccio statistico bayesiano e test multipli in esperimenti <strong>di</strong> microarray<br />

4.1.5 Metodo bayesiano classico per la scelta delle<br />

<strong>di</strong>stribuzioni a priori<br />

Si supponga <strong>di</strong> avere un insieme <strong>di</strong> dati che si <strong>di</strong>stribuisce come<br />

una variabile <strong>al</strong>eatoria norm<strong>al</strong>e<br />

y ~ N( μ , σ 2 )<br />

dove μ e σ 2 sono la me<strong>di</strong>a e la varianza della <strong>di</strong>stribuzione e sono<br />

entrambe variabili casu<strong>al</strong>i sconosciute: per ottenere una stima dei due<br />

parametri della <strong>di</strong>stribuzione è necessario generare un modello multi-<br />

parametro.<br />

Il teorema <strong>di</strong> Bayes per due parametri si scrive:<br />

p( μ , σ 2 | y) ∝ p(μ , σ 2 ) p(y | μ , σ 2 )<br />

e, poichè si vogliono generare le <strong>di</strong>stribuzioni <strong>di</strong> ogni singolo<br />

parametro con<strong>di</strong>zionate <strong>al</strong>l’insieme <strong>di</strong> dati osservati, cioè p(μ | y) e<br />

p(σ 2 |y), è conveniente stu<strong>di</strong>are le <strong>di</strong>stribuzioni margin<strong>al</strong>i della<br />

<strong>di</strong>stribuzione con<strong>di</strong>zionata p( μ , σ 2 | y) nei due parametri, ossia :<br />

2<br />

2<br />

( | y)<br />

∫ p(<br />

μ | σ , y)<br />

p(<br />

σ | y)<br />

2<br />

p μ = dσ<br />

2<br />

σ<br />

2<br />

2<br />

( | y)<br />

= ∫ p(<br />

σ | μ,<br />

y)<br />

p(<br />

μ y)<br />

p σ | dμ<br />

μ<br />

82


Capitolo 4: Approccio statistico bayesiano e test multipli in esperimenti <strong>di</strong> microarray<br />

Se l’intento dell’an<strong>al</strong>ista è optare per <strong>di</strong>stribuzioni a priori che siano<br />

più gener<strong>al</strong>i possibile, senza sfruttare le informazioni <strong>di</strong>sponibili<br />

sull’insieme <strong>di</strong> dati, una buona scelta può essere una <strong>di</strong>stribuzione a<br />

priori uniforme per entrambi i parametri, cioè:<br />

p( μ ) ∝ c -∞ < μ < +∞<br />

p( σ 2 ) ∝ 1/σ0 2 0 < σ 2 < +∞<br />

Nell’ipotesi che le <strong>di</strong>stribuzioni dei due parametri siano<br />

in<strong>di</strong>pendenti, ossia che v<strong>al</strong>ga p(μ , σ 2 )= p( μ ) p( σ 2 ), si ottiene per la<br />

<strong>di</strong>stribuzione congiunta:<br />

p(μ , σ 2 ) = c/σ0 2<br />

Si può <strong>di</strong>mostrare che (Spiegelh<strong>al</strong>ter et <strong>al</strong>., 2004):<br />

μ − y<br />

p( μ | y)<br />

= p( |y)~t n<br />

s / n<br />

p(σ 2 | y) ~ Inv-χ2 (n-1,s2) ≡ Inv-Γ( (n-1)/2), (n-1)s2/2 )<br />

dove:<br />

y è la me<strong>di</strong>a <strong>di</strong> tutti i dati;<br />

n è il numero <strong>di</strong> osservazioni;<br />

s è la devianza d’errore sul campione;<br />

s 2 è la varianza campione;<br />

−1<br />

83


Capitolo 4: Approccio statistico bayesiano e test multipli in esperimenti <strong>di</strong> microarray<br />

con tn-1 si in<strong>di</strong>ca una variabile <strong>al</strong>eatoria che segue una<br />

<strong>di</strong>stribuzione t-Student con n-1 gra<strong>di</strong> <strong>di</strong> libertà;<br />

con Inv-Γ( a,b ) si in<strong>di</strong>ca una variabile <strong>al</strong>eatoria che segue<br />

una <strong>di</strong>stribuzione gamma inversa con parametri<br />

caratteristici a e b.<br />

4.1.6 Metodo bayesiano parametrico moderno per la scelta<br />

delle <strong>di</strong>stribuzioni a priori<br />

L’ipotesi sui dati afferma che essi si <strong>di</strong>stribuiscono seguendo una<br />

variabile <strong>al</strong>eatoria norm<strong>al</strong>e con me<strong>di</strong>a μ e varianza σ 2 , entrambe variabili<br />

casu<strong>al</strong>i sconosciute.<br />

In questo approccio, la scelta delle <strong>di</strong>stribuzioni a priori per i<br />

parametri viene effettuata in base a considerazioni <strong>di</strong> or<strong>di</strong>ne pratico, ossia<br />

queste <strong>di</strong>stribuzioni devono contribuire a semplificare il c<strong>al</strong>colo che<br />

conduce, attraverso l’applicazione del teorema <strong>di</strong> Bayes, <strong>al</strong>l’aggiornamento<br />

del v<strong>al</strong>ore dei parametri considerati.<br />

Si supponga <strong>di</strong> conoscere la varianza della popolazione σ 2 = σ0 2 , che,<br />

per esempio, in prima istanza può essere ritenuta ugu<strong>al</strong>e <strong>al</strong>la varianza<br />

campione. In quest’ottica una scelta conveniente per la <strong>di</strong>stribuzione a<br />

priori della me<strong>di</strong>a è la <strong>di</strong>stribuzione norm<strong>al</strong>e N( m, d 2 ), dove m è la me<strong>di</strong>a<br />

campione e d 2 è la varianza campione.<br />

Questa scelta può essere operata sia in base <strong>al</strong>la congruenza con le<br />

ipotesi sulla me<strong>di</strong>a espresse d<strong>al</strong>l’an<strong>al</strong>ista che, soprattutto, osservando che<br />

la <strong>di</strong>stribuzione norm<strong>al</strong>e è una coniugata.<br />

Una <strong>di</strong>stribuzione a priori si definisce coniugata se, dopo aver<br />

applicato il teorema <strong>di</strong> Bayes ad essa, la <strong>di</strong>stribuzione a posteriori<br />

risultante appartiene sempre <strong>al</strong>la stessa famiglia <strong>di</strong> <strong>di</strong>stribuzioni, ad<br />

esempio se la a priori è una <strong>di</strong>stribuzione norm<strong>al</strong>e anche la a posteriori<br />

sarà una <strong>di</strong>stribuzione norm<strong>al</strong>e. Quello che cambia fra le due <strong>di</strong>stribuzioni<br />

84


Capitolo 4: Approccio statistico bayesiano e test multipli in esperimenti <strong>di</strong> microarray<br />

sono i parametri, che vengono mo<strong>di</strong>ficati d<strong>al</strong>l’applicazione del teorema <strong>di</strong><br />

Bayes in virtù dei dati campionari <strong>di</strong>sponibili.<br />

p(μ) ~ N( m, d 2<br />

) p(μ|y) ~ p(μ)p(y| μ) ~<br />

dove:<br />

m y<br />

+<br />

d σ<br />

1 1<br />

+ 2<br />

d σ<br />

2 2<br />

ˆ μ =<br />

0<br />

e<br />

2<br />

ˆ σ μ<br />

2<br />

0<br />

⎛ 1<br />

=<br />

⎜<br />

⎝ d<br />

2<br />

n ⎞<br />

+ 2 ⎟<br />

σ 0 ⎠<br />

−1<br />

( ˆ,<br />

ˆ2<br />

μ)<br />

σ μ N<br />

sono i parametri della <strong>di</strong>stribuzione a priori automaticamente aggiornati<br />

d<strong>al</strong> teorema.<br />

Un <strong>di</strong>scorso simile può essere fatto con la <strong>di</strong>stribuzione a priori della<br />

varianza, per la qu<strong>al</strong>e una scelta opportuna è la <strong>di</strong>stribuzione gamma<br />

inversa, che è anch’essa una coniugata.<br />

Effettuando queste scelte la <strong>di</strong>stribuzione congiunta a priori dei due<br />

parametri, nell’ipotesi che essi siano in<strong>di</strong>pendenti, sarà una Γ norm<strong>al</strong>e-<br />

inversa:<br />

p( μ, σ 2 ) ~ N-Inv-Γ(μ 0, σ 0 2/k 0; v 0, σ 0 2)<br />

dove μ 0, σ 0 2/k 0, v 0 e σ 0 2 sono i parametri descrittivi della<br />

<strong>di</strong>stribuzione.<br />

85


Capitolo 4: Approccio statistico bayesiano e test multipli in esperimenti <strong>di</strong> microarray<br />

Poiché il prodotto <strong>di</strong> due coniugate dà sempre una coniugata, la<br />

<strong>di</strong>stribuzione a posteriori dei due parametri, con<strong>di</strong>zionata <strong>al</strong>l’insieme dei<br />

dati che si ottiene d<strong>al</strong>l’applicazione del teorema <strong>di</strong> Bayes <strong>al</strong>la <strong>di</strong>stribuzione<br />

congiunta, appartiene <strong>al</strong>la stessa famiglia della <strong>di</strong>stribuzione a priori, ma<br />

con i parametri aggiornati:<br />

dove:<br />

p(μ,σ 2 |y) ~ N-Inv-Γ(μi, σi 2/ki; νi, σi 2)<br />

k0<br />

μi<br />

=<br />

k0<br />

+ kn<br />

μ0<br />

+<br />

k<br />

ki<br />

= k0<br />

+ n<br />

v = v + n<br />

i<br />

vσ<br />

i<br />

2<br />

i<br />

0<br />

= v σ<br />

0<br />

2<br />

0<br />

+<br />

0<br />

n<br />

+ k<br />

y<br />

n<br />

2 0<br />

( n −1)<br />

s + ( y − μ0<br />

k0<br />

+ n<br />

sono i parametri aggiornati ed i è il minimo in<strong>di</strong>ce <strong>di</strong> iterazione per il<br />

qu<strong>al</strong>e le stime non variano significativamente.<br />

4.1.7 Metodo bayesiano soggettivo per la scelta delle<br />

<strong>di</strong>stribuzioni a priori<br />

In questo caso, la scelta delle <strong>di</strong>stribuzioni a priori dei parametri che<br />

si stanno considerando viene operata in funzione dell’insieme delle<br />

informazioni a <strong>di</strong>sposizione dell’an<strong>al</strong>ista, nonché degli accorgimenti utili a<br />

migliorare il carico computazion<strong>al</strong>e del proce<strong>di</strong>mento bayesiano <strong>di</strong> stima.<br />

Le informazioni utilizzate non devono essere necessariamente<br />

relative <strong>al</strong>l’insieme <strong>di</strong> dati osservato, ma possono anche provenire d<strong>al</strong>le<br />

i<br />

k<br />

)<br />

2<br />

86


Capitolo 4: Approccio statistico bayesiano e test multipli in esperimenti <strong>di</strong> microarray<br />

considerazioni su esperimenti simili re<strong>al</strong>izzati da <strong>al</strong>tri gruppi. Inoltre,<br />

l’an<strong>al</strong>ista può modulare la scelta della <strong>di</strong>stribuzione in base <strong>al</strong>la sua<br />

conoscenza delle osservazioni o <strong>al</strong>la person<strong>al</strong>e confidenza nel risultato che<br />

sta cercando <strong>di</strong> verificare.<br />

D<strong>al</strong>l’an<strong>al</strong>isi <strong>di</strong> questo e dei precedenti meto<strong>di</strong>, potrebbe sembrare<br />

che la scelta della <strong>di</strong>stribuzione a priori non sia così vincolante.<br />

In re<strong>al</strong>tà non bisogna <strong>di</strong>menticare che nel proce<strong>di</strong>mento o<br />

“framework” bayesiano i risultati della stima <strong>al</strong> passo precedente vengono<br />

utilizzati come ingressi del passo successivo.<br />

Essendo, inoltre, questo processo sempre convergente verso una<br />

stima corretta del parametro in esame, la scelta <strong>di</strong> un’opportuna<br />

<strong>di</strong>stribuzione a priori comporta una riduzione del numero <strong>di</strong> iterazioni<br />

necessarie, ossia un aumento della velocità <strong>di</strong> convergenza.<br />

4.2 Statistica “B” e modello gerarchico per i dati <strong>di</strong><br />

espressione genica<br />

Sulla base degli argomenti appena trattati è ora possibile introdurre<br />

la statistica B, o fattore <strong>di</strong> Bayes, per la <strong>di</strong>scriminazione dei geni<br />

<strong>di</strong>fferenzi<strong>al</strong>mente espressi, inserendola in un “framework” bayesiano<br />

basato su <strong>di</strong> un modello gerarchico dei dati <strong>di</strong> espressione genica.<br />

Si in<strong>di</strong>chi con:<br />

R<br />

M ij = log2<br />

G<br />

ij<br />

ij<br />

87


Capitolo 4: Approccio statistico bayesiano e test multipli in esperimenti <strong>di</strong> microarray<br />

il logaritmo del rapporto dei due can<strong>al</strong>i per il gene i sull’array j, con<br />

i=1,…,N e j=1,…,n.<br />

Sono stati già illustrati nel capitolo 3 i limiti dei meto<strong>di</strong> che<br />

stabiliscono una soglia su Mij per la selezione dei geni <strong>di</strong>fferenzi<strong>al</strong>mente<br />

espressi.<br />

Da un punto <strong>di</strong> vista più strettamente statistico, è necessario<br />

evidenziare <strong>al</strong>cuni problemi intrinseci <strong>al</strong>la struttura stessa dei dati; essi,<br />

infatti, sono gener<strong>al</strong>mente costituiti da un insieme assai limitato <strong>di</strong><br />

osservazioni per ogni singolo gene, rispetto <strong>al</strong> numero tot<strong>al</strong>e <strong>di</strong> geni<br />

presenti sul vetrino.<br />

Questa caratteristica può inv<strong>al</strong>idare l’uso <strong>di</strong> statistiche classiche,<br />

come la statistica t, per re<strong>al</strong>izzare la selezione; ad esempio, un <strong>al</strong>to v<strong>al</strong>ore<br />

<strong>di</strong> t può essere determinato da un errore standard estremamente<br />

contenuto <strong>al</strong> suo denominatore e ciò può accadere anche quando la<br />

<strong>di</strong>fferenza fra le me<strong>di</strong>e <strong>al</strong> numeratore sia molto piccola.<br />

Un tipico esempio <strong>di</strong> soluzione a questo problema è stato illustrato<br />

con la statistica introdotta d<strong>al</strong> SAM, in cui la costante ad<strong>di</strong>tiva <strong>al</strong><br />

denominatore agisce proprio in funzione <strong>di</strong> una limitazione degli errori <strong>di</strong><br />

primo tipo.<br />

Un’<strong>al</strong>ternativa ai meto<strong>di</strong> che fanno uso <strong>di</strong> statistiche t mo<strong>di</strong>ficate<br />

può venire proprio da un approccio empirico bayesiano ai dati <strong>di</strong><br />

espressione genica.<br />

4.2.1 “Posterior odds” dell’espressione <strong>di</strong>fferenzi<strong>al</strong>e<br />

Si supponga che i dati Mij, relativi ad ogni gene i, si <strong>di</strong>stribuiscano<br />

seguendo una variabile <strong>al</strong>eatoria norm<strong>al</strong>e con me<strong>di</strong>a μi e varianza σi 2 :<br />

Mij | μi, σi 2 ∼ N(μi, σi 2) ∀ i<br />

88


Capitolo 4: Approccio statistico bayesiano e test multipli in esperimenti <strong>di</strong> microarray<br />

Per in<strong>di</strong>care se un gene g è <strong>di</strong>fferenzi<strong>al</strong>mente espresso oppure non<br />

ha mutato la sua espressione in seguito <strong>al</strong> trattamento effettuato, si può<br />

utilizzare un insieme <strong>di</strong> in<strong>di</strong>catori o in<strong>di</strong>ci definito nel modo seguente:<br />

I g<br />

⎧0<br />

= ⎨<br />

⎩1<br />

se il gene non è <strong>di</strong>fferenzi<strong>al</strong>mente espresso<br />

se il gene è <strong>di</strong>fferenzi<strong>al</strong>mente espresso<br />

Per ogni gene g, è possibile c<strong>al</strong>colare la probabilità a posteriori che<br />

esso sia <strong>di</strong>fferenzi<strong>al</strong>mente espresso (Ig=1) dato l’insieme <strong>di</strong> osservazioni Mij<br />

e metterla in rapporto con la probabilità a posteriori che la sua<br />

espressione sia rimasta immutata (Ig=0) dato l’insieme <strong>di</strong> osservazioni Mij;<br />

ciò corrisponde a definire il rapporto degli “odds” a posteriori per il gene g.<br />

La statistica B per ogni singolo gene viene definita come il logaritmo<br />

del rapporto dei suoi “odds” a posteriori:<br />

B<br />

g<br />

Pr( I<br />

= log<br />

Pr( I<br />

g<br />

g<br />

= 1|<br />

M<br />

= 0 | M<br />

per cui Pr(Ig=1|Mij) > Pr(Ig=0|Mij) se e solo se Bg > 0.<br />

Applicando il teorema <strong>di</strong> Bayes <strong>al</strong>l’espressione <strong>di</strong> Bg e nell’ipotesi che<br />

gli Mij siano in<strong>di</strong>pendenti <strong>al</strong> variare <strong>di</strong> i, si può scrivere:<br />

dove:<br />

B<br />

g<br />

p Pr( Mij | Ig=<br />

1)<br />

= log<br />

1− p Pr( M | I = 0)<br />

ij g<br />

p Pr( M | 1) Pr( Mi | I 1)<br />

i= g Ig=<br />

g =<br />

i≠g = log<br />

1− p Pr( Mi= g| Ig= 0) ∏ Pr( Mi| Ig=<br />

0)<br />

i≠g p Pr( Mi= g| Ig=<br />

1)<br />

= log<br />

1− p Pr( M | I = 0)<br />

i= g g<br />

∏<br />

ij<br />

ij<br />

)<br />

)<br />

89


Capitolo 4: Approccio statistico bayesiano e test multipli in esperimenti <strong>di</strong> microarray<br />

Mg è il vettore delle n osservazioni per il gene g;<br />

p è la proporzione <strong>di</strong> geni <strong>di</strong>fferenzi<strong>al</strong>mente espressi<br />

nell’esperimento, definita come p = Pr(Ii=1) per ogni i=1,…,N.<br />

Per c<strong>al</strong>colare BBg è necessario quantificare l’espressione <strong>di</strong> Pr(Mg|Ig=1)<br />

e Pr(Mg|Ig=0), che sono le <strong>di</strong>stribuzioni margin<strong>al</strong>i <strong>di</strong> Mg rispetto agli in<strong>di</strong>ci e<br />

che possono essere in<strong>di</strong>cate seguendo la notazione statistica con:<br />

Pr( M<br />

Pr( M<br />

i<br />

i<br />

| I<br />

| I<br />

g<br />

g<br />

= 1)<br />

≡<br />

=<br />

0)<br />

≡<br />

f<br />

I = 1<br />

f<br />

i<br />

I = 0<br />

i<br />

( M<br />

i<br />

( M<br />

Ciò può essere re<strong>al</strong>izzatto attraverso la definizione <strong>di</strong> un modello<br />

gerarchico dei dati, come si vedrà nel prossimo paragrafo.<br />

margin<strong>al</strong>i<br />

4.2.2 Modello gerarchico e c<strong>al</strong>colo delle <strong>di</strong>stribuzioni<br />

Si supponga <strong>di</strong> avere a <strong>di</strong>sposizione le osservazioni relative ad una<br />

data variabile casu<strong>al</strong>e Y e <strong>di</strong> averle collezionate da m popolazioni grazie ad<br />

n osservazioni per ogni popolazione.<br />

Sia yij l’osservazione j della popolazione i e si supponga che ogni yij si<br />

<strong>di</strong>stribuisca seguendo l’andamento <strong>di</strong> una variabile <strong>al</strong>eatoria<br />

caratterizzabile attraverso i suoi parametri descrittivi:<br />

yij ~ f(θi)<br />

)<br />

i<br />

)<br />

90


Capitolo 4: Approccio statistico bayesiano e test multipli in esperimenti <strong>di</strong> microarray<br />

dove θi è il vettore dei parametri per la popolazione i.<br />

Inoltre, per ogni θi sia possibile stabilire una <strong>di</strong>stribuzione a priori<br />

anch’essa descrivibile attraverso i suoi parametri:<br />

θi ~ f(Θ)<br />

In questo modo sono stati re<strong>al</strong>izzati i passi del proce<strong>di</strong>mento<br />

bayesiano <strong>di</strong> stima dei parametri, come illustrato nei primi paragrafi <strong>di</strong><br />

questo capitolo.<br />

Si assuma, ora, che anche i parametri Θ siano delle variabili<br />

<strong>al</strong>eatorie casu<strong>al</strong>i e che si debba specificare per esse una <strong>di</strong>stribuzione<br />

f(a,b):<br />

Θ ∼ f(a,b)<br />

<strong>al</strong>lora Θ viene chiamata iper-priori e il modello dei dati viene definito<br />

gerarchico, con ovvio riferimento ai <strong>di</strong>versi livelli <strong>di</strong> definizione delle<br />

<strong>di</strong>stribuzioni, come si può osservare nella figura 4.1.<br />

Iper-priori<br />

Θ<br />

θ11 θ21 θ31<br />

Priori<br />

y11 y12 y13 y21 y22 y23 y31 y32 y33<br />

Osservazioni<br />

Figura 4.1: Schema del modello gerarchico per un insieme <strong>di</strong> dati<br />

91


Capitolo 4: Approccio statistico bayesiano e test multipli in esperimenti <strong>di</strong> microarray<br />

Tipicamente le osservazioni relative ad ogni gene in un esperimento<br />

<strong>di</strong> microarray sono poche, mentre il numero <strong>di</strong> geni sul qu<strong>al</strong>e è necessario<br />

effettuare un test simultaneo delle ipotesi è molto grande.<br />

Definendo un modello gerarchico per le osservazioni è possibile<br />

utilizzare le informazioni relative <strong>al</strong>l’intero insieme <strong>di</strong> dati per descrivere le<br />

<strong>di</strong>stribuzioni margin<strong>al</strong>i della me<strong>di</strong>a μi e della varianza σi 2 , cioè dei<br />

parametri della <strong>di</strong>stribuzione N(μi, σi 2 ) relativa <strong>al</strong>le osservazioni del gene i-<br />

esimo.<br />

Una possibile struttura gerarchica ipotizza che:<br />

1/σi 2 si <strong>di</strong>stribuisce seguendo una variabile <strong>al</strong>eatoria Γ ed<br />

essa è una iper-priori del modello;<br />

la <strong>di</strong>stribuzione <strong>di</strong> μi con<strong>di</strong>zionata a 1/σi 2 è norm<strong>al</strong>e ed essa è<br />

una priori del modello.<br />

Seguendo questo modello gerarchico, se si definisce per la me<strong>di</strong>a μi<br />

una <strong>di</strong>stribuzione t<strong>al</strong>e che:<br />

dove:<br />

τi = na/2σi 2 ~ Γ(υ,1);<br />

⎧0<br />

μi | τi⎨<br />

⎩N(0,<br />

cna/<br />

2 τi<br />

)<br />

υ sono i gra<strong>di</strong> <strong>di</strong> libertà della <strong>di</strong>stribuzione;<br />

a>0 e c>0 sono dei parametri <strong>di</strong> sc<strong>al</strong>a,<br />

se Ii=0<br />

se Ii=1<br />

92


<strong>di</strong>ventano:<br />

Capitolo 4: Approccio statistico bayesiano e test multipli in esperimenti <strong>di</strong> microarray<br />

<strong>al</strong>lora le <strong>di</strong>stribuzioni margin<strong>al</strong>i per ogni livello della gerarchia<br />

1 υ −1<br />

−τ<br />

f ( τ )<br />

i<br />

i = τi<br />

e<br />

Γ<br />

( υ )<br />

( )<br />

Ii= 0 i<br />

( μ ) = δ ( 0)<br />

( )<br />

( ) ∫∫ ( , , )<br />

−1/2<br />

1 2τ<br />

i 2<br />

1/2 1/2 na − μ<br />

− − ⎛ ⎞<br />

i<br />

2 cna<br />

fI 1 (2 )<br />

i = μi τi = π c ⎜ ⎟ e<br />

⎝2τi⎠ f<br />

( , ) ( ) ( )<br />

( Mij<br />

μi<br />

)<br />

−n<br />

/2 1 2τ<br />

i<br />

n /2 na − j −<br />

− ⎛ ⎞ ∑<br />

2 na<br />

f Mi μi, τi = (2 π)<br />

⎜ ⎟ e<br />

⎝2τi⎠ e<br />

f M = f M μ τ dμ dτ<br />

=<br />

=<br />

Ii= 1 i Ii= 1 i i i i i<br />

∫∫<br />

f M μ τ f μ τ f τ dμ dτ<br />

i i i Ii= 1 i i i i i<br />

f ( M ) = f ( M μ , τ ) f ( μ τ ) f ( τ ) dμ<br />

dτ<br />

=<br />

Ii= 0 i i i<br />

∫<br />

∫∫<br />

( 0, ) ( )<br />

= f M μ = τ f τ dτ<br />

i i i i i<br />

i Ii= 0 i i i i i<br />

D<strong>al</strong> risultato delle integrazioni si ottengono le espressioni delle due<br />

<strong>di</strong>stribuzioni margin<strong>al</strong>i che vengono messe a confronto per ogni gene nella<br />

statistica Bg:<br />

2<br />

93


Capitolo 4: Approccio statistico bayesiano e test multipli in esperimenti <strong>di</strong> microarray<br />

f<br />

f<br />

Ii<br />

= 1<br />

Ii<br />

= 0<br />

( M )<br />

i<br />

( M )<br />

i<br />

⎛ n ⎞<br />

Γ⎜υ<br />

+ ⎟<br />

=<br />

⎝ 2 ⎠<br />

Γ<br />

( υ)<br />

⎛ n ⎞<br />

Γ⎜υ<br />

+ ⎟<br />

=<br />

⎝ 2 ⎠<br />

Γ<br />

( υ)<br />

⎛ na ⎞<br />

⎜ ⎟<br />

⎝ 2 ⎠<br />

−n<br />

/ 2<br />

−n<br />

/ 2 ( 2π<br />

) ( 1+<br />

nc)<br />

−n<br />

/ 2<br />

−1/<br />

2<br />

−n<br />

/ 2⎛<br />

na ⎞ ⎡ 1 2 2<br />

( 2π<br />

) ⎜ ⎟ 1+<br />

( s + M )<br />

⎝<br />

2<br />

⎠<br />

⎢<br />

⎣<br />

a<br />

i<br />

⎡ 1 ⎛<br />

⎢1+<br />

⎜ s<br />

⎣ a ⎝<br />

i.<br />

⎤<br />

⎥<br />

⎦<br />

2<br />

i<br />

⎛ n ⎞<br />

−⎜υ<br />

+ ⎟<br />

⎝ 2 ⎠<br />

2<br />

M ⎞⎤<br />

i.<br />

+ ⎟<br />

⎟⎥<br />

1+<br />

nc ⎠⎦<br />

dove Mi. è la me<strong>di</strong>a delle osservazioni relative a tutti i geni.<br />

Quin<strong>di</strong>, per ogni gene g la statistica B assume la forma:<br />

B<br />

g<br />

⎡ ⎤<br />

2 2<br />

p 1 ⎢ a+ sg + M ⎥<br />

g.<br />

= log ⎢ ⎥ 2<br />

1− p 1+<br />

nc ⎢ M 2 g.<br />

⎥<br />

⎢ a+ sg+<br />

⎣ 1+<br />

nc ⎥<br />

⎦<br />

⎛ n ⎞<br />

−⎜υ<br />

+ ⎟<br />

⎝ 2 ⎠<br />

La sola parte gene-specifica della statistica B è il rapporto fra<br />

parentesi quadre, che è sempre un numero ≥1 perché il denominatore è<br />

sempre minore o ugu<strong>al</strong>e <strong>al</strong> numeratore; ciò significa che un incremento<br />

nell’espressione <strong>di</strong>fferenzi<strong>al</strong>e, cioè un incremento della me<strong>di</strong>a Mg. fa<br />

aumentare il v<strong>al</strong>ore della statistica anche quando la varianza è piccola e la<br />

presenza della costante <strong>di</strong> sc<strong>al</strong>a a garantisce che il rapporto non assuma<br />

v<strong>al</strong>ori troppo gran<strong>di</strong> a causa <strong>di</strong> me<strong>di</strong>e Mg. troppo piccole.<br />

E’ necessario, inoltre, porre l’attenzione sul fatto che, <strong>di</strong>versamente<br />

da <strong>al</strong>tre statistiche, non esiste un v<strong>al</strong>ore <strong>di</strong> soglia <strong>di</strong> B rispetto <strong>al</strong> qu<strong>al</strong>e<br />

<strong>di</strong>chiarare che un gene è <strong>di</strong>fferenzi<strong>al</strong>mente espresso. Al crescere del v<strong>al</strong>ore<br />

della statistica si incrementa la probabilità che il gene possa essere<br />

considerato a ragione <strong>di</strong>fferenzi<strong>al</strong>mente espresso e, an<strong>al</strong>ogamente, per<br />

v<strong>al</strong>ori negativi <strong>di</strong> B è molto più verosimile supporre che l’espressione<br />

<strong>di</strong>fferenzi<strong>al</strong>e sia assente.<br />

94


Capitolo 5<br />

Modelli ad<strong>di</strong>tivi ANOVA per l’an<strong>al</strong>isi dei dati<br />

<strong>di</strong> espressione genica<br />

L’uso <strong>di</strong> un proce<strong>di</strong>mento Bayesiano per l’an<strong>al</strong>isi dei dati generati<br />

con microarray, illustrato nel precedente capitolo, non considera la<br />

struttura dell’esperimento, cosicché gli effetti del trattamento in esame<br />

possono essere confusi con <strong>al</strong>cune delle sorgenti <strong>di</strong> variabilità tipicamente<br />

presenti su questo tipo <strong>di</strong> dati.<br />

D<strong>al</strong> momento in cui queste fonti <strong>di</strong> variabilità vengono identificate,<br />

si può pensare <strong>di</strong> misurare il loro effetto sul dato o, come si <strong>di</strong>ce in termini<br />

statistici, cercare <strong>di</strong> quantificare la varianza “spiegata” da t<strong>al</strong>i sorgenti, in<br />

relazione <strong>al</strong>la varianza tot<strong>al</strong>e dell’insieme <strong>di</strong> dati, nel tentativo <strong>di</strong><br />

eliminarla.<br />

Questo può essere ottenuto <strong>di</strong>segnando in maniera opportuna<br />

l’esperimento, in modo da raccogliere un’adeguata quantità <strong>di</strong> misure e<br />

contribuire a monitorare gli effetti <strong>di</strong> <strong>al</strong>cune delle fonti <strong>di</strong> variabilità. Ad un<br />

<strong>di</strong>segno speriment<strong>al</strong>e idoneo si deve aggiungere la capacità <strong>di</strong> re<strong>al</strong>izzare<br />

un modello descrittivo dei dati, che renda possibile la <strong>di</strong>versificazione<br />

dell’effetto del trattamento <strong>di</strong> interesse da quelli legati a fonti <strong>di</strong> variabilità<br />

indesiderate.<br />

Kerr e Churchill (Kerr et <strong>al</strong>., 2001a, Kerr & Churchill, 2001b e Kerr<br />

et <strong>al</strong>., 2002) sono stati i primi a stu<strong>di</strong>are le potenzi<strong>al</strong>i sorgenti <strong>di</strong> variabilità<br />

in esperimenti <strong>di</strong> microarray e ad incorporarle in un modello ad<strong>di</strong>tivo<br />

attraverso il metodo statistico <strong>di</strong> an<strong>al</strong>isi della varianza a più fattori ANOVA<br />

(AN<strong>al</strong>ysis Of VAriance).<br />

95


Capitolo 5: Modelli ad<strong>di</strong>tivi ANOVA per l’an<strong>al</strong>isi dei dati <strong>di</strong> espressione genica<br />

In questo capitolo verranno illustrate le princip<strong>al</strong>i fonti <strong>di</strong> variabilità<br />

dei dati, per poi metterle in relazione con <strong>di</strong>verse tipologie <strong>di</strong> <strong>di</strong>segno<br />

speriment<strong>al</strong>e e con <strong>di</strong>versi modelli proposti per la loro quantificazione.<br />

96


Capitolo 5: Modelli ad<strong>di</strong>tivi ANOVA per l’an<strong>al</strong>isi dei dati <strong>di</strong> espressione genica<br />

5.1 Fonti <strong>di</strong> variabilità sui dati <strong>di</strong> espressione genica<br />

Le sorgenti <strong>di</strong> variabilità che si hanno per i dati <strong>di</strong> espressione<br />

genica possono includere sia fattori speriment<strong>al</strong>i sia rumore casu<strong>al</strong>e o<br />

“random”; il metodo dell’an<strong>al</strong>isi della varianza cerca <strong>di</strong> quantificare t<strong>al</strong>e<br />

variabilità e <strong>di</strong> esaminare se sia statisticamente comparabile con quella<br />

attribuita <strong>al</strong>le sorgenti “random”.<br />

Si supponga, per esempio, <strong>di</strong> trattare con un farmaco un gruppo <strong>di</strong><br />

cavie e <strong>di</strong> confrontare me<strong>di</strong>ante microarray i campioni ottenuti dopo il<br />

trattamento con quelli <strong>di</strong> un gruppo <strong>di</strong> controllo non trattato: l’an<strong>al</strong>isi<br />

della varianza consente <strong>di</strong> esaminare le <strong>di</strong>fferenze rilevate fra i gruppi,<br />

<strong>di</strong>videndole in effetto del trattamento ed effetto dovuto ai fattori<br />

speriment<strong>al</strong>i che si abbattono sull’espressione <strong>di</strong>fferenzi<strong>al</strong>e.<br />

Il processo è concettu<strong>al</strong>mente simile <strong>al</strong>la norm<strong>al</strong>izzazione, poiché si<br />

tratta <strong>di</strong> eliminare, anche in questo caso, gli errori sistematici che<br />

contribuiscono a corrompere il dato <strong>di</strong> espressione, ma, in più, l’an<strong>al</strong>isi<br />

della varianza permette <strong>di</strong> rilevare <strong>di</strong>rettamente l’espressione <strong>di</strong>fferenzi<strong>al</strong>e<br />

sui dati ripuliti.<br />

Il tipo più semplice <strong>di</strong> esperimento microarray consiste nel cercare<br />

<strong>di</strong> misurare i cambiamenti nell’espressione genica in campioni che<br />

<strong>di</strong>fferiscono per un unico fattore, ad esempio la somministrazione <strong>di</strong> un<br />

farmaco.<br />

Si in<strong>di</strong>cano con il termine varietà tutte le categorie del fattore <strong>di</strong><br />

interesse: nel caso della somministrazione del farmaco le due categorie<br />

saranno trattato e non-trattato (controllo).<br />

Nel loro lavoro Kerr e Churchill (Kerr e Churchill ,2001b) hanno<br />

messo in evidenza che la variabilità può essere dovuta essenzi<strong>al</strong>mente a<br />

quattro sorgenti princip<strong>al</strong>i:<br />

Effetto Array (A);<br />

Effetto Fluorocromo (D);<br />

97


Capitolo 5: Modelli ad<strong>di</strong>tivi ANOVA per l’an<strong>al</strong>isi dei dati <strong>di</strong> espressione genica<br />

Effetto Varietà o Trattamento (V o T);<br />

Effetto Gene (G).<br />

Sotto il nome <strong>di</strong> effetto “Array” vengono classificate le variazioni <strong>di</strong><br />

segn<strong>al</strong>e fra array, me<strong>di</strong>ate su tutti i geni, i fluorocromi e i trattamenti. Una<br />

problematica frequente che può condurre <strong>al</strong>la rilevazione <strong>di</strong> questo effetto<br />

può essere la non uniformità del processo <strong>di</strong> ibridazione del campione<br />

marcato.<br />

L’effetto “Fluorocromo” o “Dye” misura le <strong>di</strong>fferenze intrinseche <strong>di</strong><br />

emissione dei due fluorocromi. Nel caso <strong>di</strong> microarray “du<strong>al</strong>-color”, dove si<br />

fa uso <strong>di</strong> due cianine per marcare il campione, si può facilmente rilevare<br />

sin d<strong>al</strong>la fase <strong>di</strong> acquisizione dell’immagine che il fluorocromo Cy5 (rosso)<br />

ha un’efficienza <strong>di</strong> emissione più bassa rispetto <strong>al</strong> fluorocromo Cy3<br />

(verde).<br />

Questo comportamento è dovuto ad una <strong>di</strong>fferente sensibilità dei<br />

due fluorocromi rispetto <strong>al</strong>l’eccitazione indotta con il laser e si ripercuote<br />

sul bilanciamento del segn<strong>al</strong>e nei due can<strong>al</strong>i.<br />

L’effetto “Varietà” si riscontra quando le categorie del fattore <strong>di</strong><br />

interesse presentano livelli <strong>di</strong> espressione <strong>di</strong>versi, dovuti a fattori non<br />

riconducibili <strong>al</strong> trattamento. Questo potrebbe verificarsi, nel caso della<br />

somministrazione del farmaco, se venisse preso come controllo un tessuto<br />

<strong>di</strong>verso da quello trattato: l’espressione <strong>di</strong>fferenzi<strong>al</strong>e sarebbe riconducibile<br />

anche <strong>al</strong>le <strong>di</strong>fferenze fra i due tessuti.<br />

L’effetto “Gene” si può verificare quando <strong>al</strong>cuni geni mostrano una<br />

<strong>di</strong>versa risposta <strong>al</strong>l’ibridazione; ciò si manifesta con la generazione <strong>di</strong> una<br />

variazione del segn<strong>al</strong>e, <strong>di</strong> intensità in<strong>di</strong>pendente d<strong>al</strong>la quantità <strong>di</strong><br />

campione ibri<strong>di</strong>zzato.<br />

Gli effetti descritti sono soltanto i fattori princip<strong>al</strong>i. Con quattro<br />

fattori princip<strong>al</strong>i è possibile considerare 2 4 =16 effetti complessivi ripartiti<br />

in:<br />

quattro effetti princip<strong>al</strong>i,<br />

sei interazioni a due fattori,<br />

98


Capitolo 5: Modelli ad<strong>di</strong>tivi ANOVA per l’an<strong>al</strong>isi dei dati <strong>di</strong> espressione genica<br />

quattro interazioni a tre fattori,<br />

una interazione a quattro fattori.<br />

Anche nel caso dei fattori <strong>di</strong> interazione è possibile identificare<br />

<strong>al</strong>cune cause <strong>al</strong>la base dell’insorgenza degli effetti combinati.<br />

L’effetto combinato del fluorocromo e del trattamento (DV) si può<br />

ricondurre ad una <strong>di</strong>fferente efficienza <strong>di</strong> incorporazione del marcatore nei<br />

campioni <strong>di</strong> cDNA da an<strong>al</strong>izzare. Si supponga, per esempio, che il<br />

fluorocromo verde presenti una <strong>di</strong>fferente efficienza <strong>di</strong> incorporazione<br />

rispetto a due <strong>di</strong>verse varietà, mentre il fluorocromo rosso si comporti in<br />

maniera equiv<strong>al</strong>ente con entrambe. Questa situazione è schematizzata<br />

nella figura 5.1, dove la linea orizzont<strong>al</strong>e è in<strong>di</strong>cativa del comportamento<br />

costante del fluorocromo rosso, mentre quella obliqua evidenzia la<br />

<strong>di</strong>fferenza <strong>di</strong> incorporazione del fluorocromo verde sui due campioni T1 e<br />

T2.<br />

Figura 5.1: Schematizzazione dell’effetto combinato DV<br />

In un esperimento in cui venissero re<strong>al</strong>izzate due ibri<strong>di</strong>zzazioni su<br />

due microarray con marcatura invertita dei campioni, sarebbero rilevate<br />

delle <strong>di</strong>fferenze in espressione non imputabili ad un effetto del<br />

trattamento, ma attribuibili <strong>al</strong> comportamento non omogeneo del<br />

fluorocromo verde.<br />

99


Capitolo 5: Modelli ad<strong>di</strong>tivi ANOVA per l’an<strong>al</strong>isi dei dati <strong>di</strong> espressione genica<br />

L’ effetto <strong>di</strong> interazione fra l’array e il gene (AG) si può verificare se lo<br />

stesso gene su <strong>di</strong>versi array è presente con una concentrazione <strong>di</strong>versa <strong>di</strong><br />

sonde <strong>di</strong> cDNA <strong>di</strong>sponibili per l’ibridazione. Questo effetto viene spesso<br />

denominato “Spot-effect” perché <strong>di</strong>pende fortemente d<strong>al</strong> processo <strong>di</strong><br />

deposizione delle sonde sul microarray e, per eliminarlo, si possono<br />

seguire due strategie:<br />

considerare ogni spot come un’unità a sé, anche se così<br />

facendo si perdono le informazioni glob<strong>al</strong>i sul gene (per<br />

esempio le repliche speriment<strong>al</strong>i);<br />

cercare <strong>di</strong> ricostruire un modello statistico della densità dello<br />

spot o delle proprietà della punta <strong>di</strong> deposizione.<br />

Figura 5.2: Schematizzazione dell’effetto combinato AG<br />

Gener<strong>al</strong>mente è <strong>di</strong>fficile riuscire a modellare lo “Spot-effect”, per cui<br />

si tende a migliorare la misura relativa ad ogni spot aumentando il<br />

numero delle repliche speriment<strong>al</strong>i, in modo da avere più dati a<br />

<strong>di</strong>sposizione per l’interpolazione del loro modello.<br />

L’effetto Dye-Gene (DG) si re<strong>al</strong>izza se ci sono interazioni gene-<br />

specifiche fra il gene e il fluorocromo; questo tipo <strong>di</strong> effetto è abbastanza<br />

raro e una sua schematizzazione è mostrata in figura 5.3.<br />

100


Capitolo 5: Modelli ad<strong>di</strong>tivi ANOVA per l’an<strong>al</strong>isi dei dati <strong>di</strong> espressione genica<br />

Figura 5.3: Schematizzazione dell’effetto combinato DG<br />

L’interazione fra il trattamento e il gene (VG) si re<strong>al</strong>izza quando un<br />

gene mostra espressione <strong>di</strong>fferenzi<strong>al</strong>e nelle <strong>di</strong>verse varietà ibri<strong>di</strong>zzate sul<br />

microarray e questa <strong>di</strong>fferenza è riconducibile proprio <strong>al</strong> trattamento. La<br />

quantificazione <strong>di</strong> questo effetto è l’obiettivo princip<strong>al</strong>e dell’esperimento e<br />

la sua schematizzazione è mostrata in figura 5.4.<br />

Figura 5.4: Schematizzazione dell’effetto combinato VG<br />

Le interazioni AD, AT e ADT non sono gene-specifiche ed è <strong>di</strong>fficile<br />

connettere ognuno <strong>di</strong> questi effetti combinati ai processi che si re<strong>al</strong>izzano<br />

sui microarray.<br />

101


Capitolo 5: Modelli ad<strong>di</strong>tivi ANOVA per l’an<strong>al</strong>isi dei dati <strong>di</strong> espressione genica<br />

Le interazioni ADG, ATG, DTG e ADTG sono invece gene-specifiche.<br />

La presenza <strong>di</strong> t<strong>al</strong>i interazioni <strong>di</strong>mostrerebbe che ci sono variazioni<br />

attribuibili a particolari coppie array-fluorocromo, array-trattamento,<br />

fluorocromo-trattamento o combinazioni <strong>di</strong> array-fluorocromo-trattamento<br />

in relazione ad un particolare gene. Queste interazioni <strong>di</strong> or<strong>di</strong>ne superiore<br />

<strong>al</strong> secondo sono <strong>di</strong>fficili da collegare a processi fisici o chimici che si<br />

re<strong>al</strong>izzano nei microarray e gener<strong>al</strong>mente si assume che non si verifichino.<br />

Esistono <strong>di</strong>versi modelli per quantificare le fonti <strong>di</strong> variabilità<br />

illustrate; la possibilità <strong>di</strong> v<strong>al</strong>utare tutti gli effetti che compaiono in essi è<br />

consentita, oltre che da un adeguato numero <strong>di</strong> dati speriment<strong>al</strong>i, anche<br />

da un’opportuna pianificazione del modello statistico e del <strong>di</strong>segno<br />

dell’esperimento.<br />

5.2 Modelli ad<strong>di</strong>tivi ANOVA per l’an<strong>al</strong>isi dell’espressione<br />

La formulazione <strong>di</strong> un modello dei dati <strong>di</strong> intensità è legata non<br />

soltanto <strong>al</strong>l’identificazione delle sorgenti <strong>di</strong> variabilità, ma anche ad<br />

un’adeguata caratterizzazione statistica degli effetti.<br />

E’ possibile <strong>di</strong>stinguere fra effetti fissi, statisticamente modellabili<br />

con variabili <strong>al</strong>eatorie in<strong>di</strong>pendenti ed identicamente <strong>di</strong>stribuite, ed effetti<br />

“random”, che presentano le caratteristiche <strong>di</strong> variabili <strong>al</strong>eatorie generate<br />

da processi tipicamente utilizzati per descrivere l’errore non sistematico <strong>di</strong><br />

misura o errore “random”.<br />

Sulla base della descrizione statistica degli effetti, vengono definiti<br />

modelli “random”, in cui tutti gli effetti coinvolti vengono considerati<br />

casu<strong>al</strong>i, modelli misti nei qu<strong>al</strong>i viene in<strong>di</strong>viduata una parzi<strong>al</strong>e componente<br />

sistematica, e modelli fissi in cui tutti gli effetti sono sistematici a meno<br />

dell’errore <strong>di</strong> misura.<br />

102


Capitolo 5: Modelli ad<strong>di</strong>tivi ANOVA per l’an<strong>al</strong>isi dei dati <strong>di</strong> espressione genica<br />

Per poter utilizzare questi modelli è necessario operare delle<br />

trasformazioni sui dati in modo da renderli idonei per la successiva<br />

elaborazione.<br />

La trasformazione più frequentemente utilizzata sui dati grezzi <strong>di</strong><br />

intensità è quella logaritmica, <strong>al</strong> fine <strong>di</strong> generare un modello ad<strong>di</strong>tivo<br />

piuttosto che moltiplicativo. Utilizzando questa sc<strong>al</strong>a si in<strong>di</strong>ca con yijkg il<br />

logaritmo dell’intensità della fluorescenza misurata per l’array i, il<br />

fluorocromo j, la varietà k e il gene g.<br />

Assumendo che lo stesso insieme <strong>di</strong> geni sia depositato su ogni<br />

array dell’esperimento, si ha a <strong>di</strong>sposizione un insieme completo <strong>di</strong><br />

osservazioni per ogni combinazione <strong>di</strong> array, fluorocromo e varietà: in<br />

conseguenza <strong>di</strong> ciò l’effetto gene e le sue combinazioni sono ortogon<strong>al</strong>i,<br />

ossia in<strong>di</strong>pendenti, a tutti gli <strong>al</strong>tri effetti e l’esperimento si <strong>di</strong>ce bilanciato.<br />

Questo porta a sud<strong>di</strong>videre gli effetti in due gruppi: effetti glob<strong>al</strong>i,<br />

che coinvolgono solo gli effetti princip<strong>al</strong>i A, D e V, ed effetti gene-specifici,<br />

che coinvolgono G. L’effetto <strong>di</strong> interesse VG è, quin<strong>di</strong>, gene-specifico.<br />

Se gli effetti non sono ortogon<strong>al</strong>i, ossia la quantificazione <strong>di</strong> uno<br />

fornisce informazioni ridotte o complete anche sull’<strong>al</strong>tro, si parla <strong>di</strong><br />

confusione dell’informazione, ossia <strong>di</strong> mascheramento parzi<strong>al</strong>e o tot<strong>al</strong>e<br />

degli effetti.<br />

5.2.1 Modelli ad<strong>di</strong>tivi misti<br />

La scelta più gener<strong>al</strong>e operabile quando non vi sono informazioni<br />

per caratterizzare gli effetti come variabili in<strong>di</strong>pendenti ed identicamente<br />

<strong>di</strong>stribuite è considerarli tutti come effetti casu<strong>al</strong>i e generare un modello<br />

“random”. M<strong>al</strong>grado questa scelta garantisca la completa gener<strong>al</strong>izzabilità<br />

del modello, essa ha lo svantaggio <strong>di</strong> essere estremamente onerosa d<strong>al</strong><br />

punto <strong>di</strong> vista della quantificazione <strong>di</strong> questi effetti.<br />

103


Capitolo 5: Modelli ad<strong>di</strong>tivi ANOVA per l’an<strong>al</strong>isi dei dati <strong>di</strong> espressione genica<br />

Una v<strong>al</strong>utazione più approfon<strong>di</strong>ta degli effetti e dei processi fisici che<br />

essi cercano <strong>di</strong> modellare può portare <strong>al</strong>la definizione <strong>di</strong> un modello misto,<br />

nel qu<strong>al</strong>e non tutte le sorgenti <strong>di</strong> variabilità vengono considerate casu<strong>al</strong>i.<br />

Questo tipo <strong>di</strong> modello per i dati <strong>di</strong> espressione genica è stato<br />

introdotto per la prima volta nel lavoro <strong>di</strong> Wolfinger (Wolfinger et <strong>al</strong>.<br />

(2001)) e si sviluppa in due sta<strong>di</strong>: un primo sta<strong>di</strong>o <strong>di</strong> norm<strong>al</strong>izzazione, cui<br />

segue un secondo <strong>di</strong> c<strong>al</strong>colo degli effetti gene-specifici.<br />

La norm<strong>al</strong>izzazione serve ad eliminare il contributo degli effetti<br />

princip<strong>al</strong>i glob<strong>al</strong>i ed essa viene re<strong>al</strong>izzata attraverso la definizione <strong>di</strong> un<br />

sotto-modello per la loro stima, <strong>di</strong>verso a seconda degli effetti glob<strong>al</strong>i da<br />

stimare.<br />

Un modello completo, in cui vengono presi in considerazione tutti gli<br />

effetti glob<strong>al</strong>i e gene-specifici, può avere la seguente forma:<br />

yijkg = μ + Ai + Dj + Vk + Gg + (VG)kg + (AG)ig + (DG)jg + εijkg<br />

dove:<br />

il termine μ si riferisce <strong>al</strong>l’intensità me<strong>di</strong>a tot<strong>al</strong>e c<strong>al</strong>colata su<br />

tutti i geni <strong>di</strong> tutti gli array;<br />

il termine ε rappresenta l’errore “random”; questo è una<br />

quantità <strong>al</strong>eatoria che si <strong>di</strong>stribuisce secondo una variabile <strong>di</strong><br />

Fisher con me<strong>di</strong>a nulla e varianza σ 2 e rappresenta tutta<br />

l’informazione che non si riesce a modellare.<br />

Supponendo <strong>di</strong> aver utilizzato un <strong>di</strong>segno dell’esperimento che<br />

mascheri l’effetto della varietà con quello combinato dell’array e del<br />

fluorocromo (AD), come accade quando si inverte la marcatura dei due<br />

104


Capitolo 5: Modelli ad<strong>di</strong>tivi ANOVA per l’an<strong>al</strong>isi dei dati <strong>di</strong> espressione genica<br />

campioni confrontati nell’ibri<strong>di</strong>zzazione su due vetrini, il modello parzi<strong>al</strong>e<br />

<strong>di</strong> norm<strong>al</strong>izzazione ha la seguente forma:<br />

dove:<br />

yijkg = μ + Ai + Dj + ADk + xijkg<br />

xijkg rappresenta il termine dei residui del modello, che, per<br />

ipotesi, hanno <strong>di</strong>stribuzione norm<strong>al</strong>e.<br />

La stima degli effetti glob<strong>al</strong>i A, D e AD e della me<strong>di</strong>a tot<strong>al</strong>e μ serve a<br />

“centrare” la <strong>di</strong>stribuzione dei dati rispetto a questi effetti e assolve,<br />

quin<strong>di</strong>, lo stesso compito della norm<strong>al</strong>izzazione glob<strong>al</strong>e illustrata nel<br />

capitolo 2.<br />

In questo modo i dati grezzi <strong>di</strong> intensità vengono “ripuliti” senza<br />

ricorrere a tecniche <strong>di</strong> norm<strong>al</strong>izzazione, ma solo attraverso la<br />

quantificazione <strong>di</strong> queste sorgenti <strong>di</strong> variabilità.<br />

Purtroppo, come evidenziato nel capitolo 2, spesso gli errori<br />

sistematici riscontrabili sui dati sono non lineari rispetto <strong>al</strong>l’intensità, per<br />

cui è necessario fare una correzione che sia intensità-<strong>di</strong>pendente. A t<strong>al</strong>e<br />

scopo, prima <strong>di</strong> effettuare la successiva elaborazione per identificare i geni<br />

<strong>di</strong>fferenzi<strong>al</strong>mente espressi, è necessario operare una correzione del colore,<br />

re<strong>al</strong>izzabile tramite una norm<strong>al</strong>izzazione LO(W)ESS.<br />

I residui xijkg del modello del primo sta<strong>di</strong>o <strong>di</strong>ventano i dati del<br />

modello del secondo sta<strong>di</strong>o, che è, invece, un modello gene-specifico, come<br />

deducibile d<strong>al</strong> pe<strong>di</strong>ce g <strong>di</strong> ogni effetto, e serve a generare la stima<br />

dell’effetto <strong>di</strong> interesse VG e degli <strong>al</strong>tri effetti combinati gene-specifici.<br />

Questo avviene grazie <strong>al</strong>l’interpolazione ai minimi quadrati della formula<br />

che schematizza il secondo sta<strong>di</strong>o del modello:<br />

105


dove:<br />

Capitolo 5: Modelli ad<strong>di</strong>tivi ANOVA per l’an<strong>al</strong>isi dei dati <strong>di</strong> espressione genica<br />

xijkg = μg+ (VG)kg + (AG)ig + (DG)jg + εijkg<br />

il termine μ g si riferisce <strong>al</strong>l’intensità me<strong>di</strong>a tot<strong>al</strong>e c<strong>al</strong>colata<br />

sul gene che si sta considerando.<br />

Alcuni effetti possono essere considerati casu<strong>al</strong>i in base <strong>al</strong>la<br />

considerazione che non vi è un’effettiva certezza che essi si abbattano in<br />

maniera sistematica su tutti i dati.<br />

E’ questo il caso dell’effetto AG che, verosimilmente, potrebbe avere<br />

un’entità <strong>di</strong>versa sullo stesso gene in array <strong>di</strong>fferenti. D<strong>al</strong> punto <strong>di</strong> vista<br />

statistico l’effetto AG viene, quin<strong>di</strong>, trattato come se fosse una variabile<br />

<strong>al</strong>eatoria con <strong>di</strong>stribuzione norm<strong>al</strong>e a me<strong>di</strong>a nulla e il modello così definito<br />

viene detto misto.<br />

5.2.2 Modelli ad<strong>di</strong>tivi fissi<br />

I modelli ad<strong>di</strong>tivi fissi proposti da Kerr e Churchill ere<strong>di</strong>tano, d<strong>al</strong><br />

modello misto appena illustrato, la formulazione a due sta<strong>di</strong>; anche in<br />

questo caso, infatti, lo sta<strong>di</strong>o gene-specifico <strong>di</strong> v<strong>al</strong>utazione dell’effetto VG<br />

viene preceduto da quello <strong>di</strong> norm<strong>al</strong>izzazione.<br />

Un modello ANOVA semplice include solo i fattori princip<strong>al</strong>i e<br />

l’effetto VG e può essere schematizzato con la formula seguente:<br />

yijkg = μ + Ai + Dj + Vk + Gg + (VG)kg + εijkg<br />

106


Capitolo 5: Modelli ad<strong>di</strong>tivi ANOVA per l’an<strong>al</strong>isi dei dati <strong>di</strong> espressione genica<br />

Un modello più plausibile aggiunge le variazioni spot a spot,<br />

includendo l’effetto combinato AG, e la sua struttura è descritta d<strong>al</strong>la<br />

formula seguente:<br />

yijkg = μ + Ai + Dj + Vk + Gg + (VG)kg + (AG)ig + εijkg<br />

Un’<strong>al</strong>tra possibilità è quella <strong>di</strong> aggiungere l’interazione fluorocromo-<br />

gene (DG), generando così il modello completo già illustrato nel paragrafo<br />

precedente.<br />

Questi modelli sono relativi a situazioni in cui ogni gene è presente<br />

in una sola copia per array. Se i geni sono depositati in r copie per ogni<br />

array, la varianza del termine <strong>di</strong> interesse VG decrementa <strong>di</strong> un fattore 1/r<br />

ed è possibile inserire un “effetto replica S” nel modello, per catturare le<br />

<strong>di</strong>fferenze fra gli spot duplicati <strong>al</strong>l’interno dell’array, così come in<strong>di</strong>cato<br />

nella formula:<br />

yijkgr = μ + Ai + Dj + Vk + Gg + (VG)kg + (AG)ig + (DG)jg +<br />

Sr(ig)+ + εijkgr<br />

Poiché si assume che tutti gli effetti presenti nei tre modelli siano<br />

variabili <strong>al</strong>eatorie in<strong>di</strong>pendenti e identicamente <strong>di</strong>stribuite con me<strong>di</strong>a<br />

nulla, a meno del termine <strong>di</strong> errore “random”, si parla <strong>di</strong> modello fisso.<br />

Le stime degli effetti del modello sono re<strong>al</strong>izzate attraverso<br />

un’interpolazione ai minimi quadrati, minimizzando la quantità:<br />

∑<br />

[yijkgr<br />

− μ<br />

ijkgr<br />

− A<br />

i<br />

− D<br />

j<br />

− V<br />

k<br />

− G<br />

g<br />

− (VG)<br />

kg<br />

− (AG)<br />

ig<br />

− (DG)<br />

jg<br />

− S<br />

r(ig)<br />

]<br />

2<br />

107


Capitolo 5: Modelli ad<strong>di</strong>tivi ANOVA per l’an<strong>al</strong>isi dei dati <strong>di</strong> espressione genica<br />

con i vincoli che:<br />

∑ i = ∑Dj= ∑Vk= ∑Gg= ∑ ( AG)<br />

ig = ∑ ( AG)<br />

ig = ∑ ( VG)<br />

kg = ∑<br />

=<br />

A ( VG)<br />

∑ ( ) jg = ∑ ( DG)<br />

jg = ∑ Sr<br />

( ) =<br />

DG 0<br />

g j r ig<br />

g i<br />

g k kg<br />

L’effetto <strong>di</strong> interesse VGkg per ogni gene g e trattamento k è ottenuto<br />

attraverso la stima ai minimi quadrati :<br />

VGkg = t..<br />

kg.<br />

− t..<br />

k..<br />

− t...<br />

g.<br />

dove t rappresenta il logaritmo delle intensità e ogni punto dei pe<strong>di</strong>ci<br />

+ t<br />

identifica il termine sul qu<strong>al</strong>e è stata eseguita la me<strong>di</strong>a.<br />

5.3 “Nested” F-test e determinazione dei geni<br />

<strong>di</strong>fferenzi<strong>al</strong>mente espressi<br />

Una volta effettuata l’interpolazione ai minimi quadrati dei<br />

parametri del modello si può passare <strong>al</strong>la determinazione dei geni<br />

<strong>di</strong>fferenzi<strong>al</strong>mente espressi.<br />

.....<br />

=<br />

108


Capitolo 5: Modelli ad<strong>di</strong>tivi ANOVA per l’an<strong>al</strong>isi dei dati <strong>di</strong> espressione genica<br />

Con questa tecnica <strong>di</strong> an<strong>al</strong>isi dei dati <strong>di</strong> intensità, si decide se un<br />

gene è <strong>di</strong>fferenzi<strong>al</strong>mente espresso re<strong>al</strong>izzando un test delle ipotesi sul<br />

modello che è stato interpolato.<br />

F-test.<br />

Seguendo lo schema classico del test delle ipotesi si definiscono:<br />

ipotesi nulla o modello nullo: il trattamento non ha effetto sul<br />

gene e (VG)1g=…=(VG)kg=0 nel modello;<br />

ipotesi <strong>al</strong>ternativa o modello <strong>al</strong>ternativo: il gene è<br />

<strong>di</strong>fferenzi<strong>al</strong>mente espresso e vi è <strong>al</strong>meno un k per il qu<strong>al</strong>e il<br />

termine (VG)kg≠0 nel modello.<br />

L’adeguatezza dei due modelli viene verificata attraverso un “nested”<br />

Due modelli vengono <strong>di</strong>chiarati “nested” o “annidati” se il modello<br />

definito completo o <strong>al</strong>ternativo contiene tutti i termini del modello definito<br />

parzi<strong>al</strong>e o nullo e <strong>al</strong>meno un termine ad<strong>di</strong>zion<strong>al</strong>e <strong>di</strong>verso da zero.<br />

Se si definisce il modello nullo secondo la classica formulazione<br />

statistica come:<br />

( y)<br />

= β 0 + β1x1<br />

+ β 2x<br />

2 …+<br />

g xg<br />

E β<br />

dove E(y) rappresenta l’aspettazione dei dati y, <strong>al</strong>lora il modello<br />

<strong>al</strong>ternativo che lo contiene avrà la forma:<br />

( y)<br />

= β 0 + β1x1<br />

+ β 2 x2<br />

…+ β g x g + β g+<br />

1x<br />

g + 1 + …+<br />

k xk<br />

E β<br />

109


segue:<br />

Capitolo 5: Modelli ad<strong>di</strong>tivi ANOVA per l’an<strong>al</strong>isi dei dati <strong>di</strong> espressione genica<br />

e d<strong>al</strong> punto <strong>di</strong> vista del test delle ipotesi, esse verranno definite come<br />

H<br />

H<br />

0 : g+<br />

1 = β g+<br />

2<br />

a<br />

β = … = β = 0<br />

: <strong>al</strong>meno un<br />

k<br />

parametro β con a = g + 1,... k<br />

a<br />

è <strong>di</strong>verso da<br />

Per testare queste ipotesi è possibile utilizzare un F-test in cui la<br />

classica statistica F viene sostituita con una che re<strong>al</strong>izza il confronto fra i<br />

residui dei due modelli piuttosto che fra le varianze dei dati e che è<br />

definita come segue:<br />

F<br />

=<br />

( SSE − SSE ) ( k − g)<br />

reduced<br />

SSE<br />

full<br />

full<br />

[ n − ( k + 1)<br />

]<br />

dove SSE in<strong>di</strong>ca la somma degli errori quadratici dei residui per i<br />

due modelli secondo la definizione classica, k sono i gra<strong>di</strong> <strong>di</strong> libertà per il<br />

modello nullo, g quelli per il modello <strong>al</strong>ternativo e n è il numero delle<br />

osservazioni.<br />

Questa statistica si <strong>di</strong>stribuisce ancora come una variabile F <strong>di</strong><br />

Fisher con k − g gra<strong>di</strong> <strong>di</strong> libertà per il numeratore e n − ( k 1 gra<strong>di</strong> <strong>di</strong> libertà<br />

per il denominatore. La regola <strong>di</strong> rigetto dell’ipotesi nulla stabilisce che il<br />

modello nullo viene rifiutato se > Fk<br />

−g<br />

, n−<br />

k+<br />

1 ., dove F<br />

critico della variabile tabulata.<br />

+ )<br />

F ( )<br />

k-g,n-(k+1) è il v<strong>al</strong>ore<br />

Questo test è anche conosciuto con il nome <strong>di</strong> “F-test parzi<strong>al</strong>e” e per<br />

i dati <strong>di</strong> intensità ricavati dai geni si traduce in:<br />

0<br />

110


Capitolo 5: Modelli ad<strong>di</strong>tivi ANOVA per l’an<strong>al</strong>isi dei dati <strong>di</strong> espressione genica<br />

F<br />

( rss<br />

=<br />

0<br />

− rss1)<br />

/( df<br />

rss / df<br />

1<br />

1<br />

0<br />

− df<br />

dove rss è l’equiv<strong>al</strong>ente <strong>di</strong> SSE e df sono i gra<strong>di</strong> <strong>di</strong> libertà del<br />

modello nullo (pe<strong>di</strong>ce 0) e <strong>al</strong>ternativo (pe<strong>di</strong>ce 1). Questa statistica è gene-<br />

specifica, poiché vengono utilizzati i dati dell’interpolazione del modello<br />

gene-specifico.<br />

In un proce<strong>di</strong>mento <strong>di</strong> F-test è possibile utilizzare <strong>al</strong>tre statistiche<br />

per la <strong>di</strong>scriminazione dei geni <strong>di</strong>fferenzi<strong>al</strong>mente espressi.<br />

Se, per esempio, si vuole considerare una varianza dell’errore<br />

comune su tutti i geni <strong>di</strong> tutti gli array, la statistica F può essere definita<br />

come:<br />

F<br />

( rss<br />

=<br />

0<br />

− rss ) /( df<br />

σ<br />

1<br />

2<br />

pool<br />

0<br />

− df<br />

1<br />

1<br />

)<br />

)<br />

2<br />

σ pool<br />

utilizzando un’informazione glob<strong>al</strong>e in supporto <strong>di</strong> quella gene-<br />

specifica espressa d<strong>al</strong> numeratore.<br />

Una via <strong>di</strong> mezzo fra le due statistiche appena definite può venire<br />

d<strong>al</strong> considerare una combinazione <strong>di</strong> varianza glob<strong>al</strong>e e gene-specifica <strong>al</strong><br />

denominatore della statistica da computare:<br />

( rss0<br />

− rss1)<br />

/( df0<br />

− df1)<br />

F =<br />

2<br />

( rss / df + σ ) / 2<br />

1<br />

1<br />

pool<br />

111


Capitolo 5: Modelli ad<strong>di</strong>tivi ANOVA per l’an<strong>al</strong>isi dei dati <strong>di</strong> espressione genica<br />

Le tre statistiche sono praticamente equiv<strong>al</strong>enti e l’adozione <strong>di</strong> una<br />

<strong>di</strong> esse può <strong>di</strong>pendere d<strong>al</strong>le informazioni che si hanno sui dati e d<strong>al</strong>le<br />

ipotesi fatte su <strong>di</strong> essi.<br />

Una volta stabilito il criterio da adottare per verificare le ipotesi, si<br />

può stabilire <strong>di</strong> effettuare delle permutazioni sui dati, senza o con<br />

sostituzione (bootstrap), per irrobustire il risultato del test statistico e<br />

acquisire un livello <strong>di</strong> confidenza opportuno.<br />

A conclusione <strong>di</strong> tutto il proce<strong>di</strong>mento è possibile re<strong>al</strong>izzare un<br />

clustering dei risultati per raggruppare i geni <strong>di</strong>fferenzi<strong>al</strong>mente espressi in<br />

base a profili <strong>di</strong> espressione comuni.<br />

L’an<strong>al</strong>isi dei residui del modello è utile non solo per determinare<br />

l’espressione <strong>di</strong>fferenzi<strong>al</strong>e dei geni, ma ha anche lo scopo <strong>di</strong> verificare<br />

l’adeguatezza del modello.<br />

Infatti, d<strong>al</strong>lo scatterplot dei residui è possibile rilevare la presenza <strong>di</strong><br />

andamenti non casu<strong>al</strong>i (o tendenze) sui dati dei residui; ciò in<strong>di</strong>ca<br />

l’inclusione <strong>di</strong> elementi <strong>di</strong> informazione in un elemento del modello che<br />

viene considerato “random” e, quin<strong>di</strong>, per definizione non informativo.<br />

Riscontrare una situazione del genere deve portare ad un’an<strong>al</strong>isi più<br />

approfon<strong>di</strong>ta degli effetti da considerare nel modello che viene interpolato,<br />

per non rischiare <strong>di</strong> mantenere errori sistematici che corrompono i dati o<br />

<strong>di</strong> non quantificare effetti <strong>di</strong> interesse.<br />

5.4 Disegno <strong>di</strong> esperimenti con microarray<br />

Una corretta definizione del modello non può prescindere d<strong>al</strong><br />

<strong>di</strong>segno speriment<strong>al</strong>e che è stato adottato, soprattutto, per determinare il<br />

mascheramento degli effetti e per massimizzare l’informazione che si può<br />

ottenere d<strong>al</strong>l’esperimento stesso.<br />

112


Capitolo 5: Modelli ad<strong>di</strong>tivi ANOVA per l’an<strong>al</strong>isi dei dati <strong>di</strong> espressione genica<br />

Gli esperimenti che utilizzano microarray per l’an<strong>al</strong>isi <strong>di</strong> espressione<br />

genica generano un’insieme complesso e numeroso <strong>di</strong> dati multivariati.<br />

L’aspetto più impegnativo della bioinformatica nel settore dei microarray è<br />

la produzione <strong>di</strong> strumenti statistici e computazion<strong>al</strong>i per l’an<strong>al</strong>isi dei dati<br />

prodotti, ma un compito <strong>di</strong> importanza non secondaria è la v<strong>al</strong>utazione <strong>di</strong><br />

<strong>di</strong>segni speriment<strong>al</strong>i appropriati che rendano più efficiente e robusto il<br />

processo <strong>di</strong> generazione <strong>di</strong> queste informazioni.<br />

Il problema del <strong>di</strong>segno speriment<strong>al</strong>e è particolarmente rilevante in<br />

esperimenti con microarray “two-color”, in cui è fondament<strong>al</strong>e stabilire<br />

qu<strong>al</strong>i campioni devono essere ibri<strong>di</strong>zzati su ogni microarray per poter<br />

effettuare un’an<strong>al</strong>isi <strong>di</strong> tipo comparativo fra le intensità dei due can<strong>al</strong>i.<br />

Su microarray <strong>di</strong> tipo Affymetrix il problema è meno stringente, per<br />

il fatto che ogni campione viene ibri<strong>di</strong>zzato separatamente su un<br />

microarray de<strong>di</strong>cato e, poiché viene ricavato un v<strong>al</strong>ore assoluto<br />

dell’intensità, è possibile simulare, me<strong>di</strong>ante software, qu<strong>al</strong>unque <strong>di</strong>segno<br />

speriment<strong>al</strong>e accoppiando i campioni in fase <strong>di</strong> an<strong>al</strong>isi.<br />

Il princip<strong>al</strong>e compito del <strong>di</strong>segno speriment<strong>al</strong>e è rendere l’an<strong>al</strong>isi dei<br />

dati e l’interpretazione dei risultati più semplice e potente possibile, in<br />

relazione <strong>al</strong>le domande cui l’esperimento deve dare una risposta e ai<br />

vincoli sul materi<strong>al</strong>e che lo sperimentatore ha a <strong>di</strong>sposizione.<br />

Da un punto <strong>di</strong> vista pratico, i problemi che bisogna considerare<br />

quando si progetta un esperimento con microarray sono <strong>di</strong> <strong>di</strong>verso tipo:<br />

Fissare l’obiettivo dell’esperimento:<br />

- Domande biologiche <strong>al</strong>le qu<strong>al</strong>i si vorrebbe dare risposta;<br />

- Priorità da assegnare ad ogni questione;<br />

Stabilire il tipo e le concentrazioni minime dei campioni che<br />

servono per re<strong>al</strong>izzare l’an<strong>al</strong>isi comparativa;<br />

Decidere qu<strong>al</strong>i campioni devono essere messi a confronto sullo<br />

stesso microarray e, <strong>di</strong> conseguenza, qu<strong>al</strong>e marcatura va<br />

effettuata per ogni campione;<br />

113


Capitolo 5: Modelli ad<strong>di</strong>tivi ANOVA per l’an<strong>al</strong>isi dei dati <strong>di</strong> espressione genica<br />

Determinare il numero <strong>di</strong> vetrini che servono per re<strong>al</strong>izzare il<br />

<strong>di</strong>segno speriment<strong>al</strong>e adottato;<br />

Definire un protocollo speriment<strong>al</strong>e per la preparazione, la<br />

marcatura e l’ibri<strong>di</strong>zzazione dei campioni;<br />

V<strong>al</strong>utare il costo dell’esperimento ed apportare eventu<strong>al</strong>i<br />

mo<strong>di</strong>fiche in relazione <strong>al</strong> budget <strong>di</strong>sponibile.<br />

Prima <strong>di</strong> <strong>di</strong>scutere gli elementi con i qu<strong>al</strong>i stabilire il <strong>di</strong>segno<br />

speriment<strong>al</strong>e più opportuno, è utile illustrare le convenzioni grafiche<br />

tipicamente utilizzate per una rappresentazione schematica (Yang and<br />

Speed, 2002).<br />

Uno schema tipico <strong>di</strong> un esperimento con microarray si ottiene con<br />

l’utilizzo <strong>di</strong> un “multi-grafo orientato”. Ogni campione viene rappresentato<br />

con un quadrato e ogni array con una freccia fra i campioni: la punta della<br />

freccia in<strong>di</strong>ca il campione marcato in rosso, mentre l’<strong>al</strong>tra estremità in<strong>di</strong>ca<br />

quello marcato in verde. La presenza <strong>di</strong> un numero posizionato sulla<br />

freccia in<strong>di</strong>ca il numero <strong>di</strong> array utilizzati per quel confronto, ossia il<br />

numero <strong>di</strong> repliche speriment<strong>al</strong>i.<br />

Figura 5.5: Grafo del confronto <strong>di</strong>retto fra due campioni A e B<br />

La struttura del grafo determina qu<strong>al</strong>i espressioni <strong>di</strong>fferenzi<strong>al</strong>i<br />

possono essere stimate e con che precisione: due campioni possono essere<br />

confrontati solo se nel <strong>di</strong>segno speriment<strong>al</strong>e esiste un “percorso”, cioè una<br />

sequenza <strong>di</strong> microarray con un campione in comune, che li unisce; la<br />

114


Capitolo 5: Modelli ad<strong>di</strong>tivi ANOVA per l’an<strong>al</strong>isi dei dati <strong>di</strong> espressione genica<br />

precisione della stima è inversamente proporzion<strong>al</strong>e <strong>al</strong>la lunghezza del<br />

percorso.<br />

Si supponga <strong>di</strong> voler confrontare tre campioni A, B e C con un<br />

<strong>di</strong>segno speriment<strong>al</strong>e denominato “loop”, spiegato in seguito in dettaglio,<br />

osservabile in figura 5.6.<br />

Figura 5.6: Grafo del <strong>di</strong>segno speriment<strong>al</strong>e a” loop”<br />

Se si vogliono confrontare i campioni A e B esistono due percorsi per<br />

farlo: il percorso <strong>di</strong>retto fra A e B <strong>di</strong> lunghezza 1 e quello in<strong>di</strong>retto che<br />

passa da C <strong>di</strong> lunghezza 2. E’ facile comprendere come la stima del<br />

confronto fra i due campioni sia più precisa sul percorso più corto,<br />

piuttosto che su quello più lungo, dove si possono sommare errori dovuti<br />

<strong>al</strong> confronto in<strong>di</strong>retto <strong>di</strong> A e B con il campione C.<br />

5.4.1 Criteri per la scelta del <strong>di</strong>segno speriment<strong>al</strong>e<br />

La scelta <strong>di</strong> un adeguato <strong>di</strong>segno per l’esperimento che si vuole<br />

eseguire può <strong>di</strong>pendere da molteplici elementi.<br />

Prima <strong>di</strong> tutto bisogna tenere in considerazione che su ogni<br />

microarray è possibile ibri<strong>di</strong>zzare solo due campioni, per cui ogni vetrino è<br />

115


Capitolo 5: Modelli ad<strong>di</strong>tivi ANOVA per l’an<strong>al</strong>isi dei dati <strong>di</strong> espressione genica<br />

un blocco speriment<strong>al</strong>e <strong>di</strong> <strong>di</strong>mensione due. Se ci sono più <strong>di</strong> due varietà<br />

del fattore <strong>di</strong> interesse non è possibile confrontarle sullo stesso array, per<br />

questo motivo si <strong>di</strong>ce che il <strong>di</strong>segno speriment<strong>al</strong>e è a blocchi incompleti.<br />

Chiarito questo aspetto è necessario decidere qu<strong>al</strong>i campioni devono<br />

essere ibri<strong>di</strong>zzati su ogni vetrino e qu<strong>al</strong>i marcatori utilizzare per ogni<br />

campione.<br />

La prima cosa da tenere in considerazione è lo scopo<br />

dell’esperimento, in modo da cogliere eventu<strong>al</strong>i suggerimenti o <strong>di</strong>segni<br />

impliciti <strong>di</strong>rettamente d<strong>al</strong>la mod<strong>al</strong>ità <strong>di</strong> trattamento dei campioni che si<br />

vogliono confrontare.<br />

Si supponga, per esempio, <strong>di</strong> voler stu<strong>di</strong>are l’effetto della<br />

somministrazione <strong>di</strong> <strong>di</strong>versi farmaci su un gruppo <strong>di</strong> cellule e che<br />

l’interesse princip<strong>al</strong>e <strong>di</strong> questo esperimento sia confrontare il loro mRNA<br />

con quello <strong>di</strong> un <strong>al</strong>tro gruppo <strong>di</strong> cellule dello stesso tipo non sottoposto <strong>al</strong><br />

trattamento. In questo caso un <strong>di</strong>segno appropriato deve considerare le<br />

cellule non trattate, o <strong>di</strong> controllo, come un riferimento de facto.<br />

Figura 5.7: Grafo del confronto fra campioni trattati e campione <strong>di</strong> controllo<br />

In un esperimento in cui si vogliano identificare sottogruppi <strong>di</strong><br />

tumori della stessa famiglia sarà necessario mettere in relazione fra <strong>di</strong> loro<br />

i campioni tumor<strong>al</strong>i provenienti dai <strong>di</strong>versi pazienti e ciò può essere<br />

ottenuto solo attraverso una base comune <strong>di</strong> confronto rappresentata da<br />

un RNA <strong>di</strong> riferimento. Se il numero <strong>di</strong> campioni è maggiore <strong>di</strong> tre, questo<br />

116


Capitolo 5: Modelli ad<strong>di</strong>tivi ANOVA per l’an<strong>al</strong>isi dei dati <strong>di</strong> espressione genica<br />

<strong>di</strong>segno speriment<strong>al</strong>e offre il vantaggio <strong>di</strong> consentire il confronto fra tutti<br />

⎛n<br />

⎞<br />

gli n campioni in esame utilizzando n microarray piuttosto che ⎜ ⎟ .<br />

⎝2<br />

⎠<br />

Figura 5.8: Grafo del <strong>di</strong>segno speriment<strong>al</strong>e con riferimento<br />

Il <strong>di</strong>segno speriment<strong>al</strong>e, dunque, può essere suggerito <strong>di</strong>rettamente<br />

d<strong>al</strong>la questione biologica <strong>al</strong>la qu<strong>al</strong>e si vuole dare una risposta; tuttavia,<br />

può succedere che <strong>di</strong>segni <strong>di</strong>versi descrivano ugu<strong>al</strong>mente bene<br />

l’esperimento. E’ necessario, in questi casi, considerare <strong>al</strong>tri vincoli per<br />

in<strong>di</strong>rizzare la scelta sul modello migliore, ad esempio, decidere se<br />

re<strong>al</strong>izzare un confronto <strong>di</strong>retto o in<strong>di</strong>retto fra i campioni.<br />

5.4.2 Confronto <strong>di</strong>retto ed in<strong>di</strong>retto<br />

Si supponga <strong>di</strong> pianificare un esperimento in cui si ha a<br />

<strong>di</strong>sposizione un microarray e la quantità <strong>di</strong> mRNA ricavata dai campioni<br />

non sia un fattore limitante. Per re<strong>al</strong>izzare un confronto <strong>di</strong>retto fra un<br />

trattato e un controllo si può pensare <strong>di</strong> marcare il trattato con Cy3 e il<br />

controllo con Cy5 ed ibri<strong>di</strong>zzare entrambi i campioni sullo stesso vetrino,<br />

come illustrato in figura 5.5. In questo caso, poiché il risultato<br />

dell’esperimento genera una sola osservazione del log(T/C) attraverso un<br />

confronto <strong>di</strong>retto, la varianza <strong>di</strong> questa misura sarà σ 2 .<br />

117


Capitolo 5: Modelli ad<strong>di</strong>tivi ANOVA per l’an<strong>al</strong>isi dei dati <strong>di</strong> espressione genica<br />

Per migliorare la qu<strong>al</strong>ità dell’osservazione si può fare un confronto in<br />

“dye-swap”: con questo criterio gli stessi campioni vengono ibri<strong>di</strong>zzati su<br />

due microarray <strong>di</strong>versi invertendo la marcatura con i fluorocromi.<br />

Figura 5.9: Confronto <strong>di</strong>retto con scambio della marcatura<br />

Se la varianza <strong>di</strong> ogni singola misura è ancora σ 2 , <strong>al</strong>lora la varianza<br />

della me<strong>di</strong>a delle due misure in<strong>di</strong>pendenti è σ 2 /2 (figura 5.10).<br />

La duplicazione della misura scambiando la marcatura è utile per<br />

ridurre l’errore sistematico dovuto <strong>al</strong>la <strong>di</strong>versa efficienza <strong>di</strong> emissione delle<br />

due cianine.<br />

Se si fa uso <strong>di</strong> un riferimento comune o “reference”, denominato per<br />

esempio con R, <strong>al</strong>lora le due ibridazioni <strong>di</strong>sponibili per confrontare in<br />

maniera in<strong>di</strong>retta T e C saranno T rispetto ad R e C rispetto ad R. In<br />

questo caso il log(T/C) potrà essere ricavato d<strong>al</strong>le singole misure <strong>di</strong> T e C<br />

rispetto ad R. Essendo ancora la varianza <strong>di</strong> ogni singola misura pari a σ 2 ,<br />

ne segue che la varianza della <strong>di</strong>fferenza delle due misure è pari a 2σ 2 .<br />

Le varianze relative ai due <strong>di</strong>segni speriment<strong>al</strong>i <strong>di</strong>fferiscono per un<br />

fattore quattro e questo può essere l’elemento critico che in<strong>di</strong>rizza nella<br />

scelta <strong>di</strong> un metodo <strong>di</strong> confronto <strong>di</strong>retto piuttosto che <strong>di</strong> uno in<strong>di</strong>retto.<br />

118


Capitolo 5: Modelli ad<strong>di</strong>tivi ANOVA per l’an<strong>al</strong>isi dei dati <strong>di</strong> espressione genica<br />

Direct<br />

A B<br />

In<strong>di</strong>rect<br />

A<br />

average(log(A/B)) log (A / R)–log (B/R )<br />

σ 2<br />

/2 2σ 2<br />

Figura 5.10: Schema riassuntivo del confronto <strong>di</strong>retto ed in<strong>di</strong>retto<br />

Il c<strong>al</strong>colo della varianza così come è stato eseguito considera i<br />

microarray come blocco speriment<strong>al</strong>e, senza entrare nel dettaglio<br />

dell’insieme <strong>di</strong> misure che sono state eseguite su tutti i geni o delle<br />

sorgenti <strong>di</strong> variabilità incluse nel modello dei dati.<br />

Da questo punto <strong>di</strong> vista la scelta <strong>di</strong> un <strong>di</strong>segno speriment<strong>al</strong>e può<br />

essere influenzata d<strong>al</strong>la possibilità <strong>di</strong> quantificare tutti gli effetti presenti<br />

nel modello e ciò è strettamente legato ai gra<strong>di</strong> <strong>di</strong> libertà che è possibile<br />

riservare ad ognuno <strong>di</strong> essi e <strong>al</strong>l’errore “random”.<br />

Utilizzare un <strong>di</strong>segno con riferimento comporta <strong>di</strong> dover marcare con<br />

lo stesso fluorocromo, su tutti i vetrini, il campione <strong>di</strong> riferimento e con<br />

l’<strong>al</strong>tro fluorocromo i campioni da an<strong>al</strong>izzare: in questo modo le<br />

informazioni relative <strong>al</strong>le varietà e ai marcatori si sovrappongono, cioè i<br />

due effetti sono confusi o mascherati, e stimare l’uno o l’<strong>al</strong>tro è<br />

completamente equiv<strong>al</strong>ente.<br />

Una conseguenza <strong>di</strong> questo mascheramento è che anche gli effetti <strong>di</strong><br />

interazione VG e DG si confondono, quin<strong>di</strong>, per utilizzare questo <strong>di</strong>segno<br />

bisogna assumere che non ci siano effetti gene-specifici nella marcatura o<br />

accettare che non possano essere quantificati.<br />

E’ possibile classificare numerosi <strong>al</strong>tri effetti <strong>di</strong> mascheramento,<br />

riassunti, nel caso del <strong>di</strong>segno con riferimento, nella tabella 5.1. E’<br />

interessante notare come l’effetto array è solo parzi<strong>al</strong>mente confuso con<br />

B<br />

119


Capitolo 5: Modelli ad<strong>di</strong>tivi ANOVA per l’an<strong>al</strong>isi dei dati <strong>di</strong> espressione genica<br />

l’effetto DV e questo sempre per il criterio con cui sono marcati i due<br />

campioni ibri<strong>di</strong>zzati; se, infatti, si può identificare l’array sul qu<strong>al</strong>e è stato<br />

ibri<strong>di</strong>zzato un campione quando si fissino i due in<strong>di</strong>ci <strong>di</strong> fluorocromo e <strong>di</strong><br />

varietà per il campione da an<strong>al</strong>izzare, lo stesso non avviene quando<br />

l’informazione riguarda il riferimento, per il qu<strong>al</strong>e la coppia <strong>di</strong> in<strong>di</strong>ci è<br />

ugu<strong>al</strong>e su tutti gli array.<br />

Tabella 5.1: Mascheramento degli effetti nel <strong>di</strong>segno speriment<strong>al</strong>e con riferimento<br />

Il <strong>di</strong>segno con riferimento per k varietà ed n geni produce 2kn<br />

osservazioni, quin<strong>di</strong> i gra<strong>di</strong> <strong>di</strong> libertà tot<strong>al</strong>i sull’insieme <strong>di</strong> dati sono 2kn-1.<br />

Se si c<strong>al</strong>colano i gra<strong>di</strong> <strong>di</strong> libertà per ogni effetto del modello si troverà che:<br />

la me<strong>di</strong>a e gli effetti princip<strong>al</strong>i A, V e G coprono 2k+(n-1) gra<strong>di</strong><br />

<strong>di</strong> libertà;<br />

l’effetto combinato VG copre k(n-1) gra<strong>di</strong> <strong>di</strong> libertà;<br />

l’effetto AG copre (k-1)(n-1) gra<strong>di</strong> <strong>di</strong> libertà;<br />

non rimangono gra<strong>di</strong> <strong>di</strong> libertà per stimare l’errore.<br />

L’an<strong>al</strong>isi del <strong>di</strong>segno che re<strong>al</strong>izza una comparazione <strong>di</strong>retta con<br />

inversione della marcatura rivela che anche in questo caso vi sono<br />

120


Capitolo 5: Modelli ad<strong>di</strong>tivi ANOVA per l’an<strong>al</strong>isi dei dati <strong>di</strong> espressione genica<br />

mascheramenti <strong>di</strong> effetti. Si può facilmente verificare, infatti, che l’effetto<br />

array si confonde con l’effetto combinato della marcatura e della varietà,<br />

cioè una volta che viene fissata la coppia <strong>di</strong> in<strong>di</strong>ci che identifica il<br />

campione e il fluorocromo con cui esso è marcato si in<strong>di</strong>vidua anche<br />

l’array su cui esso è stato ibri<strong>di</strong>zzato.<br />

Tabella 5.2: Mascheramento degli effetti nel confronto <strong>di</strong>retti con inversione della<br />

marcatura<br />

In questo caso, tuttavia, d<strong>al</strong> c<strong>al</strong>colo dei gra<strong>di</strong> <strong>di</strong> libertà si scopre che<br />

rimane un margine per stimare l’errore; infatti:<br />

la me<strong>di</strong>a e gli effetti princip<strong>al</strong>i A, V e G coprono 2k+(n-1) gra<strong>di</strong><br />

<strong>di</strong> libertà;<br />

l’effetto combinato VG copre (k-1)(n-1) gra<strong>di</strong> <strong>di</strong> libertà;<br />

l’effetto AG copre (k-1)(n-1);<br />

rimangono n-1 gra<strong>di</strong> <strong>di</strong> libertà per stimare l’errore.<br />

121


Capitolo 5: Modelli ad<strong>di</strong>tivi ANOVA per l’an<strong>al</strong>isi dei dati <strong>di</strong> espressione genica<br />

La scelta del <strong>di</strong>segno speriment<strong>al</strong>e più appropriato può avvenire,<br />

quin<strong>di</strong>, anche in base a qu<strong>al</strong>i effetti si desidera stimare o a qu<strong>al</strong>i si può<br />

ammettere <strong>di</strong> confondere con l’errore “random”.<br />

Esiste un terzo <strong>di</strong>segno speriment<strong>al</strong>e che cerca <strong>di</strong> mettere insieme i<br />

pregi del <strong>di</strong>segno con riferimento e quelli del confronto <strong>di</strong>retto in “dye-<br />

swap”: il <strong>di</strong>segno a “loop”, <strong>di</strong> cui si è già accennato in precedenza (figura<br />

5.6).<br />

Questo tipo <strong>di</strong> <strong>di</strong>segno utilizza lo stesso numero <strong>di</strong> array del <strong>di</strong>segno<br />

con riferimento, ma supera il limite fondament<strong>al</strong>e <strong>di</strong> quest’ultimo, che<br />

consiste nel collezionare il maggior numero <strong>di</strong> misure sul campione <strong>di</strong><br />

riferimento e non su quello <strong>di</strong> interesse.<br />

Il <strong>di</strong>segno speriment<strong>al</strong>e a “loop” re<strong>al</strong>izza il doppio delle misure sulle<br />

varietà <strong>di</strong> interesse e compie un bilanciamento fra i marcatori e le varietà,<br />

marcando ogni varietà una volta con un fluorocromo e una volta con<br />

l’<strong>al</strong>tro su due array <strong>di</strong>versi.<br />

Questo bilanciamento permette <strong>di</strong> separare gli effetti D e V e, <strong>di</strong><br />

conseguenza, il loro effetto combinato; in questo modo è possibile rilevare<br />

sia la <strong>di</strong>fferenza intrinseca fra fluorocromi che un eventu<strong>al</strong>e effetto gene-<br />

specifico della marcatura.<br />

La stima dei gra<strong>di</strong> <strong>di</strong> libertà per questo <strong>di</strong>segno speriment<strong>al</strong>e è<br />

ugu<strong>al</strong>e a quella del confronto <strong>di</strong>retto in “dye-swap” e anche in questo caso<br />

rimangono n-1 gra<strong>di</strong> <strong>di</strong> libertà per stimare l’errore.<br />

Un inconveniente pratico evidente <strong>di</strong> questo tipo <strong>di</strong> <strong>di</strong>segno è il fatto<br />

che bisogna re<strong>al</strong>izzare il doppio delle reazioni <strong>di</strong> marcatura perché ogni<br />

campione deve essere marcato con entrambi i fluorocromi.<br />

122


Capitolo 6<br />

Confronto critico fra metodologie statistiche<br />

<strong>di</strong> trattamento dei dati <strong>di</strong> espressione genica<br />

In questo capitolo verranno presentati i risultati ottenuti d<strong>al</strong><br />

confronto critico fra i meto<strong>di</strong> <strong>di</strong> an<strong>al</strong>isi della significatività statistica,<br />

l’approccio empirico bayesiano e l’an<strong>al</strong>isi della varianza per la selezione dei<br />

geni <strong>di</strong>fferenzi<strong>al</strong>mente espressi.<br />

Questo confronto è stato re<strong>al</strong>izzato utilizzando l’insieme <strong>di</strong> dati<br />

relativi ad uno stu<strong>di</strong>o sull’organismo C. elegans (Golden et <strong>al</strong>., 2004), il cui<br />

scopo è stato in<strong>di</strong>viduare i geni potenzi<strong>al</strong>mente coinvolti nel processo <strong>di</strong><br />

crescita e invecchiamento del nematode.<br />

Dopo aver in<strong>di</strong>viduato i criteri <strong>di</strong> pre-trattamento e norm<strong>al</strong>izzazione<br />

dei dati grezzi, i risultati dello stu<strong>di</strong>o sono stati an<strong>al</strong>izzati ed utilizzati per<br />

l’in<strong>di</strong>viduazione <strong>di</strong> un proce<strong>di</strong>mento <strong>di</strong> v<strong>al</strong>idazione informatica incrociata.<br />

123


Capitolo 6: Confronto critico fra metodologie statistiche <strong>di</strong> trattamento dei dati <strong>di</strong> espressione genica<br />

6.1 Descrizione dell’esperimento<br />

Il nematode C. elegans è un eccellente modello per stu<strong>di</strong>are<br />

l’invecchiamento sia perché è stato ben caratterizzato da un punto <strong>di</strong> vista<br />

morfologico, sia perché sono <strong>di</strong>sponibili numerosi mutanti che si<br />

<strong>di</strong>stinguono significativamente per la durata della loro vita.<br />

Nello stu<strong>di</strong>o preso in considerazione sono state messe a confronto,<br />

attraverso esperimenti con microarray a cDNA, l’espressione genica nel<br />

nematode “wild-type” N2 e nel mutante daf-2 , che ha una durata della<br />

vita pari <strong>al</strong> doppio <strong>di</strong> quella dell’organismo wild-type.<br />

Sono stati an<strong>al</strong>izzati cinque in<strong>di</strong>vidui per ogni tipo e i dati <strong>di</strong><br />

espressione genica sono stati ricavati in quattro istanti tempor<strong>al</strong>i<br />

<strong>di</strong>fferenti. In particolare, ogni in<strong>di</strong>viduo è stato caratterizzato a quattro<br />

sta<strong>di</strong> <strong>di</strong> crescita corrispondenti <strong>al</strong> quarto, <strong>al</strong> nono, <strong>al</strong> quattor<strong>di</strong>cesimo e <strong>al</strong><br />

<strong>di</strong>ciannovesimo giorno d<strong>al</strong>la nascita. Le relative osservazioni sono state<br />

in<strong>di</strong>cate con: N24d, N29d, N214d, N219d, daf24d, daf29d, daf214d,<br />

daf219d.<br />

Per motivi non specificati, sono <strong>di</strong>sponibili trentasette insiemi <strong>di</strong><br />

osservazioni, anziché quaranta.<br />

6.2 Caratteristiche del microarray<br />

I microarray utilizzati in questo stu<strong>di</strong>o sono stati prodotti d<strong>al</strong>lo<br />

stesso laboratorio che ha condotto il lavoro ed ognuno <strong>di</strong> essi è costituito<br />

da 923 sequenze, rappresentative <strong>di</strong> 921 geni, scelti in base <strong>al</strong> loro<br />

124


Capitolo 6: Confronto critico fra metodologie statistiche <strong>di</strong> trattamento dei dati <strong>di</strong> espressione genica<br />

coinvolgimento in processi <strong>di</strong> risposta <strong>al</strong>lo stress e agli interessi degli<br />

stessi ricercatori.<br />

A queste sequenze sono stati aggiunti 661 controlli negativi, cioè<br />

spot sui qu<strong>al</strong>i non è stata depositata <strong>al</strong>cuna sequenza.<br />

Vi sono, quin<strong>di</strong>, 1584 spot, ognuno dei qu<strong>al</strong>i è presente in<br />

quadruplice copia su ogni array; in tot<strong>al</strong>e ogni microarray è composto <strong>di</strong><br />

6336 spot.<br />

6.3 Disegno speriment<strong>al</strong>e<br />

Lo scopo princip<strong>al</strong>e <strong>di</strong> questo stu<strong>di</strong>o è stato riuscire ad identificare<br />

qu<strong>al</strong>i geni potessero essere responsabili della durata <strong>di</strong>versa della vita dei<br />

due nemato<strong>di</strong>, confrontando l’espressione genica dei due tipi <strong>di</strong> in<strong>di</strong>vidui<br />

<strong>al</strong>lo stesso sta<strong>di</strong>o <strong>di</strong> crescita.<br />

Un’<strong>al</strong>tra questione <strong>di</strong> interesse è stata cercare <strong>di</strong> in<strong>di</strong>viduare i geni<br />

coinvolti nel processo <strong>di</strong> invecchiamento <strong>di</strong> ogni organismo.<br />

Per poter dare una risposta ad entrambi i quesiti biologici è stato<br />

scelto un <strong>di</strong>segno speriment<strong>al</strong>e con riferimento, in modo da fissare una<br />

base <strong>di</strong> confronto comune per tutte le osservazioni.<br />

Il campione <strong>di</strong> riferimento era costituito da un “pool” <strong>di</strong> RNA estratti<br />

dai nemato<strong>di</strong> N2.<br />

125


Capitolo 6: Confronto critico fra metodologie statistiche <strong>di</strong> trattamento dei dati <strong>di</strong> espressione genica<br />

6.4 Trattamento del dato<br />

Le immagini dei microarray dopo l’ibri<strong>di</strong>zzazione dei campioni sono<br />

state acquisite con uno scanner Packard Bioscience; il dato è stato poi<br />

quantizzato utilizzando il software Genepix (Axon) senza fare <strong>al</strong>cuna<br />

selezione ulteriore dei dati.<br />

Gli spot sono stati in seguito eliminati solo in base <strong>al</strong>la presenza <strong>di</strong><br />

artefatti spazi<strong>al</strong>i o <strong>di</strong>fetti <strong>di</strong> forma dello spot, ma, poiché il livello glob<strong>al</strong>e <strong>di</strong><br />

rumore non è stato giu<strong>di</strong>cato <strong>al</strong>to, non è stata effettuata una correzione<br />

del backgound o una selezione in base <strong>al</strong> v<strong>al</strong>ore del rapporto<br />

segn<strong>al</strong>e/rumore.<br />

Gli spot giu<strong>di</strong>cati idonei dopo questo esame sono stati norm<strong>al</strong>izzati<br />

applicando una norm<strong>al</strong>izzazione LOESS glob<strong>al</strong>e su ogni array, mentre,<br />

dopo aver osservato l’andamento dei dati norm<strong>al</strong>izzati (figura 6.1), non è<br />

stata ritenuta necessaria una norm<strong>al</strong>izzazione “between arrays”.<br />

Figura 6.1: Box-plot degli array dopo la norm<strong>al</strong>izzazione LOESS glob<strong>al</strong>e<br />

Gli spot replicati per ogni sequenza <strong>al</strong>l’interno dello stesso array<br />

sono stati utilizzati per ottenere una stima più affidabile del v<strong>al</strong>ore <strong>di</strong><br />

126


Capitolo 6: Confronto critico fra metodologie statistiche <strong>di</strong> trattamento dei dati <strong>di</strong> espressione genica<br />

espressione, attraverso un’interpolazione lineare ai minimi quadrati delle<br />

osservazioni intra-array. An<strong>al</strong>ogamente, le repliche biologiche, cioè le<br />

osservazioni inter-array della stessa sequenza, hanno subito lo stesso<br />

processo <strong>di</strong> interpolazione <strong>al</strong>lo scopo <strong>di</strong> ottenere un unico dato cumulativo<br />

dell’informazione tot<strong>al</strong>e <strong>di</strong>sponibile per ogni sequenza ad ogni sta<strong>di</strong>o <strong>di</strong><br />

crescita.<br />

6.5 Definizione dei contrasti per la selezione dei geni<br />

<strong>di</strong>fferenzi<strong>al</strong>mente espressi<br />

I geni che presentano espressione <strong>di</strong>fferenzi<strong>al</strong>e nei <strong>di</strong>versi confronti<br />

sono stati selezionati sulla base della definizione <strong>di</strong> contrasti, cioè<br />

combinazioni lineari delle me<strong>di</strong>e delle popolazioni coinvolte (Freund &<br />

Wilson, 1997).<br />

Questi contrasti, gener<strong>al</strong>mente riassunti in una matrice, sono stati<br />

poi utilizzati in un processo empirico bayesiano <strong>di</strong> stima dei parametri ed<br />

è stata ricavata la statistica B per ogni gene.<br />

Per determinare i geni che <strong>di</strong>fferenziano l’organismo N2 d<strong>al</strong> mutante<br />

daf-2 <strong>al</strong>lo stesso sta<strong>di</strong>o <strong>di</strong> crescita, prendendo il quarto giorno come<br />

riferimento per le osservazioni relative ad ogni genotipo, sono stati<br />

selezionati tre contrasti e sono stati determinati tre insiemi <strong>di</strong> geni<br />

potenzi<strong>al</strong>mente espressi in maniera significativa in base <strong>al</strong> v<strong>al</strong>ore assunto<br />

d<strong>al</strong>la statistica B per ogni gene identificato.<br />

Sui dati relativi <strong>al</strong>le statistiche t <strong>di</strong> ogni gene è stato poi effettuato<br />

un F-test in modo da identificare le interazioni significative che<br />

coinvolgono sia i due <strong>di</strong>versi genotipi che lo sta<strong>di</strong>o <strong>di</strong> crescita.<br />

Per in<strong>di</strong>viduare i potenzi<strong>al</strong>i marcatori biologici del processo <strong>di</strong><br />

invecchiamento in in<strong>di</strong>vidui dello stesso tipo sono stati impostati dei<br />

contrasti più semplici che, prendendo come riferimento i dati ricavati <strong>al</strong><br />

127


Capitolo 6: Confronto critico fra metodologie statistiche <strong>di</strong> trattamento dei dati <strong>di</strong> espressione genica<br />

quarto giorno <strong>di</strong> crescita, hanno consentito <strong>di</strong> osservare qu<strong>al</strong>i geni<br />

presentano espressione <strong>di</strong>fferenzi<strong>al</strong>e per ogni sta<strong>di</strong>o.<br />

Infine, per osservare l’espressione <strong>di</strong>fferenzi<strong>al</strong>e fra genotipi <strong>di</strong>versi<br />

della stessa età, sono stati stu<strong>di</strong>ati i contrasti derivanti d<strong>al</strong>le osservazioni<br />

relative agli organismi N2 e daf-2 <strong>al</strong>lo stesso sta<strong>di</strong>o <strong>di</strong> crescita.<br />

6.6 Definizione delle sessioni <strong>di</strong> prove<br />

Lo scopo delle elaborazioni re<strong>al</strong>izzate in questa tesi è stato osservare<br />

il comportamento dei dati sottoposti a <strong>di</strong>versi processi <strong>di</strong> selezione e<br />

norm<strong>al</strong>izzazione degli spot e le potenzi<strong>al</strong>ità dei <strong>di</strong>versi approcci <strong>di</strong> an<strong>al</strong>isi<br />

statistica nell’in<strong>di</strong>viduare i geni <strong>di</strong>fferenzi<strong>al</strong>mente espressi, <strong>al</strong>lo scopo <strong>di</strong><br />

definire una meto<strong>di</strong>ca <strong>di</strong> v<strong>al</strong>idazione informatica incrociata dei dati <strong>di</strong><br />

espressione genica.<br />

I meto<strong>di</strong> utilizzati per la re<strong>al</strong>izzazione delle prove sono l’an<strong>al</strong>isi della<br />

significatività statistica, l’approccio bayesiano <strong>di</strong> stima dei parametri e<br />

l’an<strong>al</strong>isi della varianza. T<strong>al</strong>i meto<strong>di</strong> sono implementati da <strong>al</strong>cuni software,<br />

<strong>di</strong>sponibili in rete sui siti www.r-project.org e www.bioconductor.org nei<br />

pacchetti “siggenes”, per l’an<strong>al</strong>isi della significatività statistica, “Limma”<br />

per l’approccio empirico bayesiano e “maanova” per l’an<strong>al</strong>isi della<br />

varianza. Questi pacchetti sono stati utilizzati dopo averli inseriti nel<br />

software “R” <strong>di</strong> statistica biome<strong>di</strong>ca come librerie.<br />

Con ciascuno <strong>di</strong> questi meto<strong>di</strong> sono state re<strong>al</strong>izzate tre sessioni <strong>di</strong><br />

prove utilizzando i dati forniti d<strong>al</strong>lo stu<strong>di</strong>o <strong>di</strong> invecchiamento e<br />

sottoponendoli a <strong>di</strong>fferenti processi <strong>di</strong> pre-trattamento e norm<strong>al</strong>izzazione.<br />

In particolare:<br />

128


Capitolo 6: Confronto critico fra metodologie statistiche <strong>di</strong> trattamento dei dati <strong>di</strong> espressione genica<br />

nella Sessione I <strong>di</strong> prove sono stati utilizzati dati che non<br />

hanno subito il processo <strong>di</strong> sottrazione del background e <strong>di</strong><br />

selezione in base <strong>al</strong> v<strong>al</strong>ore <strong>di</strong> SNR sottoposti ad una<br />

norm<strong>al</strong>izzazione LOESS glob<strong>al</strong>e;<br />

nella Sessione II <strong>di</strong> prove sono stati utilizzati dati a<br />

background sottratto, selezionati in base ad un livello<br />

accettabile <strong>di</strong> rumore e norm<strong>al</strong>izzati con LOESS glob<strong>al</strong>e;<br />

nella Sessione III <strong>di</strong> prove sono stati utilizzati dati a<br />

background sottratto, selezionati in base ad un livello<br />

accettabile <strong>di</strong> rumore e sottoposti ad una norm<strong>al</strong>izzazione<br />

“print-tip”.<br />

La prima sessione <strong>di</strong> prove ha avuto lo scopo <strong>di</strong> riprodurre i risultati<br />

che vengono presentati nello stu<strong>di</strong>o <strong>di</strong> Golden, utilizzando per<br />

l’elaborazione l’approccio empirico bayesiano, in modo da poterli poi<br />

confrontare con quelli ottenuti d<strong>al</strong>le elaborazioni re<strong>al</strong>izzate con gli <strong>al</strong>tri<br />

meto<strong>di</strong>.<br />

Nella seconda sessione <strong>di</strong> prove si è cercato <strong>di</strong> mettere in evidenza il<br />

peso della sottrazione del background e della selezione degli spot in base<br />

ad un v<strong>al</strong>ore <strong>di</strong> soglia per il rapporto segn<strong>al</strong>e/rumore, sull’identificazione<br />

dei geni <strong>di</strong>fferenzi<strong>al</strong>mente espressi e sulla capacità dei tre meto<strong>di</strong> <strong>di</strong><br />

elaborare un insieme <strong>di</strong> dati ridotto a causa della selezione.<br />

Infine, la terza sessione <strong>di</strong> prove ha avuto lo scopo <strong>di</strong> v<strong>al</strong>utare il<br />

grado <strong>di</strong> variabilità dei risultati a seconda del tipo <strong>di</strong> norm<strong>al</strong>izzazione ad<br />

essi applicata.<br />

129


Capitolo 6: Confronto critico fra metodologie statistiche <strong>di</strong> trattamento dei dati <strong>di</strong> espressione genica<br />

6.7 Risultati delle <strong>di</strong>verse sessioni <strong>di</strong> prove<br />

Prima <strong>di</strong> descrivere i risultati è opportuno fornire una chiave <strong>di</strong><br />

lettura per i grafici ed illustrare i criteri che hanno portato <strong>al</strong>la<br />

re<strong>al</strong>izzazione dei confronti che seguiranno.<br />

I contrasti utilizzati nelle sessioni <strong>di</strong> prova sono stati impostati in<br />

maniera <strong>di</strong>versa a seconda del quesito biologico.<br />

Per identificare qu<strong>al</strong>i geni risultano <strong>di</strong>fferenzi<strong>al</strong>mente espressi fra i<br />

due genotipi a parità <strong>di</strong> sta<strong>di</strong>o <strong>di</strong> crescita e rispetto <strong>al</strong>lo sta<strong>di</strong>o inizi<strong>al</strong>e <strong>di</strong><br />

riferimento sono stati utilizzati i seguenti contrasti:<br />

(daf29d – daf24d) – (N29d – N24d);<br />

(daf214d – daf24d) – (N214d – N24d);<br />

(daf219d – daf24d) – (N219d – N24d).<br />

L’insieme <strong>di</strong> questi contrasti è stato denominato durante le prove<br />

con il termine “full” ed ogni contrasto C è stato caratterizzato con un<br />

numero che in<strong>di</strong>ca la sua posizione nella lista appena descritta e con il<br />

suffisso “f” che specifica la sua appartenenza a questo insieme <strong>di</strong><br />

contrasti. Secondo questa regola il contrasto C1f identifica il primo<br />

contrasto della lista.<br />

I geni <strong>di</strong>fferenzi<strong>al</strong>mente espressi nello stesso genotipo rispetto <strong>al</strong><br />

quarto giorno <strong>di</strong> crescita sono stati estratti utilizzando i seguenti contrasti:<br />

N29d – N24d;<br />

N214d – N24d;<br />

N219d – N24d;<br />

daf29d – daf24d;<br />

daf214d – daf24d;<br />

daf219d – daf24d.<br />

130


Capitolo 6: Confronto critico fra metodologie statistiche <strong>di</strong> trattamento dei dati <strong>di</strong> espressione genica<br />

Ognuno <strong>di</strong> questi contrasti è stato contrassegnato nelle prove con<br />

un numero che in<strong>di</strong>ca la sua posizione nella lista precedente, per cui, ad<br />

esempio, il contrasto daf219d – daf24d sarà identificato con C6.<br />

Per finire, i contrasti che hanno consentito <strong>di</strong> identificare i geni<br />

<strong>di</strong>fferenzi<strong>al</strong>mente espressi fra i due genotipi, a parità <strong>di</strong> sta<strong>di</strong>o <strong>di</strong> crescita<br />

sono:<br />

daf24d – N24d;<br />

daf29d – N29d;<br />

daf214d – N214d;<br />

daf219d – N219d.<br />

L’insieme <strong>di</strong> questi contrasti è stato contrassegnato con il termine<br />

“age” ed ogni contrasto è identificato con un numero che in<strong>di</strong>ca la sua<br />

posizione nella lista precedente ed il suffisso “age” <strong>di</strong> appartenenza<br />

<strong>al</strong>l’insieme dei contrasti, quin<strong>di</strong> con C3age si in<strong>di</strong>cherà, ad esempio, il<br />

contrasto daf214d – N214d.<br />

con:<br />

Ogni identificativo dei contrasti sarà ulteriormente caratterizzato<br />

“b”, se si riferisce a dati che non hanno subito la sottrazione<br />

del background e la selezione in base <strong>al</strong>la soglia <strong>di</strong> rumore;<br />

“bs” se è stato sottratto il background ed è stata utilizzata una<br />

soglia <strong>di</strong> rapporto segn<strong>al</strong>e/rumore per l’accettabilità dello<br />

spot;<br />

“loess” se la norm<strong>al</strong>izzazione dei dati è stata re<strong>al</strong>izzata<br />

utilizzando il metodo <strong>di</strong> interpolazione LOESS;<br />

“p-t” quando la norm<strong>al</strong>izzazione è avvenuta con il metodo<br />

“print-tip”<br />

“limma” o “l” se è stato utilizzato l’approccio bayesiano per<br />

l’elaborazione. A questo proposito si è scelto <strong>di</strong> <strong>di</strong>chiarare un<br />

131


Capitolo 6: Confronto critico fra metodologie statistiche <strong>di</strong> trattamento dei dati <strong>di</strong> espressione genica<br />

gene <strong>di</strong>fferenzi<strong>al</strong>mente espresso quando la sua statistica B è<br />

maggiore <strong>di</strong> zero.<br />

“ADS” se si riferisce ad un’elaborazione con an<strong>al</strong>isi della<br />

varianza in cui il modello per i dati è stato formulato come<br />

somma degli effetti “Array+Dye+Sample”. Nella formula del<br />

modello non sono riportati esplicitamente i termini VG e G,<br />

d<strong>al</strong> momento che qu<strong>al</strong>unque applicazione dell’ANOVA<br />

nell’an<strong>al</strong>isi dei microarray è imprescin<strong>di</strong>bile da questi.<br />

“ADSS” se si riferisce ad un’elaborazione con an<strong>al</strong>isi della<br />

varianza in cui il modello per i dati è stato formulato come<br />

somma degli effetti “Array+Dye+Sample+Spot”;<br />

“sam” accompagnato da un v<strong>al</strong>ore in percentu<strong>al</strong>e, se è stato<br />

utilizzato il metodo <strong>di</strong> an<strong>al</strong>isi della significatività statistica e la<br />

selezione dei geni <strong>di</strong>fferenzi<strong>al</strong>mente espressi è avvenuta<br />

fissando il parametro FDR <strong>al</strong> v<strong>al</strong>ore in<strong>di</strong>cato d<strong>al</strong>la percentu<strong>al</strong>e.<br />

A questo proposito è stato deciso <strong>di</strong> utilizzare il v<strong>al</strong>ore 20%<br />

come soglia per questo parametro, così come suggerito d<strong>al</strong>la<br />

letteratura.<br />

6.7.1 Sessione I <strong>di</strong> prove<br />

Lo scopo <strong>di</strong> questa sessione <strong>di</strong> prove è stato re<strong>al</strong>izzare un confronto<br />

fra le tre tecniche <strong>di</strong> elaborazione statistica a parità <strong>di</strong> metodo <strong>di</strong><br />

norm<strong>al</strong>izzazione. I dati utilizzati non hanno subito il processo <strong>di</strong><br />

sottrazione del background e <strong>di</strong> selezione in base <strong>al</strong> rapporto<br />

segn<strong>al</strong>e/rumore.<br />

La figura 6.2 mostra per il contrasto C4age un <strong>di</strong>agramma <strong>di</strong> Venn<br />

delle intersezioni dei tre insiemi <strong>di</strong> geni <strong>di</strong>fferenzi<strong>al</strong>mente espressi<br />

identificati con i tre meto<strong>di</strong>. Si evidenzia come l’approccio empirico<br />

132


Capitolo 6: Confronto critico fra metodologie statistiche <strong>di</strong> trattamento dei dati <strong>di</strong> espressione genica<br />

bayesiano sia il più selettivo, cioè quello che in<strong>di</strong>vidua l’insieme meno<br />

numeroso <strong>di</strong> geni.<br />

Figura 6.2: Diagramma <strong>di</strong> Venn del contrasto C4age nella sessione I <strong>di</strong> prove<br />

Fra i 40 geni in<strong>di</strong>viduati d<strong>al</strong>l’approccio bayesiano sono compresi i 22<br />

geni in<strong>di</strong>viduati d<strong>al</strong>lo stu<strong>di</strong>o <strong>di</strong> Golden, che sono anche quelli in comune<br />

fra tutti e tre i meto<strong>di</strong>.<br />

L’approccio bayesiano <strong>di</strong>mostra buone capacità <strong>di</strong> selezione anche<br />

quando i geni <strong>di</strong>fferenzi<strong>al</strong>mente espressi rilevati sono pochi, come per il<br />

contrasto C1. In questo caso lo stu<strong>di</strong>o <strong>di</strong> Golden seleziona 2 geni<br />

<strong>di</strong>fferenzi<strong>al</strong>mente espressi e l’approccio bayesiano ne identifica 3, <strong>di</strong> cui i<br />

due con statistica B più <strong>al</strong>ta (>5) sono proprio quelli evidenziati nello<br />

stu<strong>di</strong>o, mentre solo quello con statistica B maggiore è in comune fra i tre<br />

meto<strong>di</strong>.<br />

133


Capitolo 6: Confronto critico fra metodologie statistiche <strong>di</strong> trattamento dei dati <strong>di</strong> espressione genica<br />

Figura 6.3: Diagramma <strong>di</strong> Venn del contrasto C1 nella sessione I <strong>di</strong> prove<br />

Come si può osservare d<strong>al</strong> <strong>di</strong>agramma <strong>di</strong> Venn la <strong>di</strong>fferenza più<br />

evidente fra i tre meto<strong>di</strong> è che, mentre l’approccio bayesiano identifica i<br />

due geni <strong>di</strong>fferenzi<strong>al</strong>mente espressi in un insieme <strong>di</strong> soli tre elementi, il<br />

metodo <strong>di</strong> an<strong>al</strong>isi della varianza trova un solo gene dei due in un insieme<br />

<strong>di</strong> 63 elementi e l’an<strong>al</strong>isi della significatività statistica, anche se identifica<br />

entrambi i geni, li trova in un insieme <strong>di</strong> 395 geni con un FDR del 99%,<br />

considerato pressochè inatten<strong>di</strong>bile d<strong>al</strong> SAM.<br />

In questa sessione <strong>di</strong> prove è stato anche osservato il<br />

comportamento del metodo <strong>di</strong> an<strong>al</strong>isi della varianza <strong>al</strong> variare del modello<br />

utilizzato per interpolare i dati.<br />

Le figure 6.4 e 6.5 mostrano due <strong>di</strong>agrammi <strong>di</strong> Venn nei qu<strong>al</strong>i gli<br />

insiemi identificati con il metodo ANOVA utilizzano i modelli<br />

“Array+Dye+Sample” e “Array+Dye+Sample+Spot”.<br />

134


Capitolo 6: Confronto critico fra metodologie statistiche <strong>di</strong> trattamento dei dati <strong>di</strong> espressione genica<br />

Figura 6.4: Diagramma <strong>di</strong> Venn del contrasto C4 con modello ADS nella sessione I <strong>di</strong><br />

prove<br />

Aggiungere un effetto nel modello computato, qu<strong>al</strong>ora siano<br />

<strong>di</strong>sponibili i gra<strong>di</strong> <strong>di</strong> libertà per stimarlo ed esso sia ortogon<strong>al</strong>e agli <strong>al</strong>tri,<br />

consente <strong>di</strong> migliorare la qu<strong>al</strong>ità dell’informazione estraibile; nelle nostre<br />

prove a t<strong>al</strong>e miglioramento ha sempre fatto seguito un ampliamento<br />

dell’intersezione relativa ai geni <strong>di</strong>fferenzi<strong>al</strong>mente espressi.<br />

Figura 6.5: Diagramma <strong>di</strong> Venn del contrasto C4 con modello ADSS nella sessione I <strong>di</strong><br />

prove<br />

135


Capitolo 6: Confronto critico fra metodologie statistiche <strong>di</strong> trattamento dei dati <strong>di</strong> espressione genica<br />

Questo ampliamento può essere giustificato d<strong>al</strong> fatto che,<br />

interpolare un modello più dettagliato, sempre che si abbiano le<br />

informazioni sufficienti per farlo, consente <strong>di</strong> poter isolare meglio l’effetto<br />

<strong>di</strong> interesse aumentando la sensibilità del metodo, ma ha come<br />

conseguenza l’inclusione <strong>di</strong> geni non considerati, in precedenza, come<br />

<strong>di</strong>fferenzi<strong>al</strong>mente espressi.<br />

6.7.2 Sessione II <strong>di</strong> prove<br />

In questa sessione sono stati re<strong>al</strong>izzati i confronti fra le tre tecniche<br />

<strong>di</strong> elaborazione utilizzando dati che hanno subito il processo <strong>di</strong> sottrazione<br />

del background e la selezione degli spot in base ad un adeguato livello del<br />

rapporto segn<strong>al</strong>e/rumore e mantenendo come metodo per la<br />

norm<strong>al</strong>izzazione l’interpolazione LOESS.<br />

Applicando queste selezioni, l’insieme <strong>di</strong> dati <strong>di</strong>sponibile per<br />

l’elaborazione si riduce <strong>di</strong> circa 1/3, cioè geni che precedentemente<br />

venivano inclusi nella norm<strong>al</strong>izzazione e, quin<strong>di</strong>, nella v<strong>al</strong>utazione<br />

dell’espressione <strong>di</strong>fferenzi<strong>al</strong>e, vengono ora scartati perchè giu<strong>di</strong>cati non<br />

idonei.<br />

La riduzione dell’insieme <strong>di</strong> dati ha un effetto negativo<br />

sull’elaborazione re<strong>al</strong>izzata con il metodo dell’an<strong>al</strong>isi della varianza: a<br />

causa dell’insufficiente quantità <strong>di</strong> informazioni il metodo non è in grado<br />

<strong>di</strong> interpolare i modelli proposti sui dati a <strong>di</strong>sposizione e, quin<strong>di</strong>, non è<br />

possibile v<strong>al</strong>utare l’effetto <strong>di</strong> interesse.<br />

L’approccio empirico bayesiano non sembra essere particolarmente<br />

sensibile <strong>al</strong> processo <strong>di</strong> selezione del dato operato in questa sessione <strong>di</strong><br />

prove, come è possibile osservare nell’esempio <strong>di</strong> figura 6.6.<br />

136


Capitolo 6: Confronto critico fra metodologie statistiche <strong>di</strong> trattamento dei dati <strong>di</strong> espressione genica<br />

Figura 6.6: Diagramma <strong>di</strong> Venn del contrasto C2 a parità <strong>di</strong> approccio <strong>di</strong><br />

elaborazione e <strong>di</strong> norm<strong>al</strong>izzazione sui dati della sessione I e II.<br />

Il metodo <strong>di</strong> an<strong>al</strong>isi della significatività statistica mostra, invece, un<br />

miglioramento, sia rispetto <strong>al</strong> numero <strong>di</strong> geni potenzi<strong>al</strong>mente espressi in<br />

maniera significativa per un FDR=20%, sia rispetto <strong>al</strong>la quantità <strong>di</strong> geni in<br />

comune ai due meto<strong>di</strong> (figure 6.7 e 6.8).<br />

In gener<strong>al</strong>e, d<strong>al</strong>le prove relative a questa sessione si può osservare<br />

un abbassamento del v<strong>al</strong>ore <strong>di</strong> FDR per ottenere insiemi <strong>di</strong> numerosità<br />

comparabile fra i due meto<strong>di</strong>, cioè l’an<strong>al</strong>isi della significatività statistica<br />

sembra acquisire maggiore sensibilità quando i dati vengono selezionati<br />

con il proce<strong>di</strong>mento descritto.<br />

Figura 6.7:Diagramma <strong>di</strong> Venn del contrasto C2age per i dati della sessione I <strong>di</strong> prove<br />

137


Capitolo 6: Confronto critico fra metodologie statistiche <strong>di</strong> trattamento dei dati <strong>di</strong> espressione genica<br />

Figura 6.7:Diagramma <strong>di</strong> Venn del contrasto C2age per i dati della sessione II <strong>di</strong> prove<br />

6.7.3 Sessione III <strong>di</strong> prove<br />

Questa sessione è stata re<strong>al</strong>izzata con dati che hanno subito il<br />

processo <strong>di</strong> sottrazione del background e la selezione degli spot in base ad<br />

un adeguato livello del rapporto segn<strong>al</strong>e/rumore e per i qu<strong>al</strong>i è stato<br />

adottato un metodo <strong>di</strong> norm<strong>al</strong>izzazione “print-tip”.<br />

Con questo tipo <strong>di</strong> norm<strong>al</strong>izzazione gli insiemi <strong>di</strong> geni<br />

<strong>di</strong>fferenzi<strong>al</strong>mente espressi tendono ad essere meno numerosi rispetto a<br />

quelli trovati con gli stessi contrasti nella sessione II <strong>di</strong> prove.<br />

Come è possibile osservare nell’esempio <strong>di</strong> figura 6.9, per il<br />

contrasto C4age a parità <strong>di</strong> metodo <strong>di</strong> elaborazione si selezionano 40 geni<br />

<strong>di</strong>fferenzi<strong>al</strong>mente espressi nella sessione I, 37 nella sessione II e 23 nella<br />

sessione III.<br />

Questo risultato può essere dovuto ad un intervento più “pesante”<br />

del processo <strong>di</strong> norm<strong>al</strong>izzazione sulla <strong>di</strong>stribuzione dei dati ed invita ad<br />

essere cauti nell’uso <strong>di</strong> una norm<strong>al</strong>izzazione “print-tip”.<br />

138


Capitolo 6: Confronto critico fra metodologie statistiche <strong>di</strong> trattamento dei dati <strong>di</strong> espressione genica<br />

Figura 6.9: Diagramma <strong>di</strong> Venn del contrasto C4age a parità <strong>di</strong> metodo <strong>di</strong> elaborazione<br />

per le tre sessioni <strong>di</strong> prova<br />

6.8 In<strong>di</strong>viduazione <strong>di</strong> una meto<strong>di</strong>ca incrociata per l’an<strong>al</strong>isi<br />

statistica dei dati <strong>di</strong> espressione genica<br />

Dai risultati delle tre sessioni <strong>di</strong> prova re<strong>al</strong>izzate è possibile<br />

in<strong>di</strong>viduare una meto<strong>di</strong>ca da utilizzare per l’an<strong>al</strong>isi statistica dei dati <strong>di</strong><br />

espressione genica.<br />

E’ evidente che la procedura proposta necessita <strong>di</strong> essere adattata<br />

sia <strong>al</strong>la qu<strong>al</strong>ità delle informazioni che si hanno a <strong>di</strong>sposizione che <strong>al</strong>la loro<br />

quantità. Tuttavia, la criticità dell’insieme <strong>di</strong> dati sul qu<strong>al</strong>e sono state<br />

testate le capacità elaborative dei tre meto<strong>di</strong>, dovuta <strong>al</strong>la bassa<br />

numerosità delle osservazioni a <strong>di</strong>sposizione, ha consentito <strong>di</strong> evidenziare<br />

i loro pregi, ma anche i limiti.<br />

139


Capitolo 6: Confronto critico fra metodologie statistiche <strong>di</strong> trattamento dei dati <strong>di</strong> espressione genica<br />

L’approccio bayesiano <strong>di</strong> stima dei parametri ha <strong>di</strong>mostrato <strong>di</strong> poter<br />

gestire in maniera efficiente tutti i contrasti impostati per l’an<strong>al</strong>isi dei dati<br />

<strong>di</strong> invecchiamento.<br />

Questo metodo, che si re<strong>al</strong>izza operativamente grazie<br />

<strong>al</strong>l’interpolazione sui dati <strong>di</strong> modelli lineari o <strong>di</strong> polinomi <strong>di</strong> grado<br />

superiore <strong>al</strong> primo, <strong>di</strong>mostra una buona robustezza nell’adattarsi<br />

<strong>al</strong>l’insieme <strong>di</strong> dati, anche se piccoli. I risultati prodotti concordano, <strong>al</strong>meno<br />

per il 50%, con quelli presentati d<strong>al</strong>lo stu<strong>di</strong>o <strong>di</strong> invecchiamento.<br />

E’ possibile, quin<strong>di</strong>, in<strong>di</strong>viduare nell’approccio bayesiano <strong>di</strong> stima<br />

dei parametri il metodo da utilizzare in prima istanza nell’an<strong>al</strong>isi dei dati.<br />

Se l’interesse dell’an<strong>al</strong>ista è quello <strong>di</strong> poter esprimere una maggiore<br />

confidenza nel risultato ottenuto, è necessario procedere con una<br />

v<strong>al</strong>idazione informatica incrociata dei risultati ottenuti con il metodo<br />

giu<strong>di</strong>cato più affidabile.<br />

La scelta dei meto<strong>di</strong> da utilizzare per questo scopo può <strong>di</strong>pendere da<br />

<strong>di</strong>versi elementi.<br />

Un insieme <strong>di</strong> osservazioni troppo limitato non consente <strong>di</strong> utilizzare<br />

il metodo ANOVA per evidenziare il contributo delle sorgenti <strong>di</strong> variabilità<br />

che si vorrebbero quantificare.<br />

Da questo punto <strong>di</strong> vista è importante sottolineare che, avere a<br />

<strong>di</strong>sposizione i gra<strong>di</strong> <strong>di</strong> libertà sufficienti per v<strong>al</strong>utare tutti gli effetti<br />

presenti nel modello utilizzato per interpolare i dati, non significa che t<strong>al</strong>i<br />

effetti possono essere sempre quantificati e, se necessario, eliminati.<br />

Infatti, nella prima sessione <strong>di</strong> prove, m<strong>al</strong>grado i gra<strong>di</strong> <strong>di</strong> libertà<br />

fossero sufficienti per la v<strong>al</strong>utazione dell’effetto DG, non è stato possibile<br />

quantificarlo perché è risultato non ortogon<strong>al</strong>e agli <strong>al</strong>tri effetti.<br />

Il metodo ANOVA non può, quin<strong>di</strong>, essere sempre utilizzato, ma il<br />

suo apporto, quando possibile, contribuisce ad aumentare il livello <strong>di</strong><br />

sicurezza dei risultati.<br />

Il metodo <strong>di</strong> an<strong>al</strong>isi della significatività statistica non mostra sempre<br />

una grande capacità <strong>di</strong> produrre autonomamente risultati affidabili; ciò è<br />

stato messo in evidenza d<strong>al</strong>l’elevato v<strong>al</strong>ore della percentu<strong>al</strong>e <strong>di</strong> FDR<br />

140


Capitolo 6: Confronto critico fra metodologie statistiche <strong>di</strong> trattamento dei dati <strong>di</strong> espressione genica<br />

necessaria per trovare, nell’insieme <strong>di</strong> geni potenzi<strong>al</strong>mente espressi in<br />

maniera significativa, tutti i geni <strong>di</strong>fferenzi<strong>al</strong>mente espressi identificati<br />

d<strong>al</strong>l’approccio bayesiano (figura 6.3).<br />

Nonostante questo limite evidente, utilizzare i risultati ottenuti con<br />

questo metodo in un confronto incrociato con gli <strong>al</strong>tri, concorre ad una<br />

migliore definizione dell’insieme intersezione.<br />

Per concludere, quin<strong>di</strong>, utilizzare una meto<strong>di</strong>ca incrociata <strong>di</strong> an<strong>al</strong>isi<br />

statistica dei dati, come quella illustrata in questa tesi, consente <strong>di</strong><br />

ottenere una maggior robustezza nel processo <strong>di</strong> elaborazione e una più<br />

<strong>al</strong>ta affidabilità del risultato. Questo permette <strong>di</strong> avere a <strong>di</strong>sposizione un<br />

insieme maggiormente atten<strong>di</strong>bile <strong>di</strong> risultati d<strong>al</strong> qu<strong>al</strong>e partire per la<br />

successiva v<strong>al</strong>idazione dei dati con procedure biologiche <strong>al</strong>ternative qu<strong>al</strong>i il<br />

Northern blot o la Re<strong>al</strong>-Time PCR.<br />

141


Test multipli<br />

Appen<strong>di</strong>ce A: Statistica dei test multipli<br />

Appen<strong>di</strong>ce A<br />

Statistica dei test multipli<br />

Si consideri il problema <strong>di</strong> testare simultaneamente n ipotesi nulle<br />

H0i (i=1,…,n). Per ogni test i viene costruita una statistica d<strong>al</strong>la qu<strong>al</strong>e può<br />

essere derivato un p-v<strong>al</strong>ue Pi. Si respinge l’ipotesi nulla H0i se Pi ≤ t per<br />

ogni i=1,…,n e un fissato v<strong>al</strong>ore <strong>di</strong> soglia t ∈[ 0,1 ].<br />

Le <strong>di</strong>verse uscite per gli n test possono essere riassunte come nella<br />

tabella A.1<br />

non respinte respinte<br />

ipotesi nulle vere U(t) V(t) n0<br />

ipotesi nulle f<strong>al</strong>se T(t) S(t) n1<br />

tot<strong>al</strong>e n-R(t) R(t) n<br />

dove:<br />

Tabella A.1: Tabella riassuntiva del test delle ipotesi<br />

- n0 è il numero <strong>di</strong> ipotesi nulle vere;<br />

- n1 è il numero <strong>di</strong> ipotesi nulle f<strong>al</strong>se;<br />

- V(t) è il numero <strong>di</strong> f<strong>al</strong>si positivi, cioè <strong>di</strong> errori <strong>di</strong> I tipo;<br />

- T(t) è il numero <strong>di</strong> f<strong>al</strong>si negativi, cioè <strong>di</strong> errori <strong>di</strong> II tipo;<br />

- R(t) è il numero <strong>di</strong> ipotesi nulle rigettate.<br />

142


Appen<strong>di</strong>ce A: Statistica dei test multipli<br />

Di queste variabili si conoscono soltanto R(t) ed n, mentre sono<br />

incognite n0, n1 e i processi random V(t) e T(t).<br />

I meto<strong>di</strong> standard cercano i test che minimizzano il cosiddetto “error<br />

rate” <strong>di</strong> tipo II, cioè massimizzano la potenza, fra le classi <strong>di</strong> test con “error<br />

rate” <strong>di</strong> tipo I fissato ad un ragionevole livello α .<br />

“Error Rate” <strong>di</strong> tipo I<br />

Quando viene testata una singola ipotesi nulla H0, la probabilità <strong>di</strong><br />

errore <strong>di</strong> tipo I <strong>di</strong> rigettare l’ipotesi nulla quando essa è vera viene<br />

tipicamente controllata ad un livello fissato α . Questa probabilità può<br />

essere definita in un generico test bilater<strong>al</strong>e ricavando un v<strong>al</strong>ore critico<br />

positivo cα e uno negativo c-α t<strong>al</strong>e che Pr(h0 ≥ cα|H0) ≤ α e Pr(-h0 ≤ c-α|H0)<br />

≤ α respingendo H0 quando h0 ≥ cα e -h0 ≤ c-α, dove h0 è il v<strong>al</strong>ore, ottenuto<br />

dai dati a <strong>di</strong>sposizione, della statistica che si sta utilizzando per re<strong>al</strong>izzare<br />

il test. Esiste una varietà <strong>di</strong> gener<strong>al</strong>izzazioni <strong>di</strong> questa definizione per test<br />

multipli; gli error rate <strong>di</strong> tipo I proposti <strong>di</strong> seguito sono i più standard<br />

(Shaffer 1995).<br />

Per-comparison error rate (PCER). Il PCER è definito come il v<strong>al</strong>ore<br />

atteso del numero <strong>di</strong> errori <strong>di</strong> tipo I rispetto <strong>al</strong> numero <strong>di</strong> ipotesi<br />

tot<strong>al</strong>e:<br />

PCER = E(V)/n<br />

Per-family error rate (PFER). Il PFER è definito come il v<strong>al</strong>ore<br />

atteso del numero <strong>di</strong> errori <strong>di</strong> tipo I:<br />

PFER = E(V)<br />

143


Appen<strong>di</strong>ce A: Statistica dei test multipli<br />

Family-wise error rate (FWER). Il FWER è definito come la<br />

probabilità che ci sia <strong>al</strong>meno un errore <strong>di</strong> tipo I:<br />

FWER = Pr (V ≥ 1)<br />

F<strong>al</strong>se <strong>di</strong>scovery rate (FDR). L’FDR <strong>di</strong> Benjamini & Hochberg<br />

(1995) è la proporzione attesa <strong>di</strong> errori <strong>di</strong> tipo I fra le ipotesi<br />

rigettate:<br />

dove per definizione<br />

Potenza<br />

Q =<br />

FDR = E(Q)<br />

⎧V<br />

/ R<br />

⎨<br />

⎩0<br />

se R>0,<br />

se R=0<br />

Il concetto <strong>di</strong> potenza può essere gener<strong>al</strong>izzato in vari mo<strong>di</strong>; esistono<br />

in letteratura tre definizioni <strong>di</strong> potenze:<br />

La probabilità <strong>di</strong> respingere <strong>al</strong>meno un’ipotesi nulla f<strong>al</strong>sa<br />

Pr(S ≥ 1 ) = Pr(T ≤ n1-1)<br />

La probabilità me<strong>di</strong>a <strong>di</strong> respingere le ipotesi nulle f<strong>al</strong>se o average<br />

power<br />

E(S)/n1<br />

La probabilità <strong>di</strong> rigettare tutte le ipotesi nulle<br />

144


come<br />

Appen<strong>di</strong>ce A: Statistica dei test multipli<br />

Pr(S=n1) = Pr(T=0)<br />

In maniera an<strong>al</strong>oga <strong>al</strong>l’FDR la potenza può anche essere definita<br />

E(S/R|R>0)*Pr(R>0) = Pr (R>0) - FDR<br />

Confronto fra error rate <strong>di</strong> tipo I<br />

In gener<strong>al</strong>e per una data procedura <strong>di</strong> test multipli v<strong>al</strong>e la seguente<br />

<strong>di</strong>suguaglianza (Dudoit et <strong>al</strong>. 2003):<br />

PCER ≤ FWER ≤<br />

PFER<br />

Quin<strong>di</strong>, per un fissato livello α, i proce<strong>di</strong>menti che controllano PFER<br />

sono più conservativi <strong>di</strong> quelli che controllano FWER o PCER. Per<br />

illustrare le proprietà dei <strong>di</strong>fferenti error rate <strong>di</strong> tipo I, si può supporre che<br />

ogni ipotesi Hj venga testata in<strong>di</strong>vidu<strong>al</strong>mente a livello αj e che la decisione<br />

<strong>di</strong> rigettare o meno t<strong>al</strong>e ipotesi sia basata esclusivamente su questo test.<br />

Sotto l’ipotesi nulla completa, ovvero nessuna delle ipotesi nulle è<br />

rigettabile, il PCER è semplicemente la me<strong>di</strong>a degli αj e il PFER è la somma<br />

degli αj, mentre FWER non <strong>di</strong>pende da αj, ma coinvolge la <strong>di</strong>stribuzione<br />

congiunta delle statistiche Tj.<br />

( α 1 + ... + α n ) / n ≤ max(<br />

α1,...,<br />

α n ) ≤ FWER ≤ PFER = α1<br />

+ + n<br />

PCER = ... α<br />

Anche FDR <strong>di</strong>pende d<strong>al</strong>la <strong>di</strong>stribuzione congiunta dei test statistici e<br />

per un proce<strong>di</strong>mento fissato FDR ≤ FWER, con FDR=FWER sotto l’ipotesi<br />

nulla completa.<br />

145


Appen<strong>di</strong>ce A: Statistica dei test multipli<br />

Il problema princip<strong>al</strong>e nella v<strong>al</strong>utazione dell’error rate <strong>di</strong> tipo I è che<br />

la probabilità <strong>di</strong> avere <strong>al</strong>meno un errore <strong>di</strong> questo tipo incrementa<br />

drasticamente con il numero <strong>di</strong> ipotesi testate. Come conseguenza <strong>di</strong><br />

questo comportamento <strong>di</strong> FWER, si rende necessaria la ridefinizione<br />

dell’error rate <strong>di</strong> tipo I nel caso <strong>di</strong> test multipli, in modo da consentire un<br />

controllo glob<strong>al</strong>e della porzione <strong>di</strong> errori sugli n test. Le soluzioni a questo<br />

problema sono <strong>di</strong>fferenti a seconda del tipo <strong>di</strong> approccio statistico scelto.<br />

Approccio frequentistico a test multiplo<br />

La teoria frequentista della probabilità computa un p-v<strong>al</strong>ue per ogni<br />

test e inserisce il risultato in due tipi <strong>di</strong> framework per test multipli: i<br />

proce<strong>di</strong>menti single-step e i proce<strong>di</strong>menti step-wise (Dudoit et <strong>al</strong>. 2003).<br />

In un proce<strong>di</strong>mento single-step la regione <strong>di</strong> rifiuto <strong>di</strong> ogni test è<br />

costante e non <strong>di</strong>pende d<strong>al</strong> risultato <strong>di</strong> test su <strong>al</strong>tre ipotesi.<br />

Un esempio <strong>di</strong> proce<strong>di</strong>mento <strong>di</strong> questo tipo è la correzione <strong>di</strong><br />

Bonferroni sul livello α <strong>di</strong> ogni singolo test. In questo caso è possibile<br />

acquisire un livello <strong>di</strong> significatività glob<strong>al</strong>e α sui test anche confrontando<br />

due campioni per volta. Si supponga, per esempio, <strong>di</strong> voler confrontare k<br />

campioni a due a due utilizzando un t-test o un F-test. Il numero <strong>di</strong><br />

confronti possibile è:<br />

nk<br />

k<br />

=<br />

( k −1)<br />

2<br />

⎛k<br />

⎞<br />

= ⎜ ⎟<br />

⎝2<br />

⎠<br />

Per ottenere un livello <strong>di</strong> significatività complessivo del test pari ad<br />

α, ciascun confronto singolo deve avere un livello <strong>di</strong> significatività α' che<br />

sod<strong>di</strong>sfa la <strong>di</strong>suguaglianza <strong>di</strong> Bonferroni:<br />

146


Appen<strong>di</strong>ce A: Statistica dei test multipli<br />

α<br />

α ≤<br />

nk<br />

'<br />

Ad esempio, se per k = 3 si vuole α ≤ 0.05, deve essere α' ≤ 0.016,<br />

cioè è necessario un livello <strong>di</strong> <strong>al</strong>ta significatività per ogni singolo confronto.<br />

In un proce<strong>di</strong>mento step-down i p-v<strong>al</strong>ue dei singoli test sono<br />

or<strong>di</strong>nati d<strong>al</strong> più significativo <strong>al</strong> meno significativo e le corrispondenti<br />

ipotesi sono considerate nello stesso or<strong>di</strong>ne: appena si verifica la<br />

con<strong>di</strong>zione <strong>di</strong> rifiuto per un’ipotesi, anche le seguenti meno significative<br />

vengono rigettate.<br />

Esempi <strong>di</strong> questo framework sono il proce<strong>di</strong>mento <strong>di</strong> Holm (1979) e<br />

quello <strong>di</strong> Westf<strong>al</strong>l & Young (1993).<br />

Nella correzione step-down <strong>di</strong> Holm si procede nel modo seguente:<br />

Si sceglie un livello <strong>di</strong> significatività α;<br />

Si or<strong>di</strong>nano i geni seguendo l’or<strong>di</strong>namento ascendente dei p-<br />

v<strong>al</strong>ue;<br />

Si confrontano i p-v<strong>al</strong>ue con una soglia che <strong>di</strong>pende d<strong>al</strong>la<br />

p<br />

posizione del gene nella lista <strong>di</strong> v<strong>al</strong>ori or<strong>di</strong>nati. La soglia viene<br />

c<strong>al</strong>colata secondo la formula α / G per il primo gene, dove G è<br />

il numero <strong>di</strong> geni, α / G-1 per il secondo gene e così via.<br />

α<br />

α<br />

< , p < ,<br />

1 G<br />

2 G −1<br />

p<br />

α<br />

< ,<br />

3 G − 2<br />

....<br />

p k<br />

α<br />

< ,<br />

G − k + 1<br />

....<br />

p G<br />

α<br />

<<br />

1<br />

Sia k il più grande in<strong>di</strong>ce per il qu<strong>al</strong>e v<strong>al</strong>e pi < α / G-i+1.<br />

Verranno respinte tutte le ipotesi per le qu<strong>al</strong>i i>k.<br />

Il proce<strong>di</strong>mento step-up lavora nella <strong>di</strong>rezione opposta <strong>al</strong>lo step-<br />

down poiché i p-v<strong>al</strong>ue sono or<strong>di</strong>nati d<strong>al</strong> meno significativo <strong>al</strong> più<br />

147


Appen<strong>di</strong>ce A: Statistica dei test multipli<br />

significativo e un esempio è la procedura <strong>di</strong> c<strong>al</strong>colo del F<strong>al</strong>se Discovery<br />

Rate secondo Benjamini e Hochberg:<br />

Si sceglie un livello <strong>di</strong> significatività α;<br />

Si or<strong>di</strong>nano i geni seguendo l’or<strong>di</strong>namento ascendente dei p-<br />

v<strong>al</strong>ue;<br />

Si confrontano i p-v<strong>al</strong>ue con una soglia che <strong>di</strong>pende d<strong>al</strong>la<br />

posizione del gene nella lista <strong>di</strong> v<strong>al</strong>ori or<strong>di</strong>nati. La soglia viene<br />

c<strong>al</strong>colata secondo la formula α / G per il primo gene, dove G è<br />

il numero <strong>di</strong> geni, 2α / G per il secondo gene e così via.<br />

p ,<br />

1 G<br />

α 2α<br />

kα<br />

< p < , ... p < , ... p < α<br />

2 G<br />

k G G<br />

Sia k il più grande in<strong>di</strong>ce per il qu<strong>al</strong>e v<strong>al</strong>e pi < α / G. Verranno<br />

respinte tutte le ipotesi per le qu<strong>al</strong>i i


Bibliografia<br />

Bibliografia<br />

Affymetrix, (1999). Affymetrix Microarray Suite User Guide.<br />

(Affymetrix, Santa Clara, CA)<br />

Alizadeh, A.A., Eisen, M.B., Davis, R.E., Ma, C., Lossos, I.S.,<br />

Rosenw<strong>al</strong>d, A., Boldrick, J.C., Sabet, H., Tran, T., Yu, X., Powell, J.I.,<br />

Yang, L., Marti, G.E., Moore, T., Hudson, J., Lu, L., Lewish, D.B.,<br />

Tibshirani, R., Sherlock, G., Chan, W.C., Greiner, T.C., Weisenburger,<br />

D.D., Armitage, J.O., Warnke, R., Levy, R., Wilson, W., Grever, M.R., Byrd,<br />

J.C., Botstein, D., Brown, P.O., and Staudt, L.M. (2000). Distinct Types of<br />

Diffuse Large B-Cell Lymphoma Identifed by Gene Expression Profling.<br />

Nature 403, 503-511.<br />

Axon Instruments, (1999) GenePix 4000A User’s Guide.<br />

Benjamini, Y. & Hochberg, Y. (1995). Controlling the f<strong>al</strong>se <strong>di</strong>scovery<br />

rate: a pratic<strong>al</strong> and powerful approach to multiple testing, J. R. Statist.<br />

Soc. B 57: 289-300<br />

Churchill,G.A. (2002) Fundament<strong>al</strong>s of experiment<strong>al</strong> design for<br />

cDNA microarray. Nature Genetics Supplement, 32, 490–495.<br />

Cui, H., Kerr, K. & Churchill, G. (2002), Data transformation for<br />

cDNA microarray data. Submitted<br />

149


Bibliografia<br />

Cui, X. (2004), Statistic<strong>al</strong> tests for <strong>di</strong>fferenti<strong>al</strong> expression in cDNA<br />

microarray. Submitted to Genome Biology.<br />

Dudoit, S., Shaffer, J. & Boldrick, J. (2003), Multiple hypothesis<br />

testing in microarray experiments, Statistic<strong>al</strong> Sciences 18(1), 71-103.<br />

Dudoit, S., van der Laan, M. & Pollard, K. (2004), `Multiple testing.<br />

Part I. Single-step procedures for control of gener<strong>al</strong> Type I error rates',<br />

Statistic<strong>al</strong> Applications in Genetics and Molecular Biology, 3(1). Article 13.<br />

CRC Press.<br />

Efron, B. & Tibshirani, R. (1986), An introduction to the bootstrap,<br />

Efron, B., Storey, J. D. & Tibshirani, R. (2001), Microarrays,<br />

Empiric<strong>al</strong> Bayes methods and F<strong>al</strong>se Discovery Rate, Technic<strong>al</strong> Report 218,<br />

Department of Statistics, Stanford university.<br />

Efron, B. (2003), “Robbins, Empiric<strong>al</strong> Bayes and microarrays”,<br />

Ann<strong>al</strong>s of Statistics, 31(2), 366-378.<br />

Freund, R., J., Wilson, W., J., (1997), Meto<strong>di</strong> statistici, Piccin<br />

Golden, T., R., Melov, S., (2004), Microarray an<strong>al</strong>ysis of gene<br />

expression with age in in<strong>di</strong>vidu<strong>al</strong> nematodes, Aging Cell 3, 111-124.<br />

Holm, S. (1979). A simple sequenti<strong>al</strong>ly rejective multiple test<br />

procedure, Scand. J. Statist. 6: 65-70.<br />

Kendziorski, C., Newton, M., Lan, H. & Gould, M. (2002), On<br />

parametric empiric<strong>al</strong> Bayes methods for comparing multiple groups using<br />

replicated gene expression profiles, Technic<strong>al</strong> Report 166, University of<br />

Wisconsin, Department of Biostatistics<br />

150


Bibliografia<br />

Kerr, M.K. & Churchill, G.A. (2000). Bootstrapping cluster an<strong>al</strong>ysis:<br />

assessing the reliability of conclusions from microarray experiments.<br />

Submitted<br />

Kerr, M. & Churchill, G. 2001a, Experiment<strong>al</strong> design for gene<br />

expression microarrays, Biostatistics 2, 183-202.<br />

Kerr, M., Churchill, G. & Martin, M. 2001b, An<strong>al</strong>ysis of variance for<br />

gene expression microarray data, Journ<strong>al</strong> of Computation<strong>al</strong> Biology, 7,<br />

819-837<br />

Kerr, M., Afshari, C., Bennett, L., Bushel, P., Martinez, J., W<strong>al</strong>ker,<br />

N. & Churchill, G. (2002), Statistic<strong>al</strong> an<strong>al</strong>ysis of a gene expression<br />

microarray experiment with replication, Statistica Sinica 12, 203-217.<br />

Kerr, M.K. Leiter E.H., Picard L., Churchill G.A. (2002). Sources of<br />

variation in microarray experiments. In Zhang, W., and Smulevich, I.,<br />

eds., Computation<strong>al</strong> and Statistic<strong>al</strong> Approaches to Genetics, Kluwer, Boston.<br />

Lee, M.-L.T., Kuo, F.C., Whitmore, G.A., & Sklar, J. (2000).<br />

Importance of replication in microarray gene expression stu<strong>di</strong>es:<br />

Statistic<strong>al</strong> methods and evidence from repetitive cDNA hybri<strong>di</strong>zations.<br />

Procee<strong>di</strong>ngs of the Nation<strong>al</strong> Academy of Sciences of the USA 97, 9834-<br />

9839.<br />

Pavli<strong>di</strong>s, P., (2003). Using ANOVA for gene selection from microarray<br />

stu<strong>di</strong>es of the nervous system. Methods, 31, 282-289.<br />

Quackenbush, J. (2002). Microarray data norm<strong>al</strong>ization and<br />

transformation. Nature Genetics 32, 496-501.<br />

151


Bibliografia<br />

Ross, D.T., Scherf, U., Eisen, M.B., Perou, C.M., Rees, C., Spellman,<br />

P., Iyer, V., Je_rey, S.S., Van deRijn, M., W<strong>al</strong>tham, M., Pergamenschikov,<br />

A., Lee, J.C.F., Lashkari, D., Sh<strong>al</strong>on, D., Myers, T.G., Weinstein, J.N.,<br />

Botstein, D., Brown P. (2000). Systematic variation in gene expression<br />

patterns in human cancer cell lines. Nature Genetics, 24, 227-235<br />

Schena, M., Sh<strong>al</strong>on, D., Davis, R., and Brown, P., (1995)<br />

Quantitative monitoring of gene expression patterns with a<br />

complementary DNA microarray. Science, 270, 467-470.<br />

Schena, M., (1999) DNA Microarrays: A practic<strong>al</strong> Approach. Oxford<br />

University Press.<br />

Shaffer, J. P. (1995). Multiple hypothesis testing, Annu. Rev.<br />

Psychol. 46: 561-584.<br />

Smyth, G. (2004), Linear models and empiric<strong>al</strong> bayes methods for<br />

assessing <strong>di</strong>fferenti<strong>al</strong> expression in microarray experiments, Statistic<strong>al</strong><br />

Applications in Genetics and Molecular Biology, 3(1), article 3.<br />

Spiegel, M., (1979), Probabilità e statistica, ETAS LIBRI<br />

Spiegelh<strong>al</strong>ter, D., J., Abrams, K., R., Myles, J., P., (2004), Bayesian<br />

approaches to clinic<strong>al</strong> tri<strong>al</strong>s and he<strong>al</strong>th-care ev<strong>al</strong>uation, John Wiley and<br />

Sons, Ltd<br />

Storey, J. (2002), A <strong>di</strong>rect approach to F<strong>al</strong>se Discovery Rates,<br />

Journ<strong>al</strong> of the Roy<strong>al</strong> Statistic<strong>al</strong> Society, 64, 479-498.<br />

Storey, J. (2003), The positive F<strong>al</strong>se Discovery Rate : a Bayesian<br />

interpretation and the qv<strong>al</strong>ue, Ann<strong>al</strong>s in Statistics, 31(6), 2013-2035.<br />

152


Bibliografia<br />

Storey, J., Taylor, J. & Siegmund, D. (2004), Strong control,<br />

conservative point estimation and simultaneous conservative consistency<br />

of F<strong>al</strong>se Discovery Rates: a unified approach, Journ<strong>al</strong> of the Roy<strong>al</strong><br />

Statistic<strong>al</strong> Society 66, 187-205.<br />

Tusher, V., Tibshirani, R., Chu., C. (2001) Significance an<strong>al</strong>ysis of<br />

microarrays applied to ionizing ra<strong>di</strong>ation response. Procee<strong>di</strong>ngs of the<br />

Nation<strong>al</strong> Academy of Sciences,. First published April 17, 2001,<br />

10.1073/pnas.091062498.<br />

Van Der Laan, J., Dudoit, S. & Pollard, K. (2004), Multiple testing.<br />

Part II. Step-down procedures for control of the Family-Wise error Rate,<br />

Statistic<strong>al</strong> Applications in Genetics and Molecular Biology 3(1). Article 14.<br />

Westf<strong>al</strong>l, P., Johnson, W. & Utts, J. (1997), A Bayesian perspective<br />

on the Bonferroni adjustment, Biometrika 84, 419-427.<br />

Westf<strong>al</strong>l, P. H., Zaykin, D. V. & Young, S. S. (2001). Multiple tests<br />

for genetic effects in association stu<strong>di</strong>es, in S. Looney (ed.), Statistic<strong>al</strong><br />

Methods in Molecular Biology.<br />

Wolfinger, R., Gibson, G., Wolfinger, E., Bennett, L., Hamadeh, H.,<br />

Bushel, P., Afshari, C. & Paules, R. (2001), Assessing gene significance<br />

from cDNA microarray expression data via mixed models, Journ<strong>al</strong> of<br />

computation<strong>al</strong> Biology, 8, 625-637.<br />

Wu, H., Kerr, K., Cui, X. & Churchill, G. 2003, The an<strong>al</strong>ysis of gene<br />

expression data: methods and software, Springer, N.Y., chapter<br />

MAANOVA: A Software Package for the An<strong>al</strong>ysis of Spotted cDNA<br />

Microarray Experiments.<br />

153


Bibliografia<br />

Yang,Y.H. and Speed,T.P. (2002) Design issues for cDNA microarray<br />

experiments. Nature Rev. Genet., 3, 579–583.<br />

Yang,Y.H., Dudoit,S., Luu,P., Lin,D.M., Peng,V., Ngai, J. and<br />

Speed,T.P. (2002) Norm<strong>al</strong>ization for cDNA microarray data: a robust<br />

composite method addressing single and multiple slide systematic<br />

variation. Nucleic Acids Res., 30, e15.<br />

154


Ringraziamenti<br />

Il primo ringraziamento spetta sicuramente <strong>al</strong>la Dott.ssa<br />

Silvia Pellegrini e <strong>al</strong> Prof. Pietro Pietrini che mi hanno dato un’opportunità<br />

unica <strong>di</strong> ampliamento delle mie conoscenze, mi hanno accompagnato nella<br />

stesura della tesi con il loro prezioso consiglio e mi hanno consentito <strong>di</strong><br />

fare un’esperienza irripetibile in laboratorio.<br />

Un sincero grazie va <strong>al</strong>l’Ing. Massimiliano S<strong>al</strong>erno per l’aiuto<br />

che mi ha dato in tutte le situazioni <strong>di</strong>fficili che si sono presentate durante<br />

questa tesi, la collaborazione, il sostegno mor<strong>al</strong>e, ma, soprattutto, per<br />

l’amicizia che mi ha <strong>di</strong>mostrato in ogni circostanza.<br />

Ringrazio anche la Prof.ssa Arti Ahluw<strong>al</strong>ia per l’estrema <strong>di</strong>sponibilità<br />

e la comprensione con la qu<strong>al</strong>e mi ha sempre accolto.<br />

Non posso <strong>di</strong>menticare tutti i collaboratori della Dott.ssa<br />

Pellegrini e del Prof. Pietrini, in particolare l’Ing. Lorenzo Sani, per gli<br />

insostituibili suggerimenti, la comprensione, la simpatia e la <strong>di</strong>sponibilità<br />

inesauribile.<br />

Ma il ringraziamento più grande va ai miei cari genitori, <strong>al</strong>la<br />

mia meravigliosa sorellina Noemi e <strong>al</strong> mio insostituibile Alfio per avermi<br />

accompagnato con una infinita pazienza, una fiducia incon<strong>di</strong>zionata e<br />

tantissimo affetto durante tutto il mio percorso accademico e per aver<br />

raggiunto qui, oggi, insieme a me questo meraviglioso traguardo.<br />

Pisa, 5 Luglio 2005<br />

155


INTRODUZIONE<br />

INDICE<br />

PREFAZIONE .........................................................................................................0<br />

SCOPO DELLA TESI ..................................................................................................3<br />

1. ORIGINI E TECNOLOGIA DEI MICROARRAY........................................5<br />

1.1 LA TECNOLOGIA ALLA BASE DEI MICROARRAY A DNA ....................................7<br />

1.1.1 Tecnologia Affymetrix GeneChip.............................................................9<br />

1.1.2 “Spotted” array .....................................................................................12<br />

1.2 CARATTERISTICHE DI UN MICROARRAY..........................................................15<br />

1.3 APPLICAZIONI DEI MICROARRAY ....................................................................18<br />

1.3.1 Tassonomia <strong>di</strong> tessuti.............................................................................18<br />

1.3.2 Identificazione delle basi molecolari delle m<strong>al</strong>attie ..............................19<br />

1.3.3 An<strong>al</strong>isi del meccanismo <strong>di</strong> azione dei farmaci.......................................20<br />

2. I PRIMI PASSI DEL TRATTAMENTO DEL DATO E LE PRINCIPALI<br />

TECNICHE DI NORMALIZZAZIONE.......................................................21<br />

2.1 DIAGRAMMA DEL TRATTAMENTO DEI DATI ....................................................23<br />

2.2 IL PROCESSO DI QUANTIZZAZIONE DEL DATO..................................................24<br />

2.2.1 “Grid<strong>di</strong>ng” dell’immagine ....................................................................25<br />

2.2.2 Segmentazione........................................................................................25<br />

2.2.3 Estrazione delle intensità <strong>di</strong> segn<strong>al</strong>e e <strong>di</strong> background...........................27<br />

2.2.4 Correzione del background....................................................................28<br />

2.3 NORMALIZZAZIONE DEI DATI..........................................................................34<br />

156


2.4 NORMALIZZAZIONE WITHIN-ARRAY ...............................................................38<br />

2.4.1 Norm<strong>al</strong>izzazione glob<strong>al</strong>e........................................................................38<br />

2.4.2 Norm<strong>al</strong>izzazione intensità-<strong>di</strong>pendente ...................................................40<br />

2.4.2.1 Interpolazione <strong>di</strong> curve e correzione...........................................40<br />

2.4.2.2 Norm<strong>al</strong>izzazione LOESS/LOWESS...........................................41<br />

2.4.2.3 Norm<strong>al</strong>izzazione a tratti..............................................................44<br />

2.4.3 Norm<strong>al</strong>izzazione “within-print-tip-group”............................................45<br />

2.4.4 Norm<strong>al</strong>izzazione “within-slide” ............................................................46<br />

2.5 CORREZIONE “PAIRED-SLIDE” ........................................................................47<br />

2.6 NORMALIZZAZIONE “MULTIPLE-SLIDES” O “BETWEEN ARRAYS”....................49<br />

3. METODI DI SELEZIONE A SOGLIA E ANALISI DELLA<br />

SIGNIFICATIVITÀ STATISTICA...............................................................51<br />

3.1 “FOLD CHANGE”.............................................................................................53<br />

3.2 METODO DEL VALORE DI SOGLIA....................................................................55<br />

3.3 METODO DELLA DISTANZA DALLA MEDIA ......................................................59<br />

3.4 METODO DELLA SOGLIA NON LINEARE ...........................................................61<br />

METODI<br />

3.5 ANALISI DELLA SIGNIFICATIVITÀ SUI MICROARRAY .......................................62<br />

4. APPROCCIO STATISTICO BAYESIANO E TEST MULTIPLI IN<br />

ESPERIMENTI DI MICROARRAY ............................................................74<br />

4.1 INFERENZA STATISTICA CLASSICA E APPROCCIO BAYESIANO EMPIRICO..........75<br />

4.1.1 Fondamenti del metodo classico: test delle ipotesi ...............................75<br />

4.1.2 Approccio bayesiano e interpretazione soggettivistica della<br />

probabilità .............................................................................................77<br />

4.1.3 Teorema <strong>di</strong> Bayes e inferenza sui parametri .........................................79<br />

4.1.4 Scelta della <strong>di</strong>stribuzione a priori e stimatori della me<strong>di</strong>a e della<br />

varianza .................................................................................................81<br />

157


4.1.5 Metodo bayesiano classico per la scelta delle <strong>di</strong>stribuzioni a priori ....82<br />

4.1.6 Metodo bayesiano parametrico moderno per la scelta delle <strong>di</strong>stribuzioni<br />

a priori ...................................................................................................84<br />

4.1.7 Metodo bayesiano soggettivo per la scelta delle <strong>di</strong>stribuzioni a priori.86<br />

4.2 STATISTICA “B” E MODELLO GERARCHICO PER I DATI DI ESPRESSIONE<br />

GENICA ............................................................................................................87<br />

4.2.1 “Posterior odds” dell’espressione <strong>di</strong>fferenzi<strong>al</strong>e ...................................88<br />

4.2.2 Modello gerarchico e c<strong>al</strong>colo delle <strong>di</strong>stribuzioni margin<strong>al</strong>i .................90<br />

5. MODELLI ADDITIVI ANOVA PER L’ANALISI DEI DATI DI<br />

ESPRESSIONE GENICA...............................................................................95<br />

5.1 FONTI DI VARIABILITÀ SUI DATI DI ESPRESSIONE GENICA ...............................97<br />

5.2 MODELLI ADDITIVI ANOVA PER L’ANALISI DELL’ESPRESSIONE..................102<br />

5.2.1 Modelli ad<strong>di</strong>tivi misti ...........................................................................103<br />

5.2.2 Modelli ad<strong>di</strong>tivi fissi.............................................................................106<br />

5.3 “NESTED” F-TEST E DETERMINAZIONE DEI GENI DIFFERENZIALMENTE<br />

ESPRESSI ........................................................................................................108<br />

5.4 DISEGNO DI ESPERIMENTI CON MICROARRAY ...............................................112<br />

5.4.1 Criteri per la scelta del <strong>di</strong>segno speriment<strong>al</strong>e.....................................115<br />

5.4.2 Confronto <strong>di</strong>retto ed in<strong>di</strong>retto..............................................................117<br />

DISCUSSIONE<br />

6. CONFRONTO CRITICO FRA METODOLOGIE STATISTICHE DI<br />

TRATTAMENTO DEI DATI DI ESPRESSIONE GENICA....................123<br />

6.1 DESCRIZIONE DELL’ESPERIMENTO................................................................124<br />

6.2 CARATTERISTICHE DEL MICROARRAY ..........................................................124<br />

6.3 DISEGNO SPERIMENTALE..............................................................................125<br />

6.4 TRATTAMENTO DEL DATO ............................................................................126<br />

158


6.5 DEFINIZIONE DEI CONTRASTI PER LA SELEZIONE DEI GENI DIFFERENZIALMENTE<br />

ESPRESSI ........................................................................................................127<br />

6.6 DEFINIZIONE DELLE SESSIONI DI PROVE........................................................128<br />

6.7 RISULTATI DELLE DIVERSE SESSIONI DI PROVE .............................................130<br />

6.7.1 Sessione I <strong>di</strong> prove ...............................................................................132<br />

6.7.2 Sessione II <strong>di</strong> prove..............................................................................136<br />

6.7.3 Sessione III <strong>di</strong> prove.............................................................................138<br />

CONCLUSIONI<br />

6.8 INDIVIDUAZIONE DI UNA METODICA INCROCIATA PER L’ANALISI STATISTICA<br />

DEI DATI DI ESPRESSIONE GENICA...................................................................139<br />

APPENDICE A: STATISTICA DEI TEST MULTIPLI .................................142<br />

TEST MULTIPLI....................................................................................................142<br />

“Error Rate” <strong>di</strong> tipo I ....................................................................................143<br />

Potenza...........................................................................................................144<br />

CONFRONTO FRA ERROR RATE DI TIPO I ..............................................................145<br />

APPROCCIO FREQUENTISTICO A TEST MULTIPLO .................................................146<br />

BIBLIOGRAFIA..................................................................................................149<br />

RINGRAZIAMENTI...........................................................................................155<br />

INDICE .................................................................................................................156<br />

159

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!