06.01.2015 Views

Utilizzo del SAS per l'analisi di dati genetici e agronomici ... - sipeaa

Utilizzo del SAS per l'analisi di dati genetici e agronomici ... - sipeaa

Utilizzo del SAS per l'analisi di dati genetici e agronomici ... - sipeaa

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Utilizzo</strong> <strong>del</strong> <strong>SAS</strong> <strong>per</strong> l’analisi <strong>di</strong> <strong>dati</strong> <strong>genetici</strong> e <strong>agronomici</strong> nel mondo vegetale<br />

Clau<strong>di</strong>a Paoletti, Gianni Bellocchi, Gianni Fila<br />

Istituto S<strong>per</strong>imentale Colture Industriali<br />

Introduzione<br />

L’importanza <strong>del</strong>l’analisi statistica <strong>per</strong><br />

l’elaborazione <strong>di</strong> <strong>dati</strong> biologico-<strong>agronomici</strong> è<br />

<strong>di</strong>mostrata dalla crescente gamma <strong>di</strong> meto<strong>di</strong><br />

<strong>di</strong> analisi utilizzata negli ultimi decenni.<br />

Sebbene la statistica si sia sviluppata<br />

<strong>per</strong> sod<strong>di</strong>sfare i bisogni <strong>del</strong>la ricerca<br />

scientifica, le sue metodologie hanno<br />

influenzato l’evoluzione <strong>del</strong>le <strong>di</strong>verse<br />

<strong>di</strong>scipline a cui è stata applicata e, in<br />

particolare, la filosofia <strong>del</strong>le scienze<br />

biologiche. A questo proposito si possono<br />

fornire due esempi:<br />

- Il primo riguarda l’Analisi <strong>del</strong>la<br />

Varianza (ANOVA) che ha <strong>per</strong>messo, tramite<br />

appropriati <strong>di</strong>segni s<strong>per</strong>imentali, <strong>di</strong> testare<br />

separatamente gli effetti ambientali e <strong>genetici</strong>.<br />

Questa possibilità ha rivoluzionato l’efficacia<br />

<strong>del</strong>la s<strong>per</strong>imentazione biologica, poiché i<br />

problemi statistici legati all’interazione<br />

genotipo-ambiente emergono in tutti i settori<br />

<strong>del</strong>la ricerca in cui <strong>di</strong>versi trattamenti<br />

vengono messi a confronto in es<strong>per</strong>imenti<br />

ripetuti nel tempo e/o nello spazio.<br />

- Il secondo esempio riguarda le<br />

tecniche <strong>di</strong> Analisi Multivariata, che hanno<br />

<strong>per</strong>messo <strong>di</strong> analizzare più variabili<br />

simultaneamente, tenendo conto <strong>del</strong>le<br />

reciproche interazioni.<br />

Un problema legato alla complessità e<br />

alla natura <strong>del</strong>le s<strong>per</strong>imentazioni biologicoagrarie,<br />

è la <strong>di</strong>fficoltà che si incontra nel<br />

raccogliere set bilanciati <strong>di</strong> <strong>dati</strong> appropriati<br />

<strong>per</strong> l’elaborazione con meto<strong>di</strong> classici<br />

<strong>del</strong>l’Analisi <strong>del</strong>la Varianza. I Generalized<br />

Linear Mo<strong>del</strong>s <strong>di</strong>sponibili in <strong>SAS</strong> (procedura<br />

GLM) hanno <strong>per</strong>messo l’analisi <strong>di</strong> <strong>dati</strong><br />

sbilanciati, sia con varianze eterogenee che<br />

con errori non normali o correlati alle me<strong>di</strong>e.<br />

In questa presentazione sono presi ad<br />

esempio due lavori che mostrano<br />

l’applicazione <strong>di</strong> alcuni strumenti <strong>SAS</strong> <strong>per</strong> la<br />

risoluzione <strong>di</strong> problemi tipici <strong>del</strong>le ricerche<br />

biologico-agrarie. Si fa particolare<br />

riferimento alle procedure GLM,<br />

VARCOMP, e PRINCOMP <strong>di</strong>sponibili in<br />

<strong>SAS</strong>stat.<br />

Esempio 1<br />

Effetti <strong>del</strong>la luce sulla variabilità genetica<br />

<strong>di</strong> Impatiens capensis<br />

(Paoletti e Holsinger, 1999)<br />

Il problema:<br />

La presenza <strong>di</strong> sistemi riproduttivi<br />

“misti” nelle piante (inincrocio +<br />

fecondazione incrociata) è influenzata dalle<br />

con<strong>di</strong>zioni ambientali <strong>di</strong> crescita. Per<br />

esempio, la luce influenza la <strong>di</strong>stanza <strong>di</strong><br />

<strong>di</strong>s<strong>per</strong>sione <strong>del</strong> polline <strong>di</strong> Impatiens capensis.<br />

Di conseguenza ci si aspetta che il grado <strong>di</strong><br />

variabilità genetica <strong>del</strong>le popolazioni sia<br />

funzione <strong>del</strong>le con<strong>di</strong>zioni ambientali e, nel<br />

caso specifico, <strong>del</strong>la luminosità ricevuta.<br />

Scopo <strong>del</strong> progetto:<br />

Misurare la quantità e la <strong>di</strong>stribuzione<br />

<strong>del</strong>la variabilità genetica presente <strong>per</strong> 15<br />

caratteri (vegetativi e riproduttivi) a 3 sta<strong>di</strong> <strong>di</strong><br />

crescita, in 6 popolazioni naturali provenienti<br />

da 3 ambienti <strong>di</strong> luminosità: 1. ombreggiata,<br />

2. parzialmente ombreggiata, 3. a<strong>per</strong>ta. Le<br />

misurazioni sono state fatte su piante<br />

cresciute in con<strong>di</strong>zioni controllate, da seme<br />

proveniente da 20 in<strong>di</strong>vidui campionati<br />

casualmente in ciascuna popolazione. Scopo:<br />

eliminare possibili fonti <strong>di</strong> variazione al <strong>di</strong><br />

fuori <strong>del</strong>la componente genetica.<br />

Analisi Univariata:<br />

Analisi Statistica<br />

Per stimare la quantità e la<br />

<strong>di</strong>stribuzione <strong>del</strong>la variabilità genetica è stata<br />

applicata una Analisi Gerarchica <strong>del</strong>la<br />

Varianza (procedura GLM) a due fattori<br />

casuali (popolazione, famiglie entro<br />

popolazione) ai 12 caratteri che


sod<strong>di</strong>sfacevano gli assunti <strong>del</strong>l’ANOVA<br />

(Tabella 1).<br />

L’Analisi <strong>del</strong>le Componenti <strong>del</strong>la<br />

Varianza (procedura VARCOMP, opzione<br />

REML) è stata utilizzata <strong>per</strong> determinare la<br />

proporzione <strong>di</strong> variabilità attribuibile a<br />

<strong>di</strong>fferenze tra famiglie entro ciascuna<br />

popolazione.<br />

Analisi Multivariata:<br />

L’eventuale presenza <strong>di</strong><br />

multicollinearità fra le variabili è stata<br />

verificata utilizzando l’Analisi <strong>del</strong>le<br />

Componenti Principali, procedura<br />

PRINCOMP (Tabella 2 e Tabella 3). Sulle 3<br />

Componenti significative è stata fatta una<br />

ANOVA a due fattori casuali (popolazione,<br />

famiglie entro popolazione) <strong>per</strong> testare<br />

eventuali <strong>di</strong>fferenze tra le popolazioni sulla<br />

base dei gruppi <strong>di</strong> caratteri identificati dalle<br />

Componenti Principali.<br />

Risultati:<br />

• È presente variabilità genetica fra<br />

famiglie, all’interno <strong>del</strong>le popolazioni, <strong>per</strong><br />

tutti i caratteri esaminati.<br />

• È presente variabilità genetica fra<br />

popolazioni solo <strong>per</strong> caratteri vegetativi.<br />

• Popolazioni cresciute in con<strong>di</strong>zioni<br />

luminose simili, non sono più simili fra<br />

loro rispetto a popolazioni provenienti da<br />

con<strong>di</strong>zioni luminose <strong>di</strong>verse.<br />

• La proporzione <strong>di</strong> variabilità attribuibile a<br />

<strong>di</strong>fferenze fra famiglie varia in modo<br />

in<strong>di</strong>pendente dalla quantità <strong>di</strong> luce<br />

ricevuta dalle popolazioni.<br />

Esempio 2<br />

Influenza <strong>del</strong> genotipo su alcuni caratteri<br />

produttivi in lino da fibra<br />

(Fila et al., 1999)<br />

Il problema:<br />

Le produzioni <strong>di</strong> fibra e <strong>di</strong> seme in lino<br />

(Linum usitatissimum) sono influenzate da<br />

fattori <strong>genetici</strong> e ambientali. Per la produzione<br />

<strong>di</strong> lino da fibra si mira a steli lunghi e sottili,<br />

ottenibili con opportuni genotipi e una<br />

adeguata tecnica colturale come, <strong>per</strong> esempio,<br />

una alta densità <strong>di</strong> semina. D’altra parte,<br />

questa limita la produzione <strong>di</strong> seme, che<br />

comunque è importante <strong>per</strong> recu<strong>per</strong>are parte<br />

dei costi colturali.<br />

Scopo <strong>del</strong> progetto:<br />

Per verificare le <strong>di</strong>fferenze fra genotipi<br />

e la loro stabilità nel tempo, quattro cultivar <strong>di</strong><br />

lino <strong>di</strong> origine russa (1: A-29; 2: Alexim; 3:<br />

Novotopsky; 4: Torzhoksky-4) sono state<br />

coltivate in pieno campo <strong>per</strong> 3 anni<br />

consecutivi (<strong>di</strong>segno s<strong>per</strong>imentale non<br />

bilanciato completamente randomizzato),<br />

durante i quali sono stati misurati caratteri<br />

legati a: 1. produzione <strong>di</strong> fibra (altezza finale e<br />

altezza <strong>del</strong>la prima inserzione); 2. precocità <strong>di</strong><br />

sviluppo (altezza <strong>del</strong>la pianta in aprile) e 3.<br />

produzione <strong>di</strong> seme (sostanza secca).<br />

Analisi Univariata:<br />

Analisi Statistica<br />

Le <strong>di</strong>fferenze tra genotipi e tra anni e la<br />

significatività <strong>del</strong>le interazioni genotipo-anno<br />

<strong>per</strong> ciascun carattere sono state testate <strong>per</strong><br />

mezzo <strong>del</strong>l’Analisi <strong>del</strong>la Varianza (procedura<br />

GML, opzione SS3) a mo<strong>del</strong>lo misto: fattore<br />

fisso = genotipo, fattore casuale = anno<br />

(Tabella 1). Sono stati eseguiti test <strong>di</strong><br />

confronto tra le me<strong>di</strong>e (LSD, Duncan, SNK,<br />

Tukey, REGWQ) <strong>per</strong> i caratteri <strong>per</strong> cui la<br />

fonte fissa <strong>di</strong> variazione è risultata<br />

significativa nell’ANOVA (Tabella 2).<br />

Analisi Multivariata:<br />

Per stimare l’effetto <strong>del</strong>le due fonti <strong>di</strong><br />

variazione, genotipo e anno, su tutti i caratteri<br />

contemporaneamente è stata utilizzata<br />

l’Analisi Multivariata <strong>del</strong>la Varianza,<br />

MANOVA nella procedura GLM (Tabella 3).<br />

Questo metodo ha fornito una valutazione<br />

integrata <strong>del</strong>la risposta complessiva <strong>del</strong>la<br />

pianta.<br />

Risultati:<br />

• I caratteri legati alla fibra e alla precocità<br />

risultano variabili nel tempo.


• I caratteri legati alla fibra <strong>di</strong>pendono<br />

significativamente dal genotipo adottato.<br />

• La risposta integrata ha mostrato<br />

variabilità nel tempo.<br />

• L’effetto genotipo non è chiaramente<br />

messo in evidenza su base multivariata.<br />

Conclusioni<br />

• La flessibilità <strong>del</strong>la procedura GLM, che<br />

<strong>per</strong>mette <strong>di</strong> calibrare i mo<strong>del</strong>li<br />

<strong>del</strong>l’ANOVA alle esigenze s<strong>per</strong>imentali,<br />

ci ha <strong>per</strong>messo <strong>di</strong> valutare le <strong>di</strong>fferenze<br />

fra genotipi nello spazio e nel tempo in<br />

<strong>di</strong>versi sistemi biologici.<br />

• Il confronto tra me<strong>di</strong>e e l’Analisi <strong>del</strong>le<br />

Componenti <strong>del</strong>la Varianza <strong>per</strong>mettono <strong>di</strong><br />

analizzare ulteriormente i risultati<br />

<strong>del</strong>l’ANOVA identificando i gruppi <strong>di</strong><br />

genotipi statisticamente uguali, e<br />

stimando la <strong>per</strong>centuale <strong>di</strong> variabilità dei<br />

caratteri attribuibile alle <strong>di</strong>verse fonti <strong>di</strong><br />

variazione utilizzate nei mo<strong>del</strong>li scelti.<br />

• Le tecniche <strong>di</strong> Analisi Multivariata ci<br />

hanno <strong>per</strong>messo <strong>di</strong> 1. valutare la risposta<br />

integrata <strong>del</strong>le piante considerando<br />

simultaneamente tutti i caratteri, e 2. <strong>di</strong><br />

identificare eventuali gruppi <strong>di</strong><br />

correlazione fra i caratteri misurati.<br />

Bibliografia<br />

Fila G., Maestrini C., Fontana F., Govoni F.<br />

1999. Evaluating fibre flax varieties in<br />

the Po Valley, Northern Italy. Proc. 6 th<br />

Symposium on Renewable Resources<br />

and 4 th European Symposium on<br />

Industrial Crops, 23-25 March,<br />

Germany, 219-224.<br />

Paoletti C., Holsinger K. E. 1999. Spatial<br />

patterns of polygenic variation in<br />

Impatiens capensis, a species with an<br />

environmentally controlled mixed<br />

mating system. J. Evol. Biol., 12: 689-<br />

696.


Esempio 1 – Impatiens capensis<br />

Tabella 1: Analisi Gerarchica <strong>del</strong>la Varianza a due fattori su 12 caratteri<br />

È in<strong>di</strong>cata la significatività <strong>del</strong> rapporto F<br />

Fonte <strong>di</strong> Variazione<br />

Carattere<br />

Popolazione Famiglia<br />

(Pop.)<br />

20 giorni dalla semina<br />

Altezza cotiledone hh hhh<br />

Lunghezza 1° foglia N.S. hhh<br />

30 giorni dalla semina<br />

Altezza N.S. hhh<br />

Larghezza fusto N.S. hhh<br />

Numero foglie N.S. hhh<br />

Larghezza foglia max. N.S. hhh<br />

60 giorni dalla semina<br />

Altezza hh hhh<br />

Larghezza fusto hh hhh<br />

Larghezza foglia max. hhh hhh<br />

Lunghezza foglia max. hhh hhh<br />

Numero fiori N.S. hhh<br />

Numero rami N.S. hhh<br />

h = 0.01< p < 0.05;hh = 0.001 < p < 0.01;hhh = p < 0.001<br />

Esempio 1 – Impatiens capensis<br />

Tabella 2: Analisi <strong>del</strong>le Componenti Principali<br />

Sono mostrati i risultati solo <strong>per</strong> le Componenti con autovalore su<strong>per</strong>iore a 1<br />

PC1 PC2 PC3<br />

Autovalore 7.16 2.35 1.26<br />

% Varianza spiegata 0.48 0.16 0.08<br />

% Varianza totale 0.48 0.64 0.72


Esempio 1 – Impatiens capensis<br />

Tabella 3: Analisi <strong>del</strong>le Componenti Principali<br />

Peso dei caratteri sulle prime 3 Componenti Principali<br />

Peso dei Caratteri<br />

PC1 PC2 PC3<br />

20 giorni dalla semina<br />

Altezza 0.28 -0.26 -0.36<br />

Altezza cotiledone 0.22 -0.28 -0.48<br />

Lunghezza prima foglia 0.33 -0.14 0.09<br />

Larghezza prima foglia 0.33 -0.16 0.12<br />

30 giorni dalla semina<br />

Altezza 0.29 -0.23 -0.17<br />

Larghezza fusto 0.30 -0.16 0.04<br />

Numero foglie 0.28 -0.05 0.17<br />

Lunghezza foglia più grande 0.32 0.07 0.02<br />

Larghezza foglia più grande 0.31 0.11 0.05<br />

60 giorni dalla semina<br />

Altezza 0.24 0.26 0.20<br />

Numero rami 0.19 0.10 0.30<br />

Numero fiori 0.10 -0.11 0.46<br />

Lunghezza foglia più grande 0.15 0.50 -0.29<br />

Larghezza foglia più grande 0.16 0.49 -0.29<br />

Larghezza fusto 0.22 0.37 0.08<br />

Il peso maggiore <strong>di</strong> ciascun carattere sulle prime 3 Componenti è in<strong>di</strong>cato in grassetto.<br />

Esempio 2 – Lino<br />

Tabella 1: Analisi <strong>del</strong>la Varianza a due fattori<br />

È in<strong>di</strong>cata la significatività <strong>del</strong> rapporto F<br />

Carattere<br />

Fonte <strong>di</strong> Variazione<br />

Genotipo Anno Gen*Anno<br />

Altezza finale hhh hhh N.S.<br />

Altezza inserzione h hhh N.S.<br />

Altezza aprile N.S. hhh N.S.<br />

Sost. Secca seme N.S. N.S. hh<br />

h = 0.01< p < 0.05;hh = 0.001 < p < 0.01;hhh = p < 0.001


Esempio 2 – Lino<br />

Tabella 2: Test <strong>di</strong> confronto tra me<strong>di</strong>e dei genotipi<br />

A lettere uguali corrispondono me<strong>di</strong>e statisticamente uguali<br />

Altezza finale<br />

Genotipo<br />

Test usato<br />

LSD Duncan SNK REGWQ Tukey<br />

3 A A A A A<br />

4 A A A A A<br />

1 B B B B B<br />

2 B B B B B<br />

Altezza prima inserzione<br />

Genotipo<br />

Test usato<br />

LSD Duncan SNK REGWQ Tukey<br />

3 A A A A A<br />

4 AB A A A A<br />

1 BC AB AB AB AB<br />

2 C B B B B<br />

Esempio 2 – Lino<br />

Tabella 3: Analisi Multivariata <strong>del</strong>la Varianza a due fattori <strong>per</strong> 4 caratteri<br />

È in<strong>di</strong>cata la significatività <strong>del</strong> rapporto F<br />

Test utilizzato<br />

Fonte <strong>di</strong> Variazione<br />

Wilks’<br />

Lambda<br />

Pillai’s<br />

Trace<br />

Hotelling-Lawley<br />

Trace<br />

Roy’s Greatest<br />

Root<br />

Genotipo h N.S. hh hhh<br />

Anno hh hh hh hhh<br />

Genotipo*Anno N.S. h h hhh<br />

Per maggiori informazioni:<br />

Clau<strong>di</strong>a Paoletti, Gianni Bellocchi, Gianni Fila<br />

Via <strong>di</strong> Corticella 133, 40128 Bologna<br />

Tel.: +39 051 6316811<br />

Fax: +39 051 374857<br />

Web: http://www.inea.it/isci<br />

E-mail: clplt@tin.it<br />

g.bellocchi@iol.it

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!