Utilizzo del SAS per l'analisi di dati genetici e agronomici ... - sipeaa
Utilizzo del SAS per l'analisi di dati genetici e agronomici ... - sipeaa
Utilizzo del SAS per l'analisi di dati genetici e agronomici ... - sipeaa
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
<strong>Utilizzo</strong> <strong>del</strong> <strong>SAS</strong> <strong>per</strong> l’analisi <strong>di</strong> <strong>dati</strong> <strong>genetici</strong> e <strong>agronomici</strong> nel mondo vegetale<br />
Clau<strong>di</strong>a Paoletti, Gianni Bellocchi, Gianni Fila<br />
Istituto S<strong>per</strong>imentale Colture Industriali<br />
Introduzione<br />
L’importanza <strong>del</strong>l’analisi statistica <strong>per</strong><br />
l’elaborazione <strong>di</strong> <strong>dati</strong> biologico-<strong>agronomici</strong> è<br />
<strong>di</strong>mostrata dalla crescente gamma <strong>di</strong> meto<strong>di</strong><br />
<strong>di</strong> analisi utilizzata negli ultimi decenni.<br />
Sebbene la statistica si sia sviluppata<br />
<strong>per</strong> sod<strong>di</strong>sfare i bisogni <strong>del</strong>la ricerca<br />
scientifica, le sue metodologie hanno<br />
influenzato l’evoluzione <strong>del</strong>le <strong>di</strong>verse<br />
<strong>di</strong>scipline a cui è stata applicata e, in<br />
particolare, la filosofia <strong>del</strong>le scienze<br />
biologiche. A questo proposito si possono<br />
fornire due esempi:<br />
- Il primo riguarda l’Analisi <strong>del</strong>la<br />
Varianza (ANOVA) che ha <strong>per</strong>messo, tramite<br />
appropriati <strong>di</strong>segni s<strong>per</strong>imentali, <strong>di</strong> testare<br />
separatamente gli effetti ambientali e <strong>genetici</strong>.<br />
Questa possibilità ha rivoluzionato l’efficacia<br />
<strong>del</strong>la s<strong>per</strong>imentazione biologica, poiché i<br />
problemi statistici legati all’interazione<br />
genotipo-ambiente emergono in tutti i settori<br />
<strong>del</strong>la ricerca in cui <strong>di</strong>versi trattamenti<br />
vengono messi a confronto in es<strong>per</strong>imenti<br />
ripetuti nel tempo e/o nello spazio.<br />
- Il secondo esempio riguarda le<br />
tecniche <strong>di</strong> Analisi Multivariata, che hanno<br />
<strong>per</strong>messo <strong>di</strong> analizzare più variabili<br />
simultaneamente, tenendo conto <strong>del</strong>le<br />
reciproche interazioni.<br />
Un problema legato alla complessità e<br />
alla natura <strong>del</strong>le s<strong>per</strong>imentazioni biologicoagrarie,<br />
è la <strong>di</strong>fficoltà che si incontra nel<br />
raccogliere set bilanciati <strong>di</strong> <strong>dati</strong> appropriati<br />
<strong>per</strong> l’elaborazione con meto<strong>di</strong> classici<br />
<strong>del</strong>l’Analisi <strong>del</strong>la Varianza. I Generalized<br />
Linear Mo<strong>del</strong>s <strong>di</strong>sponibili in <strong>SAS</strong> (procedura<br />
GLM) hanno <strong>per</strong>messo l’analisi <strong>di</strong> <strong>dati</strong><br />
sbilanciati, sia con varianze eterogenee che<br />
con errori non normali o correlati alle me<strong>di</strong>e.<br />
In questa presentazione sono presi ad<br />
esempio due lavori che mostrano<br />
l’applicazione <strong>di</strong> alcuni strumenti <strong>SAS</strong> <strong>per</strong> la<br />
risoluzione <strong>di</strong> problemi tipici <strong>del</strong>le ricerche<br />
biologico-agrarie. Si fa particolare<br />
riferimento alle procedure GLM,<br />
VARCOMP, e PRINCOMP <strong>di</strong>sponibili in<br />
<strong>SAS</strong>stat.<br />
Esempio 1<br />
Effetti <strong>del</strong>la luce sulla variabilità genetica<br />
<strong>di</strong> Impatiens capensis<br />
(Paoletti e Holsinger, 1999)<br />
Il problema:<br />
La presenza <strong>di</strong> sistemi riproduttivi<br />
“misti” nelle piante (inincrocio +<br />
fecondazione incrociata) è influenzata dalle<br />
con<strong>di</strong>zioni ambientali <strong>di</strong> crescita. Per<br />
esempio, la luce influenza la <strong>di</strong>stanza <strong>di</strong><br />
<strong>di</strong>s<strong>per</strong>sione <strong>del</strong> polline <strong>di</strong> Impatiens capensis.<br />
Di conseguenza ci si aspetta che il grado <strong>di</strong><br />
variabilità genetica <strong>del</strong>le popolazioni sia<br />
funzione <strong>del</strong>le con<strong>di</strong>zioni ambientali e, nel<br />
caso specifico, <strong>del</strong>la luminosità ricevuta.<br />
Scopo <strong>del</strong> progetto:<br />
Misurare la quantità e la <strong>di</strong>stribuzione<br />
<strong>del</strong>la variabilità genetica presente <strong>per</strong> 15<br />
caratteri (vegetativi e riproduttivi) a 3 sta<strong>di</strong> <strong>di</strong><br />
crescita, in 6 popolazioni naturali provenienti<br />
da 3 ambienti <strong>di</strong> luminosità: 1. ombreggiata,<br />
2. parzialmente ombreggiata, 3. a<strong>per</strong>ta. Le<br />
misurazioni sono state fatte su piante<br />
cresciute in con<strong>di</strong>zioni controllate, da seme<br />
proveniente da 20 in<strong>di</strong>vidui campionati<br />
casualmente in ciascuna popolazione. Scopo:<br />
eliminare possibili fonti <strong>di</strong> variazione al <strong>di</strong><br />
fuori <strong>del</strong>la componente genetica.<br />
Analisi Univariata:<br />
Analisi Statistica<br />
Per stimare la quantità e la<br />
<strong>di</strong>stribuzione <strong>del</strong>la variabilità genetica è stata<br />
applicata una Analisi Gerarchica <strong>del</strong>la<br />
Varianza (procedura GLM) a due fattori<br />
casuali (popolazione, famiglie entro<br />
popolazione) ai 12 caratteri che
sod<strong>di</strong>sfacevano gli assunti <strong>del</strong>l’ANOVA<br />
(Tabella 1).<br />
L’Analisi <strong>del</strong>le Componenti <strong>del</strong>la<br />
Varianza (procedura VARCOMP, opzione<br />
REML) è stata utilizzata <strong>per</strong> determinare la<br />
proporzione <strong>di</strong> variabilità attribuibile a<br />
<strong>di</strong>fferenze tra famiglie entro ciascuna<br />
popolazione.<br />
Analisi Multivariata:<br />
L’eventuale presenza <strong>di</strong><br />
multicollinearità fra le variabili è stata<br />
verificata utilizzando l’Analisi <strong>del</strong>le<br />
Componenti Principali, procedura<br />
PRINCOMP (Tabella 2 e Tabella 3). Sulle 3<br />
Componenti significative è stata fatta una<br />
ANOVA a due fattori casuali (popolazione,<br />
famiglie entro popolazione) <strong>per</strong> testare<br />
eventuali <strong>di</strong>fferenze tra le popolazioni sulla<br />
base dei gruppi <strong>di</strong> caratteri identificati dalle<br />
Componenti Principali.<br />
Risultati:<br />
• È presente variabilità genetica fra<br />
famiglie, all’interno <strong>del</strong>le popolazioni, <strong>per</strong><br />
tutti i caratteri esaminati.<br />
• È presente variabilità genetica fra<br />
popolazioni solo <strong>per</strong> caratteri vegetativi.<br />
• Popolazioni cresciute in con<strong>di</strong>zioni<br />
luminose simili, non sono più simili fra<br />
loro rispetto a popolazioni provenienti da<br />
con<strong>di</strong>zioni luminose <strong>di</strong>verse.<br />
• La proporzione <strong>di</strong> variabilità attribuibile a<br />
<strong>di</strong>fferenze fra famiglie varia in modo<br />
in<strong>di</strong>pendente dalla quantità <strong>di</strong> luce<br />
ricevuta dalle popolazioni.<br />
Esempio 2<br />
Influenza <strong>del</strong> genotipo su alcuni caratteri<br />
produttivi in lino da fibra<br />
(Fila et al., 1999)<br />
Il problema:<br />
Le produzioni <strong>di</strong> fibra e <strong>di</strong> seme in lino<br />
(Linum usitatissimum) sono influenzate da<br />
fattori <strong>genetici</strong> e ambientali. Per la produzione<br />
<strong>di</strong> lino da fibra si mira a steli lunghi e sottili,<br />
ottenibili con opportuni genotipi e una<br />
adeguata tecnica colturale come, <strong>per</strong> esempio,<br />
una alta densità <strong>di</strong> semina. D’altra parte,<br />
questa limita la produzione <strong>di</strong> seme, che<br />
comunque è importante <strong>per</strong> recu<strong>per</strong>are parte<br />
dei costi colturali.<br />
Scopo <strong>del</strong> progetto:<br />
Per verificare le <strong>di</strong>fferenze fra genotipi<br />
e la loro stabilità nel tempo, quattro cultivar <strong>di</strong><br />
lino <strong>di</strong> origine russa (1: A-29; 2: Alexim; 3:<br />
Novotopsky; 4: Torzhoksky-4) sono state<br />
coltivate in pieno campo <strong>per</strong> 3 anni<br />
consecutivi (<strong>di</strong>segno s<strong>per</strong>imentale non<br />
bilanciato completamente randomizzato),<br />
durante i quali sono stati misurati caratteri<br />
legati a: 1. produzione <strong>di</strong> fibra (altezza finale e<br />
altezza <strong>del</strong>la prima inserzione); 2. precocità <strong>di</strong><br />
sviluppo (altezza <strong>del</strong>la pianta in aprile) e 3.<br />
produzione <strong>di</strong> seme (sostanza secca).<br />
Analisi Univariata:<br />
Analisi Statistica<br />
Le <strong>di</strong>fferenze tra genotipi e tra anni e la<br />
significatività <strong>del</strong>le interazioni genotipo-anno<br />
<strong>per</strong> ciascun carattere sono state testate <strong>per</strong><br />
mezzo <strong>del</strong>l’Analisi <strong>del</strong>la Varianza (procedura<br />
GML, opzione SS3) a mo<strong>del</strong>lo misto: fattore<br />
fisso = genotipo, fattore casuale = anno<br />
(Tabella 1). Sono stati eseguiti test <strong>di</strong><br />
confronto tra le me<strong>di</strong>e (LSD, Duncan, SNK,<br />
Tukey, REGWQ) <strong>per</strong> i caratteri <strong>per</strong> cui la<br />
fonte fissa <strong>di</strong> variazione è risultata<br />
significativa nell’ANOVA (Tabella 2).<br />
Analisi Multivariata:<br />
Per stimare l’effetto <strong>del</strong>le due fonti <strong>di</strong><br />
variazione, genotipo e anno, su tutti i caratteri<br />
contemporaneamente è stata utilizzata<br />
l’Analisi Multivariata <strong>del</strong>la Varianza,<br />
MANOVA nella procedura GLM (Tabella 3).<br />
Questo metodo ha fornito una valutazione<br />
integrata <strong>del</strong>la risposta complessiva <strong>del</strong>la<br />
pianta.<br />
Risultati:<br />
• I caratteri legati alla fibra e alla precocità<br />
risultano variabili nel tempo.
• I caratteri legati alla fibra <strong>di</strong>pendono<br />
significativamente dal genotipo adottato.<br />
• La risposta integrata ha mostrato<br />
variabilità nel tempo.<br />
• L’effetto genotipo non è chiaramente<br />
messo in evidenza su base multivariata.<br />
Conclusioni<br />
• La flessibilità <strong>del</strong>la procedura GLM, che<br />
<strong>per</strong>mette <strong>di</strong> calibrare i mo<strong>del</strong>li<br />
<strong>del</strong>l’ANOVA alle esigenze s<strong>per</strong>imentali,<br />
ci ha <strong>per</strong>messo <strong>di</strong> valutare le <strong>di</strong>fferenze<br />
fra genotipi nello spazio e nel tempo in<br />
<strong>di</strong>versi sistemi biologici.<br />
• Il confronto tra me<strong>di</strong>e e l’Analisi <strong>del</strong>le<br />
Componenti <strong>del</strong>la Varianza <strong>per</strong>mettono <strong>di</strong><br />
analizzare ulteriormente i risultati<br />
<strong>del</strong>l’ANOVA identificando i gruppi <strong>di</strong><br />
genotipi statisticamente uguali, e<br />
stimando la <strong>per</strong>centuale <strong>di</strong> variabilità dei<br />
caratteri attribuibile alle <strong>di</strong>verse fonti <strong>di</strong><br />
variazione utilizzate nei mo<strong>del</strong>li scelti.<br />
• Le tecniche <strong>di</strong> Analisi Multivariata ci<br />
hanno <strong>per</strong>messo <strong>di</strong> 1. valutare la risposta<br />
integrata <strong>del</strong>le piante considerando<br />
simultaneamente tutti i caratteri, e 2. <strong>di</strong><br />
identificare eventuali gruppi <strong>di</strong><br />
correlazione fra i caratteri misurati.<br />
Bibliografia<br />
Fila G., Maestrini C., Fontana F., Govoni F.<br />
1999. Evaluating fibre flax varieties in<br />
the Po Valley, Northern Italy. Proc. 6 th<br />
Symposium on Renewable Resources<br />
and 4 th European Symposium on<br />
Industrial Crops, 23-25 March,<br />
Germany, 219-224.<br />
Paoletti C., Holsinger K. E. 1999. Spatial<br />
patterns of polygenic variation in<br />
Impatiens capensis, a species with an<br />
environmentally controlled mixed<br />
mating system. J. Evol. Biol., 12: 689-<br />
696.
Esempio 1 – Impatiens capensis<br />
Tabella 1: Analisi Gerarchica <strong>del</strong>la Varianza a due fattori su 12 caratteri<br />
È in<strong>di</strong>cata la significatività <strong>del</strong> rapporto F<br />
Fonte <strong>di</strong> Variazione<br />
Carattere<br />
Popolazione Famiglia<br />
(Pop.)<br />
20 giorni dalla semina<br />
Altezza cotiledone hh hhh<br />
Lunghezza 1° foglia N.S. hhh<br />
30 giorni dalla semina<br />
Altezza N.S. hhh<br />
Larghezza fusto N.S. hhh<br />
Numero foglie N.S. hhh<br />
Larghezza foglia max. N.S. hhh<br />
60 giorni dalla semina<br />
Altezza hh hhh<br />
Larghezza fusto hh hhh<br />
Larghezza foglia max. hhh hhh<br />
Lunghezza foglia max. hhh hhh<br />
Numero fiori N.S. hhh<br />
Numero rami N.S. hhh<br />
h = 0.01< p < 0.05;hh = 0.001 < p < 0.01;hhh = p < 0.001<br />
Esempio 1 – Impatiens capensis<br />
Tabella 2: Analisi <strong>del</strong>le Componenti Principali<br />
Sono mostrati i risultati solo <strong>per</strong> le Componenti con autovalore su<strong>per</strong>iore a 1<br />
PC1 PC2 PC3<br />
Autovalore 7.16 2.35 1.26<br />
% Varianza spiegata 0.48 0.16 0.08<br />
% Varianza totale 0.48 0.64 0.72
Esempio 1 – Impatiens capensis<br />
Tabella 3: Analisi <strong>del</strong>le Componenti Principali<br />
Peso dei caratteri sulle prime 3 Componenti Principali<br />
Peso dei Caratteri<br />
PC1 PC2 PC3<br />
20 giorni dalla semina<br />
Altezza 0.28 -0.26 -0.36<br />
Altezza cotiledone 0.22 -0.28 -0.48<br />
Lunghezza prima foglia 0.33 -0.14 0.09<br />
Larghezza prima foglia 0.33 -0.16 0.12<br />
30 giorni dalla semina<br />
Altezza 0.29 -0.23 -0.17<br />
Larghezza fusto 0.30 -0.16 0.04<br />
Numero foglie 0.28 -0.05 0.17<br />
Lunghezza foglia più grande 0.32 0.07 0.02<br />
Larghezza foglia più grande 0.31 0.11 0.05<br />
60 giorni dalla semina<br />
Altezza 0.24 0.26 0.20<br />
Numero rami 0.19 0.10 0.30<br />
Numero fiori 0.10 -0.11 0.46<br />
Lunghezza foglia più grande 0.15 0.50 -0.29<br />
Larghezza foglia più grande 0.16 0.49 -0.29<br />
Larghezza fusto 0.22 0.37 0.08<br />
Il peso maggiore <strong>di</strong> ciascun carattere sulle prime 3 Componenti è in<strong>di</strong>cato in grassetto.<br />
Esempio 2 – Lino<br />
Tabella 1: Analisi <strong>del</strong>la Varianza a due fattori<br />
È in<strong>di</strong>cata la significatività <strong>del</strong> rapporto F<br />
Carattere<br />
Fonte <strong>di</strong> Variazione<br />
Genotipo Anno Gen*Anno<br />
Altezza finale hhh hhh N.S.<br />
Altezza inserzione h hhh N.S.<br />
Altezza aprile N.S. hhh N.S.<br />
Sost. Secca seme N.S. N.S. hh<br />
h = 0.01< p < 0.05;hh = 0.001 < p < 0.01;hhh = p < 0.001
Esempio 2 – Lino<br />
Tabella 2: Test <strong>di</strong> confronto tra me<strong>di</strong>e dei genotipi<br />
A lettere uguali corrispondono me<strong>di</strong>e statisticamente uguali<br />
Altezza finale<br />
Genotipo<br />
Test usato<br />
LSD Duncan SNK REGWQ Tukey<br />
3 A A A A A<br />
4 A A A A A<br />
1 B B B B B<br />
2 B B B B B<br />
Altezza prima inserzione<br />
Genotipo<br />
Test usato<br />
LSD Duncan SNK REGWQ Tukey<br />
3 A A A A A<br />
4 AB A A A A<br />
1 BC AB AB AB AB<br />
2 C B B B B<br />
Esempio 2 – Lino<br />
Tabella 3: Analisi Multivariata <strong>del</strong>la Varianza a due fattori <strong>per</strong> 4 caratteri<br />
È in<strong>di</strong>cata la significatività <strong>del</strong> rapporto F<br />
Test utilizzato<br />
Fonte <strong>di</strong> Variazione<br />
Wilks’<br />
Lambda<br />
Pillai’s<br />
Trace<br />
Hotelling-Lawley<br />
Trace<br />
Roy’s Greatest<br />
Root<br />
Genotipo h N.S. hh hhh<br />
Anno hh hh hh hhh<br />
Genotipo*Anno N.S. h h hhh<br />
Per maggiori informazioni:<br />
Clau<strong>di</strong>a Paoletti, Gianni Bellocchi, Gianni Fila<br />
Via <strong>di</strong> Corticella 133, 40128 Bologna<br />
Tel.: +39 051 6316811<br />
Fax: +39 051 374857<br />
Web: http://www.inea.it/isci<br />
E-mail: clplt@tin.it<br />
g.bellocchi@iol.it