22.10.2014 Views

Enrico Feoli, Paola Ganis - Università degli Studi di Trieste

Enrico Feoli, Paola Ganis - Università degli Studi di Trieste

Enrico Feoli, Paola Ganis - Università degli Studi di Trieste

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Enrico</strong> <strong>Feoli</strong>, <strong>Paola</strong> <strong>Ganis</strong><br />

INTRODUZIONE<br />

ALL’ECOLOGIA QUANTITATIVA<br />

Dispensa per gli insegnamenti <strong>di</strong> Ecologia e Ecologia Quantitativa<br />

per i Corsi <strong>di</strong> laurea in Scienze Naturali, Biologiche e Ambientali.<br />

Anno accademico 2004-2005<br />

Dipartimento <strong>di</strong> Biologia<br />

Universita’ <strong>degli</strong> <strong>Stu<strong>di</strong></strong> <strong>di</strong> <strong>Trieste</strong>


1. INTRODUZIONE..................................................................................................................................................1-1<br />

2. IL SISTEMA ECOLOGICO O ECOSISTEMA.................................................................................................2-4<br />

2.1 COSA ANDIAMO A MISURARE? ..........................................................................................................................2-4<br />

2.2 COS’E’ LO SPAZIO ECOLOGICO? ........................................................................................................................2-5<br />

2.3 COS’È LA NICCHIA ECOLOGICA? .......................................................................................................................2-5<br />

2.4 ORDINE E MISURE DI ORDINE ............................................................................................................................2-6<br />

3. I DATI ECOLOGICI ..........................................................................................................................................3-10<br />

3.1 UNITA’ DI ANALISI, VARIABILI, VALORI..........................................................................................................3-10<br />

3.2 TIPI DI VARIABILI............................................................................................................................................3-11<br />

3.3 SCALE DI MISURA DELLE VARIABILI................................................................................................................3-11<br />

3.4 RAPPRESENTAZIONE DEI DATI ........................................................................................................................3-14<br />

3.4.1 Tabelle o matrici....................................................................................................................................3-15<br />

3.4.2 Grafici....................................................................................................................................................3-15<br />

3.4.3 Equazioni empiriche ..............................................................................................................................3-16<br />

4. CONCETTI BASE DI STATISTICA ................................................................................................................4-18<br />

4.1 DEFINIZIONE DI STATISTICA............................................................................................................................4-18<br />

4.2 POPOLAZIONE E CAMPIONE.............................................................................................................................4-18<br />

4.3 STATISTICA PARAMETRICA E NON PARAMETRICA ...........................................................................................4-19<br />

4.4 DISTRIBUZIONI DI FREQUENZA........................................................................................................................4-19<br />

4.4.1 Istogrammi, poligoni <strong>di</strong> frequenza e curve cumulative ..........................................................................4-22<br />

4.5 SINTESI DEI DATI MEDIANTE VALORI CARATTERISTICI....................................................................................4-23<br />

4.5.1 Valori <strong>di</strong> tendenza centrale o <strong>di</strong> posizione.............................................................................................4-23<br />

4.5.2 Valori <strong>di</strong> <strong>di</strong>spersione..............................................................................................................................4-26<br />

4.5.3 Esempio <strong>di</strong> calcolo.................................................................................................................................4-30<br />

4.6 DISTRIBUZIONI STATISTICHE E TEORICHE .......................................................................................................4-31<br />

4.6.1 Probabilita' ............................................................................................................................................4-32<br />

4.6.2 Distribuzione normale o curva gaussiana .............................................................................................4-34<br />

4.7 TEST DI SIGNIFICATIVITA' ...............................................................................................................................4-36<br />

4.7.1 Ipotesi nulla (H 0 ) e livello <strong>di</strong> significativita' ..........................................................................................4-36<br />

4.7.2 Gra<strong>di</strong> <strong>di</strong> liberta’.....................................................................................................................................4-39<br />

4.7.3 Riepilogo................................................................................................................................................4-39<br />

4.8 TEST PARAMETRICI.........................................................................................................................................4-40<br />

4.8.1 Test t <strong>di</strong> Student......................................................................................................................................4-40<br />

4.8.2 Analisi della varianza (ANOVA)............................................................................................................4-42<br />

4.9 CORRELAZIONE ..............................................................................................................................................4-46<br />

4.9.1 Correlazione lineare parametrica: coefficiente <strong>di</strong> Pearson...................................................................4-46<br />

4.9.2 Significativita' del coefficiente <strong>di</strong> correlazione......................................................................................4-47<br />

4.9.3 Esempio <strong>di</strong> calcolo.................................................................................................................................4-48<br />

4.10 REGRESSIONE .................................................................................................................................................4-49<br />

4.10.1 Esempio <strong>di</strong> calcolo.................................................................................................................................4-52<br />

4.11 TEST NON PARAMETRICI .................................................................................................................................4-54<br />

4.11.1 Chi-quadrato per un campione..............................................................................................................4-54<br />

4.11.2 Test chi-quadrato per due campioni in<strong>di</strong>pendenti .................................................................................4-55<br />

4.11.3 Restrizioni del test chi-quadrato............................................................................................................4-58<br />

4.11.4 Coefficiente <strong>di</strong> correlazione lineare <strong>di</strong> Spearman..................................................................................4-59<br />

5. TRASFORMAZIONE DEI DATI......................................................................................................................5-61<br />

I


5.1 TRASFORMAZIONE DELLE VARIABILI..............................................................................................................5-61<br />

5.2 TRASFORMAZIONE DEI VALORI NEGLI OGGETTI ..............................................................................................5-63<br />

5.3 TRASFORMAZIONE DELLA TABELLA ...............................................................................................................5-63<br />

5.4 ESEMPIO DI CALCOLO .....................................................................................................................................5-64<br />

6. ANALISI MULTIVARIATA..............................................................................................................................6-66<br />

6.1 SPAZIO ECOLOGICO MULTIDIMENSIONALE......................................................................................................6-67<br />

6.2 MODALITA’ DI ANALISI Q E R.........................................................................................................................6-71<br />

7. CLASSIFICAZIONE ..........................................................................................................................................7-73<br />

7.1 FUNZIONI DI SIMILARITA’ ...............................................................................................................................7-73<br />

7.2 MISURE PER DATI QUANTITATIVI: FUNZIONI GEOMETRICHE DI DISTANZA.......................................................7-74<br />

7.3 MISURE PER DATI QUANTITATIVI: FUNZIONI GEOMETRICHE DI SOMIGLIANZA.................................................7-76<br />

7.4 CONSIDERAZIONI SULL’USO DELLE FUNZIONI GEOMETRICHE .........................................................................7-79<br />

7.5 MISURE PER DATI BINARI: FUNZIONI DI SOMIGLIANZA, ASSOCIAZIONE E DISTANZA........................................7-79<br />

7.6 FUNZIONI DI SOMIGLIANZA PER DATI MISTI ....................................................................................................7-82<br />

7.7 COSTRUZIONE DI MATRICI SIMMETRICHE........................................................................................................7-83<br />

7.7.1 Trasformazioni dei valori delle funzioni ................................................................................................7-83<br />

7.8 ESEMPIO DI CALCOLO .....................................................................................................................................7-84<br />

7.8.1 Dati quantitativi.....................................................................................................................................7-84<br />

7.8.2 Dati binari .............................................................................................................................................7-85<br />

7.8.3 Dati misti ...............................................................................................................................................7-87<br />

7.9 ALGORITMI DI CLASSIFICAZIONE GERARCHICA AUTOMATICA.........................................................................7-88<br />

7.10 VALUTAZIONE ED UTILIZZO DEI RISULTATI DELLA CLASSIFICAZIONE AUTOMATICA.......................................7-90<br />

7.11 ESEMPIO DI CALCOLO .....................................................................................................................................7-93<br />

8. ORDINAMENTO ................................................................................................................................................8-96<br />

8.1 METODI LINEARI.............................................................................................................................................8-97<br />

8.1.1 Esempio <strong>di</strong> calcolo...............................................................................................................................8-101<br />

8.2 ANALISI DELLE COMPONENTI PRINCIPALI .....................................................................................................8-105<br />

8.2.1 Algoritmo R..........................................................................................................................................8-107<br />

8.2.2 Algoritmo Q .........................................................................................................................................8-114<br />

8.2.3 Algoritmo D ........................................................................................................................................8-115<br />

8.2.4 Esempio <strong>di</strong> calcolo...............................................................................................................................8-116<br />

8.3 ANALISI DELLE CORRISPONDENZE ................................................................................................................8-119<br />

8.3.1 Esempio <strong>di</strong> calcolo...............................................................................................................................8-123<br />

9. NICCHIE ECOLOGICHE ...............................................................................................................................9-127<br />

9.1 IPERVOLUMI DI NICCHIE NELLO SPAZIO ECOLOGICO .....................................................................................9-127<br />

9.1.1 Esempio <strong>di</strong> calcolo...............................................................................................................................9-131<br />

9.2 OVERLAP DI NICCHIA E COMPETIZIONE.........................................................................................................9-133<br />

9.2.1 Esempio <strong>di</strong> calcolo...............................................................................................................................9-135<br />

10. LA DIVERSITA' ECOLOGICA....................................................................................................................10-138<br />

10.1 LA DIVERSITA’ SPECIFICA...........................................................................................................................10-138<br />

10.1.1 In<strong>di</strong>ci <strong>di</strong> ricchezza..............................................................................................................................10-139<br />

10.1.2 In<strong>di</strong>ci <strong>di</strong> <strong>di</strong>versita’..............................................................................................................................10-140<br />

10.1.3 In<strong>di</strong>ci <strong>di</strong> equitabilita’ .........................................................................................................................10-142<br />

10.1.4 Confronti tra in<strong>di</strong>ci <strong>di</strong> <strong>di</strong>versita’........................................................................................................10-143<br />

10.1.5 Esempio <strong>di</strong> calcolo.............................................................................................................................10-144<br />

II


10.2 FUNZIONI UNIFICANTI LA DIVERSITA’.........................................................................................................10-147<br />

10.3 MODELLI DI DISTRIBUZIONE DI ABBONDANZA DELLE SPECIE......................................................................10-149<br />

10.3.1 Diagrammi rango/abbondanza o profili <strong>di</strong> <strong>di</strong>versita’ <strong>di</strong> Whittaker ...................................................10-150<br />

10.3.2 Diagrammi abbondanza/frequenza....................................................................................................10-151<br />

10.4 DESCRIZIONE DEI MODELLI DI DISTRIBUZIONE DI ABBONDANZA DELLE SPECIE ..........................................10-152<br />

10.4.1 Adattamenti statistici (fit) ..................................................................................................................10-154<br />

APPENDICE A.............................................................................................................................................................. 157<br />

APPENDICE B.............................................................................................................................................................. 158<br />

APPENDICE C ............................................................................................................................................................. 159<br />

APPENDICE D ............................................................................................................................................................. 160<br />

BIBLIOGRAFIA ............................................................................................................................................................. 161<br />

III


1 . I N T R O D U Z I O N E<br />

Che cosa e’ l’ecologia? Oggi si parla tanto <strong>di</strong> ecologia anche al <strong>di</strong> fuori dell’ambiente<br />

scientifico, possiamo trovare persone che sono in grado <strong>di</strong> intrattenerci per ore sui pericoli<br />

dell’inquinamento e sugli incommensurabili <strong>di</strong>fetti dell’uomo moderno, sulle sue manie<br />

consumistiche e sul suo vivere nel continuo peccato <strong>di</strong> superbia e stupi<strong>di</strong>ta’. Possono anche aver<br />

ragione, ma dopo un poco non le stiamo piu’ ad ascoltare e le man<strong>di</strong>amo a…. Comunque per<br />

fortuna quelli così, gli ecologisti, raramente sono ecologi come i socialisti raramente sono sociologi.<br />

Gli ecologi possono essere fascisti, berlusconiani, socialisti, comunisti, anarchici, drogati… non<br />

importa! Un ecologo e’ sempre uno stu<strong>di</strong>oso <strong>di</strong> ecologia, la scienza che si occupa delle relazioni tra<br />

vita e ambiente. Solo gli stu<strong>di</strong>osi che hanno avuto la fantasia, il coraggio, la sfrontatezza, la<br />

sfortuna <strong>di</strong> occuparsi <strong>di</strong> “vita e ambiente” sono gli ecologi, gli altri sono altro: botanici, zoologi,<br />

chimici, fisici, matematici, geografi, ingegneri, architetti, poeti, avvocati, economisti, storici, filosofi,<br />

sociologi, psicologi, me<strong>di</strong>ci…. Cosa vuol <strong>di</strong>re occuparsi <strong>di</strong> vita e ambiente? Vuol <strong>di</strong>re andare ad<br />

analizzare e capire come un organismo, una popolazione, una comunita’, un insieme <strong>di</strong> comunita’,<br />

la biosfera, variano al variare <strong>degli</strong> stati chimico-fisici dell’ambiente in cui essi vivono. Poi si tratta<br />

<strong>di</strong> mettersi d’accordo su cosa significhi capire, ma questa e’ una questione filosofica. Tutti quelli<br />

nominati sopra possono <strong>di</strong>ventare ecologi, non e’ necessario essere laureati in ecologia ed, infatti,<br />

una laurea in ecologia non esiste. Esiste una laurea in Scienze Ambientali, ma non e’ detto che un<br />

laureato in Scienze Ambientali <strong>di</strong>venti un ecologo, può benissimo <strong>di</strong>ventare un geologo e<br />

competere con i laureati in Scienze Geologiche, puo’ <strong>di</strong>ventare un botanico o uno zoologo e<br />

competere con i laureati in Scienze Naturali, puo’ <strong>di</strong>ventare un biotecnologo e competere con i<br />

laureati in Scienze Biologiche, puo’ <strong>di</strong>ventare un pianificatore dell’ambiente, un gestore <strong>di</strong> strutture<br />

ambientali (<strong>di</strong>scariche, inceneritori, acquedotti, etc.) e competere con gli ingegneri, non puo’<br />

<strong>di</strong>ventare un ingegnere salvo che non prenda anche una laurea in Ingegneria… Ma può <strong>di</strong>ventare<br />

anche un finanziere, un affarista, un commerciante ed anche un delinquente… Un ecologo e’ un<br />

ecologo, uno stu<strong>di</strong>oso, laureato o no che stu<strong>di</strong>a gli ecosistemi e le nicchie ecologiche e come gli<br />

ecosistemi variano nel tempo e nello spazio (stu<strong>di</strong>a i tanto o<strong>di</strong>ati gra<strong>di</strong>enti ecologici, o<strong>di</strong>ati, dalla<br />

maggioranza <strong>degli</strong> studenti, perche’ ti costringono a stu<strong>di</strong>are l’algebra delle matrici…) e come le<br />

nicchie ecologiche in uno spazio multi<strong>di</strong>mensionale possono essere occupate dalle <strong>di</strong>verse specie<br />

vegetali, animali, microbiche (batteri e virus) e dagli uomini. Sì anche dagli uomini! sebbene fino a<br />

pochi anni fa chi riven<strong>di</strong>cava il primato <strong>di</strong> stu<strong>di</strong>are uomo e ambiente erano i geografi. Ma si<br />

tranquillizzino i geografi, anche loro sono ecologi quando stu<strong>di</strong>ano i rapporti tra uomo e ambiente<br />

e non si limitano alla rappresentazione della <strong>di</strong>stribuzione geografica <strong>degli</strong> inse<strong>di</strong>amenti umani e<br />

1-1


delle risorse naturali.<br />

L’ecologia si occupa <strong>di</strong> tutti gli esseri viventi anche dei coliformi (batteri delle feci). L’ecologia<br />

stu<strong>di</strong>a i cicli <strong>degli</strong> elementi chimici e l’influenza che i fattori fisici (luce, temperatura, pressione)<br />

hanno su <strong>di</strong> essi quando “attraversano” la vita, quando sono usati dalla vita (il come non e’<br />

compito dell’ecologo, l’ecologo lascia questo problema al biochimico, che si arrangi lui…), ma<br />

l’ecologo vuole sapere quanto calcio e’ entrato in una foresta, quanto silicio e’ entrato, quanto<br />

potassio…. e chi ha “preso” <strong>di</strong> piu’ <strong>di</strong> un certo elemento tra gli alberi, gli arbusti e le erbe e …. e<br />

quanto ossigeno è consumato da un processo produttivo, e quanta anidride carbonica viene<br />

emessa, e quanta acqua evapora e viene traspirata (evapo-traspirata) …. e che effetto ha la<br />

deforestazione sul clima….. e quale erbivoro mangia piu’ piante <strong>di</strong> una certa specie……. e cosa<br />

succedera’ se quell’erbivoro si riproduce troppo senza che ci sia un carnivoro a toglierlo <strong>di</strong> torno!!!<br />

Un ecologo vuole sapere perche’ un ecosistema e’ cambiato e quanta causa abbia l’uomo in<br />

quel cambiamento. Un ecologo vuole “misurare” come l’uomo si sta comportando, facendo dei<br />

bilanci <strong>di</strong> energia, <strong>di</strong> materiali e <strong>di</strong> bio<strong>di</strong>versita’ (i bilanci ecologici!) non tanto per sapere se<br />

resteranno risorse ai suoi figlioli ….. In realta’ l’ecologo non si preoccupa della continuita’ della<br />

specie umana piu’ <strong>di</strong> quanto non se ne preoccupi un altro uomo. L’ecologo lavora alla ricerca <strong>di</strong><br />

limiti. Come i fisici vogliono capire quali siano i limiti a cui possono arrivare nell’infinitamente<br />

piccolo (fisico delle particelle) e nell’infinitamente grande (astrofisica), l’ecologo vuole capire quali<br />

siano i limiti <strong>di</strong> esistenza <strong>di</strong> un ecosistema microscopico “poco complesso” (virus e suo ambiente) e<br />

quali siano i limiti <strong>di</strong> esistenza dell’ecosistema piu’ grande e “molto complesso” sulla Terra, la<br />

biosfera, e nell’universo. Durante questo esercizio intellettuale, che continuera’ fino a quando<br />

l’intelligenza dell’uomo o <strong>di</strong> forme <strong>di</strong> vita anche piu’ o meno intelligenti <strong>di</strong> lui lo richiederanno,<br />

producendo teorie piu’ o meno simili da falsificare piuttosto che da verificare, l’ecologo potra’<br />

essere utile (o dannoso) alla sua specie come puo’ esserlo un qualunque altro scienziato (si pensi<br />

alle centrali nucleari “pulite” e alla bomba atomica, alla penicillina e all’antrace….). L’ecologo sara’<br />

utile quando mettera’ la sua conoscenza per contribuire a pianificare il sistema produttivo in modo<br />

tale da “produrre” un mondo sano sia per lui che per gli altri esseri viventi, sara’ dannoso quando<br />

mettera’ le sue conoscenze a servizio <strong>di</strong> coloro che vogliono sfruttare ancora <strong>di</strong> piu’ le risorse<br />

naturali per trarne vantaggio a <strong>di</strong>scapito <strong>di</strong> altri uomini.<br />

L’ecologia, come scienza, costruisce una struttura logica basata su alcuni concetti<br />

fondamentali come ecosistema, nicchia e successione ecologica, e lavora a <strong>di</strong>versi livelli <strong>di</strong> scala,<br />

dal microscopico al macroscopico, dal microcosmo <strong>di</strong> una provetta alla biosfera seguendo i tre<br />

approcci fondamentali della scienza quello descrittivo, deduttivo e sperimentale. Il primo si basa<br />

sull’osservazione e descrizione della natura, sulla raccolta <strong>di</strong> dati e sulla loro analisi e sulla<br />

generazione <strong>di</strong> ipotesi <strong>di</strong> vali<strong>di</strong>ta’ generale dall’osservazione del “particolare”. Non ci sarebbe stata<br />

1-2


la teoria della gravitazione universale se Newton e Galileo non avessero osservato e descritto i<br />

fenomeni <strong>di</strong> caduta dei corpi, non ci sarebbe stata la teoria dell’evoluzione se Darwin non avesse<br />

girato il mondo ad osservare gli esseri viventi ed i fossili, e se Mendel non avesse osservato il<br />

colore e la superficie dei piselli. Il secondo approccio, quello deduttivo, si basa sulla formulazione<br />

matematica <strong>di</strong> un’ipotesi, nata dalla descrizione <strong>di</strong> un fenomeno o da una idea astratta su quel<br />

fenomeno, in modo da rendere generale la sua vali<strong>di</strong>ta’ andando a vedere se tale formulazione<br />

matematica sia in grado <strong>di</strong> descrivere il fenomeno stesso nel suo <strong>di</strong>venire. Infine l’approccio<br />

sperimentale e’ quello che attraverso un esperimento o una serie <strong>di</strong> esperimenti vuole mettere in<br />

evidenza la veri<strong>di</strong>cita’ <strong>di</strong> una ipotesi nata in<strong>di</strong>pendentemente da un approccio descrittivo o da uno<br />

deduttivo o dalla combinazione dei due. Nella scienza tutti e tre gli approcci sono in<strong>di</strong>spensabili ed<br />

una scienza viene considerata “una scienza” proprio quando e’ in grado <strong>di</strong> usarli tutti e tre.<br />

L’ecologia usa tutti e tre gli approcci; esempi dell’approccio descrittivo sono la descrizione<br />

delle comunita’ vegetali, animali e microbiche e l’analisi dei gra<strong>di</strong>enti ecologici, esempi<br />

dell’approccio deduttivo sono i famosi modelli preda - predatore (o consumatore - risorsa)<br />

sviluppati da Lotka e Volterra, esempi dell’approccio sperimentale sono tutte le “prove” che<br />

vengono effettuate nei campi sperimentali o nei “microcosmi” aggiungendo o togliendo elementi<br />

nutritivi (o tossici), o inserendo organismi geneticamente “migliorati” o mo<strong>di</strong>ficati, od inserendo<br />

nelle comunita’ naturali organismi considerati estranei…. In alcuni casi l’ecologia puo’ usare solo i<br />

primi due approcci (ecologia umana) poiché e’ <strong>di</strong>fficile o vietato fare esperimenti <strong>di</strong> un certo tipo<br />

con gli animali e con gli uomini. In tutti e tre gli approcci, per una descrizione quantitativa dei<br />

fenomeni e per la verifica delle ipotesi, la raccolta e l’elaborazione dei dati sono due fasi essenziali.<br />

Questa <strong>di</strong>spensa ha lo scopo <strong>di</strong> introdurre lo studente <strong>di</strong> ecologia, nell’ ecologia quantitativa,<br />

una <strong>di</strong>sciplina dell’ecologia che e’ fondamentale per quantificare le relazioni tra le componenti <strong>di</strong> un<br />

ecosistema in modo da arrivare a capirne il funzionamento e a pre<strong>di</strong>rne gli stati nel tempo e nello<br />

spazio. Gli “strumenti” che vengono introdotti sono quelli della matematica e della statistica che lo<br />

studente ha imparato in un contesto astratto o in altri contesti nelle scuole superiori o durante il<br />

primo corso <strong>di</strong> matematica all’Universita’. La presentazione e’ molto elementare ed informale, la<br />

<strong>di</strong>spensa non ha la pretesa <strong>di</strong> essere un testo universitario completo. Per il momento e’ solo una<br />

raccolta organizzata <strong>di</strong> argomenti che riguardano l’applicazione <strong>di</strong> meto<strong>di</strong> matematici e statistici<br />

nell’analisi dei dati ecologici utili per generare ipotesi e/o per testarle in precisi contesti “descrittivi”<br />

e sperimentali. La <strong>di</strong>spensa e’ aperta, nel senso che puo’ venir aggiornata continuamente durante<br />

le lezioni, ed incompleta, nel senso che e’ da stimolo per gli studenti ad andare ad approfon<strong>di</strong>re<br />

certi argomenti nei testi <strong>di</strong> matematica e statistica del primo anno <strong>di</strong> Universita’ e nei testi <strong>di</strong><br />

Ecologia consigliati, e a frequentare le lezioni.<br />

1-3


2 . I L S I S T E M A E C O L O G I C O O E C O S I S T E M A<br />

2.1 COSA ANDIAMO A MISURARE?<br />

Il concetto fondamentale dell’ecologia e’ l’ecosistema costituito da un sistema <strong>di</strong> elementi<br />

che interagiscono tra loro <strong>di</strong> cui alcuni fanno parte dell’ambiente biologico (vita) ed altri fanno parte<br />

dell’ambiente chimico-fisico. Esso viene in<strong>di</strong>viduato dall’ecologo a <strong>di</strong>versi livelli gerarchici in<br />

conformità a cio’ che vuole stu<strong>di</strong>are: dal livello espresso da una singola cellula <strong>di</strong> batterio e da<br />

alcuni fattori ambientali che si ritengono importanti per la sua vita, alla biosfera cioe’ dal livello<br />

espresso da tutto l’insieme <strong>degli</strong> organismi che vivono sulla Terra e dai fattori ecologici che ne<br />

controllano l’esistenza. Il problema fondamentale e’ quello <strong>di</strong> definire <strong>di</strong> volta in volta i caratteri<br />

che descrivono in modo “rilevante” l’ecosistema cioe’ gli “in<strong>di</strong>catori”. Il concetto <strong>di</strong> rilevanza e’<br />

fondamentale e si scontrera’ continuamente con il concetto <strong>di</strong> precisione.<br />

Descrivere precisamente un ecosistema nel tempo e nello spazio e’ impossibile perche’ esso<br />

fa parte della categoria dei sistemi complessi che richiedono, come i numeri complessi, una parte<br />

immaginaria. Razionalizzare l’immaginazione e’ cio’ che si richiede ad uno scienziato che si occupa<br />

<strong>di</strong> sistemi complessi. La definizione <strong>degli</strong> in<strong>di</strong>catori e’ essenziale per condurre una ricerca ed e’<br />

ovvio che, <strong>di</strong> volta in volta, questa definizione riguarda la scala <strong>di</strong> indagine. La precisione e’<br />

funzione della rilevanza. Se stu<strong>di</strong>amo un singolo batterio andremo a misurare in modo preciso<br />

alcuni suoi comportamenti essenziali, ad esempio il momento <strong>di</strong> moltiplicazione o il momento <strong>di</strong><br />

plasmolisi in funzione della variazione <strong>di</strong> alcuni fattori chimico-fisici, quali temperatura e/o qualche<br />

sostanza chimica; se stu<strong>di</strong>amo la biosfera andremo a misurare la variazione dell’in<strong>di</strong>ce <strong>di</strong> verde<br />

ottenuta da satellite in funzione dei cambiamenti <strong>di</strong> temperatura e precipitazione, ma non in un<br />

modo cosi’ preciso come nel caso precedente. Infine se stu<strong>di</strong>amo un pascolo o una foresta,<br />

andremo a misurare il comportamento <strong>di</strong> molte specie (variazione <strong>di</strong> biomassa o <strong>di</strong> numero <strong>di</strong><br />

in<strong>di</strong>vidui) in funzione dei fattori chimico-fisici che si ritengono importanti come temperatura, luce,<br />

ph, nutrienti, acqua e salinita’, cioe’ molti dei fattori che vengono chiamati fattori primari con la<br />

precisione che riterremo piu’ opportuna. Se non siamo interessati a fare un’analisi molto precisa,<br />

andremo a misurare solo quei fattori che sono chiamati fattori secondari perche’ influiscono<br />

evidentemente sui primari e cioe’ altitu<strong>di</strong>ne, latitu<strong>di</strong>ne, esposizione, inclinazione, data (giorno<br />

dell’anno). Ad ogni modo raccoglieremo sempre dati, cioe’ effettueremo delle misure <strong>di</strong> caratteri.<br />

Questi, una volta misurati, prendono il nome <strong>di</strong> variabili <strong>di</strong> stato perche’ descrivono lo stato <strong>di</strong> un<br />

sistema ecologico in un certo tempo ed in un certo luogo dello spazio reale (quello che noi<br />

ve<strong>di</strong>amo <strong>di</strong>rettamente) e dello spazio ecologico (quello definito dalle variabili e dagli oggetti e che<br />

rappresentiamo me<strong>di</strong>ante assi <strong>di</strong> riferimento). Il numero <strong>di</strong> variabili misurate costituisce la<br />

2-4


molteplicita’ dell’ecosistema, il numero <strong>di</strong> connessioni tra le variabili costituisce la connettanza del<br />

sistema. Se il numero <strong>di</strong> variabili e’ n, il numero minimo <strong>di</strong> connessioni e’ n – 1, il numero massimo<br />

(raramente raggiungibile) e’ n x n.<br />

2.2 COS’E’ LO SPAZIO ECOLOGICO?<br />

Lo spazio ecologico e’ lo spazio matematico che si viene a generare automaticamente con<br />

la raccolta dei dati. Questi, come già detto, riguardano le misurazioni delle variabili che descrivono<br />

il sistema ecologico. Rispetto ad ogni variabile un sistema ecologico ha nel tempo una sua<br />

posizione che puo’ essere fissa se il valore della variabile non cambia o mobile in caso contrario. La<br />

posizione del sistema cambia nello spazio ecologico ogni volta che la variabile cambia valore<br />

in<strong>di</strong>pendentemente dal fatto che il sistema resti fisso nello spazio reale, come nel caso in cui sia<br />

definito da una o piu’ piante o organismi sessili, o si muova come nel caso esso sia definito da uno<br />

o piu’ organismi mobili. Lo spazio ecologico “esiste” in ogni caso, ma puo’ venir rappresentato solo<br />

attraverso le variabili e gli oggetti misurati. Piu’ precisamente un insieme <strong>di</strong> variabili puo’ essere<br />

rappresentato su un asse dato dall’oggetto su cui sono state misurate, così come un insieme <strong>di</strong><br />

oggetti puo’ essere rappresentato su un asse dato da una variabile misurata su <strong>di</strong> essi. Inoltre un<br />

insieme <strong>di</strong> oggetti puo’ essere rappresentato su un asse dato da un oggetto (o piu’ oggetti) ed un<br />

insieme <strong>di</strong> variabili su un asse dato una variabile (o piu’ variabili). Lo spazio ecologico e’ uno spazio<br />

multi<strong>di</strong>mensionale che si puo’ rappresentare <strong>di</strong> volta in volta solo parzialmente sulla base <strong>di</strong> tutte le<br />

variabili ed oggetti coinvolti nello stu<strong>di</strong>o. Le <strong>di</strong>mensioni dello spazio ecologico non sono note, ma <strong>di</strong><br />

volta in volta lo spazio viene rappresentato da un numero <strong>di</strong> <strong>di</strong>mensioni che al massimo sono<br />

uguali al numero minimo tra variabili e oggetti. Cio’ verra’ chiarito nel corso <strong>di</strong> questo Corso <strong>di</strong><br />

Ecologia!<br />

2.3 COS’È LA NICCHIA ECOLOGICA?<br />

Un organismo vive in un luogo solo se in quel luogo nessuno dei fattori ecologici primari<br />

assume valori inferiori a valori minimi (<strong>di</strong> carenza) o superiori a valori massimi (<strong>di</strong> tolleranza) per<br />

un determinato tempo limite, secondo rispettivamente la legge <strong>di</strong> Liebig (legge del minimo o dei<br />

fattori limitanti) e la legge <strong>di</strong> Shelford (legge della tolleranza), note dai corsi <strong>di</strong> Biologia generale. E’<br />

sufficiente che in un luogo un fattore “superi” per un certo tempo i limiti (inferiore o superiore) a<br />

cui una specie si e’ adattata che la specie muore se non puo’ spostarsi. Da qui la grande<br />

importanza dell’adattamento all’ambiente chimico fisico delle specie vegetali e la grande<br />

importanza del movimento nelle specie animali. Durante l’evoluzione ogni specie si e’ adattata a<br />

2-5


precisi intervalli dei fattori chimico fisici (o <strong>di</strong> loro combinazioni, sinergismo dei fattori) sviluppando<br />

delle funzioni <strong>di</strong> risposta all’ambiente misurabili attraverso il suo successo riproduttivo (numero <strong>di</strong><br />

in<strong>di</strong>vidui) e attraverso il suo benessere metabolico (crescita della biomassa). Questi intervalli<br />

delimitano la nicchia ecologica delle specie e delle comunita’ nello spazio ecologico e definiscono<br />

l’areale (l’estensione dell’area) <strong>di</strong> <strong>di</strong>stribuzione delle specie e/o delle comunita’ nello spazio reale.<br />

La nicchia ecologica puo’ quin<strong>di</strong> essere definita come il sottospazio dello spazio ecologico in<br />

cui una specie (nicchia della specie) od un insieme <strong>di</strong> specie <strong>di</strong>verse (nicchia della comunita’)<br />

trova situazioni compatibili con la sua esistenza. A questo spazio ecologico corrisponde uno spazio<br />

reale geografico in cui le specie svolgono le loro funzioni. Le piante sono costrette a vivere per<br />

tutta la vita nello stesso spazio reale, pertanto sono importantissimi in<strong>di</strong>catori ambientali. Gli<br />

animali, invece, si possono muovere e lo fanno alla ricerca della nicchia favorevole dando luogo al<br />

fenomeno della migrazione. Alcuni non migrano ma restano negli stessi luoghi durante le stagioni<br />

avverse andando in letargo. Essendo logico aspettarsi una certa corrispondenza tra posizione delle<br />

nicchie nello spazio ecologico e la posizione delle specie nello spazio reale si <strong>di</strong>ce anche che<br />

l’ecologia e’ alla ricerca dell’or<strong>di</strong>ne della natura, cioe’ alla ricerca della posizione spaziale delle<br />

<strong>di</strong>verse nicchie nello spazio ecologico. In altre parole ad ogni nicchia ecologica delle specie (animali<br />

e vegetali) corrisponde una specie, ad ogni nicchia ecologica delle comunita’ vegetali e/o animali<br />

corrisponde una nicchia <strong>di</strong> comunita’. Trovando l’or<strong>di</strong>ne, cioe’ la <strong>di</strong>sposizione spaziale delle nicchie<br />

siamo in grado <strong>di</strong> capire quale specie o comunita’ e’ in pericolo <strong>di</strong> estinzione e quale specie o<br />

comunita’ sara’ favorita dai cambiamenti naturali o prodotti dall’uomo. Non saremo in grado <strong>di</strong><br />

prevedere la nascita <strong>di</strong> nuove specie, ma saremmo in grado <strong>di</strong> prevedere quali adattamenti<br />

verranno favoriti all’interno delle singole specie. In<strong>di</strong>pendentemente dalle considerazione etiche, il<br />

concetto <strong>di</strong> nicchia ecologica dovrebbe essere noto anche a chi vede nella manipolazione genetica<br />

una grande possibilita’ <strong>di</strong> creare organismi che siano in grado <strong>di</strong> svolgere funzioni seppur utili per<br />

l’uomo (ad esempio quella <strong>di</strong> essere cibo, o quella <strong>di</strong> essere decompositori <strong>di</strong> sostanze tossiche, o<br />

<strong>di</strong>sinquinatori delle acque, o <strong>di</strong> produrre sostanze me<strong>di</strong>cinali, etc.).<br />

2.4 ORDINE E MISURE DI ORDINE<br />

Quando si stu<strong>di</strong>a l’or<strong>di</strong>ne della natura si va ad indagare sulla posizione spaziale e/o<br />

temporale <strong>di</strong> oggetti ed eventi nel tempo e nello spazio. Il senso comune ci <strong>di</strong>ce quando le “cose”<br />

sono in or<strong>di</strong>ne e quando esse sono in <strong>di</strong>sor<strong>di</strong>ne. Parliamo <strong>di</strong> or<strong>di</strong>ne se troviamo le cose al “loro<br />

posto”, <strong>di</strong>sor<strong>di</strong>ne se le troviamo fuori <strong>di</strong> quello che riteniamo essere il loro posto. L’or<strong>di</strong>ne puo’<br />

essere soggettivo, ma quando ad esempio troviamo una cosa fuori posto, ad esempio un libro <strong>di</strong><br />

matematica nello scaffale riservato ai libri <strong>di</strong> geografia, ci preoccupiamo <strong>di</strong> spostarlo nello scaffale<br />

2-6


giusto. Se nella stanza dei figli i genitori vedono i soliti mucchi <strong>di</strong> vestiti, libri ed altri oggetti tutti<br />

mescolati, intimano subito ai figli <strong>di</strong> mettere in or<strong>di</strong>ne la stanza, vestiti con vestiti, libri con libri e<br />

giocattoli con giocattoli. E’ ovvio che il mettere in or<strong>di</strong>ne un insieme <strong>di</strong> oggetti implica conoscerli,<br />

saperli <strong>di</strong>stinguere perche’ se non siamo in grado <strong>di</strong> <strong>di</strong>stinguerli non potremo procedere alla loro<br />

corretta <strong>di</strong>sposizione spaziale.<br />

La conoscenza e’ il requisito fondamentale per procedere. In ecologia, come in tutte le altre<br />

scienze, per arrivare alla conoscenza dei fenomeni si devono raccogliere dei dati ed ottenere da<br />

questi delle informazioni; l’elaborazione delle informazioni e la presa <strong>di</strong> coscienza del loro valore<br />

porta alla conoscenza.<br />

Gli ecologi sono interessati a trovare la posizione delle nicchie ecologiche nello spazio<br />

ecologico, in questo senso sono alla ricerca dell’or<strong>di</strong>ne della natura. L’or<strong>di</strong>ne riguarda la<br />

<strong>di</strong>stribuzione delle specie nei <strong>di</strong>versi habitat. Risulta evidente che, anche nelle monoculture, c’e’<br />

sempre piu’ <strong>di</strong> una specie (<strong>di</strong> solito quelle <strong>di</strong>verse dalla specie seminata sono considerate<br />

infestanti). In ogni pezzo <strong>di</strong> terra od in ogni volume <strong>di</strong> mare, che non siano tanto piccoli, si trova<br />

sempre piu’ <strong>di</strong> una specie. Anche nel deserto, se camminiamo abbastanza, troviamo specie<br />

<strong>di</strong>verse. Il biologo e l’ecologo si chiedono perche’ ci siano tante specie <strong>di</strong>verse negli ecosistemi. La<br />

risposta e’ <strong>di</strong>fficile e richiede un lungo ragionamento che viene fatto a lezione. Qua <strong>di</strong>ciamo solo<br />

che la bio<strong>di</strong>versita’ delle comunita’ ecologiche assicura la stabilita’ <strong>degli</strong> ecosistemi poiché<br />

assicura una <strong>di</strong>versificazione delle risorse alimentari nella rete trofica. Senza <strong>di</strong>lungarci troppo sul<br />

concetto <strong>di</strong> stabilita’ che coinvolge anche quello <strong>di</strong> equilibrio, <strong>di</strong>ciamo che un sistema e’ stabile nel<br />

tempo se non cambia. Un sistema puo’ essere resistente ai cambiamenti, nel senso che ci vuole<br />

molta energia per farlo cambiare, o resiliente ai cambiamenti, quando e’ in grado <strong>di</strong> ritornare alla<br />

con<strong>di</strong>zione iniziale dopo aver subito dei cambiamenti. Ed ancora, lasciando <strong>di</strong> nuovo ampia<br />

<strong>di</strong>scussione durante le lezioni, <strong>di</strong>ciamo solo che una comunita’ ricca in specie cambia <strong>di</strong> meno se<br />

perde qualche specie, quin<strong>di</strong> e’ piu’ stabile nel tempo rispetto ad una comunita’ povera <strong>di</strong> specie. E’<br />

chiaro che se una comunita’ con due specie perde una specie essa cambia del 50%, se una<br />

comunita’ <strong>di</strong> quattro specie perde una specie essa cambia solo del 25%. Cosa c’entra la<br />

bio<strong>di</strong>versita’ con l’or<strong>di</strong>ne?<br />

Or<strong>di</strong>ne significa anche capacita’ <strong>di</strong> compiere lavoro, infatti in termo<strong>di</strong>namica il concetto <strong>di</strong><br />

entropia viene usato per misurare il <strong>di</strong>sor<strong>di</strong>ne <strong>di</strong> un sistema, cioe’ la sua incapacita’ a compiere<br />

lavoro (si veda un libro <strong>di</strong> fisica del primo anno <strong>di</strong> corso). La formula dell’entropia della<br />

termo<strong>di</strong>namica:<br />

H =- K Σ p i log p i (K = costante Boltzmann) (2.1)<br />

viene usata da Shannon, senza la costante K, per misurare l’informazione me<strong>di</strong>a <strong>di</strong> una serie<br />

2-7


<strong>di</strong> eventi <strong>di</strong> cui p i sono le probabilita’ che essi (i-esimi) si verifichino (Σp i = 1). Margalef ha<br />

proposto <strong>di</strong> usare la stessa formula per misurare la bio<strong>di</strong>versita’ <strong>di</strong> comunita’ ecologiche. Perche?<br />

Semplicemente perche’ la formula da’ dei valori <strong>di</strong> ”<strong>di</strong>sor<strong>di</strong>ne” e quin<strong>di</strong> <strong>di</strong> stabilita’ <strong>degli</strong> ecosistemi.<br />

La formula infatti da’ valore massimi quando, a parita’ <strong>di</strong> numero n <strong>di</strong> specie, le biomasse o il<br />

numero <strong>di</strong> in<strong>di</strong>vidui si ripartiscono in modo equo tra le specie (n= molteplicita’, <strong>di</strong>stribuzione equa<br />

= equitabilita’). Se torniamo a quanto detto prima: un alto valore <strong>di</strong> H potenzialmente<br />

corrisponderebbe ad una rete alimentare molto <strong>di</strong>versificata e quin<strong>di</strong> anche ad una comunita’ ricca<br />

<strong>di</strong> specie e quin<strong>di</strong> resistente al cambiamento. Sembra che la vita, attraverso la “frammentazione e<br />

<strong>di</strong>versificazione” del co<strong>di</strong>ce genetico abbia prodotto molte specie per l’adattamento a tante<br />

situazioni ambientali <strong>di</strong>verse in modo da sfruttare al massimo tutte le situazioni ambientali<br />

assicurando una bassa probabilita’ <strong>di</strong> cambiamento funzionale. Questo e’ un concetto che viene<br />

sviluppato a lezione e riguarda l’importante concetto <strong>di</strong> convergenza adattativa.<br />

In sintesi dobbiamo convenire che la vita consuma energia per mantenere or<strong>di</strong>ne all’interno<br />

<strong>degli</strong> organismi (capacita’ <strong>di</strong> compiere lavoro), produce però “<strong>di</strong>sor<strong>di</strong>ne” tra gli organismi<br />

(bio<strong>di</strong>versita’) per garantirsi la stabilita’. Il <strong>di</strong>sor<strong>di</strong>ne non e’ termo<strong>di</strong>namico ma “informazionale”;<br />

sembra che la vita simuli il <strong>di</strong>sor<strong>di</strong>ne termo<strong>di</strong>namico attraverso un “<strong>di</strong>sor<strong>di</strong>ne” <strong>di</strong> co<strong>di</strong>ci genetici che<br />

noi vorremmo controllare attraverso l’ingegneria genetica. Ma questa e’ un'altra storia….. lasciamo<br />

la filosofia e mettiamoci a misurare.<br />

La misura dell’or<strong>di</strong>ne in matrici risorse–consumatori o matrici specie-habitat puo’ essere fatta<br />

attraverso la formula del test del chi-quadrato oppure me<strong>di</strong>ante la formula della mutua entropia.<br />

La formula del chi-quadrato viene presentata nel paragrafo 4.11.2, quella della mutua entropia e’<br />

la seguente:<br />

H(r;c) = H(r) + H(c) – H(r,c) (2.2)<br />

Data una matrice - che puo’ essere <strong>di</strong> varia origine, come viene spiegato a lezione - dove r<br />

sono le righe e c le colonne, la formula dell’entropia (H) viene applicata ai totali <strong>di</strong> riga per<br />

calcolare H(r), ai totali <strong>di</strong> colonna per calcolare H(c) e ai valori interni alla matrice per calcolare<br />

H(r,c). Questa ultima quantita’ si chiama entropia congiunta: quanto piu’ alta e’ l’entropia<br />

congiunta tanto piu’ bassa risulta la mutua entropia. H(r)+H(c) e’ l’entropia totale, cioe’ quella che<br />

si avrebbe se gli eventi rappresentati dalle righe fossero in<strong>di</strong>pendenti da quelli rappresentati dalle<br />

colonne. E’ facile <strong>di</strong>mostrare che solo quando r=c ci puo’ essere la massima mutua entropia e<br />

quin<strong>di</strong> il massimo or<strong>di</strong>ne e la massima preve<strong>di</strong>bilita’. Una matrice che riflette il massimo or<strong>di</strong>ne e’<br />

una matrice <strong>di</strong>agonale (valori solo sulla <strong>di</strong>agonale) mentre una matrice che corrisponde al massimo<br />

2-8


<strong>di</strong>sor<strong>di</strong>ne ha valori tutti uguali in tutte le celle: essa e’ <strong>di</strong>sor<strong>di</strong>nata nel senso che vi e’ la minima<br />

corrispondenza tra righe e colonne. In quest’ultimo caso la mutua entropia righe-colonne e’ uguale<br />

a zero. Dal punto <strong>di</strong> vista della <strong>di</strong>stribuzione dei valori nella matrice si potrebbe anche <strong>di</strong>re che una<br />

matrice or<strong>di</strong>nata e’ una matrice eterogenea e una matrice <strong>di</strong>sor<strong>di</strong>nata e’ una matrice omogenea.<br />

Se una matrice risorse–consumatori ha la massima mutua entropia significa che ad ogni<br />

consumatore corrisponde una sola risorsa (<strong>di</strong>versita’ <strong>di</strong> <strong>di</strong>eta uguale a zero). Qualora questa risorsa<br />

venisse a mancare, se il consumatore non si adattasse a consumare un'altra risorsa in tempo utile<br />

scomparirebbe, pertanto il sistema sarebbe instabile. La vita tende ad evitare un or<strong>di</strong>ne tanto alto<br />

nella matrice risorse-consumatori, pertanto ad ogni consumatore corrisponde piu’ <strong>di</strong> una risorsa e<br />

viceversa, il <strong>di</strong>sor<strong>di</strong>ne garantisce una certa stabilita’! Se pero’ la matrice fosse troppo <strong>di</strong>sor<strong>di</strong>nata<br />

ogni consumatore avrebbe un comportamento uguale a quello <strong>degli</strong> altri consumatori pertanto<br />

potrebbe trovarsi in competizione. Una somiglianza troppo elevata tra gli esseri viventi potrebbe<br />

produrre situazioni <strong>di</strong>sastrose in con<strong>di</strong>zioni <strong>di</strong> risorse limitate perché scatenerebbe la competizione!<br />

Semplificando: troppa <strong>di</strong>versita’ = niente <strong>di</strong>versita’, in altre parole se tutte le specie consumassero<br />

le stesse risorse non ci sarebbe necessita’ <strong>di</strong> avere tante specie <strong>di</strong>verse perche’ agli effetti del<br />

consumo delle risorse esse sarebbero tutte uguali. A <strong>di</strong>versificare le specie ci pensano i fattori<br />

ecologici che si presentano in combinazioni <strong>di</strong>verse nella biosfera. Le specie adattandosi ai <strong>di</strong>versi<br />

ambienti si <strong>di</strong>versificano; pertanto una matrice specie-habitat a <strong>di</strong>fferenza <strong>di</strong> una matrice risorseconsumatori<br />

dovrebbe essere tendenzialmente or<strong>di</strong>nata. Scoprire questo or<strong>di</strong>ne e metterlo in<br />

relazione con l’or<strong>di</strong>ne <strong>di</strong> una matrice risorsa-consumatore e’ uno <strong>degli</strong> scopi fondamentali<br />

dell’ecologia e quin<strong>di</strong> la giustificazione dei capitoli che seguono in questa <strong>di</strong>spensa!<br />

2-9


3 . I D A T I E C O L O G I C I<br />

3.1 UNITA’ DI ANALISI, VARIABILI, VALORI<br />

Quando si inizia lo stu<strong>di</strong>o <strong>di</strong> un fenomeno e si scende nel campo concreto della rilevazione<br />

dei dati, si devono scegliere le unita' od oggetti <strong>di</strong> analisi. Ad essi ci si riferisce anche con i<br />

termini <strong>di</strong> soggetti, in<strong>di</strong>vidui, entita', osservazioni, casi, unita' <strong>di</strong> campionamento o unita' statistiche.<br />

In ambito ecologico ambientale l'oggetto dell'analisi e' in<strong>di</strong>cato con il termine generico <strong>di</strong> rilievo<br />

che riguarda <strong>di</strong> volta in volta dati relativi alla vegetazione, al suolo, ad una particolare microfauna<br />

o alle acque <strong>di</strong> un determinato luogo in un certo tempo. Ciascun oggetto <strong>di</strong> analisi viene descritto<br />

da caratteri (parametri, in<strong>di</strong>catori, descrittori, fattori e attributi sono altri sinonimi) che il ricercatore<br />

reputa importante misurare. La misurazione <strong>di</strong> ogni carattere su un oggetto genera un valore o<br />

dato. Le misurazioni <strong>di</strong> un carattere, eseguite su piu’ oggetti, generano la variabile corrispondente<br />

a quel carattere. L’insieme delle misure dei caratteri scelti rappresenta lo stato dell’oggetto in un<br />

determinato tempo, per questo le variabili sono anche chiamate variabili <strong>di</strong> stato.<br />

In ecologia le variabili che servono per descrivere gli stati <strong>degli</strong> ambienti sono <strong>di</strong> due tipi,<br />

quelle biotiche che includono tutte le forme <strong>di</strong> vita vegetali ed animali e quelle abiotiche<br />

costituite da tutti i parametri chimico-fisici legati all'ambiente.<br />

Gli esempi seguenti hanno lo scopo <strong>di</strong> chiarire i concetti appena esposti. Ogni anno vengono<br />

effettuati dei prelievi delle acque marine lungo tutto la costa italiana allo scopo <strong>di</strong> accertare la<br />

qualita' delle acque ed esprimere un giu<strong>di</strong>zio sulla balneabilita' dei luoghi analizzati. In questo caso<br />

gli oggetti <strong>di</strong> analisi sono i prelievi <strong>di</strong> acqua raccolti in tutte le stazioni <strong>di</strong> rilevamento generalmente<br />

fissate nel mare ad una certa <strong>di</strong>stanza dalla costa, le variabili sono tutti i parametri biotici e abiotici<br />

che vengono misurati e cioe' rispettivamente i parametri microbiologici (quantita' <strong>di</strong> coliformi,<br />

streptococchi…) e i parametri chimico-fisici (ph, tensioattivi, ossigeno...) ed i valori sono le singole<br />

misurazioni <strong>di</strong> ciascuna variabile ottenute in loco o in laboratorio con la strumentazione<br />

appropriata. Un insieme <strong>di</strong> prelievi costituisce un campione <strong>di</strong> oggetti.<br />

Il ricercatore ha sempre chiarezza su cio’ che sono gli oggetti della sua indagine e cio’ che<br />

sono le variabili misurate su <strong>di</strong> essi per stu<strong>di</strong>are un fenomeno. Non crei confusione il fatto che<br />

certe entita’ possono essere variabili in una situazione <strong>di</strong> ricerca e <strong>di</strong>ventare oggetti in un’altra. Ad<br />

esempio, se le specie vegetali osservate in una certa area costituiscono per il fitosociologo le<br />

variabili che descrivono un rilievo della vegetazione, queste stesse possono a loro volta <strong>di</strong>ventare<br />

unita’ <strong>di</strong> analisi per il botanico che e’ interessato a stu<strong>di</strong>are la variabilita’ <strong>di</strong> caratteri quali la<br />

lunghezza della foglie, le <strong>di</strong>mensioni della corolla e la presenza <strong>di</strong> peli sul fusto in rapporto all’area<br />

geografica o all’ambiente in cui le specie sono state trovate.<br />

3-10


3.2 TIPI DI VARIABILI<br />

Come in<strong>di</strong>ca il nome stesso, una variabile puo' assumere un qualunque valore entro uno<br />

specifico insieme o intervallo <strong>di</strong> valori, detto dominio o campo <strong>di</strong> esistenza della variabile. Ad<br />

esempio il dominio della variabile ph e' l'insieme <strong>di</strong> valori compresi tra 0 e 14, quello <strong>di</strong> una<br />

qualsiasi variabile espressa in percentuale varia tra 0 e 100. Se la variabile puo' assumere solo un<br />

valore, e' detta costante.<br />

Le variabili si <strong>di</strong>stinguono in continue e <strong>di</strong>screte. Le prime sono quelle che, almeno in via<br />

teorica, possono assumere un qualunque valore, e quin<strong>di</strong> infiniti valori, entro il proprio dominio, le<br />

seconde quelle che possono assumere solo determinati valori. Il peso del raccolto <strong>di</strong> un campo <strong>di</strong><br />

grano misurato in tonnellate, come pure la quantita' <strong>di</strong> pioggia mensile caduta in una regione<br />

misurata in millimetri sono entrambi esempi <strong>di</strong> variabili continue, mentre il numero <strong>di</strong> ni<strong>di</strong> <strong>di</strong> uccelli<br />

avvistati in un bosco o la popolazione delle regioni d'Italia sono variabili <strong>di</strong>screte. I dati descritti da<br />

una variabile continua o <strong>di</strong>screta, sono detti rispettivamente dati continui o <strong>di</strong>screti.<br />

In generale le misurazioni strumentali generano dati continui, mentre le enumerazioni o<br />

conteggi generano dati <strong>di</strong>screti.<br />

Piu' spesso il concetto <strong>di</strong> variabile viene esteso anche a caratteristiche non numeriche ma<br />

qualitative. Ad esempio il colore che viene osservato nei vessilli dei fiori e' una variabile che puo'<br />

assumere i valori " rosso, giallo, bianco, etc.". I valori che queste caratteristiche possono assumere<br />

sono in<strong>di</strong>cati come stati delle variabili (modalita', terminazioni, classi e categorie sono altri termini<br />

per in<strong>di</strong>care lo stesso concetto) e possono essere espressi, soprattutto al momento della<br />

tabulazione, anche con dei numeri che, pero', hanno soltanto valore nominale e non quantitativo.<br />

3.3 SCALE DI MISURA DELLE VARIABILI<br />

Da quanto sinora esposto si puo' capire come ciascuna variabile necessiti <strong>di</strong> essere misurata<br />

secondo una scala appropriata. I tipi <strong>di</strong> scala per la misurazione delle variabili sono quattro:<br />

nominale, or<strong>di</strong>nale, intervallare e razionale.<br />

La scala nominale o classificatoria e' il livello piu' basso <strong>di</strong> misurazione ed usa numeri o altri<br />

simboli per una semplice classificazione <strong>di</strong> oggetti. Essa semplicemente <strong>di</strong>stingue tra stati (classi);<br />

cioe' rispetto alla variabile X possiamo solo valutare se due oggetti A e B sono uguali o <strong>di</strong>versi.<br />

Formalmente questo si esprime nella seguente maniera: definite X A e X B le misure della variabile X<br />

su A e B, si ha:<br />

X A = X B o X A ≠ X B<br />

3-11


Le variabili misurate con questa scala prendono nomi <strong>di</strong>versi secondo il numero <strong>degli</strong> stati<br />

che le caratterizzano. Le variabili binarie, dette anche <strong>di</strong>cotomiche o qualitative a due stati,<br />

possono assumere soltanto due stati solitamente tradotti numericamente con i valori 1 e 0 o con i<br />

simboli Sì e No (es. sesso: femmina-maschio; carattere peli: presenza-assenza; struttura <strong>di</strong> una<br />

siepe: continua-<strong>di</strong>scontinua). Le variabili qualitative a piu' stati sono espresse con un maggior<br />

numero <strong>di</strong> terminazioni come il colore gia' visto o vari tipi <strong>di</strong> giu<strong>di</strong>zi (es. paesaggio: lagunare,<br />

carsico, alpino, padano). Infine le variabili qualitative or<strong>di</strong>nali possiedono stati che, sebbene non<br />

esprimano nessun valore quantitativo, seguono un or<strong>di</strong>ne sequenziale o circolare come le lettere<br />

dell'alfabeto, i mesi dell'anno, le stagioni o i punti car<strong>di</strong>nali.<br />

La scala or<strong>di</strong>nale or<strong>di</strong>na gli oggetti e permette quin<strong>di</strong> <strong>di</strong> <strong>di</strong>stinguere non solo se l'oggetto A<br />

e' uguale all'oggetto B, ma anche se l'oggetto A, quando <strong>di</strong>verso da B, e' maggiore o minore <strong>di</strong> B.<br />

Formalmente si hanno le seguenti possibilita':<br />

X A = X B o X A > X B o X A < X B<br />

I valori attribuiti agli oggetti si chiamano punteggi o ranghi e permettono <strong>di</strong> or<strong>di</strong>nare i dati<br />

secondo una classifica crescente o decrescente.<br />

Questa scala viene utilizzata spesso nel campo delle scienze sociali e comportamentali dove<br />

si esprimono giu<strong>di</strong>zi e si attribuiscono punteggi, e in tutte quelle <strong>di</strong>scipline che costruiscono<br />

graduatorie senza dare in<strong>di</strong>cazioni ulteriori che giustificano la <strong>di</strong>fferenza <strong>di</strong> posizione nella<br />

graduatoria.<br />

Nelle scienze ecologiche si ricorre spesso alla scala or<strong>di</strong>nale quando i limiti che si riscontrano<br />

nel misurare una variabile nella scala che le e' propria impongono la <strong>di</strong>scretizzazione della variabile<br />

stessa. Ad esempio i fitosociologi misurano l'abbondanza della vegetazione tramite la copertura<br />

delle singole specie vegetali sul terreno. Questa misura dovrebbe esprimere percentualmente la<br />

porzione <strong>di</strong> terreno coperta dalla singola specie vegetale rispetto ad un'area <strong>di</strong> terreno piu’ vasta<br />

definita a priori. Poiche' e' impossibile effettuare una misurazione esatta <strong>di</strong> questa variabile, non<br />

essendo <strong>di</strong>sponibile nessuno strumento idoneo allo scopo all'infuori del nostro occhio, si e' soliti<br />

<strong>di</strong>scretizzare la copertura vegetale secondo una scala gia' descritta in letteratura o una scala<br />

personalizzata in maniera tale da evitare <strong>di</strong> fare stime inesatte e contenere cosi' l'inevitabile errore.<br />

La <strong>di</strong>scretizzazione della copertura vegetale puo’ essere effettuata ad esempio secondo la scala<br />

Braun-Blanquet che e’ una scala or<strong>di</strong>nale in cui i valori da 1 a 5 esprimono un punteggio <strong>di</strong><br />

abbondanza della specie ritrovata: 1 = 1-5%, 2 = 5-25%, 3 = 25-50%, 4 = 50-75%, 5 = 75-100%.<br />

Un altro esempio <strong>di</strong> variabile espressa su scala or<strong>di</strong>nale e' il giu<strong>di</strong>zio che si puo’ esprimere<br />

sulla naturalita’ <strong>di</strong> un ambiente: naturale, prossimo-naturale, semi-naturale, semi-artificiale,<br />

artificiale. In fase <strong>di</strong> tabulazione questi valori potrebbero essere sostituiti rispettivamente con i<br />

3-12


numeri 1,2,3,4,5 attribuendo agli stati piu’ naturali valori bassi o anche in senso inverso 5,4,3,2,1<br />

attribuendo agli stati piu’ naturali valori alti. Cio’ che e’ importante e’ mantenere l’or<strong>di</strong>ne e<br />

ricordarsi con che valori si definisce.<br />

Nella scala intervallare i punti della scala sono posti a intervalli uguali l'uno dall'altro.<br />

Questo fa si' che venga assegnata una misura significativa alla <strong>di</strong>fferenza tra due oggetti. Pertanto<br />

non solo si potra' affermare che l'oggetto A e', per una certa variabile, maggiore dell'oggetto B,<br />

ma anche che e' <strong>di</strong>fferente da B <strong>di</strong> un certo numero <strong>di</strong> unita'. Formalmente si ha:<br />

se X A > X B ,<br />

allora A e' (X A - X B ) unita' piu' grande <strong>di</strong> B<br />

La scala intervallare e' definita quando si sono fissati arbitrariamente l'unita' <strong>di</strong> misura e il<br />

punto d’origine zero. Le scale <strong>di</strong> questo tipo sono adatte ad una trasformazione lineare, poiché in<br />

esse sono significative le <strong>di</strong>fferenze tra i valori della scala. Le scale che misurano la temperatura in<br />

gra<strong>di</strong> centigra<strong>di</strong> (°C) e Fahrenheit (°F) ne sono un classico esempio. Pertanto se il 21 <strong>di</strong>cembre si<br />

registrano a Roma +10 °C (+50 °F) e a Bolzano –5 °C (+23 °F), si potra' <strong>di</strong>re che a Roma ci sono<br />

15°C (27°F) in piu' rispetto a Bolzano e non soltanto che a Roma fa parecchio piu' caldo che a<br />

Bolzano. Le due scale <strong>di</strong> misura della temperatura sono legate tra loro dalla relazione lineare °F=<br />

9/5°C + 32 che commuta i gra<strong>di</strong> <strong>di</strong> una scala in gra<strong>di</strong> equivalenti dell’altra. Questo fa si’ che<br />

intervalli <strong>di</strong> temperatura, espressa nelle <strong>di</strong>fferenti unita’, siano tra loro proporzionali. I rapporti tra<br />

le <strong>di</strong>fferenze <strong>di</strong> temperatura sono pertanto in<strong>di</strong>pendenti dall’unita’ <strong>di</strong> misura e dal punto zero.<br />

La scala razionale o <strong>di</strong> rapporti e' una scala intervallare con un punto zero significativo.<br />

Questo significa che lo zero non e' stato preso arbitrariamente, ma in<strong>di</strong>ca l'assenza <strong>di</strong> valore della<br />

grandezza misurata. Pertanto se la misura della variabile X su A e maggiore <strong>di</strong> quella su B, oltre<br />

ad in<strong>di</strong>care <strong>di</strong> quante unita' la prima misura e' piu' grande della seconda, si puo' anche <strong>di</strong>re che A<br />

e' un preciso numero <strong>di</strong> volte, equivalente al rapporto tra le due misure, superiore a B. Cioe':<br />

se X A > X B ,<br />

allora A e' X A / X B volte piu' grande <strong>di</strong> B<br />

Variabili misurate su scala razionale sono, ad esempio, il peso, la lunghezza, il ph ed anche la<br />

temperatura in gra<strong>di</strong> Kelvin (°K) la cui scala ha uno zero assoluto a <strong>di</strong>fferenza dello zero arbitrario<br />

della scala Celsius. Pertanto <strong>di</strong>re che la temperatura <strong>di</strong> Roma e' piu' elevata <strong>di</strong> un certo numero <strong>di</strong><br />

volte rispetto a quella <strong>di</strong> Bolzano acquista significato solo se le temperature sono espresse in gra<strong>di</strong><br />

Kelvin.<br />

E' sempre possibile il passaggio da una scala razionale ed intervallare ad una or<strong>di</strong>nale e/o<br />

nominale. Questa trasformazione è chiamata processo <strong>di</strong> <strong>di</strong>scretizzazione delle variabili e puo'<br />

arrivare fino alla trasformazione completa delle variabili continue in variabili binarie<br />

3-13


(binarizzazione o <strong>di</strong>cotomizzazione) quando ad esempio il valore quantitativo <strong>di</strong> una variabile<br />

viene semplicemente trasformato in valore <strong>di</strong> presenza-assenza della variabile stessa.<br />

Naturalmente questa trasformazione non avrebbe senso se la variabile da trasformare fosse<br />

presente in tutti gli oggetti osservati, poiché genererebbe una costante con valore 1. Sebbene<br />

comporti una per<strong>di</strong>ta d’informazione, la <strong>di</strong>scretizzazione delle variabili puo' essere necessaria per<br />

uniformare una tabella <strong>di</strong> dati, prima che sia elaborata, quando non si <strong>di</strong>spone <strong>di</strong> software<br />

applicativo specifico per dati misti. Non e' ovviamente possibile la trasformazione in senso inverso,<br />

cioe' la trasformazione <strong>di</strong> variabili qualitative in or<strong>di</strong>nali o razionali salvo che non si <strong>di</strong>sponga <strong>di</strong><br />

informazioni aggiuntive.<br />

Quanto detto sulla classificazione delle variabili puo' essere riassunto nella tabella seguente:<br />

Variabili Qualitative<br />

Variabili Quantitative<br />

scala or<strong>di</strong>nale: giu<strong>di</strong>zi quantitativi<br />

espressi in punteggi<br />

Discrete<br />

scala nominale: binaria,<br />

qualitativa a piu’ stati,<br />

qualitativa or<strong>di</strong>nale<br />

scala intervallare: numeri <strong>di</strong> una serie,<br />

me<strong>di</strong>a inglese nella graduatorie<br />

scala <strong>di</strong> rapporti: enumerazioni<br />

Continue<br />

scala intervallare: temperatura in C°<br />

scala <strong>di</strong> rapporti: peso, lunghezza, ph,<br />

temperatura in K°<br />

La statistica classica e quella multivariata elaborano ed interpretano principalmente dati<br />

quantitativi anche se specifici test ed elaborazioni sono stati stu<strong>di</strong>ati e proposti anche per dati<br />

qualitativi.<br />

3.4 RAPPRESENTAZIONE DEI DATI<br />

I mo<strong>di</strong> <strong>di</strong> rappresentazione dei dati sono essenzialmente tre: le tabelle, i grafici e le<br />

equazioni. I dati originali sono solitamente dapprima tabulati, poi posti in grafico ed infine, a<br />

3-14


volte, possono essere espressi sotto forma <strong>di</strong> equazione.<br />

3.4.1 Tabelle o matrici<br />

I dati raccolti possono essere tabulati secondo uno schema detto matrice che rappresenta<br />

un quadro <strong>di</strong> numeri, corrispondenti ai valori delle variabili misurate, <strong>di</strong>sposti in righe e colonne<br />

sulle quali figurano le variabili e gli oggetti. Solitamente si sceglie <strong>di</strong> <strong>di</strong>sporre sulle righe quelle<br />

entita', tra variabili ed oggetti, che sono piu' numerose. Nella ricerca ecologica essendo sempre<br />

molti i caratteri vegetazionali ed ambientali rilevati si preferisce <strong>di</strong>sporre questi sulle righe e i rilievi<br />

sulle colonne. In altri campi, come quello me<strong>di</strong>co o sociologico, gli oggetti <strong>di</strong> stu<strong>di</strong>o, che sono<br />

solitamente in<strong>di</strong>vidui, essendo molto piu' numerosi dei loro caratteri descrittivi, sono generalmente<br />

<strong>di</strong>sposti in riga e le variabili in colonna. Piu’ spesso la <strong>di</strong>sposizione conveniente e’ quella richiesta<br />

dal software applicativo che sara’ utilizzato per analizzare i dati.<br />

Come esempio è riportata <strong>di</strong> seguito una matrice X <strong>di</strong> r righe e c colonne, dove x ij<br />

rappresenta un elemento generico della matrice, i e' l'in<strong>di</strong>ce <strong>di</strong> riga che varia da 1 a r e j l'in<strong>di</strong>ce <strong>di</strong><br />

colonna che varia da 1 a c. Ogni riga o colonna della matrice rappresenta un vettore; si parla<br />

quin<strong>di</strong> <strong>di</strong> vettori riga e <strong>di</strong> vettori colonna.<br />

x 11 x 12 x 13 ... x 1c<br />

x 21 x 22 x 23 ... x 2c<br />

X = x 31 x 32 x 33 ... x 3c<br />

... ... ... x ij ...<br />

x r1 x r2 x r3 ... x rc<br />

Le tabelle o matrici costituiscono una forma organizzata e compatta <strong>di</strong> rappresentazione dei<br />

dati e presentano il vantaggio <strong>di</strong> facilitare la lettura dei dati rendendo agevole il confronto tra<br />

valori e il recupero <strong>di</strong> singoli valori.<br />

3.4.2 Grafici<br />

Il metodo grafico <strong>di</strong> rappresentazione dei dati utilizza i principi della geometria cartesiana per<br />

presentare i valori numerici e le loro relazioni sotto forma <strong>di</strong> figure geometriche come segmenti,<br />

aree <strong>di</strong> superficie, linee spezzate, curve, volumi soli<strong>di</strong> o angoli.<br />

Nella loro concisa forma <strong>di</strong> rappresentazione i grafici, pur non aggiungendo niente<br />

all'informazione contenuta nei dati, hanno l'indubbio vantaggio <strong>di</strong> essere d’impatto visivo<br />

imme<strong>di</strong>ato richiamando subito l'attenzione del lettore sulle caratteristiche dei dati stessi. In<br />

3-15


particolare si e' facilitati nel confronto dei valori, nell'in<strong>di</strong>viduazione <strong>di</strong> eventuali massimi, minimi e<br />

<strong>di</strong>scontinuita', nel verificare la perio<strong>di</strong>cita' ed altre caratteristiche significative che solitamente<br />

rimangono nascoste in una rappresentazione tabulare e nell'evidenziare relazioni tra due variabili<br />

per le quali e' anche possibile calcolare una funzione matematica.<br />

Secondo la natura dei dati e lo scopo per il quale si rappresentano graficamente, si<br />

impiegano vari tipi <strong>di</strong> grafici o <strong>di</strong>agrammi: grafici circolari o torte (Fig. 3.1), grafici a rettangoli o a<br />

barre (Fig. 3.3), <strong>di</strong>agrammi a <strong>di</strong>spersione X,Y (Fig. 3.3 ) in cui viene rappresentata la relazione che<br />

intercorre tra due variabili. La maggior parte <strong>di</strong> questi ultimi grafici viene tracciata in un sistema <strong>di</strong><br />

coor<strong>di</strong>nate ortogonali riferite a scale uniformemente sud<strong>di</strong>vise o lineari.<br />

Temperatura me<strong>di</strong>a annua (°C)<br />

20<br />

18<br />

16<br />

14<br />

12<br />

10<br />

8<br />

6<br />

0<br />

500<br />

1000<br />

1500<br />

2000<br />

Altitu<strong>di</strong>ne (m)<br />

Fig. 3.1 Diagramma a torta che illustra lo<br />

spettro delle forme biologiche della flora del<br />

Carso del Friuli Venezia Giulia.<br />

Fig. 3.2 Diagramma a <strong>di</strong>spersione X,Y che<br />

visualizza la relazione tra la temperatura me<strong>di</strong>a<br />

annua e l’altitu<strong>di</strong>ne me<strong>di</strong>a <strong>di</strong> alcune aree<br />

geografiche della Turchia.<br />

Abitanti (1991)<br />

350000<br />

300000<br />

250000<br />

200000<br />

150000<br />

100000<br />

50000<br />

0<br />

Belluno Padova Rovigo Treviso Venezia Verona Vicenza<br />

Fig. 3.3 Grafico a barre che illustra la <strong>di</strong>stribuzione della popolazione<br />

delle sette province del Veneto.<br />

3.4.3 Equazioni empiriche<br />

La relazione che intercorre tra due variabili, suggerita dalle curve evidenziate in un<br />

<strong>di</strong>agramma a <strong>di</strong>spersione, puo’ essere espressa sotto forma <strong>di</strong> equazione. Essa rappresenta<br />

3-16


un’ulteriore forma conveniente e sintetica <strong>di</strong> rappresentazione dei dati e puo’ costituire anche il<br />

primo passo per la formulazione <strong>di</strong> un modello matematico nell’approccio deduttivo.<br />

L'equazione piu' semplice, che esprime una relazione lineare tra due variabili, e' quella <strong>di</strong><br />

primo grado rappresentante una retta. Le curve sono invece espresse con equazioni <strong>di</strong> grado<br />

superiore. Il numero <strong>di</strong> picchi minimi e massimi in una curva definisce il grado della curva.<br />

L'equazione generica <strong>di</strong> una retta e' data da:<br />

y = ax + b (3.1)<br />

dove a e b sono due parametri che definiscono la posizione della retta nel <strong>di</strong>agramma<br />

cartesiano; a e' il coefficiente angolare che in<strong>di</strong>ca la pendenza della retta e b e’ l'intercetta sull'asse<br />

delle y, il valore cioe' che in<strong>di</strong>vidua il punto <strong>di</strong> intersezione della retta con l'asse delle or<strong>di</strong>nate.<br />

Alcune curve possono essere linearizzate. Cio' e' possibile solo per le funzioni invertibili, cioe'<br />

le crescenti, decrescenti, esponenziali e logaritmiche. Per linearizzare una curva si trasformano<br />

entrambi i membri dell'equazione calcolandone i logaritmi. Cosi' facendo l'equazione trasformata<br />

assume la forma dell'equazione tipo della retta. Per esempio volendo linearizzare la curva<br />

esponenziale la cui formula e':<br />

y = a x<br />

si applica una trasformazione logaritmica ad entrambi i membri dell’equazione ottenendo, log<br />

y = log a x e, per le proprieta' dei logaritmi, si ottiene l'equazione della retta log y = x·log a.<br />

Analogamente si potranno effettuare le seguenti trasformazioni:<br />

y = x 2<br />

y = √x<br />

y = ab x<br />

y = ax b<br />

log y = 2 log x<br />

log y = 1/2 log x<br />

log y = log a + x log b<br />

log y = log a + b log x<br />

Il metodo grafico per la linearizzazione usa la carta semi-logaritmica o logaritmica in cui una<br />

o entrambe le scale del <strong>di</strong>agramma sono logaritmiche.<br />

3-17


4 . C O N C E T T I B A S E D I S T A T I S T I C A<br />

4.1 DEFINIZIONE DI STATISTICA<br />

Nell’uso piu’ comune con il termine statistiche si in<strong>di</strong>cano i dati stessi o numeri da essi<br />

derivati come valori percentuali o valori me<strong>di</strong>. Si parla quin<strong>di</strong> <strong>di</strong> statistiche demografiche,<br />

scolastiche, climatiche, me<strong>di</strong>che, <strong>di</strong> mercato etc.<br />

Nel linguaggio tecnico la statistica e’ una precisa <strong>di</strong>sciplina scientifica che stu<strong>di</strong>a l’insieme<br />

delle procedure matematiche per l’analisi e l’interpretazione <strong>di</strong> dati numerici sperimentali e per la<br />

valutazione dell’affidabilita’ delle conclusioni.<br />

La raccolta dei dati sperimentali prevede l’osservazione <strong>di</strong> qualche caratteristica su un gruppo<br />

<strong>di</strong> in<strong>di</strong>vidui o <strong>di</strong> oggetti. Piu’ spesso, non essendo possibile esaminare l’intero gruppo <strong>di</strong> oggetti<br />

(popolazione o universo), si esamina una piccola parte, il piu’ possibile rappresentativa del tutto,<br />

detta campione.<br />

La statistica descrittiva si limita a descrivere i dati raccolti (le caratteristiche <strong>degli</strong> stati, da<br />

cui il nome <strong>di</strong> statistica) organizzandoli e sintetizzandoli in tabelle, grafici, valori o equazioni senza<br />

pretendere <strong>di</strong> verificare ipotesi ma solo <strong>di</strong> formularle.<br />

La statistica inferenziale permette <strong>di</strong> inferire dall’analisi del campione importanti conclusioni<br />

sulla popolazione da cui e’ stato estratto e <strong>di</strong> verificare ipotesi, cioe’ <strong>di</strong> convalidare o no le<br />

“previsioni” che si possono fare prima o durante le fasi della ricerca. Non essendo l’inferenza mai<br />

certa in assoluto, le conclusioni sono spesso legate a valori <strong>di</strong> probabilita’.<br />

La statistica e’ un importante strumento <strong>di</strong> tutti e tre gli approcci dell’ecologia <strong>di</strong> cui si e’<br />

parlato nell’introduzione: descrittivo, deduttivo e sperimentale. Si tiene a precisare che la statistica<br />

si limita a fornire criteri che consentono allo sperimentatore <strong>di</strong> prendere una decisione <strong>di</strong> cui<br />

rimane l'unico responsabile. Essa non da' soluzioni ma aiuta a prendere decisioni.<br />

4.2 POPOLAZIONE E CAMPIONE<br />

La popolazione o popolazione statistica (o universo) è definita come un insieme <strong>di</strong> dati<br />

omogenei relativi ad un carattere qualitativo o quantitativo. La popolazione puo' essere finita se<br />

comprende un numero determinato <strong>di</strong> N unita' (es. <strong>di</strong>ametro del tronco <strong>degli</strong> in<strong>di</strong>vidui <strong>di</strong> una<br />

specie arborea in un territorio) e infinita quando riguarda un numero infinito <strong>di</strong> unita' (es. tutti i<br />

possibili esiti – testa o croce - <strong>di</strong> lanci successivi <strong>di</strong> una moneta).<br />

Il campione e’ un sottoinsieme della popolazione. Esso e’ costituito da un numero limitato <strong>di</strong><br />

dati (unita' statistiche) estratti da una popolazione secondo determinate regole stabilite da uno<br />

4-18


schema <strong>di</strong> campionamento che puo’ essere preferenziale, sistematico e casuale. Quest’ultimo<br />

attribuisce ad ogni elemento della popolazione la stessa probabilita' <strong>di</strong> entrare a far parte del<br />

campione. La casualita’ del campione garantisce la sua rappresentativita’ che, a sua volta, e’<br />

con<strong>di</strong>zione in<strong>di</strong>spensabile per svolgere l’inferenza statistica, cioe’ per dedurre dal campione le<br />

proprieta’ della popolazione <strong>di</strong> appartenenza.<br />

4.3 STATISTICA PARAMETRICA E NON PARAMETRICA<br />

I test statistici sono convenientemente sud<strong>di</strong>visi in due categorie che comprendono le<br />

tecniche parametriche e quelle non parametriche.<br />

La statistica parametrica comprende l’insieme delle tecniche inferenziali che si basano su<br />

determinate assunzioni circa i parametri della popolazione cui appartiene il campione<br />

sperimentale. Puo’ essere utilizzata solo se a priori sono sod<strong>di</strong>sfatti determinati requisiti sulla<br />

<strong>di</strong>stribuzione dei valori della popolazione.<br />

La statistica non parametrica riguarda le tecniche inferenziali che non sono vincolate a<br />

particolari parametri della <strong>di</strong>stribuzione della popolazione; per questo non viene fatta alcuna<br />

assunzione sulla <strong>di</strong>stribuzione delle variabili.<br />

L’analisi statistica appropriata per un insieme <strong>di</strong> dati e’ determinata dal tipo <strong>di</strong> scala utilizzato<br />

per la misurazione dei caratteri.<br />

I test parametrici si possono applicare solo a variabili misurate con scale <strong>di</strong> intervalli o <strong>di</strong><br />

rapporti e solo se le osservazioni provengono da una popolazione <strong>di</strong>stribuita normalmente (ve<strong>di</strong><br />

paragrafo 4.6.2). Se i dati sono misurati con scala or<strong>di</strong>nale e’ necessario ricorrere ai test non<br />

parametrici. Essi, infatti, tengono conto dell'or<strong>di</strong>namento per ranghi delle osservazioni e non dei<br />

loro valori numerici quantitativi. Alcuni test non parametrici sono appropriati anche per le scale<br />

nominali, come il test del chi-quadrato.<br />

4.4 DISTRIBUZIONI DI FREQUENZA<br />

L'insieme dei valori <strong>di</strong> un carattere quantitativo o <strong>degli</strong> stati <strong>di</strong> un carattere qualitativo<br />

osservati su <strong>di</strong> un insieme <strong>di</strong> oggetti costituisce l'insieme grezzo dei dati. I dati quantitativi possono<br />

essere organizzati in una serie statistica se or<strong>di</strong>nati in senso crescente o decrescente <strong>di</strong><br />

grandezza.<br />

La <strong>di</strong>stribuzione <strong>di</strong> frequenza sintetizza i dati originali in maniera tale che ad ogni valore o<br />

stato della variabile considerata viene associato il numero <strong>di</strong> volte (effettivo o frequenza assoluta<br />

o numerosita’) con cui si ripete nell'insieme osservato. Ad esempio se nel periodo <strong>di</strong> fioritura<br />

4-19


primaverile si osserva in un certo territorio il colore assunto dalle corolle dei fiori, si ottiene una<br />

<strong>di</strong>stribuzione <strong>di</strong> frequenza (Tab. 4.1) della variabile <strong>di</strong>screta colore conteggiando il numero <strong>di</strong> specie<br />

per ciascun colore osservato (stato della variabile).<br />

La <strong>di</strong>stribuzione <strong>di</strong> frequenza puo' essere rappresentata graficamente tramite un grafico <strong>di</strong><br />

frequenza che, sebbene non aggiunga informazione alla <strong>di</strong>stribuzione <strong>di</strong> frequenza, la evidenzia<br />

visivamente. Tra questi menzioniamo i <strong>di</strong>agrammi a barre (Fig. 3.3) e i <strong>di</strong>agrammi a torte (Fig.<br />

3.1).<br />

Per confrontare valori <strong>di</strong> frequenze assolute tra serie con <strong>di</strong>fferenti numerosita' <strong>di</strong> dati, si<br />

utilizza la frequenza relativa calcolata rapportando la frequenza assoluta del valore o dello stato<br />

della variabile alla numerosita' della serie statistica. E' generalmente espressa in percentuale.<br />

Alle volte e' utile organizzare i dati secondo una <strong>di</strong>stribuzione <strong>di</strong> frequenza cumulata (Fig.<br />

4.1) in maniera tale da avere per ciascun valore la somma delle frequenze dei dati aventi quel<br />

valore o un valore inferiore (o precedente, se qualitativo) o superiore (o valore successivo, se<br />

qualitativo). Nel primo caso si parla <strong>di</strong> <strong>di</strong>stribuzione cumulata dal basso e nel secondo caso <strong>di</strong><br />

<strong>di</strong>stribuzione cumulata dall’alto.<br />

Tab. 4.1 Valori <strong>di</strong> frequenza e <strong>di</strong> frequenza cumulata del parametro colore<br />

delle corolle dei fiori valutato in 62 specie primaverili in un certo territorio.<br />

bianco giallo rosa azzurro viola<br />

Frequenza 14 28 10 3 7<br />

Frequenza cumulata 14 42 52 55 62<br />

Ad esempio in Tab. 4.1 il valore <strong>di</strong> frequenza cumulata associato al valore giallo (42) in<strong>di</strong>ca<br />

quante specie fiorite <strong>di</strong> colore giallo o bianco (colore che occupa una posizione precedente al giallo<br />

nella sequenza dei colori) sono state riscontrate. In Fig. 4.1 e Fig. 4.2 sono riportati gli esempi<br />

relativi alle frequenze e alle frequenze cumulate rispettivamente per dati <strong>di</strong>screti e continui.<br />

Le <strong>di</strong>stribuzioni <strong>di</strong> frequenze cumulate relative riguardano le frequenze cumulate <strong>di</strong>vise per<br />

le frequenze totali. Queste possono anche essere espresse in percentuale.<br />

Nel caso <strong>di</strong> variabili continue e' poco utile riassumere i dati calcolandone la frequenza per<br />

singolo valore; infatti, potendo essere molteplici i valori assunti da queste variabili, tale sintesi non<br />

risulterebbe efficace. Si usa pertanto sud<strong>di</strong>videre i dati in classi <strong>di</strong> frequenza determinando per<br />

ciascuna classe il numero <strong>di</strong> osservazioni che vi appartengono. Per fare questo e' sufficiente:<br />

- determinare il campo <strong>di</strong> variazione [eq. (4.9)] dei dati dopo aver in<strong>di</strong>viduato il valore<br />

piu' grande e quello piu' piccolo e aver sottratto il secondo dal primo.<br />

- <strong>di</strong>videre il campo <strong>di</strong> variazione in un numero stabilito <strong>di</strong> classi, ottenendo cosi' un valore<br />

4-20


che rappresenta l'ampiezza uguale per tutte le classi.<br />

- determinare i limiti inferiore e superiore <strong>di</strong> ciascuna classe partendo dal valore minimo<br />

e sommando via via l'ampiezza <strong>di</strong> classe fino ad arrivare al valore massimo. La me<strong>di</strong>a<br />

aritmetica dei due limiti <strong>di</strong> classe identifica il centro della classe.<br />

N<br />

70<br />

60<br />

50<br />

40<br />

30<br />

20<br />

10<br />

0<br />

bianco giallo rosa azzurro viola<br />

Colore<br />

Fig. 4.1 Diagramma a barre delle <strong>di</strong>stribuzioni <strong>di</strong> frequenza (grigio chiaro) e <strong>di</strong> frequenza<br />

cumulata (grigio scuro) del colore dei fiori i cui valori sono riportati in Tab. 4.1<br />

Anche se non e' sempre conveniente, e' ammissibile creare classi <strong>di</strong> <strong>di</strong>fferente ampiezza o<br />

classi aperte agli estremi del campo <strong>di</strong> variazione. Ad esempio per il ph si potrebbero<br />

costruire due classi aperte, una che comprende tutti i valori inferiori a 3 ed una tutti i<br />

valori superiori a 9, e <strong>di</strong>videre l’intervallo tra 3 e 9 in parti uguali. Il numero delle classi,<br />

scelto soggettivamente dal ricercatore, e' solitamente compreso tra 5 e 20 secondo il<br />

numero <strong>di</strong> osservazioni (N). Sono state proposte anche delle formule per in<strong>di</strong>viduare il<br />

numero minimo <strong>di</strong> classi (C min ) e il numero massimo (C max ) nel costruire una <strong>di</strong>stribuzione<br />

<strong>di</strong> frequenza:<br />

10<br />

Cmin = 1+<br />

log N<br />

(4.1)<br />

3<br />

C = max<br />

10log N<br />

(4.2)<br />

Cmax = 2 N<br />

(4.3)<br />

Il numero conveniente <strong>di</strong> classi puo’ essere trovato anche in<strong>di</strong>rettamente utilizzando la<br />

seguente formula che calcola l'ampiezza <strong>di</strong> classe:<br />

4-21


2⋅<br />

IQ<br />

h =<br />

1/ 3<br />

(4.4)<br />

N<br />

dove IQ e’ l’intervallo interquartile [eq. (4.10)].<br />

- determinare la frequenza delle classi contando il numero <strong>di</strong> valori che cadono all'interno<br />

<strong>di</strong> ciascuna classe.<br />

Tab. 4.2 Valori <strong>di</strong> frequenza, frequenza percentuale e frequenza percentuale cumulata della lunghezza <strong>di</strong><br />

50 foglie <strong>di</strong> quercia espressa in millimetri<br />

Classi <strong>di</strong> lunghezza<br />

(mm) 160<br />

Frequenza 4 6 8 10 9 7 5 1<br />

Frequenza % 8 12 16 20 18 14 10 2<br />

Frequenza %<br />

cumulata<br />

8 20 36 56 74 88 98 100<br />

Il <strong>di</strong>agramma a barre delle classi <strong>di</strong> frequenza prende il nome <strong>di</strong> istogramma. Nel grafico <strong>di</strong><br />

Fig. 4.2 e’ illustrata la <strong>di</strong>stribuzione <strong>di</strong> frequenza percentuale e <strong>di</strong> frequenza percentuale cumulata<br />

della lunghezza in millimetri <strong>di</strong> 50 foglie <strong>di</strong> quercia i cui valori sono riportati in Tab. 4.2. Si puo’<br />

vedere che le classi estreme costituiscono delle classi aperte. Per ciascuna delle altre classi il valore<br />

sull’asse x in<strong>di</strong>ca il valore centrale della classe.<br />

100<br />

80<br />

%<br />

60<br />

40<br />

20<br />

0<br />

160<br />

mm<br />

Fig. 4.2 Istogramma delle <strong>di</strong>stribuzioni <strong>di</strong> frequenza relativa percentuale (grigio chiaro) e<br />

<strong>di</strong> frequenza relativa percentuale cumulata (grigio scuro) della lunghezza in millimetri <strong>di</strong><br />

50 foglie <strong>di</strong> quercia i cui valori sono riportati in Tab. 4.2<br />

4.4.1 Istogrammi, poligoni <strong>di</strong> frequenza e curve cumulative<br />

L'istogramma e' un insieme <strong>di</strong> rettangoli le cui basi, sull'asse orizzontale, sono centrate sui<br />

valori centrali delle classi e sono proporzionali all'ampiezza delle classi e le cui aree sono<br />

proporzionali alle frequenze delle classi.<br />

4-22


Il poligono <strong>di</strong> frequenza e' un grafico lineare delle frequenze passante per i valori centrali<br />

delle classi stesse. E' ottenuto unendo i punti centrali dei lati superiori dei rettangoli <strong>di</strong> un<br />

istogramma.<br />

La <strong>di</strong>stribuzione <strong>di</strong> frequenza cumulata puo’ essere visualizzata sia con un istogramma che<br />

con la curva cumulativa o curva delle frequenze cumulate [Fig. 4.3]. Essa è costruita riportando<br />

sull’asse delle ascisse il limite inferiore della prima classe e i limiti superiori della prima e delle<br />

classi successive in corrispondenza dei quali si collocano i punti con or<strong>di</strong>nata equivalente alla<br />

frequenza cumulata. In seguito si uniscono i punti dando origine ad una curva che assume spesso<br />

la forma sigmoidale.<br />

4.5 SINTESI DEI DATI MEDIANTE VALORI CARATTERISTICI<br />

Abbiamo visto come da un insieme <strong>di</strong> dati grezzi e’ possibile arrivare ad una sintesi statistica<br />

dell’informazione in forma grafica tramite i <strong>di</strong>agrammi delle <strong>di</strong>stribuzioni <strong>di</strong> frequenza. Per poter<br />

agevolmente confrontare insiemi <strong>di</strong>fferenti <strong>di</strong> valori e’ piu’ pratico sintetizzare i dati in valori<br />

numerici caratteristici che li descrivono in maniera concisa e universale.<br />

La <strong>di</strong>stribuzione statistica <strong>di</strong> ciascun insieme <strong>di</strong> dati e’ caratterizzata da tre parametri<br />

principali: il primo riguardante la tendenza centrale (valore me<strong>di</strong>o) che in<strong>di</strong>vidua la posizione della<br />

serie statistica, il secondo relativo alla <strong>di</strong>spersione dei valori intorno al valore centrale e il terzo<br />

relativo alla forma della <strong>di</strong>stribuzione <strong>di</strong> frequenza.<br />

4.5.1 Valori <strong>di</strong> tendenza centrale o <strong>di</strong> posizione<br />

I valori <strong>di</strong> tendenza centrale, detti anche <strong>di</strong> posizione, sono rappresentativi <strong>di</strong> un insieme <strong>di</strong><br />

dati poiché ne riassumono l’informazione in un valore me<strong>di</strong>o. Essi sono calcolati in maniera<br />

<strong>di</strong>fferente ed hanno una <strong>di</strong>versa interpretazione secondo il tipo <strong>di</strong> dati cui sono applicati.<br />

4.5.1.1 Me<strong>di</strong>a aritmetica<br />

Il valore piu’ noto e’ la me<strong>di</strong>a aritmetica x [eq. (4.5)] che si ottiene <strong>di</strong>videndo la somma <strong>di</strong><br />

tutti i valori (x i ) per il numero delle osservazioni (N). Essa e’ applicabile solo a dati intervallari e<br />

razionali.<br />

∑ xi<br />

x = (4.5)<br />

N<br />

4-23


4.5.1.2 Me<strong>di</strong>a aritmetica ponderata<br />

Se ai valori dei dati sono associati dei pesi (w i ) che ne in<strong>di</strong>cano l’importanza, la me<strong>di</strong>a<br />

aritmetica ponderata e’ calcolata nella seguente maniera:<br />

x<br />

∑ x w<br />

∑ w<br />

i i<br />

= (4.6)<br />

i<br />

4.5.1.3 Me<strong>di</strong>ana<br />

La me<strong>di</strong>ana rappresenta il valore centrale della serie numerica or<strong>di</strong>nata, cioe’ quello che<br />

<strong>di</strong>vide le osservazioni in due parti uguali. Essa e’ applicabile anche a dati or<strong>di</strong>nali per i quali<br />

rappresenta lo stimatore piu’ adatto a descrivere la tendenza centrale. Se il numero <strong>degli</strong> elementi<br />

della serie numerica e’ <strong>di</strong>spari la me<strong>di</strong>ana corrisponde esattamente al valore centrale della serie, se<br />

e‘ pari corrisponde al valore me<strong>di</strong>o dei due valori centrali della serie. In quest’ultimo caso se i<br />

valori sono <strong>di</strong>screti non e’ possibile trovare esattamente un valore me<strong>di</strong>ano: generalmente si parla<br />

<strong>di</strong> intervallo me<strong>di</strong>ano definito proprio dai due valori centrali oppure, convenzionalmente, si sceglie<br />

dei due il valore superiore.<br />

Ad esempio la serie or<strong>di</strong>nata dei 7 numeri 4, 5, 7, 7, 8, 9, 12 ha come me<strong>di</strong>ana il valore 7 che<br />

si trova nella posizione centrale, mentre la serie or<strong>di</strong>nata <strong>di</strong> 6 numeri 1.1, 2.5, 4, 5, 6, 8 ha come<br />

valore me<strong>di</strong>ano (4+5)/2 = 4.5.<br />

Per dati continui per i quali si e’ gia’ calcolata una <strong>di</strong>stribuzione <strong>di</strong> frequenza (dati<br />

raggruppati), la me<strong>di</strong>ana è calcolata tramite un proce<strong>di</strong>mento <strong>di</strong> interpolazione secondo la<br />

seguente formula:<br />

N<br />

− ( ∑ f )<br />

1<br />

Me<strong>di</strong>ana = L + c 2<br />

1<br />

f me<strong>di</strong>ana<br />

(4.7)<br />

dove:<br />

L 1 = limite inferiore della classe che contiene la me<strong>di</strong>ana (classe me<strong>di</strong>ana)<br />

c = ampiezza della classe me<strong>di</strong>ana<br />

N = numero totale delle osservazioni<br />

( ∑ f = totale delle frequenze <strong>di</strong> tutte le classi inferiori alla classe me<strong>di</strong>ana<br />

) 1<br />

f me<strong>di</strong>ana = frequenza della classe me<strong>di</strong>ana<br />

Prima <strong>di</strong> applicare la formula e’ necessario in<strong>di</strong>viduare la classe me<strong>di</strong>ana, cioe’ quella in cui si<br />

trova la me<strong>di</strong>ana. Essa e’ in<strong>di</strong>viduabile facilmente sommando le frequenze <strong>di</strong> ciascuna classe fino<br />

ad arrivare alla classe che supera o uguaglia il 50% delle frequenze.<br />

La formula applicata ai dati <strong>di</strong> Tab. 4.2 da’ il seguente risultato:<br />

4-24


Me<strong>di</strong>ana = 120 +10 [50/2-(4+6+8)]/10 = 127<br />

Da un punto <strong>di</strong> vista geometrico la me<strong>di</strong>ana corrisponde al valore dell’ascissa (X) in<br />

corrispondenza alla linea verticale che <strong>di</strong>vide l’istogramma della <strong>di</strong>stribuzione delle frequenze in<br />

due parti <strong>di</strong> uguale superficie. Essa e’ imme<strong>di</strong>atamente identificata in un <strong>di</strong>agramma <strong>di</strong> frequenza<br />

cumulata perche’ e’ il valore dell’ascissa in corrispondenza del valore <strong>di</strong> frequenza 50% sulle<br />

or<strong>di</strong>nate come mostrato in Fig. 4.3.<br />

Fig. 4.3 Valore della me<strong>di</strong>ana ottenuta graficamente sulla curva cumulativa dei dati <strong>di</strong> Tab. 4.2.<br />

4.5.1.4 Moda<br />

La moda e’ il valore della serie numerica al quale corrisponde la frequenza piu' elevata, cioe’<br />

il valore piu’ comune. E' applicabile anche a dati nominali per i quali rappresenta il solo valore<br />

determinabile <strong>di</strong> tendenza centrale. Se per variabili quantitative <strong>di</strong>screte essa e’ <strong>di</strong> facile<br />

determinazione, nel caso <strong>di</strong> variabili continue e’ calcolata, come per la me<strong>di</strong>ana, per<br />

approssimazione sui dati raggruppati secondo la seguente formula:<br />

Moda<br />

d<br />

1<br />

= L1<br />

+ c<br />

(4.8)<br />

d1<br />

+ d2<br />

dove:<br />

L 1 = limite inferiore della classe che contiene la moda (classe modale)<br />

c = l’ampiezza della classe modale<br />

d 1 = <strong>di</strong>fferenza tra la frequenza della classe modale e quella della classe precedente<br />

d 2 = la <strong>di</strong>fferenza tra la frequenza della classe modale e quella della classe successiva<br />

La moda dei dati <strong>di</strong> Tab. 4.1 corrisponde al colore giallo essendo il colore piu’ frequente<br />

4-25


perché riscontrato in 28 specie.<br />

La moda dei dati continui raggruppati <strong>di</strong> Tab. 4.2 e’ ottenuta applicando la formula (4.8) dopo<br />

aver in<strong>di</strong>viduato la classe modale (la quarta) cioe’ quella con piu’ alto valore <strong>di</strong> frequenza:<br />

Moda = 120 + 10 (10-8)/ [(10-8)+(10-9] = 120 + 10 x 0.67 = 126.67<br />

Quando c’e’ un’equi<strong>di</strong>stribuzione della variabile nelle classi la moda non esiste. Alle volte la<br />

<strong>di</strong>stribuzione non presenta un’unica moda ma due o piu’; nel primo caso si parla <strong>di</strong> <strong>di</strong>stribuzione<br />

unimodale, nel secondo <strong>di</strong> <strong>di</strong>stribuzione bi-plurimodale. Graficamente la moda e’ facile da trovare<br />

perche’ e’ l’ascissa che corrisponde sempre al picco della curva <strong>di</strong> <strong>di</strong>stribuzione piu’ elevato. E’<br />

facile intuire che la moda <strong>di</strong>pende dalla <strong>di</strong>stribuzione dei dati e quin<strong>di</strong> dalle modalita’ adottate per<br />

costruirla.<br />

4.5.1.5 Relazioni tra i valori <strong>di</strong> tendenza centrale<br />

I parametri della me<strong>di</strong>a, me<strong>di</strong>ana e moda sono utili per lo stu<strong>di</strong>o della simmetria delle<br />

<strong>di</strong>stribuzioni unimodali. Nella curva normale (paragrafo 4.6.2) essi coincidono perche’ la<br />

<strong>di</strong>stribuzione e’ simmetrica. In curve asimmetriche la me<strong>di</strong>ana occupa una posizione tra la moda e<br />

la me<strong>di</strong>a.<br />

4.5.1.6 Quantili<br />

I quantili o frattili sono parametri <strong>di</strong> posizione che <strong>di</strong>vidono una serie <strong>di</strong> dati in gruppi. Ad<br />

essi e’ associato un or<strong>di</strong>ne compreso tra 0 e 1. La me<strong>di</strong>ana rappresenta il quantile <strong>di</strong> or<strong>di</strong>ne 1/2 o<br />

0.5 perché sud<strong>di</strong>vide la serie dei dati in due parti uguali. I quartili (Q 1 , Q 2 ,Q 3 ) sono <strong>di</strong> or<strong>di</strong>ne 0.25,<br />

0.5 (=me<strong>di</strong>ana), 0.75 detti rispettivamente anche primo, secondo e terzo quartile e <strong>di</strong>vidono la<br />

serie numerica in quattro parti uguali. Alla stessa maniera i decili (D 1 , D2, …, D 9 ) e i percentili (P 1 ,<br />

P 2 , …, P 99 ) <strong>di</strong>vidono la serie numerica rispettivamente in <strong>di</strong>eci e cento parti uguali. Il quinto decile<br />

e il cinquantesimo percentile corrispondono alla me<strong>di</strong>ana. Il venticinquesimo e il<br />

settantacinquesimo percentile corrispondono rispettivamente al primo e terzo quartile. L'or<strong>di</strong>ne <strong>di</strong><br />

un quantile moltiplicato per 100 in<strong>di</strong>ca la percentuale delle osservazioni avente un valore inferiore<br />

a quello del quantile stesso.<br />

4.5.2 Valori <strong>di</strong> <strong>di</strong>spersione<br />

I valori <strong>di</strong> <strong>di</strong>spersione <strong>di</strong> una variabile in<strong>di</strong>cano quanto i valori osservati si <strong>di</strong>scostano dal<br />

valore me<strong>di</strong>o. Quanto piu’ piccola e’ la misura <strong>di</strong> <strong>di</strong>spersione, tanto piu’ il valore me<strong>di</strong>o e’<br />

4-26


appresentativo dell’insieme dei dati. Essi per la maggior parte sono applicabili a dati intervallari e<br />

razionali.<br />

Da un punto <strong>di</strong> vista statistico la variabilita’ dei dati nominali puo’ essere ridotta alla<br />

frequenza relativa della moda. Quanto piu’ questa e’ bassa tanto meno la moda e’ rappresentativa<br />

dell’insieme dei dati.<br />

Una misura che riteniamo molto importante, soprattutto in campo ecologico, per valutare<br />

l’equi<strong>di</strong>stribuzione e la dominanza <strong>di</strong> alcuni parametri nominali come le specie biologiche e’ quella<br />

relativa alla <strong>di</strong>versita’. Questa, esulando da un contesto strettamente statistico, verra’ trattata<br />

separatamente nel capitolo 10.<br />

4.5.2.1 Campo <strong>di</strong> variazione<br />

Una misura molto semplice <strong>di</strong> <strong>di</strong>spersione <strong>di</strong> una serie <strong>di</strong> dati e’ il campo <strong>di</strong> variazione o<br />

”range” (w) costituito semplicemente dalla <strong>di</strong>fferenza dei valori minimo e massimo:<br />

w= x max -x min (4.9)<br />

4.5.2.2 Intervalli interquantili<br />

Poiche’ il campo <strong>di</strong> variazione <strong>di</strong>pende unicamente dai due valori estremi della serie <strong>di</strong> dati,<br />

non e’ molto rappresentativo quando questi sono eccezionalmente alti o bassi rispetto a tutti gli<br />

altri valori. Per questo motivo sono piu’ utilizzati gli intervalli interquantili come l’intervallo<br />

interquartile (IQ) dato dalla <strong>di</strong>fferenza tra il terzo e il primo interquartile:<br />

IQ = Q 3 - Q 1 (4.10)<br />

nel quale cade il cinquanta percento delle osservazioni o l’intervallo interpercentile dato<br />

dalla <strong>di</strong>fferenza tra il novantesimo e il decimo percentile<br />

IP = P 90 – P 10 (4.11)<br />

nel quale cade l’ottanta percento delle osservazioni.<br />

Lo scarto interquantile rappresenta l’unica misura <strong>di</strong> variabilita’ per i dati or<strong>di</strong>nali.<br />

Il campo <strong>di</strong> variazione e l’intervallo interquantile rappresentano delle misure grossolane e<br />

incomplete della <strong>di</strong>spersione poiche’ non tengono conto <strong>di</strong> tutti i valori della serie. Inoltre nel caso<br />

del calcolo dell’intervallo interquantile è preso in considerazione solo l’or<strong>di</strong>ne dei valori e non i<br />

valori stessi.<br />

4-27


4.5.2.3 Deviazione me<strong>di</strong>a<br />

Misure migliori <strong>di</strong> <strong>di</strong>spersione utilizzano tutti i dati della serie e valutano quanto ciascun<br />

valore si <strong>di</strong>scosta dal valore centrale.<br />

Lo scarto me<strong>di</strong>o assoluto o deviazione me<strong>di</strong>a [eq. (4.12)] e’ una <strong>di</strong> queste possibili misure.<br />

Essa valuta la me<strong>di</strong>a delle <strong>di</strong>fferenze assolute <strong>di</strong> ciascun valore dalla me<strong>di</strong>a dei valori 1 . Il<br />

contributo <strong>di</strong> ciascun valore alla deviazione me<strong>di</strong>a e’ <strong>di</strong>rettamente proporzionale al proprio scarto<br />

dal valore me<strong>di</strong>o. Cio’ significa che valori con scarti vicini al valore me<strong>di</strong>o non contribuiscono molto<br />

alla deviazione me<strong>di</strong>a.<br />

Σ | xi − x |<br />

D = (4.12)<br />

N<br />

4.5.2.4 Varianza o deviazione me<strong>di</strong>a quadratica<br />

Un approccio alternativo e’ quello <strong>di</strong> ritenere che i valori piu’ lontani dal valore me<strong>di</strong>o<br />

influenzano maggiormente la misura <strong>di</strong> <strong>di</strong>spersione. Per ottenere questa enfatizzazione e’<br />

sufficiente elevare al quadrato gli scostamenti dei valori dalla me<strong>di</strong>a ottenendo la misura della<br />

varianza o deviazione quadratica me<strong>di</strong>a:<br />

2<br />

2 ∑( x i<br />

− x)<br />

σ =<br />

(4.13)<br />

N<br />

che puo’ essere espressa nella seguente forma alternativa che ne facilita il calcolo:<br />

2<br />

2 ∑ x 2<br />

σ = − x<br />

(4.14)<br />

N<br />

La somma <strong>degli</strong> scarti quadratici (il numeratore della varianza) costituisce la statistica d della<br />

devianza:<br />

d<br />

∑( x)<br />

2<br />

= xi −<br />

(4.15)<br />

Che puo’ essere espressa anche nella seguente forma equivalente:<br />

( x)<br />

2<br />

d = ∑ x −<br />

(4.16)<br />

N<br />

2 ∑<br />

⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯<br />

1 Per la proprieta’ della me<strong>di</strong>a, la somma delle <strong>di</strong>fferenze <strong>di</strong> ciascun valore dalla me<strong>di</strong>a e’ zero.<br />

Pertanto la semplice somma delle <strong>di</strong>fferenze non potra’ mai essere utilizzata come in<strong>di</strong>catore della variazione<br />

della serie <strong>di</strong> dati. Per superare questo ostacolo si utilizza o il valore assoluto delle <strong>di</strong>fferenze (nella<br />

deviazione me<strong>di</strong>a) o il quadrato delle <strong>di</strong>fferenze (nella deviazione quadratica me<strong>di</strong>a).<br />

4-28


La varianza e’ una statistica importante utilizzata in particolare nella valutazione della<br />

variazione tra due o piu’ insiemi <strong>di</strong> dati. Una tecnica statistica molto potente, nota col nome <strong>di</strong><br />

analisi della varianza (ANOVA, ve<strong>di</strong> paragrafo 4.8.2), usa la varianza per decidere se un numero <strong>di</strong><br />

campioni <strong>di</strong>fferisce significativamente l’uno dall’altro.<br />

4.5.2.5 Deviazione standard<br />

Il parametro piu’ noto ed utilizzato come misura <strong>di</strong> <strong>di</strong>spersione e’ la deviazione standard (o<br />

scarto quadratico me<strong>di</strong>o o sigma) che si ottiene calcolando la ra<strong>di</strong>ce quadrata della varianza,<br />

secondo le due formule equivalenti sottostanti:<br />

2<br />

∑( x i<br />

− x)<br />

σ =<br />

(4.17)<br />

N<br />

2<br />

∑ x −<br />

2<br />

σ = x<br />

(4.18)<br />

N<br />

Se N < 30 il denominatore nelle formule della varianza e del sigma e' sostituito con N-1.<br />

4.5.2.6 Coefficiente <strong>di</strong> variazione<br />

La deviazione standard e’ espressa nella stessa unita’ <strong>di</strong> misura della variabile considerata.<br />

Per rendere comparabili misure <strong>di</strong> <strong>di</strong>spersione tra variabili misurate con <strong>di</strong>fferente unita’, si utilizza<br />

il coefficiente <strong>di</strong> variazione [eq. (4.19)] che si ottiene <strong>di</strong>videndo la deviazione standard per la<br />

me<strong>di</strong>a aritmetica e moltiplicando per 100. Esso puo’ essere interpretato come una misura relativa<br />

della deviazione standard espressa in percentuale. La deviazione standard cosi’ trasformata è<br />

misurata in unita’ <strong>di</strong> me<strong>di</strong>a aritmetica e puo’ essere confrontata con le deviazioni standard<br />

trasformate <strong>di</strong> altre variabili.<br />

CV<br />

⋅100<br />

= σ (4.19)<br />

x<br />

Il coefficiente <strong>di</strong> variazione e’ utile anche quando si devono confrontare serie <strong>di</strong> dati con la<br />

stessa unita’ <strong>di</strong> misura ma con valori me<strong>di</strong> molto <strong>di</strong>fferenti tra loro.<br />

4.5.2.7 Errore standard<br />

Anche per i parametri statistici come la me<strong>di</strong>a e la varianza dei campioni (statistiche<br />

campionarie) e’ possibile ottenere <strong>di</strong>stribuzioni <strong>di</strong> frequenza (<strong>di</strong>stribuzioni campionarie) che, per<br />

gran<strong>di</strong> valori <strong>di</strong> N (≥ 30), sono pressoché sempre normali. Si chiama errore standard della<br />

4-29


<strong>di</strong>stribuzione <strong>di</strong> una statistica campionaria la deviazione standard della <strong>di</strong>stribuzione stessa.<br />

L’errore standard della <strong>di</strong>stribuzione campionaria della me<strong>di</strong>a e' dato da:<br />

σ<br />

µ = (4.20)<br />

N<br />

4.5.2.8 Variabile z<br />

Per standar<strong>di</strong>zzare gli scarti <strong>di</strong> ciascun valore dalla me<strong>di</strong>a e rendere confrontabili valori <strong>di</strong><br />

variabili misurate con <strong>di</strong>fferente scala si usa la variabile standar<strong>di</strong>zzata z che esprime in termini<br />

<strong>di</strong> scarti quadratici me<strong>di</strong>, la deviazione <strong>di</strong> un singolo valore dalla me<strong>di</strong>a <strong>di</strong> tutti i valori.<br />

x − x<br />

z = (4.21)<br />

σ<br />

Un esempio <strong>di</strong> trasformazione dei dati secondo la variabile z si trova nel paragrafo 5.4.<br />

4.5.3 Esempio <strong>di</strong> calcolo<br />

In 10 unita’ territoriali sono stati misurati l’altitu<strong>di</strong>ne (A) espressa in metri, la temperatura<br />

(T) in gra<strong>di</strong> centigra<strong>di</strong> e l’in<strong>di</strong>ce <strong>di</strong> verde NDVI. I valori tabulati sono leggibili in Tab. 4.3.<br />

La me<strong>di</strong>a dei valori dell’altitu<strong>di</strong>ne e’ data da:<br />

x A<br />

calcolata:<br />

776 + 644 + ... + 160<br />

=<br />

= 420<br />

10<br />

Ottenuta analogamente la temperatura me<strong>di</strong>a ( x T = 15), la sua deviazione standard e’ cosi’<br />

σ<br />

T<br />

=<br />

(13.3 −15)<br />

2<br />

+ (13.5 −15)<br />

10 −1<br />

2<br />

+ ... + (17.3 −15)<br />

2<br />

= 1.531<br />

Trovati i valori della me<strong>di</strong>a ( x = 0. 393) e del sigma ( σ = 0. 0483) per l’in<strong>di</strong>ce <strong>di</strong><br />

NDVI<br />

verde, il suo coefficiente <strong>di</strong> variazione e’ dato da:<br />

NDVI<br />

CV<br />

NDVI<br />

0.0483<br />

= ⋅100<br />

= 12.299<br />

0.393<br />

Osservando per ciascuna delle tre variabili i valori <strong>di</strong> <strong>di</strong>spersione intorno ai valori me<strong>di</strong> si puo’<br />

subito dedurre quanto poco rappresentativa sia la me<strong>di</strong>a delle altitu<strong>di</strong>ni essendo il corrispondente<br />

in<strong>di</strong>ce <strong>di</strong> <strong>di</strong>spersione (sigma) molto elevato rispetto al valore me<strong>di</strong>o. Piu’ <strong>di</strong>fficile e’ in<strong>di</strong>viduare a<br />

4-30


colpo d’occhio quale delle altre due variabili ha <strong>di</strong>spersione maggiore. Il coefficiente <strong>di</strong> variazione ci<br />

in<strong>di</strong>ca che essa e’ leggermente superiore nell’in<strong>di</strong>ce <strong>di</strong> verde (CV=12.3) e ci conferma che<br />

entrambe sono molto meno variabili dell’altitu<strong>di</strong>ne per la quale e’ stato riscontrato un valore <strong>di</strong><br />

CV=57.2.<br />

Riassumendo possiamo <strong>di</strong>re che nelle 10 unita’ territoriali osservate c’e una grande<br />

variabilita’ della posizione altitu<strong>di</strong>nale mentre e’ piu’ contenuta quella delle temperature e<br />

dell’in<strong>di</strong>ce <strong>di</strong> verde. Per indagare se le variazioni <strong>di</strong> queste ultime, sebbene meno ampie,<br />

avvengono in corrispondenza della variazione della prima, non sono sufficienti gli in<strong>di</strong>ci appena<br />

trovati che ne in<strong>di</strong>cano soltanto l’esistenza. La co-variazione e’ invece messa in luce da un’altra<br />

statistica che, nel suo aspetto standar<strong>di</strong>zzato, costituisce il coefficiente <strong>di</strong> correlazione (ve<strong>di</strong><br />

paragrafo 4.9).<br />

Tab. 4.3 Valori <strong>di</strong> altitu<strong>di</strong>ne, temperatura e in<strong>di</strong>ce <strong>di</strong> verde NDVI misurati in 10 unita’’<br />

territoriali e loro statistiche <strong>di</strong> me<strong>di</strong>a, deviazione standard e coefficiente <strong>di</strong> variazione.<br />

Unita' territoriali Altitu<strong>di</strong>ne (m) Temperatura (°C) NDVI<br />

1 776 13.3 0.434<br />

2 644 13.5 0.383<br />

3 434 15.5 0.443<br />

4 701 13.7 0.404<br />

5 561 14.6 0.399<br />

6 263 16.4 0.301<br />

7 350 15.9 0.435<br />

8 96 16.6 0.434<br />

9 215 13.2 0.364<br />

10 160 17.3 0.331<br />

Me<strong>di</strong>a 420 15 0.393<br />

Deviazione standard 240.4 1.53 0.0483<br />

Coeff. variazione % 57.2 10.2 12.3<br />

4.6 DISTRIBUZIONI STATISTICHE E TEORICHE<br />

Le <strong>di</strong>stribuzioni statistiche o empiriche sono quelle che derivano dalla osservazione <strong>di</strong> un<br />

carattere nelle unita' <strong>di</strong> un campione. Le forme che le <strong>di</strong>stribuzioni <strong>di</strong> frequenza possono assumere<br />

<strong>di</strong>pendono dalla legge <strong>di</strong> probabilita' che seguono i dati.<br />

Accanto alle <strong>di</strong>stribuzioni empiriche si considerano le <strong>di</strong>stribuzioni teoriche. Tra i due tipi <strong>di</strong><br />

<strong>di</strong>stribuzioni c'e' un evidente rapporto nel senso che le seconde possono essere considerate come<br />

le <strong>di</strong>stribuzioni cui tendono le prime aumentando il numero N <strong>di</strong> osservazioni.<br />

Le <strong>di</strong>stribuzioni teoriche sono quin<strong>di</strong> dei modelli astratti cui possiamo tuttavia ricondurre i vari<br />

fenomeni osservati per trarre utili in<strong>di</strong>cazioni sulle rispettive leggi <strong>di</strong> comportamento. Sono anche<br />

4-31


dette "leggi <strong>di</strong> probabilita" poiché le frequenze relative teoriche che accompagnano i valori della<br />

variabile esprimono la probabilita' a priori che tali valori hanno <strong>di</strong> verificarsi.<br />

4.6.1 Probabilita'<br />

La probabilita’ e’ un concetto fondamentale in statistica. In tutti i test statistici e’ implicato il<br />

calcolo della probabilita’ per via <strong>di</strong>retta o in<strong>di</strong>retta.<br />

Secondo la definizione matematica classica la probabilita' e' il numero dei casi favorevoli<br />

rapportato al numero <strong>di</strong> casi possibili, supposti tutti equamente possibili.<br />

La definizione statistica <strong>di</strong>ce che la probabilita' stimata o empirica <strong>di</strong> un evento e' data dalla<br />

frequenza relativa del verificarsi dell'evento rispetto ad un numero <strong>di</strong> osservazioni che deve essere<br />

molto grande. Cio’ significa che la probabilita' <strong>di</strong>venta il limite della frequenza relativa quando il<br />

numero <strong>di</strong> osservazioni cresce in maniera indefinita.<br />

4.6.1.1 Distribuzione <strong>di</strong> probabilita’ <strong>di</strong>screte<br />

Se per una variabile X, che puo' assumere un insieme n <strong>di</strong>screto <strong>di</strong> valori x 1 , x 2 , ..., x n , sono<br />

note le probabilita' p 1 , p 2 , ..., p n <strong>di</strong> ciascun valore tali che la loro somma sia 1, si conosce per X una<br />

<strong>di</strong>stribuzione <strong>di</strong> probabilita' <strong>di</strong>screta. La funzione p(X) che associa i valori <strong>di</strong> probabilita' in<br />

corrispondenza dei valori della variabile , è detta funzione <strong>di</strong> probabilita' <strong>di</strong> X, e X è detta<br />

variabile casuale o stocastica o aleatoria.<br />

L’esempio classico che aiuta a comprendere quanto detto e’ quello relativo al lancio <strong>di</strong> un<br />

dado. Se questo non e’ truccato, la probabilita’ a priori che si verifichi l’evento <strong>di</strong> un qualsiasi<br />

punteggio associato alle 6 facce del dado e’ <strong>di</strong> 1/6=0.1 6 . Nella tabella sottostante sono riportate le<br />

frequenze relative f(x) per ciascun punteggio ottenute lanciando 100 e 1000 volte il dado. Si puo’<br />

notare che al crescere del numero <strong>di</strong> lanci, la frequenza relativa per ciascun punteggio si avvicina<br />

sempre piu’ alla probabilita’ a priori associata a ciascuna <strong>di</strong> essi.<br />

Tab. 4.4 Probabilita’ a priori e frequenza relativa <strong>degli</strong> eventi del lancio <strong>di</strong> un<br />

dado.<br />

X 1 2 3 4 5 6 N<br />

p(x) 1/6 1/6 1/6 1/6 1/6 1/6<br />

f(x) 0.16 0.17 0.17 0.17 0.16 0.17 100<br />

f(x) 0.166 0.168 0.166 0.165 0.167 0.168 1000<br />

Le funzioni <strong>di</strong> probabilita' si possono pensare come forme teoriche delle <strong>di</strong>stribuzioni <strong>di</strong><br />

4-32


frequenze relative quando il numero <strong>degli</strong> eventi e’ molto numeroso. Per quanto abbiamo detto<br />

possiamo ritenere le <strong>di</strong>stribuzioni <strong>di</strong> frequenza relative legate al campione e quelle <strong>di</strong> probabilita’<br />

legate alla popolazione da cui il campione e’ estratto.<br />

Una <strong>di</strong>stribuzione <strong>di</strong> probabilita' puo' essere rappresentata graficamente in maniera analoga<br />

alla <strong>di</strong>stribuzione <strong>di</strong> frequenza riportando sull'asse delle or<strong>di</strong>nate le probabilita' p(x).<br />

Cumulando le probabilita' otteniamo <strong>di</strong>stribuzioni <strong>di</strong> probabilita' cumulate analoghe alle<br />

<strong>di</strong>stribuzioni <strong>di</strong> frequenza relative cumulate.<br />

4.6.1.2 Distribuzione <strong>di</strong> probabilita’ continue<br />

Quando la variabile X assume valori continui, il poligono delle frequenze relative <strong>di</strong> un<br />

campione <strong>di</strong>venta per la popolazione una curva continua, chiamata anche curva <strong>di</strong> densita' <strong>di</strong><br />

probabilita' (Fig. 4.4), la cui equazione Y = p(X) rappresenta la funzione <strong>di</strong> densita' <strong>di</strong> probabilita' o<br />

legge <strong>di</strong> probabilita'.<br />

Fig. 4.4 Curva <strong>di</strong> densita’ <strong>di</strong> probabilita’. L’area totale tra la curva e<br />

l’asse X equivale a 1. L’area ombreggiata corrisponde alla probabilita’<br />

che un valore <strong>di</strong> X sia compreso tra i valori x 1 e x 2 .<br />

L'area totale compresa tra la curva e l'asse X e' uguale a 1 rappresentando la totalita’ delle<br />

osservazioni in termini relativi. L’area compresa tra due punti qualsiasi x 1 e x 2 dell'asse X<br />

costituisce la probabilita' che la variabile X assuma valori compresi tra x 1 e x 2.<br />

La funzione <strong>di</strong> densita' <strong>di</strong> probabilita' e' una legge <strong>di</strong> probabilita' <strong>di</strong> una variabile aleatoria<br />

continua e costituisce un modello matematico in base al quale vengono interpretati i dati<br />

sperimentali. Gli statistici matematici hanno stu<strong>di</strong>ato le <strong>di</strong>stribuzioni teoriche <strong>di</strong> probabilita' che<br />

riproducono le <strong>di</strong>stribuzioni <strong>di</strong> frequenza delle variabili statistiche. Tramite queste e' possibile fare<br />

delle inferenze statistiche.<br />

4-33


4.6.2 Distribuzione normale o curva gaussiana<br />

La <strong>di</strong>stribuzione normale o gaussiana costituisce la piu' importante <strong>di</strong>stribuzione <strong>di</strong><br />

probabilita' in statistica per le variabili continue. Sta alla base <strong>di</strong> un grande gruppo <strong>di</strong> test statistici<br />

noti col nome <strong>di</strong> tecniche parametriche.<br />

E' la legge <strong>di</strong> una variabile statistica la cui variabilita' e' dovuta all'azione <strong>di</strong> un gran numero<br />

<strong>di</strong> fattori in<strong>di</strong>pendenti nessuno prevalente sull'altro (Teorema del limite centrale).<br />

L’equazione della sua funzione e’ data da:<br />

2<br />

( X −µ<br />

)<br />

−<br />

2<br />

2<br />

1<br />

σ<br />

Y = e<br />

(4.22)<br />

σ 2π<br />

in cui µ e’ la me<strong>di</strong>a, σ e’ la deviazione standard, π =3.14159, e = 2.71828.<br />

1<br />

2<br />

µ 1<br />

σ 1<br />

σ 2<br />

µ 2<br />

X<br />

Fig. 4.5 Curve <strong>di</strong> <strong>di</strong>stribuzione normale <strong>di</strong> due serie <strong>di</strong> valori con <strong>di</strong>fferenti me<strong>di</strong>a e<br />

deviazione standard. I valori centrali µ 1 e µ 2 corrispondono alle me<strong>di</strong>e, alle me<strong>di</strong>ane<br />

e alle mode delle due serie <strong>di</strong> dati. Poiche’ µ 2 > µ 1 e σ 2 > σ1 la seconda curva e’<br />

spostata piu’ a destra rispetto alla prima ed e’ piu’ ampia ed appiattita.<br />

Dalla Fig. 4.5 si puo’ osservare che la curva normale ha una forma a campana simmetrica.<br />

L’area delimitata dalla curva e dall'asse X vale 1. L'area sotto la curva tra due valori scelti sull'asse<br />

orizzontale, e' proporzionale alla probabilita' <strong>di</strong> trovare un valore compreso tra questi due limiti. Il<br />

punto centrale sull'asse delle X rappresenta la me<strong>di</strong>a, la me<strong>di</strong>ana e la moda dei valori. Il segmento<br />

perpen<strong>di</strong>colare all’asse X innalzato dal punto relativo alla me<strong>di</strong>a <strong>di</strong>vide la curva in due parti<br />

specularmente uguali.<br />

La posizione e la forma della <strong>di</strong>stribuzione normale <strong>di</strong>pendono dalla coppia <strong>di</strong> parametri<br />

me<strong>di</strong>a e deviazione standard. In particolare la me<strong>di</strong>a determina la posizione della curva rispetto<br />

4-34


all'asse X, mentre la deviazione standard, essendo un in<strong>di</strong>ce <strong>di</strong> <strong>di</strong>spersione dei valori intorno al<br />

valore centrale, determina la forma della curva. Per questo si hanno curve piu' appiattite e ampie<br />

per valori <strong>di</strong> sigma piu' elevati e curve piu' elevate e ristrette per valori <strong>di</strong> sigma minori (ve<strong>di</strong> Fig.<br />

4.5).<br />

Se la variabile X viene sostituita con la variabile standar<strong>di</strong>zzata z [eq.(4.21)], essendo la<br />

me<strong>di</strong>a <strong>di</strong> z uguale a 0 e la sua deviazione standard uguale a 1, l’equazione (4.22) si semplifica<br />

come segue:<br />

Y<br />

=<br />

1 2<br />

1 − z<br />

2<br />

e<br />

2π<br />

(4.23)<br />

Nell'adattare la <strong>di</strong>stribuzione osservata a quella del modello teorico e' necessario<br />

standar<strong>di</strong>zzare la variabile continua considerata ottenendo la variabile z.<br />

Y<br />

z<br />

-3<br />

-2<br />

-1<br />

0 1 2 3<br />

68.27%<br />

95.45%<br />

99.73%<br />

Fig. 4.6 Curva normale standar<strong>di</strong>zzata. Sono evidenziati i valori notevoli.<br />

Nella curva normale standar<strong>di</strong>zzata il 68.32% dei valori della variabile z sono compresi tra -1<br />

e +1, il 95.4% tra -2 e +2 e il 99.7% tra -3 e +3, come illustrato in Fig. 4.6. Standar<strong>di</strong>zzando la<br />

variabile, la funzione <strong>di</strong> densita' <strong>di</strong> probabilita' normale <strong>di</strong>pende solo da z. Gli statistici hanno<br />

4-35


potuto calcolare e tabulare la probabilita' <strong>di</strong> avere valori z superiori o inferiori ad un valore dato e<br />

la probabilita' <strong>di</strong> ottenere valori z compresi tra due valori dati. Tali tabelle sono presenti in molti<br />

testi <strong>di</strong> statistica. In questa <strong>di</strong>spensa in Tab. 4.5 riportiamo solo i valori della variabile z in<br />

corrispondenza <strong>di</strong> cinque livelli <strong>di</strong> probabilita’ (livelli <strong>di</strong> significativita’) per il test ad una coda e per<br />

quello a due code. Questi in<strong>di</strong>cano la probabilita’ <strong>di</strong> avere valori della variabile z uguali o superiori<br />

a quelli in<strong>di</strong>cati e corrispondono all’area (nel test ad una coda) o alle due aree (nel test a due<br />

code) poste all’estremita’ della curva. I test <strong>di</strong> significativita’ sono argomento <strong>di</strong> spiegazione del<br />

paragrafo seguente.<br />

Tab. 4.5 Valori della variabile z a cinque livelli <strong>di</strong> significativita’ per il test ad una coda e<br />

a due code.<br />

Livelli <strong>di</strong> significativita’<br />

0.1 0.05 0.01 0.005 0.001<br />

z (test ad una coda) 1.282 1.645 2.326 2.576 3.090<br />

z (test a due code) 1.645 1.960 2.576 2.813 3.291<br />

4.7 TEST DI SIGNIFICATIVITA'<br />

Piu' spesso l'indagine statistica è effettuata per testare delle ipotesi e prendere delle<br />

decisioni. Ad esempio una domanda che ci si puo' porre e' se esiste una <strong>di</strong>fferenza statisticamente<br />

significativa tra le me<strong>di</strong>e dei valori <strong>di</strong> una variabile osservata in due gruppi <strong>di</strong>stinti.<br />

La <strong>di</strong>fferenza delle me<strong>di</strong>e potrebbe, infatti, essere dovuta alla variazione casuale dei valori<br />

nei due gruppi e questi potrebbero, nella realta', appartenere tutti alla stessa popolazione.<br />

Per verificare se i due gruppi sono campioni <strong>di</strong> una stessa popolazione o sono realmente<br />

<strong>di</strong>versi e provenienti da popolazioni <strong>di</strong>fferenti, si applica un test <strong>di</strong> significativita' che confronta la<br />

<strong>di</strong>fferenza delle me<strong>di</strong>e dei due gruppi con quella che si avrebbe se la variazione dei valori fosse<br />

dovuta al caso e i due gruppi appartenessero quin<strong>di</strong> alla stessa popolazione. Questo test consente<br />

<strong>di</strong> stimare la probabilita' che due gruppi <strong>di</strong>stinti <strong>di</strong> osservazioni provengono dalla stessa<br />

popolazione. Se questa probabilita' e' molto bassa, si puo' concludere che le osservazioni dei due<br />

gruppi appartengono a due popolazioni <strong>di</strong>verse. In caso contrario si puo’ ritenere la <strong>di</strong>fferenza dei<br />

gruppi non significativa perche’ dovuta alla variazione casuale e <strong>di</strong>re quin<strong>di</strong> che essi provengono<br />

dalla stessa popolazione.<br />

4.7.1 Ipotesi nulla (H 0 ) e livello <strong>di</strong> significativita'<br />

Nell'usare un test <strong>di</strong> significativita' e' necessario formulare un’ipotesi statistica che costituisce<br />

4-36


l'ipotesi nulla (H 0 ). Il piu' delle volte questa viene formulata con il solo scopo <strong>di</strong> rifiutarla. Essa<br />

generalmente <strong>di</strong>ce uno stato invariato della situazione. Nel caso dell’esempio precedente l'ipotesi<br />

nulla <strong>di</strong>ce che le me<strong>di</strong>e dei due gruppi non <strong>di</strong>fferiscono in maniera consistente l'una dall'altra<br />

perche’ la variazione esistente e' dovuta al caso e che quin<strong>di</strong> i due gruppi appartengono alla stessa<br />

popolazione. L'ipotesi alternativa (H 1 ) si contrappone all’ipotesi nulla negandola e proponendo<br />

una situazione <strong>di</strong>versa della realta’ che viene specificata in due maniere, una in forma piu’<br />

precisata dell’altra. La prima <strong>di</strong>ce che le due me<strong>di</strong>e <strong>di</strong>versificano significativamente l'una dall'altra<br />

(ipotesi a due code o bi<strong>di</strong>rezionale), la seconda che una delle due me<strong>di</strong>e e' significativamente<br />

maggiore o minore rispetto all'altra (ipotesi ad una coda o mono<strong>di</strong>rezionale).<br />

L'accettare o il respingere l'ipotesi nulla e' sempre responsabilita' dello sperimentatore che si<br />

serve del criterio statistico sapendo che questo non fornisce mai risposte certe ma solo probabili. Il<br />

ricercatore sa che, qualunque decisione prenda, ha sempre un margine <strong>di</strong> rischio <strong>di</strong> prendere una<br />

decisione errata. Infatti, partendo dalle informazioni del campione, specialmente se questo e'<br />

piccolo, potrebbe facilmente sbagliare nel rifiutare l'ipotesi nulla quando questa e’ vera e, in tal<br />

caso, incorrerebbe in un errore detto <strong>di</strong> primo tipo. Ma potrebbe cadere anche nell’errore <strong>di</strong><br />

secondo tipo che, in opposizione al primo, consiste nell’accettare l’ipotesi nulla quando dovrebbe<br />

invece essere rifiutata. Il rischio con cui si accetta l’errore <strong>di</strong> primo tipo rappresenta il livello <strong>di</strong><br />

significativita' del test ed e' espresso in termini <strong>di</strong> probabilita' (α). Per contenere il piu' possibile<br />

questo errore si tende a scegliere valori molto bassi <strong>di</strong> α, il piu' possibile vicini a 0.<br />

Convenzionalmente i livelli <strong>di</strong> probabilita' piu' utilizzati sono 0.05 (5%) o 0.01 (1%) ma, nelle<br />

scienze me<strong>di</strong>che, dove il rischio d’errore deve essere ridotto al minimo, si scelgono livelli ancora<br />

piu’ bassi (0.001 =0.1%). Ritornando al nostro esempio, se troviamo che c'e' una probabilita'<br />

inferiore o uguale al 5% che la <strong>di</strong>fferenza delle me<strong>di</strong>e dei due gruppi sia casuale, respingiamo<br />

l'ipotesi nulla concludendo che la <strong>di</strong>fferenza non e' casuale; nel fare quest’affermazione abbiamo 5<br />

possibilita’ su 100 <strong>di</strong> sbagliare, cioe’ <strong>di</strong> scartare l'ipotesi nulla nel caso sia, invece, vera.<br />

L’inferenza statistica si basa sulle <strong>di</strong>stribuzioni teoriche dei parametri statistici (es. me<strong>di</strong>a,<br />

sigma, varianza) o dei test statistici (t <strong>di</strong> Student, r, F, chi-quadrato) nella situazione in cui l’ipotesi<br />

nulla e’ vera. Per ogni parametro o test statistico viene calcolata la funzione della sua <strong>di</strong>stribuzione<br />

e, per integrazione della funzione, l'area corrispondente alla/e coda/e della <strong>di</strong>stribuzione il cui<br />

limite interno sull'asse X e' determinato dal valore assoluto della statistica stessa. L'area trovata<br />

rappresenta la probabilita' <strong>di</strong> avere valori assoluti della statistica piu' gran<strong>di</strong> o uguali a quello dato.<br />

Valori <strong>di</strong> probabilita' molto bassi, convenzionalmente inferiori a 0.05 (5%), in<strong>di</strong>cano che il valore<br />

della statistica in questione <strong>di</strong>fferisce significativamente da quello che ci si dovrebbe aspettare<br />

sotto l'ipotesi nulla (H 0 ) del test, che viene quin<strong>di</strong> rifiutata.<br />

4-37


Fig. 4.7 Esempio <strong>di</strong> <strong>di</strong>stribuzione <strong>di</strong> una variabile statistica (X) per un test a due code. Sono<br />

visibili la zona <strong>di</strong> accettazione dell’ipotesi nulla e le zone critiche in cui si puo’ rischiare <strong>di</strong><br />

rifiutarla.<br />

Per ogni <strong>di</strong>stribuzione statistica e’ possibile quin<strong>di</strong> in<strong>di</strong>viduare anche graficamente (ve<strong>di</strong> Fig.<br />

4.7) la zona <strong>di</strong> accettazione dell’ipotesi nulla e quella <strong>di</strong> rifiuto. Il limite tra le due zone <strong>di</strong>pende dal<br />

livello <strong>di</strong> significativita’ scelto, cioe’ da α che corrisponde all'area della/e coda/e della <strong>di</strong>stribuzione<br />

e rappresenta la probabilita’ <strong>di</strong> trovare un valore del test X minore o uguale <strong>di</strong> –x o maggiore o<br />

uguale <strong>di</strong> x. Il complemento ad 1 <strong>di</strong> questa probabilita’, cioe’ p = 1 - α, corrisponde all’area della<br />

regione <strong>di</strong> accettazione dell’ipotesi nulla, cioe’ alla probabilita’ che un valore della statistica cada in<br />

questa area se l’ipotesi nulla e’ vera.<br />

Fig. 4.8 Distribuzione asimmetrica delle<br />

statistiche F e χ 2 . Test ad una coda.<br />

Fig. 4.9 Distribuzione simmetrica delle<br />

statistiche z e t. Test a due code.<br />

Solitamente per le statistiche del chi-quadrato e del parametro F, che non presentano valori<br />

negativi, il test <strong>di</strong> probabilita' utilizzato e' unilaterale o ad una coda perche' si e' interessati alla<br />

coda destra della loro <strong>di</strong>stribuzione asimmetrica(Fig. 4.8). La <strong>di</strong>stribuzione normale della variabile z,<br />

come pure quella del t <strong>di</strong> Student quando il numero delle osservazioni (che determina i gra<strong>di</strong> <strong>di</strong><br />

liberta’) tende all’infinito, hanno funzioni <strong>di</strong> frequenza simmetriche rispetto al valore zero; i relativi<br />

4-38


test <strong>di</strong> significativita’ si chiamano bilaterali o anche a due code perché la probabilita' ad essi<br />

associata corrisponde alla somma delle due aree uguali site alle estremita' opposte della loro curva<br />

<strong>di</strong> <strong>di</strong>stribuzione (Fig. 4.9).<br />

4.7.2 Gra<strong>di</strong> <strong>di</strong> liberta’<br />

La <strong>di</strong>stribuzione <strong>di</strong> probabilita' del test statistico <strong>di</strong>pende dalla numerosita' del campione<br />

considerato. Piu' e' piccolo il campione, piu' e' <strong>di</strong>fficile decidere se e' rappresentativo della<br />

popolazione. I valori critici del test a qualsiasi livello <strong>di</strong> significativita' sono piu' gran<strong>di</strong> in campioni<br />

piccoli, cioe' e' necessario avere valori <strong>di</strong> test piu' elevati per rifiutare l'ipotesi nulla. I gra<strong>di</strong> <strong>di</strong><br />

liberta' rappresentano le <strong>di</strong>mensioni del campione e sono dati dal numero <strong>di</strong> osservazioni meno il<br />

numero <strong>di</strong> k parametri statistici stimati della popolazione impiegati nel calcolo del test. Per esempio<br />

per il test t <strong>di</strong> Student che confronta le me<strong>di</strong>e <strong>di</strong> due campioni, nella cui formula [eq. (4.24)] sono<br />

coinvolte anche le due deviazioni standard dei due gruppi per la stima della deviazione standard<br />

della popolazione, il numero <strong>di</strong> gra<strong>di</strong> <strong>di</strong> liberta' e' il numero totale <strong>di</strong> in<strong>di</strong>vidui nei due gruppi<br />

<strong>di</strong>minuito <strong>di</strong> due unita'.<br />

In Appen<strong>di</strong>ce sono riportate le tabelle <strong>di</strong> alcuni test con i valori critici delle statistiche a<br />

<strong>di</strong>versi gra<strong>di</strong> <strong>di</strong> liberta'.<br />

4.7.3 Riepilogo<br />

L'ipotesi nulla (H 0 ) postula l'assenza <strong>di</strong> <strong>di</strong>fferenze e <strong>di</strong> relazioni nella popolazione. Pertanto,<br />

se sono visibili nel campione, esse sono dovute al campionamento e non riflettono la situazione<br />

reale della popolazione.<br />

L'ipotesi alternativa (H 1 ) <strong>di</strong>ce che le <strong>di</strong>fferenze e le relazioni intraviste nel campione<br />

riflettono realmente la situazione della popolazione e non sono dovute al caso.<br />

Lo scopo <strong>di</strong> un test statistico inferenziale e' calcolare la probabilita' che l'ipotesi nulla sia<br />

vera. Se questa e' troppo bassa, puo' essere rifiutata a favore <strong>di</strong> quella alternativa. In questo caso<br />

i risultati del campione si <strong>di</strong>cono significativi.<br />

Tutti i test statistici si basano sulle seguenti due assunzioni:<br />

- il campione deve essere estratto a caso dalla popolazione<br />

- se il test e' parametrico, i valori della popolazione devono essere <strong>di</strong>stribuiti normalmente.<br />

Il test statistico ha due funzioni:<br />

- descrive la situazione dei campioni in<strong>di</strong>cando legami o <strong>di</strong>fferenze tra due o piu' campioni<br />

come il test t <strong>di</strong> Student e il test F dell’analisi della varianza o relazioni tra variabili<br />

all’interno <strong>di</strong> uno stesso campione come il coefficiente <strong>di</strong> correlazione r e il test chi-<br />

4-39


quadrato.<br />

- permette <strong>di</strong> valutare la significativita' <strong>di</strong> <strong>di</strong>fferenze tra campioni o <strong>di</strong> relazioni nello stesso<br />

campione. Questa seconda funzione e' possibile solo se si conosce la <strong>di</strong>stribuzione <strong>di</strong><br />

probabilita’ del test stesso valutata nella situazione in cui l'ipotesi nulla e' vera.<br />

La probabilita' che l'ipotesi nulla sia corretta e' riferita ad un livello <strong>di</strong> significativita'.<br />

L'ipotesi nulla puo' essere rifiutata se e' poco probabile. Valori <strong>di</strong> probabilita’ 0.05 o inferiori sono<br />

tra<strong>di</strong>zionalmente scelti.<br />

Stabilito il livello <strong>di</strong> significativita', guardando i tabulati della <strong>di</strong>stribuzione del test riportati nei<br />

libri <strong>di</strong> statistica (ve<strong>di</strong> anche in Appen<strong>di</strong>ce), si trova il corrispondente valore critico (t c ) del test<br />

statistico. Per esempio, il valore critico del test ad un livello <strong>di</strong> 0.05 in<strong>di</strong>ca che sotto l'ipotesi nulla ci<br />

sono 5 probabilita' su 100 <strong>di</strong> ottenere un valore del test uguale o superiore al valore critico.<br />

Se il test osservato e' superiore o uguale al valore critico e' possibile rifiutare l'ipotesi nulla<br />

ritenendola non corretta sapendo che la probabilita' <strong>di</strong> sbagliare e' minore o uguale del livello<br />

scelto (al massimo si sbaglia 5 volte su 100).<br />

4.8 TEST PARAMETRICI<br />

Come gia’ spiegato nel paragrafo 4.3, tutti i test <strong>di</strong> significativita’ parametrici si basano su<br />

determinate ipotesi circa i dati, come la normalita’ della <strong>di</strong>stribuzione <strong>di</strong> frequenza della<br />

popolazione <strong>di</strong> appartenenza. Inoltre essi sono applicabili solo a dati misurati con scala intervallare<br />

o razionale. Tra i test parametrici piu’ noti e <strong>di</strong> largo utilizzo presentiamo il test t <strong>di</strong> Student e il test<br />

F dell’analisi della varianza per il confronto tra due o piu’ campioni e il coefficiente <strong>di</strong> correlazione<br />

r <strong>di</strong> Pearson per evidenziare la relazione tra due variabili osservate nell’ambito <strong>di</strong> uno stesso<br />

campione.<br />

4.8.1 Test t <strong>di</strong> Student<br />

Il test t <strong>di</strong> Student e' un test parametrico utilizzato per verificare se la <strong>di</strong>fferenza fra le me<strong>di</strong>e<br />

<strong>di</strong> due serie <strong>di</strong> valori e' statisticamente significativa. Esso <strong>di</strong>ce se le due serie <strong>di</strong> dati appartengono<br />

alla stessa popolazione o a due popolazioni <strong>di</strong>stinte.<br />

L'ipotesi nulla del test (H 0 ) stabilisce che le due serie <strong>di</strong> dati appartengono alla stessa<br />

popolazione <strong>di</strong>stribuita normalmente o a due identiche popolazioni normali dalle quali sono state<br />

estratte casualmente e che, pertanto, non ci sono <strong>di</strong>fferenze tra le me<strong>di</strong>e e, se ci sono, sono<br />

dovute alle variazioni casuali.<br />

Il test t per questo confronto e’ dato dal rapporto tra le <strong>di</strong>fferenze delle me<strong>di</strong>e e la<br />

deviazione standard stimata della <strong>di</strong>fferenza tra le me<strong>di</strong>e secondo la seguente formula:<br />

4-40


t<br />

=<br />

| µ<br />

N<br />

1<br />

+ N<br />

σ<br />

N N<br />

1<br />

− µ<br />

2<br />

|<br />

1<br />

2<br />

2<br />

(4.24)<br />

dove σ, che costituisce la deviazione standard stimata della popolazione, e’ data da:<br />

2<br />

2<br />

( N1<br />

−1)<br />

s1<br />

+ ( N<br />

2<br />

−1)<br />

s2<br />

σ =<br />

(4.25)<br />

N + N − 2<br />

1<br />

2<br />

in cui s 1 e s 2 sono le deviazioni standard dei due campioni.<br />

Se i due campioni appartengono alla stessa popolazione la <strong>di</strong>fferenza delle loro me<strong>di</strong>e non e'<br />

lontana dall'errore standard [eq.(4.20)]. Quanto piu' i due campioni appartengono alla stessa<br />

popolazione, tanto piu' il valore del test t e' piccolo.<br />

Il numero <strong>di</strong> gra<strong>di</strong> <strong>di</strong> liberta’ per questo test e’ dato dalla somma delle numerosita’ dei due<br />

gruppi sottratta <strong>di</strong> 2 unita’ (g.l. = N 1 + N 2 - 2).<br />

4.8.1.1 Esempio <strong>di</strong> calcolo<br />

In due <strong>di</strong>stinti gruppi <strong>di</strong> stazioni <strong>di</strong> rilevamento sono state misurate le temperature alle stesse<br />

ore nello stesso giorno. Si vuole testare se le temperature me<strong>di</strong>e dei due gruppi possono essere<br />

ritenute uguali.<br />

Trovate la me<strong>di</strong>e e le deviazioni standard per ciascun gruppo <strong>di</strong> valori (Tab. 4.6), applicando<br />

le formule (4.25) e (4.24) otteniamo:<br />

σ =<br />

2<br />

(6 −1)<br />

⋅1.298<br />

+ (7 −1)<br />

⋅1.102<br />

6 + 7 − 2<br />

2<br />

= 1.1947<br />

t<br />

11−13<br />

12<br />

=<br />

=<br />

1.1947 ⋅<br />

6 + 7<br />

6 × 7<br />

3.009<br />

I gra<strong>di</strong> <strong>di</strong> liberta’ sono (6 + 7 - 2) = 11. Consultando la tabella in Appen<strong>di</strong>ce A, in cui sono<br />

riportati i valori critici per la statistica t <strong>di</strong> Student, troviamo che in corrispondenza <strong>di</strong> 11 gra<strong>di</strong> <strong>di</strong><br />

liberta’ e del livello <strong>di</strong> significativita’ 0.05, il valore del test a due code e’ 2.201.<br />

4-41


Tab. 4.6 Valori <strong>di</strong> temperatura (°C) e relative<br />

statistiche in due gruppi <strong>di</strong> stazioni <strong>di</strong><br />

rilevamento.<br />

Gruppo 1 Gruppo 2<br />

1 9.8 10.7<br />

2 10.1 12.9<br />

3 10.4 13<br />

4 10.6 13.2<br />

5 11.9 13.3<br />

6 13.2 13.8<br />

7 14.1<br />

N 6 7<br />

me<strong>di</strong>a 11 13<br />

sigma 1.298 1.102<br />

Questo corrisponde al valore<br />

assoluto massimo che delimita la zona <strong>di</strong><br />

accettazione. Poiche’ il valore calcolato <strong>di</strong><br />

t supera questo limite, cio’ significa che<br />

esso cade nella zona <strong>di</strong> rifiuto e quin<strong>di</strong><br />

possiamo affermare che le due me<strong>di</strong>e<br />

sono significativamente <strong>di</strong>verse tra loro al<br />

livello <strong>di</strong> significativita’ scelto (α = 0.05).<br />

4.8.2 Analisi della varianza (ANOVA)<br />

L’analisi della varianza, in<strong>di</strong>cata piu’ sinteticamente con il termine acronimo ANOVA<br />

(dall’inglese ANalysis Of VAriance), consente <strong>di</strong> verificare se le me<strong>di</strong>e <strong>di</strong> una variabile relativa a due<br />

o piu’ campioni appartengono o no alla stessa popolazione.<br />

L’ANOVA permette quin<strong>di</strong> <strong>di</strong> vedere se due o piu’ gruppi sono omogenei rispetto ad una<br />

variabile e se il criterio o fattore 2 che ha determinato la sud<strong>di</strong>visione in gruppi ha influenzato i<br />

valori della variabile. Ad esempio l’effetto <strong>di</strong> un fertilizzante sulla resa <strong>di</strong> un prodotto agricolo puo’<br />

essere stu<strong>di</strong>ato eseguendo piu’ prove sperimentali in cui il fertilizzante, che costituisce il fattore<br />

controllato, e’ dosato in maniera <strong>di</strong>versificata.<br />

A <strong>di</strong>fferenza del test t <strong>di</strong> Student, che si limita a comparare solo due gruppi, il test<br />

dell’ANOVA e’ il solo utilizzabile quando si hanno tre o piu’ serie <strong>di</strong> dati parametrici. In questo caso,<br />

infatti, non e’ statisticamente ammissibile confrontare, con test t multipli, piu’ serie <strong>di</strong> dati presi a<br />

coppie. Infatti, il test t suppone che le me<strong>di</strong>e dei due gruppi a confronto siano ottenute da due soli<br />

campioni, mentre le tecniche per i confronti che seguono l’ANOVA (confronti post-hoc) tengono<br />

conto specificatamente del fatto che le me<strong>di</strong>e derivano da piu’ <strong>di</strong> due campioni.<br />

L’ANOVA puo’ essere applicata se la variabile sod<strong>di</strong>sfa i seguenti requisiti: la scala <strong>di</strong><br />

misurazione e’ intervallare o razionale, la <strong>di</strong>stribuzione e’ normale, i campioni sono casuali e<br />

in<strong>di</strong>pendenti e le varianze dei gruppi sono omogenee.<br />

Per indagare se i gruppi sono omogenei rispetto ad una variabile o piuttosto se la<br />

classificazione e’ significativa si valutano due quantita’: la varianza all’interno dei gruppi (V intra ) e la<br />

⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯<br />

2 Nell’ANOVA e’ contemplata la possibilita’ <strong>di</strong> considerare l’influenza <strong>di</strong> piu’ <strong>di</strong> un criterio o fattore<br />

(ANOVA a criteri multipli). Riman<strong>di</strong>amo ad una testo <strong>di</strong> statistica la spiegazione dell’analisi della varianza che<br />

considera contemporaneamente l’effetto <strong>di</strong> piu’ fattori <strong>di</strong> variazione.<br />

4-42


varianza tra i gruppi (V inter ) calcolata sulle me<strong>di</strong>e dei valori per gruppo. Entrambe sono espressioni<br />

della varianza totale (V tot ) e sono in relazione con questa tramite la seguente espressione, valida<br />

nel caso <strong>di</strong> gruppi <strong>di</strong> uguale numerosita’:<br />

V tot = V intra + V inter (4.26)<br />

o tramite la sottostante equazione applicabile anche a gruppi <strong>di</strong> <strong>di</strong>fferente numerosita’<br />

perche’ considera le devianze [DV, eq.(4.16)], multipli delle varianze, che godono della proprieta’<br />

ad<strong>di</strong>tiva:<br />

DV tot = DV intra + DV inter (4.27)<br />

L’in<strong>di</strong>ce statistico F è calcolato come rapporto tra le due varianze V inter e V intra .<br />

V<br />

V<br />

inter<br />

F = (4.28)<br />

intra<br />

Se la variabilita’ dei gruppi e’ casuale, ci aspettiamo che la variabilita’ all’interno <strong>di</strong> ogni<br />

gruppo (V intra ) sia simile a quella tra i gruppi (V inter ) e in questo caso il rapporto F dovrebbe<br />

tendere all’unita’. Quando la variabilita’ tra i gruppi (V inter ) e’ piu’ grande rispetto alla variabilita’<br />

all’interno dei gruppi (V intra ) si puo’ ipotizzare che la classificazione in gruppi sia effettivamente<br />

giustificata dal fattore che l’ha imposta e l’in<strong>di</strong>ce <strong>di</strong>venta significativo.<br />

La significativita’ del test F viene vagliata con le relative tabelle in rapporto ai gra<strong>di</strong> <strong>di</strong> liberta’<br />

associati sia al numeratore (n 1 ) che al denominatore (n 2 ) che sono calcolati nella seguente<br />

maniera:<br />

n 1 = numero <strong>di</strong> osservazioni totali (N) – numero <strong>di</strong> gruppi (4.29)<br />

n 2 = numero <strong>di</strong> gruppi – 1 (4.30)<br />

Come nel test t, anche nell’analisi della varianza l’ipotesi nulla <strong>di</strong>ce che i campioni sono stati<br />

estratti dalla stessa popolazione <strong>di</strong>stribuita normalmente; cio’ comporta che i gruppi a confronto<br />

sono omogenei rispetto alla variabile considerata e che, quin<strong>di</strong>, il criterio con cui sono stati<br />

in<strong>di</strong>viduati e’ ininfluente sulla variabile stessa. L’ipotesi alternativa <strong>di</strong>ce che i campioni provengono<br />

da popolazioni con <strong>di</strong>fferenti <strong>di</strong>stribuzioni e, <strong>di</strong> conseguenza, che i gruppi, <strong>di</strong>somogenei rispetto alla<br />

variabile considerata, sono stati influenzati dal fattore scelto.<br />

Un valore significativo del test F nell’analisi della varianza in<strong>di</strong>ca che esiste una <strong>di</strong>fferenza tra<br />

i gruppi comparati che, pertanto, non possono essere considerati appartenenti alla stessa<br />

popolazione; piu’ precisamente esso <strong>di</strong>ce che almeno uno dei gruppi comparati <strong>di</strong>fferisce<br />

4-43


significativamente dagli altri senza, peraltro, in<strong>di</strong>care quale. Per indagare ulteriormente quali<br />

gruppi si <strong>di</strong>fferenziano tra loro, sono necessarie procedure <strong>di</strong> comparazione multipla (confronti<br />

post-hoc) come il test <strong>di</strong> Tukey (HSD), <strong>di</strong> Duncan o <strong>di</strong> Bonferroni per la spiegazione dei quali<br />

riman<strong>di</strong>amo a testi <strong>di</strong> statistica.<br />

4.8.2.1 Esempio <strong>di</strong> calcolo<br />

In tre campioni <strong>di</strong> funghi provenienti da tre <strong>di</strong>fferenti stazioni boschive (A, B, C) sono state<br />

rilevate N=25 misure della concentrazione <strong>di</strong> un certo inquinante in microgrammi per grammo <strong>di</strong><br />

sostanza secca. Si e’ interessati a conoscere se gli ambienti delle tre stazioni <strong>di</strong>versificano nella<br />

quantita’ <strong>di</strong> sostanza inquinante assorbita dai funghi.<br />

Tab. 4.7 Tabella dei dati relativi alla concentrazione <strong>di</strong> una sostanza inquinante nei<br />

funghi <strong>di</strong> tre stazioni <strong>di</strong> rilevamento. Sono riportate le statistiche utili ai fini dell’analisi<br />

della varianza calcolate per ciascun campione e per tutti i dati.<br />

A B C<br />

1 13.1 10.3 15.1<br />

2 14.6 13.7 14.4<br />

3 14.3 13.9 15.8<br />

4 13.8 14.7 16.5<br />

5 12.9 15.2 15.9<br />

6 15.6 15.2 15.4<br />

7 14.7 13.6 15.5<br />

8 15.4 14.7<br />

9 14.9<br />

10 14.8 A + B + C<br />

n 8 7 10 N 25<br />

Σx 114.4 96.6 153 Σx 364<br />

_<br />

x 14.3 13.8 15.3<br />

_<br />

x 14.56<br />

Σx 2 1642.72 1350.12 2344.62 Σx 2 5337.46<br />

In virtu’ dell eq. (4.27) possiamo trovare la devianza totale e quelle all’interno <strong>di</strong> ciascun<br />

trattamento e dedurre in seguito quella tra i trattamenti per <strong>di</strong>fferenza.<br />

<strong>di</strong> dati:<br />

Inizialmente calcoliamo la devianza totale (DV tot ) applicando la formula (4.16) sull’intero set<br />

DV<br />

tot<br />

364<br />

= 5337.46 −<br />

25<br />

2<br />

= 37.62<br />

Analogamente calcoliamo le devianze all’interno <strong>di</strong> ciascun campione:<br />

DV<br />

intraA<br />

114.4<br />

= 1642.72 −<br />

8<br />

2<br />

= 6.8<br />

4-44


DV<br />

intraB<br />

DV intraC<br />

96.6<br />

= 1350.12 −<br />

7<br />

153<br />

= 2344.62 −<br />

10<br />

2<br />

2<br />

= 17.04<br />

= 3.72<br />

Sommiamo queste ultime devianze per trovare la devianza totale all’interno dei gruppi:<br />

DV<br />

intra<br />

= DVintraA<br />

+ DVintraB<br />

+ DVintraC<br />

= 6 .8 + 17.04 + 3.72 = 27.56<br />

i cui gra<strong>di</strong> <strong>di</strong> liberta’ sono n 2 = 25 – 3 = 22.<br />

Troviamo ora la devianza tra i campioni (DV inter ) per <strong>di</strong>fferenza tra la devianza totale e quella<br />

all’interno dei gruppi:<br />

DV inter =DV tot - DV intra = 37.62 - 27.56 = 10.06<br />

i cui gra<strong>di</strong> <strong>di</strong> liberta’ sono n 1 = 3 – 1 = 2<br />

La devianza tra i campioni puo’ essere trovata anche <strong>di</strong>rettamente calcolando le <strong>di</strong>fferenze<br />

quadratiche tra i valori me<strong>di</strong> dei gruppi, considerate un numero <strong>di</strong> volte pari alla frequenza dei<br />

gruppi, e il valore me<strong>di</strong>o <strong>di</strong> tutte le osservazioni:<br />

DV<br />

inter<br />

= 8 × (14.3 −14.56)<br />

2<br />

+ 7 × (13.8 −14.56)<br />

2<br />

+ 10 × (15.3 −14.56)<br />

2<br />

= 10.06<br />

Dividendo le devianze appena trovate per i rispettivi gra<strong>di</strong> <strong>di</strong> liberta’ otteniamo le<br />

corrispettive varianze:<br />

V<br />

V<br />

inter<br />

intra<br />

DV<br />

=<br />

n<br />

inter<br />

1<br />

DV<br />

=<br />

n<br />

intra<br />

2<br />

10.06<br />

= = 5.03<br />

2<br />

27.56<br />

= = 1.253<br />

22<br />

Infine calcoliamo l’in<strong>di</strong>ce F eseguendo il rapporto tra le due varianze:<br />

V<br />

F =<br />

V<br />

inter<br />

intra<br />

=<br />

5.03<br />

1.253<br />

= 4.015<br />

I risultati dell’ANOVA sono sintetizzati nella tabella sottostante.<br />

Tab. 4.8 Risultati dell’analisi della varianza applicata ai dati <strong>di</strong> Tab. 4.7.<br />

Devianza g.l. Varianza F Probabilita’<br />

Tra gruppi 10.06 2 5.030 4.015 0.033<br />

Entro gruppi 27.56 22 1.253<br />

Totale 37.62 24<br />

4-45


Per conoscere la significativita’ del valore appena trovato consultiamo la tabella <strong>di</strong> Appen<strong>di</strong>ce<br />

B in cui sono riportati i valori critici per il test F al livello <strong>di</strong> significativita’ 0.05. In corrispondenza<br />

delle colonna 2 (n 1 ) e della riga 22 (n 2 ) troviamo un valore critico <strong>di</strong> F uguale a 3.44. Essendo il<br />

valore trovato 4.015 superiore al valore critico, possiamo rifiutare l’ipotesi nulla e ritenere che le<br />

tre stazioni boschive <strong>di</strong> rilevamento si <strong>di</strong>fferenziano significativamente per la quantita’<br />

dell’inquinante assorbito dai funghi. La probabilita’ esatta calcolata col software specifico e’ 0.033.<br />

4.9 CORRELAZIONE<br />

La correlazione tra due o piu’ variabili osservate su <strong>di</strong> uno stesso insieme <strong>di</strong> oggetti <strong>di</strong>ce<br />

quanto esse varino congiuntamente i propri valori. Si parla <strong>di</strong> correlazione lineare quando le<br />

variabili variano linearmente.<br />

Si definisce correlazione lineare positiva o <strong>di</strong>retta quella tra due variabili quando al crescere<br />

dei valori <strong>di</strong> una crescono anche quelli dell'altra e <strong>di</strong> correlazione lineare negativa o inversa<br />

quando al crescere dei valori <strong>di</strong> una decrescono quelli dell'altra.<br />

La misura della correlazione lineare varia tra i valori -1 e +1 che in<strong>di</strong>cano rispettivamente la<br />

massima correlazione negativa e positiva. Il valore 0 in<strong>di</strong>ca che non esiste alcuna correlazione<br />

lineare tra le due variabili; cio’ non esclude la presenza <strong>di</strong> una relazione <strong>di</strong> tipo non lineare tra le<br />

stesse.<br />

Se due variabili X e Y sono correlate linearmente, non si puo' conoscere il tipo <strong>di</strong> <strong>di</strong>pendenza<br />

esistente tra le due variabili. Non si puo' <strong>di</strong>re cioe' che X e' causa <strong>di</strong> Y o che Y <strong>di</strong>pende da X.<br />

Sebbene per certe coppie <strong>di</strong> variabili la legge <strong>di</strong> <strong>di</strong>pendenza sia nota (es. leggi della fisica), per la<br />

maggior parte delle variabili utilizzate nelle indagini ecologiche questo non e' vero. Tuttavia tutte le<br />

correlazioni sono utilizzate per stimare il valore <strong>di</strong> una variabile una volta noto il valore dell'altra.<br />

4.9.1 Correlazione lineare parametrica: coefficiente <strong>di</strong> Pearson<br />

Il coefficiente <strong>di</strong> correlazione r <strong>di</strong> Pearson misura la relazione lineare esistente tra due<br />

variabili che sono state misurate entrambe su una scala <strong>di</strong> intervalli o <strong>di</strong> rapporti. Esso in<strong>di</strong>ca<br />

quanto due variabili variano assieme, cioe’ quanto all’incremento <strong>di</strong> una corrisponde un incremento<br />

o una <strong>di</strong>minuizione dell’altra. Una correlazione uguale a 0 in<strong>di</strong>ca che le due variabili non variano<br />

assieme, mentre un elevato valore positivo o negativo <strong>di</strong> correlazione in<strong>di</strong>ca che le due variabili<br />

variano assieme nello stesso senso o in senso inverso.<br />

Il coefficiente <strong>di</strong> correlazione r e' espresso con la seguente formula:<br />

4-46


∑(<br />

x − x)(<br />

y − y)<br />

r = (4.31)<br />

2<br />

2<br />

∑(<br />

x − x)<br />

∑(<br />

y − y)<br />

Esso si puo' descrivere come il rapporto tra la codevianza delle due variabili e la ra<strong>di</strong>ce<br />

quadrata del prodotto delle rispettive devianze oppure come rapporto tra la covarianza e il<br />

prodotto delle deviazioni standard.<br />

Per abbreviare i calcoli evitando <strong>di</strong> calcolare le me<strong>di</strong>e, l'equazione puo' essere scritta anche<br />

nella seguente formula equivalente:<br />

N ∑ xy − ∑ x ∑ y<br />

r = (4.32)<br />

2<br />

2<br />

2<br />

2<br />

[ N ∑ x − ( ∑ x)<br />

] × [ N ∑ y − ( ∑ y)<br />

]<br />

La misura della correlazione non <strong>di</strong>pende da quale variabile si sceglie come <strong>di</strong>pendente o<br />

in<strong>di</strong>pendente e, per questo, è un'ottima misura per valutare la relazione tra le variabili.<br />

E' inoltre una misura a<strong>di</strong>mensionale e quin<strong>di</strong> in<strong>di</strong>pendente dall'unita' <strong>di</strong> misura delle variabili<br />

considerate.<br />

4.9.2 Significativita' del coefficiente <strong>di</strong> correlazione<br />

Il coefficiente <strong>di</strong> correlazione puo' essere usato semplicemente come una misura descrittiva<br />

del grado <strong>di</strong> correlazione <strong>di</strong> due variabili in un campione. Se il ricercatore e' interessato alla<br />

significativita' <strong>di</strong> una particolare correlazione, ha bisogno <strong>di</strong> conoscere quanto e' probabile che il<br />

coefficiente <strong>di</strong> correlazione del campione sia un'accurata stima del coefficiente <strong>di</strong> correlazione della<br />

popolazione da cui il campione e’ stato estratto. L'ipotesi nulla <strong>di</strong>ce che i campioni sono stati<br />

estratti casualmente da una popolazione in cui i due caratteri sono in<strong>di</strong>pendenti e <strong>di</strong>stribuiti<br />

normalmente. Ogni apparente correlazione nei dati e' dovuta alle fluttuazioni del campionamento.<br />

L'ipotesi alternativa <strong>di</strong>ce che c'e' una correlazione tra le due variabili nella popolazione, cioe'<br />

che il coefficiente <strong>di</strong> correlazione nella popolazione non e' zero. L'ipotesi alternativa puo' prendere<br />

una delle due forme. Se si e' interessati solo a verificare l'esistenza della correlazione senza<br />

specificare il segno della correlazione, il test e' bi<strong>di</strong>rezionale, cioe' a due code; se invece l'ipotesi<br />

alternativa specifica anche la <strong>di</strong>rezione della correlazione, cioe' se e' positiva o negativa, il test<br />

usato e' ad una coda.<br />

Ad esempio, un coefficiente r = 0.83 tra due caratteri <strong>di</strong> un campione <strong>di</strong> 12 unita' in<strong>di</strong>ca una<br />

forte correlazione positiva. Si tratta <strong>di</strong> valutare qual’e’ la probabilita’ che il campione provenga da<br />

una popolazione in cui il coefficiente r sia 0 (ipotesi nulla). Tenendo presente le <strong>di</strong>mensioni del<br />

campione e basandosi sull'assunzione che entrambe le variabili sono <strong>di</strong>stribuite normalmente, e'<br />

4-47


possibile calcolare la <strong>di</strong>stribuzione campionaria <strong>di</strong> r sotto l'ipotesi nulla.<br />

I gra<strong>di</strong> <strong>di</strong> liberta' per questo test corrispondono al numero <strong>di</strong> coppie <strong>di</strong> osservazioni <strong>di</strong>minuito<br />

<strong>di</strong> due unita' (g.l. = N - 2). Dalla tabella <strong>di</strong> Appen<strong>di</strong>ce C ve<strong>di</strong>amo che, per un test a due code, il<br />

valore critico <strong>di</strong> r al livello <strong>di</strong> significativita' 0.05 in corrispondenza <strong>di</strong> 10 gra<strong>di</strong> <strong>di</strong> liberta' e' 0.576.<br />

Questo significa che quando il coefficiente r della popolazione e' zero, la probabilita' che un<br />

campione casuale <strong>di</strong> 12 in<strong>di</strong>vidui abbia un coefficiente r uguale o in valore assoluto piu' grande <strong>di</strong><br />

0.576 e' del 5%. Il valore 0.83 da noi riscontrato nel campione, essendo piu’ grande <strong>di</strong> 0.576, ci<br />

permette <strong>di</strong> rifiutare l'ipotesi nulla a favore dell'ipotesi alternativa.<br />

4.9.3 Esempio <strong>di</strong> calcolo<br />

In 10 unita’ territoriali <strong>di</strong> rilevamento poste a <strong>di</strong>fferente quota altitu<strong>di</strong>nale sono state rilevate<br />

le temperature me<strong>di</strong>e annue. Si vuole indagare se esiste una correlazione significativa tra<br />

l’altitu<strong>di</strong>ne espressa in metri sul livello del mare e la temperatura me<strong>di</strong>a annuale espressa in gra<strong>di</strong><br />

centigra<strong>di</strong>. I dati rilevati, le me<strong>di</strong>e ed alcuni risultati interme<strong>di</strong> per il calcolo del coefficiente <strong>di</strong><br />

correlazione sono riportati in Tab. 4.9.<br />

Tab. 4.9 Valori <strong>di</strong> altitu<strong>di</strong>ne (x) e <strong>di</strong> temperatura me<strong>di</strong>a annuale (y) rilevati in 10 stazioni <strong>di</strong> rilevamento e risultati<br />

interme<strong>di</strong> per il calcolo del loro coefficiente <strong>di</strong> correlazione.<br />

Altitu<strong>di</strong>ne<br />

T (°C)<br />

x y x − x<br />

y − y ( x − x)(<br />

y − y)<br />

2<br />

( x − x)<br />

2<br />

( y − y)<br />

1 779 13.3 358 -1.4 -501.2 128164 1.96<br />

2 647 13.2 226 -1.5 -339 51076 2.25<br />

3 434 15.1 13 0.4 5.2 169 0.16<br />

4 703 13.7 282 -1 -282 79524 1<br />

5 560 14 139 -0.7 -97.3 19321 0.49<br />

6 263 15.9 -158 1.2 -189.6 24964 1.44<br />

7 350 15.4 -71 0.7 -49.7 5041 0.49<br />

8 98 16.7 -323 2 -646 104329 4<br />

9 216 13.3 -205 -1.4 287 42025 1.96<br />

10 160 16.4 -261 1.7 -443.7 68121 2.89<br />

x y ∑ ( x − x)(<br />

y − y)<br />

∑ ( x − x)<br />

2<br />

∑ ( y − y)<br />

2<br />

421 14.7 -2256.3 522734 16.64<br />

Utilizzando i risultati interme<strong>di</strong>, il coefficiente <strong>di</strong> correlazione e’ dato da:<br />

r =<br />

− 2256.3<br />

522734×<br />

16.64<br />

= −0.765<br />

4-48


Leggendo nella tavola <strong>di</strong> Appen<strong>di</strong>ce C i valori critici del coefficiente r, si trova che in<br />

corrispondenza <strong>di</strong> 8 gra<strong>di</strong> <strong>di</strong> liberta’ (g.l. = 10-2), il valore critico del test a due code per α=0.01 e’<br />

0.765. Essendo il valore assoluto calcolato (0.765) esattamente uguale al valore critico, possiamo<br />

respingere l’ipotesi nulla e ritenere la correlazione tra l’altitu<strong>di</strong>ne e la temperatura me<strong>di</strong>a annuale<br />

significativa al livello 1%. Facciamo notare che, utilizzando il test a due code, siamo interessati<br />

solo all’esistenza della correlazione e non al suo segno. Se volessimo testare la significativita’ della<br />

correlazione negativa tra le due variabili, dovremmo consultare i valori critici in corrispondenza del<br />

livello <strong>di</strong> significativita’ scelto per il test ad una coda. E’ evidente che, ampliando solo ad una<br />

estremita’ (coda) della <strong>di</strong>stribuzione <strong>di</strong> r l’ampiezza della zona <strong>di</strong> rifiuto, il valore critico <strong>di</strong> r si<br />

abbassa. Infatti, mantenendo il livello α/2=0.01 troviamo che il valore critico <strong>di</strong> r corrispondente e’<br />

0.716 che, essendo un valore inferiore a quello trovato, ci permette <strong>di</strong> ritenere la correlazione<br />

significativamente negativa e ci suggerisce che la probabilita’ esatta <strong>di</strong> trovare valori <strong>di</strong><br />

correlazione uguali o piu’ gran<strong>di</strong> in valore assoluto <strong>di</strong> quello trovato e’ ancora piu’ piccola <strong>di</strong> 0.01.<br />

Per questo nostro caso, fortuitamente, siamo in grado <strong>di</strong> leggere la probabilita’ <strong>di</strong>rettamente dalla<br />

tabella essendo il valore trovato un valore critico corrispondente esattamente al livello <strong>di</strong><br />

α/2=0.005.<br />

4.10 REGRESSIONE<br />

Quando due variabili X, Y sono correlate (linearmente o no) e' possibile prevedere il valore<br />

che assume una delle due variabili conoscendo il valore assunto dall'altra nello stesso caso. Questo<br />

e' imme<strong>di</strong>ato se e’ nota la relazione esistente tra le variabili. Ad esempio abbiamo visto che tra le<br />

due unita’ <strong>di</strong> misura della temperatura in gra<strong>di</strong> centigra<strong>di</strong> (°C) e Fahrenheit (°F) esiste la seguente<br />

relazione lineare °F = 1,8°C + 32 che ci permette <strong>di</strong> trasformare i valori secondo un’unita’ <strong>di</strong><br />

misura una volta noti i valori espressi nell’unita’ alternativa. Per lo piu’ le relazioni esistenti tra i<br />

parametri ecologici non sono perfette e molte non sono nemmeno lineari.<br />

La tecnica della regressione ha lo scopo <strong>di</strong> trovare la relazione esistente tra due variabili<br />

correlate e <strong>di</strong> esprimerla tramite un’equazione matematica che costituisce la retta o la curva <strong>di</strong><br />

regressione.<br />

La variabile che viene stimata si definisce variabile <strong>di</strong>pendente ed e' simbolicamente<br />

rappresentata con la lettera Y, mentre quella che si presuppone la influenzi e’ detta variabile<br />

in<strong>di</strong>pendente ed e' rappresentata con la lettera X.<br />

Riportando su <strong>di</strong> un grafico a <strong>di</strong>spersione X-Y tutti i punti relativi alle misurazioni, e' possibile<br />

calcolare e <strong>di</strong>segnare la retta o curva ottimale che rappresenta la relazione tra X e Y. Essa<br />

rappresenta la retta o curva <strong>di</strong> regressione che puo' essere espressa con un'equazione<br />

4-49


matematica.<br />

L'equazione della retta e':<br />

y = ax+b<br />

(4.33)<br />

dove a e' il coefficiente angolare della retta e b e' il termine noto, cioe' l'intercetta sull'asse y.<br />

Le costanti a e b sono determinate risolvendo il seguente sistema <strong>di</strong> equazioni:<br />

⎧∑<br />

y = a ∑ x + bN<br />

⎨<br />

2<br />

(4.34)<br />

⎩∑<br />

xy = a ∑ x + b∑<br />

x<br />

che sono dette equazioni normali della retta dei minimi quadrati. Essa e’ la retta che rende<br />

minima la somma dei quadrati delle <strong>di</strong>stanze dei punti osservati da quelli della retta stessa. Le<br />

<strong>di</strong>stanze considerate con questo criterio sono parallele (non perpen<strong>di</strong>colari) all’asse verticale (ve<strong>di</strong><br />

figura sottostante).<br />

y<br />

Σd 2 =minima<br />

d<br />

x<br />

Fig. 4.10 Retta dei minimi quadrati in un <strong>di</strong>agramma a <strong>di</strong>spersione<br />

x-y. Essa e’ costruita in maniera tale da rendere minima la somma<br />

delle <strong>di</strong>stanze (d) quadratiche dei punti dalla retta stessa.<br />

Procedendo nella risoluzione del sistema (4.34) i coefficienti a e b si trovano applicando le<br />

seguenti formule:<br />

∑ xy − N x y<br />

a =<br />

2<br />

2<br />

∑ x − N x<br />

(4.35)<br />

b = y − ax<br />

(4.36)<br />

Quando tutti i punti osservati giacciono su <strong>di</strong> una retta, la varianza della variabile <strong>di</strong>pendente<br />

e' completamente spiegata da quella in<strong>di</strong>pendente e la relazione tra le due variabili risulta<br />

4-50


completamente chiarita dall’equazione stessa.<br />

Nel caso non ci sia una perfetta corrispondenza, la relazione tra le due variabili non e'<br />

completamente spiegata. Le <strong>di</strong>fferenze tra i valori osservati della variabile <strong>di</strong>pendente y e quelli<br />

attesi y a giacenti tutti sulla retta <strong>di</strong> regressione costituiscono i residui della regressione. Quanto<br />

piu' piccoli in valore assoluto sono i residui, tanto piu' la retta trovata e' rappresentativa della<br />

relazione esistente tra le due variabili.<br />

Un metodo standard per saggiare la bonta' <strong>di</strong> adattamento della regressione e' <strong>di</strong> valutare<br />

quanto la regressione tiene conto della variazione dei valori osservati della variabile <strong>di</strong>pendente.<br />

Per ottenere questo si utilizza il coefficiente <strong>di</strong> determinazione r 2 che e' dato dal rapporto tra<br />

la varianza dei valori attesi (varianza della regressione) e quella dei valori osservati (varianza<br />

totale) e che rappresenta il quadrato del noto coefficiente <strong>di</strong> correlazione. Quanto piu' questo<br />

rapporto si avvicina a 1, tanto piu' i punti si trovano in prossimita' della retta e la relazione tra le<br />

due variabili e' chiaramente spiegata.<br />

r<br />

2<br />

2<br />

∑(<br />

ya<br />

− y)<br />

= (4.37)<br />

2<br />

∑(<br />

y − y)<br />

Tramite il metodo dei minimi quadrati e’ quin<strong>di</strong> possibile in<strong>di</strong>viduare quanto della varianza <strong>di</strong><br />

Y e’ spiegata da X. Ad esempio se il coefficiente <strong>di</strong> determinazione tra X e Y e' 0.58 si potra' <strong>di</strong>re<br />

che il 58% della varianza <strong>di</strong> Y e' spiegata dalla varianza <strong>di</strong> X.<br />

La variabilita' non spiegata dalla regressione viene chiamata variabilita' residua. La relazione<br />

che intercorre tra le variabilita' totale, spiegata e residua e' espressa dalla seguente formula:<br />

2<br />

2<br />

2<br />

∑ ( y − y)<br />

= ∑(<br />

ya<br />

− y)<br />

+ ∑(<br />

y − ya<br />

)<br />

(4.38)<br />

cioe' la variabilita' totale (devianza dei valori osservati) e' uguale alla somma della variabilita'<br />

spiegata dalla regressione (devianza dei valori attesi) e della variabilita' non spiegata, cioe' quella<br />

residua calcolata sulle <strong>di</strong>fferenze dei valori osservati con quelli attesi.<br />

Le due serie <strong>di</strong> dati dei valori osservati e <strong>di</strong> quelli attesi possono essere confrontate anche<br />

con l'analisi della varianza (ve<strong>di</strong> paragrafo 4.8.2). In questo caso il test F e’ dato dal rapporto tra la<br />

varianza dei valori attesi (varianza della regressione) e la varianza dei residui (varianza<br />

dell'errore).<br />

Quando non e’ intuibile il tipo <strong>di</strong> <strong>di</strong>pendenza tra due variabili, si possono assumere<br />

in<strong>di</strong>fferentemente l’una come variabile <strong>di</strong>pendente e l’altra come in<strong>di</strong>pendente. Le due possibili<br />

rette <strong>di</strong> regressione, che si possono calcolare su <strong>di</strong> un <strong>di</strong>agramma a <strong>di</strong>spersione, considerando<br />

4-51


alternativamente una variabile in funzione dell'altra [x=f(y), y=f(x)], sono coincidenti solo se la<br />

correlazione r tra le due variabili e' ± 1. In tal caso le due rette sono identiche e tra le due variabili<br />

esiste una correlazione lineare positiva o negativa perfetta.<br />

Il coefficiente r misura la <strong>di</strong>vergenza delle due rette <strong>di</strong> regressione e costituisce il coseno<br />

dell'angolo tra le due rette. Se le due rette formano tra loro un angolo <strong>di</strong> 0 o 180 gra<strong>di</strong>, le rette<br />

coincidono e il coseno, che esprime la correlazione, assume valore +1 o -1 a seconda che si tratti<br />

<strong>di</strong> una correlazione positiva o negativa Se le due rette sono perpen<strong>di</strong>colari tra loro, cioe’ formano<br />

un angolo <strong>di</strong> 90 gra<strong>di</strong>, il coseno corrispondente e' 0, e questo da' <strong>di</strong>rettamente la misura della<br />

correlazione tra le due variabili che e' nulla.<br />

4.10.1 Esempio <strong>di</strong> calcolo<br />

Calcoliamo la retta <strong>di</strong> regressione della variabile <strong>di</strong>pendente temperatura (T) sulla variabile<br />

in<strong>di</strong>pendente altitu<strong>di</strong>ne (A) per le quali avevamo gia’ calcolato il coefficiente <strong>di</strong> correlazione<br />

nell’esempio del paragrafo 4.9.3.<br />

Tab. 4.10 Valori dei risultati interme<strong>di</strong> per il calcolo dei coefficienti delle retta <strong>di</strong> regressione della temperatura (T) in<br />

rapporto all’altitu<strong>di</strong>ne (A).<br />

A T (°C)<br />

x y xy x 2 y a y − y<br />

2<br />

( y − y)<br />

y a<br />

− y<br />

2<br />

( y a<br />

− y)<br />

y − ya<br />

2<br />

( y − y ) a<br />

1 779 13.3 10360.7 606841 13.16 -1.4 1.96 -1.54 2.38 0.14 0.020<br />

2 647 13.2 8540.4 418609 13.73 -1.5 2.25 -0.97 0.95 -0.53 0.278<br />

3 434 15.1 6553.4 188356 14.65 0.4 0.16 -0.05 0.00 0.45 0.205<br />

4 703 13.7 9631.1 494209 13.49 -1.0 1.00 -1.21 1.47 0.21 0.046<br />

5 560 14.0 7840.0 313600 14.10 -0.7 0.49 -0.60 0.36 -0.10 0.011<br />

6 263 15.9 4181.7 69169 15.38 1.2 1.44 0.68 0.47 0.52 0.265<br />

7 350 15.4 5390.0 122500 15.01 0.7 0.49 0.31 0.10 0.39 0.153<br />

8 98 16.7 1636.6 9604 16.10 2.0 4.00 1.40 1.95 0.60 0.364<br />

9 216 13.3 2872.8 46656 15.59 -1.4 1.96 0.89 0.79 -2.29 5.234<br />

10 160 16.4 2624.0 25600 15.83 1.7 2.89 1.13 1.28 0.57 0.326<br />

x y Σxy Σx 2<br />

∑ ( y − y)<br />

2<br />

( y a<br />

− y)<br />

2<br />

2<br />

∑ ∑ ( y − y ) a<br />

421 14.7 59630.7 2295144 16.64 9.74 6.90<br />

Utilizzando i risultati interme<strong>di</strong> riportati in Tab. 4.10 applichiamo le formule (4.35) e (4.36) per<br />

trovare i coefficienti a e b della retta:<br />

59630.7 −10×<br />

421×<br />

14.7 59630.7 − 61887<br />

a =<br />

=<br />

= −<br />

2<br />

2295144 −10×<br />

421 2295144 −1772410<br />

b = 14.7 − ( −0.00432<br />

× 421) = 16.52<br />

4-52<br />

2256.2<br />

522734<br />

= −0.00432


Sostituendo i valori dei coefficienti nell’equazione della retta generica (4.33) troviamo<br />

l’equazione della retta <strong>di</strong> regressione della temperatura sull’altitu<strong>di</strong>ne: T=-0.00432 A+16.52.<br />

Attribuendo al valore <strong>di</strong> x <strong>di</strong> volta in volta i valori <strong>di</strong> altitu<strong>di</strong>ne osservati si ottengono i valori<br />

<strong>di</strong> temperatura attesi y a per ogni unita’ <strong>di</strong> rilevamento, cioe’ quelli che si avrebbero se la variabilita’<br />

della temperatura fosse completamente spiegata dalla variabilita’ dell’altitu<strong>di</strong>ne e la correlazione<br />

lineare tra le due variabili fosse massima. Calcolate le devianze dei valori osservati e dei valori<br />

attesi, troviamo il coefficiente <strong>di</strong> determinazione [eq. (4.37)]:<br />

2 9.74<br />

r = = 0.5853 r = 0 .585 = 0. 765<br />

16.64<br />

Notiamo che la ra<strong>di</strong>ce quadrata del coefficiente <strong>di</strong> determinazione corrisponde al coefficiente<br />

<strong>di</strong> correlazione trovato nell’esempio del capitolo precedente.<br />

Calcolate le devianze dei valori osservati ed attesi e la somma delle <strong>di</strong>fferenze quadratiche<br />

tra i valori <strong>di</strong> temperatura osservati e quelli attesi, cioe’ i residui, confermiamo l’equivalenza<br />

espressa in eq. (4.38):<br />

16.64=9.74+6.90<br />

17.00<br />

y = 16.5172-0.0043*x<br />

16.50<br />

Temperatura (°C)<br />

16.00<br />

15.50<br />

15.00<br />

14.50<br />

14.00<br />

13.50<br />

13.00<br />

0 100 200 300 400 500 600 700 800 900<br />

Altitu<strong>di</strong>ne (m)<br />

Fig. 4.11 Retta <strong>di</strong> regressione dei valori <strong>di</strong> temperatura in<br />

funzione dei valori altitu<strong>di</strong>nali riportati in Tab. 4.10.<br />

Nel <strong>di</strong>agramma a <strong>di</strong>spersione x-y <strong>di</strong> Fig. 4.11 in cui i valori <strong>di</strong> temperatura sono riportati in<br />

funzione dei valori <strong>di</strong> altitu<strong>di</strong>ne, e’ <strong>di</strong>segnata la retta <strong>di</strong> regressione trovata con il metodo dei<br />

minimi quadrati. Si puo’ notare quanto le posizioni dei punti sono molto prossime alla retta – e cio’<br />

in<strong>di</strong>cherebbe un buon adattamento della retta ai dati - ad eccezione <strong>di</strong> un punto che si <strong>di</strong>scosta<br />

4-53


notevolmente dalla retta. Il punto corrisponde alla stazione <strong>di</strong> rilevamento 9 situata a 263 metri <strong>di</strong><br />

altitu<strong>di</strong>ne in cui e’ stata riscontrata una temperatura <strong>di</strong> 13.3 °C, notevolmente piu’ bassa delle altre<br />

misurate a bassa quota. Cio’ <strong>di</strong>ce che la relazione <strong>di</strong> <strong>di</strong>pendenza tra la temperatura e l’altitu<strong>di</strong>ne<br />

non e’ una legge rigorosa come tante altre leggi fisiche, perche’ sicuramente il valore <strong>di</strong><br />

temperatura <strong>di</strong>pende oltre che dalla quota altitu<strong>di</strong>nale, anche da altri fattori ambientali: come<br />

l’esposizione, l’insolazione e tutto cio’ che contribuisce a formare i microclimi.<br />

4.11 TEST NON PARAMETRICI<br />

Quando non e’ possibile applicare i test parametrici perche’ i dati sono or<strong>di</strong>nali o nominali o,<br />

pur essendo intervallari o razionali, non sono sod<strong>di</strong>sfatti i requisiti per la loro applicazione, si<br />

utilizzano i test non parametrici. Essi non sono vincolati a particolari parametri della popolazione e<br />

si possono usare anche quando le <strong>di</strong>mensioni dei campioni sono piccole.<br />

4.11.1 Chi-quadrato per un campione<br />

Il test chi-quadrato (χ 2 ) per un campione indaga sulla <strong>di</strong>stribuzione <strong>di</strong> una serie <strong>di</strong> dati<br />

organizzati in categorie e confronta la serie delle frequenze osservate con quella delle frequenze<br />

attese, cioe' le frequenze teoriche basate sull'ipotesi nulla, per verificare se esiste una <strong>di</strong>fferenza<br />

significativa tra le due <strong>di</strong>stribuzioni <strong>di</strong> frequenza.<br />

Il test è calcolato con la seguente formula:<br />

k<br />

2<br />

2 ( fok<br />

− fak<br />

)<br />

χ = ∑<br />

(4.39)<br />

fa<br />

i=<br />

1<br />

k<br />

dove fo k e fa k sono rispettivamente le frequenze osservate e quelle attese della k-esima<br />

categoria. Il test chi-quadrato e' spesso utilizzato per verificare la bonta' dell'adattamento <strong>di</strong> una<br />

<strong>di</strong>stribuzione osservata ad una delle <strong>di</strong>stribuzioni teoriche stu<strong>di</strong>ate. Per questo test, i gra<strong>di</strong> <strong>di</strong><br />

liberta' (g.l.) sono k - 1 - p, dove k in<strong>di</strong>ca il numero <strong>di</strong> categorie in cui i casi sono stati classificati e<br />

p il numero <strong>di</strong> parametri stimati. Per esempio, nel caso si confrontino le classi <strong>di</strong> <strong>di</strong>stribuzione<br />

osservate con quelle <strong>di</strong> una <strong>di</strong>stribuzione normale, p = 2 perché, in quest’ultima, si utilizzano le<br />

stime della me<strong>di</strong>a e della deviazione standard. Nella situazione invece in cui la <strong>di</strong>stribuzione<br />

osservata è confrontata con l’equi<strong>di</strong>stribuzione in classi p = 0.<br />

Solo nel caso in cui g.l.= 1 la formula (4.39) deve essere aggiustata con la correzione <strong>di</strong><br />

continuita' <strong>di</strong> Yates nella seguente maniera:<br />

4-54


k<br />

2<br />

2 (| fok<br />

− fak<br />

| −0.5)<br />

χ = ∑<br />

(4.40)<br />

fa<br />

i=<br />

1<br />

k<br />

4.11.2 Test chi-quadrato per due campioni in<strong>di</strong>pendenti<br />

Quando si vuole ottenere la <strong>di</strong>stribuzione congiunta <strong>di</strong> due caratteri categoriali 3 osservati<br />

sullo stesso insieme <strong>di</strong> dati, e' necessario tabulare i dati tramite una tabella a doppia entrata o<br />

tabella <strong>di</strong> contingenza (Tab. 4.11). In essa le righe e le colonne rappresentano le categorie <strong>di</strong>screte<br />

(classi) per ciascuna delle due variabili e i valori esprimono la frequenza con cui i due caratteri,<br />

nelle loro specifiche classi, ricorrono contemporaneamente nel campione.<br />

Tab. 4.11 Schema <strong>di</strong> tabella <strong>di</strong> contingenza. Sulle righe sono <strong>di</strong>sposte<br />

tre categorie della variabile a e sulle colonne due categorie della variabile<br />

b. Il valore generico f ij in<strong>di</strong>ca la frequenza delle osservazioni che<br />

assumono contemporaneamente lo stato i-esimo <strong>di</strong> a e lo stato j-esimo<br />

<strong>di</strong> b. A lato e in basso sono in<strong>di</strong>cati i totali marginali <strong>di</strong> riga (n a. ) e <strong>di</strong><br />

colonna (n b. ). N rappresenta il totale generale, cioe’ il numero<br />

complessivo <strong>di</strong> osservazioni.<br />

b 1 b 2<br />

a 1 f 11 f 12 n a1<br />

a 2 f 21 f 22 n a2<br />

a 3 f 31 f 32 n a3<br />

n b1 n b2 N<br />

Il test del chi-quadrato (χ 2 ) applicato ad una tabella <strong>di</strong> contingenza verifica se c'e' una<br />

relazione significativa tra la <strong>di</strong>stribuzione in classi <strong>di</strong> un carattere e quella dell'altro carattere.<br />

L'ipotesi nulla <strong>di</strong>ce che i caratteri sono in<strong>di</strong>pendenti l'uno dall'altro, cioe' che la <strong>di</strong>stribuzione<br />

<strong>di</strong> un carattere non e' influenzata dai valori assunti dall'altro carattere. In questo caso i valori <strong>di</strong><br />

frequenza all’interno della tabella si <strong>di</strong>stribuiscono in maniera uniforme. Se questa ipotesi non e'<br />

vera, i valori all'interno della tabella tendono invece a <strong>di</strong>stribuirsi in maniera eterogenea<br />

evidenziando relazioni tra gli stati delle due variabili. La statistica del chi-quadrato da' quin<strong>di</strong><br />

in<strong>di</strong>cazione sia sulla relazione tra i caratteri che sull’omogeneita' della tabella 4 perche’ il grado <strong>di</strong><br />

eterogeneita’ della tabella riflette il grado <strong>di</strong> relazione tra i caratteri.<br />

⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯<br />

3 Per dati categoriali si intendono i dati organizzati in categorie <strong>di</strong>screte cioe’ tutti i dati misurati su<br />

scala nominale ma anche quelli derivati dalla <strong>di</strong>scretizzazione <strong>di</strong> variabili continue (es. classi <strong>di</strong> lunghezza,<br />

classi <strong>di</strong> peso).<br />

4 Nel paragrafo 2.4 abbiamo gia’ visto che la mutua informazione [eq. (2.2)] e’ una misura utile per<br />

valutare l’omogenita’ <strong>di</strong> una tabella. La mutua informazione moltiplicata per il doppio del totale generale<br />

della tabella approssima il chi-quadrato: χ 2 = 2N H (r,c) .<br />

4-55


formula:<br />

Il chi-quadrato applicato ad una tabella <strong>di</strong> contingenza viene calcolato con la seguente<br />

r c<br />

2<br />

( foij<br />

− faij<br />

)<br />

2<br />

χ = ∑∑<br />

(4.41)<br />

fa<br />

i= 1 j=<br />

1<br />

ij<br />

dove fo ij e fa ij sono rispettivamente il numero <strong>di</strong> frequenze osservate ed attese in<br />

corrispondenza della i-esima riga e j-esima colonna. Il simbolo <strong>di</strong> doppia sommatoria in<strong>di</strong>ca che il<br />

calcolo ad<strong>di</strong>tivo e’ esteso a tutte le celle, cioe' ai valori <strong>di</strong> tutte le colonne (c) e <strong>di</strong> tutte le righe (r).<br />

La frequenza attesa fa ij corrispondente ad ogni frequenza osservata fo ij e' calcolata, sotto<br />

l'ipotesi nulla <strong>di</strong> totale in<strong>di</strong>pendenza tra i caratteri, moltiplicando i due marginali corrispondenti<br />

(totale <strong>di</strong> riga x totale <strong>di</strong> colonna) e <strong>di</strong>videndo questo prodotto per il numero totale dei casi (totale<br />

generale N) come in<strong>di</strong>cato nella tabella sottostante.<br />

Tab. 4.12 Tabella delle frequenze attese. Ciascun valore e’ calcolato sulla base dei<br />

totali marginali della riga e della colonna corrispondenti.<br />

b 1 b 2<br />

a 1 fa 11 = n a1 n b1 / N fa 12 = n a1 n b2 / N n a1<br />

a 2 fa 21 = n a2 n b1 / N fa 22 = n a2 n b2 / N n a2<br />

a 3 fa 31 = n a3 n b1 / N fa 32 = n a3 n b2 / N n a3<br />

n b1 n b2 N<br />

Per tabelle <strong>di</strong> contingenza 2 x 2, la formula del chi-quadrato e’ semplificata utilizzando la<br />

notazione convenzionale (ve<strong>di</strong> Tab. 7.2) che attribuisce i simboli a, b, c, d alle quattro frequenze<br />

osservate che occupano nella tabella rispettivamente le posizioni 1,1; 1,2; 2,1; 2,2 e N al totale<br />

generale.<br />

2<br />

2 N ( ad − bc)<br />

χ =<br />

(4.42)<br />

( a + b)(<br />

c + d)(<br />

a + c)(<br />

b + d)<br />

Questa formula, corretta da Yates per migliorare la continuita' della sua <strong>di</strong>stribuzione nella<br />

seguente maniera,<br />

2<br />

2 N (| ad − bc | −0.5N<br />

)<br />

χ =<br />

(4.43)<br />

( a + b)(<br />

c + d)(<br />

a + c)(<br />

b + d)<br />

dovrebbe essere correntemente usata.<br />

4-56


Quanto piu’ i valori osservati si <strong>di</strong>scostano da quelli attesi, tanto piu’ grande <strong>di</strong>venta il valore<br />

<strong>di</strong> χ 2 . Un valore grande del test in<strong>di</strong>ca, quin<strong>di</strong>, che la situazione osservata e’ <strong>di</strong>fferente da quella<br />

che ci si attenderebbe sotto l’ipotesi nulla <strong>di</strong> in<strong>di</strong>pendenza tra le due variabili confrontate e,<br />

pertanto, suggerisce una certa relazione e <strong>di</strong>pendenza tra le variabili. Per rifiutare l’ipotesi nulla e’<br />

comunque necessario confrontare il valore del test calcolato con i valori critici per la <strong>di</strong>stribuzione<br />

campionaria della statistica χ 2 leggibili nelle apposite tabelle. Se il valore osservato e’ uguale o<br />

supera il valore critico ad un certo livello <strong>di</strong> significativita’ scelto, si puo’ respingere l’ipotesi nulla ed<br />

affermare che c’e’ una relazione tra i due caratteri messi a confronto.<br />

Il numero <strong>di</strong> gra<strong>di</strong> liberta' associato a questo test e' dato dal prodotto del numero <strong>di</strong> righe<br />

per il numero <strong>di</strong> colonne sottratte ciascuna <strong>di</strong> una unita’ [g.l. = (r - 1)(c - 1)].<br />

Come si puo’ dedurre dalla formula, il valore del χ 2 <strong>di</strong>pende dal numero totale N delle<br />

osservazioni e dalle <strong>di</strong>mensioni della tabella <strong>di</strong> contingenza. Per confrontare valori <strong>di</strong> χ 2 calcolati su<br />

tabelle <strong>di</strong> contingenza <strong>di</strong> <strong>di</strong>fferenti <strong>di</strong>mensioni e con <strong>di</strong>fferente totale generale sono stati stu<strong>di</strong>ati<br />

<strong>degli</strong> in<strong>di</strong>ci che rendono relativo il valore del χ 2 . Tra quelli piu’ utilizzati torna molto utile l’in<strong>di</strong>ce <strong>di</strong><br />

Cramer che esprime il grado <strong>di</strong> <strong>di</strong>pendenza o relazione tra i due caratteri messi a confronto in una<br />

tabella <strong>di</strong> contingenza r x c e, per questo, puo’ essere considerato un in<strong>di</strong>ce <strong>di</strong> correlazione. Esso<br />

viene derivato dal χ 2 secondo la formula sottostante:<br />

r =<br />

2<br />

χ<br />

N min( r −1,<br />

c −1)<br />

(4.44)<br />

in cui min( r −1,<br />

c −1)<br />

in<strong>di</strong>ca il valore minimo tra le righe e le colonne sottratte <strong>di</strong> 1.<br />

Per quanto esprimi una correlazione, l’in<strong>di</strong>ce <strong>di</strong> Cramer, derivando dal valore del chiquadrato,<br />

non assume mai valori negativi ma solo compresi tra 0 ed 1. Il valore 0 in<strong>di</strong>ca una totale<br />

in<strong>di</strong>pendenza tra i caratteri visibile in un’alta omogeneita’ della tabella, all’opposto il valore 1<br />

esprime una completa associazione tra le variabili evidenziata in un’alta eterogeneita’ della tabella.<br />

Il fatto che l’in<strong>di</strong>ce non assuma mai valori negativi ci <strong>di</strong>ce che, attraverso esso, non sarebbe<br />

possibile valutare il tipo <strong>di</strong> correlazione, inversa o <strong>di</strong>retta, tra i caratteri categoriali derivanti dalla<br />

<strong>di</strong>scretizzazione <strong>di</strong> variabili continue perché la semplice lettura del valore dell’in<strong>di</strong>ce non lo rivela;<br />

per queste e’ comunque consigliabile valutare <strong>di</strong>rettamente il coefficiente <strong>di</strong> correlazione <strong>di</strong><br />

Pearson sui dati non <strong>di</strong>scretizzati. Poiche’ il problema non si pone per i caratteri qualitativi, per i<br />

quali non ha senso parlare <strong>di</strong> correlazione <strong>di</strong>retta e inversa, l’in<strong>di</strong>ce <strong>di</strong> Cramer e’ un’ottima stima<br />

della loro relazione.<br />

4-57


4.11.3 Restrizioni del test chi-quadrato<br />

Affinche’ il test <strong>di</strong> significativita’ del χ 2 possa essere applicato correttamente devono essere<br />

sod<strong>di</strong>sfatti i seguenti requisiti:<br />

- i dati sottoposti al test devono essere frequenze. Il test, infatti, falsa i risultati se si<br />

utilizzano proporzioni o percentuali.<br />

- le categorie considerate devono essere mutuamente esclusive, poiché un'osservazione<br />

non puo' essere contata in piu' <strong>di</strong> una categoria.<br />

- se il numero <strong>di</strong> categorie e' maggiore <strong>di</strong> due, il test non e' valido se piu' del 20% delle<br />

frequenze attese e' minore <strong>di</strong> 5 o se solo una frequenza attesa e' inferiore a 1.<br />

Nell'eventualita' che questo si verifichi, e' consigliabile combinare le categorie.<br />

- se le categorie sono due, tutte le frequenze attese dovrebbero essere maggiori <strong>di</strong> 5.<br />

4.11.3.1 Esempi <strong>di</strong> calcolo<br />

a) Si vuole vedere se la presenza della zecca nel territorio carsico e’ legata all’ambiente o se<br />

e’ da esso in<strong>di</strong>pendente. Nell’arco <strong>di</strong> uno stesso periodo sono stati catturati un uguale numero <strong>di</strong><br />

micromammiferi nei quattro <strong>di</strong>versi ambienti <strong>di</strong> prato, dolina, boscaglia e pineta, e si sono contate<br />

le zecche che parassitavano gli animali. I risultati dell’indagine sono riportati in Tab. 4.13. Si vuole<br />

verificare se la <strong>di</strong>stribuzione delle zecche nei quattro ambienti e' in accordo con l'ipotesi nulla<br />

secondo la quale tutte le zecche sono equamente <strong>di</strong>stribuite nei quattro ambienti.<br />

Tab. 4.13 Numero <strong>di</strong> zecche infestanti lo stesso numero <strong>di</strong> micromammiferi in quattro<br />

<strong>di</strong>versi ambienti.<br />

Prato Dolina Boscaglia Pineta N<br />

N. zecche (fo) 20 25 18 21 84<br />

Frequenze attese (fa) 21 21 21 21 84<br />

Applicando la formula del chi-quadrato per un campione [eq. (4.39)] si ottiene:<br />

2 (20 − 21)<br />

χ =<br />

21<br />

2<br />

(25 − 21)<br />

+<br />

21<br />

2<br />

(18 − 21)<br />

+<br />

21<br />

2<br />

(21−<br />

21)<br />

+<br />

21<br />

2<br />

1+<br />

16 + 9 + 0 26<br />

=<br />

= = 1.2381<br />

21 21<br />

Consultando la tabella dei valori critici per il chi-quadrato in Appen<strong>di</strong>ce D troviamo che il<br />

valore critico in corrispondenza <strong>di</strong> 3 gra<strong>di</strong> <strong>di</strong> liberta’ (g.l. = 4 ambienti -1) al livello <strong>di</strong> significativita’<br />

0.05 e’ 7.82. Essendo il valor calcolato molto piu’ piccolo del valore critico possiamo accettare<br />

l’ipotesi nulla <strong>di</strong> totale in<strong>di</strong>pendenza della presenza <strong>di</strong> zecche dall’ambiente. Infatti la probabilita’,<br />

4-58


calcolata col software specifico, <strong>di</strong> avere valori <strong>di</strong> chi-quadrato maggiori o uguali a 1.2381 e’ uguale<br />

a 0.74, cioe’ molto al <strong>di</strong> sopra della probabilita’ associata ai valori <strong>di</strong> rifiuto (≤0.05).<br />

b) Nel territorio carsico sono stati eseguiti rilievi floristici in due tipi <strong>di</strong> bosco, la lecceta e il<br />

bosco a rovere. Si vuole vedere se la presenza delle tre forme biologiche piu’ rappresentate e’<br />

in<strong>di</strong>fferente alle due tipologie <strong>di</strong> bosco (ipotesi nulla) o se e’ legata in maniera significativa ad esse<br />

(ipotesi alternativa). In Tab. 4.14 sono in<strong>di</strong>cati sia il numero <strong>di</strong> specie rilevate (frequenze osservate)<br />

in ciascun bosco relativamente alle tre forme biologiche sia le frequenze attese calcolate sotto<br />

l’ipotesi nulla.<br />

Tab. 4.14 Tabelle <strong>di</strong> contingenza con le frequenze osservate ed attese <strong>di</strong> tre forme biologiche<br />

rilevate nel bosco a leccio e nel bosco a rovere.<br />

Frequenze osservate<br />

Frequenze attese<br />

Leccio Rovere Totali Leccio Rovere Totali<br />

Fanerofite 26 47 73 13.9 59.1 73<br />

Geofite 3 11 14 2.7 11.3 14<br />

Emicriptofite 2 74 76 14.4 61.6 76<br />

Totali 31 132 163 31 132 163<br />

Applicando la formula del chi-quadrato otteniamo:<br />

2<br />

χ<br />

(26 −13.9)<br />

=<br />

13.9<br />

2<br />

(47 − 59.1)<br />

+<br />

59.1<br />

2<br />

(3−<br />

2.7)<br />

+<br />

2.7<br />

2<br />

(11 −11.3)<br />

+<br />

11.3<br />

2<br />

(2 −14.4)<br />

+<br />

14.4<br />

2<br />

(74 − 61.6)<br />

+<br />

61.6<br />

2<br />

=<br />

= 10.533+<br />

2.477 + 0.033 + 0.008 + 10.667 + 2.496 = 26.21<br />

Consultando le tabelle dei valori critici del chi-quadrato in corrispondenza <strong>di</strong> gra<strong>di</strong> <strong>di</strong> liberta’<br />

g.l.= (3-1)(2-1)=2, e del livello <strong>di</strong> significativita’ 0.001 (un per 1000!) leggiamo il valore 13.82.<br />

Essendo il nostro valore calcolato <strong>di</strong> molto superiore al valore critico, possiamo rifiutare l’ipotesi<br />

nulla e ritenere che le tre forme biologiche piu’ rappresentative nei due boschi si <strong>di</strong>stribuiscono in<br />

essi in maniera significativamente <strong>di</strong>versa: nella lecceta dominano le fanerofite e nel bosco a<br />

rovere assumo importanza le emicriptofite.<br />

4.11.4 Coefficiente <strong>di</strong> correlazione lineare <strong>di</strong> Spearman<br />

Il coefficiente r S <strong>di</strong> Spearman misura la relazione tra variabili misurate su scala or<strong>di</strong>nale.<br />

Esso e’ utilizzato al posto del coefficiente <strong>di</strong> correlazione <strong>di</strong> Pearson anche tra variabili misurate<br />

con scale intervallari o razionali quando non sono <strong>di</strong>stribuite normalmente. In entrambi i casi, i<br />

4-59


valori delle variabili sono trasformati in ranghi <strong>di</strong>sponendoli in or<strong>di</strong>ne crescente dal piu’ piccolo al<br />

piu’ grande ed attribuendo ad essi il valore <strong>di</strong> posizione da 1 a n casi. Nel caso <strong>di</strong> osservazioni exaequo,<br />

si attribuisce ad essi la me<strong>di</strong>a dei ranghi che avrebbero se i valori non fossero uguali.<br />

Il coefficiente <strong>di</strong> Spearman e’ calcolato con la formula sottostante in cui D rappresenta la<br />

<strong>di</strong>fferenza tra i ranghi della coppia <strong>di</strong> valori x e y, e N il numero <strong>di</strong> coppie <strong>di</strong> valori.<br />

2<br />

6∑<br />

D<br />

r<br />

s<br />

= 1−<br />

2<br />

(4.45)<br />

N ( N −1)<br />

Questa formula deriva <strong>di</strong>rettamente da quella <strong>di</strong> Pearson applicata a due serie <strong>di</strong> dati<br />

espressi in ranghi <strong>di</strong> cui, a priori, si possono calcolare i totali (Σx=Σy) essendo uguali a N(N+1)/2.<br />

4-60


5 . T R A S F O R M A Z I O N E D E I D A T I<br />

Prima <strong>di</strong> sottoporre un insieme <strong>di</strong> dati organizzati in forma matriciale ad analisi multivariata,<br />

puo' essere opportuna una trasformazione dei valori delle variabili e/o <strong>degli</strong> oggetti.<br />

5.1 TRASFORMAZIONE DELLE VARIABILI<br />

Per la maggior parte delle analisi la trasformazione dei valori delle variabili che descrivono gli<br />

oggetti e’ necessaria quando le variabili sono misurate su scale e/o unita' <strong>di</strong> misura <strong>di</strong>fferenti e<br />

puo' essere facoltativa quando le variabili, pur misurate in maniera omogenea, presentano valori<br />

con or<strong>di</strong>ne <strong>di</strong> grandezza molto <strong>di</strong>verso. Nel primo caso la trasformazione ha lo scopo <strong>di</strong> rendere<br />

omogenei i dati, cioe' compatibili, e <strong>di</strong> permettere quin<strong>di</strong> il confronto tra oggetti o tra variabili. Ad<br />

esempio volendo classificare i terreni <strong>di</strong> una determinata regione, le misure del ph, espresse in<br />

valori compresi tra 0 e 14, e del contenuto <strong>di</strong> azoto misurato in parti per milione, pur essendo<br />

entrambe <strong>di</strong> scala razionale, dovranno essere trasformate poiche’ la loro unita' e’ <strong>di</strong>fferente.<br />

Nel secondo caso la trasformazione ha lo scopo specifico <strong>di</strong> cambiare i pesi delle variabili<br />

uniformandoli ed e’ utilizzata proprio quando si desidera che l’elaborazione non sia influenzata<br />

eccessivamente dall’or<strong>di</strong>ne <strong>di</strong> grandezza dei valori delle variabili. Ad esempio, se la quantita’ <strong>di</strong> una<br />

specie <strong>di</strong> pesci valutata in una serie <strong>di</strong> stazioni e’ dell’or<strong>di</strong>ne del migliaio e quella relativa ad una<br />

seconda specie e’ dell’or<strong>di</strong>ne della decina, il ricercatore trasformera’ i valori <strong>di</strong> abbondanza <strong>di</strong><br />

ciascun pesce solo se non ritiene importante questa <strong>di</strong>fferenza quantitativa che e’ intrinsecamente<br />

legata all’ecologia della specie.<br />

Alle volte torna utile trasformare le variabili che si presentano gia’ omogenee spostandone<br />

solamente l'origine nel punto corrispondente al valore minimo, tramite un'operazione <strong>di</strong> traslazione<br />

(5.1) o in coincidenza del baricentro con l’operazione <strong>di</strong> centratura (5.2). In questo caso non c’e’<br />

nessuna alterazione del peso delle variabili.<br />

Di seguito sono riportate alcune delle trasformazioni piu' usate per variabili misurate in scala<br />

intervallare e razionale in cui x t rappresenta il valore trasformato della variabile x, n il numero <strong>di</strong><br />

valori della variabile, x il valore me<strong>di</strong>o e x<br />

min<br />

e x<br />

max<br />

i valori minimo e massimo.<br />

Traslazione<br />

x t<br />

= x − x<br />

(5.1)<br />

min<br />

Centratura<br />

x t<br />

= x − x<br />

(5.2)<br />

5-61


Centratura relativa<br />

x − x<br />

x t<br />

= (5.3)<br />

n −1<br />

Standar<strong>di</strong>zzazione<br />

con la deviazione<br />

standard (variabile z)<br />

z = x =<br />

t<br />

x − x<br />

∑( x − x)<br />

n<br />

2<br />

(5.4)<br />

Rapporto con il valore<br />

massimo<br />

x<br />

t<br />

=<br />

x<br />

x<br />

max<br />

(5.5)<br />

Rapporto con<br />

l’intervallo <strong>di</strong> valori<br />

x t<br />

x − x<br />

x − x<br />

min<br />

= (5.6)<br />

max<br />

min<br />

Normalizzazione<br />

x<br />

t<br />

=<br />

x<br />

∑<br />

x<br />

2<br />

i<br />

(5.7)<br />

Normalizzazione della<br />

variabile centrata<br />

x − x<br />

x t<br />

=<br />

∑ −<br />

2<br />

(5.8)<br />

( x x)<br />

Le trasformazioni (5.5), (5.6) e (5.7) producono valori compresi tra 0 e 1. Di queste, la prima<br />

rapporta i valori originali al valore massimo della variabile, e la seconda rapporta i valori originali,<br />

sottratti del valore minimo, all’intervallo della variabile. Le trasformazioni (5.2), (5.3), (5.4) e (5.8)<br />

generano valori negativi e positivi perche' traslano l'origine dell’asse della variabile nel punto con<br />

coor<strong>di</strong>nate uguali alla me<strong>di</strong>a. La trasformazione (5.4) crea la variabile standar<strong>di</strong>zzata z i cui valori<br />

al 99,73% sono compresi tra –3 e +3 (ve<strong>di</strong> Fig. 4.6); la trasformazione (5.7) normalizza i dati<br />

perché ogni valore è rapportato alla norma o lunghezza del vettore della variabile (corrispondente<br />

al denominatore della formula); la variabile normalizzata assume lunghezza unitaria. La<br />

trasformazione (5.8) normalizza i dati dopo che sono stati centrati e produce quin<strong>di</strong> valori compresi<br />

tra –1 e +1. Sebbene i termini standar<strong>di</strong>zzazione e normalizzazione siano spesso utilizzati in senso<br />

ampio per in<strong>di</strong>care un qualsiasi processo <strong>di</strong> trasformazione che uniformi i dati, in senso stretto essi<br />

fanno riferimento solo alle trasformazioni rispettivamente (5.4) e (5.7), (5.8).<br />

Nell’analizzare le matrici dei dati con le tecniche multivariate si deve tenere presente che<br />

pochi sono i coefficienti a<strong>di</strong>mensionali, quelli cioe’ che sono in<strong>di</strong>pendenti dalla scala e dall'unita' <strong>di</strong><br />

misura delle variabili e che, pertanto, possono essere applicati anche senza la trasformazione<br />

preliminare delle variabili. Tra questi citiamo il coefficiente <strong>di</strong> correlazione [eq. (7.17)], l'in<strong>di</strong>ce <strong>di</strong><br />

somiglianza <strong>di</strong> Gower [eq. (7.21)] per dati misti e gli in<strong>di</strong>ci probabilistici che non sono trattati in<br />

questa <strong>di</strong>spensa.<br />

Quando nei dati coesistono variabili qualitative a due o piu’ stati, variabili or<strong>di</strong>nali, variabili<br />

5-62


intervallari e razionali (dati misti) le trasformazioni descritte non sono adatte ad uniformare la<br />

tabella; si dovra’ pertanto ricorrere ad una trasformazione che riporta tutte le variabili alla scala<br />

inferiore secondo un processo <strong>di</strong> <strong>di</strong>scretizzazione o <strong>di</strong>cotomizzazione delle variabili. In alternativa<br />

sara’ possibile elaborare la matrice senza alcuna trasformazione utilizzando le tecniche per dati<br />

misti sopra citate.<br />

5.2 TRASFORMAZIONE DEI VALORI NEGLI OGGETTI<br />

In ecologia è spesso usata anche la trasformazione <strong>degli</strong> oggetti il cui scopo e’ <strong>di</strong>minuire le<br />

gran<strong>di</strong> <strong>di</strong>fferenze <strong>di</strong> valori tra le unita’ <strong>di</strong> rilevamento. Essa e’ applicabile quando tutte le variabili<br />

dell’insieme <strong>di</strong> dati hanno la stessa unita’ <strong>di</strong> misura come l’abbondanza <strong>di</strong> specie animali o vegetali<br />

espressa in conteggi <strong>di</strong> in<strong>di</strong>vidui, biomassa o copertura vegetale. Cio’ fa si’ che le abbondanze delle<br />

variabili, rese relative rispetto a quelle delle altre variabili nello stesso rilievo, influenzino la<br />

somiglianza tra i rilievi <strong>di</strong>versamente dalle quantita’ non trasformate. Le trasformazioni piu’<br />

utilizzate applicate agli oggetti sono le (5.5), (5.6) e (5.7) cui si aggiunge la trasformazione (5.9) che<br />

consiste nel <strong>di</strong>videre ciascun valore per il totale dei valori del corrispondente oggetto e che puo’<br />

essere anche espressa in percentuale se si moltiplicano i valori ottenuti per cento.<br />

Nelle formule citate x t rappresenta il valore trasformato dell’oggetto x, e<br />

minimo e massimo riscontrati nello stesso oggetto.<br />

x<br />

min<br />

e x<br />

max<br />

i valori<br />

Standar<strong>di</strong>zzazione<br />

con il totale<br />

x t<br />

x<br />

= (5.9)<br />

∑ x<br />

5.3 TRASFORMAZIONE DELLA TABELLA<br />

Quando i dati sono <strong>di</strong> frequenza puo’ tornare utile trasformare i valori sia delle variabili che<br />

<strong>degli</strong> oggetti allo scopo <strong>di</strong> aggiustare i loro pesi. Due delle trasformazioni applicabili a dati <strong>di</strong><br />

tabelle <strong>di</strong> frequenza sono:<br />

Doppia centratura<br />

x = x − xr<br />

− xc<br />

x<br />

(5.10)<br />

t<br />

+<br />

Deviazione dalla<br />

frequenza attesa<br />

x<br />

t<br />

∑ xr<br />

∑ x<br />

= x −<br />

∑∑ x<br />

c<br />

(5.11)<br />

dove x r e x c sono rispettivamente i totali <strong>di</strong> riga e <strong>di</strong> colonna della tabella,<br />

x r e<br />

x c sono le<br />

me<strong>di</strong>e dei valori <strong>di</strong> riga e <strong>di</strong> colonna, ΣΣx e’ il totale generale della tabella e x e’ il valore me<strong>di</strong>o <strong>di</strong><br />

tutti valori della tabella.<br />

5-63


5.4 ESEMPIO DI CALCOLO<br />

Sia data una matrice (Tab. 5.1) in cui sono riportati i seguenti tre parametri chimico-fisici<br />

relativi a quattro stazioni <strong>di</strong> campionamento: ph del substrato, altitu<strong>di</strong>ne (A) espressa in metri sul<br />

livello del mare e temperatura me<strong>di</strong>a estiva (T) espressa in gra<strong>di</strong> centigra<strong>di</strong>.<br />

Essendo le unita' <strong>di</strong> misura delle variabili tutte <strong>di</strong>verse tra loro, e' necessario renderle<br />

omogenee applicando una trasformazione alle righe della matrice prima <strong>di</strong> procedere ad<br />

elaborazioni successive implicanti il confronto tra i rilievi campionati (colonne).<br />

I valori e le statistiche utilizzati negli algoritmi <strong>di</strong> trasformazione (5.4), (5.5), (5.6), e (5.7)<br />

quali il valore minimo x min , il valore massimo x max , il valore me<strong>di</strong>o x e la deviazione standard σ<br />

sono calcolati per ciascuna variabile e riportati in Tab. 5.2.<br />

Tab. 5.1 Matrice con tre variabili <strong>di</strong> <strong>di</strong>fferente unita’<br />

<strong>di</strong> misura da standar<strong>di</strong>zzare<br />

Tab. 5.2 Statistiche utilizzate negli algoritmi <strong>di</strong><br />

trasformazione<br />

1 2 3 4 x min x max x σ<br />

ph 6.8 5.9 7.5 7.1 ph 5.9 7.5 6.825 .68<br />

A (m) 1200 1000 950 1150 A (m) 950 1200 1075 119<br />

T (°C) 18 21 22 19 T (°C) 18 22 20 11.83<br />

maniera:<br />

Il valore <strong>di</strong> temperatura del terzo rilievo è trasformato secondo la (5.5) nella seguente<br />

T 3<br />

= 22 / 22 = 1<br />

Il valore <strong>di</strong> altitu<strong>di</strong>ne della quarta stazione secondo la trasformazione (5.6) è cambiato nel<br />

seguente modo:<br />

A 4<br />

= (1150 - 950) / (1200 - 950) = 0.8<br />

Il valore <strong>di</strong> ph della prima stazione è standar<strong>di</strong>zzato secondo la (5.4) nella seguente maniera:<br />

ph 1<br />

= (6.8 - 6.825) / .68 = -.03676<br />

modo:<br />

e il valore <strong>di</strong> temperatura della prima stazione è normalizzato secondo la (5.8) nel seguente<br />

T 1<br />

= 18 / √(18² + 21² + 22² + 19²) = .4486<br />

Di seguito sono riportate le quattro tabelle trasformate secondo le formule (5.4), (5.5), (5.6),<br />

e (5.7).<br />

5-64


Tab. 5.3 Variabili trasformate con Eq. (5.5) Tab. 5.4 Variabili trasformate con Eq. (5.6)<br />

1 2 3 4 1 2 3 4<br />

ph .907 .787 1.00 .947 ph .563 .000 1.00 .750<br />

A (m) 1.00 .833 792 .958 A (m) 1.00 .200 .000 .800<br />

T (C°) .818 .955 1.00 .864 T (C°) .000 .750 1.00 .750<br />

Tab. 5.5 Variabili standar<strong>di</strong>zzate con Eq. (5.4) Tab. 5.6 Variabili normalizzate con Eq. (5.8).<br />

1 2 3 4 1 2 3 4<br />

ph -.037 -1.36 .993 .404 ph .496 .431 .547 .518<br />

A (m) 1.05 -.630 -1.05 .630 A (m) .556 .463 .440 .532<br />

T (C°) -1.10 .548 1.10 -.548 T (C°) .449 .523 .548 .474<br />

La Tab. 5.7 costituisce un esempio <strong>di</strong> tabella <strong>di</strong> frequenze o conteggi. In essa per ciascuna<br />

stazione <strong>di</strong> campionamento e' riportato il numero <strong>di</strong> osservazioni <strong>di</strong> tre specie vegetali.<br />

Tab. 5.7 Tabella <strong>di</strong> frequenza Tab. 5.8 Deviazioni dalla frequenza attesa. Eq. (5.11).<br />

1 2 3 4 1 2 3 4<br />

Bromus erectus 20 5 10 2 Bromus erectus 10.9 2.39 -1.73 -11.5<br />

Festuca rubra 10 0 15 30 Festuca rubra -3.56 3.87 -2.43 9.86<br />

Carex flacca 5 5 20 20 Carex flacca -7.32 1.48 4.15 1.69<br />

I dati <strong>di</strong> questa tabella possono essere trasformati convenientemente secondo la (5.11). In<br />

particolare per trasformare il valore della specie Bromus erectus nel primo rilievo, si calcolano:<br />

la quantita' Σx c1 che rappresenta il totale della prima colonna,<br />

Σ x c1 = 20 + 10 + 5 = 35<br />

la quantita' Σx r1 che rappresenta il totale della prima riga<br />

Σx r1<br />

= 20 + 5 + 10 + 2 = 37<br />

e la quantita' ΣΣx che rappresenta il totale generale della tabella<br />

ΣΣx = 20+5+10+2+10+0+15+30+5+5+20+20 = 142<br />

e si sostituiscono questi valori nella formula (5.11) ottenendo:<br />

Bromus erectus 1<br />

= 20 - 35 x 37 / 142 = 10.88<br />

5-65


6 . A N A L I S I M U L T I V A R I A T A<br />

In tutte le scienze sperimentali lo stu<strong>di</strong>o <strong>di</strong> un fenomeno è condotto in fasi successive che si<br />

possono riassumere in fasi <strong>di</strong> raccolta e fasi <strong>di</strong> analisi dei dati. Le prime comprendono la scelta dei<br />

soggetti da rilevare e dei caratteri da misurare e l'effettiva rilevazione dei dati con la successiva<br />

tabulazione <strong>degli</strong> stessi; la seconda comprende l'elaborazione dei dati applicando metodologie che<br />

trasformano i dati grezzi in altri che ne evidenziano le caratteristiche, la rappresentazione dei<br />

risultati e la loro interpretazione.<br />

L'analisi multivariata dei dati, altrimenti chiamata analisi dei dati multi<strong>di</strong>mensionali o, piu'<br />

semplicemente, analisi dei dati, comprende un insieme <strong>di</strong> metodologie che permettono <strong>di</strong><br />

sintetizzare i dati, senza eccessiva per<strong>di</strong>ta d’informazione, riuscendo cosi' ad evidenziarne con<br />

chiarezza le strutture intrinseche e le relazioni significative.<br />

Sebbene alcune <strong>di</strong> queste meto<strong>di</strong>che siano state concepite gia' agli inizi <strong>di</strong> questo secolo,<br />

esse hanno subito un notevole sviluppo e si sono affermate soltanto negli ultimi quarant’anni in<br />

concomitanza con il gran progresso informatico che ha permesso <strong>di</strong> elaborare una sempre<br />

maggiore quantita' d’informazioni riducendo contemporaneamente i tempi <strong>di</strong> calcolo. L'analisi<br />

multivariata dei dati e', infatti, strettamente vincolata all'utilizzo dell'elaboratore elettronico per il<br />

trattamento delle informazioni e cio' e' dovuto alla grande quantita' <strong>di</strong> calcoli implicati nelle varie<br />

tecniche che, se eseguite a tavolino, richiederebbero ore, se non giornate intere, <strong>di</strong> lavoro.<br />

Prima del grosso impiego dei calcolatori, la statistica classica e la modellistica matematica<br />

sono stati i supporti in<strong>di</strong>spensabili nell’analisi e nell’interpretazione dei dati. La statistica classica ha<br />

inizialmente sviluppato in<strong>di</strong>ci e funzioni con test associati per permettere una descrizione del<br />

comportamento <strong>di</strong> unita' statistiche sulla base <strong>di</strong> una o due variabili alla volta conducendo cosi'<br />

un’analisi <strong>di</strong> tipo uni-bivariato. Ne sono esempi la me<strong>di</strong>a, la varianza e la <strong>di</strong>stribuzione <strong>di</strong> frequenza<br />

nel primo caso, e la correlazione, la covarianza e la regressione nel secondo.<br />

Le tecniche <strong>di</strong> analisi multivariata dei dati hanno la grossa prerogativa <strong>di</strong> considerare in toto<br />

un insieme <strong>di</strong> unita' sulla base <strong>di</strong> un gran numero <strong>di</strong> caratteri qualitativi e quantitativi allo scopo <strong>di</strong><br />

scoprire le relazioni esistenti tra le variabili e tra le variabili e gli oggetti, <strong>di</strong> in<strong>di</strong>viduare <strong>di</strong>fferenze o<br />

rassomiglianze <strong>di</strong> comportamento, in altre parole <strong>di</strong> evidenziarne le strutture <strong>di</strong> associazione. I<br />

meto<strong>di</strong> multi<strong>di</strong>mensionali, proprio per questa loro capacita' <strong>di</strong> esaminare globalmente le interazioni<br />

tra le variabili scelte, si <strong>di</strong>mostrano piu' idonei a descrivere la complessita' dei fenomeni e<br />

ottengono una descrizione piu’ adeguata e piu’ fedele alla realta’ del fenomeno esaminato.<br />

Tra le prime tecniche <strong>di</strong> analisi multivariata, antecedenti al grosso sviluppo <strong>degli</strong> elaboratori,<br />

ce ne sono alcune che derivano <strong>di</strong>rettamente da quelle <strong>di</strong> analisi uni-bi<strong>di</strong>mensionale classica come<br />

6-66


l'analisi multivariata della varianza o la regressione multipla; in esse si riconosce lo stesso<br />

approccio della statistica classica che partendo da un modello matematico della realta' in esame,<br />

stima i parametri dai dati osservati e verifica successivamente la bonta' dell'adattamento con i test<br />

statistici.<br />

L'analisi multivariata dei dati piu’ recente ha rivoluzionato le modalita' <strong>di</strong> approccio ai dati;<br />

essa semplicemente descrive i dati che si hanno a <strong>di</strong>sposizione in maniera oggettiva senza<br />

necessariamente fare inferenze su un set <strong>di</strong> dati piu' vasto per via probabilistica.<br />

Nell'analisi multivariata moderna i singoli dati sono visti come componenti <strong>di</strong> vettori in spazi<br />

geometrici a piu' <strong>di</strong>mensioni. Piu' precisamente se i dati corrispondono alle misurazioni <strong>di</strong> k variabili<br />

eseguite su n oggetti o in<strong>di</strong>vidui, i singoli n oggetti o in<strong>di</strong>vidui possono essere visti come n punti o<br />

n vettori collocati nello spazio <strong>di</strong> k <strong>di</strong>mensioni e analogamente le k variabili possono essere<br />

rappresentate come k punti o k vettori siti nello spazio <strong>di</strong> n <strong>di</strong>mensioni. Negli spazi<br />

multi<strong>di</strong>mensionali la struttura dei dati è evidenziata me<strong>di</strong>ante proce<strong>di</strong>menti matematici o<br />

geometrici.<br />

L'analisi multivariata dei dati è svolta tramite meto<strong>di</strong> <strong>di</strong> classificazione automatica e <strong>di</strong><br />

or<strong>di</strong>namento lineare e non lineare. Essa puo' essere applicata in<strong>di</strong>fferentemente a popolazioni<br />

finite o a campioni casuali. Il punto <strong>di</strong> partenza <strong>di</strong> tutte le elaborazioni e' la matrice dei dati (ve<strong>di</strong><br />

paragrafo 3.4.1) contenente tutta l'informazione relativa alla struttura dei dati stessi. Essa viene<br />

creata <strong>di</strong>sponendo tutte le misurazioni <strong>di</strong> k caratteri, eseguite su una serie <strong>di</strong> n oggetti, in una<br />

tabella <strong>di</strong> k righe e n colonne o viceversa. Attraverso la lettura delle righe della tabella otteniamo<br />

in<strong>di</strong>cazioni su come i singoli caratteri variano negli oggetti considerati, mentre la lettura delle<br />

colonne ci da' una descrizione completa <strong>degli</strong> stati <strong>degli</strong> oggetti.<br />

6.1 SPAZIO ECOLOGICO MULTIDIMENSIONALE<br />

Negli ultimi trent’anni c’e’ stato un grande incremento dello sviluppo e delle applicazioni dei<br />

meto<strong>di</strong> <strong>di</strong> analisi multivariata in ecologia; cio’ <strong>di</strong>mostra quanto questi meto<strong>di</strong> sono considerati<br />

importanti per stu<strong>di</strong>are e spiegare le complesse interazioni osservate nelle comunita’ biologiche.<br />

In ecologia l'oggetto generico <strong>di</strong> stu<strong>di</strong>o e' il rilievo della comunita’ ecologica effettuato in<br />

luogo e tempo definiti. Esso viene eseguito descrivendo i dati floristici, vegetazionali e faunistici<br />

osservati e integrandoli con dati legati al territorio come i dati geologici e i parametri chimico-fisici<br />

dell’ambiente. Lo stu<strong>di</strong>o puo' limitarsi alla sola vegetazione o alla sola microfauna <strong>di</strong> un'area ed in<br />

tal caso la descrizione del luogo <strong>di</strong> rilevamento viene fatta solo sulla base dei dati floristici o<br />

faunistici con categorie che non sono necessariamente le specie, ma possono essere anche generi,<br />

famiglie, or<strong>di</strong>ni e, per le specie vegetali, anche le forme biologiche o le forme <strong>di</strong> crescita. Piu'<br />

6-67


spesso assieme a questi dati <strong>di</strong> tipo biotico si rilevano i dati abiotici rappresentati da tutte quelle<br />

variabili chimico-fisiche che caratterizzano il microclima o sono legate al substrato come i fattori<br />

ecologici primari <strong>di</strong> luce, temperatura, umi<strong>di</strong>ta', ph, nutrienti e i fattori secondari <strong>di</strong> altitu<strong>di</strong>ne,<br />

esposizione, latitu<strong>di</strong>ne, tessitura del suolo, <strong>di</strong>stanza dal mare, etc. Per stimare l'abbondanza delle<br />

specie vegetali, spesso si misura la loro percentuale <strong>di</strong> copertura sul terreno; poiche’ questa<br />

valutazione e’ soggettiva ed imprecisa, per contenere il margine d'errore, viene piu' spesso<br />

utilizzata la percentuale <strong>di</strong>scretizzata secondo una scala or<strong>di</strong>nale arbitraria o gia' descritta in<br />

letteratura (scala <strong>di</strong> Braun-Blanquet, <strong>di</strong> Van der Maarel, etc.). L'abbondanza vegetale puo' essere<br />

misurata anche in termini <strong>di</strong> biomassa, produzione, produttivita' etc. La misura piu' utilizzata per<br />

quantificare le specie animali e' il numero <strong>di</strong> in<strong>di</strong>vidui osservati.<br />

La tabulazione dei dati ecologici fornisce la matrice dei dati ecologici in cui sono<br />

rappresentati i rilievi delle comunita’ ecologiche in una <strong>di</strong>mensione (per esempio le colonne) e tutti<br />

i caratteri esaminati, cioe’ le specie che le compongono (variabili biotiche) e i parametri chimicofisici<br />

(variabili abiotiche) nell’altra <strong>di</strong>mensione (righe). Piu’ spesso i due tipi <strong>di</strong> variabili sono tenuti<br />

convenientemente separati in due matrici <strong>di</strong>stinte per analizzare meglio le correlazioni tra i due<br />

insiemi <strong>di</strong> variabili oltre che le correlazioni all’interno delle due matrici.<br />

La matrice dei dati ecologici contiene tutta l'informazione sulla struttura dei dati. Le k<br />

variabili, che servono per descrivere gli stati ambientali, possono essere considerate come assi che<br />

definiscono uno spazio a k <strong>di</strong>mensioni; in questo spazio geometrico multi<strong>di</strong>mensionale gli stati<br />

ambientali possono essere visti come punti o come vettori la cui posizione e' determinata dai valori<br />

che le variabili assumono negli stati stessi.<br />

Chiariamo questo concetto con un esempio. Supponiamo <strong>di</strong> aver rilevato alcuni parametri<br />

abiotici in quattro tipi <strong>di</strong> terreno misurando in essi la quantita' <strong>di</strong> humus, la granulometria, il ph e il<br />

contenuto <strong>di</strong> potassio e <strong>di</strong> aver tabulato i dati come in Tab. 6.1.<br />

Tab. 6.1 Matrice dei valori <strong>di</strong> quattro caratteri chimico-fisici misurati<br />

su 4 tipologie <strong>di</strong> terreno.<br />

1 2 3 4<br />

Humus (peso %) 30 60 50 25<br />

Granulometria (mm) 1 0.1 0.5 0.01<br />

ph 6.5 7.7 8.1 7.3<br />

Potassio (p.m.) 52 102 78 120<br />

Or<strong>di</strong>niamo ora i quattro tipi <strong>di</strong> terreno sulla base del loro contenuto in humus in senso<br />

crescente da quelli piu' poveri a quelli piu' ricchi e, in seguito, rappresentiamo graficamente<br />

quest’or<strong>di</strong>namento su <strong>di</strong> un asse relativo al gra<strong>di</strong>ente dell'humus come riportato in Fig. 6.1.<br />

I quattro tipi <strong>di</strong> terreno trovano, nello spazio uni<strong>di</strong>mensionale determinato dalla variabile<br />

6-68


humus, una certa collocazione <strong>di</strong>pendente dai valori che la variabile humus assume in essi.<br />

Pertanto, in questo spazio, gli oggetti esaminati possono essere visti sia come punti <strong>di</strong>spersi<br />

sull'asse sia come vettori aventi punto <strong>di</strong> applicazione nell'origine dell'asse (valore 0), <strong>di</strong>rezione<br />

lungo l'asse e norma (lunghezza del segmento compreso tra l'origine e l'estremita' del vettore)<br />

equivalente al valore assunto dalla variabile nell'oggetto. Si puo' vedere che in questo spazio i<br />

punti vicini sono quelli che hanno valori simili e, poiche' giacciono tutti lungo la stessa <strong>di</strong>rezione,<br />

vettori simili sono quelli con lunghezza simile.<br />

4 1 3 2<br />

►<br />

► ► ►<br />

►<br />

0 25 30 50 60 100<br />

humus %<br />

Fig. 6.1 Or<strong>di</strong>namento uni<strong>di</strong>mensionale <strong>di</strong> 4 tipi <strong>di</strong> terreno<br />

lungo il gra<strong>di</strong>ente dell’humus.<br />

Or<strong>di</strong>niamo ora i tipi <strong>di</strong> terreno in or<strong>di</strong>ne crescente secondo il gra<strong>di</strong>ente della granulometria e<br />

riportiamo in grafico (Fig. 6.2) contemporaneamente l'or<strong>di</strong>namento precedente e questo appena<br />

ottenuto. Per fare cio', convenzionalmente, si utilizzano le due variabili come assi perpen<strong>di</strong>colari tra<br />

loro 5 e si collocano i punti dei terreni nello spazio bi<strong>di</strong>mensionale ottenuto con questo sistema <strong>di</strong><br />

coor<strong>di</strong>nate cartesiane (<strong>di</strong>agramma cartesiano). La posizione dei punti e' determinata dai valori<br />

delle coor<strong>di</strong>nate delle ascisse e delle or<strong>di</strong>nate, cioe' dai valori che le due variabili assumono nei<br />

punti.<br />

Anche nello spazio bi<strong>di</strong>mensionale i terreni possono essere visti sia come punti collocati in<br />

un’area che come vettori congiungenti l'origine <strong>degli</strong> assi ai punti. La lunghezza <strong>di</strong> ciascun vettore<br />

(norma) e’ sostanzialmente la <strong>di</strong>stanza del punto dall'origine (impareremo che si tratta della<br />

<strong>di</strong>stanza euclidea descritta nel paragrafo 7.2). Questa puo’ essere interpretata come la <strong>di</strong>agonale<br />

del rettangolo avente per lati le misure delle due variabili nel punto, cioe' le coor<strong>di</strong>nate del punto<br />

ed e' quin<strong>di</strong> facilmente trovata per applicazione del teorema <strong>di</strong> Pitagora ai lati del rettangolo.<br />

Pertanto, definito x ij l'elemento generico della matrice (2 variabili x n oggetti) la norma del<br />

vettore j nello spazio a due <strong>di</strong>mensioni e' dato da:<br />

⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯<br />

5 Disporre gli assi perpen<strong>di</strong>colari tra loro e' utile per verificare se c'e' una certa relazione tra le variabili<br />

rappresentate sugli assi. Se infatti nel <strong>di</strong>agramma cartesiano i punti non si <strong>di</strong>sperdono in tutto il piano ma si<br />

concentrano lungo una retta od una curva, cio' significa che esiste una correlazione rispettivamente <strong>di</strong> tipo<br />

lineare o non lineare tra le due variabili in questione. Le due variabili che sono state ipotizzate in<strong>di</strong>pendenti<br />

e, per questo motivo, riportate graficamente su assi ortogonali, nella realta' non lo sono; se ne deduce che<br />

la rappresentazione corretta dello spazio a due <strong>di</strong>mensioni per variabili piu' o meno correlate linearmente,<br />

sarebbe quella che riporta due assi non perpen<strong>di</strong>colari tra loro ma aventi un'angolazione variabile <strong>di</strong>pendente<br />

dal grado <strong>di</strong> correlazione.<br />

6-69


norma = x + x<br />

j<br />

2 2<br />

1 j 2 j<br />

Anche nello spazio bi<strong>di</strong>mensionale i punti vicini sono quelli con coor<strong>di</strong>nate simili e, vettori<br />

vicini, cioe' non <strong>di</strong>vergenti, sono quelli che hanno rapporti simili tra i loro componenti, cioe’ tra i<br />

valori delle coor<strong>di</strong>nate.<br />

▲<br />

granulometria (mm)<br />

1.<br />

.5<br />

.1<br />

.01<br />

1<br />

3<br />

4<br />

2<br />

0 25 30 50 60 100<br />

►<br />

humus %<br />

Fig. 6.2 Or<strong>di</strong>namento dei quattro tipi <strong>di</strong> terreno in uno spazio<br />

bi<strong>di</strong>mensionale cartesiano costruito con le variabile humus e<br />

granulometria. I vettori-rilievi possono essere interpretati come<br />

le <strong>di</strong>agonali dei rettangoli che hanno per lati le coor<strong>di</strong>nate del<br />

punti. Ne e’ evidenziato l’esempio per il rilievo 1.<br />

In Fig. 6.2 si puo’ osservare che i terreni 1 e 4, che erano molto vicini nello spazio<br />

uni<strong>di</strong>mensionale costruito col gra<strong>di</strong>ente dell’humus (Fig. 6.1), si sono molto allontanati tra loro nello<br />

spazio bi<strong>di</strong>mensionale determinato anche dalla granulometria.<br />

Se aumentiamo le <strong>di</strong>mensioni dello spazio considerando anche l'asse del ph o del potassio,<br />

con analogo ragionamento possiamo valutare la posizione reciproca dei terreni in un volume o<br />

spazio tri<strong>di</strong>mensionale, e possiamo interpretare la norma dei vettori, data dalla <strong>di</strong>stanza dei punti<br />

dall'origine, come la <strong>di</strong>agonale del parallelepipedo avente per lati le tre coor<strong>di</strong>nate dei punti. Anche<br />

questa e' facilmente calcolata con il teorema <strong>di</strong> Pitagora applicando la formula:<br />

norma = x + x + x<br />

j<br />

2 2 2<br />

1 j 2 j 3 j<br />

Se graficamente, e anche nella nostra immaginazione, non e' possibile rappresentare uno<br />

spazio a piu' <strong>di</strong> tre <strong>di</strong>mensioni, e' lecito supporne l’esistenza matematicamente. Tutti gli assi dello<br />

spazio multi<strong>di</strong>mensionale sono perpen<strong>di</strong>colari tra loro quando non c'e' correlazione tra le variabili<br />

che li costituiscono; in questo caso la <strong>di</strong>stanza <strong>di</strong> ogni punto dall'origine puo' essere calcolata<br />

6-70


sempre con il teorema <strong>di</strong> Pitagora, interpretandola come la <strong>di</strong>agonale dell'ipervolume (volume a<br />

piu' <strong>di</strong>mensioni) avente k lati corrispondenti ai valori assunti dalle k variabili nel punto. La formula<br />

generalizzata (6.1) esprime il calcolo della norma <strong>di</strong> un vettore j nello spazio <strong>di</strong> k variabili.<br />

norma<br />

j<br />

2<br />

j<br />

2<br />

2 j<br />

2<br />

kj<br />

k<br />

i=<br />

1<br />

2<br />

= x1 + x + .... + x = ∑ x<br />

(6.1)<br />

ij<br />

Se l'esempio citato ha lo scopo <strong>di</strong> condurre <strong>di</strong>datticamente il lettore alla comprensione <strong>di</strong><br />

concetti quali spazio ecologico, gra<strong>di</strong>ente e or<strong>di</strong>namento, esso, d'altro lato, semplifica <strong>di</strong> molto la<br />

realta'. Ci preme quin<strong>di</strong> fare notare che lo spazio ecologico multi<strong>di</strong>mensionale non e' quasi mai<br />

costituito da assi perpen<strong>di</strong>colari tra loro, perche' molteplici sono le correlazioni <strong>di</strong> tipo lineare e non<br />

lineare tra le numerose variabili in gioco. In tal caso, ad essere rigorosi, prima <strong>di</strong> calcolare qualsiasi<br />

norma <strong>di</strong> vettori o <strong>di</strong>stanza tra vettori bisognerebbe rendere perpen<strong>di</strong>colari gli assi togliendo la<br />

correlazione tra le variabili.<br />

6.2 MODALITA’ DI ANALISI Q E R<br />

La matrice dei dati ecologici puo’ essere stu<strong>di</strong>ata da due ottiche <strong>di</strong>stinte: dal punto <strong>di</strong> vista<br />

delle variabili e da quello delle comunita’. La scelta appropriata <strong>di</strong> una funzione d’analisi <strong>di</strong>pende<br />

dallo stu<strong>di</strong>o che si vuole intraprendere e tiene conto del fatto che nella matrice dei dati ecologici si<br />

considerano le specie <strong>di</strong>pendenti l’una dall’altra e i rilievi delle comunita’ in<strong>di</strong>pendenti tra loro.<br />

Gli ecologi parlano <strong>di</strong> analisi in modalita’ R 6<br />

6-71<br />

quando si analizzano le somiglianze <strong>di</strong><br />

comportamento e associazione tra le specie e in genere tra le variabili, e <strong>di</strong> analisi in modalita’ Q<br />

quando si stu<strong>di</strong>ano i rilievi delle comunita’. Gli in<strong>di</strong>ci <strong>di</strong> similarita’ della modalita’ R comprendono i<br />

coefficienti <strong>di</strong> associazione, correlazione e gli in<strong>di</strong>ci <strong>di</strong> overlap e misurano la <strong>di</strong>pendenza o<br />

l’intensita’ <strong>di</strong> affinita’ tra le specie; quelli della modalita’ Q comprendono le funzioni <strong>di</strong> somiglianza<br />

e <strong>di</strong> <strong>di</strong>stanza tra i rilievi in termini della loro composizione <strong>di</strong> specie o delle loro caratteristiche<br />

chimico-fisiche. Sebbene alcune funzioni possano essere usate in<strong>di</strong>fferentemente nei due tipi <strong>di</strong><br />

analisi, e’ raccomandabile attenersi all’uso proposto in letteratura evitando <strong>di</strong> usare un coefficiente<br />

<strong>di</strong> correlazione al posto <strong>di</strong> un in<strong>di</strong>ce <strong>di</strong> somiglianza in un’analisi Q, cioe’ tra gli oggetti-rilievi.<br />

La <strong>di</strong>fferenza tra le due modalita’ <strong>di</strong> analisi puo’ essere compresa meglio se interpretata<br />

secondo concetti geometrici. Come gia’ detto ogni matrice genera uno spazio multi<strong>di</strong>mensionale<br />

chiamato anche iperspazio Questo puo’ essere visto sia come lo spazio determinato dalle specie e<br />

da altre variabili in cui trovano collocazione i rilievi in punti le cui coor<strong>di</strong>nate rappresentano le<br />

⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯<br />

6 Il simbolo utilizzato R deriva dal coefficiente <strong>di</strong> correlazione r <strong>di</strong> Pearson che misura la <strong>di</strong>pendenza<br />

tra due variabili.


abbondanze delle specie e i valori delle variabili, sia come lo spazio definito dai rilievi in cui sono<br />

collocate le specie e le altre variabili in punti determinati dal loro valore. In entrambi gli spazi e’ la<br />

posizione reciproca dei punti che da’ in<strong>di</strong>cazione della loro somiglianza o <strong>di</strong>ssomiglianza. Le<br />

funzioni calcolate nel primo spazio sono secondo la modalità Q e quelle nel secondo spazio<br />

secondo la modalita’ R. Questa seconda rappresentazione spaziale e’ molto piu’ artificiale della<br />

prima, poiché i valori negli assi dei rilievi sono valori delle variabili osservate.<br />

Tab. 6.2 Matrice generica con i valori <strong>di</strong> due<br />

specie osservate in tre rilievi.<br />

Rilievo 1 Rilievo 2 Rilievo3<br />

Specie 1 x 11 =5 x 12 =15 x 13 =10<br />

Specie 2 x 21 =3 x 22 =8 x 23 =12<br />

La rappresentazione grafica delle due modalita’ <strong>di</strong> analisi in spazi a due <strong>di</strong>mensioni relativa<br />

alla matrice <strong>di</strong> Tab. 6.2 e’ data in Fig. 6.3. Lo spazio tri<strong>di</strong>mensionale dei rilievi e’ visualizzato<br />

parzialmente tramite i rilievi 2 e 3.<br />

Modalità Q<br />

Modalità R<br />

Specie 2<br />

Rilievo 3<br />

Rilievo 3<br />

Specie 2<br />

x 23<br />

x 23<br />

x 22<br />

Rilievo 2<br />

x 13<br />

Specie 1<br />

x 21<br />

Rilievo 1<br />

x 11 x 13 x 12<br />

Specie 1<br />

x 22<br />

x 12<br />

Rilievo 2<br />

Fig. 6.3 Visualizzazione geometrica dello spazio delle specie (a sinistra) in cui trovano<br />

collocazione i rilievi e dello spazio dei rilievi (a destra) in cui sono situate le specie. In essi è<br />

condotta rispettivamente un’analisi <strong>di</strong> tipo Q e R. Il valore x ij rappresenta l’abbondanza della i-<br />

esima specie nel rilevo j-esimo.<br />

6-72


7 . C L A S S I F I C A Z I O N E<br />

I termini classificazione e "cluster analysis" comprendono tutte le tecniche numeriche che<br />

hanno lo scopo <strong>di</strong> riunire in gruppi gli oggetti o le variabili basandosi sulla loro somiglianza o<br />

correlazione in modo tale che gli elementi <strong>di</strong> un gruppo siano il piu' possibile simili tra loro e il piu'<br />

possibile <strong>di</strong>fferenziati dagli elementi <strong>degli</strong> altri gruppi. In altre parole i meto<strong>di</strong> ottengono un'alta<br />

omogeneita' a livello dei gruppi e un'alta eterogeneita' tra i gruppi. Per classificare oggetti o<br />

variabili e' necessario quin<strong>di</strong> valutare quanto queste entita’ si assomigliano tra loro e, una volta<br />

ottenute queste informazioni, raggruppare le entita’ in classi sulla base della loro somiglianza<br />

reciproca.<br />

Le tecniche <strong>di</strong> classificazione possono seguire strategie <strong>di</strong>verse, gerarchiche e non<br />

gerarchiche, <strong>di</strong>visive e agglomerative, monotetiche e politetiche. I meto<strong>di</strong> gerarchici raggruppano<br />

gli elementi da classificare in insiemi e questi, a loro volta, in insiemi sempre piu' vasti, creando<br />

una struttura ad albero che graficamente si esprime tramite un dendrogramma. I meto<strong>di</strong> non<br />

gerarchici creano soltanto delle partizioni o la partizione ottimale <strong>degli</strong> elementi senza nulla <strong>di</strong>re<br />

riguardo alla relazione esistente tra gli insiemi ottenuti. I meto<strong>di</strong> <strong>di</strong>visivi creano l'albero dalla<br />

ra<strong>di</strong>ce, <strong>di</strong>videndo cioe' progressivamente l'insieme <strong>degli</strong> elementi sulla base <strong>degli</strong> stati <strong>di</strong> un<br />

carattere per volta (monotetici) o sulla base delle matrici <strong>di</strong> devianze e codevianze <strong>di</strong> tutte le<br />

variabili (politetici). I meto<strong>di</strong> agglomerativi creano l'albero dalle foglie, cioe' aggregano gli elementi<br />

da classificare in insiemi via via piu' vasti. I meto<strong>di</strong> gerarchici agglomerativi sono solo politetici<br />

poiché il confronto tra elementi avviene sempre sulla base <strong>di</strong> tutti i caratteri descrittivi. Questi<br />

ultimi sono da noi presi in considerazione nel paragrafo 7.9.<br />

7.1 FUNZIONI DI SIMILARITA’<br />

La similarita' tra oggetti o variabili è valutata a coppie <strong>di</strong> elementi tramite <strong>degli</strong> in<strong>di</strong>ci o<br />

funzioni <strong>di</strong> somiglianza o <strong>di</strong> <strong>di</strong>stanza. Le funzioni <strong>di</strong> somiglianza valutano quanto due entita’ si<br />

assomigliano ed assumono valori crescenti in rapporto alla somiglianza. Per questo un valore <strong>di</strong><br />

in<strong>di</strong>ce uguale a zero in<strong>di</strong>ca somiglianza nulla. Gli in<strong>di</strong>ci <strong>di</strong> <strong>di</strong>stanza invece si basano sulla <strong>di</strong>stanza <strong>di</strong><br />

due oggetti nello spazio multi<strong>di</strong>mensionale e, poiche’ punti <strong>di</strong>stanti in<strong>di</strong>cano maggiore<br />

<strong>di</strong>ssomiglianza, assumono valori decrescenti rispetto alla somiglianza; in questo caso un valore<br />

uguale a zero in<strong>di</strong>ca <strong>di</strong>stanza nulla e quin<strong>di</strong> uguaglianza tra gli oggetti confrontati. Riassumendo<br />

possiamo <strong>di</strong>re che l'andamento delle funzioni <strong>di</strong> somiglianza e' inverso rispetto a quello delle<br />

funzioni <strong>di</strong> <strong>di</strong>stanza, cioe' la funzione <strong>di</strong> somiglianza cresce laddove quella <strong>di</strong> <strong>di</strong>stanza decresce.<br />

Le funzioni <strong>di</strong> similarita’ possono essere convenientemente sud<strong>di</strong>vise in tre categorie in<br />

7-73


apporto al tipo <strong>di</strong> dati cui possono essere applicate: funzioni per dati quantitativi, funzioni per dati<br />

binari, funzioni per dati misti.<br />

Secondo i criteri con cui sono costruite, le funzioni possono essere classificate anche in<br />

geometriche, probabilistiche e informazionali.<br />

Alla categoria delle funzioni geometriche appartengono tutte quelle interpretabili<br />

<strong>di</strong>rettamente in modo geometrico, cioe’ me<strong>di</strong>ante <strong>di</strong>stanze o angoli. Queste possono essere <strong>di</strong>stinte<br />

in misure metriche e non metriche. Sono metriche le <strong>di</strong>stanze che sod<strong>di</strong>sfano le tre proprieta’ dello<br />

spazio euclideo e cioe’:<br />

1) la <strong>di</strong>stanza <strong>di</strong> ogni punto da se’ stesso e’ uguale a zero;<br />

2) la <strong>di</strong>stanza <strong>di</strong> un punto a da un punto b e’ la stessa della <strong>di</strong>stanza che intercorre tra il<br />

punto b e il punto a;<br />

3) dati tre punti a,b,c, la somma delle <strong>di</strong>stanze tra i punti a e b e i punti a e c e’ maggiore o<br />

uguale alla <strong>di</strong>stanza tra i punti b e c (proprieta’ del triangolo). A questa categoria appartengono la<br />

<strong>di</strong>stanza euclidea e la <strong>di</strong>stanza della corda.<br />

Le funzioni probabilistiche si basano sulla probabilita’ associata agli eventi o associata alla<br />

significativita’ <strong>di</strong> un test statistico. Il test statistico del chi-quadrato [eq. (4.41)] e’ una funzione tra<br />

le piu’ usate nella stima dell’associazione <strong>di</strong> una specie. Gli in<strong>di</strong>ci probabilistici <strong>di</strong> Goodall e <strong>di</strong><br />

Burnaby calcolano una somiglianza che non e’ assoluta, ma relativa all’insieme <strong>di</strong> dati in cui gli<br />

oggetti d’indagine sono inseriti.<br />

Le funzioni informazionali si basano sulla teoria dell’informazione introdotta da Shannon nel<br />

1948 <strong>di</strong> cui si e’ gia’ accennato nel paragrafo 2.4.<br />

Nei prossimi paragrafi tratteremo alcune funzioni geometriche per dati quantitativi ed alcune funzioni<br />

per dati binari e misti.<br />

7.2 MISURE PER DATI QUANTITATIVI: FUNZIONI GEOMETRICHE DI DISTANZA<br />

La funzione <strong>di</strong> <strong>di</strong>stanza che è maggiormente utilizzata e' la <strong>di</strong>stanza euclidea. In Fig. 7.1<br />

viene data una sua rappresentazione grafica per uno spazio a due <strong>di</strong>mensioni.<br />

Il calcolo della <strong>di</strong>stanza euclidea avviene me<strong>di</strong>ante l’applicazione del teorema <strong>di</strong> Pitagora in<br />

spazi a m ≥1 <strong>di</strong>mensioni. Nella formula (7.1) i valori x ia e x ib in<strong>di</strong>cano i valori assunti dalla variabile<br />

i-esima negli oggetti a e b. La sommatoria dei quadrati delle <strong>di</strong>fferenze <strong>di</strong> valori corrispondenti e’<br />

eseguita su tutte le variabili, cioe’ su tutte le m <strong>di</strong>mensioni dello spazio.<br />

D<br />

m<br />

2<br />

euclidea<br />

= ∑( x )<br />

( a,<br />

b)<br />

ia<br />

− xib<br />

i=<br />

1<br />

(7.1)<br />

7-74


Y<br />

Y<br />

y 2<br />

y 1<br />

a<br />

b<br />

4 a<br />

3<br />

2<br />

1<br />

c<br />

d<br />

b<br />

x 1 x 2<br />

X<br />

1 2<br />

3<br />

4<br />

X<br />

Fig. 7.1 – Rappresentazione grafica della<br />

<strong>di</strong>stanza euclidea in uno spazio a due<br />

<strong>di</strong>mensioni. Essa e’ il segmento che<br />

unisce i punti a e b.<br />

Fig. 7.2 – Esempio <strong>di</strong> come la <strong>di</strong>stanza<br />

euclidea puo’ essere maggiore tra oggetti simili<br />

che tra oggetti non aventi nulla in comune.<br />

La <strong>di</strong>stanza euclidea ha un inconveniente <strong>di</strong> cui bisognerebbe tenere conto in certe<br />

circostanze. Essa puo’ risultare inferiore tra due oggetti completamente <strong>di</strong>versi che tra due molto<br />

simili. La Fig. 7.2, che riporta i valori della Tab. 7.1, mostra graficamente questa situazione: si puo’<br />

osservare come tra gli oggetti c e d, che non hanno niente in comune, c’e’ una <strong>di</strong>stanza inferiore a<br />

Tab. 7.1 Tabella in cui quattro oggetti sono<br />

descritti da 2 variabili. Si noti che gli oggetti<br />

c e d non hanno nulla in comune.<br />

a b c d<br />

x 2 4 0 1<br />

y 4 3 1 0<br />

quella tra a e b.<br />

Per superare questo inconveniente, che si<br />

puo’ verificare quando nella matrice dei dati ci sono<br />

parecchi valori uguali a zero, si applica la <strong>di</strong>stanza<br />

euclidea dopo aver normalizzato gli oggetti secondo<br />

la (5.8). Questa trasformazione, uniformando la<br />

lunghezza dei vettori-oggetto, colloca tutti i puntioggetto<br />

sulla superficie <strong>di</strong> un’ipersfera <strong>di</strong> raggio unitario e fa si’ che la <strong>di</strong>stanza euclidea vari tra 0 e<br />

√2. E’ sempre √2 quando due oggetti non hanno nulla in comune ed e’ uguale a 0 quando i due<br />

oggetti sono uguali, cioe’ hanno una posizione coincidente nello spazio. La <strong>di</strong>stanza euclidea cosi’<br />

trasformata prende il nome <strong>di</strong> <strong>di</strong>stanza della corda perche’ misura il segmento (corda) che<br />

sottende l’arco che unisce i due punti-oggetto nella superficie ipersferica. Essa puo’ essere<br />

calcolata <strong>di</strong>rettamente secondo la seguente formula:<br />

m<br />

⎛<br />

⎞<br />

⎜ ∑ xiaxib<br />

⎟<br />

i=<br />

1<br />

D<br />

corda<br />

= 2⎜1−<br />

( a,<br />

b)<br />

⎟<br />

2 2<br />

(7.2)<br />

⎜ ∑ xia<br />

∑ xib<br />

⎟<br />

⎝<br />

⎠<br />

7-75


7.3 MISURE PER DATI QUANTITATIVI: FUNZIONI GEOMETRICHE DI SOMIGLIANZA<br />

Tra le funzioni <strong>di</strong> somiglianza, il prodotto scalare è definito come prodotto delle norme <strong>di</strong><br />

due vettori per il coseno dell'angolo α che includono, secondo la formula seguente:<br />

<br />

S<br />

m<br />

2 2<br />

= ∑ x ia ∑ x cosα<br />

(7.3)<br />

PS ( a,<br />

b)<br />

ib<br />

i=<br />

1 i=<br />

1<br />

m<br />

La Fig. 7.3 mostra graficamente il concetto <strong>di</strong> somiglianza basato sul prodotto scalare.<br />

Quando l’angolo tra i due vettori e’ zero il coseno dell’angolo e’ 1 e i due elementi giacciono sulla<br />

stessa retta o sono coincidenti. Quanto piu’ e’ grande il prodotto scalare, cioe’ quanto piu’<br />

approssima il quadrato della norma del vettore piu’ lungo, tanto piu’ i due elementi sono simili.<br />

Y<br />

a<br />

α ab<br />

b<br />

α ac<br />

c<br />

X<br />

Fig. 7.3 L’angolo α compreso tra i vettori da’ in<strong>di</strong>cazione della loro somiglianza. Gli oggetti a e<br />

b sono piu’ simili <strong>di</strong> quanto non lo siano a e c perché α ab < α ac..<br />

<br />

<br />

Nell’algebra lineare il prodotto scalare e’ definito come la somma dei prodotti dei valori<br />

corrispondenti <strong>di</strong> due vettori secondo la formula seguente:<br />

S<br />

PS ( a,<br />

b)<br />

m<br />

= ∑ x x<br />

(7.4)<br />

i=<br />

1<br />

ia<br />

ib<br />

dalla quale si deduce che esso assume valore zero quando i due elementi a confronto non<br />

hanno nessun carattere in comune e valori via via crescenti in rapporto al numero <strong>di</strong> caratteri<br />

con<strong>di</strong>visi e ai loro valori. Il valore massimo del prodotto scalare <strong>di</strong>pende quin<strong>di</strong> dalle lunghezze dei<br />

vettori a confronto, cioe’ dal numero <strong>di</strong> variabili e dalla loro unita' <strong>di</strong> misura; pertanto per rendere<br />

confrontabili i prodotti scalari e' necessario rapportarli alle norme dei vettori in maniera tale che<br />

varino in un intervallo tra 0 ed 1.<br />

Una normalizzazione del prodotto scalare e’ data proprio dal coseno dell'angolo la cui<br />

7-76


equazione (7.5) e’ derivata dal confronto tra le due espressioni alternative (7.3) e (7.4) del prodotto<br />

scalare. In essa il prodotto scalare è rapportato al prodotto delle norme dei vettori a confronto.<br />

cos<br />

m<br />

∑ x<br />

x<br />

ia ib<br />

i=<br />

1<br />

α =<br />

(7.5)<br />

m m<br />

2 2<br />

∑ x ia ∑ x ib<br />

i=<br />

1 i=<br />

1<br />

Il coseno dell’angolo e’ un in<strong>di</strong>ce <strong>di</strong> somiglianza che varia tra 0 ed 1 se le variabili non sono<br />

centrate e tra –1 e +1 se le variabili sono state centrate con la formula (5.2). Se il prodotto scalare<br />

e’ applicato a vettori gia’ normalizzati si ottiene <strong>di</strong>rettamente il coseno dell’angolo. Il fatto che nel<br />

coseno dell’angolo sia insita la normalizzazione dei vettori a confronto che li rende della stessa<br />

lunghezza (unitaria) fa si’ che, nello spazio multi<strong>di</strong>mensionale, elementi situati sulla stessa<br />

<strong>di</strong>rettrice passante per l’origine sono considerati dall’in<strong>di</strong>ce uguali anche se <strong>di</strong>versi. Come si vede<br />

dalla Fig. 7.4 che rappresenta graficamente questa situazione, la somiglianza tra i punti che, per<br />

effetto della normalizzazione sono proiettati tutti sull’ipersfera, e’ valutata solo sulla base<br />

dell’angolo che separa i due vettori. Da un punto <strong>di</strong> vista applicativo cio’ significa che l’in<strong>di</strong>ce<br />

coseno dell’angolo non tiene conto delle <strong>di</strong>fferenze <strong>di</strong> grandezza dei valori nei vettori, ma solo<br />

delle <strong>di</strong>fferenze dei rapporti tra valori.<br />

Y<br />

b<br />

c<br />

a<br />

α<br />

X<br />

Fig. 7.4 I punti a e b, essendo situati sulla stessa retta passante per l’origine, <strong>di</strong>ventano<br />

coincidenti dopo la normalizzazione. Il coseno dell’angolo pertanto assegna ad essi il valore<br />

massimo <strong>di</strong> somiglianza (1) ed attribuisce un valore <strong>di</strong> somiglianza inferiore tra i punti b e c<br />

anche se nello spazio originario la <strong>di</strong>stanza tra questi ultimi e’ inferiore a quella tra a e b.<br />

Il prodotto scalare puo’ essere relativizzato anche rapportandolo alla somma dei quadrati piu’<br />

elevata tra i due vettori come in<strong>di</strong>cato nella formula seguente:<br />

S<br />

PS ( a,<br />

b)<br />

m<br />

∑ x<br />

i=<br />

1<br />

m<br />

max( ∑ x<br />

i=<br />

1<br />

ia<br />

x<br />

2<br />

ia<br />

ib<br />

= (7.6)<br />

m<br />

, ∑ x<br />

i=<br />

1<br />

2<br />

ib<br />

)<br />

7-77


Una terza maniera per rendere relativo il prodotto scalare e' espressa dal coefficiente <strong>di</strong><br />

Wishart o <strong>di</strong> Westhoff & van der Maarel, detto anche in<strong>di</strong>ce "similarity ratio" (SR) dato da:<br />

S<br />

SR(<br />

a,<br />

b)<br />

i=<br />

1<br />

m<br />

∑ xiaxib<br />

i=<br />

1<br />

=<br />

m m m<br />

(7.7)<br />

2 2<br />

∑ x ia + ∑ x ib − ∑ x x<br />

i=<br />

1<br />

i=<br />

1<br />

ia<br />

ib<br />

Anche questo in<strong>di</strong>ce, come tutti i prodotti scalari relativizzati, assume valori compresi tra 0<br />

ed 1 per dati non centrati. A <strong>di</strong>fferenza del coseno, questi due ultimi prodotti scalari mantengono<br />

l’informazione sulla <strong>di</strong>stanza tra i punti, cioe’ considerano anche le <strong>di</strong>fferenze tra valori<br />

corrispondenti.<br />

Un altro in<strong>di</strong>ce <strong>di</strong> somiglianza molto usato che solitamente è applicato alle variabili, salvo rari<br />

casi specifici, e' il noto coefficiente <strong>di</strong> correlazione gia' descritto nel capitolo riguardante la<br />

statistica al paragrafo 4.9.1 ed espresso nuovamente <strong>di</strong> seguito:<br />

r<br />

i,<br />

h<br />

=<br />

n<br />

j=<br />

1<br />

n<br />

∑(<br />

x<br />

j=<br />

1<br />

∑(<br />

x<br />

ij<br />

ij<br />

− x )( x<br />

− x )<br />

i<br />

2<br />

i<br />

n<br />

hj<br />

∑(<br />

x<br />

j=<br />

1<br />

− x<br />

hj<br />

h<br />

)<br />

− x )<br />

h<br />

2<br />

(7.8)<br />

Esaminando la formula, si puo’ osservare che esso non e’ altro che il coseno dell’angolo, cioe’<br />

un prodotto scalare normalizzato, applicato alle variabili centrate. Varia tra -1 e +1 ed essendo<br />

a<strong>di</strong>mensionale puo’ essere applicato anche a variabili misurate con <strong>di</strong>fferenti unita’.<br />

Per abbreviare i calcoli, l’equazione (7.8) puo’ essere scritta anche nella seguente formula<br />

equivalente:<br />

r<br />

i,<br />

h<br />

=<br />

n<br />

n<br />

2<br />

∑ xij<br />

j=<br />

1<br />

n<br />

n ∑ x<br />

ij<br />

j=<br />

1<br />

−<br />

x<br />

hj<br />

n<br />

ij hj<br />

j=<br />

1 j=<br />

1<br />

n<br />

n<br />

n<br />

2<br />

2<br />

( ∑ xij<br />

) n ∑ xhj<br />

− ( ∑ xhj<br />

j=<br />

1<br />

j=<br />

1<br />

j=<br />

1<br />

n<br />

− ∑ x ∑ x<br />

)<br />

2<br />

(7.9)<br />

La covarianza [eq. (7.10)] rappresenta un altro in<strong>di</strong>ce per valutare le relazioni tra le variabili.<br />

Essa puo’ essere interpretata come un prodotto scalare <strong>di</strong> vettori non normalizzati aventi origine<br />

nei centroi<strong>di</strong>. Proprio perché i vettori non sono normalizzati, i valori positivi o negativi dell’in<strong>di</strong>ce<br />

non hanno limiti superiore e inferiore fissi. La covarianza, rapportata al prodotto delle varianze<br />

delle due variabili, <strong>di</strong>venta il coefficiente <strong>di</strong> correlazione.<br />

7-78


S<br />

i , h<br />

n<br />

∑(<br />

x − )(<br />

1<br />

= = ij<br />

xi<br />

x<br />

j<br />

n −1<br />

hj<br />

− x )<br />

h<br />

(7.10)<br />

7.4 CONSIDERAZIONI SULL’USO DELLE FUNZIONI GEOMETRICHE<br />

La <strong>di</strong>stanza euclidea e il prodotto scalare sono legati tra loro dalla seguente relazione<br />

ricavabile dallo sviluppo del quadrato del binomio della <strong>di</strong>stanza euclidea (7.1):<br />

D<br />

2<br />

( a,<br />

b)<br />

2<br />

ia<br />

2<br />

ib<br />

= ∑ x + ∑ x − 2∑<br />

x<br />

ia<br />

x<br />

ib<br />

(7.11)<br />

In essa il termine Σx ia x ib costituisce il prodotto scalare tra gli elementi a e b.<br />

Il prodotto scalare e la <strong>di</strong>stanza euclidea possono essere usati sia per valutare la somiglianza<br />

tra gli oggetti, sia per valutare la somiglianza <strong>di</strong> comportamento tra le variabili anche se, per<br />

quest’ultime, e’ piu’ utilizzato il coefficiente <strong>di</strong> correlazione. Le applicazioni <strong>di</strong> queste funzioni sono<br />

vincolate al tipo <strong>di</strong> dati. Esse sono piu’ adatte per dati misurati in scala intervallare o razionale.<br />

7.5 MISURE PER DATI BINARI: FUNZIONI DI SOMIGLIANZA, ASSOCIAZIONE E DISTANZA<br />

Piu’ misure <strong>di</strong> similarita’ sono state stu<strong>di</strong>ate per essere applicate a dati binari, cioe’ dati <strong>di</strong><br />

presenza-assenza o in genere qualitativi a due stati. In campo ecologico i dati <strong>di</strong> rilevamento<br />

vegetazionale o faunistico o microbiologico, anche se originariamente quantitativi, possono sempre<br />

Tab. 7.2 Schema <strong>di</strong> tabella <strong>di</strong> contingenza<br />

2 x 2. La notazione convenzionale e’<br />

spiegata nel testo.<br />

1<br />

2<br />

+ -<br />

+ a b a+b<br />

- c d c+d<br />

a+c b+d n<br />

essere trattati in forma binaria sulla base della sola<br />

presenza-assenza delle specie osservate.<br />

seguito, in<strong>di</strong>cati in tabella con le prime quattro lettere dell’alfabeto:<br />

Molti dei numerosi in<strong>di</strong>ci proposti fanno<br />

riferimento alla notazione convenzionale adottata per le<br />

tabelle <strong>di</strong> contingenza 2 x 2 (Tab. 7.2) che si ottengono<br />

confrontando coppie <strong>di</strong> oggetti o <strong>di</strong> variabili.<br />

L’informazione ricavata dai confronti <strong>degli</strong> elementi e’<br />

convenientemente riassunta nei valori descritti <strong>di</strong><br />

a = numero <strong>di</strong> presenze in comune tra gli elementi 1 e 2. Se gli elementi sono oggetti,<br />

corrisponde al numero <strong>di</strong> variabili possedute da entrambi; se gli elementi sono variabili,<br />

corrisponde al numero <strong>di</strong> oggetti in cui sono riscontrate entrambe le variabili.<br />

b = numero <strong>di</strong> presenze dell'elemento 1 quando l'elemento 2 e' assente; se gli elementi sono<br />

oggetti, corrisponde al numero <strong>di</strong> variabili possedute solo dall’elemento 1; se gli elementi<br />

7-79


sono variabili, corrisponde al numero <strong>di</strong> oggetti in cui e’ stata osservata solo la variabile<br />

1.<br />

c = numero <strong>di</strong> presenze dell'elemento 2 quando l'elemento 1 e' assente; se gli elementi sono<br />

oggetti, corrisponde al numero <strong>di</strong> variabili possedute solo dall’elemento 2; se gli elementi<br />

sono variabili, corrisponde al numero <strong>di</strong> oggetti in cui e’ stata osservata solo la variabile<br />

2.<br />

d = numero <strong>di</strong> assenze comuni ai due elementi (doppi zeri); se gli elementi sono oggetti,<br />

corrisponde al numero <strong>di</strong> variabili non presenti né nell’oggetto 1, ne’ nel 2, ma presenti<br />

in qualche altro oggetto della matrice dei dati; se gli elementi sono variabili, corrisponde<br />

al numero <strong>di</strong> oggetti in cui nessuna delle due variabili 1 e 2 e’ stata rilevata, ma nei quali<br />

sono state rilevate altre variabili della matrice dei dati.<br />

Il valore ‘d’ contribuisce alla <strong>di</strong>ssomiglianza piuttosto che alla somiglianza. Non tutti gli<br />

in<strong>di</strong>ci lo considerano.<br />

n = a+b+c+d = totale generale della tabellina <strong>di</strong> contingenza. Se si confrontano oggetti,<br />

corrisponde al numero <strong>di</strong> variabili nella matrice dei dati; se si confrontano variabili,<br />

corrisponde al numero <strong>di</strong> oggetti nella matrice dei dati.<br />

a+b e c+d = totali <strong>di</strong> riga della tabellina <strong>di</strong> contingenza che in<strong>di</strong>cano il numero <strong>di</strong> presenze e<br />

assenze dell’elemento 1.<br />

a+c e b+d = totali <strong>di</strong> colonna della tabellina <strong>di</strong> contingenza che in<strong>di</strong>cano il numero <strong>di</strong><br />

presenze e assenze dell’elemento 2.<br />

Tra gli in<strong>di</strong>ci che danno particolare importanza alle presenze comuni (valore ‘a’ nella tabellina<br />

2x2) perche’ determinano maggiormente la somiglianza, e che non prendono in considerazione il<br />

parametro ‘d’, cioe’ le doppie assenze, descriviamo i seguenti:<br />

- l’in<strong>di</strong>ce <strong>di</strong> Jaccard rapporta il numero <strong>di</strong> presenze comuni al numero totale <strong>di</strong> presenze<br />

riscontrate in almeno uno dei due elementi. In termini insiemistici esso e’ facilmente interpretabile<br />

come il rapporto tra l’intersezione e la riunione <strong>di</strong> due insiemi. Questi sono o i due insiemi <strong>di</strong><br />

caratteri che descrivono i due oggetti o i due insiemi <strong>di</strong> oggetti in cui sono state osservate le due<br />

variabili. Esso corrisponde all’in<strong>di</strong>ce similarity ratio (7.7) applicato a dati binari:<br />

S a<br />

= Jaccard a + b +<br />

(7.12)<br />

c<br />

comuni:<br />

- l’in<strong>di</strong>ce <strong>di</strong> Sorensen (o <strong>di</strong> Dice), simile all’in<strong>di</strong>ce <strong>di</strong> Jaccard, da’ doppio peso alle presenze<br />

7-80


S 2a<br />

= Sorensen 2 a + b + c<br />

(7.13)<br />

- l’in<strong>di</strong>ce <strong>di</strong> Ochiai corrisponde al coseno dell'angolo (7.5) applicato a dati binari:<br />

a<br />

S Ochiai<br />

= (7.14)<br />

( a + b)(<br />

a + c)<br />

- la <strong>di</strong>stanza euclidea per dati binari si riduce a:<br />

D euclidea<br />

= b + c<br />

(7.15)<br />

- la <strong>di</strong>stanza della corda e’ correlata anche per i dati binari al coseno dell’angolo cioe’<br />

all’in<strong>di</strong>ce <strong>di</strong> Ochiai (7.14) ed e’ dato da :<br />

⎛<br />

⎞<br />

⎜<br />

a<br />

D corda<br />

= 2<br />

⎟<br />

1−<br />

(7.16)<br />

⎝ ( a + b)(<br />

a + c)<br />

⎠<br />

Quando la co<strong>di</strong>fica binaria 1 e 0 e’ arbitraria oppure quando le assenze comuni sono da<br />

considerarsi significative come le doppie presenze, si utilizzano in<strong>di</strong>ci che considerano la presenza<br />

dei doppi zeri (valore ‘d’ nella tabellina 2x2). Tra questi ricor<strong>di</strong>amo:<br />

- il coefficiente <strong>di</strong> correlazione che per dati binari assume la seguente notazione:<br />

ad − bc<br />

r = phi =<br />

(7.17)<br />

( a + b)(<br />

a + c)(<br />

b + d)(<br />

c + d)<br />

e che e’ spesso applicato in ecologia come misura <strong>di</strong> associazione tra coppie <strong>di</strong> specie.<br />

Il coefficiente assume valori compresi tra –1 e +1 e rimane indeterminato quando una specie<br />

e’ presente in tutte le unita’ <strong>di</strong> campionamento, cioe’ quando, per esempio, i valori ‘c’ e ‘d’,<br />

essendo entrambi uguali a zero, annullano il denominatore.<br />

Il coefficiente r calcolato su tabelle <strong>di</strong> contingenza e' legato al χ 2 [eq. (4.42)] dalla seguente<br />

relazione:<br />

2<br />

χ<br />

r = (7.18)<br />

n<br />

- l’in<strong>di</strong>ce ”simple matching” (Sokal & Michener), o coefficiente delle concordanze positive e<br />

negative, e’ semplicemente il rapporto tra tutte le presenze e assenze comuni e il totale generale<br />

che considera anche le presenze non comuni:<br />

7-81


a + d<br />

S SM<br />

= (7.19)<br />

n<br />

- l’in<strong>di</strong>ce <strong>di</strong> Yule e’ il piu’ comunemente usato. Assume lo stesso intervallo <strong>di</strong> valori del<br />

coefficiente <strong>di</strong> correlazione e presenta gli stessi problemi <strong>di</strong> indeterminazione.<br />

ad − bc<br />

S Yule<br />

= (7.20)<br />

ad + bc<br />

7.6 FUNZIONI DI SOMIGLIANZA PER DATI MISTI<br />

L’in<strong>di</strong>ce <strong>di</strong> Gower e’ un coefficiente che misura la somiglianza tra oggetti descritti da<br />

variabili misurate su <strong>di</strong>fferente scala: binaria, nominale multistato, intervallare e razionale. L’in<strong>di</strong>ce<br />

calcola per ciascuna variabile i la somiglianza s i(a,b) tra gli oggetti a e b e vi attribuisce un peso<br />

w i(a,b) che assume valore 1 se il valore della variabile e’ noto per entrambi gli oggetti e valore 0 se<br />

manca in uno o in entrambi gli oggetti rendendo impossibile il loro confronto. Il peso rende quin<strong>di</strong><br />

applicabile l’in<strong>di</strong>ce anche quando i dati a <strong>di</strong>sposizione non sono completi e la matrice presenta i<br />

cosiddetti dati mancanti. Sulla base della somiglianza e del peso <strong>di</strong> ciascuna variabile l’in<strong>di</strong>ce e’<br />

costruito nella seguente maniera:<br />

S<br />

Gower ( a,<br />

b)<br />

m<br />

∑ wi(<br />

a,<br />

b)<br />

si(<br />

a,<br />

b)<br />

i=<br />

1<br />

=<br />

m<br />

(7.21)<br />

∑ w<br />

i=<br />

1<br />

i(<br />

a,<br />

b)<br />

Il contributo alla somiglianza s i(a,b) assume valori compresi tra 0 ed 1. Per dati nominali<br />

s i(a,b) =1 se gli stati dei caratteri concordano e s i(a,b) =0 nel caso contrario, mentre per i dati<br />

intervallari e razionali e' calcolato nella seguente maniera:<br />

s<br />

i(<br />

a,<br />

b)<br />

| xia<br />

− xib<br />

|<br />

= 1−<br />

(7.22)<br />

R<br />

dove R costituisce il campo <strong>di</strong> variazione (4.9) della variabile considerata.<br />

Nel caso <strong>di</strong> dati binari, quando il confronto e’ applicato ai doppi zeri, w i(a,b) = s i(a,b) = 1 se si<br />

ritengono i doppi zeri significativi e w i(a,b) = s i(a,b) =0 in caso contrario. Spetta al ricercatore<br />

valutare se l’assenza <strong>di</strong> un carattere in ambedue gli oggetti contribuisce comunque a renderli simili<br />

o se li rende non confrontabili per quel carattere. L'in<strong>di</strong>ce applicato solo a dati binari con doppi zeri<br />

non significativi e' equivalente all'in<strong>di</strong>ce <strong>di</strong> Jaccard.<br />

7-82


L'in<strong>di</strong>ce <strong>di</strong> Gower varia tra 0 e 1. Il complemento dell'in<strong>di</strong>ce a 1 da' la <strong>di</strong>stanza <strong>di</strong> Gower.<br />

7.7 COSTRUZIONE DI MATRICI SIMMETRICHE<br />

La similarita’ tra gli elementi <strong>di</strong> una matrice valutata con una qualsiasi delle funzioni appena<br />

descritte e’ sempre interpretabile come vicinanza <strong>degli</strong> elementi stessi nello spazio<br />

multi<strong>di</strong>mensionale. Calcolare la funzione tra tutte le unita’ <strong>di</strong> stu<strong>di</strong>o prese a coppie equivale a<br />

valutare tutte le posizioni reciproche tra gli elementi in termini <strong>di</strong> vicinanza o <strong>di</strong> <strong>di</strong>stanza. Questi<br />

valori possono essere convenientemente tabulati in una matrice (S) quadrata simmetrica <strong>di</strong><br />

somiglianza, <strong>di</strong>stanza o correlazione (Tab. 7.3), nella quale ogni valore s ij rappresenta il valore<br />

della funzione <strong>di</strong> similarita’ tra le unita’ i e j. La simmetria della matrice e' dovuta al fatto che la<br />

somiglianza, <strong>di</strong>stanza o correlazione tra le unita’ i e j e' la stessa che intercorre tra le unita’ j e i.<br />

Se n sono le unita’ da classificare, la funzione <strong>di</strong> similarita’ viene calcolata un numero <strong>di</strong> volte<br />

p=n(n+1)/2 corrispondente al numero <strong>di</strong> combinazioni a due tra tutte le unita’, cioe’ al numero <strong>di</strong><br />

confronti possibili, compresi quelli con se’ stesse. Esso costituisce il numero <strong>degli</strong> elementi della<br />

matrice triangolare alta o bassa della matrice simmetrica. Sulla <strong>di</strong>agonale della matrice simmetrica<br />

si leggono i valori della funzione applicata alle unita’ con se’ stesse e pertanto costituiscono sempre<br />

valori minimi <strong>di</strong> <strong>di</strong>stanza o valori massimi <strong>di</strong> somiglianza o correlazione. Se la matrice simmetrica e'<br />

una matrice <strong>di</strong> <strong>di</strong>stanza, gli elementi sulla <strong>di</strong>agonale hanno tutti valore 0; se, invece, e' una matrice<br />

<strong>di</strong> somiglianza, gli elementi sulla <strong>di</strong>agonale assumono tutti valore 1 per funzioni <strong>di</strong> somiglianza<br />

relativa, o maggiore <strong>di</strong> uno per funzioni non normalizzate o con valore massimo dell’in<strong>di</strong>ce >1.<br />

Tab. 7.3 Matrice quadrata simmetrica <strong>di</strong> similarita’. I valori<br />

sulla <strong>di</strong>agonale sono incorniciati ed evidenziati in grassetto.<br />

Essi <strong>di</strong>vidono la matrice in due porzioni <strong>di</strong> forma triangolare. I<br />

valori della matrice triangolare alta sono simmetricamente<br />

uguali a quelli della triangolare bassa, cioe’ s ij =s ji .<br />

1 2 3 … n<br />

1 s 11 s 12 s 13 ... s 1n<br />

2 s 21 s 22 s 23 s ji s 2n<br />

S = 3 s 31 s 32 s 33 ... s 3n<br />

… … s ij ... … ...<br />

n s n1 s n2 s n3 ... s nn<br />

7.7.1 Trasformazioni dei valori delle funzioni<br />

In generale, si possono trasformare i valori delle funzioni <strong>di</strong> somiglianza (S) in valori <strong>di</strong><br />

7-83


<strong>di</strong>stanza (D) e viceversa tramite formule come le seguenti:<br />

D = 1-S (7.23)<br />

D = - log S (7.24)<br />

D = 1 / (1 + S) (7.25)<br />

Le prime due sono applicabili a valori <strong>di</strong> somiglianza o <strong>di</strong> <strong>di</strong>stanza compresi tra 0 ed 1, la<br />

terza anche a valori <strong>di</strong> funzioni con valore massimo non definito.<br />

7.8 ESEMPIO DI CALCOLO<br />

7.8.1 Dati quantitativi<br />

Consideriamo i dati <strong>di</strong> una semplice matrice (Tab. 7.4) in cui sono riportati i valori quantitativi<br />

relativi a tre specie osservate in quattro unita’ <strong>di</strong> campionamento. Nell’ultima colonna si leggono le<br />

me<strong>di</strong>e dei valori <strong>di</strong> abbondanza per ciascuna specie.<br />

Tab. 7.4 Dati relativi all’abbondanza <strong>di</strong> tre specie in<br />

quattro unita’ <strong>di</strong> campionamento.<br />

1 2 3 4 me<strong>di</strong>a<br />

Specie A 10 5 15 20 12.5<br />

Specie B 12 20 0 0 8<br />

Specie C 0 10 7 15 8<br />

I passaggi <strong>di</strong> calcolo <strong>degli</strong> in<strong>di</strong>ci <strong>di</strong> <strong>di</strong>stanza e somiglianza applicati alle unita’ 1 e 2 e del<br />

coefficiente <strong>di</strong> correlazione tra le specie A e B sono illustrati <strong>di</strong> seguito.<br />

Distanza euclidea [eq. (7.1)]:<br />

2<br />

2<br />

2<br />

Deuclidea (1,2)<br />

= (10 -5) + (12 − 20) + (0 −10)<br />

= 13.75<br />

Distanza della corda [eq. (7.2)]:<br />

D<br />

corda (1,2)<br />

=<br />

⎛<br />

2⎜1−<br />

⎜<br />

⎝<br />

(10<br />

2<br />

10 × 5 + 12 × 20 + 0 × 10<br />

+ 12<br />

2<br />

+ 0<br />

2<br />

) × (5<br />

2<br />

+ 20<br />

2<br />

+ 10<br />

2<br />

⎞<br />

⎟ =<br />

) ⎟<br />

⎠<br />

7-84


=<br />

⎛<br />

50 240 ⎞<br />

290<br />

2 ⎜<br />

+<br />

1<br />

⎟<br />

⎛ ⎞<br />

−<br />

= 2⎜1<br />

− ⎟ = 2 1 =<br />

(100 144) (25 400 100)<br />

⎝ + × + + ⎠ ⎝ 128100 ⎠<br />

( − 0.81) 0. 616<br />

Prodotto scalare [eq. (7.4)]:<br />

PS<br />

= 10 × 5 + 12 × 20 + 0 × 10 =<br />

S (1,2)<br />

290<br />

Coseno dell’angolo [eq. (7.5)]:<br />

cosα<br />

(10<br />

10×<br />

5 + 12×<br />

20 + 0×<br />

10<br />

+ 12<br />

+ 0<br />

)<br />

2 2<br />

(5 + 20<br />

+ 10<br />

)<br />

290 290<br />

=<br />

244 525 357.91<br />

=<br />

=<br />

=<br />

1,2 2 2 2<br />

2<br />

0.810<br />

Prodotto scalare rapportato alla somma dei quadrati del vettore piu’ lungo [eq. 7.6]:<br />

10×<br />

5 + 12×<br />

20 + 0×<br />

10<br />

290 290<br />

=<br />

=<br />

=<br />

2 2 2 2 2<br />

max[(10 + 12 + 0 ),(5 + 20 + 10 )] max(244,525) 525<br />

SPS (1,2)<br />

=<br />

2<br />

0.552<br />

Similarity ratio [eq. (7.7)]:<br />

10×<br />

5 + 12×<br />

20 + 0×<br />

10<br />

=<br />

=<br />

2 2 2 2 2<br />

(10 + 12 + 0 ) + (5 + 20 + 10 ) − (10 × 5 + 12×<br />

20 + 0×<br />

10)<br />

SSR (1,2)<br />

2<br />

290<br />

=<br />

= 0.605<br />

244+<br />

525−<br />

290<br />

Coefficiente <strong>di</strong> correlazione [eq. (7.8)]:<br />

r<br />

A,B<br />

=<br />

(10 −12.5)<br />

(10 −12.5)(12<br />

− 8) + ..... + (20 −12.5)(0<br />

− 8)<br />

2<br />

+ ..... + (20 −12.5)<br />

2<br />

(12 − 8)<br />

2<br />

+ ..... + (0 − 8)<br />

2<br />

=<br />

=<br />

( −2.5)4<br />

+ ( −7.5)12<br />

+ 2.5( −8)<br />

+ 7.5( −8)<br />

6.25 + .56.25 + 6.25 + 56.25 16 + 144 + 64 + 64<br />

−10<br />

− 90 − 20 − 60 −180<br />

=<br />

= = −0.949<br />

125 288 189.74<br />

7.8.2 Dati binari<br />

Consideriamo i dati <strong>di</strong> presenza-assenza <strong>di</strong> 5 specie osservate in 6 unita’ <strong>di</strong> rilevamento<br />

leggibili in Tab. 7.5.<br />

7-85


Tab. 7.5 Matrice <strong>di</strong> dati <strong>di</strong> presenza-assenza relativi a 5 specie<br />

rilevate in 6 rilievi.<br />

1 2 3 4 5 6<br />

Specie A 1 1 0 0 0 1<br />

Specie B 1 0 1 0 1 1<br />

Specie C 1 1 1 1 0 0<br />

Specie D 1 0 1 1 1 1<br />

Specie E 0 1 0 1 0 1<br />

Poiche’ gli in<strong>di</strong>ci <strong>di</strong> somiglianza o <strong>di</strong> <strong>di</strong>stanza tra i rilievi e <strong>di</strong> associazione tra le specie si<br />

basano su tabelle <strong>di</strong> contingenza 2x2 tra coppie <strong>di</strong> rilevi e coppie <strong>di</strong> specie, costruiamo, come<br />

esempio, le tabelle <strong>di</strong> contingenza relativamente ai rilievi 3 e 5 (Tab. 7.6) e alle specie B e D (Tab.<br />

7.7).<br />

Tab. 7.6 Tabella <strong>di</strong> contingenza 2x2 per la<br />

coppia <strong>di</strong> rilievi 3 e 5.<br />

Rilievo 5<br />

presente assente<br />

Tab. 7.7 Tabella <strong>di</strong> contingenza 2x2 per la coppia<br />

<strong>di</strong> specie B e D.<br />

Specie D<br />

presente assente<br />

Rilievo 3<br />

presente a=2 b=1 a+b=3 presente a=4 b=0 a+b=4<br />

assente c=0 d=2 c+d=2 assente c=1 d=1 c+d=2<br />

a+c=2 b+d=3 n=5<br />

Specie B<br />

a+c=5 b+d=1 n=6<br />

Gli in<strong>di</strong>ci descritti nel paragrafo precedente sono calcolati per la coppia <strong>di</strong> rilievi 3 e 5 nella<br />

seguente maniera:<br />

In<strong>di</strong>ce <strong>di</strong> Jaccard [eq. (7.11)]:<br />

2<br />

=<br />

2 + 1+<br />

0<br />

S<br />

Jaccard (3,5)<br />

=<br />

0.667<br />

In<strong>di</strong>ce <strong>di</strong> Sorensen [eq. (7.12)]:<br />

2×<br />

2<br />

=<br />

2×<br />

2 + 1+<br />

0<br />

S<br />

Sorensen (3,5)<br />

=<br />

0.8<br />

In<strong>di</strong>ce <strong>di</strong> Ochiai [eq. (7.13)]:<br />

2<br />

3×<br />

2<br />

S<br />

Ochiai (3,5)<br />

= =<br />

0.816<br />

7-86


Distanza euclidea [eq. (7.14)]:<br />

D<br />

euclidea )<br />

( 3,5<br />

= 1+<br />

0 = 1<br />

Distanza della corda [eq. (7.15)]:<br />

⎛ 2 ⎞<br />

corda<br />

= 2⎜1<br />

⎟<br />

− = 2 1 =<br />

(3 2)<br />

⎝ × ⎠<br />

D<br />

(3,5)<br />

( − 0.816) 0. 606<br />

I calcoli per l’associazione tra le specie B e D sono dati da:<br />

Coefficiente <strong>di</strong> correlazione [eq. (7.16)]:<br />

4×<br />

1−<br />

0×<br />

1<br />

4×<br />

5×<br />

1×<br />

2<br />

r B, D<br />

=<br />

=<br />

0.632<br />

In<strong>di</strong>ce “simple matching” [eq. (7.18)]:<br />

4 + 1<br />

=<br />

6<br />

SSM (B, D)<br />

=<br />

0.833<br />

In<strong>di</strong>ce <strong>di</strong> Yule [eq. (7.19)]:<br />

4×<br />

1−<br />

0×<br />

1<br />

=<br />

4×<br />

1+<br />

0×<br />

1<br />

SYule (B, D)<br />

=<br />

1<br />

7.8.3 Dati misti<br />

Si vuole calcolare le somiglianze <strong>di</strong> quattro corolle <strong>di</strong> fiori su cui sono stati rilevati i cinque<br />

parametri riportati in Tab. 7.8.<br />

Tab. 7.8 Matrice <strong>di</strong> dati misti relativi a 4 corolle <strong>di</strong> fiori. La prima variabile e’ binaria,<br />

le due seguenti sono qualitative multistato e le ultime due quantitative con<br />

<strong>di</strong>fferente unita’ <strong>di</strong> misura. Il simbolo ‘/’ in<strong>di</strong>ca un dato mancante.<br />

1 2 3 4<br />

Peli ai margini + + - -<br />

Superficie lucida vellutata / lucida<br />

Colore rosa rosa bianca bianca<br />

Lunghezza (cm) 5 7 3 4<br />

Giorni <strong>di</strong> fioritura 10 7 5 7<br />

Gli in<strong>di</strong>ci per le tre coppie <strong>di</strong> corolle 1-2, 3-4 e 2-3 sono costruiti nella seguente maniera:<br />

7-87


S<br />

Gower<br />

S<br />

Gower<br />

S<br />

Gower<br />

1+<br />

0 + 1+<br />

=<br />

[ 1−<br />

(7 − 5) /(7 − 3) ] + [ 1−<br />

(10 − 7) /(10 − 5) ]<br />

( 1,2)<br />

=<br />

1+<br />

0 + 1+<br />

=<br />

1+<br />

1+<br />

1+<br />

1+<br />

1<br />

[ 1−<br />

(4 − 3) /(7 − 3) ] + [ 1−<br />

(7 − 5) /(10 − 5) ]<br />

( 3,4)<br />

=<br />

0 + 0 + 0 +<br />

=<br />

1+<br />

0 + 1+<br />

1+<br />

1<br />

[ 1−<br />

(7 − 3) /(7 − 3) ] + [ 1−<br />

(7 − 5) /(10 − 5) ]<br />

( 2,3)<br />

=<br />

1+<br />

0 + 1+<br />

1+<br />

1<br />

0.58<br />

0.8375<br />

0.15<br />

Il confronto tra le prime due corolle e’ possibile per tutti i cinque parametri e pertanto il peso<br />

al denominatore e’ la somma <strong>di</strong> cinque 1. Nella terza equazione, relativa alle ultime due corolle, il<br />

secondo valore e’ zero sia al numeratore che al denominatore poiché non e’ possibile confrontare il<br />

secondo carattere essendo mancante nella corolla 3. In questa coppia e’ stata ritenuta significativa<br />

ai fini della loro somiglianza anche la doppia assenza del primo carattere (peli ai margini) al quale<br />

e’ stato attribuito il peso e la somiglianza massima (1).<br />

7.9 ALGORITMI DI CLASSIFICAZIONE GERARCHICA AUTOMATICA<br />

Quando il numero <strong>degli</strong> oggetti o delle variabili da confrontare e’ alto, risulta <strong>di</strong>fficile farsi<br />

un’idea circa le mutue relazioni <strong>di</strong> correlazione o associazione tra le variabili e <strong>di</strong> somiglianza o <strong>di</strong><br />

<strong>di</strong>stanza tra gli oggetti osservando semplicemente le matrici simmetriche <strong>di</strong> correlazione o <strong>di</strong><br />

similarita’. E’ necessario quin<strong>di</strong> <strong>di</strong>sporre <strong>di</strong> rappresentazioni grafiche che illustrino in modo sintetico<br />

tali relazioni.<br />

Si chiamano tecniche <strong>di</strong> classificazione gerarchica automatica quelle che, sulla base <strong>di</strong> una<br />

matrice simmetrica <strong>di</strong> somiglianza, <strong>di</strong>stanza o correlazione, danno una classificazione <strong>degli</strong><br />

elementi rappresentabile attraverso grafici a forma <strong>di</strong> albero detti dendrogrammi che rivelano i<br />

rapporti gerarchici tra le classi <strong>degli</strong> elementi stessi. Le classi vengono definite introducendo una<br />

relazione <strong>di</strong> equivalenza nell'insieme <strong>degli</strong> elementi e stabilendo una soglia <strong>di</strong> somiglianza per<br />

in<strong>di</strong>viduare gli elementi appartenenti alla stessa classe.<br />

Tra le tecniche piu' comuni <strong>di</strong> classificazione automatica gerarchica ci sono quelle del legame<br />

singolo, del legame completo e del legame me<strong>di</strong>o.<br />

Nel metodo del legame singolo o del vicino piu’ prossimo un elemento o un gruppo <strong>di</strong><br />

elementi viene fuso con un altro elemento o gruppo <strong>di</strong> elementi sulla base della minima <strong>di</strong>stanza<br />

(equivalente alla somiglianza piu’ elevata) che intercorre tra i due elementi isolati o gia’<br />

appartenenti a gruppi. Il livello <strong>di</strong> somiglianza al quale avviene la fusione e' uguale alla massima<br />

somiglianza che l'elemento stesso - isolato o gia’ appartenente ad un gruppo - ha con uno<br />

7-88


qualunque <strong>degli</strong> elementi dell'altro gruppo. Questo legame tende a creare strutture continue (a<br />

catena) quando la struttura dei dati non e’ chiaramente definita e nello spazio multi<strong>di</strong>mensionale le<br />

unita’ formano gruppi che, pur non avendo molto in comune, non si <strong>di</strong>stanziano molto tra loro ma<br />

sono uniti da una serie <strong>di</strong> unita’ interme<strong>di</strong>e. Per questa sua caratteristica l’utilizzo del legame<br />

singolo e’ un buon metodo per evidenziare sia strutture <strong>di</strong> dati ben definite in gruppi che strutture<br />

continue. Infatti se il metodo evidenzia dei gruppi, questi sono realmente presenti e ben definibili<br />

nello spazio; in caso contrario viene riflessa la struttura continua dei dati, i cui punti si <strong>di</strong>spongono<br />

senza soluzione <strong>di</strong> continuita’ lungo i gra<strong>di</strong>enti (uno o piu’) che definiscono lo spazio<br />

multi<strong>di</strong>mensionale.<br />

Applicato a dati fitosociologici il legame singolo esprime graficamente molto bene la<br />

variazione graduale della vegetazione (continuum) piuttosto che evidenziare i raggruppamenti dei<br />

rilievi appartenenti alle stesse comunita’ vegetali.<br />

Nel metodo del legame completo o del vicino piu’ lontano un elemento o un gruppo <strong>di</strong><br />

elementi viene fuso con un altro elemento o gruppo <strong>di</strong> elementi se la somiglianza minima tra<br />

l’elemento o gruppo <strong>di</strong> elementi con tutti gli elementi dell’altro gruppo e’ la piu’ elevata. Cioe’ la<br />

somiglianza tra due gruppi e’ quella esistente tra i loro due membri piu’ lontani. Per questo fatto il<br />

metodo tende a produrre gruppi compatti <strong>di</strong> forma ipersferica che si uniscono tra loro con valori<br />

relativamente bassi <strong>di</strong> somiglianza.<br />

Nel metodo del legame me<strong>di</strong>o un elemento o gruppo <strong>di</strong> elementi viene fuso con un altro<br />

elemento o gruppo <strong>di</strong> elementi se la somiglianza me<strong>di</strong>a tra l’elemento o gruppo <strong>di</strong> elementi con<br />

tutti gli elementi dell’altro gruppo e’ la piu’ elevata. Il livello <strong>di</strong> somiglianza al quale un elemento<br />

viene legato al gruppo e' uguale alla somiglianza me<strong>di</strong>a che l'elemento ha con tutti gli elementi<br />

dell'altro gruppo.<br />

E’ noto che <strong>di</strong>fficilmente due meto<strong>di</strong> danno esattamente lo stesso risultato salvo che la<br />

struttura dei dati non sia marcatamente <strong>di</strong>scontinua.<br />

La Fig. 7.5 illustra graficamente i tre meto<strong>di</strong> <strong>di</strong> classificazione per punti collocati in uno spazio<br />

a due <strong>di</strong>mensioni. In essa il punto p rappresenta un’unita’ che deve essere assegnata ad uno dei<br />

gruppi A, B e C.<br />

Il segmento a costituisce la piu’ piccola delle <strong>di</strong>stanze tra p e i punti piu’ vicini dei tre gruppi,<br />

rappresenta cioe’ la minima delle minime <strong>di</strong>stanze dai gruppi.<br />

Il segmento b e’ la piu’ piccola <strong>di</strong>stanza me<strong>di</strong>a tra p e i gruppi, e rappresenta la minima delle<br />

<strong>di</strong>stanze me<strong>di</strong>e dai gruppi.<br />

Infine il segmento c e’ la piu’ piccola delle <strong>di</strong>stanze tra p e i punti piu’ lontani dei tre gruppi,<br />

costituisce quin<strong>di</strong> la minima delle massime <strong>di</strong>stanze dai gruppi.<br />

Il legame singolo assegna p ad A, il legame me<strong>di</strong>o assegna p a B, il legame completo<br />

7-89


assegna p a C.<br />

A<br />

B<br />

a<br />

b<br />

p<br />

c<br />

C<br />

Fig. 7.5 Rappresentazione grafica dei tre meto<strong>di</strong> <strong>di</strong> classificazione <strong>di</strong><br />

punti in uno spazio bi-<strong>di</strong>mensionale. a e’ la minima delle minime<br />

<strong>di</strong>stanze dai gruppi per la quale il legame singolo assegna il punto p ad<br />

A. b e’ la minima delle <strong>di</strong>stanze me<strong>di</strong>e dai gruppi per la quale il legame<br />

me<strong>di</strong>o assegna p a B. c e’ la minima delle massime <strong>di</strong>stanze per la<br />

quale il legame completo assegna p a C.<br />

Durante il processo <strong>di</strong> classificazione, a mano a mano che gli elementi piu’ simili sono uniti in<br />

gruppi via via piu’ gran<strong>di</strong>, si registrano anche i valori <strong>di</strong> somiglianza in corrispondenza dei <strong>di</strong>versi<br />

livelli <strong>di</strong> fusione per poter rappresentare tramite un grafo le relazioni trovate. Il grafo che viene<br />

costruito e’ chiamato dendrogramma (Fig. 7.6) ed ha l'aspetto <strong>di</strong> un albero rovesciato le cui<br />

terminazioni rappresentano gli oggetti classificati e i cui rami orizzontali in<strong>di</strong>cano i legami <strong>di</strong><br />

somiglianza esistenti tra oggetti e/o gruppi <strong>di</strong> oggetti. Il valore <strong>di</strong> somiglianza a cui un oggetto o<br />

gruppo <strong>di</strong> oggetti si lega ad un altro viene letto nella scala posta a lato del dendrogramma. I primi<br />

gruppi che si vengono a formare sono quelli piu' omogenei, cioe' quelli con una piu' alta<br />

somiglianza interna; a mano a mano che il dendrogramma si completa, i gruppi si uniscono tra loro<br />

in gruppi piu’ gran<strong>di</strong> sempre meno omogenei e quin<strong>di</strong> con una somiglianza interna inferiore.<br />

7.10 VALUTAZIONE ED UTILIZZO DEI RISULTATI DELLA CLASSIFICAZIONE AUTOMATICA<br />

Il problema che si pone dopo aver ottenuto un dendrogramma e’ l’in<strong>di</strong>viduazione e la<br />

definizione delle classi o gruppi che comporta anche la ricerca delle caratteristiche che<br />

contrad<strong>di</strong>stinguono una classe dall’altra. Il dendrogramma puo’ suggerire l’esistenza <strong>di</strong> classi ma<br />

non le giustifica. Il successo <strong>di</strong> una classificazione consiste nella sua capacita’ <strong>di</strong> definire classi ben<br />

separate, cioe’ classi ben definibili. Tanto piu’ le classi risultano definibili, tanto piu’ la<br />

classificazione risulta utile.<br />

7-90


Una modalita’ soggettiva <strong>di</strong> operare per in<strong>di</strong>viduare graficamente nel dendrogramma le classi<br />

e’ scegliere a priori un valore soglia <strong>di</strong> somiglianza in corrispondenza del quale si traccia una linea<br />

parallela alle linee che uniscono i sottogruppi rispetto alla quale si osserva in quanti gruppi si<br />

ripartisce l'insieme <strong>degli</strong> oggetti (ve<strong>di</strong> Fig. 7.6). L’in<strong>di</strong>viduazione dei gruppi viene fatta da alcuni<br />

ricercatori in maniera soggettiva anche stabilendo un valore <strong>di</strong> somiglianza che permetta <strong>di</strong><br />

in<strong>di</strong>viduare quei gruppi che grossolanamente erano gia' stati in<strong>di</strong>viduati a priori sulla base <strong>di</strong> idee<br />

preconcette. Questo modo <strong>di</strong> operare servirebbe per confermare o no cio’ che il ricercatore si<br />

aspetta. La scelta del taglio del dendrogramma puo' essere fatta piu’ rigorosamente secondo criteri<br />

oggettivi che si basano principalmente sulla valutazione dell'omogeneita' all'interno dei gruppi<br />

stimata, per esempio, tramite la statistica del chi-quadrato. Questi in<strong>di</strong>viduano il taglio ottimale,<br />

cioe’ quello che crea gruppi piu’ <strong>di</strong>somogenei tra loro e piu’ omogenei al loro interno.<br />

E’ utile a questo punto introdurre il concetto <strong>di</strong> pre<strong>di</strong>ttivita’. Con questo termine si intende la<br />

capacita’ <strong>di</strong> una classificazione <strong>di</strong> oggetti <strong>di</strong> pre<strong>di</strong>re stati <strong>di</strong> variabili. Se le variabili appartengono<br />

all’insieme <strong>di</strong> variabili utilizzate per ottenere la classificazione allora si parla <strong>di</strong> pre<strong>di</strong>ttivita’ interna,<br />

se le variabili non sono servite per la classificazione allora si parla <strong>di</strong> pre<strong>di</strong>ttivita’ esterna. Si <strong>di</strong>ce<br />

che una classificazione e’ pre<strong>di</strong>ttiva nei confronti <strong>di</strong> una variabile se esiste una <strong>di</strong>fferenza<br />

significativa tra i valori che la variabile assume nelle <strong>di</strong>verse classi <strong>di</strong> oggetti.<br />

Se i dati sono continui, per misurare la significativita’ delle <strong>di</strong>fferenze tra le classi possono<br />

essere applicati i meto<strong>di</strong> statistici che si basano sulla varianza come il test F e il test t <strong>di</strong> Student<br />

[eq. (4.24)]. Se i dati sono <strong>di</strong>screti (frequenze), si possono usare i meto<strong>di</strong> basati sul chi-quadrato<br />

[eq. (4.41)] <strong>di</strong> tabelle <strong>di</strong> contingenza. Se una classificazione e’ pre<strong>di</strong>ttiva per una certa variabile e<br />

non lo e’ per un’altra, allora la prima variabile e’ <strong>di</strong>scriminante e la seconda no. La pre<strong>di</strong>ttivita’ <strong>di</strong><br />

una classificazione e la capacita’ <strong>di</strong>scriminante delle variabili sono due concetti strettamente<br />

collegati. Le variabili <strong>di</strong>scriminanti per una determinata classificazione sono quelle che<br />

maggiormente giustificano la classificazione per i <strong>di</strong>fferenti valori che assumono nelle varie classi<br />

che rimangono appunto <strong>di</strong>stinte.<br />

Un’operazione molto semplice che aiuta ad in<strong>di</strong>viduare e/o definire le classi <strong>di</strong> oggetti e <strong>di</strong><br />

variabili consiste nella ristrutturazione della tabella dei dati secondo il nuovo or<strong>di</strong>ne <strong>di</strong> righe e/o<br />

colonne dettato dalle sequenze dei dendrogrammi. Il rior<strong>di</strong>namento della matrice semplifica la<br />

lettura della matrice stessa favorendo la definizione dei gruppi. Infatti poiche’ i vettori riga e<br />

colonna sono rior<strong>di</strong>nati in base alla somiglianza dei loro valori, sono facilmente in<strong>di</strong>viduabili<br />

all’interno della matrice omogeneita’ <strong>di</strong> valori in corrispondenza <strong>di</strong> elementi dello stesso gruppo e<br />

<strong>di</strong>scontinuita’ al passaggio da un gruppo all’altro. Cio’ agevola la descrizione delle classi poiche’ i<br />

gruppi <strong>di</strong> oggetti sono facilmente in<strong>di</strong>viduabili sulla base <strong>di</strong> tutte le variabili che li caratterizzano<br />

anche da un punto <strong>di</strong> vista quantitativo, e i gruppi <strong>di</strong> variabili sulla base della loro presenza<br />

7-91


contemporanea (co-occorrenza) negli oggetti.<br />

Una tabella puo’ essere ristrutturata <strong>di</strong>versamente secondo i risultati ottenuti con i <strong>di</strong>versi<br />

in<strong>di</strong>ci <strong>di</strong> similarita’ e algoritmi <strong>di</strong> classificazione applicati. Se, ad esempio, sono stati applicati 3<br />

meto<strong>di</strong> per la classificazione della variabili ed altrettanti meto<strong>di</strong> per quella <strong>degli</strong> oggetti, in tutto si<br />

potranno ottenere 3x3=9 tabelle ristrutturate secondo tutte le possibilita’ <strong>di</strong> rior<strong>di</strong>namento. Tutte<br />

queste tabelle potrebbero essere equivalenti, oppure qualcuna potrebbe rappresentare meglio<br />

delle altre la struttura dei dati, cioe’ le relazioni tra variabili/gruppi <strong>di</strong> variabili e gruppi <strong>di</strong> rilievi.<br />

Puo’ tornare utile confrontare i risultati delle <strong>di</strong>verse classificazioni in termini <strong>di</strong> composizione delle<br />

classi ottenute a specifici livelli gerarchici del dendrogramma. Per confrontare due classificazioni si<br />

utilizzano la statistica chi-quadrato [eq. (4.41)] o l’in<strong>di</strong>ce <strong>di</strong> Cramer [eq. (4.44)] da esso derivato o<br />

la mutua informazione [eq. (2.2)] applicate ad una tabella <strong>di</strong> contingenza in cui le righe<br />

rappresentano le classi della prima classificazione e le colonne quelle della seconda. I valori <strong>di</strong><br />

frequenza nella tabella in<strong>di</strong>cano il numero <strong>di</strong> elementi che appartengono ad entrambe le<br />

classificazioni nei gruppi corrispondenti.<br />

Ad esempio, supponiamo <strong>di</strong> aver classificato con due meto<strong>di</strong> <strong>di</strong>versi 25 rilievi e <strong>di</strong> aver<br />

in<strong>di</strong>viduato 3 gruppi principali in entrambe le classificazioni. Attribuendo a ciascun rilievo il gruppo<br />

<strong>di</strong> appartenenza per ciascuna classificazione (Tab. 7.9), risulta poi facile costruire la tabella <strong>di</strong><br />

incrocio tra i vettori delle appartenenze alle classi delle due classificazioni. Infatti per sapere quanti<br />

rilievi appartengono al primo gruppo della prima classificazione e contemporaneamente al primo<br />

gruppo della seconda classificazione si contano i rilievi che hanno la coppia <strong>di</strong> valori 1,1 e si<br />

procede in questa maniera fino ad aver inserito nella tabella d’incrocio tutti i rilievi.<br />

Tab. 7.9 Valori <strong>di</strong> appartenenza <strong>di</strong> 25 rilievi ai gruppi ottenuti con due <strong>di</strong>verse classificazioni.<br />

Rilievi 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25<br />

I classif. 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3<br />

II classif. 1 1 1 1 1 3 3 3 3 3 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2<br />

La <strong>di</strong>stribuzione dei valori nella tabella <strong>di</strong> contingenza (Tab. 7.10) in<strong>di</strong>ca che non tutti i gruppi<br />

ottenuti con una classificazione corrispondono in modo consistente ai gruppi ottenuti con l’altra. Il<br />

gruppo che rimane piu’ stabile in entrambe le classificazioni e’ il 2; infatti, 10 rilievi su 13 del<br />

gruppo 2 della prima classificazione si confermano nel gruppo 2 della seconda classificazione<br />

costituito da 12 rilievi. Si puo’ osservare invece che i primi gruppi <strong>di</strong> entrambe le classificazioni si<br />

smembrano in due gruppi nella classificazione alternativa.<br />

L’in<strong>di</strong>ce <strong>di</strong> Cramer applicato a tabelle d’incrocio <strong>di</strong> questo tipo e’ uguale a 0 quando la<br />

<strong>di</strong>fferenza tra le classificazioni e’ massima, cioe’ quando i valori relativi alle classi <strong>di</strong> una<br />

7-92


classificazione si <strong>di</strong>stribuiscono in maniera uniforme nelle classi dell’altra, e uguale a 1 quando c’e’<br />

una concordanza perfetta. Il valore dell’in<strong>di</strong>ce applicato alla tabella del nostro esempio e’ 0.594<br />

in<strong>di</strong>cante una concordanza me<strong>di</strong>a tra le due classificazioni.<br />

Tab. 7.10 Tabella d’incrocio tra le due classificazioni<br />

descritte in Tab. 7.9 con i totali marginali <strong>di</strong> riga e <strong>di</strong><br />

colonna e il totale generale. In<strong>di</strong>ce <strong>di</strong> Cramer=0.59.<br />

I<br />

II<br />

1 2 3 Totali<br />

1 5 0 5 10<br />

2 3 10 0 13<br />

3 0 2 0 2<br />

Totali 8 12 5 25<br />

7.11 ESEMPIO DI CALCOLO<br />

Diamo ora un esempio concreto <strong>di</strong> come si costruisce un dendrogramma con il metodo del<br />

legame singolo da una matrice <strong>di</strong> somiglianza.<br />

Il metodo consiste nel collegare gli oggetti secondo la massima somiglianza costruendo un<br />

grafo ad albero rovesciato detto dendrogramma. S’inizia col cercare all’interno della matrice i due<br />

oggetti piu' simili, cioe' quelli legati tra loro dal piu' alto valore <strong>di</strong> somiglianza; poi si cerca l'oggetto<br />

piu' simile ad uno dei due e lo si collega, poi l'oggetto che e' piu' simile ad uno dei tre e lo si<br />

collega e cosi' via. In questo processo bisogna prestare attenzione quando si cerca l'oggetto che<br />

deve essere legato ad un gruppo gia' esistente; e’ necessario, infatti, verificare che la somiglianza<br />

massima che questo ha con un qualsiasi elemento del gruppo sia in ogni caso superiore a quella<br />

che ha con qualsiasi altro elemento non appartenente al gruppo. In caso contrario, l'oggetto deve<br />

essere prima legato con l'elemento non ancora legato o con il gruppo con cui ha somiglianza<br />

massima.<br />

E' conveniente collegare gli elementi facendo riferimento ad una scala <strong>di</strong> somiglianza che si<br />

colloca sulla sinistra del dendrogramma che si deve costruire.<br />

Nella tabellina sottostante sono riportati 5 rilievi <strong>di</strong> prato descritti da 4 specie vegetali<br />

appartenenti alla famiglia delle graminacee. La stima della loro copertura e' espressa in scala<br />

Braun-Blanquet secondo la quale il valore + in<strong>di</strong>ca copertura inferiore o uguale a 1% e i valori 1,2<br />

e 3 rispettivamente coperture comprese nell'intervallo 1-20%, 20-40% e 40-60%. Per trattare<br />

numericamente i dati trasformiamo la scala <strong>di</strong> Braun-Blanquet nella seguente maniera: +=1, 1=3,<br />

2=5, 3=7 secondo la scala <strong>di</strong> Van der Maarel ottenendo i valori riportati nella parte destra della<br />

tabella.<br />

7-93


Tab. 7.11 Tabelle relative ai valori <strong>di</strong> copertura <strong>di</strong> 4 specie <strong>di</strong> graminacee in 5 rilievi <strong>di</strong> prato. a) I valori<br />

sono espressi in scala Braun-Blanquet. b) I valori sono espressi in scala Van der Maarel.<br />

a<br />

b<br />

1 2 3 4 5 1 2 3 4 5<br />

Aira capilllaris + 1 3 + 2 2 3 7 2 5<br />

Festuca pratensis 2 + 1 0 5 0 2 3<br />

Lolium perenne + + 1 1 + 2 2 3 3 2<br />

Phleum pratense 2 + 3 1 5 0 2 7 3<br />

Applicando ora alle colonne della nuova matrice la funzione <strong>di</strong> somiglianza del prodotto<br />

scalare normalizzato secondo Wishart [in<strong>di</strong>ce ‘similarity ratio’, eq. (7.7)] si ottiene la matrice<br />

simmetrica riportata in Tab. 7.12.<br />

Tab. 7.12 Matrice quadrata simmetrica <strong>di</strong><br />

somiglianza. I valori rappresentano gli in<strong>di</strong>ci<br />

“similarity ratio” tra i 5 rilievi <strong>di</strong> prato <strong>di</strong> Tab. 7.11(b).<br />

1 2 3 4 5<br />

1 1 0.16 0.46 0.83 0.57<br />

2 0.16 1 0.37 0.27 0.67<br />

3 0.46 0.37 1 0.41 0.76<br />

4 0.83 0.27 0.41 1 0.61<br />

5 0.57 0.67 0.76 0.61 1<br />

Il valore <strong>di</strong> somiglianza piu' alto nella matrice e' 0.83 tra i rilievi 4 e 1. Il primo gruppo che si<br />

viene a formare e‘ quin<strong>di</strong> composto <strong>di</strong> questi due rilievi. Cerchiamo il prossimo rilievo da legare a<br />

questi, tra quelli non ancora legati; sara' scelto quello che ha la massima somiglianza con uno dei<br />

due rilievi 1 e 4. Poiche' la somiglianza piu' elevata (0.61) e' quella tra il 4 e il 5, prima <strong>di</strong> legare il<br />

rilievo 5 al nucleo gia' esistente, dobbiamo verificare che il 5 stesso non si leghi ad un altro rilievo<br />

con un valore <strong>di</strong> somiglianza piu' elevato <strong>di</strong> 0.61. Guardando la quinta colonna, infatti, scopriamo<br />

che il 5 ha una somiglianza piu' elevata (0.76) con il 3 e pertanto si lega prima a questo formando<br />

un secondo gruppo (3,5). L'unione tra i due gruppi gia' costituiti potrebbe avvenire al livello <strong>di</strong><br />

somiglianza 0.61 che lega, come abbiamo gia' visto, il rilievo 4 del primo gruppo con il rilievo 5 del<br />

secondo gruppo. Anche in questo caso, pero', dobbiamo verificare se questa somiglianza e’ piu'<br />

elevata <strong>di</strong> quella che ciascun elemento dei due gruppi ha con gli elementi non ancora legati.<br />

Leggendo la quinta colonna ve<strong>di</strong>amo che il 5 ha un valore <strong>di</strong> somiglianza con il 2 piu' elevato<br />

(0.67) che con il 4 e quin<strong>di</strong> il rilievo 2 si lega prima al gruppo (3,5) e solo poi questo nuovo gruppo<br />

<strong>di</strong> tre rilievi sara’ legato al primo gruppo (1,4). Il risultato finale della classificazione dei 5 rilievi<br />

ottenuto con la tecnica del legame singolo e’ il dendrogramma <strong>di</strong> Fig. 7.6.<br />

7-94


.61<br />

.67<br />

.76<br />

.83<br />

1 4 5 3 2<br />

Fig. 7.6 Dendrogramma della classificazione dei cinque<br />

rilievi <strong>di</strong> Tab. 7.11 ottenuto applicando il legame singolo<br />

sulla matrice simmetrica <strong>di</strong> somiglianza <strong>di</strong> Tab. 7.12<br />

Se scegliamo un valore soglia <strong>di</strong> somiglianza pari a 0.70 ed immaginiamo <strong>di</strong> tagliare il<br />

dendrogramma tracciando una riga orizzontale ad un'altezza corrispondente nella scala laterale a<br />

questo valore, allora otteniamo la ripartizione dei rilievi in tre insiemi, il primo comprendente i<br />

rilievi 1 e 4, il secondo i rilievi 3 e 5 e l'ultimo costituito solo dal rilievo 2. Scegliendo, invece, una<br />

soglia piu' bassa, per esempio 0.63, lo stesso insieme <strong>di</strong> rilievi rimarrebbe sud<strong>di</strong>viso in due soli<br />

gruppi, quello costituito dai rilievi 1 e 4 e quello con i rilievi 3, 5 e 2.<br />

La Tab. 7.13 riporta la matrice <strong>di</strong> Tab. 7.11 con le colonne rior<strong>di</strong>nate secondo la classificazione<br />

<strong>di</strong> Fig. 7.6. Si puo’ facilmente osservare che il primo gruppo <strong>di</strong> rilievi (1,4) e’ caratterizzato dalla<br />

dominanza <strong>di</strong> Phleum pratense e che nel secondo gruppo (5,3,2) e’ piu’ consistente la presenza <strong>di</strong><br />

Aira capillaris. Queste due variabili sono quelle che maggiormente <strong>di</strong>scriminano i due gruppi e per<br />

le quali la classificazione in due gruppi e’ maggiormente pre<strong>di</strong>ttiva. Lo stesso non si puo’ <strong>di</strong>re per<br />

Lolium perenne che si trova in<strong>di</strong>fferentemente nei due gruppi con gli stessi valori <strong>di</strong> abbondanza.<br />

Tab. 7.13 Matrice <strong>di</strong> Tab. 7.11 ristrutturata sulle colonne<br />

seconda la sequenza del dendrogramma <strong>di</strong> Fig. 7.6<br />

1 4 5 3 2<br />

Aira capilllaris + + 2 3 1<br />

Festuca pratensis + 1 2<br />

Lolium perenne + 1 + 1 +<br />

Phleum pratense 2 3 1 +<br />

7-95


8 . O R D I N A M E N T O<br />

Tutte le numerose tecniche <strong>di</strong> or<strong>di</strong>namento hanno lo scopo primario <strong>di</strong> rappresentare la<br />

struttura dei dati in uno spazio a <strong>di</strong>mensioni ridotte. Infatti, solo in uno spazio <strong>di</strong> due o al massimo<br />

tre <strong>di</strong>mensioni e' facilmente osservabile la reciproca posizione dei punti (ve<strong>di</strong> paragrafo 6.1 per una<br />

illustrazione geometrica della spazio multi<strong>di</strong>mensionale). Se gli assi sono piu' <strong>di</strong> tre, lo spazio<br />

multi<strong>di</strong>mensionale si complica e <strong>di</strong>venta <strong>di</strong> <strong>di</strong>fficile lettura. Puo’ accadere, infatti, che la <strong>di</strong>stanza<br />

che valutiamo minima tra due in<strong>di</strong>vidui nello spazio definito, per esempio, da due o tre variabili si<br />

<strong>di</strong>lati se gli stessi in<strong>di</strong>vidui sono collocati nello spazio determinato da altre 2 o 3 variabili osservate.<br />

Poiche' la visione d'insieme dello spazio multi<strong>di</strong>mensionale non e' realizzabile ne' sulla carta, ne'<br />

nella nostra immaginazione, sono state sviluppate le tecniche <strong>di</strong> or<strong>di</strong>namento che permettono <strong>di</strong><br />

riassumere le variabili in nuove variabili dette fattori o componenti che possono essere assunte<br />

come nuovi assi <strong>di</strong> or<strong>di</strong>namento. Esse, essendo combinazioni lineari o non lineari delle variabili<br />

originarie, rappresentano una buona sintesi delle stesse.<br />

Tutti i meto<strong>di</strong> estraggono gli assi in or<strong>di</strong>ne decrescente <strong>di</strong> varianza totale spiegata; il primo<br />

asse sintetizza le variabili piu' correlate tra loro e spiega un certa quota <strong>di</strong> varianza che e' superiore<br />

a quella spiegata dal secondo asse che e’ superiore a quella spiegata dal terzo e cosi' via. Gli assi<br />

sono estratti in maniera tale da essere completamente in<strong>di</strong>pendenti gli uni dagli altri assicurando<br />

cosi' l'ortogonalita' reciproca. Ciascun asse successivo al primo e’ quin<strong>di</strong> combinazione <strong>di</strong> un altro<br />

gruppo <strong>di</strong> variabili originali correlate tra loro e non correlate con le variabili sintetizzate dagli altri<br />

assi. La rappresentazione grafica dell'or<strong>di</strong>namento in un <strong>di</strong>agramma cartesiano a due o tre assi<br />

ottenuti con queste tecniche mette in luce la struttura dei dati in uno spazio <strong>di</strong> <strong>di</strong>mensioni ridotte<br />

in cui non sono sostanzialmente alterati i rapporti <strong>di</strong> posizione reciproca dei punti rispetto a quelli<br />

dello spazio originario.<br />

In ambito ecologico la rappresentazione dei rilievi o delle specie in uno spazio a <strong>di</strong>mensioni<br />

ridotte consente <strong>di</strong> verificare se esistono delle chiare tendenze <strong>di</strong> variazione della vegetazione da<br />

correlare con le variabili ambientali (analisi in<strong>di</strong>retta <strong>di</strong> gra<strong>di</strong>enti). Nel caso che esista una tendenza<br />

dominante, i punti relativi ai rilievi o alle specie, si <strong>di</strong>spongono nello spazio attorno ad una linea o<br />

ad una curva <strong>di</strong> varia forma (Fig. 8.1-a), in caso contrario essi sono sparsi in una nube <strong>di</strong> punti piu'<br />

o meno iso<strong>di</strong>ametrica (Fig. 8.1-b).<br />

Or<strong>di</strong>namenti che tengono in considerazione tre <strong>di</strong>mensioni contemporaneamente sono<br />

rappresentati in grafici tri<strong>di</strong>mensionali (Fig. 8.1-c).<br />

La scoperta <strong>di</strong> una tendenza principale <strong>di</strong> variazione in modelli <strong>di</strong> or<strong>di</strong>namento a due o tre<br />

8-96


<strong>di</strong>mensioni consente <strong>di</strong> or<strong>di</strong>nare i rilievi o le specie o entrambi in sequenza e quin<strong>di</strong> <strong>di</strong> ristrutturare<br />

la tabella dei dati rior<strong>di</strong>nando le righe e/o le colonne secondo tali sequenze.<br />

2.0<br />

1.0<br />

asse 2<br />

0.0<br />

-1.0<br />

-2.0<br />

-2.0<br />

-1.0<br />

0.0<br />

1.0<br />

2.0<br />

asse 1<br />

(a) (b) (c)<br />

Fig. 8.1 Rappresentazione grafica <strong>di</strong> punti in uno spazio ridotto formato da assi che sono combinazioni <strong>di</strong><br />

variabili originali. (a) or<strong>di</strong>namento bi<strong>di</strong>mensionale in cui e' evidente una tendenza <strong>di</strong> variazione lungo una<br />

curva (b) or<strong>di</strong>namento bi<strong>di</strong>mensionale <strong>di</strong> punti formanti una nube iso<strong>di</strong>ametrica (c) or<strong>di</strong>namento<br />

tri<strong>di</strong>mensionale.<br />

8.1 METODI LINEARI<br />

Tra<strong>di</strong>zionalmente sono considerati lineari quei meto<strong>di</strong> <strong>di</strong> or<strong>di</strong>namento basati sull'assunto che<br />

le relazioni tra le variabili siano <strong>di</strong> tipo lineare. Questi meto<strong>di</strong>, comprendenti l’analisi delle<br />

componenti principali, l’analisi fattoriale, l’analisi della correlazione canonica e l’analisi<br />

<strong>di</strong>scriminante costituiscono, assieme all'analisi della varianza multipla e della regressione multipla,<br />

la statistica multivariata lineare. Ciononostante, si possono includere nei meto<strong>di</strong> lineari tutti quei<br />

meto<strong>di</strong> che, sebbene non presumano relazioni lineari tra le variabili, utilizzano l'algebra lineare<br />

delle matrici per costruire gli assi <strong>di</strong> or<strong>di</strong>namento delle variabili/specie o <strong>degli</strong> oggetti/rilievi. Essi<br />

prevedono in sequenza le seguenti due operazioni:<br />

1) calcolo della matrice simmetrica descrivente le relazioni tra le variabili o tra gli oggetti.<br />

Nel primo caso si tratta <strong>di</strong> una matrice <strong>di</strong> varianza-covarianza o <strong>di</strong> correlazione secondo la<br />

modalita' <strong>di</strong> analisi R (ve<strong>di</strong> paragrafo 6.2) e nel secondo <strong>di</strong> una matrice <strong>di</strong> prodotti scalari o <strong>di</strong><br />

<strong>di</strong>stanze 7 secondo la modalita' <strong>di</strong> analisi Q.<br />

I passi <strong>di</strong> calcolo <strong>di</strong> questa operazione sono gia' stati descritti nel capitolo 7 relativo alla<br />

classificazione. Ricor<strong>di</strong>amo soltanto che da una matrice X(mxn) <strong>di</strong> m righe/variabili e n<br />

colonne/oggetti si perviene ad una matrice quadrata simmetrica R <strong>di</strong> or<strong>di</strong>ne m o ad una matrice Q<br />

<strong>di</strong> or<strong>di</strong>ne n, secondo lo schema riportato in Fig. 8.2, applicando uno <strong>degli</strong> in<strong>di</strong>ci suddetti.<br />

2) estrazione <strong>di</strong> autovalori ed autovettori dalla matrice simmetrica allo scopo <strong>di</strong> ottenere<br />

⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯<br />

7 La matrice <strong>di</strong> <strong>di</strong>stanza viene trasformata in una matrice <strong>di</strong> somiglianza secondo una delle formule<br />

in<strong>di</strong>cate al paragrafo 7.7.1 prima <strong>di</strong> procedere alla seconda operazione.<br />

8-97


assi (autovettori) perpen<strong>di</strong>colari tra loro e ruotati rispetto al sistema originario <strong>di</strong> coor<strong>di</strong>nate lungo<br />

le <strong>di</strong>rezioni <strong>di</strong> massima <strong>di</strong>spersione. 8<br />

La metodologia matematica relativa a questo punto e' piuttosto complessa e la sua piena<br />

comprensione implica la conoscenza <strong>di</strong> nozioni dell'algebra delle matrici. Nel mondo scientifico<br />

esistono molti programmi <strong>di</strong> calcolo che svolgono agilmente i numerosi calcoli implicati nel metodo<br />

e possono quin<strong>di</strong> essere utilizzati nella completa ignoranza dell'insieme <strong>di</strong> operazioni da eseguire.<br />

Riteniamo tuttavia utile, per un piu' consapevole utilizzo del metodo, soffermarci nella<br />

descrizione del calcolo <strong>degli</strong> autovalori ed autovettori delle matrici simmetriche consigliando la<br />

consultazione <strong>di</strong> testi <strong>di</strong> algebra lineare per spiegazioni piu' dettagliate a riguardo.<br />

Oggetti<br />

Q(nxn)<br />

Variabili<br />

Oggetti<br />

X(mxn)<br />

Variabili<br />

R(mxm)<br />

Fig. 8.2 Dalla matrice X <strong>di</strong> m variabili x n oggetti, sono calcolate due<br />

matrice simmetriche: la matrice R <strong>di</strong> mxm variabili e la matrice Q <strong>di</strong><br />

nxn oggetti.<br />

Poiche' il metodo e' sostanzialmente identico per entrambe le matrici R e Q, adottiamo il<br />

simbolo S(pxp) per in<strong>di</strong>care la generica matrice simmetrica <strong>di</strong> similarita’ 9 , equivalente a R o Q, <strong>di</strong><br />

or<strong>di</strong>ne p corrispondente a m righe/variabili o n colonne/oggetti.<br />

Ad ogni matrice quadrata simmetrica S <strong>di</strong> or<strong>di</strong>ne p sono associati p valori scalari λ i<br />

(i=1,2,…,p) e p vettori B i tali da sod<strong>di</strong>sfare la seguente equazione fondamentale:<br />

( SB − λ B ) = 0<br />

(8.1)<br />

i<br />

i<br />

i<br />

che, raccogliendo B i , puo’ essere espressa anche nella forma:<br />

⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯<br />

8 Dal punto <strong>di</strong> vista matematico in questo processo la matrice simmetrica viene decomposta in una<br />

matrice <strong>di</strong> autovettori e in una matrice <strong>di</strong>agonale, tale cioe’ che solo gli elementi sulla <strong>di</strong>agonale, che<br />

rappresentano le varianze delle variabili, risultino positivi (autovalori) e tutti gli altri (covarianze) uguali a<br />

zero.<br />

9 Ad una qualunque matrice <strong>di</strong> somiglianza, che puo' essere vista come una trasformazione dei dati<br />

originali, si possono applicare i meto<strong>di</strong> <strong>di</strong> analisi multivariata lineari e non lineari. Per ottenere la matrice S si<br />

possono utilizzare anche funzioni non lineari. In questo caso gli autovettori sono da intendersi solo come<br />

combinazioni lineari dei vettori della matrice <strong>di</strong> somiglianza.<br />

8-98


( S − λ I ) B = 0<br />

(8.2)<br />

i<br />

p<br />

i<br />

I valori scalari λ i sono detti autovalori o ra<strong>di</strong>ci latenti della matrice S, mentre il vettore B i<br />

associato all'i-esimo autovalore e' detto autovettore o vettore latente. Esso rappresenta una<br />

combinazione lineare dei vettori riga o colonna della matrice S. Il simbolo I p in<strong>di</strong>ca la matrice<br />

identica che e' una matrice quadrata <strong>di</strong> or<strong>di</strong>ne p con tutti i valori uguali a zero tranne quelli sulla<br />

<strong>di</strong>agonale che sono uguali a 1.<br />

Espressa in forma matriciale, l'equazione (8.2) costituisce un sistema omogeneo 10 <strong>di</strong> p<br />

equazioni lineari a p incognite (b 1 , b 2 , ... , b p ) come mostrato nel prospetto seguente:<br />

( S − λ i<br />

I p)<br />

B i 0<br />

⎛ s11<br />

− λi<br />

⎜<br />

⎜ s21<br />

⎜ ...<br />

⎜<br />

⎝ s<br />

p1<br />

s<br />

22<br />

s<br />

s<br />

12<br />

− λ<br />

...<br />

p2<br />

i<br />

...<br />

...<br />

...<br />

...<br />

s1<br />

p ⎞<br />

⎟<br />

s2<br />

p ⎟<br />

... ⎟<br />

⎟<br />

s −<br />

pp<br />

λi<br />

⎠<br />

⎛ b1<br />

⎞<br />

⎜ ⎟<br />

⎜ b2<br />

⎟<br />

⎜ ... ⎟<br />

⎜ ⎟<br />

⎝b p ⎠<br />

=<br />

⎛ 0 ⎞<br />

⎜ ⎟<br />

⎜ 0 ⎟<br />

⎜...<br />

⎟<br />

⎜ ⎟<br />

⎝ 0 ⎠<br />

da cui:<br />

(s 11 -λ )b ι 1 + s 12 b 2 + … + s 1p b p = 0<br />

s 21 b 1 + (s 22 -λ )b ι 2 + … + s 2p b p = 0<br />

… + … + … + … = 0<br />

s p1 b 1 + s p2 b 2 + … +<br />

(s pp -<br />

λ )b ι p<br />

= 0<br />

(8.3)<br />

Affinche' sia possibile determinare un vettore soluzione B i <strong>di</strong>verso da zero e' necessario che il<br />

determinante della matrice ( S − λI<br />

) sia uguale a 0 11 . Per conoscere, quin<strong>di</strong>, le soluzioni <strong>di</strong>verse da<br />

0 del sistema <strong>di</strong> equazioni (8.3) troviamo i valori <strong>di</strong> λ per i quali il determinante si annulla<br />

risolvendo la seguente equazione caratteristica:<br />

S − λ I = 0<br />

(8.4)<br />

che puo’ essere espressa alternativamente nella forma matriciale seguente:<br />

⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯<br />

10 Un sistema algebrico lineare si <strong>di</strong>ce omogeneo se tutti i termini noti sono uguali a zero.<br />

11 Infatti per il teorema <strong>di</strong> Cramer, se il determinante della matrice <strong>di</strong> un sistema e' <strong>di</strong>verso da zero,<br />

allora il sistema ammette un’unica soluzione. Nel caso <strong>di</strong> sistemi omogenei, questa unica soluzione e' data<br />

del vettore B <strong>di</strong> elementi tutti uguali a zero.<br />

8-99


s<br />

11<br />

s<br />

− λ<br />

21<br />

...<br />

s<br />

p1<br />

s<br />

22<br />

s<br />

12<br />

− λ<br />

...<br />

s<br />

p2<br />

...<br />

...<br />

...<br />

...<br />

s<br />

s<br />

s<br />

pp<br />

1p<br />

2 p<br />

...<br />

− λ<br />

= 0<br />

(8.5)<br />

Sviluppando il determinante si genera un polinomio <strong>di</strong> grado p in λ e l'equazione (8.5) si<br />

trasforma in un’equazione <strong>di</strong> grado p in incognita λ. Gli autovalori rappresentano quin<strong>di</strong> tutte le<br />

soluzioni dell'equazione (8.5). Trovati i p autovalori λ i , si sostituiscono, uno per volta, nel sistema<br />

<strong>di</strong> equazioni omogenee (8.3) per trovare i corrispondenti autovettori B 12 i .<br />

Anche se le soluzioni sono tante quante sono le <strong>di</strong>mensioni della matrice, nell'analisi<br />

multivariata sono considerati solo gli autovalori positivi che definiscono il numero <strong>di</strong> <strong>di</strong>mensioni<br />

dello spazio, cioe’ il suo rango, e sono scartati quelli negativi e nulli. La somma <strong>degli</strong> autovalori<br />

positivi e’ uguale alla somma (traccia) <strong>degli</strong> elementi della <strong>di</strong>agonale della matrice simmetrica<br />

stessa, che esprime la varianza totale della tabella. Piu’ spesso l’autovalore e’ espresso in<br />

percentuale <strong>di</strong> varianza spiegata [eq. (8.6)] cosicche’ la percentuale cumulativa <strong>di</strong> varianza, oltre a<br />

dare un’idea della <strong>di</strong>mensionalita’ dello spazio, in<strong>di</strong>ca quanto lo spazio ridotto, determinato dai<br />

primi due o tre assi, sia rappresentativo dello spazio multi<strong>di</strong>mensionale: quanto piu’ il valore <strong>di</strong><br />

percentuale <strong>di</strong> varianza cumulata dai primi assi e’ elevato, tanto meglio lo spazio ridotto sintetizza<br />

lo spazio originale. Se il primo autovalore e’ molto piu’ grande del secondo, si puo’ dedurre che la<br />

struttura <strong>di</strong> correlazione o <strong>di</strong> somiglianza tra le variabili non e’ molto complessa perciò uno o pochi<br />

assi potrebbero essere sufficienti a descriverla.<br />

λ<br />

%<br />

i<br />

λi<br />

= 100<br />

(8.6)<br />

∑λ<br />

i<br />

Gli autovalori hanno significato <strong>di</strong>verso a seconda che siano calcolati per matrici <strong>di</strong><br />

correlazione o varianza-covarianza, o per matrici <strong>di</strong> somiglianza . Nel primo caso essi danno<br />

un’in<strong>di</strong>cazione della <strong>di</strong>spersione, nel secondo caso della somiglianza. Essi sono estratti secondo<br />

or<strong>di</strong>ne decrescente <strong>di</strong> grandezza per far si' che gli autovettori associati siano anch'essi in or<strong>di</strong>ne<br />

decrescente <strong>di</strong> variabilita' o somiglianza. Quin<strong>di</strong> se la matrice simmetrica e’ <strong>di</strong> correlazione o <strong>di</strong><br />

varianza-covarianza, il primo autovettore rappresenta l’asse <strong>di</strong> maggiore <strong>di</strong>spersione, il secondo<br />

l’asse <strong>di</strong> <strong>di</strong>spersione non presa in considerazione dal primo e cosi’ via. Se invece la matrice<br />

⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯<br />

12 Come viene spiegato nell’esempio che segue questo paragrafo, poiche’ risolvendo il sistema si<br />

possono trovare infinite soluzioni <strong>di</strong> autovettori, essendo queste tutte proporzionali tra loro, si e’ soliti<br />

normalizzare gli autovettori o all’unita’ o alla ra<strong>di</strong>ce dell’autovalore corrispondente. Essi risultano tutti<br />

ortogonali tra loro.<br />

8-100


simmetrica e’ <strong>di</strong> somiglianza, il primo autovettore rappresenta l’asse <strong>di</strong> minor <strong>di</strong>spersione, cioe’ <strong>di</strong><br />

maggior somiglianza, il secondo rappresenta la somiglianza non espressa dal primo e cosi’ via.<br />

Anche gli elementi <strong>degli</strong> autovettori hanno significato <strong>di</strong>verso a seconda che la matrice da cui<br />

sono stati estratti sia <strong>di</strong> correlazione o <strong>di</strong> somiglianza. Nel primo caso essi sono ancora coefficienti<br />

<strong>di</strong> correlazione che in<strong>di</strong>cano quanto ciascuna variabile e’ correlata con l’autovettore stesso e quin<strong>di</strong><br />

rivelano l’importanza della variabile nella definizione dell’autovettore. Nel secondo caso denotano<br />

quanto una variabile o un oggetto siano simili alle altre variabili o agli altri oggetti.<br />

8.1.1 Esempio <strong>di</strong> calcolo<br />

Supponiamo <strong>di</strong> aver rilevato cinque stati vegetazionali (n=5) sulla base <strong>di</strong> due specie (m=2)<br />

e <strong>di</strong> aver riportato i relativi valori <strong>di</strong> abbondanza nella Tab. 8.1 che costituisce la matrice dei dati<br />

X. 13 Tab. 8.1 Matrice dei dati relativi all’abbondanza <strong>di</strong> due<br />

specie vegetali osservate in 5 stazioni <strong>di</strong> rilevamento.<br />

specie<br />

rilievi<br />

1 2 3 4 5 me<strong>di</strong>e<br />

1 1 2 5 0 5 2.6<br />

2 3 4 5 2 3 3.4<br />

Costruiamo ora la matrice simmetrica S(mxm) calcolando la covarianza tra le specie secondo<br />

l’eq. (7.10). In dettaglio il valore s 1,2 e' dato da:<br />

s<br />

(1 − 2.6)(3 − 3.4) + ... + (5 − 2.6)(3 − 3.4)<br />

=<br />

4<br />

1 ,2<br />

=<br />

1.7<br />

e, calcolando gli altri valori in maniera analoga, otteniamo la seguente matrice simmetrica:<br />

S<br />

2 x2<br />

=<br />

5.3<br />

1.7<br />

1.7<br />

1.3<br />

Calcoliamo ora gli autovalori e gli autovettori <strong>di</strong> questa matrice. Estraiamo prima gli<br />

autovalori applicando l’equazione (8.5), cioe’ ponendo uguale a 0 il determinante della matrice<br />

( S − λI 2<br />

):<br />

⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯<br />

13 Limitiamo al minimo le <strong>di</strong>mensioni della matrice <strong>di</strong> esempio per evitare un eccesso <strong>di</strong> pagine <strong>di</strong><br />

calcolo. Ricor<strong>di</strong>amo tuttavia che l'applicazione ideale <strong>di</strong> questi meto<strong>di</strong> e' a tabelle <strong>di</strong> gran<strong>di</strong> <strong>di</strong>mensioni<br />

proprio allo scopo <strong>di</strong> ridurle.<br />

8-101


S − λI<br />

5.3−<br />

λ<br />

=<br />

1.7<br />

1.7<br />

1.3−<br />

λ<br />

2<br />

=<br />

0<br />

Il determinante <strong>di</strong> una matrice quadrata <strong>di</strong> or<strong>di</strong>ne 2 e' dato dalla <strong>di</strong>fferenza dei prodotti<br />

incrociati <strong>degli</strong> elementi; chiamato s ij l'elemento generico della matrice, il determinante e' uguale a<br />

s 11 s 22 - s 12 s 21 .<br />

Nel nostro caso l'equazione <strong>di</strong>venta:<br />

( 5.3 − λ ) × (1.3 − λ)<br />

−1.7<br />

× 1.7 = 0<br />

da cui moltiplicando e or<strong>di</strong>nando rispetto a λ, si ottiene la seguente equazione <strong>di</strong> secondo<br />

grado:<br />

2<br />

λ − 6.6λ + 4 = 0<br />

e, risolvendo con la formula ridotta, troviamo le seguenti due soluzioni <strong>di</strong> autovalori λ i :<br />

2<br />

2<br />

3.3 − 4<br />

3.3 − 4<br />

λ<br />

1<br />

= 3.3 + = 5.925<br />

λ<br />

2<br />

= 3.3 − = 0. 675<br />

1<br />

1<br />

Notiamo che la somma dei due autovalori trovati e' uguale alla somma <strong>degli</strong> elementi sulla<br />

<strong>di</strong>agonale (traccia) della matrice S, cioe' alla somma delle varianze delle specie:<br />

∑λ<br />

= λ + λ = 5.925 + 0.675 = 6.6<br />

∑ = s<br />

s ii<br />

i<br />

1<br />

11<br />

2<br />

+ s<br />

22<br />

= 5.3+<br />

1.3 = 6.6<br />

Per calcolare la percentuale <strong>di</strong> varianza espressa da ciascun autovalore rispetto alla varianza<br />

totale e' sufficiente <strong>di</strong>videre ciascun autovalore per la traccia e moltiplicare per 100 secondo la<br />

formula (8.6):<br />

λ % 1<br />

= (5.925 / 6.6) x 100 = 89.77<br />

λ % = (0.675 / 6.6) x 100 = 10.23<br />

2<br />

In questo esempio i due autovalori estratti spiegano tutta la varianza della matrice 14<br />

quanto costituiscono tutti gli autovalori che e’ possibile estrarre dalla matrice stessa.<br />

A questo punto proce<strong>di</strong>amo nel calcolo <strong>degli</strong> autovettori sostituendo in due passi <strong>di</strong>stinti il<br />

valore dei due autovalori appena trovati nel sistema <strong>di</strong> equazioni (8.3).<br />

⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯<br />

14 Quando l'or<strong>di</strong>ne della matrice S e' piu' elevato, solitamente i primi due o tre autovalori riassumono<br />

solo in parte la varianza della matrice essendo spiegata in misura minore anche dai successivi autovalori.<br />

Quanto piu’ numerose sono le correlazioni tra le variabili nella matrice originale dei dati, tanto piu’ la<br />

varianza della matrice si concentra nei primi autovalori.<br />

8-102<br />

in


Per trovare il primo autovettore B 1, sostituendo λ 1<br />

si ha:<br />

⎧(5.3<br />

− 5.925) b1<br />

+ 1.7b2<br />

= 0<br />

⎨<br />

⎩1.7b<br />

1<br />

+ (1.3 − 5.925) b2<br />

= 0<br />

da cui, svolgendo e aggiustando i segni, si ottiene il seguente sistema:<br />

⎧0.625b1<br />

+ 1.7b2<br />

= 0<br />

⎨<br />

⎩−1.7b1<br />

+ 4.625b2<br />

= 0<br />

La risoluzione <strong>di</strong> un sistema <strong>di</strong> questo tipo avviene attribuendo in maniera arbitraria un<br />

valore ad una delle due incognite e trovando <strong>di</strong> conseguenza il valore dell'altra. Nel nostro caso<br />

ponendo b 1 =1, otteniamo:<br />

⎧1.7b<br />

2<br />

= 0.625<br />

⎨<br />

⎩4.625b2<br />

= 1.7<br />

da cui ricaviamo il valore <strong>di</strong> b 2 che risulta essere in entrambe le equazioni uguale a 0.3676.<br />

Assegnando valori arbitrari si perviene a <strong>di</strong>fferenti valori <strong>degli</strong> elementi <strong>degli</strong> autovettori che,<br />

pero', rimangono tutti tra loro proporzionali. Infatti, se avessimo posto b 1 =3, avremmo trovato<br />

b 2 =3x(0.3676)=1.1028, e se avessimo posto b 2 =1, avremmo trovato b 1 =1.7/0.625=2.72; in tutti<br />

questi casi il rapporto b 1 /b 2 = 2.72 e il rapporto reciproco b 2 /b 1 = 0.3676. Per evitare <strong>di</strong> ottenere<br />

autovettori con valori arbitrari, li normalizziamo per renderli tutti <strong>di</strong> lunghezza unitaria rapportando<br />

ciascun valore alla norma dell'autovettore stesso [eq. (6.1)].<br />

I valori del primo autovettore B 1 sono trasformati come segue:<br />

b<br />

1<br />

=<br />

1<br />

2<br />

2<br />

1 + 0.3676<br />

= 0.9386<br />

b<br />

2<br />

0.3676<br />

=<br />

2<br />

2<br />

1 + 0.3676<br />

= 0.345<br />

Riassumendo, il primo autovettore trovato ha componenti:<br />

⎛ b1<br />

⎞ ⎛ 1 ⎞<br />

⎛0.939⎞<br />

B<br />

1<br />

= ⎜ ⎟ = ⎜ ⎟ che, normalizzando <strong>di</strong>ventano ⎜ ⎟<br />

⎝b2<br />

⎠ ⎝0.3676⎠<br />

⎝0.345⎠<br />

Con proce<strong>di</strong>mento analogo si calcola il secondo autovettore B 2 associato al secondo<br />

autovalore λ 2<br />

e si ottiene:<br />

8-103


⎛ b1<br />

⎞ ⎛ 1 ⎞<br />

⎛ 0.345 ⎞<br />

B<br />

2<br />

= ⎜ ⎟ = ⎜ ⎟ che, normalizzato, <strong>di</strong>venta ⎜ ⎟<br />

⎝b2<br />

⎠ ⎝−<br />

2.722⎠<br />

⎝− 0. 939⎠<br />

I due autovettori, per convenienza riportati trasposti in forma matriciale in Tab. 8.2,<br />

rappresentano i due assi <strong>di</strong> or<strong>di</strong>namento delle specie e i due valori <strong>di</strong> ciascun <strong>di</strong> essi costituiscono<br />

le coor<strong>di</strong>nate delle due specie.<br />

Tab. 8.2 Tabella <strong>degli</strong> autovalori e <strong>degli</strong> autovettori della matrice <strong>di</strong> covarianza S<br />

calcolata sulle righe della Tab. 8.1.<br />

Autovalore Varianza % Autovettore 1 2<br />

λ 1 5.925 89.77 B 1 0.939 0.345<br />

λ 2 0.675 10.23 B 2 0.345 -0.939<br />

I valori e la collocazione delle specie nel nuovo spazio (Fig. 8.3) in<strong>di</strong>cano che la prima specie<br />

e’ piu’ legata al primo asse mentre la seconda al secondo. Poiche’ i due assi sono ortogonali, si<br />

deduce che le due specie, essendo rappresentate in maniera significativa ciascuna in uno dei due<br />

assi, non sono tra loro molto correlate, infatti il loro coefficiente <strong>di</strong> correlazione non e’ significativo<br />

(r = 0.648, g.l. =. 4, α%=16.4). Anche la <strong>di</strong>stanza che le separa in<strong>di</strong>ca che le due specie non<br />

hanno un comportamento simile. Se le due specie fossero state perfettamente correlate avremmo<br />

ottenuto, come risultato dell’elaborazione, soltanto un unico autovalore positivo ed un unico<br />

autovettore che avrebbe sintetizzato lo spazio bi<strong>di</strong>mensionale. In altre parole, quello che noi<br />

avremmo pensato essere uno spazio a due <strong>di</strong>mensioni, in realta’ sarebbe stato uno spazio<br />

uni<strong>di</strong>mensionale.<br />

1<br />

B 2<br />

specie 1<br />

0<br />

0.5<br />

1<br />

B 1<br />

-1<br />

specie 2<br />

Fig. 8.3 Posizione delle due specie <strong>di</strong> Tab. 8.1 nello<br />

spazio determinato dai due autovettori estratti dalla<br />

matrice <strong>di</strong> covarianza tra le specie.<br />

8-104


8.2 ANALISI DELLE COMPONENTI PRINCIPALI<br />

L'analisi delle componenti principali, sinteticamente in<strong>di</strong>cata con la sigla PCA (Principal<br />

Component Analysis) rappresenta, tra i meto<strong>di</strong> <strong>di</strong> or<strong>di</strong>namento lineare, quello maggiormente usato<br />

dagli ecologi. La prima applicazione in ecologia e' avvenuta per opera <strong>di</strong> Goodall nel 1954, ma le<br />

basi delle tecniche risalgono a Pearson all’inizio dello stesso secolo e i successivi perfezionamenti a<br />

Hotelling nel 1933; piu' recentemente, in campo ecologico, una solida impostazione del metodo e'<br />

stata data da Orloci nel 1978.<br />

Lo scopo principale dell’analisi e' quello <strong>di</strong> descrivere gli stati <strong>degli</strong> oggetti osservati (rilievi,<br />

in<strong>di</strong>vidui) con un numero ridotto <strong>di</strong> variabili originali. Queste sono sintetizzate in altre variabili,<br />

chiamate componenti principali, tutte in<strong>di</strong>pendenti tra loro ed ottenute dalle prime tramite delle<br />

trasformazioni lineari. Il metodo da' ottimi risultati proprio quando la struttura dei dati e' <strong>di</strong> tipo<br />

lineare. In termini geometrici esso, centrando i dati, effettua una traslazione <strong>degli</strong> assi originali nel<br />

baricentro dello spazio e una rotazione 15 <strong>degli</strong> stessi secondo la <strong>di</strong>rezione <strong>di</strong> massima <strong>di</strong>spersione<br />

(Fig. 8.4).<br />

Fig. 8.4 Illustrazione grafica dell’analisi delle componenti principali dei<br />

dati <strong>di</strong> Tab. 8.1. I nuovi assi <strong>di</strong> or<strong>di</strong>namento dei punti-rilievi hanno origine<br />

nel punto con coor<strong>di</strong>nate corrispondenti ai centroi<strong>di</strong> delle due specie e<br />

sono ruotati lungo la <strong>di</strong>rezione <strong>di</strong> maggior <strong>di</strong>spersione.<br />

Secondo la tecnica <strong>di</strong> Orloci (1978), l'analisi delle componenti principali estrae da una<br />

matrice X(mxn) <strong>di</strong> m righe/variabili e n colonne/oggetti sia le coor<strong>di</strong>nate per l'or<strong>di</strong>namento delle<br />

variabili che le coor<strong>di</strong>nate per l'or<strong>di</strong>namento <strong>degli</strong> oggetti.<br />

Il metodo consiste nel trovare una serie <strong>di</strong> variabili trasformate Y i della matrice X, dette<br />

⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯<br />

15 La rotazione nella <strong>di</strong>rezione <strong>di</strong> massima <strong>di</strong>spersione viene realizzata completamente solo se i dati<br />

sono centrati. Per questo motivo le componenti principali basate su dati non centrati non sono considerate<br />

utili nell’analisi <strong>di</strong> gra<strong>di</strong>enti, anche se rimangono uno strumento valido per analizzare la struttura dei dati e<br />

risolvere problemi <strong>di</strong> classificazione.<br />

8-105


appunto componenti principali, tali che spieghino quanta piu' parte possibile della varianza delle<br />

variabili originali e siano tra loro ortogonali. Esse sod<strong>di</strong>sfano il seguente modello lineare:<br />

Y<br />

i<br />

'<br />

= B X<br />

i<br />

per i=1,m (8.7)<br />

in cui ogni singolo elemento y ij della nuova variabile Y i relativo all’oggetto j e’ esplicitato<br />

nella formula seguente:<br />

ij<br />

m<br />

y = ∑ b x = b x + b x + ... + b<br />

x<br />

hi hj 1i<br />

1 j 2i<br />

2 j<br />

mi mj<br />

(8.8)<br />

h=<br />

1<br />

Da questo modello si puo’ vedere come ogni valore osservato x hj subisce una trasformazione<br />

lineare in y ij . In esso i valori da b 1i a b mi sono i coefficienti che mettono in relazione le variabili<br />

originali con le componenti; essi possono essere pensati come i pesi relativi a ciascuna variabile<br />

originale da x 1j a x mj sulla componente i-esima.<br />

Le componenti principali si determinano dopo l'in<strong>di</strong>viduazione dei vettori B i dei coefficienti<br />

che permettono la trasformazione (8.7). Per eseguire una PCA, Orloci (1978) <strong>di</strong>stingue 3 algoritmi<br />

secondo le modalita’ R, Q e D, le cui procedure <strong>di</strong> calcolo, descritte <strong>di</strong> seguito, sono illustrate in Fig.<br />

8.5. In realta’, <strong>di</strong> questi, solo l’algoritmo R calcola le coor<strong>di</strong>nate delle variabili (autovettori) e,<br />

tramite queste, quelle <strong>degli</strong> oggetti (componenti principali), mentre gli altri due algoritmi si<br />

limitano a trovare <strong>di</strong>rettamente le componenti principali evitando il calcolo delle coor<strong>di</strong>nate delle<br />

variabili. La scelta dell'algoritmo da utilizzare in una PCA per ottenere le coor<strong>di</strong>nate dei rilievi<br />

<strong>di</strong>pende dalle <strong>di</strong>mensioni della matrice dei dati. Infatti, l'algoritmo R, poiche' calcola le coor<strong>di</strong>nate<br />

<strong>degli</strong> oggetti dalla matrice <strong>di</strong> correlazione o <strong>di</strong> varianza-covarianza tra le specie, e' solitamente<br />

utilizzato quando gli oggetti sono piu' numerosi delle variabili per risparmiare tempo e memoria<br />

nell'elaborazione. Viceversa, se le variabili sono in numero <strong>di</strong> molto superiore agli oggetti, risultano<br />

essere piu' convenienti gli algoritmi Q e D.<br />

Ci preme ancora aggiungere che e’ un errore applicare l’algoritmo R scambiando gli oggetti<br />

con le variabili, cioe’ calcolare la matrice <strong>di</strong> correlazione o <strong>di</strong> varianza-covarianza sugli oggetti e<br />

derivare dai suoi autovettori le coor<strong>di</strong>nate delle variabili. Con questa procedura i risultati non<br />

coincidono con quelli della procedura corretta descritta dettagliatamente nel paragrafo successivo.<br />

Infatti, il primo asse estratto non corrisponde all’asse <strong>di</strong> massima variazione e cio’ comporta una<br />

per<strong>di</strong>ta <strong>di</strong> efficienza nell’or<strong>di</strong>namento. Pertanto, per evitare errori, prima <strong>di</strong> elaborare i dati con un<br />

software statistico e’ importante capire come il software organizza i dati, cioe’ la giusta<br />

collocazione delle variabili e <strong>degli</strong> oggetti nelle righe o nelle colonne della matrice <strong>di</strong> input.<br />

8-106


8.2.1 Algoritmo R<br />

L'algoritmo R estrae gli autovalori e gli autovettori dalla matrice dei prodotti scalari tra le<br />

variabili (matrice R <strong>di</strong> correlazione o S <strong>di</strong> varianza-covarianza), risolvendo l’equazione (8.9) secondo<br />

il metodo visto nel paragrafo 8.1.<br />

( S − λ I ) B = 0 i9o (8.9)<br />

i<br />

p<br />

i<br />

I p≤m autovettori estratti costituiscono gli assi <strong>di</strong> or<strong>di</strong>namento delle variabili. Essi sono i<br />

vettori B i con i coefficienti dell’equazione (8.8) che permettono <strong>di</strong> trasformare le variabili originali in<br />

componenti principali. Dopo essere stati normalizzati all’unita’ sod<strong>di</strong>sfacendo l’equazione (8.10),<br />

B ' B =<br />

i<br />

i<br />

m<br />

2<br />

∑ bij<br />

j=<br />

1<br />

= b<br />

2<br />

i1<br />

+ b<br />

2<br />

i 2<br />

+ ... + b<br />

2<br />

im<br />

= 1<br />

(8.10)<br />

essi sono trasposti e moltiplicati secondo la (8.7) per la matrice (X) dei dati dopo che questi<br />

sono stati centrati (matrice A), ottenendo la matrice delle componenti principali Y(pxn) <strong>di</strong> p righe e<br />

n colonne ( Y<br />

i<br />

'<br />

= B A) che costituiscono gli assi <strong>di</strong> or<strong>di</strong>namento dei rilievi (ve<strong>di</strong> la procedura<br />

i<br />

illustrata in Fig. 8.5).<br />

m<br />

Centratura delle variabili<br />

m<br />

PCA<br />

X<br />

A<br />

n<br />

n<br />

Matrice dei dati <strong>di</strong> m<br />

variabili ed n oggetti<br />

Matrice dei dati<br />

centrati<br />

Algoritmo R<br />

Algoritmo Q<br />

Algoritmo D<br />

m<br />

n<br />

n<br />

m<br />

S<br />

Prodotti scalari (R o S )<br />

tra le variabili.<br />

n<br />

Q<br />

Prodotti scalari (S )<br />

tra gli oggetti<br />

eq. (8.18)<br />

n<br />

D<br />

|S-λI|=0<br />

Σb 2 =1<br />

SB=λB<br />

|Q-λI|=0<br />

Σy 2 =λ<br />

QY=λY<br />

Distanze euclidee<br />

tra gli oggetti<br />

p<br />

B’<br />

m<br />

x<br />

m<br />

p≤min(m,n-1)<br />

A<br />

n<br />

=<br />

p<br />

Y<br />

n<br />

p≤min(m,n-1)<br />

Autovettori: coor<strong>di</strong>nate per<br />

l’or<strong>di</strong>namento delle variabili<br />

Componenti principali: coor<strong>di</strong>nate per<br />

l’or<strong>di</strong>namento <strong>degli</strong> oggetti<br />

Fig. 8.5 Illustrazione della procedura <strong>di</strong> calcolo dell’analisi delle componenti principali (PCA)<br />

secondo gli algoritmi R, Q e D.<br />

8-107


La centratura dei dati, togliendo ad ogni valore il valore me<strong>di</strong>o della variabile <strong>di</strong><br />

appartenenza, comporta solo una collocazione <strong>di</strong>versa dell'origine <strong>degli</strong> assi. Il tipo <strong>di</strong><br />

trasformazione adottata per ottenere gli elementi della matrice A e’ strettamente collegata con la<br />

scelta dell'in<strong>di</strong>ce per il calcolo della matrice S. La trasformazione generica per centrare i dati della<br />

matrice X e' la seguente:<br />

a<br />

ij<br />

x<br />

− x<br />

ij i<br />

= (8.11)<br />

F<br />

i<br />

dove x ij rappresenta il valore generico della matrice originale dei dati X,<br />

x i e' il valore me<strong>di</strong>o<br />

della variabile i e F i e' il fattore <strong>di</strong> standar<strong>di</strong>zzazione che, nel caso piu' semplice, e' uguale a 1. Per<br />

F i uguale alla deviazione standard [eq. (4.17)], a ij <strong>di</strong>venta la variabile standar<strong>di</strong>zzata z [eq. (5.4)] e<br />

per F i =√(N-1), i dati vengono trasformati secondo la (5.3). A seconda della trasformazione<br />

adottata, le soluzioni delle componenti principali <strong>di</strong>versificano rispetto alla (8.7) solo per il fattore<br />

F i . Se si utilizzano le trasformazioni in maniera corretta secondo il prospetto riportato in Tab. 8.3, le<br />

componenti principali determinate con la (8.7) sono automaticamente normalizzate alla ra<strong>di</strong>ce<br />

dell'autovalore corrispondente.<br />

Tab. 8.3 Corrispondenza tra le trasformazioni delle variabili della matrice X (Eq. 1) e gli in<strong>di</strong>ci <strong>di</strong><br />

similarita’ (Eq. 2) da applicare allo scopo <strong>di</strong> ottenere componenti principali automaticamente<br />

normalizzate alla ra<strong>di</strong>ce dell'autovalore.<br />

F i Eq. 1 In<strong>di</strong>ce <strong>di</strong> S Eq. 2<br />

1 (5.2) Prodotto scalare centrato (7.4)<br />

n −1<br />

(5.3) Covarianza (7.10)<br />

2<br />

∑ ( x ij<br />

− x)<br />

(5.8) Coefficiente <strong>di</strong> correlazione (7.8)<br />

In caso contrario, essendo le varie soluzioni proporzionali tra loro, e' sempre possibile<br />

ottenere questa normalizzazione in un secondo momento <strong>di</strong>videndo ciascun valore della<br />

componente per la sua norma e moltiplicando per la ra<strong>di</strong>ce dell’autovettore corrispondente come<br />

in<strong>di</strong>cato dalla seguente equazione:<br />

y<br />

'<br />

ij<br />

y = ij<br />

λ<br />

2<br />

i<br />

∑ y<br />

(8.12)<br />

ij<br />

8-108


Come gia’ osservato nel paragrafo 8.1, sebbene matematicamente si possano estrarre m<br />

autovettori e, conseguentemente, m componenti principali, non tutti sono utili per riassumere la<br />

variazione dei dati. L’ammontare <strong>di</strong> variazione spiegata da ciascun autovettore e’ in<strong>di</strong>cato dal<br />

corrispondente autovalore λ i , percio’ gli autovalori negativi o nulli non sono presi in considerazione.<br />

La proporzione <strong>di</strong> varianza spiegata da un autovettore e’ uguale al suo autovalore <strong>di</strong>viso per<br />

la somma <strong>di</strong> tutti gli autovalori. Anche le varianze delle componenti Y i sono proporzionali ai<br />

corrispondenti autovalori λ 1 ; per questo motivo la varianza della prima componente costituisce la<br />

percentuale piu' elevata della varianza totale delle m variabili. 16<br />

Tra i meto<strong>di</strong> proposti per trovare il numero <strong>di</strong> <strong>di</strong>mensioni ‘significative’, cioe’ quelle che<br />

sintetizzano lo spazio originario senza eccessiva per<strong>di</strong>ta <strong>di</strong> informazione, menzioniamo quello che<br />

prevede <strong>di</strong> considerare tutti gli autovettori con autovalore maggiore della me<strong>di</strong>a <strong>degli</strong> autovalori,<br />

cioe’ maggiore <strong>di</strong> 1 se si sta analizzando una matrice <strong>di</strong> correlazione o maggiore della varianza<br />

me<strong>di</strong>a se si sta analizzando una matrice <strong>di</strong> covarianza. L’efficienza del metodo <strong>di</strong> estrazione viene<br />

valutata sulla base della percentuale <strong>di</strong> varianza spiegata [eq. (8.6)] cumulata sui primi assi<br />

considerati.<br />

Nella pratica delle applicazioni ecologiche, la maggior parte della varianza e’ spiegata dai<br />

primi due o tre autovettori ai quali corrispondono gli autovalori piu’ elevati. In questa maniera si<br />

attua la riduzione dello spazio multi<strong>di</strong>mensionale che risulta tanto piu’ consistente quanto piu’<br />

numerose sono le correlazioni tra le variabili originali. In questo senso la PCA puo’ essere vista<br />

come una tecnica <strong>di</strong> riduzione del numero <strong>di</strong> variabili osservate essendo queste sostituite da nuove<br />

variabili delle quali solo un numero ristretto descrive la maggior parte della variazione dell’intero<br />

set <strong>di</strong> dati.<br />

Il coefficiente <strong>di</strong> correlazione r hi tra la variabile originale h-esima e la componente i-esima e'<br />

ottenibile <strong>di</strong>rettamente tramite la seguente formula:<br />

r<br />

hi<br />

λ b<br />

i hi<br />

= (8.13)<br />

s<br />

hh<br />

dove b hi e’ il coefficiente della componente principale i-esima relativo alla variabile h-esima<br />

(cioe’ il valore h-esimo dell’autovettore B i ), λ i e’ l’i-esimo autovalore e s hh e’ il valore <strong>di</strong> prodotto<br />

scalare, varianza o correlazione nella <strong>di</strong>agonale della matrice S relativa alla specie h-esima. Se la<br />

matrice S e' una matrice <strong>di</strong> correlazione (R), s hh e’ uguale a 1 e la formula (8.13) si semplifica in:<br />

⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯<br />

16 Le varianze delle singole componenti <strong>di</strong>ventano uguali ai corrispondenti autovalori se nella eq. (8.7)<br />

la matrice X viene standar<strong>di</strong>zzata secondo la (5.4). In questo caso pero' le componenti non sono piu'<br />

normalizzate alla ra<strong>di</strong>ce dell'autovalore.<br />

8-109


hi<br />

= λ b<br />

(8.14)<br />

i<br />

hi<br />

In questo caso trovare le correlazioni tra le variabili originali e le componenti principali<br />

equivale a normalizzare gli autovettori della matrice <strong>di</strong> correlazione a √λ. Ne consegue che i valori<br />

b hi <strong>degli</strong> autovettori cosi’ normalizzati, tutti rientranti nell’intervallo [-1,1], sono interpretabili<br />

<strong>di</strong>rettamente come coefficienti <strong>di</strong> correlazione tra la variabile h-esima e la componente principale i-<br />

esima.<br />

8.2.1.1 Rappresentazione grafica delle variabili, <strong>degli</strong> oggetti, del biplot e relativa interpretazione<br />

L'algoritmo R ha il grande vantaggio <strong>di</strong> ricavare gli assi <strong>di</strong> or<strong>di</strong>namento <strong>degli</strong> oggetti, cioe' le<br />

componenti principali, utilizzando gli assi delle variabili. Tramite esso e’ quin<strong>di</strong> possibile<br />

rappresentare in uno spazio ridotto sia i punti–variabile che i punti-oggetto. Essi possono essere<br />

rappresentati sia in <strong>di</strong>agrammi separati che nello stesso <strong>di</strong>agramma realizzando quell’or<strong>di</strong>namento<br />

che prende il nome <strong>di</strong> biplot il cui prefisso bi- in<strong>di</strong>ca proprio le due <strong>di</strong>mensioni della tabella dei dati<br />

(non dello spazio) i cui elementi sono righe e colonne, variabili e oggetti, specie e rilievi.<br />

Diagramma delle variabili. Il <strong>di</strong>agramma a due <strong>di</strong>mensioni x,y per le variabili viene costruito<br />

assumendo come asse x il primo autovettore (B 1 ) e come asse y il secondo autovettore (B 2 ). Gli<br />

assi sono centrati e quin<strong>di</strong> si incrociano all’origine, cioe’ nel punto <strong>di</strong> coor<strong>di</strong>nate [0,0] che<br />

corrisponde al centroide dei dati originali.<br />

Le m variabili trovano collocazione nel piano determinato dagli assi in rapporto al valore<br />

assunto in ciascuno <strong>di</strong> essi. Solitamente esse sono rappresentate con i vettori che congiungono<br />

l’origine del sistema <strong>di</strong> coor<strong>di</strong>nate con i punti-variabile.<br />

La rappresentazione puo’ cambiare a seconda della trasformazione dei dati adottata e della<br />

funzione utilizzata per il calcolo della matrice simmetrica tra le variabili; inoltre essa cambia anche<br />

in rapporto alla scelta fatta per normalizzare gli autovettori soprattutto quando gli autovalori<br />

corrispondenti agli assi scelti per la rappresentazione sono molto <strong>di</strong>fferenti tra loro.<br />

Normalizzando all’unita’ gli autovettori, sia gli autovettori che i vettori-variabile risultano,<br />

nello spazio multi<strong>di</strong>mensionale, tutti ortogonali tra loro e <strong>di</strong> lunghezza unitaria; normalizzando<br />

invece gli autovettori a √λ, le lunghezze dei vettori-variabile <strong>di</strong>ventano proporzionali alle deviazioni<br />

standard delle variabili e il loro prodotto, che <strong>di</strong>pende dall’angolo che li separa nello spazio<br />

multi<strong>di</strong>mensionale, e’ proporzionale alla loro covarianza e approssima il coefficiente <strong>di</strong> correlazione.<br />

Pertanto scalare gli autovettori a √λ e’ utile per interpretare meglio le relazioni tra le variabili: i<br />

vettori delle variabili che puntano nella stessa <strong>di</strong>rezione in<strong>di</strong>cano che le variabili sono correlate<br />

positivamente tra loro, quelli che puntano in <strong>di</strong>rezione opposta in<strong>di</strong>cano correlazioni negative e<br />

8-110


quelli che sono tra loro perpen<strong>di</strong>colari evidenziano correlazioni nulle.<br />

Il <strong>di</strong>agramma delle variabili e’ utile anche per l’interpretazione delle componenti principali<br />

perche’ mette in luce le relazioni che le variabili hanno con esse. I valori <strong>degli</strong> autovettori (assi)<br />

positivi o negativi piu’ elevati in<strong>di</strong>cano che le variabili a cui sono riferiti sono quelle maggiormente<br />

correlate positivamente o negativamente con le corrispondenti componenti principali [equazioni<br />

(8.13) e (8.14)]. Per questo fatto le componenti principali possono essere interpretate come<br />

gra<strong>di</strong>enti delle variabili che riassumono, rispetto ai quali gli oggetti possono essere or<strong>di</strong>nati e<br />

facilmente descritti sulla base della collocazione che essi trovano nel <strong>di</strong>agramma (ve<strong>di</strong> Fig. 8.6).<br />

Diagramma <strong>degli</strong> oggetti. Il <strong>di</strong>agramma a due <strong>di</strong>mensioni x,y per gli oggetti viene costruito<br />

assumendo come asse x la prima componente principale (Y 1 ) e come asse y la seconda (Y 2 ).<br />

Anche in questo caso la posizione <strong>degli</strong> n oggetti e’ determinata dai valori che assumono negli assi<br />

che, essendo centrati, si incrociano nel punto <strong>di</strong> coor<strong>di</strong>nate [0,0]. La vicinanza spaziale dei puntioggetto<br />

nel piano determinato dalle prime due componenti riflette la somiglianza tra gli oggetti.<br />

(ve<strong>di</strong> Fig. 8.6-b).<br />

2<br />

1<br />

PCA 2<br />

0<br />

-1<br />

-2<br />

-3<br />

-3.0<br />

-2.0<br />

-1.0<br />

0.0<br />

1.0<br />

2.0<br />

PCA 1<br />

(a)<br />

(b)<br />

Fig. 8.6 Risultati grafici dell’analisi delle componenti principali applicata a 20 tipi <strong>di</strong> boschi del Friuli<br />

Venezia Giulia descritti da valori me<strong>di</strong> <strong>di</strong> alcuni in<strong>di</strong>ci ecologici. (a) Descrizione dello spazio generato dalle<br />

prime due componenti principali e da esse sud<strong>di</strong>viso in quattro aree. Il primo asse separa i boschi <strong>di</strong><br />

ambienti umi<strong>di</strong> da quelli <strong>di</strong> ambienti secchi, il secondo asse separa quelli che risentono <strong>di</strong> un clima<br />

continentale da quelli situati in regioni a clima me<strong>di</strong>terraneo. (b) Or<strong>di</strong>namento dei 20 tipi <strong>di</strong> boschi nello<br />

stesso spazio bi<strong>di</strong>mensionale. I quattro simboli utilizzati in<strong>di</strong>cano l’appartenenza a 4 <strong>di</strong>stinti gruppi<br />

in<strong>di</strong>viduati con un metodo <strong>di</strong> classificazione. L’interpretazione dei gruppi e’ facilitata dalla descrizione dei<br />

quadranti dello spazio letta in (a). Si possono facilmente in<strong>di</strong>viduare i boschi piu’ umi<strong>di</strong> (ê), quelli piu’<br />

secchi <strong>di</strong> clima continentale ( ] ), quelli piu’ secchi <strong>di</strong> clima me<strong>di</strong>terraneo (ï) e quelli <strong>di</strong> caratteristiche<br />

interme<strong>di</strong>e (ë).<br />

Diagramma congiunto delle variabili e <strong>degli</strong> oggetti. La tecnica del biplot ha lo scopo<br />

8-111


primario <strong>di</strong> costruire un <strong>di</strong>agramma congiunto delle variabili e <strong>degli</strong> oggetti e, se eseguita<br />

rigorosamente secondo la proposta originale , e’ anche uno strumento che permette la<br />

ricostruzione della matrice dei dati dalle componenti. Questo esito si ottiene riscalando<br />

adeguatamente le coor<strong>di</strong>nate delle variabili e <strong>degli</strong> oggetti in maniera tale che il prodotto tra gli<br />

autovettori e le componenti principali rimanga lo stesso e generi i valori della matrice dei dati<br />

originali. Questo e’ sicuramente ottenuto in due casi particolari che menzioniamo. Il primo prevede<br />

che i coefficienti <strong>di</strong> ciascuna componente abbiano la somma dei quadrati uguale a 1, cioe’ che gli<br />

autovettori siano normalizzati all’unita’ secondo l’eq.(8.10) e che gli elementi delle componenti<br />

abbiano la somma dei quadrati pari ai corrispondenti autovalori, cioe’ che le componenti principali<br />

siano normalizzate a √λ secondo l’eq. (8.15). Nel paragrafo precedente sono stati descritti la<br />

procedura e gli algoritmi (Tab. 8.3) per ottenere queste normalizzazioni. Questa tecnica prende il<br />

nome <strong>di</strong> biplot euclideo perche’ con essa la <strong>di</strong>stanza euclidea tra gli oggetti nello spazio<br />

determinato dalle componenti approssima la <strong>di</strong>stanza tra gli oggetti nello spazio originario<br />

determinato dalle m variabili.<br />

Fig. 8.7 Or<strong>di</strong>namento congiunto (biplot) <strong>di</strong> 20 tipi forestali del Friuli Venezia Giulia e <strong>di</strong><br />

alcuni in<strong>di</strong>ci ecologici: luce (L), humus (H), <strong>di</strong>spersione del terreno (D), umi<strong>di</strong>tà (U),<br />

continentalita’ (C) e temperatura (T). La correlazione delle prime quattro variabili con la<br />

prima componente e’ <strong>di</strong>mostrata dal fatto che hanno approssimativamente la stessa<br />

<strong>di</strong>rezione del primo asse. I segmenti punteggiati <strong>di</strong>segnano i prolungamenti dei vettori<br />

delle variabili continentalita’ (C) e temperatura (T) e le proiezioni <strong>di</strong> alcuni punti dei tipi<br />

forestali su <strong>di</strong> essi.<br />

8-112


La seconda modalita’ per scalare correttamente le coor<strong>di</strong>nate prevede la normalizzazione<br />

<strong>degli</strong> autovettori alla ra<strong>di</strong>ce dell’autovalore corrispondente e la normalizzazione delle componenti<br />

principali all’unita’. Essa genera il biplot della covarianza cosi’ chiamato perche’, come abbiamo gia’<br />

descritto sopra, l’angolo tra gli autovettori normalizzati a √λ e’ proporzionale alla loro covarianza.<br />

Si puo’ passare dall’una all’altra modalità semplicemente <strong>di</strong>videndo o moltiplicando per √λ <strong>di</strong> volta<br />

in volta gli autovettori o le componenti principali.<br />

Nella pratica, poiche’ i campi <strong>di</strong> variazione dei valori delle coor<strong>di</strong>nate <strong>degli</strong> oggetti<br />

(componenti principali) e delle variabili (autovettori) sono spesso <strong>di</strong> <strong>di</strong>fferente or<strong>di</strong>ne <strong>di</strong> grandezza,<br />

le coor<strong>di</strong>nate delle variabili sono spesso moltiplicate per un’appropriata costante per permettere la<br />

sovrapposizione grafica dei due or<strong>di</strong>namenti. ter Braak suggerisce <strong>di</strong> produrre separatamente i<br />

<strong>di</strong>agrammi in luci<strong>di</strong> trasparenti, ciascuno nella propria scala, e <strong>di</strong> sovrapporli nel punto d’origine<br />

<strong>degli</strong> assi con l’unica accortezza <strong>di</strong> mantenere, in ciascuno dei <strong>di</strong>agrammi, la stessa lunghezza<br />

fisica dell’unita’ <strong>di</strong> scala sia per l’asse orizzontale che per quello verticale; solo cosi’ infatti non si<br />

alterano gli angoli tra i vettori. In questo caso un biplot puo’ avere graficamente <strong>di</strong>fferenti unita’ <strong>di</strong><br />

scala per gli oggetti e le specie.<br />

Poiche’ lo scopo primario del biplot consiste nel facilitare l’interpretazione reciproca delle due<br />

configurazioni, concor<strong>di</strong>amo con Podani (2000) nel suggerire la possibilita’ <strong>di</strong> collocare sullo stesso<br />

grafico gli oggetti e le variabili utilizzando le loro coor<strong>di</strong>nate normalizzate entrambe alla ra<strong>di</strong>ce<br />

dell’autovalore corrispondente in maniera tale che, da una parte sia preservata la <strong>di</strong>stanza euclidea<br />

tra gli oggetti, e dall’altra siano facilmente interpretabili le relazioni tra le variabili e tra le variabili e<br />

gli assi. E’ chiaro che, cosi’ facendo, viene meno la caratteristica originaria del biplot <strong>di</strong> essere<br />

strumento <strong>di</strong> ricostruzione della matrice.<br />

Anche nel <strong>di</strong>agramma congiunto si e’ soliti rappresentare gli oggetti con i punti e le variabili<br />

con i vettori. I vettori-variabile sono situati nella <strong>di</strong>rezione <strong>di</strong> massima variazione dei valori delle<br />

variabili. Le caratteristiche dei punti-oggetto possono essere determinate proprio in rapporto alla<br />

loro posizione rispetto alla <strong>di</strong>rezione dei vettori-variabili. Infatti la corretta interpretazione delle<br />

relazioni esistenti tra gli oggetti e le variabili si basa sulla proiezione dei punti-oggetto sui vettorivariabile<br />

o eventualmente sui loro prolungamenti.<br />

Un esempio <strong>di</strong> biplot viene illustrato in Fig. 8.7 in cui sono or<strong>di</strong>nati simultaneamente 20<br />

tipologie <strong>di</strong> boschi del Friuli Venezia Giulia (F.V.G.) e 6 in<strong>di</strong>ci ecologici utilizzati per descriverle. Le<br />

variabili luce (L), humus (H), <strong>di</strong>spersione (D) e umi<strong>di</strong>ta’ del terreno (U) sono tutte correlate<br />

fortemente alla prima componente principale. Cio’ e’ dedotto graficamente dalla <strong>di</strong>rezione dei loro<br />

vettori che e’ quasi parallela al primo asse ed e’ confermato dai valori elevati dei coefficienti <strong>di</strong><br />

correlazione riportati in Tab. 8.4. Il primo asse puo’ quin<strong>di</strong> essere interpretato come un gra<strong>di</strong>ente<br />

decrescente <strong>di</strong> luminosita’ e un gra<strong>di</strong>ente crescente delle con<strong>di</strong>zioni <strong>di</strong> umi<strong>di</strong>ta’ del suolo, <strong>di</strong><br />

8-113


<strong>di</strong>spersione del terreno e <strong>di</strong> quantita’ <strong>di</strong> humus. Le variabili temperatura (T) e continentalita’ (C)<br />

sono invece piu’ correlate al secondo asse, ma poiche’ i coefficienti <strong>di</strong> correlazione non sono cosi’<br />

elevati come quelli riscontrati per il primo asse, i rispettivi vettori <strong>di</strong>vergono dal secondo asse <strong>di</strong> un<br />

Tab. 8.4 Correlazioni tra gli in<strong>di</strong>ci<br />

ecologici delle tipologie forestali del<br />

F.V.G. e le prime due componenti<br />

principali. I valori in neretto<br />

evidenziano le correlazioni piu’<br />

significative.<br />

I asse<br />

II asse<br />

U .979 .139<br />

H .977 .070<br />

G .934 -.173<br />

L -.948 .107<br />

T -.522 -.787<br />

C -.409 .860<br />

certo angolo.<br />

Essi inoltre sono tra loro quasi ortogonali e cio’<br />

conferma che tra queste due variabili non c’e una<br />

correlazione significativa (r = -.364, g.l. = 18, α = 0.12).<br />

I gra<strong>di</strong>enti <strong>di</strong> temperatura e <strong>di</strong> continentalita’ sono<br />

pertanto visualizzati lungo le <strong>di</strong>rezioni <strong>di</strong> questi vettori e<br />

la posizione <strong>degli</strong> oggetti rispetto ad essi viene valutata<br />

dopo averli proiettati ortogonalmente sui vettori o sui<br />

loro prolungamenti. Rispetto alle <strong>di</strong>rettrici <strong>di</strong> entrambi i<br />

gra<strong>di</strong>enti si puo’ osservare che le proiezioni dei boschi<br />

mesofili simboleggiati con () si trovano in posizione<br />

centrale e quelle dei boschi umi<strong>di</strong> () in posizione opposta rispetto ai punti-variabili essendo essi<br />

anche i boschi <strong>di</strong> ambienti piu’ fred<strong>di</strong> e quelli in cui l’escursione termica giornaliera ed annuale e’<br />

meno elevata e l’aria e’ piu’ umida. Infine i boschi rappresentati con i simboli () e (), le cui<br />

proiezioni si collocano all’estremita’ dei due gra<strong>di</strong>enti in vicinanza dei punti-variabili, in<strong>di</strong>viduano<br />

rispettivamente i boschi piu’ termofili e quelli piu’ continentali.<br />

8.2.2 Algoritmo Q<br />

Le componenti principali si possono ottenere anche con l'algoritmo Q che estrae autovalori<br />

ed autovettori dalla matrice <strong>di</strong> somiglianza Q(nxn) ottenuta calcolando il prodotto scalare tra i n<br />

oggetti/rilievi sui dati centrati per riga secondo una delle trasformazioni (5.2), (5.3), (5.4), (5.8). Gli<br />

autovalori e gli autovettori della matrice Q(nxn) sono estratti con lo stesso proce<strong>di</strong>mento descritto<br />

nel paragrafo 8.1, ma a <strong>di</strong>fferenza <strong>di</strong> quanto operato con l’algoritmo R, gli autovettori B i sono poi<br />

normalizzati alla ra<strong>di</strong>ce dell'autovalore corrispondente sod<strong>di</strong>sfacendo la con<strong>di</strong>zione seguente:<br />

2 2<br />

2<br />

1 i 2i<br />

...<br />

ni<br />

b + b + + b = λ<br />

(8.15)<br />

Gli autovettori normalizzati in questa maniera corrispondono perfettamente alle componenti<br />

principali trovate me<strong>di</strong>ante l'algoritmo R (B i =Y i ). La con<strong>di</strong>zione necessaria affinche' si verifichi<br />

questa uguaglianza e' che si sia utilizzata, in entrambi gli algoritmi, la stessa trasformazione della<br />

matrice originale dei dati.<br />

8-114


E’ interessante fare notare che il numero <strong>di</strong> componenti principali che si ottengono con<br />

l’algoritmo Q (autovettori della matrice <strong>di</strong> somiglianza Q) e’ uguale al numero <strong>di</strong> componenti<br />

principali che si ottengono applicando l’algoritmo R alla stessa matrice originale dei dati. A prima<br />

vista questo non sembrerebbe cosi’ ovvio essendo l’or<strong>di</strong>ne della matrice Q <strong>di</strong>verso da quello della<br />

matrice R. In realta’ poiche’ la matrice Q e’ il risultato <strong>di</strong> una elaborazione che tiene conto<br />

dell’informazione <strong>di</strong> tutte le variabili della tabella originale, e’ matematicamente <strong>di</strong>mostrato 17 che le<br />

soluzioni della sua equazione caratteristica producono un numero p <strong>di</strong> autovalori positivi minore o<br />

uguale al valore minimo tra il numero <strong>di</strong> variabili e il numero <strong>di</strong> oggetti <strong>di</strong>minuito <strong>di</strong> una unita’<br />

[p≤min(m,n -1)]. Cio’ significa che non e’ possibile estrarre piu’ <strong>di</strong> m componenti quando gli n<br />

oggetti sono piu’ numerosi delle m variabili e, in questo caso, esse saranno in un numero tanto<br />

inferiore a m quanto piu’ le variabili sono correlate tra loro. Se invece il numero <strong>degli</strong> oggetti e’ piu’<br />

piccolo del numero <strong>di</strong> variabili, significa che le numerose variabili sono ridondanti nella descrizione<br />

<strong>degli</strong> oggetti 18 . In questo caso la geometria multi<strong>di</strong>mensionale ci <strong>di</strong>ce che sono necessarie un<br />

numero massimo <strong>di</strong> n-1 <strong>di</strong>mensioni per posizionare nello spazio n oggetti rispettando la loro<br />

<strong>di</strong>stanza: ad esempio la <strong>di</strong>stanza tra due punti e’ misurabile lungo una retta cioe’ in un’unica<br />

<strong>di</strong>mensione, quella fra tre punti e’ rappresentabile in un piano cioe’ in due <strong>di</strong>mensioni e cosi’ via.<br />

8.2.3 Algoritmo D<br />

L'algoritmo D permette l'esecuzione del PCA anche <strong>di</strong>sponendo <strong>di</strong> una matrice D(nxn) <strong>di</strong><br />

<strong>di</strong>stanze euclidee. Infatti, sulla base della relazione esistente tra <strong>di</strong>stanza euclidea e prodotto<br />

scalare (7.11), ciascun valore d ij della matrice D è trasformato nella matrice Q secondo la seguente<br />

equazione:<br />

q<br />

ij<br />

2<br />

= −0.5d<br />

+ 0.5( D + D − D )<br />

(8.16)<br />

ij<br />

i<br />

j<br />

t<br />

dove:<br />

n<br />

2<br />

∑ <strong>di</strong>.<br />

i=1<br />

Di<br />

=<br />

n<br />

D<br />

n<br />

n n<br />

2<br />

∑ d.<br />

j<br />

∑ ∑<br />

j=1<br />

i=<br />

1 j=<br />

1<br />

j<br />

= Dt<br />

=<br />

2<br />

n<br />

Ottenuta la matrice Q, il calcolo procede come descritto nel paragrafo precedente.<br />

n<br />

d<br />

2<br />

ij<br />

⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯<br />

17 Si rimanda ai testi <strong>di</strong> algebra lineare la spiegazione della decomposizione spettrale <strong>di</strong> una matrice<br />

quadrata simmetrica e la decomposizione singolare <strong>di</strong> una matrice rettangolare.<br />

18 Infatti per caratterizzare in maniera univoca n oggetti e’ sufficiente un numero <strong>di</strong> n variabili ciascuna<br />

descrivente un solo oggetto.<br />

8-115


8.2.4 Esempio <strong>di</strong> calcolo<br />

Eseguiamo l'analisi delle componenti principali sulla matrice dei dati <strong>di</strong> Tab. 8.1, la cui matrice<br />

S <strong>di</strong> varianza-covarianza tra le specie e i relativi autovettori ed autovalori sono gia’ stati calcolati e<br />

illustrati nell'esempio 8.1.1. Prima <strong>di</strong> procedere nell'utilizzo <strong>di</strong> uno qualsiasi <strong>degli</strong> algoritmi R, Q o D,<br />

secondo quanto suggerito in Tab. 8.3, centriamo i valori delle specie trasformandoli con l’equazione<br />

(5.3) e otteniamo la matrice A <strong>di</strong> Tab. 8.5.<br />

Tab. 8.5 Matrice dei dati <strong>di</strong> Tab. 8.1 centrati con la<br />

trasformazione (5.3).<br />

specie<br />

rilievi<br />

Tab. 8.6 Componenti principali dei dati <strong>di</strong> Tab. 8.1<br />

calcolate con l’algoritmo R utilizzando la matrice <strong>di</strong><br />

covarianza. Si osservi che la somma dei quadrati<br />

<strong>degli</strong> elementi delle componenti corrisponde agli<br />

autovalori corrispondenti (ve<strong>di</strong> Tab. 8.2).<br />

1 2 3 4 5 1 2 3 4 5<br />

2<br />

∑ y ij<br />

1 -0.8 -0.3 1.2 -1.3 1.2 Y 1 -0.82 -0.18 1.40 -1.46 1.057 5.925<br />

2 -0.2 0.3 0.8 0.7 -0.2 Y 2 -0.09 -0.38 -0.34 0.21 .602 0.675<br />

Applicando la formula (8.7), moltiplichiamo la matrice dei dati centrati A per la matrice<br />

trasposta B’ <strong>degli</strong> autovettori (Tab. 8.2) estratti dalla matrice S <strong>di</strong> varianza-covarianza delle specie<br />

e ricaviamo la matrice delle componenti principali Y, riportata anche in Tab. 8.6:<br />

Y<br />

⎛0.939<br />

= B ' A = ⎜<br />

⎝ 0.345<br />

0.345 ⎞ ⎛ − 0.8 − 0.3 1.2 −1.3<br />

1.2 ⎞ ⎛ − 0.82 − 0.18 1.4 −1.46<br />

1.06⎞<br />

⎟ × ⎜<br />

⎟ = ⎜<br />

⎟<br />

− 0.939⎠<br />

⎝ − 0.2 0.3 0.8 0.7 − 0.2⎠<br />

⎝ − 0.09 − 0.38 − 0.34 0.21 0. 6 ⎠<br />

Il calcolo dettagliato del prodotto righe per colonne delle due matrici per quattro elementi<br />

della matrice risultato e’ dato come esempio da:<br />

y<br />

y<br />

11<br />

12<br />

......<br />

y<br />

y<br />

21<br />

22<br />

=<br />

=<br />

=<br />

=<br />

( 0.939) × ( − 0.8) + ( 0.345) × ( − 0.2)<br />

( 0.939) × ( − 0.3) + ( 0.345) × ( 0.3)<br />

= −0.819<br />

= −0.178<br />

( 0.345) × ( − 0.8) + ( − 0.939) × ( − 0.2)<br />

= −<br />

( 0.345) × ( − 0.3) + ( − 0.939) × ( 0.3) = −0.<br />

385<br />

0.088<br />

(8.12):<br />

Per normalizzare le coor<strong>di</strong>nate delle specie a √λ trasformiamo gli autovettori B’ secondo la<br />

b<br />

b<br />

11<br />

12<br />

0.939×<br />

=<br />

1<br />

0.345×<br />

=<br />

1<br />

5.925<br />

5.925<br />

= 2.2857<br />

= 0.8398<br />

b<br />

b<br />

21<br />

22<br />

0.345×<br />

0.675<br />

=<br />

= 0.2834<br />

1<br />

− 0.939×<br />

0.675<br />

=<br />

= −0.7715<br />

1<br />

8-116


e, per calcolare le correlazioni tra le variabili originali e le componenti principali, applichiamo<br />

la formula (8.13) alla matrice B’ <strong>degli</strong> autovettori:<br />

r<br />

r<br />

11<br />

21<br />

0.939×<br />

5.925<br />

=<br />

= 0.991<br />

5.3<br />

0.345×<br />

5.925<br />

=<br />

= 0.737<br />

1.3<br />

r<br />

r<br />

12<br />

22<br />

0.345×<br />

0.675<br />

=<br />

= 0.123<br />

5.3<br />

− 0.937×<br />

0.675<br />

=<br />

= −0.675<br />

1.3<br />

Troviamo cosi’ che la prima componente principale e’ piu’ correlata alla prima specie (0.991)<br />

e la seconda componente alla seconda specie (-0.675).<br />

Per trovare le stesse componenti principali con gli algoritmi Q e D, calcoliamo innanzitutto la<br />

matrice dei prodotti scalari (Tab. 8.7) e delle <strong>di</strong>stanze euclidee (Tab. 8.8) sui dati centrati <strong>di</strong> Tab. 8.5.<br />

Tab. 8.7 Matrice Q dei prodotti scalari calcolati<br />

tra le colonne-rilievi <strong>di</strong> Tab. 8.5.<br />

Tab. 8.8 Matrice D delle <strong>di</strong>stanze euclidee<br />

calcolate tra le colonne-rilievi <strong>di</strong> Tab. 8.5.<br />

1 2 3 4 5 1 2 3 4 5<br />

1 .68 .18 -1.12 1.18 -.92 1 0 .707 2.24 .707 2<br />

2 .18 .18 -.12 .18 -.42 2 .707 0 1.58 1.41 1.58<br />

3 -1.12 -.12 2.08 -2.12 1.28 3 2.24 1.58 0 2.92 1<br />

4 1.18 .18 -2.12 2.18 -1.42 4 .707 1.41 2.92 0 2.55<br />

5 -.92 -.42 1.28 -.142 1.48 5 2 1.58 1 2.55 0<br />

I valori della matrice D <strong>di</strong> Tab. 8.8 trasformati secondo l’eq. (8.16) riproducono esattamente<br />

gli stessi valori della matrice Q <strong>di</strong> Tab. 8.7. Come esempio, riportiamo il calcolo riguardante la<br />

trasformazione dei valori q 11 , q 12 , q 22 . Dopo aver trovato i valori:<br />

(0<br />

D =<br />

D<br />

D<br />

t<br />

+ 0.707<br />

+ 2.236<br />

5<br />

+ 0.707<br />

+ 2<br />

2<br />

2<br />

2<br />

2 2<br />

1<br />

=<br />

(0.707<br />

=<br />

2<br />

+ 0<br />

2<br />

+ 1.58<br />

5<br />

2<br />

2 2<br />

+ 1.41 + 1.58 )<br />

2<br />

=<br />

(0<br />

=<br />

2<br />

+ 0.707<br />

2<br />

+ 2.236<br />

5<br />

2<br />

2<br />

+ ... + 2.539<br />

2<br />

)<br />

2<br />

1.5<br />

2<br />

+ 0 )<br />

= 2.64<br />

si sostituiscono nella formula (8.16) ottenendo:<br />

2<br />

q<br />

11<br />

= −0.5<br />

× 0 + 0.5(2 + 2 − 2.64) = 0.68<br />

8-117


2<br />

q<br />

12<br />

= −0.5×<br />

0.707 + 0.5(2 + 1.5 − 2.64) = 0.18<br />

2<br />

q<br />

22<br />

= −0.5×<br />

0 + 0.5(1.5 + 1.5 − 2.64) = 0.18<br />

Il lettore puo' a questo punto verificare, con l'ausilio <strong>di</strong> un programma che estrae autovalori<br />

e autovettori da matrici simmetriche, che gli autovettori delle matrici Q e D trasformata,<br />

normalizzati alla ra<strong>di</strong>ce <strong>degli</strong> autovalori corrispondenti, sono uguali alle componenti principali<br />

ottenute col metodo R.<br />

Tab. 8.9 Autovalori ed autovettori delle matrici Q e D trasformata. Sono estratti solo due<br />

autovalori positivi che corrispondono agli autovalori calcolati con l’algoritmo R. Sono riportati sia<br />

gli autovettori <strong>di</strong> lunghezza unitaria sia quelli normalizzati alla ra<strong>di</strong>ce dell’autovalore<br />

corrispondente, cioe’ le stesse componenti principali <strong>di</strong> Tab. 8.6.<br />

Autovalori<br />

Autovettori<br />

1 2 3 4 5<br />

1 5.9249 B 1 -.337 -.073 .576 -.601 .434<br />

2 0.6751 B 2 -.107 -.469 -.410 .254 .732<br />

Componenti principali<br />

1 2 3 4 5<br />

Y 1 -0.820 -0.178 1.402 -1.462 1.057<br />

Y 2 -0.088 -0.385 -0.337 0.209 .602<br />

8-118


8.3 ANALISI DELLE CORRISPONDENZE<br />

L'analisi delle corrispondenze (COA, Corrispondence Analysis)) e' una tecnica <strong>di</strong> or<strong>di</strong>namento<br />

simultaneo <strong>degli</strong> elementi <strong>di</strong> riga e <strong>di</strong> colonna <strong>di</strong> una matrice contenente valori <strong>di</strong> frequenza<br />

(tabella <strong>di</strong> contingenza).<br />

Gli ecologi la usano proprio per esaminare, in un’unica analisi, le interazioni ecologiche tra i<br />

rilievi e le specie animali e vegetali. Applicata agli stu<strong>di</strong> <strong>di</strong> vegetazione, la tecnica prende il nome <strong>di</strong><br />

analisi della concentrazione perche’ le tabelle <strong>di</strong> contingenza sono ricavate da tabelle<br />

fitosociologiche strutturate per gruppi <strong>di</strong> specie e gruppi <strong>di</strong> rilievi all’interno dei quali sono<br />

concentrati i dati espressi con valori <strong>di</strong> frequenza.<br />

L’analisi delle corrispondenze evidenzia le relazioni tra gli elementi descritti nei profili riga<br />

(valori espressi in percentuali <strong>di</strong> riga) e quelli dei profili colonna (valori espressi in percentuali <strong>di</strong><br />

colonna) della tabella. Insito al metodo sta il concetto secondo il quale l'or<strong>di</strong>namento delle<br />

colonne/oggetti lungo un gra<strong>di</strong>ente puo' essere ottenuto sulla base delle me<strong>di</strong>e pesate dei valori<br />

delle righe/variabili e, viceversa, l’or<strong>di</strong>namento delle righe/variabili puo’ essere ricavato dalle me<strong>di</strong>e<br />

pesate dei valori delle colonne/oggetti.<br />

Le <strong>di</strong>verse procedure <strong>di</strong> or<strong>di</strong>namento <strong>di</strong>fferiscono tra loro, sostanzialmente, nel modo con cui<br />

ottengono i pesi delle specie e le coor<strong>di</strong>nate dei rilievi. Abbiamo gia’ visto che nelle componenti<br />

principali gli elementi <strong>degli</strong> autovettori estratti dalla matrice <strong>di</strong> correlazione rappresentano i pesi <strong>di</strong><br />

ciascuna variabile che sono utilizzati per il calcolo delle coor<strong>di</strong>nate <strong>degli</strong> oggetti.<br />

L’analisi delle corrispondenze puo’ essere eseguita sia me<strong>di</strong>ante estrazione <strong>di</strong> autovalori ed<br />

autovettori, secondo un approccio simile a quello dell’analisi delle componenti principali, sia<br />

attraverso una serie <strong>di</strong> operazioni <strong>di</strong> me<strong>di</strong>e ponderate sulle righe e sulle colonne della tabella.<br />

Usando il primo approccio, il solo descritto in questo capitolo, la COA puo' essere considerata una<br />

variante dell'analisi delle componenti principali dalla quale si <strong>di</strong>fferenzia per il modo con cui i dati<br />

originali sono trasformati e per il modo con cui sono calcolati gli autovettori <strong>degli</strong> oggetti. Inoltre, a<br />

<strong>di</strong>fferenza dell'analisi delle componenti principali, che tratta principalmente dati continui, la COA e'<br />

particolarmente in<strong>di</strong>cata per dati <strong>di</strong>screti <strong>di</strong> frequenza o d’incidenza. Se applicata correttamente a<br />

dati <strong>di</strong> questo tipo, la COA da’ una misura della correlazione tra le variabili e gli oggetti perche’ le<br />

loro coor<strong>di</strong>nate sono ottenute in maniera tale da massimizzare la loro correlazione.<br />

Il metodo decompone il chi-quadrato totale <strong>di</strong> una tabella <strong>di</strong> contingenza estraendo gli<br />

autovalori e gli autovettori dalla matrice dei prodotti scalari calcolati sulle righe o sulle colonne<br />

della tabella <strong>di</strong> contingenza dopo che i dati <strong>di</strong> frequenza sono stati trasformati in maniera<br />

opportuna. Il chi-quadrato e’ decomposto secondo la relazione seguente:<br />

8-119


2<br />

χ = λ1F.. + λ2F..<br />

+ ... + λ<br />

pF..<br />

(8.17)<br />

dove λ i rappresenta l’i-esimo autovalore e F.. il totale generale della tabella.<br />

Quanto piu' alto e' il chi-quadrato totale, tanto piu' netta e' la separazione tra gli elementi<br />

nella tabella e tanto maggiore e' il legame esistente tra le righe e le colonne. E’ stato <strong>di</strong>mostrato<br />

che gli autovalori corrispondono al quadrato dei coefficienti <strong>di</strong> correlazione canonica (λ k = R 2 k ) che<br />

in<strong>di</strong>cano quanto le singole coppie <strong>di</strong> variabili canoniche (assi <strong>di</strong> or<strong>di</strong>namento) delle righe e delle<br />

colonne sono correlate tra loro.<br />

Prodotto scalare<br />

tra le variabili<br />

m<br />

m<br />

Doppia trasformazione<br />

dei dati<br />

m<br />

S<br />

COA<br />

F<br />

A<br />

n<br />

n<br />

m<br />

Matrice dei dati<br />

trasformati<br />

Matrice dei dati <strong>di</strong><br />

frequenza <strong>di</strong> m<br />

variabili in n oggetti<br />

n<br />

Q<br />

n<br />

Prodotto scalare<br />

tra gli oggetti<br />

|S-λI|=0 SB=λB<br />

Σb 2 =1<br />

x = b<br />

p<br />

T<br />

r i<br />

p<br />

m<br />

B<br />

p≤min(m,n-1)<br />

m<br />

X<br />

p≤min(m,n-1)<br />

Variabili canoniche: assi <strong>di</strong><br />

or<strong>di</strong>namento delle variabili<br />

y =<br />

Σ fx<br />

c j<br />

m<br />

λ<br />

p<br />

p<br />

V<br />

Y<br />

|Q-λI|=0<br />

Σv 2 =1<br />

Variabili canoniche: assi <strong>di</strong><br />

or<strong>di</strong>namento <strong>degli</strong> oggetti<br />

n<br />

y = v<br />

n<br />

SV=λV<br />

p≤min(m,n-1)<br />

T<br />

c j<br />

p≤min(m,n-1)<br />

Fig. 8.8 Illustrazione della procedura <strong>di</strong> calcolo dell’analisi delle corrispondenze che ottiene un<br />

or<strong>di</strong>namento simultaneo <strong>degli</strong> oggetti e delle variabili.<br />

passi:<br />

La strategia <strong>di</strong> calcolo utilizzata dalla COA e’ illustrata in Fig. 8.8 e comprende i seguenti<br />

1) trasformazione della matrice F (mxn) dei dati <strong>di</strong> frequenza (f ij ) nella matrice A (mxn) secondo<br />

8-120


una delle seguenti formule 19 :<br />

a =<br />

ij<br />

f<br />

i<br />

ij<br />

r c<br />

j<br />

(8.18)<br />

a<br />

ij<br />

f r c<br />

ij i j<br />

= −<br />

(8.19)<br />

r c T<br />

i<br />

j<br />

a<br />

ij<br />

ri<br />

c<br />

j<br />

= fij<br />

−<br />

(8.20)<br />

T<br />

dove r i e' il totale della riga i-esima, c j e' il totale della colonna j-esima e T e' il totale <strong>di</strong> tutti<br />

i valori della tabella <strong>di</strong> contingenza (totale generale). Si puo' notare che, a <strong>di</strong>fferenza dell’analisi<br />

delle componenti principali, in cui sono previste la centratura e la standar<strong>di</strong>zzazione delle variabili,<br />

l'analisi delle corrispondenze richiede una trasformazione dei dati cosiddetta doppia, in quanto<br />

coinvolge sia i totali <strong>di</strong> riga che <strong>di</strong> colonna. 20<br />

2) calcolo della matrice S dei prodotti scalari [eq. (7.4)] tra le righe/variabili della matrice<br />

trasformata A.<br />

3) estrazione dalla matrice simmetrica S <strong>di</strong> p≤m autovalori positivi λ k ed autovettori B k<br />

normalizzati all'unita' secondo il metodo visto per le componenti principali al paragrafo 8.2.1.<br />

4) normalizzazione <strong>degli</strong> autovettori B k per l'in<strong>di</strong>viduazione delle coor<strong>di</strong>nate canoniche x ik dei<br />

punti righe/variabili secondo la seguente formula:<br />

T<br />

x<br />

ik<br />

= bik<br />

(8.21)<br />

r<br />

i<br />

Gli autovettori normalizzati x ik rappresentano le coor<strong>di</strong>nate dei punti righe nella k-esima<br />

variabile canonica.<br />

⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯<br />

19 Si noti che la formula (8.20) e’ quella della deviazione dalla frequenza attesa gia’ descritta nel<br />

capitolo 5 riguardante la trasformazione dei dati ed e’ equivalente alla equazione (5.11).<br />

20 L'uso <strong>di</strong> una o dell'altra trasformazione implica <strong>di</strong>fferenti aggiustamenti nella definizione delle<br />

componenti delle variabili canoniche. Per esempio, utilizzando la (8.18), le coor<strong>di</strong>nate dei punti riga e<br />

colonna relative alla prima variabile canonica estratta, come conseguenza della doppia trasformazione e del<br />

successivo cambiamento <strong>di</strong> scala secondo le equazioni (8.21) o (8.23), assumono tutte il valore 1. Questo<br />

asse viene pertanto ignorato, e sono considerati solo gli assi successivi. Con la trasformazione (8.19) si<br />

trovano invece <strong>di</strong>rettamente gli assi successivi al primo.<br />

8-121


5) calcolo delle coor<strong>di</strong>nate canoniche dei punti colonne/oggetti secondo la seguente formula:<br />

y<br />

jk<br />

∑ f<br />

ij ik<br />

= (8.22)<br />

c R<br />

j<br />

x<br />

k<br />

In alternativa al passo 5) e in analogia a quanto operato per le variabili, si possono seguire<br />

anche i seguenti passi per ottenere le coor<strong>di</strong>nate <strong>degli</strong> oggetti:<br />

6) calcolo della matrice Q dei prodotti scalari sulle colonne/oggetti della matrice A.<br />

7) estrazione <strong>degli</strong> autovalori λ k = R 2 k e <strong>degli</strong> autovettori V k normalizzati all’unita’ dalla<br />

matrice simmetrica Q. Gli autovalori R 2 k cosi' ottenuti sono uguali a quelli estratti dalla matrice S<br />

ed hanno il significato <strong>di</strong> correlazione canonica tra le coppie <strong>di</strong> variabili canoniche estratte. Poiche'<br />

matematicamente il numero <strong>di</strong> autovalori estraibili dalla matrice S (mxm) e' uguale a m e quello<br />

relativo alla matrice Q (nxn) e' n, il numero <strong>di</strong> autovalori positivi estraibili da entrambe le matrici e'<br />

uguale a p ≤ min(n,m) che corrisponde anche al numero <strong>di</strong> variabili canoniche estraibili per<br />

ciascuno set <strong>di</strong> dati, quello relativo alle righe e quello relativo alle colonne.<br />

8) calcolo delle coor<strong>di</strong>nate canoniche relative ai punti colonne riscalando gli autovettori V k<br />

secondo la seguente formula:<br />

T<br />

y<br />

jk<br />

= v<br />

jk<br />

(8.23)<br />

c<br />

j<br />

Gli autovettori normalizzati<br />

y<br />

jk<br />

rappresentano le coor<strong>di</strong>nate dei punti oggetti.<br />

Le seconde normalizzazioni <strong>degli</strong> autovettori associati alle righe secondo l’equazione (8.21) e<br />

alle colonne secondo la (8.23) sono necessari per ottenere la medesima scala <strong>degli</strong> assi e riportare<br />

quin<strong>di</strong> sullo stesso <strong>di</strong>agramma sia i punti variabili che i punti oggetti.<br />

I p valori <strong>di</strong> correlazione canonica quadratica<br />

2<br />

R<br />

k<br />

delle matrici S e Q, corrispondenti agli<br />

autovalori λ k, , rappresentano le proporzioni con cui il chi-quadrato della tabella <strong>di</strong> contingenza F<br />

viene decomposto. Si ha cioe':<br />

2 2<br />

2 2<br />

2<br />

χ = χ + ... + χ = R T + ... + R T<br />

(8.24)<br />

1<br />

p<br />

1<br />

p<br />

da cui si puo' ricavare la percentuale del chi-quadrato totale (C k ) spiegata dalla singole<br />

variabili canoniche con la formula seguente:<br />

8-122


C<br />

k<br />

2<br />

100 ⋅ RkT<br />

= (8.25)<br />

2<br />

χ<br />

Il grafico (Fig. 8.9) che riporta i punti-variabili e i punti-oggetti su un sistema <strong>di</strong> assi cartesiani<br />

costruito con le prime due variabili canoniche, viene interpretato nella seguente maniera:<br />

− la mutua <strong>di</strong>stanza tra i punti-oggetti misura la <strong>di</strong>fferenza tra i vettori <strong>degli</strong> oggetti<br />

− la mutua <strong>di</strong>stanza tra i punti-variabili misura la <strong>di</strong>fferenza tra i vettori delle variabili<br />

− l'origine <strong>degli</strong> assi rappresenta sia il vettore me<strong>di</strong>o <strong>degli</strong> oggetti che <strong>di</strong> quello delle<br />

variabili, ciascuno ponderato per i rispettivi totali<br />

− la <strong>di</strong>stanza tra un punto-oggetto ed un punto-variabile e' una misura <strong>di</strong> quanto uno<br />

caratterizzi l'altro e quin<strong>di</strong> della loro correlazione<br />

− le coor<strong>di</strong>nate dei punti si possono interpretare come misure proporzionali alle correlazioni<br />

tra questi e gli assi.<br />

8.3.1 Esempio <strong>di</strong> calcolo<br />

Sottoponiamo ad analisi delle corrispondenze i dati <strong>di</strong> Tab. 8.10 in cui sono riportati i valori <strong>di</strong><br />

frequenza congiunta <strong>di</strong> 3 gruppi <strong>di</strong> specie vegetali <strong>di</strong> <strong>di</strong>verse categorie sintassonomiche in 5 gruppi<br />

omogenei <strong>di</strong> rilievi <strong>di</strong> pascoli. In essa il valore 11 posto all'incrocio della riga A e colonna 1 in<strong>di</strong>ca il<br />

numero <strong>di</strong> specie appartenenti al gruppo A presenti nel primo gruppo <strong>di</strong> rilievi.<br />

Tab. 8.10 Matrice F con dati <strong>di</strong> frequenza<br />

congiunta <strong>di</strong> 3 gruppi <strong>di</strong> specie e 5 gruppi <strong>di</strong><br />

rilievi.<br />

Tab. 8.11 Matrice A dei dati trasformati.<br />

1 2 3 4 5 r i 1 2 3 4 5<br />

A 11 20 52 3 30 116 A -.099 -.064 .228 -.210 .120<br />

B 34 41 14 25 18 132 B .131 .105 -.168 .0003 -.049<br />

C 17 23 25 42 15 122 C -.040 -.046 -.047 .205 -.066<br />

c j 62 84 91 70 63 370<br />

Applichiamo ai valori <strong>di</strong> questa tabella la doppia trasformazione secondo l’equazione (8.19). Il<br />

valore a 11<br />

e' dato da:<br />

a<br />

11<br />

−<br />

62 × 116<br />

62 × 116<br />

=<br />

370<br />

11<br />

=<br />

−<br />

0.0995<br />

e, operando su tutti i valori, otteniamo i dati <strong>di</strong> Tab. 8.11.<br />

8-123


Calcoliamo il prodotto scalare [eq. (7.4)] tra le righe della Tab. 8.11 ottenendo la matrice<br />

simmetrica S <strong>di</strong> Tab. 8.12 . Estraiamo dalla matrice S gli autovalori e gli autovettori con lo stesso<br />

proce<strong>di</strong>mento descritto nel paragrafo 8.1 ottenendo i seguenti due soli autovalori positivi con i<br />

rispettivi valori percentuali:<br />

λ 1 =<br />

λ 2 =<br />

2<br />

R<br />

1<br />

= .182 77.1%<br />

2<br />

R = 2<br />

.054 22.9%<br />

Per quanto spiegato nel paragrafo precedente, ciascun autovalore esprime una porzione del<br />

chi-quadrato della tabella <strong>di</strong> contingenza F che, calcolato secondo la eq. (4.41), e' 87.33. Pertanto<br />

le percentuali <strong>di</strong> chi-quadrato spiegate dai due autovalori, secondo la eq. (8.25), sono uguali a:<br />

100×<br />

0.182 × 370<br />

C =<br />

87.33<br />

1<br />

=<br />

77.1<br />

C<br />

100 × 0.054 × 370<br />

=<br />

87.33<br />

2<br />

=<br />

22.9<br />

Si noti che questi valori percentuali sono uguali a quelli calcolati sulla somma <strong>degli</strong> autovalori<br />

riportati sopra.<br />

I valori dei primi due autovettori estratti sono riportati in Tab. 8.13.<br />

Tab. 8.12 Matrice S dei prodotti<br />

scalari tra i gruppi <strong>di</strong> specie (righe)<br />

della matrice trasformata A.<br />

Tab. 8.13 Autovettori<br />

estratti dalla matrice S.<br />

A B C B 1 B 2<br />

A .125 -.064 -.055 A .828 -.040<br />

B -.064 .059 .001 B -.434 -.677<br />

C -.055 .001 .052 C -.354 .735<br />

Le coor<strong>di</strong>nate X (variabili canoniche) dei 3 gruppi <strong>di</strong> specie ottenute normalizzando gli<br />

autovettori secondo la eq. (8.21), sono riportate in Tab. 8.14. Come esempio riportiamo il calcolo<br />

per trovare la coor<strong>di</strong>nata del primo gruppo <strong>di</strong> specie della prima variabile canonica:<br />

370<br />

x<br />

11<br />

= 0.828 × = 1.479<br />

116<br />

Le coor<strong>di</strong>nate Y (variabili canoniche) dei 5 gruppi <strong>di</strong> rilievi sono ottenute da quelle dei gruppi<br />

8-124


<strong>di</strong> specie secondo la eq. (8.22) e riportate in Tab. 8.15. Come esempio, la coor<strong>di</strong>nata del primo<br />

gruppo <strong>di</strong> rilievi della prima variabile canonica e' data da:<br />

y<br />

11×<br />

1.479 − 34×<br />

0.727 −17×<br />

0.616<br />

=<br />

=<br />

62×<br />

0.182<br />

11<br />

−<br />

0.715<br />

A questi stessi risultati si arriva calcolando la matrice dei prodotti scalari (Tab. 8.16) sui<br />

cinque gruppi <strong>di</strong> rilievi della matrice trasformata A, estraendo da essa gli autovettori normalizzati<br />

all’unita’ (Tab. 8.17) e relativizzando poi questi secondo l’equazione (8.23) come riportato<br />

nell’esempio seguente per il secondo elemento del primo autovettore:<br />

370<br />

y<br />

21<br />

= −0.192<br />

× = −0.403<br />

84<br />

Le <strong>di</strong>fferenze che si possono riscontrare nelle seconde o terze cifre decimali dei valori delle<br />

coor<strong>di</strong>nate Y sono dovute agli arrotondamenti effettuati nelle <strong>di</strong>fferenti procedure <strong>di</strong> calcolo.<br />

Tab. 8.14 Coor<strong>di</strong>nate X<br />

corrispondenti alle prime due<br />

variabili canoniche<br />

Tab. 8.15 Coor<strong>di</strong>nate Y<br />

corrispondenti alle prime due<br />

variabili canoniche<br />

X 1 X 2 Y 1 Y 2<br />

A 1.479 -0.071 1 -0.715 -1.219<br />

B -0.727 -1.133 2 -0.402 -0.946<br />

C -0.616 1.280 3 1.322 0.587<br />

4 -1.327 1.550<br />

5 0.820 -0.228<br />

La figura Fig. 8.9 da' una rappresentazione grafica dei legami tra le categorie<br />

sintassonomiche ed i gruppi <strong>di</strong> rilievi ottenuti con meto<strong>di</strong> <strong>di</strong> classificazione automatica. Da questa<br />

figura si puo' notare un’elevata correlazione tra sintassonomia e struttura dei pascoli dedotta dalla<br />

posizione reciproca dei gruppi tassonomici e dei gruppi <strong>di</strong> rilievi. Si possono in<strong>di</strong>viduare tre ambiti<br />

gravitazionali ben separati tra loro: il primo in alto a sinistra in<strong>di</strong>viduato dal gruppo <strong>di</strong> specie C che<br />

caratterizza il quarto gruppo <strong>di</strong> rilievi, il secondo al centro a destra con il gruppo <strong>di</strong> specie A che e’<br />

presente in maniera consistente nei gruppi <strong>di</strong> rilievi 3 e 5 ed infine il terzo in basso a sinistra con il<br />

gruppo <strong>di</strong> specie B che esprime la sua massima abbondanza nei primi due gruppi <strong>di</strong> rilievi.<br />

8-125


Tab. 8.16 Matrice Q dei prodotti scalari tra i<br />

gruppi <strong>di</strong> rilievi (colonne) della matrice<br />

trasformata A.<br />

1 2 3 4 5<br />

1 0.029 0.022 -0.043 0.013 -0.016<br />

2 0.022 0.017 -0.030 0.004 -0.010<br />

3 -0.043 -0.030 0.083 -0.058 0.039<br />

4 0.013 0.004 -0.058 0.086 -0.039<br />

5 -0.016 -0.010 0.039 -0.039 0.021<br />

Tab. 8.17 Autovettori<br />

estratti dalla matrice Q.<br />

V 1 V 2<br />

1 -0.295 -0.492<br />

2 -0.192 -0.439<br />

3 0.654 0.298<br />

4 -0.577 0.684<br />

5 0.338 -0.086<br />

X<br />

4<br />

W<br />

C<br />

1.00<br />

X<br />

3<br />

asse 2<br />

0.00<br />

X<br />

5<br />

A<br />

W<br />

-1.00<br />

X<br />

B<br />

2<br />

WX<br />

1<br />

-1.00 0.00 1.00<br />

asse 1<br />

Fig. 8.9 Or<strong>di</strong>namento reciproco secondo la tecnica<br />

dell’analisi delle corrispondenze applicata a 3 gruppi<br />

<strong>di</strong> specie vegetali in 5 gruppi <strong>di</strong> rilievi <strong>di</strong> pascoli.<br />

.<br />

8-126


9 . N I C C H I E E C O L O G I C H E<br />

9.1 IPERVOLUMI DI NICCHIE NELLO SPAZIO ECOLOGICO<br />

Gli ecologi concordano, anche se con sfumature leggermente <strong>di</strong>verse, nell’in<strong>di</strong>care col<br />

termine nicchia la funzione svolta da una specie nell’ecosistema. Ad esempio il canguro in<br />

Australia e il bisonte nel Nord-America svolgono la stessa funzione in ambienti geograficamente<br />

<strong>di</strong>stanti ma ecologicamente simili e, pertanto, occupano entrambi la nicchia “erbivoro delle<br />

praterie”. Con l’introduzione <strong>di</strong> questo concetto, la comunita’ è vista come un’unita’ formata dalle<br />

nicchie delle varie specie che ne fanno parte.<br />

Negli anni cinquanta parallelamente all’affermazione del principio ecologico <strong>di</strong> esclusione<br />

competitiva 21 o principio <strong>di</strong> Gause e in antitesi ad esso viene introdotto da Hutchinson il concetto<br />

<strong>di</strong> nicchia come spazio multi<strong>di</strong>mensionale (ipervolume) astrattamente abitato. Per una<br />

determinata specie esso è in<strong>di</strong>viduato misurando per ciascuna delle numerose variabili ambientali il<br />

campo <strong>di</strong> esistenza o intervallo <strong>di</strong> tolleranza, cioe’ l’ambito in cui la specie e’ in grado <strong>di</strong> vivere e<br />

riprodursi. Poiche’ le n variabili, che determinano l’esistenza della specie, costituiscono le<br />

<strong>di</strong>mensioni dell’iperspazio in cui la specie e’ collocata, in esso l’ipervolume <strong>di</strong> nicchia assume una<br />

forma <strong>di</strong>pendente dai campi <strong>di</strong> esistenza <strong>di</strong> ciascuna variabile. In uno spazio ad una <strong>di</strong>mensione la<br />

nicchia <strong>di</strong> una specie e’ data semplicemente dall’intervallo <strong>di</strong> tolleranza <strong>di</strong> una singola variabile, in<br />

uno spazio a due <strong>di</strong>mensioni, poste convenzionalmente perpen<strong>di</strong>colari tra loro, la nicchia e’<br />

formata dalla superficie rettangolare delimitata dagli intervalli <strong>di</strong> tolleranza delle due variabili (Fig.<br />

9.1) e in uno spazio tri<strong>di</strong>mensionale la nicchia e’ data dal volume che ha per lati gli intervalli <strong>di</strong><br />

tolleranza delle tre variabili (Fig. 9.2).<br />

Fig. 9.1 Nicchia ecologica <strong>di</strong> una specie<br />

d’insetto nelle due <strong>di</strong>mensioni <strong>di</strong> temperatura<br />

e umi<strong>di</strong>tà.<br />

Fig. 9.2 Nicchia ecologica <strong>di</strong> una specie <strong>di</strong><br />

insetto nelle tre <strong>di</strong>mensioni <strong>di</strong> temperatura,<br />

umi<strong>di</strong>tà e ph.<br />

⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯<br />

21 Secondo questo principio due specie aventi la stessa nicchia ecologica e site nello stesso territorio<br />

entrano in competizione fino a quando questa non si risolve a favore <strong>di</strong> una delle due specie.<br />

9-127


Con lo stesso ragionamento si arriva a concepire la nicchia come ipervolume considerando<br />

tutte le numerose <strong>di</strong>mensioni dello spazio delle risorse.<br />

Gli esempi <strong>di</strong> Fig. 9.1 e Fig. 9.2 in<strong>di</strong>cano le nicchie bi<strong>di</strong>mensionali e tri<strong>di</strong>mensionali <strong>di</strong> un<br />

insetto che e’ in grado <strong>di</strong> vivere nell’intervallo <strong>di</strong> temperatura compreso tra 5°C e 30°C, in<br />

con<strong>di</strong>zioni <strong>di</strong> umi<strong>di</strong>ta’ tra il 25% e il 75% e che sopporta con<strong>di</strong>zioni <strong>di</strong> ph del substrato da 5.5 a<br />

7.2.<br />

L’ipervolume <strong>di</strong> Hutchinson costituisce la nicchia fondamentale o potenziale cioe’, come<br />

<strong>di</strong>ce Odum, “ il massimo <strong>di</strong> iperspazio teoricamente abitato” da una specie quando non e’ in<br />

competizione con altre specie. Se le nicchie fondamentali <strong>di</strong> due specie si sovrappongono (Fig. 9.3<br />

a), le due specie sono in competizione. E’ importante fare rilevare che la sovrapposizione (overlap)<br />

delle nicchie potenziali si verifica solo se questa e’ presente lungo tutte le <strong>di</strong>mensioni; infatti, e’<br />

sufficiente che in una sola <strong>di</strong>mensione non ci sia sovrapposizione per separare nello spazio<br />

multi<strong>di</strong>mensionale gli ipervolumi come e’ mostrato in Fig. 9.3 c.<br />

risorsa 2<br />

A<br />

d<br />

B<br />

risorsa 2<br />

A<br />

d=0<br />

B<br />

a)<br />

risorsa 1<br />

b)<br />

risorsa 1<br />

B<br />

risorsa 2<br />

A<br />

d<br />

B<br />

risorsa 2<br />

A<br />

d<br />

c)<br />

risorsa 1<br />

d)<br />

risorsa 1<br />

Fig. 9.3 Posizione <strong>di</strong> due ipotetiche nicchie ecologiche <strong>di</strong> specie o comunita’ (A e B) in uno spazio <strong>di</strong><br />

risorse a due <strong>di</strong>mensioni. a) La sovrapposizione delle due nicchie nel piano e’ determinato dalla<br />

sovrapposizione delle due nicchie lungo gli assi <strong>di</strong> entrambe le risorse; b) le due nicchie sono contigue<br />

lungo l’asse della seconda risorsa; c) le nicchie A e B sono separate sull’asse della prima risorsa; d) la<br />

separazione delle nicchie e’ per entrambe le risorse. d rappresenta la <strong>di</strong>stanza che puo’ essere<br />

calcolata come in<strong>di</strong>ce <strong>di</strong> sovrapposizione e <strong>di</strong> interposizione tra ipervolumi <strong>di</strong> nicchie (in<strong>di</strong>ce <strong>di</strong> overlap).<br />

9-128


Cio’ significa, per esempio, che due specie che vivono nello stesso luogo e che si nutrono <strong>di</strong><br />

cibo con uguali caratteristiche non competono tra loro se sono in grado <strong>di</strong> procurarselo cercandolo<br />

in posti <strong>di</strong>versi.<br />

In con<strong>di</strong>zioni <strong>di</strong> coesistenza le specie <strong>di</strong>fficilmente abitano la nicchia fondamentale ma<br />

piuttosto la nicchia effettiva o reale, cioe’ l’ipervolume delimitato dagli intervalli <strong>di</strong> tolleranza <strong>di</strong><br />

ciascuna variabile misurati sul luogo in cui vive. La nicchia effettiva <strong>di</strong> una specie e’ piu’ piccola <strong>di</strong><br />

quella fondamentale e si restringe rispetto a questa in maniera proporzionale alla costrizione a cui<br />

la specie e’ sottoposta a causa della competizione che la limita nell’utilizzo delle risorse.<br />

Il concetto <strong>di</strong> nicchia come ipervolume puo’ essere facilmente esteso ad una intera comunita’<br />

se si considerano per ciascuna risorsa i campi <strong>di</strong> esistenza della comunita’.<br />

La nicchia concepita come ipervolume e’ utile perche’ ne permette la valutazione quantitativa<br />

prestandosi al calcolo matematico.<br />

In accordo al modello <strong>di</strong> Hutchinson, l’ipervolume (IV) <strong>di</strong> nicchia delle specie o delle<br />

comunita’ puo’ essere facilmente calcolato con il prodotto (Π) <strong>degli</strong> intervalli <strong>di</strong> tolleranza per<br />

ciascuna i-esima risorsa ambientale considerata.<br />

IV<br />

( x − max<br />

xmin<br />

) i<br />

= ∏ i<br />

(9.1)<br />

Questo calcolo presuppone che le variabili ambientali siano tutte in<strong>di</strong>pendenti tra loro.<br />

Poiche’ solitamente questo non accade, prima della sua esecuzione sarebbe opportuno calcolare e<br />

utilizzare le componenti principali o rendere in<strong>di</strong>pendenti le variabili con un metodo <strong>di</strong><br />

ortogonalizzazione.<br />

Un altro presupposto per l’applicazione dell’equazione e’ che tutte le variabili siano<br />

omogenee; per questo solitamente e’ necessario standar<strong>di</strong>zzare le variabili secondo una delle<br />

formule descritte nel capitolo 5.<br />

Se un fattore ambientale ha valori costanti per una specie (o comunita’) non deve essere<br />

considerato nel calcolo dell’ipervolume per evitare che il prodotto della formula (9.1) si azzeri. Se si<br />

e’ interessati ad un confronto <strong>di</strong> piu’ nicchie, questo stesso fattore deve essere escluso anche nel<br />

calcolo dell’ipervolume delle altre specie (o comunita’) perche’ ipervolumi generati in spazi a<br />

<strong>di</strong>fferenti <strong>di</strong>mensioni non sono comparabili; infatti e’ intuibile per tutti che, per esempio, non e’<br />

possibile confrontare il valore <strong>di</strong> una superficie con il valore <strong>di</strong> un volume.<br />

La sovrapposizione <strong>di</strong> due nicchie A e B puo’ essere calcolata come l’intersezione dei loro<br />

ipervolumi secondo la seguente formula (9.2) che tiene conto dei valori minimi (xmin) e massimi<br />

(xmax) <strong>degli</strong> intervalli <strong>di</strong> tolleranza <strong>di</strong> ciascuna i-esima risorsa:<br />

9-129


IV<br />

[ min( x max , x max ) − max( x min , x min )]<br />

= ∏<br />

(9.2)<br />

( A,<br />

B)<br />

i<br />

iA iB<br />

iA iB<br />

La misura dell’ipervolume <strong>di</strong> overlap puo’ essere relativizzata rapportandola a quella <strong>degli</strong><br />

ipervolumi delle due nicchie (IV A e IV B ) utilizzando una delle seguenti due formule:<br />

IV(<br />

A,<br />

B)<br />

IVr<br />

=<br />

( A,<br />

B)<br />

(9.3)<br />

IV IV<br />

A<br />

B<br />

IV<br />

r(<br />

A,<br />

B)<br />

=<br />

IV<br />

( A,<br />

B)<br />

IV<br />

A<br />

IV(<br />

+<br />

IV<br />

2<br />

A,<br />

B)<br />

B<br />

(9.4)<br />

Questi in<strong>di</strong>ci relativi <strong>di</strong> overlap variano tra 0 e 1; l’unita’ in<strong>di</strong>ca completa sovrapposizione<br />

delle due nicchie a confronto e lo zero rappresenta sia contiguita’ (Fig. 9.3b) sia separazione su una<br />

o piu’ <strong>di</strong>mensioni (Fig. 9.3c,d). L’in<strong>di</strong>ce inteso come intersezione <strong>di</strong> ipervolumi <strong>di</strong> nicchie non<br />

<strong>di</strong>stingue quin<strong>di</strong> le situazioni <strong>di</strong> contiguita’ da quelle <strong>di</strong> separazione; queste ultime sono in<strong>di</strong>viduate<br />

indagando anche sull’ipervolume che si interpone tra le due nicchie. Per questo la sovrapposizione<br />

e la separazione tra le nicchie puo’ essere valutata anche in termini <strong>di</strong> <strong>di</strong>stanza [eq. (9.5)]<br />

rispettivamente all’interno dell’ipervolume <strong>di</strong> intersezione e tra i due ipervolumi a confronto (ve<strong>di</strong><br />

Fig. 9.3). Piu’ precisamente la <strong>di</strong>stanza che misura la sovrapposizione e’ la <strong>di</strong>agonale<br />

dell’ipervolume <strong>di</strong> overlap (Fig. 9.3a), mentre la <strong>di</strong>stanza che misura la separazione e’ la <strong>di</strong>agonale<br />

dell’ipervolume minimo interposto tra le due nicchie (Fig. 9.3d). In quest’ultimo caso gli ipervolumi<br />

sono calcolati solo sugli assi in cui non c’e’ overlap (Fig. 9.3c). Ne consegue che la <strong>di</strong>stanza tra due<br />

nicchie aventi, per esempio, <strong>di</strong>eci <strong>di</strong>mensioni potrebbe essere calcolata solo su <strong>di</strong> un asse se le<br />

nicchie non si sovrappongono solo per quell’asse.<br />

d<br />

[ min( x max , x max ) − max( x min , x min ] 2<br />

( A,<br />

B)<br />

∑i<br />

iA iB<br />

iA iB<br />

)<br />

= (9.5)<br />

Anche le misure delle <strong>di</strong>stanze (d (A,B) ), cioe’ delle <strong>di</strong>agonali <strong>degli</strong> ipervolumi sovrapposti ed<br />

interposti possono essere relativizzate rapportandole alle <strong>di</strong>agonali <strong>degli</strong> ipervolumi delle due<br />

nicchie(d A e d B ) secondo le formule:<br />

d(<br />

A,<br />

B)<br />

dr( A,<br />

B)<br />

= (9.6)<br />

d d<br />

A<br />

B<br />

9-130


d<br />

r(<br />

A,<br />

B)<br />

=<br />

d<br />

( A,<br />

B)<br />

d<br />

A<br />

d(<br />

+<br />

d<br />

2<br />

A,<br />

B)<br />

B<br />

(9.7)<br />

La <strong>di</strong>stanza uguale a zero in<strong>di</strong>ca contiguita’ in una o piu’ <strong>di</strong>mensioni, cioe’ nicchie che non si<br />

sovrappongono ne’ si separano. Per <strong>di</strong>stinguere le misure <strong>di</strong> sovrapposizione da quelle <strong>di</strong><br />

separazione si pongono come negative le <strong>di</strong>stanze <strong>di</strong> sovrapposizione e come positive quelle<br />

d’interposizione. Se si e’ interessati ad ottenere un’unica misura sempre positiva, si trasformano<br />

tutti i valori negativi <strong>di</strong> overlap e positivi <strong>di</strong> separazione sottraendo a ciascun valore il valore<br />

minimo oppure utilizzando la formula (5.6) per avere valori sempre compresi tra 0 e 1.<br />

9.1.1 Esempio <strong>di</strong> calcolo<br />

Vogliamo trovare gli ipervolumi delle nicchie <strong>di</strong> cinque comunita’ vegetazionali boschive in<br />

uno spazio determinato da quattro variabili ambientali misurate con gli in<strong>di</strong>ci ecologici <strong>di</strong> Landolt 22<br />

e quantificare le loro sovrapposizioni o separazioni. Per ciascuna comunita’ sono trovati i valori<br />

minimo e massimo (Tab. 9.1) <strong>di</strong> ciascun in<strong>di</strong>ce, cioe’ i limiti estremi dei campi <strong>di</strong> tolleranza in cui la<br />

comunita’ vive. Poiche’ le variabili sono omogenee, cioe’ tutte con la stessa unita’ <strong>di</strong> misura, non e’<br />

necessario standar<strong>di</strong>zzare i dati prima <strong>di</strong> procedere al calcolo <strong>degli</strong> ipervolumi.<br />

Tab. 9.1 Valori minimi e massimi dei campi <strong>di</strong> esistenza <strong>di</strong> cinque tipi <strong>di</strong> vegetazione boschiva relativi a quattro<br />

in<strong>di</strong>ci ecologici del Landolt. U=umi<strong>di</strong>tà, L=luce, T=temperatura, C=continentalita’.<br />

maniera:<br />

Valori minimi<br />

Valori massimi<br />

1 2 3 4 5 1 2 3 4 5<br />

U 1.76 1.96 2.34 2.65 2.03 2.07 2.45 2.69 2.92 2.40<br />

L 2.98 2.82 2.65 2.35 2.86 3.16 3.05 2.83 2.72 3.17<br />

T 4.02 3.77 3.73 3.50 3.58 4.71 4.29 3.87 3.80 3.71<br />

C 2.60 2.83 2.65 2.60 3.09 3.25 2.95 3.04 2.94 3.24<br />

L’ipervolume della prima comunita’ si ottiene applicando l’equazione (9.1) nella seguente<br />

IV<br />

1<br />

= (2.07 −1.76)<br />

× (3.16 − 2.98) × (4.71−<br />

4.02) × (3.25 − 2.60) = 0.02503<br />

La <strong>di</strong>agonale dell’ipervolume appena trovato e’ ottenuta applicando l’equazione (9.5):<br />

⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯<br />

22 Gli in<strong>di</strong>ci ecologici sono dei numeri or<strong>di</strong>nali variabili da 1 a 5 attribuiti da Landolt al campo <strong>di</strong><br />

esistenza <strong>di</strong> ogni specie rispetto a 8 fattori ecologici: umi<strong>di</strong>ta’, ph, nutrienti, humus, <strong>di</strong>spersione del terreno,<br />

luce, temperatura e continentalita’. Per riassumere la con<strong>di</strong>zione ecologica <strong>di</strong> una comunita’ si e’ soliti trovare<br />

gli in<strong>di</strong>ci ecologici per la comunita’ calcolandone la me<strong>di</strong>a tra tutte le specie.<br />

9-131


2<br />

2<br />

2<br />

2<br />

d<br />

1<br />

= (2.07 −1.76)<br />

+ (3.16 − 2.98) + (4.71−<br />

4.02) + (3.25 − 2.60) = 1.01346<br />

In Tab. 9.2 sono riportati i valori <strong>degli</strong> ipervolumi delle cinque comunita’ boschive or<strong>di</strong>nati in<br />

senso crescente e le loro <strong>di</strong>agonali.<br />

Applicando l’equazione (9.2) tra le comunita’ 1 e 2 e, aggiustando il risultato con l’equazione<br />

(9.4), troviamo il loro ipervolume d’intersezione e la sua misura relativizzata:<br />

IV<br />

( 1,2)<br />

= (2.07 −1.96)<br />

× (3.05 − 2.98) × (4.29 − 4.02) × (2.95 − 2.83) = 0.0002495<br />

IV<br />

r<br />

0.0002495<br />

+<br />

0.02502<br />

2<br />

0.0002495<br />

0.00703<br />

( 1,2)<br />

=<br />

=<br />

0.02273<br />

Procedendo con il calcolo delle sovrapposizioni tra tutte le comunita’ otteniamo i risultati<br />

riportati nella matrice simmetrica <strong>di</strong> Tab. 9.3 dove i valori uguali a zero in<strong>di</strong>cano contiguita’ o<br />

<strong>di</strong>stanza tra le nicchie a confronto. I valori delle unita’ sulla <strong>di</strong>agonale della matrice corrispondono<br />

alla massima sovrapposizione <strong>di</strong> ciascuna nicchia con se’ stessa. Dalla lettura <strong>di</strong> questa matrice<br />

osserviamo che le sovrapposizioni tra le nicchie delle cinque comunita’ sono soltanto tre, tra la<br />

prima e la seconda, tra la seconda e la terza e tra la terza e la quarta e l’overlap maggiore e’ tra la<br />

prima e la seconda.<br />

Tab. 9.2 Valori <strong>degli</strong> ipervolumi<br />

or<strong>di</strong>nati in senso crescente e delle<br />

<strong>di</strong>agonali delle nicchie delle 5<br />

comunita’ boschive.<br />

Tab. 9.3 Matrice delle misure relative <strong>di</strong> overlap [eq.<br />

(9.4)] <strong>degli</strong> ipervolumi delle 5 comunita’ boschive.<br />

Ipervolumi Diagonali 1 2 3 4 5<br />

5 0.00224 0.52192 1 1 0.0227 0 0 0<br />

3 0.00344 0.57149 2 0.0227 1 0.00286 0 0<br />

2 0.00703 0.76013 3 0 0.00286 1 0.0111 0<br />

4 0.01019 0.64452 4 0 0 0.0111 1 0<br />

1 0.02502 1.01346 5 0 0 0 0 1<br />

Per quantificare la <strong>di</strong>stanza tra le nicchie non sovrapposte utilizziamo ora l’equazione (9.5)<br />

per misurare anche le <strong>di</strong>agonali <strong>degli</strong> ipervolumi interposti tra nicchie separate e ren<strong>di</strong>amo relative<br />

tali misure applicando <strong>di</strong> seguito la formula (9.7). Eseguiamo il calcolo per conoscere la <strong>di</strong>stanza tra<br />

le nicchie delle comunita’ 1 e 4.<br />

2<br />

2<br />

2<br />

2<br />

d<br />

( 1,4)<br />

= (2.07 − 2.65) + (2.72 − 2.98) + (3.80 − 4.02) + (2.94 − 2.60) = 0.6726<br />

9-132


d<br />

r<br />

0.6726<br />

1.01346<br />

2<br />

0.6726<br />

0.64452<br />

( 1,4)<br />

=<br />

=<br />

+<br />

0.85362<br />

Le <strong>di</strong>stanze calcolate tra le nicchie delle cinque comunita’ sono riportate in Tab. 9.4.<br />

Tab. 9.4 Matrice delle misure relative <strong>di</strong> <strong>di</strong>stanza <strong>di</strong> intersezione e <strong>di</strong><br />

separazione [eq.(9.7] tra gli ipervolumi delle 5 comunita’ boschive.<br />

1 2 3 4 5<br />

1 -1 -.372 .470 .854 .450<br />

2 -.372 -1 -.293 .321 .246<br />

3 .470 -.293 -1 -.510 .113<br />

4 .854 .321 -.510 -1 .561<br />

5 .450 .246 .113 .561 -1<br />

Per <strong>di</strong>stinguere facilmente i valori d’intersezione da quelli <strong>di</strong> <strong>di</strong>stanza, sono stati cambiati i<br />

segni dei primi. Anche i valori sulla <strong>di</strong>agonale della matrice in<strong>di</strong>canti la massima sovrapposizione<br />

sono pertanto <strong>di</strong>ventati negativi. Dalla lettura della matrice si puo’ dedurre che non c’e’ nessun<br />

caso <strong>di</strong> a<strong>di</strong>acenza <strong>di</strong> nicchie in quanto non vi si trova nessun valore uguale a zero.<br />

Per elaborare ulteriormente questa matrice con qualche algoritmo <strong>di</strong> classificazione od<br />

or<strong>di</strong>namento puo’ essere opportuno trasformare i valori della matrice per renderli tutti positivi per<br />

esempio con l’algoritmo (5.6).<br />

9.2 OVERLAP DI NICCHIA E COMPETIZIONE<br />

Dopo l’enunciazione del principio <strong>di</strong> esclusione competitiva, gli ecologi hanno a lungo cercato<br />

<strong>di</strong> capire come le specie coesistenti utilizzassero le risorse in comune come il cibo e lo spazio. Le<br />

relazioni attuali tra overlap <strong>di</strong> nicchia e competizione non sono ancora chiare. Si puo’ ritenere che<br />

le specie che hanno simili <strong>di</strong>stribuzioni nell’uso delle risorse abbiano un grado <strong>di</strong> overlap maggiore<br />

rispetto a quelle che hanno <strong>di</strong>stribuzioni <strong>di</strong>fferenti. Pertanto un’altra maniera per indagare l’overlap<br />

<strong>di</strong> nicchia tra due specie e’ quella <strong>di</strong> confrontare le specie sulla base <strong>degli</strong> stati <strong>di</strong> risorsa che<br />

utilizzano. Se la competizione nasce dall’utilizzazione comune delle risorse, e’ importante<br />

considerare la <strong>di</strong>sponibilita’ delle risorse per capire meglio le relazioni tra nicchie, overlap e<br />

competizione. Tra i numerosi in<strong>di</strong>ci <strong>di</strong> overlap e competizione proposti, ce ne sono alcuni che<br />

incorporano nella loro formula anche la <strong>di</strong>sponibilita’ <strong>degli</strong> stati delle risorse. In Tab. 9.5 e’<br />

presentata una tabella specie-risorse in notazione simbolica. La misura n ij <strong>di</strong> uso della risorsa puo’<br />

essere <strong>di</strong>retta se esprime proprio la quantita’ della i-esima risorsa utilizzata dalla j-esima specie o<br />

in<strong>di</strong>retta se in<strong>di</strong>ca la biomassa, il numero <strong>di</strong> in<strong>di</strong>vidui o una misura qualsiasi <strong>di</strong> abbondanza della j-<br />

9-133


esima specie che fa uso della i-esima risorsa. Il totale <strong>di</strong> colonna N j esprime nel primo caso il totale<br />

delle risorse utilizzate da una singola specie e nel secondo caso la popolazione totale della specie. I<br />

totali <strong>di</strong> riga t i esprimono nel primo caso la quantita’ totale <strong>di</strong> una particolare risorsa utilizzata dalle<br />

specie considerate e nel secondo caso l’abbondanza <strong>di</strong> specie che hanno utilizzato quella risorsa.<br />

La <strong>di</strong>sponibilita’ delle risorse e’ in<strong>di</strong>cata col simbolo a i .<br />

Se nei campionamenti non e’ possibile ottenere i dati della <strong>di</strong>sponibilita’ delle risorse, si<br />

assume che le risorse siano tutte equamente <strong>di</strong>sponibili; in questo caso e’ del tutto in<strong>di</strong>fferente<br />

applicare in<strong>di</strong>ci che considerano o non considerano l’abbondanza delle risorse. Queste sono intese<br />

in senso molto ampio e possono essere variamente espresse come, per esempio, la quantita’ delle<br />

risorse <strong>di</strong> cibo, un insieme <strong>di</strong> prede <strong>di</strong>sponibili o anche un insieme <strong>di</strong> unita’ <strong>di</strong> campionamento.<br />

Tab. 9.5 Notazione simbolica <strong>di</strong> una matrice specie-risorse in cui s specie sono descritte<br />

dai valori <strong>di</strong> utilizzazione (n ij) <strong>di</strong> r risorse; t i rappresenta il totale <strong>di</strong> risorsa utilizzata; puo’<br />

essere nota anche l’abbondanza (a i) <strong>di</strong> ciascuno stato <strong>di</strong> risorsa. N j rappresenta il totale<br />

delle risorse utilizzate da una singola specie, T il totale <strong>di</strong> risorse utilizzate da tutte le<br />

specie e A il totale delle abbondanze <strong>di</strong> tutte le risorse.<br />

Stato <strong>di</strong><br />

risorsa<br />

Specie<br />

1 2 … s Totale<br />

Abbondanza dello<br />

stato <strong>di</strong> risorsa<br />

1 n 11 n 12 … n 1s t 1 a 1<br />

2 n 21 n 22 … n 2s t 2 a 2<br />

… … … n ij … t i a i<br />

r n 1r n 2r … n rs t r a r<br />

Totali N 1 N 2 N j N s T A<br />

Tra gli in<strong>di</strong>ci <strong>di</strong> overlap <strong>di</strong> nicchie <strong>di</strong> specie che considerano la <strong>di</strong>sponibilita’ delle risorse<br />

ricor<strong>di</strong>amo quello <strong>di</strong> Hurlbert, il cui valore tra due specie j e k e dato da:<br />

L<br />

jk<br />

=<br />

A<br />

N N<br />

j<br />

K<br />

r<br />

∑<br />

i=<br />

1<br />

n<br />

ij<br />

a<br />

n<br />

i<br />

ik<br />

(9.8)<br />

seguente:<br />

Se tutti gli stati <strong>di</strong> risorsa sono equamente abbondanti, l’equazione (9.8) si semplifica nella<br />

r<br />

nij<br />

nik<br />

L' jk<br />

= r∑<br />

(9.9)<br />

N N<br />

i=<br />

1<br />

j<br />

k<br />

dove i prodotti delle abbondanze relative sono sommati per ciascuna risorsa e il risultato e’<br />

moltiplicato per il numero <strong>degli</strong> stati <strong>di</strong> risorsa.<br />

9-134


Con questo in<strong>di</strong>ce Hurlbert formalizza la sua definizione <strong>di</strong> overlap <strong>di</strong> nicchia inteso come ” il<br />

grado a cui la frequenza <strong>di</strong> incontro interspecifico e’ piu’ alto o piu’ basso <strong>di</strong> quello che ci sarebbe<br />

se ciascuna specie utilizzasse ciascuno stato <strong>di</strong> risorsa in proporzione alla sua abbondanza (a i )”.<br />

Se le due specie non con<strong>di</strong>vidono nessuno stato <strong>di</strong> risorsa, l’in<strong>di</strong>ce L assume valore zero; se<br />

entrambe utilizzano ciascuna risorsa in proporzione alla loro abbondanza (a i ), l’in<strong>di</strong>ce assume<br />

valore 1 e, se l’utilizzo <strong>degli</strong> stati <strong>di</strong> risorsa e’ in una qualche maniera preferenziale per ciascuna<br />

specie, il valore dell’in<strong>di</strong>ce <strong>di</strong>venta piu’ grande <strong>di</strong> 1.<br />

Tra gli in<strong>di</strong>ci che valutano la competizione tra le specie ricor<strong>di</strong>amo il coefficiente <strong>di</strong><br />

competizione che e’ un in<strong>di</strong>ce asimmetrico: cio’ significa che la competizione (S j(k) ) della specie j<br />

nei confronti della specie k e’ valutata <strong>di</strong>versamente da quella (S k(j) ) della specie k nei confronti<br />

della specie j e, solitamente, i due risultati sono <strong>di</strong>versi. Esso e’ dato da:<br />

S<br />

j(<br />

k )<br />

=<br />

r<br />

∑<br />

i=<br />

1<br />

r<br />

∑<br />

i=<br />

1<br />

n n<br />

ij<br />

a<br />

n<br />

i<br />

2<br />

ij<br />

a<br />

i<br />

ik<br />

r<br />

∑<br />

i=<br />

1<br />

n n<br />

ij<br />

i<br />

ik<br />

i=<br />

1 ai<br />

Sk<br />

( j)<br />

=<br />

r 2<br />

(9.10)<br />

nik<br />

∑<br />

a<br />

In assenza <strong>di</strong> <strong>di</strong>sponibilita’ delle risorse e quando i dati esprimono abbondanze relative<br />

(N j =1), il coefficiente (9.10) si riduce all’in<strong>di</strong>ce <strong>di</strong> Levins:<br />

S<br />

j(<br />

k )<br />

=<br />

r<br />

∑<br />

i=<br />

1<br />

r<br />

∑<br />

i=<br />

1<br />

n n<br />

N<br />

ij<br />

j<br />

⎛ n<br />

⎜<br />

⎝ N<br />

ij<br />

j<br />

ik<br />

N<br />

k<br />

2<br />

⎞<br />

⎟<br />

⎠<br />

r<br />

∑<br />

n n<br />

ij<br />

ik<br />

i=<br />

1 N<br />

jN<br />

k<br />

Sk<br />

( j)<br />

=<br />

2<br />

(9.11)<br />

r<br />

⎛ n ⎞<br />

ik<br />

∑<br />

⎜<br />

⎟<br />

i=<br />

1 ⎝ N<br />

k ⎠<br />

9.2.1 Esempio <strong>di</strong> calcolo<br />

Supponiamo <strong>di</strong> considerare la presenza del gabbiano comune e del gabbiano reale in tre<br />

laghetti <strong>di</strong> zone lagunari. I tre laghetti costituiscono gli stati <strong>di</strong> risorsa e le loro superfici, espresse<br />

in chilometri quadrati, esprimono la <strong>di</strong>sponibilita’ <strong>di</strong> ciascuno stato. I valori nella tabella (Tab. 9.6)<br />

esprimono in maniera in<strong>di</strong>retta l’utilizzo delle risorse da parte <strong>di</strong> ciascun gabbiano in quanto<br />

rappresentano il numero <strong>di</strong> in<strong>di</strong>vidui che frequentano i laghi e non la quantita’ <strong>di</strong> risorsa utilizzata<br />

da ciascuno.<br />

Osservando i valori nella tabella, a prima vista potremmo ritenere che il gabbiano comune<br />

non abbia alcuna preferenza per i laghi, perche’ si <strong>di</strong>stribuisce equamente in essi a <strong>di</strong>fferenza del<br />

9-135


gabbiano reale che pre<strong>di</strong>lige vistosamente il primo lago essendo la sua popolazione piu’ numerosa<br />

in esso. Se, pero’, vengono considerate anche le abbondanze relative <strong>degli</strong> stati delle risorse<br />

possiamo cambiare la nostra interpretazione e <strong>di</strong>re che il gabbiano comune pre<strong>di</strong>lige il secondo<br />

lago perche’ lo abita con la stessa numerosita’ <strong>di</strong> popolazione riscontrata negli altri laghi pur<br />

essendo meno esteso in superficie.<br />

Osservando la parte destra della tabella possiamo confrontare i valori <strong>di</strong> abbondanza relativa<br />

<strong>di</strong> ciascun gabbiano con i valori <strong>di</strong> abbondanza relativa <strong>degli</strong> stati <strong>di</strong> risorsa (le superfici dei laghi),<br />

e renderci conto che entrambi i gabbiani non utilizzano gli stati <strong>di</strong> risorsa in proporzione alla loro<br />

<strong>di</strong>sponibilità. In particolare notiamo che lo stato <strong>di</strong> risorsa del secondo lago, il piu’ piccolo <strong>di</strong><br />

superficie, e’ quello piu’ utilizzato soprattutto dal gabbiano comune che lo preferisce rispetto agli<br />

altri due.<br />

Poiche’ tutti gli stati <strong>di</strong> risorsa sono utilizzati da entrambe le specie in maniera non<br />

proporzionale alla loro <strong>di</strong>sponibilita’, ci aspettiamo un valore <strong>di</strong> in<strong>di</strong>ce <strong>di</strong> overlap <strong>di</strong> Hurlbert<br />

superiore all’unita’.<br />

Tab. 9.6 Abbondanze <strong>di</strong> specie <strong>di</strong> gabbiani in tre laghi <strong>di</strong> zona lagunare. La <strong>di</strong>sponibilita’ delle risorse<br />

e’ data dalla superificie dei laghi.<br />

Abbondanze<br />

Abbondanze relative<br />

Gabbiano<br />

comune<br />

Gabbiano<br />

reale<br />

Area lago<br />

(km 2 )<br />

Gabbiano<br />

comune<br />

Gabbiano<br />

reale<br />

Area lago<br />

Lago 1 85 200 1.0 0.34 0.57 0.29<br />

Lago 2 80 80 0.5 0.32 0.23 0.14<br />

Lago 3 85 70 2.0 0.34 0.20 0.57<br />

Totali 250 350 3.5 1 1 1<br />

Applicando l’in<strong>di</strong>ce <strong>di</strong> overlap <strong>di</strong> Hurlbert [eq. (9.8)] tra i due gabbiani otteniamo infatti:<br />

3.5 ⎛ 85×<br />

200 80×<br />

80 85×<br />

70 ⎞<br />

L = × ⎜ + + ⎟ =<br />

250×<br />

350 ⎝ 1 0.5 2 ⎠<br />

3.5<br />

87500<br />

×<br />

( 17000 + 12800 + 2975) = 1. 311<br />

Troviamo ora i due coefficienti <strong>di</strong> competizione del gabbiano comune (gc) nei confronti del<br />

gabbiano reale (gr) e del gabbiano reale nei confronti del gabbiano comune applicando le due<br />

equazioni in (9.10):<br />

9-136


S<br />

85×<br />

200 80×<br />

80 85×<br />

70<br />

+ +<br />

= 1 0.5 2<br />

2 2 2<br />

85 80 85<br />

+ +<br />

1 0.5 2<br />

17000 + 12800 + 2975 32775<br />

=<br />

=<br />

7225 + 12800 + 3612.5 23637.5<br />

gc( gr)<br />

=<br />

1.387<br />

S<br />

gr<br />

85×<br />

200 80×<br />

80 85×<br />

70<br />

+ +<br />

= 1 0.5 2<br />

2 2 2<br />

200 80 70<br />

+ +<br />

1 0.5 2<br />

17000 + 12800 + 2975 32775<br />

=<br />

=<br />

40000 + 12800 + 2450 55250<br />

( gc)<br />

=<br />

0.593<br />

Come si puo’ vedere dalla tabella e come i risultati confermano, la competizione in atto tra le<br />

due specie e’ piu’ marcata (1.387) per il gabbiano comune che con<strong>di</strong>vide lo spazio del secondo<br />

lago, da lui scelto in maniera preferenziale, con il gabbiano reale. Il gabbiano reale invece compete<br />

meno (0.593) con il gabbiano comune in quanto la sua popolazione rimane in proporzione piu’<br />

numerosa nel primo lago. Si noti che il terzo lago, che e’ il piu’ esteso, rimane il meno frequentato<br />

da entrambi i gabbiani.<br />

9-137


1 0 . L A D I V E R S I T A ' E C O L O G I C A<br />

Il tema della <strong>di</strong>versita’ ecologica, ampliamente trattato dagli stu<strong>di</strong>osi dell’ambiente negli<br />

ultimi cinquant’anni, rimane un argomento <strong>di</strong> notevole <strong>di</strong>scussione in quanto la crisi ambientale<br />

che viviamo ha fatto emergere il problema della salvaguar<strong>di</strong>a della <strong>di</strong>versita’ specifica nelle<br />

comunita’ biologiche che, sotto l’azione della deforestazione, dell’inquinamento o <strong>di</strong> altri fattori <strong>di</strong><br />

stress ambientale, subiscono una drastica riduzione del numero <strong>di</strong> specie ed un notevole<br />

cambiamento dei loro rapporti <strong>di</strong> abbondanza.<br />

Da un punto <strong>di</strong> vista applicativo le misure della <strong>di</strong>versita’ possono quin<strong>di</strong> essere utilizzate con<br />

successo quali in<strong>di</strong>catori dello stato <strong>di</strong> salute delle comunita’ ecologiche e, nell’ambito della<br />

conservazione ambientale, si mostrano utili per controllare e prevenire la per<strong>di</strong>ta del prezioso<br />

patrimonio genetico delle specie rare e in via <strong>di</strong> estinzione sia in ambiente marino che terrestre.<br />

La <strong>di</strong>versita’ specifica non e’ la sola manifestazione della <strong>di</strong>versita’ ecologica; nel concetto <strong>di</strong><br />

nicchia ecologica e’ insita la <strong>di</strong>versita’ delle risorse che una specie utilizza; la complessita’<br />

strutturale dell’ambiente e il numero delle comunita’ presenti in una definita area geografica<br />

determinano la <strong>di</strong>versita’ <strong>di</strong> habitat che, a sua volta, influenza la <strong>di</strong>versita’ specifica; questa stessa<br />

<strong>di</strong>versita’ puo’ essere riscontrata lungo gra<strong>di</strong>enti non solo spaziali ma anche temporali (successioni<br />

ecologiche); la stratificazione verticale della vegetazione genera la <strong>di</strong>versita’ strutturale che si e’<br />

<strong>di</strong>mostrata assumere una certa importanza nell’incrementare la <strong>di</strong>versita’ faunistica piu’ <strong>di</strong> quanto<br />

non lo possa fare la <strong>di</strong>versita’ delle specie vegetali.<br />

I meto<strong>di</strong> per misurare tutte queste forme <strong>di</strong> <strong>di</strong>versita’ ecologica sono gli stessi adottati per la<br />

misura della <strong>di</strong>versita’ delle specie.<br />

10.1 LA DIVERSITA’ SPECIFICA<br />

Per descrivere quantitativamente una comunita' biologica si in<strong>di</strong>cano la lista delle specie<br />

animali e vegetali in essa presenti e la frequenza con cui queste specie ricorrono nella comunita'<br />

stessa o un altro valore che ne esprima l’abbondanza.<br />

Questi due aspetti <strong>di</strong> numerosita' delle specie (in<strong>di</strong>cata anche con i termini ricchezza o<br />

molteplicita' o varieta’) e <strong>di</strong> abbondanza relativa (equitabilita') sono entrambi espressioni della<br />

<strong>di</strong>versita' specifica che rappresenta un utile elemento descrittivo della comunita'. E' sulla base <strong>di</strong><br />

queste due caratteristiche che sono state <strong>di</strong>stinte comunita' povere in specie come quelle della<br />

tundra e dei deserti, dove solitamente esistono poche specie dominanti, e comunita' ricche in<br />

specie come le biocenosi delle foreste pluviali tropicali in cui non c'e' dominanza <strong>di</strong> una o poche<br />

specie.<br />

10-138


La <strong>di</strong>versita’ specifica <strong>di</strong> una comunita’ cresce all’aumentare sia del numero <strong>di</strong> specie che<br />

della loro equitabilita’: misurarla significa valutare entrambe queste componenti.<br />

I numerosi in<strong>di</strong>ci proposti possono essere sud<strong>di</strong>visi in tre categorie la prima delle quali<br />

comprende gli in<strong>di</strong>ci <strong>di</strong> ricchezza che misurano essenzialmente il numero <strong>di</strong> specie in una precisa<br />

unita’ <strong>di</strong> campionamento, la seconda gli in<strong>di</strong>ci <strong>di</strong> equitabilita’ che valutano l’equi<strong>di</strong>stribuzione dei<br />

valori <strong>di</strong> abbondanza delle specie e la terza gli in<strong>di</strong>ci <strong>di</strong> <strong>di</strong>versita’ veri e propri che combinano in<br />

un’unica misura entrambe le sue componenti. Una corretta valutazione della <strong>di</strong>versita’ puo’ essere<br />

fatta solo dopo aver calcolato almeno un in<strong>di</strong>ce appartenente a tutte tre le categorie. Infatti, la<br />

valutazione dell’in<strong>di</strong>ce <strong>di</strong> <strong>di</strong>versita’ nella sua globalita’ non permette <strong>di</strong> capire quanto le due<br />

componenti <strong>di</strong> ricchezza e <strong>di</strong> equitabilita’ incidono sul valore della misura in<strong>di</strong>fferenziata; d’altra<br />

parte i soli in<strong>di</strong>ci <strong>di</strong> ricchezza o <strong>di</strong> equitabilita’, essendo incompleti rispetto alla <strong>di</strong>versita’, la<br />

descrivono solo parzialmente.<br />

10.1.1 In<strong>di</strong>ci <strong>di</strong> ricchezza<br />

Il numero <strong>di</strong> specie (S) vegetali e/o animali che vivono in una comunita’ costituisce l’in<strong>di</strong>ce<br />

piu’ semplice che si possa esprimere nel valutare la componente molteplicita’ della <strong>di</strong>versita’<br />

biotica. La ricchezza specifica cosi’ stimata e’, pero’, strettamente <strong>di</strong>pendente dalle <strong>di</strong>mensioni del<br />

campionamento perche’ quanto piu’ grande e’ l’area rilevata o il numero (N) <strong>di</strong> in<strong>di</strong>vidui esaminati,<br />

tanto piu’ grande e’ il numero <strong>di</strong> specie riscontrato. A questo proposito si e’ reso utile <strong>di</strong>stinguere<br />

tra ricchezza numerica <strong>di</strong> specie, intendendo con questo termine il numero <strong>di</strong> specie <strong>di</strong> una<br />

comunita’ per uno specifico ammontare <strong>di</strong> in<strong>di</strong>vidui o <strong>di</strong> abbondanza espressa altrimenti, e<br />

ricchezza areale <strong>di</strong> specie, detta anche densita’ <strong>di</strong> specie, che in<strong>di</strong>ca il numero <strong>di</strong> specie per<br />

unita’ <strong>di</strong> area rilevati. Variando il numero <strong>di</strong> in<strong>di</strong>vidui o l’area, si possono generare rispettivamente<br />

delle curve <strong>di</strong> ricchezza numerica o areale delle specie. La prima misura e’ stata particolarmente<br />

adottata in stu<strong>di</strong> <strong>di</strong> comunita’ in ambiente acquatico, mentre la seconda nelle comunita’ vegetali.<br />

Per rendere comparabili i numeri <strong>di</strong> specie per campione sono stati proposti in<strong>di</strong>ci <strong>di</strong><br />

ricchezza in<strong>di</strong>pendenti dalla <strong>di</strong>mensione del campione. Essi si basano su una relazione funzionale<br />

tra il numero <strong>di</strong> specie (S) e la grandezza del campione (N). Tra i piu’ semplici menzioniamo i<br />

seguenti rapporti:<br />

S<br />

R<br />

1<br />

=<br />

(10.1)<br />

N<br />

S<br />

R<br />

2<br />

=<br />

(10.2)<br />

N<br />

10-139


S −1<br />

R3<br />

= (10.3)<br />

ln N<br />

10.1.2 In<strong>di</strong>ci <strong>di</strong> <strong>di</strong>versita’<br />

Tra le misure <strong>di</strong> <strong>di</strong>versita' che considerano sia la ricchezza che l’equitabilita’ delle specie,<br />

quelle basate sulla teoria dell'informazione sono le piu' utilizzate. Di queste la piu’ nota e’<br />

l'entropia <strong>di</strong> Shannon:<br />

H<br />

S<br />

= −∑ p ln p<br />

(10.4)<br />

i=1<br />

i<br />

i<br />

nella cui formula S rappresenta il numero <strong>di</strong> specie e p i la proporzione <strong>di</strong> abbondanza<br />

corrispondente alla i-esima specie data dal rapporto tra la sua abbondanza e l’abbondanza totale<br />

<strong>di</strong> tutte le specie della comunita’ (n i /N). Per il carattere logaritmico della funzione, l’in<strong>di</strong>ce non<br />

assume mai valori elevati; nelle comunita’ stu<strong>di</strong>ate essi sono compresi generalmente tra 1.5 e 3.5<br />

e solo raramente sorpassano 4.5. L’in<strong>di</strong>ce varia da un valore minimo uguale a 0, quando e’<br />

presente una sola specie, ad un valore massimo che <strong>di</strong>pende dal numero <strong>di</strong> specie riscontrate e dal<br />

loro grado <strong>di</strong> equi<strong>di</strong>stribuzione.<br />

Il semplice valore <strong>di</strong> entropia cosi' calcolato combina le due componenti della <strong>di</strong>versita’ in<br />

maniera tale che non e' piu' possibile valutare il contributo dato all'in<strong>di</strong>ce da parte della sola<br />

molteplicita' o della sola equitabilita'. Pertanto anche il confronto tra due valori <strong>di</strong> entropia misurati<br />

su due comunita' <strong>di</strong>stinte puo' non essere <strong>di</strong> aiuto nel <strong>di</strong>fferenziarle strutturalmente poiche’ le due<br />

comunita' potrebbero avere due valori <strong>di</strong> entropia uguali, ma nella prima comunita' il valore<br />

potrebbe <strong>di</strong>pendere da una grande ricchezza <strong>di</strong> specie (elevato contributo all'in<strong>di</strong>ce da parte della<br />

molteplicita'), mentre nella seconda comunita’ potrebbe essere determinato da una ottimale<br />

equi<strong>di</strong>stribuzione dei valori quantitativi delle specie pur presenti in numero minore rispetto alla<br />

prima (elevato contributo all'in<strong>di</strong>ce per opera dell'equitabilita'). Un esempio <strong>di</strong> questa situazione è<br />

riportato al paragrafo 10.1.5.<br />

Da quanto sinora detto si deduce che, in una comunita' con una determinata composizione<br />

specifica, l'entropia massima e' quella che si avrebbe se tutte le specie avessero la stessa<br />

abbondanza 23 . La formula dell'in<strong>di</strong>ce <strong>di</strong> entropia massima e’ ricavabile dalla formula dell'entropia <strong>di</strong><br />

Shannon che, nel caso in cui le proporzioni delle specie sono tutte uguali, si semplifica in:<br />

⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯<br />

23 Questa e’ una situazione solo ipotetica perche’ in natura a livello biologico questo tipo <strong>di</strong> uniformita’<br />

praticamente non esiste. La massima equi<strong>di</strong>stribuzione riscontrata tra le specie e’ quella predetta da modello<br />

“broken stick” <strong>di</strong> MacArthur descritto nel paragrafo 10.4.<br />

10-140


H ln S<br />

max = (10.5)<br />

L'entropia massima e' una funzione della sola numerosita' delle specie e rappresenta un altro<br />

in<strong>di</strong>ce della componente molteplicita' della <strong>di</strong>versita' floristica.<br />

Un altro in<strong>di</strong>ce che valuta i rapporti quantitativi tra le specie e' quello <strong>di</strong> Simpson che si trova<br />

rappresentato in letteratura col simbolo λ. Esso e’ considerato un in<strong>di</strong>ce <strong>di</strong> dominanza in quanto<br />

cresce in rapporto alla prevalenza <strong>di</strong> una o poche specie. L'in<strong>di</strong>ce la cui formula e' data da:<br />

S<br />

λ = ∑ p<br />

(10.6)<br />

i=<br />

1<br />

2<br />

i<br />

varia anch'esso tra 0 ed 1, ma ha un andamento inverso rispetto agli altri in<strong>di</strong>ci <strong>di</strong> <strong>di</strong>versita’<br />

perche’ tende a 0 con l'aumentare della <strong>di</strong>versita' e <strong>di</strong>venta uguale ad 1 nel caso limite <strong>di</strong> una sola<br />

specie presente, cioe’ quando la <strong>di</strong>versita' e’ nulla. L’in<strong>di</strong>ce misura la probabilita’ che due in<strong>di</strong>vidui<br />

estratti a random da un campione appartengano alla stessa specie e assume valori variabili tra 1/S<br />

e 1. Piu’ e’ alta la probabilita’, maggiore e’ la dominanza <strong>di</strong> una o poche specie e minore e’ la<br />

<strong>di</strong>versita’ della comunita’ esaminata. L’in<strong>di</strong>ce <strong>di</strong> Simpson da’ particolare peso alle specie abbondanti<br />

mentre e’ meno sensibile alla ricchezza delle specie.<br />

Per fare si’ che l’in<strong>di</strong>ce <strong>di</strong> dominanza abbia un andamento crescente nei confronti della<br />

<strong>di</strong>versita’ e’ sufficiente calcolare il complemento ad 1 dell’in<strong>di</strong>ce, ottenendo quello che gia’ Gini<br />

aveva formulato e chiamato in<strong>di</strong>ce <strong>di</strong> mutabilita’:<br />

S<br />

2<br />

1−<br />

= 1− ∑ pi<br />

i=<br />

1<br />

Dλ = λ<br />

(10.7)<br />

formula.<br />

Per questo motivo si parla spesso dell’in<strong>di</strong>ce <strong>di</strong> Gini-Simpson riferendosi all’una o all’altra<br />

Per campioni finiti l’in<strong>di</strong>ce <strong>di</strong> Gini assume la seguente forma piu’ appropriata:<br />

' N<br />

S<br />

⎛ 2 ⎞<br />

D λ = ⎜1− ∑ pi<br />

⎟<br />

(10.8)<br />

N −1⎝<br />

i=<br />

1 ⎠<br />

che e’ stato formulato da Hurlbert sotto il nome <strong>di</strong> in<strong>di</strong>ce <strong>di</strong> probabilita’ <strong>di</strong> incontro<br />

interspecifico (PIE). Esso, in maniera inversa rispetto all’in<strong>di</strong>ce <strong>di</strong> Simpson, è interpretato come<br />

misura della probabilita’ che due in<strong>di</strong>vidui estratti a random da un campione appartengano a due<br />

10-141


specie <strong>di</strong>fferenti.<br />

10.1.3 In<strong>di</strong>ci <strong>di</strong> equitabilita’<br />

Per quantificare la sola componente <strong>di</strong> equitabilita’ sono stati stu<strong>di</strong>ati <strong>degli</strong> in<strong>di</strong>ci che<br />

misurano il grado <strong>di</strong> equi<strong>di</strong>stribuzione delle specie in<strong>di</strong>pendentemente dalla loro numerosita’.<br />

Anche la semplice statistica della deviazione standard [eq. (4.17)] e’ stata suggerita a questo<br />

scopo in quanto piu’ e’ piccola piu’ in<strong>di</strong>ca che i valori su cui e’ stata calcolata sono simili e quin<strong>di</strong><br />

ben equi<strong>di</strong>stribuiti.<br />

Allo scopo <strong>di</strong> ottenere in<strong>di</strong>ci <strong>di</strong> equitabilita’ (E) con valori compresi tra 0 ed 1, in maniera tale<br />

che l’unita’ rappresenti l’equi<strong>di</strong>stribuzione, si e’ soliti rapportare una misura qualsiasi <strong>di</strong> <strong>di</strong>versita’<br />

stimata su un campione a quella massima possibile, cioe’ a quella che lo stesso campione avrebbe<br />

se tutte le specie fossero ugualmente abbondanti. Usualmente cio’ si ottiene con le seguenti due<br />

modalita’:<br />

D<br />

E = (10.9)<br />

D max<br />

E<br />

D − D<br />

D − D<br />

min<br />

= (10.10)<br />

max<br />

min<br />

dove D rappresenta una misura <strong>di</strong> <strong>di</strong>versita’ <strong>di</strong> un campione e D min e D max i valori <strong>di</strong> <strong>di</strong>versita’<br />

minima e massima per lo stesso campione. In una comunita’ con un determinato numero <strong>di</strong> specie<br />

si ha <strong>di</strong>versita’ minima quando tutti gli in<strong>di</strong>vidui appartengono ad una sola specie tranne alcuni che<br />

appartengono ciascuno alle specie rimanenti, e <strong>di</strong>versita’ massima quando tutte le specie sono<br />

uguali nei loro valori <strong>di</strong> abbondanza.<br />

L’in<strong>di</strong>ce <strong>di</strong> equitabilita’ forse maggiormente usato dagli ecologi e’ quello che rende relativa<br />

secondo la modalita’ (10.9) l’entropia <strong>di</strong> Shannon (10.4) rapportandola all'entropia massima (10.5):<br />

H<br />

E H<br />

= (10.11)<br />

H max<br />

Questo in<strong>di</strong>ce varia tra 0 ed 1 ed assume valore 1 quando le due entropie H e H max<br />

coincidono, cioe' quando il valore <strong>di</strong> abbondanza e' uguale per tutte le specie.<br />

Si e’ stu<strong>di</strong>ato un in<strong>di</strong>ce <strong>di</strong> equitabilita’ anche per l’in<strong>di</strong>ce <strong>di</strong> Gini-Simpson utilizzando la<br />

10-142


modalita’ (10.10). Tale in<strong>di</strong>ce [eq. (10.15)] utilizza il reciproco dell’in<strong>di</strong>ce <strong>di</strong> Simpson simboleggiato<br />

con N 2 e i corrispondenti valori minimo (N 2min ) e massimo (N 2max ) tutti illustrati nelle seguenti<br />

formule:<br />

N<br />

2<br />

1 1<br />

= = λ<br />

S<br />

(10.12)<br />

∑ p<br />

i=<br />

1<br />

2<br />

i<br />

2<br />

N<br />

N<br />

2 min<br />

=<br />

2<br />

(10.13)<br />

N + ( S − 2N<br />

)( S −1)<br />

N 2max = S (10.14)<br />

N − N<br />

= (10.15)<br />

2 2 min<br />

E N 2<br />

N<br />

2 max<br />

− N<br />

2 min<br />

10.1.4 Confronti tra in<strong>di</strong>ci <strong>di</strong> <strong>di</strong>versita’<br />

Per confrontare le <strong>di</strong>versita’ <strong>di</strong> due comunita’ e valutare la significativita’ delle <strong>di</strong>fferenze <strong>di</strong><br />

valori tra in<strong>di</strong>ci <strong>di</strong> Shannon e in<strong>di</strong>ci <strong>di</strong> Gini-Simpson, sono stati proposti dei test specifici.<br />

Alla stessa maniera del test che confronta valori me<strong>di</strong>, Hutcheson propone per il confronto<br />

delle entropie <strong>di</strong> Shannon un test [eq. (10.16)] avente la stessa <strong>di</strong>stribuzione del test t <strong>di</strong> Student.<br />

Dopo averne calcolato le varianze, il test e’ dato dalla <strong>di</strong>fferenza delle entropie rapportato alla<br />

ra<strong>di</strong>ce quadrata delle somme delle loro varianze:<br />

t =<br />

H − H<br />

1 2<br />

2 2<br />

s H<br />

+ s<br />

1 H 2<br />

(10.16)<br />

La varianza <strong>di</strong> ciascuna entropia puo’ essere approssimata nella seguente maniera:<br />

s<br />

2<br />

H<br />

=<br />

N<br />

S<br />

∑<br />

i=<br />

1<br />

n ln<br />

i<br />

2<br />

⎛<br />

ni<br />

− ⎜<br />

⎝<br />

3<br />

N<br />

S<br />

∑<br />

i=<br />

1<br />

⎞<br />

ni<br />

ln n⎟<br />

⎠<br />

2<br />

(10.17)<br />

e i gra<strong>di</strong> <strong>di</strong> liberta’ associati al test sono calcolati in maniera approssimata sulla base delle<br />

ricchezza specifica e delle stesse varianze:<br />

10-143


g.<br />

l.<br />

=<br />

2 2 2<br />

( sH<br />

+ s )<br />

1 H2<br />

2 2 2<br />

( s ) ( s )<br />

H1<br />

N<br />

1<br />

+<br />

H2<br />

N<br />

2<br />

2<br />

(10.18)<br />

Lo stesso autore propone per il confronto <strong>degli</strong> in<strong>di</strong>ci <strong>di</strong> Gini un test [eq. (10.19)] con la<br />

stessa <strong>di</strong>stribuzione della variabile standar<strong>di</strong>zzata z che ottiene rapportando la <strong>di</strong>fferenza dei due<br />

in<strong>di</strong>ci <strong>di</strong> Gini nella loro forma appropriata per una comunita’ finita (noti anche come in<strong>di</strong>ci PIE) [eq.<br />

(10.8)] alla ra<strong>di</strong>ce quadrata della somma delle loro varianze.<br />

Z<br />

D<br />

− D<br />

λ1<br />

λ 2<br />

D<br />

=<br />

λ 2 2<br />

(10.19)<br />

sD<br />

+ s<br />

λ1 Dλ 2<br />

La varianza dell’in<strong>di</strong>ce, proposta da Simpson, e’ data da:<br />

⎡<br />

S S<br />

= ⎛ ⎞ ⎤<br />

⎢ − + − − ⎜ ∑<br />

S<br />

2<br />

s 2 2<br />

3 2<br />

2<br />

D<br />

2( N 2) ∑ pi<br />

∑ pi<br />

(2N<br />

3) pi<br />

⎟ ⎥<br />

N ( N −1)<br />

⎢⎣<br />

i=<br />

1 i=<br />

1<br />

⎝ i=<br />

1 ⎠ ⎥<br />

(10.20)<br />

λ ⎦<br />

Questo test suppone che i campioni siano stati estratti casualmente in maniera in<strong>di</strong>pendente<br />

da ciascuna delle due popolazioni. Esso ha vali<strong>di</strong>ta’ per valori <strong>di</strong> popolazione N 1 e N 2 gran<strong>di</strong>,<br />

mentre per piccoli valori la sua <strong>di</strong>stribuzione non e’ nota.<br />

10.1.5 Esempio <strong>di</strong> calcolo<br />

Sia data la situazione, descritta in Tab. 10.1, <strong>di</strong> due ipotetiche dune <strong>di</strong> spiaggia in cui per ogni<br />

specie vegetale sono riportati i valori <strong>di</strong> copertura percentuale.<br />

Tab. 10.1 Abbondanza <strong>di</strong> specie vegetali rilevate in<br />

due dune <strong>di</strong> spiaggia.<br />

Tab. 10.2 Parametri <strong>di</strong> <strong>di</strong>versita’ calcolati sui<br />

due rilievi <strong>di</strong> dune <strong>di</strong> Tab. 10.1.<br />

1 2 p 1 p 2 S H E H λ E N2<br />

Ammophila littoralis 60 75 .6 .75 1 3 .8979 .8173 .46 .5783<br />

Agropyron junceum 30 10 .3 .1 2 5 .8954 .5563 .58 .1633<br />

Eryngium maritimum 10 5 .1 .05<br />

Agropyron pungens 5 .05<br />

Me<strong>di</strong>cago marina 5 .05<br />

Totale 100 100 1 1<br />

Il calcolo dei vari parametri <strong>di</strong> <strong>di</strong>versita' sin qui descritti è svolto per la comunita' della prima<br />

10-144


duna nella seguente maniera:<br />

H max = ln 3 = 1.0986<br />

H = - [(60/100) ln (60/100) + (30/100) ln (30/100) + (10/100) ln (10/100)] = 0.8979<br />

E H = 0.8979/1.0986 = 0.8173<br />

λ = (60/100)² + (30/100)² + (10/100)² = 0.46<br />

N 2 = 1/0.46 = 2.1739<br />

N 2max = 3<br />

N 2min = 100 2 /[100 2 + (3 – 2 × 100)(3-1)] = 10000/9606 = 1.041<br />

E N2 = (2.1739 – 1.041)/(3-1.041) = 1.1329/1.959 = 0.578<br />

e analogamente per la comunita' della seconda duna:<br />

H max = ln 5 = 1.609<br />

H = - [(75/100) ln (75/100)+ .... +(5/100) ln (5/100)] = 0.895<br />

E H = 0.895/1.609 = 0.5563<br />

λ = (75/100)² + ....+ (5/100)² = 0.58<br />

N 2 = 1/0.58 = 1.724<br />

N 2max = 5<br />

N 2min = 100 2 /[100 2 + (5 – 2 × 100)(5-1)] = 10000/9220 = 1.0846<br />

E N2 = (1.724 – 1.0846)/(5-1.0846) = 0.6394/3.9154 = 0.1633<br />

Confrontando i risultati ottenuti per le due dune (Tab. 10.2), possiamo osservare che le<br />

misure <strong>di</strong> <strong>di</strong>versita’ calcolate con l’in<strong>di</strong>ce <strong>di</strong> Shannon (H) sono pressoche’ uguali. Soltanto leggendo<br />

i valori <strong>di</strong> ricchezza e <strong>di</strong> equitabilita’, si deduce che per la prima duna il contributo alla <strong>di</strong>versita’ e’<br />

dato da una maggiore equi<strong>di</strong>stribuzione delle specie mentre, per la seconda, da una maggiore<br />

ricchezza <strong>di</strong> specie. I due valori <strong>di</strong> dominanza confermano questo fatto.<br />

Per confrontare le entropie <strong>di</strong> Shannon delle due comunita’ e confermare che non ci sono<br />

<strong>di</strong>fferenze statisticamente significative tra i loro valori, applichiamo il test t <strong>di</strong> Hutcheson [eq.<br />

(10.16)] dopo aver trovato la varianza [eq. (10.17)] <strong>di</strong> ciascuna entropia:<br />

2<br />

s H 1<br />

2<br />

2<br />

2<br />

( 60 + 30ln 30 + 10ln 10) − ( 60ln 60 + 30ln 30 + 10ln10)<br />

100 60ln<br />

=<br />

100(1405.883) − 370.723<br />

=<br />

1000000<br />

2<br />

3<br />

100<br />

140588.68 −137435.36<br />

=<br />

= 0.003152<br />

1000000<br />

2<br />

=<br />

10-145


2<br />

s H 2<br />

2<br />

2<br />

2 2<br />

2<br />

( 75 + 10ln 10 + 5ln 5 + 5ln 5 + 5ln 5) − [ 75ln 75 + 10ln10 + 3(5ln5) ]<br />

100 75ln<br />

=<br />

100(1489.926) − 370.979<br />

=<br />

1000000<br />

2<br />

3<br />

100<br />

148992.6 −137625.42<br />

=<br />

= 0.011367<br />

1000000<br />

2<br />

=<br />

t =<br />

.8979 −.8954<br />

0.003152 + 0.011367<br />

=<br />

0.0025<br />

0.12049<br />

= 0.021<br />

e i gra<strong>di</strong> <strong>di</strong> liberta’ [eq. (10.18)] associati al test:<br />

( 0.003152 + 0.011367)<br />

g . l.<br />

=<br />

2<br />

2<br />

0.003152 0.011367<br />

+<br />

100 100<br />

2<br />

=<br />

0.0002108<br />

0.00000139<br />

= 151<br />

Consultando in Appen<strong>di</strong>ce A la tabella dei valori critici del test t <strong>di</strong> Student ve<strong>di</strong>amo che il<br />

valore del test t calcolato (0.021) e’ molto piu’ piccolo del valore che leggiamo in corrispondenza<br />

della riga relativa a 150 gra<strong>di</strong> <strong>di</strong> liberta’ e della prima colonna corrispondente al livello <strong>di</strong><br />

significativita’ 0.05 (due code). Cio’ significa che l’ipotesi nulla <strong>di</strong> uguaglianza tra le entropie <strong>di</strong><br />

Shannon delle due comunita’ puo’ essere statisticamente accettata. La probabilita’ esatta associata<br />

al test calcolata con un software specifico risulta essere 98.1%; questo valore cosi’ elevato,<br />

in<strong>di</strong>cando la probabilita’ <strong>di</strong> accettazione dell’ipotesi nulla, <strong>di</strong>ce quanto le due entropie sono simili.<br />

Confrontiamo ora anche i valori <strong>degli</strong> in<strong>di</strong>ci <strong>di</strong> Gini, sotto la forma <strong>di</strong> in<strong>di</strong>ce PIE [eq. (10.8)],<br />

applicando l’equazione (10.19) dopo aver trovato le varianze <strong>di</strong> ciascun in<strong>di</strong>ce con la formula<br />

(10.20).<br />

D<br />

100<br />

= × (1 −.46)<br />

100 −1<br />

λ1 =<br />

.5454<br />

100<br />

D<br />

λ 2<br />

= × (1 −.58)<br />

= .4242<br />

100 −1<br />

2<br />

s D 1<br />

=<br />

100(100 −1)<br />

3 3 3 2 2 2<br />

2 2 2<br />

[ 2(100 − 2) (.6<br />

+ .3 + .1 ) + (.6<br />

+ .3 + .1 ) − (2×<br />

100 − 3) (.6<br />

+ .3 + .1 ) ]<br />

2 2<br />

2(196 × .244 + .46 − (197 × .2116) 47.824 + .56 − 41.685 6.5988<br />

=<br />

=<br />

= = 0.0013331<br />

9900<br />

4950 4950<br />

=<br />

10-146


2<br />

s D 1<br />

=<br />

2<br />

100(100<br />

⎡2(100<br />

− 2)<br />

⎢<br />

−1)<br />

⎢⎣<br />

− (2 × 100<br />

3 3 3 3 3 2 2 2 2 2<br />

(.75<br />

+ .1 + .05 + .05 + .05 ) + (.75<br />

+ .1 + .05 + .05 + .05 )<br />

2 2 2 2 2 2<br />

− 3) (.75<br />

+ .1 + .05 + .05 + .05 )<br />

2(196 × .4233+<br />

.58 − (197 × .3364) 82.952 + .58 − 66.271 17.261<br />

=<br />

=<br />

= = 0.003487<br />

9900<br />

4950 4950<br />

⎤<br />

⎥ =<br />

⎥⎦<br />

Z<br />

D<br />

=<br />

.5454 − .4242<br />

0.0013331+<br />

0.003487<br />

=<br />

.1212<br />

0.06943<br />

= 1.746<br />

Consultando la Tab. 4.5 ve<strong>di</strong>amo che il valore z trovato (1.746) e’ inferiore al valore z (1.960)<br />

per il test a due code in corrispondenza della probabilita’ 0.05. Da questo fatto deduciamo che,<br />

anche in questo caso, i due in<strong>di</strong>ci <strong>di</strong> <strong>di</strong>versita’ misurati con l’in<strong>di</strong>ce PIE possono essere considerati<br />

non statisticamente <strong>di</strong>versi al livello <strong>di</strong> significativita’ 0.05. Possiamo, pero’, aggiungere un’ulteriore<br />

osservazione. Leggendo i valori della tabella possiamo notare che il valore <strong>di</strong> z trovato e’ compreso<br />

tra il valore 1.960 e il valore 1.645 in corrispondenza del livello 0.1. Cio’ ci <strong>di</strong>ce che la probabilita’ <strong>di</strong><br />

trovare valori assoluti uguali o superiori a quello trovato e’ compresa tra il 5% e il 10%. Infatti, la<br />

probabilita’ esatta, calcolata con il software specifico, e’ 8.09%. Pertanto se le entropie <strong>di</strong> Shannon<br />

tra le due dune possono praticamente considerarsi uguali per l’elevata probabilita’ associata al test<br />

relativo, le <strong>di</strong>versita’ <strong>di</strong> Gini, piu’ sensibili alla dominanza, pur essendo statisticamente non<br />

<strong>di</strong>fferenti, non sono cosi’ simili come quelle <strong>di</strong> Shannon essendo la probabilita’ associata al test<br />

molto piu’ bassa. I grafici delle funzioni <strong>di</strong> alfa e beta <strong>di</strong>versita’ descritti nel prossimo paragrafo<br />

confermano queste caratteristiche dei dati.<br />

10.2 FUNZIONI UNIFICANTI LA DIVERSITA’<br />

Un'altra maniera piu' visiva per avere informazioni sulle due componenti della <strong>di</strong>versita', utili<br />

nel confronto tra comunita' <strong>di</strong>stinte, e' quello <strong>di</strong> costruire i grafici relativi ai cosiddetti profili <strong>di</strong> α<br />

(alfa) o β (beta) <strong>di</strong>versita' come mostrato per le due comunita' vegetali <strong>di</strong> dune dell'esempio 10.1.5<br />

in Fig. 10.1 e in Fig. 10.2.<br />

Alfa e beta <strong>di</strong>versita’ sono delle funzioni che al variare <strong>di</strong> un parametro (rispettivamente α e<br />

β) esprimono il continuum esistente tra le <strong>di</strong>verse misure <strong>di</strong> <strong>di</strong>versita’.<br />

Alfa-<strong>di</strong>versita' e' chiamata la funzione <strong>di</strong> Reyni che rappresenta la forma generalizzata<br />

dell'entropia <strong>di</strong> Shannon. Facendo variare il parametro α si ottengono sia l'entropia massima (α =<br />

0), sia l'entropia <strong>di</strong> Shannon (α = 1) 24 , sia il logaritmo negativo dell'in<strong>di</strong>ce <strong>di</strong> Simpson (α = 2).<br />

⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯<br />

24 L’in<strong>di</strong>ce <strong>di</strong> Shannon corrisponde al valore limite della funzione per α tendente a 1.<br />

10-147


H<br />

α<br />

ln<br />

S<br />

∑<br />

i =<br />

=<br />

p<br />

1 − α<br />

α<br />

i<br />

(10.21)<br />

Beta-<strong>di</strong>versita' e' chiamata la funzione stu<strong>di</strong>ata da Patil e Taillie che generalizza l’in<strong>di</strong>ce <strong>di</strong><br />

Gini. Al variare del parametro β si ottengono i valori dell’in<strong>di</strong>ce <strong>di</strong> Gini (β = 1), l'in<strong>di</strong>ce <strong>di</strong> Shannon<br />

(β = 0) 25 e il numero <strong>di</strong> specie <strong>di</strong>minuito <strong>di</strong> una unita’ (β = -1).<br />

H<br />

β<br />

S<br />

1− ∑ p<br />

=<br />

β<br />

β + 1<br />

i<br />

i = 1<br />

(10.22)<br />

Al variare dei parametri α e β, entrambe le formule forniscono in<strong>di</strong>cazioni sia sulla <strong>di</strong>versita'<br />

nel suo duplice aspetto <strong>di</strong> numerosita' ed equitabilita', sia separatamente sulle due componenti.<br />

In entrambi i grafici, il punto estremo a sinistra in<strong>di</strong>ca la molteplicita', quello centrale la<br />

<strong>di</strong>versita' in<strong>di</strong>fferenziata e quello finale l'equi<strong>di</strong>stribuzione.<br />

Dalla sovrapposizione <strong>di</strong> piu' grafici <strong>di</strong> α e β <strong>di</strong>versita' <strong>di</strong> piu' comunita' biologiche si possono<br />

fare delle deduzioni sul loro cambiamento strutturale nel tempo o nello spazio.<br />

Fig. 10.1 Grafici della funzione α-<strong>di</strong>versita’ <strong>di</strong><br />

Reyni delle due comunita’ <strong>di</strong> dune <strong>di</strong> Tab. 10.1.<br />

Il valore <strong>di</strong> <strong>di</strong>versita’ in<strong>di</strong>fferenziata (entropia <strong>di</strong><br />

Shannon) corrispondente a α = 1 risulta<br />

identico per entrambe le comunita’ che<br />

<strong>di</strong>fferiscono tuttavia sia per la molteplicita’ (punti<br />

estremi a sinistra) che per la dominanza (punti<br />

estremi a destra).<br />

Fig. 10.2 Grafici della funzione β-<strong>di</strong>versita’ <strong>di</strong><br />

Patil e Taillie delle stesse comunita’ della Fig.<br />

10.1. Il parametro β viene fatto variare tra –1<br />

e +1. Il valore dell’entropia <strong>di</strong> Shannon e’<br />

determinato per β = 0. Valgono le stesse<br />

considerazioni fatte per la figura accanto.<br />

⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯<br />

25 L’in<strong>di</strong>ce <strong>di</strong> Shannon corrisponde al valore limite della funzione per β tendente a 0.<br />

10-148


10.3 MODELLI DI DISTRIBUZIONE DI ABBONDANZA DELLE SPECIE<br />

In una comunita’ vegetale o animale piu’ spesso si osserva che l’abbondanza 26 relativa delle<br />

specie e’ maggiore per alcune (le piu’ comuni), e’ ridotta per alcune altre (le piu’ rare) e presenta<br />

valori interme<strong>di</strong> gradualmente decrescenti per la maggior parte <strong>di</strong> esse. I rapporti quantitativi tra<br />

specie comuni, rare e me<strong>di</strong>amente abbondanti variano da comunita’ a comunita’. Si puo’ <strong>di</strong>re<br />

pertanto che la <strong>di</strong>stribuzione dell’abbondanza delle specie (pattern <strong>di</strong> <strong>di</strong>stribuzione) e’ una<br />

caratteristica della comunita’ che ne rivela la struttura venutasi a formare in seguito a determinati<br />

processi ecologici.<br />

Piu’ modelli sono stati proposti per quantificare tale pattern allo scopo sia <strong>di</strong> ottenere una<br />

descrizione empirica delle relazioni <strong>di</strong> abbondanza tra le specie, sia <strong>di</strong> testare le ipotesi sul tipo <strong>di</strong><br />

organizzazione delle comunita’ ecologiche e sul processo che l’ha generata.<br />

Alcuni <strong>di</strong> questi modelli sono statistici, riguardano cioe’ la <strong>di</strong>stribuzione <strong>di</strong> probabilita’<br />

dell’abbondanza delle specie; in essi si assume che le abbondanze delle singole specie siano<br />

in<strong>di</strong>pendenti tra loro. Altri modelli riguardano la <strong>di</strong>stribuzione delle specie secondo partizioni<br />

regolari <strong>di</strong> una risorsa. In questo caso i modelli sono costruiti postulando la maniera in cui le specie<br />

coesistenti spartiscono tra loro qualche risorsa necessaria che e’ assunta essere il fattore limitante,<br />

cioe’ quello che impone un certo limite alle <strong>di</strong>mensioni delle loro popolazioni. In questi modelli si<br />

assume quin<strong>di</strong> che le abbondanze delle specie siano mutuamente <strong>di</strong>pendenti.<br />

I modelli piu’ frequentemente utilizzati, in quanto anche in<strong>di</strong>catori della <strong>di</strong>versita’, sono<br />

principalmente quattro: i modelli statistici logaritmico e log-normale e i modelli <strong>di</strong> <strong>di</strong>stribuzione<br />

secondo la serie geometrica e il modello del ”bastoncino spezzato” (broken-stick) che<br />

appartengono alla seconda categoria.<br />

Gli ecologi rappresentano graficamente l’abbondanza delle specie principalmente in due<br />

maniere: una consiste nel riportare in <strong>di</strong>agrammi rango/abbondanza le abbondanze <strong>di</strong> ciascuna<br />

specie in or<strong>di</strong>ne decrescente. L’altra consiste nel riportare la <strong>di</strong>stribuzione <strong>di</strong> frequenza delle<br />

abbondanze in <strong>di</strong>agrammi abbondanza/frequenza.<br />

La scelta del metodo <strong>di</strong>pende dal numero <strong>di</strong> specie del campione in questione; si e’ soliti<br />

usare il primo metodo per dati che riguardano poche specie e il secondo quando le specie sono<br />

molto numerose.<br />

⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯<br />

26<br />

L’abbondanza o importanza relativa delle specie puo’ essere valutata in <strong>di</strong>verse maniere;<br />

solitamente quella delle specie animali e’ stimata tramite il numero <strong>di</strong> in<strong>di</strong>vidui o la loro biomassa, mentre<br />

per le specie vegetali sono maggiormente usati i valori <strong>di</strong> copertura percentuale, l’area basale o la<br />

produttivita’.<br />

10-149


10.3.1 Diagrammi rango/abbondanza o profili <strong>di</strong> <strong>di</strong>versita’ <strong>di</strong> Whittaker<br />

Una maniera per rappresentare graficamente la <strong>di</strong>stribuzione <strong>di</strong> abbondanza delle specie<br />

consiste nell’or<strong>di</strong>nare le specie secondo valori decrescenti d’importanza attribuendo a ciascuna<br />

specie un valore nominale i, detto rango, variabile da 1 a S; in seguito si riportano sull’asse delle<br />

ascisse (x) <strong>di</strong> un <strong>di</strong>agramma cartesiano i ranghi delle specie e sull’asse delle or<strong>di</strong>nate (y) le<br />

abbondanze relative (n i /N) delle specie espresse in percentuale. Le varianti a questo <strong>di</strong>agramma<br />

consistono nell’usare la scala logaritmica per l’asse y e, a volte, anche per l’asse x.<br />

Questi <strong>di</strong>agrammi vengono anche chiamati profili <strong>di</strong> <strong>di</strong>versita’ <strong>di</strong> Whittaker o curve <strong>di</strong><br />

<strong>di</strong>versita’ e dominanza o curve <strong>di</strong> abbondanza. Essi sono utilizzati per avere una in<strong>di</strong>cazione<br />

imme<strong>di</strong>ata sulla struttura della comunita' in esame. Gli ecologi hanno descritto le caratteristiche <strong>di</strong><br />

ciascuna delle curve relative alle <strong>di</strong>stribuzioni geometrica, logaritmica, lognormale e broken-stick.<br />

Fig. 10.3 Curve <strong>di</strong> abbondanza teoriche dei quattro modelli <strong>di</strong> <strong>di</strong>stribuzione<br />

geometrica, logaritmica, log-normale e broken-stick. La sequenza delle specie e’<br />

determinata per or<strong>di</strong>namento delle stesse secondo valori decrescenti <strong>di</strong> abbondanza.<br />

L’abbondanza delle specie e’ espressa in percentuale per rendere piu’ confrontabili le<br />

comunita’ che hanno <strong>di</strong>verso numero <strong>di</strong> specie.<br />

La Fig. 10.3 mostra la forma che le quattro <strong>di</strong>stribuzioni teoriche <strong>di</strong> dati assumono in<br />

<strong>di</strong>agrammi <strong>di</strong> questo tipo. In essa si puo’ osservare come i quattro modelli evidenzino, quasi<br />

secondo una progressione, situazioni con ricchezza specifica ridotta in cui pochissime sono le<br />

specie dominanti (serie geometrica), situazioni in cui, incrementando il numero <strong>di</strong> specie, si fanno<br />

piu’ comuni via via quelle <strong>di</strong> me<strong>di</strong>a abbondanza (serie logaritmica e modello log-normale) e infine<br />

10-150


situazioni in cui le specie assumono la maggiore equi<strong>di</strong>stribuzione possibile in natura (modello<br />

broken-stick). La lettura <strong>di</strong> un grafico <strong>di</strong> questo tipo permette quin<strong>di</strong> <strong>di</strong> trarre delle in<strong>di</strong>cazioni<br />

imme<strong>di</strong>ate sulle due componenti della <strong>di</strong>versita’, ricchezza ed equitabilita’, relative alle comunita’<br />

esaminate. Inoltre questa rappresentazione da’ la possibilita’ <strong>di</strong> confrontare le <strong>di</strong>stribuzioni <strong>di</strong> piu’<br />

comunita’ tra loro e il pattern <strong>di</strong> una comunita’ con quello dei modelli <strong>di</strong> riferimento utilizzando<br />

<strong>degli</strong> adattamenti (fit) statistico-matematici appropriati.<br />

Nei profili <strong>di</strong> Whittaker solo l’abbondanza delle specie (asse y) subisce la trasformazione<br />

logaritmica e, secondo questa rappresentazione, la serie geometrica assume una forma<br />

perfettamente lineare, mentre le altre <strong>di</strong>stribuzioni assumono una forma <strong>di</strong> tipo sigmoide a<br />

pendenza via via maggiore.<br />

In <strong>di</strong>agrammi <strong>di</strong> questo tipo sono state stu<strong>di</strong>ate matematicamente solo le funzioni delle serie<br />

geometrica e broken-stick, mentre quelle relative alla serie logaritmica e al modello log-normale<br />

sono calcolate solo su <strong>di</strong>agrammi abbondanza/frequenza.<br />

10.3.2 Diagrammi abbondanza/frequenza<br />

Il secondo tipo <strong>di</strong> rappresentazione grafica relativa alla <strong>di</strong>stribuzione delle specie consiste nel<br />

porre sull’asse delle x del <strong>di</strong>agramma cartesiano il valore <strong>di</strong> abbondanza delle specie e sull’asse y il<br />

numero <strong>di</strong> specie (frequenza) che possiedono un certo valore <strong>di</strong> abbondanza. Piu’ spesso la<br />

variabile quantitativa espressa sull’asse x è sud<strong>di</strong>visa in classi <strong>di</strong> abbondanza in maniera tale da<br />

costruire un istogramma del tipo presentato in Fig. 10.4.<br />

Fig. 10.4 Istogramma delle frequenze <strong>di</strong> specie relative alle<br />

abbondanze espresse in numero <strong>di</strong> in<strong>di</strong>vidui. I dati si riferiscono a<br />

specie <strong>di</strong> un or<strong>di</strong>ne <strong>di</strong> insetti campionate in una determinata area.<br />

10-151


Anche in questo caso e’ frequente la trasformazione logaritmica dell’asse x relativo<br />

all’abbondanza; le classi <strong>di</strong> abbondanza costruite su scala logaritmica in base 2 prendono il nome<br />

<strong>di</strong> ottave e sono spesso utilizzate in ecologia per stu<strong>di</strong>are la <strong>di</strong>stribuzione log-normale; esse sono<br />

numerate attribuendo il valore 0 alla classe modale e valori crescenti positivi e decrescenti negativi<br />

alle classi che stanno rispettivamente a destra e a sinistra <strong>di</strong> quella modale (ve<strong>di</strong> Fig. 10.5);<br />

secondo questa trasformazione logaritmica la curva <strong>di</strong> <strong>di</strong>stribuzione dei dati, che seguono il<br />

modello log-normale, assume la forma a campana tipica della <strong>di</strong>stribuzione normale.<br />

La Fig. 10.5 illustra le forme che le stesse quattro teoriche <strong>di</strong>stribuzioni rappresentate in Fig.<br />

10.3 assumono in <strong>di</strong>agrammi <strong>di</strong> questo tipo.<br />

Fig. 10.5 Curve <strong>di</strong> abbondanza delle stesse quattro <strong>di</strong>stribuzioni teoriche <strong>di</strong> Fig.<br />

10.4 in un <strong>di</strong>agramma abbondanza/frequenza. In essa si puo’ notare la<br />

caratteristica curva a campana assunta dalla curva log-normale; quella geometrica<br />

mantiene la sua linearita’ e <strong>di</strong>venta, in questo caso specifico, per la scala adottata<br />

sull’asse x, una retta parallela all’asse x.<br />

10.4 DESCRIZIONE DEI MODELLI DI DISTRIBUZIONE DI ABBONDANZA DELLE SPECIE<br />

Quando il numero <strong>di</strong> specie e' sufficientemente grande, quasi sempre la <strong>di</strong>stribuzione della<br />

loro abbondanza relativa e' <strong>di</strong> tipo log-normale perche’ molteplici sono i fattori ecologici che<br />

governano la loro abbondanza relativa. La <strong>di</strong>stribuzione log-normale, infatti, nasce come risposta a<br />

proprieta' statistiche <strong>di</strong> gran<strong>di</strong> quantita' <strong>di</strong> dati, secondo le quali, quando una variabile - nel nostro<br />

caso l'abbondanza relativa espressa in forma logaritmica - e' <strong>di</strong>pendente da molte altre piu' o meno<br />

in<strong>di</strong>pendenti tra loro, le variazioni casuali <strong>di</strong> queste ultime fanno si' che essa si <strong>di</strong>stribuisca<br />

normalmente. La maggior parte delle comunita’ stu<strong>di</strong>ate dagli ecologi mostra un pattern <strong>di</strong> questo<br />

10-152


tipo. Esse sono generalmente formate da un numero <strong>di</strong> specie molto grande con ruoli <strong>di</strong>stinti, site<br />

in un ambiente governato da molti fattori piu’ o meno in<strong>di</strong>pendenti, in equilibrio ecologico.<br />

In ambienti in cui sono prevalenti uno o pochi fattori ecologici che limitano la crescita delle<br />

popolazioni biologiche, la <strong>di</strong>stribuzione delle abbondanze delle specie puo' variare,<br />

<strong>di</strong>pendentemente dalla ricchezza floristica e dall'equitabilita', da una <strong>di</strong> tipo geometrico ad una <strong>di</strong><br />

tipo logaritmico fino ad una assimilabile al modello 'broken-stick' <strong>di</strong> MacArthur. Questo passaggio<br />

avviene in seguito all'aumento del numero <strong>di</strong> specie e ad una migliore equi<strong>di</strong>stribuzione dei loro<br />

valori <strong>di</strong> abbondanza.<br />

La serie geometrica dei valori <strong>di</strong> abbondanza si instaura ipotizzando una situazione in cui<br />

alcune specie arrivano in un habitat insaturo in tempi successivi e regolari occupando via via<br />

frazioni d’iperspazio <strong>di</strong> nicchia rimanenti. La comunita’ che si viene a formare e’ caratterizzata da<br />

un basso numero <strong>di</strong> specie le cui popolazioni sono limitate nella crescita da una qualche risorsa<br />

Tab. 10.3 Valori <strong>di</strong> abbondanza<br />

riferiti alle specie <strong>di</strong> tre comunita’<br />

in tre <strong>di</strong>versi ambienti (estratta<br />

da Magurran, 1988)<br />

Specie I II III<br />

1 1 2 0<br />

2 3 16 354<br />

3 2 3 7<br />

4 1 2 4<br />

5 4 10 29<br />

6 5 13 4<br />

7 1 30 3<br />

8 1 14 12<br />

9 18 22 18<br />

10 1 1 2<br />

11 2 4 1<br />

12 63 5 1<br />

13 2 19 1<br />

14 1 18 1<br />

15 1 14 2<br />

16 1 15 0<br />

17 16 1 3<br />

18 15 27 1<br />

19 60 36 0<br />

20 1 3 2<br />

21 1 47 0<br />

22 8 38 18<br />

23 16 4 0<br />

24 127 6 0<br />

25 9 7 0<br />

26 18 8 1<br />

27 3 16 0<br />

28 4 32 0<br />

29 3 19 1<br />

30 11 6 1<br />

31 6 7 1<br />

32 7 8 11<br />

33 8 16 9<br />

34 63 27 10<br />

35 17 4 3<br />

Totali 500 500 500<br />

ambientale, ad esempio la luce o l’umi<strong>di</strong>ta’, che costituisce il<br />

fattore limitante.<br />

fattori dominano l’ecologia della comunita’.<br />

Tale risorsa viene utilizzata in maniera strettamente<br />

gerarchica dalle specie cosicche’ dapprima una singola specie,<br />

quella che ha piu’ successo e che sara’ poi la dominante,<br />

conquista una frazione k della risorsa limitante, successivamente<br />

una seconda specie si guadagna la stessa frazione k della risorsa<br />

rimasta inutilizzata dalla prima e cosi’ via fino ad arrivare<br />

all’ultima specie che utilizza la risorsa rimanente.<br />

In questo modello si assume che le abbondanze delle<br />

specie siano proporzionali all’ammontare <strong>di</strong> risorse che utilizzano.<br />

Questo pattern si riscontra in ambienti estremi, poveri <strong>di</strong> specie o<br />

negli sta<strong>di</strong> giovanili <strong>di</strong> una successione.<br />

Il modello secondo la serie logaritmica si puo’ considerare<br />

strettamente collegato a quello della serie geometrica. La serie<br />

logaritmica puo’ essere considerata come l’espressione statistica<br />

<strong>di</strong> un processo <strong>di</strong> pre-conquista <strong>di</strong> nicchia che avviene in intervalli<br />

non piu’ regolari, come nella serie geometrica, ma casuali.<br />

Anche questa <strong>di</strong>stribuzione, caratterizzata da un basso<br />

numero <strong>di</strong> specie abbondanti e da una grande proporzione <strong>di</strong><br />

specie rare, e’ piu’ applicabile in situazioni in cui uno o pochi<br />

E’ stato <strong>di</strong>mostrato che l’abbondanza delle specie dello strato erbaceo del sottobosco <strong>di</strong><br />

10-153


conifere in Irlanda, in cui la luce rappresenta un fattore limitante, segue una <strong>di</strong>stribuzione<br />

logaritmica.<br />

La <strong>di</strong>stribuzione secondo il modello del bastoncino spezzato (broken-stick) rappresenta<br />

l’espressione biologicamente realistica <strong>di</strong> una <strong>di</strong>stribuzione uniforme. Si puo’ instaurare in una<br />

comunita’ costituita da poche specie tassonomicamente simili in competizione tra loro in un habitat<br />

relativamente ristretto. Se la comunita’ e’ governata da qualche particolare fattore ecologico e le<br />

specie, arrivate contemporaneamente, competono per l’utilizzo <strong>di</strong> quella risorsa, e’ probabile che le<br />

loro abbondanze si <strong>di</strong>stribuiscano secondo quelle predette da questo modello rispecchiando cosi’ la<br />

proporzione <strong>di</strong> risorsa che sono riuscite ad accaparrarsi.<br />

Il modello paragona la risorsa ad un bastoncino (stick) che viene spezzato (broken) all’atto<br />

della conquista in maniera simultanea da un certo numero <strong>di</strong> specie; le parti spezzate del<br />

bastoncino risulteranno pressoche’ uguali tra loro in quanto nessuna specie ha avuto il tempo ne’<br />

la forza <strong>di</strong> conquistarsi una porzione piu’ grande. Le lunghezze dei segmenti sono proporzionali<br />

all’ampiezza delle nicchie e quin<strong>di</strong> alle abbondanze relative <strong>di</strong> ciascuna specie.<br />

Il modello si e’ adattato bene a comunita’ con specie in equilibrio piuttosto stabile,<br />

caratterizzate nella loro morfologia da gran<strong>di</strong> <strong>di</strong>mensioni e nella loro fisiologia da gran<strong>di</strong> cicli vitali.<br />

Hanno manifestato <strong>di</strong>stribuzioni <strong>di</strong> questo tipo comunita’ <strong>di</strong> uccelli, <strong>di</strong> gasteropo<strong>di</strong> predatori e <strong>di</strong><br />

pesci. Il modello non e’ mai stato usato con successo nell’ambito delle comunita’ vegetali in quanto<br />

tende a sottostimare le specie abbondanti e a sovrastimare quelle meno rappresentate.<br />

10.4.1 Adattamenti statistici (fit)<br />

Le <strong>di</strong>stribuzioni osservate dei valori <strong>di</strong> abbondanza delle specie possono essere adattate alle<br />

<strong>di</strong>stribuzioni attese predette dai modelli teorici.<br />

Sulla base dei due parametri S (numero <strong>di</strong> specie) e N (totale delle abbondanze) delle<br />

comunita’ si calcolano i valori <strong>di</strong> abbondanza relativa delle specie (nel caso <strong>di</strong> funzioni valutate in<br />

<strong>di</strong>agrammi rango/abbondanza) o i valori <strong>di</strong> frequenza delle specie (nel caso <strong>di</strong> funzioni valutate in<br />

<strong>di</strong>agrammi abbondanza/frequenza) che le singole comunita’ avrebbero se le loro <strong>di</strong>stribuzioni<br />

fossero secondo i modelli teorici scelti.<br />

Ottenuti i valori attesi per ciascuna <strong>di</strong>stribuzione teorica si utilizza la statistica del chiquadrato<br />

per valutare quanto i valori osservati si <strong>di</strong>scostano da quelli attesi.<br />

In Fig. 10.6 e Fig. 10.7 sono riportati i grafici delle <strong>di</strong>stribuzioni <strong>di</strong> abbondanza osservate ed<br />

attese secondo i quattro modelli descritti delle tre comunita’ <strong>di</strong> specie <strong>di</strong> Tab. 10.3.<br />

Da entrambi i grafici si puo’ osservare come la seconda comunita’, rappresentata dalla linea<br />

continua, si adatti molto bene al modello broken-stick.<br />

10-154


Tab. 10.4 Probabilita’ % <strong>di</strong> accettazione dell’ipotesi<br />

nulla dei chi-quadrati che testano l’adattamento delle<br />

<strong>di</strong>stribuzioni osservate delle 3 comunita’ ai 4 modelli<br />

teorici.<br />

1 2 3<br />

Geometrica 0 20.3 0<br />

Broken-stick 0 100 0<br />

Logaritmica 81.1 0.2 0.2<br />

Log-normale 94 71 37.4<br />

Il secondo grafico evidenzia meglio un<br />

buon adattamento della prima comunita’ sia<br />

alla <strong>di</strong>stribuzione logaritmica che alla<br />

<strong>di</strong>stribuzione log-normale e un adattamento<br />

meno accentuato della terza comunita’ alla<br />

log-normale. Le probabilita’ (Tab. 10.4)<br />

percentuali <strong>di</strong> accettazione dell’ipotesi nulla<br />

del test chi-quadrato, applicato per<br />

confrontare le <strong>di</strong>stribuzioni osservate con<br />

quelle teoriche, confermano questa percezione visiva. I valori piu’ gran<strong>di</strong> nella tabella<br />

corrispondono ai migliori adattamenti statistici della <strong>di</strong>stribuzione osservata a quella teorica<br />

predetta dal modello considerato.<br />

Fig. 10.6 Distribuzioni delle abbondanze secondo <strong>di</strong>agrammi rango/abbondanza relative alle tre comunita’<br />

<strong>di</strong> Tab. 10.3. Sono riportati i valori osservati e i valori attesi secondo le <strong>di</strong>stribuzioni geometrica e brokenstick.<br />

10-155


Fig. 10.7 Distribuzioni delle abbondanze secondo <strong>di</strong>agrammi abbondanza/frequenza relative alle tre<br />

comunita’ <strong>di</strong> Tab. 10.3. Sono riportati i valori osservati e i valori attesi secondo le <strong>di</strong>stribuzioni logaritmica,<br />

log-normale e broken-stick.<br />

10-156


Appen<strong>di</strong>ce A<br />

Valori critici per il test t <strong>di</strong> Student<br />

Livello <strong>di</strong> significativita’ (una coda)<br />

α/2 = 0.025 α/2 = 0.005 α/2 = 0.0005<br />

Livello <strong>di</strong> significativita’ (due code)<br />

Gra<strong>di</strong> <strong>di</strong> liberta’ α = 0.05 α = 0.01 α = 0.001<br />

1 12.706 63.657 636.619<br />

2 4.303 9.925 31.598<br />

3 3.182 5.841 12.924<br />

4 2.776 4.604 8.610<br />

5 2.571 4.032 6.869<br />

6 2.447 3.707 5.959<br />

7 2.365 3.499 5.408<br />

8 2.306 3.355 5.041<br />

9 2.262 3.250 4.781<br />

10 2.228 3.169 4.587<br />

11 2.201 3.106 4.437<br />

12 2.179 3.055 4.318<br />

13 2.160 3.012 4.221<br />

14 2.145 2.977 4.140<br />

15 2.131 2.947 4.073<br />

16 2.120 2.921 4.015<br />

17 2.110 2.898 3.965<br />

18 2.101 2.878 3.922<br />

19 2.093 2.861 3.883<br />

20 2.086 2.845 3.850<br />

21 2.080 2.831 3.819<br />

22 2.074 2.819 3.792<br />

23 2.069 2.807 3.767<br />

24 2.064 2.797 3.745<br />

25 2.060 2.787 3.725<br />

26 2.056 2.779 3.707<br />

27 2.052 2.771 3.690<br />

28 2.048 2.763 3.674<br />

29 2.045 2.756 3.659<br />

30 2.042 2.750 3.646<br />

40 2.040 2.744 3.551<br />

60 2.000 2.660 3.460<br />

120 1.980 2.617 3.373<br />

150 1.976 2.609 3.358<br />

∞ 1.960 2.576 3.291<br />

L’ipotesi H 0 viene rifiutata se il valore <strong>di</strong> t calcolato e’ piu’ grande del valore<br />

critico al livello <strong>di</strong> significativita’ scelto.<br />

157


Appen<strong>di</strong>ce B<br />

Valori critici per il test F al livello <strong>di</strong> significativita’ 0.05<br />

Gra<strong>di</strong> <strong>di</strong> liberta’ (n 1 ) della varianza tra gruppi (numeratore)<br />

1 2 3 4 5 6 7 8 9<br />

1 161.4 199.5 215.7 224.6 230.2 234.0 236.8 238.9 240.5<br />

2 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38<br />

3 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81<br />

4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00<br />

5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77<br />

6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10<br />

7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68<br />

Gra<strong>di</strong> <strong>di</strong> liberta’ (n 2 ) della varianza interna ai gruppi (denominatore)<br />

8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39<br />

9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18<br />

10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02<br />

11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90<br />

12 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80<br />

13 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71<br />

14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65<br />

15 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59<br />

16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54<br />

17 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49<br />

18 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46<br />

19 4.38 352 3.13 2.90 2.74 2.63 2.54 2.48 2.42<br />

20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39<br />

21 4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37<br />

22 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.34<br />

23 4.28 3.42 3.03 2.80 2.64 2.53 2.44 2.37 2.32<br />

24 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30<br />

25 4.24 3.39 2.99 2.76 2.60 2.49 2.40 2.34 2.28<br />

26 4.23 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.27<br />

27 4.21 3.35 2.96 2.73 2.57 2.46 2.37 2.31 2.25<br />

28 4.20 3.34 2.95 2.71 2.56 2.45 2.36 2.29 2.24<br />

29 4.18 3.33 2.93 2.70 2.55 2.43 2.35 2.28 2.22<br />

30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21<br />

40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12<br />

60 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04<br />

120 3.92 3.07 2.68 2.45 2.29 2.17 2.09 2.02 1.96<br />

∞ 3.84 3.00 2.60 2.37 2.21 2.10 2.01 1.94 1.88<br />

L’ipotesi H 0 viene rifiutata al livello <strong>di</strong> significativita’ 0.05 se il valore <strong>di</strong> F calcolato e’ piu’ grande del valore<br />

critico in corrispondenza dei gra<strong>di</strong> <strong>di</strong> liberta’ ad esso associati.<br />

158


Appen<strong>di</strong>ce C<br />

Valori critici per il coefficiente <strong>di</strong> correlazione r <strong>di</strong> Pearson<br />

Livello <strong>di</strong> significativita’ (una coda)<br />

α/2 = 0.05 α/2 = 0.025 α/2 = 0.01 α/2 = 0.005 α/2 = 0.0005<br />

Livello <strong>di</strong> significativita’ (due code)<br />

Gra<strong>di</strong> <strong>di</strong> liberta’ α = 0.1 α = 0.05 α = 0.02 α = 0.01 α = 0.001<br />

1 0.9877 0.9969 0.9995 0.9999 0.99999877<br />

2 0.900 0.950 0.980 0.990 0.9999000<br />

3 0.805 0.878 0.934 0.959 0.99114<br />

4 0.729 0.811 0.882 0.917 0.9741<br />

5 0.669 0.755 0.833 0.875 0.9509<br />

6 0.622 0.707 0.789 0.834 0.9249<br />

7 0.582 0.666 0.750 0.798 0.898<br />

8 0.549 0.632 0.716 0.765 0.872<br />

9 0.521 0.602 0.685 0.735 0.847<br />

10 0.497 0.576 0.658 0.708 0.823<br />

11 0.476 0.553 0.634 0.684 0.801<br />

12 0.458 0.532 0.612 0.661 0.780<br />

13 0.441 0.514 0.592 0.641 0.760<br />

14 0.426 0.497 0.574 0.623 0.742<br />

15 0.412 0.482 0.558 0.606 0.725<br />

16 0.400 0.468 0.543 0.590 0.708<br />

17 0.389 0.456 0.529 0.575 0.693<br />

18 0.378 0.444 0.516 0.561 0.679<br />

19 0.369 0.433 0.503 0.549 0.665<br />

20 0.360 0.423 0.492 0.537 0.652<br />

21 0.352 0.413 0.482 0.525 0.640<br />

22 0.344 0.404 0.472 0.515 0.628<br />

23 0.337 0.396 0.462 0.505 0.618<br />

24 0.330 0.388 0.453 0.496 0.607<br />

25 0.323 0.381 0.445 0.487 0.597<br />

26 0.317 0.374 0.437 0.479 0.588<br />

27 0.311 0.367 0.430 0.470 0.579<br />

28 0.306 0.361 0.423 0.463 0.570<br />

29 0.301 0.355 0.416 0.456 0.562<br />

30 0.296 0.349 0.409 0.449 0.554<br />

35 0.275 0.325 0.381 0.418 0.519<br />

40 0.257 0.304 0.358 0.393 0.490<br />

45 0.243 0.288 0.338 0.372 0.465<br />

50 0.231 0.273 0.322 0.354 0.443<br />

60 0.211 0.250 0.295 0.325 0.408<br />

70 0.195 0.232 0.274 0.302 0.380<br />

80 0.183 0.217 0.257 0.283 0.357<br />

90 0.173 0.205 0.242 0.267 0.338<br />

100 0.164 0.195 0.230 0.254 0.321<br />

L’ipotesi H 0 viene rifiutata se il valore <strong>di</strong> r calcolato e’ piu’ grande del valore critico al livello <strong>di</strong><br />

significativita’ scelto.<br />

159


Appen<strong>di</strong>ce D<br />

Valori critici per il test χ 2 (chi-quadrato)<br />

Livello <strong>di</strong> significativita’ (una code)<br />

Gra<strong>di</strong> <strong>di</strong> liberta’ α = 0.05 α = 0.01 α = 0.005 α = 0.001<br />

1 3.84 6.64 7.88 10.83<br />

2 5.99 9.21 10.60 13.82<br />

3 7.82 11.34 12.84 16.27<br />

4 9.49 13.28 14.86 18.46<br />

5 11.07 15.09 16.75 20.52<br />

6 12.59 16.81 18.55 22.46<br />

7 14.07 18.48 20.28 24.32<br />

8 15.51 20.09 21.96 26.12<br />

9 16.92 21.67 23.59 27.88<br />

10 18.31 23.21 25.19 29.59<br />

11 19.68 24.72 26.76 31.26<br />

12 21.03 26.22 28.30 32.91<br />

13 22.36 27.69 30.82 34.53<br />

14 23.69 29.14 31.32 36.12<br />

15 25.00 30.58 32.80 37.70<br />

16 26.30 32.00 34.27 39.29<br />

17 27.59 33.41 35.72 40.75<br />

18 28.87 34.81 37.16 42.31<br />

19 30.14 36.19 38.58 43.82<br />

20 31.41 37.57 40.00 45.32<br />

21 32.67 38.93 41.40 46.80<br />

22 33.92 40.29 42.80 48.27<br />

23 35.17 41.64 44.18 49.73<br />

24 36.42 42.98 45.56 51.18<br />

25 37.65 44.31 46.93 52.62<br />

26 38.89 45.64 48.29 54.05<br />

27 40.11 46.96 49.65 55.48<br />

28 41.34 48.28 50.99 56.89<br />

29 42.56 49.59 52.34 58.30<br />

30 43.77 50.89 53.67 59.70<br />

40 55.76 63.69 66.77 73.40<br />

50 67.51 76.15 79.49 86.66<br />

60 79.08 88.38 91.95 99.61<br />

70 90.53 100.43 104.22 112.32<br />

80 101.88 112.33 116.32 124.84<br />

90 113.15 124.12 128.30 137.21<br />

100 124.34 135.81 140.17 149.45<br />

L’ipotesi H 0 viene rifiutata se il valore <strong>di</strong> χ 2 calcolato e’ piu’ grande del valore critico<br />

al livello <strong>di</strong> significativita’ scelto.<br />

160


Bibliografia<br />

Magurran, A. E. 1988. Ecological <strong>di</strong>versity and its measurement. Croom Helm. London,<br />

Sydney.<br />

Orloci L. 1978. Multivariate Analysis in Vegetation Research. 2 nd ed. Junk, The Hague.<br />

Podani J. 2000. Introduction to the Exploration of Multivariate Biological Data. Backhuys<br />

Publishers, Leiden.<br />

161

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!