01.07.2013 Views

Le distanze ultrametriche - Sapienza

Le distanze ultrametriche - Sapienza

Le distanze ultrametriche - Sapienza

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Dipartimento di Statistica, Probabilità e Statistiche Applicate<br />

Università di Roma "La <strong>Sapienza</strong>"<br />

Paola Scozzafava<br />

<strong>Le</strong> <strong>distanze</strong> <strong>ultrametriche</strong><br />

Roma -febbraio 1995


Università degli Studi "La <strong>Sapienza</strong>" di Roma<br />

Dipartimento di Statistica, Probabilità e Statistiche Applicate<br />

'. '... .-/.;-.<br />

. .<br />

Dottorato dii Ricerca in Statistica Metodologica<br />

Paola Scozzafava<br />

Tesi<br />

LE DISTANZE ULTRAMETRICHE<br />

VII ciclo<br />

(a.a. 1991192, 1992/93, 1993/94)


8 <strong>Le</strong> estensioni delle <strong>ultrametriche</strong><br />

8.1 Introduzione .<br />

8.2 K - <strong>ultrametriche</strong> .<br />

8.3 <strong>Le</strong> dissimilarità robinsoniane .<br />

8.3.1· Ordine compatibile e incroci ..<br />

8.3.2 Piramidi ..<br />

8.. 3 3 P tramI · 'd' l.e d' ISSlmt . '1 anta ., rob' msoruane .<br />

.<br />

8.3.4 Algoritrili pirarnidali ..<br />

8.4 <strong>Le</strong> pseudo-gerarchie .<br />

8.4.1 Dissimilarità fortemente robinsoniane ..<br />

8.4.2 Pseudo-gerarchie indicizzate e<br />

dissimilarità fortemente di Robinson 94<br />

,<br />

8.5 Altre estensioni.... 95<br />

8.6 Ultrametrica duale 96<br />

8.6.1 L'ultraminima come relazione "sfuocata" 97<br />

8.6.2 Lo spazio ultraminimo 98<br />

8.6.3 Ultraminima superiore minimale 99<br />

8.6.4 Costruzione di ultraminime<br />

8.6.5 Ultraminime come indici anti-piramidali<br />

8.6.6 Gerarchie e piramidi anti-indicizzate<br />

8.6.7 Dati caotici.e coerenti :............................................... 102<br />

8.6.8 Conclusioni sulle ultraminime 103<br />

8.7 <strong>Le</strong> relazioni tra le<strong>ultrametriche</strong> e le sue estensioni 104<br />

8.8 Cenni di analisi simbolica 105<br />

8.8.1 Ultrametriche simboliche 106<br />

Bibliografia 108<br />

4<br />

86<br />

87<br />

88<br />

89<br />

90<br />

91<br />

93<br />

94<br />

94<br />

101<br />

101<br />

101


-Introduzione-<br />

proposito, un ringraziamento particolare è diretto al Professor Ludovico Piccinato che,<br />

come coordinatore del corso di dottorato, ha stimolato e sostenuto noi dottorandi a<br />

migliorare il nostro lavoro di formazione e di ricerca.<br />

9


2.1 Introduzione<br />

CAPITOLO 2<br />

LE ORIGINI DELLA DISTANZA ULTRAMETRICA<br />

Per comprendere In maniera più precisa gli elementi innovativi della distanza<br />

ultrametrica è opportuno risalire alle sue origini e quindi studiare il suo sviluppo in<br />

Matematica. Questa distanza è all'origine dell'analisi p-adica ed è sorta dall'esigenza di<br />

voler sostituire l'usuale cainpo dei numeri reali R e dei numeri complessi C con un<br />

campo più generale K, dotato di una funzione confrontabile con l'usuale valore assoluto.<br />

L'esistenza della disuguaglianza ultrametrica (anche detta disuguaglianza triangolare<br />

forte) permette di considerare concetti familiari come la continuità, la differenziabilità, lo<br />

sviluppo in serie, l'integrazione, etc. con "deviazioni" interessanti da quanto succede<br />

nell'analisi classica su R o C.<br />

Questo capitolo ripercorre il cammino fatto da Hensel per introdurre il vincolo<br />

ultrametrico e fornisce alcune indicazioni generali sul suo sviluppo successivo in<br />

Matematica. E' interessante rilevare come la prima disciplina diversa dalla Matematica in<br />

cui la distanza ultrametrica è stata utilizzata è proprio la Statistica, dove ha trovato<br />

ottimale applicazione la particolare conformazione dello spazio dotato di tale distanza<br />

(cfr. capitolo 3). I progressi conseguiti in 'Statistica hanno dato impulso al diffondersi<br />

delle <strong>ultrametriche</strong> anche nella Fisica statistica, in Biologia e nella Teoria della<br />

ottimizzazione (Rammal, Toulouse, Virasoro, 1986), confermando l'importanza di uno<br />

studio interdisciplinare.<br />

2.2 I numerip-adici<br />

Nel 1897 Kurt Hensel, ispirandosi al lavoro fatto nell'ambito della Teoria dei Numeri<br />

dal suo maestro Kronecker, introdusse la nozione di numeri p-adici. Sviluppando le<br />

ricerche di Kummer e Dedekind sulla fattorizzazione di un numero primo razionale,<br />

Hensel considerò la seguente espressione:<br />

00<br />

±Laipi, O::;'ai ::;'p-l,<br />

i=O<br />

dove p è un numero primo ed i coefficienti ai sono interi naturali. Que.sta sene<br />

rappresenta un numero intero x se<br />

'( d '+1) w'<br />

X == ao+a 1P+....+a,p mo p ,v l.


-<strong>Le</strong> origini-<br />

innovative ed inaspettate, che per molti anni rimasero inutilizzate. Quando nel 1906<br />

Fréchet introdusse le prime nozioni di spazio metrico, Hensel pensò di introdurle<br />

sull'insieme dei numeri p-adici.<br />

Per definire una funzione di distanza, la prima tappa consisteva nel definire per Qp<br />

l'analogo del valore assoluto definito sul campo dei reali; per ogni a €E Qp, viene definito<br />

il valore assoluto p-adico: ,<br />

.. dove h è la più alta poteJ;lza di p che divide a. E' facile verificare come tale valore<br />

assoluto soddisfi tutte le proprietà del valore assoluto classico (Dieudonné, 1960):<br />

i)lalp=o a=O,<br />

ii) labl p= lal pIbl p ,<br />

iii) la+bl p :::; lal p +Iblp'<br />

Nel caso dell'usuale valore assoluto Ixl = max(x,-x)e si ha Ix + xl> Ix I, se x:;é: 0, che<br />

costituisce in Matematica il Principio di Archimede. Poiché il valore assoluto p-adico<br />

verifica inoltre la seguente proprietà:<br />

la+bl :::; max(lal ,Ibl ),<br />

p . p p<br />

più restrittiva della disuguaglianza iii), avremo:<br />

violando il Principio di Archimede; il valore assoluto p-adico è per questo detto 110n<br />

archimedeo (o ullrametrico).<br />

2.4 La distanza p-adica<br />

Per mezzo del valore assoluto p-adico, Hensel definì quindi la distanza p-adica, che<br />

associa ad ogni coppia di numeri p-adici un reale non negativo:<br />

Grazie alle proprietà del valore assoluto p-adico, Hensel dimostrò che la distanza p-adica<br />

non solo verifica tutte le proprietà di una metrica, ma anche la seguente disuguaglianza:<br />

dp(a,c):::; max[dp(a,b),dib,c)],<br />

introducendo la disuguaglianza in seguito definita ultrametrica.<br />

12


-<strong>Le</strong> origini-<br />

Due numeri razionali sono quindi p-adicamente vicini se la loro differenza è divisibile<br />

per un'alta potenza ·di p. Per avere una idea intuitiva della distanza p-adica, si consideri<br />

per esempio p = 5; due. numeri sono S-adicamente più vicini, se la loro differenza è<br />

divisibile per un'alta potenza di 5. Si consideri a = 6 e b = 1, d 5 (6, 1) = 16-115 =5- 1 =1/5.<br />

Se si introduce un terzo elemento c = 7, si ha:<br />

d 5 (7,6) = 17 -615 =5-0 =1,'<br />

d 5(7, 1) =17 -115 =5- 0 =1.<br />

In questo modo 6 è più vicino ad 1 di quanto non lo sia 7: in particolare, il triangolo<br />

formato da 1, 6 e 7 è isoscele con 7 equidistante sia da 1 che da 6.<br />

L'ordine geometrico naturale dei numeri p-adici non è quindi lungo una retta reale ma,<br />

come verrà evidenziato, su di una struttura gerarchica; altro elemento innovativo fu<br />

quindi il concetto non usuale dell'esistenza di differenti <strong>distanze</strong> su uno stesso insieme.<br />

2.5 L'all1laHsi p-adlica<br />

La distanza p-adica permise ad Hensel di definire sull'insieme dei numeri p-adici, in<br />

parallelo a quanto fatto sui reali, una struttura topologica; egli considera come sistema di<br />

sottoinsiemi in Qp' gli intorni di ogni numero p-adico a formati da ipersfere costruite con<br />

il valore assoluto p-adico:<br />

co<br />

Egli evidenziò curiose proprietà come il fatto che la serie 'La; converge se e solo se<br />

la;l p -+ 0, mediante la quale definì l'esponenziale ed il logaritmo p-adico. Con la distanza<br />

data dall'usuale valore assoluto, Cantor aveva dimostrato che il campo dei reali poteva<br />

essere considerato come il completamento di Q; analogamente un allievo di Hensel<br />

dimostrò nel 1913 che anche Qp poteva essere considerato il completamento di Q<br />

mediante la distanza ottenuta con il valore assoluto p-adico.<br />

L'analisi p-adica (Schikhof, 1984) ripercorre gli usuali temi dell'analisi classica su R o<br />

C, considerando le interessanti implicazioni derivanti dalla disuguaglianza ultrametrica.<br />

Numerose sono le parti della Matematica per le quali esiste o è concepibile una<br />

corrispondente teoria ultrametrica: la Teoria dei Numeri, la Geometria algebrica, la<br />

Teoria dei gruppi, l'Analisi Funzionale, etc.<br />

L'introduzione del termine ultrametrico è dovuta a M. Krasner (1944) che, molti anni<br />

più tardi, con una comunicazione presentata alla Accademia francese delle Scienze,<br />

13<br />

;=1


-<strong>Le</strong> origini-<br />

evidenziò la generalità della struttura geometrica dello spazio ultrametrico, al di là del<br />

particolare contesto algebrico in cui la nozione era apparsa la prima volta.<br />

Questa comunicazione rappresentò l'occasione che consentì la conoscenza dello<br />

spazio ultrametrico; in seguito questo concetto trovò applicazione in discipline diverse<br />

dalla Matematica.<br />

14


-Aspetti geometrici-<br />

che u(ei> ej ) ::;; l', applicando la disuguaglianza ultrametrica, si avrà che u(ek' ej ) ::;; r.<br />

Anche il punto ej può essere allora considerato centro della ipersfera. O<br />

COROLLARIO 2.1<br />

Nello spazio ultrametrico''(E, u) due ipersfere che hanno una intersezione non nulla,<br />

sono concentriche.<br />

llim..:<br />

Ogni punto e; appartenente all'intersezione può essere preso come centro di entrambe<br />

le ipersfere. O<br />

COROLLARIO 2.2<br />

Due ipersfere non disgiunte nello spazio (E, u) con lo stesso raggio coincidono.<br />

llim..:<br />

Discende dal Corollario precedente. O<br />

COROLLARIO 2.3<br />

<strong>Le</strong> ipersfere con raggio di uguale lunghezza determinano una ''partizione /I dello<br />

spazio ultrametrico..<br />

D.im..:<br />

La relazione tra le coppie di punti di una ipersfera data dal suo raggio, costituisce una<br />

relazione di equivalenza. <strong>Le</strong> classi di equivalenza associate a tale relazione, costituiscono<br />

una partizione dello spazio ultrametrico. O<br />

TEOREMA 3<br />

Siano S ed S' due ipersjere non disgiunte nello spazio ultrametrico e siano e; E S e ej<br />

E S': la distanza u(e;, e) dipende da S edS'e non da e; e ej'<br />

D.im..:<br />

Siano ej, ek E S e ej E S'. Per il Teorema 2, u(ej,ek)


-Aspetti geometrici-<br />

Spazio degli interi 7=adici<br />

Figura 2<br />

19


-Aspetti geometrici-<br />

n unità statistiche<br />

Raggruppamenti gerarchici<br />

Figura 3<br />

20


1,5<br />

-La biiezione-<br />

4 ----------r------------,<br />

2 i------,r----'--,<br />

l -<br />

41.4 La lbnneznoH1le dii JolhmsoH1l<br />

------ -------<br />

I I<br />

a b c. d e<br />

1<br />

Figura 2<br />

La struttura geometrica dello spazio ultrametrico trova quindi una sua naturale<br />

rappresentazione nella teoria degli insiemi mediante le gerarchie indicizzate e viceversa.<br />

Approfondendo le proprietà dei primi schemi di aggregazione gerarchici, anche Johnson<br />

individua la corrispondenza tra schema gerarchico e la particolare metrica ultrametrica.<br />

Per ritrovare questa corrispondenza è necessario formalizzare la definizione di schema di<br />

aggregazione gerarchico applicato ad un certo insieme, determinando il procedimento<br />

biunivoco per trovare la distanza ultrametrica sullo stesso insieme.<br />

25


-La biieziolle-<br />

Si supponga di avere 11 oggetti, rappresentati dagli interi {l, ... , 11} e una successione<br />

di m+1 possibili partizioni in gruppi delle n unità, indicate con Co, Cl' ..., Cm' Ad ogni<br />

possibile partizione è associato un numero reale ai U = O,...,m), detto valore della<br />

partizione: Co è la partizione più disaggregata, tale cioè che ogni gruppo è costituito da<br />

una sola unità e ao= 0, mentre Cm è quella più aggregata, formata da un solo gruppo di<br />

n unità. La successione di valori ai , i = 1, ...,m, deve essere non decrescente (ai_! ::;; ai)<br />

così come le partizioni corrispondenti: Ci_le Ci (ogni gruppo in Ci è l'unione di gruppi in<br />

Ci_l)' Uno schema cosÌ"costituito è detto di aggregazione gerarchico.<br />

Si vuole dimostrare come, dato uno schema di aggregazione gerarchico su 11 unità, sia<br />

possibile associare ad esso una distanza ultrametrica e viceversa, data una distanza<br />

ultrametrica su 11 unità, possiamo costruire uno schema gerarchico di aggregazione.<br />

Si considerino due unità i e i'; riferendosi alla partizione più aggregata CIII , esse sono<br />

contenute sicuramente nello stesso gruppo. Sia k l'ultimo intero dell'insieme {O, 1,..., m}<br />

tale che, nella partizione C k , i e i' siano nello stesso gruppo e si definisca la distanza tra i<br />

e i' uguale al valore della partizione C k :'<br />

dei, i') =a k .<br />

Essa verifica gli aSSIomI sulla distanza ultrametrica: nel caso i=:Ei', la partizione più<br />

disaggregata che contiene i è Co e dU, i) = O.<br />

Inversamente se dei, i') = 0, allora i e i' sono nello stesso gruppo in· Co è. questo<br />

implica che i=i'. Vale· chiaramente anche la proprietà di simmetria d(i, i') = d(i', i), visto<br />

che l'ordine con cui si considerano le due unità all'interno di un gruppo è irrilevante ai fini<br />

del valore della partizione corrispondente. Per la verifica della disuguaglianza<br />

ultrametrica, siano i, i' e i" tre qualsiasi delle 11 unità e sia<br />

dei, i') =ah<br />

d(i', i") = a!c.<br />

Questo significa che i e i' sono nello stesso gruppo in C h ., mentre i' e i" sono nello<br />

stesso gruppo in C k . Data la struttura gerarchica delle partizioni, uno dei precedenti<br />

gruppi deve includere l'altro e questo gruppo corrisponde al più grande tra h e k. Sia l<br />

questo intero, allora in Cl"' i, i' e i" sono nello stesso gruppo. Dalla definizione di d si<br />

avrà<br />

dei, i") ::;; al<br />

ed essendo 1= max(h,k) e'le ah crescenti con il loro indice<br />

e quindi<br />

al = max ( ah' ak )<br />

26


-La biiezione-<br />

nell'analisi gerarchica dei gruppi; questo risultato teorico è alla base della maggioranza<br />

I<br />

degli algoritmi utilizzati per ottenere dei raggruppamenti gerarchici. Anche le procedure<br />

I<br />

esistenti prima della dimostrazione della corrispondenza biunivoca tra <strong>ultrametriche</strong> e<br />

gerarchie, assumono una nuova dimensione teorica, che permette di valutare con<br />

maggiore precisione i raggruppamenti ottenuti.<br />

28


-Modello euclideo edLr<br />

Figura 1<br />

Se si considera la disuguaglianza ultrametrica, tre punti del piano non solo devono<br />

formare un triangolo, ma un triangolo equilatero o isoscele con la base inferiore ai lati. ..<br />

Una prima conseguenza è che non sarà più possibile fissare un punto e tr


-Modello euclideo edLr<br />

Il luogo geometrico··è rappresentato dalla figura disegnata con tratto continuo: gli<br />

archi di circonferenza (di raggio AB e con centro una in A e l'altra in B) individuano i<br />

punti che con AB lato, formano un triangolo isoscele; ciascuno dei due punti C e C'<br />

forma con AB un triangolo equilatero e le due semirette con origine in C e in Cf,<br />

perpendicolari ad AB, indicano i punti che formano un triangolo isoscele di cui AB è la<br />

base (di lunghezza inferiore ai lati). Per individuare quindi sul piano euclideo un punto in<br />

modo da soddisfare la disuguaglianza ultrametrica rispetto a due assegnati, è necessario<br />

sceglierlo tra quelli delle precedente figura evidenziata.<br />

Per scegliere un quarto punto, sempre mantenendo il vincolo ultrametrico,<br />

supponendo di avere fissato tre punti A, B e C del piano in configurazione ultrametrica,<br />

si considerino a due a due i tre punti A, B e C assegnati e si costruisca per ciascuna<br />

coppia un luogo geometrico costituito dagli archi di circonferenza e le due semirette<br />

come visto sopra (fig. 3).<br />

Figura 3<br />

L'intersezione dei tre luoghi geometrici così individuati è costituita dagli stessi tre<br />

punti iniziali A, n e C. Il quarto punto deve allora necessariamente coincidere con uno di<br />

essi, producendo almeno una coppia di <strong>ultrametriche</strong> con lo stesso valore. Come prevede<br />

il Teorema di Holman, dati 11 = 4 punti "ultrametrici", per avere un insieme di<br />

<strong>ultrametriche</strong> tutte distinte la dimensione minima dello spazio euclideo in cui è possibile<br />

rappresentarli è n-l = 3, e quindi dal piano è necessario passare allo spazio euclideo<br />

tridimensionale; la figura che si ottiene è quella di un tetraedro le cui facce sono dei<br />

triangoli equilateri o isosceli con base inferiore ai lati (fig. 4).<br />

33


-Modello euclideo edLr<br />

D<br />

Figura 4<br />

5.4 <strong>Le</strong> <strong>ultrametriche</strong> e lo scaling multidimensionale<br />

Il teorema di Holman prevede tra le ipotesi che i punti siano tutti distinti e che quindi<br />

per essi le <strong>distanze</strong> <strong>ultrametriche</strong> siano strettamente positive. Ammettendo l'esistenza di<br />

<strong>ultrametriche</strong> nulle, la dimensione n-l dello spazio euclideo può essere ulteriormente<br />

ridotta.<br />

COROLLARlO (Critchley, 1986)<br />

1) Sia E un insieme' di 11 punti su cui è definita una distanza ultrametrica che assume<br />

anche valore nullo. E può essere rappresentato in uno spazio euclideo di dimensione<br />

inferiore a n-l.<br />

2) Una distanza ultrametrica è definita se e solo se la sua dimensione nello spazio<br />

euclideo è uguale a n-l.<br />

Dim.<br />

Si definisce sull'insieme delle unità E una relazione di equivalenza r tale che per ei'<br />

ej E E, ei r ej se u(eb ej) = O, dove 11(.) è la distanza ultrametrica tra le due unità<br />

appartenente alla matrice U. Sia n' il numero delle classi di equivalenza così determinate.<br />

Applicando il Teorema di Holman alle <strong>ultrametriche</strong> definite mediante la suddetta<br />

relazione di equivalenza, si ottiene dim(U) = n'- 1 nello spazio euclideo.<br />

Un indice di dissimilarità è definito se assume per coppie di unità distinte valori<br />

strettamente positivi (cfr. capitolo 6). In questo caso n' =n e quindi segue la tesi. D<br />

Considerando quindi <strong>ultrametriche</strong> non definite, Critch1ey evidenzia la possibilità di<br />

ridurre la dimensione n-l. Egli considera otto diverse trasformazioni monotone non<br />

decrescenti (date da tre diverse scelte binarie) che si possono effettuare sulla matrice di<br />

34


-Modello euclideo edLr<br />

costante da un punto ad una curva del piano. Dalla fig. 1, si consideri il quadrato<br />

inscritto nella circonferenza (fig. 6): esso rappresenta il luogo dei punti la cui distanza LI<br />

dall'origine O è costante.<br />

Figura 6<br />

Si introduce sempre il vincolo ultrametrico, fissando due punti A e B. Se si vuole<br />

determinare il luogo geometrico dei punti che con AB formano un triangolo equilatero o<br />

isoscele con la base inferiore ai lati (fig. 7), si può notare come i punti appartenenti ai lati<br />

del rettangolo (figura in tratto continuo), individuati dai quadrati inscritti nella<br />

circonferenza di raggio AB 'con centro in A e in B, formino con A e B ciascuno un<br />

triangolo isoscele di cui AB è un lato, mentre i vertici C e CI sono i punti che danno<br />

luogo a dei triangoli equilateri con AB. <strong>Le</strong> due semirette con origine in C e CI<br />

rappresentano i punti che formano con AB, base inferiore ai lati, un triangolo isoscele.<br />

37


-Modello euclideo edLr<br />

\ \<br />

\ \<br />

\<br />

Figura 7<br />

Analogamente a quanto si è fatto per la distanza euclidea, fissando tre punti A, B e C<br />

(con C scelto sul luogo ultrametrico evidenziato) si individui il quarto punto, sempre in<br />

modo da rispettare il vincolo ultrametrico. L'intersezione dei luoghi geometrici costruiti<br />

sui tre punti scelti a due a due (fig. 8) è costituita, oltre che dai tre punti inziali, anche<br />

dalla semiretta S. Il quarto punto giace ancora sul piano L l , a differenza del caso<br />

euclideo dove il Teorema di :E!0lman costringe alla rappresentazione tridimensionale. Ciò<br />

mostra graficamente quanto ipotizzato da Fichet, essendo per Il = 4, la dimensione<br />

uguale a n/2 = 2 (piano L l ).<br />

Uno stesso numero di <strong>distanze</strong> <strong>ultrametriche</strong> è quindi rappresentato con dimensione<br />

inferiore nello spazio rispetto allo spazio euclideo, evidenziando, più in generale, una<br />

rappresentazione delle dissimilarità dell'analisi dei dati, più "vantaggiosa" in L l che<br />

nell'usuale spazio euclideo.<br />

38


-Modello euclideo edLr<br />

s<br />

Figura 8<br />

39


CAPITOLO 6<br />

ApPROSSIMAZIONE ULTRAMETRICA DI UNA DATA DISSIMILARITA'<br />

6.1 Introduzione<br />

Introdotte le proprietà della distanza ultrametrica e illustrati i suoi aspetti geometrici,<br />

si pone il problema di utilizzare le sue particolarità teoriche direttamente nell'analisi dei<br />

dati; in questo capitolo si descrivono i metodi che permettono di rappresentare un<br />

insieme iniziale di osservazioni in uno spazio ultrametrico. Queste procedure vengono<br />

classificate nell'ambito delle tecniche dell'analisi dei gruppi (cluster ana/ysis) come<br />

metodi gerarchici poiché, come si è visto, rappresentare' dei punti in uno spazio<br />

ultrametrico implica automaticamente disporli in raggruppamenti gerarchici. Introdotta la<br />

forma in cui generalmente si presentano le informazioni sui dati e descritte le<br />

caratteristiche della classificazione di tipo gerarchico, si procede all'analisi delle tecniche<br />

che producono un'approssimazione ultrametrica a partire da un insieme di osservazioni.<br />

Non si è proceduto ad una se.mplice elencazione e descrizione dei metodi, ma si è voluto<br />

classificarli evidenziando il diverso ruolo della distanza ultrametrica in ciascuno di essi; è<br />

stato seguito un percorso graduale, in alcuni casi cronologico, per spiegare e giustificare<br />

la loro costruzione; i metodi più usati sono descritti con maggiore dettaglio, così come<br />

quelli che godono di notevolr'proprietà teoriche. Tra i metodi analizzati si è voluto dare<br />

notevole rilevanza a quelli che utilizzano la teoria dei grafi: a questo proposito vengono<br />

introdotte le <strong>distanze</strong> additive o arboree, il cui utilizzo permette non solo di determinare<br />

delle approssimazioni <strong>ultrametriche</strong> efficienti, ma anche di estenderle a strutture più<br />

generali, che sono descritte in dettaglio nel capitolo 8. Nei paragrafi successivi sarà<br />

quindi possibile ritrovare le procedure gerarchiche di analisi dei gruppi più comuni,<br />

implementate anche su molti packages statistici, così come sarà possibile rilevare<br />

l'esistenza di metodi meno noti che, pur non raggiungendo una importanza pratica, hanno<br />

permesso di chiarire molte proprietà teoriche delle <strong>distanze</strong> <strong>ultrametriche</strong>.<br />

6.2 La classificazione<br />

Nello studio dei fenomeni sociali, economici, fisici o biologici, si analizzano grandi<br />

quantità di dati, sintetizzando le informazioni a disposizione; la classificazione si pone<br />

l'obiettivo di dividere l'ampio insieme delle osservazioni iniziali in un numero di<br />

sottoinsiemi o classi, in modo che le osservazioni appartenenti alla stessa classe siano<br />

"simili" tra loro, mentre risultino "dissimili" dalle osservazioni appartenenti alle altre<br />

classi. <strong>Le</strong> classi non sono conosciute a priori, ma devono essere individuate tramite il


-Approssimazione ultrametrica-<br />

processo di classificazione: la conclusione può anche indicare che ogni tentativo di sintesi<br />

può comportare un'analisi erronea dei dati. <strong>Le</strong> procedure di classificazione prevedono la<br />

formazione di gruppi mutuamente esclusivi, tali cioè da formare u.na partizione<br />

dell'insieme iniziale di osservazioni, oppure prendono in considerazione gruppi che in<br />

parte si sovrappongono (clumping procedures); tale situazione, generalmente, è quella<br />

che si verifica più frequentemente.<br />

6.2.1 Scelta deBla misuu"a di diversità<br />

<strong>Le</strong> informazioni sui dati di un processo di classificazione sono sintetizzabili in una<br />

matrice quadrata P, la cui dimensione coincide con il numero delle n unità statistiche in<br />

esame; il generico elemento p(ei,ej) rappresenta una misura ,della diversità o similarità<br />

(in generale prossimità) esistente tra l'unità ei e l'unità ej appartenenti ad un insieme E.<br />

La costruzione di questa misura dipende da molti fattori quali la natura dei dati, la scelta<br />

delle variabili rilevate, le, finalità dell'analisi; è necessario infatti, non solo scegliere la<br />

funzione da associare ad ogni coppia di unità, ma anche selezionare le informazioni a<br />

disposizione, l'eventuale standardizzazione delle unità di misura delle variabili e<br />

l'introduzione di una ponderazione, se le variabili non concorrono in egual misura al<br />

processo di raggruppamento. Per l'illustrazione e l'analisi delle numerose misure di<br />

prossimità esistenti, si rimanda a testi specializzati sull'argomento (Sneath e Sokal, 1973,<br />

Anderberg, 1973, Cormack;:1971, Gower, 1985); l'analisi dipende comunque dalla scelta<br />

di queste misure e la loro costruzione non deve mai essere sottovalutata.<br />

Un indice di similarità è una funzione s(.,.) che associa ad ogni coppia di elementi di<br />

un insieme E un valore non negativo, in modo tale che:<br />

(i) s(ei,ei) = max 'è. s(ei,ej),ei ::f:. e), V(ei,e) EE xE<br />

(ii) s(ei,e) = s(e),eJ, V(ei,e) EE x E;<br />

. . . .<br />

si tratta quindi di un indice simmetrico, che assume valore massimo nella misura della<br />

similarità tra un elemento e se stesso. Si parla invece di indice di dissimilarità, quando si<br />

ha una funzione d(.,.) che associa ad ogni coppia di unità un valore non negativo, in<br />

modo tale che:<br />

(i) d(ei,ei) =0, Vei EE<br />

(ii) d(ei,e) = d(ej,e i ),V(ei,ej) EE x E.<br />

Tali funzioni hanno quindi proprietà molto generali (sono stati considerati casi in cui<br />

anche la simmetria viene meno, cfr. ad esempio, Constantine e Gower, 1978, Bove,<br />

1989); ciò pennette una facile costruzione sulla base delle scarse informazioni iniziali.<br />

Tale generalità può tuttavia dar luogo ad "incoerenze"; per esempio, pur essendo per una<br />

data coppia (e;, ej), ei ;t. ej' dee;, ej) = 0, risulta d(ei,eh) ::f. d(eh,ej)' Tali incoerenze sono<br />

41


-Approssimazione ultrametrica-<br />

dalla gerarchia indicizzata finale. Da un punto di vista geometrico, il metodo rende<br />

isoscele ogni triangolo iniziale, dandogli per base il lato più piccolo e per lati uguali<br />

quello più piccolo degli altri due.<br />

Il metodo del legame singolo è stato tra i primi e tra i più conosciuti metodi<br />

gerarchici; molti autori lo hanno proposto con diversi nomi, evidenzandone le proprietà<br />

teoriche. Esso è invariante rispetto a qualsiasi trasformazione monotona delle<br />

dissimilarità iniziali, poiché queste sono confrontate tramite l'operatore minimo o<br />

massimo. Nel paragrafo 6.4.2 verrà descritto come tale metodo abbia avuto<br />

successivamente una difetta interpretazione come una particolare approssimazione<br />

ultrametrica e, nel paragrafo 6.4.3, come sia possibile un più veloce sviluppo di calcolo<br />

mediante la teoria dei grafi.<br />

Nel caso di equidistanza di più classi di una partizione ad un dato passo, le classi<br />

aggregate al passo successivo saranno più di due, non 'producendo più una gerarchia<br />

binaria, vale a dire una gerarchia i cui gruppi sono tutti formati dalla fusione di due<br />

gruppi. Uno dei difetti del metodo è rappresentato dalla proprietà di concatenamento: se<br />

i dati iniziali possono essere rappresentati su una catena, cioè costituiscono una<br />

successione di elementi in cui la dissimilarità tra due qualsiasi elementi si ottiene .<br />

sommando le dissimilarità tra gli elementi intermedi, il metodo agisce in modo da .<br />

aggregare, ad ogni passo, le unità non ancora classificate ai gruppi esistenti, piuttosto<br />

che a formarne dei nuovi (fig. 4); non sarà così possibile separare chiaramente due gruppi<br />

se tra di essi esistono delle unità intermedie, con l'effetto di assegnare unità molto<br />

dissimili allo stesso gruppo. Questo difetto rende il metodo molto vulnerabile e i metodi<br />

successivi sono stati pensati anche per superare questa difficoltà.. Bisogna notare però<br />

che, in alcune applicazioni, l'effetto di concatenamento del metodo permette di spiegare<br />

meglio un certo fenomeno; in microbiologia, ad esempio, le specie da classificare sono<br />

talmente "vicine" da confondersi ed il metodo del legame singolo permette di evidenziare<br />

le forme intermedie e le mutazioni delle specie. Il nome legame singolo esalta il fatto che<br />

nelle dissimilarità esistenti tra due classi, una sola è la dissimilarità scelta (la dissimilarità<br />

minima); il metodo è perciò poco robusto perché è sufficiente un errore nel riportare una<br />

sola dissimilarità (coincidente con la dissimilarità minima tra due classi), per modificare la<br />

gerarchia ottenuta.<br />

46


a l a 2 a 3 a 4<br />

al O 1 2.1 3.3<br />

a 2 O 1.1 2.3<br />

a 3 O 1.2<br />

a 4<br />

-Approssimazione ultrametrica-<br />

b) Il metodo del legame com,pleto (S0rensen, 1948)<br />

O<br />

Per questo metodo la misura della dissimilarità tra due classi Ci e Cj è data dalla<br />

dissimilarità massima tra due loro elementi:<br />

d(G,C j ) = maxd(elc>e[)<br />

e"eC,<br />

e/eC J<br />

Come per il metodo del legame singolo, il metodo è invariante rispetto a qualsiasi<br />

trasformazione monotona dei dati ed è una particolare approssImazione ultrametrica delle<br />

dissimilarità iniziali (paragrafo 6.4.2). E' quindi poco robusto perché dipendente da una<br />

sola dissimilarità, ma non risente delle proprietà di concatenamento; la tendenza infatti è<br />

quella di formare gruppi compatti, ma troppo "chiusi", al punto di assegnare unità simili a<br />

gruppi diversi. Il metodo non fornisce un'unica gerarchia se nella matrice iniziale esistono<br />

delle dissimilarità uguali (presenza di ties); la tendenza è quella di costruire partizioni i<br />

cui gruppi abbiano lo stesso numero di elementi, ponendosi all'estremo opposto del<br />

metodo del legame singolo che tende a formare partizioni con numero di elementi<br />

disuguale (Hubert, 1972 e 1973). Dal punto di vista geometrico, il metodo rende isoscele<br />

ogni triangolo iniziale, assegnando per base il lato più piccolo, e per lato il maggiore<br />

degli altri due. Anche questo metodo è stata ripreso ed analizzato da molti autori e<br />

metodi successivi tendono a trovare una soluzione intermedia tra di esso ed il metodo del<br />

legame singolo.<br />

c) Il metodo del legame medio (Sokal e Michener, 1958)<br />

La dissimilarità tra due classi C; e Cj di numerosità 11; e l1j è misurata daIIa media deIIe<br />

dissimilarità tra le classi:<br />

47


-Approssimazione ultrametrica-<br />

Metodo ai ai b c AUTORE<br />

<strong>Le</strong>game singolo 1/2 1/2 O -1/2 Florekeal. (1951)<br />

<strong>Le</strong>game 1/2 112 O -1/2 S0rensen (1948)<br />

completo<br />

<strong>Le</strong>game medio ni /n;F n·/n" O O Sokal e Michener (1958)<br />

I IJ<br />

Mediana 1/2 1/2 -1/4 O Gower (1967)<br />

Mc Quitty 1/2 1/2 O O McQuitty (1966)<br />

Ward n, +nk 17, +nk -<br />

171J +nk llu +l1k nlJ +nk n k O Ward (1963)<br />

Centroide 11' /11" n·/n·· _11,n) O Sokal e Michener (1958)<br />

l· lJ I lJ<br />

11 2<br />

u<br />

Flessibile 1/2(1-x) 1/2(1-x) ! x


-Approssimazione uftrametrica-<br />

. . {d(X'Y) se d(x,y)? i<br />

dI (x,y) =<br />

i-l altrimenti<br />

con i variabile tra l e max[d(x,y)]. Quindi per ogni matrice Di si ricercano le partizioni<br />

x,y<br />

che minimizzano lo scarto assoluto; se una delle partizioni non verifica il vincolo<br />

gerarchico, per esse si può procedere in due direzioni:<br />

l) costruire le partizioni che verificano il vincolo gerarchico ma non sono a distanza<br />

minima da Di .,<br />

2) modificare le partizioni ottenute in precedenza per rispettare il vincolo gerarchico con<br />

la partizione al passo i mantenendo la sua distanza minima da Di .<br />

La matrice di <strong>ultrametriche</strong> corrispondente alla gerarchia indicizzata così ottenuta,<br />

sarà quella che minimizza il criterio (3). L'algoritmo di Defays ha una complessità<br />

computazionale elevata quando E è compostq da un numero di elementi superiore a 15, e<br />

non converge sempre verso un'unica soluzione. Questo resta comunque l'unico tentativo<br />

volto a minimizzare un criterio del tipo (3).<br />

d) Ultrametrica più. vicina in scarto quadratico<br />

Si consideri adesso il criterio (2) con a,=2:<br />

!J(d,li) = L[d(ej,ej)-u(ej,ej)t =Ild -ull·<br />

e1eE<br />

eJeE<br />

Si tratta di determinare l'ultrametrica con distanza euclidea minima da una dissimilarità<br />

iniziale. Questo tipo di ultrametrica ottimale è stata una delle prime ad essere ricercata,<br />

perché lo spazio euclideo è sempre stato lo spazio più "naturale" in cui proiettare questo<br />

genere di approssimazioni.<br />

I primi a porsi questo problema furono Sokal e Rohlf (1962), seguiti da Sokal e<br />

Sneath (1963); essi presero in considerazione una forma equivalente, in termini di<br />

massimizzazione, del coefficiente di correlazione cofenetico r 2 :<br />

r 2 =1-(11d - ull)2<br />

Ildll<br />

A causa della complessità combinatoria e della natura non convessa del problema,<br />

sono stati proposti molti algoritmi tutti conducenti a degli ottimi di tipo locale.<br />

Una prima famiglia di algoritmi, basata sulla rappresentazione ad albero delle<br />

<strong>ultrametriche</strong> (cfr. par. 6.4.3), è tesa a manipolare localmente i nodi e gli archi della<br />

rappresentazione arborea per ottimizzare l'approssimazione (Hartigan, 1967, Carroll e<br />

56<br />

l<br />

2<br />

(4)


-:-Approssimazione uln'ametrica-<br />

ripercorrendo il cammino "a ritroso" e attribuendo la dissimilarità minima di ogni<br />

iterazione (coincidenti con gli estremi inferiori degli intervalli di assimilabilità di ogni<br />

iterazione). Questo algoritmo ha una complessità computazionale elevata se il numero di<br />

elementi di partenza è superiore a 15, ma lo stesso Chandon ha proposto una sua<br />

approssimazione che "sveltisce" il procedimento per un numero di osservazioni più<br />

elevato.<br />

6.4.3 Ultrametriche e teoria dei grafi<br />

Ricercare una matrice di <strong>ultrametriche</strong> che sia la "migliore", approssimazione possibile<br />

di una matrice di dissimilarità, rappresentativa della informazione a disposizione sui dati,<br />

è l'obbiettivo principale che ci si è posti. Interpretando le 11 osservazioni da classificare<br />

come nodi o vertici e le dissimilarità esistenti tra le coppie di esse come archi di un<br />

grafo, è possibile rappresentare la matrice di dissimilarità come un grafo completo<br />

valutato; completo perché ogni nodo è collegato a tutti gli altri mediante un arco e<br />

valutato perché si associa ad ogni arco un valore dato dalla corrispondente dissimilarità.<br />

El evidente come, all'aumentare del numero dei nodi, la rappresentazione mediante un<br />

grafo completo diventi "inestricabile" e si renda necessario determinare un grafo parziale<br />

(con gli stessi nodi del grafo completo ma con un minor.numero di archi) che riassuma in<br />

maniera ottimale 'le dissimilarità esistenti. In particolare, tra tutti i grafi parziali, quelli che<br />

hanno una struttura ad albero sono i più ricercati per la loro semplicità rappresentativa.<br />

Un albero è un grafo connesso (esiste un cammino che congiunge tutte le coppie di<br />

vertici) senza cicli (non esistono cammini che cominciano e terminano nello. stesso nodo<br />

senza passare due volte per uno stesso arco). Si può quindi definire in modo equivalente<br />

un albero a n vertici, sia come un grafo connesso a n-l archi, sia come grafo a n-l archi<br />

senza cidi. La ricerca di una approssimazione ultrametrica di una data dissimilarità, può<br />

essere interpretata proprio in quest'ultima direzione, cioè come la determinazione di un<br />

albero particolare che riassuma l'informazione del grafo completo iniziale.<br />

a) Albero di lunghezza minima<br />

Prima di illustrare le nuove approssimazioni <strong>ultrametriche</strong> che scaturiscono da questa<br />

nuova rappresentazione mediante i grafi, è interessante osservare come si ottengano,<br />

tramite essa, dei vantaggi anche per alcune approssimazioni già analizzate.<br />

Definendo lunghezza di un albero, la somma delle lunghezze dei suoi archi date dai<br />

valori dellè dissimilarità ad essi associate, tra tutti i grafi parziali che sono degli alberi,<br />

l'albero di lunghezza minima (minimum spanning tree) , ha sempre avuto molta<br />

importanza per le sue ottime capacità rappresentative e, come sarà maggiormente<br />

evidente nel seguito,' per la sua interpretazione in termini di dassificazione gerarchica. Si<br />

passa quindi ad analizzare i principali algoritmi che determinano l'albero di lunghezza<br />

58


) I metodi di Hubert (1974)<br />

-Approssimazione ultrametrica-<br />

Hubert ha interpretato sia il metodo del legame singolo che quello del legame<br />

completo nel linguaggio della teoria dei grafi, determinando poi alcuni metodi di<br />

classificazione gerarchica "intermedi" ad essi.<br />

Si ricorda che un grafo è semplicemente connesso se ogni coppia di nodi è collegata<br />

per mezzo di una successione di archi adiacenti, e che il grafo è completamente connesso<br />

se esiste sempre un arco che collega ogni coppia di nodi. Il metodo del legame singolo<br />

costruisce una gerarchia di parti connesse semplicemente, mentre il metodo del legame<br />

completo costruisce una gerarchia di parti completamente connesse. Tra questi due<br />

estremi possono essere definiti otto diversi criteri che definiscono un grado intermedio di<br />

omogeneità e isolamento. Se ne ricordano 'alcuni: un grafo è le-nodi connesso se il<br />

numero minimo di nodi che occorre eliminare per "scollegarli" è superiore o uguale a le;<br />

un grafo è le-archi connesso se il numero minimo di archi che occorre eliminare per<br />

"scollegare" il grafo è superiore o uguale a le; un grafo è di grado minimo le, se ogni nodo<br />

è collegato ad almeno altri le nodi del grafo.<br />

Il principale vantaggio di questi metodi basati sulla teoria dei grafi risiede nella<br />

definizione chiara e precisa dell'omogeneità e dell'isolamento dei gruppi, mentre l'assenza<br />

sia di algoritmi efficaci in grado di classificare un numero elevato di osservazioni che di<br />

garanzie riguardo la minimizzazione dello scarto tra la dissimilarità iniziale e la<br />

ultrametrica finale, ne è il principale difetto.<br />

c) Ultrametriche e <strong>distanze</strong> arboree<br />

A partire dalla fine degli anni '70 (Tversky, 1977), si diffondono le strutture derivanti<br />

dalla teoria dei grafi soprattutto in psicometria. In particolare, viene definito un concetto<br />

di distanza che ben rappresenta i diversi tipi di dissimilarità utilizzati nell'analisi dei dati.<br />

Una distanza è detta additiva o arborea ("tree metric", in inglese e "distance arborée",<br />

in francese) se su un insieme finito E di elementi esiste un albero T, i cui nodi sono dati<br />

dagli elementi di E, i cui archi sono etichettati con un valore reale positivo in modo che<br />

la distanza tra due nodi i e j sia pari alla somma del valore degli archi del cammino per<br />

andare da i aj.<br />

Il primo importate risultato sulle <strong>distanze</strong> arboree è il Teorema dei 4 punti (Buneman,<br />

1974):<br />

per \:f i, j, le, l appartenenti ad E, una distanza è arborea se e solo se<br />

d(i,j) +d(le,l)::; max[d(i,le)+d(j,l),d(i,l)+d(j,le)].<br />

Si verifica facilmente come, ponendo ad esempio le = l, questa disuguaglianza implichi<br />

quella triangolare, verificando quindi le proprietà della distanza.<br />

Anche la distanza ultrametrica ha una interpretazione come distanza arborea. Per<br />

61


-Approssimazione ultrametrica-<br />

tradotto nella ricerca di una particolare distanza arborea che meglio riassuma le<br />

informazioni iniziali (Barthélemy e Luong, 1986). Gli sviluppi più recenti al problema di<br />

determinare la migliore approssimazione ultrametrica, si muovono proprio in questa<br />

direzione; sono stati messi a punto alcuni algoritmi che tentano di risolvere il problema<br />

della determinazione della distanza arborea "più vicina" ad una data dissimilarità,<br />

soprattutto in termini di minimi quadrati (Carroll e Pruzansky, 1980, De Soete, 1983,<br />

Roux, 1986, Brossier, 1985, Barthélemy e Luong, 1986, Sriram, 1990). Tutti questi<br />

algoritmi producono dei minimi locali, essendo una approssimazione di un problema NP<br />

complesso (l'ottimo globale ha una complessità di tipo esponenziale) che comunque,<br />

confrontati con le approssimazioni di Chandon e altri (1980), producono risultati<br />

"confortanti".<br />

El opportuno evidenziare come nell'ambito dello studio della distanza arborea, si sia<br />

analizzata la sua deç:omposizione in distanza ultrametrica ed un'altra componente; è<br />

possibile dimostrare infatti che ogni distanza arborea può decomporsi nella somma di una<br />

ultrametrica e di Una distanza detta centrale ("distance à centre", <strong>Le</strong> Calvé, 1986) e<br />

viceversa, la somma di una ultrametrica con una centrale determinano una distanza<br />

arborea.<br />

Alcuni risultati molto recenti infine (Bandelt, 1990 e Dahlhaus, 1993), studiano le<br />

proprietà delle <strong>ultrametriche</strong> e delle <strong>distanze</strong> arboree dal punto di vista matematico della<br />

teoria dei grafi, pur non essendo collegati direttamente al problema della classificazione.<br />

Sono stati costruiti degli algoritmi in grado di riconoscere, in tempi rapidi, se una<br />

distanza definita a partire da un determinato albero, è ultrametrica oppure è arborea; non<br />

è escluso in un futuro prossimo, l'utilizzo di queste tecniche per problemi più<br />

direttamente connessi alla classificazione.<br />

63


7.1 Introduzione<br />

CAPITOLO 7<br />

ANALISI DELLA SOLUZIONE ULTRAMETRICA<br />

Determinata un'approssimazione ultrametrica a partire da una dissimilarità data, SI<br />

presentano una serie di problemi di valutazione critica della soluzione trovata. Questo<br />

capitolo affronta le tematiche di questo tipo, attraverso un'analisi dettagliata degli<br />

argomenti che hanno trovato ampio riscontro in letteratura. Nel paragrafo finale viene<br />

data una veloce rassegna dei temi minori, che generalmente son appendice di argomenti<br />

principali.<br />

La scelta della partizione ottintale tra le partizioni della gerarchia indicizzata<br />

corrispondente alla approssimazione ultrametrica utilizzata, è tra gli argomenti che<br />

rivestono un ruolo importante. Qualunque sia l'approssimazione scelta infatti, all'interno<br />

del metodo usato non vi è nessuna indicazione su quale partizione scegliere per ottenere<br />

un raggruppamento appropriato dei dati iniziali. Illustrati i metodi più usati nella pratica<br />

corrente, viene presentata una nuova soluzione che sembra risolvere il problema in modo<br />

"oggettivo" rispetto ai criteri esistenti.<br />

Importante è ancora la cosiddetta teoria del consenso; prima di scegliere la partizione<br />

più adatta tra quelle della gerarchia scelta, si pone l'obbiettivo di convalidare (o non<br />

convalidare) la soluzione ultrametrica trovata, confrontandola con altre possibili<br />

soluzioni e determinando una sorta di ultrametrica "media", sintesi di tutte quante. La<br />

teoria del consenso evidenzia la necessità sempre crescente di costruire un sistema<br />

teorico che permetta di valutare la "robustezza" dei risultati anche nell'ambito dell'analisi<br />

dei gruppi di tipo gerarchico.<br />

Nell'ottica della teoria del consenso si dedica un paragrafo ad una interessante<br />

proposta di <strong>Le</strong>rman (1970) tesa a valutare a priori l'opportunità di condurre una<br />

classificazione gerarchica su un insieme iniziale di osservazioni.<br />

In molte situazioni di ricerca è necessario determinare un raggruppamento gerarchico<br />

di un insieme di osservazioni che rispettino un vincolo detto di contiguità; in questo<br />

caso, nel costruire la gerarchia di partizioni, bisogna conservare dei legami di "vicinanza"<br />

che esistono tra alcune osservazioni, modificando i metodi tradizionali per permettere<br />

agli elementi "contigui" di risiedere nello stesso gruppo. In questi contesti le<br />

<strong>ultrametriche</strong> si sono rilevate particolarmente utili.<br />

In questo capitolo inoltre, verranno affrontate alcune questioni non molto trattate<br />

nella letteratura corrente, c'ome le <strong>ultrametriche</strong> a tre vie, le <strong>ultrametriche</strong> generate da


-Analisi della soluzione-<br />

matrici parziali di dissimilarità, la generazione pseudo-casuale delle <strong>ultrametriche</strong> e<br />

l'ordine compatibile necessario per ottenere <strong>ultrametriche</strong> "senza incroci".<br />

Questo capitolo non esaurisce tutti i problemi che nascono dall'utilizzo delle<br />

<strong>ultrametriche</strong> nella classificazione; ogni metodo è suscettibile di varianti, a seconda del<br />

tipo di ricerca, a seconda della natura dei dati o del progresso della ricerca sulla teoria<br />

delle stesse <strong>ultrametriche</strong>.<br />

7.2 La sceUa della partnzaOlllle oUnmale<br />

I metodi di raggruppamento gerarchici non prevedono di fissare a priori il numero di<br />

gruppi in cui classificare i dati, ma forniscono una serie di partizioni delle osservazioni a<br />

partire da quella contenente tanti gruppi quanti sono gli elementi da classificare, per<br />

arrivare a quella costituita da un unico gruppo contenente tutti gli elementi (si parla in<br />

questo caso, come detto, di metodi aggregativi, mentre, nel caso inverso, quando si<br />

suddivide la partizione costituita da una sola classe, si parla di metodi gerarchici divisivi).<br />

Ogni partizione della gerarchia è ottenuta aggregando (o dividendo) gruppi della<br />

partizione precedente, ma nessun metodo gerarchico prevede criteri di scelta di una delle<br />

partizioni prodotte. Questa scelta si impone però nelle applicazioni pratiche e numerose<br />

sono state le proposte per risolvere questo problema. Milligan e Coopero (1985) hanno<br />

esaminato in maniera dettagliata 30 regole di arresto (si definisce così una procedura che<br />

determina la scelta di una partizione tra quelle fornite da un metodo gerarchico) tra<br />

quelle più frequentemente usate in letteratura ed hanno confrontato, mediante alcune<br />

simulazioni, i diversi risultati. I lavori successivi a quello di Milligan e Cooper non hanno<br />

portato nuovi elementi nel campo teorico, ma risultano degli approfondimenti di<br />

procedure esistenti sulla base di nuovi strumenti, soprattutto di tipo informatico.<br />

Nell'articolo dei due autori statunitensi, si ritrovano alcuni dei metodi più utilizzati:<br />

- Calinsld e Harabasz (1974)<br />

Secondo questa procedura si costruisce il seguente rapporto:<br />

trB /trW<br />

k-1 n-k<br />

dove n e k sono rispettivamente il numero di osservazioni ed il numero dei gruppi della<br />

partizione in esame. Si deve anche calcolare la traccia di B e di W (le cosiddette matrici<br />

Between e Within), i cui elementi sono gli scarti dalla media al quadrato, calcolati "tra" i<br />

gruppi e "all'interno" dei gruppi. Viene scelta la partizione che assumerà il valore<br />

"<br />

massimo di questo rapporto.'<br />

65


-Duda e Hart (1973)<br />

-Analisi della soluzione-<br />

In questo caso l'indice assume la forma che segue:<br />

Je(2)<br />

Je(l)<br />

dove Je(2) è la somma degli scarti al quadrato quando si hanno due gruppi e Je(l)<br />

quando il gruppo è uno solo. Viene rifiutata l'ipotesi di un solo gruppo quando il<br />

precedente rapporto è più piccolo di uno specifico valore critico. Tale valore viene<br />

calcolato in funzione di molti termini tra cui la dimensione del campione ed il numero di<br />

osservazioni.<br />

-Mojena (1977)<br />

Si considerano le misure dei differenti livelli di fusione della procedura gerarchica e si<br />

seleziona il numero di gruppi corrispondente al primo livello rj della gerarchia tale che<br />

rj+l > r+ ks y<br />

dove ro, r}> ... ,rn-l sono i livelli di fusione corrispondenti rispettivamente ad n, n-l, ..., 1<br />

gruppi, r e Sy la media e la deviazione standard corretta delle rl e k una cqstante.<br />

Mojena suggerisce per k un intervallo di valori tra 2.75 e 3.50, mentre Milligane Cooper<br />

raggiungono risultati più soddisfacenti per k = 1.25.<br />

I criteri precedenti sono quelli che danno risultati migliori rispetto a tutti gli altri<br />

analizzati mediante simulazioni. Come si può facilmente osservare, queste procedure<br />

propongono un criterio "esterno" alla natura dei gruppi e la scelta del suo valore critico<br />

risulta "soggettiva", basata spesso su' opinioni personali, senza tener conto delle<br />

informazioni iniziali sui dati. Gli autori di· tali procedure giustificano l'oggettività della<br />

scelta proprio nella completa estraneità della costruzione dell'indice dai dati,<br />

dimenticando che l'analisi dei gruppi deve rilevare una struttura esistente sulle<br />

osservazioni, senza introdurre elementi "esterni" e "forzare" le conclusioni.<br />

Fisher e Van Ness (1971), seguendo l'approccio di Jardine e Sibson (1968), hanno<br />

formulato alcune proprietà che ogni ragionevole procedura di analisi dei gruppi dovrebbe<br />

rispettare; queste proprietà·tendono a conservare le iniziali dissimilarità o <strong>distanze</strong><br />

esistenti sui dati. Ad esempio, una proprietà auspicabile è'quella di suddividere i dati in<br />

gruppi tali che i coefficienti di similarità degli elementi nello stesso gruppo ("within­<br />

group coefficients") siano geperalmente più alti dei coefficienti degli elementi in gruppi<br />

diversi ("between-group coefficients"). Una partizione in classi di questo tipo è detta ben<br />

strutturata (Rubin, 1967) ed esprime in maniera essenziale la forma "naturale" dei gruppi<br />

esistenti sui dati.<br />

66


-Analisi della soluzione-<br />

Il risultato principale sulla partizione ben strutturata minimale è riassunto con il<br />

teorema seguente; si rimanda all'articolo originario per la dimostrazione:<br />

TEOREMA 1 (Castagnoli, 1978)<br />

Sia E un insieme finito di elementi sul quali è stato definito un indice di dissimilarità<br />

d; allora esiste una ed una sola partizione ben strutturata minimale di E.<br />

La proprietà' di simmetria dell'indice di dissimilarità d non è necessaria nella<br />

dimostrazione del precedente Teorema: è sufficiente infatti considerare, nel calcolo del<br />

massimo diametro dei gruppi, la maggiore tra le due <strong>distanze</strong> non simmetriche e,<br />

ricercando la minima distanza tra i gruppi, la minore tra le due. Anche la proprietà 1)<br />

dell'indice di dissimilarità può essere indebolita e sostituita da<br />

d(ei> ei) = O, Ve l EE,<br />

assumendo che tra due elementi di dissimilarità nulla vale la proprietà transitiva:<br />

In questo caso, aggregando prima gli elementi di dissimilarità nulla, il Teorema 1 resta<br />

valido.<br />

7.2.2 La partizione benstrutturata minimale edi metodi gerarchici<br />

Una volta definita la partizione ben strutturata minimale e dimostrata la sua unicità, si<br />

verifica come essa sia sempre determinata dai metodi gerarchici.<br />

TEOREMA 2<br />

Tra le partizioni fornite dai metodi di raggruppamento che producono una struttura<br />

gerarchica sui dati, esiste sempre la partizione ben strutturata minimale.<br />

Il Teorema 1 vale in particolare anche per le dissimilarità che soddisfano ulteriori<br />

proprietà, come la disuguaglianza ultrametrica:<br />

Data una matrice di <strong>ultrametriche</strong>, è possibile costruire a partire da essa uno schema di<br />

raggruppamento gerarchico e, viceversa, data una struttura gerarchica sui dati, è<br />

possibile costruire una distanza ultrametrica sulle osservazioni (cfr. capitolo 4). Poiché<br />

quindi esiste una ed una sola partizione ben strutturata minimale per ogni matrice di<br />

<strong>ultrametriche</strong>, per la precedente biiezione, questa partizione è una della successione<br />

gerarchica di partizioni. D<br />

68


-Analisi della soluzione-<br />

discrepanze, più aggregata di quella ben strutturata minimale. Il tempo di calcolo<br />

dell'indice ai è proporzionale al numero di confronti necessari per determinare le<br />

discrepanze in una partizione; a questo fine è necessario confrontare ogni coppia di<br />

elementi appartenenti allo stesso gruppo della partizione in esame con lo split della<br />

partizione stessa. Si definisce infatti split di una partizione P i (cfr. ad esempio Delattre e<br />

Hansen, 1980) il più piccolo degli splits dei gruppi; lo split di un gruppo G i è la minima<br />

tra le dissimilarità tra un elemento di G i ed un elemento in ognuno degli altri gruppi della<br />

partizione Pio Ogni volta che la dissimilarità di una coppia di elementi è maggiore dello<br />

split della corrispondente partizione, si conterà quindi una discrepanza: questa<br />

operazione richiede un tempo di calcolo proporzionale a 0(n 2 ) che deve essere ripetuto<br />

al limite per gli n-l passi dell'algoritmo gerarchico. Nel complesso quindi il calcolo<br />

dell'indice ai necessita di un tempo proporzionale a 0(n 3 ).<br />

Seguono ora i passi dell'algoritmo:<br />

Passo l<br />

Immettere la matrice di dissimilarità ed effettuare l'ordinamento in modo nOll<br />

crescente dei suoi elementi in una struttura di heap.<br />

Immettere la prima partizione P j fornita dal metodo gerarchico prescelto e porre<br />

D(P) = Oe M(Pj) = primo elemento della lista ordinata.<br />

Passo 2<br />

Immettere la partizione successiva P; e determinare il massimo diametro dei<br />

gruppi D(p;)·e la minima distanza tra i gruppi M(PJ<br />

Passo 3<br />

Se D(P;) < M(P;) memorizzare la partizione come ben strutturata e andare al<br />

passo 5.<br />

Calcolare l'indice ai e memorizzarlo con la partizione P; corri!!Jpondente.<br />

Passo 5<br />

Se i = n-2, stampare l'ultima partizione ben strutturata memorizzata e la serie<br />

degli indici ai con le corrispondenti partizioni non ben strutturate, altrimenti<br />

tornare alpasso 2.<br />

Si osservi come l'ultima partizione costituita da un solo gruppo (i = 11-1) non venga<br />

considerata, perché per essa non ha senso la definizione di partizione ben strutturata;<br />

inoltre, avendo i gruppi delle partizioni fornite dal metodo aggregativo gerarchico<br />

numerosità decrescente, l'ultima partizione ben strutturata memorizzata sarà sicuramente<br />

71


-Analisi della soluzione-<br />

<strong>Le</strong> api Hoplites producta sono rappresentate da una matrice di <strong>distanze</strong> (basate su dati<br />

standardizzati) tra Il forme di una particolare specie di ape (Tav. II, Michener, 1970).<br />

l 2 3 4 5 6 7 8 9 lO 11<br />

l O<br />

2 0,940 O<br />

3 1,229 0791 O<br />

4 1,266 0847 0,303 O<br />

5 1,507 1,331 1,070 1,026 O<br />

6 1,609 1,306 0778 0573 1,175 O<br />

7 1,450 1266 1,475 1506 1,829 1,876 O<br />

8 1,239 1,286 1,510 1,540 1908 1,832 1,655 O<br />

9 1,493 1,160 0,848 0792 0,965 0,978 1,847 1,761 O ,<br />

lO 1,494 1,396 1497 1528 1724 1,687 1954 l 733 1,721 O<br />

11 1348 1,238 . 1,352 1,385 1,724 1559 1.844 1,608 1,596 0.645 O<br />

l, Hop/ites gracilis; 2, subgraci/is; 3, interior; 4, bernardina,' 5,panamintana; 6, producta; 7, colei; 8,<br />

elongata; 9, uvularis; lO, grinelli,' Il, septentriona/is.<br />

Tavola II<br />

Everitt (1993) ha confrontato le gerarchie ottenute dall'applicazione del metodo del<br />

legame singolo, del legame completo e del legame medio. <strong>Le</strong> corrispondenti tre serie di<br />

partizioni sono state fatte analizzare dall'algoritmo, ottenendo la stessa partizione ben<br />

strutturata miniinale in 8 gruppi:<br />

{3,4,6}, {lO,Il},{1},{2},{5}, {7},{8},{9}.<br />

La Tavola III evidenzia la serie degli ai corrispondenti ai tre metodi gerarchici: in tutti i<br />

casi la successione è crescente, ma l'incremento maggiore è nel passaggio da 4 a 3<br />

gruppi. La partizione in 4 gruppi sembra quindi essere la più aggregata con un<br />

"accettabile" numero di discrepanze:<br />

{3,4,5,6,9},{1O,11},{l,2,8},{7} (legame completo)<br />

{l,2,3,4,5,6,9},{ lO,Il},{7},{8} (legame singolo e medio).<br />

Numero di <strong>Le</strong>game <strong>Le</strong>game <strong>Le</strong>game<br />

gruppI singolo medio completo<br />

ai (%) ai (%) ai (%)<br />

7 2,083<br />

6 3,512 2,128 2,721<br />

5 9,936 3,101 3,101<br />

4 7,163 7,163 4,878<br />

3 16,374 16,374 10,681<br />

2 20,667 20,667 28,968<br />

Tavola III<br />

73


-Analisi della soluzione-<br />

In figura 5 è riportato un esempio per il calcolo di H (Chandon e Pinson., 1981). Nella<br />

tavola sono riportate sulle colonne le coppie di dissimilarità in ordine non decrescente e<br />

sulle righe le teme di elementi. Con MIN si indica la dissimilarità intermedia più piccola,<br />

con MED quella mediana e con MAX quella più grande. La X indica la coppia<br />

intermedia alla tema corrispondente. Per verificare l'ipotesi nulla di non classificabilità<br />

gerarchica, <strong>Le</strong>rman propone di simulare H mediante le estrazioni ripetute dall'insieme<br />

delle possibili teme con probabilità uniforme. Ottenuto un gran numero di valori simulati<br />

di H, calcolando la media E(H) e lo scarto a(H) della distribuzione simulata, si osserva<br />

se la quantità IH - E (H)1 è superiore a 2 a(H); si potrà rifiutare l'ipotesi nulla al livello<br />

di significatività del 95%.<br />

o 2 5 7 16<br />

2 O 6 9 16<br />

5 6 O 7. lO<br />

7 9 7 O 15<br />

16 16 lO 15 O<br />

Matrice di dissimilarità<br />

:s:: 1-2<br />

TERNE<br />

1-3 2-3 1-4 3-4 2-4 3-5 4-5 1-5 2-5 Ll<br />

h<br />

1-2-3 MIN MED MAX O<br />

1-2-4 MIN MED X MAX 1<br />

1-2-5 MIN MED MAX O<br />

1-3-4 MIN MED MAX O<br />

1-3-5 MIN MED X MAX 1<br />

2-3-4 MIN MED MAX O<br />

2-3-5 MIN MED X X MAX 2<br />

1-4-5 MIN MED MAX O<br />

3-4-5 M1N MED O<br />

2-4-5 M1N MED X MAX 1<br />

5<br />

H= lO . lO = 0.05<br />

Figura 5<br />

80


-Analisi della soluzione-<br />

E' il caso del metodò del legame singolo, alterato in modo da aggregare ad ogni passo i<br />

due gruppi che hanno la dissimilarità più piccola tra unità contigue (Monestiez, 1977,<br />

Fischer, 1980). Tradotto nel linguaggio della teoria dei grafi, questo procedimento si<br />

riduce alla determinazione dell'albero di lunghezza minima (cfr. capitolo 6) sul grafo di<br />

contiguità, grafo i cui nodi rappresentano le osservazioni e i cui archi connettono coppie<br />

di elementi contigui, pesati dal corrispondente valore della dissimilarità. Una semplice<br />

dimostraziOne del fatto che questa gerarchia non può presentare inversioni, è otterlibile<br />

sostituendo le dissimilarità tra coppie di unità non contigue con un valore infinito; la<br />

costruzione della gerarchia del legame singolo sull'insieme delle dissimilarità così<br />

modificato, riproduèe tutti i passi dell'algoritmo tradizionale e le dissimilarità infinite non<br />

saranno mai utilizzate. Come nel caso tradizionale, anche il metodo modificato risente<br />

dell'effetto del "concatenamento" (le unità tendono ad aggregarsi nel gruppo più grande<br />

esistente). Per questo motivo sono stati costruiti algoritmi più efficienti in grado di<br />

produrre la gerarchia del legame singolo vincolata (Murtagh, 1984, Cheriton e Tarjan,<br />

1976, Yao, 1975).<br />

Un metodo alternativo per esprimere il legame di contiguità, consiste nell'effettuare le<br />

aggregazioni tra gruppi per i'quali esista un legame di contiguità per almeno un elemento<br />

appartenente a ciascun gruppo. Con questo vincolo, "più debole" del precedente, il<br />

metodo del legame completo costruisce gerarchie senza inversioni (Murtagh; 1985b,<br />

Ferligof e Batagelij, 1982). Ma anche il metodo del legame completo ha il difetto<br />

opposto all'effetto di concatenamento, cioè tende a formare gruppi di uguale numerosità.<br />

Per questo motivo si è allora cercato di apportare delle modifiche al metodo di Ward che<br />

minimizza la varianza; Webster e Burrough (1972) hanno utilizzato la contiguità<br />

"debole" vista nel legame completo, mentre <strong>Le</strong>bart (1978) introduce anche un'ulteriore<br />

restrizione sul massimo numero di elementi che deve contenere un gruppo, per cui se un<br />

gruppo supera questo limite, viene rimosso interamente dagli stadi successivi<br />

dell'algoritmo. Queste ed altre versioni più recenti (Beaulieu e Goldberg, 1989, Tilton,<br />

1990) non presentano il problema delle inversioni.<br />

Batagelij e Ferligoj (1982) hanno aggiornato la formula di Lance e Williams (che<br />

racchiude molti tra i più usati metodi aggregativi gerarchici, cfr. cap. 6), modificando<br />

opportunamente i coefficienti in modo da fornire le versioni modificate del metodo del<br />

legame completo edi Ward senza inversioni.<br />

Il problema· generale di tutti questi algoritmi è quello di salvaguardare nello stesso<br />

tempo la compattezza dei gruppi e la contiguità delle unità: A questo scopo è stato<br />

costruito un sistema basato sulla combinazione delle dissimilarità iniziali tra le coppie di<br />

unità ele dissimilarità rappresentanti la misura della contiguità; Webster e Burrough<br />

(1972) utilizzano diverse combinazioni additive e moltiplicative delle due dissimilarità,<br />

mentre Perruchet (1983) e Murtagh (1982) usano il prodotto delle due, ma con il<br />

82


-Analisi della soluzione-<br />

ricalcolo separato delle dissimilarità tra i gruppi ad ogni passo dell'algoritmo. In questi<br />

casi, i differenti pesi relativi delle dissimilarità modificano la classificazione risultante.<br />

Un limite degli algoritmi citati è dato dal fatto che sono stati "testati" su particolari<br />

insiemi di dati, mentre è necessario ancora un lavoro di tipo "empirico" per capire quali<br />

tra di essi possono essere utilizzati in maniera universale (Murtagh, 1985a).<br />

7.5.2 Athllali direttive di ricerca<br />

La ricerca di gruppi con vincoli di contiguità comincia ad investire metodi anche<br />

diversi dai gerarchici e nuovi campi di .applicazione come il riconoscimento delle forme<br />

("pattern recognition") e l'analisi delle immagini ("image processing"). Gordon (1981),<br />

basandosi sulla teoria dei grafi, ha costruito un algoritmo che può produrre delle<br />

partizioni anche gerarchicamente "annidate"; egli minimizza gli scarti al quadrato tra la<br />

misura delle osservazioni e la misura del baricentro del gruppo a cui le osservazioni sono<br />

contigue. Ha anche introdott? delle variabili "barriera", che permettono di sottolineare in<br />

maniera più precisa i confini dei gruppi, fornendo una soluzione alternativa alla<br />

minimizzazione degli scarti quadratici. De Soete (1987), modifica la sua soluzione<br />

proposta per le <strong>ultrametriche</strong> tradizionali (cfr. capitolo 6), proponendo la ricerca di una<br />

ultrametrica vincolata che ottimizza lo scarto quadratico tra essa e la dissimilarità di<br />

partenza; questa soluzione può essere facilmente estesa al caso di dissimilarità<br />

incomplete (cfr. par. 7.5)<br />

Per una rassegna bibliografica dei metodi più recenti sviluppatisi nell'ambito della<br />

teoria del riconoscimento delle forme e dell'analisi delle immagini, si fa riferimento a<br />

Murtagh (1985, 1994) e alla rassegna critica di Zani (1993).<br />

Bisogna comunque sottolineare come notevoli sviluppi della teoria della<br />

classificazione vincolata, sono sopraggiunti grazie al sempre più frequente uso della<br />

teoria dei grafi e all'abbandono delle gerarchie che troppo spesso escludono partizioni<br />

ottimalidal punto di vista della contiguità e continuano ad avere complessità<br />

computazionali elevate (Hansen, Jaumard, Simeone, Doring, 1993).<br />

Per concludere sulle <strong>ultrametriche</strong> vincolate, si vuole fare cenno ad un possibile filone<br />

di ricerca di tipo grafico per valutare la necessità del loro effettivo utilizzo; Hansen et al.<br />

(1993), ma, anche prima, Diday (1986), hanno fornito una rappresentazione modificata<br />

del dendrogramma, in modo da tenere conto delle rispettive posizioni delle osservazioni<br />

che vengono classificate. In base a questo tipo di visualizzazione è possibile controllare<br />

se l'eventuale contiguità tra gli elementi è stata rispettata nel corso dell'aggregazione; si<br />

ha così l'opportunità di valutare se sia il caso di adottare un'approssimazione ultrametrica<br />

di tipo vincolato o meno.<br />

83


7.6 Altre questioni sulle <strong>ultrametriche</strong><br />

-Analisi della soluzione-<br />

In questo paragrafo sono accennati alcuni argomenti riguardanti le <strong>ultrametriche</strong>, casi<br />

particolari di problemi principali analizzati in precedenza. Per eventuali approfondimenti<br />

si fa riferimento alla letteratura indicata, letteratura spesso limitata, soprattutto perché i<br />

temi sono tuttora in evoluzione e non sempre hanno raggiunto risultati consolidati e<br />

definitivi.<br />

La matrice di dissimilarità, rappresentante le informazioni iniziali sui dati, non è<br />

sempre completa di tutti i suoi elementi; si verificano casi in cui le dissimilarità non sono<br />

definite per tutte le coppie di osservazioni. Questo tipo di dissimilarità, dette parziali, si<br />

presenta generalmente ·in 'due tipi di situazione (Brossier, 1994): nel caso in cui la<br />

classificazione stessa dei dati è "parziale" o quando le dissimilarità parziali sono uno<br />

stadio intermedio del processo di classificazione. Una situazione tipica si presenta nei<br />

problemi detti di "unfolding": dato un insieme E bipartito in due insiemi A e .;r, si<br />

conoscono le dissimilarità all'interno di A e di.;r, ma non le dissimilarità "tra" coppie di<br />

elementi di A e X I metodi di "unfolding" ricercano un'approssimazione ultrametrica su E<br />

a partire dalle dissimilarità precedenti (De Soete, DeSarbo, Fumas, Carroll, 1984).<br />

Brossier (1994) ha definito delle condizioni necessarie ci sufficienti affinché una<br />

dissimilarità parziale possa essere approssimata con una ultrametrica; è stato inoltre<br />

fornito un possibile processo di passaggio dall'una all'altra.<br />

Un problema nato recentemente è la generazione casuale di <strong>ultrametriche</strong>. Un<br />

approccio alternativo alla teoria del consenso per valutare la classificazione gerarchica<br />

ottenuta, consiste nel confrontare le gerarchie costruite con determinanti metodi di<br />

classificazione, con delle gerarchie ottenute casualmente sulle stesse osservazioni.<br />

Mentre la generazione casuale di alberi ed alberi graduati annovera la costruzione di<br />

diversi algoritmi, le procedure per generare <strong>ultrametriche</strong> e quindi alberi con livelli<br />

casuali di fusione, sono solo ai primi tentativi (Lapointe e <strong>Le</strong>gendre, 1991 e Van Cutsem,<br />

Flajolet, Zimmerman 1993). Queste procedure prevedono prima la generazione casuale<br />

dei livelli di fusione e poi due vie alternative: o si genera direttamente la matrice di<br />

<strong>ultrametriche</strong>, ,tenendo conto dei precedenti livelli di fusione, o si generano i nodi<br />

dell'albero a cui poi si associano sempre i precedenti livelli.<br />

Considerando anche una matrice di dissimilarità a tre vie (cfr., ad esempio, Coppi,<br />

1986), una matrice cioè in cui si considera una terza dimensione che può essere, ad<br />

esempio, rappresentata dal tempo in cui si è effettuata la misura tra le osservazioni, si<br />

presenta il problema della determinazione della corrispondente approssimazione<br />

ultrametrica. A questo proposito De Soete e Carroll (1989) hanno esteso il loro<br />

algoritmo di approssimazione di tipo quadratico costruito per il caso classico "a due vie"<br />

(cfr. capitolo 6); questa procedura prevede la formazione di più ultrametdche affiancate,<br />

sottoposte al vincolo di avere la stessa topologia. Joly e <strong>Le</strong> Calvé (1994) definiscono la<br />

84


-Analisi della soluzione-<br />

disuguaglianza ultrametrica per tre vie, in base alla quale estendono gli usuali algoritmi<br />

gerarchici, che analizzano ad ogni passo non più coppie, ma triplette di osservazioni.<br />

Un ultimo importante problema è stato analizzato da Diday (1982, 1985) e nasce<br />

sempre dal confronto di più classificazioni gerarchiche. Tra le difficoltà che si incontrano<br />

nel sintetizzare più gerarchie, esiste quella riguardante l'ordine delle osservazioni:<br />

sovrapponendo più dendrogrammi costruiti sullo stesso insieme di elementi posti sempre<br />

nello stesso ordine, si va incontro all'eventualità di creare degli incroci. Si ha un incrocio<br />

quando il ramo verticale di un elemento viene "tagliato" da un ramo orizzontale (si veda<br />

come esempio l'incrocio cOf!ispondente all'elemento d del dendrogramma in fig. 6).<br />

6- ,-----,<br />

5-<br />

3- r---'"'---...,<br />

2- .......--t--''---t<br />

1- - '--<br />

a b c d e<br />

Figura 6<br />

La presenza di incroci danneggia la leggibilità della classificazione, soprattutto se essa<br />

è il risultato della sovrapposizione di più gerarchie. Diday ha studiato teoricamente la<br />

nozione di incrocio, strettamente connesso con l'ordine delle osservazioni, determinando<br />

le condizioni per avere gerarchie senza incroci, particolarizzando al caso delle<br />

<strong>ultrametriche</strong>, il concetto generale della "compatibilità" tra un ordine ed una dissimilarità<br />

(cfr. capitolo 8).<br />

85


-<strong>Le</strong> estensioni delle <strong>ultrametriche</strong>-<br />

ha affrontato in maniera sistematica, cogliendo gli aspetti originali che le dissimilarità<br />

definite in tale contesto (ultraminime) possono dare. Viene qui ripreso il lavoro di Diday<br />

e arricchito del contributo di autori precedenti, indicando nuove linee di sviluppo che<br />

meglio permettono di giudicare l'effettiva rappresentabilità delle osservazioni con il<br />

modello gerarchico; tale studio può indicare un altro modo di valutare la "robustezza"<br />

dei risultati, problema che, come ricordato in precedenza, diviene sempre più importante<br />

anche nell'analisi gerarchica dei gruppi.<br />

<strong>Le</strong> estensioni delle <strong>ultrametriche</strong> sono quindi numerose al punto che, in tempi<br />

recentissimi, si è sentita la necessità di dare loro una sistematizzazione matematica più<br />

rigorosa per poter meglio analizzare le relazioni esistenti tra di esse; a questo proposito si<br />

è introdotto uno schema intuitivo che permette di visualizzare alcune loro relazioni.<br />

"<br />

L'argomento analizzato in questo capitolo è di recentissima evoluzione ed è destinato<br />

a svilupparsi ancora molto, dal momento che non solo consente dei modelli di<br />

rappresentazione più aderenti alla realtà, ma genera anche delle interessanti strutture<br />

algebriche, importanti da un punto di vista teorico, ma destinate anche ad evidenziare la<br />

loro validità applicativa.<br />

8.2 K - uUrametrncl1le<br />

Jardine e Sibson (1971) definiscono una gerarchia indicizzata in funzione di una<br />

relazione di equivalenza. Una gerarchia è una particolare successione di partizioni di un<br />

insieme dato ed esiste una naturale corrispondenza biunivoca tra le partizioni di un<br />

insieme, e le relazioni di equivalenza definite su di esso. Come noto, una relazione di<br />

equivalenza su un insieme E è un sottoinsieme r di ExE, che verifica le seguenti<br />

proprietà:<br />

i) (e;,eJ Er per "de; EE (proprietà riflessiva)<br />

iii)(e;,ek) Er e (ebej) Er => (et ,e) Er per "de;,ej,ek EE (proplietà transitiva) .<br />

Se r è una relazione di equivalenza su E, allora gli insiemi Ce, ={e j : ( e;, e)} E r} con<br />

e; ed ej .E E, formano una partizione di E. Inversamente, se gli insiemi {Ca} formano<br />

una partizione di E, allora la relazione U(Ca X CJ è una relazione di equivalenza. In<br />

a<br />

questo modo è possibile descrivere i gruppi di ogni livello della gerarchia mediante le<br />

classi di equivalenza della relazione associata. Da questa interpretazione della gerarchia<br />

indicizzata, è possibile ricavare sempre la corrispondenza biunivoca con le' <strong>ultrametriche</strong>,<br />

sfruttando essenzialmente la proprietà transitiva della relazione r. Se ad ogni livello si<br />

vogliono avere dei gruppi che possano anche "sovrapporsi", è sufficiente generalizzare<br />

87


-<strong>Le</strong> estensioni delle u/trametriche-<br />

la relazione l' senza più richiedere l'osservanza della proprietà transitiva. <strong>Le</strong> classi di<br />

insiemi corrispondenti ad una relazione riflessiva e simmetrica, possono avere<br />

intersezione non vuota, pur rispettando, tra gruppi di differenti livelli, la stessa struttura<br />

"annidata" del caso gerarchico. Sulla base di questo nuovo modello, Jardine e Sibson<br />

costruiscono dei metodi di·cluster analysis che generalizzano gli usuali metodi gerarchici;<br />

tra questi, si ricordano i metodi definiti Bk' vincolati in modo che ad ogni liveIIo<br />

l'intersezione tra due gruppi non può contenere più di k-l elementi di E; se il numero di<br />

unità comuni a due gruppi è maggiore, questi vengono fìJsi in uno solo. L'algoritmo è<br />

simile a quello del metodo del legame singolo, che si ritrova nel caso k=l (insiemi con<br />

intersezione vuota). La relazione mediante la quale sono costruite le classi di insiemi,<br />

verifica una proprietà k-tra;lsitiva; essa consiste nel sostituire all'insieme C deIIa<br />

precedente definizione di transitività, un particolare insieme S di cardinalità k mediante il<br />

quale ottenere il vincolo sulla intersezione di k-l elementi. In base a questa proprietà è<br />

possibile ricavare, come nel caso classico, la disuguaglianza ultrametrica che, in questo<br />

caso, è però più "debole" e viene detta k-u/trametrica:<br />

u{e"e j ):::; max{u{eh,eZ):eh ESU{e"e j },ez.ES}<br />

dove ej ed ej E E, S c E e ISI = k. L'algoritmo di Jardine e Sibson non ha tuttavia<br />

riportato risultati efficienti; esso rappresenta comunque il primo tentativo di<br />

generalizzare i metodi gerarchici ed ha rappresentato la base di partenza per gli autori<br />

successivi che hanno lavorato nel campo delle estensioni <strong>ultrametriche</strong>.<br />

I metodi B k sono stati ripresi da Hubert (1974) che ne ha dato una interpretazione<br />

mediante la teoria dei grafi. <strong>Le</strong> classi di insiemi costruite sulla base di una relazione<br />

riflessiva, simmetrica e k-transitiva, possono essere interpretate come sottografi -­<br />

completi massimali (maximallinked sets in inglese e cliques in francese); se E è l'insieme<br />

iniziale delle osservazioni interpretate come nodi di un grafo e le loro dissimilarità le<br />

lunghezze degli archi, un sottografo completo massimale è definito mediante un<br />

sottoinsieme D dell'insieme iniziale dei nodi e con gli stessi archi esistenti sul grafo<br />

"padre" relativi aIIe coppie di D. A seconda di come vengono definiti questi sottografi, è<br />

possibile ottenere diversi algoritmi tra cui queIIo di Jardine e Sibson; questi algoritmi<br />

fanno uso deIIa teoria esistente per la determinazione dei sottografi completi massimali,<br />

determinando classi di gruppi sovrapposti, che comunque rappresentano deIIe<br />

approssimazioni non ancora efficienti nella pratica.<br />

8.3 <strong>Le</strong> dissimilarità robinsoniane<br />

Si è fatto già cenno alla eventuale presenza di incroci in una gerarchia indicizzata (cfr.<br />

par.7.5). Studiando le condizioni che diano la possibilità di costruire le gerarchie senza<br />

88


3<br />

Piramide<br />

2 ._._._._ _._._._ r-"--'-\<br />

-<strong>Le</strong> estensioni delle <strong>ultrametriche</strong>-<br />

o 1 2 3 4<br />

Figura 1<br />

80303 Piramidi e d!issimilarità robill1sollliane<br />

E ="{ 1,2,3,4}<br />

P= { n,{l}, {2}, {3}, {4},<br />

{2,3}, {1,2,3}, {3,4} }<br />

f(P i )= card (P i )-1, V P i di P<br />

In analogia a quanto fatto per le <strong>ultrametriche</strong> e le gerarchie indicizzate (cfr. cap. 4), è<br />

possibile dimostrare chèl'indice di dissimilarità introdotto da una piramide indicizzata in<br />

senso largo è una dissimilarità robinsoniana (Diday, 1986). Più precisamente, se a partire<br />

dalla piramide indicizzata, per ogni coppia di osservazioni appartenenti a E, si considera<br />

il gruppo "più basso" nella rappresentazione che contiene entrambi gli elementi, il valore<br />

dell'indice f corrispondente a. tale gruppo, identifica il valore della dissimilarità<br />

robinsoniana della coppia di osservazioni (fig.2).<br />

91


-<strong>Le</strong> estensioni delle <strong>ultrametriche</strong>-<br />

{PIRAMIDI INDICIZZATE IN (biiezione )<br />

SENSO LARGO }<br />

v<br />

{GERARCHIE INDICIZZATE} ( biiezione)<br />

8.3.4 Algoritmi lPiramidali<br />

Figura 3<br />

{DISSIMILARITA'<br />

ROBINSONIANE}<br />

v<br />

{ULTRAMETRICHE}<br />

Una volta clùarite le questioni teoriche relative alle piramidi, sono stati messi a punto<br />

degli algoritmi per la loro costruzione a partire da una matrice di dissimilarità qualsiasi.<br />

Diday (1986) ha costruito un algoritmo ascendente, quindi le classi sono formate per<br />

aggregazioni successive come nel caso gerarclùco ed è stato adottato un indice di<br />

aggregazione del tipo del legame singolo; è presente anche un adattamento del metodo<br />

dei vicini reciproci (cfr. cap.6). Bertrand (1986) ha migliorato questi algoritmi,<br />

generalizzandoli a qualsiasi indice di aggregazione della formula di Lance e Williams ed<br />

introducendo delle tecniche per chiarire la leggibilità grafica della piramide.<br />

La ricerca in questo campo è ancora molto attiva e numerosi sono i problemi aperti; si<br />

tratta soprattutto di ripercorrere la teoria esistente sulle <strong>ultrametriche</strong> e determinare<br />

l'equivalente per gli indici piramidali. Così Diday (1986) ha determinato l'indice<br />

piramidale sotto-dominante e dimostrato la sua unicità, determinando inoltre l'unicità<br />

dell'indice piramidale superiore minimale (unicità non esistente per la corrispondente<br />

ultrametrica). Un altro problema è quello di cercare un'interpretazione nella teoria dei<br />

grafi della piramide derivante dal metodo del legame singolo, così come è stato<br />

individuato l'albero di lunghezza minima per le <strong>ultrametriche</strong>: Did


-<strong>Le</strong> estensioni delle <strong>ultrametriche</strong>-<br />

possibilità di ottenere un rappresentazione delle osservazioni iniziali in k gruppi che<br />

possono sovrapporsi. Bertnind (1992) si è occupato dello studio delle dissimilarità<br />

robinsoniane da un punto di vista geometrico, proiettando questi indici in spazi come<br />

quello euclideo o Li; questo studio ha molti punti in comune a quanto è riportato in<br />

questa tesi per le <strong>ultrametriche</strong> (cfr. cap.5).<br />

8.4 <strong>Le</strong> pseudo-gerarchie<br />

Parallelamente alle rappresentazioni tramite le piramidi. indicizzate, sono state<br />

individuate altre rappresentazioni come estensione delle gerarchie; Fichet (1984) infatti,<br />

ha introdotto le pseudo-gerarchie, strutture che verranno definite illustrando le<br />

differenze e i molti punti di contatto con le piramidi.<br />

8.4.1 Dissimilarità fortemente robinsoniane<br />

La prima differenza con le rappresentazioni di Diday è data dalla generalizzazione<br />

delle <strong>ultrametriche</strong> considerata; una dissimilarità s è dettafortemente di Robinson se:<br />

i) esiste un ordine Ll compatibile con dR;<br />

ii) per ogni tema (e;. ei ek) di elementi di E ordinata secondo Ll, cioè eio ejo ek si ha:<br />

a) dR(ejt ek) =dR(ej' ek) => se eJ..'o eh allora dR(ejt eh) =dR(ei eh)<br />

b) dR(e;. ek) = dR(e;. ej) => se eho ei allora dR(eh. ek) = dR(eh. ej)'<br />

In altri termini una dissimilarità è fortemente robinsoniana se esiste un ordine Ll su E<br />

tale che la matric.e M(dR,Ll) sia una matrice di Robinson ed inoltre verifichi le due<br />

condizioni supplementari a) e b).<br />

E' facile verificare (Durand e FiChet, 1988) che l'insieme delle <strong>ultrametriche</strong> è incluso<br />

nell'insieme delle dissimilarità fortemente di Robinson, il quale è evidentemente incluso<br />

nell'insieme delle dissimilarità robinsoniane.<br />

8.4.2 Pseudo-gerarchie indicizzate e dissimilaritàfoftementef( P i ) = O;<br />

2) se P i e P j sono due parti distinte di Ps e sono tali che P i c'P j => f( P i )


-<strong>Le</strong> estensioni delle <strong>ultrametriche</strong>-<br />

negativi, ma valori appartenenti ad un insieme più generale, parzialmente ordinato che<br />

ammette un minimo. Critchley e Van Cutsem generalizzano la biiezione in tre direzioni:<br />

una prima direzione considera l'insieme E delle osservazioni da classificare o come finito<br />

o come arbitrario; la seconda considera l'insieme dei valori che assume la dissimilarità<br />

iniziale: o i reali non negativi o un insieme parzialmente ordinato che ammette un minimo<br />

o infine un insieme arbitrario; la terza direzione prevede l'utilizzo di dissimilarità o<br />

simmetriche o non simmetriche (in questo caso si parla di predissimilarità).<br />

Tali estensioni sono tuttora in evoluzione soprattutto dal punto di vista teorico.<br />

Consolidata la teoria, sarà interessante individuare la loro valenza "pratica" per costruire<br />

dei metodi di classificazione sempre "più vicini" alla struttura iniziale dei dati.<br />

8.6 Ultrametrica duale<br />

Una distanza ultrametrica è stata definita come un indice di dissimilarità che soddisfa<br />

la disuguaglianza ultrametrica; se i simboli di questa disuguaglianza vengono sostituiti<br />

con i loro "complementari" (vale a dire "::;" con ";:::" e "max" con "min"), otteniamo la<br />

funzione duale a quella ultrametrica, chiamata da Diday (1986) ultraminima. Essa è<br />

quindi una funzione u' che associa ad ogni coppia di elementi di un insieme E un valore<br />

non negativo in modo che:<br />

i) Ve;,ej EE, u'(e;,ej ) =u'(ej,e;) (simmetria)<br />

ii)Ve; ,ej,ek E E, u' (e;,ej) ;?; min[u' (e;,ek)'u' (ek,ej)] (disuguaglianza ultraminima)<br />

Dalla disuguaglianza ultraminima, sostituendo ad ej l'elemento e; si ottiene:<br />

da cui si deduce che l'ultraminima è un indice di similarità (cfr cap.6).<br />

Finora' i dati iniziali sono stati rappresentati da matrici di dissimilarità, associate a<br />

coppie di osservazioni; in generale si può far riferimento a matrici di somiglianza<br />

(dissimilarità o similarità) che devono essere rappresentate con una certa<br />

ap'prossimazione in uno spazio appropriato. Il problema non perde di generalità<br />

considerando una similarità invece che una dissimilarità, dal mo Il1 ento che i valori<br />

dell'indic,e per le coppie di elementi differenti giocano un ruolo importante nella sua<br />

rappresentazione ed interpretazione. In effetti è sempre possibile trasformare una matrice<br />

di dissimilarità in una di similarità conservando i valori della dissimilarità per le coppie di<br />

elementi distinti e sostituendo ogni termine della diagonale principale della matrice di<br />

dissimilarità con l'elemento più grande della riga o colonna corrispondente.<br />

Se il modello gerarchico e quindi lo spazio ultrametrico non sembra adatto a<br />

rappresentare i dati iniziali, può essere' utile, in alternativa alle estensioni viste in<br />

96


-<strong>Le</strong> estensioni delle <strong>ultrametriche</strong>-<br />

precedenza, valutare se è più adatta una approssimazione di tipo ultraminimo, date le<br />

caratteristiche "opposte" rispetto a quella di tipo ultrametrico.<br />

8.6.1 L'1!.llUramin11ima come reiaziOlme "sfuocata 99<br />

L'ultraminima è stata introdotta la prima volta come nusura della similarità<br />

"soggettiva" (Tamura, 1971), ricorrendo alle funzioni sjuocate ("fuzzy", in inglese,<br />

Ilfiou Il, in francese). Ad esempio, nel classificare una serie di odori, per valutare la<br />

vicinanza tra di essi, si fa ricorso a dei soggetti che esprimono mediante un valore<br />

generalmente compreso tra Oe 1, la loro valutazione. Si definisce relazione sfi/Ocata ad<br />

un passo ("one-step fuzzy relation") una fumionef 1 che associa alle coppie di elementi<br />

di E un valore compreso tra Oe l (estremi inclusi) in modo che:<br />

i)li(e;,e;) = l, \::le; EE<br />

ii)li(e; ,e j ) =li(e j ,(};),\::le; ,e j EE<br />

Si definisce relazione sfiwcata ad n passi, la funzione fn costruita come segue:<br />

fn(ei'e) = sup min[fl(ei'e1),ile1,e 2 ), ..·,flen_1,e j )], n = 2,3,....<br />

ll)..e2 ....,en-l eE<br />

Da questa definizione è facile verificare che:<br />

per cui, per il principio di convergenza monotona, esiste il seguente limite:<br />

f(e;,e) = lim fn(e;,e j ),'<br />

n-+CXl<br />

la funzionef, detta slmilitudine, verifica il lemma seguente:<br />

il che coincide con la disuguaglianza ultraminima. Tamura utilizza la similitudine f per<br />

definire delle classi di equivalenza su E; si dice che e; ed ej hanno una relazione più forte<br />

di À (e;R;te j); se e solo se f (e;, e j ) :?:;L Tramite la disuguaglianza ultraminima, è facile<br />

dimostrare che R'). è una relazione di equivalenza su E; è all()ra possibile classificare le<br />

osservazioni, utilizzando la partizione indotta da questa relazione con un appropriato À.<br />

Per una successione' di valori di À compresi tra O e l, si ottiene una successione di<br />

partizioni "annidate" in maniera gerarchica. Tamura utilizza quindi la similitudine (che<br />

coincide con una ultraminima che assume valori in [0,1]) per classificare gerarchicamente<br />

i dati, senza cogliere la sua natura duale rispetto all'ultrametrica.<br />

Questo aspetto viene rilevato da Dunn (1974), ma continua ad essere utilizzato come<br />

modo alternativo per costruire un modello gerarchico. Viene anche introdotta<br />

97


-<strong>Le</strong> estensioni delle <strong>ultrametriche</strong>-<br />

allontanando gli elementi vicini in termini della somiglianza e mantenendo lontani gli<br />

elementi che inizialmente sono tali. Si può sintetizzare quanto detto, dicendo che<br />

l'ultraminima superiore minimale "rappresenta bene gli opposti", così comel'ultrametrica<br />

sotto-dominante "rappresenta bene le somiglianze".<br />

806.4 Costruzione dii uitraminime<br />

Utilizzando il Teorema 4, è possibile sfruttare tutti gli algoritmi costruiti per<br />

determinare una approssimazione ultrametrica, prendendo poi l'inverso per ottenere una<br />

ultraminima di U'(X). Una migliore strategia consiste nel prendere prima l'inverso della<br />

misura di somiglianza iniziale, nel calcolarne poi l'approssimazione ultrametrica e quindi<br />

nel prendere l'inverso per ottenere l'ultraminima desiderata; questa approssimazione<br />

produce dei valori più vicini alla misura di somiglianza iniziale rispetto alla procedura<br />

citata all'inizio. Prendere l'inverso di una ultrametrica calcolata con le usuali procedure<br />

(quindi una misura che tende a "deformare" le <strong>distanze</strong> maggiori, conservando le minori),<br />

significa non essere fedele né alle piccole <strong>distanze</strong> (perché se ne prende l'inverso), né alle<br />

grandi. La seconda strategia permetterà invece di determinare una ultraminima che resta<br />

fedele alle grandi <strong>distanze</strong>.<br />

806.5 Ultraminime come indlici anti-piramidlaH<br />

La dualità esistente tra ultraminime e <strong>ultrametriche</strong>, consente di determinare delle<br />

"estensioni" delle ultraminime così come fatto per le <strong>ultrametriche</strong>; è quindi possibile<br />

definire un ordine anti-compatibile 11' con una misura di somiglianza s (eli e j 8 ek =><br />

s(e;,ek) '-5, min(s(ejJej),s(ej,e k ))) e una matrice anti-Robinson (matrice simmetrica con<br />

elementi delle righe e colonne decrescenti a partire dalla diagonale principale). Si<br />

dimostrerà quindi che ad ogni ultraminima u' è possibile associare un ordine tJ.', tale che<br />

u' e 11' siano anti-compatibili o, equivalentemente, costruire la matrice M (11', tJ.') in modo<br />

che sia anti-Robinson. Come fatto per le <strong>ultrametriche</strong>, conservando la proprietà delle<br />

ultrarninime sull'esistenza di un ordine anti-compatibile con esse e sopprimendo la<br />

disuguaglianza ultrarninima, si potrà immergere l'insieme delle ultraminime in un insieme<br />

più generale, definito dagli indici anti-piramidali; in corrispondenza di tali indici si potrà<br />

costruire una rappresentazione piramidale allti-indicizzata.<br />

80606 Gerarchie e piramidli anti-indlicizzate<br />

La rappresentazione di una ultraminima di U'(X) può essere ottenuta tramite una<br />

gerarchia indicizzata: esiste,'infatti la biiezione tragerarchie indicizzate ed <strong>ultrametriche</strong>,<br />

ed una tra queste ultime e le ultraminime di U'(X). In pratica da una ultraminima, si<br />

calcola la sua inversa per avere l'ultrametrica corrispondente a cui si dà una<br />

101


-<strong>Le</strong> estensioni delle <strong>ultrametriche</strong>-<br />

rappresentazione tramite una gerarchia indicizzata; affinché· questa gerarchia sia più<br />

fedele all'ultraminima, è necessario esprimere l'altezza dei livelli con i valori<br />

dell'ultraminima. Queste altezze non avranno l'usuale interpretazione, perché tanto più<br />

sono piccole quanto più gli individui loro associati devono essere considerati distanti.<br />

Questo significa anti-indicizzare la gerarchia e le lunghezze dei rami associati agli<br />

elementi singoli possono essere modificate per tenere conto dei valori di J0 = u'(eÌ'eJ,<br />

per ogni i (fig. 5). Analoga rappresentazione può essere data per l'estensione delle<br />

piramidi indicizzate alle anti-indicizzate.<br />

fiÌ\<br />

a c<br />

5 .<br />

3 1..---,._.....<br />

d<br />

2 I...--r--- .<br />

o<br />

gerarchia<br />

anti-indicizzata<br />

8.6.7 Dati caotici e coerenti<br />

Figura 5<br />

a b c d<br />

a 5 3 2 l<br />

b 4 2 l<br />

c 5 l<br />

d 2<br />

ultrantinirna<br />

\<br />

indotta<br />

<strong>Le</strong> considerazioni fatte a .proposito della capacità delle ultraminime di rappresentare<br />

bene gli opposti (cioè di deformare le piccole <strong>distanze</strong>, restando fedele alle grandi),<br />

evidenziano la loro particolare natura volta ad esprimere una situazione in cui le<br />

osservazioni iniziali sono "di.stanti" l'una dall'altra e disposte in modo "caotico" (Diday,<br />

1986) in modo da non poter essere racchiuse in un rigido schema di raggruppamento<br />

gerarchico. Un indice di dissimilarità può essere allora meglio rappresentato da una<br />

ultraminima, piuttosto che "forzatamente" da una ultrametrica.<br />

102


-<strong>Le</strong> estensioni delle <strong>ultrametriche</strong>-<br />

triangoli sono equilateri o isosceli con la base minore dei lati, mentre nel secondo sono<br />

compresi anche i triangoli scaleni (quindi anche i triangoli isosceli con base maggiore dei<br />

lati). Trasformando le ultraminime in dissimilarità, ponendo uguale a zero la misura tra<br />

elementi identici e mantenendo il loro valore per le coppie di elementi differenti, la loro<br />

intersezione con le metriche è data dall'insieme dei triangoli equilateri (insieme che<br />

coincide anche con l'intersezione con le <strong>ultrametriche</strong>) e dall'insieme dei triangoli isosceli<br />

con base maggiore dei lati. I rimanenti triangoli dell'insieme delle ultraminime sono<br />

isosceli con base maggiore dei lati, ma 11011 verificano la disuguaglianza triangolare; essi<br />

sono quindi dei triangoli in senso più generale, dal momento che disegnarli<br />

significherebbe usare "implicitamente" una distanza euclidea e quindi considerare<br />

l'intersezione con l'insieme delle metriche.<br />

Sarebbe interessante in questo schema poter introdurre le dissimilarità robinsoniane e<br />

quelle fortemente robinsoniane; si è visto che le prime contengono le seconde che loro<br />

volta contengono le <strong>ultrametriche</strong>, ma non sono state esaminate le loro relazioni rispetto<br />

alle metriche. Questa considerazione ci permette di sottolineare ancora la "ricchezza" del<br />

modello ultrametrico rispetto al più diffuso modello metrico; tramite la nozione di<br />

incrocio è stato possibile introdurre il concetto di ordine compatibile con la data<br />

dissimilarità, per estenderlo poi alle altre <strong>ultrametriche</strong> e quindi alle sue estensioni. La<br />

nozione di incrocio scaturisce tuttavia dalle gerarchie indicizzate in corrispondenza<br />

biunivoca con le <strong>ultrametriche</strong>; per una qualsiasi metrica questa. corrispondenza non è<br />

garantita e non ha senso per essa determinare un ordine compatibile e di conseguenza le<br />

sue relazioni con le dissimilarità di Robinson.<br />

808 Cell1lll1ln dii 3lll1laRisi snmlboHca<br />

Un ultimo argomento. suile estensioni delle <strong>ultrametriche</strong> fa riferimento ad uno dei<br />

recentissimi sviluppi che sta avendo l'Analisi dei Dati. I metodi classici prevedono<br />

generalmente il trattamento di dati strutturati m una matrice del tipo<br />

"individui xvariabili", i cui. elementi rappresentano il valore della modalità di una<br />

determinata variabile che assume un determinato individuo. I dati reali, tuttavia, non<br />

sempre presentano una struttura di questo tipo, ma sono più complessi, per cui è<br />

necessario effettuare delle trasformazioni per riportarli alla forma usuale, con una<br />

conseguente perdita di informazione. Molte volte, ad esempio, i dati non sono riferiti ad<br />

un singolo individuo, ma ad una famiglia di individui, per cui un elemento della matrice<br />

dei dati presenta una lista di modalità delle diverse variabili presentata da ogni individuo.<br />

L'analisi simbolica (Diday, 1989), sorta dall'esigenza di trattare i dati in forma<br />

complessa, si è sviluppata dapprima nel definire questo tipo di dati come "oggetti<br />

simbolici", poi nell'applicare ad essi sia le tecniche classiche dell'analisi dei dati, sia nuove<br />

tecniche "simboliche" orientate specificatamente all'analisi di questo nuovo tipo di dati.<br />

105


Bibliografia<br />

(gli articoli halmo il titolo in corsivo)<br />

Adams E.N., (1972), Consensus tec}miques and the comparison oj taxonomic trees,<br />

Syst. Zool., 21, 390-397.<br />

Aschbacher M., Baldi P., Baum E.B.,Wilson R.M., (1987), Embedding oj ultrametric<br />

spaces infinite dimensionai structures, SIAM IAlg.Maths., 8, 564-577.<br />

Bandelt H. l e Dress A W., (1993), Weak hierarchies associated wl/h SilJlilarity<br />

measllres: an additive clustering tecnique, Technical Report, Deskrete Strukturen in<br />

der Mathematik, UniversiHit Bielfeld, Germany.<br />

Bandelt R.I., (1990), Recognition oj tree metrics, SIAM Journal of discrete<br />

mathematics, 3, 1-6.<br />

Barthélemy lP. e Luong N.X., (1986), Représentations arborées de mesures de<br />

dissimilarité, Statistique et Analyse des données, 11, 20-41.<br />

Barthélemy.J.P., Janowitz M. F., (1991), A formai theory ofconsensus, SIAM Journal<br />

ofDiscrete Mathematics, 4, 305-322.<br />

.Barthélemy lP., <strong>Le</strong>clere B., Monjardet B. (1986), On thè uSe of ordered sets in<br />

problems ofcompar.ison and consensus ofclassifications, Journal of Classification, 3,<br />

187-224.<br />

Batbedat A, (1990), <strong>Le</strong>s approches pyramidalesdansla c1assification arborée, Paris,<br />

Masson.<br />

Beaulieu l1\1., Goldberg M.;. (1989), Hierarchy in picture segmentation: a step wise<br />

optimization approach, IEEE transactions on P.AM.I., 11, 150-163.<br />

Bénzecri lP., (1965), Sur Ies algorithmes de c1assifieation, Cours ISUP (1965-1966),<br />

Rellnes et Paris.<br />

Bénzecri lP., (1973), L'Analyse des données, Tome 1, DUNOD, Paris.<br />

Bertrand P., (1986), Etude de la représentation pyramidale, Thèse de 3° cyc1e,<br />

Univcrsité de Paris-Dauphine, France.<br />

Bertrand P., (1992), Propriétés et caracterisations topologiqlles d'une représentation<br />

pyramidale, Mathematiques, Informations et Sciences Humaines, 30,5-28.<br />

Bertrand P., Diday E., (1990), Une généra/isation des arbres hiérarchiques: les<br />

représentations pyramidales, Revue de Statistique Appliquée, ·38, 53-78.<br />

Boorman S.A e Oliver D.C., (1973), Metrics in spaces offinite trees, Journai of<br />

Mathematical Psycology, lO, 26-29.<br />

Bove G., (1989), Nuovi metodi di rappresentazione di dati di prossiinità, Tesi di<br />

dottorato, II ciclo, Dip. di Stat., Probo e. Stat Appl., Università degli Studi "La<br />

<strong>Sapienza</strong>" di Roma.


- Bibliografia -<br />

Hansen P., Jaumard B., Simeone B., Doring V., (1993), Maximum split clustering under<br />

connetivity constraints, <strong>Le</strong>s Cahiers du GERARD, Québec, Canada.<br />

Hartigan lA., (1967), Representation of similarity matrices by trees, Journal of<br />

American Statistical Association, 62, 1140-1158.<br />

Hensel, K., (1897), in'Dieudonné (1978).<br />

Holman E.W., (1972), The relation between hierarchical and euclideall models for<br />

psychological distances, Psychometrika, 37, 417-423.<br />

Hubert, L., (1973), Monotone invariant clustering procedures, Psychometrika, 38, 47­<br />

62.<br />

Hubert L., (1974), Some applications ofgraph the01Y to clllstering, Psychometrika, 39,<br />

283-309. '<br />

Hubert L., (1974), Some applications ofgraph the01Y to clustering, British Journal of<br />

Mathematical and Statistical Psychology, 27, 133-153.<br />

Hubert L., Arabie P., (1994), The analysis ofproximity matrices having (anti-) Robison<br />

formes, British Journal ofMathematical and Statistical Psycology, 47, 1-40.<br />

Jambu M., (1972), Tecniques de Classification Automatique Appliqueé à des Donnés de<br />

Sciences Humaines, Thèse de Doctorat de 3 eme cycle, Paris.<br />

. -<br />

Janowitz M.F., (1978), An order theoretic modelfar cluster analysis, SIAM Journal of<br />

Applied Mathematics, 34, 55-72.<br />

Jardine N., Sibson R., (1968), The construction of hierarchic and non-hieral'chic<br />

classifications, Computer Jburnal, U 9 177-184.<br />

Jardine N., Sibson R., (1971), Mathematical Taxonomy, Wiley, New York.<br />

Johnson S.C.,(1967), Hierarchical clustering schemes, Psychometrika, 32, 241-254.<br />

Joly S.,' <strong>Le</strong> Calvé G., (1994), Tree way distallces, Journal of classification (in<br />

pubblicazione).<br />

Krasner, M., (1944), C.R. Acad. Sci. 219, tome II, 433.<br />

Kmskal J.B., (1956), On the shortest spanning sllbtree of a graplt and the traveling<br />

salesman problem, Proceeding ofthe American Mathematical Society, 7,48-50.<br />

Lance G.N., \Villiams W.T., (1967), A generaI the01Y of classification sorting<br />

strategies: I: Hierarchical systems II Cfustering systems, The Computer Journal, 9-10,<br />

373-380,271-277.<br />

Lapointe F.l., <strong>Le</strong>gendre P., (1991), The generation of random uflrametric matrices<br />

representing dendrograms, Journal ofClassification, 8, 177-200.<br />

<strong>Le</strong> Calvé G. (1986), Distance à centre, Statistique et Analyse des données.<br />

<strong>Le</strong> Calvé G., (1987), Ll -embedding ofa data structure (I, d), in Statistical Data Analysis<br />

based on the LcNorm and related methods, (Y.Dodge ed.), North Holland,<br />

Amsterdam, 195-202.<br />

113


- Bibliografia -<br />

Murtagh F.D., (1994), Hierarchical regionalization and cartography clustering,<br />

Pattern Recognition (in pubblicazione).<br />

Neumann D.A, (1983), Faithfulconsensus method for n-tl'ees,·Mathematica!<br />

Biosciences, 63, 271-287.<br />

Penuchet C., (1983), Classification sous contl'aintes de contiguité continue, Acte de la<br />

Societé Francophone de Classification, IRISA Report n. 162, 192-207, Rennes, France.<br />

Prim RC. (1957), Shortest connection networks and some generalizations, Beli System<br />

Technical Journal, 36, 1389-1401.<br />

Rammal R., Toulouse G., Virasoro M.A, (1986), Ultrametricity for physicists, Reviews<br />

ofModern Physics, 58, 765-788.<br />

Rizzi A, (1987), Measure ofdistance and dissimilarity, in Methodsfor Mullidimensional<br />

Data Analysis, ECAS, C.Lauro e E.Fichet eds., Dip. Matematica e Statistica,<br />

Università "Federico II" di Napoli.<br />

Rizzi A, (1991), Analisi 4ei dati, La Nuova Italia Scientifica.<br />

Rbbinson W.S., (1951), A methodfor chronological ordering ofarcheological deposits,<br />

American Antiquity, J!.6, 293-301.<br />

Roux M. (1986), Représentation d'une distance par un arbre aux aretes additives, in<br />

Data Analysis andInformatics IV, Diday editor.<br />

Roux M., (1985), Algorithmes de classifications, Masson, Paris.<br />

Rubin l, (1967), Optimal:classification into groups: an appl'oach for solving the<br />

taxonomy problem, Journal of TheoreticalBiology, 15, 103-144.<br />

Schikhof, W.H., (1984), Ultrametric calculus, Cambridge University Press; London.<br />

Shepard R.N., (1962), Analysis of proximitlés: Multidimensional scaling with an<br />

UnlmOlfJn distance fimction, Psychometrika, 27, 125-140,219-246.<br />

Soleal R.R. e Michener C.D., (1958), A statistical method for evaluating systematic<br />

l'elationship, University ofKansas Science Bullettin, 38, 1409-1439.<br />

Sokal R.R e RohlfF.J., (1962), The comparison ofdendro[iams by objective methods,<br />

Taxonomy, 11, 33-40.<br />

Soleal R.R. e Sneath P.H.A, (1963), Princip!es ofNumerical Taxonomy, Freel1lan.<br />

S0rensen T., (1948), A method far establishing gl'oups of equal amplitude in p/ant<br />

sociology based on similal'ity ofspecies contents and its application to analyses ofthe<br />

vegetation 017 Danish commons,Biologica! Skrifter, 5, 1-34.<br />

Sriram N. (1990), Clique optimization: a method to construct parsimonious ultrametric<br />

treesfrom similal'ity data, Journal ofClassification, 7, 33-52.<br />

Stinebrickner R, (1984), S-consensus trees and indices, Bull. Math. BioI., 416, 923-935.<br />

Tamura S., Higuchi S., Tanalea K., (1971), Pattem classification based on fuzzy<br />

relations, IEEE Trans. Syst. Man Cybern., SCM-1, 61-66.<br />

115


- Bibliografia -<br />

Tilton lC., (1990), .Jmage segmentation by iterative region growing, Iriformation<br />

Systems NewsIetter, 50-52.<br />

Torgerson W.S., (1958), Theory and methods ofscaling, Wiley, New York.<br />

Tversky A. (1977), Features ofsimilarity, PsychoIogicaI Review, 84, 327-352.<br />

Vach W., (1984), Presen1ing consensus hierarchies, Journal ofClassification, 11, 59-77.<br />

Van Cutsem B. (1984), Ultrametriques supérieures minimales et algorithme du "lien<br />

compIettI; in Actes des j01f1'17ées de classification de la Grande Motte, C. Perruche!<br />

ed, Paris, CNETe SFC.<br />

Van Clitsem B.; Benkaraache T., (1993), Comparisons ofhierarchical classifications,<br />

Fourth Conference ofthe !FCS, Paris, 31/8-04.09.1993, abstract.<br />

Van Cutsem B., Flajolet P., Zimmerman P., (1993), A calculus for the random<br />

generation oj combinatorial structures, Rapport de Recherche n.1830, INRIA,<br />

Rocquencourt, France.<br />

Vichi M., (1994), Un algoritmo per il consenso tra le classificazioni con l'ausilio di<br />

tecniche multiway, Atti della XXXVII Riunione Scientifica della Società Italiana di<br />

Statistica, 2, 261-268.<br />

Ward J.H., (1963), Hierarchical grouping to optimize an objective function, Journal of<br />

the American Statistical Association, 58, 236-244.<br />

Webster R, Burrough P.A., (1972), Computcr-based soi! mapping ojsmall areasjrom<br />

sample data. II Classification sl11oothing, Journal ofSoiI science, 23, 222-234.<br />

Yao A.C., (1975), An O(IElloglvl) algorithm for finding millimum spalllling trees,<br />

Information Processing <strong>Le</strong>tters, 4,'21-23.<br />

Zani S., (1978), Metodo step-'wise per la scelta delle variabili nell'analisi<br />

classificatoria, Atti Seminario su due temi di analisi statistica multivariata, Pubbl. a<br />

cura dell'Università degli Studi di Padova, Bressanone.<br />

Zani S., (1993), Classificazione di unità territoriali e spaziali, in "Metodi Statistici per<br />

le analisi territoriali", 93-121, Franco Angeli, Milano.<br />

H6


STAMPATO CON IL MUL TlLlTH DEL DIPARTIMENTO DI<br />

STATISTICA, PROBABILITA' E STATISTICHE APPLICATE<br />

Universita' di Roma "La <strong>Sapienza</strong>"<br />

Capo Centro Stampa - FRANCESCHETTI Orfeo<br />

Agenti di Stamperia - MAZZOLI Mario<br />

PAGANUCCI Giuseppe

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!