25.12.2012 Views

Dispense

Dispense

Dispense

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

358 CAPITOLO 6. STATISTICA MULTIVARIATA<br />

quadrato di tutti i punti di W1 da M1<br />

ed analogamente per W2: d2 2<br />

numero d2 1 + d22 d 2 1 = X<br />

Q2W1<br />

d 2 (Q; M1)<br />

P<br />

= Q2W2 d2 (Q; M2). Questa suddivisione è caratterizzata dal<br />

; se tale numero è alto, la suddivisione viene considerata poco buona (i punti<br />

di ciascun gruppo distano troppo dal loro centro). In generale, per k gruppi, il numero da<br />

calcolare è<br />

kX X<br />

d 2 (Q; Mi) :<br />

i=1 Q2Wi<br />

Si vorrebbero trovare i punti Mi che rendono minima questa espressione. Si possono inventare<br />

vari algoritmi che cercano di trovare dei buoni centri Mi. L’algoritmo k-means lavora su centri<br />

Mi che vengono presi, ad ogni passo dell’algoritmo iterativo, pari alla media aritmetica dei<br />

punti di Wi (poi vengono ricalcolati i Wi, poi i loro punti medi Mi e così via). L’algoritmo kmedoids<br />

utilizza invece come centri alcuni dei punti di W stesso, aggiornando iterativamente<br />

i medoidi (alla ricerca dei migliori) attravero scambi causali tra i medoidi e gli altri punti di<br />

W . Gli algoritmi di¤eriscono poi, tra altre cose, per la distanza d (Q; Mi) che viene utilizzata<br />

(rimandiamo alla letteratura specializzata per questi ed altri dettagli).<br />

Questi algoritmi hanno un difetto: raggruppano secondo la minima distanza dai centri,<br />

quindi tendono a costruire dei raggruppamenti equilibrati, della stessa grandezza. Questa<br />

simmetria può essere poco adatta a certe applicazioni, in cui si capisce ad occhio che i punti<br />

Q 2 W sono divisi in gruppi di ampiezza di¤erente, per esempio una grossa nuvola con una<br />

piccola nuvola satellite. Gli algoritmi descritti …no ad ora forzerebbero la suddivisione ad<br />

essere abbastanza simmetrica, attribuendo una parte di punti della grossa nuvola alla parte<br />

Wi relativa al piccolo satellite. C’è allora una variante, detta algoritmo EM (Expectation-<br />

Maximization) basata sulle misture di gaussiane e la massima verosimiglianza, che permette<br />

di trovare partizioni diseguali, più aderenti a certe dituazioni pratiche.<br />

In genere il software, come input di un particolare metodo di clustering (k-means ecc.),<br />

chiede i punti Q 2 W (una tabella di dati come quella di PCA) ed il numero di classi k in cui<br />

vogliamo suddividerli. Come output fornisce le classi trovate, in genere elencando gli elementi<br />

delle classi, e fornendo una ra¢ gurazione gra…ca dei punti separati in gruppi, ra¢ gurazione<br />

spesso legata a PCA. Infatti, se i punti Q 2 W stanno in uno spazio a dimensione maggiore di<br />

2, il modo più naturale è innanzi tutto mostrare questi punti attraverso una visione che li distingua<br />

il più possibile (e questo è svolto da PCA), sovrapponendo poi ad essa la suddivisione<br />

in gruppi. Esistono anche visualizzazioni tridimensionali a colori.<br />

Oltre a questo, il software fornisce in output dei parametri numerici che servono a giudicare<br />

la suddivisione ottenuta, il più comune dei quali è la silhoutte. Tramite questi numeri abbiamo<br />

una quanti…cazione della bontà o vaghezza dei cluster ottenuti che, oltre ad essere un metro<br />

di giudizio di tipo assoluto, può essere utilizzato in modo comparativo per decidere il numero<br />

k. Esso era stato scelto a priori, ma con quale criterio? Ci saranno casi in cui, o per ragioni<br />

di evidenza gra…ca o per motivi applicativi, sapremo come decidere k a priori; altri in cui si<br />

va per tentativi e si sceglie k a posteriori: quello che massimizza la silhouette.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!