25.12.2012 Views

Dispense

Dispense

Dispense

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

6.5. ESERCIZI 359<br />

Descriviamo la silhouette secondo una delle sue possibili de…nizioni. La silhouette di un<br />

singolo individuo Q 2 W , relativa alla partizione W1; :::; Wk trovata con un qualsiasi metodo<br />

tipo k-means ecc., è data dall’espressione<br />

s (Q) =<br />

b (Q) a (Q)<br />

max (a (Q) ; b (Q)) :<br />

Indicando con W (Q) il cluster, tra i vari W1; :::; Wk, che contiene il punto Q, il numero a (Q)<br />

è la distanza media quadratica di Q dagli altri punti del proprio cluster W (Q):<br />

a (Q) = X<br />

d Q; Q 0 2<br />

:<br />

Q 0 2W (Q)<br />

Il numero b (Q) invece è la distanza media quadratica di Q dai punti del cluster “successivo”,<br />

così de…nito: si calcolano i numeri X<br />

Q 0 2Wi<br />

d Q; Q 0 2<br />

per ogni Wi 6= W (Q) e si prende il minimo; questo è b (Q). Si veri…ca che il numero s (Q)<br />

soddisfa<br />

1 s (Q) 1:<br />

Più s (Q) è vicino a 1, più si ritiene che la clusterizzazione di Q sia buona. Infatti, supponiamo<br />

che s (Q) sia vicino a 1. Innanzi tutto questo implica che b (Q) a (Q) è positivo, quindi<br />

max (a (Q) ; b (Q)) = b (Q) e vale<br />

s (Q) =<br />

b (Q) a (Q)<br />

b (Q)<br />

= 1<br />

a (Q)<br />

b (Q) :<br />

Ora, se questo rapporto vale quasi 1, signi…ca che a (Q) è molto piccolo rispetto a b (Q), cioè<br />

che la distanza media di Q dai suoi compagni di gruppo è decisamente minore di quella dai<br />

membri del gruppo “successivo”. Questo è sintomo di buona clusterizzazione di Q.<br />

La silhouette di un singolo individuo Q serve a giudicare quali individui sono stati raggruppati<br />

bene e quali no. Poi, mediando sugli individui di un gruppo Wi si ottiene la silhouette<br />

media di Wi, che descrive quanto preciso o vago sia il gruppo Wi. In…ne, mediando sui gruppi<br />

si ottiene una silhouette media complessiva della clusterizzazione W1; :::; Wk, che può essere<br />

utilizzata per confrontare vari k tra loro (oltre che vari metodi anche di natura diversa).<br />

Si suggerisce, col software R, l’uso del comando pam, che svolge la cluster analysis con<br />

metodo dei medoidi.<br />

6.5 Esercizi<br />

6.5.1 Esercizio n. 1<br />

Problema: cosa incide sul tasso di disoccupazione (TD)? Vorremmo creare una tabella<br />

con alcune colonne X1; :::; Xn (fattori che forse in‡uiscono sul TD) e la colonna Y =TD,<br />

e come righe (unità sperimentali) le diverse nazioni europee. Dalla sua analisi speriamo<br />

di comprendere le cause di una maggiore o minore disoccupazione. Bisogna allora<br />

prendere il TD ad un certo tempo, es. anno 2009.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!