25.12.2012 Views

Dispense

Dispense

Dispense

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

6.4. METODI DI CLASSIFICAZIONE E CLUSTERING 357<br />

6.4.6 Clustering<br />

Le tecniche di classi…cazione appena descritte partono dall’esistenza di classi prestabilite e si<br />

pongono il problema di assegnare nuovi individui alle classi (classi…care nuovi individui). Essi<br />

però inglobano già una sorta di clustering, nella fase di creazione delle classi. Ad esempio,<br />

nella regressione logistica, gli individui di cui è noto tutto (valore delle variabili che fungono<br />

da predittori, e della variabile di classe, cioè 0 o 1) vengono usati per determinare il modello (i<br />

coe¢ cienti della parte lineare regressiva), che poi verrà usato per classi…care nuovi individui di<br />

cui siano noti solo i valori dei predittori. Ma la creazione del modello in pratica è la creazione<br />

di due classi che separano il meglio possibile gli individui noti, quindi è un’operazione di<br />

clustering. C’è però una di¤erenza concettuale ripetto al clustering che stiamo per descrivere:<br />

nel creare un modello di regressione logistica, quindi nel creare due classi, si usano individui<br />

di cui è noto il valore della classe (0 o 1). Invece, nei metodi che descriveremo ora, a priori<br />

nulla distingue gli individui in classi. Si immagina però che essi possano essere membri di<br />

classi di¤erenti; allora il metodo dovrà identi…care le classi e attribuire ad esse gli individui;<br />

in…ne, il metodo dovrebbe fornire un giudizio sull’appartenenza di un individuo ad una classe,<br />

cioè dovrebbe dare una dichiarazione di quanto è sicura la sua classi…cazione, oppure è vaga.<br />

Si pensi ad un insieme W di punti Q del piano (Q 2 W ), sparpagliati, ciascuno rappresentante<br />

un individuo (descritto quindi da due variabili, due predittori). Ci saranno casi<br />

in cui i punti sono un po’separati in due gruppi, o più di due gruppi, pur essendo vaga la<br />

separazione. Si pensi alle case di due città limitrofe in zone molto abitate: si va da una città<br />

all’altra quasi senza soluzione di continuità, però il grado di addensamento è diverso nelle due<br />

zone proprie delle città rispetto alla parte intermedia, dove c’è ancora un po’di campagna<br />

qua e là. Abbiamo quindi questo insieme di punti. Ipotizziamo che esso sia suddividibile in<br />

due classi (il caso con tre o più classi è simile, ma torneremo su questo punto). Vediamo<br />

alcune idde generali per trovare una buona suddivisione.<br />

Alcune idee dei paragra… precedenti sarebbero perfettamente adatte: cercare una retta, o<br />

una parabola (linear o quadratic discriminant analysis) che separa bene l’insieme dei punti.<br />

Sviluppiamo altre idee.<br />

Immaginiamo che le due classi siano come due nuvole un po’ellittiche, pur con vaghezza<br />

(magari senza una vera soluzione di continuità tra le nuvole). Iniziamo col cercare i centri<br />

delle nuvole. Avendo deciso che sono due, si cercano due centri, M1 e M2 (qui entra in gioco il<br />

numero di classi deciso a priori: se avessimo deciso di dividere in tre classi, avremmo cercato<br />

tre centri). Si inizi mettendo a caso due punti M1 e M2 nel piano, in assenza di suggerimenti<br />

migliori (se invece c’è un’idea migliore la si usi). Poi si trovino gli insiemi di Voronoi di<br />

questi due punti, che chiamiamo V1 e V2: Vi è l’insieme dei punti del piano che distano da<br />

Mi meno che dall’altro centro. Sono due semipiani. Se partivamo da tre centri M1; M2; M3<br />

trovavamo una divisione in tre “angoli”, e così via. Poi, chiamiamo W1 e W2 gli insiemi dei<br />

punti originari che cadono in V1 e V2 rispettivamente: Wi è l’insieme dei punti Q 2 W che<br />

appartengono a Vi, quindi che distano da Mi meno che dall’altro centro. Questa è già una<br />

suddivisione possibile, però relativa ad una scelta iniziale dei centri, fatta a caso o comunque<br />

non ancora ottimizzata in alcun modo.<br />

Diamo un punteggio alla suddivisione trovata: calcoliamo la somma delle distanze al

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!