22.10.2014 Views

Enrico Feoli, Paola Ganis - Università degli Studi di Trieste

Enrico Feoli, Paola Ganis - Università degli Studi di Trieste

Enrico Feoli, Paola Ganis - Università degli Studi di Trieste

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

sono variabili, corrisponde al numero <strong>di</strong> oggetti in cui e’ stata osservata solo la variabile<br />

1.<br />

c = numero <strong>di</strong> presenze dell'elemento 2 quando l'elemento 1 e' assente; se gli elementi sono<br />

oggetti, corrisponde al numero <strong>di</strong> variabili possedute solo dall’elemento 2; se gli elementi<br />

sono variabili, corrisponde al numero <strong>di</strong> oggetti in cui e’ stata osservata solo la variabile<br />

2.<br />

d = numero <strong>di</strong> assenze comuni ai due elementi (doppi zeri); se gli elementi sono oggetti,<br />

corrisponde al numero <strong>di</strong> variabili non presenti né nell’oggetto 1, ne’ nel 2, ma presenti<br />

in qualche altro oggetto della matrice dei dati; se gli elementi sono variabili, corrisponde<br />

al numero <strong>di</strong> oggetti in cui nessuna delle due variabili 1 e 2 e’ stata rilevata, ma nei quali<br />

sono state rilevate altre variabili della matrice dei dati.<br />

Il valore ‘d’ contribuisce alla <strong>di</strong>ssomiglianza piuttosto che alla somiglianza. Non tutti gli<br />

in<strong>di</strong>ci lo considerano.<br />

n = a+b+c+d = totale generale della tabellina <strong>di</strong> contingenza. Se si confrontano oggetti,<br />

corrisponde al numero <strong>di</strong> variabili nella matrice dei dati; se si confrontano variabili,<br />

corrisponde al numero <strong>di</strong> oggetti nella matrice dei dati.<br />

a+b e c+d = totali <strong>di</strong> riga della tabellina <strong>di</strong> contingenza che in<strong>di</strong>cano il numero <strong>di</strong> presenze e<br />

assenze dell’elemento 1.<br />

a+c e b+d = totali <strong>di</strong> colonna della tabellina <strong>di</strong> contingenza che in<strong>di</strong>cano il numero <strong>di</strong><br />

presenze e assenze dell’elemento 2.<br />

Tra gli in<strong>di</strong>ci che danno particolare importanza alle presenze comuni (valore ‘a’ nella tabellina<br />

2x2) perche’ determinano maggiormente la somiglianza, e che non prendono in considerazione il<br />

parametro ‘d’, cioe’ le doppie assenze, descriviamo i seguenti:<br />

- l’in<strong>di</strong>ce <strong>di</strong> Jaccard rapporta il numero <strong>di</strong> presenze comuni al numero totale <strong>di</strong> presenze<br />

riscontrate in almeno uno dei due elementi. In termini insiemistici esso e’ facilmente interpretabile<br />

come il rapporto tra l’intersezione e la riunione <strong>di</strong> due insiemi. Questi sono o i due insiemi <strong>di</strong><br />

caratteri che descrivono i due oggetti o i due insiemi <strong>di</strong> oggetti in cui sono state osservate le due<br />

variabili. Esso corrisponde all’in<strong>di</strong>ce similarity ratio (7.7) applicato a dati binari:<br />

S a<br />

= Jaccard a + b +<br />

(7.12)<br />

c<br />

comuni:<br />

- l’in<strong>di</strong>ce <strong>di</strong> Sorensen (o <strong>di</strong> Dice), simile all’in<strong>di</strong>ce <strong>di</strong> Jaccard, da’ doppio peso alle presenze<br />

7-80

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!