Enrico Feoli, Paola Ganis - Università degli Studi di Trieste
Enrico Feoli, Paola Ganis - Università degli Studi di Trieste
Enrico Feoli, Paola Ganis - Università degli Studi di Trieste
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
sono variabili, corrisponde al numero <strong>di</strong> oggetti in cui e’ stata osservata solo la variabile<br />
1.<br />
c = numero <strong>di</strong> presenze dell'elemento 2 quando l'elemento 1 e' assente; se gli elementi sono<br />
oggetti, corrisponde al numero <strong>di</strong> variabili possedute solo dall’elemento 2; se gli elementi<br />
sono variabili, corrisponde al numero <strong>di</strong> oggetti in cui e’ stata osservata solo la variabile<br />
2.<br />
d = numero <strong>di</strong> assenze comuni ai due elementi (doppi zeri); se gli elementi sono oggetti,<br />
corrisponde al numero <strong>di</strong> variabili non presenti né nell’oggetto 1, ne’ nel 2, ma presenti<br />
in qualche altro oggetto della matrice dei dati; se gli elementi sono variabili, corrisponde<br />
al numero <strong>di</strong> oggetti in cui nessuna delle due variabili 1 e 2 e’ stata rilevata, ma nei quali<br />
sono state rilevate altre variabili della matrice dei dati.<br />
Il valore ‘d’ contribuisce alla <strong>di</strong>ssomiglianza piuttosto che alla somiglianza. Non tutti gli<br />
in<strong>di</strong>ci lo considerano.<br />
n = a+b+c+d = totale generale della tabellina <strong>di</strong> contingenza. Se si confrontano oggetti,<br />
corrisponde al numero <strong>di</strong> variabili nella matrice dei dati; se si confrontano variabili,<br />
corrisponde al numero <strong>di</strong> oggetti nella matrice dei dati.<br />
a+b e c+d = totali <strong>di</strong> riga della tabellina <strong>di</strong> contingenza che in<strong>di</strong>cano il numero <strong>di</strong> presenze e<br />
assenze dell’elemento 1.<br />
a+c e b+d = totali <strong>di</strong> colonna della tabellina <strong>di</strong> contingenza che in<strong>di</strong>cano il numero <strong>di</strong><br />
presenze e assenze dell’elemento 2.<br />
Tra gli in<strong>di</strong>ci che danno particolare importanza alle presenze comuni (valore ‘a’ nella tabellina<br />
2x2) perche’ determinano maggiormente la somiglianza, e che non prendono in considerazione il<br />
parametro ‘d’, cioe’ le doppie assenze, descriviamo i seguenti:<br />
- l’in<strong>di</strong>ce <strong>di</strong> Jaccard rapporta il numero <strong>di</strong> presenze comuni al numero totale <strong>di</strong> presenze<br />
riscontrate in almeno uno dei due elementi. In termini insiemistici esso e’ facilmente interpretabile<br />
come il rapporto tra l’intersezione e la riunione <strong>di</strong> due insiemi. Questi sono o i due insiemi <strong>di</strong><br />
caratteri che descrivono i due oggetti o i due insiemi <strong>di</strong> oggetti in cui sono state osservate le due<br />
variabili. Esso corrisponde all’in<strong>di</strong>ce similarity ratio (7.7) applicato a dati binari:<br />
S a<br />
= Jaccard a + b +<br />
(7.12)<br />
c<br />
comuni:<br />
- l’in<strong>di</strong>ce <strong>di</strong> Sorensen (o <strong>di</strong> Dice), simile all’in<strong>di</strong>ce <strong>di</strong> Jaccard, da’ doppio peso alle presenze<br />
7-80