Enrico Feoli, Paola Ganis - Università degli Studi di Trieste
Enrico Feoli, Paola Ganis - Università degli Studi di Trieste
Enrico Feoli, Paola Ganis - Università degli Studi di Trieste
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
a + d<br />
S SM<br />
= (7.19)<br />
n<br />
- l’in<strong>di</strong>ce <strong>di</strong> Yule e’ il piu’ comunemente usato. Assume lo stesso intervallo <strong>di</strong> valori del<br />
coefficiente <strong>di</strong> correlazione e presenta gli stessi problemi <strong>di</strong> indeterminazione.<br />
ad − bc<br />
S Yule<br />
= (7.20)<br />
ad + bc<br />
7.6 FUNZIONI DI SOMIGLIANZA PER DATI MISTI<br />
L’in<strong>di</strong>ce <strong>di</strong> Gower e’ un coefficiente che misura la somiglianza tra oggetti descritti da<br />
variabili misurate su <strong>di</strong>fferente scala: binaria, nominale multistato, intervallare e razionale. L’in<strong>di</strong>ce<br />
calcola per ciascuna variabile i la somiglianza s i(a,b) tra gli oggetti a e b e vi attribuisce un peso<br />
w i(a,b) che assume valore 1 se il valore della variabile e’ noto per entrambi gli oggetti e valore 0 se<br />
manca in uno o in entrambi gli oggetti rendendo impossibile il loro confronto. Il peso rende quin<strong>di</strong><br />
applicabile l’in<strong>di</strong>ce anche quando i dati a <strong>di</strong>sposizione non sono completi e la matrice presenta i<br />
cosiddetti dati mancanti. Sulla base della somiglianza e del peso <strong>di</strong> ciascuna variabile l’in<strong>di</strong>ce e’<br />
costruito nella seguente maniera:<br />
S<br />
Gower ( a,<br />
b)<br />
m<br />
∑ wi(<br />
a,<br />
b)<br />
si(<br />
a,<br />
b)<br />
i=<br />
1<br />
=<br />
m<br />
(7.21)<br />
∑ w<br />
i=<br />
1<br />
i(<br />
a,<br />
b)<br />
Il contributo alla somiglianza s i(a,b) assume valori compresi tra 0 ed 1. Per dati nominali<br />
s i(a,b) =1 se gli stati dei caratteri concordano e s i(a,b) =0 nel caso contrario, mentre per i dati<br />
intervallari e razionali e' calcolato nella seguente maniera:<br />
s<br />
i(<br />
a,<br />
b)<br />
| xia<br />
− xib<br />
|<br />
= 1−<br />
(7.22)<br />
R<br />
dove R costituisce il campo <strong>di</strong> variazione (4.9) della variabile considerata.<br />
Nel caso <strong>di</strong> dati binari, quando il confronto e’ applicato ai doppi zeri, w i(a,b) = s i(a,b) = 1 se si<br />
ritengono i doppi zeri significativi e w i(a,b) = s i(a,b) =0 in caso contrario. Spetta al ricercatore<br />
valutare se l’assenza <strong>di</strong> un carattere in ambedue gli oggetti contribuisce comunque a renderli simili<br />
o se li rende non confrontabili per quel carattere. L'in<strong>di</strong>ce applicato solo a dati binari con doppi zeri<br />
non significativi e' equivalente all'in<strong>di</strong>ce <strong>di</strong> Jaccard.<br />
7-82