- Analisi dell'associazione tra due caratteri - Introduciamo le ...
- Analisi dell'associazione tra due caratteri - Introduciamo le ...
- Analisi dell'associazione tra due caratteri - Introduciamo le ...
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
- <strong>Analisi</strong> dell’associazione <strong>tra</strong> <strong>due</strong> <strong>caratteri</strong> -<br />
<strong>Introduciamo</strong> <strong>le</strong> distribuzioni di frequenze per <strong>due</strong> <strong>caratteri</strong> considerati<br />
congiuntamente e ne mostriamo la rappresentazione tabellare e grafica.<br />
Distribuzioni doppie di frequenze<br />
Le determinazioni di <strong>due</strong> <strong>caratteri</strong> su di un col<strong>le</strong>ttivo, siano esso<br />
qualitativi o quantitativi, possono essere organizzate sotto forma di<br />
distribuzione unitaria doppia, dove <strong>le</strong> modalità dei <strong>due</strong> <strong>caratteri</strong><br />
osservati sono e<strong>le</strong>ncate unità per unità.<br />
Unità Modalità di X Modalità di Y<br />
u 1 x 1 y 1<br />
u 2 x 2 y 2<br />
...<br />
...<br />
...<br />
u i x i y i<br />
...<br />
...<br />
...<br />
u n x n y n<br />
1<br />
1
- <strong>Analisi</strong> dell’associazione <strong>tra</strong> <strong>due</strong> <strong>caratteri</strong> -<br />
E’ necessario sintetizzare <strong>le</strong> determinazioni dei <strong>caratteri</strong> <strong>tra</strong>mite una<br />
tabella di frequenze a doppia en<strong>tra</strong>ta detta anche distribuzione<br />
doppia di frequenze.<br />
Dati <strong>due</strong> <strong>caratteri</strong>, definiamo tabella di frequenze a doppia en<strong>tra</strong>ta o<br />
distribuzione doppia di frequenze, l’insieme del<strong>le</strong> frequenze<br />
congiunte n ij<br />
, ovvero <strong>le</strong> frequenze assolute del<strong>le</strong> unità che<br />
presentano congiuntamente la modalità i-esima del primo carattere e<br />
la j-esima del secondo carattere.<br />
La generica tabella a doppia en<strong>tra</strong>ta dei <strong>caratteri</strong> X e Y,<br />
rispettivamente con H e K modalità è la seguente:<br />
Carattere<br />
Carattere Y<br />
X y 1 …. y j … y k Tot.<br />
x 1 n 11 n 1j n 1k n 1.<br />
…<br />
…<br />
x i n i1 n ij n ik n i.<br />
…<br />
x H n H1 n Hj n Hk n H.<br />
Tot. n .1 n .j n .k n<br />
2
- <strong>Analisi</strong> dell’associazione <strong>tra</strong> <strong>due</strong> <strong>caratteri</strong> -<br />
La colonna e la riga del tota<strong>le</strong> sono dette distribuzioni marginali. Esse<br />
corrispondono al<strong>le</strong> distribuzioni di frequenze semplici dei <strong>due</strong><br />
<strong>caratteri</strong> esaminati.<br />
La colonna del tota<strong>le</strong> è la distribuzione semplice del carattere X e il<br />
generico termine n i.<br />
indica la frequenza assoluta del<strong>le</strong> unità che nel<br />
col<strong>le</strong>ttivo presentano la modalità x i<br />
La riga del tota<strong>le</strong> indica la distribuzione semplice del carattere Y e il<br />
generico termine n .j<br />
indica la frequenza assoluta del<strong>le</strong> unità che nel<br />
col<strong>le</strong>ttivo presentano la modalità y j<br />
Le righe e <strong>le</strong> colonne interne alla tabella a doppia en<strong>tra</strong>ta identificano<br />
<strong>le</strong> distribuzioni condizionate.<br />
Le frequenze n ij<br />
sono <strong>le</strong> cd. frequenze congiunte e rappresentano il<br />
numero (assoluto) di unità che presentano congiuntamente la<br />
modalità i-esima del carattere X la modalità j-esima del carattere Y<br />
3
- <strong>Analisi</strong> dell’associazione <strong>tra</strong> <strong>due</strong> <strong>caratteri</strong> -<br />
Tab. Ri<strong>le</strong>vazione continua forze lavoro, 2006<br />
Ripartizione geografica<br />
Tota<strong>le</strong><br />
Nord Centro Sud Italia<br />
Occupati 11839 5039 7507 24385<br />
In cerca di occupazione 423 296 902 1621<br />
Tota<strong>le</strong> 12262 5335 8409 26006<br />
La distribuzione data dalla prima riga ci dice come si distribuiscono<br />
secondo il carattere Y (ripartizione geografica) <strong>le</strong> so<strong>le</strong> unità che<br />
presentano la modalità x 1<br />
(occupati) del carattere X (stato<br />
occupaziona<strong>le</strong>) e viene detta distribuzione condizionata della Y<br />
rispetto alla modalità x 1<br />
di X. Analogamente, se consideriamo la<br />
prima colonna della tabella si ottiene la distribuzione condizionata<br />
del carattere X rispetto alla modalità y 1<br />
del carattere Y.<br />
4
- <strong>Analisi</strong> dell’associazione <strong>tra</strong> <strong>due</strong> <strong>caratteri</strong> -<br />
Nella tabella di frequenze a doppia en<strong>tra</strong>ta valgono <strong>le</strong> seguenti<br />
proprietà:<br />
k<br />
= ∑<br />
∑<br />
ni. nij<br />
per i = 1,..., H; n.<br />
j<br />
= nij<br />
per = 1,....,K;<br />
j=<br />
1<br />
H<br />
i=<br />
1<br />
n<br />
=<br />
H<br />
K<br />
∑∑<br />
n<br />
=<br />
H<br />
∑<br />
ij<br />
i= 1 j= 1 i=<br />
1<br />
n<br />
i.<br />
=<br />
K<br />
∑<br />
j=<br />
1<br />
n<br />
. j<br />
5
- <strong>Analisi</strong> dell’associazione <strong>tra</strong> <strong>due</strong> <strong>caratteri</strong> -<br />
Possiamo considerare oltre al<strong>le</strong> frequenze assolute <strong>le</strong> distribuzioni<br />
doppie di frequenze relative e percentuali, dove il generico e<strong>le</strong>mento<br />
interno alla tabella a doppia en<strong>tra</strong>ta è espresso da f ij<br />
=n ij<br />
/n e da<br />
p ij<br />
=f ij<br />
*100.<br />
Le distribuzioni marginali relative si ottengono dividendo <strong>le</strong> frequenze<br />
assolute marginali per il tota<strong>le</strong> (*100 quel<strong>le</strong> percentuali) e<br />
corrispondono al<strong>le</strong> distribuzioni di frequenze relative semplici dei<br />
<strong>caratteri</strong>.<br />
Le distribuzioni relative condizionate della X e della Y si ottengono<br />
rapportando <strong>le</strong> distribuzioni condizionate per i corrispondenti totali di<br />
riga o per i corrispondenti totali di colonna.<br />
6
- <strong>Analisi</strong> dell’associazione <strong>tra</strong> <strong>due</strong> <strong>caratteri</strong> -<br />
Per ogni distribuzione condizionata di un carattere quantitativo si può<br />
calcolare la:<br />
Media aritmetica condizionata di un carattere quantitativo Y rispetto<br />
alla i-esima modalità di un carattere X è data da:<br />
y<br />
X = x<br />
=<br />
i<br />
1<br />
n<br />
i.<br />
La varianza condizionata di un carattere quantitativo Y rispetto alla i-<br />
esima modalità di un carattere X è data da:<br />
K<br />
∑<br />
j=<br />
1<br />
y<br />
j<br />
n<br />
ij<br />
σ<br />
2<br />
Y<br />
1<br />
K<br />
= ∑(<br />
y −<br />
X = x<br />
j<br />
i<br />
ni.<br />
j=<br />
1<br />
y<br />
X = x<br />
i<br />
)<br />
2<br />
n<br />
ij<br />
7
- <strong>Analisi</strong> dell’associazione <strong>tra</strong> <strong>due</strong> <strong>caratteri</strong> -<br />
Due <strong>caratteri</strong> si dicono indipendenti se la distribuzione di uno dei<br />
<strong>due</strong> <strong>caratteri</strong> non varia al variare dell’altro. In tal caso, <strong>le</strong><br />
distribuzioni di frequenze relative condizionate rispetto al<strong>le</strong> modalità<br />
dell’altro sono tutte uguali <strong>tra</strong> di loro.<br />
Se i <strong>caratteri</strong> sono indipendenti, la generica frequenza assoluta<br />
corrispondente alla i-esima modalità di X e alla j-esima modalità di Y<br />
deve essere ugua<strong>le</strong> a:<br />
n<br />
ij<br />
La condizione di indipendenza può essere riscritta come segue:<br />
n<br />
n<br />
(la freq. relativa congiunta è ugua<strong>le</strong> al prodotto del<strong>le</strong> freq. rel.<br />
marginali).<br />
=<br />
n<br />
i.<br />
n<br />
n<br />
. j<br />
i.<br />
. j<br />
n<br />
ij<br />
= , fij<br />
= fi.<br />
f.<br />
j<br />
n<br />
8
- <strong>Analisi</strong> dell’associazione <strong>tra</strong> <strong>due</strong> <strong>caratteri</strong> -<br />
L’associazione spuria è una <strong>le</strong>game statistico empirico che si verifica<br />
<strong>tra</strong> <strong>due</strong> <strong>caratteri</strong> logicamente indipendenti.<br />
Se il <strong>le</strong>game associativo <strong>tra</strong> <strong>due</strong> <strong>caratteri</strong> non è spurio, possiamo<br />
affrontare lo studio secondo <strong>due</strong> ottiche: la dipendenza e<br />
l’interdipendenza.<br />
Un carattere Y dipende perfettamente da X quando a ogni modalità di<br />
X è associata una sola modalità di Y, cioè quando in una tabella<br />
doppia per ogni i c’è un solo j per il qua<strong>le</strong> n ij<br />
èdiverso da 0.<br />
Tra <strong>due</strong> <strong>caratteri</strong> sussiste interdipendenza perfetta se a ogni modalità<br />
di uno dei <strong>due</strong> <strong>caratteri</strong> corrisponde una e una sola modalità dell’altro<br />
carattere e viceversa.<br />
questo richiede che K = H<br />
9
- <strong>Analisi</strong> dell’associazione <strong>tra</strong> <strong>due</strong> <strong>caratteri</strong> -<br />
Misura dell’associazione<br />
Iniziamo considerando indici generali di associazione che si basano<br />
sul<strong>le</strong> differenze <strong>tra</strong> <strong>le</strong> frequenze osservate n ij<br />
e quel<strong>le</strong> teoriche di<br />
indipendenza<br />
n' =<br />
ij<br />
Le differenze <strong>tra</strong> <strong>le</strong> frequenze osservate e quel<strong>le</strong> teoriche vengono<br />
dette contingenze e sono date da c ij<br />
=n ij<br />
-n’ ij<br />
n<br />
i.<br />
n<br />
n<br />
. j<br />
Corrisp. al<strong>le</strong> frequenze che avremmo<br />
dovuto avere in caso di indipendenza<br />
L’indice di associazione Chi-quadrato di Pearson misura la distanza<br />
media da zero del<strong>le</strong> contingenze, ognuna del<strong>le</strong> quali risulta ponderata<br />
per il reciproco del<strong>le</strong> frequenze.<br />
2<br />
χ<br />
=<br />
H<br />
K<br />
∑∑<br />
i= 1 j=<br />
1<br />
c<br />
2<br />
ij<br />
n'<br />
ij<br />
=<br />
H<br />
K<br />
∑∑<br />
i= 1 j=<br />
1<br />
( n<br />
ij<br />
−<br />
n'<br />
n'<br />
ij<br />
ij<br />
)<br />
2<br />
10
- <strong>Analisi</strong> dell’associazione <strong>tra</strong> <strong>due</strong> <strong>caratteri</strong> -<br />
Se i <strong>due</strong> <strong>caratteri</strong> sono perfettamente indipendenti, tutte <strong>le</strong><br />
contingenze devono essere nul<strong>le</strong> e l’indice Chi-quadrato assumerà<br />
valore nullo, se i <strong>due</strong> <strong>caratteri</strong> sono associati l’indice sarà positivo,<br />
assumendo valori tanto più grandi quanto più <strong>le</strong> frequenze osservate<br />
si differenziano da quel<strong>le</strong> teoriche.<br />
Espressioni equiva<strong>le</strong>nti (dipende da n)<br />
H K 2<br />
n<br />
2<br />
ij<br />
χ<br />
=<br />
∑∑<br />
n'<br />
−<br />
n;<br />
oppure<br />
2<br />
χ<br />
=<br />
H<br />
K<br />
∑∑<br />
2<br />
nij<br />
(<br />
n n<br />
i= 1 j= 1 ij i= 1 j=<br />
1 i.<br />
. j<br />
−1)<br />
n<br />
Per eliminare la dipendenza da n utilizziamo l’indice di contingenza<br />
quadratica media:<br />
Φ<br />
2<br />
= χ<br />
2<br />
/<br />
n<br />
11
- <strong>Analisi</strong> dell’associazione <strong>tra</strong> <strong>due</strong> <strong>caratteri</strong> -<br />
Se la tabella si riferisce a <strong>due</strong> <strong>caratteri</strong> ordinati è possibi<strong>le</strong> costruire<br />
degli indici che oltre a misurare l’intensità dell’associazione, ne<br />
misurano anche il verso. Ossia, oltre verificare se c’è una<br />
corrispondenza fra <strong>le</strong> modalità dei <strong>due</strong> <strong>caratteri</strong>, analizziamo anche<br />
se al<strong>le</strong> modalità di ordine più e<strong>le</strong>vato di un carattere corrispondono<br />
più frequentemente <strong>le</strong> modalità di ordine più basso o più alto<br />
dell’altro carattere.<br />
In genera<strong>le</strong>, poiché <strong>le</strong> modalità dei <strong>due</strong> <strong>caratteri</strong> sono ordinate,<br />
possono sussistere fra loro <strong>due</strong> tipi diversi di relazione: diretta o<br />
concordanza e relazione inversa o discordanza.<br />
C’è concordanza <strong>tra</strong> X e Y se modalità di ordine e<strong>le</strong>vato di X si<br />
associano più frequentemente a modalità di ordine e<strong>le</strong>vato di Y,<br />
mentre modalità di ordine basso di X si associano più frequentemente<br />
a modalità di ordine basso di Y.<br />
C’è discordanza <strong>tra</strong> X e Y se modalità di ordine e<strong>le</strong>vato di X si<br />
associano più frequentemente a modalità di ordine basso di Y, mentre<br />
modalità di ordine basso di X si associano più frequentemente a<br />
modalità di ordine e<strong>le</strong>vato di Y.<br />
12
- Sintesi della distribuzione di un carattere – La variabilità<br />
Cap. 6 6.1 6.2 6.3 6.4 6.5 6.6 fino alla formula 6.6.3 6.7<br />
Prossima <strong>le</strong>zione 6.8 e 6.9<br />
13