01.11.2014 Views

- Analisi dell'associazione tra due caratteri - Introduciamo le ...

- Analisi dell'associazione tra due caratteri - Introduciamo le ...

- Analisi dell'associazione tra due caratteri - Introduciamo le ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

- <strong>Analisi</strong> dell’associazione <strong>tra</strong> <strong>due</strong> <strong>caratteri</strong> -<br />

<strong>Introduciamo</strong> <strong>le</strong> distribuzioni di frequenze per <strong>due</strong> <strong>caratteri</strong> considerati<br />

congiuntamente e ne mostriamo la rappresentazione tabellare e grafica.<br />

Distribuzioni doppie di frequenze<br />

Le determinazioni di <strong>due</strong> <strong>caratteri</strong> su di un col<strong>le</strong>ttivo, siano esso<br />

qualitativi o quantitativi, possono essere organizzate sotto forma di<br />

distribuzione unitaria doppia, dove <strong>le</strong> modalità dei <strong>due</strong> <strong>caratteri</strong><br />

osservati sono e<strong>le</strong>ncate unità per unità.<br />

Unità Modalità di X Modalità di Y<br />

u 1 x 1 y 1<br />

u 2 x 2 y 2<br />

...<br />

...<br />

...<br />

u i x i y i<br />

...<br />

...<br />

...<br />

u n x n y n<br />

1<br />

1


- <strong>Analisi</strong> dell’associazione <strong>tra</strong> <strong>due</strong> <strong>caratteri</strong> -<br />

E’ necessario sintetizzare <strong>le</strong> determinazioni dei <strong>caratteri</strong> <strong>tra</strong>mite una<br />

tabella di frequenze a doppia en<strong>tra</strong>ta detta anche distribuzione<br />

doppia di frequenze.<br />

Dati <strong>due</strong> <strong>caratteri</strong>, definiamo tabella di frequenze a doppia en<strong>tra</strong>ta o<br />

distribuzione doppia di frequenze, l’insieme del<strong>le</strong> frequenze<br />

congiunte n ij<br />

, ovvero <strong>le</strong> frequenze assolute del<strong>le</strong> unità che<br />

presentano congiuntamente la modalità i-esima del primo carattere e<br />

la j-esima del secondo carattere.<br />

La generica tabella a doppia en<strong>tra</strong>ta dei <strong>caratteri</strong> X e Y,<br />

rispettivamente con H e K modalità è la seguente:<br />

Carattere<br />

Carattere Y<br />

X y 1 …. y j … y k Tot.<br />

x 1 n 11 n 1j n 1k n 1.<br />

…<br />

…<br />

x i n i1 n ij n ik n i.<br />

…<br />

x H n H1 n Hj n Hk n H.<br />

Tot. n .1 n .j n .k n<br />

2


- <strong>Analisi</strong> dell’associazione <strong>tra</strong> <strong>due</strong> <strong>caratteri</strong> -<br />

La colonna e la riga del tota<strong>le</strong> sono dette distribuzioni marginali. Esse<br />

corrispondono al<strong>le</strong> distribuzioni di frequenze semplici dei <strong>due</strong><br />

<strong>caratteri</strong> esaminati.<br />

La colonna del tota<strong>le</strong> è la distribuzione semplice del carattere X e il<br />

generico termine n i.<br />

indica la frequenza assoluta del<strong>le</strong> unità che nel<br />

col<strong>le</strong>ttivo presentano la modalità x i<br />

La riga del tota<strong>le</strong> indica la distribuzione semplice del carattere Y e il<br />

generico termine n .j<br />

indica la frequenza assoluta del<strong>le</strong> unità che nel<br />

col<strong>le</strong>ttivo presentano la modalità y j<br />

Le righe e <strong>le</strong> colonne interne alla tabella a doppia en<strong>tra</strong>ta identificano<br />

<strong>le</strong> distribuzioni condizionate.<br />

Le frequenze n ij<br />

sono <strong>le</strong> cd. frequenze congiunte e rappresentano il<br />

numero (assoluto) di unità che presentano congiuntamente la<br />

modalità i-esima del carattere X la modalità j-esima del carattere Y<br />

3


- <strong>Analisi</strong> dell’associazione <strong>tra</strong> <strong>due</strong> <strong>caratteri</strong> -<br />

Tab. Ri<strong>le</strong>vazione continua forze lavoro, 2006<br />

Ripartizione geografica<br />

Tota<strong>le</strong><br />

Nord Centro Sud Italia<br />

Occupati 11839 5039 7507 24385<br />

In cerca di occupazione 423 296 902 1621<br />

Tota<strong>le</strong> 12262 5335 8409 26006<br />

La distribuzione data dalla prima riga ci dice come si distribuiscono<br />

secondo il carattere Y (ripartizione geografica) <strong>le</strong> so<strong>le</strong> unità che<br />

presentano la modalità x 1<br />

(occupati) del carattere X (stato<br />

occupaziona<strong>le</strong>) e viene detta distribuzione condizionata della Y<br />

rispetto alla modalità x 1<br />

di X. Analogamente, se consideriamo la<br />

prima colonna della tabella si ottiene la distribuzione condizionata<br />

del carattere X rispetto alla modalità y 1<br />

del carattere Y.<br />

4


- <strong>Analisi</strong> dell’associazione <strong>tra</strong> <strong>due</strong> <strong>caratteri</strong> -<br />

Nella tabella di frequenze a doppia en<strong>tra</strong>ta valgono <strong>le</strong> seguenti<br />

proprietà:<br />

k<br />

= ∑<br />

∑<br />

ni. nij<br />

per i = 1,..., H; n.<br />

j<br />

= nij<br />

per = 1,....,K;<br />

j=<br />

1<br />

H<br />

i=<br />

1<br />

n<br />

=<br />

H<br />

K<br />

∑∑<br />

n<br />

=<br />

H<br />

∑<br />

ij<br />

i= 1 j= 1 i=<br />

1<br />

n<br />

i.<br />

=<br />

K<br />

∑<br />

j=<br />

1<br />

n<br />

. j<br />

5


- <strong>Analisi</strong> dell’associazione <strong>tra</strong> <strong>due</strong> <strong>caratteri</strong> -<br />

Possiamo considerare oltre al<strong>le</strong> frequenze assolute <strong>le</strong> distribuzioni<br />

doppie di frequenze relative e percentuali, dove il generico e<strong>le</strong>mento<br />

interno alla tabella a doppia en<strong>tra</strong>ta è espresso da f ij<br />

=n ij<br />

/n e da<br />

p ij<br />

=f ij<br />

*100.<br />

Le distribuzioni marginali relative si ottengono dividendo <strong>le</strong> frequenze<br />

assolute marginali per il tota<strong>le</strong> (*100 quel<strong>le</strong> percentuali) e<br />

corrispondono al<strong>le</strong> distribuzioni di frequenze relative semplici dei<br />

<strong>caratteri</strong>.<br />

Le distribuzioni relative condizionate della X e della Y si ottengono<br />

rapportando <strong>le</strong> distribuzioni condizionate per i corrispondenti totali di<br />

riga o per i corrispondenti totali di colonna.<br />

6


- <strong>Analisi</strong> dell’associazione <strong>tra</strong> <strong>due</strong> <strong>caratteri</strong> -<br />

Per ogni distribuzione condizionata di un carattere quantitativo si può<br />

calcolare la:<br />

Media aritmetica condizionata di un carattere quantitativo Y rispetto<br />

alla i-esima modalità di un carattere X è data da:<br />

y<br />

X = x<br />

=<br />

i<br />

1<br />

n<br />

i.<br />

La varianza condizionata di un carattere quantitativo Y rispetto alla i-<br />

esima modalità di un carattere X è data da:<br />

K<br />

∑<br />

j=<br />

1<br />

y<br />

j<br />

n<br />

ij<br />

σ<br />

2<br />

Y<br />

1<br />

K<br />

= ∑(<br />

y −<br />

X = x<br />

j<br />

i<br />

ni.<br />

j=<br />

1<br />

y<br />

X = x<br />

i<br />

)<br />

2<br />

n<br />

ij<br />

7


- <strong>Analisi</strong> dell’associazione <strong>tra</strong> <strong>due</strong> <strong>caratteri</strong> -<br />

Due <strong>caratteri</strong> si dicono indipendenti se la distribuzione di uno dei<br />

<strong>due</strong> <strong>caratteri</strong> non varia al variare dell’altro. In tal caso, <strong>le</strong><br />

distribuzioni di frequenze relative condizionate rispetto al<strong>le</strong> modalità<br />

dell’altro sono tutte uguali <strong>tra</strong> di loro.<br />

Se i <strong>caratteri</strong> sono indipendenti, la generica frequenza assoluta<br />

corrispondente alla i-esima modalità di X e alla j-esima modalità di Y<br />

deve essere ugua<strong>le</strong> a:<br />

n<br />

ij<br />

La condizione di indipendenza può essere riscritta come segue:<br />

n<br />

n<br />

(la freq. relativa congiunta è ugua<strong>le</strong> al prodotto del<strong>le</strong> freq. rel.<br />

marginali).<br />

=<br />

n<br />

i.<br />

n<br />

n<br />

. j<br />

i.<br />

. j<br />

n<br />

ij<br />

= , fij<br />

= fi.<br />

f.<br />

j<br />

n<br />

8


- <strong>Analisi</strong> dell’associazione <strong>tra</strong> <strong>due</strong> <strong>caratteri</strong> -<br />

L’associazione spuria è una <strong>le</strong>game statistico empirico che si verifica<br />

<strong>tra</strong> <strong>due</strong> <strong>caratteri</strong> logicamente indipendenti.<br />

Se il <strong>le</strong>game associativo <strong>tra</strong> <strong>due</strong> <strong>caratteri</strong> non è spurio, possiamo<br />

affrontare lo studio secondo <strong>due</strong> ottiche: la dipendenza e<br />

l’interdipendenza.<br />

Un carattere Y dipende perfettamente da X quando a ogni modalità di<br />

X è associata una sola modalità di Y, cioè quando in una tabella<br />

doppia per ogni i c’è un solo j per il qua<strong>le</strong> n ij<br />

èdiverso da 0.<br />

Tra <strong>due</strong> <strong>caratteri</strong> sussiste interdipendenza perfetta se a ogni modalità<br />

di uno dei <strong>due</strong> <strong>caratteri</strong> corrisponde una e una sola modalità dell’altro<br />

carattere e viceversa.<br />

questo richiede che K = H<br />

9


- <strong>Analisi</strong> dell’associazione <strong>tra</strong> <strong>due</strong> <strong>caratteri</strong> -<br />

Misura dell’associazione<br />

Iniziamo considerando indici generali di associazione che si basano<br />

sul<strong>le</strong> differenze <strong>tra</strong> <strong>le</strong> frequenze osservate n ij<br />

e quel<strong>le</strong> teoriche di<br />

indipendenza<br />

n' =<br />

ij<br />

Le differenze <strong>tra</strong> <strong>le</strong> frequenze osservate e quel<strong>le</strong> teoriche vengono<br />

dette contingenze e sono date da c ij<br />

=n ij<br />

-n’ ij<br />

n<br />

i.<br />

n<br />

n<br />

. j<br />

Corrisp. al<strong>le</strong> frequenze che avremmo<br />

dovuto avere in caso di indipendenza<br />

L’indice di associazione Chi-quadrato di Pearson misura la distanza<br />

media da zero del<strong>le</strong> contingenze, ognuna del<strong>le</strong> quali risulta ponderata<br />

per il reciproco del<strong>le</strong> frequenze.<br />

2<br />

χ<br />

=<br />

H<br />

K<br />

∑∑<br />

i= 1 j=<br />

1<br />

c<br />

2<br />

ij<br />

n'<br />

ij<br />

=<br />

H<br />

K<br />

∑∑<br />

i= 1 j=<br />

1<br />

( n<br />

ij<br />

−<br />

n'<br />

n'<br />

ij<br />

ij<br />

)<br />

2<br />

10


- <strong>Analisi</strong> dell’associazione <strong>tra</strong> <strong>due</strong> <strong>caratteri</strong> -<br />

Se i <strong>due</strong> <strong>caratteri</strong> sono perfettamente indipendenti, tutte <strong>le</strong><br />

contingenze devono essere nul<strong>le</strong> e l’indice Chi-quadrato assumerà<br />

valore nullo, se i <strong>due</strong> <strong>caratteri</strong> sono associati l’indice sarà positivo,<br />

assumendo valori tanto più grandi quanto più <strong>le</strong> frequenze osservate<br />

si differenziano da quel<strong>le</strong> teoriche.<br />

Espressioni equiva<strong>le</strong>nti (dipende da n)<br />

H K 2<br />

n<br />

2<br />

ij<br />

χ<br />

=<br />

∑∑<br />

n'<br />

−<br />

n;<br />

oppure<br />

2<br />

χ<br />

=<br />

H<br />

K<br />

∑∑<br />

2<br />

nij<br />

(<br />

n n<br />

i= 1 j= 1 ij i= 1 j=<br />

1 i.<br />

. j<br />

−1)<br />

n<br />

Per eliminare la dipendenza da n utilizziamo l’indice di contingenza<br />

quadratica media:<br />

Φ<br />

2<br />

= χ<br />

2<br />

/<br />

n<br />

11


- <strong>Analisi</strong> dell’associazione <strong>tra</strong> <strong>due</strong> <strong>caratteri</strong> -<br />

Se la tabella si riferisce a <strong>due</strong> <strong>caratteri</strong> ordinati è possibi<strong>le</strong> costruire<br />

degli indici che oltre a misurare l’intensità dell’associazione, ne<br />

misurano anche il verso. Ossia, oltre verificare se c’è una<br />

corrispondenza fra <strong>le</strong> modalità dei <strong>due</strong> <strong>caratteri</strong>, analizziamo anche<br />

se al<strong>le</strong> modalità di ordine più e<strong>le</strong>vato di un carattere corrispondono<br />

più frequentemente <strong>le</strong> modalità di ordine più basso o più alto<br />

dell’altro carattere.<br />

In genera<strong>le</strong>, poiché <strong>le</strong> modalità dei <strong>due</strong> <strong>caratteri</strong> sono ordinate,<br />

possono sussistere fra loro <strong>due</strong> tipi diversi di relazione: diretta o<br />

concordanza e relazione inversa o discordanza.<br />

C’è concordanza <strong>tra</strong> X e Y se modalità di ordine e<strong>le</strong>vato di X si<br />

associano più frequentemente a modalità di ordine e<strong>le</strong>vato di Y,<br />

mentre modalità di ordine basso di X si associano più frequentemente<br />

a modalità di ordine basso di Y.<br />

C’è discordanza <strong>tra</strong> X e Y se modalità di ordine e<strong>le</strong>vato di X si<br />

associano più frequentemente a modalità di ordine basso di Y, mentre<br />

modalità di ordine basso di X si associano più frequentemente a<br />

modalità di ordine e<strong>le</strong>vato di Y.<br />

12


- Sintesi della distribuzione di un carattere – La variabilità<br />

Cap. 6 6.1 6.2 6.3 6.4 6.5 6.6 fino alla formula 6.6.3 6.7<br />

Prossima <strong>le</strong>zione 6.8 e 6.9<br />

13

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!