Modelli grafici e variabili latenti: identificazione di un ... - Sapienza
Modelli grafici e variabili latenti: identificazione di un ... - Sapienza
Modelli grafici e variabili latenti: identificazione di un ... - Sapienza
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Dipartimento <strong>di</strong> Statistica, Probabilità e Statistiche Applicate<br />
Università <strong>di</strong> Roma "La <strong>Sapienza</strong>"<br />
Paola Vicard<br />
<strong>Modelli</strong> <strong>grafici</strong> e <strong>variabili</strong> <strong>latenti</strong>:<br />
<strong>identificazione</strong> <strong>di</strong> <strong>un</strong> modello<br />
fattoriale nel caso gaussiano<br />
Roma -febbraio 1997
Dipartimento <strong>di</strong> Statistica, Probabilità e Statistiche Applicate<br />
Università <strong>di</strong> Roma "La <strong>Sapienza</strong>"<br />
Paola Vicard<br />
<strong>Modelli</strong> <strong>grafici</strong> e <strong>variabili</strong> <strong>latenti</strong>:<br />
<strong>identificazione</strong> <strong>di</strong> <strong>un</strong> modello<br />
fattoriale nel caso gaussiano<br />
Roma -febbraio 1997
PREFAZIONE<br />
Il presente lavoro è nato dall'approfon<strong>di</strong>mento dello stu<strong>di</strong>o dei modelli <strong>grafici</strong> Gaussiani,<br />
già oggetto della Tesi <strong>di</strong> Laurea (Vicard, 1994 e Jona Lasinio e Vicard, 1996), nell'ambito<br />
dell'utilizzazione degli stessi per l'analisi <strong>di</strong> modelli con <strong>variabili</strong> <strong>latenti</strong>.<br />
In particolare l'interesse per questo problema specifico è nato dalla collaborazione con la<br />
Prof.ssa Nanny Wermuth dell'Università <strong>di</strong> Mainz (Germania).<br />
I modelli <strong>grafici</strong> Gaussiani stu<strong>di</strong>ano le relazioni <strong>di</strong> in<strong>di</strong>pendenza con<strong>di</strong>zionata tra<br />
<strong>variabili</strong> con <strong>di</strong>stribuzione Normale Multivariata, cosa che equivale ad analizzare la presenza<br />
o meno <strong>di</strong> elementi nulli nella matrice inversa <strong>di</strong> varianze e covarianze (Whittaker,<br />
1990). La letteratura relativa a tali modelli riguarda principalmente problematiche <strong>di</strong><br />
tipo"esplorativo" in cui, cioè, è necessaria l'effettiva costruzione del grafo <strong>di</strong> in<strong>di</strong>pendenza<br />
con<strong>di</strong>zionata.<br />
D'altra parte nei modelli <strong>di</strong> analisi fattoriale, particolarmente utilizzati nelle scienze<br />
umane e sociali, l'attenzione dello statistico è <strong>di</strong> solito concentrata più su <strong>di</strong> <strong>un</strong>'analisi<br />
<strong>di</strong> tipo confermativo delle relazioni tra fattori (<strong>latenti</strong> e non) messe in luce dalI'" esperto"<br />
del problema allò stu<strong>di</strong>ò, piuttosto che sull'esplorazione delle osservazioni ai fini<br />
dell'in<strong>di</strong>viduazione delle <strong>variabili</strong> rilevanti per la modellizzazione e, quin<strong>di</strong>, la costruzione<br />
del grafo. In sostanza si è in grado <strong>di</strong> fornire il possibile grafo"a priori". Infatti, associando<br />
ai no<strong>di</strong> del gtafo le <strong>variabili</strong> <strong>di</strong> interesse, si rappresentano i legami tra <strong>di</strong> esse attraverso archi<br />
(orientati o meno) che <strong>un</strong>iscono i vertici associati, trasferendo, in questo modo, <strong>di</strong>rettamente<br />
le conoscenze qualitative dell'utente sul fenomeno allo statistico. Quin<strong>di</strong> il primo passo che<br />
quest'ultimo deve compiere nell'analisi consiste nel capire se il modello così ottenuto è<br />
"identificabile". Risulterebbe chiaramente più efficiente poter agire <strong>di</strong>rettamente sul grafo<br />
senza dover previamente stimare la matrice <strong>di</strong> varianze e covarianze per stu<strong>di</strong>are le proprietà<br />
dello stesso.<br />
In questa tesi si propone <strong>un</strong>a metodologia basata esclusivamente sulle proprietà<br />
topologiche del grafo per stabilire l'identificabilità del modello fattoriale. Anche da <strong>un</strong> p<strong>un</strong>to<br />
<strong>di</strong> vista computazionale questa procedura risulta efficace, consentendo l'uso <strong>di</strong> algoritmi <strong>di</strong><br />
esplorazione dei grafi (Gondran e Minoux, 1984) <strong>di</strong> complessità computazionale lineare.<br />
Più in particolare viene proposta <strong>un</strong>a caratterizzazione dei modelli <strong>un</strong>i-fattoriali<br />
identificabili con residui correlati, cioè con matrice <strong>di</strong> varianze e covarianze e non<br />
<strong>di</strong>agonale. Lo stu<strong>di</strong>o <strong>di</strong> questo tipo <strong>di</strong> modelli è abbastanza recente, infatti l'analisi fattoriale<br />
tra<strong>di</strong>zionale assume l'in<strong>di</strong>pendenza delle <strong>variabili</strong> osservate con<strong>di</strong>zionatamente ai fattori<br />
<strong>latenti</strong>; il loro uso, però, appare del tutto naturale in <strong>un</strong>o stu<strong>di</strong>o confermativo in cui,<br />
cercando <strong>di</strong> ridurre al minimo il numero delle <strong>variabili</strong> <strong>latenti</strong>, si deve accettare che l'<strong>un</strong>ica<br />
inclusa nel modello non sia in grado <strong>di</strong> spiegare da sola tutta la <strong>variabili</strong>tà delle e tra le<br />
<strong>variabili</strong> osservate.<br />
Una prima risposta, sebbene parziale, al problema dell'<strong>identificazione</strong> <strong>di</strong> <strong>un</strong> modello <strong>un</strong>i-
le utili <strong>di</strong>scussioni ed i preziosi consigli, ma anche per l'amicizia e la stima mostratemi<br />
durante e dopo la mia permanenza in Germania. Sono grata peraltro al Prof. David R. Cox<br />
per le interessanti conversazioni ed i consigli in merito alla parte centrale <strong>di</strong> questa tesi.<br />
Un particolare ringraziamento alla Dott.ssa Giovanna Jona Lasinio per le utili <strong>di</strong>scussioni<br />
ed i commenti sulla versione definitiva del manoscritto, e alla Prof.ssa Fì'ancesca Gallo per<br />
il sostegno e la <strong>di</strong>sponibilità <strong>di</strong>mostratemi.<br />
Ringrazio il Prof. Ludovico Piccinato per i consigli, per avermi consentito <strong>di</strong> continuare<br />
a stu<strong>di</strong>are i modelli <strong>grafici</strong> con l'esperienza tedesca e per l'attività <strong>di</strong> coor<strong>di</strong>namento del<br />
Dottorato.<br />
Sono grata anche al Prof. Br<strong>un</strong>o Simeone e ai Dott. Luciano Nieddu e Raffaella Succi per<br />
i consigli sulla parte che riguarda più strettamente la teoria dei grafi.<br />
Sono, infine, riconoscente ai molti dottoran<strong>di</strong> ed ex dottoran<strong>di</strong> con i quali ho<br />
piacevolmente con<strong>di</strong>viso la stanza e, quin<strong>di</strong>, momenti <strong>di</strong> stu<strong>di</strong>o e <strong>di</strong> amicizia.<br />
Un grazie speciale a Fulvio De Santis, Anna Maria Paganoni e Reinhold Streit.<br />
iii
In<strong>di</strong>ce<br />
MODELLI GRAFICI E VARIABILI LATENTI:<br />
IDENTIFICAZIONE DI UN MODELLO FATTORIALE<br />
NEL CASO GAUSSIANO<br />
1 Introduzione<br />
1.1 Il Problema dell'Identificazione<br />
1.2 Considerazioni Generali . . . .<br />
2 Introduzione ai <strong>Modelli</strong> Grafici<br />
2.1 Introduzione ai Grafi ....<br />
2.2 In<strong>di</strong>pendenza con<strong>di</strong>zionata.<br />
2.3 Grafi <strong>di</strong> In<strong>di</strong>pendenza Con<strong>di</strong>zionata<br />
2.3.1 Grafi In<strong>di</strong>retti....<br />
2.3.2 Grafi Diretti Aciclici<br />
2.3.3 Grafi a Catena . . .<br />
2.3.4 Equivalenza <strong>di</strong> grafi <strong>di</strong> in<strong>di</strong>pendenza con<strong>di</strong>zionata.<br />
2.4 <strong>Modelli</strong> Grafici . . . . . . . . . .<br />
2.4.1 <strong>Modelli</strong> <strong>grafici</strong> Gaussiani.<br />
3 Caratterizzazione dei <strong>Modelli</strong> Uni-fattoriali Identificabili<br />
3.1 Rappresentazione Grafica del Modello .<br />
3.2 Una Con<strong>di</strong>zione Necessaria e Sufficiente per l'Identificazione.<br />
4 Due Formulazioni Equivalenti<br />
4.1 Introduzione .<br />
1<br />
2<br />
3<br />
3<br />
5<br />
11<br />
11<br />
16<br />
19<br />
20<br />
24<br />
28<br />
32<br />
35<br />
35<br />
39<br />
39<br />
44<br />
57<br />
57
2<br />
4.2 Riformulazione in Termini <strong>di</strong> G . . 58<br />
4.3 Riformulazione in Termini <strong>di</strong> e-l 64<br />
4.4 Stu<strong>di</strong>o dell'Identificabilità . . . . . 69<br />
5 Ultime Osservazioni e Problemi Aperti 75<br />
5.1 Modello Uni-fattoriale come Soluzione alla Non Identificabilità <strong>di</strong> <strong>un</strong> Modello a Più<br />
Fattori. . . . . . . . . . . . . . . . . . . . . . . . . . . 75<br />
5.2 Considerazioni su Sovraidentificaziolle e Cicli Dispari. 79<br />
5.3 Identificazione <strong>di</strong> <strong>un</strong> Modello <strong>di</strong> Analisi Fattoriale a Più Fattori 84<br />
Appen<strong>di</strong>ce 89<br />
Bibliografia 93
Capitolo 1<br />
Introduzione<br />
1.1 Il Problema dell'Identificazione<br />
Nel presente lavoro l'attenzione verrà prevalentemente concentrata sul problema<br />
dell'<strong>identificazione</strong> <strong>di</strong> <strong>un</strong> modello <strong>di</strong> analisi fattoriale con <strong>un</strong> fattore latente e residui corr
4<br />
informazioni e le conoscenze, <strong>di</strong> carattere qualitativo che l'utente ha circa il fenomeno da analizzare<br />
(ad esempio lo stato socio-economico <strong>di</strong> <strong>un</strong> popolo, il livello <strong>di</strong> attenzione dei bambini a scuola o<br />
ancora il sentimento <strong>di</strong> coesione tra i <strong>di</strong>pendenti <strong>di</strong> <strong>un</strong>a azienda).<br />
Per questo motivo abbiamo pensato <strong>di</strong> affrontare il problema dell'<strong>identificazione</strong> <strong>di</strong> <strong>un</strong> modello<br />
fattoriale nell'ambito della modellizzazione grafica. Infatti l'uso dei grafi può essere determinante<br />
già nella fase <strong>di</strong> specificazione del modello proprio perchè agevola la com<strong>un</strong>icazione tra lo statistico<br />
e l'utente. Ad esempio supponiamo che quest'ultimo sia interessato allo stu<strong>di</strong>o dello stato socio<br />
economico <strong>di</strong> <strong>un</strong> gruppo <strong>di</strong> in<strong>di</strong>vidui; egli, in base alle sue conoscenze in merito all'argomento,<br />
decide, prima <strong>di</strong> tutto, quali <strong>variabili</strong> osservare e misurare (ad es. il red<strong>di</strong>to, il tipo <strong>di</strong> lavoro,<br />
il titolo <strong>di</strong> stu<strong>di</strong>o), o quali dati utilizzare qualora siano già state effettuate delle rilevazioni. In<br />
seconda istanza, è necessario stabilire se il fattore latente spiega tutta la <strong>variabili</strong>tà degli e tra gli<br />
in<strong>di</strong>catori e, in caso negativo, si deve specificare la struttura associativa delle <strong>variabili</strong> osservate.<br />
Proprio in questa seconda fase il ricorso ai grafi è <strong>di</strong> notevole aiuto; infatti, <strong>un</strong>a volta associata a<br />
ciasc<strong>un</strong> nodo <strong>un</strong>a variabile aleatoria, l'utente può rappresentare <strong>un</strong> legame che crede esistere tra<br />
due in<strong>di</strong>catori semplicemente <strong>di</strong>segnando <strong>un</strong>a linea tra i no<strong>di</strong> corrispondenti. In questo modo allo<br />
statistico viene fornito il grafo <strong>di</strong> partenza che, in <strong>un</strong>a fase successiva, deve essere tradotto nel<br />
relativo modello <strong>di</strong> analisi fattoriale su cui effettuare la vera e propria analisi statistica.<br />
Più propriamente questo lavoro si muove nel contesto dell' analisi fattoriale confermat'iva<br />
(Bollen, 1989); in tale analisi il modello sintetizza tutte le conoscenze <strong>di</strong> tipo qualitativo circa<br />
il fenomeno in esame in possesso dell'utente. Questi pertanto stabilisce: il numero dei fattori,<br />
quali <strong>di</strong> essi influenzano <strong>un</strong> determinato in<strong>di</strong>catore e l'eventuale correlazione dei residui.<br />
In analisi fattoriale il problema dell'<strong>identificazione</strong> è molto rilevante; infatti è necessario che<br />
<strong>un</strong> modello sia identificabile per poter passare a stimare i suoi parametri incogniti ed applicare<br />
ad essi procedure inferenziali.<br />
Ve<strong>di</strong>amo, ora, quando <strong>un</strong> modello si <strong>di</strong>ce identificato.<br />
Innanzitutto osserviamo che le varianze e le covarianze delle <strong>variabili</strong> osservate possono essere<br />
scritte come f<strong>un</strong>zioni dei parametri strutturali, À e 8, del modello, ovvero che la matrice I:<br />
ammette la seguente decomposizione:<br />
:E = ÀÀ T + 8 = D(À, 8). (1.2)
6<br />
Questa con<strong>di</strong>zione, meglio nota in letteratura come regola 't, haia caratteristica <strong>di</strong> essere solamente<br />
necessaria, cioè se <strong>un</strong> modello non la verifica allora sicuramente non è identificabile, se invece la<br />
sod<strong>di</strong>sfa non ci si può pron<strong>un</strong>ciare sul suo stato <strong>di</strong> identificabilità e sono richiesti ulteriori controlli.<br />
Sottolineiamo che la regola t può essere applicata qual<strong>un</strong>que sia il modello <strong>di</strong> analisi fattoriale<br />
in esame, ovvero la (1.3) non impone alc<strong>un</strong>a limitazione sul numero delle <strong>variabili</strong> <strong>latenti</strong> o sulla<br />
struttura associativa dei residui. Inoltre la (1.3) costituisce,proprio grazie alla sua <strong>un</strong>iversalità<br />
<strong>di</strong> applicazione, la prima fase dello stu<strong>di</strong>o dell'<strong>identificazione</strong> <strong>di</strong> <strong>un</strong> modello. n fatto che la regola<br />
t sia necessaria e che, quin<strong>di</strong>, sia sod<strong>di</strong>sfatta da <strong>un</strong>a ampia classe <strong>di</strong> modelli, dei quali molti non<br />
identificabili, induce alla ricerca <strong>di</strong> con<strong>di</strong>zioni più restrittive (possibilmente necessarie e sufficienti)<br />
per la verifica dell'identificabilità.<br />
Nel caso in cui E> sia<strong>di</strong>agonale, Andersone Rubin (1956) hanno caratterizzato la classe dei modelli<br />
<strong>un</strong>i·fattoriali identificabili fornendo la seguente con<strong>di</strong>zione necessaria es1.lfficiente.<br />
Teorema 1.1 n modello (1.1) è identificabile se e solo se il vettore dei coefficienti fattoriali À<br />
ha almeno tre elementi non nulli.<br />
Anderson e Rubin hanno caratterizzato anche la classe dei modelli identificabili con due fattori<br />
<strong>latenti</strong> sempre sotto l'ipotesi <strong>di</strong> in<strong>di</strong>pendenza dei residui. Per quanto riguarda, invece, i modelli<br />
con tre o più <strong>variabili</strong> <strong>latenti</strong>, non si <strong>di</strong>spone <strong>di</strong> ness<strong>un</strong>a con<strong>di</strong>zione necessaria e sufficiente per la<br />
verifica della loro identificabilità.<br />
Notiamo che, come è ragionevole supporre che in <strong>un</strong> modello <strong>un</strong>Ì·fattoriale i residui possano essere<br />
tra <strong>di</strong> loro correlati, cosi è auspicabile attendersi che se i fattori <strong>latenti</strong> coinvolti sono molti, questi<br />
spieghino completamente la <strong>variabili</strong>tà degli in<strong>di</strong>catori.<br />
In ogni caso, il ricorso al modello (1.1) per rappresentare <strong>un</strong> dato fenomeno, può essere consigliabile<br />
per due motivi principali:<br />
III si vuole ridurre al minimo il numero <strong>di</strong> <strong>variabili</strong> <strong>latenti</strong> e si ritiene <strong>di</strong> poterlo fare<br />
compatibilmente con le informazioni a priori su tale fenomeno;<br />
.. si era costruito <strong>un</strong> modello a più fattori che è risultato non identificabile, allora<br />
marginalizzando rispetto a tutte le <strong>variabili</strong> <strong>latenti</strong> eccetto quella ritenuta più importante e<br />
ricavando, in questo modo, <strong>un</strong> modello <strong>un</strong>i·fattoriale con residui tra loro <strong>di</strong>pendenti, si può<br />
ottenere <strong>un</strong> modello identificabile (daremo <strong>un</strong> esempio dettagliato <strong>di</strong> ciò nel paragrafo 5.1).
INTRODUZIONE 7<br />
Per quanto riguarda l'esistenza <strong>di</strong> regole in grado <strong>di</strong> stabilire con certezza se <strong>un</strong> modello <strong>di</strong><br />
tipo (1.1) è identificabile o meno, in letteratura troviamo solamente <strong>un</strong>a con<strong>di</strong>zione sufficiente<br />
(Stanghellini, 1997) che sarà richiamata nel paragrafo 3.2.<br />
Nel presente lavoro forniremo <strong>un</strong>a caratterizzazione della, classe dei modelli identificabili con <strong>un</strong><br />
fattore e residui correlati (paragrafo 3.2). Questa con<strong>di</strong>zione necessaria e sufficiente è en<strong>un</strong>ciata<br />
e <strong>di</strong>mostrata me<strong>di</strong>ante il linguaggio dei grafi; pertanto l'intero secondo capitolo sarà rivolto a<br />
fornire, oltre agli elementi <strong>di</strong> teoria dei grafi utili nel prosieguo del lavoro, anche <strong>un</strong>a panoramica<br />
sul forte legame esistente tra grafi e concetto <strong>di</strong> in<strong>di</strong>pendenza con<strong>di</strong>zionata e sulla modellizzazione<br />
grafica.<br />
Il fatto che ci troviamo nell'ambito dell'analisi fattoriale confermativa, ci consente <strong>di</strong> rappresentare<br />
tutte le informazioni a priori dell'utente me<strong>di</strong>ante grafo; infatti, come vedremo meglio in seguito,<br />
a ogni nodo associamo <strong>un</strong>a variabile aleatoria, mentre ciasc<strong>un</strong> arco iri<strong>di</strong>ca <strong>un</strong>a relazione <strong>di</strong> tipo<br />
causale (se è orientato) o <strong>di</strong> tipo simmetrico (se è non orientato) tra le due <strong>variabili</strong> che <strong>un</strong>isce.<br />
Riba<strong>di</strong>amo che, proprio in questa fase <strong>di</strong> interazione tra statistico e utente, emerge <strong>un</strong>o dei vantaggi<br />
dell'uso dei modelli <strong>grafici</strong>: il loro imme<strong>di</strong>ato e forte impatto visivo; in questo senso, infatti, i<br />
grafi agevolano la com<strong>un</strong>icazione tra statistici e non. Inoltre vedremo (paragrafo 3.1) che, dato<br />
<strong>un</strong> modello e la sua rappresentazione grafica, se si vuole focalizzare l'attenzione su <strong>un</strong> particolaro<br />
sottoinsieme <strong>di</strong> <strong>variabili</strong> marginalizzando e/o con<strong>di</strong>zionando rispetto alle rimanenti, è possibile<br />
ottenere il modello <strong>di</strong> interesse me<strong>di</strong>ante poche e semplici operazioni sul grafo <strong>di</strong> partenza.<br />
Dal momento che il grafo del modello ci è fornito a priori, a noi non resta che controllare<br />
se sod<strong>di</strong>sfa la con<strong>di</strong>zione necessaria e sufficiente; questa, infatti, analizza proprio il grafo <strong>di</strong><br />
in<strong>di</strong>pendenza con<strong>di</strong>zionata dei residui, ovvero la struttura associativa delle q <strong>variabili</strong> osservate<br />
con<strong>di</strong>zionatamente all' <strong>un</strong>ico fattore latente.<br />
In questa sede, avendo ass<strong>un</strong>to 8 rv Nq(O, e), operiamo nell'ambito dei modelli <strong>grafici</strong> ga'ussiani<br />
(paragrafo 2.4), in base ai quali se nel grafo manca <strong>un</strong> arco, <strong>di</strong>ciamo (i,j), allora l'elemento (i,j)<br />
della matrice e-l è nullo.<br />
In particolare troviamo che possiamo stabilire se il nostro modello è identificabile semplicemente<br />
osservando il grafo complementare C dei residui (Teorema 3.1), ovvero il grafo i cui archi sono<br />
tutti e soli quelli che non figurano nel grafo <strong>di</strong>rettamente osservato G. In questo senso mostriamo<br />
che il ruolo determinante è esercitato dalla eventuale presenza <strong>di</strong> cicli <strong>di</strong>spari in C; infatti risulterà<br />
che il modello (1.1) è identificato se e solo se ogni componente connessa (questo concetto verrà
8<br />
illustrato nel paragrafo 2.1) del grafo G GQntiene almeno <strong>un</strong> ciclo <strong>di</strong>spari.<br />
Il fatto che questa caratterizzazione sia espressa in termini del "grafo degli archi mancanti"<br />
che, per definizione, rappresenta tutte le incorrelazioni tra residui, ha determinato l'esigenza<br />
<strong>di</strong> <strong>un</strong>a sua riformulazione basata sul grafo <strong>di</strong>rettamente osservato G (Teorema 4.1). Vedremo<br />
che quest'ultima, avendo <strong>un</strong> en<strong>un</strong>ciato molto più articolato rispetto a quello del Teorema 3.1, è<br />
particolarmente adatta alle situazioni in cui si debba <strong>di</strong>mostrare la non identificabilità del modello.<br />
Infine, grazie alla bi<strong>un</strong>ivocità della relazione tra grafi e matrici, abbiamo potuto formulare la<br />
con<strong>di</strong>zione necessaria e sufficiente anche in termini <strong>di</strong> e-l (Teorema 4.2); in questo modo ci<br />
siamo ricondotti al linguaggio matriciale, più <strong>di</strong>ffuso e tra<strong>di</strong>zionale in statistica multivariata. Ciò<br />
ci ha consentito, tra l'altro, <strong>di</strong> far emergere relazioni tra il nostro risultato e, ad esempio, la<br />
con<strong>di</strong>zione <strong>di</strong> Anderson e Rubin: questa risulta essere <strong>un</strong> caso particolare, per E> <strong>di</strong>agonale, della<br />
nostra caratterizzazione dei modelli <strong>un</strong>i-fattoriali identificabili.' .<br />
Anche.dalp<strong>un</strong>to <strong>di</strong> vista dell'applicabilità del Teorema 3.1, sono emersi aspetti interessanti; infatti<br />
i grafi che denotano la non identificabilità del modello che rappresentano sono molto particolari<br />
- in letteratura sono noti con il nome <strong>di</strong> grafi bipartiti (si veda la Definizione 4.1 nel paragrafo<br />
4.1) - ed hanno, quin<strong>di</strong>, nella teoria dei grafi, <strong>un</strong> ruoloa pal,'te. In particolare esistono algoritmi<br />
(si veda il paragrafo 4.4) per l'esplorazione dei grafi che sono in grado <strong>di</strong> stabilire in <strong>un</strong> tempo<br />
lineare se il grafo esaminato è bipartito. Ne segue che a noi basta mutuare queste procedure dalla<br />
teoria dei grafi per verificare lo stato <strong>di</strong> <strong>identificazione</strong> del modello.<br />
Abbiamo, quin<strong>di</strong>, visto che i grafi intervengono, con le loro proprietà e caratteristiche nelle varie<br />
fasi dell'analisi statistica. In particolare:<br />
- nella specificazione del modello si sfrutta il loro forte impatto visivo e la conseguente facilità<br />
<strong>di</strong> raffigurazione e lettura delle relazioni tra <strong>variabili</strong>;<br />
- nell'approccio al problema dell'<strong>identificazione</strong>, la rappresentazione del modello <strong>di</strong> analisi<br />
fattoriale me<strong>di</strong>ante <strong>un</strong> grafo ci permette <strong>di</strong> focalizzare l'attenzione sulla struttura dei residui<br />
e <strong>di</strong> utilizzare, d<strong>un</strong>que, le proprietà dei modelli <strong>grafici</strong> gaussiani;<br />
- la classe dei modelli <strong>un</strong>i-fattoriali identificabili viene caratterizzata in base alla particolare<br />
configurazione del grafo complementare G dei residui, cioè in termini delle sue proprietà<br />
topologiche;
INTRODUZIONE 9<br />
- nell'applicazione della con<strong>di</strong>zione necessaria e sufficiente qui proposta si ricorre ad algoritmi,<br />
con complessità computazionale lineare, per l'esplorazione dei grafi;<br />
- quando è necessario mo<strong>di</strong>ficare il modello <strong>di</strong> partenza perchè è risultato non identificabile,<br />
si può intervenire <strong>di</strong>rettamente sul suo grafo effettuando le operazioni <strong>di</strong> marginalizzazione<br />
e/o con<strong>di</strong>zionamento rispetto ad opport<strong>un</strong>i insiemi <strong>di</strong> <strong>variabili</strong>.
Capitolo 2<br />
Introduzione ai <strong>Modelli</strong> Grafici<br />
2.1 Introduzione ai Grafi<br />
Come ann<strong>un</strong>ciato, la soluzione che proporremo al problema delineato nel capitolo precedente è<br />
<strong>di</strong> tipo"grafico", cioè si basa interamente sulla struttura del grafo (complementare o non) dei<br />
residui del modello con <strong>un</strong> solo fattore latente considerato.<br />
Sottolineiamo che in questa sezione introdurremo i concetti basilari della teoria dei grafi e<br />
quegli elementi e strumenti utili affinchè questo lavoro sia il più completo possibile. L'intenzione,<br />
quin<strong>di</strong>, non è quella <strong>di</strong> fornire <strong>un</strong>a trattazione rigorosa della teoria dei grafi, visto anche che in<br />
questa sede, come del resto in statistica, se ne fa <strong>un</strong> uso strumentale.<br />
Definiremo, prima <strong>di</strong> tutto, cosa è <strong>un</strong> grafo <strong>di</strong>stinguendone <strong>di</strong>versi tipi per poi passare ad<br />
illustrarne le principali caratteristiche e proprietà.<br />
Un grafo è <strong>un</strong>a coppia <strong>di</strong> insiemi V ed E, e lo in<strong>di</strong>chiamo con G = (V, E)j in particolare V è<br />
l'insieme finito dei vertici o no<strong>di</strong>, ed in genere è <strong>un</strong> sottoinsieme {l, ... , k} dell'insieme dei numeri<br />
naturali IN mentre E, l'insieme degi archi, è <strong>un</strong> sottoinsieme (<strong>di</strong> V x V) <strong>di</strong> coppie or<strong>di</strong>nate <strong>di</strong><br />
vertici <strong>di</strong>stinti.<br />
Sia A C V <strong>un</strong> sottoinsieme <strong>di</strong> vertici, il sottografo indotto da A, GA = (A, EA), dove<br />
EA = E n (A x A) = {(a,,6): a e ,6 E A}, è ottenuto da G mantenendo tutti e soli gli<br />
archi che hanno entrambi gli estremi in Aj in proposito si veda la Figura 2.2(c).<br />
Siano a e ,6 due elementi <strong>di</strong> V, l'arco (a,,6) può essere orientato (o <strong>di</strong>retto) o non orientato (o<br />
in<strong>di</strong>retto) e viene rappresentato rispettivamente con <strong>un</strong>a freccia, ad es. a -+ ,6, o con <strong>un</strong>a linea<br />
a -,6. Notiamo che se a -+ ,6 e ,6 -+ a E E, allora a -,6.<br />
11
12<br />
Da <strong>un</strong> p<strong>un</strong>to <strong>di</strong> vista intuitivo se, come faremo in seguito, ad ogni nodo associamo <strong>un</strong>a variabile<br />
aleatoria, la presenza nel grafo dell'arco a -+ {3 in<strong>di</strong>ca <strong>un</strong>a relazione <strong>di</strong> causalità tra Y a e Y,e e<br />
cioè che Ya è <strong>un</strong>a variabile <strong>di</strong>rettamente esplicativa per Y,e o, in modo simmetrico, che Y,e è <strong>un</strong>a<br />
risposta <strong>di</strong>retta ad Ya . Più precisamente nel linguaggio della teoria dei grafi: se a -+ {3 E E si<br />
<strong>di</strong>ce che a è genitore <strong>di</strong> {3 e che {3 è <strong>un</strong> figlio <strong>di</strong> ai se a -{3 E; E si <strong>di</strong>ce che a e {3 sono a<strong>di</strong>acenti o<br />
vic'ini e si scrive a '" {3; se a e {3 non sono <strong>un</strong>iti nè da <strong>un</strong>a freccia nè da <strong>un</strong>a linea, si <strong>di</strong>cono non<br />
a<strong>di</strong>acenti e si scrive arf (3.<br />
Sia A <strong>un</strong> sottoinsieme proprio <strong>di</strong> <strong>di</strong> V, A C Vi con pa(A) = (UaEApa(a)) \A, ch(A) =<br />
(UaEAch(a)) \A e ne(A) = (UaEAne(a)) \A si in<strong>di</strong>cano rispettivamente l'insieme dei genitori, dei<br />
figli e dei vicini <strong>di</strong> A. Inoltre possiamo definire la frontiera <strong>di</strong> A, bd(A), come quel sottoinsieme<br />
<strong>di</strong> V\A formato dai genitori e dai vicini <strong>di</strong> A e la chiusura <strong>di</strong> A, cl(A) = A U bd(A).<br />
Prima <strong>di</strong> passare ad elencare i <strong>di</strong>versi tipi <strong>di</strong> grafo a cui faremo riferimento, introduciamo<br />
alc<strong>un</strong>i ulteriori concetti <strong>di</strong> teoria dei grafi.<br />
Un cammino <strong>di</strong> l<strong>un</strong>ghezza n tra a e {3 è <strong>un</strong>a successione <strong>di</strong> vertici <strong>di</strong>stinti a = VQ, • .. ,Vn = {3<br />
tale che l'arco (Vi, Vi+l) E E, per ogni i = O, ... ,n - 1. Il cammino si <strong>di</strong>ce d'iscendente se tutti i<br />
suoi archi sono dei tipi Vi -+ Vi+l e/o Vi -vi+l, cioè se gli archi orientati in esso contenuti hanno<br />
sempre lo stesso verso; ad esempio nella Figura 2.2(c), 2 -+ 5-4 è <strong>un</strong> cammino <strong>di</strong>scendente mentre<br />
1 -+ 3-4-5 f- 2 non lo è perchè presenta <strong>un</strong> cambiamento <strong>di</strong> <strong>di</strong>rezione. Un ciclo <strong>di</strong> l<strong>un</strong>ghezza<br />
n, o n-ciclo, è <strong>un</strong> cammino in cui a = {3 (si veda la Figura 2.2(a) in cui 1-2-3-4-1 è <strong>un</strong><br />
4-ciclo); tale ciclo è <strong>di</strong>retto se è <strong>un</strong> cammino <strong>di</strong>scendente con a = {3 e almeno <strong>un</strong>o dei suoi archi è<br />
del tipo Vi -+ Vi+!. Inoltre se esiste <strong>un</strong> cammino <strong>di</strong>scendente tra i no<strong>di</strong> a e {3, <strong>di</strong>ciamo che a è <strong>un</strong><br />
antenato <strong>di</strong> {3, a H {3, e che (3 è <strong>un</strong> <strong>di</strong>scendente <strong>di</strong> a; gli insiemi degli antenati e dei <strong>di</strong>scendenti <strong>di</strong> a<br />
si in<strong>di</strong>cano rispettivamente con an(a) e de(a). Infine con nd(a) = V\ (de(a) U {a}) si denotano<br />
i non <strong>di</strong>scendenti <strong>di</strong> a. Da <strong>un</strong> p<strong>un</strong>to <strong>di</strong> vista intuitivo se a E an({3) allora la variabile Ya è<br />
in<strong>di</strong>rettamente esplicativa per Y,e e, simmetricamente, Y,e è <strong>un</strong>a risposta in<strong>di</strong>retta ad Ya .<br />
Sia A <strong>un</strong> sottoinsieme proprio <strong>di</strong> V, se bd(a) ç A Va E A, allora A si <strong>di</strong>ce ancestrale e il più<br />
piccolo insieme ancestrale contenente A è in<strong>di</strong>cato con An(A); vedremo nelle sezioni 2.3.2 e 2.3.3<br />
che quest'ultimo concetto è particolarmente utile per la lettura delle in<strong>di</strong>pendenze con<strong>di</strong>zionate<br />
da grafi <strong>di</strong>retti aciclici e a catena.<br />
Infine due no<strong>di</strong> sono connessi se esiste <strong>un</strong> cammino <strong>di</strong>scendente da a a {3 ed <strong>un</strong>o da {3 ad a;<br />
le componenti connesse <strong>di</strong> <strong>un</strong> grafo sono insiemi massimali <strong>di</strong> no<strong>di</strong> a due a due connessi. Nel
INTRODUZIONE AI MODELLI GRAFICI 13<br />
prosieguo del lavoro incontreremo molto spesso il concetto <strong>di</strong> connessione <strong>di</strong> <strong>un</strong> grafo i cui archi<br />
sono dati tutti da linee. La Figura seguente è <strong>un</strong> esempio <strong>di</strong> grafo non connesso in cui le componenti<br />
connesse sono {l, 2, 3, 4, 5, 6} e {7, 8}, mentre ad esempio {4, 5} induce <strong>un</strong> sottografo connesso ma<br />
non è <strong>un</strong> insieme massimale <strong>di</strong> no<strong>di</strong> a due a due connessi.<br />
1<br />
Figura 2.1: Grafo non orientato non connesso<br />
Possiamo, ora, elencare i <strong>di</strong>versi tipi <strong>di</strong> grafo a cui faremo riferimento in seguito.<br />
Fondamentalmente <strong>di</strong>stinguiamo tra grafi: in<strong>di</strong>retti, <strong>di</strong>retti aciclici e a catena (si vedano<br />
rispettivamente i grafi 2.2(a), 2.2(b) e 2.2(c). 1 grafi in<strong>di</strong>retti (o non orientati) G = (V, E),<br />
che in<strong>di</strong>cheremo con UG, hanno la caratteristica che l'insieme degli archi E è costituito solo da<br />
linee; nei grafi <strong>di</strong>retti aciclici aD == (V, ED), che in<strong>di</strong>chiamo con DAG, tutti gli archi sono dati<br />
da frecce e non esiste alc<strong>un</strong> ciclo orientato, cioè nori. è possibile partire da <strong>un</strong> nodo e ritornarvi<br />
seguendo la <strong>di</strong>rezione delle frecce; infine i grafi a catena aO = (V, EO), che in<strong>di</strong>chiamo con CG,<br />
possono contenere sia linee che frecce, cioè sono grafi ibri<strong>di</strong>, e il loro insieme dei no<strong>di</strong> V ammette<br />
<strong>un</strong>a partizione or<strong>di</strong>nata (detta catena <strong>di</strong> in<strong>di</strong>pendenza) in blocchi non vuoti Bi" .. ,Bk, k 2: 1<br />
tali che: 1) (a,fJ) = a -fJ se a e fJ E Bi e 2) (a,fJ) = a -t fJ se aE Bi e fJ E Bj, j > i.<br />
Osserviamo che per definizione i grafi a catena non contengono cicli <strong>di</strong>retti. Inoltre nei CG le<br />
componenti connesse (dette componenti catena) inducono sottografi in<strong>di</strong>retti che possono essere<br />
facilmente in<strong>di</strong>viduati cancellando da GO tutti gli archi orientati. Infine notiamo che <strong>un</strong> CG è<br />
anche caratterizzato dalla proprietà che l'insieme delle componenti connesse forma <strong>un</strong>a catena <strong>di</strong><br />
in<strong>di</strong>pendenza.<br />
Ve<strong>di</strong>amo separatamente alc<strong>un</strong>i aspetti dei <strong>di</strong>versi grafi introdotti.<br />
Considerato <strong>un</strong> UG, <strong>di</strong>ciamo che la corda <strong>di</strong> <strong>un</strong> ciclo Vl,'" ,Vn , n 2: 3 è <strong>un</strong> arco Vi -Vj dove o<br />
i = 1 e 2 < j < n-lo 2 :::; i :::; n - 3 e i + 1 < j < n. Un concetto fondamentale nell'ambito<br />
della teoria dei grafi e dei modelli <strong>grafici</strong> è quello <strong>di</strong> grafo triangolato. Un grafo si <strong>di</strong>ce triangolato<br />
7<br />
8
INTRODUZIONE AI MODELLI GRAFICI 15<br />
La costruzione del grafo morale Gm = (V, Em) associato ad <strong>un</strong> grafo a catenaG G (il caso dei DAG<br />
si ottiene come caso particolare) consta <strong>di</strong> due fasi: 1) si eliminano le eventuali configurazioni sink,<br />
a -+ Il - ...-,k f- {3, k 2 1, introducendo l'arco a -(3j 2) si costruisce la versione in<strong>di</strong>retta.<br />
Ad esempio, con riferimento alla Figura 2.2(c), per costruire il suo grafo morale, 2.3(c'), 1)<br />
aggi<strong>un</strong>giamo gli archi 1 -2, 1 -4 e 2 -4 per eliminare la configurazione sink-U indotta da<br />
{l, 3, 4,5, 2} e le configurazioni sink-V 1 -+ 6 f- 4 e 2 -+ 7 f- 4.<br />
Frydenberg nel 1990 ha proposto <strong>un</strong> metodo del tutto equivalente al precedente per la costruzione<br />
del Gm; questo prevede che per ogni componente catena G <strong>di</strong> GG, si <strong>un</strong>iscano i no<strong>di</strong> <strong>di</strong> pa(G) e<br />
poi non si considerino le <strong>di</strong>rezioni, ovvero si trasformino tutti gli archi orientati in non orientati.<br />
Ve<strong>di</strong>amo qualche esempio per chiarire alc<strong>un</strong>i dei concetti finora esposti.<br />
I tre grafi seguenti costituiscono rispettivamente <strong>un</strong> esempio <strong>di</strong> grafo non orientato, (a), <strong>di</strong>retto<br />
aciclico, (b), e a catena, (c).<br />
(c)<br />
o (b)<br />
Figura 2.2: (a) Grafo in<strong>di</strong>retto; (b) grafo <strong>di</strong>retto aciclico; (c) grafo a catena<br />
Nella Figura 2.2(a) per esempio:<br />
- ne(5) = bd(5) = {3, 4}<br />
- l'insieme {3, 4, 5} induce <strong>un</strong>a clique
16<br />
. - l'intero grafo non è triangolato perchè contiene il ciclo senza corda 1 -2-3-4-1.<br />
Consideriamo laFigura 2.2(b):<br />
- il sottografo indotto da {l, 2, 3} è <strong>un</strong>a configurazione sink-V, dove 3 è il nodo <strong>di</strong> collisione<br />
- pa(3) = {l, 2}, ch(3) = {4}; an(4) = {2,3}.<br />
Nel grafo 2.2(c) infine:<br />
- <strong>un</strong>a catena <strong>di</strong> in<strong>di</strong>pendenza è data da BI = {l, 2}, B2 = {3,4.5} e Ba = {6,7}<br />
- il sottografo indotto da {l, 2, 3, 4, 5} è <strong>un</strong>a configurazione sink-U<br />
- le componenti catena sono {l}, {2}, {3, 4, 5}, {6} e {7}<br />
- 1 -+ 3 -4 -+ 7 t- 2 è <strong>un</strong> cammino con <strong>un</strong> nodo <strong>di</strong> collisione 7<br />
- 1 -+ 3-4 -+ 7 è <strong>un</strong> cammino <strong>di</strong>scendente.<br />
I grafi morali <strong>di</strong> 2.2(b) e 2.2(c) sono dati rispettivamente da:<br />
2<br />
(b') (c')<br />
Figura 2.3: (b') Grafo morale <strong>di</strong> 2.2(b)j (c') grafo morale <strong>di</strong> 2.2(c)<br />
2.2 In<strong>di</strong>pendenza con<strong>di</strong>zionata<br />
Una delle ragioni principali per cui l'uso dei grafi è sempre più <strong>di</strong>ffuso in statistica risiede nella loro<br />
capacità <strong>di</strong> rappresentare in modo molto sintetico e facilmente leggibile la struttura associativa <strong>di</strong><br />
<strong>un</strong> insieme <strong>di</strong> <strong>variabili</strong> aleatorie. Abbiamo visto nel paragrafo prcedente che, attraverso <strong>un</strong> grafo,<br />
è possibile <strong>di</strong>stinguere in modo molto semplice tra cause <strong>di</strong>rette e in<strong>di</strong>rette per <strong>un</strong>a variabile<br />
<strong>di</strong>pendente.
INTRODUZIONE AI MODELLI GRAFICI 17<br />
I grafi, poi, sono particolarmente adatti alla rappresentazione delle relazioni <strong>di</strong> <strong>di</strong>pendenza e<br />
in<strong>di</strong>pendenza con<strong>di</strong>zionata proprie dell'insieme <strong>di</strong> <strong>variabili</strong> considerato.<br />
Pertanto il concetto <strong>di</strong> in<strong>di</strong>pendenza con<strong>di</strong>zionata è <strong>di</strong> fondamentale importanza; ne <strong>di</strong>amo, prima<br />
<strong>di</strong> tutto, <strong>un</strong>a definizione formale per poi passare ad analizzarne ulteriori caratterizzazioni e<br />
proprietà.<br />
Definizione 2.1 Siano X, Y e Z tre v.a. con <strong>di</strong>stribuzione <strong>di</strong> probabiltà congi<strong>un</strong>ta Pi X 87,<br />
<strong>di</strong>ce in<strong>di</strong>pendente da Y con<strong>di</strong>zionatamente a Z rispetto alla legge <strong>di</strong> p7'Obabilità P se esiste <strong>un</strong>a<br />
versione della probabiltà con<strong>di</strong>zionale P(AIY, Z) che sia f<strong>un</strong>zione della sola Z per ogni insieme<br />
m'isurabile A nello spazio campionario <strong>di</strong> X.<br />
In tal caso scriviamo X JL YIZ [P) usando la notazione introdotta da Dawid nel 1979.<br />
Supponiamo ora che X, Ye Z ammettano densità congi<strong>un</strong>ta rispetto a <strong>un</strong>a misura prodotto<br />
/-Li possiamo verificare se X JL YIZ utilizzando la seguente caratterizzazione<br />
X JL YIZ {=? fXYlz(x,Yjz) = fXlz(XiZ)jYIZ(Yjz) Vz: fz(z) > O,<br />
nel caso in cui tutte le densità siano continue.<br />
In modo equivalente <strong>di</strong>ciamo che X e Y sono in<strong>di</strong>pendenti con<strong>di</strong>zionatamente a Z se e solo se:<br />
i) fxyz(x, V, z) = fxz(x, z)fyz(y, z)/fz(z) Vz: fz(z) > O<br />
in questo modo si evidenzia il fatto che la <strong>di</strong>stribuzione congi<strong>un</strong>ta può essere ottenuta<br />
attraverso il prodotto delle densità marginali relative ai <strong>di</strong>versi blocchi <strong>di</strong> <strong>variabili</strong><br />
con<strong>di</strong>zionatamente in<strong>di</strong>pendenti tra loro;<br />
ii) fxlYz(x; Y, z) = fXlz(x; z)<br />
questa formulazione coglie l'aspetto più intuitivo, mostrando che se X JL YIZ, la<br />
<strong>di</strong>stribuzione <strong>di</strong> X, dati Y e Z, è completamente determinata dalla sola Z, <strong>di</strong>venendo così<br />
superflua la conoscenza <strong>di</strong> Y i<br />
iii) fxyz(x, Y, z) = h(x, z)k(y, z) Vx, Ye Vz: fz(z) > O<br />
dove questa caratterizzazione altro non è che la versione del criterio <strong>di</strong> fattorizzazione per<br />
l'in<strong>di</strong>pendenza con<strong>di</strong>zionata e le f<strong>un</strong>zioni h e k non coincidono necessariamente con le densità<br />
marginali fxz e fy Z·
INTRODUZIONE AI MODELLI GRAFICI<br />
Un'ulteriore proprietà dell'in<strong>di</strong>pendenza con<strong>di</strong>zionata è la seguente<br />
(e5) Intersezione X JL YI(Z U W) e X JL WI(Z U Y) :::} X JL (Y U W)IZ.<br />
Questa proprietà afferma che se all'interno dell'insieme 8 = XUYUWUZ, X può essere separato<br />
dal resto <strong>di</strong> 8 me<strong>di</strong>ante due <strong>di</strong>versi sottoinsiemi, 81 = Z UY e 82 = Z UW, allora l'intersezione <strong>di</strong><br />
81 e 82, cioè Z, è sufficiente a separare X dal resto <strong>di</strong> 8. Più intuitivamente, per la (C5) possiamo<br />
<strong>di</strong>re che, a meno che Y influenzi X con W costante o W influenzi X con Y costante, nè W nè Y<br />
nè la loro combinazione possono essere rilevanti per X.<br />
La proprietà <strong>di</strong> intersezione non è <strong>un</strong>iversalmente valida ma solo sotto opport<strong>un</strong>e con<strong>di</strong>zioni<br />
per la <strong>di</strong>stribuzione <strong>di</strong> probabilità P. Una con<strong>di</strong>zione sufficiente affinchè la (C5) sia vera è che P<br />
sia strettamente positiva.<br />
Pearl e Paz (1987) avevano congetturato la completezza <strong>di</strong> (C1)-(C4) sostenendo che qualora<br />
fossero verificate, doveva esistere <strong>un</strong>a <strong>di</strong>stribuzione <strong>di</strong> probabilità P tale che<br />
P(xlv, z) = P(xlz) {::::::? X JL YIZ.<br />
Studeny (1992) ha mostrato che non esiste <strong>un</strong>'assiomatizzazione finita dell'in<strong>di</strong>pendenza<br />
con<strong>di</strong>zionata. In particolare egli ha <strong>di</strong>mostrato che esiste <strong>un</strong>'ulteriore proprietà formale<br />
in<strong>di</strong>pendente:<br />
X JL YI(W U Z) e W JL Z!X e W JL Z!Y e X JL Y {::::::?<br />
{::::::? W JL ZI(X UY) e X JL YIW e X JL YIZ e W JL Z.<br />
2.3 Grafi <strong>di</strong> In<strong>di</strong>pendenza Con<strong>di</strong>zionata<br />
Come abbiamo visto, la definizione tra<strong>di</strong>zionale <strong>di</strong> in<strong>di</strong>pendenza con<strong>di</strong>zionata e le sue formulazioni<br />
equivalenti si basano sull'uguaglianza <strong>di</strong> quantità numeriche. È, però vero che anche giu<strong>di</strong>zi <strong>di</strong> tipo<br />
qualitativo possono dare luogo a conclusioni circa eventuali relazioni <strong>di</strong> in<strong>di</strong>pendenza (con<strong>di</strong>zionata<br />
e non) tra eventi.<br />
Pertanto è auspicabile trovare <strong>un</strong> linguaggio capace <strong>di</strong> esprimere qualitativamente le informazioni<br />
probabilistiche. In questo modo la verifica delle <strong>di</strong>pendenze potrebbe essere fatta me<strong>di</strong>ante poche<br />
operazioni elementari sulle caratteristiche principali dello schema <strong>di</strong> rappresentazione. In sostanza<br />
19
20<br />
si vuole trovare <strong>un</strong>o strumento che f<strong>un</strong>zioni il più possibile come la mente umana e che consenta<br />
<strong>di</strong> ricavare le relazioni esistenti tra <strong>variabili</strong> in modo logico. In termini più formali chie<strong>di</strong>amo che<br />
tutte o quasi le conclusioni che trarremo circa la struttura associativa <strong>di</strong> v.a. siano il risultato <strong>di</strong><br />
operazioni locali su strutture che rappresentano associazioni logiche.<br />
Uno strumento "naturale" in questo senso è il grafo <strong>di</strong> in<strong>di</strong>pendenza con<strong>di</strong>zionata perchè, come<br />
vedremo, i legami in esso contenuti esprimono in modo qualitativo e <strong>di</strong>retto le relazioni <strong>di</strong><br />
<strong>di</strong>pendenza e la sua topologia le mostra esplicitamente e le preserva sotto ogni assegnazione<br />
<strong>di</strong> parametri numerici.<br />
Il problema da porsi, com<strong>un</strong>que, è se le proprietà topologiche <strong>di</strong> <strong>un</strong> grafo permettano <strong>di</strong> dedurre<br />
ogni tipo <strong>di</strong> <strong>di</strong>pendenze e in<strong>di</strong>pendenze proprie dell'insieme <strong>di</strong> <strong>variabili</strong> considerato; questo perchè<br />
quando si vogliono modellizzare relazioni concettuali (come causa, associazione o rilevanza) è<br />
<strong>di</strong>fficile <strong>di</strong>stinguere tra vicini <strong>di</strong>retti e in<strong>di</strong>retti.<br />
Ve<strong>di</strong>amo da <strong>un</strong> p<strong>un</strong>to <strong>di</strong> vista più formale come caratterizzare questa relazione tra grafi e<br />
stu<strong>di</strong>o delle associazioni tra <strong>variabili</strong>.<br />
Riba<strong>di</strong>amo che le con<strong>di</strong>zioni (C1)-(C4) possono essere utilizzate come assiomi formali per<br />
l'in<strong>di</strong>pendenza con<strong>di</strong>zionata. Definiamo, quin<strong>di</strong>, <strong>un</strong> semi-grafoide come <strong>un</strong>a struttura algebrica<br />
che sod<strong>di</strong>sfa tali proprietà. Se questa struttura verifica anche la (C5), è detta grafoide.<br />
Nelle prossime sezioni andremo a definire quello strumento che ci consente <strong>di</strong> "visualizzare"<br />
l'in<strong>di</strong>pendenza con<strong>di</strong>zionata in probabilità me<strong>di</strong>ante i grafi: la separazione. Questa verrà illustrata<br />
<strong>di</strong>rettamente ed in modo dettagliato per i grafi in<strong>di</strong>retti, <strong>di</strong>retti aciclici e a catena.<br />
2.3.1 Grafi In<strong>di</strong>retti<br />
Consideriamo, per primi, i grafi non orientati introdotti nel paragrafo 2.1; definiamo subito cosa<br />
si intende per separazione.<br />
Definizione 2.2 Siano X, Y e Z sottoinsiemi <strong>di</strong>sgi'<strong>un</strong>ti <strong>di</strong> no<strong>di</strong> <strong>di</strong> <strong>un</strong> grafo G = (V, E). X e<br />
Y si <strong>di</strong>cono separati, con<strong>di</strong>zionatamente a Z, se ogni cammino tra <strong>un</strong> nodo in X ed <strong>un</strong>o in Y<br />
include almeno <strong>un</strong> vertice <strong>di</strong> Z.<br />
Se ad esempio consideriamo la Figura 2.1 e poniamo X = {l, 2, 3}, Y = {5, 6} e Z = {4}, abbiamo<br />
X JLc YIZ.<br />
Notiamo che la separazione in <strong>un</strong> grafo, cioè
INTRODUZIONE AI MODELLI GRAFICI 23<br />
(G) globale, se, considerati tre insiemi <strong>di</strong>sgi<strong>un</strong>ti A, B ed S, con A =1= 0 =1= BeS separatore <strong>di</strong> A<br />
e B, si ha A JLM BIS.<br />
In sostanza le proprietà <strong>di</strong> Markov costituiscono l'anello <strong>di</strong> congi<strong>un</strong>zione tra il concetto <strong>di</strong><br />
separazione proprio della teoria dei grafi ed il concetto <strong>di</strong> in<strong>di</strong>pendenza con<strong>di</strong>zionata in probabilità.<br />
Sottolineiamo che (P), (L) e (O) colgono aspetti <strong>di</strong>versi dell'in<strong>di</strong>pendenza con<strong>di</strong>zionata. (L), ad<br />
esempio, presenta <strong>un</strong> nesso con la regressione perchè mostra come <strong>un</strong>a variabile sia spiegata solo<br />
dalle <strong>variabili</strong> che costituiscono la sua frontiera in G. (L) ha, però, il <strong>di</strong>fetto <strong>di</strong> non consentire<br />
<strong>un</strong>a facile costruzione del grafo <strong>di</strong> in<strong>di</strong>pendenza qualora si sappia che la <strong>di</strong>stribuzione la verifica.<br />
In questo senso potrebbe risultare più utile e naturale (P) visto che per definire <strong>un</strong>a I-map<br />
abbiamo usato l'in<strong>di</strong>pendenza tra <strong>un</strong>a coppia <strong>di</strong> v.a. date le rimanenti. (G), infine, è importante<br />
perchè fornisce <strong>un</strong> criterio generale per stabilire se due insiemi <strong>di</strong> <strong>variabili</strong> sono in<strong>di</strong>pendenti<br />
con<strong>di</strong>zionatamente ad <strong>un</strong> terzo insieme.<br />
Qualora non si faccia ness<strong>un</strong>a ipotesi circa la <strong>di</strong>stribuzione <strong>di</strong> probabilità P su X, si può solo<br />
affermare che le tre proprietà <strong>di</strong> Markov sono legate dalla relazione:<br />
(G) ==? (L) ==? (P). (2.2)<br />
Ne risulta che la proprietà <strong>di</strong> Markov più forte è quella globale, ovvero che elencando le<br />
in<strong>di</strong>pendenze con<strong>di</strong>zionate da essa implicate, tale lista contiene strettamente le liste associate alle<br />
altre due proprietà (L) e (P).<br />
Matus (1992) ha in<strong>di</strong>viduato delle con<strong>di</strong>zioni"grafiche" necessarie e sufficienti affinchè (L) e<br />
(O) e (L) e (P) siano equivalenti.<br />
In<strong>di</strong>chiamo: con Go la classe <strong>di</strong> tutti i grafi il cui duale non contiene ness<strong>un</strong> ciclo <strong>di</strong> lnghezz-;a<br />
4 senza corda; con G
24<br />
Affinchè nella (2.2) valgano anche le implicazioni inverse è necessario ipotizzare che per tutti<br />
i sottoinsiemi <strong>di</strong>sgi<strong>un</strong>ti A, B, C e D si abbia che se A JL BI(G U D) e A JL GI(B U D) allora<br />
A JL (BUG) ID. Questa con<strong>di</strong>zione, analoga alla (OS) per l'in<strong>di</strong>pendenza con<strong>di</strong>zionata, è verificata<br />
se P ha <strong>un</strong>a densità continua e positiva rispetto ad <strong>un</strong>a misura prodotto /-l.<br />
Inoltre Pearl (1988) propone <strong>di</strong> usare la proprietà locale <strong>di</strong> Markov come test per verificare se G<br />
è <strong>un</strong>a I-map <strong>di</strong> <strong>un</strong>a <strong>di</strong>stribuziohe <strong>di</strong> probabilità strettamente positiva.<br />
Le proprietà <strong>di</strong> Markov, pertanto, forniscono <strong>un</strong>a chiave <strong>di</strong> lettura delle relazioni <strong>di</strong><br />
in<strong>di</strong>pendenza (con<strong>di</strong>zionata e non) contenute in <strong>un</strong> grafo.<br />
Ne <strong>di</strong>scende che <strong>un</strong> insieme completo D <strong>di</strong> no<strong>di</strong>, inducendo <strong>un</strong> grafo i cui vertici sono a due a due<br />
a<strong>di</strong>acenti, non dà alc<strong>un</strong>a informaziohe circa la struttura <strong>di</strong> in<strong>di</strong>pendenza delle <strong>variabili</strong> (Xa,)aED'<br />
Fino ad ora abbiamo illustrato i grafi non orientati e abbiamo visto che consentono <strong>un</strong>a<br />
semplice e <strong>di</strong>retta lettura delle separazioni tra no<strong>di</strong>. Però questi UG non contengono e non danno<br />
per costruzione alc<strong>un</strong>a informazione circa eventuali relazioni <strong>di</strong> causalità o implicazione tra le<br />
<strong>variabili</strong>. In sostanza l'uso delle reti <strong>di</strong> Markov è proprio dello stu<strong>di</strong>o delle strutture associative<br />
<strong>di</strong> v.a. che possano essere considerate in modo simmetrico.<br />
2.3.2 Grafi Diretti Aciclici<br />
Uno dei maggiori limiti delle reti <strong>di</strong> Markov è dato dalla loro impossibilità <strong>di</strong> rappresentare le<br />
<strong>di</strong>pendenze indotte e non transitive. Ad esempio due <strong>variabili</strong> potrebbero essere <strong>un</strong>ite da <strong>un</strong> arco<br />
solo perchè <strong>un</strong>a terza <strong>di</strong>pende da entrambe; ne segue il rischio <strong>di</strong> nascondere eventuali in<strong>di</strong>pendenze<br />
(con<strong>di</strong>zionate e non) <strong>di</strong> interesse.<br />
An<strong>di</strong>amo ora ad introdurre i grafi <strong>di</strong> in<strong>di</strong>pendenza con<strong>di</strong>tionata <strong>di</strong>retti aciclici o reti bayesiane<br />
o modelli DA G (dove DAG sta per <strong>di</strong>rected acyclic graph) che, me<strong>di</strong>ante l'uso del linguaggio dei<br />
grafi orientati, consentono <strong>di</strong> <strong>di</strong>stinguere le <strong>di</strong>pendenze effettive da quelle spurie.<br />
Anche in questo caso ai no<strong>di</strong> associamo v.a., mentre ora <strong>un</strong> arco congi<strong>un</strong>gente due no<strong>di</strong><br />
denota l'esistenza <strong>di</strong> <strong>un</strong>'influenza <strong>di</strong>retta tra le due <strong>variabili</strong> <strong>un</strong>ite. Per leggere le in<strong>di</strong>pendenze<br />
con<strong>di</strong>zionate rappresentate in <strong>un</strong> DAG è necessario introdurre <strong>un</strong>a opport<strong>un</strong>a chiave <strong>di</strong> lettura: il<br />
concetto <strong>di</strong> separazione per gmfi orientati aciclici; tale concetto è alquanto complesso e ammette<br />
due formulazioni equivalenti.<br />
Diamo, per primo, il criterio <strong>di</strong> d-separazione (dove d in<strong>di</strong>ca il termine <strong>di</strong>rezione) introdotto<br />
da Pearl nel 1986.
INTRODUZIONE AI MODELLI GRAFICI 25<br />
Sia G D = (V, ED) <strong>un</strong> grafo <strong>di</strong>retto aciclico e sia 1r <strong>un</strong> cammino che connette i no<strong>di</strong> a e {3; il<br />
cammino 1r si <strong>di</strong>ce bloccato dal sottoinsieme <strong>di</strong> vertici Z, con a e {3 ti- Z, se 1) è <strong>un</strong> cammino<br />
<strong>di</strong>scendente e contiene almeno <strong>un</strong> nodo I E Z, o 2) ogni nodo <strong>di</strong> collisione <strong>di</strong> 1r non è in Z nè ha<br />
<strong>un</strong> <strong>di</strong>scendente in Z.<br />
Abbiamo, ora, tutti gli strumenti per definire la separazione nel casò dei DAG.<br />
Definizione 2.3 Siano X, Y e Z tre sottoinsiemi <strong>di</strong>sgi<strong>un</strong>ti <strong>di</strong> no<strong>di</strong> <strong>di</strong> QD; <strong>di</strong>ciamo che X e Y<br />
sono d-separati da Z se tutti i cammini che connettono i vertici in X a quelli in Y sono bloccati<br />
da Z.<br />
In tal caso si scrive X JLD YIZ.<br />
Per completezza <strong>di</strong> esposizione osserviamo che Cox e Wermuth (1996) definiscono in modo<br />
del tutto equivalente la d-separazione affermando che: X e Y sono d-separati da Z se non esiste<br />
ness<strong>un</strong> cammino attivo tra X e Y; dove <strong>un</strong> cammino '7\ si <strong>di</strong>ce attivo relativamente a Z se non è<br />
bloccato da Z.<br />
Prima <strong>di</strong> dare la versione alternativa ed equivalente del concetto <strong>di</strong> separazione, ve<strong>di</strong>amo in<br />
che modo questo è collegato allo stu<strong>di</strong>o dell'in<strong>di</strong>pendenza con<strong>di</strong>zionata. Diciamo che <strong>un</strong> DAG<br />
G D è <strong>un</strong>a I-map del modello M se ogni d-separazione in GD corrisponde ad <strong>un</strong>a relazione <strong>di</strong><br />
in<strong>di</strong>pendenza con<strong>di</strong>zionata in M, cioè se per ogni terna <strong>di</strong> insiemi <strong>di</strong>sgi<strong>un</strong>ti X, Y e Z si ha<br />
X JLD YIZ => X JLM YIZ (2.3)<br />
Dopo avere osservato che il concetto <strong>di</strong> mappa <strong>di</strong> in<strong>di</strong>pendenza minimale per DAG è del tutto<br />
analogo a quello visto per i grafi in<strong>di</strong>retti, possiamo caratterizzare <strong>un</strong>a rete bayesiana. Diciamo<br />
che, presa <strong>un</strong>a <strong>di</strong>stribuzione <strong>di</strong> probabilità P sull'insieme <strong>di</strong> <strong>variabili</strong> V, QD è <strong>un</strong>a rete bayesiana<br />
(o grafo <strong>di</strong> in<strong>di</strong>pendenza con<strong>di</strong>zionata <strong>di</strong>retto aciclico o modello DAG) <strong>di</strong> P se e solo se G D è <strong>un</strong>a<br />
I-map minimale <strong>di</strong> P.<br />
In sostanza il criterio <strong>di</strong> d-separazione costituisce <strong>un</strong>o strumento per leggere le in<strong>di</strong>pendenze<br />
con<strong>di</strong>zionate <strong>di</strong>rettamente dal grafo non orientato aciclico. Questo metodo ha il <strong>di</strong>fetto <strong>di</strong> non<br />
essere troppo semplice da utilizzare soprattutto qualora il grafo in questione sia <strong>di</strong> notevoli<br />
<strong>di</strong>mensioni.<br />
Lauritzen, Dawid, Larsen e Leimer (1990) hanno ideato <strong>un</strong> criterio alternativo <strong>di</strong>mostrandone,<br />
inoltre, l'equivalenza con quello <strong>di</strong> Pearl. Essi propongono <strong>di</strong> leggere le in<strong>di</strong>pendenze non più dal
INTRODUZIONE AI MODELLI GRAFICI<br />
Figura 2.6: Configurazione <strong>di</strong> Wermuth o sink-V<br />
Dato il grafo GD, la misura <strong>di</strong> probabilità P su X ::::: Xv obbe<strong>di</strong>sce alla proprietà <strong>di</strong> Markov<br />
<strong>di</strong>retta<br />
(DP) a coppie, se per ogni coppia <strong>di</strong> vertici non a<strong>di</strong>acenti (a,{3) si ha a JLM {3lnd(a)\{{3}, con<br />
{3 E nd(a);<br />
(DL) locale, se per ogno nodo a E V, si ha che la v.a. associata è in<strong>di</strong>pendente dai suoi nOll<br />
<strong>di</strong>scendenti con<strong>di</strong>zionatamente ai genitori, cioè a JLM nd(a)lpa(a);<br />
(DG) globale, se per ogni terna <strong>di</strong> insiemi <strong>di</strong>sgi<strong>un</strong>ti A, B e S, con S separatore <strong>di</strong> A e B non<br />
vuoti, si ha A JLM BIS.<br />
È imme<strong>di</strong>ato notare che se il grafo fosse non orientato si avrebbe de(a) = 0, cioè nd(a) = V\{a}<br />
e pa(a) = ne(a), e quin<strong>di</strong> (DP) e (P) e (DL) e (L) sarebbero identiche. Anche (DG) verrebbe a<br />
coincidere con (G) perchè <strong>un</strong> insieme è <strong>un</strong> separatore in <strong>un</strong> grafo non orientato se e solo se lo è<br />
in <strong>un</strong> insieme <strong>di</strong> componenti catena. Inoltre (DG) continua ad essere la regola più restrittiva per<br />
la lettura delle in<strong>di</strong>pendenze con<strong>di</strong>zionate dal grafo.<br />
A <strong>di</strong>fferenza del caso non orientato, ora (DL)' e (DG) coincidono anche senza fare ipotesi sulla<br />
<strong>di</strong>stribuzione <strong>di</strong> probabilità. Ciò consente, tra l'altro, <strong>di</strong> costruire <strong>un</strong>a I-map <strong>di</strong>rettamente a<br />
partire dalle <strong>di</strong>pendenze locali.<br />
Un'ulteriore <strong>di</strong>fferenza si ha con riferimento all'<strong>un</strong>icità della rete bayesiana per P; esiste <strong>un</strong> modello<br />
DAG per ogni or<strong>di</strong>namento w delle <strong>variabili</strong> (XaJaEV' Si consideri infatti <strong>un</strong>a <strong>di</strong>stribuzione P e<br />
<strong>un</strong> or<strong>di</strong>namento w delle <strong>variabili</strong> (Xa)aEV, il DAG costruito me<strong>di</strong>ante la relazione P(xilpa(xi)) =<br />
P(XdXI"" ,Xi-l), pa(Xi) ç {Xl, ... ,Xi-l}, è <strong>un</strong>a rete bayesiana <strong>di</strong> P.<br />
Siccome ogni rete è <strong>un</strong>a mappa <strong>di</strong> in<strong>di</strong>pendenza della <strong>di</strong>stribuzione sottostante P, benchè la<br />
struttura <strong>di</strong> <strong>un</strong> modello DAG <strong>di</strong>penda fortemente dall'or<strong>di</strong>namento w usato per costruirla, tutte<br />
le in<strong>di</strong>pendenze con<strong>di</strong>zionate contenute nella rete (me<strong>di</strong>ante la d-separazione) sono valide per P<br />
27
INTRODUZIONE AI MODELLI GRAFICI<br />
l» h-terminale (h=head) se (Vj-'l, Vj) = Vj-l -+ Vj<br />
e t-terminale (t=tail) se (Vj-l' Vj) = Vj-l +- Vj<br />
ID e-terminale (e=end) se j =1.<br />
A loro volta le sezioni possono essere classificate in sei gruppi a seconda del tipo <strong>di</strong> no<strong>di</strong> terminali<br />
(ad es. h-h, h-t, h-e,... ).<br />
Il criterio <strong>di</strong> c-separazione (Bouckaert e Studeny, 1995), <strong>di</strong>versamente da quello <strong>di</strong> d<br />
separazione, opera me<strong>di</strong>ante la verifica non dei singoli no<strong>di</strong> <strong>di</strong> <strong>un</strong> cammino, ma delle sezioni<br />
<strong>di</strong> <strong>un</strong> trai!. Pertanto troviamo più opport<strong>un</strong>o iniziare conIa definizione <strong>di</strong> quando <strong>un</strong>a sezione S<br />
è attiva (o non bloccata) rispetto ad <strong>un</strong> insieme Z.<br />
Sia GO = (V, EO) <strong>un</strong> grafo a catena; sia Z <strong>un</strong> sottoinsieme <strong>di</strong> no<strong>di</strong> e Ssia <strong>un</strong>a sezione <strong>di</strong> <strong>un</strong><br />
trail in GO. S è attiva rispetto a Z se: 1) S è h-h e de(S)nZ =/: 0, 2) S non è h-h e Snz = 0,<br />
3) S non è h - h, S n Z =/: 0 e per ogninodo terminale v <strong>di</strong> S esiste <strong>un</strong>a sUde verso v che non ha<br />
ness<strong>un</strong> vertice in com<strong>un</strong>e con Z.<br />
Pertanto <strong>un</strong>a rotta R e, analogamente, <strong>un</strong> trail T si <strong>di</strong>cono attivi rispetto a Z se lo sono tutte<br />
le loro sezioni. In modo simmetrico, ricordando che ogni trail ammette decomposizione <strong>un</strong>ica in<br />
sezioni, <strong>di</strong>ciamo che <strong>un</strong> trail T è c-separato da Z se e solo se esiste <strong>un</strong>a sezione <strong>di</strong> T bloccata da<br />
Z.<br />
Dalla teoria relativa ai grafi a catena sappiamo che, qualora X JLo YIZ sia vero, le due<br />
con<strong>di</strong>zioni seguenti sono equivalenti:<br />
lllI ogni rotta da X a Y è c-separata da Z;<br />
G ogni trail da X a Y è c-separato da Z.<br />
Quin<strong>di</strong>, tenuto conto del fatto che in <strong>un</strong> grafo a catena il numero <strong>di</strong> trail è finito, definiamo la<br />
c-separazione come segue:<br />
Definizione 2.4 Siano X, Y e Z tre sottoinsiemi <strong>di</strong>sgi<strong>un</strong>ti <strong>di</strong> no<strong>di</strong> <strong>di</strong> GO,. X e Y sono c-sepaT'at'i<br />
da Z se t'utti i trail da X a Y sono c-separati da Z. In tal caso scriviamo X JLo YIZ.<br />
Osserviamo che nello stu<strong>di</strong>o dei CG non è più sufficiente controllare se tutti i cammini sono<br />
bloccati da Z, perchè ogni cammino è <strong>un</strong> trail; com<strong>un</strong>que il fatto che il numero <strong>di</strong> trai! in <strong>un</strong> CG<br />
è finito, consente <strong>di</strong> affermare che i! criterio è effettivamente utilizzabile.<br />
29
30<br />
Da <strong>un</strong> p<strong>un</strong>to <strong>di</strong> vista puramente intuitivo; infine si può notare che se pensiamo <strong>un</strong>a sezione<br />
come <strong>un</strong> solo nodo, la c-separazione coincide con la d-separazione; in particolare: il p<strong>un</strong>to l)<br />
conduce alla con<strong>di</strong>zione sui no<strong>di</strong> <strong>di</strong> collisione e i loro <strong>di</strong>scendenti; il p<strong>un</strong>to 2) si riduce ad affermare<br />
che il cammino è bloccato se alc<strong>un</strong>i dei suoi no<strong>di</strong> sono in Z, questo perchè in <strong>un</strong> DAG i trail<br />
coincidono con i cammini visto che ogni freccia si presenta <strong>un</strong>a volta sola; il p<strong>un</strong>to 3) invece non<br />
trova il corrispettivo nella d-separazione.<br />
Notiamo che generalmente questo criterio, a causa della sua complessità, viene preferibilmente<br />
utilizzato per mostrare che <strong>un</strong>'affermazione <strong>di</strong> in<strong>di</strong>pendenza con<strong>di</strong>zionata non è valida; infatti,<br />
mentre per <strong>di</strong>mostrare che due v.a. non sono con<strong>di</strong>zionatamente in<strong>di</strong>pendenti è sufficiente trovare<br />
<strong>un</strong> trail attivo che le <strong>un</strong>isce, per verificare la loro in<strong>di</strong>pendenza è necessario far vedere che<br />
tutti i trail sono bloccati, operazione questa anche computazionalmente più impegnativa della<br />
precedente.<br />
Il criterio (Frydenberg, 1990) equivalente a quello soWa esposto, prima <strong>di</strong> tutto fa restringere lo<br />
stu<strong>di</strong>o al sottografo <strong>di</strong> GD indotto dall'insieme An(X, Y, Z), poi considera il grafo morale associato<br />
e infine verifica se X e Y sono separati da Z in (GAn(XYZ)) m usando il criterio <strong>di</strong> separazione<br />
per grafi in<strong>di</strong>retti.<br />
Contrariamente alla c-separazione, l'uso <strong>di</strong> questo metodo è piii appr()priato qualora si voglia<br />
verificare la vali<strong>di</strong>tà <strong>di</strong> <strong>un</strong>'affermazione <strong>di</strong> in<strong>di</strong>pendenza con<strong>di</strong>zionata.<br />
La <strong>di</strong>mostrazione dell'equivalenza dei due meto<strong>di</strong> è dovuta a Studeny e Bouckaert (1995).<br />
Come esempio consideriamo il grafo 2. 7(a) e verifichiamo, me<strong>di</strong>ante i due criteri, se i vertici l<br />
e 6 sono in<strong>di</strong>pendenti con<strong>di</strong>zionatamente a Zl = (3,5,7) e a Z2 = (2,3,7).<br />
(a) (b)<br />
Figura 2.7: (a) Grafo analizzato; (b) grafo morale <strong>di</strong> (a)
INTRODUZIONE AI MODELLI GRAFICI 31<br />
Osserviamo che GXn(1,6,3,5,7) e GXn(1,6,Z,3,7) sono identici (si veda la Figura 2.7(b)). Risulta che<br />
ljt 61Z1 perchè esiste i! cammino 1-2-4 -,..6 mentre 1 JL 61Zz.<br />
Per quanto riguarda il criterio della c-separazione, <strong>di</strong>amo, prima <strong>di</strong> tutto, <strong>un</strong> esempio <strong>di</strong>:<br />
ROTTA: 1 -+ 3-4-5 f- 2 -+ 5-4 -+ 6<br />
TRAIL: 1 -+ 3-4-5 f- 2 -+ 7 f- 4 -+ 6<br />
CAMMINO: 1 -+ 3-4 -+ 6<br />
SEZIONE: 3-4-5.<br />
Consideriamo prima i! caso <strong>di</strong> Zl, abbiamo che ogni sezione del trai! sopra riportato è attiva<br />
rispetto a Zl; ad esempio la sezione 3-4-5 è h - h e ha i! <strong>di</strong>scendente 7 in Zl e la sezione 2 è<br />
t - t e con itersezione vuota con Zl quin<strong>di</strong> non è bloccata.<br />
Consideriamo ora Zz; ve<strong>di</strong>amo che tutti i trai! tra 1 e 6 sono bloccati. Questi iniziano con<br />
1 -+ 3 -4 e possono continuare in <strong>un</strong>o dei tre mo<strong>di</strong> seguenti: A) 4 -+ 7, B) 4 -+ 6 o C) 4 -5.<br />
Nel caso A) la sezione bloccata è 3-4 perchè è h - t e ha intersezione non vuota con Zz. Auche<br />
nel caso B) è sufficiente considerare la sezione 3 -4 per vedere che il trail 110n è attivo. Infine<br />
analizzando C) ve<strong>di</strong>amo che i! trai! corrispondente è bloccato nella sezione 2; questa infatti è t - t<br />
ed è anche contenuta in Zz.<br />
Abbiamo, come del resto ci attendevamo, che il criterio <strong>di</strong> c-separazione fornisce gli stessi<br />
risultati del criterio basato sul grafo morale.<br />
Possiamo, ora, definire prima i grafi <strong>di</strong> in<strong>di</strong>pendenza con<strong>di</strong>zionata a catena e poi le relative<br />
proprietà eli Markov.<br />
Un grafo <strong>di</strong> in<strong>di</strong>pendenza con<strong>di</strong>zionata a catena o modello ca indotto dal grafo GC = (V, EC) è<br />
dato da tutte le terne X JLc YIZ contenute in GC secondo <strong>un</strong>o qual<strong>un</strong>que dei criteri <strong>di</strong> separazione<br />
esposti.<br />
Dato il grafo GC, la misura. <strong>di</strong> probabilità P su X = Xv sod<strong>di</strong>sfa le proprietà <strong>di</strong> Markov per<br />
grafi a catena:<br />
(CP) a coppie, se per ogni coppia <strong>di</strong> vertici non a<strong>di</strong>acenti (a,(3) si ha a JLM (3lnd(a)\{(3}, con<br />
(3 E nd(a);<br />
(CL) locale, se per ogni nodo a E V si ha a JLM nd(a)lbd(a)j
32<br />
(CG) globale, se per ogni tema (A, B, S) <strong>di</strong> sottoinsiemi <strong>di</strong>sgi<strong>un</strong>ti <strong>di</strong> V tale che A JLc BIS si ha<br />
A JLM BIS.<br />
2.3.4 Equivalenza <strong>di</strong> grafi <strong>di</strong> in<strong>di</strong>pendenza con<strong>di</strong>zionata<br />
L'ultimo concetto che inten<strong>di</strong>amo illustrare in questa rassegna sui grafi <strong>di</strong> in<strong>di</strong>pendenza<br />
con<strong>di</strong>zionata, è quello dell'eq'uivalenza <strong>di</strong> Nlarkov. Vogliamo, cioè, sapere sotto quali con<strong>di</strong>zioni
INTRODUZIONE AI MODELLI GRAFICI 33<br />
le strutture <strong>di</strong> in<strong>di</strong>pendenza rappresentate in due grafi <strong>di</strong>stinti (sullo stesso insieme <strong>di</strong> <strong>variabili</strong>)<br />
sono identiche.<br />
Prima <strong>di</strong> tutto ve<strong>di</strong>amo quando due CG'sono Markov-equivalenti (Frydenberg, 1990, Teorema<br />
5.6); le con<strong>di</strong>zioni per gliUG e per i DAG si ricavano come semplici particolarizzazioni.<br />
Sia GG = (V, EG) <strong>un</strong> grafo a catena e sia GU = (V, EU) il suo grafo in<strong>di</strong>retto sottostante, dove<br />
EU, costituito da tutti e soli gli archi <strong>di</strong> EG, è ottenuto sostituendo ogni freccia con <strong>un</strong>a linea.<br />
Teorema 2.2 Due grafi a catena Gf e Gf sono Markov-equivalenti se e solo se<br />
1) hanno lo stesso grafo in<strong>di</strong>retto sottostante e<br />
2) le configurazioni sink- V e sink- U in Gf e Gf coincidono.<br />
Osserviamo subito che affinchè i due grafi siano equivalenti non è sufficiente che abbiano gli stessi<br />
archi. Si considerino, ad esempio, i tre grafi della Figura 2.8<br />
(a) (b)<br />
Figura 2.8: 'Ire grafi a catena; (a) Gf, (b) Gf e (c) Gf, con (a) e (b) Markov-equivalenti<br />
Questi, pur avendo il medesimo grafo in<strong>di</strong>retto sottostante, non sono Markov-equivalellti. In<br />
pa.rticolare abbiamo che, mentre Gf e Gf ammettono lo stesso grafo morale (GG)7n, la<br />
moralizzazione <strong>di</strong> Gf dà luogo ad <strong>un</strong> grafo <strong>di</strong>verso da (GG)7n ..<br />
Se confrontiamo (GG)m e (Gf)m, ve<strong>di</strong>amo che mostrano in<strong>di</strong>pendenze con<strong>di</strong>zionate <strong>di</strong>verse; infatti<br />
Gf e Gf contengono la stessa configurazione sink-U, 3 --+ 4-5 t- 6, mentre in Gf troviamo la<br />
(c)
INTRODUZIONE AI MODELLI GRAFICI<br />
da confrontare.<br />
2.4 <strong>Modelli</strong> Grafici<br />
Nei paragrafi precedenti sono stati introdotti i concetti <strong>di</strong> grafo e <strong>di</strong> in<strong>di</strong>pendenza con<strong>di</strong>zionata;<br />
sono stati inoltre forniti gli strumenti e .le metodologie per la lettura delle in<strong>di</strong>pendellze<br />
con<strong>di</strong>zionate rappresentate in <strong>un</strong> grafo.. A questo p<strong>un</strong>to, quin<strong>di</strong>, non resta che definire cosa si<br />
intende per modello grafico.<br />
Definizione 2.5 Sia X = (Xl,'''' X p ) <strong>un</strong> vettore aleatorio p-<strong>di</strong>mensionale e sia G = (V, B)<br />
<strong>un</strong> grafo <strong>di</strong> in<strong>di</strong>pendenza con<strong>di</strong>zionatal' <strong>un</strong> modello grafico per X è dato da <strong>un</strong>a famiglia d'i<br />
<strong>di</strong>stribuzioni <strong>di</strong> probabilità su X I vincolata a verificare le proposizioni <strong>di</strong> in<strong>di</strong>pendenza con<strong>di</strong>zionata<br />
contenute nel grafo G associato ad X I ed è altrimenti arbitraria.<br />
, . . . .: " .<br />
I modelli <strong>grafici</strong>· hanno il pregio <strong>di</strong> essere <strong>un</strong>iversalmente applicabili; ciò è dovuto, tra l'altro,<br />
al fatto che fanno uso dei grafi.' Infatti si possono rappresentare le informazioni contenute in <strong>un</strong><br />
modello favorendo, cosi, la com<strong>un</strong>icazione tra statistici e non.<br />
I modelli <strong>grafici</strong> hanno anche la caratteristica <strong>di</strong> .modularità che permette <strong>di</strong> descrivere e trattare<br />
problemi complessi come se fossero il risultato <strong>di</strong> <strong>un</strong>a combinazione opport<strong>un</strong>a <strong>di</strong> sottopl'oblemi<br />
più semplici.<br />
Fondamentalmente però,· il maggior vantaggio deriva dall'impatto visivo dovuto alla<br />
rappresentazione grafica; ciò è determinante anche nella fase <strong>di</strong> scelta del modello perchè si riduce<br />
il rischio <strong>di</strong> trascurare importanti in<strong>di</strong>pendenze con<strong>di</strong>zionate.<br />
grafica.<br />
Molto intuitivamente i modelli <strong>grafici</strong> sono dei modelli statistici che usano <strong>un</strong>a "interfaccia"<br />
2.4.1 <strong>Modelli</strong> <strong>grafici</strong> Gaussiani<br />
Nel presente lavoro ci occupiamo esclusivamente <strong>di</strong> modelli <strong>grafici</strong> Gaussiani, introdotti da Speed<br />
e Kiiveri (1986); infatti assumiamo che le <strong>variabili</strong> considerate seguano <strong>un</strong>a <strong>di</strong>stribuzione normale<br />
multivariata.<br />
Ricor<strong>di</strong>amo molto brevemente che se X = (Xl,"" X p ) è <strong>un</strong> vettore aleatorio sullo spazio<br />
JR,P con <strong>di</strong>stribuzione normale multivariata <strong>di</strong> me<strong>di</strong>a Il> e matrice <strong>di</strong> varianze e covarianze :E,<br />
35
INTRODUZIONE AI MODELLI GRAFICI 37<br />
È interessante osservare che il generico elemento (a, f3) della matrice <strong>di</strong> concentrazione compare<br />
nella parte esponenziale della (2.4) come coefficiente del termine <strong>di</strong> interazione quadratica X c ':Ef3<br />
che, tra l'altro, costituisce l'or<strong>di</strong>ne più alto <strong>di</strong> interazione in <strong>un</strong> modello gaussiano. Quest'ultima<br />
considerazione consente <strong>di</strong> affermare che lo stu<strong>di</strong>o dell'in<strong>di</strong>pendenza con<strong>di</strong>zionata a coppie è il più<br />
"naturale" in questo caso, aprendo così la strada alla definizione del modello grafico Gaussiano o<br />
modello <strong>di</strong> selezione della covarianza (Dempster, 1972).<br />
Definizione 2.6 Sia G = (V, E) <strong>un</strong> grafo in<strong>di</strong>retto e sia X = (Xl, .. , X p ) <strong>un</strong> vettore aleatorio a<br />
valori in JR'p; il modelo grafico Gaussiano per X è dato da <strong>un</strong>a famiglia <strong>di</strong> <strong>di</strong>stribuzioni normali<br />
multivariate <strong>di</strong> probabilità vincolata a verificare la proprietà <strong>di</strong> Markov a coppie rispetto a G, oss'ia<br />
da ,f3 = O {:} (a, f3) cf:. E e a -# f3.<br />
Osserviamo che la positività e la continuità della densità normale implicano che il modello <strong>di</strong><br />
selezione della covarianza obbe<strong>di</strong>sca anche alle proprietà <strong>di</strong> Markov locale e globale.<br />
Nel prosieguo <strong>di</strong> questo lavoro considereremo <strong>variabili</strong> aleatorie centrate rispetto all'origine,<br />
pertanto l'attenzione sarà interamente focalizzata sulla matrice <strong>di</strong> varianze e covarianze e sulla<br />
sua inversa. Del resto proprio al ruolo centrale della matrice <strong>di</strong> concentrazione ed alla consguente<br />
facilità con la quale si passa dal grafo <strong>di</strong> in<strong>di</strong>pendenza con<strong>di</strong>zionata al modello gaussiano per <strong>un</strong><br />
insieme <strong>di</strong> <strong>variabili</strong> e viceversa, è dovuta la crescente <strong>di</strong>ffusione dei modelli <strong>grafici</strong> Gaussiani in<br />
statistica.<br />
Per completezza <strong>di</strong> esposizione osserviamo che la teoria dei modelli <strong>grafici</strong> si è sviluppata anche<br />
con riferimento al caso <strong>di</strong> v.a.: 1) <strong>di</strong>screte con <strong>di</strong>stribuzione multinomiale, dando luogo ai modelli<br />
<strong>grafici</strong> log-lineari (Darroch, Lauritzen e Speed, 1980); 2) miste, basandosi sulla <strong>di</strong>stribuzione<br />
Gaussiana Con<strong>di</strong>zionata (Lauritzen e Wermuth, 1989).
40<br />
abbiamo il grafo della Figura 3.1.<br />
Figura 3.1: Grafo <strong>di</strong> <strong>un</strong> modello <strong>di</strong> analisi fattoriale con tutti i residui incorrelati<br />
Quando le <strong>variabili</strong> considerate non sono in<strong>di</strong>pendenti con<strong>di</strong>zionatamente al fattore latente, sono<br />
possibili due tipi <strong>di</strong> rappresentazione con caratteristiche e proprietà molto <strong>di</strong>verse.<br />
Consideriamo ancora il modello con quattro <strong>variabili</strong> osservate e supponiamo che conoscenze a<br />
priori del fenomeno stesso inducano a prendere e 12 e e 14 non nulli. Dalla definizione <strong>di</strong> modello<br />
grafico Gaussiano sappiamo che il grafo G dei residui è costituito dai due archi 1-2 e 1 --4.<br />
Possiamo raffigurare questo modello me<strong>di</strong>ante il metodo utilizzato da Bollen (1989), si veda<br />
la Figura 3.2, che non fa uso dei grafi in senso proprio ma dei cosiddetti "path <strong>di</strong>agram".<br />
BI B2<br />
Figura 3.2: "Path <strong>di</strong>agram" <strong>di</strong> <strong>un</strong> modello con <strong>un</strong> fattore latente e quattro in<strong>di</strong>catori con<br />
g12 e g14 =1= O<br />
Questa raffigurazione, inventata da S. Wright (1918, 1921) che per primo propose <strong>di</strong> utilizzare<br />
strutture grafiche per rappresentare modelli statistici, si inserisce nel contesto più generale della
CARATTERIZZAZIONE DEI MODELLI UNI-FATTORIALI IDENTIFICABILI 41<br />
"path anlysis" e consente <strong>di</strong> rappresentare <strong>un</strong> sistema <strong>di</strong> equazioni simultanee. Notiamo che<br />
le <strong>variabili</strong> osservate sono racchiuse in quadrati mentre le <strong>variabili</strong> <strong>latenti</strong>, con l'eccezione dei<br />
termini <strong>di</strong> <strong>di</strong>sturbo 0, sono contenute in cerchi. Nei path <strong>di</strong>agram, a <strong>di</strong>fferenza dei grafi, le frecce<br />
possono essere sia <strong>un</strong>i<strong>di</strong>rezionali che bi<strong>di</strong>rezionali; mentre nel primo caso rappresentano ancora<br />
<strong>un</strong>a relazione causale tra le v.a. <strong>un</strong>ite, nel secondo caso in<strong>di</strong>cano <strong>un</strong>'associazione non analizzata<br />
tra due <strong>variabili</strong>.<br />
L'altro metodo <strong>di</strong> raffigurazione del modello (Figura 3.3(a)), che è quello a cui faremo<br />
sempre riferimento in seguito, si basa sui grafi a catena ed è dovuto a Cox e Wermuth (1996).<br />
Questa rappresentazione, a prima vista meno ricca <strong>di</strong> informazioni della precedente, ha notevoli<br />
potenzialità per quanto riguarda lo stu<strong>di</strong>o della struttura associativa delle v.a. associate ai no<strong>di</strong>.<br />
Innanzitutto notiamo che le v.a. nel blocco' <strong>di</strong> sinistra vanno considerate con<strong>di</strong>zionatamente alle<br />
v.a. nel blocco <strong>di</strong> destra, ossia al fattore latente. Inoltrè il grafo dei residui, fornito nella Figura<br />
3.3(b), è costituito solo da linee ed è, quin<strong>di</strong>, <strong>un</strong> grafo <strong>di</strong> concentrazione (Cox e Wermuth, 1996).<br />
(a)<br />
81 \--------/<br />
Figura 3.3: (a) Grafo <strong>di</strong> <strong>un</strong> modello con <strong>un</strong> fattore latente e quattro <strong>variabili</strong> osservabili con<br />
e 12 e e 14 =/: O; (b) grafo dei residui del modello rappresentato in (a)<br />
Notiamo che proprio in questo contesto risulta evidente l'origine del termine grafo <strong>di</strong><br />
concentrazione; infatti questo rifiette la struttura <strong>di</strong> zeri della matrice <strong>di</strong> concentrazione e -1.<br />
Esaminiamo meglio le potenzialità <strong>di</strong> questo tipo <strong>di</strong> rappresentazione.<br />
Ve<strong>di</strong>amo che questo ha iI pregio <strong>di</strong> consentire, a partire dal grafo raffigurante <strong>un</strong> certo modello<br />
statistico <strong>di</strong> partenza, <strong>di</strong> ricavarne <strong>un</strong> altro relativo:<br />
(b)<br />
82
42<br />
- allo stesso insieme <strong>di</strong> <strong>variabili</strong> a cui però, a fini esplorativi e conoscitivi, viene cambiato<br />
ruolo, .<br />
- ad <strong>un</strong> sottoinsieme <strong>di</strong> v.a. alla cui struttura associativa si è particolarmente interessati.<br />
È importante sottolineare che tutte queste deduzioni vengono effettuate me<strong>di</strong>ante alc<strong>un</strong>e<br />
operazioni sul grafo <strong>di</strong> partenza senza, cioè, passare ogni volta a stu<strong>di</strong>are il <strong>di</strong>verso modello<br />
statistico implicato.<br />
Più specificamente, si consideri <strong>un</strong>a partizione dell'insieme <strong>di</strong> <strong>variabili</strong> V, V = (8, C, M) e si<br />
supponga <strong>di</strong> essere interessati a conoscere in modo dettagliato la struttura associativa delle v.a.<br />
in 8 con<strong>di</strong>zionatamente a C dopo avere margil1alizzato rispetto ad M. Ve<strong>di</strong>amo come ricavare il<br />
grafo <strong>di</strong> concentrazione G";(C, M) <strong>di</strong> 8 dato C. Wermuth, Cox e Pearl (1994) hanno mostrato<br />
che il grafo finale non cambia a seconda dell'or<strong>di</strong>ne con cui le operazioni <strong>di</strong> marginalizzazione e<br />
con<strong>di</strong>zionamento vengono eseguite.<br />
Per semplicità <strong>di</strong> esposizione trattiamo il caso dei grafi <strong>di</strong>retti aciclici; se il grafo <strong>di</strong> partenza<br />
è a catena basta considerare <strong>un</strong> DAG con la sua stessa struttura <strong>di</strong> in<strong>di</strong>pendenza. Quando si<br />
marginalizza rispetto ad <strong>un</strong> generico vertice t si possono presentare tre situazioni:<br />
i) t è <strong>un</strong> nodo <strong>di</strong> transizione, ad es. i f-'- t f-'- j, allora è indotto l'arco orientato i f-'- j, cioè la<br />
variabile Yj <strong>di</strong>venta <strong>di</strong>l'ettamente, e non più in<strong>di</strong>rettamente, esplicativa per lii<br />
ii) t è <strong>un</strong> nodo sorgente, i f-'- t -+ j, in questo caso aggi<strong>un</strong>giamo l'arco non orientato i -j,<br />
cioè li e Yj <strong>di</strong>vengono marginalmente associate in seguito alla marginalizzazione rispetto<br />
alla variabile esplicativa com<strong>un</strong>e;<br />
iii) t è <strong>un</strong> nodo <strong>di</strong> collisione, i -+ t f-'- j, e i e j rimangono non a<strong>di</strong>acenti.<br />
Chiariamo quanto sopra esposto con <strong>un</strong> esempio molto semplice che sarà utile anche in seguito.<br />
Consideriamo il grafo a catena in 3.4(a) e pren<strong>di</strong>amo <strong>un</strong> suo DAG equivalente (in termini <strong>di</strong><br />
struttura <strong>di</strong> in<strong>di</strong>pendenza), ad esempio quello fornito nella Figura 3.4(b).<br />
Sia 8 = {l, 2, 3, 4} l'insieme <strong>di</strong> v.a. <strong>di</strong> interesse, M = {6, 7, 8, 9, lO} e C = {5}. Marginalizzando<br />
rispetto ad M, otteniamo la Figura 3.5(a) che è proprio il sottografo indotto da CU8 con l'aggi<strong>un</strong>ta<br />
dei tre archi non orientati (3,4), (2,3) e (1,4); infatti ad esempio, visto che la variabile associata<br />
al nodo 6 è esplicativa com<strong>un</strong>e per le v.a. corrispondenti ai vertici 3 e 4, siamo nel caso ii) e<br />
quin<strong>di</strong> introduciamo l'arco 3 -4.
CARATTERIZZAZIONE DEI MODELLI UNI-FATTORIALI IDENTIFICABILI 43<br />
(a) (b)<br />
Figura 3.4: (a) Grafo a catena; (b) Grafo <strong>di</strong>retto aciclico equivalente ad (a)<br />
La seconda operazione da compiere per costruire G"l!(C, M). è ilcon<strong>di</strong>zionamento rispetto ai<br />
no<strong>di</strong> in C.<br />
Siano Yi e Yj due v.a. con risposta cC!m<strong>un</strong>e yt, se si con<strong>di</strong>ziona rispetto a quest'ultima allora Yi<br />
e Yj <strong>di</strong>ventano <strong>di</strong>rettamente associate.<br />
In particolare, per quanto riguarda il con<strong>di</strong>zionamento rispetto al generico vertice i, se: i) i<br />
è <strong>un</strong> nodo <strong>di</strong> collisione, i -7 i +- j o ii) i è <strong>un</strong> <strong>di</strong>scendente <strong>di</strong> <strong>un</strong> nodo <strong>di</strong> collisione h,<br />
i -7 h +- j & h -7 ... -7 i, si aggi<strong>un</strong>ge l'arco i -j.<br />
Torniamo all'esempio della Figura 3.4(b) ed effettuiamo l'operazione <strong>di</strong> con<strong>di</strong>zionamento<br />
rispetto a C = {5} a partire dal grafo 3.5(a); ve<strong>di</strong>amo subito che il vertice 5 è <strong>un</strong> nodo sorgente<br />
quin<strong>di</strong>, con<strong>di</strong>zionando rispetto ad esso, non induciamo ness<strong>un</strong>a relazione tra i no<strong>di</strong> in S e abbiamo<br />
il grafo in figura 3.5(b), che in<strong>di</strong>chiamo con Gs(C,M).<br />
A questo p<strong>un</strong>to per ottenere G"l! (C, M) non resta che moralizzare Gs(C, M); IleI nostro<br />
esempio G"l! (C, M) = Gs (C, M) perchè il sottografo indotto da S è in<strong>di</strong>retto.<br />
Sottolineiamo che il grafo 3.5(b) raffigura solo le relazioni esistenti tra le <strong>variabili</strong> in S e non dà<br />
quin<strong>di</strong> alc<strong>un</strong>a informazione sulla struttura associativa <strong>di</strong> C US. Ciò viene rappresentato ponendo<br />
l'insieme con<strong>di</strong>zionante in <strong>un</strong>a cornice a margine della figura al fine <strong>di</strong> <strong>di</strong>stinguerlo dalle <strong>variabili</strong>
44<br />
(a) (b)<br />
Figura 3.5: (a) Grafo ottenuto dalla Figura 3.4(b) dopo avere marginalizzato rispetto a M =<br />
{6, 7, 8, 9, lO}; (b) Gs(C, M) = GW'(C, M)<br />
effettivamente analizzate.<br />
Un metodo più semplice, ma equivàlente, pér ottenere ilgrafo <strong>di</strong> concentrazione GW'(C, M)<br />
consiste nel costruire, prima <strong>di</strong> tutto, il grafo morale del DAG su tutti i no<strong>di</strong> in V e poi<br />
nell'aggi<strong>un</strong>gere <strong>un</strong> arco non orientato tra i e j ogni qualvolta essi siano <strong>un</strong>iti da <strong>un</strong> cammino<br />
che passa solo attraverso vertici in M. Infine ci si restringe al sottografo indotto da S. È da<br />
notare che in questo :modo applichiamo <strong>di</strong>rettamente il criterio <strong>di</strong> separazione per grafi in<strong>di</strong>retti;<br />
questa, in particolare, costituisce la ragione della maggiore semplicità <strong>di</strong> questo metodo.<br />
Se confrontiamo le potenzialità della rappresentazione del modello me<strong>di</strong>ante path <strong>di</strong>agram e<br />
me<strong>di</strong>ante grafo, notiamo che, :mentre la prima ha il vantaggio <strong>di</strong> raffigurare tutte le relazioni che<br />
assumiamo esistere, ivi incluse quelle con e tra i termini <strong>di</strong> <strong>di</strong>sturbo, la seconda consente anche<br />
<strong>di</strong> focalizzare l'attenzione su <strong>un</strong> particolare sottoinsieme <strong>di</strong> <strong>variabili</strong>. Abbiamo visto, infatti, che<br />
esistono regole generali per determinare e quin<strong>di</strong> stu<strong>di</strong>are là struttura associativa delle <strong>variabili</strong><br />
in S con<strong>di</strong>zionatamente a quelle in C, avendo marginalizzato rispetto ad M.<br />
3.2 Una Con<strong>di</strong>zione Necessaria e Sufficiente per l'Identificazione<br />
Come avevamo accennato nel primo capitolo, daremo <strong>un</strong>a soluzione al problema dell'<strong>identificazione</strong><br />
del modello con <strong>un</strong> fattore latente e residui correlati (3.1) attraverso il grafo dei residui
CARATTERIZZAZIONE DEI MODELLI UNI-FATTORIALI IDENTIFICABILI<br />
Sappiamo che la matrice <strong>di</strong> varianze e covarianze :E può essere decomposta come segue<br />
:E = E(XX T ) = E [(Àç + 8)(Àç + 8)T] = ÀE(e)À T + E(88 T ) =<br />
perchè abbiamo ass<strong>un</strong>to E(ç2) = 1 e E(8ç) = O..<br />
= ÀÀ T + e (3.2)<br />
Inoltre, grazie all'identità per l'inversione <strong>di</strong> matrici (Rao, 1973), possiamo decomporre :E-l come<br />
segue<br />
dove k = (1 + .,\Te- 1 À)-1, d =e-lÀ, k ?: ae ddT è <strong>un</strong>a matrice <strong>di</strong> rango <strong>un</strong>itario.<br />
Il fatto che nella (3.3) compaia la matrice <strong>di</strong> concentrazione e-l, consente· <strong>di</strong> operare<br />
<strong>di</strong>rettamente sul grafo G = (V, E) dei residui con V = {l, ... , q} e E = {(i, j): ()ij i= O},<br />
dove ()ij è l'elemento (i,j) <strong>di</strong> e-l. In sostanza in G è presente <strong>un</strong> arco tra i e j solo se, in base<br />
alle nostre conoscenze a priori sul fenomeno in esame, possiamo affermare che Oi e Oj non sono<br />
incorrelate coeteris paribus.<br />
In particolare vedremo che la semplice struttura del grafo complementare G dei residui consente<br />
<strong>di</strong> stabilire se il modello analizzato è identificabile o meno.<br />
Sappiamo che in G = (V, E) sono presenti solamente quegli archi che non compaiono in G, cioè<br />
E = {(i,j): (i,j) (j. E} = {(i,j) : ()ij = a}.<br />
Ricor<strong>di</strong>amo che per risolvere il problema dell'<strong>identificazione</strong> dobbiamo in<strong>di</strong>viduare le restrizioni da<br />
imporre a e affinchè ogni suo elemento possa essere <strong>un</strong>icamente espresso in termini degli elementi<br />
<strong>di</strong> :E.<br />
In modo equivalente, il modello (3.1) è identificato se tutti i ()ij sono <strong>un</strong>icamente esprimibili<br />
me<strong>di</strong>ante gli elementi <strong>di</strong> :E-l, cioè se il sistema<br />
a ij = -k<strong>di</strong>dj (i,j) E E<br />
ammette soluzione <strong>un</strong>ica per dr/k, j = 1, ... ,q.<br />
a ij = ()ij - k<strong>di</strong>dj (i,j) E E o i = j<br />
Notiamo che il sistema (3.4)-(3.5) è <strong>un</strong>a esplicitazione della (3.3) <strong>un</strong>a volta nota la struttura<br />
<strong>di</strong> zeri <strong>di</strong> e-l, In sostanza il p<strong>un</strong>to principale da risolvere consiste nell'in<strong>di</strong>viduare quando (3.4)<br />
45<br />
(3.3)<br />
(3.4)<br />
(3.5)
CARATTERIZZAZIONE DEI MODELLI UNI-FATTORIALI IDENTIFICABILI 47<br />
Consideriamo, per esempio, <strong>un</strong> modello <strong>un</strong>iwfattoriale i cui termini <strong>di</strong> <strong>di</strong>sturbo hanno il grafo duale<br />
fornito nella Figura 3.6; il sistema (3.4) fonisce la soluzione:<br />
1<br />
Figura 3.6: II più piccolo grafo duale non connesso dei residui<br />
Da ciò segue che non è necessario che il grafo G sià connesso affinchè il sistema (3.4) sia<br />
risolvibile. In particolare questo è l'esempio più piccolo <strong>di</strong> modello identificabile con grafo duale<br />
dei residui non connesso.<br />
In modo del tutto analogo notiamo che se G contiene più <strong>di</strong> <strong>un</strong> ciclo <strong>di</strong> l<strong>un</strong>ghezza <strong>di</strong>spari<br />
come nel caso rappresentato nella Figura 3.7, allora il modello corrispondente è più precisamente<br />
sovraidentificato perchè il sistema (3.4) ha sei equazioni e cinque incognite, cioè siamo in presenza<br />
<strong>di</strong> <strong>un</strong> eccesso <strong>di</strong> informazioni.<br />
2<br />
1<br />
Figura 3.7: Grafo duale connesso con due cicli <strong>di</strong>spari<br />
4<br />
5<br />
5<br />
6
50<br />
sopra seguita. Così abbiamo mostrato che quando q è <strong>di</strong>spari la soluzione del sistema è <strong>un</strong>ica<br />
in valore assoluto, ossia a meno del segno.<br />
Riporto ora alc<strong>un</strong>e considerazioni su questo risultato.<br />
1. Abbiamo visto che (J'ij =? O, (i,j) E E; ciò significa che, se le <strong>variabili</strong> Xi e X j sono ass<strong>un</strong>te<br />
ortogonali con<strong>di</strong>zionatamente al fattore latente, allora devono essere parzialmente correlate<br />
quando tale con<strong>di</strong>zionamento non è considerato. Inoltre per <strong>un</strong> numero <strong>di</strong>spari <strong>di</strong> casi,<br />
questa correlazione parziale deve essere positiva.<br />
2. Qualora nella definizione del problema avessimo imposto opport<strong>un</strong>e con<strong>di</strong>zioni sulla<br />
<strong>di</strong>stribuzione del vettore <strong>di</strong> in<strong>di</strong>catori X, non avremmo dovuto fare alc<strong>un</strong>a precisazione sul<br />
segno delle (J'ij, (i,j) E E, nel corso della <strong>di</strong>mostrazione del Lemma. Ad esempio avremmo<br />
potuto imporre ad X <strong>di</strong> avere <strong>di</strong>stribuzione Gaussiana multivariata e <strong>di</strong> essere totalmente<br />
positiva <strong>di</strong> or<strong>di</strong>ne 2, MTP2 (Karlin e Rinott, 1983). Ricor<strong>di</strong>amo che se X '" N(O,::E) allora<br />
X è MTP2 se e solo se E-l è uhà M-matrice, cioè se, oltre ad avere tutti gli elementi al<br />
<strong>di</strong> fuori della <strong>di</strong>agonale principale non positivi, tutti gli elementi <strong>di</strong> E sono non negativi.<br />
Pertanto supporre che X sia MTP2 equivale a <strong>di</strong>re che tutte le correlazioni parziali e le<br />
covarianze sono non negative e cioè che il rumore indotto dai termini <strong>di</strong> <strong>di</strong>sturbo non può<br />
essere tanto forte da coprire l'effetto del fattore latente.<br />
Dal momento che abbiamo ass<strong>un</strong>to che E può essere espressa come nella (3.2), le equazioni<br />
del sottosistema (3.4) devono èssere consistenti, qliirt<strong>di</strong> sostituendole nella (3.10) troviamo<br />
<strong>un</strong>'identità. Ne segue che è sufficiente imporre, come abbiamo fatto, la non positività solo<br />
<strong>di</strong> <strong>un</strong> numero <strong>di</strong>spari <strong>di</strong> (J'ij tali che (i, j) E E e non <strong>di</strong> tutti gli elementi non <strong>di</strong>agonali <strong>di</strong><br />
:E-l. Pertanto la con<strong>di</strong>zione <strong>di</strong> totale positività <strong>di</strong> or<strong>di</strong>ne 2, oltre ad essere esageratamente<br />
restrittiva, non è necessaria.<br />
3. Con questo Lemma abbiamo mostrato la fondatezza della nostra congettura circa<br />
l'importanza dei cicli <strong>di</strong>spari; è <strong>di</strong>venuto infatti evidente che effettivamente solo i cicli<br />
<strong>di</strong>spari consentono <strong>di</strong> risolvere il sistema (3.4). I cicli pari, qualora vengano considerati<br />
separatamente, cioè hon connessi con cicli <strong>di</strong>spari, non conducono in ness<strong>un</strong> caso alla<br />
soluzione del problema.
52<br />
poi i dqg-S+l Vk, . .. ,dqg Vk vengono calcolati applicando in successione<br />
Figura 3.8: Oatena connessa ad <strong>un</strong> ciclo <strong>di</strong>spari e trasmissione della soluzione dal ciclo <strong>di</strong>spari<br />
alla catena<br />
In sostanza la soluzione viene trasferita dal ciclo alla catena, come in<strong>di</strong>cano le frecce nella<br />
Figura 3.8. Oome ultimo consideriamo il caso <strong>di</strong> OCg formato da due cicli,rispettivamente <strong>di</strong><br />
qg - S e s + 2 no<strong>di</strong>, con qg <strong>di</strong>spari e s pari; allora se il g-esimo sistema ha soluzione,ovvero se<br />
la con<strong>di</strong>zione come la (3.9) dovuta al ciclo pari è sod<strong>di</strong>sfatta, tutte le <strong>di</strong>Vk, i = 1, ... ,qg possono<br />
essere identificate seguendo lo stesso metodo illustrato sopra per il caso della (s + 1)-catena.<br />
Le argomentazioni fornite per il g-esimo sistema si applicano anche agli altri l-l, quin<strong>di</strong>,<br />
sostituendo tutti i <strong>di</strong>Vk, i = 1, ... , q nella (3.5), si ricavano in modo <strong>un</strong>ico gli elementi non<br />
nulli della mtrice :E-l.<br />
Passiamo a <strong>di</strong>mostrare la necessità.<br />
Lo facciamo per assurdo, ovverosia mostrando che <strong>un</strong> modello per il quale (almeno) <strong>un</strong>a<br />
componente connessa <strong>di</strong> O non contiene alc<strong>un</strong> ciclo <strong>di</strong>spari, non è identificabile perchè il sistema<br />
(3.4) ha <strong>un</strong> numero infinito o nullo <strong>di</strong> soluzioni e quin<strong>di</strong> non è possibile passare a risolvere il<br />
sistema (3.5).<br />
Oome prima cosa osserviamo che <strong>un</strong> grafo non contenente alc<strong>un</strong> ciclo <strong>di</strong>spari può assumere <strong>un</strong>a<br />
delle seguenti quattro configurazioni: 'i) ciclo pari isolato, ii) catena isolata, iii) nodo isolato iv)<br />
combinazione isolata <strong>di</strong> catene e cicli <strong>di</strong> l<strong>un</strong>ghezza pari. Sottolineiamo, per maggiore chiarezza,<br />
che con l'aggettivo isolato inten<strong>di</strong>amo <strong>di</strong>re che la configurazione considerata non è connessa con<br />
alc<strong>un</strong> ciclo <strong>di</strong>spari.<br />
Analizziamo separatamente queste quattro configurazioni.
OARATTERIZZAZIONE DEI MODELLI UNI-FATTORIALI IDENTIFICABILI<br />
Figura 3.10: Grafo complementare dei residui che denota l'dentificabilità del modello<br />
corrispondente<br />
È ora possibile anche specificare meglio il ruolo esercitato da <strong>un</strong> ciclo <strong>di</strong>spari nel'ambito<br />
dell'<strong>identificazione</strong>; questo, infatti, consente <strong>di</strong> risolvere il sistema (3.4) non solo quando è preso<br />
singolarmente o con altri cicli <strong>di</strong>spari, ma anche quando è connesso con cicli pari e/o catene<br />
che, come abbiamo visto, se isolati non conducono alla soluzione <strong>un</strong>ica. Pertanto <strong>un</strong> m-ciclo,<br />
m <strong>di</strong>spari, f<strong>un</strong>ge in <strong>un</strong> certo senso da "alimentatore". Oonsideriamo la Figura 3.8; ve<strong>di</strong>amo che<br />
prima si determinano i <strong>di</strong>\/'f, i = 1, ... ,5, quin<strong>di</strong>, a partire dal nodo <strong>di</strong> sovrapposizione con la<br />
catena, 5, si può passare a calcolare prima d6Vk e poi d7Vk.<br />
Oome <strong>di</strong>retta conseguenza del risultato esposto, si ricava <strong>un</strong>a con<strong>di</strong>zione necessaria e sufficiente<br />
per verificare l'esatta <strong>identificazione</strong> del modello (3.1). Abbiamo il seguente Oorollario:<br />
Corollario 3.1 Il modello (3.1) è esattamente ident'ificato se e solo se<br />
1) il grafo G è costituito da q archi e<br />
2) ogni componente connessa <strong>di</strong> G contiene <strong>un</strong> ciclo <strong>di</strong>spari.<br />
Osserviamo che imporre lEI = q equivale a <strong>di</strong>re che q elementi non <strong>di</strong>agonali della matrice <strong>di</strong><br />
concentrazione e-l devono essere nulli, ovverosia che la limitazione (3.6) deve essere verificata<br />
con l'uguaglianza.<br />
Nel p<strong>un</strong>to 2) del Oorollario non è stato necessario specificare che G deve contenere esattamente<br />
<strong>un</strong> solo ciclo <strong>di</strong>spari perchè il vincolo sul numero degli archi, da solo, è così forte da non consentire<br />
<strong>di</strong> avere componenti connesse con più cicli.<br />
12<br />
14<br />
55
Capitolo 4<br />
Due Fòrmulazioni Equivalenti<br />
4,.1 Introduzione<br />
Nel capitolo precedente abbiamo fornito <strong>un</strong>a caratterizzazione della classe dei modelli <strong>di</strong> analisi<br />
fattoriale con <strong>un</strong> fattore latente che possono essere identificati.<br />
Il controllo dell'identificabiltà del modello è effettuato me<strong>di</strong>ante il grafo complementare dei residui<br />
i cui archi, come sappiamo, rappresentano l'assenza <strong>di</strong> relazioni tra le v.a. che <strong>un</strong>iscono. Dal<br />
momento che G non costituisce, da <strong>un</strong> p<strong>un</strong>to <strong>di</strong> vista interpretativo, lo strumento più naturale e<br />
<strong>di</strong>retto per la lettura della struttura <strong>di</strong> <strong>di</strong>pendenza dei residui, abbiamo ritenuto utile cercare <strong>di</strong><br />
riformulare il Teorema 3.1 in termini non solo più espliciti e "<strong>di</strong>retti" ma anche più tra<strong>di</strong>zionali<br />
nell'ambito della statistica multivariata.<br />
Pertanto in questo capitolo daremo due riformulazioni della con<strong>di</strong>zione necessaria e sufficiente:<br />
la prima in termini del grafo complementare <strong>di</strong>rettamente osservato e la seconda basata sulla<br />
matrice <strong>di</strong> concentrazione e-l delle v.a. 01, ... , Oq.<br />
Innanzitutto notiamo che i grafi duali che inducono a classificare il modello corrispondente<br />
come non identificabile hanno denominazione, proprietà e ruolo particolari nell'ambito della teoria<br />
dei grafi (si veda Gondran, Minoux 1984): essi sono detti bipartiti.<br />
Definizione 4.1 Un grafo G = (V, E), con V = VI U V2 e VI n V2 = 0, si <strong>di</strong>ce bipartito se tutti i<br />
suoi archi hanno <strong>un</strong> estremo 'in VI e l'altro in V2, cioè E ç {(i, j) : i E VI e j E V2}'<br />
In particolare G è bipartito perfetto se E = {(i,j) : i E VI e j E V2}.<br />
Ad esempio i grafi (a) e (b) nella Figura 4.1 sono rispettivamente bipartito e bipartito perfetto<br />
57
58<br />
con VI = {l, 2} e V2 = {3,4}.<br />
(a) (b)<br />
Figura 4.1: (a) Grafo bipartito; (b) Grafo bipartito perfetto<br />
Una caratterizzazione <strong>di</strong> questo tipo <strong>di</strong> grafi, molto utile in questo lavoro, è la seguente: <strong>un</strong> grafo<br />
è bipartito se e solo se non contiene alc<strong>un</strong> ciclo <strong>di</strong>spari.<br />
Tale assenza <strong>di</strong> cicli <strong>di</strong>spari deriva dal modo in cui è costruito l'insieme <strong>di</strong> archi. Consideriamo,<br />
per esempio, E = {(i, j): i E Vl e j E V2}; ogni catena è data da <strong>un</strong>a successione <strong>di</strong> no<strong>di</strong><br />
<strong>di</strong>stinti aD, al, ... , ah, .. · ,am , (ah,ah+l) E E, dove ad esempio 0121 E Vl, l = O, ... , (m <br />
1)/2 (m/2) e a2l-l E V2' l = 1, ... , (m + 1)/2 (m/2) per m <strong>di</strong>spari (m pari). Sappiamo che<br />
se aD = am , si ha <strong>un</strong> ciclo; in particolare siamo interessati al caso in cui m è <strong>di</strong>spari, m = 2k + 1.<br />
Notiamo, però, che per costruzione aD E Vl e a2k+l E V2' allora è impossibile porre aD = a2k+l<br />
senza incorrere in <strong>un</strong> "conflitto"; inoltre si creerebbe l'arco (aD,a2k+l) che non può appartenere<br />
ad E per ipotesi.<br />
PiiI intuitivamente osserviamo che se (Vl, V2) è <strong>un</strong>a partizione <strong>di</strong> V, per chiudere <strong>un</strong> ciclo si deve<br />
prendere <strong>un</strong> arco che va da Vl a V2, poi <strong>un</strong>o da V2 a Vl e così via ma per <strong>un</strong> numero pari <strong>di</strong><br />
volte; per ottenere <strong>un</strong> ciclo <strong>di</strong>spari è necessario avere almeno <strong>un</strong> arco con entrambi gli estremi<br />
appartenenti allo stesso sottoinsieme <strong>di</strong> vertici.<br />
Usando questa caratterizzazione dei grafi bipartiti, possiamo <strong>di</strong>re che <strong>un</strong> modello <strong>un</strong>i-fattoriale è<br />
identificabile se e solo se ogni componente connessa <strong>di</strong> G non è nè costituita da <strong>un</strong> nodo solo nè<br />
è bipartita.<br />
4.2 Riformulazione in Termini <strong>di</strong> G<br />
Cerchiamo, ora, <strong>di</strong> vedere meglio in che modo utilizzare il concetto <strong>di</strong> grafo bipartito per ricavare<br />
la prima riformulazione della caratterizzazione.
DUE FORMULAZIONI EQUIVALENTI 59<br />
Consideriamo il Teorema 3.1 e pren<strong>di</strong>amo <strong>un</strong> esempio <strong>di</strong> grafo complementare <strong>di</strong> <strong>un</strong> modello<br />
non identificabile. Ve<strong>di</strong>amo che il grafo G nella Figura 4.2(a) è bipartito con VI = {1,2} e<br />
V2 = {3, 4,5, 6} (non perfetto visto che non compare l'arco (2,3)) e connesso.<br />
Costruiamo, ora, il suo duale, G, ossia il grafo dei residui <strong>di</strong>rettamente osservato. Notiamo che<br />
nel grafo 4.2(b) gli insiemi VI e V2 inducono due cliques. Siamo, quin<strong>di</strong>, in presenza <strong>di</strong> <strong>un</strong> grafo<br />
costituito da due cliques opposte connesse dall'arco (2,3).<br />
(a) (b)<br />
Figura 4.2: Grafi (a) G coimesso e (b) G <strong>di</strong> <strong>un</strong> modello non identificabile<br />
Generalizzando e formalizzando quanto osservato con questo esempio, abbiamo la seguente<br />
proposizione:<br />
Proposizione 4.1 Si consideri G = (V, E), e (VI, V2) sia <strong>un</strong>a partizione <strong>di</strong> 11,. si supponga che<br />
VI e V2 inducano rispettivamente le cliques Cl = (VI, El) e C2 = (V2' E2) e che E 2 El U E2,<br />
allora il grafo duale è bipartito.<br />
DIMOSTRAZIONE Consideriamo, per primo, il caso E = El U E2. Ciò equivale a <strong>di</strong>re che<br />
E = {(i,j): i je E Vh,h = 1,2}. Ne segue che E = {(i,j): i E VI e.i E V2} cioè G è<br />
<strong>un</strong> grafo bipartito perfetto visto che, per ipotesi, (VI, V2) è <strong>un</strong>a partizione <strong>di</strong> V.<br />
Se E :J El U E2, allora E C {(i, j) : i E VI e j E V2}, ossia G è bipartito.<br />
Osserviamo che nel caso particolare in cui almeno VI sia costituito da <strong>un</strong> solo vertice, allora G<br />
non contiene alc<strong>un</strong> ciclo. Inoltre la regola t non è più solo necessaria, ma anche sufficiente perchè<br />
lEI 2: IE2 1, dove<br />
è <strong>di</strong> <strong>un</strong>a <strong>un</strong>ità superiore al numero critico dato nella 3.6.
62<br />
con <strong>un</strong> estremo in Vh e l'altro in Vg, h =F g, = 1, ... , l, ovvero E ::> {(i, j) i E Vh e j E<br />
V\Vh, h.= 1, ... ,l}.<br />
Senza perdere in generalità, possiamo supporre che la componente connessa aVI sia<br />
bipartita; allora VI = VIa U VIb' Via n VIb = 0 e GVIa e GVI b sono cliques <strong>di</strong>stinte connesse<br />
o meno da <strong>un</strong>o o più archi a seconda che EVI C FVI o EVI = FVI'<br />
La Figura 4.3 fornisce <strong>un</strong> esempio <strong>di</strong> quanto illustrato nel p<strong>un</strong>to 2, cioè se G è sconnesso e almeno<br />
<strong>un</strong>a delle sue componenti connesse è bipartita allora G verifica il caso ii) del Teorema 4.1.<br />
Ve<strong>di</strong>amo, ora, per completezza <strong>di</strong> esposizione, due esempi <strong>di</strong> grafo dei residui <strong>di</strong> modelli<br />
identificabili. Facciamo ciò affiancando, come negli esempi precedenti, G e a.<br />
Consideriamo, per primi, i grafi in Figura 4.4 e ve<strong>di</strong>amo che (a) non incontra ness<strong>un</strong>o dei casi<br />
considerati nel Teorema 4.1; infatti l'insieme {l, 2, 3} non induce <strong>un</strong>a clique visto che manca l'arco<br />
(1,3). Come riscontro possiamo osservare che nel grafo (b) sono presenti ben due cicli <strong>di</strong> l<strong>un</strong>ghezza<br />
3 (evidenziati con linee più marcate).<br />
2 5<br />
1 6<br />
(a) (b)<br />
Figura 4.4: Grafi (a) G e (b) a<strong>di</strong> <strong>un</strong> modello identificabile<br />
Come secondo esempio pren<strong>di</strong>amo in esame la Figura 4.5.<br />
Nonostante nel grafo (a) il sottografo indotto dall'insieme A = {l, 2, 3, 4} presenti la configurazione<br />
delle due cliques <strong>di</strong>stinte, G non verifica la con<strong>di</strong>zione ii) del Teorema 4.1 perchè non contiene<br />
tutti i possibili archi con <strong>un</strong> estremo in A e l'altro in V\A; ciò consente <strong>di</strong> concludere che il<br />
modello corrispondente è identificabile e infatti osserviamo che a contiene numerosi cicli <strong>di</strong>spari<br />
tra i quali quello evidenziato.<br />
Dagli esempi sia "negativi" sia "positivi" che abbiamo dato risulta abbastanza evidente che<br />
l'uso <strong>di</strong> questa riformulazione è preferibile qualora si debba mostrare la non identificabilità <strong>di</strong> <strong>un</strong>
64<br />
solo, ve<strong>di</strong>amo che, in base al Teorema 4.1, non sono identificabili, tra gli altri, i modelli con G<br />
come in Figura 4.6.<br />
4.3 Riformulazione in Termini <strong>di</strong> e-l<br />
Fino ad ora abbiamo caratterizzato i modelli <strong>un</strong>i·fattoriali identificabili me<strong>di</strong>ante i relativi grafi<br />
dei residui o i loro duali. Ci proponiamo, ora, <strong>di</strong> esprimere i risultati esposti, in termini della<br />
matrice <strong>di</strong> concentrazione e-l, usando, cioè, <strong>un</strong> linguaggio più tra<strong>di</strong>zionale nell'ambito della<br />
metodologia statistica.<br />
È necessario ricordare che <strong>un</strong> passaggio così semplice e <strong>di</strong>retto dal linguaggio dei grafi a quello<br />
delle matrici è consentito dal fatto che stiamo lavorando sotto l'ipotesi <strong>di</strong> gaussianità dei residui;<br />
quin<strong>di</strong> l'assenza <strong>di</strong> <strong>un</strong> arco in G equivale ad <strong>un</strong>o zero nella matrice <strong>di</strong> concentrazione corrispondente<br />
e viceversa.<br />
Consideriamo, innanzitutto, due esempi <strong>di</strong> modelli non identificabili e ve<strong>di</strong>amo che forma<br />
assume e -l.<br />
L Per primo esaminiamo il grafo (b) della Figura 4.2 che verifica il p<strong>un</strong>to i) del Teorema 4.1,<br />
e scriviamo la relativa matrice <strong>di</strong> concentrazione:<br />
0 11 0 12 O O O O<br />
0 12 0 22 0 23 O O O<br />
e- 1 = O 0 23 0 33 0 34 0 35 0 36 (4.1)<br />
O O 0 34 0 44 0 45 0 46<br />
O O 0 35 0 45 0 55 0 56<br />
O O 03G 0 46 0 56 OG6<br />
Notiamo che i due blocchi sulla <strong>di</strong>agonale principale <strong>di</strong> e-l sono pieni, cioè non contengono zeri;<br />
questi, in particolare, corrispondono alle matrici <strong>di</strong> concentrazione dei sottoinsiemi dei residui<br />
(01,62) e (63,64,65,06) e, quin<strong>di</strong>, alle c1iques in G indotte da V1 = {1,2} e V2 = {3, 4, 5, 6}.<br />
Inoltre gli altri due blocchi (<strong>di</strong> cui <strong>un</strong>o è il trasposto dell'altro) hanno <strong>un</strong> solo elemento nullo<br />
corrispondente all'arco (2,3) che congi<strong>un</strong>ge le due c1iques nel grafo 4.2(b).<br />
Più formalmente, supponiamo che il grafo G = (V, E) dei residui sia del tipo i) visto IleI Teorema
DUE FORMULAZIONI EQUIVALENTI 65<br />
4.1 e che E = El U E2, allora i vertici possono essere or<strong>di</strong>nati in modo che e-l sia <strong>di</strong>agonale<br />
a due blocchi completi, doè V = {al,a2, ... ,am ,am +1, ... ,aq}, dove VI = {al, ... ,a m } e<br />
V2 = {am+1, ... , a q } sono gli insiemi che inducono le cliques Cl e C2 in G. Il fatto che in e-l<br />
solo gli elementi (i, j) con i e j E Vh, h = 1,2, siano <strong>di</strong>versi da zero deriva dall'ass<strong>un</strong>zione che<br />
E = El UE2.<br />
Se, come nell'esempio, E ::J El U E2, il ragionamento è del tutto analogo a quello visto sopra con<br />
la sola <strong>di</strong>fferenza che ora i Oij corrispondenti agli archi (i,j), i E VI e j E V2, <strong>di</strong> G sono non nulli<br />
e quin<strong>di</strong> la matrice <strong>di</strong> concentrazione è del tipo<br />
con e ii , i = 1,2, entrambe complete.<br />
II. Passiamo, ora, a considerare il grafo (b) della Figura 4.3 che verifica il p<strong>un</strong>to ii) del Teorema<br />
4.1. La matrice <strong>di</strong> concentrazione in questione è<br />
0 11 0 12 Il O O O I 0 16 0 17<br />
0 12 0 22 Il O O O I 0 26 0 27<br />
O O Il 0 33 0 34 0 35<br />
O o Il 0 34 0 44 0 45<br />
I 036 037 I 046 047 I 056 057 e-l - (4.2)<br />
O O Il 0 35 0 45 0 55<br />
0 16 0 26 0 36 0 46 0 56 0 66 O<br />
0 17 0 27 0 37 0 47 0 57 o 0 77<br />
Con il tratteggio semplice abbiamo <strong>di</strong>viso l'intera matrice in quattro blocchi. Notiamo che ora le<br />
sottomatrici piene non sono più quelle sulla <strong>di</strong>agonale principale; ciò rappresenta il fatto che a,<br />
ovvero il grafo 4.3(a), è costituito dalle due componenti connesse Cl = {I, 2, 3, 4, 5} e C2 = {6, 7}.<br />
Osserviamo, inoltre, che il primo blocco sulla <strong>di</strong>agonale principale è dato da <strong>un</strong>a matrice <strong>di</strong>agonale<br />
a blocchi completi (la <strong>di</strong>visione è rappresentata me<strong>di</strong>ante tratteggio doppio), corrispondenti alle<br />
cliques Cl = {I, 2} e C2 = {3, 4, 5}.<br />
Al fine <strong>di</strong> formalizzare quanto intuito attraverso quest'esempio, consideriamo <strong>un</strong> grafo G con
DUE FORMULAZIONI EQUIVALENTI<br />
La relativa matrice <strong>di</strong> concentrazione è:<br />
eH o e 13 e 14 (j15 0 16 0 17 0 18<br />
o e 22 e 23 e 24 e 25 e 26 e 27 e 28<br />
0 13 e 23 e 33 o o Ie 36 e 37 e 38<br />
e-1 _. e 14 e 24 o e 44 0 45 Ie 46 e 47 e 48<br />
-<br />
e 15 e 25 o e 45 e 55 I0 56 e 57 e 58<br />
e 16 e 26 e 36 e 46 e 56 e 66 o o<br />
0 17 e 27 e 37 047 . 057 o e 77 o<br />
e 18 e 28 e 38 0 48 e 58 o o e 88<br />
Questa: l) presenta due matrici complete, e Cl ,cZ UC 3 e e C2 ,c3, nel triangolo superiore e 2)<br />
il blocco e Cl è <strong>di</strong>agonale a due blocchi; non occorre pertanto passare a controllare e C2 perchè,<br />
<strong>un</strong>a volta appurato che e-l è del tipo l), si può stabilire la non identificabilità·del modello non<br />
appena si trova <strong>un</strong> blocco <strong>di</strong>agonale del tipo 2).<br />
Siamo, a questo p<strong>un</strong>to, in grado <strong>di</strong> riformulare i Teoremi 3.1 e 4.1 in termini <strong>di</strong> e-l, che<br />
scriviamo sotto forma <strong>di</strong> matrice a blocchi, cioè<br />
Q -1 -<br />
CI - (A B) •<br />
BT C<br />
Teorema 4.2 n modello (3.1) non è identificabile se e solo se esiste '<strong>un</strong>a permutazione della<br />
matrice <strong>di</strong> concentrazione e-l dei residui tale che o<br />
1) A e C sono complete o<br />
2) B è completa e<br />
A= (AH A12)<br />
A21 A22<br />
con A u e An complete.<br />
Notiamo che questa caratterizzazione, come del resto la precedente, è particolarmente in<strong>di</strong>cata<br />
qualora si debba mostrare che <strong>un</strong> modello non può essere identificato.<br />
67<br />
(4.3)
DUE FORMULAZIONI EQUIVALENTI 69<br />
Quest'ultimo risultato, che è anche <strong>un</strong>a con<strong>di</strong>zione sufficiente restrittiva per l'<strong>identificazione</strong>, trova<br />
riscontro in letteratura. Infatti Browne (1980) ha mostrato, attraverso derivazioni matriciali, che<br />
il modello <strong>un</strong>i-fattoriale è identificabile se la matrice <strong>di</strong> varianze e covarianze dei residui e è<br />
<strong>di</strong>agonale a tre o più blocchi. Quanto abbiamo trovato, come caso particolare del Teorema 4.2, è<br />
p'erfettamente equivalente a ciò perchè, per le proprietà della somma <strong>di</strong>retta, data e-l = EBf,;l Ai,<br />
si ha e = [EBf,;lAir l = EBf,;lA;l e quin<strong>di</strong> ciò che è valido per e è valido anche per e-l e<br />
viceversa.<br />
4.4 Stu<strong>di</strong>o dell'Identificabilità<br />
All'inizio <strong>di</strong> questo capitolo abbiamo dato la definizione <strong>di</strong> grafo bipartito che ci ha consentito <strong>di</strong><br />
gi<strong>un</strong>gere a due formulazioni equivalenti della nostra con<strong>di</strong>zione. Ve<strong>di</strong>amo, ora, che l'uso dei grafi<br />
bipartiti permette anche, grazie alle loro proprietà, <strong>di</strong> mutuare dalla teoria dei grafi <strong>un</strong> algoritmo<br />
per stabilire se <strong>un</strong> dato modello è identificabile o meno.<br />
La procedura in questione appartiene a quel gruppo <strong>di</strong> algoritmi, detti "<strong>di</strong> colorazione", che<br />
assegnano ad ogni nodo <strong>un</strong> colore e vengono perciò impiegati per stabilire il numero cromatico <strong>di</strong><br />
<strong>un</strong> grafo, cioè <strong>di</strong> quanti colori abbiamo bisogno affinchè vertici a<strong>di</strong>acenti siano colorati in modo<br />
<strong>di</strong>verso. In generale è noto dalla teoria che il numero cromatico <strong>di</strong> <strong>un</strong> grafo è almeno uguale alla<br />
car<strong>di</strong>nalità della c1ique maggiore, ovvero al numero <strong>di</strong> no<strong>di</strong> che la formano. Sappiamo che <strong>un</strong><br />
grafo bipartito non contiene cicli <strong>di</strong>spari quin<strong>di</strong> presenta al massimo c1iques <strong>di</strong> car<strong>di</strong>nalità due;<br />
ciò ci consente <strong>di</strong> affermare, in prima istanza, che occorrono almeno due colori. Dalla teoria, poi,<br />
appren<strong>di</strong>amo che <strong>un</strong> grafo bipartito è bicromatico, cioè sono sufficienti due soli colori (Gondran e<br />
Minoux, 1984).<br />
Ricor<strong>di</strong>amo che il modello (3.1) è identificabile se e solo se ogni componente connessa <strong>di</strong> G<br />
non è nè costituita da <strong>un</strong> nodo singolo nè bipartita.<br />
L'idea, quin<strong>di</strong>, è <strong>di</strong> esplorare il grafo duale dei residui dando segno più + o meno - (o colori bianco<br />
e nero) ai suoi vertici in modo che i nodo <strong>un</strong>iti da <strong>un</strong> arco abbiano segno (o colore) opposto.<br />
Ve<strong>di</strong>amo, prima <strong>di</strong> tutto, alc<strong>un</strong>e caratteristiche <strong>di</strong> questa procedura.<br />
Questa, iniziando da <strong>un</strong> nodo detto sorgente, analizza prima tutti i vertici ad esso a<strong>di</strong>acenti (o<br />
vicini <strong>di</strong> or<strong>di</strong>ne <strong>un</strong>o) per poi passare ad esaminare i vicini <strong>di</strong> or<strong>di</strong>ne due, cioè connessi alla sorgente<br />
me<strong>di</strong>ante due archi, e così via; in sostanza la procedura non "scopre" i vicini <strong>di</strong> or<strong>di</strong>ne k +1 finchè
70<br />
non ha terminato <strong>di</strong> stu<strong>di</strong>are tutti quelli <strong>di</strong> or<strong>di</strong>ne k.<br />
piiI precisamente, l'algoritmo che abbiamo delineato è del tipo breadth-first-search, cioè <strong>di</strong> ricerca<br />
in ampiezza (Cormen, Leiserson e Rivest, 1990), così chiamato proprio perchè espande la frontiera<br />
tra vertici scoperti e da scoprire in modo <strong>un</strong>iforme.<br />
Consideriamo, per esempio, la Figura 4.8.<br />
+ -<br />
I I<br />
EJ 6 4 -<br />
Figura 4.8: Colorazione <strong>di</strong> <strong>un</strong> grafo con cicli <strong>di</strong>spari fino alla scoperta del primo conflitto, ciclo<br />
indotto da {l, 2, 3, 6, 7}<br />
Dato il generico vertice i, in<strong>di</strong>chiamo con n(i) l'insieme dei vertici ad esso a<strong>di</strong>acenti; scriviamo,<br />
quin<strong>di</strong>, la lista dei no<strong>di</strong> e dei relativi vicini <strong>di</strong> or<strong>di</strong>ne <strong>un</strong>o.<br />
5<br />
+<br />
1: n(i) Queue<br />
1: 27 J 1<br />
2: 135 J 2<br />
3: 2467 J 7<br />
4: 35 3 +- Top<br />
5: 246 5<br />
6: 357 6<br />
7: 136 4 +- Bottom<br />
Un ruolo estremamente importante è esercitato dal vettore coda che, venendo continuamente<br />
aggiornato, ci permette <strong>di</strong> tenere nota dei no<strong>di</strong> sia già esplorati sia da esplorare in<strong>di</strong>cando: con J<br />
i no<strong>di</strong> esaminati, con Top il nodo su cui stiamo lavorando, cioè il primo non sp<strong>un</strong>tato, con Bottom<br />
l'ultimo nodo della lista.<br />
Supponiamo <strong>di</strong> iniziare l'esplorazione del nostro grafo dal vertice 1; in questa fase la lista della<br />
coda contiene solo 1. Per prima cosa marchiamo la sorgente con il segno +, poi inseriamo nella
Capitolo 5<br />
Ultime Osservazioni e Problemi<br />
Aperti<br />
5.1 Modello Uni-fattoriale come Soluzione alla Non<br />
Identificabilità <strong>di</strong> <strong>un</strong> Modello a Più Fattori<br />
Nel capitolo introduttivo avevamo accennato al fatto che il ricorso ad <strong>un</strong> modello <strong>un</strong>i-fattoriale<br />
con residui correlati può essere utile qualora si abbia <strong>un</strong> modello a più fattori non identificabile.<br />
In tal caso, marginalizzando rispetto a tutti i fattori eccetto quello generale,se vi figura, cioè<br />
quella variabile latente che spiega tutti gli in<strong>di</strong>catori, si può verificare se il modello così ottenuto<br />
risponde alla con<strong>di</strong>zione necessaria e sufficiente <strong>di</strong> identificabilità.<br />
Consideriamo, ad esempio, il seguente modello a due fattori con matrice <strong>di</strong> varianze e<br />
covarianze dei residui <strong>di</strong>agonale:<br />
più esplicitamente<br />
Xl À l1 O 01<br />
X2 À21 O<br />
=<br />
( ;: ) +<br />
X3 À31 À 32 03<br />
X4 À41 À42 04<br />
Notiamo che 6 è il fattore generale perchè i relativi coefficienti fattoriali sono non nulli, mentre<br />
6 è il cosiddetto fattore specifico essendo in relazione solamente con gli in<strong>di</strong>catori X3 e X4. La<br />
75<br />
02<br />
(5.1)
78<br />
lì3<br />
li4<br />
(a) (I»<br />
Figura 5.2: Grafi (a) G e (b) G dei residui del m.odello ridotto<br />
In questo caso, quin<strong>di</strong>, abbiamo perso l'ortogonalità delle <strong>variabili</strong> osservate con<strong>di</strong>zionatamente<br />
al fattore latente, che pertanto non è più in grado <strong>di</strong> spiegàre da solo la loro <strong>variabili</strong>tà, ma abbiamo<br />
guadagnato l'identificabilità, cosa questa molto rilevante perchè consente <strong>di</strong> proseguire nell'analisi<br />
statistica e <strong>di</strong> passare alla stima del modello. Ovviamente tutta la <strong>variabili</strong>tà degli in<strong>di</strong>catori che<br />
6 non riesce a spiegare è contenuta nella matrice <strong>di</strong> varianze e covarianze dei residui.<br />
Più in generale, per quanto riguarda i modelli bifattoriali con residui non correlati, sempre<br />
Anderson e Rubin (1956) hanno <strong>di</strong>mostrato il teorema seguente:<br />
Teorema 5.1 Un modello a due fattori <strong>latenti</strong> è identificabile se e solo se, qual<strong>un</strong>que riga della<br />
matrice A dei coefficienti fattoriali si cancelli, le rimanenti possono essere or<strong>di</strong>nate in modo tale<br />
da formare due matrici <strong>di</strong>sgi<strong>un</strong>te <strong>di</strong> rango 2.<br />
Ne segue che ogni volta che <strong>un</strong> fattore è generale e l'altro influenza due sole <strong>variabili</strong> osservate,<br />
<strong>di</strong>ciamo Xi e X j , i e j = 1, ... , q, i =/= j, il modello non verifica la con<strong>di</strong>zione en<strong>un</strong>ciata sopraj infatti<br />
se eliminiamo l'i-esima riga, ne rimangono q-1 <strong>di</strong> cui <strong>un</strong>a sola ha entrambi gli elementi non nulli.<br />
Ad esempio se q = 6 e<br />
ve<strong>di</strong>amo che cancellando la prima o la seconda cQlonna si dà luogo, nel migliore dei casi, a due<br />
matrici <strong>di</strong>sgi<strong>un</strong>te <strong>di</strong> rango 2 e 1 rispettivamente.<br />
In tutti questi casi basta marginalizzare rispetto al fattore specifico per ottenere <strong>un</strong> modello<br />
<strong>un</strong>i-fattoriale con residui correlati identificabile.<br />
Nel caso in cui il numero dei fattori sia più elevato, non si <strong>di</strong>spone <strong>di</strong> con<strong>di</strong>zioni necessarie e<br />
sufficienti per stu<strong>di</strong>are la loro identificabilità - neanche quando la matrice e è ass<strong>un</strong>ta <strong>di</strong>agonale;<br />
esistono solamente con<strong>di</strong>zioni o necessarie o sufficienti (cfr. Bollen, 1989). In questa situazione,
OSSERVAZIONI E PROBLEMI APERTI 79<br />
potrebbe essere consigliabile, almeno in via preliminare, ridurre a <strong>un</strong>i,:,fattoriale il modello<br />
analizzato se questo non verifica <strong>un</strong>a con<strong>di</strong>zione sufficiente, cioè se c'è il dubbio che tale modello<br />
non sia identificabile.<br />
5.2 Considerazioni su Sovra<strong>identificazione</strong> e Cicli Dispari<br />
Torniamo, ora, a considerare i grafi bipartiti; più precisamente supponiamo che il grafo G = (V, E)<br />
sia costituito da due cliques <strong>di</strong>stinte, Cl = (Vl,EI) e C2 = (V2,E2) con V = Vl UV2 e E = El UE2.<br />
Dalla Proposizione 4.1 sappiamo che allora (j = (V; E) è bipartito perfetto e quin<strong>di</strong> non contiene<br />
cicli <strong>di</strong>spari.<br />
Sappiamo che in questo caso il modello <strong>un</strong>i-fattoriale corrispondente non è identificabile e quin<strong>di</strong><br />
non è possibile stimarlo. L'<strong>un</strong>ico modo per risolvere il problema della non identificabilità del<br />
modello consiste nell'eliminare almeno <strong>un</strong> arco da G. In sostanza è necessario controllare se,<br />
imponendo l'in<strong>di</strong>pendenza <strong>di</strong> due in<strong>di</strong>catori con<strong>di</strong>zionatamente al fattore latente, rimaniamo fedeli<br />
a quelle conoscenze a priori che ci hanno condotto, in prima istanza, a rappresentare il fenomeno<br />
con <strong>un</strong> modello che sfort<strong>un</strong>atamente non può essere stimato.<br />
Sottolineiamo che, in questo caso, aggi<strong>un</strong>gendo <strong>un</strong> arco in G non riusciremmo a rendere il nostro<br />
modello identificabile perchè leveremmo contemporaneamente <strong>un</strong> arco da (j, non riuscendo così<br />
a creare ness<strong>un</strong> ciclo <strong>di</strong>spari e facendo <strong>di</strong>minuire il numero dei cicli pari.<br />
Ve<strong>di</strong>amo più in dettaglio come si mo<strong>di</strong>fica (j quando trasformiamo il modello per fenderlo<br />
identificabile; facciamo ciò contando quanti cicli contiene il grafo duale (j prima e dopo<br />
l'eliminazione da G <strong>di</strong> <strong>un</strong> arco.<br />
Come prima cosa osserviamo che se Cl è <strong>un</strong>a clique degenere, ossia IVll = 1, (j può contenere solo<br />
catene.<br />
In generale supponiamo che IVll = h e 1V21 = k con h e k 2: 2, e in<strong>di</strong>chiamo i vertici <strong>di</strong> Cl e C2<br />
rispettivamente con + e -. È fondamentale ricordare che, per definizione, tutti gli archi <strong>di</strong> E<br />
hanno <strong>un</strong> estremo in Vl e l'altro in V2.<br />
Iniziamo con il calcolo del numero dei cicli <strong>di</strong> l<strong>un</strong>ghezza 4 che costruiamo, senza perdere in<br />
generalità, a partire da <strong>un</strong> nodo in Vi. Il primo vertice (in Vd può essere scelto in h mo<strong>di</strong> e il<br />
secondo (in V2) in kj per il terzo (in Vi) e il quarto (in V2) la scelta va effettuata tra h-l e k - 1<br />
no<strong>di</strong> rispettivamente. Infine il quinto nodo deve coincidere con il primo e quin<strong>di</strong> abbiamo <strong>un</strong>a
80<br />
sola scelta, Graficamente rappresentiamo ciò come segue:<br />
(+)<br />
hx O<br />
k<br />
(-)<br />
O<br />
h-l<br />
(+)<br />
O<br />
k-l<br />
In totale abbiamo h(h - l)k(k - 1) = N4 cicli pari; tenendo conto, però, del fatto che, dati<br />
quattro vertici (due in VI e due in V2) si possono costruire quattro cicli <strong>di</strong> l<strong>un</strong>ghezza quattro, il<br />
numero <strong>di</strong> 4-cicli che còinvolgono insiemi <strong>di</strong> no<strong>di</strong> che <strong>di</strong>fferiscono almeno <strong>di</strong> <strong>un</strong> elemento è<br />
(-)<br />
O<br />
p. = N4 = h(h - 1) k(k - 1) = (h) (k)<br />
4 4 2 2 22'<br />
Per quanto riguarda i 6-cicli, il ragionamento è del tutto analogo; graficamente si ha<br />
(+)<br />
hx O<br />
k<br />
(-)<br />
O<br />
h-l<br />
(+)<br />
O<br />
k-l h-2<br />
(+)<br />
O<br />
1<br />
k-2<br />
Quin<strong>di</strong> N6 = h(h - l)(h - 2)k(k - l)(k - 2); poi, dal momento che, dati sei no<strong>di</strong>, possiamo<br />
formare 36 cicli, che <strong>di</strong>ciamo"equivalenti" , troviamo<br />
p, = N6 = h(h - l)(h - 2) k(k - l)(k - 2) = (h) (k)<br />
6 36 3! 3! 3 3'<br />
Applicando la procedura sopra delineata al calcolo del numero <strong>di</strong> cicli pari <strong>di</strong> l<strong>un</strong>ghezza generica<br />
2i e considerando che con 2i vertici possiamo formare ili! 2i-cicli, abbiamo il risultato seguente<br />
Risultato 5.1 Se G = (V, E) presenta la configurazione delle due cliques <strong>di</strong>stinte, Cl e C2 , con<br />
E = El U E2 e IVII = h e 1V21 = k, h, k 2': 2, allora il numero P <strong>di</strong> cicli pari non "equivalent'i"<br />
(+)<br />
O<br />
(-)<br />
O<br />
1<br />
(+)<br />
O
OSSERVAZIONI E PROBLEMI APERTI<br />
contenuti in a è:<br />
= min(h,k) (h) (k)<br />
p I: l l'<br />
/=2<br />
Supponiamo,ora, si ritenga <strong>di</strong> potere rimuovere <strong>un</strong> arco da G; ciò comporta l'aggi<strong>un</strong>ta del<br />
medesimo arco in a e la conseguente formazione <strong>di</strong> più <strong>di</strong> <strong>un</strong> ciclo <strong>di</strong>spari sempre in a. Sappiamo<br />
che, affinchè il modello sia identificabile, basta che il grafo duale contenga <strong>un</strong> ciclo <strong>di</strong>spari; ciò<br />
vuoI <strong>di</strong>re che ci troviamo in <strong>un</strong>a situazione <strong>di</strong> sovra<strong>identificazione</strong> del modello.<br />
1<br />
(a) (b)<br />
Figura 5.3: Rimozione <strong>di</strong> <strong>un</strong> arco da <strong>un</strong> grafo (a) con la configurazione delle due cliques <strong>di</strong>stinte<br />
e sue conseguenze nel grafo duale (b)<br />
Per esempio osserviamo la Figura 5.3 in cui h = 3 e k = 2; cancellando da Gl'arco (1,2)<br />
che, quin<strong>di</strong>, viene inserito nel duale (e lo rappresentiamo con il tratteggio) a, in quest'ultimo si<br />
vengono a formare, tra gli altri, due cicli <strong>di</strong> l<strong>un</strong>ghezza tre e <strong>un</strong> 5-ciclo, indotti rispettivamente<br />
dagli insiemi {l, 2, 4}, {l, 2, 5} e {l, 2, 4,3, 5}.<br />
In generale, assumiamo che IVII = h e 1V21 = k, supponiamo <strong>di</strong> eliminare da Gl'arco (1,2) e<br />
costruiamo i cicli <strong>di</strong>spari a partire o da loda 2. Allora per formare <strong>un</strong> ciclo <strong>di</strong> l<strong>un</strong>ghezza tre<br />
in a possiamo scegliere il primo nodo in due mo<strong>di</strong>, il secondo (in V2) in k mo<strong>di</strong> mentre il terzo<br />
vertice sarà sicuramente 2 perchè ogni ciclo <strong>di</strong>spari deve contenere l'arco (1,2). Graficamente,<br />
utilizzando la stessa rappresentazione vista prima abbiamo<br />
(1)<br />
2x O<br />
k<br />
(-)<br />
O<br />
Quin<strong>di</strong>, tenendo conto del fatto che a partire dalla configurazione con IVII = 2 IV21 = 1 <strong>un</strong><br />
1<br />
(2)<br />
O<br />
1<br />
(1)<br />
O<br />
81
84<br />
vincolati, quelli cioè che abbiamo dovuto stimare. Più dettagliatamente possiamo scrivere v come<br />
segue:<br />
ovvero come <strong>di</strong>fferenza tra il numero <strong>di</strong> archi presenti nel grafo complementare dei residui e il<br />
numero <strong>di</strong> archi nel grafo G <strong>di</strong> <strong>un</strong> modello esattamente identificato. La quantità v, quin<strong>di</strong>, può<br />
essere espresso anche come numero <strong>di</strong> equazioni in eccesso nel sistema 3.4 quando G contiene<br />
più <strong>di</strong> <strong>un</strong> ciclo <strong>di</strong>spari; infatti lEI - q è proprio il numero degli elementi <strong>di</strong> e-l che non è stato<br />
necessario stimare perchè posti uguali a zero.<br />
Torniamo al Risultato 5.2 e supponiamo <strong>di</strong> avere <strong>un</strong> modello che ne verifichi le ipotesi, allora<br />
D-I è anche il numero <strong>di</strong> gra<strong>di</strong> <strong>di</strong> libertà del test <strong>di</strong> bontà <strong>di</strong> adattamento <strong>di</strong> tale modello.<br />
Si consideri, ad esempio, la Figura 5.3.<br />
Il modello a cui è associato il grafo 5.3(a) prima della rimozione dell'arco (1,2), nonostante sod<strong>di</strong>sfi<br />
la con<strong>di</strong>zione necessaria t perchè q(q + 1) /2 = 15 e T = 14, non è, come sappiamo, identificabile.<br />
Cancellando l'arco (1,2), i parametri da stimare <strong>di</strong>ventano tre<strong>di</strong>ci e si ottiene l'identificabilità (non<br />
esatta). Andando a misurare l'adattamento globale, ve<strong>di</strong>amo che la statistica test del rapporto<br />
delle verosimiglianze ha <strong>di</strong>stribuzione asintotica X 2 con <strong>un</strong> numero <strong>di</strong> gra<strong>di</strong> <strong>di</strong> libertà, com<strong>un</strong>que<br />
lo si calcoli, pari a 2. Infatti, applicando la 5.5,<br />
D=G)G)+G)G)=3<br />
e quin<strong>di</strong> D-I = 2; inoltre, visto che lEI = 7, si ha lEI - q = 2.<br />
5.3 Identificazione <strong>di</strong> <strong>un</strong> Modello <strong>di</strong> Analisi Fattoriale a Più<br />
Fattori<br />
Fino ad ora abbiamo focalizzato la nostra attenzione sul modello <strong>un</strong>i-fattoriale; in particolare<br />
abbiamo determinato <strong>un</strong>a con<strong>di</strong>zione necessaria e sufficiente per la sua <strong>identificazione</strong>.<br />
Rimane, quin<strong>di</strong>, aperto il problema della in<strong>di</strong>viduazione delle caratteristiche che <strong>un</strong> modello con<br />
piil <strong>di</strong> <strong>un</strong>a variabile latente deve possedere affinchè sia identificabile.<br />
Da <strong>un</strong> p<strong>un</strong>to <strong>di</strong> vista puramente intuitivo, osserviamo che quando, come in questo lavoro, i residui<br />
possono essere correlati, non ha senso prendere in considerazione modelli con <strong>un</strong> elevato numero<br />
(5.7)
OSSERVAZIONI E PROBLEMI APERTI 85<br />
<strong>di</strong> fattori; infatti se si includono nell'analisi tante <strong>variabili</strong> <strong>latenti</strong> è lecito attendersi che spieghino<br />
completamente la <strong>variabili</strong>tà degli in<strong>di</strong>catori.<br />
In generale, <strong>un</strong> modello <strong>di</strong> analisi fattoriale con p <strong>variabili</strong> <strong>latenti</strong> è dato da<br />
dove X e 8 sono i vettori q-<strong>di</strong>mensionali rispettivamente degli in<strong>di</strong>catori e dei residui, eè il vettore<br />
p-<strong>di</strong>mensionale dei fattori <strong>latenti</strong> e A è la matrice q x p dei coefficienti fattoriali, cioè<br />
Àq1 Àq2 À qp<br />
La classe dei modelli p-fattoriali identificabili è stata caratterizzata solo nel caso p = 2 e e<br />
<strong>di</strong>agonale da Anderson e Rubin (Teorema 5.1). Per tutte le altre situazioni e sempre sotto il<br />
vincolo <strong>di</strong> residui incorrelati, in letteratura troviamo con<strong>di</strong>zioni o necessarie o sufficienti.<br />
Assumiamo che la matrice <strong>di</strong> varianze e covarianze <strong>di</strong> e, E(ee T ), sia data dalla matrice identità<br />
I p . È importante osservare che il numero delle <strong>variabili</strong> <strong>latenti</strong> che possono entrare a far parte <strong>di</strong><br />
<strong>un</strong> modello non è arbitario, ma <strong>di</strong>pende da quanti in<strong>di</strong>catori sono considerati nel modello stesso.<br />
Supponiamo, infatti, che e sia <strong>di</strong>agonale e che tutti gli elementi <strong>di</strong> A siano <strong>di</strong>versi tra loro e non<br />
nulli; applichiamo la regola t, cioè in questo caso<br />
e troviamo che<br />
q(q+1) > +<br />
2 -pq q<br />
p::;lq;lJ.<br />
Ne deriva che se q = 3,4 possiamo costruire solamente <strong>un</strong> modello con <strong>un</strong> fattore latente.<br />
Ricor<strong>di</strong>amo che con lxJ, x E IR, si in<strong>di</strong>ca la parte intera <strong>di</strong> x, cioè il più grande numero intero che<br />
non superi x.<br />
Ciò che proponiamo in questo lavoro, è <strong>un</strong>a con<strong>di</strong>zione sufficiente che controlla in tre passi se <strong>un</strong><br />
(5.8)
86<br />
modello p-fattoriale è identificabile.<br />
Iniziamo con il considerare il modello a due fattori<br />
con matrice <strong>di</strong> varianze e covarianze dei residui non <strong>di</strong>agonale. Per prima cosa controlliamo se<br />
(5.9) verifica la regola t. Proprio applicando questa con<strong>di</strong>zione necessaria, ve<strong>di</strong>amo che e-l può<br />
contenere al massimo<br />
(5.9)<br />
q2 _ 5q<br />
y = (5.10)<br />
2<br />
elementi non <strong>di</strong>agonali non nulli; ciò in particolare quando si è ass<strong>un</strong>to che tutti Àij, i =<br />
1, ... ,q, j = 1,2, siano <strong>di</strong>versi da zero.<br />
L'espressione (5.10) ci consente <strong>di</strong> dedurre che:<br />
@ per q < 5 <strong>un</strong> modello bifattoriale non è identificabile,<br />
l' per q = 5 il problema dell'<strong>identificazione</strong> <strong>di</strong> (5.9) ha senso solo se i residui sono in<strong>di</strong>pendenti<br />
tra loro;<br />
quin<strong>di</strong> si può considerare <strong>un</strong> modello con due fattori <strong>latenti</strong> e e non <strong>di</strong>agonale solo quando questo<br />
coinvolge almeno sei <strong>variabili</strong> osservate.<br />
Constatiamo anche che al crescere <strong>di</strong> p, il numero ammissibile dei Bij i= O, i < j, <strong>di</strong>minuisce;<br />
ciò è dovuto al fatto che nel problema dell'<strong>identificazione</strong>, per come viene definito, la quantità <strong>di</strong><br />
informazioni, q(q + 1}/2, rimane sempre la stessa qual<strong>un</strong>que sia il numero delle <strong>variabili</strong> <strong>latenti</strong><br />
considerate e la <strong>di</strong>mensione campionaria.<br />
Notiamo anche che se la matrice A è tale che Àhl i= Oe Ài2 i= Oper h i= i, allora in e-l è ammesso<br />
<strong>un</strong> numero maggiore <strong>di</strong> Bi j , i < j, non nulli, cioè<br />
q2 - 3q<br />
1/max = 2 '<br />
dove 1/max coincide con il numero 1/ della formula (3.6) perchè in questo caso A ha esattamente q<br />
elementi <strong>di</strong>versi da zero.<br />
Torniamo alla procedura e supponiamo che il modello sod<strong>di</strong>sfi la regola ti trattiamo (5.9) come<br />
se avesse residui in<strong>di</strong>pendenti e controlliamo se verifica la con<strong>di</strong>zione necessaria e sufficiente del
88<br />
tutta o quasi la <strong>variabili</strong>tà delle e tl'ale <strong>variabili</strong> osservate. Inoltre dalla (5.11) deriva che ha<br />
senso considerare il problema dell'<strong>identificazione</strong> <strong>di</strong> <strong>un</strong> modello p-fattoriale con residui correlati<br />
solo quando il numero degli in<strong>di</strong>catori è almeno pari a 2(1 + p).
Ap.pen<strong>di</strong>ce<br />
In questa sezione riportiamo il programma, scritto in linguaggio C con il dotto Luciano Nieddu, per<br />
l'esplorazione <strong>di</strong> <strong>un</strong> grafo al fine <strong>di</strong> determinare se è bipartito. In particolare il programma, se trova <strong>un</strong> ciclo<br />
<strong>di</strong>spari, termina imme<strong>di</strong>atamente e ne segnala la presenza; in caso contrario analizza tutti i vertici del grafo e<br />
conclude <strong>di</strong>cendo che non ha trovato ness<strong>un</strong> ciclo <strong>di</strong> l<strong>un</strong>ghezza <strong>di</strong>spari, ossia il grafo esplorato è bipartito.<br />
#include <br />
#include <br />
#include <br />
#include <br />
#include <br />
/* commenti */<br />
typedef struct que {<br />
int top;<br />
int bottom;<br />
int queue[lOOO];<br />
} queuedef;<br />
typedef struct elem {<br />
int nodo;<br />
int start;<br />
int color;<br />
} element;<br />
mainO<br />
{<br />
int i,k,j,vic,f1ag=O,s;<br />
int boole=+1;<br />
int ladj;<br />
int tem,tem2;<br />
queuedef queue;<br />
element head[lOOO];<br />
int adj[lOOO];<br />
char a<strong>di</strong>ac[30],headf[30];<br />
FILE *fadj, *fhead;<br />
89
90<br />
printf("Immettere nome del file contenente le a<strong>di</strong>acenze ");<br />
scanf("%s",a<strong>di</strong>ac);<br />
printf("Immettere nome del file contenente i p<strong>un</strong>tatori <strong>di</strong> inizio ");<br />
scanf("%s",headf);<br />
if((fadj=fopen(a<strong>di</strong>ac,"r"))==NULL)<br />
(<br />
printf("Non posso aprire il file %s",a<strong>di</strong>ac);<br />
exit(-l);<br />
}<br />
if((fhead=fopen(headf,"r"))==NULL)<br />
(<br />
printf("Non posso aprire il file %s",hcadf);<br />
exit(-l);<br />
}<br />
i=l;<br />
while«fscanf(fadj,"%d",&tem)) I=EOF)<br />
{<br />
adj[i++]=tem;<br />
}<br />
ladj=i-l;<br />
i=l;<br />
while«fscanf(fhead,"%d %d",&tem,&tem2))!=EOF)<br />
(<br />
head[i].nodo=tem;<br />
head[i].start=tem2;<br />
head[i].color=O;<br />
i++;<br />
head[i].nodo=i;<br />
head[i].start=ladj+1;<br />
fc1ose(fhead);<br />
fc1ose(fadj);<br />
boole=+l;<br />
queue.top=l;<br />
queue.bottom=1;<br />
queue.queue[queue.bottom]=1;<br />
head[ l].color=boole;<br />
queue.bottom++;<br />
do<br />
(<br />
i=queue.queue[queue.top];<br />
boole=head[i].color;<br />
printf("Sto analizzando il nodo %d il cui segno e' %+d\n",i,boole);<br />
j=O;<br />
flag=O;
while ((j
Bibliografia<br />
ANDERSON, T. W. (1984). An introduction to multivariate statistica! analysis. New YorIe Wiley.<br />
ANDERSON, T. W. E RUBIN, H. (1956). Statistical inference in factor analysis. Proc. Third Berkley<br />
Symp. Math. Statist. Probab. 5, pp.11l-150, Univo California Press, Berkley.<br />
BOLLEN, K. A. (1989). Structural equations with latent variables. New York: Wiley.<br />
BOUCKAERT, R. R. E STUDENY, M. (1995). Chain graphs: semantics and expressiveness. Synbolic and<br />
qualitative approaches to reasoning and <strong>un</strong>certainty. (ed. C. Froidèveaux e J. Kohlas), pp. 69-76.<br />
BROWNE, M. W. (1980). Factor analysis of multiple batteries by maximum likelihood. British J. oJ<br />
Math. and Statist. Psychology 33, pp. 184-199.<br />
CORMEN, T. H., LEISERSON, C. E. AND RIVEST, R. L. (1990). Introduction to algorithms.<br />
Cambridge, MA: MIT Presso<br />
Cox, D. R. E WERMUTH, N (1993). Linear dependencies represented by chain graphs (with <strong>di</strong>scussion).<br />
Statistical Science 8, pp. 204-218; 247-277.<br />
Cox, D. R. E WERMUTH, N. (1996). Multivariate dependencies: models, analysis and interpretation.<br />
London: Chapman & Hall.<br />
DARROCH, J. N., LAURITZEN, S. L. E SPEED, T. P. (1980). Markov field and log-linear interaction<br />
models for contingency tables. Ann. Statist. 8, pp. 522-539.<br />
DAWID, A. P. (1979). Con<strong>di</strong>tional independence in statistical theory (with <strong>di</strong>scussion). J. Roy. Statist.<br />
Soc., B, 41, 1, pp. 1-31.<br />
DAWID, A. P. (1980). Con<strong>di</strong>tional independence for statistical operations. Ann. Statist. 28, pp.<br />
598-617.<br />
DEMPSTER, A. P. (1972). Covariance selection. Biometrics 28, pp. 157-175.<br />
FRYDENBERG, M. (1990). The chain graph Markov property. Scand. Journal. oJ Statist. 17, pp.<br />
333-353.<br />
GONDRAN, M. E MINOUX, M. (1984). Graphs and algorithms. Chichester: Wiley.<br />
93
94<br />
JONA LASINrO, G. E VroARD, P. (1996). Graphical Gaussian Models and Regression. In Matrices and<br />
Gmphs: Theory and Applications. A cura <strong>di</strong> Camiz, S. e Stefani, S., World Scientific Publishing (in<br />
corso <strong>di</strong> stampa).<br />
KARLIN, S. E RINOTT, Y. (1983). M-Matrices as covariancematrices of multinormal <strong>di</strong>stributions.<br />
Linear Algebra and its Applications 52/53, pp.419-438.<br />
.LAURITZEN, S. L. (1996). Graphical rnodels. Oxford: Oxford University Presso<br />
LAUIlITZEN, S. L., DAWID, A. P., LARSEN, B. N. E LEIMER, H. G. (1990). In<strong>di</strong>rected properties of<br />
<strong>di</strong>rected Markov fields. networks 20, pp. 491-505.<br />
LAURITZEN, S. L. E WERMUTH, N. (1989). Graphical models for associations between variables some<br />
of which are qualitative and some quantitative. Ann. Statist. 17, pp.31-57.<br />
LAWLEY, D. N. E MAXWELL, A. E. (1971). Factor Analysis as a statistical method. London:<br />
Butterworth.<br />
MATUS, F. (1992). On equivalence of Markov properties over <strong>un</strong><strong>di</strong>rected graphs. Journ. oj Appl. Probo<br />
29, pp. 745-749.<br />
PEARL, J. (1988). Probabilistic reasoning in intelligent systems. San Mateo: Morgan Kaufmann.<br />
PEARL, J. E PAZ, A. (1987). Graphoids: a graph based logic for reasoning about relevancy relations.<br />
Advances in Artificial Intelligence- II (ed. B. D. Boulay, D. Hogg e L. Steel), pp. 357-363.<br />
Amsterdam: North Holland.<br />
PEARL, J. E VERMA, T. (1987). The logic ofrepresenting dependencies by <strong>di</strong>rected graphs. Procee<strong>di</strong>ngs<br />
of the 6th conference of American Association of Artificial Intelligence, pp. 374-379. American<br />
Association of Artificial Intelligence.<br />
RAO, C. R. (1973). Linear statistical inference and its applications, 2nd ed. New York: Wiley.<br />
SEARLE, S. R. (1982). Matrix algebra for statistics. New York: Wiley.<br />
SPEED, T. P. E KrrVERI, H. (1986). Gaussian Markov <strong>di</strong>stributions over finite graphs. Ann. Statist.<br />
14, 1, pp.138-150.<br />
STANGHELLINI, E. (1997). Identification of a single-factor model using graphical gaussian rules.<br />
Biometrika, in corso <strong>di</strong> stampa.<br />
STUDENY, M. (1992). Con<strong>di</strong>tional independence relations have no finite complete characterization.<br />
Transactions oj the 11th Prague conjerence on injormation theory, statistical decision j<strong>un</strong>ctions and<br />
random processes, pp. 377-396. Prague: Academia.<br />
STUDENY, M. (1996). FormaI properties of con<strong>di</strong>tional independence. App<strong>un</strong>ti della lezione tenuta al<br />
Corso"Learning in Graphical Models", Erice.
STUDENY, M. (1996). Chain graph models. App<strong>un</strong>ti della lezione tenuta al Corso "Learning in<br />
Graphical Models", Erice.<br />
VICARD, P. (1994). <strong>Modelli</strong> <strong>grafici</strong> Gaussiani: la procedura <strong>di</strong> adattamento proporzionale iterativo.<br />
Quaderno E9, Dipartimento <strong>di</strong> Statistica, Probabilità e Statistiche Applicate, Università degli Stu<strong>di</strong><br />
<strong>di</strong> Roma "La <strong>Sapienza</strong>" .<br />
VICARD, P. (1996). On the identification or a single-factor model with correlated residuals. Sottoposto.<br />
\VERMUTH, N. (1976). Analogies between multiplicative models in contingency tables and covariance<br />
selection. Biometrics 32, pp.95-108.<br />
WERMUTII, N., Cox, D. R. E PEARL, J. (1994). Explanations for multivariate structures derived<br />
from <strong>un</strong>ivariate recursive regressions. Sottoposto.<br />
WlIITTAI