12.07.2015 Views

Analisi Fattoriale Discriminante - Strumenti ... - Docente.unicas.it

Analisi Fattoriale Discriminante - Strumenti ... - Docente.unicas.it

Analisi Fattoriale Discriminante - Strumenti ... - Docente.unicas.it

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Analisi</strong><strong>Fattoriale</strong><strong>Discriminante</strong>A. Iodiceclassificazione<strong>Analisi</strong>fattorialediscriminanteSoluzioneAFDRegola didecisioneEsempio diapplicazioneSelezione dellevariabili<strong>Analisi</strong> <strong>Fattoriale</strong> <strong>Discriminante</strong><strong>Strumenti</strong> quant<strong>it</strong>ativi per l’economia e la finanza IAlfonso Iodice D’Enzaiodicede@<strong>unicas</strong>.<strong>it</strong>Univers<strong>it</strong>à degli studi di Cassino e del Lazio MeridionaleA. Iodice () <strong>Analisi</strong> <strong>Fattoriale</strong> <strong>Discriminante</strong> Statistica 1 / 19


Outline<strong>Analisi</strong><strong>Fattoriale</strong><strong>Discriminante</strong>A. Iodice1 classificazioneclassificazione<strong>Analisi</strong>fattorialediscriminanteSoluzioneAFDRegola didecisioneEsempio diapplicazioneSelezione dellevariabili2 <strong>Analisi</strong> fattoriale discriminante3 Soluzione AFD4 Regola di decisione5 Esempio di applicazione6 Selezione delle variabiliA. Iodice () <strong>Analisi</strong> <strong>Fattoriale</strong> <strong>Discriminante</strong> Statistica 2 / 19


La classificazione<strong>Analisi</strong><strong>Fattoriale</strong><strong>Discriminante</strong>A. Iodiceclassificazione<strong>Analisi</strong>fattorialediscriminanteSoluzioneAFDRegola didecisioneEsempio diapplicazioneSelezione dellevariabiliSi considerino n individui su cui sono osservate p variabili di tipo quant<strong>it</strong>ativo. Siconsideri che gli individui siano suddivise in K gruppiLa matrice dei dativ1 v2 v3 gruppix 11 x 12 x 13 G1x 21 x 22 x 23 G1x 31 x 32 x 33 G1x 41 x 42 x 43 G2x 51 x 52 x 53 G2x 61 x 62 x 63 G2x 71 x 72 x 73 G2x 81 x 82 x 83 G2x 91 x 92 x 93 G3x 101 x 102 x 103 G3I gruppi sono defin<strong>it</strong>i dalle modal<strong>it</strong>à di una variabile categorica, che funge davariabile di risposta. Le variabili quant<strong>it</strong>ative (dette esplicative) invece servono aspiegare l’appartenenza di un individuo ad uno dei gruppi defin<strong>it</strong>i dalla modal<strong>it</strong>àdi risposta.A. Iodice () <strong>Analisi</strong> <strong>Fattoriale</strong> <strong>Discriminante</strong> Statistica 3 / 19


Obiettivi dell’<strong>Analisi</strong> <strong>Fattoriale</strong> <strong>Discriminante</strong> (AFD<strong>Analisi</strong><strong>Fattoriale</strong><strong>Discriminante</strong>A. Iodiceclassificazione<strong>Analisi</strong>fattorialediscriminanteEsempio di applicazione dell’AFDSi supponga che la variabile di risposta classifichi i clienti di una banca in due tipologie, coloro che possonoaccendere un mutuo e coloro che non possono farlo; in questo caso le variabili esplicative di interesse per labanca sono il redd<strong>it</strong>o annuo percep<strong>it</strong>o, il numero di componenti della famiglia del cliente ed altrecaratteristiche socio-economiche che possano stabilire se ad un cliente siano da concedere un mutuo o meno.SoluzioneAFDRegola didecisioneEsempio diapplicazioneSelezione dellevariabiliObiettivo esplorativoL’AFD, in ottica esplorativa, serve a valutare se lasuddivisione delle un<strong>it</strong>à statistiche fatta in base allemodal<strong>it</strong>à delle variabile di risposta si riflette anchenei valori assunti dalle un<strong>it</strong>à sulle variabili dirisposta.Esempio:Le variabili socio-economiche osservate assumonoeffettivamente valori diversi in corrispondenza deiclienti a cui è stato concesso un mutuo rispetto aquelli a cui non è stato concesso?Obiettivo decisionaleL’AFD in ottica decisionale consente di assegnareun nuovo individuo, di cui si conoscano i valoriassunti sulle variabili esplicative, ad una dellecategorie della variabile di risposta.Esempio:In base alle caratteristiche socio-economiche di unnuovo cliente, la banca può concedergli un mutuooppure no?A. Iodice () <strong>Analisi</strong> <strong>Fattoriale</strong> <strong>Discriminante</strong> Statistica 4 / 19


Interpretazione geometrica dell’<strong>Analisi</strong> <strong>Fattoriale</strong><strong>Discriminante</strong> (AFD<strong>Analisi</strong><strong>Fattoriale</strong><strong>Discriminante</strong>A. Iodiceclassificazione<strong>Analisi</strong>fattorialediscriminanteSoluzioneAFDRegola didecisioneEsempio diapplicazioneSelezione dellevariabiliSi consideri un esempio di dati n = 10, p = 2 e K = 3.Datix1 x2 gr1 12 A2 9 A2 8 A3 10 A4 15 A8 2 B11 3 B9 1 B10 4 B16 2 B9 13 C10 11 C12 12 CObiettivoDati centratix1 x2 gr-7 5 A-6 2 A-6 1 A-5 3 A-4 8 A0 -5 B3 -4 B1 -6 B2 -3 B8 -5 B1 6 C2 4 C4 5 CL’AFD mira a trovare un sottospazio di proiezione tale che i K baricentri siano tra loro separati al meglio, etale che i punti di ciascun gruppo siano raggruppati al meglio intorno al proprio baricentro.Esempio: poichè i dati sono in due dimensioni, il sottospazio di proiezione è solo un asse (in rosso).A. Iodice () <strong>Analisi</strong> <strong>Fattoriale</strong> <strong>Discriminante</strong> Statistica 5 / 19


AFD: ricerca della soluzione<strong>Analisi</strong><strong>Fattoriale</strong><strong>Discriminante</strong>A. Iodiceclassificazione<strong>Analisi</strong>fattorialediscriminanteSoluzioneAFDRegola didecisioneEsempio diapplicazioneSelezione dellevariabiliFormula della decomposizione della varianza di HuygensDato un insieme di dati (n individui descr<strong>it</strong>ti da p variabili quant<strong>it</strong>ative) organizzati in una matrice X n×p esuddivisi in gruppi, la variabil<strong>it</strong>à totale associata ai dati può essere calcolata come somma tra le varianzeinterne ai gruppi, e la varianza tra i gruppi.V = W + Bvarianza totale V = 1 n∑ ni=1(x i − g) T (x i − g), con x i che è l’individuo i e g il baricentrodei dati.varianza interna ai gruppi W = ∑ Kn jj=1 n W jW j =n 1 ∑n j ( )j i=1 xi − g T ( )j xi − g j , con nj è la numeros<strong>it</strong>à del gruppo j e g j ilbaricentro del gruppo j.varianza tra i gruppi B = ∑ Kj=1(gj − g ) T ( g j − g )A. Iodice () <strong>Analisi</strong> <strong>Fattoriale</strong> <strong>Discriminante</strong> Statistica 6 / 19


AFD: ricerca della soluzione<strong>Analisi</strong><strong>Fattoriale</strong><strong>Discriminante</strong>A. Iodiceclassificazione<strong>Analisi</strong>fattorialediscriminanteSoluzioneAFDRegola didecisioneEsempio diapplicazioneSelezione dellevariabiliDefinizione alternativa delle matrici di varianza totale, interna ai gruppi ed esterna ai gruppiX: matrice n × p di dati quant<strong>it</strong>ativi (variabili indipendenti)y: vettore n × 1 di assegnazione degli individui alle K classi/gruppi (variabile dipendente)C: matrice n × K della codifica disgiuntiva completa del vettore y: C ij = 1 se l’individuo iappartiene al gruppo j, C ij = 0 altrimenti.(G = C C) T −1 CT X: matrice K × p dei centroidi (o medie condizionate).CG: matrice n × p contenente per ogni riga i il centroide del gruppo a cui l’individuo i appartiene.)µ x =(Xn1 T 1 n : vettore p × 1 delle medie generali delle p variabili (centroide generale). 1 nvettore n × 1 i cui elementi sono tutti uguali ad 1.)M =(Xn1 T 1 n : vettore p × 1 delle medie generali delle p variabili (centroide generale).A. Iodice () <strong>Analisi</strong> <strong>Fattoriale</strong> <strong>Discriminante</strong> Statistica 7 / 19


AFD: ricerca della soluzione<strong>Analisi</strong><strong>Fattoriale</strong><strong>Discriminante</strong>A. Iodiceclassificazione<strong>Analisi</strong>fattorialediscriminanteSoluzioneAFDRegola didecisioneEsempio diapplicazioneSelezione dellevariabiliDefinizione alternativa delle matrici di varianza totale, interna ai gruppi ed esterna ai gruppiV = 1 n (X − M)T (X − M): matrice di varianza e covarianza totale;W = 1 n (X − CG)T (X − CG): matrice di varianza e covarianza interna ai gruppi;B = 1 n (CG − M)T (CG − M): matrice di varianza e covarianza esterna ai gruppi;Obiettivo: massimizzare la distanza tra le proiezioni dei centroidiĉ = 1 √ n(CG − M) u[ĉ T ĉ = √n 1T [ ](CG − M) u]√n 1 (CG − M) u = u T n 1 (CG − M)T (CG − M) u == u T BuA. Iodice () <strong>Analisi</strong> <strong>Fattoriale</strong> <strong>Discriminante</strong> Statistica 8 / 19


AFD: ricerca della soluzione<strong>Analisi</strong><strong>Fattoriale</strong><strong>Discriminante</strong>A. Iodiceclassificazione<strong>Analisi</strong>fattorialediscriminanteSoluzioneAFDRegola didecisioneEsempio diapplicazioneSelezione dellevariabiliFormalizzazione del problemaL’obiettivo è trovare il versore dell’asse di proiezione che massimizzi la varianza tra i gruppi e minimizzi alcontempo le varianze interne ai gruppi.Funzione obiettivo:Lagrangiano:max! u u T Bu sottoposto al vincolo u T Vu = 1∂LL = u T Bu − λ(u T Vu − 1)∂u = uT Bu − λ(u T Vu − 1) = 0 → Bu = λVuSe si pone u = V −1 v allora la precedente diventaBV −1 v = λVV −1 v = λvdunque la soluzione consiste nella ricerca di autovalori e autovettori della matrice BV −1 .A. Iodice () <strong>Analisi</strong> <strong>Fattoriale</strong> <strong>Discriminante</strong> Statistica 9 / 19


AFD: ricerca della soluzione<strong>Analisi</strong><strong>Fattoriale</strong><strong>Discriminante</strong>A. Iodiceclassificazione<strong>Analisi</strong>fattorialediscriminanteSoluzioneAFDRegola didecisioneEsempio diapplicazioneSelezione dellevariabiliAssi discriminantiu: assi discriminantiV −1 u: forme lineari discriminantiLegame tra AFD e ACPEsiste una relazione tra analisi fattoriale discriminante e analisi in componentiprincipali. In particolare L’AFD su n individui corrisponde ad una ACP sui Kbaricentri: la metrica utilizzata è V −1 .A. Iodice () <strong>Analisi</strong> <strong>Fattoriale</strong> <strong>Discriminante</strong> Statistica 10 / 19


Separazione dei gruppi<strong>Analisi</strong><strong>Fattoriale</strong><strong>Discriminante</strong>A. Iodiceclassificazione<strong>Analisi</strong>fattorialediscriminanteSoluzioneAFDRegola didecisioneEsempio diapplicazioneSelezione dellevariabiliA. Iodice () <strong>Analisi</strong> <strong>Fattoriale</strong> <strong>Discriminante</strong> Statistica 11 / 19


Costruzione della regola di decisione<strong>Analisi</strong><strong>Fattoriale</strong><strong>Discriminante</strong>A. Iodiceclassificazione<strong>Analisi</strong>fattorialediscriminanteSoluzioneAFDRegola didecisioneEsempio diapplicazioneSelezione dellevariabiliAssegnazione individui ai gruppiUna volta trovato il sottospazio di proiezione che separa al meglio i K baricentri,è necessario verificare se gli individui proiettati su tale sottospazio sianoeffettivamente da assegnare al gruppo defin<strong>it</strong>o dalla classificazione a priori.Sia x i l’individuo i e sia ˆx i la sua proiezione sul sottospazio trovato, sia inoltreĝ j la proiezione del baricentro del gruppo j.La regola di decisione sarà formalmentex i → g j se d(ˆx i , ĝ j ) 2 = min [ d(ˆx i , ĝ j ) 2 , j = . . . , K ]A. Iodice () <strong>Analisi</strong> <strong>Fattoriale</strong> <strong>Discriminante</strong> Statistica 12 / 19


Esempio di applicazione<strong>Analisi</strong><strong>Fattoriale</strong><strong>Discriminante</strong>A. Iodiceclassificazione<strong>Analisi</strong>fattorialediscriminanteSoluzioneAFDRegola didecisioneEsempio diapplicazioneSelezione dellevariabiliIl data set irisSi considerino n = 150 fiori di iris di tre tipologie: setosa, versicolor e virginica.Le variabili osservate sono p = 4: lunghezza e larghezza del sepalo (LuS e LaS),lunghezza e larghezza del petalo (LuP e LaP)LuS LaS LuP LaP gruppi5.1 3.5 1.4 0.2 setosa4.9 3 1.4 0.2 setosa. . . . . . . . . . . . . . .5 3.3 1.4 0.2 setosa7 3.2 4.7 1.4 versicolor6.4 3.2 4.5 1.5 versicolor. . . . . . . . . . . . . . .5.7 2.8 4.1 1.3 versicolor6.3 3.3 6 2.5 virginica5.8 2.7 5.1 1.9 virginica. . . . . . . . . . . . . . .5.9 3 5.1 1.8 virginicaA. Iodice () <strong>Analisi</strong> <strong>Fattoriale</strong> <strong>Discriminante</strong> Statistica 13 / 19


Esempio di applicazione<strong>Analisi</strong><strong>Fattoriale</strong><strong>Discriminante</strong>Assegnazione ex-anteA. Iodiceclassificazione<strong>Analisi</strong>fattorialediscriminanteSoluzioneAFDRegola didecisioneEsempio diapplicazioneSelezione dellevariabiliA. Iodice () <strong>Analisi</strong> <strong>Fattoriale</strong> <strong>Discriminante</strong> Statistica 14 / 19


Esempio di applicazione<strong>Analisi</strong><strong>Fattoriale</strong><strong>Discriminante</strong>Assegnazione ex-postA. Iodiceclassificazione<strong>Analisi</strong>fattorialediscriminanteSoluzioneAFDRegola didecisioneEsempio diapplicazioneSelezione dellevariabiliA. Iodice () <strong>Analisi</strong> <strong>Fattoriale</strong> <strong>Discriminante</strong> Statistica 15 / 19


Esempio di applicazione<strong>Analisi</strong><strong>Fattoriale</strong><strong>Discriminante</strong>A. Iodiceclassificazione<strong>Analisi</strong>fattorialediscriminanteMatrice di confusioneConfronto tra la assegnazione degli individui ai gruppi ex-ante (riportata sullerighe del mosaico) ed ex-post (ottenuta in base alla soluzione AFD, e riportatasulle colonne)SoluzioneAFDRegola didecisioneEsempio diapplicazioneSelezione dellevariabiliA. Iodice () <strong>Analisi</strong> <strong>Fattoriale</strong> <strong>Discriminante</strong> Statistica 16 / 19


Selezione delle variabili<strong>Analisi</strong><strong>Fattoriale</strong><strong>Discriminante</strong>A. Iodiceclassificazione<strong>Analisi</strong>fattorialediscriminanteSoluzioneAFDRegola didecisioneEsempio diapplicazioneSelezione dellevariabiliSelezione delle variabiliUna volta stabil<strong>it</strong>a quale sia la regola di decisione è interessante capire quali dellep variabili considerate abbiano avuto una maggiore importanza nel differenziaretra loro i gruppi.Obiettivo: individuare le q variabili, tra le p considerate, che discriminano almeglio tra i gruppi.Perchè selezionare le varibili?Individuare un insieme ridotto di variabili esplicative consente diridurre il costo computazionale (ed economico) della procedura;ridurre il ’rumore’ che le variabili di scarso interesse determinano e chefinisce per mascherare la reale presenza di una struttura in gruppi di un<strong>it</strong>àstatistiche.A. Iodice () <strong>Analisi</strong> <strong>Fattoriale</strong> <strong>Discriminante</strong> Statistica 17 / 19


Selezione delle variabili<strong>Analisi</strong><strong>Fattoriale</strong><strong>Discriminante</strong>A. Iodiceclassificazione<strong>Analisi</strong>fattorialediscriminanteSoluzioneAFDRegola didecisioneEsempio diapplicazioneCr<strong>it</strong>eri di selezioneL’individuazione delle variabili di interesse rappresenta un problemaparticolarmente complesso:questo perchè per ogni valore di q (numero di variabili da selezionare), cisaranno ( p) q =p!possibili sottoinsiemi tra i quali scegliere;q!(p−q)!il miglior insieme di q elementi potrebbe non contenere il migliorsottoinsieme di q − 1 variabili, perchè le variabili non sono indipendenti traloro.Selezione dellevariabiliA. Iodice () <strong>Analisi</strong> <strong>Fattoriale</strong> <strong>Discriminante</strong> Statistica 18 / 19


Selezione delle variabili<strong>Analisi</strong><strong>Fattoriale</strong><strong>Discriminante</strong>A. Iodiceclassificazione<strong>Analisi</strong>fattorialediscriminanteSoluzioneAFDRegola didecisioneEsempio diapplicazioneSelezione dellevariabiliMetodi di selezioneMetodo passo a passo ascendente: si sceglie la variabile rispetto alla quale i gruppi sono separati almeglio. Ad ogni passo successivo si aggiunge alle precedenti la variabile che, tra quelle rimastedeterminano la miglior separazione tra i gruppi.Metodo passo a passo discendente: si tratta del metodo inverso rispetto al precedente. Si parte dallep variabili e ad ogni passo si elimina la variabile ’peggiore’.Cr<strong>it</strong>eri di selezioneOccorre definire un modo per valutare il grado di interesse delle variabili.Cr<strong>it</strong>erio della traccia di Lawley-Hotelling: il grado di interesse del gruppo q di variabili considerate èdato da(tr W −1 )q BqCr<strong>it</strong>erio del determinante di Wilks: il grado di interesse del gruppo q di variabili considerate è datodal rapporto tra il determinante della matrice delle componenti w<strong>it</strong>hin della variabil<strong>it</strong>à e quello dellamatrice delle varianze totali.det(W q)percentuale di ben classificatidet(V q)A. Iodice () <strong>Analisi</strong> <strong>Fattoriale</strong> <strong>Discriminante</strong> Statistica 19 / 19

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!