13.11.2014 Views

Un algoritmo per la regressione multipla con dati categoriali

Un algoritmo per la regressione multipla con dati categoriali

Un algoritmo per la regressione multipla con dati categoriali

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Quaderni di Statistica e Matematica<br />

Applicata alle Scienze E<strong>con</strong>omico-Sociali<br />

VOLUME ?? - n° ? - MESE 199?<br />

<strong>Un</strong> <strong>algoritmo</strong> <strong>per</strong> <strong>la</strong> <strong>regressione</strong> multip<strong>la</strong><br />

<strong>con</strong> <strong>dati</strong> <strong>categoriali</strong><br />

PIETRO GIORGIO LOVAGLIO<br />

Dipartimento di metodi quantitativi <strong>per</strong> l’E<strong>con</strong>omia e l’Azienda, Facoltà di E<strong>con</strong>omia, Mi<strong>la</strong>no-<br />

Bicocca<br />

Abstract<br />

Il presente <strong>la</strong>voro propone un <strong>algoritmo</strong> <strong>per</strong> <strong>la</strong> <strong>regressione</strong> multip<strong>la</strong> tra una variabile dipendente z e k variabili<br />

indipendenti x i di natura categoriale (nominale, ordinale) e/o <strong>con</strong>tinue, nell’ambito dell’optimal scaling: ciò comporta <strong>la</strong><br />

stima dei parametri b di <strong>regressione</strong> e dei parametri di scaling che definis<strong>con</strong>o le trasformazioni ottime <strong>per</strong> ogni<br />

variabile categoriale z os , x os j .<br />

Le proposte esistenti (Morals Young et al. 1976, Canals Gifi 1981) <strong>per</strong>vengono nel passo di scaling (stima dei punteggi<br />

delle variabili <strong>categoriali</strong>) ad una diminuzione del residuo solo nel passo di normalizzazione, non durante <strong>la</strong> stima dei<br />

punteggi di x u i (le stime di x os j non normalizzate).<br />

La proposta attuale si basa sul<strong>la</strong> decomposizione dello spazio generato da z u , una stima ottima di z, ma non ancora<br />

normalizzata in z os , in k sottospazi ortogonali ottenendo <strong>la</strong> stima dei parametri di scaling <strong>per</strong> le x j separatamente, senza<br />

dover eliminare a priori le corre<strong>la</strong>zioni tra le x j : <strong>la</strong> stima di optimal scaling non normalizzata di ogni regressore x u i è <strong>la</strong><br />

proiezione di z u u<br />

su ogni sottospazio di x j (G j ), <strong>la</strong> normalizzazione successiva (di x i in x os i ) tiene <strong>con</strong>to del<strong>la</strong> sca<strong>la</strong> di<br />

misurazione di ogni variabile.<br />

1. Natura del problema e <strong>la</strong>vori precedenti<br />

Il presente <strong>la</strong>voro propone un <strong>algoritmo</strong> <strong>per</strong> <strong>la</strong> <strong>regressione</strong> multip<strong>la</strong> tra una<br />

variabile dipendente z e k variabili indipendenti x i di natura categoriale o miste.<br />

Nelle scienze sociali una variabile può essere rilevata su sca<strong>la</strong> intervallo o rapporto<br />

(variabile numerica) oppure, più frequentemente, su sca<strong>la</strong> ordinale e nominale (negli<br />

item di un questionario).<br />

Per evitare di trattare le categorie come punteggi si specifica ogni variabile<br />

categoriale come prodotto di una matrice indicatore (nota) che riflette <strong>la</strong> struttura di<br />

ogni variabile osservata G j (n*k j ) e di un vettore (k j *1) di parametri di scaling y i che,<br />

una volta stimati, originano le variabili z os =G z t # , x j os =G j y j # dove os sta <strong>per</strong> optimal<br />

scaling.


2 P.G. LOVAGLIO<br />

Le k variabili indipendenti e <strong>la</strong> variabile dipendente vengono parametrizzate<br />

rispettivamente come Gy e G z t <strong>con</strong> G z matrice indicatore di z, G=(G 1 …G k ) è <strong>la</strong><br />

matrice indicatore completo di dimensione n*Σ j k j ed y (Σ j k j *1) dove y′ = (y 1 ′,….,y k ′)<br />

è il vettore diviso in k blocchi y i (uno <strong>per</strong> ogni x j ) di k j elementi (numero di categorie<br />

di x j ) ognuno, t = (t 1 ......t k ) vettore delle categorie di z.<br />

Per una variabile nominale i parametri di scaling non presentano nessun vincolo<br />

nello spazio dei parametri di scaling (C j ), mentre <strong>per</strong> variabili ordinali esiste un<br />

ordinamento supposto a priori:<br />

t 1 ≤...≤ t i ≤....t k<br />

y 1 ≤.…≤ y i ≤…...≤ y kj<br />

La <strong>regressione</strong> multip<strong>la</strong> in <strong>con</strong>testo di optimal scaling induce una funzione di<br />

<strong>per</strong>dita tipica dei minimi quadrati (SSQ(x) è <strong>la</strong> somma dei quadrati di x):<br />

min<br />

β,<br />

z, y<br />

(z os -X os b)′(z os -X os b) =<br />

min<br />

β,<br />

z, y<br />

SSQ(z os - Σ j x j<br />

os<br />

b j ) =<br />

min<br />

β,t,y j<br />

SSQ(G z t- Gyb) (1)<br />

da minimizzare rispetto ai parametri di scaling y j , t e al vettore dei parametri b, <strong>con</strong> i<br />

vincoli:<br />

u′G z t =0, t′G z ′G z t = 1, y j ∈C j t∈C z (2)<br />

dove u è un vettore di uno, C j e C z sono gli spazi delle trasformazioni ammissibili<br />

(spazio dei parametri di scaling) <strong>per</strong> le categorie di ogni variabile che tengono <strong>con</strong>to<br />

del livello di misurazione (C j C z sono <strong>con</strong>i chiusi <strong>con</strong>vessi, Gifi, 1981), e gli altri<br />

vincoli standardizzano z os .<br />

<strong>Un</strong>a variabile nominale non induce nessun vincolo sulle categorie, una variabile<br />

ordinale tiene <strong>con</strong>to del vincolo di ordinamento delle stesse, mentre i punteggi di una<br />

variabile numerica restano costanti nell’<strong>algoritmo</strong>.<br />

La procedura che qui si propone è coerente <strong>con</strong> <strong>la</strong> filosofia Alternating Least<br />

Squares (ALS, Young 1981) che divide i parametri in due sottinsiemi, minimizzando<br />

<strong>la</strong> (1) in due passi: nel primo rispetto a b, tenendo fissi i parametri di scaling ad una<br />

stima iniziale:<br />

min SSQ(z 0 - Σ j x j 0 b j ) (3)<br />

β • •<br />

e nel se<strong>con</strong>do passo <strong>con</strong> b stimato nel passo precedente si stimano i parametri di<br />

scaling t, y j , iterando i due passi fino a <strong>con</strong>vergenza dell’<strong>algoritmo</strong>.<br />

L’<strong>algoritmo</strong> proposto, come quelli Als, <strong>con</strong>verge (De Leeuw, 1973) poiché in ogni<br />

iterazione del<strong>la</strong> procedura iterativa il residuo si riduce progressivamente all’interno di<br />

ogni passo.<br />

Il primo problema di minimo è ovviamente ottenuto <strong>con</strong> il metodo dei minimi<br />

quadrati applicato ad una stima iniziale delle variabili z 0 , x i 0 <strong>con</strong> i valori <strong>categoriali</strong><br />

2


UN ALGORITMO REGRESSIONE 3<br />

grezzi, (z 0 = z os , x i<br />

0<br />

= x i os ) mentre appare meno chiaro, viste le differenti proposte in<br />

letteratura, il modo di ottenere i parametri di scaling che trasformano le variabili<br />

<strong>categoriali</strong> in variabili "optimal scaled".<br />

Le proposte esistenti in letteratura (Morals, Young et al. 1976, Canals, Gifi 1981)<br />

stimano i parametri di scaling <strong>con</strong> vincoli sul<strong>la</strong> media, sul<strong>la</strong> varianza e sul<strong>la</strong> sca<strong>la</strong> di<br />

misurazione (nominale, ordinale, numerica) delle stesse, trovando una soluzione (t u ,<br />

y j u ) se<strong>con</strong>do un criterio di ottimo che <strong>per</strong>ò non tiene <strong>con</strong>to dei vincoli presenti in C j<br />

(soluzione non normalizzata), successivamente tali soluzioni vengono normalizzate<br />

(t # , y j # ) dando luogo a z os , x os .<br />

Morals (Young et al. 1976) propone di ricavare <strong>la</strong> i-esima componente di t u come<br />

<strong>la</strong> media dei punteggi di ∧ z (previsore lineare di z) appartenenti al<strong>la</strong> i-esima categoria<br />

del<strong>la</strong> variabile grezza z 0 , infine si normalizza <strong>la</strong> soluzione z u =G z t u in base ai vincoli<br />

supposti <strong>per</strong> ottenere z os .<br />

Successivamente si ricavano le variabili x i u dall'identità:<br />

z os = b 1 x 1<br />

0<br />

+…..+ b k x k<br />

0<br />

(4)<br />

iso<strong>la</strong>ndo i punteggi delle k variabili esplicative x i<br />

0<br />

dalle re<strong>la</strong>zioni algebriche nel<strong>la</strong> (4),<br />

tenendo fissi i parametri noti b i e le altre k-1 variabili x i 0 .<br />

La normalizzazione delle x i u (in x i os ) e di z u (in z os ) si ottiene proiettando i vettori z u<br />

ed x i u sullo spazio delle colonne delle rispettive matrici indicatore, costruite in modo<br />

da tener <strong>con</strong>to del<strong>la</strong> sca<strong>la</strong> di misurazione di ogni variabile (Young 1981).<br />

La normalizzazione di Morals richiede che <strong>la</strong> variabile dipendente e quelle<br />

indipendenti abbiano media nul<strong>la</strong> e varianza unitaria.<br />

Infine <strong>per</strong> l’aggiornamento dei parametri di <strong>regressione</strong> in una successiva<br />

iterazione si effettua una <strong>regressione</strong> multip<strong>la</strong> <strong>con</strong> le nuove variabili z os ed x i os e così<br />

via fino a <strong>con</strong>vergenza dell’<strong>algoritmo</strong>.<br />

Canals (van der Burg de Leeuw 1983) un <strong>algoritmo</strong> <strong>per</strong> <strong>la</strong> corre<strong>la</strong>zione canonica,<br />

che <strong>con</strong>sente <strong>la</strong> <strong>regressione</strong> <strong>con</strong> optimal scaling specificando una so<strong>la</strong> variabile nel<br />

se<strong>con</strong>do insieme, è equivalente a Morals <strong>per</strong> il passo di scaling (4) senza richiedere <strong>la</strong><br />

standardizzazione delle variabili indipendenti nel passo di normalizzazione che<br />

inficia <strong>la</strong> <strong>con</strong>vergenza dell’<strong>algoritmo</strong> Morals (Gifi 1981 pag 221).<br />

.<br />

2. La proposta<br />

Partendo dai valori iniziali delle categorie osservate si ottiene una stima iniziale<br />

delle variabili trasformate: z 0 , X 0 =(x 1 0 .....x k 0 ) e si minimizza rispetto a b <strong>la</strong> (3)<br />

tenendo fisse t , y i , attraverso le stime dei minimi quadrati che generano ∧ z :<br />

b = (X 0 ′X 0 ) -1 X 0 ′z 0 ∧<br />

z = X<br />

0<br />

b (5)


4 P.G. LOVAGLIO<br />

Successivamente si stimano i parametri di scaling , <strong>con</strong> b j fissi dal passo precedente,<br />

minimizzando <strong>la</strong> devianza residua di <strong>regressione</strong> SSQ(z 0 -S j x j 0 b j ) riparametrizzata in:<br />

SSQ(G z t - Gy * ) (6)<br />

rispetto a t, y * <strong>con</strong> Gy * = (G 1 y 1 * ,…,G k y k * ) <strong>con</strong> y j * = y j b j .<br />

Le stime di t, y * coerenti <strong>con</strong> i vincoli supposti originano z os =G z t e x j os =G j y j (le<br />

stime di optimal scaling di z, x i ).<br />

De Leeuw (1977) ha dimostrato che <strong>la</strong> minimizzazione del<strong>la</strong> (1) rispetto ai<br />

parametri che rispettano certi vincoli (es. t # , y j # ) può essere ottenuta in un primo<br />

stadio da una stima iniziale non vinco<strong>la</strong>ta (es. t u , y i u ) imponendo successivamente<br />

sulle stime ottenute i vincoli opportuni.<br />

I parametri di scaling y j * delle categorie di ogni x i si possono dunque stimare, dopo<br />

aver fissato i parametri di scaling delle altre k-1 variabili x i (i≠j), <strong>con</strong>dizionatamente<br />

ad una stima iniziale (basic estimate) di z ricavata dalle variabili indipendenti: nel<br />

presente <strong>la</strong>voro il vettore <strong>con</strong>siderato come basic estimate di z è ∧ z =X 0 b il miglior<br />

previsore lineare dei minimi quadrati di z 0 .<br />

La (6) che va minimizzata rispetto a t ed y * si può esprimere come somma di due<br />

addendi:<br />

SSQ(G z t - ∧ z ) + SSQ( ∧ z - Gy * ) + DP (7)<br />

separando in due parti <strong>la</strong> stima dei parametri di optimal scaling: il primo membro va<br />

minimizzato rispetto a t, <strong>con</strong> y * fissato (e il doppio prodotto DP=(G z t - ∧ z )′( ∧ z - Gy * ) si<br />

annul<strong>la</strong> poichè ∧ z =Gy * <strong>per</strong> costruzione) e il se<strong>con</strong>do membro rispetto ad y * (<strong>con</strong> ∧ z<br />

fissato).<br />

Il primo membro del<strong>la</strong> (7) è minimo rispetto a t proiettando ∧ z sulle colonne di G z :<br />

t u = (G z ′G z ) -1 G z ′ ∧ z ⇒ z u = G z t u (8)<br />

Se z è variabile nominale t u = t # , (z u = z os ) se z è invece una variabile ordinale t u deve<br />

rispettare il vincolo di rango delle categorie e t # si ottiene attraverso una <strong>regressione</strong><br />

monotona di t u su t 0 (Kruskal, 1964).<br />

La stima di z os <strong>con</strong> <strong>la</strong> <strong>regressione</strong> monotona ha <strong>la</strong> seguente proprietà:<br />

SSQ(z os - ∧ z ) ≤ SSQ(z u - ∧ z ) (9)<br />

cioè z os minimizza SSQ(z- ∧ z ) rispetto a tutti i vettori z˛C z , anche rispetto a z u <strong>la</strong><br />

“basic estimate” di z, (Barlow et al. 1972) ed inoltre:<br />

4


UN ALGORITMO REGRESSIONE 5<br />

Σ i φ(z i os - ∧ z i ) ≤ Σ i φ(z i - ∧ z i ) ∀ z ∈ C z (10)<br />

<strong>per</strong> ogni φ <strong>con</strong>vessa (es. φ = || . || P , Malmgren, 1972).<br />

Proseguendo nel passo di scaling, va minimizzato il se<strong>con</strong>do membro del<strong>la</strong> (7);<br />

una soluzione naturale <strong>per</strong> y u sarebbe:<br />

y u = (G¢G) -1 G′ ∧ z (11)<br />

ma non è una strada <strong>per</strong>corribile <strong>per</strong>chè i vettori colonna in G sono linearmente<br />

dipendenti, rendendo G¢G non invertibile. La matrice a blocchi G′G è il corrispettivo<br />

del<strong>la</strong> matrice di covarianza <strong>per</strong> variabili <strong>categoriali</strong> poiché nei blocchi diagonali essa<br />

evidenzia <strong>la</strong> struttura categoriale di ogni variabile categoriale (G j ′G j ) e nei blocchi<br />

esterni <strong>la</strong> struttura incrociata di ogni coppia di variabili (G i ′G j ).<br />

<strong>Un</strong>a <strong>regressione</strong> <strong>con</strong> variabili dummy <strong>con</strong> intercetta, eliminando una colonna <strong>per</strong> ogni<br />

variabile indipendente nelle matrici G j , rende comunque i parametri stimati non<br />

<strong>con</strong>frontabili <strong>con</strong> y nel<strong>la</strong> (6). Nè è efficiente l'utilizzo di D=diag(C), ignorando <strong>la</strong><br />

struttura di ogni coppia di variabili esplicative (ponendo i blocchi esterni di C uguali<br />

a zero).<br />

La soluzione proposta <strong>per</strong> stimare ogni y j * <strong>con</strong>siste nel proiettare ∧ z su x 1 0 , ..x j-1 0 ,<br />

x j+1 0 .. x k 0 (=X -j ):<br />

ed ottenere il vettore:<br />

∧<br />

z -j = b 1 x 1 0 +.…+ b j-i x j-1<br />

0<br />

+ b j+1 x j+1<br />

0<br />

+…+ b k x k 0 = X -j b -j (12)<br />

∧<br />

z j = ∧ z - ∧ z -j (13)<br />

dove ∧ z j è il <strong>con</strong>tributo da parte di x j . 0 (di x j<br />

0<br />

cioè al netto di X -j ) al<strong>la</strong> stima di ∧ z .<br />

Tale vettore è scomposto in k termini ortogonali <strong>per</strong> costruzione:<br />

∧<br />

z = Σ j<br />

∧<br />

z j = Σ j P j<br />

∧<br />

z Σj P j = I, P j P i = P j P i =0 (14)<br />

dove P j è <strong>la</strong> matrice di proiezione ortogonale generata da x j . (di x j al netto delle<br />

corre<strong>la</strong>zioni tra x j ed X -j ). Il se<strong>con</strong>do termine del<strong>la</strong> (7) può essere espressa allora<br />

come:<br />

SSQ( ∧ z -Gy * ) = SSQ (Σ j<br />

∧<br />

z j -Σ j G j y j b j ) = Σ j SSQ( ∧ z j - G j y j b j ) + Σ ij a ij (15)


6 P.G. LOVAGLIO<br />

dove a ij tiene <strong>con</strong>to di tutti i doppi prodotti tra gli elementi <strong>con</strong> indici (i, j).<br />

Le soluzioni di y j u (non vinco<strong>la</strong>te di y j<br />

#<br />

) che minimizzano singo<strong>la</strong>rmente i termini<br />

SSQ( ∧ z j - G j y j b j ) nel<strong>la</strong> parte finale del<strong>la</strong> (15) sono ottenute proiettando ∧ z j sullo spazio<br />

generate dalle rispettive matrici indicatore G j ,<br />

y j u = b j -1 (G j ′G j ) -1 G j ′ ∧ z j ⇒ G j y j u = b j -1 P cj<br />

∧<br />

z j ∀x j (16)<br />

dove P cj il proiettore corrispondente di G j , lo spazio generatore di x j.<br />

Si dimostrerà che le soluzioni y j u minimizzano <strong>con</strong>giuntamente <strong>la</strong> (15).<br />

Proposizione 1<br />

Le soluzioni y j u (t.c. G j y j u = b j -1 P cj<br />

∧<br />

z j ) che minimizzano il j-esimo termine di<br />

SSQ( ∧ z j - G j y j ) dell’ultimo membro del<strong>la</strong> (15) minimizzano anche SSQ (Σ j<br />

∧<br />

z j -Σ j G j y j )<br />

= SSQ( ∧ z - Gy * ).<br />

Dimostrazione<br />

Basta far vedere che tutti i termini a ij nel<strong>la</strong> (15) si annul<strong>la</strong>no.<br />

Poiché <strong>per</strong> <strong>la</strong> natura discreta dei punteggi di x j . (<strong>con</strong>tributo di x j al netto di X -j al<strong>la</strong><br />

spiegazione di ∧ z <strong>con</strong> proiettore P j ) esiste sempre un vettore g tale che x j . =G j g, dove<br />

G j rappresenta lo spazio generatore (S) del<strong>la</strong> variabile categoriale grezza x j <strong>con</strong><br />

proiettore P cj , allora:<br />

x j . ˛S(G j ) ⇒ S(x j .) ⊂ S(G j ) ⇒ P cj P j = P j P cj =P j (17)<br />

(Takeuchi et al. 1982 pag. 31). Allora <strong>con</strong>siderando l’i-esimo e il j-esimo termine<br />

nel<strong>la</strong> (15) si annul<strong>la</strong>no tutti i prodotti incrociati:<br />

∧<br />

z j ′ ∧ z i = 0 <strong>per</strong> <strong>la</strong> (14),<br />

∧<br />

z j ′ G i y i = ∧ z j ′ P ci<br />

∧<br />

z i = (P j<br />

∧<br />

z)′ Pci<br />

∧<br />

z i = ∧ z ′P j P ci P i<br />

∧<br />

z =<br />

∧<br />

z ′Pj P i<br />

∧<br />

z = 0 <strong>per</strong> <strong>la</strong> (17): ∀i≠j<br />

(G j y j )′G i y i = (P cj<br />

∧<br />

z j )′ P ci<br />

∧<br />

z i = (P cj P j<br />

∧<br />

z )′Pci P i<br />

∧<br />

z =<br />

∧<br />

z ′Pj P i<br />

∧<br />

z = 0 (18)<br />

C.V.D.<br />

Come si nota da (os. 2) i parametri di optimal scaling <strong>per</strong> ogni x j sono ottenuti<br />

separatamente in ognuno dei k termini SSQ( ∧ z j -G j y j ), <strong>per</strong>ché il vettore y * è reso<br />

separabile nelle sue componenti.<br />

In questo modo i vettori di scaling così stimati tengono <strong>con</strong>to delle interazioni tra<br />

coppie di variabili <strong>categoriali</strong>.<br />

Se <strong>la</strong> variabile in questione è nominale y i<br />

u<br />

= y i # se è ordinale, analogamente al<br />

discorso <strong>per</strong> z os , y # si ottiene attraverso una <strong>regressione</strong> monotona delle y j u sulle y j 0 .<br />

6


UN ALGORITMO REGRESSIONE 7<br />

<strong>Un</strong>a volta ottenute z os ed x j os si applica successivamente una <strong>regressione</strong> multip<strong>la</strong>,<br />

minimizzando <strong>la</strong> (1) rispetto ai b, <strong>con</strong> t # , y j # fissati, e così via, fino al<strong>la</strong> <strong>con</strong>vergenza<br />

dell’<strong>algoritmo</strong> che è assicurata (de Leeuw, 1973).<br />

3. Osservazioni<br />

a) Come <strong>la</strong> filosofia Als suggerisce (Young 1981), le stime trovate in uno stadio<br />

<strong>per</strong> un sottinsieme di parametri, andrebbero sostituite nel passo successivo <strong>per</strong><br />

ottenere le stime dell’altro sottinsieme; <strong>la</strong> stima z os andrebbe sostituita nel<strong>la</strong> (15) <strong>per</strong><br />

ricavare i pesi di scaling y j , ottenendo stime dei parametri di scaling probabilmente<br />

differenti. (Lo stesso problema si presenta in Morals e Canals <strong>per</strong> <strong>la</strong> stima dei<br />

punteggi delle variabili indipendenti ricavate dal<strong>la</strong> (4) in cui ogni variabile stimata<br />

x os u<br />

j andrebbe immediatamente sostituita nel<strong>la</strong> (4) <strong>per</strong> ricavare le altre x i <strong>con</strong> i ≠j)<br />

b) La (8) e <strong>la</strong> (16) <strong>per</strong> variabili nominali implicano che le quantificazioni delle<br />

categorie (t) di z coincidono <strong>con</strong> <strong>la</strong> media dei valori previsti dal modello <strong>per</strong> z, in<br />

∧<br />

altre parole t a è <strong>la</strong> media dei valori z dei soggetti che rientrano nel<strong>la</strong> categoria a,<br />

mentre <strong>la</strong> quantificazione del<strong>la</strong> categoria a del<strong>la</strong> variabile x j (y ja ) è uguale al<strong>la</strong> media<br />

dei valori di ∧ z j che corrispondono al<strong>la</strong> categoria a in x j .<br />

La (os. 2) mostra che <strong>la</strong> stima di x j u coincide <strong>con</strong> <strong>la</strong> proiezione di ∧ z j sulle colonne di<br />

G j . Se z è <strong>con</strong>tinua (o lo sono alcune variabili indipendenti) i punteggi di tali variabili<br />

restano costanti durante tutto l’<strong>algoritmo</strong>, evitando <strong>la</strong> fase di optimal scaling (z os = z,<br />

x os = x).<br />

c) La metodologia <strong>per</strong> ottenere le stime di optimal scaling è coerente <strong>con</strong> il<br />

problema di minimo del modello poichè le stime dei parametri di scaling y j u sono<br />

ottenute riducendo ulteriormente <strong>la</strong> devianza residua (DR) che il modello di<br />

<strong>regressione</strong> <strong>la</strong>scia dopo <strong>la</strong> stima dei pesi b del primo stadio:<br />

DR = SSQ(z 0 - Σ j x j<br />

0<br />

b j ) = SSQ(z 0 - ∧ z ) ≥ SSQ(z os - ∧ z ) + Σ j SSQ( ∧ z j - x j os ) (19)<br />

poiché nel<strong>la</strong> (9) emerge che, sia nel passo di stima di z os sia di x j os :<br />

SSQ(z os - ∧ z ) ≤ SSQ(z 0 - ∧ z ) & SSQ( ∧ z j - x j os ) ≤ SSQ( ∧ z j - x j 0 ) (20)<br />

Mentre il residuo viene minimizzato nel passo di stima di z u ed x u j (e ulteriormente<br />

<strong>per</strong> variabili ordinali nel passo di <strong>regressione</strong> monotona in z os ed x os j ), nell’<strong>algoritmo</strong><br />

Morals, invece, <strong>la</strong> riduzione del residuo avviene solo nel passo di normalizzazione di<br />

x u i in x os i , dove le x u<br />

j sono ricavate dall’identità (4) senza alcuna riduzione del<strong>la</strong><br />

devianza residua.


8 P.G. LOVAGLIO<br />

Infine il presente <strong>algoritmo</strong> <strong>con</strong>sente <strong>la</strong> <strong>regressione</strong> tra <strong>dati</strong> misti (quantitativi e<br />

<strong>categoriali</strong>) di qualsiasi tipo (nominale, ordinale), mentre Canals non ammette<br />

variabili <strong>con</strong>tinue oltre ad avere gli stessi limiti di Morals nel passo di scaling.<br />

d) Ignorare <strong>la</strong> struttura di covarianza delle variabili indipendenti nel passo di<br />

scaling, dato che Morals ne tiene <strong>con</strong>to solo nel passo di stima di b, limita<br />

fortemente l'analisi. Tale problema viene risolto nell’<strong>algoritmo</strong> proposto <strong>con</strong> <strong>la</strong> teoria<br />

dei proiettori (Takeuchi et al. 1982), scindendo il previsore lineare dei minimi<br />

∧<br />

quadrati z , che tiene <strong>con</strong>to del<strong>la</strong> corre<strong>la</strong>zione tra z 0 e <strong>la</strong> struttura di covarianza tra le<br />

k(k-1)/2 coppie di variabili <strong>categoriali</strong>, in k componenti ortogonali ∧ z j .<br />

4. <strong>Un</strong>a Applicazione<br />

La tecnica proposta è stata applicata ad un collettivo di 190 studenti universitari<br />

estratti casualmente dal<strong>la</strong> popo<strong>la</strong>zione di studenti residenti nel 1999 nelle residenze<br />

universitarie dell’<strong>Un</strong>iversità di Bologna.<br />

Alle unità statistiche si è somministrato un questionario <strong>con</strong> item ordinali, su sca<strong>la</strong><br />

Likert a sette gradi, (1 indica completo disaccordo, 7 completo accordo <strong>con</strong> ogni<br />

item) <strong>per</strong> testare <strong>la</strong> soddisfazione dei residenti dopo un anno trascorso nel<strong>la</strong> residenza<br />

universitaria. La variabile dipendente (X1) è l’item “soddisfazione”, mentre le<br />

variabili indipendenti (X2….X8) riguardano gli item:<br />

X2= “in questo collegio ho sviluppato una buona capacità re<strong>la</strong>zionale”<br />

X3= “in questo collegio mi sento sicuro”<br />

X4= “sono costantemente aiutato nello studio”<br />

X5= ”in collegio ho trovato difficoltà nello studio”<br />

X6= “il direttore è sensibile alle mie richieste”<br />

X7= “<strong>la</strong> qualità del<strong>la</strong> mensa è buona”<br />

X8= “<strong>la</strong> stanza è <strong>con</strong>fortevole”<br />

Tutte le variabili sono di natura ordinale e vanno trasformate in modo da<br />

minimizzare <strong>la</strong> devianza residua; l’output dell’<strong>algoritmo</strong> restituisce i coefficienti di<br />

<strong>regressione</strong> stimati, i re<strong>la</strong>tivi standard error, (Tab.II) e i parametri di scaling che<br />

vengono proiettati sulle categorie iniziali del questionario (Figura1) definendo <strong>la</strong><br />

trasformazione ottima <strong>per</strong> ogni item.<br />

Tab.I mostra il numero di iterazioni prima del<strong>la</strong> <strong>con</strong>vergenza dell’<strong>algoritmo</strong>. Il<br />

valore di R 2 =0.5 e i coefficienti stimati mostrano che le uniche informazione<br />

“prevedibili” sui segni dei coefficiente di <strong>regressione</strong> (negativo di X5 e positivo <strong>per</strong><br />

le altre variabili) sono rispettate. <strong>Un</strong>a analoga <strong>regressione</strong> lineare, trattando le<br />

categorie come punteggi restituisce R 2 =0.36.<br />

8


UN ALGORITMO REGRESSIONE 9<br />

3<br />

3<br />

2<br />

2<br />

1<br />

1<br />

0<br />

Quantificazione di X7<br />

0<br />

-1<br />

1<br />

X7<br />

2<br />

3<br />

4<br />

5<br />

6<br />

7<br />

Quantificazione di X8<br />

-1<br />

-2<br />

-3<br />

-4<br />

1<br />

X8<br />

2<br />

3<br />

4<br />

5<br />

6<br />

7<br />

1.5<br />

1.5<br />

1.0<br />

1.0<br />

.5<br />

.5<br />

0.0<br />

0.0<br />

-.5<br />

-.5<br />

-1.0<br />

T(X1)<br />

-1.5<br />

-2.0<br />

1<br />

X1<br />

2<br />

3<br />

4<br />

5<br />

6<br />

7<br />

T(X2)<br />

-1.0<br />

-1.5<br />

1<br />

X2<br />

2<br />

3<br />

4<br />

5<br />

6<br />

7<br />

1.0<br />

1.5<br />

.5<br />

1.0<br />

0.0<br />

.5<br />

0.0<br />

-.5<br />

-.5<br />

-1.0<br />

-1.0<br />

-1.5<br />

-1.5<br />

T(X5)<br />

-2.0<br />

-2.5<br />

1<br />

2<br />

3<br />

4<br />

5<br />

6<br />

7<br />

T(X6)<br />

-2.0<br />

1<br />

X6<br />

2<br />

3<br />

4<br />

5<br />

6<br />

7<br />

X5<br />

Figura 1: Quantificazione ottima di X1, X2, X5, X6, X7, X8


10 P.G. LOVAGLIO<br />

Tab. I: Iterazioni<br />

Tab II: Stima dei parametri<br />

ITERAZIONI R 2 VARIABILE STIMA STD. ERR.<br />

1<br />

2<br />

3<br />

4<br />

5<br />

6<br />

7<br />

8<br />

0.36277<br />

0.50130<br />

0.50819<br />

0.50918<br />

0.50934<br />

0.50936<br />

0.50937<br />

0.50937<br />

Intercetta 1.251<br />

0.45073<br />

X2 0.2343<br />

0.05592<br />

X3 0.1455<br />

0.05266<br />

X4 0.1001<br />

0.04917<br />

X5 -0.1288<br />

0.04714<br />

X6 0.2143<br />

0.04428<br />

X7 0.0985<br />

0.04623<br />

X8 0.1728 0.05915<br />

La stima di X1 attraverso i previsori <strong>per</strong>mette di c<strong>la</strong>ssificare e/o costruire graduatorie tra individui,<br />

applicando un qualsiasi metodo di clustering al<strong>la</strong> distribuzione dei valori previsti <strong>per</strong> X1 (es. <strong>con</strong> i<br />

quantili a se<strong>con</strong>da del numero di gruppi che si vogliono creare).<br />

In questo modo <strong>la</strong> variabile dipendente è a tutti gli effetti una variabile <strong>con</strong>tinua utilizzabile in<br />

analisi successive e può essere <strong>con</strong>cepita come <strong>la</strong> stima di una variabile <strong>la</strong>tente (di cui si <strong>con</strong>osce una<br />

sua approssimazione grezza) attraverso un insieme di indicatori esplicativi.<br />

BIBLIOGRAFIA<br />

Barlow R., Bartolomew D.J., Bremner J.M., Brunck H.D.(1972). Statistical Inference under<br />

Order Restrictions, Wiley N.Y.<br />

De Leeuw J. (1977) Normalized <strong>con</strong>e regression, Datatheory, Leiden O<strong>la</strong>nda<br />

Gifi A. (1981). Nonlinear Multivariate Analysis, 1981, Departement of data Theory, <strong>Un</strong>iversity of<br />

Leiden, The Nether<strong>la</strong>nds.<br />

Kruskal J.B. (1965). Analysis of factorial ex<strong>per</strong>iments by estimating monotone trasformations of<br />

the data, Journal of Royal Statistical Society, Series B,27, 251-263<br />

Malmgren E. (1972). Contributions to the estimation of ordered parameters, Ph.D. thesis,<br />

Departement of statistics, <strong>Un</strong>iversity of Iowa.<br />

Takeuchi K., Yanai H., Mukherjee B.N., (1982). The Foun<strong>dati</strong>ons of Multivariate Analysis, A<br />

<strong>Un</strong>ified approach by means of projection onto linear subspaces, Wiley Eastern Limited.<br />

Young F., (1981). Quantitative Analysis of Qualitative data, Psychometrika, 46, 357-388<br />

Young F., De Leeuw J., Takane W. (1976). Regression with Qualitative and Quantitative<br />

Variables: an Alternating Least Squares with Optimal Scaling Features, Psychometrika, 41, 505-529<br />

10


UN ALGORITMO REGRESSIONE 11

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!