13.11.2014 Views

Un algoritmo per la regressione multipla con dati categoriali

Un algoritmo per la regressione multipla con dati categoriali

Un algoritmo per la regressione multipla con dati categoriali

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

6 P.G. LOVAGLIO<br />

dove a ij tiene <strong>con</strong>to di tutti i doppi prodotti tra gli elementi <strong>con</strong> indici (i, j).<br />

Le soluzioni di y j u (non vinco<strong>la</strong>te di y j<br />

#<br />

) che minimizzano singo<strong>la</strong>rmente i termini<br />

SSQ( ∧ z j - G j y j b j ) nel<strong>la</strong> parte finale del<strong>la</strong> (15) sono ottenute proiettando ∧ z j sullo spazio<br />

generate dalle rispettive matrici indicatore G j ,<br />

y j u = b j -1 (G j ′G j ) -1 G j ′ ∧ z j ⇒ G j y j u = b j -1 P cj<br />

∧<br />

z j ∀x j (16)<br />

dove P cj il proiettore corrispondente di G j , lo spazio generatore di x j.<br />

Si dimostrerà che le soluzioni y j u minimizzano <strong>con</strong>giuntamente <strong>la</strong> (15).<br />

Proposizione 1<br />

Le soluzioni y j u (t.c. G j y j u = b j -1 P cj<br />

∧<br />

z j ) che minimizzano il j-esimo termine di<br />

SSQ( ∧ z j - G j y j ) dell’ultimo membro del<strong>la</strong> (15) minimizzano anche SSQ (Σ j<br />

∧<br />

z j -Σ j G j y j )<br />

= SSQ( ∧ z - Gy * ).<br />

Dimostrazione<br />

Basta far vedere che tutti i termini a ij nel<strong>la</strong> (15) si annul<strong>la</strong>no.<br />

Poiché <strong>per</strong> <strong>la</strong> natura discreta dei punteggi di x j . (<strong>con</strong>tributo di x j al netto di X -j al<strong>la</strong><br />

spiegazione di ∧ z <strong>con</strong> proiettore P j ) esiste sempre un vettore g tale che x j . =G j g, dove<br />

G j rappresenta lo spazio generatore (S) del<strong>la</strong> variabile categoriale grezza x j <strong>con</strong><br />

proiettore P cj , allora:<br />

x j . ˛S(G j ) ⇒ S(x j .) ⊂ S(G j ) ⇒ P cj P j = P j P cj =P j (17)<br />

(Takeuchi et al. 1982 pag. 31). Allora <strong>con</strong>siderando l’i-esimo e il j-esimo termine<br />

nel<strong>la</strong> (15) si annul<strong>la</strong>no tutti i prodotti incrociati:<br />

∧<br />

z j ′ ∧ z i = 0 <strong>per</strong> <strong>la</strong> (14),<br />

∧<br />

z j ′ G i y i = ∧ z j ′ P ci<br />

∧<br />

z i = (P j<br />

∧<br />

z)′ Pci<br />

∧<br />

z i = ∧ z ′P j P ci P i<br />

∧<br />

z =<br />

∧<br />

z ′Pj P i<br />

∧<br />

z = 0 <strong>per</strong> <strong>la</strong> (17): ∀i≠j<br />

(G j y j )′G i y i = (P cj<br />

∧<br />

z j )′ P ci<br />

∧<br />

z i = (P cj P j<br />

∧<br />

z )′Pci P i<br />

∧<br />

z =<br />

∧<br />

z ′Pj P i<br />

∧<br />

z = 0 (18)<br />

C.V.D.<br />

Come si nota da (os. 2) i parametri di optimal scaling <strong>per</strong> ogni x j sono ottenuti<br />

separatamente in ognuno dei k termini SSQ( ∧ z j -G j y j ), <strong>per</strong>ché il vettore y * è reso<br />

separabile nelle sue componenti.<br />

In questo modo i vettori di scaling così stimati tengono <strong>con</strong>to delle interazioni tra<br />

coppie di variabili <strong>categoriali</strong>.<br />

Se <strong>la</strong> variabile in questione è nominale y i<br />

u<br />

= y i # se è ordinale, analogamente al<br />

discorso <strong>per</strong> z os , y # si ottiene attraverso una <strong>regressione</strong> monotona delle y j u sulle y j 0 .<br />

6

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!