Dipartimento di Statistica, Probabilità e Statistiche ... - Sapienza
Dipartimento di Statistica, Probabilità e Statistiche ... - Sapienza
Dipartimento di Statistica, Probabilità e Statistiche ... - Sapienza
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
<strong>Dipartimento</strong> <strong>di</strong> <strong>Statistica</strong>, <strong>Probabilità</strong> e <strong>Statistiche</strong> Applicate<br />
Università <strong>di</strong> Roma "La <strong>Sapienza</strong>"<br />
Grazia Di Bella<br />
Relazioni non lineari asimmetriche<br />
e calibrazione multivariata<br />
Roma -febbraio 1995
Dottorato <strong>di</strong> Ricerca in <strong>Statistica</strong> Metodologica<br />
VII ciclo (1991 ..1994)<br />
Relazioni non lineari asimmetriche<br />
e calibrazione multivariata<br />
Grazia Di Bella<br />
,',<br />
<strong>Dipartimento</strong> <strong>di</strong> <strong>Statistica</strong>, <strong>Probabilità</strong> e <strong>Statistiche</strong> Applicate'<br />
Università degli Stu<strong>di</strong> <strong>di</strong> Roma lILa <strong>Sapienza</strong>"
Desidero ringraziare tutti coloro che con i loro consigli hanno' contribuito al<br />
compimento della tesi. Inoltre ringrazio il pro! R. Coppi, supervisore della tesi, il pro! L.<br />
Piccinato, coor<strong>di</strong>natore del corso <strong>di</strong> Dottorato in <strong>Statistica</strong> Metodologica, il pro! G. Bave e<br />
il dotto C. J. F. ter Braak dell'Agricultural Mathematics Group (Wageningen, Olanda) per gli<br />
incoraggiamenti e le interessanti <strong>di</strong>scussioni.
In<strong>di</strong>ce<br />
Introduzione l<br />
1. Metodologie per lo stu<strong>di</strong>o delle relazioni lineari asimmetriche tra due<br />
insiemi <strong>di</strong> variabili quantitative 3<br />
1.1. Analisi in Componenti Principali con variabili strumentali 4<br />
2. Metodologie per lo stu<strong>di</strong>o delle relazioni non lineari asimmetriche tra due<br />
insiemi <strong>di</strong> variabili qu.antitative 9<br />
2.1. Optimal scaling e REDUNDALS 9<br />
2.2. Regressione non parametrica Il<br />
2.2.1. Stimatore smoothing spline 13<br />
2.2.1.1. Scelta del parametro <strong>di</strong> smoothing 18<br />
2.2.2. Stimatore spline dei minimi. quadrati 20<br />
2.2.3. Il caso dei caratteri qualitativi 24<br />
2.2.4. L'approccio non parametrico e l'Optimal Scaling 25<br />
2.2.5. Modelli multivariati 26<br />
2.2.5.1. Estensioni multivariate degli stimatori spline 27<br />
2.2.5.2. Modelli ad<strong>di</strong>tivi 30<br />
2.3. Modelli multivariati e multirisposta 32<br />
2.3.1. Spline-PCAIV e spline-RDA 33<br />
2.3.2. 'Sinoothing spline-RDA 36<br />
pag
2.2.5.1. Estensioni multivariate degli stimatori spline 27<br />
2.2.5.2. Modelli ad<strong>di</strong>tivi 30<br />
2.3. Modelli multivariati emultirisposta 32<br />
2.3.1. Spline-PCAIV e spline-RDA 33<br />
2.3.2. Smoothing spline-RDA 36<br />
3. Una nuova proposta per un problema <strong>di</strong> calibrazione multivariata vincolata 39<br />
3.1. Un problema <strong>di</strong> calibrazione multivariata lineare vincolata 41<br />
3.2. Calibrazione multivariata estimatori regression spline 50<br />
3.3. Calibrazione e modelli lineari generalizzati non parametrici 54<br />
3.3.1 Il caso univariato 55<br />
3.3.2 Il caso multivariato ad<strong>di</strong>tivo 63<br />
3.4. Un esempio con dati simulati 68<br />
Bibliografia 73<br />
",.
Si è tentato <strong>di</strong> awicinare e confrontare le due impostazioni, quella della regressione<br />
non parametrica multivariata e multirisposta e quella dell'analisi non lineare dei dati<br />
nell'ambito dell'analisi canonica asimmetrica, .cercando <strong>di</strong> interpretare e giustificare le<br />
procedure <strong>di</strong> trasformazione e quantificazione dell'Optimal Scaling. Dalle considerazioni<br />
effettuate è scaturito un nuovo metodo <strong>di</strong> analisi canonica asimmetrica non lineare<br />
denominato smoothing spline -RDA.<br />
Nella seconda parte della tesi si affronta un problema <strong>di</strong> calibrazione multivariata<br />
vincolata; questo può essere considerato come un problema <strong>di</strong> stu<strong>di</strong>o delle relazioni<br />
asimmetriche tra due insiemi <strong>di</strong> variabili. Si è utilizzato un approccio originale secondo il<br />
quale la fase <strong>di</strong> costruzione del modello <strong>di</strong> calibrazione coivolge tutti i dati <strong>di</strong>sponibili e<br />
non solo i cosiddetti training data, le stime si ottengono attraverso procedure dei minimi<br />
quadrati alternati e sue generalizzazioni.<br />
2
dove Al = UAcontiene i punteggi delle unità e A 2 = V i pesi delle variabili. Le matrici<br />
ortonormali U, Vela matrice <strong>di</strong>agonale A derivano dalla decomposizione in valori<br />
singolari (SVD) della matrice V<br />
V=U A V'<br />
Se ora imponiamo che i punteggi delle unità siano funzione lineare dell'insieme <strong>di</strong><br />
variabili esplicative Z<br />
Al =ZC+E<br />
con il vincolo che la-matrice C'Z'ZC sia <strong>di</strong>agonale, avremo<br />
1\<br />
c = (Z'Z)-l Z' Al = .{Z'Z)-l Z' UA.<br />
f\<br />
V = ZC A 2 ' = Z (Z'Z)-l Z' UAV' = Z (Z'Z)-l Z' V V V'<br />
(1.1)<br />
(1.2)<br />
Volendo considerare un numero <strong>di</strong> componenti r
Si può verificare che la soluzione precedentemente trovata sod<strong>di</strong>sfa tale equazione.<br />
A A<br />
Infatti sostituendo nella (1.5) respressione <strong>di</strong> c h prima colonna della matrice C definita<br />
nella (1.2) owero<br />
A<br />
CI =(Z'Z)-I Z' À.IUI =(Z'Z)-I Z' Y vI<br />
si ha<br />
(Z'Z)-IZ'YY'Z (Z'Z)-I Z' YVI = Il (Z'Z)-I Z' YVI<br />
ma<br />
A A<br />
y'Z (Z'Z)-I Z' Y VI = Y'Y vI =À.IVI<br />
e si ottiene l'uguaglianza desiderata con Il = 1... 1<br />
Il problema proposto da van den Wollenberg (1977) per la soluzione dell'RDA è:<br />
Elaborando la fo.<br />
max Lk r 2 (Yk, Zc)<br />
c'Z'Zc=l<br />
Lk r 2 (Yk, Zc) = Lk I1n 2 (Yk',Zc)2 = I1n211 Yk' Zc Il 2 = 1/n 2 c'Z'vy'Zc<br />
si ottiene lo stesso problema (1.4) formulato da Rao.<br />
D'Ambra e Lauro (1992) forniscono un'altra interpretazione. Una volta proiettata<br />
la matrice Y sullo spazio generato dalle colonne linearmente in<strong>di</strong>pendenti <strong>di</strong> Z, si cerca<br />
la combinazione lineare Z(Z'Z)-IZ'Yv <strong>di</strong> varianza massima, owero<br />
max v' (l/n v'Y'Z(Z'Z)-IZ'Yv) V<br />
v'v =1<br />
Anche in questo caso è imme<strong>di</strong>ato verificare che la soluzione per v è fornita dal primo<br />
A A<br />
autovettore della matrice Y' Y .<br />
Nel problema proposto da Escoufier (1987) sono esplicitate le metriche Q e D<br />
adottate rispettivamente nello spazio delle unità e nello spazio delle variabili. Si cerca la<br />
metrica R per le variabili esplicative Z, tale che la <strong>di</strong>stanza tra gli operatori caratteristici<br />
<strong>di</strong> rappresentazione delle unità sia minima<br />
7
La soluzione si ottiene con<br />
R = (Z'DZ)-l Z'DYQY'DZ(Z'DZ)-l<br />
min Il YQY'D - ZRZ'DII 2<br />
ed effettuando un'ACP sulla tema (Z,D,R) owero <strong>di</strong>agonalizzando la seguente matrice<br />
ZRZ'D = Z(Z'DZ)-l Z'DYQY'DZ(Z'DZ)-IZ'D<br />
A<br />
che può essere letta come il prodotto scalare pesato tra le colonne <strong>di</strong> Y.<br />
Tale elenco, non esaustivo, ha il solo scopo <strong>di</strong> descrivere la richezza interpretativa<br />
del metodo e <strong>di</strong> mettere in luce la natura lineare delle relazioni esplorate dal modello<br />
dell'RDA. Spesso, però, è necessario <strong>di</strong>sporre <strong>di</strong> strumenti che siano in grado <strong>di</strong><br />
in<strong>di</strong>viduare relazioni più complesse. A tale scopo è de<strong>di</strong>cato il prossimo capitolo.<br />
8
Least Squares) ha dato l'awio alla serie <strong>di</strong> meto<strong>di</strong> <strong>di</strong> analisi dei dati raccolti sotto la sigla<br />
ALSOS. Tali meto<strong>di</strong> permettono <strong>di</strong> generalizzare le più classiche tecniche multilineari al<br />
caso <strong>di</strong> caratteri con livello <strong>di</strong> misura <strong>di</strong>somogeneo (Gifi, 1990).<br />
Le variabili quantitative, con livello <strong>di</strong> misura numerico, sono anch'esse trasformate, in<br />
modo parametrico, o attraverso funzioni polinomiali, riproducendo in tal caso il modello<br />
lineare, o attraverso basi <strong>di</strong> spline. La loro trattazione risulta comunque marginale<br />
rispetto al ruolo centrale giocato dalle variabili qualitative.<br />
Per lo stu<strong>di</strong>o delle relazioni asimmetriche e non lineari tra due insiemi <strong>di</strong> variabili<br />
miste van den Burg e de Leeuw (1990), nell'ottica delle procedure ALSOS, propongono<br />
una generalizzazione della RDA in cui è possibile considerare anche variabili qualitative.<br />
A tale scopo vengono introqotte delle quantificazioni/trasformazioni, sia delle variabili<br />
esplicative che delle variabili risposta, ottime nel senso dell'Optimal Scaling. Il problema<br />
viene formalizzato nel seguente modo.<br />
Determinare le trasformazioni ottime T I e T 2 rispettivamente delle variabili Y e Z e la<br />
matrice dei parametri del modello A che minimizzano la seguente funzione obiettivo<br />
tr (TI - T2A)'(TI - T2A) /nm<br />
con i vincoli<br />
.. T I e T2 appartenenti all'insieme delle possibili quantificazioni/trasformazioni;<br />
.. rango(A) ::::; r, tale vincolo equivale a porre la seguente fattorizzazione A = FG' con<br />
F matrice <strong>di</strong> or<strong>di</strong>ne (p,r) e G <strong>di</strong> or<strong>di</strong>ne (m,r);<br />
.. F' T2'T2 F = nI<br />
Quest'ultimo vincolo <strong>di</strong> normalizzazione è necessario per la determinazione univoca delle<br />
matrici F e G.<br />
L'insieme delÌe possibili quantificazioni/trasformazioni è, nella. pratica, definito nel<br />
seguente modo<br />
tlk = Gt
Chiudendo questa pàrentesi bibliografica, introduciamo gli elementi necessari per la<br />
determinazione della soluzione dell'espressione (2.2) riportando brevemente le<br />
definizioni <strong>di</strong> funzione spline e <strong>di</strong> funzione natural spline (per maggiori approfon<strong>di</strong>menti<br />
si veda De Boor, 1978).<br />
Una spline <strong>di</strong> or<strong>di</strong>ne r con no<strong>di</strong> nei punti çh...,çk è una funzione che ha le seguenti<br />
proprietà:<br />
(i) è un polinomio <strong>di</strong> or<strong>di</strong>ne r in ogni subintervallo [çi, çi+l)<br />
(ii) ha r-2 derivate continue<br />
(iii) l'(r-l)-sima derivata è una funzione a gra<strong>di</strong>ni con salti in çl,...,çk<br />
In forma parametrica può essere scritta nel seguente modo<br />
{ O se x ...,çk' in<strong>di</strong>cato con sr(ç}>".,ç0, costituisce uno spazio vettoriale <strong>di</strong> <strong>di</strong>mensione (r+k);<br />
la rappresentazione (2.3) utilizza la base dello spazio definita serie <strong>di</strong> potenze troncata.<br />
Una natural spHne <strong>di</strong> or<strong>di</strong>ne r=2m e k no<strong>di</strong> nei punti çl,...',çk è una spline con la·<br />
proprietà aggiuntiva:<br />
(iv) è un polinomio <strong>di</strong> or<strong>di</strong>ne m al <strong>di</strong> fuori dell'intervallo [çhçkl<br />
14
e matrice <strong>di</strong> varianze e covarianze<br />
L = ì.,Q + 0'-2 8'S<br />
inoltre si ha che<br />
-2 0'2 log p(y!y,O'2) = ±[Yi -f(Xi)]2 +ì.,J(f(ID)(X»)2 dx<br />
i=l a<br />
owero illog della funzione a posteriori è proporzionale alla funzione dei minimi quadrati<br />
penalizzata. Quin<strong>di</strong> lo stimatore smoothing spline risulta essere la me<strong>di</strong>a ed il massimo<br />
della funzione <strong>di</strong> <strong>di</strong>stribuzione a posteriori così costruita. Si noti che la <strong>di</strong>stribuzione a<br />
priori è parzialmente impropria poichè la matrice Q , definita non negativa e simmetrica,<br />
ha due autovalori pari a zero. Tale interpretazione permette <strong>di</strong> considerare utili strumenti<br />
inferenziali (Eubank, 1988, pp.233-267).<br />
Senza soifermarci sui problemi computazionali relativi allo stimatore smoothing<br />
spline, <strong>di</strong>remo solo che un'opportuna scelta della base (Sl> ...,sn) da utilizzare per il<br />
calcolo dello stimatore permette <strong>di</strong> ridurre il numero <strong>di</strong> operazioni. In particolare .<br />
utilizzando come basi le cosiddette B-spline la soluzione si ottiene in un numero <strong>di</strong><br />
operazioni dell'or<strong>di</strong>ne <strong>di</strong> n. Tali basi, oltre a possedere le proprietà delle natural spline,<br />
sono non negative ed hanno un supporto limitato, owero<br />
Sj(X) > O<br />
sjCx) = Ose x è esterno all'intervallo [Xj' Xj+m]<br />
Da quest'ultima pro·prietà deriva che la matrice 8'S è 2m+l-banded cioè Sij = Oper<br />
li-jl > m e ciò comporta notevoli vantaggi computazionali.<br />
17
In quest'ottica risulta ancora più evidente come, sia il valore <strong>di</strong> À per lo stimatore<br />
smoothing spline, che i valori relativi al numero e alla posizione dei no<strong>di</strong> (çl,...,çk) dello<br />
stimatore regression spline siano detti entrambi parametri <strong>di</strong> smooth.<br />
Benchè lo stimatore regression spline rislldti molto semplice dal punto <strong>di</strong> vista<br />
computazionale, la determinazione <strong>di</strong> (çl> ...,ç0 risulta complessa e una scelta non<br />
corretta può portare a conclusioni fuorvianti.<br />
Il modo più semplice per determinare il numero e la posizione dei no<strong>di</strong> per lo<br />
stimatore regression spline è quello <strong>di</strong> trarre suggerimenti da una attenta osservl;lZiòne dei<br />
dati. Eubank (1988) fornisce delle linee guida basate sull'in<strong>di</strong>viduazione dei punti <strong>di</strong><br />
minimo, <strong>di</strong> massimo e <strong>di</strong> flesso nei dati. Essendo il numero <strong>di</strong> parametri da stimare pari a<br />
(m + k ), si tende a considerare pochi no<strong>di</strong> (k=1,2), ma in tal caso la scelta della loro<br />
posizione <strong>di</strong>venta molto influente per i risultati. Un criterio "standard" può essere quello<br />
<strong>di</strong> scegliere no<strong>di</strong> equispaziati (B-spline car<strong>di</strong>nali, de Boor, 1978).<br />
Un altro suggerimento viene dal teorema <strong>di</strong> Curry e Schonberg, riportato da de<br />
Boor (1978, p. 113). Esso determina una relazione tra la molteplicità dei no<strong>di</strong> in un<br />
punto e le con<strong>di</strong>zioni <strong>di</strong> continuità della curva rappresentata con B-spline.<br />
Esistono, comunque, anche meto<strong>di</strong> <strong>di</strong> tipo "automatico" che cercano <strong>di</strong> ottimizzare<br />
un criterio <strong>di</strong> bontà <strong>di</strong> adattamento dello stimatore ai dati. Ad esempio sono stati presi in<br />
considerazione l'errore quadratico me<strong>di</strong>o e la funzione GeV già citata. Tali meto<strong>di</strong> sono<br />
stati adottati, secondo una strategia stepwise ed in un contesto più ampio, da Friedman e<br />
Silverman (1989) nella procedura definita TURBO.<br />
Non esiste, comunque, in letteratura una posizione chiara relativamente alla scelta<br />
del numero e della posizione dei no<strong>di</strong>. Ciò rende l'utilizzazione <strong>di</strong> tale stimatore poco<br />
agevole anche in considerazione della influenza decisiva che ha tale scelta nella<br />
deteminazione del modello.<br />
23
possibili stimatori della funzione f. Lo stimatore polinomiale presuppon.e che Rm sia<br />
trascurabile, lo stima.tore smoothing spline pone un estremo superiore sul suo valore ed<br />
infine lo stimatore regression spline presuppone che Rm possa essere approssimato da<br />
una sommatoria <strong>di</strong>screta.<br />
Nell'approccio dell'Optimal Scaling (OS) le variabili quantitative erano inizialmente<br />
trasformate attraverso l'uso <strong>di</strong> basi polinomiali. Successivamente, per introdurre<br />
trasformazioni non lineari delle variabili, si sono prese in considerazione basi <strong>di</strong> B-spline<br />
<strong>di</strong> or<strong>di</strong>ne e no<strong>di</strong> prefissati, owero degli stimatori regression spline i quali introducono<br />
una ben definita forma parametrica, anche se molto flessibile. Lo stimatore smoothing<br />
spline, ancora non considerato nell'OS, può essere invece utilizzato per i vantaggi <strong>di</strong> cui<br />
gode rispetto allo stimatore regression spline per quanto riguarda la scelta del parametro<br />
<strong>di</strong> smoothing.<br />
Relativamente alle variabili qualitative si riesce a dare una giustificazione all'uso<br />
delle procedure utilizzate nell'OS per la quantificazione delle modalità. Infatti, in tal<br />
caso, lo stimatore ottenuto è unico a meno della determinazione dei coefficienti y, come<br />
si è verificato nel precedente paragrafo.<br />
2.2.5. Modelli multivariati<br />
Per lo stu<strong>di</strong>o delle relazioni tra due insiemi <strong>di</strong> variabili occorre estendere gli<br />
stimatori spline al caso multivariato e multirisposta. Per evitare confusione precisiamo<br />
. . .<br />
nuovamente che con l'aggettivo multivariato si intende denominare i modelli in cui sono<br />
presenti più variabili esplicative, mentre con l'aggettivo multirisposta si intendono più<br />
variabili risposta...Con tale terminologia possiamo introdurre lo stu<strong>di</strong>o delle relazioni<br />
asimmetriche tra due insiemi <strong>di</strong> variabili nell'ambito regressivo.<br />
26
Nel seguito tratteremo modelli multivariati e successivamente si introdurrà<br />
l'estensione multirisposta.<br />
Esistono due <strong>di</strong>versi approcci allo stu<strong>di</strong>o della regressione non parametrica<br />
multivariata. Il primo considera la possibilità <strong>di</strong> estendere il dominio degli stimatori ad<br />
uno spazio RP, dove p è ilnumero <strong>di</strong> variabili esplicative, mentre il secondo, assumendo<br />
l'ad<strong>di</strong>tività degli .effetti, introduce gli stimatori univariati all'interno <strong>di</strong> una struttura<br />
ad<strong>di</strong>tiva.<br />
2.2.5.1. Estensioni multivariate degli stimatorispUne<br />
Supponiamo <strong>di</strong> avere p variabili esplicative Xh...,X p e <strong>di</strong> voler stu<strong>di</strong>are le relazioni<br />
con la variabile risposta Y. Avendo n osservazioni, consideriamo il seguente modello<br />
Yi =f(Xli,· ..,Xpi) + Ei<br />
con<br />
E(Ei) = O E(E?) =0 2 ,<br />
E(Ei Ej) = O i:;f=j i,j=l,...,n<br />
per il quale occorre stimare la funzione f su R p. Noi ci limiteremo a considerare<br />
estensioni multivariate dei soli stimatori smoothing spline e regression spline. Precisiamo<br />
sin dall'inizio che, benchè la trattazione teorica consideri il caso generale <strong>di</strong> p variabili, i<br />
notevoli problemi computazionali legati agli siimatori spline multivariati, rendono in<br />
pratica poco utilizzabili gli stimatori con p>2.<br />
Thin P1Qte Smoothing Spline<br />
Consideriamo la seguente estensione multivariata della funzione dei nuruml<br />
quadrati penalizzata già descritta nel caso univariato (par 2.2.1).<br />
27
successivi paragrafi vedremo come questa idea può essere attuata utilizzando gli<br />
strumenti propri dell'analisi d,ei dati.<br />
2.3.1 Spline-PCAIV e spline-RDA<br />
Per stu<strong>di</strong>are le relazioni non lineari e simmetriche tra i due insiemi <strong>di</strong> variabili e per<br />
attuare l'idea <strong>di</strong> riduzione del modello (2.9), prima esposta, ci sembra naturale cercare un<br />
metodo non lineare <strong>di</strong> RDA seguendo l'impostazione della regressione non parametrica.<br />
Durand (199j) ha proposto un metodo <strong>di</strong> analisi canonica in cui le variabili<br />
pre<strong>di</strong>ttive sono trasformate attraverso spline dei· minimi quadrati, denominandolo spline<br />
PCAIV (principal Component Analysis with respect to Instrumental Variables), con<br />
riferimento all'omonimo metodo lineare proposto da Escoufier (1987). Data la tema<br />
(Y, Q, D), dove Q e D sono le metriche esplicitamente definite rispettivamente per lo<br />
spazio delle unità e per lo spazio delle variabili, e l'insieme delle variabili esplicative X, si<br />
cerca la trasformata T <strong>di</strong> X e la metrica R tale che la <strong>di</strong>stanza tra gli operatori<br />
caratteristici <strong>di</strong> rappresentazione degli oggetti sia minima owero:<br />
min IIYQY'D - TRT'DI1 2<br />
T,R<br />
essendo<br />
T = {tj}j=l,...,p con. tj = S/l)1bj e Sj (n,dj) basi spline <strong>di</strong> or<strong>di</strong>ne e no<strong>di</strong> fissati a pnon<br />
e d j = (or<strong>di</strong>ne dellaj-esima spline)+(numero <strong>di</strong> no<strong>di</strong> dellaj-esima spline).<br />
Tale problema <strong>di</strong> minimo non ha una soluzione esplicita. Una soluzione approssimata si<br />
ottiene adottando una procedura iterativa che calcola in modo alternato la metrica R,<br />
dati i coefficienti b j G=I, ..,p), secondo l'espressione<br />
R(bh...,b p ) ,;., (T'DT) T'DYQY'DT(T'DT)<br />
33
dove () in<strong>di</strong>ca l'inversa generalizzata, e i coefficienti bj (j=l,..,p), data R, in base al<br />
metodo del gra<strong>di</strong>ente; la <strong>di</strong>rezione <strong>di</strong> <strong>di</strong>scesa ed il passo sono calcolati con il metodo<br />
quasi-Newton oppure con il metodo IIsteepest descent ll (Durand, 1993).<br />
Una volta determinati R e T si applica l' ACP alla tema (T,R,D) o equivalentemente alla<br />
1\. .<br />
tema (Y,Q,D) dove<br />
1\ _<br />
Y = T(T'DT) T'DY<br />
ovvero la proiezione D-ortogonale <strong>di</strong> Y nel sottospazio <strong>di</strong> Rn generato dalle colonne <strong>di</strong><br />
T. Il modello <strong>di</strong> ricostruzione dei dati, considerando r componenti, è:<br />
A<br />
Y == (Y)r= T(T'DT)· T'DY VrVr' =TMN'<br />
dove Vr è la matrice <strong>di</strong> or<strong>di</strong>ne (m,r) costituita dai primi r autovettori associati alla<br />
A<br />
matrice Y, M e N sono·le matrici dei coefficienti canonici<br />
-<br />
M = (T'DT) T'DY V r<br />
N=V r<br />
In termini estesi<br />
(Yk)r= t(±tjmjSJnks<br />
s=1 j=1<br />
(2.10)<br />
si ha che le trasformate spline ty ottenute utilizzando lo stimatore regression spline, sono<br />
comuni a tutte le variabili Y k per k=l,...,m. Consideriamo, ad esempio, il caso <strong>di</strong> r=2<br />
1\ p P<br />
(Ykh = L tjmjlnlk + L tjmj2n2k<br />
j=l j=l<br />
si hanno due combinazioni lineari delle variabili trasformate tj per ciascuna variabile Yk e<br />
esplicitando i coefficienti delle trasformate spline si ha<br />
Cercando un'analogia con il modello della RDA, potremmo <strong>di</strong>re che mjl e mj2 sono i<br />
coefficienti canonici e Sjbjmjh Sjbjmj2 sono le variabili canoniche.<br />
34
Seguendo un approccio più vicino alla RRR <strong>di</strong> Davies,Tso (1982), piuttosto che<br />
alla PCAIV <strong>di</strong> Ecoufier (1987), si propone una <strong>di</strong>versa versione del metodo <strong>di</strong> Durand<br />
che ammette una soluzione <strong>di</strong>retta e non iterativa e nella quale non sono considerate<br />
esplicitamente le metriche, tale versione è stata denominata spline-RDA.<br />
Consideriamo ilmodello ad<strong>di</strong>tivo multirisposta<br />
Y = ±Sj(Xj)Bj +E<br />
j=l<br />
dove Sj (n,dj) j=I,...,p sono p le ba.si spline <strong>di</strong> or<strong>di</strong>ne e no<strong>di</strong> fissati a pnon e Bj (dj>m)<br />
per j=I,...,p le matrici dei coefficienti. Scritto in forma più compatta<br />
Y=S(X)B+E<br />
p<br />
dove S(X) = {St(Xl),S2(X2),""Sp(xp)} è la matrice <strong>di</strong> or<strong>di</strong>ne (n, Ldj) contenente le basi<br />
j=l<br />
<strong>di</strong> spline <strong>di</strong> or<strong>di</strong>ne e no<strong>di</strong> fissati e<br />
p<br />
B(L dj ,m)<br />
j=l<br />
è la matrice dei coefficienti<br />
B = (Bl,B 2 ,...,Bp)'.<br />
La stima del modello si ottiene attraverso la minimizzazione della seguente funzione<br />
obiettivo<br />
min Ily - SBI1 2<br />
Poniamo inoltre il vincolo <strong>di</strong> riduzione <strong>di</strong> rango su B, rango (B) ::; r ,owero<br />
B=FG'<br />
con F(s,r) e G(m,r)<br />
La soluzione si ricava calcolando la stima dei minimi quadrati per B non vincolata,<br />
utilizzando lo stimatore regression spline (Eubank, 1988)<br />
:B = (S' S)-lS'y<br />
ed effettuando poi la SVD della matrice dei valori stimati<br />
1\ 1\<br />
Y =SB =UAV'<br />
La stima <strong>di</strong> rango ridotto, secondo la procedura della RRR, sarà<br />
35
Capitolo terzo<br />
Una nuova proposta per un<br />
multivariata vincolata<br />
problema <strong>di</strong> calibrazione<br />
Utilizzando gli strumenti fino ad ora descritti, affrontiamo un problema <strong>di</strong><br />
calibrazione multivariata. Questo implica, nelle due fasi <strong>di</strong> calibrazione e <strong>di</strong> previsione,<br />
l'uso dell'analisi delle relazioni asimmetriche tra due insiemi <strong>di</strong> variabili.<br />
Introduciamo brevemente la calibrazione multivariata utilizzando un esempiO<br />
particolare. Oltre al settore applicativo della chemiometria, a cui gran parte degli articoli<br />
sulla calibrazione si riferiscono (Sekulic et al., 1993), anche la <strong>di</strong>sciplina delle scienze<br />
naturali <strong>di</strong>mostra un crescente interesse verso lo stu<strong>di</strong>o <strong>di</strong> tali metodologie. In particolare<br />
numerosi lavori sono stati pubblicati sulle relazioni esistenti tra comunità vegetali e"<br />
ambiente (Prentice et aL, 1991; Ter Braak et al., 1993; Ter Braak e Juggins, 1993; Ter<br />
Braak e Wiertz, 1994). Quando le variabili ambientali (inquinamento atmosferico, aci<strong>di</strong>tà<br />
del suolo, variabili climatiche,...) non sono rilevabili o comunque il loro rilevamento<br />
richiede tempi o costi troppo elevati, è possibile utilizzare le numerose· infòrmazioni<br />
contenute nel pattern della vegetazione, rilevando le specie vegetali presenti e stu<strong>di</strong>ando<br />
il tipo <strong>di</strong> associazione da queste adottato. Tale idea è anche alla base degli stu<strong>di</strong> paleo<br />
ambientali nei quali, partendo dai dati fossili della vegetazione (licheni, pollini,...), si<br />
39
\ ./\ /\<br />
Xh=YhB'(BB,)"1 h=I,...,H<br />
Si noti che inizializzando le Xh= Xo per h=I,...,H, si hanno i seguenti modelli<br />
h=O,I,..,H<br />
e minimizzando la funzione obiettivo<br />
H 2<br />
Lllyh - xoBl1<br />
h=O<br />
otteniamo la stima <strong>di</strong> B<br />
H<br />
LYh<br />
B= (Xo'Xo)"1 X o ' h=O<br />
H+I<br />
mentre con lo stiinatpre classico avremmo avuto<br />
Be = (Xo'Xor l Xo'Yo<br />
Ciò evidenzia quanto già detto in precedenza in relazione alla strategia adottata che<br />
utilizza tutte lè informazioni <strong>di</strong>sponibili e non solo i "training data" (Xo,Yo).<br />
Nel nostro problema <strong>di</strong> calibrazione, però, abbiamo la possibilità <strong>di</strong> sfruttare le altre<br />
informazioni contenute nella matrice Z. Consideriamo, allora, la seguente forma della f.o.<br />
2 .<br />
= Y - (Xo+ Ll)B<br />
in cui si è sostituito il vincolo (3.8). Possiamo detenllinare 11. minimizzando:la f.o: con B<br />
noto, nel seguente modo<br />
11.* =(Y - X oB)B'(BB')-l (3.11)<br />
utilizzando poi il modello (3.9) possiamo determinare la stima del parametro C<br />
C Ll = (Z'Z)-IZ'/!J.* (3.12)<br />
infine avremo che<br />
/\ A<br />
I1.=ZC<br />
e l'espressione per l'aggiornamento <strong>di</strong> X sarà data da<br />
A _ /\<br />
X = Xo+ A<br />
45
*<br />
Quin<strong>di</strong> alternando il calcolo <strong>di</strong> B, A e C possiamo costruire una procedura iterativa per<br />
la determinazione delle variabili Xl>""X H ,<br />
Un altro modo più breve per calcolare X, dato B, è <strong>di</strong> minimizzare <strong>di</strong>rettamente la<br />
seguente forma della fo. rispetto a C<br />
2<br />
= Y - (:Xo+ ZC)B<br />
Il minimo della funzione obiettivo si ha per<br />
Cy =(Z'Z)-IZ'(Y- XoB)B'(BB')-<br />
In tal caso la stima <strong>di</strong> X sarà data dalla seguente espressione<br />
1\ _ _/\<br />
x= X o+ ZCy<br />
(3.13)<br />
1\ 1\<br />
E' imme<strong>di</strong>ato verificare che C Ll = C y e, quin<strong>di</strong>, le due procedure <strong>di</strong> stima conducono allo<br />
stesso risultato.<br />
Prima <strong>di</strong> riportare i due algoritmi iterativi nei quali sono riassunte le suddette<br />
procedure, si sottolinea che i valori assunti dalla funzione obiettivo costituiscono una<br />
successione monotona non crescente e limitata e quin<strong>di</strong> convergente.<br />
Il primo algoritmo, denominato 3-steps, alterna la stima <strong>di</strong> B con la stima non vincolata<br />
<strong>di</strong> A e la stima del parametro C.<br />
Algoritmo C:3-steps"<br />
(O) inizializza Al,'''' AH<br />
calcola Xh = Xo+ Ah h=l,...,H<br />
(1) calcola B utilizzando la formula (3.10)<br />
(2) calcola A* non vincolato utilizzando la (3.11)<br />
1\ .<br />
(3) calcola Cd attravero la (3.12)<br />
1\<br />
aggiorna Ah = tll ZCd h=l, ,H<br />
aggiorna Xh = Xo+ Ah h=l, ,H<br />
46
{ E (<br />
02J(C)]}-1 oJ(c)<br />
acoe' oc<br />
c new = c- --<br />
calcolando le derivate prima e seconda<br />
dove con gik si è in<strong>di</strong>cato il valore della funzione gk nel punto xi , si ha<br />
tale formula può essere considerata come una stima dei minimi quadrati pesati della<br />
variabile <strong>di</strong>pendente <strong>di</strong> lavoro<br />
rispetto alle variabili Z, conp?si<br />
(Wk)ii= b"(8ik) g'k (Xi)2· per ogni i e k.<br />
In termini matriciali si ha dunque<br />
ID .<br />
c new = (Z'WZrIZ' LWkçk'·<br />
k<br />
dove W = }: k W k<br />
57<br />
(3.21)
che esplicita la relazione con le variabili z.<br />
Allora, utilizzando i pesi W (3.27), si ha<br />
ooew= z (Z'wzt1z'wo*<br />
Esponiamo ora l'algoritmo 3-steps<br />
Algoritmo 3-steps<br />
(O) inizializza 0i e calcola xi = }COi + 0i i=l,..., li<br />
inizializza gk(xi) = gkO(Xi) i=l,..., li e k=l,...,m.<br />
(1) calcola 0* (o non vincolato) in base alla (3.26)<br />
(2) aggiorna Oin base alla (3.28)<br />
aggiorna xi = }COi + 0i i=l,..., li<br />
(3) calcola gk in base alla (3.22) k=l,...,m.<br />
verifica la convergenza<br />
I/xo 1d _ xoewI/ < 8<br />
altrimenti vai al passo (1).<br />
(3.28)<br />
Anche in questo caso è semplice verificare che i risultati dei due algoritmi 2-steps e<br />
3-steps sono uguali, infatti al passo (2) dell'algoritmo 3-steps l'aggiornamento <strong>di</strong> Oè dato<br />
da<br />
m<br />
0= Z (Z'WZ)-IZ'Wo*= Z (Z'wzt1z'WW-1L:Wk/;k=<br />
k<br />
m<br />
= Z (Z'wzt1z LWk/;k<br />
le<br />
mentre nell'algoritmo 2-steps, utilizzando l'espressione (3.21) per c si ha<br />
III<br />
0= Zc = Z (Z'WZ)-IZ'LWk/;k<br />
k<br />
che è uguale alla (3.29).<br />
61<br />
(3.29)
3.4. Un esempio con dati simulati<br />
Per verificare le nuove procedure definite nel capitolo 3, sono state effettuate<br />
delle simulazioni. In particolare si sono considerati sia il caso del modello lineare, per il<br />
quale lo stimatore classico e lo stimatore RRR (descritto nel paragrafo 3.1) sono stati<br />
posti a confronto, sia quello non lineare sul quale è stato applicato lo stimatore ALS<br />
(paragrafo 3.3.2).<br />
Modello lineare<br />
Per il modello lineare, descritto dalle relazioni (3.4), (3.5) e (3.6), è stato<br />
considerato un campione <strong>di</strong> n=30 unità, m=5 variabili risposta, p=2 variabili esplicative e<br />
h=O,l (corrispondentemente all'esperimento <strong>di</strong> calibrazione e all'esperimento <strong>di</strong><br />
previsione). Si è inoltre ipotizzato che le unità siano <strong>di</strong>sposte su <strong>di</strong> una griglia regolare 6<br />
x 5; le variabili ausiliarie ZI (l = 1,2) in<strong>di</strong>cano le coor<strong>di</strong>nate spaziali <strong>di</strong> tale griglia. Si<br />
riportano le relazioni utilizzate per la determinazione dei dati<br />
YOk = XoI b1k + Xo2 b2k + eok<br />
Ylk = Xll b1k + X12 b2k + elk<br />
Xll = Xol + 011<br />
X12 = Xo2 + 012<br />
Al =ZC+EI*<br />
k=1, ,5<br />
k=1, ,5<br />
Gli errori sono stati generati da <strong>di</strong>stribuzioni normali <strong>di</strong> me<strong>di</strong>a zero e varianza fissata. Gli<br />
m modelli, per ciascuna variabile risposta, sono in<strong>di</strong>pendenti.<br />
Si è considerata,' come già detto, sia la stima prodotta dallo stimatore classico<br />
che quella determinata attraverso la Reduced Rank Regression (RRR). Tali stimatori<br />
sono stati confrontati sotto" due <strong>di</strong>fferenti ipotesi. La prima è che i dati relativi<br />
68
Nella seconda ipotesi "<strong>di</strong>verso range" (figura 4) i risultati sono meno<br />
sod<strong>di</strong>sfacenti e, per quanto riguarda la prima variabile esplicativa, i residui crescono via<br />
via che ci si allontana dal range relativo alla fase <strong>di</strong> calibrazione (in<strong>di</strong>viduabile dai valori<br />
esatti <strong>di</strong> Xo),<br />
'i.<br />
o<br />
"7<br />
MODELLO NON LINEARE "<strong>di</strong>verso range"<br />
10 20 30 -20 O 20 40 60<br />
stimatore ALS x1 0=1 ) stlmatore ALS x10=2)<br />
............ _-<br />
.. "":<br />
"" ••D _.a a<br />
.. ..<br />
10 20 30 40<br />
x1true 0=1)<br />
e . . D.<br />
e e<br />
Figura 4<br />
... . ... ... .<br />
··.a· ·.a ..<br />
•••• a-I.. ••••• • •<br />
e e e<br />
-20 O 20 40 60<br />
x1true 0=2)<br />
Nella tabella 2 sono,in<strong>di</strong>cate le percentuali <strong>di</strong> varianza non spiegata; i valori<br />
"<br />
risultano ancora contenuti anche se nell'ipotesi <strong>di</strong> "<strong>di</strong>verso range" si ha un sensibile<br />
aumento.<br />
stesso range <strong>di</strong>verso range<br />
j=l j=2 j=l j=2,·<br />
Istimatore ALS 1,270 1,275 5,478 6,064<br />
Tabella 2. Percentuale <strong>di</strong> varianza non spiegata<br />
72
Bibliografia<br />
ANDERSON T. W. (1984) An Introduction to Multivariate <strong>Statistica</strong>l Analysis, John Wiley<br />
& SonsLtd.<br />
BARTI..EIN P. J., WmTI..OCK C. (1993) Paleoclim'atic interpretation of the Elk Lake pollen<br />
record, Geological Society ojAmerica, Special Paper 276.<br />
BROWN,P.J. (1982). Multivariate Calibration. J.R. Statisti. Soc. B 44, 287-231.<br />
CHAlv1BERS J. M., HAsTIE T. J. (eds) (1991) <strong>Statistica</strong>l Models in S, Pacific Grove:Wadsworth<br />
and Brooks/Cole.<br />
COHMAPMEJ:vIBERS (1988) Climatic Changes ofthe Last 18,000 Years: Observation and Model<br />
Simulations, Science, 241, 1043-1052.<br />
D'AJ:vIBRA L., LAURO N. C. (1992) Non symmetrical exploratory data analysis, <strong>Statistica</strong><br />
Applicata 4,511-529.<br />
DAVIES, P. T., Tso, M. K-S (1982). Procedures for Redunced-rank Regression Appl. Statfst.<br />
31, 244-255.<br />
DE BOOR C. (1978). A praticai Guide to Splines. Spinger-Verlag, New York.<br />
DI CIACCIO A. (199.) Analisi simultanea dei caratteri' qualitativi e quantitativi attraverso la<br />
parametrizzazione dei dati, Metron, ..........<br />
DURAND J.F. (1993). Generalized Principal'Component Analysis with respect to instrumental<br />
Variables via Univariate Spline Trasformations, Computational Statistics & Analysis 16,<br />
423-440.<br />
ESCOUFIER Y. (1987) Principal Component Analysis with respect to Instrumental Variables,<br />
European CourSes in Advanced Statistics (Università <strong>di</strong> Napoli), 285-299.<br />
EUBAill( R.L. (1988). Smoothing Splines and Non Parametric Regressfon. Markel Dekker,<br />
New York and BaseI.<br />
73
FRIEDMAN, SILVERMAN (1989) FIexibIe Parsimonious Smoothing and Ad<strong>di</strong>tive Modeling (con<br />
<strong>di</strong>scussione), Techometrics 31, 3-39.<br />
GIFI A. (1990) Nonlinear MlIltivariate Analysis, Wiley, New York.<br />
GREEN P. l, SILVERMAN P. W. (1994) Nonparametric Regression and Generalized Linear<br />
Models: A Roughness Penalty Approach, Chapman and Hall, London.<br />
HARDLE W. (1990) AppliedNonparametric Regression, Cambridge University Presso<br />
HASTIE C.I ,TrnsHIRANI R.I. (1990). Generalized Ad<strong>di</strong>tive models, Statistics and Applied<br />
Probability 43, Chapman and Hàll, London.<br />
HASTIE C.I. ,TIBSHIRANIR.J. (1993) Varying"coefficient ModeIs, J. R. Statist. Soc. B 55, 757<br />
796.<br />
HUNTLEY R, PRENTICE L C. (1988) JuIy Tempatures in Europe from Pollen Data,'6000 Years<br />
Before Present, Science 241,687-690.<br />
ISRAELS A. (1992) Redundancy anaIysis for various types ofvariabIes, <strong>Statistica</strong> Applicata. 4,<br />
531-542.<br />
KIMELDORFG., WAHBA G., (1971) Some resuIts on Tchebycheffian spline finctions, J.<br />
MathAnal. Appl. 33, 82-95.<br />
LYCHE T., SCHUMAKERL., (1973) Computation ofsmoothing and interpolating natural splines<br />
via Iocai bases, SIAMJ. Numer. Anal. lO, 1027-1038.<br />
MARTENS H., NAES T. (1993)"MlIltivariate Calibration, JoOO Wiley & Sons Ltd.<br />
MCCULLAGH P., NELDER J. A. (1989) Generalized Linear Models, Chapman and Hall,<br />
London.<br />
OSBORNE C: (1991) <strong>Statistica</strong>l Calibration: A Review, International <strong>Statistica</strong>l Review 59, 3,<br />
309-336.<br />
RAo C. R. (1964) The use and inferpretation of principai components anaIysis in applied<br />
research, Sankhya serie A, 26, 329-358.<br />
REINSCH C., (1967) Smoothing by spline functions, NlIIner. Math. lO, 177-183.<br />
ROBERTP., ESCOUFIER Y. (1976) A Unif}'ing tool for linear multivariate statistical methods:<br />
the RV-coefficient, Applied Statistics 25, 257-265.<br />
74
SABATIER R., LEBRETON J. D., CHESSEL D. (1989) Prinçipal component analysis with<br />
:\<br />
instrumentaI variables as a tool for modeUing composition data, Multiway Data<br />
Analysis, Coppi R., Bolasco S. (eds.), Elvesier Science Publishers B. V., North<br />
Holland, 341-352:<br />
SEKULIC S., SEASHOLTZ M.B. WANG Z., COLWALSKI B. R, LEE S. E., HOLT B. R (1993)<br />
Nonlinear Multivariate Calibration Methods in Analitical Chemestry, Analitical<br />
Chemistry 65, 835-846,<br />
SILVERMAN B. W. (1985) Some Aspects of the Spline Smoothing Approach to Non<br />
parametric Regression Curve Fitting, 1. R. Statist. Soc. B 47, l-52.<br />
TER BRAAK C. J. F., JUGGINS S. (1993) Weighted Average Partial Least Squares Regression<br />
(Wa-Pls): An Improved Method for Reconstraction Environmental Variables from<br />
Species Assemblages, Hidrobiologia 269/270, 485-502.<br />
TER BRAAK C. 1. F., JUGGINS S., BIRKS H. J. B., VAN DER VOET H. (1993) Weighted<br />
Average Partial Least Squares Regression (Wa-PIs): Definition and Comparison with<br />
other Methods for Species-Environment Calibration in PatiI G. P., R,.ao C. R (eds)<br />
Multivariate Environmental Statistics, Elsevier Science Publishers B.V..<br />
TER BRAAK C.J. F., WIERTZ J. (1994) On the <strong>Statistica</strong>lAnalysis of Vegetation Change:<br />
Affected by Water Extration and SoiI Aci<strong>di</strong>fication, Jomal oJVegetation Science 5, 361-<br />
372.<br />
VAN DEN BURG E., DE LEEW J., (1990). Non-linear Redundancy Aflalysis. British Joumal oJ<br />
Mathematical and <strong>Statistica</strong>l Psychology 43,217-230.<br />
VAN DEN WOLLEMBERG A. L. (1977) Redulldancy· analysis:' analternative for canonical<br />
correlation analysis, Psycometrika 2, 207-219.<br />
WAHBA GRACE (1978) Improper priors, splille smoothing and the problem ofguar<strong>di</strong>ng against<br />
model errors in regression, 1. R. Statlst. Soc. B 40, 364-372.<br />
WAHBA GRÀcE (1985) A comparison of GCV and GML for choosing the smoothing<br />
parameter in the generalized spline smoothing problem, Ann. Statist. 13, 1378-1402.<br />
WAHBA GRACE (1990). Spline modelsfor Observatlonal Data. Siamo<br />
'.<br />
YOUNGF. \V. (1981) Quantitative Analysis ofQualitativeData, Psychometrika46, 357-388.<br />
75
STAMPATO CON IL MUL TlLlTH DEL DIPARTIMENTO DI<br />
STATISTICA, PROBABILITA' E STATISTICHE APPLICATE<br />
Universita' <strong>di</strong> Roma "La <strong>Sapienza</strong>"<br />
Capo Centro Stampa - FRANCESCHETTI Orfeo<br />
Agenti <strong>di</strong> Stamperia - MAZZOLI Mario<br />
PAGANUCCI Giuseppe