01.07.2013 Views

Dipartimento di Statistica, Probabilità e Statistiche ... - Sapienza

Dipartimento di Statistica, Probabilità e Statistiche ... - Sapienza

Dipartimento di Statistica, Probabilità e Statistiche ... - Sapienza

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Dipartimento</strong> <strong>di</strong> <strong>Statistica</strong>, <strong>Probabilità</strong> e <strong>Statistiche</strong> Applicate<br />

Università <strong>di</strong> Roma "La <strong>Sapienza</strong>"<br />

Grazia Di Bella<br />

Relazioni non lineari asimmetriche<br />

e calibrazione multivariata<br />

Roma -febbraio 1995


Dottorato <strong>di</strong> Ricerca in <strong>Statistica</strong> Metodologica<br />

VII ciclo (1991 ..1994)<br />

Relazioni non lineari asimmetriche<br />

e calibrazione multivariata<br />

Grazia Di Bella<br />

,',<br />

<strong>Dipartimento</strong> <strong>di</strong> <strong>Statistica</strong>, <strong>Probabilità</strong> e <strong>Statistiche</strong> Applicate'<br />

Università degli Stu<strong>di</strong> <strong>di</strong> Roma lILa <strong>Sapienza</strong>"


Desidero ringraziare tutti coloro che con i loro consigli hanno' contribuito al<br />

compimento della tesi. Inoltre ringrazio il pro! R. Coppi, supervisore della tesi, il pro! L.<br />

Piccinato, coor<strong>di</strong>natore del corso <strong>di</strong> Dottorato in <strong>Statistica</strong> Metodologica, il pro! G. Bave e<br />

il dotto C. J. F. ter Braak dell'Agricultural Mathematics Group (Wageningen, Olanda) per gli<br />

incoraggiamenti e le interessanti <strong>di</strong>scussioni.


In<strong>di</strong>ce<br />

Introduzione l<br />

1. Metodologie per lo stu<strong>di</strong>o delle relazioni lineari asimmetriche tra due<br />

insiemi <strong>di</strong> variabili quantitative 3<br />

1.1. Analisi in Componenti Principali con variabili strumentali 4<br />

2. Metodologie per lo stu<strong>di</strong>o delle relazioni non lineari asimmetriche tra due<br />

insiemi <strong>di</strong> variabili qu.antitative 9<br />

2.1. Optimal scaling e REDUNDALS 9<br />

2.2. Regressione non parametrica Il<br />

2.2.1. Stimatore smoothing spline 13<br />

2.2.1.1. Scelta del parametro <strong>di</strong> smoothing 18<br />

2.2.2. Stimatore spline dei minimi. quadrati 20<br />

2.2.3. Il caso dei caratteri qualitativi 24<br />

2.2.4. L'approccio non parametrico e l'Optimal Scaling 25<br />

2.2.5. Modelli multivariati 26<br />

2.2.5.1. Estensioni multivariate degli stimatori spline 27<br />

2.2.5.2. Modelli ad<strong>di</strong>tivi 30<br />

2.3. Modelli multivariati e multirisposta 32<br />

2.3.1. Spline-PCAIV e spline-RDA 33<br />

2.3.2. 'Sinoothing spline-RDA 36<br />

pag


2.2.5.1. Estensioni multivariate degli stimatori spline 27<br />

2.2.5.2. Modelli ad<strong>di</strong>tivi 30<br />

2.3. Modelli multivariati emultirisposta 32<br />

2.3.1. Spline-PCAIV e spline-RDA 33<br />

2.3.2. Smoothing spline-RDA 36<br />

3. Una nuova proposta per un problema <strong>di</strong> calibrazione multivariata vincolata 39<br />

3.1. Un problema <strong>di</strong> calibrazione multivariata lineare vincolata 41<br />

3.2. Calibrazione multivariata estimatori regression spline 50<br />

3.3. Calibrazione e modelli lineari generalizzati non parametrici 54<br />

3.3.1 Il caso univariato 55<br />

3.3.2 Il caso multivariato ad<strong>di</strong>tivo 63<br />

3.4. Un esempio con dati simulati 68<br />

Bibliografia 73<br />

",.


Si è tentato <strong>di</strong> awicinare e confrontare le due impostazioni, quella della regressione<br />

non parametrica multivariata e multirisposta e quella dell'analisi non lineare dei dati<br />

nell'ambito dell'analisi canonica asimmetrica, .cercando <strong>di</strong> interpretare e giustificare le<br />

procedure <strong>di</strong> trasformazione e quantificazione dell'Optimal Scaling. Dalle considerazioni<br />

effettuate è scaturito un nuovo metodo <strong>di</strong> analisi canonica asimmetrica non lineare<br />

denominato smoothing spline -RDA.<br />

Nella seconda parte della tesi si affronta un problema <strong>di</strong> calibrazione multivariata<br />

vincolata; questo può essere considerato come un problema <strong>di</strong> stu<strong>di</strong>o delle relazioni<br />

asimmetriche tra due insiemi <strong>di</strong> variabili. Si è utilizzato un approccio originale secondo il<br />

quale la fase <strong>di</strong> costruzione del modello <strong>di</strong> calibrazione coivolge tutti i dati <strong>di</strong>sponibili e<br />

non solo i cosiddetti training data, le stime si ottengono attraverso procedure dei minimi<br />

quadrati alternati e sue generalizzazioni.<br />

2


dove Al = UAcontiene i punteggi delle unità e A 2 = V i pesi delle variabili. Le matrici<br />

ortonormali U, Vela matrice <strong>di</strong>agonale A derivano dalla decomposizione in valori<br />

singolari (SVD) della matrice V<br />

V=U A V'<br />

Se ora imponiamo che i punteggi delle unità siano funzione lineare dell'insieme <strong>di</strong><br />

variabili esplicative Z<br />

Al =ZC+E<br />

con il vincolo che la-matrice C'Z'ZC sia <strong>di</strong>agonale, avremo<br />

1\<br />

c = (Z'Z)-l Z' Al = .{Z'Z)-l Z' UA.<br />

f\<br />

V = ZC A 2 ' = Z (Z'Z)-l Z' UAV' = Z (Z'Z)-l Z' V V V'<br />

(1.1)<br />

(1.2)<br />

Volendo considerare un numero <strong>di</strong> componenti r


Si può verificare che la soluzione precedentemente trovata sod<strong>di</strong>sfa tale equazione.<br />

A A<br />

Infatti sostituendo nella (1.5) respressione <strong>di</strong> c h prima colonna della matrice C definita<br />

nella (1.2) owero<br />

A<br />

CI =(Z'Z)-I Z' À.IUI =(Z'Z)-I Z' Y vI<br />

si ha<br />

(Z'Z)-IZ'YY'Z (Z'Z)-I Z' YVI = Il (Z'Z)-I Z' YVI<br />

ma<br />

A A<br />

y'Z (Z'Z)-I Z' Y VI = Y'Y vI =À.IVI<br />

e si ottiene l'uguaglianza desiderata con Il = 1... 1<br />

Il problema proposto da van den Wollenberg (1977) per la soluzione dell'RDA è:<br />

Elaborando la fo.<br />

max Lk r 2 (Yk, Zc)<br />

c'Z'Zc=l<br />

Lk r 2 (Yk, Zc) = Lk I1n 2 (Yk',Zc)2 = I1n211 Yk' Zc Il 2 = 1/n 2 c'Z'vy'Zc<br />

si ottiene lo stesso problema (1.4) formulato da Rao.<br />

D'Ambra e Lauro (1992) forniscono un'altra interpretazione. Una volta proiettata<br />

la matrice Y sullo spazio generato dalle colonne linearmente in<strong>di</strong>pendenti <strong>di</strong> Z, si cerca<br />

la combinazione lineare Z(Z'Z)-IZ'Yv <strong>di</strong> varianza massima, owero<br />

max v' (l/n v'Y'Z(Z'Z)-IZ'Yv) V<br />

v'v =1<br />

Anche in questo caso è imme<strong>di</strong>ato verificare che la soluzione per v è fornita dal primo<br />

A A<br />

autovettore della matrice Y' Y .<br />

Nel problema proposto da Escoufier (1987) sono esplicitate le metriche Q e D<br />

adottate rispettivamente nello spazio delle unità e nello spazio delle variabili. Si cerca la<br />

metrica R per le variabili esplicative Z, tale che la <strong>di</strong>stanza tra gli operatori caratteristici<br />

<strong>di</strong> rappresentazione delle unità sia minima<br />

7


La soluzione si ottiene con<br />

R = (Z'DZ)-l Z'DYQY'DZ(Z'DZ)-l<br />

min Il YQY'D - ZRZ'DII 2<br />

ed effettuando un'ACP sulla tema (Z,D,R) owero <strong>di</strong>agonalizzando la seguente matrice<br />

ZRZ'D = Z(Z'DZ)-l Z'DYQY'DZ(Z'DZ)-IZ'D<br />

A<br />

che può essere letta come il prodotto scalare pesato tra le colonne <strong>di</strong> Y.<br />

Tale elenco, non esaustivo, ha il solo scopo <strong>di</strong> descrivere la richezza interpretativa<br />

del metodo e <strong>di</strong> mettere in luce la natura lineare delle relazioni esplorate dal modello<br />

dell'RDA. Spesso, però, è necessario <strong>di</strong>sporre <strong>di</strong> strumenti che siano in grado <strong>di</strong><br />

in<strong>di</strong>viduare relazioni più complesse. A tale scopo è de<strong>di</strong>cato il prossimo capitolo.<br />

8


Least Squares) ha dato l'awio alla serie <strong>di</strong> meto<strong>di</strong> <strong>di</strong> analisi dei dati raccolti sotto la sigla<br />

ALSOS. Tali meto<strong>di</strong> permettono <strong>di</strong> generalizzare le più classiche tecniche multilineari al<br />

caso <strong>di</strong> caratteri con livello <strong>di</strong> misura <strong>di</strong>somogeneo (Gifi, 1990).<br />

Le variabili quantitative, con livello <strong>di</strong> misura numerico, sono anch'esse trasformate, in<br />

modo parametrico, o attraverso funzioni polinomiali, riproducendo in tal caso il modello<br />

lineare, o attraverso basi <strong>di</strong> spline. La loro trattazione risulta comunque marginale<br />

rispetto al ruolo centrale giocato dalle variabili qualitative.<br />

Per lo stu<strong>di</strong>o delle relazioni asimmetriche e non lineari tra due insiemi <strong>di</strong> variabili<br />

miste van den Burg e de Leeuw (1990), nell'ottica delle procedure ALSOS, propongono<br />

una generalizzazione della RDA in cui è possibile considerare anche variabili qualitative.<br />

A tale scopo vengono introqotte delle quantificazioni/trasformazioni, sia delle variabili<br />

esplicative che delle variabili risposta, ottime nel senso dell'Optimal Scaling. Il problema<br />

viene formalizzato nel seguente modo.<br />

Determinare le trasformazioni ottime T I e T 2 rispettivamente delle variabili Y e Z e la<br />

matrice dei parametri del modello A che minimizzano la seguente funzione obiettivo<br />

tr (TI - T2A)'(TI - T2A) /nm<br />

con i vincoli<br />

.. T I e T2 appartenenti all'insieme delle possibili quantificazioni/trasformazioni;<br />

.. rango(A) ::::; r, tale vincolo equivale a porre la seguente fattorizzazione A = FG' con<br />

F matrice <strong>di</strong> or<strong>di</strong>ne (p,r) e G <strong>di</strong> or<strong>di</strong>ne (m,r);<br />

.. F' T2'T2 F = nI<br />

Quest'ultimo vincolo <strong>di</strong> normalizzazione è necessario per la determinazione univoca delle<br />

matrici F e G.<br />

L'insieme delÌe possibili quantificazioni/trasformazioni è, nella. pratica, definito nel<br />

seguente modo<br />

tlk = Gt


Chiudendo questa pàrentesi bibliografica, introduciamo gli elementi necessari per la<br />

determinazione della soluzione dell'espressione (2.2) riportando brevemente le<br />

definizioni <strong>di</strong> funzione spline e <strong>di</strong> funzione natural spline (per maggiori approfon<strong>di</strong>menti<br />

si veda De Boor, 1978).<br />

Una spline <strong>di</strong> or<strong>di</strong>ne r con no<strong>di</strong> nei punti çh...,çk è una funzione che ha le seguenti<br />

proprietà:<br />

(i) è un polinomio <strong>di</strong> or<strong>di</strong>ne r in ogni subintervallo [çi, çi+l)<br />

(ii) ha r-2 derivate continue<br />

(iii) l'(r-l)-sima derivata è una funzione a gra<strong>di</strong>ni con salti in çl,...,çk­<br />

In forma parametrica può essere scritta nel seguente modo<br />

{ O se x ...,çk' in<strong>di</strong>cato con sr(ç}>".,ç0, costituisce uno spazio vettoriale <strong>di</strong> <strong>di</strong>mensione (r+k);<br />

la rappresentazione (2.3) utilizza la base dello spazio definita serie <strong>di</strong> potenze troncata.<br />

Una natural spHne <strong>di</strong> or<strong>di</strong>ne r=2m e k no<strong>di</strong> nei punti çl,...',çk è una spline con la·<br />

proprietà aggiuntiva:<br />

(iv) è un polinomio <strong>di</strong> or<strong>di</strong>ne m al <strong>di</strong> fuori dell'intervallo [çhçkl<br />

14


e matrice <strong>di</strong> varianze e covarianze<br />

L = ì.,Q + 0'-2 8'S<br />

inoltre si ha che<br />

-2 0'2 log p(y!y,O'2) = ±[Yi -f(Xi)]2 +ì.,J(f(ID)(X»)2 dx<br />

i=l a<br />

owero illog della funzione a posteriori è proporzionale alla funzione dei minimi quadrati<br />

penalizzata. Quin<strong>di</strong> lo stimatore smoothing spline risulta essere la me<strong>di</strong>a ed il massimo<br />

della funzione <strong>di</strong> <strong>di</strong>stribuzione a posteriori così costruita. Si noti che la <strong>di</strong>stribuzione a<br />

priori è parzialmente impropria poichè la matrice Q , definita non negativa e simmetrica,<br />

ha due autovalori pari a zero. Tale interpretazione permette <strong>di</strong> considerare utili strumenti<br />

inferenziali (Eubank, 1988, pp.233-267).<br />

Senza soifermarci sui problemi computazionali relativi allo stimatore smoothing<br />

spline, <strong>di</strong>remo solo che un'opportuna scelta della base (Sl> ...,sn) da utilizzare per il<br />

calcolo dello stimatore permette <strong>di</strong> ridurre il numero <strong>di</strong> operazioni. In particolare .<br />

utilizzando come basi le cosiddette B-spline la soluzione si ottiene in un numero <strong>di</strong><br />

operazioni dell'or<strong>di</strong>ne <strong>di</strong> n. Tali basi, oltre a possedere le proprietà delle natural spline,<br />

sono non negative ed hanno un supporto limitato, owero<br />

Sj(X) > O<br />

sjCx) = Ose x è esterno all'intervallo [Xj' Xj+m]<br />

Da quest'ultima pro·prietà deriva che la matrice 8'S è 2m+l-banded cioè Sij = Oper<br />

li-jl > m e ciò comporta notevoli vantaggi computazionali.<br />

17


In quest'ottica risulta ancora più evidente come, sia il valore <strong>di</strong> À per lo stimatore<br />

smoothing spline, che i valori relativi al numero e alla posizione dei no<strong>di</strong> (çl,...,çk) dello<br />

stimatore regression spline siano detti entrambi parametri <strong>di</strong> smooth.<br />

Benchè lo stimatore regression spline rislldti molto semplice dal punto <strong>di</strong> vista<br />

computazionale, la determinazione <strong>di</strong> (çl> ...,ç0 risulta complessa e una scelta non<br />

corretta può portare a conclusioni fuorvianti.<br />

Il modo più semplice per determinare il numero e la posizione dei no<strong>di</strong> per lo<br />

stimatore regression spline è quello <strong>di</strong> trarre suggerimenti da una attenta osservl;lZiòne dei<br />

dati. Eubank (1988) fornisce delle linee guida basate sull'in<strong>di</strong>viduazione dei punti <strong>di</strong><br />

minimo, <strong>di</strong> massimo e <strong>di</strong> flesso nei dati. Essendo il numero <strong>di</strong> parametri da stimare pari a<br />

(m + k ), si tende a considerare pochi no<strong>di</strong> (k=1,2), ma in tal caso la scelta della loro<br />

posizione <strong>di</strong>venta molto influente per i risultati. Un criterio "standard" può essere quello<br />

<strong>di</strong> scegliere no<strong>di</strong> equispaziati (B-spline car<strong>di</strong>nali, de Boor, 1978).<br />

Un altro suggerimento viene dal teorema <strong>di</strong> Curry e Schonberg, riportato da de<br />

Boor (1978, p. 113). Esso determina una relazione tra la molteplicità dei no<strong>di</strong> in un<br />

punto e le con<strong>di</strong>zioni <strong>di</strong> continuità della curva rappresentata con B-spline.<br />

Esistono, comunque, anche meto<strong>di</strong> <strong>di</strong> tipo "automatico" che cercano <strong>di</strong> ottimizzare<br />

un criterio <strong>di</strong> bontà <strong>di</strong> adattamento dello stimatore ai dati. Ad esempio sono stati presi in<br />

considerazione l'errore quadratico me<strong>di</strong>o e la funzione GeV già citata. Tali meto<strong>di</strong> sono<br />

stati adottati, secondo una strategia stepwise ed in un contesto più ampio, da Friedman e<br />

Silverman (1989) nella procedura definita TURBO.<br />

Non esiste, comunque, in letteratura una posizione chiara relativamente alla scelta<br />

del numero e della posizione dei no<strong>di</strong>. Ciò rende l'utilizzazione <strong>di</strong> tale stimatore poco<br />

agevole anche in considerazione della influenza decisiva che ha tale scelta nella<br />

deteminazione del modello.<br />

23


possibili stimatori della funzione f. Lo stimatore polinomiale presuppon.e che Rm sia<br />

trascurabile, lo stima.tore smoothing spline pone un estremo superiore sul suo valore ed<br />

infine lo stimatore regression spline presuppone che Rm possa essere approssimato da<br />

una sommatoria <strong>di</strong>screta.<br />

Nell'approccio dell'Optimal Scaling (OS) le variabili quantitative erano inizialmente<br />

trasformate attraverso l'uso <strong>di</strong> basi polinomiali. Successivamente, per introdurre<br />

trasformazioni non lineari delle variabili, si sono prese in considerazione basi <strong>di</strong> B-spline<br />

<strong>di</strong> or<strong>di</strong>ne e no<strong>di</strong> prefissati, owero degli stimatori regression spline i quali introducono<br />

una ben definita forma parametrica, anche se molto flessibile. Lo stimatore smoothing<br />

spline, ancora non considerato nell'OS, può essere invece utilizzato per i vantaggi <strong>di</strong> cui<br />

gode rispetto allo stimatore regression spline per quanto riguarda la scelta del parametro<br />

<strong>di</strong> smoothing.<br />

Relativamente alle variabili qualitative si riesce a dare una giustificazione all'uso<br />

delle procedure utilizzate nell'OS per la quantificazione delle modalità. Infatti, in tal<br />

caso, lo stimatore ottenuto è unico a meno della determinazione dei coefficienti y, come<br />

si è verificato nel precedente paragrafo.<br />

2.2.5. Modelli multivariati<br />

Per lo stu<strong>di</strong>o delle relazioni tra due insiemi <strong>di</strong> variabili occorre estendere gli<br />

stimatori spline al caso multivariato e multirisposta. Per evitare confusione precisiamo<br />

. . .<br />

nuovamente che con l'aggettivo multivariato si intende denominare i modelli in cui sono<br />

presenti più variabili esplicative, mentre con l'aggettivo multirisposta si intendono più<br />

variabili risposta...Con tale terminologia possiamo introdurre lo stu<strong>di</strong>o delle relazioni<br />

asimmetriche tra due insiemi <strong>di</strong> variabili nell'ambito regressivo.<br />

26


Nel seguito tratteremo modelli multivariati e successivamente si introdurrà<br />

l'estensione multirisposta.<br />

Esistono due <strong>di</strong>versi approcci allo stu<strong>di</strong>o della regressione non parametrica<br />

multivariata. Il primo considera la possibilità <strong>di</strong> estendere il dominio degli stimatori ad<br />

uno spazio RP, dove p è ilnumero <strong>di</strong> variabili esplicative, mentre il secondo, assumendo<br />

l'ad<strong>di</strong>tività degli .effetti, introduce gli stimatori univariati all'interno <strong>di</strong> una struttura<br />

ad<strong>di</strong>tiva.<br />

2.2.5.1. Estensioni multivariate degli stimatorispUne<br />

Supponiamo <strong>di</strong> avere p variabili esplicative Xh...,X p e <strong>di</strong> voler stu<strong>di</strong>are le relazioni<br />

con la variabile risposta Y. Avendo n osservazioni, consideriamo il seguente modello<br />

Yi =f(Xli,· ..,Xpi) + Ei<br />

con<br />

E(Ei) = O E(E?) =0 2 ,<br />

E(Ei Ej) = O i:;f=j i,j=l,...,n<br />

per il quale occorre stimare la funzione f su R p. Noi ci limiteremo a considerare<br />

estensioni multivariate dei soli stimatori smoothing spline e regression spline. Precisiamo<br />

sin dall'inizio che, benchè la trattazione teorica consideri il caso generale <strong>di</strong> p variabili, i<br />

notevoli problemi computazionali legati agli siimatori spline multivariati, rendono in<br />

pratica poco utilizzabili gli stimatori con p>2.<br />

Thin P1Qte Smoothing Spline<br />

Consideriamo la seguente estensione multivariata della funzione dei nuruml<br />

quadrati penalizzata già descritta nel caso univariato (par 2.2.1).<br />

27


successivi paragrafi vedremo come questa idea può essere attuata utilizzando gli<br />

strumenti propri dell'analisi d,ei dati.<br />

2.3.1 Spline-PCAIV e spline-RDA<br />

Per stu<strong>di</strong>are le relazioni non lineari e simmetriche tra i due insiemi <strong>di</strong> variabili e per<br />

attuare l'idea <strong>di</strong> riduzione del modello (2.9), prima esposta, ci sembra naturale cercare un<br />

metodo non lineare <strong>di</strong> RDA seguendo l'impostazione della regressione non parametrica.<br />

Durand (199j) ha proposto un metodo <strong>di</strong> analisi canonica in cui le variabili<br />

pre<strong>di</strong>ttive sono trasformate attraverso spline dei· minimi quadrati, denominandolo spline­<br />

PCAIV (principal Component Analysis with respect to Instrumental Variables), con<br />

riferimento all'omonimo metodo lineare proposto da Escoufier (1987). Data la tema<br />

(Y, Q, D), dove Q e D sono le metriche esplicitamente definite rispettivamente per lo<br />

spazio delle unità e per lo spazio delle variabili, e l'insieme delle variabili esplicative X, si<br />

cerca la trasformata T <strong>di</strong> X e la metrica R tale che la <strong>di</strong>stanza tra gli operatori<br />

caratteristici <strong>di</strong> rappresentazione degli oggetti sia minima owero:<br />

min IIYQY'D - TRT'DI1 2<br />

T,R<br />

essendo<br />

T = {tj}j=l,...,p con. tj = S/l)1bj e Sj (n,dj) basi spline <strong>di</strong> or<strong>di</strong>ne e no<strong>di</strong> fissati a pnon<br />

e d j = (or<strong>di</strong>ne dellaj-esima spline)+(numero <strong>di</strong> no<strong>di</strong> dellaj-esima spline).<br />

Tale problema <strong>di</strong> minimo non ha una soluzione esplicita. Una soluzione approssimata si<br />

ottiene adottando una procedura iterativa che calcola in modo alternato la metrica R,<br />

dati i coefficienti b j G=I, ..,p), secondo l'espressione<br />

R(bh...,b p ) ,;., (T'DT) T'DYQY'DT(T'DT)<br />

33


dove () in<strong>di</strong>ca l'inversa generalizzata, e i coefficienti bj (j=l,..,p), data R, in base al<br />

metodo del gra<strong>di</strong>ente; la <strong>di</strong>rezione <strong>di</strong> <strong>di</strong>scesa ed il passo sono calcolati con il metodo<br />

quasi-Newton oppure con il metodo IIsteepest descent ll (Durand, 1993).<br />

Una volta determinati R e T si applica l' ACP alla tema (T,R,D) o equivalentemente alla<br />

1\. .<br />

tema (Y,Q,D) dove<br />

1\ _<br />

Y = T(T'DT) T'DY<br />

ovvero la proiezione D-ortogonale <strong>di</strong> Y nel sottospazio <strong>di</strong> Rn generato dalle colonne <strong>di</strong><br />

T. Il modello <strong>di</strong> ricostruzione dei dati, considerando r componenti, è:<br />

A<br />

Y == (Y)r= T(T'DT)· T'DY VrVr' =TMN'<br />

dove Vr è la matrice <strong>di</strong> or<strong>di</strong>ne (m,r) costituita dai primi r autovettori associati alla<br />

A<br />

matrice Y, M e N sono·le matrici dei coefficienti canonici<br />

-<br />

M = (T'DT) T'DY V r<br />

N=V r<br />

In termini estesi<br />

(Yk)r= t(±tjmjSJnks<br />

s=1 j=1<br />

(2.10)<br />

si ha che le trasformate spline ty ottenute utilizzando lo stimatore regression spline, sono<br />

comuni a tutte le variabili Y k per k=l,...,m. Consideriamo, ad esempio, il caso <strong>di</strong> r=2<br />

1\ p P<br />

(Ykh = L tjmjlnlk + L tjmj2n2k<br />

j=l j=l<br />

si hanno due combinazioni lineari delle variabili trasformate tj per ciascuna variabile Yk e<br />

esplicitando i coefficienti delle trasformate spline si ha<br />

Cercando un'analogia con il modello della RDA, potremmo <strong>di</strong>re che mjl e mj2 sono i<br />

coefficienti canonici e Sjbjmjh Sjbjmj2 sono le variabili canoniche.<br />

34


Seguendo un approccio più vicino alla RRR <strong>di</strong> Davies,Tso (1982), piuttosto che<br />

alla PCAIV <strong>di</strong> Ecoufier (1987), si propone una <strong>di</strong>versa versione del metodo <strong>di</strong> Durand<br />

che ammette una soluzione <strong>di</strong>retta e non iterativa e nella quale non sono considerate<br />

esplicitamente le metriche, tale versione è stata denominata spline-RDA.<br />

Consideriamo ilmodello ad<strong>di</strong>tivo multirisposta<br />

Y = ±Sj(Xj)Bj +E<br />

j=l<br />

dove Sj (n,dj) j=I,...,p sono p le ba.si spline <strong>di</strong> or<strong>di</strong>ne e no<strong>di</strong> fissati a pnon e Bj (dj>m)<br />

per j=I,...,p le matrici dei coefficienti. Scritto in forma più compatta<br />

Y=S(X)B+E<br />

p<br />

dove S(X) = {St(Xl),S2(X2),""Sp(xp)} è la matrice <strong>di</strong> or<strong>di</strong>ne (n, Ldj) contenente le basi<br />

j=l<br />

<strong>di</strong> spline <strong>di</strong> or<strong>di</strong>ne e no<strong>di</strong> fissati e<br />

p<br />

B(L dj ,m)<br />

j=l<br />

è la matrice dei coefficienti<br />

B = (Bl,B 2 ,...,Bp)'.<br />

La stima del modello si ottiene attraverso la minimizzazione della seguente funzione<br />

obiettivo<br />

min Ily - SBI1 2<br />

Poniamo inoltre il vincolo <strong>di</strong> riduzione <strong>di</strong> rango su B, rango (B) ::; r ,owero<br />

B=FG'<br />

con F(s,r) e G(m,r)<br />

La soluzione si ricava calcolando la stima dei minimi quadrati per B non vincolata,<br />

utilizzando lo stimatore regression spline (Eubank, 1988)<br />

:B = (S' S)-lS'y<br />

ed effettuando poi la SVD della matrice dei valori stimati<br />

1\ 1\<br />

Y =SB =UAV'<br />

La stima <strong>di</strong> rango ridotto, secondo la procedura della RRR, sarà<br />

35


Capitolo terzo<br />

Una nuova proposta per un<br />

multivariata vincolata<br />

problema <strong>di</strong> calibrazione<br />

Utilizzando gli strumenti fino ad ora descritti, affrontiamo un problema <strong>di</strong><br />

calibrazione multivariata. Questo implica, nelle due fasi <strong>di</strong> calibrazione e <strong>di</strong> previsione,<br />

l'uso dell'analisi delle relazioni asimmetriche tra due insiemi <strong>di</strong> variabili.<br />

Introduciamo brevemente la calibrazione multivariata utilizzando un esempiO<br />

particolare. Oltre al settore applicativo della chemiometria, a cui gran parte degli articoli<br />

sulla calibrazione si riferiscono (Sekulic et al., 1993), anche la <strong>di</strong>sciplina delle scienze<br />

naturali <strong>di</strong>mostra un crescente interesse verso lo stu<strong>di</strong>o <strong>di</strong> tali metodologie. In particolare<br />

numerosi lavori sono stati pubblicati sulle relazioni esistenti tra comunità vegetali e"<br />

ambiente (Prentice et aL, 1991; Ter Braak et al., 1993; Ter Braak e Juggins, 1993; Ter<br />

Braak e Wiertz, 1994). Quando le variabili ambientali (inquinamento atmosferico, aci<strong>di</strong>tà<br />

del suolo, variabili climatiche,...) non sono rilevabili o comunque il loro rilevamento<br />

richiede tempi o costi troppo elevati, è possibile utilizzare le numerose· infòrmazioni<br />

contenute nel pattern della vegetazione, rilevando le specie vegetali presenti e stu<strong>di</strong>ando<br />

il tipo <strong>di</strong> associazione da queste adottato. Tale idea è anche alla base degli stu<strong>di</strong> paleo­<br />

ambientali nei quali, partendo dai dati fossili della vegetazione (licheni, pollini,...), si<br />

39


\ ./\ /\<br />

Xh=YhB'(BB,)"1 h=I,...,H<br />

Si noti che inizializzando le Xh= Xo per h=I,...,H, si hanno i seguenti modelli<br />

h=O,I,..,H<br />

e minimizzando la funzione obiettivo<br />

H 2<br />

Lllyh - xoBl1<br />

h=O<br />

otteniamo la stima <strong>di</strong> B<br />

H<br />

LYh<br />

B= (Xo'Xo)"1 X o ' h=O<br />

H+I<br />

mentre con lo stiinatpre classico avremmo avuto<br />

Be = (Xo'Xor l Xo'Yo<br />

Ciò evidenzia quanto già detto in precedenza in relazione alla strategia adottata che<br />

utilizza tutte lè informazioni <strong>di</strong>sponibili e non solo i "training data" (Xo,Yo).<br />

Nel nostro problema <strong>di</strong> calibrazione, però, abbiamo la possibilità <strong>di</strong> sfruttare le altre<br />

informazioni contenute nella matrice Z. Consideriamo, allora, la seguente forma della f.o.<br />

2 .<br />

= Y - (Xo+ Ll)B<br />

in cui si è sostituito il vincolo (3.8). Possiamo detenllinare 11. minimizzando:la f.o: con B<br />

noto, nel seguente modo<br />

11.* =(Y - X oB)B'(BB')-l (3.11)<br />

utilizzando poi il modello (3.9) possiamo determinare la stima del parametro C<br />

C Ll = (Z'Z)-IZ'/!J.* (3.12)<br />

infine avremo che<br />

/\ A<br />

I1.=ZC<br />

e l'espressione per l'aggiornamento <strong>di</strong> X sarà data da<br />

A _ /\<br />

X = Xo+ A<br />

45


*<br />

Quin<strong>di</strong> alternando il calcolo <strong>di</strong> B, A e C possiamo costruire una procedura iterativa per<br />

la determinazione delle variabili Xl>""X H ,<br />

Un altro modo più breve per calcolare X, dato B, è <strong>di</strong> minimizzare <strong>di</strong>rettamente la<br />

seguente forma della fo. rispetto a C<br />

2<br />

= Y - (:Xo+ ZC)B<br />

Il minimo della funzione obiettivo si ha per<br />

Cy =(Z'Z)-IZ'(Y- XoB)B'(BB')-<br />

In tal caso la stima <strong>di</strong> X sarà data dalla seguente espressione<br />

1\ _ _/\<br />

x= X o+ ZCy<br />

(3.13)<br />

1\ 1\<br />

E' imme<strong>di</strong>ato verificare che C Ll = C y e, quin<strong>di</strong>, le due procedure <strong>di</strong> stima conducono allo<br />

stesso risultato.<br />

Prima <strong>di</strong> riportare i due algoritmi iterativi nei quali sono riassunte le suddette<br />

procedure, si sottolinea che i valori assunti dalla funzione obiettivo costituiscono una<br />

successione monotona non crescente e limitata e quin<strong>di</strong> convergente.<br />

Il primo algoritmo, denominato 3-steps, alterna la stima <strong>di</strong> B con la stima non vincolata<br />

<strong>di</strong> A e la stima del parametro C.<br />

Algoritmo C:3-steps"<br />

(O) inizializza Al,'''' AH<br />

calcola Xh = Xo+ Ah h=l,...,H<br />

(1) calcola B utilizzando la formula (3.10)<br />

(2) calcola A* non vincolato utilizzando la (3.11)<br />

1\ .<br />

(3) calcola Cd attravero la (3.12)<br />

1\<br />

aggiorna Ah = tll ZCd h=l, ,H<br />

aggiorna Xh = Xo+ Ah h=l, ,H<br />

46


{ E (<br />

02J(C)]}-1 oJ(c)<br />

acoe' oc<br />

c new = c- --<br />

calcolando le derivate prima e seconda<br />

dove con gik si è in<strong>di</strong>cato il valore della funzione gk nel punto xi , si ha<br />

tale formula può essere considerata come una stima dei minimi quadrati pesati della<br />

variabile <strong>di</strong>pendente <strong>di</strong> lavoro<br />

rispetto alle variabili Z, conp?si<br />

(Wk)ii= b"(8ik) g'k (Xi)2· per ogni i e k.<br />

In termini matriciali si ha dunque<br />

ID .<br />

c new = (Z'WZrIZ' LWkçk'·<br />

k<br />

dove W = }: k W k<br />

57<br />

(3.21)


che esplicita la relazione con le variabili z.<br />

Allora, utilizzando i pesi W (3.27), si ha<br />

ooew= z (Z'wzt1z'wo*<br />

Esponiamo ora l'algoritmo 3-steps<br />

Algoritmo 3-steps<br />

(O) inizializza 0i e calcola xi = }COi + 0i i=l,..., li<br />

inizializza gk(xi) = gkO(Xi) i=l,..., li e k=l,...,m.<br />

(1) calcola 0* (o non vincolato) in base alla (3.26)<br />

(2) aggiorna Oin base alla (3.28)<br />

aggiorna xi = }COi + 0i i=l,..., li<br />

(3) calcola gk in base alla (3.22) k=l,...,m.<br />

verifica la convergenza<br />

I/xo 1d _ xoewI/ < 8<br />

altrimenti vai al passo (1).<br />

(3.28)<br />

Anche in questo caso è semplice verificare che i risultati dei due algoritmi 2-steps e<br />

3-steps sono uguali, infatti al passo (2) dell'algoritmo 3-steps l'aggiornamento <strong>di</strong> Oè dato<br />

da<br />

m<br />

0= Z (Z'WZ)-IZ'Wo*= Z (Z'wzt1z'WW-1L:Wk/;k=<br />

k<br />

m<br />

= Z (Z'wzt1z LWk/;k<br />

le<br />

mentre nell'algoritmo 2-steps, utilizzando l'espressione (3.21) per c si ha<br />

III<br />

0= Zc = Z (Z'WZ)-IZ'LWk/;k<br />

k<br />

che è uguale alla (3.29).<br />

61<br />

(3.29)


3.4. Un esempio con dati simulati<br />

Per verificare le nuove procedure definite nel capitolo 3, sono state effettuate<br />

delle simulazioni. In particolare si sono considerati sia il caso del modello lineare, per il<br />

quale lo stimatore classico e lo stimatore RRR (descritto nel paragrafo 3.1) sono stati<br />

posti a confronto, sia quello non lineare sul quale è stato applicato lo stimatore ALS<br />

(paragrafo 3.3.2).<br />

Modello lineare<br />

Per il modello lineare, descritto dalle relazioni (3.4), (3.5) e (3.6), è stato<br />

considerato un campione <strong>di</strong> n=30 unità, m=5 variabili risposta, p=2 variabili esplicative e<br />

h=O,l (corrispondentemente all'esperimento <strong>di</strong> calibrazione e all'esperimento <strong>di</strong><br />

previsione). Si è inoltre ipotizzato che le unità siano <strong>di</strong>sposte su <strong>di</strong> una griglia regolare 6<br />

x 5; le variabili ausiliarie ZI (l = 1,2) in<strong>di</strong>cano le coor<strong>di</strong>nate spaziali <strong>di</strong> tale griglia. Si<br />

riportano le relazioni utilizzate per la determinazione dei dati<br />

YOk = XoI b1k + Xo2 b2k + eok<br />

Ylk = Xll b1k + X12 b2k + elk<br />

Xll = Xol + 011<br />

X12 = Xo2 + 012<br />

Al =ZC+EI*<br />

k=1, ,5<br />

k=1, ,5<br />

Gli errori sono stati generati da <strong>di</strong>stribuzioni normali <strong>di</strong> me<strong>di</strong>a zero e varianza fissata. Gli<br />

m modelli, per ciascuna variabile risposta, sono in<strong>di</strong>pendenti.<br />

Si è considerata,' come già detto, sia la stima prodotta dallo stimatore classico<br />

che quella determinata attraverso la Reduced Rank Regression (RRR). Tali stimatori<br />

sono stati confrontati sotto" due <strong>di</strong>fferenti ipotesi. La prima è che i dati relativi<br />

68


Nella seconda ipotesi "<strong>di</strong>verso range" (figura 4) i risultati sono meno<br />

sod<strong>di</strong>sfacenti e, per quanto riguarda la prima variabile esplicativa, i residui crescono via<br />

via che ci si allontana dal range relativo alla fase <strong>di</strong> calibrazione (in<strong>di</strong>viduabile dai valori<br />

esatti <strong>di</strong> Xo),<br />

'i.<br />

o<br />

"7<br />

MODELLO NON LINEARE "<strong>di</strong>verso range"<br />

10 20 30 -20 O 20 40 60<br />

stimatore ALS x1 0=1 ) stlmatore ALS x10=2)<br />

............ _-<br />

.. "":<br />

"" ••D _.a a<br />

.. ..<br />

10 20 30 40<br />

x1true 0=1)<br />

e . . D.<br />

e e<br />

Figura 4<br />

... . ... ... .<br />

··.a· ·.a ..<br />

•••• a-I.. ••••• • •<br />

e e e<br />

-20 O 20 40 60<br />

x1true 0=2)<br />

Nella tabella 2 sono,in<strong>di</strong>cate le percentuali <strong>di</strong> varianza non spiegata; i valori<br />

"<br />

risultano ancora contenuti anche se nell'ipotesi <strong>di</strong> "<strong>di</strong>verso range" si ha un sensibile<br />

aumento.<br />

stesso range <strong>di</strong>verso range<br />

j=l j=2 j=l j=2,·<br />

Istimatore ALS 1,270 1,275 5,478 6,064<br />

Tabella 2. Percentuale <strong>di</strong> varianza non spiegata<br />

72


Bibliografia<br />

ANDERSON T. W. (1984) An Introduction to Multivariate <strong>Statistica</strong>l Analysis, John Wiley<br />

& SonsLtd.<br />

BARTI..EIN P. J., WmTI..OCK C. (1993) Paleoclim'atic interpretation of the Elk Lake pollen<br />

record, Geological Society ojAmerica, Special Paper 276.<br />

BROWN,P.J. (1982). Multivariate Calibration. J.R. Statisti. Soc. B 44, 287-231.<br />

CHAlv1BERS J. M., HAsTIE T. J. (eds) (1991) <strong>Statistica</strong>l Models in S, Pacific Grove:Wadsworth<br />

and Brooks/Cole.<br />

COHMAPMEJ:vIBERS (1988) Climatic Changes ofthe Last 18,000 Years: Observation and Model<br />

Simulations, Science, 241, 1043-1052.<br />

D'AJ:vIBRA L., LAURO N. C. (1992) Non symmetrical exploratory data analysis, <strong>Statistica</strong><br />

Applicata 4,511-529.<br />

DAVIES, P. T., Tso, M. K-S (1982). Procedures for Redunced-rank Regression Appl. Statfst.<br />

31, 244-255.<br />

DE BOOR C. (1978). A praticai Guide to Splines. Spinger-Verlag, New York.<br />

DI CIACCIO A. (199.) Analisi simultanea dei caratteri' qualitativi e quantitativi attraverso la<br />

parametrizzazione dei dati, Metron, ..........<br />

DURAND J.F. (1993). Generalized Principal'Component Analysis with respect to instrumental<br />

Variables via Univariate Spline Trasformations, Computational Statistics & Analysis 16,<br />

423-440.<br />

ESCOUFIER Y. (1987) Principal Component Analysis with respect to Instrumental Variables,<br />

European CourSes in Advanced Statistics (Università <strong>di</strong> Napoli), 285-299.<br />

EUBAill( R.L. (1988). Smoothing Splines and Non Parametric Regressfon. Markel Dekker,<br />

New York and BaseI.<br />

73


FRIEDMAN, SILVERMAN (1989) FIexibIe Parsimonious Smoothing and Ad<strong>di</strong>tive Modeling (con<br />

<strong>di</strong>scussione), Techometrics 31, 3-39.<br />

GIFI A. (1990) Nonlinear MlIltivariate Analysis, Wiley, New York.<br />

GREEN P. l, SILVERMAN P. W. (1994) Nonparametric Regression and Generalized Linear<br />

Models: A Roughness Penalty Approach, Chapman and Hall, London.<br />

HARDLE W. (1990) AppliedNonparametric Regression, Cambridge University Presso<br />

HASTIE C.I ,TrnsHIRANI R.I. (1990). Generalized Ad<strong>di</strong>tive models, Statistics and Applied<br />

Probability 43, Chapman and Hàll, London.<br />

HASTIE C.I. ,TIBSHIRANIR.J. (1993) Varying"coefficient ModeIs, J. R. Statist. Soc. B 55, 757­<br />

796.<br />

HUNTLEY R, PRENTICE L C. (1988) JuIy Tempatures in Europe from Pollen Data,'6000 Years<br />

Before Present, Science 241,687-690.<br />

ISRAELS A. (1992) Redundancy anaIysis for various types ofvariabIes, <strong>Statistica</strong> Applicata. 4,<br />

531-542.<br />

KIMELDORFG., WAHBA G., (1971) Some resuIts on Tchebycheffian spline finctions, J.<br />

MathAnal. Appl. 33, 82-95.<br />

LYCHE T., SCHUMAKERL., (1973) Computation ofsmoothing and interpolating natural splines<br />

via Iocai bases, SIAMJ. Numer. Anal. lO, 1027-1038.<br />

MARTENS H., NAES T. (1993)"MlIltivariate Calibration, JoOO Wiley & Sons Ltd.<br />

MCCULLAGH P., NELDER J. A. (1989) Generalized Linear Models, Chapman and Hall,<br />

London.<br />

OSBORNE C: (1991) <strong>Statistica</strong>l Calibration: A Review, International <strong>Statistica</strong>l Review 59, 3,<br />

309-336.<br />

RAo C. R. (1964) The use and inferpretation of principai components anaIysis in applied<br />

research, Sankhya serie A, 26, 329-358.<br />

REINSCH C., (1967) Smoothing by spline functions, NlIIner. Math. lO, 177-183.<br />

ROBERTP., ESCOUFIER Y. (1976) A Unif}'ing tool for linear multivariate statistical methods:<br />

the RV-coefficient, Applied Statistics 25, 257-265.<br />

74


SABATIER R., LEBRETON J. D., CHESSEL D. (1989) Prinçipal component analysis with<br />

:\<br />

instrumentaI variables as a tool for modeUing composition data, Multiway Data<br />

Analysis, Coppi R., Bolasco S. (eds.), Elvesier Science Publishers B. V., North<br />

Holland, 341-352:<br />

SEKULIC S., SEASHOLTZ M.B. WANG Z., COLWALSKI B. R, LEE S. E., HOLT B. R (1993)<br />

Nonlinear Multivariate Calibration Methods in Analitical Chemestry, Analitical<br />

Chemistry 65, 835-846,<br />

SILVERMAN B. W. (1985) Some Aspects of the Spline Smoothing Approach to Non­<br />

parametric Regression Curve Fitting, 1. R. Statist. Soc. B 47, l-52.<br />

TER BRAAK C. J. F., JUGGINS S. (1993) Weighted Average Partial Least Squares Regression<br />

(Wa-Pls): An Improved Method for Reconstraction Environmental Variables from<br />

Species Assemblages, Hidrobiologia 269/270, 485-502.<br />

TER BRAAK C. 1. F., JUGGINS S., BIRKS H. J. B., VAN DER VOET H. (1993) Weighted<br />

Average Partial Least Squares Regression (Wa-PIs): Definition and Comparison with<br />

other Methods for Species-Environment Calibration in PatiI G. P., R,.ao C. R (eds)<br />

Multivariate Environmental Statistics, Elsevier Science Publishers B.V..<br />

TER BRAAK C.J. F., WIERTZ J. (1994) On the <strong>Statistica</strong>lAnalysis of Vegetation Change:<br />

Affected by Water Extration and SoiI Aci<strong>di</strong>fication, Jomal oJVegetation Science 5, 361-<br />

372.<br />

VAN DEN BURG E., DE LEEW J., (1990). Non-linear Redundancy Aflalysis. British Joumal oJ<br />

Mathematical and <strong>Statistica</strong>l Psychology 43,217-230.<br />

VAN DEN WOLLEMBERG A. L. (1977) Redulldancy· analysis:' analternative for canonical<br />

correlation analysis, Psycometrika 2, 207-219.<br />

WAHBA GRACE (1978) Improper priors, splille smoothing and the problem ofguar<strong>di</strong>ng against<br />

model errors in regression, 1. R. Statlst. Soc. B 40, 364-372.<br />

WAHBA GRÀcE (1985) A comparison of GCV and GML for choosing the smoothing<br />

parameter in the generalized spline smoothing problem, Ann. Statist. 13, 1378-1402.<br />

WAHBA GRACE (1990). Spline modelsfor Observatlonal Data. Siamo<br />

'.<br />

YOUNGF. \V. (1981) Quantitative Analysis ofQualitativeData, Psychometrika46, 357-388.<br />

75


STAMPATO CON IL MUL TlLlTH DEL DIPARTIMENTO DI<br />

STATISTICA, PROBABILITA' E STATISTICHE APPLICATE<br />

Universita' <strong>di</strong> Roma "La <strong>Sapienza</strong>"<br />

Capo Centro Stampa - FRANCESCHETTI Orfeo<br />

Agenti <strong>di</strong> Stamperia - MAZZOLI Mario<br />

PAGANUCCI Giuseppe

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!