13.07.2015 Views

una tecnica per la regressione locale - Department of Mathematics ...

una tecnica per la regressione locale - Department of Mathematics ...

una tecnica per la regressione locale - Department of Mathematics ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

POLITECNICO DI MILANOFacoltà di Ingegneria dei SistemiCorso di Laurea in Ingegneria MatematicaLOESS: UNA TECNICA PER LAREGRESSIONE LOCALERe<strong>la</strong>tore: Pr<strong>of</strong>. PIERCESARE SECCHITesi di Laurea di Primo livello di:MARTA COLOMBO Matr. 650663Anno Accademico 2004-2005


Ringrazio il Pr<strong>of</strong>. Piercesare Secchi <strong>per</strong> <strong>la</strong> sua attenta e sempre cortesedisponibilità.Un grazie partico<strong>la</strong>re a Simone Vantini che mi è stato di indispensabileaiuto e conforto nel<strong>la</strong> stesura di questo <strong>la</strong>voro.Ringrazio <strong>la</strong> Pr<strong>of</strong>.ssa Raffael<strong>la</strong> Pavani <strong>per</strong> l’appoggio che mi ha dato inquesti mesi di grande impegno.Ringrazio Alberto e Alessandra <strong>per</strong> l’aiuto avventuroso ed indispensabile cheha dato il via al<strong>la</strong> mia tesi di <strong>la</strong>urea.Grazie a Silvia, Lisa e Tommaso <strong>per</strong> esserci sempre stati.


IndiceIntroduzione 31 La <strong>regressione</strong> <strong>locale</strong> 41.1 Presentazione del modello . . . . . . . . . . . . . . . . . . . . 41.1.1 Caratteristiche del<strong>la</strong> su<strong>per</strong>ficie . . . . . . . . . . . . . . 51.1.2 Caratteristiche dei termini di errore . . . . . . . . . . . 71.2 La stima del<strong>la</strong> su<strong>per</strong>ficie . . . . . . . . . . . . . . . . . . . . . 71.2.1 Il metodo Loess . . . . . . . . . . . . . . . . . . . . . . 71.2.2 Su<strong>per</strong>fici condizionatamente parametriche . . . . . . . 121.2.3 Errori non gaussiani e stima robusta . . . . . . . . . . 131.3 Inferenza statistica . . . . . . . . . . . . . . . . . . . . . . . . 151.3.1 Stima di σ ed intervalli di confidenza <strong>per</strong> g(x) . . . . . 151.3.2 Prova delle ipotesi <strong>per</strong> il confronto di diversi modelli . 171.3.3 Il numero di parametri equivalenti . . . . . . . . . . . . 191.3.4 Errori con distribuzione simmetrica . . . . . . . . . . . 211.4 Metodi computazionali <strong>per</strong> <strong>la</strong> valutazione del<strong>la</strong> su<strong>per</strong>ficie . . . 232 Tecniche alternative di smoothing 282.1 Stimatori <strong>per</strong> g . . . . . . . . . . . . . . . . . . . . . . . . . . 282.1.1 Kernel Smoothers . . . . . . . . . . . . . . . . . . . . . 282.1.2 Funzioni di tipo spline . . . . . . . . . . . . . . . . . . 332.2 Proprietà statistiche . . . . . . . . . . . . . . . . . . . . . . . 392.2.1 Distorsione . . . . . . . . . . . . . . . . . . . . . . . . 402.2.2 Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . 421


2.2.3 Gradi di libertà . . . . . . . . . . . . . . . . . . . . . . 432.2.4 Stima di σ 2 . . . . . . . . . . . . . . . . . . . . . . . . 442.3 Statistiche <strong>per</strong> stimatori lineari: ampiezza di banda ed inferenza 442.3.1 Determinare il valore dei parametri . . . . . . . . . . . 452.3.2 Inferenza Statistica . . . . . . . . . . . . . . . . . . . . 493 Tecniche a confronto 513.1 Loess e Kernel Smoothers . . . . . . . . . . . . . . . . . . . . 513.2 Loess e Smoothing Splines . . . . . . . . . . . . . . . . . . . . 573.3 Esempio di <strong>regressione</strong> multip<strong>la</strong> tramite Loess . . . . . . . . . 624 Esplorazione di un set di dati reali 664.1 Il database BDI . . . . . . . . . . . . . . . . . . . . . . . . . . 664.2 La scelta delle variabili d’interesse . . . . . . . . . . . . . . . . 674.3 I risultati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 704.3.1 Distinzione <strong>per</strong> area geografica . . . . . . . . . . . . . . 714.3.2 Distinzione <strong>per</strong> sesso . . . . . . . . . . . . . . . . . . . 754.3.3 Distinzione <strong>per</strong> titolo di studio . . . . . . . . . . . . . . 834.4 Pregi e difetti dell’analisi . . . . . . . . . . . . . . . . . . . . . 925 Discussione conclusiva 94A Le funzioni R utilizzate 97A.1 Loess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97A.2 Ksmooth . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99A.3 Smooth.spline . . . . . . . . . . . . . . . . . . . . . . . . . . . 100Bibliografia 1022


IntroduzioneArgomento di questa tesi è <strong>una</strong> partico<strong>la</strong>re <strong>tecnica</strong> di stima, adottata inmodelli di <strong>regressione</strong> <strong>locale</strong>, che si chiama Loess.Il Loess presenta caratteristiche interessanti, <strong>per</strong>chè, grazie al<strong>la</strong> sua flessibilità,<strong>per</strong>mette di cogliere possibili legami tra variabili, anche quando questinon siano facilmente intuibili. Dopo aver introdotto il Loess, <strong>per</strong> comprendernemeglio pregi e difetti saranno illustrate alcune altre tecniche alternativedi <strong>regressione</strong> che verranno poi utilizzate come termini di confronto. Infine,il Loess sarà applicato ad un’analisi di dati campionari frutto di un’indagineeffettuata dal<strong>la</strong> Banca d’Italia e inerente ai bi<strong>la</strong>nci delle famiglie italianenell’anno 2002. In partico<strong>la</strong>re si indagherà <strong>la</strong> propensione degli individuiad effettuare investimenti in attività finanziarie a medio ed alto rischio inre<strong>la</strong>zione al<strong>la</strong> loro età e ricchezza netta.3


Capitolo 1La <strong>regressione</strong> <strong>locale</strong>1.1 Presentazione del modelloLa <strong>regressione</strong> <strong>locale</strong> si propone di descrivere <strong>la</strong> re<strong>la</strong>zione esistente tra <strong>la</strong>variabile risposta y e p predittori x attraverso il modello seguente:y i = g(x i ) + ε i<strong>per</strong> ogni i = 1 . . . ndove y i è l’i-esima osservazione del<strong>la</strong> risposta, x i l’i-esima osservazione dei ppredittori ed ε i l’errore casuale. Questo modello è non parametrico <strong>per</strong>chènon si presume che g appartenga a <strong>una</strong> specifica c<strong>la</strong>sse parametrica di funzioni,ma si assume solo che essa presenti alcune condizioni di rego<strong>la</strong>rità.Il metodo su cui si basa <strong>la</strong> <strong>regressione</strong> <strong>locale</strong> <strong>per</strong> stimare <strong>la</strong> funzione di <strong>regressione</strong>g si chiama Loess, abbreviazione di local regression. Tale metodoappartiene al<strong>la</strong> c<strong>la</strong>sse degli stimatori lineari, dei quali si riporta <strong>la</strong> definizione.Definizione 1. Uno stimatore ĝ si dice lineare se esiste <strong>una</strong> matrice n × nparametrizzata da α, L α , tale che:ĝ(x) =n∑L α (x, x i )y ii=1<strong>per</strong> ogni x arbitrarioLa matrice L è chiamata smoother matrix oppure, in analogia con <strong>la</strong> termino-4


logia propria del<strong>la</strong> <strong>regressione</strong> lineare, matrice hat ed è simmetrica e definitapositiva, mentre il parametro α è detto parametro di lisciamento e <strong>la</strong> suadefinizione è molto importante <strong>per</strong> <strong>la</strong> caratterizzazione dei diversi stimatori.Le idee di base del Loess sono le seguenti:- si presuppone che esista un intorno di x nel quale <strong>la</strong> su<strong>per</strong>ficie di <strong>regressione</strong>sia ben approssimata da <strong>una</strong> funzione appartenente ad <strong>una</strong>specifica c<strong>la</strong>sse parametrica, tipicamente <strong>la</strong> c<strong>la</strong>sse dei polinomi di primoo di secondo grado;- g è stimata in x utilizzando il metodo dei minimi quadrati pesati, doveil peso di ogni osservazione (x i , y i ) decresce al crescere del<strong>la</strong> distanzadi x i da x.Prima di entrare nei dettagli facciamo alcune assunzioni re<strong>la</strong>tive al modello emettiamo in luce le proprietà che possiamo attribuire a g ed ε. È importantesottolineare che le assunzioni si traducono in condizioni sui dati che vannoverificate mediante metodi di diagnostica.I predittori x possono essere variabili sia quantitative che categoriche. Nelcaso in cui siano presenti queste ultime, le osservazioni vengono suddivise insottoinsiemi, uno <strong>per</strong> ogni combinazione dei livelli delle variabili categoriche.Ad esempio, supponiamo ci siano due predittori categorici con due livelli ciascuno,maschio e femmina <strong>per</strong> il primo, bianco e nero <strong>per</strong> il secondo. Allorasi hanno quattro combinazioni possibili e di conseguenza quattro sottoinsiemidi osservazioni. La <strong>regressione</strong> viene fatta separatamente in ogni sottoinsieme.D’ora in poi supporremo che i predittori siano tutti quantitativi. Sinoti che, <strong>per</strong> <strong>la</strong> stesura di questo capitolo, l’ipostazione seguita è quel<strong>la</strong> diWilliam S. Cleve<strong>la</strong>nd, Eric Grosse e William M. Shyu [1].1.1.1 Caratteristiche del<strong>la</strong> su<strong>per</strong>ficieSupponiamo che <strong>per</strong> ogni x nello spazio dei predittori <strong>la</strong> su<strong>per</strong>ficie g possaessere stimata in un opportuno intorno con un polinomio di grado λ, dove λassume solo i valori 1 e 2. Le dimensioni dell’intorno sono determinate, in5


ase al<strong>la</strong> sparsità delle osservazioni, attraverso il parametro di lisciamentoα, aspetto che sarà chiarito adeguatamente descrivendo il metodo Loess.Per par<strong>la</strong>re di dimensioni va introdotta <strong>una</strong> metrica adeguata e quindi <strong>una</strong>funzione distanza: quel<strong>la</strong> che verrà utilizzata qui è <strong>la</strong> distanza euclidea. Ora,supponiamo che ci siano due predittori, u e v. Se vogliamo o<strong>per</strong>are conpolinomi lineari dovremo trattare tre monomi: <strong>una</strong> costante, u e v. Invece<strong>per</strong> polinomi quadratici avremo sei monomi: <strong>una</strong> costante, u, v, uv, u 2 e v 2 .Il numero dei monomi è espresso dal parametro τ. In alcuni casi, quando ipredittori sono in numero maggiore o uguale a due, può essere appropriatoomettere il quadrato di uno dei predittori quando λ è uguale a 2, oppurerichiedere che <strong>la</strong> su<strong>per</strong>ficie sia parametrica condizionatamente a uno specificosottoinsieme dei predittori. Illustriamo quest’ultimo concetto con due esempiin cui i predittori sono u e v:- <strong>per</strong> λ = 1 imponiamo al<strong>la</strong> su<strong>per</strong>ficie di essere condizionatamente parametricain u; allora dato v, <strong>la</strong> su<strong>per</strong>ficie, lineare in u, è del<strong>la</strong> formay = β 0 (v) + β 1 (v)u- <strong>per</strong> λ = 2 supponiamo che <strong>la</strong> su<strong>per</strong>ficie sia condizionatamente parametricain u; allora dato v, essa è quadratica in u e si può scriverecosìy = β 0 (v) + β 1 (v)u + β 2 (v)u 2L’ipotesi che <strong>la</strong> su<strong>per</strong>ficie sia condizionatamente parametrica in uno o piùpredittori risulta sensata nel caso in cui l’esplorazione dei dati o informazionia priori suggeriscono che <strong>la</strong> su<strong>per</strong>ficie è globalmente <strong>una</strong> funzione moltorego<strong>la</strong>re di questi predittori. Fare <strong>una</strong> richiesta di questo tipo porta ad <strong>una</strong>procedura meno onerosa <strong>per</strong> il calcolo del<strong>la</strong> su<strong>per</strong>ficie. Questo aspetto saràripreso durante l’illustrazione del metodo Loess.6


1.1.2 Caratteristiche dei termini di erroreSupponiamo che gli errori ε i siano variabili aleatorie indipendenti di media0. Per quanto riguarda <strong>la</strong> loro distribuzione si possono fare due ipotesidiverse: <strong>la</strong> prima è che essa sia gaussiana, <strong>la</strong> seconda è che <strong>la</strong> distribuzionesia simmetrica e leptocurtica, assunzione che ci porta ad utilizzare metodidi stima robusta in modo da penalizzare, nell’assegnazione dei pesi necessarial<strong>la</strong> stima di g, le osservazioni con residui troppo grandi. Anche in meritoal<strong>la</strong> varianza degli ε i possiamo o<strong>per</strong>are due scelte. La prima consiste nelconsiderare <strong>la</strong> varianza costante e pari a σ 2 . La seconda invece prevede chesiano costanti le varianze non degli ε i ma dei termini a i ε i , dove gli a i sonopesi noti a priori e positivi.1.2 La stima del<strong>la</strong> su<strong>per</strong>ficie1.2.1 Il metodo LoessIl Loess è il metodo attraverso il quale si ottiene ĝ(x), <strong>la</strong> stima di g <strong>per</strong>uno specifico valore di x. Tale stima è <strong>una</strong> stima ai minimi quadrati <strong>la</strong>cui caratteristica distintiva è che le osservazioni non contribuiscono tutte inmodo uguale al calcolo di ĝ(x), come invece avviene nel<strong>la</strong> <strong>regressione</strong> linearec<strong>la</strong>ssica, ma ciasc<strong>una</strong> riceve un peso inversamente proporzionale al<strong>la</strong> propriadistanza da x.Diventa, quindi, fondamentale definire il sistema dei pesi, che dipende dalvalore del parametro di lisciamento α in quanto questo fissa <strong>la</strong> frazione diosservazioni alle quali assegnare peso non nullo. Di conseguenza l’ampiezzadell’intorno di x da considerare <strong>per</strong> stimare g non risulta costante ma èmaggiore là dove è maggiore il grado di sparsità dei punti osservati.Sia α > 0 e ∆ i (x) <strong>la</strong> distanza euclidea di x i da x, nello spazio dei predittori.Siano ∆ (i) (x) i valori di queste distanze ordinate dal<strong>la</strong> più picco<strong>la</strong> al<strong>la</strong> più7


grande e sia così definita <strong>la</strong> funzione tricubica dei pesi:{(1 − u 3 ) 3 <strong>per</strong> 0 ≤ u < 1T (u) =0 <strong>per</strong> u ≥ 1Supponiamo che α ≤ 1. Sia allora q pari al<strong>la</strong> parte intera di α ∗ n, dove n èil numero di osservazioni.I pesi <strong>per</strong> (x i , y i ) sono definiti in questo modo:w i (x) = T( )∆i (x)∆ (q) (x)dove ∆ (q) (x) è il massimo delle distanze tra quelle re<strong>la</strong>tive ai primi q puntipiù vicini ad x. Otteniamo dunque che le osservazioni più vicine ad x hannopeso maggiore e inoltre T (u) = 0 <strong>per</strong> u ≥ 1, dove u = ∆ i(x)∆ (q), cioè tutte le(x)osservazioni che hanno distanza maggiore o uguale di ∆ (q) (x) da x ricevonopeso nullo; questo fatto implica che, fissato x, <strong>la</strong> stima di g viene fattatenendo in considerazione sempre lo stesso numero di osservazioni.Per α > 1 i pesi w i (x) sono definiti allo stesso modo ma ∆ (q) (x) è sostituitoda ∆ (n) (x)α 1/p dove p è il numero dei predittori. In questo modo si vannoa considerare tutte le n osservazioni <strong>per</strong>chè u non sarà mai maggiore di 1,quindi a ness<strong>una</strong> osservazione è assegnato peso nullo. In definitiva i pesi sonosempre tali da decrescere o rimanere costanti al crescere del<strong>la</strong> distanza di x ida x.A questo punto non resta che scegliere il grado del polinomio approssimante,se λ = 1 avremo un polinomio lineare, se λ = 2 esso sarà quadratico. Inogni caso si utilizza il metodo dei minimi quadrati pesati con i valori w i . Vanotato, infine, che al crescere di α e in partico<strong>la</strong>re <strong>per</strong> α tendente all’infinito,ĝ(x) tende ad essere <strong>una</strong> su<strong>per</strong>ficie globalmente lineare <strong>per</strong> λ = 1, quadratica<strong>per</strong> λ = 2 e quindi tende al<strong>la</strong> ĝ(x) che si otterebbe con <strong>la</strong> <strong>regressione</strong> lineare.8


Esempi illustrativiPer mostrare o<strong>per</strong>ativamente qual’è il risultato di un’approssimazioneloess presentiamo qui tre grafici realizzati con il s<strong>of</strong>tware statistico R facendovariare il parametro α che, nel<strong>la</strong> funzione loess già presente in R, viene chiamatospan, ed anche il grado λ del polinomio approssimante a livello <strong>locale</strong>.Il set di dati usato è costituito da 88 osservazioni ed è già presente in R sottoil nome di ethanol. I dati derivano da uno studio sui gas di scarico prodottida un motore a Etanolo: <strong>la</strong> variabile z rappresenta <strong>la</strong> concentrazione di Ossididi Azoto (NOx), espressa come µg di NOx <strong>per</strong> Joule, mentre <strong>la</strong> variabilex è <strong>una</strong> misura del<strong>la</strong> ricchezza del<strong>la</strong> misce<strong>la</strong> di aria e carburante.Figura 1.1: α = 0.19


Figura 1.2: α = 0.5Figura 1.3: α = 2Osservando i grafici si può notare che, <strong>per</strong> α = 0.1, sembra esserci un problemadi sovra-adattamento (over-fitting), del modello ai dati; in casi comequesto, nei quali ĝ tende ad interpo<strong>la</strong>re i dati, <strong>la</strong> distorsione sarà molto bassa,tendente a zero, così come <strong>la</strong> varianza dei residui, ma <strong>la</strong> varianza di ĝsarà massima. La ragione di ciò è che, quando ĝ interpo<strong>la</strong> i dati, il modello10


sta interpo<strong>la</strong>ndo anche i termini di errore. Per α = 2 si vede, invece, cheil fitting è molto scarso, quindi <strong>la</strong> varianza di ĝ sarà minore, a scapito del<strong>la</strong>distorsione, <strong>la</strong> quale aumenterà. Il valore di α <strong>per</strong> il quale sembra raggiuntoil compromesso migliore tra varianza e distorsione è dunque 0.5 e ciò emergeguardando le curve di Figura 1.2.Per commentare in modo più completo quanto ottenuto riportiamo gli outputdi R re<strong>la</strong>tivi alle curve loess quadratiche.> span0.1 span0.1Call: loess(formu<strong>la</strong> = z ~ x, span = 0.1, degree = 2)Number <strong>of</strong> Observations: 88 Equivalent Number <strong>of</strong> Parameters: 36.17Residual Standard Error: 0.2748> span0.5 span0.5Call: loess(formu<strong>la</strong> = z ~ x, span = 0.5, degree = 2)Number <strong>of</strong> Observations: 88 Equivalent Number <strong>of</strong> Parameters: 6.16Residual Standard Error: 0.3373> span2 span2Call: loess(formu<strong>la</strong> = z ~ x, span = 2, degree = 2)Number <strong>of</strong> Observations: 88 Equivalent Number <strong>of</strong> Parameters: 3.07Residual Standard Error: 0.5366In essi sono presenti, oltre alle informazioni generali, due quantità: il numerodi parametri equivalenti e <strong>la</strong> deviazione standard dei residui. Al numero diparametri equivalenti sarà dedicata, più avanti, un’intera sezione, ma anticipiamoqui che esso dà un’indicazione re<strong>la</strong>tiva al grado del polinomio che,11


globalmente, si avvicina di più al<strong>la</strong> curva loess; più il valore di questo parametroè basso, più <strong>la</strong> curva sarà liscia.Osservando i tre output possiamo dire che, in generale, al crescere dello spandiminuisce il numero di parametri equivalenti; d’altra parte <strong>la</strong> curva tendea seguire di meno i dati quindi si ha un aumento del<strong>la</strong> deviazione standarddei residui. Guardando, invece, come variano i parametri a parità di spanin corrispondenza dei due possibili valori di λ, si nota che, con Loess lineareinvece che quadratico diminuisce il numero di parametri equivalenti, mentre<strong>la</strong> deviazione standard dei residui aumenta di poco, <strong>per</strong> span piccoli, di molto<strong>per</strong> span grandi.1.2.2 Su<strong>per</strong>fici condizionatamente parametricheAbbiamo visto che <strong>una</strong> delle caratteristiche che si possono attribuire al<strong>la</strong>su<strong>per</strong>ficie g è che essa sia parametrica condizionatamente a uno specificosottoinsieme dei predittori. La <strong>tecnica</strong> <strong>per</strong> adattare il metodo Loess a questocaso, è molto semplice. Il sottoinsieme in questione non è contemp<strong>la</strong>to nelcalcolo delle distanze euclidee che vengono usate nel<strong>la</strong> definizione dei pesiw i (x). Un esempio può essere utile <strong>per</strong> comprendere come effettivamente <strong>la</strong>su<strong>per</strong>ficie così ottenuta sia condizionatamente parametrica.Supponiamo che i predittori siano 2, u e v, che λ = 2 e inoltre che sia u ilpredittore rispetto al quale si condiziona. Poichè <strong>la</strong> funzione dei pesi ignora<strong>la</strong> variabile u, il peso i-esimo, w i (u, v), <strong>per</strong> l’approssimazione in (u, v), è paripeso al peso i-esimo, w i (u + t, v), <strong>per</strong> l’approssimazione in (u + t, v). Quindiil polinomio quadratico utilizzato <strong>per</strong> <strong>la</strong> stima in (u, v) è lo stesso polinomioquadratico utilizzato in (u + t, v) <strong>per</strong> qualsiasi valore di t. Ciò significa che,<strong>per</strong> un dato valore di v, <strong>la</strong> su<strong>per</strong>ficie è data proprio da questo polinomioquadratico in funzione del primo predittore.Quando invece si decide che, <strong>per</strong> λ = 2, <strong>la</strong> stima di g debba essere calco<strong>la</strong>tacome funzione di più predittori ma si ritiene che sia più opportuno omettere12


il quadrato di uno di essi, ciò che si fa è semplicemente non utilizzarlo <strong>per</strong> ilcalcolo dell’approssimazione <strong>locale</strong>.1.2.3 Errori non gaussiani e stima robustaSupponiamo che gli errori ε i abbiano <strong>una</strong> distribuzione simmetrica con<strong>una</strong> campana molto stretta e code sottili. Ciò comporta <strong>una</strong> variante delmetodo Loess che si basa su procedure di stima robusta le quali modificanoi pesi assegnati alle singole osservazioni in modo da tenere conto dell’entitàdei residui associati ad esse.Questa variante inizia con <strong>una</strong> stima di ĝ(x) basata su errori gaussiani.Quindi vengono calco<strong>la</strong>ti i residuiˆε i = y i − ĝ(x i )A questo punto viene introdotta <strong>la</strong> funzione biquadratica dei pesi, detta anchefunzione di Tuckey:{(1 − (u/b) 2 ) 2 <strong>per</strong> 0 ≤ |u| < bB(u; b) =0 <strong>per</strong> |u| ≥ bSia m = mediana(|ˆε i |) <strong>la</strong> mediana del valore assoluto dei residui. La correzionedei pesi richiesta dal<strong>la</strong> <strong>tecnica</strong> robusta è allora data da r i = B(ˆε i ; 6m).Una stima aggiornata, ĝ(x), viene quindi calco<strong>la</strong>ta a livello <strong>locale</strong> con i pesiw i sostituiti da r i w i (x), quindi più i residui sono grandi più i pesi attribuitialle osservazioni sono ridotti. La procedura viene ripetuta numerose volte<strong>per</strong> ottenere <strong>la</strong> stima finale.Nel caso in cui non siano gli ε i ad avere varianza σ 2 costante ma gli a i ε i siprocede al<strong>la</strong> stima con pesi dati da a i w i , se gli errori hanno distribuzionegaussiani, oppure da a i r i w i se viene utilizzata <strong>la</strong> <strong>tecnica</strong> robusta.13


Esempi illustrativiPer mostrare l’utilità del<strong>la</strong> variante loess appena descritta, presentiamoun esempio nel quale, a partire da 100 realizzazioni del predittore x, equispaziateall’interno dell’intervallo [1, 10], è stata creata <strong>una</strong> funzione seno. Adessa è stata aggiunta <strong>una</strong> <strong>per</strong>turbazione tramite un termine di errore ottenutoutilizzando un generatore casuale da <strong>una</strong> normale standard ed inoltre adalcune osservazioni sono stati sostituiti dei termini outliers.Figura 1.4: seno <strong>per</strong>turbato, con outliersIn Figura 1.4 si vedono due curve; <strong>la</strong> curva in rosso è stata ottenuta usando <strong>la</strong>funzione Loess con valore di default del parametro family, che ipotizza che glierrori abbiano distribuzione gaussiana, ed è evidente che questa proceduraè sensibile agli outliers e quindi inadeguata in questo caso. Per ottenere<strong>una</strong> buona approssimazione bisogna utilizzare tecniche di stima robusta, chesi ottengono scegliendo <strong>per</strong> l’argomento family un valore diverso da quellodi default ovvero symmetric. Il risultato è dato dal<strong>la</strong> curva in blu e <strong>la</strong> suavalidità è confermata dal fatto che <strong>la</strong> deviazione standard dei residui, leggibilenell’output di R che qui non riportiamo, è piuttosto picco<strong>la</strong>, essendo pari a0.3182, mentre quel<strong>la</strong> re<strong>la</strong>tiva al<strong>la</strong> prima stima è pari a 0.8307.14


1.3 Inferenza statistica1.3.1 Stima di σ ed intervalli di confidenza <strong>per</strong> g(x)Si è detto all’ inizio del capitolo che il Loess è uno stimatore lineare.Questa linearità porta con sè proprietà distribuzionali che sono molto similia quelle delle c<strong>la</strong>ssiche stime parametriche.Supponiamo che i metodi di diagnostica abbiano verificato che le caratteristicheda noi imposte a g(x) non comportano <strong>una</strong> distorsione apprezzabile,ovvero che <strong>la</strong> differenza Eĝ(x) − g(x) sia molto picco<strong>la</strong>. Supponiamo inoltreche anche <strong>per</strong> i termini di errore i controlli abbiano dato esito favorevole econforme alle assunzioni fatte.A questo punto procediamo al<strong>la</strong> stima di σ e al<strong>la</strong> ricerca di intervalli di confidenza<strong>per</strong> g(x).L’inferenza qui condotta utilizza due quantità:δ k = tr[(I − L) ′ (I − L)] k <strong>per</strong> k pari a 1 e 2δ 1 e δ 2 sono usati nel calcolo dei gradi di libertà necessari al<strong>la</strong> costruzione diintervalli di confidenza <strong>per</strong> g(x) tramite <strong>la</strong> distribuzione T di Student e <strong>per</strong>condurre gli F -tests che confrontano due diverse stime loess. Una valutazioneesatta di δ 1 e δ 2 risulta molto onerosa, <strong>per</strong> questo vengono preferiti metodiapprossimati basati su un approccio non numerico ma statistico.Una buona stima <strong>per</strong> σ, deviazione standard degli errori, è data da:s =√ ∑ni=1 ˆε2 iδ 1calco<strong>la</strong>ta a partire dai residui ˆε i = y i − ŷ i .Poichèĝ(x) =n∑L α (x, x i )y ii=115


allora <strong>la</strong> deviazione standard di ĝ(x) è:∑σ(x) = σ√ n L α (x, x i ) 2i=1quindi <strong>la</strong> stima di σ(x) è data da:∑s(x) = s√ n L α (x, x i ) 2Sia orai=1ρ = δ2 1δ 2La distribuzione diĝ(x) − g(x)s(x)è ben approssimata da <strong>una</strong> distibuzione T di Student con ρ gradi di libertà;possiamo usare questo risultato <strong>per</strong> costruire intervalli di confidenza <strong>per</strong> g(x)basati su ĝ(x). Ad esempio l’intervallo di confidenza <strong>per</strong> g(x) di livello 1 − α,dove in questo caso α è <strong>la</strong> probabilità di errore di primo tipo, è dato da:⎡⎣∑ĝ(x) − t 1−α/2 (ρ)s√ n L α (x, x i ) 2 ,i=1∑ĝ(x) + t 1−α/2 (ρ)s√ n L α (x, x i ) 2i=1⎤⎦Notiamo che il valore δ 1 <strong>per</strong> il quale dividiamo <strong>la</strong> somma dei quadrati deiresidui non è pari a ρ che rappresenta i gradi di libertà del<strong>la</strong> distribuzioneT di Student. Questo costituisce <strong>una</strong> differenza rispetto alle c<strong>la</strong>ssiche stime16


parametriche nelle quali i due valori sono uguali. Nel Loess essi sono vicinima non abbastanza da consentire di ignorarne lo scarto.1.3.2 Prova delle ipotesi <strong>per</strong> il confronto di diversimodelliPer confrontare diversi modelli di <strong>regressione</strong> <strong>locale</strong> possiamo usare letecniche di analisi del<strong>la</strong> varianza.In partico<strong>la</strong>re supponiamo di avere unmodello rappresentante l’ipotesi nul<strong>la</strong>, i cui parametri siano indicati con α (n) ,λ (n) , δ (n)1 e δ (n)2 , e di testarlo contro un modello alternativo, con parametriα, λ, δ 1 e δ 2 . Affinchè <strong>la</strong> prova delle ipotesi abbia senso, il modello nullodeve essere annidato nell’alternativo. Questo concetto in generale può essereespresso dicendo che il modello alternativo deve essere in grado di coglierequalsiasi effetto colto dal modello legato all’ ipotesi nul<strong>la</strong>; <strong>la</strong> definizione, <strong>per</strong>ò,specifica in modo chiaro quando è ragionevole usare l’analisi del<strong>la</strong> varianza<strong>per</strong> confrontare due modelli. Il modello nullo è annidato in quello alternativose:1. α (n) ≥ α2. λ (n) ≤ λ3. Qualora il quadrato di un predittore numerico venga omesso nel modelloalternativo, allora esso non dovrà essere presente nel modello nullo;non vale l’implicazione inversa.4. I modelli devono avere lo stesso numero di predittori, con <strong>la</strong> seguenteeccezione: un predittore condizionatamente parametrico nel modelloalternativo potrebbe non essere presente nel modello nullo, se presentedeve essere ancora condizionatamente parametrico.Le condizioni 2. e 4. possono essere espresse in modo diverso. Per fareciò dobbiamo individuare due insiemi di variabili: le variabili di intorno,ovvero i predittori usati <strong>per</strong> individuare l’intorno re<strong>la</strong>tivo al<strong>la</strong> stima loess,17


e le variabili di stima, che sono i predittori usati <strong>per</strong> il calcolo attraverso iminimi quadrati. Facciamo un esempio. Supponiamo di avere tre predittorinumerici: u, v e w. Supponiamo inoltre che λ = 2, u sia condizionatamenteparametrico e il quadrato di w venga omesso. Allora le variabili di intornosono v e w, mentre le variabili di stima sono: <strong>una</strong> costante, u, u 2 , v, v 2 , w,uv e vw. Ora possiamo riformu<strong>la</strong>re 2. e 4. in questo modo:2.’ Le variabili di stima del modello nullo sono un sottoinsieme di quelledell’alternativo.4.’ Il modello nullo e l’alternativo hanno le stesse variabili di intorno.A questo punto possiamo finalmente introdurre <strong>la</strong> statistica test F tramite<strong>la</strong> quale confrontiamo <strong>la</strong> validità dei due modelli.Sia rss <strong>la</strong> somma dei quadrati dei residui nel modello alternativo e rss (n) <strong>la</strong>somma dei quadrati dei residui in quello nullo. La statistica F è data da:F = (rss(n) − rss)/(δ (n)1 − δ 1 )rss/δ 1Essa è analoga a quel<strong>la</strong> usata in campo parametrico. Valori grandi di F sonoprove a favore dell’ipotesi alternativa. Questa statistica ha <strong>una</strong> distribuzioneche può essere ben approssimata da <strong>una</strong> distribuzione F con gradi di libertàdel denominatore dati da ρ, precedentemente definito, e gradi di libertà delnumeratore dati da:ν = (δ(n) 1 − δ 1 ) 2(δ (n)2 − δ 2 )Quindi <strong>la</strong> regione di rifiuto del test sarà del tipo R = F > F (ã)ν,ρdove F (ã)ν,ρscelto in modo tale che <strong>la</strong> probabilità di errore di primo tipo sia pari ad ã.Alternativamente si può costruire <strong>una</strong> regione critica basata sul p-value deltest.è18


1.3.3 Il numero di parametri equivalentiSiaµ = tr(L ′ L)Se gli ŷ i sono i valori approssimati, allora:µ =∑ ni=1 V arianza(ŷ i)σ 2µ viene chiamato numero dei parametri equivalenti <strong>per</strong>chè se gli ŷ i fossero ivalori stimati di un modello lineare, l’espressione a destra dell’uguale rappresenterebbeil numero di parametri di <strong>regressione</strong>. µ è maggiore o uguale a τ,il numero di variabili di stima, e si avvicina a τ al tendere di α all’infinito.Il numero di parametri equivalenti è <strong>una</strong> misura del<strong>la</strong> rego<strong>la</strong>rità del<strong>la</strong> stima edipende da α, dai predittori, dal<strong>la</strong> scelta dell’intorno e delle variabili di stima.Inoltre, <strong>una</strong> volta fissate tutte le specifiche sopra elencate tranne α, possiamoottenere, approssimativamente, un valore desiderato di µ scegliendo α pari a1.2τ/µ.Esempi illustrativiDi numero di parametri equivalenti si è già par<strong>la</strong>to negli esempi atti adescrivere l’influenza di α e di λ sul<strong>la</strong> qualità del<strong>la</strong> stima tramite Loess, inquanto questo numero è uno dei parametri restituiti in uscita dal<strong>la</strong> funzione.Osserviamo ora che quest’ultima <strong>of</strong>fre <strong>la</strong> possibilità di fissare approssimativamenteil numero di parametri equivalenti voluto attraverso uno dei suoiargomenti, chiamato enp.target. In pratica questo parametro rappresenta unmodo alternativo di scegliere lo span α, ma va detto che il numero di parametriequivalenti esatto, fornito dall’output, sarà leggermente diverso daquello specificato. Dalle prove s<strong>per</strong>imentali sul campione ethanol, effettuatecon enp.target pari a 15, 6.5 e 4, i cui risultati sono mostrati in Figura 1.5si evince che il valore esatto di µ è sempre leggermente minore di quelloapprossimato. Inoltre se <strong>per</strong> α = 0.5 µ è pari a 6.16, ci si aspetta che19


Figura 1.5: numero di parametri equivalenti<strong>per</strong> enp.target = 6.5 il valore di α, calco<strong>la</strong>to con <strong>la</strong> formu<strong>la</strong> approssimata,sia vicino a 0.5 e che quindi i risultati siano simili. La conferma si ha dalseguente graficoFigura 1.6: confronto tra α = 0.5 e enp = 6.520


1.3.4 Errori con distribuzione simmetricaQuanto detto sino ad ora riguardo agli aspetti inferenziali dei modellidi <strong>regressione</strong> <strong>locale</strong> ha come presupposto che i termini di errore abbianodistribuzione gaussiana. Se invece <strong>la</strong> distribuzione degli errori è simmetrica,l’inferenza si basa sui cosiddetti pseudo-valori. Indichiamo con r i ed m i pesilegati al<strong>la</strong> stima robusta e <strong>la</strong> mediana del valore assoluto dei residui, usatinell’ aggiornamento finale dell’approssimazione ĝ(x). Sia inoltre ψ(u; b) =uB(u; b).Gli pseudo-valori sono:ÿ i = ŷ i + cr iˆε idove ŷ i sono i valori approssimati, ˆε i i residui e c:c =n∑ ni=1 ψ′ (ˆε; 6m)Per fare inferenza si applica <strong>la</strong> stessa procedura usata in caso gaussiano mautilizzando gli pseudo-valori ÿ i al posto delle osservazioni del<strong>la</strong> variabile risposta.Il calcolo degli intervalli di confidenza produce in questo modo buonirisultati. Per quanto riguarda invece l’analisi del<strong>la</strong> varianza, in presenza dicampioni di piccole dimensioni, l’approssimazione non è così buona comequel<strong>la</strong> <strong>per</strong> gli intervalli di confidenza.Supponiamo ora che gli errori casuali ε i nel modello siano tali che a i ε i sonoidenticamente distribuiti con pesi a priori, a i , positivi e noti. In questo casovanno introdotte alcune modifiche nei metodi inferenziali.Per l’approssimazione basata su errori gaussiani, ridefiniti opport<strong>una</strong>menteL, δ 1 e δ 2 , si ha <strong>la</strong> seguente stima di σ:s =√ ∑ni=1 a iˆε 2 iδ 121


e <strong>la</strong> stima del<strong>la</strong> deviazione standard di ĝ(x) diventa:∑s(x) = s√ n L α (x, x i ) 2 /a ii=1Per l’analisi del<strong>la</strong> varianza, <strong>la</strong> somma dei quadrati dei residui è modificataaggiungendo i termini a i , analogamente a quanto si è appena fatto <strong>per</strong> s.Per l’approssimazione robusta, <strong>la</strong> mediana del valore assoluto dei residui èdefinita usando i residui standardizzati:ˆε ∗ i = √ a iˆε iQuindi si ha m = mediana(|ˆε ∗ i |).Analogamente, i pesi legati al<strong>la</strong> stima robusta divengono:r i = B(ˆε ∗ i ; 6m)Gli pseudo-valori sono:ÿ i = ŷ i + cr iˆε ∗ idove <strong>per</strong>ò c è:c =n∑ ni=1 ψ′ (ˆε ∗ ; 6m)22


1.4 Metodi computazionali <strong>per</strong> <strong>la</strong> valutazionedel<strong>la</strong> su<strong>per</strong>ficieIn linea di principio <strong>la</strong> stima loess richiede un calcolo, attraverso minimiquadrati pesati, in ogni punto nel quale <strong>la</strong> su<strong>per</strong>ficie deve essere valutata.Tipicamente <strong>per</strong>ò, <strong>la</strong> valutazione diretta è troppo onerosa a livello computazionale.Si preferisce quindi selezionare un numero limitato di punti nei qualiapplicare direttamente il metodo Loess e poi interpo<strong>la</strong>re attraverso opportunialgoritmi.Per selezionare il sottoinsieme di punti nei quali effettuare <strong>la</strong> valutazionediretta, poichè ĝ è rego<strong>la</strong>re <strong>per</strong> costruzione, risulta sensato ricorrere ad <strong>una</strong>griglia, <strong>la</strong> quale viene costruita tramite un algoritmo basato sugli alberi k−d.L’idea di base consiste nel fatto che questa griglia viene costruita in modoadattativo, cioè tenendo conto del<strong>la</strong> sparsità delle osservazioni e non con dimensioniuniformi. Una volta ottenuta <strong>la</strong> griglia, il sottoinsieme di punticercato sarà dato dai vertici di ogni cel<strong>la</strong> costituente <strong>la</strong> griglia. L’interpo<strong>la</strong>zioneviene infine effettuata tramite funzioni rego<strong>la</strong>ri dette blending functionsche mirano a costruire <strong>una</strong> su<strong>per</strong>ficie globalmente di c<strong>la</strong>sse C 1 .Entriamo ora nel dettaglio, descrivendo <strong>la</strong> struttura del<strong>la</strong> griglia e illustrandoquindi cosa si intende <strong>per</strong> albero k − d.Un albero k − d è <strong>una</strong> partico<strong>la</strong>re struttura dati che consente di suddividerelo spazio dei predittori in modo ricorsivo utilizzando un i<strong>per</strong>piano ortogonalea uno degli assi coordinati. Vediamo dunque come è fatta questa strutturadati. Sia C <strong>una</strong> cel<strong>la</strong> rettango<strong>la</strong>re contenente le osservazioni x i ed h unnumero compreso fra 0 e 1. Quello che si fà in pratica è individuare il predittoreche varia all’interno del più ampio range di valori, calco<strong>la</strong>re <strong>la</strong> medianadelle osservazioni rispetto a quel predittore, e dividere <strong>la</strong> cel<strong>la</strong> a metà, incorrispondenza del valore del<strong>la</strong> mediana, con un segmento che risulta <strong>per</strong>pendico<strong>la</strong>reall’asse del predittore individuato. Il parametro h ci dice quando<strong>la</strong> partizione si blocca. Se in <strong>una</strong> cel<strong>la</strong> ci sono meno di n ∗ h punti allora ci siferma, altrimenti il procedimento viene iterato. Quanto detto si può esprime-23


e attraverso <strong>la</strong> seguente funzione ricorsiva presentata in pseudocodice, chechiameremo partition(C):partition(C)j :=maximizer-<strong>of</strong>(max x∈C [x] j − min x∈C [x] j );µ :=median{[x] j : x ∈ C};cut C := L ∪ R by the hy<strong>per</strong>p<strong>la</strong>ne that intersects j-th axis at µ;left subcell L ⊆ {x ∈ C : [x] j ≤ µ};right subcell R ⊆ {x ∈ C : [x] j > µ};if size(L) > nhpartition(L);if size(R) > nhpartition(R);Illustriamo <strong>la</strong> procedura con un esempio in cui siano n = 100 e h = 0.05.24


Figura 1.7: albero k − dIn Figura 1.7 vediamo rappresentate le osservazioni x i nello spazio dei predittori,in questo caso bidimensionale. Consideriamo <strong>la</strong> parte su<strong>per</strong>iore del<strong>la</strong>figura: in essa è rappresentato il rettangolo di partenza, quello più esterno,25


che racchiude tutte le osservazioni. Questo rettangolo è più esteso verticalmenteche orizzontalmente, motivo <strong>per</strong> cui il rettangolo è diviso in due incorrispondenza del<strong>la</strong> mediana del secondo predittore, il quale ha <strong>una</strong> variabilitàmaggiore. I due nuovi rettangoli che si ottengono vengono suddivisia loro volta in corrispondenza del<strong>la</strong> mediana del primo predittore, semprein conseguenza del criterio appena illustrato. L’albero finale è mostrato nelpannello inferiore.Una volta costruito un albero k − d, ĝ(x) è calco<strong>la</strong>ta direttamente solo aisuoi vertici, dove <strong>per</strong> vertice si intende ogni nodo del<strong>la</strong> griglia generata. Oltreal valore di ĝ(x) in un vertice, si ottiene anche il valore del<strong>la</strong> sua derivataapprossimata senza nessun costo addizionale, in quanto essa è un naturaleprodotto del calcolo attraverso minimi quadrati. Il valore del parametro h,oltre ad essere fondamentale nel criterio di arresto dell’algoritmo <strong>per</strong> gli alberik − d, ne influenza le velocità. Infatti, valori grandi di h rendono il metodopiù veloce generando pochi vertici, mentre, <strong>per</strong> valori piccoli di h, esso èpiù lento ma si ottiene <strong>una</strong> su<strong>per</strong>ficie più vicina a quel<strong>la</strong> che si otterrebbeapplicando direttamente in ogni punto il metodo Loess.Chiarito quindi il metodo <strong>per</strong> <strong>la</strong> selezione dei punti nei quali eseguire <strong>la</strong>valutazione diretta possiamo ora descrivere lo schema usato <strong>per</strong> costruire <strong>una</strong>buona approssimazione polinomiale di g, schema che sfrutta le informazionidate dal<strong>la</strong> valutazione di ĝ in corrispondenza dei vertici dell’ albero k − d.Per semplificare <strong>la</strong> trattazione supponiamo che ci siano solo due predittori.Per <strong>la</strong> struttura dell’albero k − d, il bordo di ogni cel<strong>la</strong> rettango<strong>la</strong>re è suddivisoin segmenti dai suoi vertici. Nel nostro esempio si hanno quattro <strong>la</strong>tiprincipali che potrebbero essere ulteriormente divisi nel caso in cui un <strong>la</strong>tocontenga vertici interni. Su ognuno dei <strong>la</strong>ti <strong>la</strong> su<strong>per</strong>ficie è interpo<strong>la</strong>ta attraversoun polinomio di terzo grado, univocamente determinato noti i valoridel<strong>la</strong> funzione e del<strong>la</strong> sua derivata in corrispondenza dei vertici. Analogamente,tramite interpo<strong>la</strong>zione, si determina il valore del<strong>la</strong> funzione derivatadel<strong>la</strong> su<strong>per</strong>ficie su tutto il confine del<strong>la</strong> cel<strong>la</strong>. E’ a questo punto che entranoin scena le blending functions. Esse sono costruite combinando opport<strong>una</strong>-26


mente interpo<strong>la</strong>nti univariati, ovvero funzioni di uno solo dei due predittori, evengono utilizzate <strong>per</strong> ottenere l’approssimazione di g all’interno del<strong>la</strong> cel<strong>la</strong>.Per appr<strong>of</strong>ondimenti su questo tema si può consultare il <strong>la</strong>voro di Farin [4].La <strong>tecnica</strong> che si basa sulle blending functions è tale da garantire <strong>la</strong> continuitàdel<strong>la</strong> derivata prima, quindi il risultato finale è <strong>una</strong> su<strong>per</strong>ficie di c<strong>la</strong>sseC 1 che non è esattamente <strong>la</strong> stessa che si otterrebbe se fosse effettuata <strong>una</strong>valutazione loess in ogni punto ma, tipicamente, l’accordo fra i risultati esattie quelli interpo<strong>la</strong>ti è eccellente. L’unico limite del metodo che si basasull’interpo<strong>la</strong>zione è che esso consente di valutare <strong>la</strong> su<strong>per</strong>ficie solo in puntiinterni al range dei dati mentre il metodo basato sul<strong>la</strong> valutazione diretta èapplicabile in ogni punto.27


Capitolo 2Tecniche alternative dismoothing2.1 Stimatori <strong>per</strong> gLa <strong>regressione</strong> <strong>locale</strong>, argomento di questa tesi, è, ovviamente, solo <strong>una</strong>delle diverse tecniche che si possono utilizzare <strong>per</strong> studiare le re<strong>la</strong>zioni travariabili, fornendo <strong>una</strong> stima di g. Obiettivo del capitolo è fare <strong>una</strong> carrel<strong>la</strong>tagenerale delle possibili alternative adatte ad essere poste a confrontocon il metodo Loess nel capitolo successivo. La Lezione seguita qui è quel<strong>la</strong>di Catherine Loader [2]. (Per semplicità non è stato descritto il caso multivariatoma tutto ciò che segue ha essenzialmente validità generale). Tuttele tecniche che verranno presentate appartengono, come il Loess, al<strong>la</strong> c<strong>la</strong>ssedegli stimatori lineari.2.1.1 Kernel SmoothersIl primo e più semplice metodo che presentiamo è quello dei Kernel Smoothers.Essi partono da un’idea non molto diversa da quel<strong>la</strong> che sta al<strong>la</strong> basedel loess. Si fissa infatti un punto x appartenente al dominio del<strong>la</strong> funzioneg e si determina intorno ad esso <strong>una</strong> finestra, <strong>la</strong> quale generalmente nonè altro che un intervallo del<strong>la</strong> forma (x − α, x + α), dove α, il parametro28


di lisciamento, è fissato ed è solitamente chiamato bandwidth, ampiezza dibanda.Lo stimatore Kernel agisce realizzando <strong>una</strong> media pesata delle osservazioniall’interno del<strong>la</strong> finestra e assume questa forma:ĝ(x) =∑ ( )ni=1 W (xi −x)α∑ ( )nj=1 W (xj −x)αdove W è detta funzione nucleo, kernel, da cui il nome del metodo e n è ilnumero totale delle osservazioni di cui si dispone. Questa funzione è sceltain modo che sia dato peso maggiore alle osservazioni più vicine al punto incui stiamo calco<strong>la</strong>ndo <strong>la</strong> stima. Qui si evidenzia un’importante differenzarispetto al metodo Loess; infatti, mentre nel Loess l’ampiezza dell’intornovaria al variare del<strong>la</strong> sparsità dei punti osservati, essendo ragionevolmentemaggiore là dove le x i sono più dis<strong>per</strong>se, nei Kernel Smoothers e nelle tecnicheda essi derivate l’ampiezza di banda è costante lungo l’asse x.La fuzione nucleo può avere diverse forme; <strong>una</strong> delle scelte più comuni è <strong>la</strong>funzione biquadratica,W (x) =y i{(1 − x 2 ) 2 −1 ≤ x ≤ 10 altroveoppure W può essere <strong>una</strong> funzione di densità simmetrica attorno all’origine,come <strong>una</strong> normale standard, o ancora si può utilizzare un nucleo rettango<strong>la</strong>rein cui W vale,{1/2 −1 ≤ x ≤ 1W (x) =0 altroveDunque nei Kernel Smoothers il peso di ogni osservazione è dato da29


[ n∑ ( ) ] −1 ( )(xj − x) xi − xK i = WWααj=1Lo stimatore Kernel introdotto, molto noto in letteratura, è generalmentechiamato stimatore Nadaraya-Watson e <strong>la</strong> sua semplicità lo rende piuttost<strong>of</strong>acile da comprendere e da implementare con s<strong>of</strong>tware statistici. Esso presenta,<strong>per</strong>ò, alcune debolezze, tra le quali <strong>la</strong> più evidente è un’elevata distorsioneagli estremi del dominio di interesse.Esempi illustrativiVediamo ora alcuni esempi che ci mostrano delle stime ottenute usando<strong>la</strong> funzione ksmooth di R, <strong>la</strong> quale implementa il metodo di <strong>regressione</strong> legatoallo stimatore Nadaraya-Watson con due possibili scelte del nucleo: in bluè raffigurata l’approssimazione con nucleo rettango<strong>la</strong>re, in rosso quel<strong>la</strong> connucleo normale.Figura 2.1: α = 0.0530


Figura 2.2: α = 0.1Figura 2.3: α = 0.531


I tre grafici sono stati realizzati con il set di dati ethanol, già usato in precedenza,con tre valori diversi del parametro ampiezza di banda α: 0.5, 0.1 e0.05. Osservando i risultati e i grafici dei residui, si vede che l’approssimazionemigliore, in termini di confronto distorsione-varianza, si ottiene usando <strong>la</strong>W gaussiana con α pari a 0.1. Questo non deve stupire, in quanto il nucleogaussiano è <strong>per</strong> sua natura molto rego<strong>la</strong>re, essendo <strong>una</strong> funzione continua cheha <strong>per</strong> supporto tutto R e che decade a zero abbastanza rapidamente; inoltresi nota che, al diminuire di α, diminuisce <strong>la</strong> distorsione ma, come vedremopiù avanti, aumenta <strong>la</strong> varianza, quindi <strong>per</strong> ottenere <strong>una</strong> buona stima di gbisogna trovare un giusto compromesso, cosa che in questo caso si ottieneappunto <strong>per</strong> α = 0.1.Tecniche derivatePartendo dallo stesso presupposto che sta al<strong>la</strong> base del<strong>la</strong> <strong>regressione</strong> <strong>locale</strong>tramite Loess, e cioè che <strong>una</strong> funzione rego<strong>la</strong>re può essere ben approssimataa livello <strong>locale</strong> da un polinomio di basso grado, le tecniche derivate dai KernelSmoothers procedono al<strong>la</strong> stima di g attraverso il criterio dei minimi quadratipesati, usando <strong>la</strong> stessa funzione nucleo e l’ampiezza di banda definite<strong>per</strong> <strong>la</strong> <strong>regressione</strong> kernel. Ad esempio se si vuole calco<strong>la</strong>re un’approssimazionelocalmente lineare di g essa viene determinata calco<strong>la</strong>ndo â 0 ed â 1 cheminimizzanon∑( ) (xi − x)W(y i − (a 0 + a 1 (x i − x))) 2αi=1Va notato che in questo modo si determina ĝ(x) <strong>per</strong> un valore)di x specificoma, naturalmente, al variare di x cambiano i pesi W e di coseguenzale stime di a 0 ed a 1 .((xi −x)α32


2.1.2 Funzioni di tipo splineUn’approccio completamente diverso ma comunque molto interessante èquello delle Splines. (Per appr<strong>of</strong>ondire si vedano [5] e [6]). Esse sono funzionipartico<strong>la</strong>ri le quali sono state studiate inizialmente soprattutto <strong>per</strong> il loro usonel campo dell’analisi numerica ma in seguito si è sco<strong>per</strong>to che esse possonoessere impiegate con pr<strong>of</strong>itto anche in statistica <strong>per</strong> problemi di smoothing.Così come il termine Loess è stato scelto non solo come abbreviazione di localregression ma anche <strong>per</strong>chè in campo geologico sta ad indicare un depositodi argil<strong>la</strong> o fango e quindi si adatta bene ad indicare <strong>una</strong> su<strong>per</strong>ficie moltomalleabile, anche il termine Spline ha un’origine interessante. Esso indicava,infatti, delle flessibili asticciole di legno usate <strong>per</strong> <strong>la</strong> progettazione degli scafidelle navi. Fissati alcuni punti sul<strong>la</strong> sezione trasversale dello scafo, il restodel<strong>la</strong> curvatura era ottenuto forzando le asticciole a passare da tali punti e<strong>la</strong>sciandole libere di disporsi <strong>per</strong> il resto del pr<strong>of</strong>ilo secondo <strong>la</strong> loro naturaletendenza; si determinava così <strong>una</strong> curva rego<strong>la</strong>re con comportamento preassegnatoin certe posizioni. Nel mondo del<strong>la</strong> matematica le splines fannoqualcosa di analogo, con lo scopo di costruire funzioni polinomiali a tratti,non solo continue ma anche derivabili in uno specifico intervallo.Diamone ora <strong>la</strong> definizione rigorosa, il riferimento è in [7]:Definizione 2. Siano ξ 1 , . . . , ξ k k nodi distinti e ordinati sull’intervallo [a, b]con a = ξ 1 < ξ 2 < . . . < ξ k = b. Una funzione g d (x) sull’intervallo [a, b] èdetta Spline di grado d re<strong>la</strong>tiva ai nodi ξ i seg d |[ξi ,ξ i+1 ] ∈ P d , i = 1, . . . , k − 1g d ∈ C d−1 [a, b]dove P d rappresenta lo spazio dei polinomi di grado minore o uguale a d.In pratica ciò che si richiede è che tra due nodi successivi, ovvero nell’intervallo(ξ i , ξ i+1 ), <strong>la</strong> curva g(x) coincida con un opportuno polinomio di gradoprefissato d, e che tutte le porzioni di polinomi si uniscano nei punti di giunzioneξ i in modo rego<strong>la</strong>re, nel senso che <strong>la</strong> funzione risultante g(x) abbia le33


derivate dal grado 0 al grado d − 1 continue in ognuno degli ξ i . Di solitoil grado preferito è d = 3 e si par<strong>la</strong> quindi di Splines cubiche. Il motivo diquesta scelta è che l’occhio umano non riesce di fatto a cogliere discontinuitànel<strong>la</strong> derivata terza. Molto usate sono inoltre le splines di tipo interpo<strong>la</strong>torio,che sono tali <strong>per</strong> cui g d (ξ i ) = y i <strong>per</strong> i = 1, . . . , k con y 1 , . . . , y k valoriassegnati. Accoppiando le due scelte possiamo scrivere le condizioni che <strong>una</strong>spline cubica interpo<strong>la</strong>toria è costretta a soddisfare:g(ξ i ) = y i<strong>per</strong> i = 1, . . . , kg(ξ − i ) = g(ξ+ i ), g′ (ξ − i ) = g′ (ξ + i ), g′′ (ξ − i ) = g′′ (ξ + i) <strong>per</strong> i = 2, . . . , k − 1dove g(x − ) e g(x + ) indicano il limite da sinistra e da destra di <strong>una</strong> funzioneg nel punto x.Un problema così impostato è caratterizzato da quattro parametri incogniti<strong>per</strong> ciasc<strong>una</strong> delle k − 1 cubiche che formano <strong>la</strong> spline e quindi da un totaledi 4(k − 1) incognite. Per contro ci sono k vincoli dovuti al passaggio <strong>per</strong>i punti e 3(k − 2) vincoli di continuità. La differenza tra numero di vincolie di incognite mostra che <strong>la</strong> soluzione non è univocamente determinata eil sistema presenta due gradi di libertà. Per questo motivo si introduconogeneralmente delle condizioni addizionali. Ad esempio se si impone che lederivate seconde siano nulle nei due punti estremi dell’intervallo, a e b, sihanno le Splines naturali, se invece si impone <strong>la</strong> continuità del<strong>la</strong> derivataterza nei due punti ξ 2 e ξ k−1 si ha <strong>la</strong> Spline detta not a knot.In ambito statistico, più che le Splines interpo<strong>la</strong>torie risultano interessantile Splines di <strong>regressione</strong> e le Smoothing Splines. Le Splines di <strong>regressione</strong>,<strong>per</strong> le quali <strong>la</strong> Lezione di riferimento è quel<strong>la</strong> di Adelchi Azzalini e BrunoScarpa [3], sono legate a modelli di tipo parametrico. Esse si propongonodi indagare il legame presente fra <strong>una</strong> o più variabili esplicative x e <strong>una</strong>risposta y, date n coppie di osservazioni (x i , y i ), facendo riferimento a <strong>una</strong>34


formu<strong>la</strong>zione generale del tipoy = g(x; β) + εdove ora g(x; β) è <strong>per</strong> ipotesi <strong>una</strong> Spline. Se l’asse delle ascisse è diviso ink + 1 intervalli separati da k ascisse, i nodi, con β indichiamo ora i parametrinon vinco<strong>la</strong>ti dei k + 1 polinomi che compongono <strong>la</strong> Spline. Notiamo che <strong>la</strong>differenza sostanziale tra le Splines di <strong>regressione</strong> e le Splines interpo<strong>la</strong>torieè che in quelle di <strong>regressione</strong> <strong>la</strong> selezione dei parametri incogniti non puòpiù avvenire in base a vincoli del tipo g(ξ j ) = y j , <strong>per</strong>chè ora il numero k eil numero n sono slegati e k ≪ n. Ciò che si fa, dunque, <strong>per</strong> determinarein modo univoco <strong>la</strong> Spline è stimare i parametri non vinco<strong>la</strong>ti β attraversoil criterio dei minimi quadrati, ovvero si trova il minimo rispetto a β del<strong>la</strong>seguente funzione obiettivoD(β) =n∑{y i − g(x i ; β)} 2 = ||y − g(x; β)|| 2i=1La principale difficoltà che si incontra usando questa <strong>tecnica</strong> è legata al<strong>la</strong>scelta del<strong>la</strong> posizione dei nodi. L’approccio più semplice consiste nel scegliereil numero di intervalli desiderato e nel fissare i nodi in modo tale che gliintervalli abbiano ampiezza uniforme. Alternativamente si possono porre gliintervalli in corrispondenza dei punti che individuano i quartili del<strong>la</strong> variabileindipendente.Se si utilizzano Splines cubiche si hanno 4(k + 1) incognite e 3k vincoli dicontinuità, quindi β ha k + 4 componenti. Si dimostra che <strong>la</strong> soluzione delproblema di minimo può essere riscritta nel<strong>la</strong> forma equivalentedoveg(x; β) =∑k+4j=1ˆβ j (x)h j (x)35


h j (x) = x j−1 <strong>per</strong> j = 1, . . . , 4h j+4 (x) = (x − ξ j ) 3 +<strong>per</strong> j = 1, . . . , k(x − ξ) 3 + = max(0, (x − ξ) 3 )Smoothing SplinesPrima di descrivere questo tipo di stimatore rammentiamo come è fattoil modello non parametrico a cui esso fa riferimento. Consideriamoy i = g(x i ) + ε ii = 1, 2, . . . , ndove ε = (ε 1 , . . . , ε n ) ′ ∼ N(0, σ 2 I) e di g si sà soltanto che è rego<strong>la</strong>re. LaSmoothing Spline che fornisce <strong>una</strong> stima di g è <strong>una</strong> funzione che deve appartenereallo spazio di Sobolev H 2 (Ω), spazio delle fuzioni a quadrato sommabile,le cui derivate fino all’ordine 2 incluso, nel senso delle distribuzioni, son<strong>of</strong>unzioni a quadrato sommabile con Ω a<strong>per</strong>to di R. Essa si trova cercando <strong>la</strong>soluzione che soddisfa il criterio dei minimi quadrati penalizzati e cioè cherende minima <strong>la</strong> seguente espressione:n∑∫(y i − g(x i )) 2 + αi=1g ′′ (x) 2 dx<strong>per</strong> ogni α fissato, maggiore di 0. Si dimostra che <strong>la</strong> soluzione di questoproblema è data da <strong>una</strong> Spline cubica naturale, in cui i nodi sono i puntix i distinti. Ora osserviamo meglio <strong>la</strong> formu<strong>la</strong>zione del criterio dei minimiquadrati penalizzati. Essa vuole realizzare un compromesso tra <strong>la</strong> fedeltà aidati, garantita dal primo termine, somma dei quadrati dei residui, e <strong>la</strong> rego<strong>la</strong>ritàdel<strong>la</strong> soluzione, misurata nel termine integrale. A questo propositoil parametro α svolge l’importante ruolo di parametro di lisciamento ed agisceandando a penalizzare il grado di irrego<strong>la</strong>rità del<strong>la</strong> curva g, quantificato36


dall’integrale di g ′′ (x) 2 . In altre parole esso rappresenta l’ago del<strong>la</strong> bi<strong>la</strong>nciadel compromesso che si vuole realizzare usando i minimi quadrati penalizzati.Se α = 0 non vi è penalità <strong>per</strong> l’irrego<strong>la</strong>rità di g(x) e quindi si scegliedi privilegiare nettamente <strong>la</strong> fedeltà ai dati a scapito del<strong>la</strong> rego<strong>la</strong>rità del<strong>la</strong>curva approssimante. Ciò che si ottiene in questo caso limite è <strong>una</strong> Splineinterpo<strong>la</strong>toria. Se invece α → ∞, <strong>la</strong> penalità è massima e comporta l’adozionedi <strong>una</strong> retta in quanto impone g ′′ (x) = 0. Questa retta non è altro che <strong>la</strong>retta che si otterrebbe utilizzando un modello di <strong>regressione</strong> lineare, ovvero<strong>la</strong> retta dei minimi quadrati. Quanto detto mostra inequivocabilmente che <strong>la</strong>stima di g tramite Smoothing Splines è fortemente condizionata dal<strong>la</strong> sceltadi α. Questa scelta può essere <strong>la</strong>sciata a colui che sta studiando i dati oppurepuò essere fatta tramite tecniche automatiche, alcune delle quali sarannopresentate in seguito.Esempi illustrativiVediamo ora alcuni grafici che mostrano stime realizzate tramite SmoothingSplines. I dati utilizzati provengono nuovamente dal campione chiamatoethanol.Figura 2.4: scelta di α tramite il parametro spar37


Figura 2.5: scelta di α tramite il parametro dfFigura 2.6: scelta di α tramite Cross-Validation generalizzata38


La funzione smooth.spline di R <strong>of</strong>fre tre diversi modi di specificare il valoredi α voluto.In Figura 2.4 si è utilizzato il parametro spar con valori 0.1, 0.8 e 1.5. Percome è stata costruita smooth.spline, α è <strong>una</strong> funzione monotona crescentedi spar quindi il risultato ottenuto è <strong>per</strong>fettamente in accordo con <strong>la</strong> teoria.Si vede infatti che al crescere di spar, e quindi di α, <strong>la</strong> stima di g parte come<strong>una</strong> curva irrego<strong>la</strong>re ma molto fedele ai dati e diventa, <strong>per</strong> spar = 1.5, <strong>una</strong>retta di <strong>regressione</strong>. É evidente che in questo caso l’ultima stima è del tuttoinadeguata.Il secondo modo di scegliere α è <strong>una</strong> <strong>tecnica</strong> indiretta che, analogamente aquanto abbiamo visto <strong>per</strong> il Loess, passa attraverso <strong>la</strong> richiesta del numerodi gradi di libertà desiderato <strong>per</strong> <strong>la</strong> stima. L’argomento del<strong>la</strong> funzione implementatada R preposto a questa scelta è df. I risultati ottenuti sono visibiliin Figura 2.5.Se nel<strong>la</strong> funzione non si inserisce un valore nè <strong>per</strong> spar, nè <strong>per</strong> df, α vienedeterminato tramite <strong>una</strong> <strong>tecnica</strong> automatica chiamata Cross-Validation, ilcui meccanismo verrà descritto più avanti. La curva presente in Figura 2.6 èstata ottenuta in questo modo.2.2 Proprietà statisticheIn vista dello studio delle tecniche <strong>per</strong> <strong>la</strong> selezione del parametro di lisciamentoe di altre procedure inferenziali, è necessario descrivere alcune proprietàche sono comuni a tutti gli stimatori lineari. Consideriamo <strong>una</strong> misuradel<strong>la</strong> bontà del<strong>la</strong> stima di g(x), in partico<strong>la</strong>re l’errore quadratico medio,MSE(x) = E((ĝ(x) − g(x)) 2 ) = var(ĝ(x)) + bias(ĝ(x)) 2dove <strong>la</strong> distorsione è data da bias(ĝ) = E(ĝ(x)) − g(x).Intuitivamente, <strong>per</strong> quanto riguarda i Kernel Smoothers ed anche il Loess, alcrescere del parametro di lisciamento α vengono usati più dati <strong>per</strong> costruire <strong>la</strong>39


stima ĝ(x), e quindi <strong>la</strong> varianza diminuisce; d’altro canto l’approssimazionea livello <strong>locale</strong> è migliore su intervalli piccoli, quindi ci aspettiamo che cresca<strong>la</strong> distorsione. Se invece si riduce troppo α, con lo scopo di diminuire <strong>la</strong> distorsione,si corre il rischio di trovarsi in <strong>una</strong> situazione di sovra-adattamentodel modello ai dati, ovvero si ha un aumento del<strong>la</strong> varianza, senza guadagnorilevante in termini di distorsione. Per le Smoothing Splines vale un discorsoanalogo, quindi, <strong>la</strong> scelta di α va fatta cercando un compromesso tra due entitàin conflitto: varianza e distorsione. Vediamo allora di analizzare megliole proprietà che ci saranno utili <strong>per</strong> compiere questa scelta.2.2.1 DistorsioneLa distorsione di uno stimatore lineare è data daE(ĝ(x)) − g(x) =n∑L α (x, x i )E(y i ) − g(x) =i=1n∑L α (x, x i )g(x i ) − g(x)i=1Poichè essa dipende dal<strong>la</strong> funzione incognita g(x), non è molto utile a questolivello, sebbene sia possibile calco<strong>la</strong>re <strong>la</strong> distorsione a livello approssimato.Deriviamo <strong>una</strong> di queste approssimazioni rifacendoci, a scopo illustrativo, aun modello di <strong>regressione</strong> derivato dai Kernel Smoothers. Sviluppiamo g(x i )in serie di Taylor troncata al second’ordineg(x i ) = g(x) + (x i − x)g ′ (x) + (x i − x) 2g ′′ (x) + o(α 2 )2<strong>per</strong> |x i − x| ≤ α. Sostituendo quanto ottenuto nell’espressione del<strong>la</strong> distorsionesi ha40


E(ĝ(x)) − g(x) = g(x)g ′′ (x)2n∑L α (x, x i ) + g ′ (x)i=1n∑(x i − x)L α (x, x i ) +i=1n∑(x i − x) 2 L α (x, x i ) − g(x) + o(α 2 )i=1Si dimostra che, <strong>per</strong> uno stimatore lineare e di consequenza <strong>per</strong> uno stimatoreKernel,∑ ni=1 L α(x, x i ) = 1∑ ni=1 (x i − x)L α (x, x i ) = 0Quanto appena scritto espone matematicamente <strong>una</strong> naturale proprietà deimodelli di <strong>regressione</strong> che stiamo trattando: se le y i giacciono su <strong>una</strong> linearetta, <strong>la</strong> funzione di <strong>regressione</strong> riprodurrà tale retta. Con questa semplificazione<strong>la</strong> distorsione si riduce aE(ĝ(x)) − g(x) = g′′ (x)2n∑(x i − x) 2 L α (x, x i ) + o(α 2 )i=1In questa espressione risulta evidente che il termine dominante nel<strong>la</strong> distorsioneè proporzionale al<strong>la</strong> derivata seconda del<strong>la</strong> funzione che stiamostimando.Il prossimo passo consiste nell’approssimare le sommatorie con integrali,cosa che si dimostra implicare il seguenteE(ĝ(x)) − g(x) ≃ g ′′ (x)α 2 ∫v 2 W (v)dv2 ∫ W (v)dvOltre al<strong>la</strong> dipendenza da g ′′ (x), vediamo dunque <strong>la</strong> dipendenza da α: al-41


l’aumentare dell’ampiezza di banda, <strong>la</strong> distorsione cresce quadraticamenterispetto ad α.Stime di questo tipo coprono approssimazioni polinomiali di qualunquegrado, anche in presenza di più predittori. Il loro risultato implica che quandoλ, il grado del polinomio, è dispari, il termine dominante del<strong>la</strong> distorsione èproporzionale a α λ+1 g (λ+1) (x). Quando λ è pari, il termine di prim’ordinesparisce, <strong>la</strong>sciando <strong>una</strong> distorsione di ordine α λ+2 .2.2.2 VarianzaPrima di derivare <strong>la</strong> varianza di uno stimatore lineare ricordiamo le principaliassunzioni fatte sui termini di errore presenti nel generico modello di<strong>regressione</strong> che stiamo considerando. Indicati tali termini con ε i , ipotizziamoche essi siano indipendenti e identicamente distribuiti con varianza pari a σ 2 .La varianza di uno stimatore lineare èvar(ĝ(x)) =n∑L α (x, x i ) 2 var(y i ) = σ 2 ||L α (x, x i )|| 2i=1Così come è stato fatto anche <strong>per</strong> <strong>la</strong> distorsione, anche <strong>per</strong> <strong>la</strong> varianza possiamocalco<strong>la</strong>re un’approssimazione sostituendo le sommatorie con terminiintegrali. Riprendendo l’esempio precedente re<strong>la</strong>tivo alle tecniche derivatedai Kernel Smoothers si havar(ĝ(x)) ≃∫ σ2 W (v) 2 dvnαf(x) ( ∫ W (v)dv) 2dove f(x) è <strong>la</strong> densità delle x i . Vediamo, dunque, che <strong>la</strong> varianza è inversamenteproporzionale al<strong>la</strong> dimensione del campione, all’ampiezza di banda eal<strong>la</strong> densità, qualunque sia il grado del polinomio approssimante a livello <strong>locale</strong>;il termine dipendente dal<strong>la</strong> funzione dei pesi W , invece, varia al variaredi tale grado, ma generalmente aumenta con esso.42


2.2.3 Gradi di libertàNei modelli che stiamo analizzando le y i hanno varianza σ 2 , mentre lestime ĝ(x i ) hanno varianza σ 2 ||L α (x i , x i )|| 2 . Il termine ||L α (x i , x i )|| 2 è <strong>una</strong>misura del<strong>la</strong> riduzione del<strong>la</strong> varianza del<strong>la</strong> funzione approssimante in corrispondenzadi x i e, in analogia con i modelli legati al<strong>la</strong> <strong>regressione</strong> linearec<strong>la</strong>ssica, possiamo indicare tale quantità con il nome di leverage o termine dileva. E’ molto importante osservare il valore che assume il leverage, infattise i dati vengono interpo<strong>la</strong>ti, allora ĝ(x i ) = y i ed ||L α (x i , x i )|| 2 = 1, d’altraparte se ĝ(x i ) = ȳ, allora ||L α (x i , x i )|| 2 = 1/n. Quindi si ha1/n ≤ ||L α (x i , x i )|| 2 ≤ 1Quando ||L α (x i , x i )|| 2 = 1 segue che <strong>per</strong> stimare ĝ(x i ) si considera solo ilvalore y i dell’ i-esima osservazione, <strong>la</strong> quale si dice costituire un caso influente.Inoltre il modello in quel punto sta interpo<strong>la</strong>ndo anche il termine di errore,quindi si crea un problema di over-fitting che va analizzato con <strong>la</strong> dovutacaute<strong>la</strong>.Una misura generale del<strong>la</strong> rego<strong>la</strong>rità del<strong>la</strong> funzione approssimante è fornitadaν 2 =n∑||L α (x i , x i )|| 2i=1Questo è uno dei modi possibili di calco<strong>la</strong>re i gradi di libertà, in partico<strong>la</strong>re<strong>la</strong> quantità ν 2 non è altro che <strong>la</strong> quantità che, descrivendo il Loess, abbiamogià introdotto come numero di parametri equivalenti. ν 2 soddisfa <strong>la</strong> seguentedisuguaglianza:1 ≤ ν 2 ≤ n43


e si può anche esprimere come ν 2 = tr(L ′ L).Un altro modo di quantificare i gradi di libertà è il seguente:ν 1 =n∑L α (x i , x i ) = tr(L)i=1Per un’approssimazione nel senso dei minimi quadrati, <strong>la</strong> matrice hat è taleche L = L ′ L e quindi ν 1 = ν 2 . Per gli stimatori lineari le due definizioni disolito differiscono ma sono simili in grandezza. I gradi di libertà fornisconoun meccanismo attraverso il quale diversi stimatori, con diversi parametridi smoothing, possono essere confrontati: semplicemente i parametri vannoscelti in modo da produrre gli stessi gradi di libertà.2.2.4 Stima di σ 2L’ultimo componente necessario <strong>per</strong> fare inferenza è <strong>una</strong> adeguata stimadel<strong>la</strong> varianza σ 2 dei termini di errore. Diamo <strong>la</strong> seguente:ˆσ 2 =1n − 2ν 1 + ν 2n∑(y i − ĝ(x i )) 2i=1La normalizzazione è fatta in modo tale che, se si trascura <strong>la</strong> distorsione diĝ(x i ), ˆσ 2 è non distorto.2.3 Statistiche <strong>per</strong> stimatori lineari: ampiezzadi banda ed inferenzaUna volta descritte le proprietà principali degli stimatori di cui ci stiamooccupando, è giunto il momento di costruire intervalli di confidenza, testd’ipotesi, e di descrivere le tecniche di scelta del parametro di smoothing.44


2.3.1 Determinare il valore dei parametriTutte le tecniche viste finora, dal Loess alle Smoothing Splines, presentanoalmeno un parametro che control<strong>la</strong> <strong>la</strong> rego<strong>la</strong>rità del<strong>la</strong> funzione approssimante.Questo parametro è il parametro di lisciamento o smoothness e, <strong>per</strong>sceglierne il valore più adatto, esistono due approcci alquanto diversi. Daun <strong>la</strong>to si possono utilizzare metodi automatici, programmati a computer,basati sull’ottimizzazione di qualche espressione che valuta <strong>la</strong> bontà dell’approssimazione;dall’altro ci si può basare su metodi grafici ed esplorativi. Iprimi hanno il vantaggio di richiedere poco <strong>la</strong>voro ma sono meno affidabili:stime con ampiezze di banda molto diverse possono risultare simili dal puntodi vista del<strong>la</strong> bontà dell’approssimazione. Il risultato può quindi essere moltoirrego<strong>la</strong>re(undersmoothed) o molto distorto.Di seguito verranno descritti i principali criteri usati <strong>per</strong> valutare <strong>la</strong> bontàdell’approssimazione.Cross ValidationLa <strong>tecnica</strong> chiamata Cross Validation cerca di rispondere a domande deltipo: se <strong>la</strong> curva di <strong>regressione</strong> è utilizzata <strong>per</strong> prevedere il valore di nuoveosservazioni, quanto buona sarà <strong>la</strong> previsione? Se si è in possesso di <strong>una</strong>nuova osservazione x 0 , e si fà <strong>una</strong> previsione di y 0 tramite ŷ 0 = ĝ(x 0 ), qual’èl’errore di previsione?Una misura di tale errore è data daE((y 0 − ŷ 0 ) 2 )La Cross Validation può essere usata <strong>per</strong> stimare questa quantità. Essafuziona nel modo seguente: iterativamente ogni osservazione (x i , y i ) è estrattadal set di dati e si calco<strong>la</strong> <strong>una</strong> stima di y i con uno dei metodi di smoothingvisti, applicato alle n − 1 osservazioni rimanenti. Questo porta al<strong>la</strong> funzioneCross Validation ordinaria45


CV (ĝ) = 1 nn∑(y i − ĝ −i (x i )) 2i=1da minimizzare. Nell’espressione appena scritta ĝ −i rappresenta <strong>la</strong> stimaquando <strong>la</strong> singo<strong>la</strong> osservazione (x i , y i ) è omessa dal set di dati. Formalmentecalco<strong>la</strong>re ogni <strong>regressione</strong> ĝ −i risulta molto costoso a livello computazionale;esiste a questo proposito <strong>una</strong> notevole semplificazione, valida <strong>per</strong> tutti glistimatori lineari descritti:ĝ −i (x i ) = ĝ(x i) − L α (x i , x i )y i1 − L α (x i , x i )Con questa semplificazione, il criterio Cross Validation diventaCV (ĝ) = 1 nn∑i=1(y i − ĝ −i (x i )) 2(1 − L α (x i , x i )) 2Esiste <strong>una</strong> Cross Validation generalizzata, adatta quando sono presenti valoridi x coincidenti, che sostituisce i valori L α (x i , x i ) con <strong>la</strong> media, ν 1 /n. Essaassume <strong>la</strong> seguente forma:∑ ni=1GCV (ĝ) = n(y i − ĝ −i (x i )) 2(n − ν 1 ) 2Il parametro di smoothing ottimale corrisponde al valore di α che minimizzaCV o GCV .La Cross Validation è applicabile <strong>per</strong> <strong>la</strong> scelta di α sia al Loess che ai KernelSmoothers, ma, nel s<strong>of</strong>tware R, le Smoothing Splines sono le uniche a <strong>of</strong>frire<strong>la</strong> possibilità di utilizzare <strong>la</strong> Cross Validatio semplicemente aggiungendoun argomento, cv nel<strong>la</strong> funzione smooth.spline. Se cv = T RUE viene usata<strong>la</strong> Cross Validation ordinaria, altrimenti quel<strong>la</strong> generalizzata. In Figura2.6 si può vedere <strong>una</strong> curva ottenuta attraverso Cross Validation generaliz-46


zata, applicata giustamente in quanto il predittore x presenta alcuni punticoincidenti.Stima non distorta del RischioUna funzione Rischio misura <strong>la</strong> distanza tra <strong>la</strong> funzione g e <strong>la</strong> sua stima;<strong>per</strong> esempio si haR(g, ĝ) = 1 σ 2n∑E((ĝ(x i ) − g(x i )) 2 )i=1Idealmente, <strong>una</strong> buona stima è tale da presentare basso rischio. Poichè,<strong>per</strong>ò, g non è nota, R(g, ĝ) non può essere valutata direttamente; <strong>per</strong> questo<strong>la</strong> funzione Rischio va stimata e <strong>una</strong> stima non distorta è, ad esempio, <strong>la</strong>seguenteˆR(g, ĝ) = 1 σ 2n∑(y i − ĝ(x i )) 2 − n + 2ν 1i=1dove σ 2 si può stimare come visto nel<strong>la</strong> sezione 2.2.4. Questa funzione siutilizza nello stesso modo del<strong>la</strong> funzione di Cross Validation; le approssimazioniche producono un Rischio minore sono considerate migliori e quindi <strong>per</strong>scegliere i parametri di interesse si cerca di minimizzare <strong>la</strong> funzione di rischio.Stima del<strong>la</strong> distorsione e metodi Plug-inUna c<strong>la</strong>sse completamente diversa di metodi di selezione dell’ampiezza dibanda, solitamente chiamati metodi Plug-in, cerca di stimare direttamente<strong>una</strong> misura di rischio attraverso approssimazioni di media e varianza. Proprio<strong>per</strong>chè si par<strong>la</strong> di ampiezza di banda, va chiarito che questi metodi sono statisviluppati re<strong>la</strong>tivamente ai Kernel-Smoothers.Concentrandoci nuovamente sull’espressione di <strong>una</strong> funzione di rischio,possiamo scriverne <strong>una</strong> decomposizione in distorsione e varianza47


σ 2 R(g, ĝ) =n∑n∑bias(ĝ(x i )) 2 + var(ĝ(x i )) =i=1n∑i=1( n∑j=1i=1) 2 n∑L α (x i , x j )g(x j ) − g(x i ) + σ 2 ||L α (x i , x i )|| 2i=1Una stima plug-in inizia costruendo un’approssimazione preliminare di g.Questa è quindi sostituita all’interno dell’espressione precedente, che può alloraessere minimizzata rispetto all’ampiezza di banda α. Esistono numerosevarianti dei metodi Plug-in in letteratura. Spesso si semplifica <strong>la</strong> funzionedi rischio usando delle approssimazioni asintotiche <strong>per</strong> <strong>la</strong> distorsione e <strong>la</strong>varianza del tipo visto precedentemente; in questo modo si ottiene(∫ ) vσ 2 R(g, ĝ) ≃ α 4 2 2 n∑W (v)dv2 ∫ g ′′ (x i ) 2 + σ2W (v)dvnαi=1∫W (v) 2 dv( ∫ ∑W (v)dv) 2i=1n 1f(x i )Se le osservazioni sono uniformemente distribuite in un intervallo [a, b], alloraapprossimando le somme con integrali si ha(∫ ) vσ 2 R(g, ĝ) ≃ nα 4 2 2W (v)dv2 ∫ 1W (v)dv b − a∫ bag ′′ (x) 2 (b − a)σ2dx+α∫W (v) 2 dv( ∫ W (v)dv) 2Minimizzando questa espressione rispetto ad α si ottiene un’ampiezza dibanda ottimale a livello asintotico:α 5 opt =σ 2 (b − a) 2 ∫ W (v) 2 dvn( ∫ v 2 W (v)dv) 2 ∫ ba g′′ (x) 2 dxPer valutare α opt è necessario sostituire ∫ ba g′′ (x) 2 dx e σ 2con delle stime.48


Essendo σ 2 <strong>la</strong> varianza dei termini di errore, <strong>per</strong> essa si può utilizzare l’approssimazionegià introdotta; stimare <strong>la</strong> quantità integrale è, invece, più problematico<strong>per</strong>chè introduce ulteriori parametri incogniti e quindi <strong>la</strong>sciamo <strong>la</strong>discussione di questo problema a testi più specifici.2.3.2 Inferenza StatisticaIn questa sezione è presentata <strong>una</strong> descrizione generale delle tecnicheinferenziali usate <strong>per</strong> costruire intervalli di confidenza e test d’ipotesi re<strong>la</strong>tiviagli stimatori di g che stiamo studiando.Intervalli di confidenzaSe gli errori ε i hanno distribuzione normale, allora gli intervalli di confidenza<strong>per</strong> <strong>la</strong> funzione g, ovvero <strong>per</strong> il valor medio di y in corrispondenza dix, possono essere costruiti nel seguente modo:[ ĝ(x) − cˆσ||l(x)||, ĝ(x) + cˆσ||l(x)|| ]La costante c può essere scelta da <strong>una</strong> distribuzione T di Student con n −2ν 1 + ν 2 gradi di libertà in base al livello che si vuole abbia il test.Test d’IpotesiConsideriamo il problema di testare l’adeguatezza di un certo modello.Ad esempio, studiando un set di dati, ci chiediamo se un’approssimazionetramite <strong>regressione</strong> lineare del tipo g(x) = a + bx sia adeguata, oppure sesia più opportuno utilizzare qualc<strong>una</strong> delle tecniche alternative descritte inprecedenza. Il problema di test delle ipotesi assume questa forma:H 0 : g(x) = a + bx<strong>per</strong> qualche a,bH 1 : modello alternativo49


A questo punto è possibile calco<strong>la</strong>re <strong>una</strong> statistica F considerando l’approssimazionefatta con <strong>la</strong> <strong>regressione</strong> lineare e quel<strong>la</strong> con un modello alternativo,e valutandone <strong>la</strong> differenza. Sotto l’ipotesi nul<strong>la</strong> i valori stimati siano dati daMY , dove M è <strong>la</strong> matrice hat <strong>per</strong> un’approssimazione nel senso dei minimiquadrati. Sotto l’ipotesi alternativa i valori stimati siano invece HY , dove Hè <strong>la</strong> matrice hat <strong>per</strong> <strong>una</strong> <strong>regressione</strong> basata su tecniche derivate dai KernelSmoothers. F allora si può scrivere comeF = ||HY − MY ||2 /νˆσ 2dove ν = tr((H − M) ′ (H − M)). Questa statistica non ha <strong>una</strong> distribuzioneF esatta; nonostante questo, approssimando <strong>la</strong> distribuzione che ci interessacon <strong>una</strong> F , supposto che H 0 sia vera, otteniamo dei risultati ragionevoli. Labontà di questi risultati è influenzata dalle quantità usate <strong>per</strong> stimare i gradidi libertà del<strong>la</strong> F . Una possibile scelta è ν <strong>per</strong> il numeratore e n − 2ν 1 + ν 2<strong>per</strong> il denominatore. L’approssimazione può <strong>per</strong>ò essere migliorata o<strong>per</strong>andodelle trasformazioni su queste quantità: sia Λ = (H − M) ′ (H − M), i gradidi libertà del numeratore diventano tr(Λ) 2 /tr(Λ 2 ), similmente si ottengono igradi di libertà del denominatore.Una volta descritta <strong>la</strong> distribuzione approssimata del<strong>la</strong> statistica F il test diipotesi si conduce considerando il p-value che si calco<strong>la</strong> a partire da F . Essosarà certamente valido in quanto valori grandi del<strong>la</strong> statistica che stiamoutilizzando sono prove contro l’ipotesi nul<strong>la</strong>, quindi a partire dal p-valuepossiamo costruire <strong>la</strong> regione di rifiuto del test.50


Capitolo 3Tecniche a confrontoTutte le tecniche illustrate nel capitolo precedente rientrano nel<strong>la</strong> teoriadel<strong>la</strong> <strong>regressione</strong> non parametrica e sono caratterizzate dal valore assuntoda un’opportuno parametro, detto parametro di lisciamento. Esse risultanoquindi partico<strong>la</strong>rmente adatte ad essere poste a confronto con il Loess.3.1 Loess e Kernel SmoothersSia i Kernel Smoothers che <strong>la</strong> <strong>regressione</strong> <strong>locale</strong>, <strong>la</strong> quale si avvale delLoess <strong>per</strong> stimare g, partono dal presupposto che, <strong>per</strong> il calcolo di ĝ sia opportunoattribuire importanza diversa alle osservazioni a seconda del<strong>la</strong> lorodistanza dal punto x, nello spazio dei predittori, nel quale si sta effettuando ilcalcolo. Per tener conto di ciò, entrambe le tecniche utilizzano <strong>una</strong> funzionedei pesi, w, che assume valore maggiore <strong>per</strong> le osservazioni vicine al punto incui si sta effettuando <strong>la</strong> stima, minore <strong>per</strong> quelle lontane; <strong>la</strong> struttura di talefunzione rappresenta <strong>la</strong> prima grande differenza presente fra i due stimatori.Infatti, se <strong>per</strong> i Kernel Smoothers l’ampiezza dell’intervallo all’interno delquale le osservazioni presenti ricevono peso non nullo rimane costante, nelLoess tale ampiezza è funzione del grado di sparsità dei punti osservati. Inaltre parole, mentre nel primo caso il parametro di lisciamento è dato dall’ampiezzadi banda h, che viene mantenuta costante, e il sistema dei pesi51


viene semplicemente tras<strong>la</strong>to in ogni nuovo punto dove si effettua <strong>la</strong> stima,nel Loess ciò che si sceglie di mantenere costante e di usare come parametrodi lisciamento è <strong>la</strong> frazione di osservazioni a cui assegnare peso non nullo.Questo fatto costituisce un indubbio vantaggio in quanto consente di ottenerebuoni risultati anche in presenza di osservazioni il cui grado di dis<strong>per</strong>sionevari molto nello spazio dei predittori. Per illustrare graficamente quanto dettomostriamo due grafici. I dati utilizzati sono stati creati artificialmentein modo da avere osservazioni fortemente non equispaziate. In Figura 3.1mostriamo osservazioni allineate su <strong>una</strong> retta in assenza di <strong>per</strong>turbazionee vediamo come, anche nel<strong>la</strong> situazione ideale, i risultati ottenuti con <strong>una</strong>stima kernel sono piuttosto scadenti. Nelle altre due figure mostriamo situazioniottenute <strong>per</strong>turbando dati provenienti da <strong>una</strong> retta e da <strong>una</strong> funzioneseno attraverso un generatore di numeri casuali da <strong>una</strong> normale di media 0e varianza 0.2 2 .Figura 3.1: osservazioni disposte su <strong>una</strong> retta52


Figura 3.2: osservazioni <strong>per</strong>turbate provenienti da <strong>una</strong> rettaFigura 3.3: osservazioni <strong>per</strong>turbate provenienti da <strong>una</strong> funzione seno53


D’altra parte ciò che ci si deve aspettare è che in <strong>una</strong> buona parte dei problemidi <strong>regressione</strong> i dati con cui si ha a che fare non siano equispaziati. Ad esempionel seguente grafico in cui si vuole studiare <strong>la</strong> re<strong>la</strong>zione tra cilindrata e <strong>per</strong>correnzaurbana di un’automobile attraverso <strong>una</strong> stima di <strong>regressione</strong>, ( i dati sonodisponibili al seguente indirizzo Web: http://azzalini.stat.unipd.it/Libro-DM/ ), sembra ragionevole usare un’ampiezza di banda più elevata <strong>per</strong> c > 3in quanto in quel<strong>la</strong> regione cadono molte meno osservazioni.Figura 3.4: un set di dati reali: i dati delle autoIn Figura 3.4 sono riportate due curve: in rosso vediamo <strong>la</strong> ĝ ottenutatramite loess, nel<strong>la</strong> sua variante robusta con α = 0.75 e λ = 2, mentre inblu abbiamo <strong>una</strong> stima attraverso Kernel Smoother con nucleo gaussiano eampiezza di banda pari a 0.5.A questo punto va notato che i Kernel Smoothers possono essere visti nonsolo come <strong>una</strong> <strong>tecnica</strong> che stima g attraverso <strong>una</strong> media pesata delle osservazioniche cadono all’interno del<strong>la</strong> finestra selezionata dall’ampiezza di banda,ma anche come <strong>una</strong> speciale forma di <strong>regressione</strong> <strong>locale</strong> in cui <strong>per</strong>ò si scelgonosolo ed esclusivamente polinomi di grado λ = 0. Ora, posto il fatto che,qualunque sia <strong>la</strong> <strong>tecnica</strong> di <strong>regressione</strong> che si utilizza, bisogna prestare partico<strong>la</strong>reattenzione quando si stima g in punti vicini al<strong>la</strong> frontiera dell’insieme54


che costituisce lo spazio dei predittori, nei Kernel Smoothers si evidenzia <strong>una</strong>distorsione al bordo di entità notevole. La spiegazione di tale comportamentoè alquanto semplice. Sia x 0 il punto nel quale vogliamo realizzare <strong>la</strong> stima,all’avvicinarsi di x 0 ai bordi il sistema dei pesi cessa inevitabilmente di esseresimmetrico fino a che si giunge ad un punto in cui le osservazioni con pesonon nullo giacciono o solo a destra o solo a sinistra di x 0 . Supponiamo adesempio di voler stimare g in un punto prossimo al limite sinistro; in questocaso le osservazioni x i giacciono tutte al<strong>la</strong> destra di x 0 e il fatto di stimareg attraverso <strong>una</strong> media pesata delle y i genera <strong>la</strong> distorsione. Infatti, almenolocalmente, <strong>la</strong> funzione g sarà o solo crescente o solo decrescente. Se consideriamoil caso in cui essa sta crescendo, e di conseguenza stanno crescendo ley i , tutti i valori che entrano nel<strong>la</strong> media pesata sono presumibilmente maggiorio uguali ad y 0 e ciò porta ad un valore stimato di g distorto in quantotroppo alto. Un discorso analogo vale <strong>per</strong> dati decrescenti, in cui <strong>la</strong> g vienesottostimata, e <strong>per</strong> un punto x 0 prossimo al limite destro. Un modo <strong>per</strong>risolvere questo problema è quello di non utilizzare costanti <strong>per</strong> stimare g,ma, proprio come fa il Loess, polinomi di primo o di secondo grado, cosache è illustrata nel<strong>la</strong> Figura seguente ( di Azadeh Shakery e Jakob Metzler,Kernel Methods, 8 ottobre 2003):Figura 3.5: distorsione al bordo: a sinistra <strong>la</strong> curva in verde è ottenuta usandolocalmente polinomi di grado zero, a destra sono usati polinomi lineariSpecifichiamo che il Loess da buoni risultati ai bordi non solo <strong>per</strong>chè nonusa costanti <strong>per</strong> il calcolo di ĝ, cosa che fanno anche le tecniche derivate daiKernel Smoothers, ma anche <strong>per</strong>chè il suo sistema di pesi, il quale non è55


vinco<strong>la</strong>to ad essere simmetrico intorno al punto x 0 , non si limita ad essere<strong>la</strong> copia, troncata <strong>per</strong> mancanza di osservazioni, di quello che si ha nei puntiinterni, ma si modifica opport<strong>una</strong>mente in modo da attribuire peso non nulloal<strong>la</strong> frazione di punti richiesta dallo span α. In Figura 3.6 mostriamo il differentecomportamento di Loess e Kernel Smoothers nel<strong>la</strong> stima di <strong>regressione</strong>re<strong>la</strong>tiva a un campione di 100 osservazioni creato artificialmente <strong>per</strong>turbando<strong>una</strong> funzione seno con un termine di errore ottenuto usando un generatorecasuale da <strong>una</strong> distribuzione normale standard.Figura 3.6: distorsione al bordoUna caratteristica del metodo Loess che abbiamo visto essere partico<strong>la</strong>rmenteutile è il fatto che è possibile renderlo resistente agli outliers semplicementesostituendo ai pesi w i <strong>la</strong> loro correzione r i w i , <strong>la</strong> quale tiene contodell’entità dei residui associati ad ogni osservazione penalizzando quelle <strong>per</strong>le quali essa è troppo elevata. In R ciò viene fatto automaticamente scegliendo<strong>per</strong> il parametro family il valore symmetric. Per quanto riguardai Kernel Smoothers, nel<strong>la</strong> loro versione standard, che è quel<strong>la</strong> che abbiamoqui descritto, essi sono sensibili agli outliers come si vede chiaramente dalseguente grafico in cui è presentata anche <strong>una</strong> stima Loess:56


Figura 3.7: presenza di outliersIn realtà, a livello teorico, non sembrano esserci ragioni che impediscanodi introdurre un termine di correzione, analogo a quello del Loess, tale darendere robusta <strong>la</strong> stima attraverso Kernel Smoothers.Concludendo questa parte va notato che, così come il Loess è <strong>per</strong> sua natura<strong>una</strong> <strong>tecnica</strong> che funziona bene sia in presenza di un solo predittore, sia inpresenza di più predittori, i risultati re<strong>la</strong>tivi ai Kernel Smoothers si estendonocon re<strong>la</strong>tiva facilità al caso multidimensionale.3.2 Loess e Smoothing SplinesMentre Loess e Kernel Smoothers sono due metodi che partono da un’idea essenzialmente simile <strong>per</strong> poi diversificarsi nel modo con il quale essaè stata sviluppata, l’approccio delle Smoothing Splines è completamente diverso.Infatti, mentre nel Loess l’unica richiesta che si fa a g è di essere benapprossimabile in un opportuno intorno con polinomi di primo o di secondogrado, e si procede al calcolo di ĝ tras<strong>la</strong>ndo di volta in volta il sistemadei pesi in diversi punti nello spazio dei predittori, <strong>per</strong> quanto riguarda leSmoothing Splines <strong>la</strong> stima di g non passa attraverso <strong>la</strong> costruzione di <strong>una</strong>57


funzione che assegna peso diverso alle singole osservazioni e inoltre si richiede<strong>una</strong> rego<strong>la</strong>rità molto forte al<strong>la</strong> funzione g; <strong>la</strong> ĝ che si trova con le SmoothingSplines minimizzando l’espressione dei minimi quadrati penalizzati è, infatti,<strong>una</strong> funzione continua insieme alle sue derivate fino al second’ordine incluso.Poichè esiste <strong>una</strong> funzione obiettivo da ottimizzare, le Smoothing Splines sono<strong>una</strong> <strong>tecnica</strong> più elegante a livello matematico rispetto al Loess, nel qualenon abbiamo ness<strong>una</strong> espressione che definisce ĝ, neppure a livello implicito.Nonostante ci sia questa grossa differenza di impostazione e nonostante ledue tecniche presentino diversi parametri di lisciamento, esse risultano comunqueconfrontabili in quanto entrambe appartengono al<strong>la</strong> c<strong>la</strong>sse degli stimatorilineari e quindi risulta interessante vedere quali risultati si ottenganoimponendo a entrambe di stimare g utilizzando lo stesso numero di gradidi libertà. Qui sotto riportiamo due grafici in cui <strong>la</strong> curva Loess e <strong>la</strong> curvacalco<strong>la</strong>ta tramite Smoothing Splines sono state realizzate in modo da averelo stesso numero di gradi di libertà. Ricordiamo che R calco<strong>la</strong> i gradi di libertàvalutando <strong>la</strong> traccia del<strong>la</strong> cosiddetta smoother matrix che in precedenzaabbiamo indicato con L.Figura 3.8: confronto tra Loess e Smoothing Splines, fissato il numero digradi di libertà58


Figura 3.9: stime ottenute tramite Loess e Smoothing Splines a parità digradi di libertàLa prima delle due figure è stata realizzata con il consueto set di dati creatoartificialmente fissando a 6.83 il numero di gradi di libertà. Per fare il secondografico è stato usato il set di dati Prestige, già presente in R, nel quale sonopresenti 102 osservazioni re<strong>la</strong>tive a uno studio sociologico condotto in Canadaall’inizio degli anni ’70; <strong>la</strong> re<strong>la</strong>zione che ci si è proposti di studiare è quel<strong>la</strong> frareddito medio e prestigio sociale calco<strong>la</strong>to tramite un indice chiamato indicePineo-Porter. In questo caso abbiamo prima calco<strong>la</strong>to <strong>la</strong> stima loess di gradounitario con span pari a 0.7 e poi, dopo aver letto nel re<strong>la</strong>tivo output che <strong>la</strong>traccia di L era pari a 4.5, abbiamo fatto il calcolo re<strong>la</strong>tivo alle SmoothingSplines usando, <strong>per</strong> calco<strong>la</strong>re il valore di lisciamento λ, un numero di gradidi libertà proprio pari a 4.5. Osservando i risultati ottenuti si constata chele stime ottenute tramite Loess e Smoothing Splines con lo stesso numero digradi di libertà sono molto simili; va notato che il comportamento al bordo delmetodo Loess risulta comunque più accurato anche se le Smoothing Splinesnon sembrerebbero presentare <strong>una</strong> distorsione sistematica del tipo visto coni Kernel Smoothers. Segnaliamo infine che in <strong>una</strong> situazione come quel<strong>la</strong>re<strong>la</strong>tiva ai dati di 3.9 i Kernel Smoothers non riescono a produrre risultati59


accettabili.Esaminiamo ora i risultati che si ottengono quando si vuole stimare g inpresenza di outliers. Con il Loess sappiamo bene che è partico<strong>la</strong>rmente agevolerealizzare <strong>una</strong> stima robusta mentre con le Smoothing Splines i risultatiche si ottengono sono molto simili a quelli che si otterrebbero se il calcol<strong>of</strong>osse svolto con il metodo Loess nel<strong>la</strong> sua versione standard, sensibile aglioutliers. Tutto ciò è ben visibile nel<strong>la</strong> figura seguente:Figura 3.10: presenza di outliersVa detto che, così come <strong>per</strong> i Kernel Smoothers, anche <strong>per</strong> le SmoothingSplines non sembra esserci <strong>una</strong> motivazione teorica che precluda <strong>la</strong> possibilitàdi pesare in modo diverso le osservazioni in base all’entità dei residui adesse associati, inserendo opportuni coefficienti nel primo termine dell’espressionedel criterio dei minimi quadrati penalizzati, ovvero nel<strong>la</strong> somma deiquadrati dei residui; inoltre <strong>la</strong> funzione di R smooth.spline <strong>of</strong>fre <strong>la</strong> possibilitàdi inserire fra i suoi argomenti un vettore di pesi w, del<strong>la</strong> stessa lunghezzadi x. (L’adattamento delle Smoothing Splines a casi in cui si evidenzia <strong>la</strong>presenza di outliers sarà oggetto di un appr<strong>of</strong>ondimento successivo al presente<strong>la</strong>voro di tesi). Tuttavia <strong>la</strong> <strong>tecnica</strong> Loess, nel<strong>la</strong> quale <strong>la</strong> correzione sirealizza automaticamente, semplicemente cambiando il valore del parametro60


family da quello di default, gaussian, a quello re<strong>la</strong>tivo al<strong>la</strong> stima robusta, checome abbiamo già più volte detto è symmetric, si dimostra ancora <strong>una</strong> voltaestremamente flessibile e adatta ad applicazioni con qualsiasi tipo di set didati.Un ultimo punto su cui va testata l’effecienza del metodo Loess rispettoa quel<strong>la</strong> delle Smoothing Splines è <strong>la</strong> generalizzazione al caso multivariato.Mentre al<strong>la</strong> fine di questo capitolo presenteremo <strong>una</strong> semplice analisi in presenzadi due variabili esplicative volta a mostrare come sia semplice usare<strong>la</strong> <strong>tecnica</strong> Loess anche in presenza di più predittori, <strong>la</strong> generalizzazione delletecniche facenti riferimento a funzioni di tipo spline è piuttosto complessa.Per quanto riguarda le Smoothing Splines, <strong>una</strong> loro generalizzazione, che introduciamosolo dal punto di vista teorico, si ottiene attraverso le thin-p<strong>la</strong>tesplines, le quali si ottengono minimizzando un’espressione analoga a quel<strong>la</strong>del criterio dei minimi quadrati penalizzati in cui il <strong>la</strong>p<strong>la</strong>ciano sostituisce <strong>la</strong>derivata seconda del<strong>la</strong> funzione g.A causa del<strong>la</strong> loro elevata complessitàcomputazionale, le thin-p<strong>la</strong>te splines vengono raramente utilizzate quando sihanno più di due predittori; in questo semplice caso, se si suppone di avere<strong>una</strong> coppia di predittori, x 1 e x 2 , il secondo termine che costituisce l’espressionedei minimi quadrati penalizzati, ovvero quello che control<strong>la</strong> <strong>la</strong> rego<strong>la</strong>ritàdel<strong>la</strong> soluzione, assume <strong>la</strong> seguente forma∫∫R 2 { (∂ 2 g(x)∂x 2 1) 2 ( ) ∂ 2 2g(x)+ 2+∂x 1 ∂x 2( ) }∂ 2 2g(x)dx 1 dx 2∂x 2 2dove si è esplicitato il <strong>la</strong>p<strong>la</strong>ciano bidimensionale. Si può dimostrare che <strong>la</strong>soluzione del problema di ottimizzazione che rappresenta il criterio dei minimiquadrati penalizzati ha <strong>la</strong> formag(x) = ˆβ 0 + ˆβn∑′ x + ˆα j h j (x)dove h j (x) = η(||x − x j ||), e η(z) = z 2 logz 2 ; gli ˆα j , ˆβ 0 e ˆβ sono determinatij=161


via minimizzazione.Per completezza riportiamo che esiste <strong>una</strong> <strong>tecnica</strong> di generalizzazione in piùdimensioni anche <strong>per</strong> le spline di <strong>regressione</strong>; essa si basa sulle cosiddettespline prodotto tensoriale, delle quali <strong>per</strong>ò non entriamo nel merito.3.3 Esempio di <strong>regressione</strong> multip<strong>la</strong> tramiteLoessPrima di concludere questo capitolo può essere interessante vedere all’o<strong>per</strong>ail Loess nello studio di un problema in cui sono presenti due variabiliesplicative. Che <strong>la</strong> teoria re<strong>la</strong>tiva al<strong>la</strong> <strong>regressione</strong> <strong>locale</strong> abbia validità generaleè stato chiarito fin dall’inizio, ma lo scopo di questa sezione è mostrareche tipo di risultati si ottengono digitando semplici comandi R. Per realizzarequesto esempio si consideri nuovamente il set di dati Prestige, <strong>per</strong>ò orasi prenda come predittore, non solo il reddito, income, ma anche un’indicere<strong>la</strong>tivo al titolo di studio, education. In questo caso <strong>la</strong> funzione g, che vogliamostimare, non è più <strong>una</strong> curva ma <strong>una</strong> su<strong>per</strong>ficie. Applichiamo il metodoLoess con span pari a 0.5 e grado λ = 1, in modo da condurre <strong>una</strong> <strong>regressione</strong>localmente lineare. La su<strong>per</strong>ficie risultante ĝ è mostrata nel seguente grafico:62


Figura 3.11: esempio di <strong>regressione</strong> multip<strong>la</strong>La re<strong>la</strong>zione tra <strong>la</strong> variabile risposta e i predittori appare non lineare e seanalizziamo <strong>la</strong> significatività di ciasc<strong>una</strong> variabile di predizione tramite un F-test, vediamo che nè income nè education possono essere omessi nel modello.Riportiamo le tabelle di ANOVA ottenute con R, nelle quali, osservando ip-value, si possono leggere i risultati dell F-test:> mod.lo mod.lo.inc mod.lo.ed anova(mod.lo.inc,mod.lo)Model 1: loess(formu<strong>la</strong> = prestige ~ income, span = 0.7, degree = 1)Model 2: loess(formu<strong>la</strong> = prestige ~ income + education, span = 0.5,degree = 1)Analysis <strong>of</strong> Variance: denominator df 90.66ENP RSS F-value Pr(>F)1 3.9 12006.163


2 8.0 4245.9 20.8 4.841e-16 ***---Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1> anova(mod.lo.ed,mod.lo)Model 1: loess(formu<strong>la</strong> = prestige ~ education, span = 0.7, degree =1)Model 2: loess(formu<strong>la</strong> = prestige ~ income + education, span =0.5, degree = 1)Analysis <strong>of</strong> Variance: denominator df 90.66ENP RSS F-value Pr(>F)1 3.0 7640.22 8.0 4245.9 7.8 7.1e-08 ***---Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1In entrambe le tabelle di analisi del<strong>la</strong> varianza si vede che il p-value del test,P r(> F ), è molto basso e quindi induce ad adottare come modello migliorequello sostenuto dall’ipotesi alternativa comprendente entrambi i predittoriincome ed education.Si vede dunque che è piuttosto semplice maneggiare il metodo Loess conun numero di predittori p maggiore di uno; in realtà, raramente ci si addentramolto al di là delle due dimensioni, e <strong>per</strong> concludere <strong>la</strong> sezione vediamo leprincipali ragioni di ciò.Un primo motivo è <strong>la</strong> difficoltà di rappresentare i risultati e, di conseguenza,di interpretarli; infatti anche se l’idea di funzione di sei o ventisei variabilinon è concettualmente diversa da quel<strong>la</strong> di funzione in due variabili, risultadi fatto mentalmente e graficamente non visualizzabile, <strong>per</strong> lo meno in modosemplice.Una seconda e molto importante ragione è che, all’aumentare del<strong>la</strong> dimensionep dello spazio dove si collocano i predittori, i punti osservati si dis<strong>per</strong>dono64


molto rapidamente, quindi se il numero di osservazioni n resta invariato, <strong>la</strong>qualità del<strong>la</strong> stima ĝ degrada notevolmente. Per compensare l’aumento dispaziatura tra i punti, avremmo bisogno di un campione di dimensione n p ,cosa che diventa rapidamente improponibile se, ad esempio, supponiamo diavere n = 500 e abbiamo a che fare con 5 o addirittura 10 variabili esplicative.Questa situazione di sostanziale impossibilità di stimare g quando p èelevato prende il nome di maledizione del<strong>la</strong> dimensionalità.Infine, va sottolineato che all’aumentare di p, <strong>la</strong> stima diventa sempre piùonerosa a livello computazionale.Per ovviare a questi problemi, ciò che generalmente si fà è cercare di ridurre ilnumero delle variabili esplicative, facendone opportune combinazioni lineariin modo da <strong>per</strong>dere il meno possibile del contenuto informativo, <strong>la</strong> <strong>tecnica</strong>probabilmente più usata e più efficace è quel<strong>la</strong> che si basa sull’analisi dellecomponenti principali.65


Capitolo 4Esplorazione di un set di datirealiIl Loess è, <strong>per</strong> sua natura, <strong>una</strong> <strong>tecnica</strong> che appare partico<strong>la</strong>rmente adatta<strong>per</strong> fare dell’analisi esplorativa. Per mostrare che tipo di risultati si possonoottenere applicando il Loess ad un set di dati reali presentiamo ora l’analisisvolta sul database I Bi<strong>la</strong>nci delle Famiglie Italiane 2002 (BDI), creato utilizzandoi dati disponibili gratuitamente sul sito Internet del<strong>la</strong> Banca d’Italia:www.bancaditalia.it.4.1 Il database BDIL’indagine sui bi<strong>la</strong>nci delle famiglie italiane condotta dal<strong>la</strong> Banca d’Italianel 2002 ha coinvolto nel complesso 8011 famiglie, le quali hanno fornitoinformazioni anagrafiche e re<strong>la</strong>tive al<strong>la</strong> condizione monetaria e patrimonialedel cap<strong>of</strong>amiglia, inteso come il maggior <strong>per</strong>cettore di reddito al 31.12.2002.A partire da questi dati è stato creato il database BDI.Poichè nel condurre l’analisi ciò che interessava era comprendere in che modogli Italiani investono il proprio denaro in re<strong>la</strong>zione a variabili quali ad esempioil sesso e il titolo di studio, il database presenta sei c<strong>la</strong>ssi di attività finanziariealle quali è associato un livello di rischiosità crescente:66


1. V 1: depositi bancari e postali2. V 2: titoli di Stato e fondi monetari3. V 3: obbligazioni e fondi obbligazionari4. V 4: fondi azionari, misti, e gestioni patrimoniali5. V 5: azioni6. V 6: titoli esteriQueste variabili sono state normalizzate in modo da attribuire loro il significatodi <strong>per</strong>centuali di investimento nel<strong>la</strong> rispettiva tipologia di attivitàfinanziaria; va inoltre detto che dal campione sono stati esclusi tutti gli individui<strong>per</strong> i quali non erano disponibili i valori di tutte e sei le variabili,di conseguenza <strong>la</strong> numerosità complessiva di BDI non è di 8011 ma di 4433individui. Infine ad ogni individuo è stato associato un peso, inversamenteproporzionale al<strong>la</strong> probabilità di appartenenza dell’individuo al campione, inmodo da produrre un quadro più fedele possibile del<strong>la</strong> popo<strong>la</strong>zione italiana.Del sistema dei pesi, <strong>la</strong> cui costruzione è spiegata in <strong>una</strong> nota metodologicaanch’essa disponibile in rete, si è tenuto conto durante l’applicazione del<strong>la</strong><strong>tecnica</strong> Loess.4.2 La scelta delle variabili d’interesseIl database BDI è <strong>una</strong> fonte di informazioni molto ricca in quanto contiene,oltre alle sei variabili re<strong>la</strong>tive alle attività finanziarie precedentementeintrodotte, indicazioni anagrafiche e variabili re<strong>la</strong>tive all’area geografica diprovenienza, al titolo di studio, al reddito disponibile netto, al<strong>la</strong> ricchezzanetta, al tipo di <strong>la</strong>voro svolto, a affitti o mutui e all’ evetuale possesso dipensioni private o assicurazioni sanitarie. Per poter condurre l’analisi deidati è stato necessario o<strong>per</strong>are <strong>una</strong> scelta <strong>per</strong> individuare quali variabili utilizzarecome predittori e quali come risposta.67


Per quanto riguarda i predittori si è scelto di utilizzare <strong>la</strong> variabile età, E,e <strong>la</strong> variabile ricchezza netta, W , prima separatamente poi effettuando <strong>una</strong><strong>regressione</strong> multip<strong>la</strong>. Inoltre sono state utilizzate anche le variabili categorichesesso, titolo di studio e area geografica, tramite le quali le osservazionisono state suddivise in sottoinsiemi con lo scopo di applicare il Loess ad ognisottoinsieme e scoprire le differenze fra i gruppi. Come variabile risposta,dopo aver fatto <strong>una</strong> serie di prove, si è scelta quel<strong>la</strong> che forniva risultati piùinteressanti e leggibili, e cioè 1 − (V 1 + V 2) che rappresenta <strong>la</strong> <strong>per</strong>centualeinvestita in attività a medio ed alto rischio.Prima di mostrare i risultati ottenuti occorre precisare che <strong>la</strong> maggioranzadelle osservazioni presenta valore nullo del<strong>la</strong> variabile risposta, fatto che nonsarà evidente nei grafici successivi a causa dei punti sovrapposti ma che èfondamentale considerare <strong>per</strong> interpretare in modo corretto i risultati. Alloscopo di chiarire meglio ciò e, più in generale, di prestare maggior attenzioneal<strong>la</strong> distribuzione dei dati in nostro possesso, mostriamo i tre istogrammi divariabile risposta e predittori, e inoltre <strong>una</strong> stima di densità congiunta di Ee W .Figura 4.1: istogramma re<strong>la</strong>tivo al<strong>la</strong> variabile età68


Figura 4.2: istogramma re<strong>la</strong>tivo al<strong>la</strong> variabile ricchezzaFigura 4.3: istogramma re<strong>la</strong>tivo al<strong>la</strong> variabile 1 − (V 1 + V 2)69


Figura 4.4: stima di densità bidimensionale re<strong>la</strong>tiva ai due predittori, età ericchezzaIn Figura 4.4 <strong>la</strong> densità è minima in corrispondenza delle zone dove prevaleil colore rosso, massima dove il colore è giallo chiaro e bianco; si vedequindi che i valori dei predittori <strong>per</strong> i quali <strong>la</strong> densità è significativamentediversa da zero sono concentrati in <strong>una</strong> zona molto ristretta. Infine si notiche l’osservazione delle diagnostiche grafiche re<strong>la</strong>tive ai residui mostra che,in questo caso, l’assunzione di distribuzione gaussiana oppure simmetrica eleptocurtica di media zero, re<strong>la</strong>tiva ai termini di errore, non è assolutamenteverificata. Ciò è <strong>una</strong> conseguenza diretta del tipo di dati di cui siamo in possessoquindi, nonostante tale assunto sia <strong>una</strong> delle ipotesi che caratterizzano<strong>la</strong> teoria re<strong>la</strong>tiva al<strong>la</strong> <strong>regressione</strong> <strong>locale</strong>, poichè il nostro interesse è di tipopuramente esplorativo, mentre vengono tra<strong>la</strong>sciati gli aspetti inferenziali <strong>per</strong>i quali l’assunzione sarebbe fondamentale, procediamo nell’analisi applicandoun Loess lineare con α = 0.5 e valore di default del parametro family.4.3 I risultatiPrima di presentare le curve stimate con il Loess, le quali danno un’indicazionepiuttosto chiara del modo in cui età e ricchezza, come predittori, e70


zona geografica, sesso e titolo di studio, come variabili categoriche, influisconosul<strong>la</strong> quota che gli Italiani investono in titoli rischiosi, illustriamo brevementeil tipo di risultati che ci si aspetta di ottenere, facendo riferimento a studieconomici condotti nell’ambito del<strong>la</strong> letteratura sulle scelte di portafoglio,[Guiso e Jappelli,2000],[Ameriks e Zeldes,2001].Da questi studi si evince che <strong>la</strong> quota investita in attività finanziarie a medioed alto rischio è crescente con l’età e poi decrescente, con un massimoraggiunto tra i 40 e i 45 anni. Inoltre tale quota è crescente nel<strong>la</strong> ricchezzae nell’educazione; le donne, infine, investono meno degli uomini in titolirischiosi.4.3.1 Distinzione <strong>per</strong> area geograficaMostriamo ora i grafici ottenuti attraverso l’applicazione del Loess primaall’intero database e poi ai sottoinsiemi dei dati divisi <strong>per</strong> area geografica inmodo da evidenziare le differenze presenti tra gli investitori del Nord Italia,del Centro e di Sud e Isole.Figura 4.5: 1 − (V 1 + V 2) ∼ età71


Figura 4.6: 1 − (V 1 + V 2) ∼ ricchezzaOsservando gli andamenti ottenuti possiamo dire che essi sono in <strong>per</strong>fettoaccordo con <strong>la</strong> letteratura che si occupa delle scelte di portafoglio. Inoltrevediamo che le regioni nelle quali si tende ad investire di più in titoli rischiosisembrano essere quelle settentrionali; esse sono, fra l’altro, le regioni dallequali proviene il maggior numero di dati presenti in BDI, mentre il minornumero di osservazioni è fornito dal meridione. Ciò è conseguenza del fattoche nel Sud circa il 50% del<strong>la</strong> popo<strong>la</strong>zione non detiene attività finanziarie(compresi i depositi bancari) mentre tale <strong>per</strong>centuale scende a meno del 15%nel Centro-Nord.Ricordiamo che le curve tendono ad essere concentrate nel<strong>la</strong> parte inferiore<strong>per</strong> quanto riguarda Figura 4.5, a causa dell’elevatissimo numero di osservazioni<strong>per</strong> le quali <strong>la</strong> risposta assume valore nullo. In Figura 4.6 si nota inveceche le curve re<strong>la</strong>tive al Centro e al Sud si interrompono a causa del<strong>la</strong> scarsitàdi osservazioni e del fatto che il Loess, condotto tramite interpo<strong>la</strong>zione e nonvalutazione diretta in ogni punto, riesce a stimare g solo all’interno del rangedei dati.Di seguito mostriamo i grafici in tre dimensioni, creati utilizzando congiuntamentei due predittori, che rappresentano esempi di <strong>regressione</strong> multip<strong>la</strong>. La72


su<strong>per</strong>ficie ottenuta è stata stimata tenendo conto del termine di interazionefra i due predittori.Figura 4.7: ItaliaFigura 4.8: Nord73


Figura 4.9: CentroFigura 4.10: Sud e IsoleOsservando quanto ottenuto notiamo che <strong>la</strong> su<strong>per</strong>ficie stimata re<strong>la</strong>tivamenteal Nord è quel<strong>la</strong> che più si avvicina al<strong>la</strong> su<strong>per</strong>ficie re<strong>la</strong>tiva all’Italia intera;questo dato non deve stupire ricordando <strong>la</strong> composizione del set di dati.Inoltre <strong>la</strong> differenza più evidente in termine di risultati è quel<strong>la</strong> che si vede74


tra Nord e Sud e Isole.interazione tra i due predittori, età e ricchezza.Infine dai grafici sembra emergere <strong>la</strong> presenza di4.3.2 Distinzione <strong>per</strong> sessoPresentiamo ora i grafici ottenuti considerando separatamente i dati re<strong>la</strong>tivia capifamiglia uomini e donne, prima in riferimento all’intero territorioitaliano, poi distiguendo rispetto alle tre aree geografiche considerate.Figura 4.11: Italia 1 − (V 1 + V 2) ∼ età75


Figura 4.12: Italia 1 − (V 1 + V 2) ∼ ricchezzaFigura 4.13: Italia, uomini76


Figura 4.14: Italia, donneDalle curve ottenute si deduce che, da <strong>una</strong> certa età in poi, gli uomini tendonoad investire maggiormente in titoli rischiosi rispetto alle donne; ciò risultain <strong>per</strong>fetto accordo con <strong>la</strong> teoria. Di seguito presentiamo i grafici re<strong>la</strong>tivi aNord, Centro, Sud e Isole separatamente; l’ossevazione delle curve stimateconduce a conclusioni analoghe a quelle tratte in riferimento all’Italia intera.Figura 4.15: Nord 1 − (V 1 + V 2) ∼ età77


Figura 4.16: Nord 1 − (V 1 + V 2) ∼ ricchezzaFigura 4.17: Nord, uomini78


Figura 4.18: Nord, donneFigura 4.19: Centro 1 − (V 1 + V 2) ∼ età79


Figura 4.20: Centro 1 − (V 1 + V 2) ∼ ricchezzaFigura 4.21: Centro, uomini80


Figura 4.22: Centro, donneFigura 4.23: Sud e Isole 1 − (V 1 + V 2) ∼ età81


Figura 4.24: Sud e Isole 1 − (V 1 + V 2) ∼ ricchezzaFigura 4.25: Sud e Isole, uomini82


Figura 4.26: Sud e Isole, donneDa tutti i grafici emerge che <strong>la</strong> differenza di comportamento tra uomini e donneaumenta all’aumentare del<strong>la</strong> variabile ricchezza, infatti, <strong>per</strong> valori moltoelevati di W , <strong>la</strong> variabile risposta calco<strong>la</strong>ta <strong>per</strong> le donne assume valori moltopiù bassi di quelli che raggiunge re<strong>la</strong>tivamente agli uomini.4.3.3 Distinzione <strong>per</strong> titolo di studioInfine abbiamo suddiviso i dati in sottoinsiemi in base al tipo di titolodi studio posseduto dai singoli individui. Per semplicità abbiamo consideratosolo due livelli del<strong>la</strong> variabile, raggruppando da un <strong>la</strong>to (basso titolodi studio) coloro non in possesso di alcun titolo di studio e coloro dotati dilicenza elementare, media inferiore oppure che hanno frequentato un corsopr<strong>of</strong>essionale, dall’altro (alto titolo di studio) quelli che hanno conseguito undiploma, <strong>una</strong> <strong>la</strong>urea triennale o quinquennale oppure che hanno seguito corsipost-<strong>la</strong>urea. Anche qui mostriamo prima i risultati re<strong>la</strong>tivi all’Italia nel suocomplesso e poi quelli delle tre aeree geografiche in cui il Paese è diviso.83


Figura 4.27: Italia 1 − (V 1 + V 2) ∼ etàFigura 4.28: Italia 1 − (V 1 + V 2) ∼ ricchezza84


Figura 4.29: Italia, basso titolo di studioFigura 4.30: Italia, alto titolo di studio85


Si noti che <strong>la</strong> curva stimata sul<strong>la</strong> base dei dati re<strong>la</strong>tivi a chi possiede untitolo di studio considerato alto si trova sempre sopra a quel<strong>la</strong> associata aun basso livello di educazione. Sembra quindi trovare conferma l’assunzionesecondo cui <strong>la</strong> quota investita in attività finanziarie a medio ed alto rischio ècrescente al crescere del livello di istruzione. Un andamento simile si riscontraanche nei grafici re<strong>la</strong>tivi alle singole aree geografiche, anche se <strong>per</strong> quantoriguarda il Centro è presente qualche anomalia. Prima di mostrare tali graficiva <strong>per</strong>ò fatta <strong>una</strong> ulteriore osservazione. Se osserviamo attentamente Figura4.28 possiamo notare che <strong>la</strong> curva generata a partire da tutti i dati non giacetra le altre due curve, stimate a partire da sottoinsiemi. Questa è, <strong>per</strong>ò,solo apparentemente un’anomalia, <strong>per</strong>chè il loess, <strong>per</strong> sua natura, non o<strong>per</strong>afissando <strong>la</strong> finestra nello spazio dei predittori da utilizzare <strong>per</strong> realizzare <strong>la</strong>stima di <strong>regressione</strong> <strong>locale</strong>, ma fa in modo di utilizzare localmente sempre lostesso numero di osservazioni, al<strong>la</strong>rgando e restringendo <strong>la</strong> finestra in mododa raggiungere questo scopo. Risulta quindi possibile che <strong>la</strong> curva originatadall’intero set di dati assuma valori su<strong>per</strong>iori o inferiori a tutte le curveottenute a partire da sottoinsiemi dei dati che costituiscono <strong>una</strong> partizionedell’insieme originario.Figura 4.31: Nord 1 − (V 1 + V 2) ∼ età86


Figura 4.32: Nord 1 − (V 1 + V 2) ∼ ricchezzaFigura 4.33: Nord, basso titolo di studio87


Figura 4.34: Nord, alto titolo di studioFigura 4.35: Centro 1 − (V 1 + V 2) ∼ età88


Figura 4.36: Centro 1 − (V 1 + V 2) ∼ ricchezzaFigura 4.37: Centro, basso titolo di studio89


Figura 4.38: Centro, alto titolo di studioFigura 4.39: Sud e Isole 1 − (V 1 + V 2) ∼ età90


Figura 4.40: Sud e Isole 1 − (V 1 + V 2) ∼ ricchezzaFigura 4.41: Sud e Isole, basso titolo di studio91


Figura 4.42: Sud e Isole, alto titolo di studio4.4 Pregi e difetti dell’analisiDopo aver stimato le curve di <strong>regressione</strong> e aver visualizzato i risultatiottenuti, è buona norma valutare <strong>la</strong> bontà del proprio <strong>la</strong>voro attraverso l’analisidiagnostica. Guardando i grafici dei residui si conclude che essi non sonocompatibili con le assunzioni del modello di <strong>regressione</strong> <strong>locale</strong>, in partico<strong>la</strong>reessi non verificano assolutamente l’ipotesi di normalità. Inoltre, se si volessecalco<strong>la</strong>re il coefficiente di determinazione R 2 , pur sapendo che valutato al difuori dei modelli di <strong>regressione</strong> lineare <strong>per</strong>de di significatività, si otterrebbeun valore molto basso (inferiore al 12%), <strong>per</strong>altro confrontabile e di pocomigliore di quello ottenuto con <strong>una</strong> <strong>regressione</strong> lineare del tipo presente inletteratura; questo induce a pensare che non si è scelta <strong>una</strong> <strong>tecnica</strong> di stimainadeguata benì, sono i dati ad essere partico<strong>la</strong>rmente delicati da trattare. Ascopo illustrativo riportiamo uno solo dei grafici dei residui, il quale mostraresidui contro valori previsti re<strong>la</strong>tivi al<strong>la</strong> stima che ha originato <strong>la</strong> curva rossain Figura 4.5:92


Figura 4.43: grafico dei residuiQuesto grafico rive<strong>la</strong> chiaramente che i residui non hanno distribuzione gaussiana.Per ovviare a questo problema sarebbe stato possibile applicare ai datiqualche trasformazione, ad esempio <strong>una</strong> trasformazione Box-Cox, in modo daportarsi più vicini all’assunzione di normalità, ma si è scelto di non farlo <strong>per</strong>non introdurre problemi di interpretazione. Infatti l’obiettivo principale dell’analisisvolta non è stato fare test d’ipotesi ma verificare in che modo varia <strong>la</strong><strong>per</strong>centuale investita in attività finanziarie a medio e ad alto rischio rispettoall’età e al<strong>la</strong> ricchezza degli individui osservati e confrontare gli andamentiottenuti con quelli previsti in letteratura, confronto che ha dato i risultatis<strong>per</strong>ati evidenziando come il Loess sia <strong>una</strong> <strong>tecnica</strong> ottima <strong>per</strong> effettuareanalisi esplorativa.93


Capitolo 5Discussione conclusivaAvendo descritto in dettaglio <strong>la</strong> <strong>tecnica</strong> Loess ed avendo<strong>la</strong> posta a confrontocon tecniche alternative di <strong>regressione</strong> e smoothing siamo ora in gradodi mettere in evidenza i pregi e i difetti che <strong>la</strong> contraddistinguono.Innanzitutto il Loess, non solo fa riferimento a modelli di <strong>regressione</strong> nonparametrici, ma le condizioni che impone sul modello sono talmente deboliche essa <strong>la</strong>scia veramente che i dati si esprimano senza costringerli dentro<strong>una</strong> formu<strong>la</strong>zione vinco<strong>la</strong>ta. Questo è partico<strong>la</strong>rmente evidente nel capitoloquarto durante l’analisi dei dati del<strong>la</strong> Banca d’Italia, osservando i grafici incui il predittore è l’età. Ciò che ci si aspetta dagli studi teorici è che l’andamentodel<strong>la</strong> quota investita in titoli a medio ed alto richio sia sostanzialmenteparabolico nell’età; le curve ottenute con il Loess, realizzate utilizzando localmentepolinomi lineari, sono prove a sostegno dei risultati teorici moltopiù nette rispetto a quelle che fornirebbe <strong>una</strong> stima di <strong>regressione</strong> linearecon termini quadratici in quanto in questo secondo caso il pr<strong>of</strong>ilo parabolicosarebbe imposto dal modello e non generato dai dati.Un’ulteriore prova di flessibilità è data dal<strong>la</strong> capacità di questa <strong>tecnica</strong> dimodificare il proprio sistema di pesi in base al<strong>la</strong> sparsità delle osservazioni,fatto che le <strong>per</strong>mette di ottenere stime di gran lunga più valide di quelle dateda tecniche con ampiezza di banda fissata, come i Kernel Smoothers, e dilimitare gli effetti di bordo. Qui va sottolineato che, nonostante i vantaggi94


appena rimarcati, l’ampiezza di banda variabile può portare anche a qualchesgradita anomalia come quel<strong>la</strong> rilevata nel capitolo precedente in Figura 4.28.Più volte in precendenza è emerso come sia possibile rendere il Loess resistenteagli outliers e come sia sostanzialmente equivalente o<strong>per</strong>are con uno opiù predittori, cosa che invece crea alcuni problemi, soprattutto di caratterecomputazionale, alle Smoothing Splines. Ciò può essere visto come <strong>una</strong> conseguenzadell’estrema semplicità dell’idea e dell’implementazione del metodoLoess che sfrutta sapientemente <strong>per</strong> le sue stime oggetti matematici di naturalineare.A questo punto è <strong>per</strong>ò necessario evidenziare il difetto principale del<strong>la</strong> <strong>tecnica</strong>Loess, difetto che è inevitabilmente legato ai vantaggi appena esposti.Abbiamo visto che nelle Smoothing Splines si ha <strong>una</strong> vera e propria funzioneobiettivo da minimizzare, quindi <strong>la</strong> stima di g che si ottiene ha un’espressioneanalitica nota definita come <strong>la</strong> spline cubica naturale che minimizza il criteriodei minimi quadrati penalizzati. Per il Loess non è possibile fare niente disimile; di fatto esso non fornisce alc<strong>una</strong> espressione analitica <strong>per</strong> ĝ e l’unicomodo <strong>per</strong> <strong>per</strong>mettere ad osservatori esterni di avere accesso ai risultati ottenutiè di descrivere in dettaglio come è stato fatto l’es<strong>per</strong>imento specificandoil valore usato <strong>per</strong> ciascuno dei parametri passati al<strong>la</strong> funzione loess di R. Lamancanza di un’espressione analitica che descriva a livello globale <strong>la</strong> stimaLoess comporta anche l’assenza di un indice che dia <strong>una</strong> valutazione adeguatadel<strong>la</strong> variabilità spiegata dal modello e di conseguenza del<strong>la</strong> sua affidabilità.Infatti un indice come R 2 sembra <strong>per</strong>dere significato fuori dal contesto del<strong>la</strong><strong>regressione</strong> lineare.Al<strong>la</strong> luce delle ultime considerazioni si evince che l’estrema flessibilitàche contraddistingue il Loess ne costituisce il principale pregio ma anche ilmaggiore limite. Infatti, questa <strong>tecnica</strong> costituisce un ottimo strumento diesplorazione dei dati e come tale viene ampiamente utilizzata in letteratura,ma <strong>per</strong> fare analisi più appr<strong>of</strong>ondite potrebbe essere preferibile affidarsi ametodi più tradizionali.Per concludere, possiamo dire che il Loess rappresenta un utile trampo-95


lino dal quale patire <strong>per</strong> l’analisi di un partico<strong>la</strong>re problema statistico eche esso riveste un ruolo guida nell’indirizzare lo studio verso il modello,matematicamente più rigoroso, che meglio cattura <strong>la</strong> natura dei dati dae<strong>la</strong>borare.96


Appendice ALe funzioni R utilizzateA.1 LoessUSO:loess(formu<strong>la</strong>, data, weights, subset, na.action, model=FALSE,span=0.75, enp.target, degree=2,parametric=FALSE, drop.square=FALSE, normalize=TRUE,family=c(gaussian,symmetric),method=c(loess,model.frame),control=loess.control(. . . ),. . . )ARGOMENTI:formu<strong>la</strong> : formu<strong>la</strong> che specifica qual’è <strong>la</strong> variabile risposta e quali i predittori,che possono essere al massimo quattro; i predittori possono essereintrodotti additivamente ma è cosa migliore evidenziarne l’interazione.data : data frame opzionale entro il quale cercare <strong>la</strong> variabile risposta, ipredittori e i pesi.weights : vettore opzionale di pesi.subset : argomento opzionale tramite il quale specificare un partico<strong>la</strong>resottoinsieme di dati da utilizzare; molto utile in presenza di variabilicategoriche.97


na.action : indica il trattamento da riservare ai valori mancanti nel<strong>la</strong> rispostae nei predittori. Il suo valore di default si ottiene tramite ilcomando ’getOption(na.action).model : assume solo i valori TRUE e FALSE. Se si specifica ’model=TRUE’si impone che in uscita sia fornito anche il model frame.span : è il parametro α, il quale control<strong>la</strong> il grado di rego<strong>la</strong>rità del<strong>la</strong> stimaloess.enp.target : modo alternativo <strong>per</strong> fissare l’argomento ’span’; approssimazionedel numero di parametri equivalenti da utilizzare.degree : grado dei polinomi da usare <strong>per</strong> <strong>la</strong> stima <strong>locale</strong>; assume solo i valori1 o 2.parametric : argomento che serve a imporre che <strong>la</strong> su<strong>per</strong>ficie sia condizionatamenteparametrica rispetto a uno specifico sottoinsieme dei predittori;i predittori interessati possono essere indicati <strong>per</strong> nome, numero,oppure attravero un vettore logico di lunghezza pari al numero deipredittori.drop.square : <strong>per</strong> stime con più di un predittore e ’degree=2’, serve adomettere il termine quadratico (e i termini misti) re<strong>la</strong>tivamente ad alcunipredittori; tali predittori vengono indicati nel modo già visto <strong>per</strong>’parametric’.normalize : se si pone ’normalize=TRUE’, in presenza di due o più predittorinumerici, essi vengono normalizzati ad <strong>una</strong> sca<strong>la</strong> comune. La normalizzazioneviene fatta utilizzando le stime 10% trimmed <strong>per</strong> mediae varianza.family : argomento re<strong>la</strong>tivo al<strong>la</strong> natura dei termini di errore; se gli si attrubuisceil valore ’gaussian’ <strong>la</strong> stima è fatta nel modo c<strong>la</strong>ssico, se invecesi pone ’family=symmetric’ si ottiene <strong>una</strong> stima resistente agli outliers.98


method : di default assume il valore ’loess’, che implica che venga svolta <strong>la</strong>stima; se invece si pone ’method=c(model.frame)’, viene semplicementeestratto il model frame e non viene calco<strong>la</strong>ta alc<strong>una</strong> stima.control : serve <strong>per</strong> gestire i parametri di controllo, i quali consentono di richiedereche <strong>la</strong> su<strong>per</strong>ficie sia ottenuta <strong>per</strong> calcolo diretto in ogni punto,invece che tramite interpo<strong>la</strong>zione, e che le statistiche ad essa associatenon siano ottenute <strong>per</strong> approssimazione ma attraverso valutazioneesatta.VALORE:Ciò che <strong>la</strong> funzione loess restituisce è un oggetto di c<strong>la</strong>sse ’loess’; ess<strong>of</strong>orisce parecchie informazioni, il cui elenco si può ottenere tramite ilcomando ’names(nome oggetto)’, e in partico<strong>la</strong>re contiene le stime ĝ(x) incorrispondenza di ciascun valore dei predittori con i re<strong>la</strong>tivi residui.A.2 KsmoothUSO:ksmooth(x, y, kernel=c(box,normal), bandwidth=0.5, range.x=range(x),n.points=max(100, length(x)), x.points)ARGOMENTI:x : vettore contenente le osservazioni del predittore.y : vettore contenente le osservazioni del<strong>la</strong> risposta.kernel : funzione nucleo da usare.bandwidth : ampiezza di banda.range.x : range di punti che si vuole sia co<strong>per</strong>to dall’output.n.points : numero di punti in corrispondenza dei quali si vuole sia condotta<strong>la</strong> stima.99


x.points : punti in corrispondenza dei quali si vuole sia condotta <strong>la</strong> stima.Se questo argomento è mancante, vengono scelti uniformemente’n.points’ in modo da coprire ’range.x’.VALORE:Ciò che <strong>la</strong> funzione ksmooth restituisce è <strong>la</strong> seguente listax : valori in corrispondenza dei quali è stata calco<strong>la</strong>ta <strong>la</strong> stima; essi sonosempre in ordine crescente.y : valori approssimati re<strong>la</strong>tivi alle corrispondenti ’x’.A.3 Smooth.splineUSO:smooth.spline(x, y=NULL, w=NULL, df, spar=NULL, cv=FALSE,all.knots=FALSE, nknots=NULL, df.<strong>of</strong>fset=0, penalty=1,control.spar=list())ARGOMENTI:x : vettore contenente le osservazioni del predittore, oppure lista o matricea due colonne che contiene sia il predittore che <strong>la</strong> risposta.y : vettore contenente le osservazioni del<strong>la</strong> risposta. Se quest’argomento èmancante si presuppone che le risposte siano già presenti in ’x’.w : vettore opzionale di pesi, del<strong>la</strong> stessa lunghezza di ’x’; di default esso èun vettore unitario.df : numero di gradi di libertà desiderato.spar : parametro di lisciamento, tipicamente (ma non necessariamente) in(0,1]. Il coefficiente α, presente nell’espressione che caratterizza lesmoothing splines, è <strong>una</strong> funzione monotona di spar e si ottiene quindia partire da esso.100


cv : serve <strong>per</strong> selezionare il parametro α attraverso cross-validation ordinaria(’TRUE’) oppure generalizzata (’FALSE’).all.knots : se quest’argomento prende valore ’TRUE’, tutte le ’x’ distintesono utilizzate come nodi; invece se si ha ’all.knots=FALSE’ (default),viene usato un sottoinsieme ’x[j]’, scelto attraverso ’nknots’indici equispaziati tra 1 ed n.nknots : intero indicante il numero di nodi da usare quando ’all.knots=FALSE’.Di default tale numero è minore di n, il numero di ’x’ distinte (<strong>per</strong>n > 49).control.spar : lista opzionale di parametri re<strong>la</strong>tivi al calcolo di spar, qualoraesso non sia dato.df.<strong>of</strong>fset e penalty : argomenti opzionali re<strong>la</strong>tivi all’implementazione delcriterio di cross-validation generalizzata.VALORE:Ciò che <strong>la</strong> funzione smooth.spline restituisce è un oggetto di c<strong>la</strong>sse ’smooth.spline’;esso forisce parecchie informazioni, il cui elenco si può otteneretramite il comando ’names(nome oggetto)’, e in partico<strong>la</strong>re contiene le stimeĝ(x) in corrispondenza di ciascun valore di ’x’ dato.101


Bibliografia[1] Cleve<strong>la</strong>nd, W. S., Grosse, E., e Shyu, W. M. (1992) Local RegressionModels. Statistical Models in S, Editors: Chambers, J., Hastie, T.,Wadsworth & Brooks/Cole Advanced Books & S<strong>of</strong>tware Pacific Grove,California[2] Loader, C. (2004) Smoothing: Local Regression Techniques. Handbook<strong>of</strong> Computational Statistics, Editors: Gentle, J. Hardle, W. e Mori, Y.,Springer-Ver<strong>la</strong>g, Heidelberg[3] Azzalini, A. e Scarpa, B. (2004) Analisi dei dati e Data mining, Springer-Ver<strong>la</strong>g Italia, Mi<strong>la</strong>no[4] Farin, G. (1990) Curves and Surfaces for Computer Aided Design: APractical Guide, 2nd ed., New York: Academic Press[5] Eubank, R.L. (1988) Spline Smoothing and Nonparametric Regression(Statistics, Textbooks and Monographs: vol.90), D.B. Owen, CoordinatingEditor, <strong>Department</strong> <strong>of</strong> Statistics, Southern Methodist UniversityDal<strong>la</strong>s, Texas[6] Wahba G. (1990) Splines Models for Observational Data, Society for Industria<strong>la</strong>nd Applied <strong>Mathematics</strong>, 3600 University City Science Center,Phi<strong>la</strong>delphia, Pennsylvania[7] Quarteroni, A., Sacco, R. e Saleri, F. (2000) Matematica Numerica(seconda edizione), Springer-Ver<strong>la</strong>g Italia, Mi<strong>la</strong>no102

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!