11.07.2015 Views

Introduzione ai modelli lineari - Analisi statistica ... - Docente.unicas.it

Introduzione ai modelli lineari - Analisi statistica ... - Docente.unicas.it

Introduzione ai modelli lineari - Analisi statistica ... - Docente.unicas.it

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesemplice<strong>Introduzione</strong> <strong>ai</strong> <strong>modelli</strong> <strong>lineari</strong><strong>Analisi</strong> <strong>statistica</strong> e matematico-finanziaria IIModello diregressione linearemultiplaObiettivi dellaregressioneAlfonso Iodice D’Enz<strong>ai</strong>odicede@<strong>unicas</strong>.<strong>it</strong>Univers<strong>it</strong>à degli studi di Cassino e del Lazio Meridionale


Outline<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesemplice1 Regressione lineare sempliceModello diregressione linearemultiplaObiettivi dellaregressione2 Modello di regressione lineare multipla3 Obiettivi della regressione


Modello di regressione lineare sempliceIn molte applicazioni il ruolo delle variabili x ed Y non è lo stesso, inparticolare, assegnato un certo valore al pred<strong>it</strong>tore x (indicato pertanto con lalettera minuscola), il valore che Y assume dipende in qualche modo da x. Larelazione più semplice tra le variabili è quella lineare, e il modellocorrispondente èY = β 0 + β 1 x;tale modello presuppone che, stabil<strong>it</strong>i i parametri β 0 e β 1 , sia possibiledeterminare esattamente il valore di Y conoscendo il valore di x: salvoeccezioni, questo non si verifica m<strong>ai</strong>.<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressioneIl modelloAlla determinazione del valore di Y , oltre che la componente deterministicaβ 0 + β 1 x, concorre anche una componente casuale detta errore nonosservabile ɛ, una variabile casuale con media 0Y = β 0 + β 1 x + ɛ.Analogamente, la relazione di regressione lineare semplice può essere espress<strong>ai</strong>n termini di valore attesoE[Y |x] = β 0 + β 1 x.poichè E[ɛ] = 0.


Modello di regressione lineare sempliceSi consideri di voler analizzare la relazione tra il peso del rullo di un taglia erba e l’ent<strong>it</strong>à delladepressione riscontrata nel prato da tagliare. Sia Y la depressione (depression) e x il peso del rulloutilizzato (weight). Per vedere se l’utilizzo del modello di regressione lineare semplice sia ragionevole inquesto caso occorre raccogliere delle coppie di osservazioni (x i , y i ) e rappresentarle graficamenteattraverso il diagramma di dispersione.Il diagramma di dispersione (scatter plot)<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressioneun<strong>it</strong>s weight depression1 1.9 2.02 3.1 1.03 3.3 5.04 4.8 5.05 5.3 20.06 6.1 20.07 6.4 23.08 7.6 10.09 9.8 30.010 12.4 25.0


La retta di regressione<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceLa retta di regressioneLa retta di regressione fornisce unaapprossimazione della dipendenza deivalori di Y d<strong>ai</strong> valori di X. La relazionedi dipendenza non è esattamenteriprodotta dalla retta; i valoriŷ i = β 0 + β 1 x i sono dunque i valor<strong>it</strong>eorici, ovvero i valori che la variabile Yassume, secondo il modelloY = β 0 + β 1 x, in corrispondenza deivalori x i osservati.Le differenze e i tra i valori teorici ŷ i e ivalori osservati y i vengono defin<strong>it</strong>eresidui. Questo perchè per ciascunaosservazione il modello è dato darette passanti per la nube di puntiRegressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressioney i =β 0 + β 1 x i} {{ }+ ɛ i}{{}comp. deterministica comp. casualeDeterminazione della retta di regressioneL’identificazione della retta avviene attraverso la determinazione dei valori di b 0 , e b 1 , stimedell’intercetta e del coefficiente angolare o pendenza, rispettivamente. La retta ’migliore’ è quella chepassa più ’vicina’ <strong>ai</strong> punti osservati. In altre parole, si vuole trovare la retta per la quale le differenze tra ivalori teorici ŷ i e i valori osservati y i siano minime.


La retta di regressioneMetodo dei minimi quadratiLa retta di regressione è tale che la somma dei residui alquadrato sia minima. Formalmenten∑e 2 i =∑ n n∑(y i − ŷ i ) 2 = (y i − b 0 − b 1 x i ) 2i=1 i=1i=1Il problema consiste dunque nel ricercare b 0 e b 1 cheminimizzano la precedente espressione. Da un punto divista operativo bisogna risolvere il seguente sistema diequazioni (condizioni del primo ordine o stazionarietà).∂ ∑ n (y i − b 0 − b 1 x i ) 2 = 0∂b 0 i=1∂ ∑ n (y i − b 0 − b 1 x i ) 2 = 0∂b 1 i=1Stimatori dei parametri della retta diregressione:(b 0 )n∑− 2 (y i − b 0 − b 1 x i ) =i=1n∑∑ ny i − n ∗ b 0 − b 1 x i = 0i=1i=1b 0 = ȳ − b 1 ¯x<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressioneNota: si tratta di punti di minimo perchè le derivateseconde ∂ b0 b 0f(b 0 , b 1 ) = −2(−n),∂ b1 b 1f(b 0 , b 1 ) = −2 ∑ ni (−x 2 i )sono sempre non negative.


La retta di regressione<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceI residuile differenze tra i valori teorici ŷ i e ivalori osservati y i vengono defin<strong>it</strong>eresidui. La retta di regressione è tale chela somma dei residui al quadrato siaminima. Formalmenten∑e 2 i =∑ n (y i − ŷ i ) 2 =i=1 i=1n∑= (y i − b 0 − b 1 x i ) 2i=1Il problema consiste dunque nel ricercareb 0 e b 1 che minimizzano la precedenteespressione. Da un punto di vistaoperativo bisogna risolvere il seguentesistema di equazioni (condizioni del primoordine o stazionarietà).∂ ∑ n (y i − b 0 − b 1 x i ) 2 = 0∂b 0 i=1∂ ∑ n (y i − b 0 − b 1 x i ) 2 = 0∂b 1 i=1Stimatori dei parametri della retta diregressione:(b 1 )n∑− 2 x i (y i − b 0 − b 1 x i ) = 0i=1n∑∑ n ∑ nx i y i − b 0 x i − b 1 x 2 i = 0i=1i=1i=1∑ nb 1 x 2 n ( ∑i =∑n∑ ni=1 ∑y ni=1)ix ix i y i − x i − b 1i=1 i=1 i=1nnn∑b 1(n x 2 n )i − ( ∑n∑n∑x i ) 2 ∑ n= n x i y i − x i y ii=1 i=1i=1 i=1 i=1b 1 = n ∑ ni=1 x i y i − ∑ ni=1 x i∑ ni=1y in ∑ ni=1x 2 i − (∑ ni=1x i ) 2= σxyσ 2 xRegressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressione


Determinazione della retta di regressione<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesempliceModello diregressione linearemultipla...statistiche descr<strong>it</strong>tive∑ 10¯x = i=1 x i= 6.07 ȳ =10√ ∑10s x = i=1 (x i −¯x)210∑ 10i=1 y i10= 3.04 s y =∑ 10s xy = i=1 (x i −¯x)(y i −ȳ) = 24.710r xy =σxyσxσy = 0.8= 14.1√ ∑10i=1 (y i −ȳ)2 = 10.110Obiettivi dellaregressione


Determinazione della retta di regressioneCalcolo dei coefficientiRichiamando le quant<strong>it</strong>à calcolate in precedenza e le formule per il calcolo dei parametri si hab 1 = σxyσx2 = 2.66 b 0 = ȳ − b 1 ¯x = 14.1 − (2.66 ∗ 6.07) = −2.04Y = −2.04 + 2.66x rappresenta la retta di regressione stimataLa retta ’migliore’<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressione


Interpretazione dei valori dei coefficienti diregressione<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesempliceModello diregressione linearemultiplab 0 rappresenta l’intercetta della retta di regressione edindica il valore della variabile di risposta Y quando ilpred<strong>it</strong>tore x assume valore 0.b 1 rappresenta l’inclinazione della retta di regressione,ovvero la variazione della variabile di risposta Y inconseguenza di un aumento un<strong>it</strong>ario del pred<strong>it</strong>tore x.Obiettivi dellaregressione


Assunzioni sul modello<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceIl modello di regressione lineare semplice èY = β 0 + β 1 x + ɛe l’errore non osservabile ɛ è una variabile aleatoria con valore atteso pari a 0.Per poter fare inferenza sono necessarie alcune assunzioni:la variabile aleatoria ɛ i si distribuisce come una Normale di parametri 0e σ 2 : dunque la varianza dell’errore non osservabile ɛ i non dipende dalpred<strong>it</strong>tore x i ;cov(ɛ i , ɛ j ) = 0, ∀i ≠ j (i, j = 1, . . . , n), questo comporta che la rispostarelativa al pred<strong>it</strong>tore x i è indipendente da quella relativa al pred<strong>it</strong>tore x j ;x è nota e non stocastica (priva di errore);dalle precedenti assunzioni segue che ∀i la variabile di risposta Y i sidistribuisce secondo una Normale di parametriRegressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressioneE[Y i ] = β 0 + β 1 x i e var(Y i ) = σ 2 .


Assunzioni sul modello<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressionefonte: Statistics for Business and Economics (Anderson, Sweeney and Williams, (2011))


Lo stimatore della varianza σ 2La quant<strong>it</strong>à σ 2 è incogn<strong>it</strong>a e deve essere stimata a partire d<strong>ai</strong> dati. A questoscopo si consideri che la standardizzazione di Y i si distribuisce secondo unanormaleY i − E[Y i ]√var(Yi ) = Y i − (β 0 + β 1 x i ).σLa somma dei quadrati delle Y i standardizzate è∑ ni=1 (Y i − β 0 − β 1 x i ) 2<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressioneσ 2ed essendo la somma di n normali standardizzate indipendenti, si distribuiscecome una variabile aleatoria chi-quadro con n gradi di libertà.Sost<strong>it</strong>uendo i parametri β 0 e β 1 con gli stimatori dei minimi quadrati b 0 e b 1la precedente diventa∑ ni=1 (Y i − b 0 − b 1 x i ) 2σ 2è un chi-quadro con n-2 gradi di libertà, in quanto si perde un grado di libertàper ogni parametro stimato.


Lo stimatore della varianza σ 2<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceIl numeratore della precedente rappresenta la somma dei quadrati dei residuin∑n∑(Y i − β 0 − β 1 x i ) 2 = e 2 = RSS;i=1i=1Regressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressioneda quanto trovato in precedenza, la quant<strong>it</strong>à RSSσ 2 è un chi-quadro con n-2gradi di libertà.Poichè il valore atteso di un chi-quadro è uguale <strong>ai</strong> gradi di libertà possiamoscrivereE[RSS]σ 2 = n − 2 da cui E[ RSSn − 2]= σ 2 ,lo stimatore della varianza σ 2 è dunque RSS . Lo stimatore dello scarton−2quadratico√medio σ viene defin<strong>it</strong>o errore standard della stima e corrisponde aRSSn−2 .


Verifica dell’ipotesi che β 1 = 0Un’ipotesi molto importante da verificare nel modello di regressione linearesemplice è che il coefficiente angolare della retta di regressione sia pari a 0: seinfatti β 1 = 0 allora la variabile di risposta non dipende dal pred<strong>it</strong>tore, in altreparole non c’è regressione sul pred<strong>it</strong>tore.Per ottenere il test H 0 : β 1 = 0 vs H 1 : β 1 ≠ 0 è necessario studiare ladistribuzione dello stimatore b 1 di β 1 : se b 1 si discosta da 0 allora si rifiutaH 0 , altrimenti non si rifiuta. Ma di quanto b 1 deve discostarsi da 0?A questo scopo si consideri che b 1 si distribuisce come una Normale diparametriσ 2E[b1] = β 1 e var(b 1 ) = ∑ ni=1 (x i − ¯x) 2<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressionela versione standardizzata di b 1 è dunque√ ∑nb 1 − β 1√σ 2 / ∑ ni=1 (x i − ¯x) = i=1 (x i − ¯x) 22 σ 2 (b 1 − β 1 )ed ha una distribuzione Normale standard.


Verifica dell’ipotesi che β 1 = 0<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesempliceA questo punto la <strong>statistica</strong> test da utilizzare sotto H 0 (β 1 = 0) è√(n − 2) ∑ ni=1ST =(x i − ¯x) 2b 1 ∼ t n−2RSSModello diregressione linearemultiplaObiettivi dellaregressioneIl test di livello α di H 0 è ha la seguente regola di decisione:se | ST |≥ t n−2,α/2 allora si rifiuta H 0se | ST |< t n−2,α/2 allora non si rifiuta H 0Nell’esempio roller, il valore della <strong>statistica</strong> test è ST = 3.808,il p − value corrispondente è 0.00518.


Intervallo di confidenza su β 1<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesempliceA partire dalla <strong>statistica</strong> test per il test su β 1 , è possibile definire l’intervallo diconfidenza, i cui estremi sono:√RSSb 1 ± t (α/2,n−2)(n − 2) ∑ ni=1 (x i − ¯x) 2} {{ }√ var(b1 )Modello diregressione linearemultiplaObiettivi dellaregressionecon riferimento all’esempio roller, gli estremi dell’intervallo sono, ad un livellodi confidenza del 95% sono [1.05, 4.28].


Plot dei residuiPerchè la retta possa essere considerata una buona approssimazione della relazione che intercorre tra Yed X è necessario che i residui abbiano un andamento casuale rispetto <strong>ai</strong> valori della x. Se, ad esempio,all’aumentare dei valori della x aumentassero sistematicamente anche i residui, allora la relazionepotrebbe non essere non lineare: la retta di regressione ne sarebbe dunque una cattiva approssimazione.variabili esplicative vs residuiPer verificare che l’andamento dei residui sia effettivamente casuale rispetto ad x, è possibile utilizzareun diagramma di dispesione tra i valori x i ed i corrispondenti residui e i (i = 1, . . . , n)<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressione


Plot dei residuiPerchè la retta possa essere considerata una buona approssimazione della relazione che intercorre tra Yed x è necessario che i residui abbiano un andamento casuale rispetto <strong>ai</strong> valori della x. Se, ad esempio,all’aumentare dei valori della x aumentassero sistematicamente anche i residui, allora la relazionepotrebbe non essere non lineare: la retta di regressione ne sarebbe dunque una cattiva approssimazione.valori stimati ŷ vs residui<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressione


Quantile-quantile plotPer controllare che l’assunzione della normal<strong>it</strong>à dei residui sia rispettata si ricorre al confronto tra iquantili della distribuzione Normale standard ed i quantili della distribuzione dei residui osservati.Q-Q plotQuanto più i punti del grafico risultano allineati lungo la bisettrice del primo quadrante, tanto miglioresarà l’adattamento dei residui osservati alla distribuzione normale.<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressione


coefficiente di determinazione lineare R 2<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRicordando che la devianza il numeratore della varianza...n∑n∑SS y = (y i − ȳ) 2 = (y i − ŷ i + ŷ i − ȳ) 2 =i=1i=1n∑n∑n∑= (y i − ŷ i ) 2 + (ŷ i − ȳ) 2 + 2 (y i − ŷ i )(ŷ i − ȳ)i=1i=1i=1n∑n∑n∑ n∑ n∑= (y i − ŷ i ) 2 + (ŷ i − ȳ) 2 + 2( y i − ŷ i )( ŷ i − nȳ)i=1i=1i=1 i=1 i=1Regressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressioneIl metodo dei minimi quadrati assicura che ∑ ni=1 ŷ i = ∑ ni=1 y i , quindin∑n∑n∑SS y = (y i − ŷ i ) 2 + (ŷ i − ȳ) 2 + 2 ∗ 0 ∗ ( ŷ i − nȳ)i=1i=1i=1n∑n∑= (ŷ i − ȳ) 2 + (y i − ŷ i ) 2 = SS r + SS ei=1i=1


Decomposizione della devianzaLa devianza può essere decomposta dunque nelle seguenti quant<strong>it</strong>à SS y = SS r + RSSSS y = ∑ ni=1 (y i − ȳ) 2 devianza totaleSS r = ∑ ni=1 (ŷ i − ȳ) 2 devianza di regressioneRSS = ∑ ni=1 (y i − ŷ i ) 2 devianza dei residuiInterpretazione grafica<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressione


Bontà dell’adattamentoInt<strong>it</strong>u<strong>it</strong>ivamente, l’adattamento della retta è migliore quanto maggiore sarà proporzione di variabil<strong>it</strong>àtotale che la retta di regressione riesce a spiegare; ovvero, l’adattamento della retta è migliore quantominore sarà la variabil<strong>it</strong>à residua. Una misura di come il modello approssima i dati osservati è data dalcoefficiente di determinazione lineare R 2 , dato daovvero∑ ni=1R 2 = SSr(ŷ i − ȳ) 2= ∑SS ni=1 y (y i − ȳ) 2R 2 = 1 − RSSSS y∑ ni=1(y i − ŷ i ) 2= 1 − ∑ ni=1 (y i − ȳ) 2<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressioneesempio di calcolo R 2SS y = ∑ ni=1 (y i − ȳ) 2 = 1020.9SS r = ∑ ni=1 (ŷ i − ȳ) 2 = 657.97RSS = ∑ ni=1 (y i − ŷ i ) 2 = 362.93R 2 = SSrSS y= 657.971020.9 = 0.64ovveroR 2 = 1 − RSS= 1 − 282.1862= 1 − 0.36 = 0.64SS y 5058.4


<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesempliceTest di Fisher sul rapporto tra varianzedati due campioni generati da due variabili casuali X ∼ N(µ, σx 2) eY ∼ N(µ, σy), 2 si vuole verificare se σx 2 = σy(H 2 0 ) .La <strong>statistica</strong> test è∑ ni=1(X i − ¯X) 2Modello diregressione linearemultiplaObiettivi dellaregressioneF n,m =n−1∑ ni=1(Y i −Ȳ )2m−1


Bande di confidenza e di previsione<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesempliceUtilizzo del modello per stima e previsioneSe il modello stimato si adatta bene <strong>ai</strong> dati e se la relazione tra Y e X èsignificativa, si può utilizzare la retta di regressione stimata per la stima e laprevisione.Modello diregressione linearemultiplaObiettivi dellaregressioneBanda di confidenzaLa banda di confidenza è composta dalle stime intervallari, ognuna costru<strong>it</strong>asul valore atteso di Y dato il valore corrispondente di x i .Banda di previsioneLa banda di previsione è composta dalle stime intervallari, ognuna costru<strong>it</strong>asul singolo valore di Y dato il valore corrispondente di x i .


Bande di confidenza e di previsione<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesemplice...qualche definizionex p è un valore specifico assunto dalla variabile indipendenteX;y p è il valore assunto da Y quando X = x p ;E [y p ] è il valore atteso di Y quando X = x p ;ŷ p = b 0 + b 1 x p , il valore stimato dalla retta di regressione,dunque è la stima di E [x p ] per X = x p .Modello diregressione linearemultiplaObiettivi dellaregressione


Bande di confidenza e di previsione<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesempliceIntervallo di confidenza su E[Y | X = x p ] = E[y p ]Per costruire lo stimatore intervallare su E[y p] dato che X = x p è necessariostimarne la varianza, lo stimatore in questione è[]s 2 ŷ p= RSS 1n − 2 n + (x p − ¯x) 2∑ ni=1 (x i − ¯x) 2Modello diregressione linearemultiplaObiettivi dellaregressionepertanto l’intervallo di confidenza è dato daŷ p ± t α2,(n−2)sŷp


Bande di confidenza e di previsione<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesempliceIntervallo di previsione su y pPer costruire lo stimatore intervallare su y p è necessario stimarne la varianza,lo stimatore in questione consiste di due componentila varianza RSSn−2di un singolo di valore Y rispetto alla sua media E[yp]la varianza associata all’utilizzo di un singolo valore ŷ p per stimareE[y p] (già stimata in precedenza s 2 ŷ p)Modello diregressione linearemultiplaObiettivi dellaregressiones 2 singolo = RSSn − 2 + s2 ŷ ppertanto l’intervallo di previsione è dato daŷ p ± t α2,(n−2)s singolo


Intervallo di confidenza su E(y p )<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressioneBande di confidenza


Intervallo di previsione<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressioneBande di previsione


Bande di confidenza e previsione<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressione


<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>Modelli <strong>lineari</strong>I <strong>modelli</strong> <strong>lineari</strong> forniscono una buona descrizione su come i predatori (variabiliindipendenti) influenzano la variabile di risposta (dipendente). In termini dicapac<strong>it</strong>à pred<strong>it</strong>tive, i <strong>modelli</strong> <strong>lineari</strong> risultano in alcuni casi migliori dei piùrecenti <strong>modelli</strong> non <strong>lineari</strong>.N osservazioni (x 1 , y 1 ) , (x 1 , y 1 ) , . . . , (x N , y N )x i è un vettore contenente i pred<strong>it</strong>toriy i è la variabile di rispostaLe osservazioni sono realizzazioni delle variabili casuali X e Y . La funzione diregressione è la media condizionata della variabile di risposta Y dati i valoriosservati di xA. IodiceRegressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressioneE(Y | X = x)La funzione di regressione lineare è quindiE(Y | X = x) = β 0 + β 1 x 1 + β 1 x 1 + . . . + β px p


Un piccolo esempio di ’piano di regressione’, 2 pred<strong>it</strong>tori (“numero di cilindri”(cyl), “consumo” (mpg)), variabile di risposta (“potenza del motore” (disp))<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressione


<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceLe variabili nel modelloquant<strong>it</strong>ative, ad esempio X 1 = redd<strong>it</strong>o, X 2 = altezzatransformazioni di variabili, ad esempio X 3 = log(redd<strong>it</strong>o) orX 4 = √ altezzavariabili qual<strong>it</strong>ative in codifica disgiuntiva. Data una v. qual<strong>it</strong>ativa conK modal<strong>it</strong>à, vengono introdotte nel modello K variabili dummy(presenza/assenza)Regressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressioneinteractions between variables, such as X 5 = X 1 X 2Il modello è lineare nei parametri, indipendentemente dalla natura deipredatori.


Regressione lineare multipla: notazione matricialeX è una matrice N × p, con i p predatori sulle colonneβ è un vettore a p dimensioni contenente i parametri (coefficienti) del modellose si vuole tenere conto dell’intercetta, β 0 , è necessario aggiungere alla matrice X una colonnadi ‘1’notazione classica⎧y 1 = β 0 + β 1 x 1,1 + β 2 x 1,2 + . . . + β px 1,p + ɛ 1<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressioney 2 = β 0 + β 1 x 2,1 + β 2 x 2,2 + . . . + β px 2,p + ɛ 2⎪⎨y 3 = β 0 + β 1 x 3,1 + β 2 x 3,2 + . . . + β px 3,p + ɛ 3.⎪⎩y n = β 0 + β 1 x n,1 + β 2 x n,2 + . . . + β px n,p + ɛ n...in termini di matrici⎡ ⎤ ⎡⎤ ⎡ ⎤y 1 1 x 1,1 . . . x 1,pɛ⎡ ⎤ 1y 21 x 2,1 . . . x 2,pβ 1ɛ 2y 3 1 x ⎢ . =3,1 . . . x 3,p⎢⎣ .. ⎥ ⎢⎣⎥⎦ ⎣⎥ . ⎦ + ɛ 3 ⎢ . . . . ⎦ β ⎣ .. ⎥⎦py n 1 x n,1 . . . x n,p ɛ n


<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione lineare multipla: notazione matricialeSecondo la formalizzazione matriciale, il modello èη = XβRegressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressionedove η è un vettore di N elementi contenente i valori della funzione diregressione η 1 , η 2 , . . . , η N .Dunquey = Xβ + edove e è il vettore dei residui tra la variabile di risposta y e il modello lineareη = Xβ


Stima dei minimi quadratiL’obiettivo è trovare β che minimizzi la somma dei quadrati dei residui,formalmentemin βRSS = min β⎛∑ N p∑⎝y i − β 0 −⎞2x ij β j ⎠ = (y − Xβ) T (y − Xβ)i=1j=1(= y T − β T X T) (y − Xβ) = y T y − y T Xβ − β T X T y + β T X T Xβ<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressioneLa condizione del primo ordine è)∂ β RSS = ∂ β(y T y − y T Xβ − β T X T y + β T X T Xβ =ricordando che ∂xT a∂x= ∂aT x= a, dove a è costante∂x) ( )analogamente, ∂ β(y T Xβ = ∂ β β T X T y = X T y, quindi∂ β RSS = −2X T y + 2X T Xβ = 0∂ β RSS = −X T y + X T Xβ = 0 → β =(X T X) −1X T y


Perché si effettua la stima di un modello di regressione?misuraL’obiettivo è capire qualivariabili hanno maggioreinfluenza nelladeterminazione dellavariabile di risposta, in altreparole si vogliono misuraregli effetti dei pred<strong>it</strong>tori sullavariabile di rispostaA questo scopo sononecessarie maggioriinformazione circa l’errorestandard delle stimepredizioneL’obiettivo è predire il valoredella variabile di rispostaavendo osservato un insiemedi valori assunti d<strong>ai</strong>pred<strong>it</strong>tori. Se x 0 è il vettorecontenente i valori osservati,allora la predizione del valoredella variabile di risposta èdata da ˆη (x 0 ) = x T 0 ˆβCome si misura l’accuratezzadella predizione?E’ possibile migliorarel’accuratezza delle previsioniutilizzando un modello piùparsimonioso (con un minornumero di pred<strong>it</strong>tori)?<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressione


Inferenza <strong>statistica</strong>Si assuma che le osservazioni siano generate dal seguente modellodovey i = f(x i ) + ɛ i , i = 1, . . . , Nf(x i ) è la funzione di regressione ’vera’ ed incogn<strong>it</strong>aɛ i sono gli errori indipendenti ed identicamente distribu<strong>it</strong>i, conɛ i ∼ (0, σ 2 )<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressioneProprietà statistiche di ˆβE’ noto che E(y) = Xβ, poiché E(ɛ) = 0. Quindi[ ( ]E( ˆβ)−1 ( −1 ( −1= E X X) T X T y = X X) T X T E [y] = X X) T X T Xβ = βSi calcolino i residui ˆβ − E( ˆβ), in particolareˆβ − E( ˆβ)( −1 ( −1= X X) T X T y − X X) T X T Xβ =( −1= X X) T X T (y − Xβ) (ricordando che y = Xβ + ɛ)( −1= X X) T X T ɛ


Proprietà statistiche di ˆβ (continua...)La varianza di ˆβ è( ) { [ ] [ ] } Tvar ˆβ = E ˆβ − E( ˆβ) ˆβ − E( ˆβ)<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesemplice{ [( [ −1 ( ] }−1 TModello di= E X X) T X ɛ] T X X) T X regressione T ɛ = linearemultipla[ ( −1 ( ) ] −1 ( −1 (= E X X) T X T ɛɛ T X X T X = X X) T X T E ɛɛ T) (X(=X T X) −1X T var(ɛ)X= σ 2 ( X T X) −1X T X( ) −1 (X T X =(X X) ( −1 ) −1T = σ2X T XX T X) −1X T σ 2 IX(X T X) −1=Obiettivi −1dellaX X) Tregressione =poiché σ 2 è incogn<strong>it</strong>a, deve essere stimata attraversoˆσ 2 = 1N − pN∑[y i − ˆη(x i )] 2i=1Gli elementi diagonali della matrice di varianza e convarianza sono le varianzedi ˆβ, quindi l’errore standard delle stime ˆβ j èŝe( ˆβ√( ) −1j ) = c jj ˆσ 2 where c jj is the j th diagonal element of X T X


<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceLa distribuzione di ˆβLa distribuzione di ˆβ è dunque ˆβ ∼ N(β, X T X) −1 σ 2La versione standardizzata della distribuzione di ˆβ è, sotto l’ipotesi nullasecondo la quale il j th pred<strong>it</strong>tore non influenza la variabile di risposta, èt j = ˆβ j − 0√cjj ˆσ 2Regressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressionetale <strong>statistica</strong> t misura l’effetto di eliminare un pred<strong>it</strong>tore dal modello,lasciando tutte le altre dentro.problema legato alla <strong>statistica</strong> t: se due pred<strong>it</strong>tori (anche aventi uneffetto importante sulla variabile di risposta) sono correlati tra loro,allora eliminandone uno alla volta, il modello non cambiaparticolarmente, e quindi la <strong>statistica</strong> t corrispondente sarà bassa, il cheinduce a pensare che nessuna delle due variabili sia importante.


<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>Testare blocchi di pred<strong>it</strong>toriE’ possibile sottoporre a verifica d’ipotesi l’influenza di più variabilicontemporaneamente. Si supponga di voler testare l’omissione di q pred<strong>it</strong>torida un modello che ne contenga p. Sia RSS la somma dei residui al quadratodel modello contente tutti i pred<strong>it</strong>tori; sia RSS 0 il valore corrispondente almodello da cui sono stati rimossi i q pred<strong>it</strong>tori. La <strong>statistica</strong> F corrispondenteèA. IodiceRegressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressioneF stat = (RSS 0 − RSS) /qRSS/ (N − p)che si distribuisce, sotto l’ipotesi nulla, secondo una distribuzione di Fisher conq e N − p gradi di libertà, F q,N−p .Problemi legati all’utilizzo di <strong>modelli</strong> <strong>lineari</strong>La presenza di valori anomali nei pred<strong>it</strong>tori influenza fortemente le stimePred<strong>it</strong>tori caratterizzati da una distribuzione asimmetrica sono inadattiad essere inclusi nel modello, dunque è preferibile ricorrere a lorotrasformazioni che le porti ad approssimare una distribuzione normale


PrevisioneL’obiettivo è ottenere previsioni accurate ˆη(x 0 ) = x 0 ˆβ, dove x0 è unvettore di nuovi valori dei pred<strong>it</strong>tori osservati.La varianza di previsione ˆη(x 0 ) è var [ˆη(x 0 )] = x T 0 cov( ˆβ)x 0 edaumenta all’aumentare del numero di pred<strong>it</strong>tori inclusi nel modello.Tuttavia, se si riduce il numero di pred<strong>it</strong>tori presenti nel modello, ladistorsione delle previsioni aumenterà<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressioneTrade-off tra varianza e distorsioneAggiungendo pred<strong>it</strong>tori al modello si ottiene una riduzione nell’errore sulcampione di apprendimento (tr<strong>ai</strong>ning error), ma si ottiene un aumentodell’errore sul campione test (test error), poiché aumenta l’errore diprevisione.il valore atteso dell’errore di previsione di un valore futuroy 0 = f(x 0 ) + ɛ 0 , dunque l’errore test èE [y 0 − ˆη(x 0 )] 2 = σ 2 + var [ˆη(x 0 )] + bias [ˆη(x 0 )] 2E’ molto importante selezionare nel modello l’insieme di pred<strong>it</strong>tori


<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>Due possibili strategie per migliorare l’accuratezza delmodelloselezione dei pred<strong>it</strong>toriSi riduce il numero deipred<strong>it</strong>tori per migliorarel’accuratezza delle previsioniSelezione stepwise deipred<strong>it</strong>toriSelezione del miglioresottoinsieme di pred<strong>it</strong>toriRegularization ( metodi dishrinkage )Tutti i pred<strong>it</strong>tori restano nelmodello, ma la stima deicoefficienti è vincolataRidge regression: tutti icoefficienti sono non nulli, maquelli meno importanti sonoportati verso lo zeroLasso regression: alcunicoefficienti sono eliminati dalmodello, altri sono portativerso lo zero.A. IodiceRegressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressione


selezione del miglior sottoinsieme di pred<strong>it</strong>toriSi stima un modello lineare per ogni combinazione e numero di pred<strong>it</strong>tori. Sias la taglia del sottoinsieme di pred<strong>it</strong>tori considerato, si sceglie per ogni valoredi s = 1, . . . , p, la combinazione di s pred<strong>it</strong>tori che garantisce il valore di RSSpiù basso. Dunque si individueranno s ’<strong>modelli</strong> migliori’ tra cui scegliere.problema legato a tale approccio: elevato peso computazionale se il numero p di pred<strong>it</strong>toriconsiderati è elevato.selezione step-wiseLa procedura step-wise ha l’obiettivo di selezionare un modello di regressioneparsimonioso. La procedura consiste nei seguenti passi<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressionesi parte dal modello ’nullo’ (senza pred<strong>it</strong>tori)si include nel modello il pred<strong>it</strong>tore che migliora maggiormente il tr<strong>ai</strong>ningerrorsi include nel modello il pred<strong>it</strong>tore che, tra quelli rimasti, miglioramaggiormente il tr<strong>ai</strong>ning errorlo step precedente viene ripetuto fino a che tutti i pred<strong>it</strong>tori sono statiinclusi nel modelloAl termine della procedura si ottiene una sequenza di <strong>modelli</strong> caratterizzati daun numero crescente di pred<strong>it</strong>tori, tra i quali scegliere il miglioreproblema legato a tale approccio: una volta che un pred<strong>it</strong>tore è incluso nel modello, non vienepiù rimesso in discussione. Tale metodo può portare a scegliere un modello caratterizzato daoverf<strong>it</strong>ting.


<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. Iodiceridge regressionLa funzione obiettivo nella regressione ridge èmin β (y − Xβ) T (y − Xβ) s.t.p∑βj 2 ≤ sj=1Regressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressioneche utilizzando il metodo dei moltiplicatori di Lagrange diventamin β (y − Xβ) T (y − Xβ) + λβ T βand the solution is( )ˆβ λ = X T X − λI X T y


Ridge Regression<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressione


<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. Iodicelasso regressionLa funzione obiettivo nella regressione lasso èmin β (y − Xβ) T (y − Xβ) s.t.p∑| β j | ≤ sj=1Regressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressioneche utilizzando il metodo dei moltiplicatori di Lagrange diventamin β (y − Xβ) T (y − Xβ) + λ | β |


Lasso Regression<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressione


Data set ’prostate’’data.frame’: 97 obs. of 10 variables:lcavol : num -0.58 -0.994 -0.511 -1.204 0.751 ...lweight: num 2.77 3.32 2.69 3.28 3.43 ...age : int 50 58 74 58 62 50 64 58 47 63 ...lbph : num -1.39 -1.39 -1.39 -1.39 -1.39 ...svi : int 0 0 0 0 0 0 0 0 0 0 ...lcp : num -1.39 -1.39 -1.39 -1.39 -1.39 ...gleason: int 6 6 7 6 6 6 6 6 6 6 ...pgg45 : int 0 0 20 0 0 0 0 0 0 0 ...lpsa : num -0.431 -0.163 -0.163 -0.163 0.372 ...tr<strong>ai</strong>n : logi TRUE TRUE TRUE TRUE TRUE TRUE ...<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressione


<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>lprostate=prostate[,-10]lmf<strong>it</strong>=lm (lpsa~.,data=lprostate)summary(lmf<strong>it</strong>)lm(formula = lpsa ~ ., data = lprostate)Residuals:Min 1Q Median 3Q Max-1.76644 -0.35510 -0.00328 0.38087 1.55770A. IodiceRegressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressioneCoefficients:Estimate Std. Error t value Pr(>|t|)(Intercept) 0.181561 1.320568 0.137 0.89096lcavol 0.564341 0.087833 6.425 6.55e-09 ***lweight 0.622020 0.200897 3.096 0.00263 **age -0.021248 0.011084 -1.917 0.05848 .lbph 0.096713 0.057913 1.670 0.09848 .svi 0.761673 0.241176 3.158 0.00218 **lcp -0.106051 0.089868 -1.180 0.24115gleason 0.049228 0.155341 0.317 0.75207pgg45 0.004458 0.004365 1.021 0.31000---Residual standard error: 0.6995 on 88 degrees of freedomMultiple R-squared: 0.6634, Adjusted R-squared: 0.6328F-statistic: 21.68 on 8 and 88 DF, p-value: < 2.2e-16


<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceE’ possibile confrontare l’effetto sulla variabile di risposta di ciascun pred<strong>it</strong>tore, di fatto si effettuano pregressioni <strong>lineari</strong> semplici.f<strong>it</strong>0=lm(lpsa~1,data=lprostate)scope= ~ lcavol + lweight + age + lbph + svi + lcp + gleason + pgg45add1(f<strong>it</strong>0, scope=scope, test="F")%Single term add<strong>it</strong>ionsModel:lpsa ~ 1Df Sum of Sq RSS AIC F value Pr(>F) 127.918 28.838lcavol 1 69.003 58.915 -44.366 111.2670 < 2.2e-16 ***lweight 1 24.019 103.899 10.665 21.9613 9.276e-06 ***age 1 3.679 124.239 28.007 2.8133 0.0967746 .lbph 1 4.136 123.782 27.650 3.1741 0.0780096 .svi 1 41.011 86.907 -6.658 44.8299 1.499e-09 ***lcp 1 38.528 89.389 -3.926 40.9465 5.882e-09 ***gleason 1 17.416 110.502 16.641 14.9730 0.0001999 ***pgg45 1 22.814 105.103 11.783 20.6211 1.642e-05 ***---Regressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressione


Best subset selectionWe use the tr<strong>ai</strong>ning set to f<strong>it</strong> the model, and the regsubset function makes an exaustive search of all thepossible combinations of variables in the model<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesempliceModello diregressione linearemultiplatr<strong>ai</strong>n


<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. Iodiceprostate.models


<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesemplice# cr<strong>it</strong>erion RSS for each modelprostate.models.rss > prostate.dummy #let’s compute the RSS for this model, and add <strong>it</strong> to the others> prostate.models.best.rss


<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressionenote that form two variables on, the RSS does not improve considerably


Forward stepwise selection<strong>Introduzione</strong> <strong>ai</strong><strong>modelli</strong> <strong>lineari</strong>A. IodiceRegressione linearesempliceModello diregressione linearemultiplaObiettivi dellaregressione

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!