La Regressione Lineare Semplice - Università degli Studi di Perugia
La Regressione Lineare Semplice - Università degli Studi di Perugia
La Regressione Lineare Semplice - Università degli Studi di Perugia
- No tags were found...
Trasformi i suoi PDF in rivista online e aumenti il suo fatturato!
Ottimizzi le sue riviste online per SEO, utilizza backlink potenti e contenuti multimediali per aumentare la sua visibilità e il suo fatturato.
<strong>La</strong> <strong>Regressione</strong> <strong>Lineare</strong> <strong>Semplice</strong>Fabrizio StracciDip. Igiene dell’UniversitUniversità <strong>degli</strong> <strong>Stu<strong>di</strong></strong> <strong>di</strong> <strong>Perugia</strong>Registro Tumori Umbro <strong>di</strong> Popolazione
Finalità della PresentazioneIntrodurre il concetto <strong>di</strong> regressioneFacilitare l’interpretazione dei risultati <strong>di</strong> stu<strong>di</strong> cheimpiegano la regressioneFornire gli elementi necessari all’applicazione dellaregressione lineare sempliceCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 2
Cos’è la <strong>Regressione</strong>• <strong>La</strong> regressione è una tecnica statistica per stu<strong>di</strong>are le relazioni tradue o più variabili• Generalmente la relazione stu<strong>di</strong>ata consta <strong>di</strong>-una variabile <strong>di</strong>pendente o risposta e <strong>di</strong>-una o più variabili che dovrebbero spiegare o ad<strong>di</strong>ritturadeterminare i valori assunti dalla variabile <strong>di</strong>pendente; questeultime sono dette variabili esplicative o pre<strong>di</strong>ttori o variabiliin<strong>di</strong>pendenti.Camerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 3
Angolo UmanisticoIl termine ‘regressione’ è stato introdotto da Sir Francis Galton,antropologo inglese, nell’articolo “Regression towards me<strong>di</strong>ocrity inhere<strong>di</strong>tary stature” Journal of the Anthropological Institute, 1885;15:246-263.‘<strong>Regressione</strong>’ si riferiva alla tendenza dei figli ad avere altezze piùprossime alla me<strong>di</strong>a rispetto ai genitori.Attualmente il termine viene impiegato <strong>di</strong>ffusamente in situazioni incui non vi è regressione verso la me<strong>di</strong>a.Camerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 4
Modelli deterministiciL’errore <strong>di</strong> misura dellavariabile <strong>di</strong> risposta e lavariabilità non controllatadelle con<strong>di</strong>zioni sperimentalisono trascurabili.900800700600500400300200100Esempio: la legge <strong>di</strong> Ohm0VI = =ργV0 2 4 6 8 10 12 14 16Camerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 5
Modelli deterministici 2L’intensità <strong>di</strong> corrente, I, e il potenziale, V sono variabili chepossono essere misurate o controllate, osservabiliVI = =ργV<strong>La</strong> resistenza ρ (o la sua inversa γ) è un parametro: una quantità dadeterminare per applicare la legge al caso <strong>di</strong> un particolare conduttoreCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 6
Modelli deterministici 3<strong>La</strong> legge <strong>di</strong> Ohm afferma chel’intensità <strong>di</strong> corrente (Y)<strong>di</strong>pende dal potenzialeelettrico (X).I è <strong>di</strong>rettamente proporzionalea V: se aumentiamo ilpotenziale l’intensità <strong>di</strong>corrente aumenta linearmente9008007006005004003002001000y = 55.56x0 2 4 6 8 10 12 14Aumento lineare dell’intensità <strong>di</strong> correntein funzione del voltaggio nel caso delrame (resistenza 0.018, conduttanza55.556).Camerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 7
<strong>La</strong> rettaIn generale un modello lineare può essere scritto:Y = f(x)O, con una notazione alternativa:Y= β +0= α + βxI due parametri α e β definiscono rispettivamente l’intercetta ela pendenza della retta. Una pendenza negativa corrispondead una relazione lineare inversa.β1 xCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 8
Pendenza della retta e intercetta70605040y= 2xy= 3xy= 5x1816141210y= 2+ xy= 3+ xy= 5+ x308201000 2 4 6 8 10 12 1464200 2 4 6 8 10 12 14Effetto della variazione del coefficienteangolareEffetto della variazione dell’intercettaCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 9
Modello stocastico o probabilisticoAssai spesso errori <strong>di</strong> misura e/o variabilità sperimentalenon controllata delle con<strong>di</strong>zioni sperimentali introduconoun ulteriore elemento <strong>di</strong> <strong>di</strong>fficoltà<strong>La</strong> risposta può assumere <strong>di</strong>fferenti valori anche per unitàsperimentali con identici valori della variabilein<strong>di</strong>pendente (o, più in generale dei pre<strong>di</strong>ttori o covariate)Y = f(X)+ εCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 10
<strong>La</strong> <strong>Regressione</strong> <strong>Lineare</strong> <strong>Semplice</strong>Il più semplice modello che possiamo considerare assumerelazione lineare tra una variabile casuale <strong>di</strong>pendente(continua) e una sola variabile in<strong>di</strong>pendente:Y = α + βx +i iCioè un modello lineare semplice perché contenente un solo pre<strong>di</strong>ttore e <strong>di</strong>primo or<strong>di</strong>ne perché l’esponente più elevato del pre<strong>di</strong>ttore è 1εiCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 11
<strong>La</strong> <strong>Regressione</strong> <strong>Lineare</strong> <strong>Semplice</strong> 2Alternativamente possiamo formulare il modello in mododa <strong>di</strong>stinguere la struttura casuale e quella sistematica:Yi ~ N(µ i,σIntendendo che gli y i , i valori della variabile <strong>di</strong> rispostaosservati, sono realizzazioni <strong>di</strong> una variabile casuale Y i<strong>di</strong>stribuita normalmente attorno ad ogni valore me<strong>di</strong>o µ i<strong>di</strong>pendente dai valori <strong>di</strong> ingresso del pre<strong>di</strong>ttore, X i e convarianza costante σ 22)Camerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 12
<strong>La</strong> <strong>Regressione</strong> <strong>Lineare</strong> <strong>Semplice</strong> 3<strong>La</strong> parte sistematica del modello assume che l’attesa dellarisposta <strong>di</strong>pende linearmente dai valori del pre<strong>di</strong>ttore<strong>La</strong> me<strong>di</strong>a, µ i , o attesa <strong>di</strong> Y con<strong>di</strong>zionale ai valori assuntidal pre<strong>di</strong>ttore è dunque definita da:µ = α + βx i iCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 13
<strong>La</strong> <strong>Regressione</strong> <strong>Lineare</strong> <strong>Semplice</strong> 4Il modello ha quin<strong>di</strong> la forma:Variabile <strong>di</strong> Risposta = Forma del modello + Errore casualeSpecificamente nel caso della regressione lineare:Variabile <strong>di</strong> Risposta = Funzione lineare + Errore casuale<strong>La</strong> funzione lineare consta <strong>di</strong> due parametri (la costante α ela pendenza β) che debbono essere stimati a partire dallerisposte e dai valori del pre<strong>di</strong>ttore che si assumono misuratisenza errore.Camerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 14
Alcuni impieghi della regressione lineareDescrivere un’associazione lineare causale o noncausale (associazione) tra due variabiliPre<strong>di</strong>re il valore me<strong>di</strong>o della variabile <strong>di</strong>pendente (eun intervallo <strong>di</strong> valori probabili) dato un valore delpre<strong>di</strong>ttoreValutare se una relazione apparente tra due variabili èsignificativaApprossimare la relazione non lineare tra due variabiliin un intervallo limitatoCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 15
OLS*Come stimare, a partire da un insieme <strong>di</strong> dati costituiti n dacoppie <strong>di</strong> osservazioni X 1 Y 1 , X 2 Y 2 …X n Y n , i parametrisconosciuti α, β ed ε i ?Otteniamo a e b, stime dei parametri sconosciuti α e βutilizzando il metodo dei minimi quadrati; troviamo, cioè,quei valori <strong>di</strong> a e b che minimizzano la somma dei quadratidelle <strong>di</strong>stanze dei valori osservati dalla retta <strong>di</strong> regressionen∑i=1ε2i=n∑i=1n( )2Y − = ∑( − − )iYˆYia bxii=12=minCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 16
OLS 20.90.80.70.60.50.40.30.20.10ols0 5 10 15 20 25Camerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 17
OLS 3Per la regressione lineare semplice si trova che:eb==∑X Yi∑X−2icodevianzaXYdevianzaXi[( ∑ X )( ∑ )]iYi− ( ∑ )2Xi/ n=SSaXYXX/ n== Y−b X∑( X )( )i− X Yi−Y∑( − )2XiX=Camerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 18
Esempio 1Temperature Chirps69 1570 1572 1675 1676 1480 1581 1781 1682 1783 1683 1784 1884 1789 2093 20Supponiamo <strong>di</strong> voler stu<strong>di</strong>are la relazione tra frequenzadel canto dei grilli (y) e temperatura (x) a partire dalle15 osservazioni riportateUtilizzando il foglio elettronico, possiamo innanzituttodeterminare le due me<strong>di</strong>e campionarie: temperatura80.13 °F (=(80-32)/1.8= 26.7°C) e canto 16.6suoni minuto -1Quin<strong>di</strong> gli scarti semplici(x 1 -x m )=(69-80.13)=-11.13Camerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 19
Esempio 2(xi-xm) (yi-ym)-11.13 -1.6-10.13 -1.6-8.13 -0.6-5.13 -0.6-4.13 -2.6-0.13 -1.60.87 0.40.87 -0.61.87 0.42.87 -0.62.87 0.43.87 1.43.87 0.48.87 3.412.87 3.4Camerino5 settembre 2001Una volta ottenuti gli scarti semplici possiamo calcolare illoro prodotto e quin<strong>di</strong> sommare per ottenere lacodevianza S XY =133.8Nell’esempio i dati sono or<strong>di</strong>nati per Temperature. <strong>La</strong><strong>di</strong>stribuzione concorde dei segni <strong>degli</strong> scarti e dellequantità lascia supporre che esista una relazione <strong>di</strong>rettatra le due variabiliElevare al quadrato per ottenere gli scarti quadratici equin<strong>di</strong> le rispettive devianze sommando per i da 1 a15: S XX = 631.7 e S YY = 41.6Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 20
Esempio 3(xi-xm)(yi-ym) (xi-xm)^2 (yi-ym)^217.81 123.95 2.5616.21 102.68 2.564.88 66.15 0.363.08 26.35 0.3610.75 17.08 6.760.21 0.02 2.560.35 0.75 0.16-0.52 0.75 0.360.75 3.48 0.16-1.72 8.22 0.361.15 8.22 0.165.41 14.95 1.961.55 14.95 0.1630.15 78.62 11.5643.75 165.55 11.56S(XY)= S(XX)= S(YY)=133.8 631.73 41.60Camerino5 settembre 2001Abbiamo tutti gli elementi per calcolare b:b= S XY /S XX =133.8/631.7=0.212Il segno positivo <strong>di</strong> b in<strong>di</strong>ca che la frequenza <strong>di</strong>canto tende ad aumentare all’aumentare dellatemperatura. In me<strong>di</strong>a abbiamo un suono in più alminuto ogni 5 °FUtilizziamo b per calcolare l’intercetta:a = 16.6 - 0.2*80.1=-0.37Valore che nel nostro modello non ha moltosignificatoCorso <strong>di</strong> Metodologia Statistica edEpidemiologica 21
Esempio 4Chirps(obs) Chirps(pred)15.0 14.215.0 14.516.0 14.916.0 15.514.0 15.715.0 16.617.0 16.816.0 16.817.0 17.016.0 17.217.0 17.218.0 17.417.0 17.420.0 18.520.0 19.3Possiamo utilizzare la retta per pre<strong>di</strong>re i valori yy pred = -0.37+0.212(x i )o per pre<strong>di</strong>re la frequenza <strong>di</strong> canto pertemperature non osservate. Ad esempio perX=91 °F , y predetto vale 18.9; perX=180°F avremmo circa 38 suoni al minuto.Tuttavia ad 82°C <strong>di</strong> temperatura è improbabileche un grillo abbia ancora voglia <strong>di</strong> cantare.Le pre<strong>di</strong>zioni al <strong>di</strong> fuori dello spazio campionerichiedono particolare cautelaCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 22
Equazione della retta stimataPossiamo scrivere l’equazione della retta stimata utilizzandoi minimi quadrati come:Ŷ = a + b XO, sostituendo nella precedente a = Y−b XŶ= Y − bX+ bX= Y + b X( ) − XDa cui si vede che percontiene il punto(X, Y)X = X, Ŷ = Ycioè la retta, centro <strong>di</strong> gravità dei datiCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 23
<strong>La</strong> Tabella ANOVAQuanta variabilità presente nei valori <strong>di</strong> risposta Y ispiegata dalla retta <strong>di</strong> regressione?Possiamo sud<strong>di</strong>videre lo scarto <strong>di</strong> un y i dalla me<strong>di</strong>a in duequantità:• la <strong>di</strong>stanza del punto dal valore predetto o atteso inbase alla retta <strong>di</strong> regressione e• la <strong>di</strong>stanza del valore atteso dalla me<strong>di</strong>a <strong>di</strong> Yyi−y=( y − yˆ) + ( yˆ− y)iiièCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 24
<strong>La</strong> Tabella ANOVA 2Sommando i termini per ogni Y da 1 a n ed elevando alquadrato si ha:n∑i=12 n2 n2( y − y) = ( yˆ− y) + ( y − yˆ)i∑i=1Poiché il doppio prodotto vale 0.i∑Quin<strong>di</strong>, Variabilità totale della risposta Y= (Variabilitàspiegata dalla <strong>di</strong>pendenza lineare da X) + (Variabilitàresidua o errore)i=1iiCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 25
<strong>La</strong> Tabella ANOVA 3Camerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 26
<strong>La</strong> Tabella ANOVA 4<strong>La</strong> variabilità attorno alla retta <strong>di</strong> regressione, anche dettaSomma dei Quadrati Errore (SSE)* <strong>di</strong>pende da due fattori <strong>di</strong>stinti:• <strong>La</strong> variabilità casuale presente nei dati (σ 2 ) o errorevero e proprio• <strong>La</strong> non linearità della <strong>di</strong>pendenza <strong>di</strong> Y da X (in altreparole l’assunto della retta non è verificato e il modellosoffre <strong>di</strong> mancanza <strong>di</strong> adattamento)*Nota: se tutti i punti sono sulla retta SSE=0Camerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 27
<strong>La</strong> Tabella ANOVA 5Quanto maggiore è la variabilità spiegata dalla regressionerispetto alla variabilità residua, SSE, tanto migliore risulta ilnostro modelloCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 28
Gra<strong>di</strong> <strong>di</strong> libertàPer confrontare la variabilità spiegata dalla regressione e lavariabilità residua dobbiamo tener conto dei rispettivi ‘gra<strong>di</strong> <strong>di</strong>libertà’, gl, cioè del numero <strong>di</strong> informazioni in<strong>di</strong>pendentinecessarie per il calcolo della somma dei quadrati a partiredalle n informazioni libere iniziali (gli n Yi):•<strong>La</strong> somma dei quadrati totale ha n – 1 gl;•<strong>La</strong> SSE ha n – 2 gl in quanto il calcolo dei residui richiede idue parametri a e b;•Per sottrazione la somma dei quadrati della regressione ha 1glCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 29
<strong>La</strong> Tabella ANOVA 6Fonti <strong>di</strong> variabilitàSomma deiQuadratiglMe<strong>di</strong>a deiquadratinSpiegata dalla2SSg= ∑( yˆ Re i− y)1 MSregressione b 1 |b i=1Reg =SS Reg /10nResidua o errore 2SSE = ( y i− yˆi) (n – 2) MSE=SSE/n-2∑i=1Totale correttaSS = ∑( y − y)2Y i (n – 1)n2Dovuta a b 0 * ⎛ ⎞2TotaleSSa⎜ yi⎟ n =i=1= ∑⎝n∑i=1⎠2y i/ ny1nCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 30
<strong>La</strong> Tabella ANOVA 7*yy ˆ =yy ˆ = a +bxPre<strong>di</strong>zione <strong>di</strong> Y secondo i due modellicon b=0 (in<strong>di</strong>fferenza) e b≠0Camerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 31
R 2Una misura complessiva dell’adattamento del modello èdata dalla statistica R 2 .R 2 misura la proporzione <strong>di</strong> variabilità totale (corretta)spiegata dalla regressione lineareRSS ˆ2 Re gi=SCamerino5 settembre 2001YY=∑∑( y − y)XY2XY( )2y − yYYSXXSYYiNote:1) R 2 non misura l’appropriatezza del modello lineare. 2)Valori elevati <strong>di</strong> R 2 non corrispondono necessariamente a belevati. 3) Il valore massimo 1(100%) non può essere raggiunto inpresenza <strong>di</strong> valori X ripetuti che riflettono l’errore casuale2=bSSCorso <strong>di</strong> Metodologia Statistica edEpidemiologica 32=S
Esempio 5(ypred-ym) (ypred-ym)^2-2.4 5.560-2.1 4.606-1.7 2.967-1.1 1.182-0.9 0.7660.0 0.0010.2 0.0340.2 0.0340.4 0.1560.6 0.3690.6 0.3690.8 0.6710.8 0.6711.9 3.5272.7 7.426SS(reg)28.339Camerino5 settembre 2001Possiamo utilizzare i valori predetti per calcolare<strong>di</strong>rettamente la Somma dei Quadrati della <strong>Regressione</strong>oppure sfruttare il fatto cheYˆ= Y + b ( X − X)Per otteneren2 n( )2∑( )2− = ⋅∑( − )2 SSXYyˆiy b xix =SSi=1i=1( )Cioè SS Reg =(133.8) 2 /631.7=28.339 che<strong>di</strong>visa per la devianza y (41.6) fornisce R 2 = 0.68Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 33XX
Esempio 6<strong>La</strong> Me<strong>di</strong>a dei Quadrati della <strong>Regressione</strong> per una sola variabilepre<strong>di</strong>ttiva vale MS Reg =SS Reg /1=28.3Per ricavare MSE, iniziamo calcolando SSE per sottrazione:SSE=41.6-28.3=13.3Quin<strong>di</strong> <strong>di</strong>vi<strong>di</strong>amo SSE per il numero dei gra<strong>di</strong> <strong>di</strong> libertà (n-2)=13:MSE=13.3/13=1.02<strong>La</strong> variabilità spiegata dalla regressione è decisamente maggioredell’erroreCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 34
Assunti*Supponiamo <strong>di</strong> assumere che tra due variabili esista una relazione lineare,per fare delle inferenze sul valore dei parametri (sconosciuti) α e β ,utilizzando gli stimatori a e b, sono necessari alcuni assunti:o Esistenza. Per ogni valore definito <strong>di</strong> X, Y è una variabilealeatoria associata con una qualche <strong>di</strong>stribuzione <strong>di</strong> probabilitào In<strong>di</strong>pendenza.I valori Y sono tra loro in<strong>di</strong>pendentio Linearità.Le me<strong>di</strong>e <strong>di</strong> Y per ogni valore X, µ Y|X , sono unafunzione lineare <strong>di</strong> X, giacciono su una rettao Omoscedasticità. <strong>La</strong> varianza <strong>di</strong> Y con<strong>di</strong>zionale ai valori X ècostante: σ 2 Y|X = σ2o Normalità. Y si <strong>di</strong>stribuisce normalmente per ogni valore XCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 35
Assunti 2*201510Y|X1 Y|X2 Y|X3Per ogni X i assumiamo che Y i ~N(µ Y|X , σ 2 ) o che ε i ~N(0,σ 2 )Camerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 36
Test Fs 2 è una stima della variabilità residua della risposta tenutoconto della <strong>di</strong>pendenza lineare <strong>di</strong> Y dal pre<strong>di</strong>ttore X, σ 2 Y|XSe non vi è mancanza <strong>di</strong> adattamento del modello, se, cioè,la relazione tra le due variabili è lineare, allora s 2 fornisce unastima <strong>di</strong> σ 2MS Reg fornisce una stima <strong>di</strong> σ 2 se Y non <strong>di</strong>pendelinearmente da X, cioè se è vera l’ipotesi nulla, H 0 β=0;altrimenti in presenza <strong>di</strong> una variazione lineare sistematica H 1β≠0, MS Reg sovrastima σ 2Camerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 37
Test F 2Sotto l’ipotesi nulla H 0 β=0, le due variabili in<strong>di</strong>pendentiMS Reg e s 2 sono stimatori della stessa quantità sconosciuta σ 2Tanto più il rapporto sarà maggiore <strong>di</strong> 1 tanto più probabilesarà la presenza <strong>di</strong> un effetto sistematico <strong>di</strong> XIl rapporto tra varianze F = MS Reg / s 2 ha una <strong>di</strong>stribuzioneF con 1(nel caso <strong>di</strong> un solo pre<strong>di</strong>ttore) ed (n – 2) glPossiamo confrontare il valore sperimentale <strong>di</strong> F con il valoretabulare F(1, n – 2) per stabilire se β≠0 in base ai datiosservatiCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 38
Esempio 7Supponiamo <strong>di</strong> aver stabilito α = 0.05,F sperimentale =MS Reg / MSE= 28.3/ 1.02=27.8deve essere confrontato con il valore tabulareF [1,13;0.05] =4.67Poiché F sperimentale > F tabulare respingiamo l’ipotesi nulla che lafrequenza <strong>di</strong> canto non <strong>di</strong>penda linearmente dalla temperaturaIl risultato fornito da un programma statistico probabilmentecomprenderebbe il valore p = 0.00015 cioè la probabilità <strong>di</strong>osservare per effetto della variabilità campionaria un rapporto comequello osservato o maggiore se l’ipotesi nulla fosse stata veraCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 39
Test t per il coefficiente b*Possiamo esprimere b come( x − x)<strong>La</strong> varianza <strong>di</strong> una funzione del tipoCamerino5 settembre 2001V( b)Vb=∑iy∑( x − x) 2iia = a Y + ... + a Y + ... +( a ) ( a2 ) σ2=∑∑=iSe gli ∑2ai= ( xi− x) / ( xi− x)sono costanti, gli Y i non sonocorrelati tra loro e V(Y i )=σ 2 è la stessa per ogni Y i alloraσ( )2x − x SXXi211=σCorso <strong>di</strong> Metodologia Statistica edEpidemiologica 402iianYn
Test t per il coefficiente b 2Possiamo ricavare la misura della variabilità <strong>di</strong> b sostituendoa σ 2 la sua stimas2n= ∑i=1( )2y − yˆ/( n − 2)iEstraendo la ra<strong>di</strong>ce quadrata otteniamo la deviazionestandard del coefficiente bs sES ( b)==12x − x SXXi[ ( ) ] ( ) 2∑iCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 41
Test t per il coefficiente b 3Finalmente possiamo costruire un test per valutare quanto èprobabile osservare un valore del coefficiente b come quelloattuale o più elevato se fosse vera l’ipotesi nulla per cui β=β 0Camerino5 settembre 2001=b − βESt0( b)Avendo stabilito prima del test un livello <strong>di</strong> errore α arbitrario,possiamo confrontare il valore sperimentale del test |t|con il valore tabulare t(gl=(n-2),α) per stabilire se i datiforniscono evidenza sufficiente a rifiutare l’ipotesi nullaCorso <strong>di</strong> Metodologia Statistica edEpidemiologica 42
Test t per il coefficiente b 4Nell’eseguire un test t per il coefficiente b vogliamo spesso valutare sela pendenza della retta è significativamente <strong>di</strong>versa da 0, cioè se X èutile per pre<strong>di</strong>re i valori Y una volta assunta una relazione lineare.Possiamo interpretare i risultati del test come segue:• SE IL RISULTATO RICADE NELLA ZONA DIACCETTAZIONE DI H 0 β=0, ALLORA Y è in<strong>di</strong>fferente ad X e il modello y ˆ = yè da preferire per la suasemplicità Tra Y ed X esiste una relazione non lineare , potremmo cioèaver bisogno <strong>di</strong> altri termini (ad esempio X 2 ) per descrivere larelazione X YCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 43
Test t per il coefficiente b 5• SE IL RISULTATO RICADE NELLA ZONA DIACCETTAZIONE DI H 1 β≠0o <strong>La</strong> relazione tra X e Y è almeno approssimativamentelineareo Un altro modello (ad esempio <strong>di</strong> or<strong>di</strong>ne superiore) èmigliore del modello lineare semplice <strong>di</strong> or<strong>di</strong>ne 1 maesiste una componente <strong>di</strong> <strong>di</strong>pendenza lineare definitaCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 44
Stima intervallare per bAlternativamente possiamo utilizzare ES(b) per costruire unastima intervallare per la pendenza della retta ad un livello <strong>di</strong>confidenza arbitrariamente prefissato al 100(1-α)%b±ts( n − 2,1 −1 α )2 12S XXIn cui t è basato su n –2 glperchés è l’unica fonte <strong>di</strong> variabilitàcasuale nell’equazioneCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 45
Stima intervallare per b 1L’intervallo <strong>di</strong> confidenzaoltre a provvedere l’informazione fornita dal test –se ilvalore β 0 è incluso nell’intervallo non vi sono elementi perrespingere l’ipotesi nulla al livello <strong>di</strong> errore α stabilito–ci restituisce un intervallo <strong>di</strong> valori per il coefficiente bche consente <strong>di</strong> formulare valutazioni sull’importanza della<strong>di</strong>pendenza <strong>di</strong> Y a X e sull’adeguatezza della numerositàcampionariaCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 46
Esempio 8In realtà noi abbiamo già calcolato s2 sebbene abbiamo designatoquesta quantità in modo <strong>di</strong>verso, utilizzando la terminologiadell’Analisi della Varianza come MSE =1.02. SXX = 631.7;estraiamo le rispettive ra<strong>di</strong>ci ed otteniamo ES(b) = 1.01/25.13Supponiamo <strong>di</strong> aver stabilito α = 0.05,t sperimentale = b - β 0 / ES(b)= (0.212 - 0) / 0.040 = 5.27deve essere confrontato con il valore tabularet [13;0.05] = 2.16Poiché t sperimentale > t tabulare respingiamo l’ipotesi nulla <strong>di</strong> in<strong>di</strong>fferenzatra canto e temperaturaCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 47
Esempio 9Per questo test p = 0.00015; è una coincidenza?Il valore t sperimentale 5.27 elevato al quadrato fornisce 27.78.Il test F ed il test t per il coefficiente b nel caso <strong>di</strong> una regressionelineare semplice forniscono lo stesso risultatoPossiamo calcolare un intervallo <strong>di</strong> confidenza al 95% per b:b ± t [13, 0.975] *ES(b)Definendo t*ES(b) fattore <strong>di</strong> errore = 0.087, l’intervallo va da0,212-0.087 = 0.13 a 0,212+0.087 = 0.30 e, come ciaspettavamo, non include il valore nulloCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 48
Bande <strong>di</strong> confidenza per la retta*Possiamo calcolare un intervallo <strong>di</strong> confidenza per la me<strong>di</strong>a Yper ogni dato valore <strong>di</strong> X=X 0 , µ y|X0 .L’errore standard <strong>di</strong> Y vale1S yˆ= SY|X0+nni=Camerino5 settembre 2001( X − X )02∑ ( X − )iXE l’intervallo <strong>di</strong> confidenza èYˆXt[ ] Sn−2;1−α2Y X 00ˆ2TemperaturaBande <strong>di</strong> confidenza al 90%Frequenza del cantoy = a + bx± Grafico delle bande <strong>di</strong> confidenza al90% per la retta stimataCorso <strong>di</strong> Metodologia Statistica edEpidemiologica 49
Coefficiente <strong>di</strong> Correlazione rIl coefficiente <strong>di</strong> correlazione <strong>di</strong> Bravais-Pearson fornisceuna misura dell’associazione lineare tra due variabili. <strong>La</strong>formula per il calcolo èn∑( x − x)( y − y)i ii=1r ==nn∑( )2( )2xi− x ∑ yi− yi= 1 i=1SS12XXXYS12YYCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 50
Coefficiente <strong>di</strong> Correlazione r 2r è matematicamente collegato a b:r=bSS12YY12XX=b∑( y − y)∑( x − x)ir non ha scala né unità <strong>di</strong> misura; un cambiamento <strong>di</strong> scalamo<strong>di</strong>ficherà b, che misura l’entità del cambiamento in Yper una variazione unitaria <strong>di</strong> X, ma non avrà effetto su ri22Camerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 51
Coefficiente <strong>di</strong> Correlazione r 3r può assumere valori tra –1 e +1. Un valore |1| in<strong>di</strong>cauna perfetta correlazione tra X e Y, cioè i punti concoor<strong>di</strong>nate (x i ,y i ) giacciono su una retta.Il segno in<strong>di</strong>ca se la correlazione è <strong>di</strong>retta (+) o inversa (–)Il valore 0 in<strong>di</strong>ca assenza <strong>di</strong> correlazione lineareCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 52
Esempio 10Essendo S YY½ = 6.45 e S XX½ , già calcolato, pari a 25.13, ilprodotto delle due quantità vale 162.11. S Xy vale 133.8. Quin<strong>di</strong>r = 133.8 / 162.1=+0.83Camerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 53
Costruzione del modelloOsservare: misurazione dei datiAssumere la forma del modelloAdattare il modello ai datiAssumere un nuovo modelloValutare la significatività e labontà dell’adattamentoCamerino5 settembre 2001Non sod<strong>di</strong>sfacenteSod<strong>di</strong>sfacenteFineCorso <strong>di</strong> Metodologia Statistica edEpidemiologica 54
Valutazione del modello*L’assunto iniziale relativo alla forma del modello, così comealtri assunti resisi necessari per fare inferenze sui parametri <strong>di</strong>popolazione (sconosciuti),non deve essere accettato dogmaticamente maanch’esso verificato; ed è questa una norma generale affattospecifica della regressione lineare sempliceCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 55
Osservazioni ripetute*In presenza <strong>di</strong> osservazioni ripetute possiamo costruire untest F per la mancanza <strong>di</strong> adattamentoSono osservazioni ripetute le determinazioni multiple <strong>di</strong> Yin corrispondenza <strong>di</strong> identici valori XSe il valore del pre<strong>di</strong>ttore è identico, allora le risposte Y<strong>di</strong>fferiscono solo per effetto della variabilità casualeQuin<strong>di</strong> le osservazioni ripetute ci consentono <strong>di</strong> stimarel’errore casuale vero e proprio (σ 2 )Camerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 56
Osservazioni ripetute 2*NotazioneAbbiamo m valori X <strong>di</strong>fferenti in corrispondenza dei qualiosserviamo un certo numero n j <strong>di</strong> ripetizioni Y ju con j =1, 2,…, mOgni serie <strong>di</strong> ripetizioni contribuisce alla Somma dei Quadratidell’errore casuale con la somma <strong>degli</strong> scarti quadratici attorno allapropria me<strong>di</strong>a; ad esempio per n 3 ripetizioni in corrispondenza <strong>di</strong> X 3Camerino5 settembre 2001n∑(3) Y −Y3 u 3u=12Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 57
Osservazioni ripetute 3*Sommando le somme dei quadrati corrispondenti ad ogni X jabbiamomnj∑∑( ) Y −Yju jj= 1 u=1E i gra<strong>di</strong> <strong>di</strong> libertà relativi saranno pari a n j –1 per ogni serie<strong>di</strong> ripetizioni cioèm∑j=1n j− m2Camerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 58
Osservazioni ripetute 4*Possiamo calcolare la Me<strong>di</strong>a dei Quadrati entro ripetizioni<strong>di</strong>videndo la Somma dei Quadrati per il numero dei gl.Questa quantità, s e2 , fornisce una stima <strong>di</strong> σ 2 in<strong>di</strong>pendentementedall’esattezza del modello lineareSi può <strong>di</strong>mostrare che la Somma dei Quadrati dei Residuipuò essere scomposta in SS e e Somma dei Quadrati dovutaalla mancanza <strong>di</strong> adattamento del modello (erroresistematico):m n( )m n∑∑ ∑∑ ( )m22Y − = − + ∑ ( − )juYˆjYjuYjnjYˆjYjj= 1 u=1Camerino5 settembre 2001jjj= 1 u=1j=1Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 592
Osservazioni ripetute 5*Possiamo calcolare la Somma dei Quadrati dovuta allamancanza <strong>di</strong> adattamento sottraendo s e2 dalla SSE e similmenteottenere il numero dei gl per sottrazioneE costruire infine il test che confronta la Me<strong>di</strong>a deiQuadrati dovuta alla mancanza <strong>di</strong> adattamento con laMe<strong>di</strong>a dei Quadrati entro ripetizioniMSLFF =Il risultato può essere confrontato con il valore F tabulare con (n res –n e ) ed n e gl ad un tasso <strong>di</strong> errore a prestabilitoCamerino5 settembre 2001s2eCorso <strong>di</strong> Metodologia Statistica edEpidemiologica 60
Osservazioni ripetute 6*Un risultatoo Significativo in<strong>di</strong>ca che il modello è inadeguato. Ulterioriindagini (ad esempio esame dei residui) sono in<strong>di</strong>cate perin<strong>di</strong>viduare l’origine dell’inadeguatezzao Non Significativo in<strong>di</strong>ca che in base a questo test non cisono elementi per mettere in <strong>di</strong>scussione l’adeguatezza delmodelloCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 61
I Residui (cenni)*ˆI residui ei= Yi−Yii = 1, 2 …n contengono tuttal’informazione relativa alla variabilità non spiegata dallaregressioneSe il modello è corretto, allora i residui rappresentano glierrori osservatiSe il modello soffre <strong>di</strong> mancanza <strong>di</strong> adattamento, allora iresidui contengono, oltre all’errore, una variabilitàsistematica (bias)Camerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 62
I Residui 2*Analizziamo i residui per valutare se uno o più <strong>degli</strong> assunti che si sonoresi necessari nella regressione risultano violati; ad esempioper valutare l’assunto <strong>di</strong> normalità, ε i ~N(0, σ 2 ) e <strong>di</strong> unavarianza costante σ 2 per evidenziare andamenti sistematici chesuggeriscano componenti non lineari per in<strong>di</strong>viduare osservazioni influenti, che mo<strong>di</strong>ficanosensibilmente i parametri della retta stimataCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 63
I Residui 3*Poiché nella stima dei parametri poniamo una serie <strong>di</strong> vincoli cheriguardano essenzialmente i residui (ad esempio la somma dei residuivale 0), i residui non sono in<strong>di</strong>pendenti come assumiamo che siano glierrori εiTuttavia se il numero delle osservazioni è grande rispetto al numerodei parametri, allora i vincoli non hanno grande importanza ai fini deicontrolli <strong>di</strong> normalitàPer valutare l’assunto <strong>di</strong> normalità, possono essere utilisemplici grafici come un istogramma <strong>di</strong> frequenze, un<strong>di</strong>agramma ramo e foglia o un <strong>di</strong>agramma a scatola con baffiCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 64
I Residui 3*Unstandar<strong>di</strong>zed Residual Stemand-LeafPlot54Frequency Stem & Leaf33 -1 . 2573 -0 . 2477 0 . 02455672 1 . 15Stem width: 1.00000Each leaf: 1 case(s)Frequency210-1.5 -1.0 -.5 0.0 .5 1.0 1.5Regression Standar<strong>di</strong>zed ResidualStd. Dev = .96Mean = 0.0N = 15.00Camerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 65
I Residui 4*3° quartile2° quartile2Eventuali valori anomalio/e valori estremi11° quartile 1,5*intervallo0-1interquartileIIQ-2N =15ResiduiCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 66
Valori anomali ed estremiL’istogramma, la scatola e il grafo stem & leaf consentono <strong>di</strong>in<strong>di</strong>viduareo valori anomali (tra 1,5 e 3 *intervallo interquartile IIQ)che compaiono con una frequenza approssimativa <strong>di</strong> 1/20osservazioni in un campione estratto da una <strong>di</strong>stribuzionenormaleo valori estremi (oltre 3 * IIQ) con una frequenza <strong>di</strong> circa1/200 osservazioniCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 67
I Residui 5*1.00Normal P-P Plot of Regression Standar<strong>di</strong>zed Residual.75.50Expected Cum Prob.250.000.00.25.50.751.00Observed Cum ProbCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 68
Grafico <strong>di</strong> e i vs Y predettoUn grafico a <strong>di</strong>spersione dei residui e i rispetto ai valori ypredetti (y cappello ) è utile pero identificare una varianza non costante (<strong>di</strong>stribuzione adaltoparlante) oo la presenza <strong>di</strong> relazioni non lineari (presenza <strong>di</strong> curvatura)Camerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 69
I Residui 6*Regression Standar<strong>di</strong>zed Residual2.01.51.0.50.0-.5-1.0-1.5-2.0-2Regression Standar<strong>di</strong>zed Pre<strong>di</strong>cted ValueCamerino5 settembre 2001-1012Distribuzione sod<strong>di</strong>sfacenteSuggestivo <strong>di</strong> relazione nonlineareSuggestivo <strong>di</strong> varianza noncostanteTipiche <strong>di</strong>stribuzioni della‘nuvola dei residui’Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 70
I Residui 7*Frequenza del canto22171265 80 95Temperatura°C = (°F - 32) / 1,8Camerino5 settembre 2001Frequenza del canto221712Frequenza del canto2015105y = 0.27x - 5.37y = 0.21x - 0.3745 60 75 90Temperaturay = 0.15x + 4.63y = 0.21x - 0.3765 80 95Corso <strong>di</strong> Metodologia Statistica Temperatura edEpidemiologica 71
Il modello migliore21.90522Frequenza del canto17Frequenza <strong>di</strong> canto1265 80 95Temperatura1469 93TemperaturaCamerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 72
Riferimenti bibliograficiAlcuni Testi <strong>di</strong> Riferimento Elencati per Livello Crescente<strong>di</strong> DifficoltàGlantz SA. (1988) "Statistica per <strong>di</strong>scipline bio-me<strong>di</strong>che", McGRAW-HILL, Milano.Pagano M, Gauvreau K. (1994) "Biostatistica", E<strong>di</strong>zioni Gnocchi, Milano.Armitage P, Berry G. (1996) “Statistica Me<strong>di</strong>ca”. McGRAW-HILL,Milano.Kleinbaum DG, Kupper LL, Muller KE, Nizam A. (1998) “AppliedRegression Analysis and Other Multivariable Methods”. Duxbury Press, PacificGrove.Draper NR, Smith H. (1998) “Applied Regression Analysis”. Wiley, NewYork.Camerino5 settembre 2001Corso <strong>di</strong> Metodologia Statistica edEpidemiologica 73