5. Regresia liniara
5. Regresia liniara
5. Regresia liniara
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Cursul Nr. 14<br />
<strong>Regresia</strong> <strong>liniara</strong>
Background<br />
• O mare parte a analizelor statistice uzuale se<br />
ocupă cu analiza relaţiei între două variabile<br />
statistice (atribute) ce corespund aceluiaşi grup<br />
de obiecte/instanţe.<br />
• Pentru a o identifica, se studiază relaţia dintre<br />
cele două caracteristici/atribute măsurate pe<br />
obiectele dintr-un anumit set.<br />
• Cu alte cuvinte, este vorba de două serii<br />
statistice în care cuplurile de valori (x i, y i),<br />
corespunzând cuplului de variabile statistice<br />
(X, Y) sunt măsurate pe acelaşi obiect.
Background<br />
• Există două mari motive pentru care se<br />
efectuează un asemenea studiu:<br />
– Descrierea relaţiei care ar putea exista între cele<br />
două variabile, analizând legătura între cele<br />
două serii de observaţii. Concret, se analizează<br />
dacă tendinţa ascendentă a uneia implică o<br />
tendinţă ascendentă, descendentă sau nici o<br />
tendinţă a celeilalte;<br />
– În ipoteza existenţei unei legături reale între ele,<br />
identificată în prima instanţă, să se poată<br />
prognostica valorile uneia în raport cu valorile<br />
celeilalte pe baza ecuaţiei de regresie.
Background<br />
• Scopul final este prognoza, în condiţia că<br />
este posibilă, cele două variabile fiind întradevăr<br />
corelate.<br />
• Metoda prin care analizăm posibilele<br />
asociaţii între valorile a două variabile<br />
statistice, prelevate de la acelaşi grup de<br />
obiecte, este cunoscută ca metoda<br />
corelaţiei şi are ca indice coeficientul de<br />
corelaţie (Pearson’s r).
Background<br />
• Fie două serii statistice {x i} i = 1,...,n şi {y i} i = 1,...,n,<br />
corespunzătoare cuplului de variabile statistice<br />
X şi Y. Atunci, coeficientul de corelaţie r<br />
(Pearson’s r) al celor două variabile este un<br />
număr real cuprins între –1 şi 1, definit de<br />
formula:
Background<br />
• Interpretarea corelaţiei dintre două variabile statistice:<br />
coeficientul de corelaţie r ia valori cuprinse între –1 şi<br />
+1, trecând şi prin 0, care indică o neasociere între<br />
cele două variabile (independenţă). O valoare a lui r<br />
apropiată de –1 indică o corelaţie negativă puternică,<br />
adică tendinţa unei variabile de a scădea semnificativ<br />
când cealaltă variabilă creşte, în timp ce o valoare a<br />
lui r apropiată de +1 indică o corelaţie pozitivă<br />
puternică, adică tendinţa de creştere semnificativă a<br />
unei variabile atunci când şi cealaltă variabilă creşte.<br />
Să notăm că există cazuri în care variabile<br />
dependente au coeficientul de corelaţie nul.
Visually Evaluating Correlation<br />
Scatter plots<br />
showing the<br />
similarity from –<br />
1 to 1.
Background<br />
• Coeficientul de corelaţie poate fi calculat pentru<br />
orice set de date, dar, pentru ca el să aibă<br />
relevanţă statistică, trebuie îndeplinite două<br />
condiţii majore:<br />
– (a) cele două variabile să fie definite de acelaşi lot<br />
de obiecte, cuplurile de date corespunzând<br />
aceluiaşi obiect;<br />
– (b) cel puţin una din variabile să aibă o repartiţie<br />
aproximativ normală, ideal fiind ca ambele să fie<br />
normal repartizate.
Background<br />
• Presupunând că legătura dintre cele două<br />
variabile X şi Y, reliefată de coeficientul de<br />
corelaţie r, nu este întâmplătoare, există trei<br />
posibile explicaţii:<br />
• Variabila X influenţează (cauzează) variabila<br />
Y;<br />
• Variabila Y influenţează variabila X;<br />
• Ambele variabile X şi Y sunt influenţate de<br />
acelaşi fenomen din fundal.
<strong>Regresia</strong> <strong>liniara</strong><br />
• Pasul următor în analiza legăturii dintre două<br />
variabile statistice, atunci când acestea sunt<br />
corelate, este să se stabilească concret natura<br />
legăturii liniare dintre ele, descriind-o printr-o<br />
ecuaţie matematică.<br />
• Scopul final al acestei abordări este prognoza<br />
valorilor uneia dintre variabile pe baza valorilor<br />
celeilalte, prognoză efectuată pe baza ecuaţiei<br />
ce descrie legătura dintre cele două seturi de<br />
date.
<strong>Regresia</strong> <strong>liniara</strong><br />
• Modul de prezentare a legăturii liniare dintre două<br />
variabile, atunci când aceasta există, se numeşte<br />
metoda regresiei liniare (linear regression).<br />
• Pentru aceasta se consideră una dintre variabile ca<br />
variabilă independentă sau variabilă predictor, iar<br />
cealaltă variabilă ca variabilă dependentă sau<br />
variabilă răspuns (outcome).<br />
• Legătura liniară dintre cele două variabile este<br />
descrisă de o ecuaţie liniară, ecuaţia de regresie<br />
(regression equation) căreia îi corespunde geometric<br />
dreapta de regresie (regression line).
<strong>Regresia</strong> <strong>liniara</strong><br />
• Ca metodologie, variabila dependentă se<br />
distribuie pe axa ordonatelor, în timp ce<br />
variabila independentă se distribuie pe axa<br />
absciselor. Ecuaţia dreptei de regresie se<br />
stabileşte pe baza metodei “celor mai mici<br />
pătrate” (least squares method) care, intuitiv,<br />
minimizează distanţa între punctele<br />
reprezentate de perechile de date/observed<br />
values şi punctele corespunzătoare de pe<br />
dreaptă/fitted values (obţinute pe verticalele<br />
corespunzătoare). Aceasta distanţă se numeşte<br />
reziduu (residual).
<strong>Regresia</strong> <strong>liniara</strong><br />
• În final, obţinem ecuaţia de regresie sub forma:<br />
Y = a + bX,<br />
unde a se numeşte interceptor iar b coeficient<br />
de regresie, cei doi parametri fiind obţinuţi cu<br />
ajutorul formulelor:<br />
b<br />
<br />
n<br />
<br />
i1<br />
( x x)( y y)<br />
n<br />
<br />
i1<br />
i i<br />
( x x)<br />
i<br />
2<br />
a y bx
Exemplu<br />
• Să considerăm datele culese de la un lot de 24<br />
de pacienţi având diabet de tip I, privind<br />
următoarele două variabile:<br />
– glucoza (G) în sânge pe stomacul gol<br />
(mmol/l);<br />
– viteza medie de contracţie Vcf (%/sec) a<br />
ventriculului stâng, obţinută prin ecocardiografie.
Pacient G Vcf Pacient G Vcf<br />
1 15,3 1,76 13 19,0 1,95<br />
2 10,8 1,34 14 15,1 1,28<br />
3 8,1 1,27 15 6,7 1,52<br />
4 19,5 1,47 16* 8,6 ?<br />
5 7,2 1,27 17 4,2 1,12<br />
6 5,3 1,49 18 10,3 1,37<br />
7 9,3 1,31 19 12,5 1,19<br />
8 11,1 1,09 20 16,1 1,05<br />
9 7,5 1,18 21 13,3 1,32<br />
10 12,2 1,22 22 4,9 1,03<br />
11 6,7 1,25 23 8,8 1,12<br />
12 5,2 1,19 24 9,5 1,70
Exemplu<br />
• Tabelul de mai jos prezintă principalele<br />
caracteristici numerice ale regresiei liniare aplicate<br />
în acest caz.
Exemplu<br />
• Aşa după cum se observă, în ciuda faptului că<br />
valoarea coeficientului de corelaţie r nu pare<br />
prea importantă, totuşi nivelul de semnificaţie<br />
p = 0,041 atestă o corelaţie semnificativă.<br />
Ecuaţia de regresie liniară este dată de:<br />
Vcf = 1,10 + 0.02G ,<br />
de unde deducem că valoarea estimată<br />
(prognozată pe baza regresiei liniare) a<br />
variabilei Vcf pentru pacientul No. 16 este de<br />
1,27%.
<strong>Regresia</strong> <strong>liniara</strong> multipla<br />
• Spre deosebire de cazul regresiei liniare<br />
simple, în care am încercat sa exprimam o<br />
variabila (dependenta) în funcţie de o alta<br />
variabila (independenta, explicativa, predictor),<br />
acum ne punem problema situatiei în care<br />
avem de-a face cu cel puţin trei variabile, dintre<br />
care una este dependenta iar celelalte sunt<br />
independente, predictoare.
<strong>Regresia</strong> <strong>liniara</strong> multipla<br />
• Vom prezenta, astfel, un model de regresie<br />
liniară multiplă în care variabila dependenta<br />
este exprimata ca o combinatie liniară de<br />
variabile independente sau variabile predictor/<br />
covariate.<br />
• Matematic vorbind, acest fapt se exprima prin<br />
ecuaţia de regresie multiplă:<br />
Y = a + b 1 X 1 + b 2 X 2 +…+ b k X k,<br />
unde Y reprezinta variabila dependenta iar<br />
variabilele X 1,…, X k sunt variabilele explicative,<br />
predictoare. Constantele b 1,…, b k reprezintă<br />
coeficientii de regresie, iar a este constanta de<br />
regresie sau interceptorul.
<strong>Regresia</strong> <strong>liniara</strong> multipla<br />
• Atunci când ştim dinainte care variabile vor fi<br />
incluse în analiza regresivă multiplă, modelul se<br />
poate construi fără dificultate, singura problemă<br />
rămânând identificarea concretă a ecuaţiei de<br />
regresie.<br />
• Dacă scopul propus este şi stabilirea importanţei<br />
predictorilor, atunci va trebui să alegem dintre<br />
toate variabilele modelului pe cele esenţiale,<br />
pentru obţinerea unui model clar şi simplu.<br />
• În acest caz va trebui să facem apel la nivelul p de<br />
semnificaţie statistică a corelatiei fiecărei variabile<br />
predictoare cu variabila dependenta pentru a<br />
decide ierarhia importanţei lor.
<strong>Regresia</strong> <strong>liniara</strong> multipla<br />
• In cazul în care nu cunoaştem dinainte care<br />
variabile predictive trebuie introduse în model,<br />
vom indica pe scurt cei doi algoritmi principali<br />
utilizaţi standard:<br />
– (1) regresia pas cu pas anterioară (forward<br />
stepwise regression);<br />
– (2) regresia pas cu pas posterioară<br />
(backward stepwise regression).
<strong>Regresia</strong> <strong>liniara</strong> multipla<br />
Algoritm pentru regresia pas cu pas anterioară.<br />
• (a) Se identifică variabila cu cel mai mare impact<br />
asupra variabilei dependente, i.e. variabila cea mai<br />
corelată cu variabila dependentă şi se introduce în<br />
model (cel mai mic nivel de semnificatie p);<br />
• (b) Se găseşte variabila din cele rămase care are cea<br />
mai mare corelaţie (ignorând semnul) cu reziduurile<br />
modelului de mai sus;<br />
• (c) Se repetă pasul (b) până când se ajunge la nivelul<br />
de semnificaţie p = 0.05, corespunzător variabilei<br />
curente introdusă în model.<br />
• Când nivelul de semnificaţie p depăşeşte valoarea de<br />
0.05 se opreşte procesul de introducere a predictorilor<br />
în model (condiţia de stop).
<strong>Regresia</strong> <strong>liniara</strong> multipla<br />
• În ceea ce priveşte algoritmul pentru cealaltă<br />
metodă (regresia pas cu pas posterioară), vom<br />
aborda problema din direcţia opusă, adică:<br />
– (a) Luăm în consideraţie iniţial toate variabilele şi le<br />
excludem pas cu pas pe cele care au semnificaţia<br />
cea mai mică (cel mai mare nivel de semnificatie p).<br />
Aici modelul iniţial include toate variabilele,<br />
considerând că, cel puţin teoretic, toate variabilele<br />
pot fi importante.<br />
– (b) Se exclude apoi variabila cu cea mai mică<br />
influenţă asupra modelului, adică cu cel mai mare<br />
nivel de semnificaţie p privind corelaţia. Nivelul p de<br />
stop este tot 0.0<strong>5.</strong>
<strong>Regresia</strong> <strong>liniara</strong> multipla<br />
Websites<br />
• http://www.wessa.net/rwasp_multipleregres<br />
sion.wasp<br />
• http://www.jowerner.homepage.tonline.de/download.htm<br />
• http://www.rocketdownload.com/program/m<br />
ultiple-regression-forecasting-930.html
<strong>Regresia</strong> logistică<br />
• Sunt multe domenii de cercetare din: medicină,<br />
economie, fizică, meteorologie, astronomie,<br />
biologie etc., în care variabila dependenta nu<br />
mai este o variabilă continuă ci una binară,<br />
categorială.<br />
• În acest caz, când variabila dependenta se<br />
refera la două valori (categorii), nu mai este de<br />
folos regresia multiplă, ci se utilizează o<br />
abordare similară -regresia logistica.<br />
• În acest caz, în loc sa se prognozeze valoarea<br />
variabilei dependente în raport cu valorile<br />
variabilelor explicative, se va prognoza o<br />
transformare a variabilei dependente.
<strong>Regresia</strong> logistică<br />
• Transformare se numeşte transformarea logit,<br />
desemnată ca logit (p), unde p este proporţia<br />
de obiecte cu o anumita caracteristica (p<br />
reprezinta probabilitatea ca un individ sa aibă<br />
infarct miocardic, sau p reprezintă<br />
probabilitatea ca un client să rămână fidel unui<br />
anumit supermarket sau produs).<br />
• Formula dupa care se calculează logit (p) este:<br />
p <br />
logit (p) = ln <br />
1p
<strong>Regresia</strong> logistică<br />
• Atunci când utilizăm metoda regresiei<br />
logistice, la sfârşitul calculelor vom obţine<br />
valoarea logit (p) = sub forma unei<br />
combinatii liniare a variabilelor explicative.<br />
În aceste condiţii, putem calcula valoarea<br />
efectiva a probabilităţii p, utilizând formula:<br />
p = e / (1 + e ).
Exemplu<br />
• Scopul studiului este reprezentat de stabilirea<br />
influenţei fumatului, obezităţii si sforăitului asupra<br />
hipertensiunii arteriale, în sensul prognozei apariţiei<br />
acesteia pe baza variabilelor explicative mai sus<br />
amintite, privite ca factori de risc pentru această<br />
maladie. Utilizând metoda regresiei logistice, obţinem<br />
ecuaţia:<br />
logit (p) = -2,378 – 0,068 x fumat + 0,695 x obezitate<br />
+ 0,872 x sforăit,<br />
ecuaţie din care putem obţine probabilitatea ca un<br />
subiect sa dezvolte hipertensiune arterială, pe baza<br />
valorilor individuale ale celor trei variabile explicative –<br />
factori de risc pentru hipertensiune – codate astfel:<br />
0 = nefumător, 1 = fumator; 0 = ponderal,<br />
1 = supraponderal; 0 = nu sforaie, 1 = sforaie.
<strong>Regresia</strong> <strong>liniara</strong> logistica<br />
Websites<br />
• http://www.dtreg.com/logistic.htm<br />
• http://www.statsdirect.co.uk/help/regressio<br />
n_and_correlation/logi.htm<br />
• http://en.wikipedia.org/wiki/Logistic_re<br />
gression