5. Regresia liniara

Cursul Nr. 14 

Regresia liniara

Background 

• O mare parte a analizelor statistice uzuale se 

ocupă cu analiza relaţiei între două variabile 

statistice (atribute) ce corespund aceluiaşi grup 

de obiecte/instanţe. 

• Pentru a o identifica, se studiază relaţia dintre 

cele două caracteristici/atribute măsurate pe 

obiectele dintr-un anumit set. 

• Cu alte cuvinte, este vorba de două serii 

statistice în care cuplurile de valori (x i, y i), 

corespunzând cuplului de variabile statistice 

(X, Y) sunt măsurate pe acelaşi obiect.

Background 

• Există două mari motive pentru care se 

efectuează un asemenea studiu: 

– Descrierea relaţiei care ar putea exista între cele 

două variabile, analizând legătura între cele 

două serii de observaţii. Concret, se analizează 

dacă tendinţa ascendentă a uneia implică o 

tendinţă ascendentă, descendentă sau nici o 

tendinţă a celeilalte; 

– În ipoteza existenţei unei legături reale între ele, 

identificată în prima instanţă, să se poată 

prognostica valorile uneia în raport cu valorile 

celeilalte pe baza ecuaţiei de regresie.

Background 

• Scopul final este prognoza, în condiţia că 

este posibilă, cele două variabile fiind întradevăr 

corelate. 

• Metoda prin care analizăm posibilele 

asociaţii între valorile a două variabile 

statistice, prelevate de la acelaşi grup de 

obiecte, este cunoscută ca metoda 

corelaţiei şi are ca indice coeficientul de 

corelaţie (Pearson’s r).

Background 

• Fie două serii statistice {x i} i = 1,...,n şi {y i} i = 1,...,n, 

corespunzătoare cuplului de variabile statistice 

X şi Y. Atunci, coeficientul de corelaţie r 

(Pearson’s r) al celor două variabile este un 

număr real cuprins între –1 şi 1, definit de 

formula:

Background 

• Interpretarea corelaţiei dintre două variabile statistice: 

coeficientul de corelaţie r ia valori cuprinse între –1 şi 

+1, trecând şi prin 0, care indică o neasociere între 

cele două variabile (independenţă). O valoare a lui r 

apropiată de –1 indică o corelaţie negativă puternică, 

adică tendinţa unei variabile de a scădea semnificativ 

când cealaltă variabilă creşte, în timp ce o valoare a 

lui r apropiată de +1 indică o corelaţie pozitivă 

puternică, adică tendinţa de creştere semnificativă a 

unei variabile atunci când şi cealaltă variabilă creşte. 

Să notăm că există cazuri în care variabile 

dependente au coeficientul de corelaţie nul.

Visually Evaluating Correlation 

Scatter plots 

showing the 

similarity from – 

1 to 1.

Background 

• Coeficientul de corelaţie poate fi calculat pentru 

orice set de date, dar, pentru ca el să aibă 

relevanţă statistică, trebuie îndeplinite două 

condiţii majore: 

– (a) cele două variabile să fie definite de acelaşi lot 

de obiecte, cuplurile de date corespunzând 

aceluiaşi obiect; 

– (b) cel puţin una din variabile să aibă o repartiţie 

aproximativ normală, ideal fiind ca ambele să fie 

normal repartizate.

Background 

• Presupunând că legătura dintre cele două 

variabile X şi Y, reliefată de coeficientul de 

corelaţie r, nu este întâmplătoare, există trei 

posibile explicaţii: 

• Variabila X influenţează (cauzează) variabila 

Y; 

• Variabila Y influenţează variabila X; 

• Ambele variabile X şi Y sunt influenţate de 

acelaşi fenomen din fundal.

Regresia liniara 

• Pasul următor în analiza legăturii dintre două 

variabile statistice, atunci când acestea sunt 

corelate, este să se stabilească concret natura 

legăturii liniare dintre ele, descriind-o printr-o 

ecuaţie matematică. 

• Scopul final al acestei abordări este prognoza 

valorilor uneia dintre variabile pe baza valorilor 

celeilalte, prognoză efectuată pe baza ecuaţiei 

ce descrie legătura dintre cele două seturi de 

date.


• Modul de prezentare a legăturii liniare dintre două 

variabile, atunci când aceasta există, se numeşte 

metoda regresiei liniare (linear regression). 

• Pentru aceasta se consideră una dintre variabile ca 

variabilă independentă sau variabilă predictor, iar 

cealaltă variabilă ca variabilă dependentă sau 

variabilă răspuns (outcome). 

• Legătura liniară dintre cele două variabile este 

descrisă de o ecuaţie liniară, ecuaţia de regresie 

(regression equation) căreia îi corespunde geometric 

dreapta de regresie (regression line).


• Ca metodologie, variabila dependentă se 

distribuie pe axa ordonatelor, în timp ce 

variabila independentă se distribuie pe axa 

absciselor. Ecuaţia dreptei de regresie se 

stabileşte pe baza metodei “celor mai mici 

pătrate” (least squares method) care, intuitiv, 

minimizează distanţa între punctele 

reprezentate de perechile de date/observed 

values şi punctele corespunzătoare de pe 

dreaptă/fitted values (obţinute pe verticalele 

corespunzătoare). Aceasta distanţă se numeşte 

reziduu (residual).


• În final, obţinem ecuaţia de regresie sub forma: 

Y = a + bX, 

unde a se numeşte interceptor iar b coeficient 

de regresie, cei doi parametri fiind obţinuţi cu 

ajutorul formulelor: 

b 

 

n 

 

i1 

( x x)( y y) 

n 

 

i1 

i i 

( x x) 

i 

2 

a y bx

Exemplu 

• Să considerăm datele culese de la un lot de 24 

de pacienţi având diabet de tip I, privind 

următoarele două variabile: 

– glucoza (G) în sânge pe stomacul gol 

(mmol/l); 

– viteza medie de contracţie Vcf (%/sec) a 

ventriculului stâng, obţinută prin ecocardiografie.

Pacient G Vcf Pacient G Vcf 

1 15,3 1,76 13 19,0 1,95 

2 10,8 1,34 14 15,1 1,28 

3 8,1 1,27 15 6,7 1,52 

4 19,5 1,47 16* 8,6 ? 

5 7,2 1,27 17 4,2 1,12 

6 5,3 1,49 18 10,3 1,37 

7 9,3 1,31 19 12,5 1,19 

8 11,1 1,09 20 16,1 1,05 

9 7,5 1,18 21 13,3 1,32 

10 12,2 1,22 22 4,9 1,03 

11 6,7 1,25 23 8,8 1,12 

12 5,2 1,19 24 9,5 1,70

Exemplu 

• Tabelul de mai jos prezintă principalele 

caracteristici numerice ale regresiei liniare aplicate 

în acest caz.

Exemplu 

• Aşa după cum se observă, în ciuda faptului că 

valoarea coeficientului de corelaţie r nu pare 

prea importantă, totuşi nivelul de semnificaţie 

p = 0,041 atestă o corelaţie semnificativă. 

Ecuaţia de regresie liniară este dată de: 

Vcf = 1,10 + 0.02G , 

de unde deducem că valoarea estimată 

(prognozată pe baza regresiei liniare) a 

variabilei Vcf pentru pacientul No. 16 este de 

1,27%.

Regresia liniara multipla 

• Spre deosebire de cazul regresiei liniare 

simple, în care am încercat sa exprimam o 

variabila (dependenta) în funcţie de o alta 

variabila (independenta, explicativa, predictor), 

acum ne punem problema situatiei în care 

avem de-a face cu cel puţin trei variabile, dintre 

care una este dependenta iar celelalte sunt 

independente, predictoare.


• Vom prezenta, astfel, un model de regresie 

liniară multiplă în care variabila dependenta 

este exprimata ca o combinatie liniară de 

variabile independente sau variabile predictor/ 

covariate. 

• Matematic vorbind, acest fapt se exprima prin 

ecuaţia de regresie multiplă: 

Y = a + b 1 X 1 + b 2 X 2 +…+ b k X k, 

unde Y reprezinta variabila dependenta iar 

variabilele X 1,…, X k sunt variabilele explicative, 

predictoare. Constantele b 1,…, b k reprezintă 

coeficientii de regresie, iar a este constanta de 

regresie sau interceptorul.


• Atunci când ştim dinainte care variabile vor fi 

incluse în analiza regresivă multiplă, modelul se 

poate construi fără dificultate, singura problemă 

rămânând identificarea concretă a ecuaţiei de 

regresie. 

• Dacă scopul propus este şi stabilirea importanţei 

predictorilor, atunci va trebui să alegem dintre 

toate variabilele modelului pe cele esenţiale, 

pentru obţinerea unui model clar şi simplu. 

• În acest caz va trebui să facem apel la nivelul p de 

semnificaţie statistică a corelatiei fiecărei variabile 

predictoare cu variabila dependenta pentru a 

decide ierarhia importanţei lor.


• In cazul în care nu cunoaştem dinainte care 

variabile predictive trebuie introduse în model, 

vom indica pe scurt cei doi algoritmi principali 

utilizaţi standard: 

– (1) regresia pas cu pas anterioară (forward 

stepwise regression); 

– (2) regresia pas cu pas posterioară 

(backward stepwise regression).


Algoritm pentru regresia pas cu pas anterioară. 

• (a) Se identifică variabila cu cel mai mare impact 

asupra variabilei dependente, i.e. variabila cea mai 

corelată cu variabila dependentă şi se introduce în 

model (cel mai mic nivel de semnificatie p); 

• (b) Se găseşte variabila din cele rămase care are cea 

mai mare corelaţie (ignorând semnul) cu reziduurile 

modelului de mai sus; 

• (c) Se repetă pasul (b) până când se ajunge la nivelul 

de semnificaţie p = 0.05, corespunzător variabilei 

curente introdusă în model. 

• Când nivelul de semnificaţie p depăşeşte valoarea de 

0.05 se opreşte procesul de introducere a predictorilor 

în model (condiţia de stop).


• În ceea ce priveşte algoritmul pentru cealaltă 

metodă (regresia pas cu pas posterioară), vom 

aborda problema din direcţia opusă, adică: 

– (a) Luăm în consideraţie iniţial toate variabilele şi le 

excludem pas cu pas pe cele care au semnificaţia 

cea mai mică (cel mai mare nivel de semnificatie p). 

Aici modelul iniţial include toate variabilele, 

considerând că, cel puţin teoretic, toate variabilele 

pot fi importante. 

– (b) Se exclude apoi variabila cu cea mai mică 

influenţă asupra modelului, adică cu cel mai mare 

nivel de semnificaţie p privind corelaţia. Nivelul p de 

stop este tot 0.05.


Websites 

• http://www.wessa.net/rwasp_multipleregres 

sion.wasp 

• http://www.jowerner.homepage.tonline.de/download.htm 

• http://www.rocketdownload.com/program/m 

ultiple-regression-forecasting-930.html

Regresia logistică 

• Sunt multe domenii de cercetare din: medicină, 

economie, fizică, meteorologie, astronomie, 

biologie etc., în care variabila dependenta nu 

mai este o variabilă continuă ci una binară, 

categorială. 

• În acest caz, când variabila dependenta se 

refera la două valori (categorii), nu mai este de 

folos regresia multiplă, ci se utilizează o 

abordare similară -regresia logistica. 

• În acest caz, în loc sa se prognozeze valoarea 

variabilei dependente în raport cu valorile 

variabilelor explicative, se va prognoza o 

transformare a variabilei dependente.


• Transformare se numeşte transformarea logit, 

desemnată ca logit (p), unde p este proporţia 

de obiecte cu o anumita caracteristica (p 

reprezinta probabilitatea ca un individ sa aibă 

infarct miocardic, sau p reprezintă 

probabilitatea ca un client să rămână fidel unui 

anumit supermarket sau produs). 

• Formula dupa care se calculează logit (p) este: 

p 

logit (p) = ln 

1p


• Atunci când utilizăm metoda regresiei 

logistice, la sfârşitul calculelor vom obţine 

valoarea logit (p) = sub forma unei 

combinatii liniare a variabilelor explicative. 

În aceste condiţii, putem calcula valoarea 

efectiva a probabilităţii p, utilizând formula: 

p = e / (1 + e ).

Exemplu 

• Scopul studiului este reprezentat de stabilirea 

influenţei fumatului, obezităţii si sforăitului asupra 

hipertensiunii arteriale, în sensul prognozei apariţiei 

acesteia pe baza variabilelor explicative mai sus 

amintite, privite ca factori de risc pentru această 

maladie. Utilizând metoda regresiei logistice, obţinem 

ecuaţia: 

logit (p) = -2,378 – 0,068 x fumat + 0,695 x obezitate 

+ 0,872 x sforăit, 

ecuaţie din care putem obţine probabilitatea ca un 

subiect sa dezvolte hipertensiune arterială, pe baza 

valorilor individuale ale celor trei variabile explicative – 

factori de risc pentru hipertensiune – codate astfel: 

0 = nefumător, 1 = fumator; 0 = ponderal, 

1 = supraponderal; 0 = nu sforaie, 1 = sforaie.

Regresia liniara logistica 

Websites 

• http://www.dtreg.com/logistic.htm 

• http://www.statsdirect.co.uk/help/regressio 

n_and_correlation/logi.htm 

• http://en.wikipedia.org/wiki/Logistic_re 

gression

5. Regresia liniara

Create successful ePaper yourself

Delete template?

Save as template?