15.04.2013 Views

5. Regresia liniara

5. Regresia liniara

5. Regresia liniara

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Cursul Nr. 14<br />

<strong>Regresia</strong> <strong>liniara</strong>


Background<br />

• O mare parte a analizelor statistice uzuale se<br />

ocupă cu analiza relaţiei între două variabile<br />

statistice (atribute) ce corespund aceluiaşi grup<br />

de obiecte/instanţe.<br />

• Pentru a o identifica, se studiază relaţia dintre<br />

cele două caracteristici/atribute măsurate pe<br />

obiectele dintr-un anumit set.<br />

• Cu alte cuvinte, este vorba de două serii<br />

statistice în care cuplurile de valori (x i, y i),<br />

corespunzând cuplului de variabile statistice<br />

(X, Y) sunt măsurate pe acelaşi obiect.


Background<br />

• Există două mari motive pentru care se<br />

efectuează un asemenea studiu:<br />

– Descrierea relaţiei care ar putea exista între cele<br />

două variabile, analizând legătura între cele<br />

două serii de observaţii. Concret, se analizează<br />

dacă tendinţa ascendentă a uneia implică o<br />

tendinţă ascendentă, descendentă sau nici o<br />

tendinţă a celeilalte;<br />

– În ipoteza existenţei unei legături reale între ele,<br />

identificată în prima instanţă, să se poată<br />

prognostica valorile uneia în raport cu valorile<br />

celeilalte pe baza ecuaţiei de regresie.


Background<br />

• Scopul final este prognoza, în condiţia că<br />

este posibilă, cele două variabile fiind întradevăr<br />

corelate.<br />

• Metoda prin care analizăm posibilele<br />

asociaţii între valorile a două variabile<br />

statistice, prelevate de la acelaşi grup de<br />

obiecte, este cunoscută ca metoda<br />

corelaţiei şi are ca indice coeficientul de<br />

corelaţie (Pearson’s r).


Background<br />

• Fie două serii statistice {x i} i = 1,...,n şi {y i} i = 1,...,n,<br />

corespunzătoare cuplului de variabile statistice<br />

X şi Y. Atunci, coeficientul de corelaţie r<br />

(Pearson’s r) al celor două variabile este un<br />

număr real cuprins între –1 şi 1, definit de<br />

formula:


Background<br />

• Interpretarea corelaţiei dintre două variabile statistice:<br />

coeficientul de corelaţie r ia valori cuprinse între –1 şi<br />

+1, trecând şi prin 0, care indică o neasociere între<br />

cele două variabile (independenţă). O valoare a lui r<br />

apropiată de –1 indică o corelaţie negativă puternică,<br />

adică tendinţa unei variabile de a scădea semnificativ<br />

când cealaltă variabilă creşte, în timp ce o valoare a<br />

lui r apropiată de +1 indică o corelaţie pozitivă<br />

puternică, adică tendinţa de creştere semnificativă a<br />

unei variabile atunci când şi cealaltă variabilă creşte.<br />

Să notăm că există cazuri în care variabile<br />

dependente au coeficientul de corelaţie nul.


Visually Evaluating Correlation<br />

Scatter plots<br />

showing the<br />

similarity from –<br />

1 to 1.


Background<br />

• Coeficientul de corelaţie poate fi calculat pentru<br />

orice set de date, dar, pentru ca el să aibă<br />

relevanţă statistică, trebuie îndeplinite două<br />

condiţii majore:<br />

– (a) cele două variabile să fie definite de acelaşi lot<br />

de obiecte, cuplurile de date corespunzând<br />

aceluiaşi obiect;<br />

– (b) cel puţin una din variabile să aibă o repartiţie<br />

aproximativ normală, ideal fiind ca ambele să fie<br />

normal repartizate.


Background<br />

• Presupunând că legătura dintre cele două<br />

variabile X şi Y, reliefată de coeficientul de<br />

corelaţie r, nu este întâmplătoare, există trei<br />

posibile explicaţii:<br />

• Variabila X influenţează (cauzează) variabila<br />

Y;<br />

• Variabila Y influenţează variabila X;<br />

• Ambele variabile X şi Y sunt influenţate de<br />

acelaşi fenomen din fundal.


<strong>Regresia</strong> <strong>liniara</strong><br />

• Pasul următor în analiza legăturii dintre două<br />

variabile statistice, atunci când acestea sunt<br />

corelate, este să se stabilească concret natura<br />

legăturii liniare dintre ele, descriind-o printr-o<br />

ecuaţie matematică.<br />

• Scopul final al acestei abordări este prognoza<br />

valorilor uneia dintre variabile pe baza valorilor<br />

celeilalte, prognoză efectuată pe baza ecuaţiei<br />

ce descrie legătura dintre cele două seturi de<br />

date.


<strong>Regresia</strong> <strong>liniara</strong><br />

• Modul de prezentare a legăturii liniare dintre două<br />

variabile, atunci când aceasta există, se numeşte<br />

metoda regresiei liniare (linear regression).<br />

• Pentru aceasta se consideră una dintre variabile ca<br />

variabilă independentă sau variabilă predictor, iar<br />

cealaltă variabilă ca variabilă dependentă sau<br />

variabilă răspuns (outcome).<br />

• Legătura liniară dintre cele două variabile este<br />

descrisă de o ecuaţie liniară, ecuaţia de regresie<br />

(regression equation) căreia îi corespunde geometric<br />

dreapta de regresie (regression line).


<strong>Regresia</strong> <strong>liniara</strong><br />

• Ca metodologie, variabila dependentă se<br />

distribuie pe axa ordonatelor, în timp ce<br />

variabila independentă se distribuie pe axa<br />

absciselor. Ecuaţia dreptei de regresie se<br />

stabileşte pe baza metodei “celor mai mici<br />

pătrate” (least squares method) care, intuitiv,<br />

minimizează distanţa între punctele<br />

reprezentate de perechile de date/observed<br />

values şi punctele corespunzătoare de pe<br />

dreaptă/fitted values (obţinute pe verticalele<br />

corespunzătoare). Aceasta distanţă se numeşte<br />

reziduu (residual).


<strong>Regresia</strong> <strong>liniara</strong><br />

• În final, obţinem ecuaţia de regresie sub forma:<br />

Y = a + bX,<br />

unde a se numeşte interceptor iar b coeficient<br />

de regresie, cei doi parametri fiind obţinuţi cu<br />

ajutorul formulelor:<br />

b<br />

<br />

n<br />

<br />

i1<br />

( x x)( y y)<br />

n<br />

<br />

i1<br />

i i<br />

( x x)<br />

i<br />

2<br />

a y bx


Exemplu<br />

• Să considerăm datele culese de la un lot de 24<br />

de pacienţi având diabet de tip I, privind<br />

următoarele două variabile:<br />

– glucoza (G) în sânge pe stomacul gol<br />

(mmol/l);<br />

– viteza medie de contracţie Vcf (%/sec) a<br />

ventriculului stâng, obţinută prin ecocardiografie.


Pacient G Vcf Pacient G Vcf<br />

1 15,3 1,76 13 19,0 1,95<br />

2 10,8 1,34 14 15,1 1,28<br />

3 8,1 1,27 15 6,7 1,52<br />

4 19,5 1,47 16* 8,6 ?<br />

5 7,2 1,27 17 4,2 1,12<br />

6 5,3 1,49 18 10,3 1,37<br />

7 9,3 1,31 19 12,5 1,19<br />

8 11,1 1,09 20 16,1 1,05<br />

9 7,5 1,18 21 13,3 1,32<br />

10 12,2 1,22 22 4,9 1,03<br />

11 6,7 1,25 23 8,8 1,12<br />

12 5,2 1,19 24 9,5 1,70


Exemplu<br />

• Tabelul de mai jos prezintă principalele<br />

caracteristici numerice ale regresiei liniare aplicate<br />

în acest caz.


Exemplu<br />

• Aşa după cum se observă, în ciuda faptului că<br />

valoarea coeficientului de corelaţie r nu pare<br />

prea importantă, totuşi nivelul de semnificaţie<br />

p = 0,041 atestă o corelaţie semnificativă.<br />

Ecuaţia de regresie liniară este dată de:<br />

Vcf = 1,10 + 0.02G ,<br />

de unde deducem că valoarea estimată<br />

(prognozată pe baza regresiei liniare) a<br />

variabilei Vcf pentru pacientul No. 16 este de<br />

1,27%.


<strong>Regresia</strong> <strong>liniara</strong> multipla<br />

• Spre deosebire de cazul regresiei liniare<br />

simple, în care am încercat sa exprimam o<br />

variabila (dependenta) în funcţie de o alta<br />

variabila (independenta, explicativa, predictor),<br />

acum ne punem problema situatiei în care<br />

avem de-a face cu cel puţin trei variabile, dintre<br />

care una este dependenta iar celelalte sunt<br />

independente, predictoare.


<strong>Regresia</strong> <strong>liniara</strong> multipla<br />

• Vom prezenta, astfel, un model de regresie<br />

liniară multiplă în care variabila dependenta<br />

este exprimata ca o combinatie liniară de<br />

variabile independente sau variabile predictor/<br />

covariate.<br />

• Matematic vorbind, acest fapt se exprima prin<br />

ecuaţia de regresie multiplă:<br />

Y = a + b 1 X 1 + b 2 X 2 +…+ b k X k,<br />

unde Y reprezinta variabila dependenta iar<br />

variabilele X 1,…, X k sunt variabilele explicative,<br />

predictoare. Constantele b 1,…, b k reprezintă<br />

coeficientii de regresie, iar a este constanta de<br />

regresie sau interceptorul.


<strong>Regresia</strong> <strong>liniara</strong> multipla<br />

• Atunci când ştim dinainte care variabile vor fi<br />

incluse în analiza regresivă multiplă, modelul se<br />

poate construi fără dificultate, singura problemă<br />

rămânând identificarea concretă a ecuaţiei de<br />

regresie.<br />

• Dacă scopul propus este şi stabilirea importanţei<br />

predictorilor, atunci va trebui să alegem dintre<br />

toate variabilele modelului pe cele esenţiale,<br />

pentru obţinerea unui model clar şi simplu.<br />

• În acest caz va trebui să facem apel la nivelul p de<br />

semnificaţie statistică a corelatiei fiecărei variabile<br />

predictoare cu variabila dependenta pentru a<br />

decide ierarhia importanţei lor.


<strong>Regresia</strong> <strong>liniara</strong> multipla<br />

• In cazul în care nu cunoaştem dinainte care<br />

variabile predictive trebuie introduse în model,<br />

vom indica pe scurt cei doi algoritmi principali<br />

utilizaţi standard:<br />

– (1) regresia pas cu pas anterioară (forward<br />

stepwise regression);<br />

– (2) regresia pas cu pas posterioară<br />

(backward stepwise regression).


<strong>Regresia</strong> <strong>liniara</strong> multipla<br />

Algoritm pentru regresia pas cu pas anterioară.<br />

• (a) Se identifică variabila cu cel mai mare impact<br />

asupra variabilei dependente, i.e. variabila cea mai<br />

corelată cu variabila dependentă şi se introduce în<br />

model (cel mai mic nivel de semnificatie p);<br />

• (b) Se găseşte variabila din cele rămase care are cea<br />

mai mare corelaţie (ignorând semnul) cu reziduurile<br />

modelului de mai sus;<br />

• (c) Se repetă pasul (b) până când se ajunge la nivelul<br />

de semnificaţie p = 0.05, corespunzător variabilei<br />

curente introdusă în model.<br />

• Când nivelul de semnificaţie p depăşeşte valoarea de<br />

0.05 se opreşte procesul de introducere a predictorilor<br />

în model (condiţia de stop).


<strong>Regresia</strong> <strong>liniara</strong> multipla<br />

• În ceea ce priveşte algoritmul pentru cealaltă<br />

metodă (regresia pas cu pas posterioară), vom<br />

aborda problema din direcţia opusă, adică:<br />

– (a) Luăm în consideraţie iniţial toate variabilele şi le<br />

excludem pas cu pas pe cele care au semnificaţia<br />

cea mai mică (cel mai mare nivel de semnificatie p).<br />

Aici modelul iniţial include toate variabilele,<br />

considerând că, cel puţin teoretic, toate variabilele<br />

pot fi importante.<br />

– (b) Se exclude apoi variabila cu cea mai mică<br />

influenţă asupra modelului, adică cu cel mai mare<br />

nivel de semnificaţie p privind corelaţia. Nivelul p de<br />

stop este tot 0.0<strong>5.</strong>


<strong>Regresia</strong> <strong>liniara</strong> multipla<br />

Websites<br />

• http://www.wessa.net/rwasp_multipleregres<br />

sion.wasp<br />

• http://www.jowerner.homepage.tonline.de/download.htm<br />

• http://www.rocketdownload.com/program/m<br />

ultiple-regression-forecasting-930.html


<strong>Regresia</strong> logistică<br />

• Sunt multe domenii de cercetare din: medicină,<br />

economie, fizică, meteorologie, astronomie,<br />

biologie etc., în care variabila dependenta nu<br />

mai este o variabilă continuă ci una binară,<br />

categorială.<br />

• În acest caz, când variabila dependenta se<br />

refera la două valori (categorii), nu mai este de<br />

folos regresia multiplă, ci se utilizează o<br />

abordare similară -regresia logistica.<br />

• În acest caz, în loc sa se prognozeze valoarea<br />

variabilei dependente în raport cu valorile<br />

variabilelor explicative, se va prognoza o<br />

transformare a variabilei dependente.


<strong>Regresia</strong> logistică<br />

• Transformare se numeşte transformarea logit,<br />

desemnată ca logit (p), unde p este proporţia<br />

de obiecte cu o anumita caracteristica (p<br />

reprezinta probabilitatea ca un individ sa aibă<br />

infarct miocardic, sau p reprezintă<br />

probabilitatea ca un client să rămână fidel unui<br />

anumit supermarket sau produs).<br />

• Formula dupa care se calculează logit (p) este:<br />

p <br />

logit (p) = ln <br />

1p


<strong>Regresia</strong> logistică<br />

• Atunci când utilizăm metoda regresiei<br />

logistice, la sfârşitul calculelor vom obţine<br />

valoarea logit (p) = sub forma unei<br />

combinatii liniare a variabilelor explicative.<br />

În aceste condiţii, putem calcula valoarea<br />

efectiva a probabilităţii p, utilizând formula:<br />

p = e / (1 + e ).


Exemplu<br />

• Scopul studiului este reprezentat de stabilirea<br />

influenţei fumatului, obezităţii si sforăitului asupra<br />

hipertensiunii arteriale, în sensul prognozei apariţiei<br />

acesteia pe baza variabilelor explicative mai sus<br />

amintite, privite ca factori de risc pentru această<br />

maladie. Utilizând metoda regresiei logistice, obţinem<br />

ecuaţia:<br />

logit (p) = -2,378 – 0,068 x fumat + 0,695 x obezitate<br />

+ 0,872 x sforăit,<br />

ecuaţie din care putem obţine probabilitatea ca un<br />

subiect sa dezvolte hipertensiune arterială, pe baza<br />

valorilor individuale ale celor trei variabile explicative –<br />

factori de risc pentru hipertensiune – codate astfel:<br />

0 = nefumător, 1 = fumator; 0 = ponderal,<br />

1 = supraponderal; 0 = nu sforaie, 1 = sforaie.


<strong>Regresia</strong> <strong>liniara</strong> logistica<br />

Websites<br />

• http://www.dtreg.com/logistic.htm<br />

• http://www.statsdirect.co.uk/help/regressio<br />

n_and_correlation/logi.htm<br />

• http://en.wikipedia.org/wiki/Logistic_re<br />

gression

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!