Regresní analýza

Regresní a korelační analýza

Závislost příčinná (kauzální). 

Závislostí pevnou se označuje případ, kdy výskytu jednoho jevu nutně 

odpovídá výskyt druhé jevu (a často i naopak). Z pravděpodobnostního 

hlediska jde o vztah, který se projeví s jistotou. Průběh závislosti (v určitém 

intervalu) lze přesně charakterizovat určitou matematickou funkcí. 

Volná závislost je závislost, při níž jeden jev podmiňuje jev jiný jen s 

určitou pravděpodobností a v různé intenzitě. Určité hodnotě jedné veličiny 

odpovídá celá řada různých hodnot druhé veličiny. U této závislosti lze 

charakterizovat teoretický průběh závislosti a její těsnost. 

Regresní analýza se zabývá jednostrannými závislostmi. Jedná se o situaci, kdy 

proti sobě stojí vysvětlující (nezávisle) proměnná v úloze „příčin“ a vysvětlovaná 

(závisle) proměnná v úloze „následků“. 

Korelační analýza se zabývá vzájemnými (většinou lineárními) závislostmi, kdy 

se klade důraz především na intenzitu (sílu) vzájemného vztahu než na zkoumání 

veličin ve směru příčina – následek.

Dvourozměrné rozdělení četnosti 

(x,y) = 0.0 

6 

4 

2 

y 

0 

-2 

-4 

-6 

-6 -4 -2 0 2 4 6 

x

Kontingenční (korelační) tabulka 

• Řádek korelační tabulky obsahuje rozdělení četností znaku Y za 

podmínky, že znak X nabyl určité konkrétní hodnoty (příp. hodnot určitého 

intervalu). - podmíněné rozdělení četností znaku Y. 

Součtový řádek – nepodmíněné rozdělení četností znaku Y. 

•Sloupec korelační tabulky obsahuje rozdělení četností znaku X za 

podmínky, že znak Y nabyl určité konkrétní hodnoty (hodnot z určitého 

intervalu), - podmíněné rozdělení četností znaku X. 

•Součtový sloupec – nepodmíněné rozdělení četností znaku X. 

Četnosti v součtovém řádku a součtovém sloupci nazýváme okrajovými 

(marginálními) četnostmi.

Příklad 1 

Při sledování tělesné výšky chlapců byl vysloven předpoklad, že výška dítěte je 

do značné míry ovlivněna výškou rodičů. Následné šetření bylo provedeno 

celkem u 45 chlapců a jejich otců. Z výsledků šetření byla sestavena korelační 

tabulka pro znaky „výška otce v cm (X)“ a „výška syna v cm (Y)“: 

Y 

170 – 174,9 175 – 179,9 180 – 184,9 185 – 189,9 

X 

190 a více n i. 

164 – 168,9 2 1 3 

169 – 173,9 2 2 3 1 8 

174 – 178,9 2 3 8 1 1 15 

179 – 183,9 3 6 9 

184 – 188,9 3 5 8 

189 a více 1 1 2 

n .j 6 6 11 14 8 45

Výška syna (cm) 

Příklad 1 

205 

200 

195 

190 

185 

180 

175 

170 

165 

160 

Bodový korelační graf pro znázornění závislosti mezi 

výškou otce a výškou syna 

160 165 170 175 180 185 190 195 

Výška otce (cm)

Postup při stanovení nejvhodnější funkce 

logické posouzení daného vztahu – které proměnné a funkce přicházejí v 

úvahu, využití zkušeností z podobných analýz apod. 

vytvoření bodového korelačního grafu (scatter plot) 

jako nejvhodnější zvolíme tu funkci, která má nejvyšší hodnotu 

koeficienty determinace, příp. lze využít dalších matematickostatistických 

kritérií (F test).


Lineární regrese 

Metoda nejmenších čtverců 

Parametry funkce hledáme tak, aby součet čtverců chyb e i byl minimální. 

Pro danou regresní funkci tento součet nazýváme reziduální součet čtverců. 

205 

200 

195 

190 

185 

180 

175 

170 

165 

160 

Bodový korelační ngraf pro n znázornění závislosti mezi 

2 

2 

Svýškou otce a výškou 

rez 

ei 

( yi 

yi 

) min. syna 

i1 

i1 

y 

a 

 

 

x , 

i 

y i 

x , 

 

i 

y i 

 

 

e i 

i 

bx i 

160 165 170 175 180 185 190 195

Lineární regrese y=b 1 x+b 0 

Z podmínky minimálnosti čtverců jsou vyvozeny normální rovnice, ze 

kterých se jejich řešením vypočtou neznámé parametry b 1 a b 0 . 

b 

1 

cov( xy , ) 

 

var( x) 

Výběrový lineární korelační koeficient 

S 

S 

xy 

xx 

b0 y b1 

x 

n 

1 

cov( x, y) 

xi 

x yi 

y 

n 1 

i1 

 

Root MeanSquareError: 

RMSE 

 

n 

 

i1 

Y 

2 

i 

Y 

i 

n

Reziduální a regresní součet čtverců 

Reziduální součet čtverců (MSE* n) 

Regresní součet čtverců odchylek predikcí od průměru 

S 

rez 

 

n 

 

i1 

S 

e 

reg 

2 

i 

n 

( y 

i1 

n 

( y 

i 

 

i1 

i 

y) 

i 

y) 

2 

2 

Celkový součet = součet čtverců odchylek dat od průměru 

S 

yy 

 

n 

( y 

i1 

i 

 

y) 

2 

Regresní identita 

Koeficient determinace 

R 

S 

2 

yy 

 

 

S 

S 

S 

reg 

yy 

reg 

S 

rez 

S 

1 

S 

rez 

yy 

Mean Squared Error = S rez /n 

Root Mean Squared Error 

RMSE 

S rez 

n


200 

Korelační pole pro závislost výšky syna na výšce otce 

195 

190 

185 

180 

175 

y = 0,573x + 80,178 

170 

165 

160 

160 165 170 175 180 185 190 195 200 205 

Výška otce (cm)

y 

Interval spolehlivosti pro predikci 

Pás spolehlivosti 

Lineární regrese y=2x 

y = 2,0072x + 2,3778 

R 2 = 0,6973 

10 

8 

6 

4 

2 

0 

-2 -2 -1 -1 0 1 1 2 2 

-2 

-4 

-6 

x

Lineární regrese v Matlabu 

10 

y=b(1)*x+b(2) 

9 

8 

7 

6 

5 

4 

3 

n=100; 

x=randn(n,1); y=2*x+randn(n,1)/2+3; % data 

scatter(x,y,50,'g','filled') 

[R,P]=corr(x,y); % lin. korelace, p-value, 

2 

1 

0 

0 0.5 1 1.5 2 2.5 3 3.5 4 

[b,bint,r,rint,stats]=regress(y,[x,ones(n,1)]); 

% stats: R^2, F statistics, p-value, 

refline(b) 

fprintf('R^2 %1.3g \n',stats(1)) 

fprintf('p-hodnota = %1.3g \n',stats(3)) %

Residuals 


rcoplot(r,rint) 

2 

Residual Case Order Plot 

1.5 

1 

0.5 

0 

-0.5 

-1 

-1.5 

-2 

10 20 30 40 50 60 70 80 90 100 

Case Number


polytool(x,y,1) 

8 

6 

4 

2 

0 

-2 

-4 

-2 -1.5 -1 -0.5 0 0.5 1 1.5

Robustní lineární regrese v Matlabu 

robustdemo(x,y); 

[b_r,stats_r]=robustfit(x,y) 

Use left mouse button to select and drag points 

Use right mouse button to query point properties 

8 

7 

6 

5 

4 

S 

rez 

 

n 

 

i1 

e 

2 

i 

( y 

i1 



n 

i 

y) 

i 

2 

yLeast 3 

squares 

Robust 

2 

1 

0 

-1 

-2 

-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 

x 

RMSE 

 

S rez 

n 

Least squares: 

Robust: 

Y = 2.95067 + 1.94112*X 

Y = 2.9483 + 1.94524*X 

RMS error = 0.520848 

RMS error = 0.534759

Nelineární regrese

Nelineární regrese 

Funkci hledám v předepsaném tvaru (exponenciální, polynomiální,…) 

parametry nalezneme metodou nejmenších čtverců 

Koeficient determinace R 2 – popisná míra vhodnosti použití regresní 

rovnice pro predikování. Hodnoty blízké nule naznačují, že zvolená 

funkce není vhodná. Naopak, hodnoty blízké 1 naznačují, že rovnice je 

velmi vhodná pro extrapolaci. 

Malá hodnota ale nemusí znamenat nízký stupeň závislosti mezi 

proměnnými, ale může signalizovat špatně zvolenou regresní funkci 

R 

 

N 

 

2 i1 

N 

 

i1 

 

 

y y 

y 

i 

i 

 

y 

 

 

2 

2 

R 

2 

 

S 

S 

reg 

yy 

S 

1 

S 

rez 

yy 



RMSE 

 

S rez 

n 

S 

rez 

 

n 

 

i1 

e 

2 

i 

 

n 

( y 

i1 

i 

 

y) 

i 

2

Korelace náhodných proměnných 

6 

(x,y) = 

0.0 

0.0 (x,y) = 0.7 

6 

(x,y) = 0.7 

4 

4 

2 

2 

y 

0 

y 

0 

-2 

-2 

-4 

-4 

-6 

-6 -4 -2 0 2 4 6 

-6 

-6 -4 -2 0 2 4 6 

x 

x 

N = 10000

Korelace náhodných proměnných 

(x,y) (x,y) = -0.7 = - (x,y) (x,y) = = 0.96 

6 

6 

4 

4 

2 

2 

y 

0 

y 

0 

-2 

-2 

-4 

-4 

-6 

-6 -4 -2 0 2 4 6 

-6 

-6 -4 -2 0 2 4 6 

x 

x 

N = 10000

Korelace náhodných proměnných

Nelineární regrese v Excelu 

Graf > přidat spojnici trendu 

koeficient spolehlivosti R 2 je 

koeficient determinace

Nelineární regrese v Excelu 

Graf > přidat spojnici trendu 

koeficient spolehlivosti R 2 je 

koeficient determinace 

2 

R 

S 

S 

reg 

yy

y 

Nelineární regrese v Matlabu 

10 

y=b(1)*x 2 +b(2)*x+b(3) 

9 

8 

7 

6 

5 

4 

3 

2 

1 

x=randn(100,1); 

y=x.^2 + 3 + randn(100,1)/2; 

scatter(x,y,50,'g','filled') 

b=polyfit(x,y,2); 

refcurve(b) 

0 

-3 -2 -1 0 1 2 3 

x


polytool(x,y,2) 

14 

12 

10 

8 

6 

4 

2 

0 

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5

y 


func=@(a,x)(a(1)*x.^2+a(2)*x+a(3)); 

9 

a0=[1;0;3]; 

ahat=nlinfit(x,y,func,a0); 

%graf 

xrange = min(x):.02:max(x); 

7 

hold on 

scatter(x,y) 

6 

plot(xrange,func(ahat,xrange),'m') 

hold off 

10 

8 

5 

nlinfit: @(a,x)(a(1)*x. 2 +a(2)*x+a(3)); 

4 

3 

2 

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3 

x


nlintool(x,y,func,a0) 

10 

9 

8 

7 

6 

5 

4 

3 

2 

-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Testy korelační analýzy 

Kontingenční tabulky umožňují testování různých statistických 

hypotéz: 

– hypotéza o nezávislosti znaků - oba znaky se vzájemně 

neovlivňují (výška rodičů nemá vliv na výšku dětí) 

– hypotéza o shodnosti struktury (homogenitě) - očekávané 

četnosti jsou v políčcích každého řádku ve stejném vzájemném 

poměru bez ohledu na konkrétní volbu řádku (rozložení výšky je 

stejné u otců i u synů) 

Klasický test nezávislosti nebo homogenity je založen na testu dobré 

shody, tedy porovnání očekávaných četností v jednotlivých políčcích 

tabulky za předpokladu, že hodnoty obou sledovaných znaků na sobě 

nezávisí, a skutečných četností

Chí-kvadrát test v Excelu 

H 0 – náhodné výběry pocházejí ze stejného rozdělené 

CHITEST(aktuální;očekávané) 

aktuální četnosti – získáné použitím funkce 

četnosti(data, hodnoty). 

očekávané jak by četnosti vypadaly pro teoretické rozdělení – sestejným 

počtem pozorování a stejnými hodnotami. 

funkce CHITEST vrací p-hodnotu. Pro p

Testování lineární regrese 

T test korelačního koeficientu (Pearsonův test) 

H 0 : data nejsou vhodná k lineární regresi 

t_test_reg.m 

F test poměru vysvětleného a nevysvětleného rozptylu 

H 0 : data nejsou vhodná k lineární regresi 

f_test_reg.m 

y 

 

kx 

q 

=LINREGRESE(pole_y;pole_x;PRAVDA;PRAVDA) 

=INTERCEPT(pole_y;pole_x) 

=SLOPE(pole_y;pole_x) 

absolutní člen q 

směrnice k

y 

Kvadratická regrese 

Koeficient determinace 

10 

9 

y = 1,9733x 2 - 0,0103x + 0,5794 

R 2 = 0,9898 

8 

7 

6 

5 

4 

3 

2 

1 

0 

-2 -2 -1 -1 0 1 1 2 2 

x 

Srez 3,617 

Sreg 349,6751 `=VAR(f(x))*n 

průměr y 2,829 2,829 

Sxx 56,75074 `=VAR(x)*n 

Celkový součet čtverců Syy 353,3079 353,292 =Srez+Sreg `=VAR(y)*n 

Reziduální rozptyl Se 0,075357 =Srez/(n-2) 

Koeficient determinace R2 0,989762 0,04605 =Sreg/(Srez+Sreg) `=R^2 

Pearsonův korel. Koeficient R -0,214597 -0,2146 ´=PEARSON(data_x;data_y)

F test poměru vysvětleného a nevysvětleného 

rozptylu 

H0: Data nejsou vhodná pro regresi 

F 

 

( n 2) Sreg 

Srez 

 

F(1, 

n 2) 

pravostranný test 

p 

hodnota 

 

P F 

F 

0 

 

LINREGRESE y=kx+q 

směrnice k, q 2,7158689 7,534689 

st.chyba koeficientů 0,4244274 0,749496 

Koef. Determinace R2,st. Chyba odhadu y 0,4603464 5,245447 

F statistika, df 40,945939 48 

regresni a rezidualni součet čtverců 

Sreg, Srez 

1126,6159 1320,706

Korelační analýza ordinálních veličin 

Je důležité odlišit případy, kdy je ordinálního charakteru pouze jedna 

proměnná a kdy obě. 

V případech, kdy jsou obě sledované proměnné ordinálního 

charakteru, můžeme použít testování, založené na pořadí. 

– Wilcoxonův test 

– Mann-Whitney test 

– Kendallův korelační koeficient τk - tau k 

– Goodman-Kruskalův koeficient γ je variantou kendallova τk 

Pokud je ordinální jen jedna, pak: 

– Kruskal-Wallisův test

Regresní analýza

Create successful ePaper yourself

Delete template?

Save as template?