Análisis de Regresión y Correlación con MINITAB - Tecnun

Análisis de Regresión y Correlación 

con MINITAB 

Primeras definiciones y conceptos de la 

regresión 

El análisis de la regresión es una técnica estadística que se utiliza 

para estudiar la relación entre variables o factores cuantitativos 

referidos a un mismo grupo de unidades observadas. 

Se trata de comprobar estadísticamente si tal relación es posible, 

y de serlo, expresarlo matemáticamente mediante una ecuación. 

Su uso más frecuente es el de la predicción de resultados de una 

de ellas para valores fijos de las otras.

Primeras definiciones y conceptos de la 

regresión 

Cuando se cree que algunas de las variables pueden causar ( o al 

menos explicar) los cambios observados en otra, a éstas se les llama 

variables explicativas (X’s) 

La que mide el resultado del estudio se le llama variable respuesta 

(Y) 

Se intentará establecer una ecuación de la forma Y=g(x) 

Metodología de un análisis de regresión 

1. Representar los datos en un gráfico 

2. Identificar su aspecto y sus desviaciones 

3. Descripciones numéricas que informen sobre los datos y su 

posible relación 

4. Descripción matemática resumida del aspecto general del 

problema

1. Representación de los datos 

La manera de mostrar gráficamente los datos observados en un 

gráfico es a través de un diagrama de dispersión. 

Y, la respuesta se marca en el eje vertical; la X, variable 

explicativa, en el eje horizontal. Cada observación, es un punto 

del gráfico 

2. Identificación del aspecto del diagrama 

de dispersión 

El aspecto general del gráfico viene dado por la dirección, 

forma y fuerza del mismo: 

Dirección: positiva o negativa 

Forma: disposición de los puntos (rectilínea o curvilínea) 

Fuerza: cuanta más amorfa sea la disposición de los puntos 

en el gráfico, menor su relación



Es interesante en esta primera identificación del aspecto 

del gráfico, identificar observaciones atípicas (aquellas que 

se distinguen del aspecto general del gráfico) 

El diagrama de dispersión sólo muestra el aspecto general 

de la relación entre las dos variables. 

En situaciones no muy evidentes, un simple cambio de 

escala puede hacernos cambiar la forma de pensar. 



Tiempo 

450 

400 

350 

300 

30 

32 

Scatterplot of Tiempo vs Edad 

34 

36 

38 40 

Edad 

42 

44 

46 

48

3. Descripciones numéricas 

Se necesita una medida numérica que complemente al gráfico y 

que, independientemente de las dimensiones de los valores de las 

variables, nos informe sobre la fuerza de la relación existente. 

Una medida es el Coeficiente de correlación 

Características del coeficiente de correlación 

de Pearson 

r utiliza valores estandarizados, luego no le influyen las unidades: 

tomaría el mismo valor aunque se cambiara de unidad de medida. 

r se ve afectada por las observaciones atípicas 

Una r positiva (negativa)indica una relación positiva (negativa) 

entre las variables. 

Valores de r cercanos al 0 indican una relación lineal muy débil. 

La fuerza de la relación lineal aumenta a medida que r se aleja del 

0 y se acerca al +1 o al –1.

95 

90 

85 

80 

75 

Ejemplos reales 

150 

Situación 1 Situación 2 Situación 3 

160 

170 

Temperatura 

180 

95 

90 

85 

80 

75 

150 160 170 180 

Temperatura 

95 

90 

85 

80 

75 

150 160 170 180 

Temperatura 

r = 0,983 r = 0,887 r = 0,230 

p-value: 0,000 p-value: 0,000 p-value: 0,108 

Un valor de r distinto de 0 no implica relación lineal 

Es necesario que sea “significativamente distinto de cero” 

Coeficiente de correlación: Precaución 

El coeficiente de correlación de Pearson sólo mide relación LINEAL 

200 

100 

0 

0 10 20 30 

r = 0,5 pero ... 

Relación casi perfecta, 

aunque no lineal.

4. Descripción matemática de la forma del 

gráfico 

Si la correlación entre las dos variables indica una relación fuerte, 

sería muy interesante poder “resumir” el gráfico en forma de una 

ecuación matemática. 

En el caso de una forma lineal, a la recta que ajusta la nube de 

puntos se le llama recta de regresión. 

Esta recta se calcula teniendo en cuenta dos cosas: 

Puesto que describe un cambio en la respuesta a medida que 

cambia la otra variable, se necesita tener presente esta 

distinción a la hora de calcularla. 

Puesto que ninguna recta puede pasar exactamente por todos 

los puntos, se necesita una manera de construirla que asegure 

su paso tan cerca de todos los puntos como sea posible. 

4. Descripción matemática de la forma del 

gráfico 

Tiempo 

450 

400 

350 

300 

250 

30 

32 

34 

Fitted Line Plot 

Tiempo = - 1550 + 95,80 Edad 

- 1,193 Edad**2 

36 

38 40 

Edad 

42 

44 

46 

48 

S 38,3533 

R-Sq 37,1% 

R-Sq(adj) 35,0%

Modelo de regresión simple 

Modelo teórico para la población: 

y = β0 + β1x + ε 

ε ~N (0, σ) 

Y 

yˆ = b0 

+ b1x 

Recta ajustada: 

(a partir de una muestra) 

r ⋅s 

yˆ = y + 

s 

x 

y 

( x − x) 


distancia entre lo real y lo que se predice 

x i 

yˆ i 

predicción de la recta 

y i observado 

La pendiente de la recta , b1 , representa la tasa de cambio, es 

decir, la cantidad en que cambia yˆ cuando x aumenta en una 

unidad. 

y 

b 0 

1 

b 1 

yˆ = b0 

+ b1x 

x 

r ⋅ s 

b1 

= 

s 

x 

y 

X


r 2 , representa la fracción de la variación de Y que se explica 

por la regresión de Y sobre X y sirve de medida de bondad 

de la regresión para explicar la respuesta. 

La parte de la variable Y que no es explicada por el modelo 

se llama residual. 

Una vez dibujada la recta de regresión, existe un valor 

residual para cada dato: e = y − yˆ 


e = y − yˆ 

i 

i 

e i 

i

Análisis de los residuos 

La disposición de los residuos sirve para comprobar si la 

recta sirve para ajustar los datos 

Dibujando sus valores en el eje de ordenadas frente a las 

predicciones deben presentar una forma uniforme , 

centrada en el valor 0, a lo largo de toda la recta, sin que 

aparezca ningun valor extraño 

Inferencia para la regresión lineal 

Rendi2 

95 

85 

75 

Regression Plot 

Rendi2 = 10,2163 + 0,447563 Temperatura 

S = 2,01711 R-Sq = 78,6 % R-Sq(adj) = 78,2 % 

150 160 170 180 

Temperatura 

Intervalo para las predicciones 

Intervalo para la recta 

Regression 

95% CI 

95% PI

Regresión no lineal 

La relación entre x e y no tiene porqué ser lineal. 

Los softwares informáticos ajustan los datos a curvas no lineales 

(exponenciales, parabólicas, etc.) y calculan el valor de r 2 para 

medir la fuerza de esa relación. 

Tiempo 

450 

400 

350 

300 

250 

30 

Regresión múltiple 

32 

34 


Tiempo = - 1550 + 95,80 Edad 

- 1,193 Edad**2 

36 

38 40 

Edad 

42 

44 

46 

48 

S 38,3533 

R-Sq 37,1% 

R-Sq(adj) 35,0% 

La regresión múltiple expresa el valor de la variable dependiente 

Y, como función de las variables independientes X 1 , X 2 , ...,X k 

La más simple es la regresión lineal y el modelo al que se 

debieran ajustar los datos es: 

Y = 

α + β X + β X + ... + + β X + ε 

i 

1 

1i 

2 

2i 

k 

ki 

i

Regresión múltiple 

Comprobar si el rendimiento de un proceso químico depende, 

además de la temperatura de la presión a la que se realiza. 

Regresión múltiple lineal: Interpretación de 

resultados 

Regression Analysis: Rendi versus 

Presion; Temperatura 

The regression equation is 

Rendi = 48,9 + 1,84 Presion + 0,208 Temperatura 

Predictor Coef SE Coef T P 

Constant 48,941 2,709 18,07 0,000 

Presion 1,8437 0,4699 3,92 0,001 

Temperat 0,20807 0,01562 13,32 0,000 

S = 0,7947 R-Sq = 90,8% R-Sq(adj) = 89,9% 

Desviación tipo de los residuos 

yˆ ± 2s 

Media de calidad del ajuste 

Pruebas de significación 

para los coeficientes

Regresión múltiple lineal: Interpretación de 

resultados 

Coeficiente de correlación múltiple 

R 

2 

= r 

2 

∑( yi 

− yˆ i ) 

= 1− 

( y − y ) 

∑ 

El r 2 proporciona, al igual que en el caso simple, una 

medida de la fuerza de la relación entre Y y sus 

predicciones, a partir del modelo de regresión propuesto 

(plano de regresión) 

Se pueden definir también, coeficientes de correlación 

parciales, r YXi , miden la relación entre Y y X i eliminando los 

efectos del resto de X j 

Regresión múltiple lineal: Inferencias 

Al igual que en el caso simple, pueden calcularse intervalos de 

confianza para los coeficientes del plano 

i 

También al igual que en el caso simple, será necesaria la 

comprobación de la adecuidad del modelo con el análisis y 

estudio de sus residuos: éstos deben de ser normales, centrados 

en 0 y con variabilidad constante. 

i 

2 

2

Ejemplo práctico con MINITAB 

Deducir una ecuación que relacione el tiempo marcado por una 

atleta (en minutos) en una carrera de triatlón con los siguientes 

posibles factores: 

Edad del deportista 

Peso del deportista 

Experiencia en la práctica del triatlón, en años 

Kilómetros en carrera en entrenamientos 

Kilómetros en bicicleta en entrenamientos 

Kilómetros nadadndo en entrenamientos 

Consumo de oxígeno corriendo 

Consumo de oxígeno en bicicleta 

Cosumo de oxígeno nadando 

Ejemplo práctico con MINITAB

Tiempo 

Tiempo 

450 

400 

350 

300 

450 

400 

350 

300 


Para la Regresión Simple: Stat/Regression/Fitted Line Plot 

30 

250 

30 

32 

32 

34 

34 


Tiempo = 205,2 + 3,585 Edad 

36 

36 

38 40 

Edad 

38 40 

Edad 

42 

42 

44 


Tiempo = - 1550 + 95,80 Edad 

- 1,193 Edad**2 

44 

46 

46 

48 

48 

S 44,7224 

R-Sq 13,0% 

R-Sq(adj) 11,7% 

S 38,3533 

R-Sq 37,1% 

R-Sq(adj) 35,0% 

Percent 

Frequency 

Percent 

Frequency 

Residual Plots for Tiempo 

Normal Probability Plot of the Residuals Residuals Versus the Fitted Values 

99,9 

99 

90 

50 

10 

1 

0,1 

16 

12 

8 

4 

0 

-80 

-100 

-40 

0 

Residual 

0 40 

Residual 

100 

80 

Residual 

Residual 

100 

50 

0 

-50 

-100 

100 

50 

0 

-50 

320 

340 360 

Fitted Value 

Histogram of the Residuals Residuals Versus the Order of the Data 

99,9 

99 

90 

50 

10 

1 

0,1 

-100 -50 0 50 

Residual 

16 

12 

8 

4 


100 

0 

-40 -20 0 20 40 60 80 100 

Residual 

Residual 

Residual 

380 

-100 

1 5 10 15 20 25 30 35 40 45 50 55 60 65 

Observation Order 


100 

50 

0 

-50 

100 

50 

0 

280 

300 320 340 

Fitted Value 


360 

-50 

1 5 10 15 20 25 30 35 40 45 50 55 60 65 

Observation Order


Lo más habitual en la práctica es querer establecer una relación 

entre una variable respuesta (Y) y varias explicativas (X’s) 

Para la Regresión Múltiple, existen varias opciones: 

Stat/Regression/Regression 

Stat/Regression/Best Subsets 

Stat/Regression/Stepwise 


Ejemplo con la opción Stat/Regression/Regression 

Regression Analysis: Tiempo versus Edad; Peso; ... 


Tiempo = 486 + 3,41 Edad + 0,347 Peso - 21,4 Experiencia + 0,702 EnCarrera 

- 0,173 EnBici - 1,37 EnNatacion - 3,36 COCarrera - 1,38 COBici 

+ 0,893 CONatacion 


Constant 486,3 114,5 4,25 0,000 

Edad 3,410 1,091 3,13 0,003 

Peso 0,3470 0,7862 0,44 0,661 

Experien -21,424 3,697 -5,80 0,000 

EnCarrer 0,7025 0,2771 2,54 0,014 

EnBici -0,17251 0,06920 -2,49 0,016 

EnNataci -1,3727 0,9566 -1,43 0,157 

COCarrer -3,3550 0,8338 -4,02 0,000 

COBici -1,3845 0,9098 -1,52 0,134 

CONataci 0,8934 0,9217 0,97 0,337 

S = 22,70 R-Sq = 80,4% R-Sq(adj) = 77,2% 

Analysis of Variance 

Source DF SS MS F P 

Regression 9 116566 12952 25,14 0,000 

Residual Error 55 28339 515 

Total 64 144905 

Unusual Observations 

Obs Edad Tiempo Fit SE Fit Residual St Resid 

19 36,0 408,00 359,05 10,03 48,95 2,40R 

32 37,0 407,00 364,39 10,96 42,61 2,14R 

36 37,0 325,00 367,72 8,39 -42,72 -2,03R 

R denotes an observation with a large standardized residual 

Bondad del ajuste 

¡¡Cuidado!! 

Linealidad significativa


Realizar un análisis de regresión multivariante tiene el siguiente 

inconveniente: si dos variables X están muy relacionadas entre sí 

y aportan mucho a la hora de conocer Y, una de ellas tendrá un pvalor 

grande y la otra no. Pero, de eliminar una ¿cuál 

eliminaríamos? Una la conozco, pero no sé con cual está 

correlacionada.... 

Posibilidades: 

Representar gráficamente las relaciones: Gráfico matriz 

Calcular los coeficientes de correlación entre las variables 

Ejemplo práctico con MINITAB


Matrix Plot of Tiempo; Edad; Peso; Experiencia; EnCarrera; EnBici; ... 

Tiempo 

32 40 4860 

70 80 0,0 2,5 5,0 30 60 90 150 300 4500 

10 20 50 60 70 50 60 70 40 50 60 

Edad 

Peso 

Experiencia 

EnCarrera 

EnBici 

EnNatación 

CoCarrera 


CoBici 

CoNatación 

420 

360 

300 

48 

40 

32 

80 

70 

60 

5,0 

2,5 

0,0 

90 

60 

30 

450 

300 

150 

20 

10 

0 

70 

60 

50 

70 

60 

50


Correlations: Tiempo; Edad; Peso; Experiencia; EnCarrera; EnBici; EnNatación; Co 

Tiempo Edad Peso Experien EnCarrer EnBici EnNataci CoCarrer CoBici 

Edad 0,361 

Peso 0,249 0,342 

Experien -0,436 0,414 0,254 

EnCarrer -0,469 -0,288 -0,090 0,349 

EnBici -0,492 -0,356 -0,091 0,137 0,792 

EnNataci -0,430 -0,419 0,132 -0,005 0,479 0,691 

CoCarrer -0,695 -0,306 -0,506 0,183 0,255 0,147 0,160 

CoBici -0,647 -0,441 -0,474 0,146 0,376 0,323 0,090 0,695 

CoNataci -0,596 -0,635 -0,340 0,134 0,478 0,415 0,380 0,548 0,652 


Cuando existen muchas variables X que pueden influir en la 

respuesta Y, estas opciones pueden resultar complicadas de 

interpretar. 

¿Cómo resuelve este problema MINITAB? 

Stepwise:crea un modelo paso a paso, eligiendo primero la variable X 

que mejor explica la Y, añadiendo después una a una, otras X que 

junto con las anteriores aporten información. Para, cuando no 

encuentra ninguna más de las que quedan fuera que añada 

información 

Best Subsets: Crea subconjuntos de n variables X que mejor explican 

Y


Step 1 2 3 4 5 

Constant 687,9 709,7 704,1 532,8 516,1 

CoCarrer -5,68 -5,20 -4,82 -3,96 -4,09 

T-Value -7,67 -8,24 -8,37 -6,81 -7,45 

P-Value 0,000 0,000 0,000 0,000 0,000 

EnBici -0,203 -0,187 -0,128 -0,242 

T-Value -5,15 -5,24 -3,51 -4,69 

P-Value 0,000 0,000 0,001 0,000 

Experien -10,7 -16,9 -20,8 

T-Value -3,94 -5,56 -6,61 

P-Value 0,000 0,000 0,000 

Edad 3,03 3,53 

T-Value 3,56 4,32 

P-Value 0,001 0,000 

EnCarrer 0,80 

T-Value 2,96 

P-Value 0,004 

S 34,5 29,1 26,2 24,0 22,6 

R-Sq 48,31 63,82 71,15 76,17 79,25 

R-Sq(adj) 47,49 62,65 69,73 74,59 77,50 

C-p 84,4 42,8 24,1 12,0 5,3


Response is Tiempo 

E E E C C 

x n n o o 

p C E N C C N 

e a n a a o a 

E P r r B t r B t 

d e i r i a r i a 

a s e e c c e c c 

Vars R-Sq R-Sq(adj) C-p S d o n r i i r i i 

1 48,3 47,5 84,4 34,482 X 

1 41,8 40,9 102,6 36,578 X 

2 63,8 62,6 42,8 29,081 X X 

2 58,8 57,4 57,0 31,050 X X 

3 71,3 69,9 23,8 26,117 X X X 

3 71,2 69,7 24,1 26,177 X X X 

4 76,2 74,6 12,0 23,987 X X X X 

4 75,1 73,5 14,9 24,500 X X X X 

5 79,3 77,5 5,3 22,573 X X X X X 

5 76,9 75,0 11,9 23,801 X X X X X 

6 79,5 77,4 6,7 22,631 X X X X X X 

6 79,5 77,3 6,8 22,651 X X X X X X 

7 80,1 77,6 7,0 22,506 X X X X X X X 

7 79,7 77,2 8,1 22,721 X X X X X X X 

8 80,4 77,6 8,2 22,535 X X X X X X X X 

8 80,1 77,3 8,9 22,687 X X X X X X X X 

9 80,4 77,2 10,0 22,699 X X X X X X X X X


Regresión-Stepwise: crea un modelo paso a paso, eligiendo 

primero la variable X que mejor explica la Y, añadiendo después 

una a una, otras X que junto con las anteriores aporten 

información. Para cuando no encuentra ninguna más, de las que 

quedan fuera que añada información 

Inconveniente: 

el modelo es muy dependiente de la primera elegida (la que más 

información aporta por si sola, pero puede no ser la mejor para 

trabajar con ella) 


Regresión Best Subsets: Crea subconjuntos de n variables X que 

mejor explican Y 

Inconvenientes: 

No dice cual es la mejor opción, luego hay que decidirse. 

Su lista se basa en el valor R2 , luego habrá que comprobar si las variables 

del modelo son significativas


Si elegimos el modelo con 5 variables (R 2 =77,5%) y hacemos 

regresión multivariante: 


Tiempo = 516 + 3,53 Edad - 20,8 Experiencia + 0,796 EnCarrera - 0,242 EnBici 

- 4,09 CoCarrera 


Constant 516,10 54,51 9,47 0,000 

Edad 3,5335 0,8188 4,32 0,000 

Experien -20,752 3,141 -6,61 0,000 

EnCarrer 0,7958 0,2689 2,96 0,004 

EnBici -0,24185 0,05154 -4,69 0,000 

CoCarrer -4,0886 0,5490 -7,45 0,000 

S = 22,57 R-Sq = 79,3% R-Sq(adj) = 77,5% 



Regression 5 114844 22969 45,08 0,000 


Total 64 144905 


¿Qué pasaría con el de 6 variables añadiendo “Ennatación”? 


Tiempo = 521 + 3,39 Edad - 20,6 Experiencia + 0,758 EnCarrera - 0,215 EnBici 

- 4,07 CoCarrera - 0,582 EnNatación 


Constant 520,92 55,06 9,46 0,000 

Edad 3,3875 0,8434 4,02 0,000 

Experien -20,612 3,157 -6,53 0,000 

EnCarrer 0,7583 0,2742 2,77 0,008 

EnBici -0,21535 0,06217 -3,46 0,001 

CoCarrer -4,0746 0,5512 -7,39 0,000 

EnNataci -0,5823 0,7581 -0,77 0,446 

S = 22,65 R-Sq = 79,5% R-Sq(adj) = 77,3%


¿Y qué pasaría con el de 4 variables quitando “Encarrera”? 


Tiempo = 533 + 3,03 Edad - 16,9 Experiencia - 0,128 EnBici - 3,96 

CoCarrera 


Constant 532,77 57,62 9,25 0,000 

Edad 3,0256 0,8508 3,56 0,001 

Experien -16,867 3,033 -5,56 0,000 

EnBici -0,12825 0,03655 -3,51 0,001 

CoCarrer -3,9574 0,5815 -6,81 0,000 

S = 23,99 R-Sq = 76,2% R-Sq(adj) = 74,6% 



Regression 4 110381 27595 47,96 0,000 


Total 64 144905 


Antes de dar por válido el estudio y con las opciones elegidas se 

deberán analizar los residuos:


Percent 

Frequency 



99,9 

99 

90 

50 

10 

1 

0,1 

-80 

12 

9 

6 

3 

0 

-40 

-40 

0 

Residual 

-20 0 

Residual 

20 

40 

40 

60 

80 

Residual 

Residual 

50 

25 

0 

-25 

-50 

50 

25 

0 

-25 

-50 

250 

300 

350 400 

Fitted Value 


450 

1 5 10 15 20 25 30 35 40 45 50 55 60 

Observation Order 

65

Análisis de Regresión y Correlación con MINITAB - Tecnun

Create successful ePaper yourself

Delete template?

Save as template?