Teoría
Teoría
Teoría
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Covarianza y coeficiente de correlación<br />
Cuando analizábamos las variables unidimensionales considerábamos, entre otras medidas<br />
importantes, la media y la varianza. Ahora hemos visto que estas medidas también podemos<br />
considerarlas de forma individual para cada una de las componentes de la variable bidimensional.<br />
.<br />
La covarianza<br />
, es una manera de generalizar la varianza y se define como:<br />
si las observaciones están ordenadas en una tabla de doble entrada.<br />
Si las observaciones no están ordenadas en una tabla de doble entrada, entonces se tiene que<br />
o lo que es lo mismo<br />
Ejemplo<br />
Se han clasificado 100 familias según el número de hijos varones ( ) o hembras ( ), en la tabla<br />
siguiente:<br />
0 1 2 3 4<br />
1.<br />
0 4 6 9 4 1<br />
1 5 10 7 4 2<br />
2 7 8 5 3 1<br />
3 5 5 3 2 1<br />
4 2 3 2 1 0<br />
Hallar las medias, varianzas y desviaciones típicas relativas a los hijos varones y hembra por<br />
separado.
2.<br />
3.<br />
¿Qué número medio de hijas hay en aquellas familias que tienen 2 hijos<br />
¿Qué número medio de hijos varones hay en aquellas familias que no tienen hijas<br />
4<br />
Hallar la covarianza<br />
Solución:En primer lugar, definimos las variables X= número de hijos varones, e Y=número de<br />
hijas y construimos la tabla de doble entrada con sus totales y otras cantidades que nos son útiles en<br />
el cálculo de medias y varianzas:<br />
y 1<br />
y 2<br />
y 3<br />
y 4<br />
y 5<br />
0 1 2 3 4<br />
4 6 9 4 1 24 0 0 0<br />
5 10 7 4 2 28 28 28 44<br />
7 8 5 3 1 24 48 96 62<br />
5 5 3 2 1 16 48 144 63<br />
2 3 2 1 0 8 32 128 40<br />
23 32 26 14 5 100 156 396 209<br />
0 32 52 42 20 146<br />
0 32 104 126 80 342<br />
de este modo, las medias correspondientes a las variables X e Y son<br />
Calculamos después las varianzas de esas variables X e Y.
que nos dan directamente las desviaciones típicas marginales,<br />
El número medio de hijas en las familias con 2 hijos varones se obtiene calculando la distribución<br />
condicionada de<br />
n 3j<br />
n 3j<br />
y j<br />
7 0<br />
8 8<br />
5 10<br />
3 9<br />
1 4<br />
24 31<br />
Del mismo modo, el número medio de hijos varones de las familias sin hijas, se calcula con la<br />
distribución condicionada<br />
n i1<br />
n i1<br />
x i<br />
4 0<br />
5 5<br />
7 14<br />
5 15<br />
2 8<br />
23 42
La covarianza es:<br />
Una interpretación geométrica de la covarianza<br />
Consideremos la nube de puntos formadas por las n parejas de datos (x i<br />
,y i<br />
). El centro de gravedad<br />
de esta nube de puntos es . Trasladamos los ejes XY al nuevo centro de coordenadas .<br />
Queda así dividida la nube de puntos en cuatro cuadrantes como se observa en la figura 3.3. Los<br />
puntos que se encuentran en el primer y tercer cuadrante contribuyen positivamente al valor de<br />
, y los que se encuentran en el segundo y el cuarto lo hacen negativamente.<br />
Figura: Interpretación geométrica de<br />
De este modo:<br />
• Si hay mayoría de puntos en el tercer y primer cuadrante, ocurrirá que , lo que se<br />
puede interpretar como que la variable Y tiende a aumentar cuando lo hace X;<br />
• Si la mayoría de puntos están repartidos entre el segundo y cuarto cuadrante entonces<br />
, es decir, las observaciones Y tienen tendencia a disminuir cuando las de X<br />
aumentan;<br />
• Si los puntos se reparten con igual intensidad alrededor de , entonces se tendrá que
. Véase la figura 3.4 como ilustración.<br />
Figura: Cuando los puntos se reparte de modo más o menos homogéneo entre los cuadrantes primero y tercero, y<br />
segundo y cuarto, se tiene que<br />
. Eso no quiere decir de ningún modo que no pueda existir ninguna relación<br />
entre las dos variables, ya que ésta puede existir como se aprecia en la figura de la derecha.<br />
LA COVARIANZA<br />
Si<br />
las dos variables crecen o decrecen a la vez (nube de puntos creciente).<br />
Si<br />
cuando una variable crece, la otra tiene tendencia a decrecer (nube de puntos<br />
decreciente).<br />
Si los puntos se reparten con igual intensidad alrededor de , (no hay relación<br />
lineal).<br />
De este modo podemos utilizar la covarianza para medir la variación conjunta (covariación) de las<br />
variables X e Y. Esta medida no debe ser utilizada de modo exclusivo para medir la relación entre<br />
las dos variables, ya que es sensible al cambio de unidad de medida, como se observa en el<br />
siguiente resultado:<br />
Así pues, es necesario definir una medida de la relación entre dos variables, y que no esté afectada<br />
por los cambios de unidad de medida. Una forma posible de conseguir este objetivo es dividir la<br />
covarianza por el producto de las desviaciones típicas de cada variable, ya que así se obtiene un<br />
coeficiente adimensional, r, que se denomina coeficiente de correlación lineal de Pearson<br />
El coeficiente de correlación lineal posee las siguientes propiedades:
Bondad de un ajuste<br />
Consideremos un conjunto de observaciones sobre n individuos de una población, en los que se<br />
miden ciertas variables X e Y:<br />
Estamos interesamos en hacer regresión para determinar, de modo aproximado, los valores de Y<br />
conocidos los de X, debemos definir cierta variable , que debe tomar los valores<br />
de modo que:<br />
Ello se puede expresar definiendo una nueva variable E que mida las diferencias entre los auténticos<br />
valores de Y y los teóricos suministrados por la regresión,<br />
y calculando de modo que E tome valores cercanos a 0. Dicho de otro modo, E debe ser una<br />
variable cuya media debe ser 0 , y cuya varianza debe ser pequeña (en comparación con la de
Y). Por ello se define el coeficiente de determinación de la regresión de Y sobre X,<br />
, como<br />
Si el ajuste de Y mediante la curva de regresión<br />
es bueno, cabe esperar que la cantidad<br />
tome un valor próximo a 1.<br />
Regresión<br />
Las técnicas de regresión permiten hacer predicciones sobre los valores de cierta variable Y<br />
(dependiente), a partir de los de otra X (independiente), entre las que intuimos que existe una<br />
relación. Para ilustrarlo usaremos el caso de un grupo de personas en el que observamos los valores<br />
que toman las variables<br />
no es necesario hacer grandes esfuerzos para intuir que la relación que hay entre ambas es:<br />
Obtener esta relación es menos evidente cuando lo que medimos sobre el mismo grupo de personas<br />
es<br />
La razón es que no es cierto que conocida la altura x i<br />
de un individuo, podamos determinar de modo<br />
exacto su peso y i<br />
(v.g. dos personas que miden 1,70 m pueden tener pesos de 60 y 65 kilos). Sin<br />
embargo, alguna relación entre ellas debe existir, pues parece mucho más probable que un individuo<br />
de 2 m pese más que otro que mida 1,20 m. Es más, nos puede parecer más o menos aproximada<br />
una relación entre ambas variables como la siguiente<br />
A la deducción, a partir de una serie de datos, de este tipo de relaciones entre variables, es lo que<br />
denominamos regresión.<br />
Figura: Mediante las técnicas de regresión de una variable Y sobre una variable X, buscamos una función que sea una<br />
buena aproximación de una nube de puntos (x i ,y i ), mediante una curva del tipo<br />
. Para ello hemos de<br />
asegurarnos de que la diferencia entre los valores y i e<br />
sea tan pequeña como sea posible.
Mediante las técnicas de regresión inventamos una variable como función de otra variable X (o<br />
viceversa),<br />
Esto es lo que denominamos relación funcional. El criterio para construir<br />
anteriormente, es que la diferencia entre Y e sea pequeña.<br />
, tal como citamos<br />
El término que hemos denominado error debe ser tan pequeño como sea posible . El objetivo será<br />
buscar la función (también denominada modelo de regresión)<br />
que lo minimice.<br />
Figura: Diferentes nubes de puntos y modelos de regresión para ellas.<br />
Regresión lineal<br />
La forma de la función f en principio podría ser arbitraria, y tal vez se tenga que la relación más<br />
exacta entre las variables peso y altura definidas anteriormente sea algo de la forma
Por el momento no pretendemos encontrar relaciones tan complicadas entre variables, pues nos<br />
vamos a limitar al caso de la regresión lineal. Con este tipo de regresiones nos conformamos con<br />
encontrar relaciones funcionales de tipo lineal, es decir, buscamos cantidades a y b tales que se<br />
pueda escribir<br />
con el menor error posible entre e Y.<br />
Esta relación explica cosas como que si X varía en 1 unidad,<br />
• Si b>0, las dos variables aumentan o disminuyen a la vez;<br />
• Si b0.<br />
El problema que se plantea es entonces el de cómo calcular las cantidades a y b a partir de un<br />
conjunto de n observaciones<br />
de forma que se minimice el error. Las etapas en que se divide el proceso que vamos a desarrollar<br />
son de forma esquemática, las que siguen:<br />
1.<br />
Dadas dos variables X, Y, sobre las que definimos<br />
medimos el error que se comete al aproximar Y mediante calculando la suma de las<br />
diferencias entre los valores reales y los aproximados al cuadrado (para que sean positivas y<br />
no se compensen los errores):<br />
2.<br />
Una aproximación<br />
de Y, se define a partir de dos cantidades a y b. Vamos a<br />
calcular aquellas que minimizan la función<br />
3.<br />
Posteriormente encontraremos fórmulas para el cálculo directo de a y b que sirvan para<br />
cualquier problema.
Regresión de Y sobre X<br />
Para calcular la recta de regresión de Y sobre X nos basamos en la figura<br />
Figura: Los errores a minimizar son las cantidades<br />
Una vez que tenemos definido el error de aproximación mediante la relación las cantidades que lo<br />
minimizan se calculan derivando con respecto a ambas e igualando a cero (procedimiento de los<br />
mínimos cuadrados):<br />
Resolviendo este sistema nos da las relaciones buscadas:<br />
La cantidad b se denomina coeficiente de regresión de Ysobre X.
Ejemplo<br />
En una muestra de 1.500 individuos se recogen datos sobre dos medidas antropométricas X e Y. Los<br />
resultados se muestran resumidos en los siguientes estadísticos:<br />
Obtener el modelo de regresión lineal que mejor aproxima Y en función de X. Utilizando este<br />
modelo, calcular de modo aproximado la cantidad Y esperada cuando X=15.<br />
Solución: Lo que se busca es la recta,<br />
, que mejor aproxima los valores de Y (según<br />
el criterio de los mínimos cuadrados) en la nube de puntos que resulta de representar en un plano<br />
(X,Y) las 1.500 observaciones. Los coeficientes de esta recta son:<br />
Así, el modelo lineal consiste en:<br />
Por tanto, si x=15, el modelo lineal predice un valor de Y de:<br />
En este punto hay que preguntarse si realmente esta predicción puede considerarse fiable. Para dar<br />
una respuesta, es necesario estudiar propiedades de la regresión lineal que están a continuación.<br />
Propiedades de la regresión lineal<br />
Una vez que ya tenemos perfectamente definida , nos preguntamos las relaciones que hay entre la<br />
media y la varianza de esta y la de Y (o la de X). La respuesta nos la ofrece la siguiente proposición:<br />
3.12.4.6 Proposición<br />
En los ajustes lineales se conservan las medias, es decir<br />
En cuanto a la varianza, no necesariamente son las mismas para los verdaderos valores de las<br />
variables X e Y y sus aproximaciones y , pues sólo se mantienen en un factor de r 2 , es decir,<br />
donde r es el coeficiente de correlación ya definido.
Como consecuencia de este resultado, podemos decir que la proporción de varianza explicada por<br />
la regresión lineal es del .Nos gustaría tener que r=1, pues en ese caso ambas variables<br />
tendrían la misma varianza, pero esto no es cierto en general. Todo lo que se puede afirmar, como<br />
sabemos, es que<br />
y por tanto<br />
La cantidad que le falta a la varianza de regresión, , para llegar hasta la varianza total de Y,<br />
Por ello<br />
, es lo que se denomina varianza residual, que no es más que la varianza de ,<br />
Obsérvese que entonces la bondad del ajuste es<br />
Por ello:<br />
• Si el ajuste es bueno (Y se puede calcular de modo bastante aproximado a partir de<br />
X y viceversa).<br />
• Si las variables X e Y no están relacionadas (linealmente al menos), por tanto no<br />
tiene sentido hacer un ajuste lineal. Sin embargo no es seguro que las dos variables no<br />
posean ninguna relación en el caso r=0, ya que si bien el ajuste lineal puede no ser<br />
procedente, tal vez otro tipo de ajuste sí lo sea.<br />
Ejemplo De una muestra de ocho observaciones conjuntas de valores de dos variables X e Y, se<br />
obtiene la siguiente información:<br />
Calcule:<br />
1.<br />
La recta de regresión de Y sobre X. Explique el significado de los parámetros.
2.<br />
3.<br />
El coeficiente de determinación. Comente el resultado e indique el tanto por ciento de la<br />
variación de Y que no está explicada por el modelo lineal de regresión.<br />
Si el modelo es adecuado, ¿cuál es la predicción<br />
para x=4.<br />
Solución:<br />
1.<br />
En primer lugar calculamos las medias y las covarianza entre ambas variables:<br />
Con estas cantidades podemos determinar los parámetros a y b de la recta. La pendiente de la<br />
misma es b, y mide la variación de Ycuando X aumenta en una unidad:<br />
Al ser esta cantidad negativa, tenemos que la pendiente de la recta es negativa, es decir, a<br />
medida que X aumenta, la tendencia es a la disminución de Y. En cuanto al valor de la<br />
ordenada en el origen, a, tenemos:<br />
Así, la recta de regresión de Y como función de X es:<br />
2.-<br />
El grado de bondad del ajuste lo obtenemos a partir del coeficiente de determinación:<br />
Es decir, el modelo de regresión lineal explica el<br />
de la variabilidad de Y en función de la<br />
de X. Por tanto queda un<br />
de variabilidad no explicada.<br />
3.<br />
La predicción que realiza el modelo lineal de regresión para x=4 es:
la cual hay que considerar con ciertas reservas, pues como hemos visto en el apartado<br />
anterior,hay una razonable cantidad de variabilidad que no es explicada por el modelo.<br />
Ejemplo<br />
En un grupo de 8 pacientes se miden las cantidades antropométricas peso y edad, obteniéndose los<br />
siguientes resultados:<br />
Resultado de las mediciones<br />
edad 12 8 10 11 7 7 10 14<br />
peso 58 42 51 54 40 39 49 56<br />
¿Existe una relación lineal importante entre ambas variables Calcular la recta de regresión del peso<br />
en función de la edad . Calcular la bondad del ajuste ¿En qué medida, por término medio, varía el<br />
peso cada año ¿En cuánto aumenta la edad por cada kilo de peso<br />
Solución:<br />
Para saber si existe una relación lineal entre ambas variables se calcula el coeficiente de correlación<br />
lineal, que vale:<br />
ya que<br />
Por tanto el ajuste lineal es muy bueno.<br />
La recta de regresión del peso en función de la edad es
que como se puede comprobar, no resulta de despejar en la recta de regresión de Y sobre X.<br />
La bondad del ajuste es<br />
por tanto podemos decir que el<br />
de la variabilidad del peso en función de la edad es<br />
explicada mediante la recta de regresión correspondiente. . Del mismo modo puede decirse que hay<br />
un<br />
de varianza que no es explicada por las rectas de regresión. Por tanto<br />
la varianza residual de la regresión del peso en función de la edad es<br />
Por último la cantidad en que varía el peso de un paciente cada año es, según la recta de regresión<br />
del peso en función de la edad, la pendiente de esta recta, es decir, b 1<br />
=2,8367 Kg/año. Cuando dos<br />
personas difieren en peso, en promedio la diferencia de edad entre ambas se rige por la cantidad<br />
b 2<br />
=0,3136 años/Kg de diferencia.