30.12.2014 Views

Teoría

Teoría

Teoría

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Covarianza y coeficiente de correlación<br />

Cuando analizábamos las variables unidimensionales considerábamos, entre otras medidas<br />

importantes, la media y la varianza. Ahora hemos visto que estas medidas también podemos<br />

considerarlas de forma individual para cada una de las componentes de la variable bidimensional.<br />

.<br />

La covarianza<br />

, es una manera de generalizar la varianza y se define como:<br />

si las observaciones están ordenadas en una tabla de doble entrada.<br />

Si las observaciones no están ordenadas en una tabla de doble entrada, entonces se tiene que<br />

o lo que es lo mismo<br />

Ejemplo<br />

Se han clasificado 100 familias según el número de hijos varones ( ) o hembras ( ), en la tabla<br />

siguiente:<br />

0 1 2 3 4<br />

1.<br />

0 4 6 9 4 1<br />

1 5 10 7 4 2<br />

2 7 8 5 3 1<br />

3 5 5 3 2 1<br />

4 2 3 2 1 0<br />

Hallar las medias, varianzas y desviaciones típicas relativas a los hijos varones y hembra por<br />

separado.


2.<br />

3.<br />

¿Qué número medio de hijas hay en aquellas familias que tienen 2 hijos<br />

¿Qué número medio de hijos varones hay en aquellas familias que no tienen hijas<br />

4<br />

Hallar la covarianza<br />

Solución:En primer lugar, definimos las variables X= número de hijos varones, e Y=número de<br />

hijas y construimos la tabla de doble entrada con sus totales y otras cantidades que nos son útiles en<br />

el cálculo de medias y varianzas:<br />

y 1<br />

y 2<br />

y 3<br />

y 4<br />

y 5<br />

0 1 2 3 4<br />

4 6 9 4 1 24 0 0 0<br />

5 10 7 4 2 28 28 28 44<br />

7 8 5 3 1 24 48 96 62<br />

5 5 3 2 1 16 48 144 63<br />

2 3 2 1 0 8 32 128 40<br />

23 32 26 14 5 100 156 396 209<br />

0 32 52 42 20 146<br />

0 32 104 126 80 342<br />

de este modo, las medias correspondientes a las variables X e Y son<br />

Calculamos después las varianzas de esas variables X e Y.


que nos dan directamente las desviaciones típicas marginales,<br />

El número medio de hijas en las familias con 2 hijos varones se obtiene calculando la distribución<br />

condicionada de<br />

n 3j<br />

n 3j<br />

y j<br />

7 0<br />

8 8<br />

5 10<br />

3 9<br />

1 4<br />

24 31<br />

Del mismo modo, el número medio de hijos varones de las familias sin hijas, se calcula con la<br />

distribución condicionada<br />

n i1<br />

n i1<br />

x i<br />

4 0<br />

5 5<br />

7 14<br />

5 15<br />

2 8<br />

23 42


La covarianza es:<br />

Una interpretación geométrica de la covarianza<br />

Consideremos la nube de puntos formadas por las n parejas de datos (x i<br />

,y i<br />

). El centro de gravedad<br />

de esta nube de puntos es . Trasladamos los ejes XY al nuevo centro de coordenadas .<br />

Queda así dividida la nube de puntos en cuatro cuadrantes como se observa en la figura 3.3. Los<br />

puntos que se encuentran en el primer y tercer cuadrante contribuyen positivamente al valor de<br />

, y los que se encuentran en el segundo y el cuarto lo hacen negativamente.<br />

Figura: Interpretación geométrica de<br />

De este modo:<br />

• Si hay mayoría de puntos en el tercer y primer cuadrante, ocurrirá que , lo que se<br />

puede interpretar como que la variable Y tiende a aumentar cuando lo hace X;<br />

• Si la mayoría de puntos están repartidos entre el segundo y cuarto cuadrante entonces<br />

, es decir, las observaciones Y tienen tendencia a disminuir cuando las de X<br />

aumentan;<br />

• Si los puntos se reparten con igual intensidad alrededor de , entonces se tendrá que


. Véase la figura 3.4 como ilustración.<br />

Figura: Cuando los puntos se reparte de modo más o menos homogéneo entre los cuadrantes primero y tercero, y<br />

segundo y cuarto, se tiene que<br />

. Eso no quiere decir de ningún modo que no pueda existir ninguna relación<br />

entre las dos variables, ya que ésta puede existir como se aprecia en la figura de la derecha.<br />

LA COVARIANZA<br />

Si<br />

las dos variables crecen o decrecen a la vez (nube de puntos creciente).<br />

Si<br />

cuando una variable crece, la otra tiene tendencia a decrecer (nube de puntos<br />

decreciente).<br />

Si los puntos se reparten con igual intensidad alrededor de , (no hay relación<br />

lineal).<br />

De este modo podemos utilizar la covarianza para medir la variación conjunta (covariación) de las<br />

variables X e Y. Esta medida no debe ser utilizada de modo exclusivo para medir la relación entre<br />

las dos variables, ya que es sensible al cambio de unidad de medida, como se observa en el<br />

siguiente resultado:<br />

Así pues, es necesario definir una medida de la relación entre dos variables, y que no esté afectada<br />

por los cambios de unidad de medida. Una forma posible de conseguir este objetivo es dividir la<br />

covarianza por el producto de las desviaciones típicas de cada variable, ya que así se obtiene un<br />

coeficiente adimensional, r, que se denomina coeficiente de correlación lineal de Pearson<br />

El coeficiente de correlación lineal posee las siguientes propiedades:


Bondad de un ajuste<br />

Consideremos un conjunto de observaciones sobre n individuos de una población, en los que se<br />

miden ciertas variables X e Y:<br />

Estamos interesamos en hacer regresión para determinar, de modo aproximado, los valores de Y<br />

conocidos los de X, debemos definir cierta variable , que debe tomar los valores<br />

de modo que:<br />

Ello se puede expresar definiendo una nueva variable E que mida las diferencias entre los auténticos<br />

valores de Y y los teóricos suministrados por la regresión,<br />

y calculando de modo que E tome valores cercanos a 0. Dicho de otro modo, E debe ser una<br />

variable cuya media debe ser 0 , y cuya varianza debe ser pequeña (en comparación con la de


Y). Por ello se define el coeficiente de determinación de la regresión de Y sobre X,<br />

, como<br />

Si el ajuste de Y mediante la curva de regresión<br />

es bueno, cabe esperar que la cantidad<br />

tome un valor próximo a 1.<br />

Regresión<br />

Las técnicas de regresión permiten hacer predicciones sobre los valores de cierta variable Y<br />

(dependiente), a partir de los de otra X (independiente), entre las que intuimos que existe una<br />

relación. Para ilustrarlo usaremos el caso de un grupo de personas en el que observamos los valores<br />

que toman las variables<br />

no es necesario hacer grandes esfuerzos para intuir que la relación que hay entre ambas es:<br />

Obtener esta relación es menos evidente cuando lo que medimos sobre el mismo grupo de personas<br />

es<br />

La razón es que no es cierto que conocida la altura x i<br />

de un individuo, podamos determinar de modo<br />

exacto su peso y i<br />

(v.g. dos personas que miden 1,70 m pueden tener pesos de 60 y 65 kilos). Sin<br />

embargo, alguna relación entre ellas debe existir, pues parece mucho más probable que un individuo<br />

de 2 m pese más que otro que mida 1,20 m. Es más, nos puede parecer más o menos aproximada<br />

una relación entre ambas variables como la siguiente<br />

A la deducción, a partir de una serie de datos, de este tipo de relaciones entre variables, es lo que<br />

denominamos regresión.<br />

Figura: Mediante las técnicas de regresión de una variable Y sobre una variable X, buscamos una función que sea una<br />

buena aproximación de una nube de puntos (x i ,y i ), mediante una curva del tipo<br />

. Para ello hemos de<br />

asegurarnos de que la diferencia entre los valores y i e<br />

sea tan pequeña como sea posible.


Mediante las técnicas de regresión inventamos una variable como función de otra variable X (o<br />

viceversa),<br />

Esto es lo que denominamos relación funcional. El criterio para construir<br />

anteriormente, es que la diferencia entre Y e sea pequeña.<br />

, tal como citamos<br />

El término que hemos denominado error debe ser tan pequeño como sea posible . El objetivo será<br />

buscar la función (también denominada modelo de regresión)<br />

que lo minimice.<br />

Figura: Diferentes nubes de puntos y modelos de regresión para ellas.<br />

Regresión lineal<br />

La forma de la función f en principio podría ser arbitraria, y tal vez se tenga que la relación más<br />

exacta entre las variables peso y altura definidas anteriormente sea algo de la forma


Por el momento no pretendemos encontrar relaciones tan complicadas entre variables, pues nos<br />

vamos a limitar al caso de la regresión lineal. Con este tipo de regresiones nos conformamos con<br />

encontrar relaciones funcionales de tipo lineal, es decir, buscamos cantidades a y b tales que se<br />

pueda escribir<br />

con el menor error posible entre e Y.<br />

Esta relación explica cosas como que si X varía en 1 unidad,<br />

• Si b>0, las dos variables aumentan o disminuyen a la vez;<br />

• Si b0.<br />

El problema que se plantea es entonces el de cómo calcular las cantidades a y b a partir de un<br />

conjunto de n observaciones<br />

de forma que se minimice el error. Las etapas en que se divide el proceso que vamos a desarrollar<br />

son de forma esquemática, las que siguen:<br />

1.<br />

Dadas dos variables X, Y, sobre las que definimos<br />

medimos el error que se comete al aproximar Y mediante calculando la suma de las<br />

diferencias entre los valores reales y los aproximados al cuadrado (para que sean positivas y<br />

no se compensen los errores):<br />

2.<br />

Una aproximación<br />

de Y, se define a partir de dos cantidades a y b. Vamos a<br />

calcular aquellas que minimizan la función<br />

3.<br />

Posteriormente encontraremos fórmulas para el cálculo directo de a y b que sirvan para<br />

cualquier problema.


Regresión de Y sobre X<br />

Para calcular la recta de regresión de Y sobre X nos basamos en la figura<br />

Figura: Los errores a minimizar son las cantidades<br />

Una vez que tenemos definido el error de aproximación mediante la relación las cantidades que lo<br />

minimizan se calculan derivando con respecto a ambas e igualando a cero (procedimiento de los<br />

mínimos cuadrados):<br />

Resolviendo este sistema nos da las relaciones buscadas:<br />

La cantidad b se denomina coeficiente de regresión de Ysobre X.


Ejemplo<br />

En una muestra de 1.500 individuos se recogen datos sobre dos medidas antropométricas X e Y. Los<br />

resultados se muestran resumidos en los siguientes estadísticos:<br />

Obtener el modelo de regresión lineal que mejor aproxima Y en función de X. Utilizando este<br />

modelo, calcular de modo aproximado la cantidad Y esperada cuando X=15.<br />

Solución: Lo que se busca es la recta,<br />

, que mejor aproxima los valores de Y (según<br />

el criterio de los mínimos cuadrados) en la nube de puntos que resulta de representar en un plano<br />

(X,Y) las 1.500 observaciones. Los coeficientes de esta recta son:<br />

Así, el modelo lineal consiste en:<br />

Por tanto, si x=15, el modelo lineal predice un valor de Y de:<br />

En este punto hay que preguntarse si realmente esta predicción puede considerarse fiable. Para dar<br />

una respuesta, es necesario estudiar propiedades de la regresión lineal que están a continuación.<br />

Propiedades de la regresión lineal<br />

Una vez que ya tenemos perfectamente definida , nos preguntamos las relaciones que hay entre la<br />

media y la varianza de esta y la de Y (o la de X). La respuesta nos la ofrece la siguiente proposición:<br />

3.12.4.6 Proposición<br />

En los ajustes lineales se conservan las medias, es decir<br />

En cuanto a la varianza, no necesariamente son las mismas para los verdaderos valores de las<br />

variables X e Y y sus aproximaciones y , pues sólo se mantienen en un factor de r 2 , es decir,<br />

donde r es el coeficiente de correlación ya definido.


Como consecuencia de este resultado, podemos decir que la proporción de varianza explicada por<br />

la regresión lineal es del .Nos gustaría tener que r=1, pues en ese caso ambas variables<br />

tendrían la misma varianza, pero esto no es cierto en general. Todo lo que se puede afirmar, como<br />

sabemos, es que<br />

y por tanto<br />

La cantidad que le falta a la varianza de regresión, , para llegar hasta la varianza total de Y,<br />

Por ello<br />

, es lo que se denomina varianza residual, que no es más que la varianza de ,<br />

Obsérvese que entonces la bondad del ajuste es<br />

Por ello:<br />

• Si el ajuste es bueno (Y se puede calcular de modo bastante aproximado a partir de<br />

X y viceversa).<br />

• Si las variables X e Y no están relacionadas (linealmente al menos), por tanto no<br />

tiene sentido hacer un ajuste lineal. Sin embargo no es seguro que las dos variables no<br />

posean ninguna relación en el caso r=0, ya que si bien el ajuste lineal puede no ser<br />

procedente, tal vez otro tipo de ajuste sí lo sea.<br />

Ejemplo De una muestra de ocho observaciones conjuntas de valores de dos variables X e Y, se<br />

obtiene la siguiente información:<br />

Calcule:<br />

1.<br />

La recta de regresión de Y sobre X. Explique el significado de los parámetros.


2.<br />

3.<br />

El coeficiente de determinación. Comente el resultado e indique el tanto por ciento de la<br />

variación de Y que no está explicada por el modelo lineal de regresión.<br />

Si el modelo es adecuado, ¿cuál es la predicción<br />

para x=4.<br />

Solución:<br />

1.<br />

En primer lugar calculamos las medias y las covarianza entre ambas variables:<br />

Con estas cantidades podemos determinar los parámetros a y b de la recta. La pendiente de la<br />

misma es b, y mide la variación de Ycuando X aumenta en una unidad:<br />

Al ser esta cantidad negativa, tenemos que la pendiente de la recta es negativa, es decir, a<br />

medida que X aumenta, la tendencia es a la disminución de Y. En cuanto al valor de la<br />

ordenada en el origen, a, tenemos:<br />

Así, la recta de regresión de Y como función de X es:<br />

2.-<br />

El grado de bondad del ajuste lo obtenemos a partir del coeficiente de determinación:<br />

Es decir, el modelo de regresión lineal explica el<br />

de la variabilidad de Y en función de la<br />

de X. Por tanto queda un<br />

de variabilidad no explicada.<br />

3.<br />

La predicción que realiza el modelo lineal de regresión para x=4 es:


la cual hay que considerar con ciertas reservas, pues como hemos visto en el apartado<br />

anterior,hay una razonable cantidad de variabilidad que no es explicada por el modelo.<br />

Ejemplo<br />

En un grupo de 8 pacientes se miden las cantidades antropométricas peso y edad, obteniéndose los<br />

siguientes resultados:<br />

Resultado de las mediciones<br />

edad 12 8 10 11 7 7 10 14<br />

peso 58 42 51 54 40 39 49 56<br />

¿Existe una relación lineal importante entre ambas variables Calcular la recta de regresión del peso<br />

en función de la edad . Calcular la bondad del ajuste ¿En qué medida, por término medio, varía el<br />

peso cada año ¿En cuánto aumenta la edad por cada kilo de peso<br />

Solución:<br />

Para saber si existe una relación lineal entre ambas variables se calcula el coeficiente de correlación<br />

lineal, que vale:<br />

ya que<br />

Por tanto el ajuste lineal es muy bueno.<br />

La recta de regresión del peso en función de la edad es


que como se puede comprobar, no resulta de despejar en la recta de regresión de Y sobre X.<br />

La bondad del ajuste es<br />

por tanto podemos decir que el<br />

de la variabilidad del peso en función de la edad es<br />

explicada mediante la recta de regresión correspondiente. . Del mismo modo puede decirse que hay<br />

un<br />

de varianza que no es explicada por las rectas de regresión. Por tanto<br />

la varianza residual de la regresión del peso en función de la edad es<br />

Por último la cantidad en que varía el peso de un paciente cada año es, según la recta de regresión<br />

del peso en función de la edad, la pendiente de esta recta, es decir, b 1<br />

=2,8367 Kg/año. Cuando dos<br />

personas difieren en peso, en promedio la diferencia de edad entre ambas se rige por la cantidad<br />

b 2<br />

=0,3136 años/Kg de diferencia.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!