23.04.2013 Views

1 Sobre los modelos lineales mixtos Ejemplo: Recuperación de ...

1 Sobre los modelos lineales mixtos Ejemplo: Recuperación de ...

1 Sobre los modelos lineales mixtos Ejemplo: Recuperación de ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Sobre</strong> <strong>los</strong> mo<strong>de</strong><strong>los</strong> <strong>lineales</strong> <strong>mixtos</strong><br />

<strong>Ejemplo</strong>: <strong>Recuperación</strong> <strong>de</strong> infarto. Para estudiar las diferencias entre dos procedimientos<br />

diferentes <strong>de</strong> recuperación <strong>de</strong> pacientes <strong>de</strong> un infarto, se consi<strong>de</strong>raron dos grupos<br />

experimentales en sendos hospitales, <strong>de</strong> 8 pacientes cada uno. La variable respuesta es el<br />

índice <strong>de</strong> Bartel, que varía entre 0 y 100, y que constituye una medida <strong>de</strong> la habilidad<br />

funcional con la que se valoran diferentes capacida<strong>de</strong>s, <strong>de</strong> forma que valores más altos se<br />

correspon<strong>de</strong>n con una mejor situación <strong>de</strong>l paciente. De cada uno <strong>de</strong> <strong>los</strong> 16 pacientes se<br />

dispone <strong>de</strong> su respuesta cada semana a lo largo <strong>de</strong> 5 semanas consecutivas. Datos reducidos<br />

<strong>de</strong> Dobson…<br />

(Datos en recuperainfarto.txt y soluciones en recuperainfarto.pdf)<br />

Los valores <strong>de</strong> las respuesta son las puntuaciones que, <strong>de</strong> cada individuo, o cluster, obtenemos<br />

semanalmente durante cinco semanas consecutivas:<br />

Si introducimos como variable explicativa la semana, x, podríamos ajustar un mo<strong>de</strong>lo lineal <strong>de</strong><br />

la forma:<br />

Consi<strong>de</strong>rados <strong>los</strong> cluster, individuos en el ejemplo, este mo<strong>de</strong>lo lineal podría ser expresado<br />

como sigue:<br />

Cluster 1:<br />

Cluster i-ésimo:<br />

equivalentemente, podríamos <strong>de</strong>scribirlo para cualquier observación en i, j, como:<br />

don<strong>de</strong> las g son variables indicadoras <strong>de</strong> pertenencia al correspondiente cluster.<br />

Matricialmente:<br />

Esta formulación, sencilla y a<strong>de</strong>cuada en muchos contextos, pue<strong>de</strong> ser ina<strong>de</strong>cuada por<br />

diferentes razones:<br />

a) Las observaciones repetidas en cada grupo o cluster, no son necesariamente<br />

in<strong>de</strong>pendientes.<br />

b) Con frecuencia, no solo se quieren tomar <strong>de</strong>cisiones respecto <strong>de</strong> <strong>los</strong> grupos o cluster<br />

observados, sino que se quiere valorar el efecto <strong>de</strong> las variables explicativas en una<br />

población <strong>de</strong> la que <strong>los</strong> grupos son una muestra.<br />

c) Pue<strong>de</strong> ser <strong>de</strong> interés valorar la variación <strong>de</strong>l efecto <strong>de</strong> x <strong>de</strong> un grupo a otro.<br />

d) La estimación <strong>de</strong>l efecto medio <strong>de</strong> las variables explicativas en cada grupo pue<strong>de</strong> ser<br />

muy <strong>de</strong>ficiente si no se recoge la posible variabilidad entre <strong>los</strong> grupos.<br />

Por estas razones pue<strong>de</strong> ser muy conveniente la consi<strong>de</strong>ración <strong>de</strong>l cluster o grupo como una<br />

variable aleatoria, o la introducción en el mo<strong>de</strong>lo <strong>de</strong> efectos aleatorios.<br />

1


Un mo<strong>de</strong>lo lineal mixto sencillo es un mo<strong>de</strong>lo con intercept aleatorio:<br />

El mo<strong>de</strong>lo <strong>de</strong> regresión lineal (recta <strong>de</strong> regresión) presenta ahora un intercept aleatorio<br />

normal, centrado en el antiguo intercept fijo. El intercept aleatorio toma un valor diferente en<br />

cada cluster. El nuevo mo<strong>de</strong>lo <strong>de</strong> “efectos <strong>mixtos</strong>” incorpora un nuevo parámetro fijo: la<br />

varianza <strong>de</strong>l efecto aleatorio. La varianza <strong>de</strong>l efecto aleatorio recoge la variabilidad entre <strong>los</strong><br />

diferentes individuos, mientras que la varianza <strong>de</strong>l error recoge la variabilidad <strong>de</strong>ntro <strong>de</strong> cada<br />

individuo no explicada por el mo<strong>de</strong>lo. Si la varianza <strong>de</strong>l efecto aleatorio fuera nula, el mo<strong>de</strong>lo<br />

coincidiría con el mo<strong>de</strong>lo <strong>de</strong> efectos fijos o <strong>de</strong> regresión lineal.<br />

Una mayor complejidad, pero mejor ajuste a nuestras observaciones, pue<strong>de</strong>n venir dados por<br />

un mo<strong>de</strong>lo en el que intercept y pendiente sean aleatorios:<br />

Si intercept y pendiente aleatorios fueran incorrelados el mo<strong>de</strong>lo sería menos complejo, con<br />

solo cinco parámetros libres.<br />

Si utilizamos variables indicadoras <strong>de</strong> pertenencia a <strong>los</strong> clusters, po<strong>de</strong>mos emplear la<br />

expresión siguiente:<br />

En forma matricial:<br />

En general:<br />

2


En un mo<strong>de</strong>lo mixto las observaciones <strong>de</strong>l mismo cluster no son in<strong>de</strong>pendientes.<br />

Supongamos un mo<strong>de</strong>lo <strong>de</strong> intercept aleatorio:<br />

Entonces:<br />

Si el mo<strong>de</strong>lo tiene intercept y pendiente aleatorios,<br />

Entonces:<br />

(llamada correlación intraclase)<br />

Nota: La formulación <strong>de</strong> <strong>los</strong> mo<strong>de</strong><strong>los</strong> <strong>de</strong> intercept aleatorio y <strong>de</strong> intercept y pendiente<br />

aleatorios <strong>de</strong> esta página, permite ver la flexibilidad <strong>de</strong>l mo<strong>de</strong>lo mixto, utilizable en situaciones<br />

en las que podamos mo<strong>de</strong>lar <strong>los</strong> efectos fijos (o media marginal <strong>de</strong> la respuesta) mediante<br />

expresiones no <strong>lineales</strong>.<br />

3


Expresión general <strong>de</strong>l mo<strong>de</strong>lo lineal mixto<br />

Un tipo <strong>de</strong> mo<strong>de</strong><strong>los</strong> <strong>mixtos</strong> generales admiten la siguiente expresión<br />

don<strong>de</strong> <strong>los</strong> efectos fijos, o media marginal <strong>de</strong> la respuesta, pue<strong>de</strong>n correspon<strong>de</strong>r a una función<br />

lineal <strong>de</strong> ciertos parámetros, o a otras relaciones no <strong>lineales</strong>, que recojan la pertenencia <strong>de</strong><br />

dicha respuesta media marginal a cierto dominio <strong>de</strong>l espacio.<br />

Supondremos que:<br />

Distribución condicional <strong>de</strong> la respuesta, dado el efecto aleatorio:<br />

Distribuciones marginales:<br />

En un mo<strong>de</strong>lo con intercept aleatorio:<br />

La covarianza marginal <strong>de</strong> la respuesta es la matriz <strong>de</strong> bloques V:<br />

don<strong>de</strong><br />

Estimación <strong>de</strong> <strong>los</strong> parámetros <strong>de</strong>l mo<strong>de</strong>lo lineal mixto<br />

Si la media marginal <strong>de</strong> la respuesta es lineal, entonces<br />

La estimación pue<strong>de</strong> hacerse vía EMV, pero esto pue<strong>de</strong> producir estimadores con un sesgo<br />

elevado. Una alternativa es la estimación REML (máximo verosímil restringida).<br />

Si la covarianza V fuera conocida, el EMV <strong>de</strong> <strong>los</strong> parámetros betas, sería el estimador <strong>de</strong><br />

mínimos cuadrados generalizados:<br />

Pero, en general, V no es conocida. Su estimación pue<strong>de</strong> llevarse a cabo mediante el método<br />

REML. Para ello se consi<strong>de</strong>ran un conjunto <strong>de</strong> contrasts C=HY con H ortogonal a X, <strong>de</strong> modo<br />

que<br />

4


Se consi<strong>de</strong>ra entonces una “verosimilitud restringida” basada en C, que no <strong>de</strong>pen<strong>de</strong> <strong>de</strong> <strong>los</strong><br />

parámetros beta. Un algoritmo tipo scoring permite estimar las componentes <strong>de</strong> la varianza,<br />

dando lugar <strong>de</strong> esa forma al estimador REML <strong>de</strong> V. “Enchufado” dicho estimador en la<br />

expresión anterior, se obtienen <strong>los</strong> estimadores REML <strong>de</strong> <strong>los</strong> beta, y su covarianza asintótica:<br />

A la hora <strong>de</strong> hacer inferencias sobre <strong>los</strong> beta, cabe señalar que en muchas ocasiones <strong>los</strong><br />

errores estándar extraídos <strong>de</strong> <strong>los</strong> elementos diagonales <strong>de</strong> la matriz anterior son una<br />

subestimación <strong>de</strong> <strong>los</strong> verda<strong>de</strong>ros. Por ello se sugiere usar un estadístico t o F a la hora <strong>de</strong><br />

valorar si algún efecto fijo es nulo o calcular un IC para alguno <strong>de</strong> <strong>los</strong> beta, lo cual se ve<br />

dificultado a su vez por la <strong>de</strong>terminación <strong>de</strong> <strong>los</strong> gdl efectivos.<br />

Las inferencias sobre las componentes <strong>de</strong> la varianza asociadas a <strong>los</strong> efectos aleatorios, tipo<br />

wald, basadas en la normalidad asintótica <strong>de</strong> sus estimadores pue<strong>de</strong>n ser muy <strong>de</strong>ficientes.<br />

La comparación <strong>de</strong> mo<strong>de</strong><strong>los</strong> vía <strong>de</strong>viance (TRV) permite contrastar la nulidad <strong>de</strong> efectos<br />

aleatorios, en presencia <strong>de</strong> ciertos efectos fijos. Pero el problema radica en que nos<br />

encontramos en la frontera <strong>de</strong>l espacio paramétrico cuando nos interesa contrastar si la<br />

varianza <strong>de</strong> cierto efecto aleatorio es cero. Esto cuestiona el uso <strong>de</strong> las distribuciones límite<br />

chi-cuadrado, con las que generalmente obtendríamos p-valores muy conservadores (mayores<br />

<strong>de</strong> lo que <strong>de</strong>berían ser). Una alternativa la proporcionan <strong>los</strong> tests bootstrap paramétricos.<br />

La comparación <strong>de</strong> dos mo<strong>de</strong><strong>los</strong> anidados que solo difieran en <strong>los</strong> efectos fijos <strong>de</strong>bería llevarse<br />

a cabo <strong>de</strong>spués <strong>de</strong> ajustar ambos mo<strong>de</strong><strong>los</strong> mediante EMV (no REML). Si ajustamos REML<br />

estamos usando una verosimilitud <strong>de</strong> una “respuesta” transformada diferente en cada mo<strong>de</strong>lo,<br />

y eso dificulta la comparación. Pero la aproximación chi-cuadrado <strong>de</strong>l correspondiente TRV es<br />

generalmente muy <strong>de</strong>ficiente, siendo aplicable un test bootstrap paramétrico, para obtener<br />

una aproximación al p-valor.<br />

Predicción <strong>de</strong> <strong>los</strong> efectos aleatorios<br />

A<strong>de</strong>más <strong>de</strong>l interés en la estimación <strong>de</strong> <strong>los</strong> parámetros fijos <strong>de</strong>l mo<strong>de</strong>lo, que incluye las<br />

componentes <strong>de</strong> la varianza, a menudo es también <strong>de</strong> interés la predicción <strong>de</strong> <strong>los</strong> efectos<br />

aleatorios o estimación <strong>de</strong> <strong>los</strong> “parámetros aleatorios”.<br />

La consi<strong>de</strong>ración <strong>de</strong>l mo<strong>de</strong>lo mixto en dos niveles: 1) distribución condicional <strong>de</strong> la respuesta<br />

dado el efecto aleatorio y 2) distribución marginal <strong>de</strong>l efecto aleatorio, permite <strong>de</strong>finir una<br />

verosimilitud extendida conjunta, también llamada jerárquica, <strong>de</strong> <strong>los</strong> parámetros fijos y <strong>de</strong> <strong>los</strong><br />

aleatorios. La maximización <strong>de</strong> esta verosimilitud jerárquica en <strong>los</strong> parámetros aleatorios, da<br />

lugar a la obtención <strong>de</strong> <strong>los</strong> estimadores BLUP, <strong>de</strong>pendientes <strong>de</strong> <strong>los</strong> parámetros fijos <strong>de</strong>l<br />

mo<strong>de</strong>lo. Si en <strong>los</strong> BLUP “enchufamos” estimadores <strong>de</strong> <strong>los</strong> parámetros fijos se tienen <strong>los</strong><br />

predictores o estimadores empíricos EBLUP, que son <strong>los</strong> que generalmente se utilizan como<br />

predictores <strong>de</strong> <strong>los</strong> efectos aleatorios, y que permiten obtener <strong>los</strong> correspondientes EBLUP <strong>de</strong><br />

las respuestas medias en cada cluster.<br />

Otra forma <strong>de</strong> obtener <strong>los</strong> BLUP consiste en consi<strong>de</strong>rar que, si bien <strong>los</strong> efectos aleatorios no<br />

son observables, pue<strong>de</strong>n ser predichos a través <strong>de</strong> su valor esperado condicionado por lo<br />

observado, esto es, condicionado por la respuesta observada. Este método <strong>de</strong>scansa en<br />

algunos resultados acerca <strong>de</strong> la normal multivariante. Veamos:<br />

Dado un vector aleatorio normal, no es difícil obtener la distribución condicional <strong>de</strong> una<br />

componente <strong>de</strong>l vector por otra, tal y como se expone en <strong>los</strong> siguientes resultados:<br />

5


Supongamos que X es un vector aleatorio con covarianza d.p.<br />

entonces<br />

Si a<strong>de</strong>más la distribución conjunta es normal, esto es:<br />

entonces,<br />

in<strong>de</strong>pendiente <strong>de</strong> X2.<br />

Como consecuencia, se tiene la siguiente distribución condicional:<br />

Aplicaremos este último resultado para obtener la media condicional <strong>de</strong> <strong>los</strong> efectos aleatorios<br />

por el valor observado <strong>de</strong> la respuesta.<br />

La distribución conjunta <strong>de</strong> respuesta y efectos aleatorios es normal:<br />

Con la notación empleada anteriormente, para las distribuciones condicionada y marginales,<br />

po<strong>de</strong>mos i<strong>de</strong>ntificar:<br />

Por consiguiente,<br />

Po<strong>de</strong>mos ahora aplicar el resultado sobre la distribución condicional <strong>de</strong> dos elementos <strong>de</strong> la<br />

normal multivariente, <strong>de</strong> modo que:<br />

lo que constituye el mejor predictor lineal insesgado, BLUP, <strong>de</strong> <strong>los</strong> efectos aleatorios.<br />

6


La estimación <strong>de</strong> <strong>los</strong> parámetros, en general <strong>de</strong>sconocidos, en el BLUP, nos proporciona el<br />

predictor empírico, EBLUP, <strong>de</strong> <strong>los</strong> efectos aleatorios:<br />

La predicción <strong>de</strong> la respuesta media condicionada por <strong>los</strong> efectos aleatorios viene dada<br />

entonces por:<br />

Se pue<strong>de</strong> ver que cada componente es una combinación lineal convexa <strong>de</strong> la respuesta<br />

observada y <strong>de</strong>l efecto fijo estimado.<br />

En el caso <strong>de</strong> un mo<strong>de</strong>lo con intercept aleatorio, el estimador BLUP <strong>de</strong>l efecto aleatorio es:<br />

Se pue<strong>de</strong> ver que el BLUP produce un “shrinkage” <strong>de</strong>l efecto cluster hacia la media 0.<br />

La predicción <strong>de</strong> la respuesta media en cada cluster viene dada por la combinación lineal<br />

convexa siguiente:<br />

Si la varianza <strong>de</strong>l efecto aleatorio es gran<strong>de</strong> respecto <strong>de</strong> la varianza <strong>de</strong>l error, esto es, si la<br />

información <strong>de</strong> <strong>los</strong> datos sobre la media en cada cluster es alta, entonces el coeficiente <strong>de</strong> la<br />

media muestral <strong>de</strong>l cluster es alto y por tanto la respuesta media predicha por el mo<strong>de</strong>lo está<br />

próxima a la media muestral <strong>de</strong>l cluster.<br />

7

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!