1 Sobre los modelos lineales mixtos Ejemplo: Recuperación de ...
1 Sobre los modelos lineales mixtos Ejemplo: Recuperación de ...
1 Sobre los modelos lineales mixtos Ejemplo: Recuperación de ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
<strong>Sobre</strong> <strong>los</strong> mo<strong>de</strong><strong>los</strong> <strong>lineales</strong> <strong>mixtos</strong><br />
<strong>Ejemplo</strong>: <strong>Recuperación</strong> <strong>de</strong> infarto. Para estudiar las diferencias entre dos procedimientos<br />
diferentes <strong>de</strong> recuperación <strong>de</strong> pacientes <strong>de</strong> un infarto, se consi<strong>de</strong>raron dos grupos<br />
experimentales en sendos hospitales, <strong>de</strong> 8 pacientes cada uno. La variable respuesta es el<br />
índice <strong>de</strong> Bartel, que varía entre 0 y 100, y que constituye una medida <strong>de</strong> la habilidad<br />
funcional con la que se valoran diferentes capacida<strong>de</strong>s, <strong>de</strong> forma que valores más altos se<br />
correspon<strong>de</strong>n con una mejor situación <strong>de</strong>l paciente. De cada uno <strong>de</strong> <strong>los</strong> 16 pacientes se<br />
dispone <strong>de</strong> su respuesta cada semana a lo largo <strong>de</strong> 5 semanas consecutivas. Datos reducidos<br />
<strong>de</strong> Dobson…<br />
(Datos en recuperainfarto.txt y soluciones en recuperainfarto.pdf)<br />
Los valores <strong>de</strong> las respuesta son las puntuaciones que, <strong>de</strong> cada individuo, o cluster, obtenemos<br />
semanalmente durante cinco semanas consecutivas:<br />
Si introducimos como variable explicativa la semana, x, podríamos ajustar un mo<strong>de</strong>lo lineal <strong>de</strong><br />
la forma:<br />
Consi<strong>de</strong>rados <strong>los</strong> cluster, individuos en el ejemplo, este mo<strong>de</strong>lo lineal podría ser expresado<br />
como sigue:<br />
Cluster 1:<br />
Cluster i-ésimo:<br />
equivalentemente, podríamos <strong>de</strong>scribirlo para cualquier observación en i, j, como:<br />
don<strong>de</strong> las g son variables indicadoras <strong>de</strong> pertenencia al correspondiente cluster.<br />
Matricialmente:<br />
Esta formulación, sencilla y a<strong>de</strong>cuada en muchos contextos, pue<strong>de</strong> ser ina<strong>de</strong>cuada por<br />
diferentes razones:<br />
a) Las observaciones repetidas en cada grupo o cluster, no son necesariamente<br />
in<strong>de</strong>pendientes.<br />
b) Con frecuencia, no solo se quieren tomar <strong>de</strong>cisiones respecto <strong>de</strong> <strong>los</strong> grupos o cluster<br />
observados, sino que se quiere valorar el efecto <strong>de</strong> las variables explicativas en una<br />
población <strong>de</strong> la que <strong>los</strong> grupos son una muestra.<br />
c) Pue<strong>de</strong> ser <strong>de</strong> interés valorar la variación <strong>de</strong>l efecto <strong>de</strong> x <strong>de</strong> un grupo a otro.<br />
d) La estimación <strong>de</strong>l efecto medio <strong>de</strong> las variables explicativas en cada grupo pue<strong>de</strong> ser<br />
muy <strong>de</strong>ficiente si no se recoge la posible variabilidad entre <strong>los</strong> grupos.<br />
Por estas razones pue<strong>de</strong> ser muy conveniente la consi<strong>de</strong>ración <strong>de</strong>l cluster o grupo como una<br />
variable aleatoria, o la introducción en el mo<strong>de</strong>lo <strong>de</strong> efectos aleatorios.<br />
1
Un mo<strong>de</strong>lo lineal mixto sencillo es un mo<strong>de</strong>lo con intercept aleatorio:<br />
El mo<strong>de</strong>lo <strong>de</strong> regresión lineal (recta <strong>de</strong> regresión) presenta ahora un intercept aleatorio<br />
normal, centrado en el antiguo intercept fijo. El intercept aleatorio toma un valor diferente en<br />
cada cluster. El nuevo mo<strong>de</strong>lo <strong>de</strong> “efectos <strong>mixtos</strong>” incorpora un nuevo parámetro fijo: la<br />
varianza <strong>de</strong>l efecto aleatorio. La varianza <strong>de</strong>l efecto aleatorio recoge la variabilidad entre <strong>los</strong><br />
diferentes individuos, mientras que la varianza <strong>de</strong>l error recoge la variabilidad <strong>de</strong>ntro <strong>de</strong> cada<br />
individuo no explicada por el mo<strong>de</strong>lo. Si la varianza <strong>de</strong>l efecto aleatorio fuera nula, el mo<strong>de</strong>lo<br />
coincidiría con el mo<strong>de</strong>lo <strong>de</strong> efectos fijos o <strong>de</strong> regresión lineal.<br />
Una mayor complejidad, pero mejor ajuste a nuestras observaciones, pue<strong>de</strong>n venir dados por<br />
un mo<strong>de</strong>lo en el que intercept y pendiente sean aleatorios:<br />
Si intercept y pendiente aleatorios fueran incorrelados el mo<strong>de</strong>lo sería menos complejo, con<br />
solo cinco parámetros libres.<br />
Si utilizamos variables indicadoras <strong>de</strong> pertenencia a <strong>los</strong> clusters, po<strong>de</strong>mos emplear la<br />
expresión siguiente:<br />
En forma matricial:<br />
En general:<br />
2
En un mo<strong>de</strong>lo mixto las observaciones <strong>de</strong>l mismo cluster no son in<strong>de</strong>pendientes.<br />
Supongamos un mo<strong>de</strong>lo <strong>de</strong> intercept aleatorio:<br />
Entonces:<br />
Si el mo<strong>de</strong>lo tiene intercept y pendiente aleatorios,<br />
Entonces:<br />
(llamada correlación intraclase)<br />
Nota: La formulación <strong>de</strong> <strong>los</strong> mo<strong>de</strong><strong>los</strong> <strong>de</strong> intercept aleatorio y <strong>de</strong> intercept y pendiente<br />
aleatorios <strong>de</strong> esta página, permite ver la flexibilidad <strong>de</strong>l mo<strong>de</strong>lo mixto, utilizable en situaciones<br />
en las que podamos mo<strong>de</strong>lar <strong>los</strong> efectos fijos (o media marginal <strong>de</strong> la respuesta) mediante<br />
expresiones no <strong>lineales</strong>.<br />
3
Expresión general <strong>de</strong>l mo<strong>de</strong>lo lineal mixto<br />
Un tipo <strong>de</strong> mo<strong>de</strong><strong>los</strong> <strong>mixtos</strong> generales admiten la siguiente expresión<br />
don<strong>de</strong> <strong>los</strong> efectos fijos, o media marginal <strong>de</strong> la respuesta, pue<strong>de</strong>n correspon<strong>de</strong>r a una función<br />
lineal <strong>de</strong> ciertos parámetros, o a otras relaciones no <strong>lineales</strong>, que recojan la pertenencia <strong>de</strong><br />
dicha respuesta media marginal a cierto dominio <strong>de</strong>l espacio.<br />
Supondremos que:<br />
Distribución condicional <strong>de</strong> la respuesta, dado el efecto aleatorio:<br />
Distribuciones marginales:<br />
En un mo<strong>de</strong>lo con intercept aleatorio:<br />
La covarianza marginal <strong>de</strong> la respuesta es la matriz <strong>de</strong> bloques V:<br />
don<strong>de</strong><br />
Estimación <strong>de</strong> <strong>los</strong> parámetros <strong>de</strong>l mo<strong>de</strong>lo lineal mixto<br />
Si la media marginal <strong>de</strong> la respuesta es lineal, entonces<br />
La estimación pue<strong>de</strong> hacerse vía EMV, pero esto pue<strong>de</strong> producir estimadores con un sesgo<br />
elevado. Una alternativa es la estimación REML (máximo verosímil restringida).<br />
Si la covarianza V fuera conocida, el EMV <strong>de</strong> <strong>los</strong> parámetros betas, sería el estimador <strong>de</strong><br />
mínimos cuadrados generalizados:<br />
Pero, en general, V no es conocida. Su estimación pue<strong>de</strong> llevarse a cabo mediante el método<br />
REML. Para ello se consi<strong>de</strong>ran un conjunto <strong>de</strong> contrasts C=HY con H ortogonal a X, <strong>de</strong> modo<br />
que<br />
4
Se consi<strong>de</strong>ra entonces una “verosimilitud restringida” basada en C, que no <strong>de</strong>pen<strong>de</strong> <strong>de</strong> <strong>los</strong><br />
parámetros beta. Un algoritmo tipo scoring permite estimar las componentes <strong>de</strong> la varianza,<br />
dando lugar <strong>de</strong> esa forma al estimador REML <strong>de</strong> V. “Enchufado” dicho estimador en la<br />
expresión anterior, se obtienen <strong>los</strong> estimadores REML <strong>de</strong> <strong>los</strong> beta, y su covarianza asintótica:<br />
A la hora <strong>de</strong> hacer inferencias sobre <strong>los</strong> beta, cabe señalar que en muchas ocasiones <strong>los</strong><br />
errores estándar extraídos <strong>de</strong> <strong>los</strong> elementos diagonales <strong>de</strong> la matriz anterior son una<br />
subestimación <strong>de</strong> <strong>los</strong> verda<strong>de</strong>ros. Por ello se sugiere usar un estadístico t o F a la hora <strong>de</strong><br />
valorar si algún efecto fijo es nulo o calcular un IC para alguno <strong>de</strong> <strong>los</strong> beta, lo cual se ve<br />
dificultado a su vez por la <strong>de</strong>terminación <strong>de</strong> <strong>los</strong> gdl efectivos.<br />
Las inferencias sobre las componentes <strong>de</strong> la varianza asociadas a <strong>los</strong> efectos aleatorios, tipo<br />
wald, basadas en la normalidad asintótica <strong>de</strong> sus estimadores pue<strong>de</strong>n ser muy <strong>de</strong>ficientes.<br />
La comparación <strong>de</strong> mo<strong>de</strong><strong>los</strong> vía <strong>de</strong>viance (TRV) permite contrastar la nulidad <strong>de</strong> efectos<br />
aleatorios, en presencia <strong>de</strong> ciertos efectos fijos. Pero el problema radica en que nos<br />
encontramos en la frontera <strong>de</strong>l espacio paramétrico cuando nos interesa contrastar si la<br />
varianza <strong>de</strong> cierto efecto aleatorio es cero. Esto cuestiona el uso <strong>de</strong> las distribuciones límite<br />
chi-cuadrado, con las que generalmente obtendríamos p-valores muy conservadores (mayores<br />
<strong>de</strong> lo que <strong>de</strong>berían ser). Una alternativa la proporcionan <strong>los</strong> tests bootstrap paramétricos.<br />
La comparación <strong>de</strong> dos mo<strong>de</strong><strong>los</strong> anidados que solo difieran en <strong>los</strong> efectos fijos <strong>de</strong>bería llevarse<br />
a cabo <strong>de</strong>spués <strong>de</strong> ajustar ambos mo<strong>de</strong><strong>los</strong> mediante EMV (no REML). Si ajustamos REML<br />
estamos usando una verosimilitud <strong>de</strong> una “respuesta” transformada diferente en cada mo<strong>de</strong>lo,<br />
y eso dificulta la comparación. Pero la aproximación chi-cuadrado <strong>de</strong>l correspondiente TRV es<br />
generalmente muy <strong>de</strong>ficiente, siendo aplicable un test bootstrap paramétrico, para obtener<br />
una aproximación al p-valor.<br />
Predicción <strong>de</strong> <strong>los</strong> efectos aleatorios<br />
A<strong>de</strong>más <strong>de</strong>l interés en la estimación <strong>de</strong> <strong>los</strong> parámetros fijos <strong>de</strong>l mo<strong>de</strong>lo, que incluye las<br />
componentes <strong>de</strong> la varianza, a menudo es también <strong>de</strong> interés la predicción <strong>de</strong> <strong>los</strong> efectos<br />
aleatorios o estimación <strong>de</strong> <strong>los</strong> “parámetros aleatorios”.<br />
La consi<strong>de</strong>ración <strong>de</strong>l mo<strong>de</strong>lo mixto en dos niveles: 1) distribución condicional <strong>de</strong> la respuesta<br />
dado el efecto aleatorio y 2) distribución marginal <strong>de</strong>l efecto aleatorio, permite <strong>de</strong>finir una<br />
verosimilitud extendida conjunta, también llamada jerárquica, <strong>de</strong> <strong>los</strong> parámetros fijos y <strong>de</strong> <strong>los</strong><br />
aleatorios. La maximización <strong>de</strong> esta verosimilitud jerárquica en <strong>los</strong> parámetros aleatorios, da<br />
lugar a la obtención <strong>de</strong> <strong>los</strong> estimadores BLUP, <strong>de</strong>pendientes <strong>de</strong> <strong>los</strong> parámetros fijos <strong>de</strong>l<br />
mo<strong>de</strong>lo. Si en <strong>los</strong> BLUP “enchufamos” estimadores <strong>de</strong> <strong>los</strong> parámetros fijos se tienen <strong>los</strong><br />
predictores o estimadores empíricos EBLUP, que son <strong>los</strong> que generalmente se utilizan como<br />
predictores <strong>de</strong> <strong>los</strong> efectos aleatorios, y que permiten obtener <strong>los</strong> correspondientes EBLUP <strong>de</strong><br />
las respuestas medias en cada cluster.<br />
Otra forma <strong>de</strong> obtener <strong>los</strong> BLUP consiste en consi<strong>de</strong>rar que, si bien <strong>los</strong> efectos aleatorios no<br />
son observables, pue<strong>de</strong>n ser predichos a través <strong>de</strong> su valor esperado condicionado por lo<br />
observado, esto es, condicionado por la respuesta observada. Este método <strong>de</strong>scansa en<br />
algunos resultados acerca <strong>de</strong> la normal multivariante. Veamos:<br />
Dado un vector aleatorio normal, no es difícil obtener la distribución condicional <strong>de</strong> una<br />
componente <strong>de</strong>l vector por otra, tal y como se expone en <strong>los</strong> siguientes resultados:<br />
5
Supongamos que X es un vector aleatorio con covarianza d.p.<br />
entonces<br />
Si a<strong>de</strong>más la distribución conjunta es normal, esto es:<br />
entonces,<br />
in<strong>de</strong>pendiente <strong>de</strong> X2.<br />
Como consecuencia, se tiene la siguiente distribución condicional:<br />
Aplicaremos este último resultado para obtener la media condicional <strong>de</strong> <strong>los</strong> efectos aleatorios<br />
por el valor observado <strong>de</strong> la respuesta.<br />
La distribución conjunta <strong>de</strong> respuesta y efectos aleatorios es normal:<br />
Con la notación empleada anteriormente, para las distribuciones condicionada y marginales,<br />
po<strong>de</strong>mos i<strong>de</strong>ntificar:<br />
Por consiguiente,<br />
Po<strong>de</strong>mos ahora aplicar el resultado sobre la distribución condicional <strong>de</strong> dos elementos <strong>de</strong> la<br />
normal multivariente, <strong>de</strong> modo que:<br />
lo que constituye el mejor predictor lineal insesgado, BLUP, <strong>de</strong> <strong>los</strong> efectos aleatorios.<br />
6
La estimación <strong>de</strong> <strong>los</strong> parámetros, en general <strong>de</strong>sconocidos, en el BLUP, nos proporciona el<br />
predictor empírico, EBLUP, <strong>de</strong> <strong>los</strong> efectos aleatorios:<br />
La predicción <strong>de</strong> la respuesta media condicionada por <strong>los</strong> efectos aleatorios viene dada<br />
entonces por:<br />
Se pue<strong>de</strong> ver que cada componente es una combinación lineal convexa <strong>de</strong> la respuesta<br />
observada y <strong>de</strong>l efecto fijo estimado.<br />
En el caso <strong>de</strong> un mo<strong>de</strong>lo con intercept aleatorio, el estimador BLUP <strong>de</strong>l efecto aleatorio es:<br />
Se pue<strong>de</strong> ver que el BLUP produce un “shrinkage” <strong>de</strong>l efecto cluster hacia la media 0.<br />
La predicción <strong>de</strong> la respuesta media en cada cluster viene dada por la combinación lineal<br />
convexa siguiente:<br />
Si la varianza <strong>de</strong>l efecto aleatorio es gran<strong>de</strong> respecto <strong>de</strong> la varianza <strong>de</strong>l error, esto es, si la<br />
información <strong>de</strong> <strong>los</strong> datos sobre la media en cada cluster es alta, entonces el coeficiente <strong>de</strong> la<br />
media muestral <strong>de</strong>l cluster es alto y por tanto la respuesta media predicha por el mo<strong>de</strong>lo está<br />
próxima a la media muestral <strong>de</strong>l cluster.<br />
7