11.07.2015 Views

Análisis de tablas de contingencia de más de 2 variables - SEH-Lelha

Análisis de tablas de contingencia de más de 2 variables - SEH-Lelha

Análisis de tablas de contingencia de más de 2 variables - SEH-Lelha

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

variable, como si no existiera, es <strong>de</strong>cir juntando todas las columnas) ya la proporción total <strong>de</strong> sujetosen la categoría j para la variable columnas (juntando todas las filas). Hemos visto más arriba que bajo lahipótesis <strong>de</strong> in<strong>de</strong>pen<strong>de</strong>ncia la proporción <strong>de</strong> cada celda se estima como:Y por lo tanto para estimar la frecuencia F ij multiplicaremos por el tamaño global NSi tomamos logaritmos obtenemos:Vamos a llamar X a la variable representada en las filas, Y a la variable correspondiente a las columnas. Lafórmula anterior, que representa el mo<strong>de</strong>lo matemático para estimar la frecuencia <strong>de</strong> cada celda en la hipótesis<strong>de</strong> in<strong>de</strong>pen<strong>de</strong>ncia, la reescribimos entonces como sigue:don<strong>de</strong> cada sumando se correspon<strong>de</strong> directamente con los <strong>de</strong> la fórmula anterior.En este mo<strong>de</strong>lo po<strong>de</strong>mos introducir un tercer término para consi<strong>de</strong>rar la presencia <strong>de</strong> asociación, y tendremosentonces un mo<strong>de</strong>lo en el que ya no se cumpliría la hipótesis <strong>de</strong> in<strong>de</strong>pen<strong>de</strong>ncia:Por lo tanto la hipótesis <strong>de</strong> in<strong>de</strong>pen<strong>de</strong>ncia es equivalente a plantearSi estuviéramos analizando tres <strong>variables</strong>, añadimos una tercera con nombre Z, po<strong>de</strong>mos generalizar elmo<strong>de</strong>lo anterior:Este tipo <strong>de</strong> mo<strong>de</strong>los se conoce con el nombre <strong>de</strong> mo<strong>de</strong>los log−lineales.3


Antes <strong>de</strong> volver con nuestro ejemplo, en el que analizábamos las <strong>variables</strong> hipertensión, nivel <strong>de</strong> estudios yedad, vamos a plantear otro ejemplo también con 3 dimensiones, pero más sencillo en cuanto al número <strong>de</strong>categorías <strong>de</strong> cada variable, en la que se estudia la proporción <strong>de</strong> mujeres admitidas en una <strong>de</strong>terminadaUniversidad frente a la proporción <strong>de</strong> hombres:Tabla 2NO ADMITIDOS SI ADMITIDOS % ADMITIDOS TotalHOMBRE 1493 1198 45 2691MUJER 1278 557 30 1835Total 2771 1755 4526* Datos tomados <strong>de</strong>l libro <strong>de</strong> Powers y Xie, correspondientes a un estudio realizado en la Universidad <strong>de</strong>California−Berkeley (Bickel et al. 1975; Freedman, Pisani, and Purves 1978)En base a estos datos se plantea una <strong>de</strong>manda a la citada Universidad acusándola <strong>de</strong> sexista en las pruebas <strong>de</strong>admisión, que parecen favorecer claramente a los hombres. Sin embargo los responsables <strong>de</strong> la Universidadpresentaron los datos distribuidos por faculta<strong>de</strong>s (vamos a <strong>de</strong>nominar a las diferentes faculta<strong>de</strong>s <strong>de</strong> formagenérica con las letras A hasta F):Tabla 3HOMBRES Total presentados % AdmitidosA 825 62B 560 63C 325 37D 417 33E 191 28F 373 6Total 2691MUJERESTotal presentadas % AdmitidasA 108 82B 25 68C 593 34D 375 35E 393 24F 341 7Total 1835don<strong>de</strong> se pue<strong>de</strong> ver que apenas hay diferencias en las tasas <strong>de</strong> admisión, salvo en la facultad A ¡don<strong>de</strong> elporcentaje <strong>de</strong> hombres admitidos es <strong>de</strong>l 62% y el <strong>de</strong> mujeres es <strong>de</strong>l 82%! Tenemos aquí un ejemplo claro <strong>de</strong>cómo la asociación entre dos <strong>variables</strong> cualitativas resulta ser espuria cuando se consi<strong>de</strong>ra los valores <strong>de</strong> unatercera variable, situación que se conoce como Paradoja <strong>de</strong> Simpson y que también se pue<strong>de</strong> dar en <strong>variables</strong>cuantitativas.Para analizar este tipo <strong>de</strong> <strong>tablas</strong> multidimensionales utilizaremos los mo<strong>de</strong>los log−lineales planteados másarriba. Para tres <strong>variables</strong> X,Y,Z po<strong>de</strong>mos ajustar a nuestros datos diferentes mo<strong>de</strong>los:4


Tabla 4Mo<strong>de</strong>lo (X,Y,Z): todas las <strong>variables</strong> son mutuamente in<strong>de</strong>pendientes, X Y soni<strong>de</strong>pendientes, X Z son in<strong>de</strong>pendientes, Y Z son in<strong>de</strong>pendientes, no existiendoasociación entre ellas, por lo que el mo<strong>de</strong>lo queda reducido aMo<strong>de</strong>lo (X,YZ). En este mo<strong>de</strong>lo sólo se consi<strong>de</strong>ra la asociación YZ. X esin<strong>de</strong>pendiente <strong>de</strong> las otras dos <strong>variables</strong>Mo<strong>de</strong>lo (XY,YZ). X es in<strong>de</strong>pendiente <strong>de</strong> Z para cada valor <strong>de</strong> Y.Mo<strong>de</strong>lo (XY,YZ,XZ). Existe asociación dos a dos entre todas las <strong>variables</strong>, pero nose consi<strong>de</strong>ra asociación conjunta entre las tres, <strong>de</strong> tal manera que la asociaciónentre dos <strong>de</strong> las <strong>variables</strong> es homogénea, no cambia, para cada nivel <strong>de</strong> la otravariable.Mo<strong>de</strong>lo (XYZ). Si el mo<strong>de</strong>lo anterior no se ajusta bien a los datos quiere <strong>de</strong>cir quehay que consi<strong>de</strong>rar la asociación <strong>de</strong> las tres <strong>variables</strong>, <strong>de</strong> tal manera que laasociación entre dos <strong>de</strong> ellas no es homogénea cuando cambia el nivel <strong>de</strong> la otravariable.Selección <strong>de</strong>l mo<strong>de</strong>loProce<strong>de</strong>remos a ajustar diferentes mo<strong>de</strong>los a nuestros datos y ver cuál se a<strong>de</strong>cua mejor a los valoresobservados.Para contrastar dos mo<strong>de</strong>los diferentes se utiliza el estadístico <strong>de</strong>nominado cociente <strong>de</strong> verosimilitud(likelihood ratio), que se calcula como:don<strong>de</strong> f es la frecuencia observada y F la frecuencia esperada según el mo<strong>de</strong>lo. Este estadístico se distribuyesegún una chi² en la hipótesis <strong>de</strong> que el mo<strong>de</strong>lo es correcto, con grados <strong>de</strong> libertad que <strong>de</strong>pen<strong>de</strong>n <strong>de</strong> losparámetros utilizados para ajustar el mo<strong>de</strong>lo. En la salida <strong>de</strong> los programa <strong>de</strong> estadística ingleses se suelepresentar también como Deviance (<strong>de</strong>sviación respecto al mo<strong>de</strong>lo observado, también conocido como5


mo<strong>de</strong>lo saturado, porque en él se incluyen todos los términos <strong>de</strong> asociación posibles y se ajusta por tantoperfectamente a los datos observados). Valores elevados <strong>de</strong> G² reflejan un mal ajuste <strong>de</strong>l mo<strong>de</strong>lo a los datos,lo que correspon<strong>de</strong>rá a un valor <strong>de</strong> probabilidad bajo.Ajustando diferentes mo<strong>de</strong>los para nuestro ejemplo <strong>de</strong> admisión en la Universidad obtenemos los valoresrecogidos en la siguiente tabla:Tabla 5S=Sexo, F=Facultad, A=AdmitidoMo<strong>de</strong>lo G² gl PS,F,A 2097.7 16 0.0000SF,A 877.1 11 0.0000SF,AF 21.7 6 0.0014SF,AF,SA 20.2 5 0.0011Como vemos el primer mo<strong>de</strong>lo, que supone in<strong>de</strong>pen<strong>de</strong>ncia entre todas las <strong>variables</strong>, se ajusta muy mal a losdatos obtenidos en nuestro estudio. En el segundo mo<strong>de</strong>lo, para el que la admisión A es in<strong>de</strong>pendiente <strong>de</strong> lasotras <strong>variables</strong>, que sí se consi<strong>de</strong>ran asociadas (Sexo y Facultad), el ajuste mejora consi<strong>de</strong>rablemente, ymucho más con el tercer mo<strong>de</strong>lo, aunque las diferencias <strong>de</strong> las frecuencias estimadas con respecto a lasobservadas todavía resultan estadísticamente significativas en el contraste G² frente al mo<strong>de</strong>lo saturado(p=0.0014).Volvamos ahora sobre el primer ejemplo que planteamos al comienzo <strong>de</strong>l artículo −pacientes diabéticos−, enel que se consi<strong>de</strong>raban las <strong>variables</strong> E: Edad, C: Nivel cultural e H: hipertensión, y calculemos losestadísticos <strong>de</strong> ajuste correspondientes a diferentes mo<strong>de</strong>los posiblesMo<strong>de</strong>lo G²Tabla 6gl PE,C,H 232.2 50 0.0000EC,H 108.2 44 0.0000HE,CE 34.9 32 0.33Nota: Hemos llamado a la variable ESTUDIOS con la letra C, <strong>de</strong> Nivel Cultural, aunque no es lo mismo,porque la letra E la hemos tomado para la EDADVemos que el mo<strong>de</strong>lo HE,CE se ajusta bastante bien a nuestros datos (p=0.33), por lo que po<strong>de</strong>mosconsi<strong>de</strong>rar que el nivel <strong>de</strong> hipertensión en nuestra muestra NO se asocia con el nivel cultural en cada grupo <strong>de</strong>edad. De nuevo todo lo contrario <strong>de</strong> lo que se concluía si se consi<strong>de</strong>raba únicamente las <strong>variables</strong> hipertensióny nivel cultural.Indice <strong>de</strong> discrepanciaVolviendo otra vez sobre el ejemplo <strong>de</strong> Admisión en la Universidad, vemos en la tabla 5 que aunque elmo<strong>de</strong>lo (SF,AF) mejora consi<strong>de</strong>rablemente el ajuste frente al mo<strong>de</strong>lo <strong>de</strong> in<strong>de</strong>pen<strong>de</strong>ncia <strong>de</strong> todas las <strong>variables</strong>(S,F,A), sin embargo sigue siendo estadísticamente significativo el contraste con respecto al mo<strong>de</strong>lo saturado(frecuencias observadas). En este ejemplo estamos trabajando con una muestra bastante gra<strong>de</strong>, <strong>de</strong> 4526 sujetosy en estos casos pue<strong>de</strong> ocurrir que diferencias <strong>de</strong> escasa importancia práctica, sin embargo resultenestadísticamente significativas. Si representáramos los valores <strong>de</strong> frecuencias estimados por este mo<strong>de</strong>lo y losobservados, veríamos que no hay gran<strong>de</strong>s diferencias (no los presentamos aquí para no alargar la extensión <strong>de</strong>este artículo).6


Buscando alguna otra alternativa para valorar el ajuste, po<strong>de</strong>mos <strong>de</strong>finir un índice <strong>de</strong> discrepancia(dissimilarity in<strong>de</strong>x)que correspon<strong>de</strong> a la media <strong>de</strong> las diferencias entre las frecuencias observadas y las previstas por el mo<strong>de</strong>lo,en valor absoluto. Este índice pue<strong>de</strong> tomar valores entre 0 y 1, correspondiendo los valores más pequeños a unmejor ajuste <strong>de</strong>l mo<strong>de</strong>lo a los datos.También po<strong>de</strong>mos interpretarlo como la proporción <strong>de</strong> casos a los que hay que cambiar la clasificación paraobtener un ajuste perfecto. Valores inferiores a 0.02 o 0.03 reflejan un buen ajuste.En el ejemplo <strong>de</strong> admisión a la universidad, con el mo<strong>de</strong>lo (SF,AF), en el que las <strong>variables</strong> SEXO yADMISION son in<strong>de</strong>pendientes para cada categoría <strong>de</strong> la variable FACULTAD, se obtiene un índice <strong>de</strong>discrepancia <strong>de</strong> 0.016; lo que quiere <strong>de</strong>cir que con este mo<strong>de</strong>lo hay que cambiar la clasificación <strong>de</strong> menos <strong>de</strong>l2 % <strong>de</strong> los sujetos para obtener un ajuste perfecto; lo que ilustra claramente que en este ejemplo lasignificación estadística está <strong>de</strong>tectando diferencias entre el mo<strong>de</strong>lo y los datos <strong>de</strong> poca importancia práctica,<strong>de</strong>bido al gran tamaño <strong>de</strong> muestra <strong>de</strong>l estudio (4526 sujetos).Comparación entre dos mo<strong>de</strong>losPo<strong>de</strong>mos comparar dos mo<strong>de</strong>los log−lineales calculando la diferencia entre los valores <strong>de</strong> G² obtenido, lo queequivale al cociente <strong>de</strong> verosimilitud, y se distribuye aproximadamente como una chi² con grados <strong>de</strong> libertadigual a la diferencia entre los grados <strong>de</strong> libertad <strong>de</strong> los mo<strong>de</strong>los. Así en el ejemplo <strong>de</strong> la Admisión en laUniversidad, si queremos contrastar si existen diferencias significativas en el ajuste entre los mo<strong>de</strong>los (SF,AF)y (SF,AF,SA), con los datos <strong>de</strong> la tabla 5 calculamos:G²(SF,AF) − G²(SF,AF,SA) = 21.7 − 20.2 = 1.5que para una chi² con 6−5=1 gl correspon<strong>de</strong> a un nivel <strong>de</strong> probabilidad <strong>de</strong> 0.22, y por lo tanto po<strong>de</strong>mosconcluir que no existen diferencias significativas entre los ajustes logrados con ambos mo<strong>de</strong>los.Criterio Bayesiano <strong>de</strong> InformaciónComo se ha comentado en el párrafo anterior, la utilización únicamente <strong>de</strong>l valor <strong>de</strong> G² como medida <strong>de</strong>bondad <strong>de</strong> ajuste favorecerá, cuando el tamaño <strong>de</strong> muestra sea gran<strong>de</strong>, la elección <strong>de</strong> mo<strong>de</strong>los complejos, conmuchos términos <strong>de</strong> asociación y no nos permitirá distinguir entre una verda<strong>de</strong>ra mejora <strong>de</strong>l ajuste respecto <strong>de</strong>una mejora trivial. A<strong>de</strong>más <strong>de</strong> la posibilidad <strong>de</strong> consultar el índice <strong>de</strong> discrepancia, también se ha propuestoutilizar el estadístico <strong>de</strong>nominado Criterio Bayesiano <strong>de</strong> Información, que en las salidas <strong>de</strong> los programas sesuele <strong>de</strong>nominar BIC (Bayesian Information Criterion). La fórmula para su cálculo es la siguiente:Aunque no vamos a profundizar en el razonamiento, se fundamenta en comparar la plausibilidad <strong>de</strong> dosmo<strong>de</strong>los frente a simplemente comparar las diferencias absolutas <strong>de</strong>l ajuste.Cuando comparamos dos mo<strong>de</strong>los un valor inferior <strong>de</strong>l BIC indica un mejor mo<strong>de</strong>lo según ese criterio.Si repetimos la tabla 5 para el ejemplo <strong>de</strong> Admisión en la Universidad añadiendo una columna con el BIC,tenemos:7


4.79), lo que contrasta con el valor <strong>de</strong> 0.54 (Int. confianza 95% <strong>de</strong> 0.48 a 0.62) obtenido sin tener en cuenta lafacultad, que favorecía a los hombres.Cuando la variable consi<strong>de</strong>rada como respuesta es politómica (más <strong>de</strong> dos categorías), como pue<strong>de</strong> ser elcaso <strong>de</strong> la HTA en el primer ejemplo, don<strong>de</strong> la variable respuesta sería la clasificación <strong>de</strong> nivel <strong>de</strong>hipertensión, una posible alternativa a utilizar es el mo<strong>de</strong>lo logístico para <strong>variables</strong> politómicas, sin embargoen estos casos a veces son más sencillos <strong>de</strong> interpretación los mo<strong>de</strong>los log−lineales.Cuando no hay claramente una variable respuesta o, por el contrario, son más <strong>de</strong> una las <strong>variables</strong> que pue<strong>de</strong>nser consi<strong>de</strong>radas como respuesta, los mo<strong>de</strong>los log−lineales son la alternativa a<strong>de</strong>cuada para el análisis <strong>de</strong><strong>tablas</strong> <strong>de</strong> <strong>contingencia</strong> multidimensionales.En todo este artículo se han tratado las <strong>variables</strong> cualitativas como nominales, es <strong>de</strong>cir que las respuestas sonmeras clasificaciones con un nombre o una etiqueta, no consi<strong>de</strong>rándose que exista ninguna relación <strong>de</strong> or<strong>de</strong>nentre las distintas respuestas. Esto es así en <strong>variables</strong> como SEXO o FACULTAD, en uno <strong>de</strong> nuestrosejemplos, pero sin embargo en el ejemplo <strong>de</strong> la HTA sí que existe una relación ordinal en las <strong>variables</strong>HIPERTENSION y NIVEL DE ESTUDIOS, clasificación ordinal que pue<strong>de</strong> ser tomada en cuenta a la hora <strong>de</strong>elaborar nuestro mo<strong>de</strong>lo, <strong>de</strong> tal forma que mejore el ajuste <strong>de</strong>l mismo a los valores observados; pero esto seráobjeto <strong>de</strong> otro artículo.Bibliografía seleccionadaEnlaces <strong>de</strong> interésAgresti A. An Introduction to Categorical Data Analysis.New York: John Wiley&Sons, 1996.Powers DA, Xie Y. Statistical Methods for Categorical Data Analysis.San Diego: Aca<strong>de</strong>mic Press, 2000LEMSe trata <strong>de</strong> un excelente programa gratuito que permite todo tipo <strong>de</strong> análisis para <strong>variables</strong> cualitativas(analysis of categorical data), incluidos los mo<strong>de</strong>los log−lineales.Enlace a la página <strong>de</strong> <strong>de</strong>scarga (gratuita) <strong>de</strong>l programa LEM, manual y ejemplos.Autor:• Dr. Jeroen VermuntDepartment of MethodologyFaculty of Social SciencesTilburg UniversityP.O. Box 90153 5000 LE TilburgTHE NETHERLANDSIndice <strong>de</strong> artículosPrincipio <strong>de</strong> la página9

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!