Alberto Risueño Pérez - Gredos - Universidad de Salamanca
Alberto Risueño Pérez - Gredos - Universidad de Salamanca
Alberto Risueño Pérez - Gredos - Universidad de Salamanca
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Capítulo 4<br />
Para encontrar los genes expresados únicamente en cada una <strong>de</strong> estas categorías<br />
consi<strong>de</strong>rando los 3 niveles <strong>de</strong>finidos, <strong>de</strong>sarrollamos un algoritmo implementado en R basado<br />
en la <strong>de</strong>tección <strong>de</strong> picos en los perfiles <strong>de</strong> expresión, el cual se aplicó sobre la matriz<br />
normalizada con RMA. Estos picos se <strong>de</strong>tectan mediante la búsqueda <strong>de</strong> genes cuyo nivel <strong>de</strong><br />
expresión en el tejido más expresado es significativamente mayor que la expresión en el resto,<br />
en los cuales no se <strong>de</strong>be mostrar modulación o variabilidad significativa. Los pasos concretos<br />
<strong>de</strong>l algoritmo son:<br />
1. Pre-‐filtrado <strong>de</strong> genes mediante la i<strong>de</strong>ntificación <strong>de</strong> picos <strong>de</strong> expresión: Se realizó<br />
obteniendo aquellos genes cuya diferencia entre el primer tejido más expresado y el<br />
segundo sea mayor que la diferencia entre el segundo y el último.<br />
2. Significación estadística <strong>de</strong> la diferencia entre el tejido más expresado con el resto:<br />
Test <strong>de</strong> tipo t-‐Stu<strong>de</strong>nt <strong>de</strong> una cola para hallar la significación <strong>de</strong> la diferencia <strong>de</strong><br />
expresión entre las muestras pertenecientes al tejido más expresado con respecto al<br />
resto. La hipótesis nula <strong>de</strong> este test es la no existencia <strong>de</strong> diferencia entre la expresión<br />
<strong>de</strong> ambos grupos, siendo la alternativa que el tejido más expresado muestra una<br />
expresión mayor a la <strong>de</strong>l resto. Dado que se realizó un test por cada gen, los p-‐valores<br />
simples calculados fueron corregidos/ajustados para tests múltiples (multiple testing<br />
correction), utilizando el método <strong>de</strong> FDR. Posteriormente se seleccionaron los genes<br />
con un p-‐valor corregido FDR ≤ 0.05.<br />
3. Medición <strong>de</strong>l ruido o cercanía al background en los tejidos menos expresados:<br />
Análisis <strong>de</strong> varianza (ANOVA) (Scheffe, 1959) <strong>de</strong> la expresión <strong>de</strong> cada gen (con p-‐valor<br />
significativo en el paso anterior) en los diferentes tejidos excluyendo el más expresado.<br />
Este test ANOVA preten<strong>de</strong> i<strong>de</strong>ntificar los genes que no muestran valores <strong>de</strong> expresión<br />
semejantes entre réplicas biológicas, envi<strong>de</strong>nciando en su lugar valores cambiantes o<br />
variables. Esto indica que la expresión <strong>de</strong>tectada sobre esos genes no está midiendo<br />
regulación biológica alguna, sino que su señal más bien <strong>de</strong>muestra cierta cercanía al<br />
nivel <strong>de</strong> ruido o background <strong>de</strong> no señal. Con estos niveles <strong>de</strong> ruido y, siendo su<br />
expresión significativamente más baja que la <strong>de</strong>l tejido más expresado, se infiere que<br />
su expresión es "no <strong>de</strong>tectable" por el microarray respecto al background y, por lo<br />
tanto, muy probablemente el gen no se encuentre expresado en esos tejidos. Igual que<br />
en el paso anterior, los p-‐valores se corrigen por FDR y se eliminan únicamente los<br />
genes con un FDR ≤ 0.0001. Este estricto p-‐valor asegura eliminar únicamente los<br />
genes que se encuentran claramente regulados en los diferentes tejidos, alejando su<br />
expresión <strong>de</strong>l ruido.<br />
Este algoritmo se aplicó tres veces, una por cada nivel <strong>de</strong> agrupación <strong>de</strong> tejidos, lo cual<br />
proporcionó tres listas <strong>de</strong> genes específicos que contienen: 756 genes, 786 genes y 206 genes<br />
i<strong>de</strong>ntificados para los niveles 1, 2 y 3, respectivamente. Para la medición <strong>de</strong>l ruido el test<br />
ANOVA (paso 3) se utilizó en todos los casos con las muestras etiquetadas al nivel 1.<br />
4.2.5. Método <strong>de</strong> análisis <strong>de</strong> la conservación <strong>de</strong> los genes<br />
Con el fin <strong>de</strong> obtener información acerca <strong>de</strong>l grado <strong>de</strong> conservación <strong>de</strong> cada uno <strong>de</strong> los genes<br />
humanos <strong>de</strong>s<strong>de</strong> su punto <strong>de</strong> vista evolutivo, se comparó su nivel <strong>de</strong> similitud en otras especies.<br />
Se eligieron tres especies a diferentes distancias evolutivas <strong>de</strong> la humana: M. musculus (ratón),<br />
C. elegans (gusano) y S. cerevisiae (levadura) (ver figura 4.2).<br />
91