Alberto Risueño Pérez - Gredos - Universidad de Salamanca
Alberto Risueño Pérez - Gredos - Universidad de Salamanca
Alberto Risueño Pérez - Gredos - Universidad de Salamanca
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Tesis Doctoral<br />
Human Exon 1.0. La lógica <strong>de</strong>l algoritmo se implementó en un paquete llamado ESLiM que<br />
incluye las siguientes funciones:<br />
74<br />
• doLinearMo<strong>de</strong>l: Realiza el cálculo <strong>de</strong> residuales a partir <strong>de</strong> las matrices <strong>de</strong> expresión a<br />
nivel <strong>de</strong> genes (medidos con la estrategia "total" <strong>de</strong> ESLiMt o por la estrategia "core"<br />
<strong>de</strong> ESLiMc ya explicadas) y a nivel <strong>de</strong> exones. Para este cálculo también se necesita el<br />
fichero <strong>de</strong> anotación <strong>de</strong> exones presente en GATExplorer don<strong>de</strong> se relaciona cada<br />
i<strong>de</strong>ntificador <strong>de</strong> exón (ENSE) con el i<strong>de</strong>ntificador <strong>de</strong>l gen (ENSG).<br />
• removeRedundantExons: Elimina los exones <strong>de</strong> Ensembl que son redundantes, ya que<br />
–pese a ser casi solapantes y estar localizados en la misma región cromosómica y locus<br />
génico– tienen i<strong>de</strong>ntificadores (ENSE ids) diferentes por variar su longitud en una<br />
pocas bases (bp) o tener distintos puntos <strong>de</strong> inicio o final UTR. Para eliminar esta<br />
redundancia, todos los i<strong>de</strong>ntificadores <strong>de</strong> exones mapeados por el mismo conjunto <strong>de</strong><br />
sondas <strong>de</strong> un microarray son agrupados en uno solo, tomándose como i<strong>de</strong>ntificador<br />
único el primero (siguiendo el or<strong>de</strong>n alfabético). Esta función elimina así muchos<br />
resultados que son totalmente redundantes (<strong>de</strong>bido al problema <strong>de</strong> los ids <strong>de</strong>scrito)<br />
que analizan exactamente la misma región exónica codificante. Esta función toma<br />
como entrada el listado generado por la función anterior: doLinearMo<strong>de</strong>l.<br />
• geneOriented: Agrupa los distintos exones significativos colapsándolos en genes. Estos<br />
exones significativos han sido i<strong>de</strong>ntificados previamente a partir <strong>de</strong> los residuales<br />
obtenidos por la función doLinearMo<strong>de</strong>l y tras el paso <strong>de</strong> eliminación <strong>de</strong> redundancias.<br />
La función toma como entrada los i<strong>de</strong>ntificadores <strong>de</strong> exones, sus p-‐valores y el fichero<br />
<strong>de</strong> anotación <strong>de</strong> exones <strong>de</strong> GATExplorer. Como salida esta función proporciona el<br />
porcentaje <strong>de</strong> exones alterados para cada gen respecto <strong>de</strong>l total <strong>de</strong> exones <strong>de</strong>tectables<br />
por el microarray, haciendo distinción entre exones codificantes y exones no<br />
codificantes <strong>de</strong> proteína. A<strong>de</strong>más proporciona 2 valores <strong>de</strong> probabilidad: el p-‐valor<br />
más bajo <strong>de</strong> todos sus exones y la mediana <strong>de</strong> todos ellos.<br />
Las listas proce<strong>de</strong>ntes <strong>de</strong> análisis <strong>de</strong> expresión diferencial a nivel <strong>de</strong> genes suelen proporcionar<br />
varios cientos o miles <strong>de</strong> entradas. A pesar <strong>de</strong> existir herramientas para realizar<br />
interpretaciones automáticas <strong>de</strong> estos listados, a menudo pue<strong>de</strong> ser <strong>de</strong>masiada información<br />
para el investigador. Este problema se agrava con el manejo <strong>de</strong> listas <strong>de</strong> exones, que multiplica<br />
en más <strong>de</strong> 10 el tamaño <strong>de</strong> las listas <strong>de</strong> genes (ver introducción, tabla 1). La orientación a<br />
genes que proporciona el paquete ESLiM en su salida final, permite una reducción <strong>de</strong>l número<br />
<strong>de</strong> resultados significativos ya que apunta directamente a genes específicos como los mejores<br />
candidatos a sufrir splicing. Los resultados amplios –muchas veces masivos– obtenidos exón a<br />
exón también son proporcionados por el algoritmo, pero son puestos en un segundo plano. En<br />
todo caso la salida pue<strong>de</strong> ser reor<strong>de</strong>nada por el usuario por significación acor<strong>de</strong> a los distintos<br />
parámetros proporcionados por el algoritmo.<br />
3.3.2 Comparativa <strong>de</strong> ESLiMt y ESLiMc con otros algoritmos para la<br />
búsqueda <strong>de</strong> splicing previamente publicados<br />
La eficiencia <strong>de</strong> cada algoritmo fue medida utilizando como set <strong>de</strong> datos <strong>de</strong> comparación el set<br />
<strong>de</strong> Affymetrix <strong>de</strong> microarrays <strong>de</strong> exones <strong>de</strong> 11 tejidos humanos –con tres réplicas cada uno–<br />
combinado con los datos <strong>de</strong> splicing validados respecto a una serie <strong>de</strong> genes humanos en<br />
distintos tejidos (Wang et al., 2008). Esta combinación suministró un conjunto final <strong>de</strong> 6<br />
tejidos (ver apartado 3.2.1). Estos 6 tejidos fueron comparados 2 a 2 por cada uno <strong>de</strong> los 5