08.08.2013 Views

Alberto Risueño Pérez - Gredos - Universidad de Salamanca

Alberto Risueño Pérez - Gredos - Universidad de Salamanca

Alberto Risueño Pérez - Gredos - Universidad de Salamanca

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Tesis Doctoral<br />

Human Exon 1.0. La lógica <strong>de</strong>l algoritmo se implementó en un paquete llamado ESLiM que<br />

incluye las siguientes funciones:<br />

74<br />

• doLinearMo<strong>de</strong>l: Realiza el cálculo <strong>de</strong> residuales a partir <strong>de</strong> las matrices <strong>de</strong> expresión a<br />

nivel <strong>de</strong> genes (medidos con la estrategia "total" <strong>de</strong> ESLiMt o por la estrategia "core"<br />

<strong>de</strong> ESLiMc ya explicadas) y a nivel <strong>de</strong> exones. Para este cálculo también se necesita el<br />

fichero <strong>de</strong> anotación <strong>de</strong> exones presente en GATExplorer don<strong>de</strong> se relaciona cada<br />

i<strong>de</strong>ntificador <strong>de</strong> exón (ENSE) con el i<strong>de</strong>ntificador <strong>de</strong>l gen (ENSG).<br />

• removeRedundantExons: Elimina los exones <strong>de</strong> Ensembl que son redundantes, ya que<br />

–pese a ser casi solapantes y estar localizados en la misma región cromosómica y locus<br />

génico– tienen i<strong>de</strong>ntificadores (ENSE ids) diferentes por variar su longitud en una<br />

pocas bases (bp) o tener distintos puntos <strong>de</strong> inicio o final UTR. Para eliminar esta<br />

redundancia, todos los i<strong>de</strong>ntificadores <strong>de</strong> exones mapeados por el mismo conjunto <strong>de</strong><br />

sondas <strong>de</strong> un microarray son agrupados en uno solo, tomándose como i<strong>de</strong>ntificador<br />

único el primero (siguiendo el or<strong>de</strong>n alfabético). Esta función elimina así muchos<br />

resultados que son totalmente redundantes (<strong>de</strong>bido al problema <strong>de</strong> los ids <strong>de</strong>scrito)<br />

que analizan exactamente la misma región exónica codificante. Esta función toma<br />

como entrada el listado generado por la función anterior: doLinearMo<strong>de</strong>l.<br />

• geneOriented: Agrupa los distintos exones significativos colapsándolos en genes. Estos<br />

exones significativos han sido i<strong>de</strong>ntificados previamente a partir <strong>de</strong> los residuales<br />

obtenidos por la función doLinearMo<strong>de</strong>l y tras el paso <strong>de</strong> eliminación <strong>de</strong> redundancias.<br />

La función toma como entrada los i<strong>de</strong>ntificadores <strong>de</strong> exones, sus p-­‐valores y el fichero<br />

<strong>de</strong> anotación <strong>de</strong> exones <strong>de</strong> GATExplorer. Como salida esta función proporciona el<br />

porcentaje <strong>de</strong> exones alterados para cada gen respecto <strong>de</strong>l total <strong>de</strong> exones <strong>de</strong>tectables<br />

por el microarray, haciendo distinción entre exones codificantes y exones no<br />

codificantes <strong>de</strong> proteína. A<strong>de</strong>más proporciona 2 valores <strong>de</strong> probabilidad: el p-­‐valor<br />

más bajo <strong>de</strong> todos sus exones y la mediana <strong>de</strong> todos ellos.<br />

Las listas proce<strong>de</strong>ntes <strong>de</strong> análisis <strong>de</strong> expresión diferencial a nivel <strong>de</strong> genes suelen proporcionar<br />

varios cientos o miles <strong>de</strong> entradas. A pesar <strong>de</strong> existir herramientas para realizar<br />

interpretaciones automáticas <strong>de</strong> estos listados, a menudo pue<strong>de</strong> ser <strong>de</strong>masiada información<br />

para el investigador. Este problema se agrava con el manejo <strong>de</strong> listas <strong>de</strong> exones, que multiplica<br />

en más <strong>de</strong> 10 el tamaño <strong>de</strong> las listas <strong>de</strong> genes (ver introducción, tabla 1). La orientación a<br />

genes que proporciona el paquete ESLiM en su salida final, permite una reducción <strong>de</strong>l número<br />

<strong>de</strong> resultados significativos ya que apunta directamente a genes específicos como los mejores<br />

candidatos a sufrir splicing. Los resultados amplios –muchas veces masivos– obtenidos exón a<br />

exón también son proporcionados por el algoritmo, pero son puestos en un segundo plano. En<br />

todo caso la salida pue<strong>de</strong> ser reor<strong>de</strong>nada por el usuario por significación acor<strong>de</strong> a los distintos<br />

parámetros proporcionados por el algoritmo.<br />

3.3.2 Comparativa <strong>de</strong> ESLiMt y ESLiMc con otros algoritmos para la<br />

búsqueda <strong>de</strong> splicing previamente publicados<br />

La eficiencia <strong>de</strong> cada algoritmo fue medida utilizando como set <strong>de</strong> datos <strong>de</strong> comparación el set<br />

<strong>de</strong> Affymetrix <strong>de</strong> microarrays <strong>de</strong> exones <strong>de</strong> 11 tejidos humanos –con tres réplicas cada uno–<br />

combinado con los datos <strong>de</strong> splicing validados respecto a una serie <strong>de</strong> genes humanos en<br />

distintos tejidos (Wang et al., 2008). Esta combinación suministró un conjunto final <strong>de</strong> 6<br />

tejidos (ver apartado 3.2.1). Estos 6 tejidos fueron comparados 2 a 2 por cada uno <strong>de</strong> los 5

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!