Alberto Risueño Pérez - Gredos - Universidad de Salamanca
Alberto Risueño Pérez - Gredos - Universidad de Salamanca
Alberto Risueño Pérez - Gredos - Universidad de Salamanca
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Tesis Doctoral<br />
exacto <strong>de</strong>l número <strong>de</strong> exones pertenecientes a cada isoforma. Esta es una clara limitación<br />
<strong>de</strong>bido a que el número y <strong>de</strong>finición <strong>de</strong> los transcritos conocidos es muy variable entre<br />
distintas versiones <strong>de</strong> las bases <strong>de</strong> datos <strong>de</strong> referencia (ver apartado 1.3.6) y a que a nivel<br />
global <strong>de</strong>l genoma esta información es bastante parcial para muchos loci génicos. A<strong>de</strong>más, el<br />
rápido aumento en el número <strong>de</strong> transcritos i<strong>de</strong>ntificados en las nuevas entregas <strong>de</strong> las bases<br />
<strong>de</strong> datos biológicas (p. ej. Ensembl) aumenta notablemente la ambigüedad <strong>de</strong> resultados<br />
basados en estructuras obsoletas complicando su interpretación. Por todo ello, no presuponer<br />
unas isoformas concretas y apuntar a exones y genes directamente en lugar <strong>de</strong> transcritos es<br />
una solución más acertada que se basa en una evi<strong>de</strong>ncia biológica más sólida y en una<br />
información más estable.<br />
Respecto a la implementación <strong>de</strong> las diferentes estrategias, predominan los <strong>de</strong>sarrollos y<br />
métodos hechos en R (como es el caso <strong>de</strong> FIRMA, COSIE y ARH). Sin embargo ARH no<br />
proporciona un programa completo en R, ya que es necesario <strong>de</strong>scargar y utilizar un código<br />
escrito en C++, Python, Perl y R llamado "MAT background correction" (Kapur et al., 2007).<br />
Rasche y Herwing utilizan este programa para corregir el background y normalizar las<br />
muestras, pero su falta <strong>de</strong> integración total con R y la necesidad <strong>de</strong> comunicar los distintos<br />
pasos <strong>de</strong>l análisis mediante ficheros <strong>de</strong> texto hacen <strong>de</strong> ARH una herramienta <strong>de</strong> uso tedioso y<br />
poco eficaz. A<strong>de</strong>más el usuario <strong>de</strong>be proporcionar por su cuenta los distintos ficheros <strong>de</strong><br />
anotación, como el nombre <strong>de</strong> los i<strong>de</strong>ntificadores <strong>de</strong> los exones y a qué genes pertenecen.<br />
Nuestra propuesta para un nuevo algoritmo <strong>de</strong> análisis <strong>de</strong> splicing se centra en estudiar la<br />
relación entre la expresión global <strong>de</strong>l gen y la expresión individual <strong>de</strong> cada exón, como en la<br />
mayoría <strong>de</strong> algoritmos revisados anteriormente. La estrategia novedosa que planteamos es<br />
estimar la expresión <strong>de</strong> cada exón en función <strong>de</strong> los valores <strong>de</strong> expresión <strong>de</strong> los otros exones<br />
<strong>de</strong>l gen utilizando mo<strong>de</strong>los lineales y calcular también su <strong>de</strong>svío sobre la expresión global<br />
esperada, asignándole un valor <strong>de</strong> probabilidad p.<br />
3.2.3 El efecto sonda y su papel en los microarrays <strong>de</strong> exones<br />
Como es sabido, no todas las sondas <strong>de</strong> oligos (<strong>de</strong> 25 nucleótidos) <strong>de</strong> un microarray reflejan la<br />
cantidad <strong>de</strong> su RNA diana <strong>de</strong> la misma manera. Análisis <strong>de</strong> series <strong>de</strong> arrays hibridadas con<br />
concentraciones crecientes <strong>de</strong> RNA (llamados experimentos <strong>de</strong> spiked-‐in con arrays) han<br />
revelado características variables en las sondas respecto a la señal <strong>de</strong> hibridación que<br />
muestran ante la misma cantidad <strong>de</strong> RNA y la señal <strong>de</strong> aumento <strong>de</strong> expresión ante un mismo<br />
aumento <strong>de</strong> concentración <strong>de</strong> RNA (Irizarry et al., 2003b). En la figura 3.1, Irizarry et al.<br />
muestran 20 sondas <strong>de</strong> control (perfect match <strong>de</strong>l probeset AFFX-‐BioB-‐5) <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong>l<br />
microarray Affymetrix U95A.<br />
Estas sondas <strong>de</strong> control no mapean sobre un mRNA humano, sino que tienen como objetivo<br />
servir <strong>de</strong> medida <strong>de</strong> calidad hibridando genes <strong>de</strong> E. coli que se aña<strong>de</strong>n como controles en<br />
concentración conocida junto a la muestra a estudiar (siguiendo el protocolo experimental <strong>de</strong><br />
Affymetrix). Este RNA <strong>de</strong> E. coli, al ser añadido en concentraciones conocidas crecientes, sirve<br />
para estudiar el comportamiento <strong>de</strong> las sondas que <strong>de</strong>tectan su expresión. En la figura 3.1 se<br />
ve la ten<strong>de</strong>ncia general <strong>de</strong> todas las sondas a aumentar su intensidad <strong>de</strong> manera <strong>de</strong>pendiente<br />
<strong>de</strong> la concentración <strong>de</strong> RNA, sin embargo, no todas se sitúan al mismo nivel ni tienen la misma<br />
pendiente. Esto es lo que se ha <strong>de</strong>nominado el "efecto sonda", e implica que la misma sonda<br />
es comparable entre distintas muestras, pero no se pue<strong>de</strong>n comparar distintas sondas <strong>de</strong> la<br />
misma muestra <strong>de</strong> forma directa. Por extensión, este efecto se traslada igual cuando se<br />
consi<strong>de</strong>ran grupos o conjuntos <strong>de</strong> sondas (i.e. probesets).<br />
64