Alberto Risueño Pérez - Gredos - Universidad de Salamanca
Alberto Risueño Pérez - Gredos - Universidad de Salamanca
Alberto Risueño Pérez - Gredos - Universidad de Salamanca
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Tesis Doctoral<br />
La tabla 1.7 muestra el número y porcentaje <strong>de</strong> genes codificante <strong>de</strong> proteína que son<br />
mapeados por las sondas <strong>de</strong> cada mo<strong>de</strong>lo <strong>de</strong> microarray <strong>de</strong> expresión <strong>de</strong> Affymetrix. En esta<br />
tabla se diferencia entre genes y transcritos, especificando cuántos <strong>de</strong> ellos son mapeados <strong>de</strong><br />
forma única. Esta tabla muestra que la cobertura <strong>de</strong> genes conocidos (21281 para humano en<br />
la versión 57 <strong>de</strong> Ensembl) ha aumentado en con la llegada <strong>de</strong> cada mo<strong>de</strong>lo nuevo: HG-‐U133A<br />
63,0%; HG-‐U133 Plus 2.0 89,0%; Human Gene 1.0 94,9%; Human Exon 1.0 98,7%. En el caso <strong>de</strong><br />
los transcritos se ha consi<strong>de</strong>rado únicamente los transcritos pertenecientes a los genes<br />
codificante <strong>de</strong> proteína (100299 para humano en la versión 57 <strong>de</strong> Ensembl), obteniendo el<br />
mismo resultado <strong>de</strong> aumento <strong>de</strong> cobertura con la llegada <strong>de</strong> nuevos mo<strong>de</strong>los <strong>de</strong> microarrays.<br />
La tabla 1.8 muestra el número y porcentaje <strong>de</strong> sondas que mapean sobre genes y transcritos<br />
para cada mo<strong>de</strong>lo <strong>de</strong> microarray, <strong>de</strong>tallando cuántas <strong>de</strong> esas sondas son únicas y cuantas<br />
ambiguas (es <strong>de</strong>cir, presentan hibridación cruzada). Estos datos reflejan que el mo<strong>de</strong>lo más<br />
eficiente sobre el organismo humano es el Human Gene 1.0 con un 91,22% <strong>de</strong> sondas. Por<br />
ejemplo, para el caso <strong>de</strong>l mo<strong>de</strong>lo HG-‐U133A el 16,5% <strong>de</strong> las sondas no mapean en ningún gene<br />
<strong>de</strong> la citada versión <strong>de</strong> Ensembl. Si a<strong>de</strong>más sólo se consi<strong>de</strong>ra el número <strong>de</strong> sondas únicas<br />
(192213 para el array HG-‐U133A) la eficiencia en el mapeo es solo <strong>de</strong>l 79,5% para este mo<strong>de</strong>lo.<br />
Todo ello indica que una proporción consi<strong>de</strong>rable <strong>de</strong> sondas (16-‐21%) pue<strong>de</strong>n producir ruido<br />
<strong>de</strong>bido al mapeo incorrecto o ambiguo, especialmente si se calcula la expresión utilizando la<br />
agrupación original proporcionada por Affymetrix. Este problema está también presente en el<br />
nuevo microarray <strong>de</strong> exones que muestra la eficiencia más baja, con solo un 31% <strong>de</strong> las sondas<br />
mapeando sobre exones. Estos datos indican que estos microarrays están sujetos a un alto<br />
nivel <strong>de</strong> ruido, y esto <strong>de</strong>be ser tenido en cuenta a la hora <strong>de</strong> su utilización.<br />
1.3.4. Distribuciones <strong>de</strong>l número <strong>de</strong> sondas únicas no ambiguas y <strong>de</strong>l<br />
número <strong>de</strong> genes mapeados<br />
En las estadísticas anteriores se <strong>de</strong>terminó el número <strong>de</strong> sondas no ambiguas a nivel <strong>de</strong> gen,<br />
siendo por lo tanto las únicas que pue<strong>de</strong>n utilizarse para los análisis <strong>de</strong> expresión génica ya<br />
que no presentan hibridación cruzada con más genes. En la figura 1.9a se muestra la<br />
distribución <strong>de</strong>l número <strong>de</strong> sondas presentes por número <strong>de</strong> genes para dos mo<strong>de</strong>los <strong>de</strong> arrays<br />
<strong>de</strong> distinto diseño: HG-‐U133A y Human Gene 1.0. Esta figura indica que la mayoría <strong>de</strong> las<br />
sondas <strong>de</strong>tecta un único gen (en concordancia con la tabla 1.8) <strong>de</strong>scendiendo rápidamente el<br />
número <strong>de</strong> sondas que <strong>de</strong>tectan más <strong>de</strong> un gen. En la figura 1.9b se muestra el número <strong>de</strong><br />
genes en función <strong>de</strong>l número <strong>de</strong> sondas que los <strong>de</strong>tectan. El diseño <strong>de</strong> las sondas <strong>de</strong> los<br />
antiguos mo<strong>de</strong>los IVT 3’ –como es el HG-‐U133A– se diseñaron <strong>de</strong>finiendo grupos <strong>de</strong> 11 sondas<br />
próximas en el transcriptoma (probesets). Algunos genes son <strong>de</strong>tectados por más <strong>de</strong> un<br />
probeset y esto queda reflejado en la figura 1.9b en forma <strong>de</strong> picos múltiplos <strong>de</strong> 11 para el<br />
array HG-‐U133A (línea negra). En el caso <strong>de</strong>l mo<strong>de</strong>lo Human Gene 1.0 la distribución es muy<br />
distinta mostrando un pico máximo en 25. Llama la atención el alto número <strong>de</strong> genes que son<br />
mapeados por una única sonda en ambos mo<strong>de</strong>los. Esto podría ser explicado por la hibridación<br />
cruzada entre genes <strong>de</strong> la misma familia con secuencias similares (genes parálogos), o por la<br />
aparición en las bases <strong>de</strong> datos actuales <strong>de</strong> nuevos genes no conocidos en el momento <strong>de</strong>l<br />
diseño <strong>de</strong> los chips. Muchos <strong>de</strong> estos genes nuevos son <strong>de</strong>tectados por técnicas automáticas<br />
<strong>de</strong> análisis <strong>de</strong> secuencia y anotados como genes putativos (genes like L) o pseudo-‐genes, y su<br />
expresión muchas veces es dudosa.<br />
30