30.07.2015 Views

Actas JP2011 - Universidad de La Laguna

Actas JP2011 - Universidad de La Laguna

Actas JP2011 - Universidad de La Laguna

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Actas</strong> XXII Jornadas <strong>de</strong> Paralelismo (<strong>JP2011</strong>) , <strong>La</strong> <strong>La</strong>guna, Tenerife, 7-9 septiembre 2011Una Versión Paralela <strong>de</strong> la EvoluciónDiferencial para Pre<strong>de</strong>cir Motifs en Ca<strong>de</strong>nas <strong>de</strong>ADNDavid L. González-Álvarez1 Miguel A. Vega-Rodríguez 2 Juan A. Gómez-Pulido 3Juan M. Sánchez-Pérez 4Resumen—<strong>La</strong> utilidad y la eficiencia <strong>de</strong> un algoritmo pararesolver un <strong>de</strong>terminado problema <strong>de</strong> optimizaciónno viene dado solo por la calidad <strong>de</strong> las solucionesobtenidas, es también importante el tiempo computacionaly los recursos requeridos para su obtención.En este artículo presentamos una implementaciónparalela <strong>de</strong> la Evolución Diferencial (DE) para resolverel Problema <strong>de</strong>l Descubrimiento <strong>de</strong> Motifs(PDM). El PDM es un problema <strong>de</strong> gran importanciabiológica que pue<strong>de</strong> requerir una gran cargacomputacional si analizamos gran<strong>de</strong>s cantida<strong>de</strong>s <strong>de</strong>información genética, por ello, la utilización <strong>de</strong> paralelismoen maquinas <strong>de</strong> memoria compartida pue<strong>de</strong>ayudarnos a obtener resultados más rápidamente.Para asegurarnos <strong>de</strong> que nuestra heurística obtieneresultados relevantes, hemos comparado los resultadosobtenidos con los obtenidos por un algoritmoestándar en la computación evolutiva como es el algoritmoNSGA-II, a<strong>de</strong>más <strong>de</strong> con otros catorce métodosmuy conocidos <strong>de</strong>ntro <strong>de</strong>l campo <strong>de</strong> la biología. Comoveremos, la estructura <strong>de</strong>l algoritmo lo hace apropiadopara la paralelización, logrando buenos resultadosy eficiencias <strong>de</strong> hasta un 95%.Palabras clave—Evolución Diferencial, computación paralela, multinúcleo,optimización multiobjetivo, <strong>de</strong>scubrimiento<strong>de</strong> motifs.I. IntroducciónEn los últimos años hemos visto una granevolución en las interfaces <strong>de</strong> memoria compartida.Actualmente prácticamente todos los compiladoresincluyen las librerías necesarias para <strong>de</strong>sarrollarfácilmente programas paralelos. Entre todasestas interfaces estándares <strong>de</strong> programación paralela<strong>de</strong>stacan MPI y OpenMP. MPI es una interfaz <strong>de</strong>dicadaa la programación <strong>de</strong> clusters, mientras queOpenMP es el estándar <strong>de</strong> programación más empleadoen la programación <strong>de</strong> multiprocesadores conmemoria compartida. En este trabajo aplicamos esteúltimo tipo <strong>de</strong> paralelismo para resolver un importanteproblema <strong>de</strong>ntro <strong>de</strong> la bioinformatica, el Problema<strong>de</strong>l Descubrimiento <strong>de</strong> Motifs (PDM). Pre<strong>de</strong>cirmotifs es uno <strong>de</strong> los problemas más importantes<strong>de</strong>ntro <strong>de</strong>l análisis <strong>de</strong> secuencias, y aun nadie ha1 Dpto. Tecnología <strong>de</strong> Computadores y Comunicaciones,Grupo <strong>de</strong> Investigación ARCO, <strong>Universidad</strong> <strong>de</strong> Extremadura,e-mail: dlga@unex.es2 Dpto. Tecnología <strong>de</strong> Computadores y Comunicaciones,Grupo <strong>de</strong> Investigación ARCO, <strong>Universidad</strong> <strong>de</strong> Extremadura,e-mail: mavega@unex.es3 Dpto. Tecnología <strong>de</strong> Computadores y Comunicaciones,Grupo <strong>de</strong> Investigación ARCO, <strong>Universidad</strong> <strong>de</strong> Extremadura,e-mail: jangomez@unex.es4 Dpto. Tecnología <strong>de</strong> Computadores y Comunicaciones,Grupo <strong>de</strong> Investigación ARCO, <strong>Universidad</strong> <strong>de</strong> Extremadura,e-mail: sanperez@unex.esconseguido resolverlo <strong>de</strong> una manera eficiente. Estosmotifs son pequeños patrones <strong>de</strong> ADN, ARNo proteínas que normalmente ejercen la función <strong>de</strong>Puntos <strong>de</strong> Unión <strong>de</strong> Factores <strong>de</strong> Transcripción endistintos genes (TFBS). Normalmente no son muylargos (alre<strong>de</strong>dor <strong>de</strong> 30 nucleótidos) y sin espacios,por lo que <strong>de</strong>scubrirlos entre una gran cantidad <strong>de</strong>información biológica en las secuencias <strong>de</strong> ADN no esuna tarea nada fácil. Para encontrarlos, hemos utilizadouna heurística basada en la Evolución Diferencial(DE) que hemos paralelizado utilizando el interfazOpenMP. A<strong>de</strong>más, hemos implementado tambiénuna versión paralela <strong>de</strong>l algoritmo NSGA-II para asídisponer <strong>de</strong> un punto <strong>de</strong> referencia con el que compararlos resultados obtenidos por nuestra propuesta.En este trabajo no solo hemos analizado las eficienciaslogradas por las versiones paralelas <strong>de</strong> estos dosalgoritmos, sino que también hemos analizado la calidad<strong>de</strong> los motifs predichos por los algoritmos. Parahacer esto, hemos aplicado diferentes indicadorescomo el Hipervolumen o la Relación <strong>de</strong> Cobertura, yestadísticas como la Sensibilidad, el Valor <strong>de</strong> PrediccionesPositivas, el Coeficiente <strong>de</strong> Rendimiento o elCoeficiente <strong>de</strong> Correlación. Como veremos, nuestroalgoritmo logra buenos resultados paralelos, a<strong>de</strong>más<strong>de</strong> resultados biológicamente relevantes.Este documento se organiza <strong>de</strong> la siguiente forma.En la siguiente sección explicamos brevemente elPDM. En la Sección III <strong>de</strong>scribimos los algoritmospresentados en este trabajo y <strong>de</strong>tallamos comolos hemos paralelizado. <strong>La</strong> Sección IV muestralos resultados obtenidos por nuestras propuestas,comparándolas con varios algoritmos y métodosbiológicos. Finalmente, la Sección V incluye variasconclusiones obtenidas tras la elaboración <strong>de</strong> estetrabajo.II. Problema <strong>de</strong>l Descubrimiento <strong>de</strong> MotifsEl Problema <strong>de</strong>l Descubrimiento <strong>de</strong> Motifs (PDM)trata <strong>de</strong> resolver <strong>de</strong> forma óptima el problema quesupone pre<strong>de</strong>cir motifs, aplicado a la tarea específica<strong>de</strong> <strong>de</strong>scubrir nuevos Puntos <strong>de</strong> Unión <strong>de</strong> Factores <strong>de</strong>Transcripción (TFBS) en secuencias <strong>de</strong> ADN [1]. LosTFBSs y otros elementos genéticos con una estructuray función específica son conocidos con el nombre<strong>de</strong> motifs. Para <strong>de</strong>scubrir motifs <strong>de</strong> una ciertarelevancia biológica <strong>de</strong>bemos satisfacer unos objetivosconcretos a la vez que cumplir ciertas restricciones.Nosotros hemos afrontado el PDM <strong>de</strong>finiendotres objetivos: el tamaño, el soporte y la simila-<strong>JP2011</strong>-3

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!