Tesis y Tesistas 2020 - Postgrado - Fac. de Informática - UNLP

Recommendations

Info

DOCTORADO ENCIENCIAS INFORMÁTICASDr. Diego Miguel Montezantie-maildmontezanti@lidi.info.unlp.edu.arDirectoresIng. Armando Eduardo De GiustiDra. Dolores Rexachs del RosarioCodirectoresDr. Marcelo NaioufDr. Emilio Luque FadónFecha de defensa18 de marzo de 2020SEDICIhttp://sedici.unlp.edu.ar/handle/10915/98816SEDAR:Detección y recuperaciónAutomática de fallostransitorios en Sistemasde Computo de AltasprestacionesPalabras clave: Fallos transitorios; detección de fallos; replicación de procesos; recuperación automática; corrupción silenciosade datos; sistemas de HPC; inyección de fallos; checkpoints.MotivaciónLa confiabilidad y la Tolerancia a Fallos se han vuelto aspectosde relevancia creciente en el ámbito del HPC, debido al incrementoen la probabilidad de que ocurran fallos de diferentesclases en estos sistemas. Esto se debe, fundamentalmente, ala creciente complejidad de los procesadores, en la búsquedade mejorar las prestaciones, que conlleva el aumento en laescala de integración y en la cantidad de componentes quetrabajan cerca de sus límites tecnológicos, siendo cada vezmás propensos a fallos. Otro factor que incide es el aumentodel tamaño de los sistemas paralelos para obtener mayorpotencia computacional, en cuanto a cantidad de cores y denodos de procesamiento.A medida que las aplicaciones demandan mayores tiemposde cómputo ininterrumpido, crece el impacto de los fallos,debido al costo que requiere relanzar una ejecución que fueabortada por la ocurrencia de un fallo o que finalizó con resultadoserróneos. En consecuencia, es necesario ejecutarestas aplicaciones sobre sistemas altamente disponibles yfiables, requiriéndose para ello estrategias capaces de proveerdetección, protección y recuperación frente a fallos.En los próximos años está previsto alcanzar la Exa-escala,en la que existan supercomputadoras con millones de núcleosde procesamiento, capaces de realizar del orden supercomputadorascon millones de núcleos de procesamiento,capaces de realizar del orden aplicaciones de HPC, aunquetambién aumenta el peligro de que no completen sus ejecuciones.Estudios recientes muestran que, a medida de que lossistemas continúan incluyendo más procesadores, el TiempoMedio Entre Errores disminuye, resultando en tasas de fallosmás altas y en mayor riesgo de obtener resultados corrompidos;se prevé que las grandes aplicaciones paralelas tenganque lidiar con fallos que ocurran cada pocos minutos, requiriendoayuda para progresar eficientemente. Las CorrupcionesSilenciosas de Datos son los fallos más peligrosos quepueden presentarse, ya que generan resultados incorrectosen programas que en apariencia se ejecutan correctamente.Las aplicaciones científicas y las simulaciones a gran escalason las más afectadas, por lo que el tratamiento de erroressilenciosos es el desafío principal hacia la resiliencia en HPC.En aplicaciones de paso de mensajes, un fallo silencioso,que afecta a una única tarea, puede producir un patrón decorrupción que se propaga hacia todos los procesos que secomunican; en el peor escenario, los resultados finales erróneosno podrán ser detectados al finalizar la ejecución y serántomados como correctos.Dado que las aplicaciones científicas presentan tiempos deejecución del orden de horas o días, resulta imprescindibleencontrar estrategias que permitan que las aplicaciones alcancensoluciones correctas en un tiempo finito, a pesar delos fallos subyacentes. Estas estrategias, además, evitan quese dispare el consumo energético, ya que de no utilizarlas,las ejecuciones deberían volver a lanzarse desde el principio.Sin embargo, los modelos de programación paralela más popularesutilizados en supercomputadoras carecen de soportepara tolerancia a fallos.En este contexto de altas tasas de fallos, resultados no fia-12
españolDr. Diego Miguel Montezantibles y altos costos de verificación, el objetivo de la tesises ayudar a los científicos y programadores de aplicacionesparalelas a proporcionar fiabilidad a sus resultados, dentrode un tiempo predecible.Para esto, hemos diseñado y desarrollado la metodología SE-DAR (Soft Error Detection and Automatic Recovery), que proveetolerancia a fallos transitorios en sistemas formados poraplicaciones de paso de mensajes que se ejecutan en clustersde multicores. SEDAR está basado en replicación de procesosy monitorización de los envíos de mensajes y el cómputo local,aprovechando la redundancia de hardware intrínseca delos multicores.SEDAR proporciona tres variantes: detección y relanzamientoautomático desde el comienzo; recuperación automática,basada en el almacenamiento de múltiples checkpoints denivel de sistema (periódicos o sincronizados con eventos); yrecuperación automática, basada en un único checkpoint segurode capa de aplicación. El objetivo principal es el diseñode la metodología y la validación funcional de su eficaciapara detectar los fallos transitorios y recuperar automáticamentelas ejecuciones, mediante un modelo analítico deverificación; también se implementa un prototipo de SEDAR.A partir de las pruebas realizadas con él, se caracteriza elcomportamiento temporal, es decir, el overhead introducidopor cada variante. Además se muestra la flexibilidad para optardinámicamente por la alternativa más conveniente paraadaptarse a los requerimientos del sistema (como máximooverhead permitido o tiempo de finalización), convirtiendo aSEDAR en una metodología viable y eficaz para tolerar fallostransitorios en HPC. A diferencia de estrategias específicas,que proporcionan resiliencia parcial para ciertas aplicaciones,a costa de modificarlas, SEDAR es esencialmente transparentey agnóstico respecto del algoritmo protegido.basado en múltiples checkpoints.• El detalle del trabajo experimental realizado para incorporarSEDAR a las aplicaciones paralelas.• La determinación de la cantidad de recursos necesarios,junto con la caracterización temporal y la evaluación de losoverheads de cada una de las tres alternativas. Esto permitemostrar los beneficios obtenidos tanto en tiempo de ejecucióncomo en confiabilidad de los resultados, y por lo tantola viabilidad de SEDAR para tolerar fallos transitorios en HPC.• La evidencia de la flexibilidad de SEDAR para adaptarse a undeterminado compromiso entre costo y desempeño obtenido.Líneas de I/D futuras• Ampliar la validación experimental, utilizando el algoritmode recuperación basado en checkpoints de capa de aplicación.• Calcular el intervalo óptimo de checkpoint, de modo de minimizartanto el overhead de ejecución como el trabajo quedebe rehacerse, cuantificando la relación entre la latencia dedetección y el patrón de comunicaciones.• Dar soporte óptimo a la ocurrencia de varios fallos no relacionadoscon la recuperación basada en múltiples checkpoints, ypredecir la respuesta temporal.• Implementar una adaptación dinámica del mecanismo de recuperación,y herramientas auxiliares para brindar al usuarioreportes y estadísticas para análisis posteriores.• Integrar SEDAR con arquitecturas de tolerancia a fallos permanentes,para soportar ambos tipos de fallos con una únicaherramienta funcional para Exa-escala, tomando en cuenta elimpacto del consumo energético sobre la resiliencia.Aportes de la tesisLas principales contribuciones de la tesis son:• El desarrollo de una metodología de tolerancia a fallos,funcionalmente válida, que integra la duplicación (para detección)con el checkpoint & restart que se utiliza para garantizarrecuperación de fallos permanentes, obteniendo asíuna estrategia que asegura tanto la finalización como la fiabilidadde los resultados.• La descripción y verificación del comportamiento funcional,mediante un modelo que contempla todos los escenariosposibles de fallos, demostrando la eficacia de detección ydel mecanismo de recuperación basado en múltiples checkpointsde nivel de sistema.• La comprobación empírica de las predicciones del modelo,por medio de inyección controlada de fallos.• La implementación de un prototipo de herramienta automáticacapaz de recuperar sin intervención del usuario, queintegra el mecanismo de detección con el de recuperación13 TESIS Y TESISTAS 2020
Page 2 and 3: índiceEquipo Editorialpag. 4MAESTR
Page 4 and 5: equipoeditorialDIRECTOR DE POSTGRAD
Page 7 and 8: 01DOCTORADO ENCIENCIAS INFORMÁTICA
Page 9 and 10: españolDr. Facundo Manuel Quiroga5
Page 11: englishDr. Facundo Manuel Quirogaeq
Page 15 and 16: englishDr. Diego Miguel Montezantit
Page 17 and 18: españolDra. Verónica ArtolaAsí,
Page 19 and 20: englishDr. Verónica Artola• The
Page 21 and 22: españolDra. Patricia Rosalia Jimbo
Page 23 and 24: englishDr. Patricia Rosalia Jimbo S
Page 25 and 26: españolDr. Sergio Hernán Rocabado
Page 27 and 28: englishDr. Sergio Hernán Rocabado
Page 29 and 30: españolDra. Noelia Soledad Pintoat
Page 31 and 32: englishDr. Noelia Soledad Pintoof e
Page 33 and 34: DOCTORADO ENCIENCIAS INFORMÁTICASD
Page 35 and 36: españolDr. Nahuel Mangiaruautiliza
Page 37: englishDr. Nahuel Mangiaruaand reco
Page 40 and 41: MAESTRÍATECNOLOGÍA INFORMÁTICAAP
Page 62 and 63:
MAESTRÍATECNOLOGÍA INFORMÁTICAAP
Page 64 and 65:
Page 66 and 67:
Page 68 and 69:
Page 70 and 71:
Page 72 and 73:
Page 74 and 75:
Page 76 and 77:
Page 78 and 79:
MAESTRÍAINGENIERÍA DE SOFTWAREMg.
Page 80 and 81:
Page 82 and 83:
Page 84 and 85:
Page 86 and 87:
Page 88 and 89:
Page 90 and 91:
Page 92 and 93:
Page 94 and 95:
MAESTRÍAredes de datosMg. Mónica
Page 96 and 97:
MAESTRÍAredes de datosMg. Mónica
Page 98 and 99:
MAESTRÍAredes de datosMg. Moises E
Page 100 and 101:
MAESTRÍAredes de datosMg. Diego Ro
Page 102 and 103:
MAESTRÍAredes de datosMg. Diego Ro
Page 104 and 105:
MAESTRÍAredes de datosMg. Hugo Ort
Page 106 and 107:
MAESTRÍAredes de datosMg. Hugo Ort
Page 108 and 109:
MAESTRÍAredes de datosMg. Emanuel
Page 110 and 111:
MAESTRÍACómputo de AltasPrestacio
Page 113 and 114:
03especializacionesTECNOLOGÍA INFO
Page 115 and 116:
españolDr. José Manuel Ochoa Robl
Page 117 and 118:
englishDr. José Manuel Ochoa Roble
Page 119 and 120:
españolEsp. Mario Alberto Vincenzi
Page 121 and 122:
englishEsp. Mario Alberto VincenziW
Page 123 and 124:
españolEsp. Nicolás Martín Páez
Page 125 and 126:
englishEsp. Nicolás Martín PáezP
Page 127 and 128:
españolEsp. Cesar Armando Estrebou
Page 129 and 130:
englishEsp. Cesar Armando Estrebouw
Page 131 and 132:
españolEsp. Laura Randa Calcagnius
Page 133 and 134:
englishEsp. Laura Randa Calcagnican
Page 135 and 136:
especializaciónIngeniería de Soft
Page 137 and 138:
JURADOSDESIGNADOSLic. Azrilevich Pa
show all

Tesis y Tesistas 2020 - Postgrado - Fac. de Informática - UNLP

Create successful ePaper yourself

Delete template?

Save as template?