Tesis y Tesistas 2020 - Postgrado - Fac. de Informática - UNLP
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
DOCTORADO EN
CIENCIAS INFORMÁTICAS
Dr. Diego Miguel Montezanti
dmontezanti@lidi.info.unlp.edu.ar
Directores
Ing. Armando Eduardo De Giusti
Dra. Dolores Rexachs del Rosario
Codirectores
Dr. Marcelo Naiouf
Dr. Emilio Luque Fadón
Fecha de defensa
18 de marzo de 2020
SEDICI
http://sedici.unlp.edu.ar/handle/10915/98816
SEDAR:
Detección y recuperación
Automática de fallos
transitorios en Sistemas
de Computo de Altas
prestaciones
Palabras clave: Fallos transitorios; detección de fallos; replicación de procesos; recuperación automática; corrupción silenciosa
de datos; sistemas de HPC; inyección de fallos; checkpoints.
Motivación
La confiabilidad y la Tolerancia a Fallos se han vuelto aspectos
de relevancia creciente en el ámbito del HPC, debido al incremento
en la probabilidad de que ocurran fallos de diferentes
clases en estos sistemas. Esto se debe, fundamentalmente, a
la creciente complejidad de los procesadores, en la búsqueda
de mejorar las prestaciones, que conlleva el aumento en la
escala de integración y en la cantidad de componentes que
trabajan cerca de sus límites tecnológicos, siendo cada vez
más propensos a fallos. Otro factor que incide es el aumento
del tamaño de los sistemas paralelos para obtener mayor
potencia computacional, en cuanto a cantidad de cores y de
nodos de procesamiento.
A medida que las aplicaciones demandan mayores tiempos
de cómputo ininterrumpido, crece el impacto de los fallos,
debido al costo que requiere relanzar una ejecución que fue
abortada por la ocurrencia de un fallo o que finalizó con resultados
erróneos. En consecuencia, es necesario ejecutar
estas aplicaciones sobre sistemas altamente disponibles y
fiables, requiriéndose para ello estrategias capaces de proveer
detección, protección y recuperación frente a fallos.
En los próximos años está previsto alcanzar la Exa-escala,
en la que existan supercomputadoras con millones de núcleos
de procesamiento, capaces de realizar del orden supercomputadoras
con millones de núcleos de procesamiento,
capaces de realizar del orden aplicaciones de HPC, aunque
también aumenta el peligro de que no completen sus ejecuciones.
Estudios recientes muestran que, a medida de que los
sistemas continúan incluyendo más procesadores, el Tiempo
Medio Entre Errores disminuye, resultando en tasas de fallos
más altas y en mayor riesgo de obtener resultados corrompidos;
se prevé que las grandes aplicaciones paralelas tengan
que lidiar con fallos que ocurran cada pocos minutos, requiriendo
ayuda para progresar eficientemente. Las Corrupciones
Silenciosas de Datos son los fallos más peligrosos que
pueden presentarse, ya que generan resultados incorrectos
en programas que en apariencia se ejecutan correctamente.
Las aplicaciones científicas y las simulaciones a gran escala
son las más afectadas, por lo que el tratamiento de errores
silenciosos es el desafío principal hacia la resiliencia en HPC.
En aplicaciones de paso de mensajes, un fallo silencioso,
que afecta a una única tarea, puede producir un patrón de
corrupción que se propaga hacia todos los procesos que se
comunican; en el peor escenario, los resultados finales erróneos
no podrán ser detectados al finalizar la ejecución y serán
tomados como correctos.
Dado que las aplicaciones científicas presentan tiempos de
ejecución del orden de horas o días, resulta imprescindible
encontrar estrategias que permitan que las aplicaciones alcancen
soluciones correctas en un tiempo finito, a pesar de
los fallos subyacentes. Estas estrategias, además, evitan que
se dispare el consumo energético, ya que de no utilizarlas,
las ejecuciones deberían volver a lanzarse desde el principio.
Sin embargo, los modelos de programación paralela más populares
utilizados en supercomputadoras carecen de soporte
para tolerancia a fallos.
En este contexto de altas tasas de fallos, resultados no fia-
12