08.03.2021 Views

Tesis y Tesistas 2020 - Postgrado - Fac. de Informática - UNLP

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

DOCTORADO EN

CIENCIAS INFORMÁTICAS

Dr. Diego Miguel Montezanti

e-mail

dmontezanti@lidi.info.unlp.edu.ar

Directores

Ing. Armando Eduardo De Giusti

Dra. Dolores Rexachs del Rosario

Codirectores

Dr. Marcelo Naiouf

Dr. Emilio Luque Fadón

Fecha de defensa

18 de marzo de 2020

SEDICI

http://sedici.unlp.edu.ar/handle/10915/98816

SEDAR:

Detección y recuperación

Automática de fallos

transitorios en Sistemas

de Computo de Altas

prestaciones

Palabras clave: Fallos transitorios; detección de fallos; replicación de procesos; recuperación automática; corrupción silenciosa

de datos; sistemas de HPC; inyección de fallos; checkpoints.

Motivación

La confiabilidad y la Tolerancia a Fallos se han vuelto aspectos

de relevancia creciente en el ámbito del HPC, debido al incremento

en la probabilidad de que ocurran fallos de diferentes

clases en estos sistemas. Esto se debe, fundamentalmente, a

la creciente complejidad de los procesadores, en la búsqueda

de mejorar las prestaciones, que conlleva el aumento en la

escala de integración y en la cantidad de componentes que

trabajan cerca de sus límites tecnológicos, siendo cada vez

más propensos a fallos. Otro factor que incide es el aumento

del tamaño de los sistemas paralelos para obtener mayor

potencia computacional, en cuanto a cantidad de cores y de

nodos de procesamiento.

A medida que las aplicaciones demandan mayores tiempos

de cómputo ininterrumpido, crece el impacto de los fallos,

debido al costo que requiere relanzar una ejecución que fue

abortada por la ocurrencia de un fallo o que finalizó con resultados

erróneos. En consecuencia, es necesario ejecutar

estas aplicaciones sobre sistemas altamente disponibles y

fiables, requiriéndose para ello estrategias capaces de proveer

detección, protección y recuperación frente a fallos.

En los próximos años está previsto alcanzar la Exa-escala,

en la que existan supercomputadoras con millones de núcleos

de procesamiento, capaces de realizar del orden supercomputadoras

con millones de núcleos de procesamiento,

capaces de realizar del orden aplicaciones de HPC, aunque

también aumenta el peligro de que no completen sus ejecuciones.

Estudios recientes muestran que, a medida de que los

sistemas continúan incluyendo más procesadores, el Tiempo

Medio Entre Errores disminuye, resultando en tasas de fallos

más altas y en mayor riesgo de obtener resultados corrompidos;

se prevé que las grandes aplicaciones paralelas tengan

que lidiar con fallos que ocurran cada pocos minutos, requiriendo

ayuda para progresar eficientemente. Las Corrupciones

Silenciosas de Datos son los fallos más peligrosos que

pueden presentarse, ya que generan resultados incorrectos

en programas que en apariencia se ejecutan correctamente.

Las aplicaciones científicas y las simulaciones a gran escala

son las más afectadas, por lo que el tratamiento de errores

silenciosos es el desafío principal hacia la resiliencia en HPC.

En aplicaciones de paso de mensajes, un fallo silencioso,

que afecta a una única tarea, puede producir un patrón de

corrupción que se propaga hacia todos los procesos que se

comunican; en el peor escenario, los resultados finales erróneos

no podrán ser detectados al finalizar la ejecución y serán

tomados como correctos.

Dado que las aplicaciones científicas presentan tiempos de

ejecución del orden de horas o días, resulta imprescindible

encontrar estrategias que permitan que las aplicaciones alcancen

soluciones correctas en un tiempo finito, a pesar de

los fallos subyacentes. Estas estrategias, además, evitan que

se dispare el consumo energético, ya que de no utilizarlas,

las ejecuciones deberían volver a lanzarse desde el principio.

Sin embargo, los modelos de programación paralela más populares

utilizados en supercomputadoras carecen de soporte

para tolerancia a fallos.

En este contexto de altas tasas de fallos, resultados no fia-

12

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!