18.03.2015 Views

XI Workshop de Testes e Tolerância a Falhas (WTF) - SBRC 2010

XI Workshop de Testes e Tolerância a Falhas (WTF) - SBRC 2010

XI Workshop de Testes e Tolerância a Falhas (WTF) - SBRC 2010

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

8 Anais<br />

em andamento (por exemplo, o consenso). Quando um processo se recupera <strong>de</strong> um <strong>de</strong>feito,<br />

retorna ao estado anterior à ocorrência do <strong>de</strong>feito, mantendo seus canais <strong>de</strong> comunicação e<br />

seu estado <strong>de</strong> sincronismo. Desta forma, o processo volta a ser membro <strong>de</strong> uma partição<br />

síncrona, se era membro <strong>de</strong>sta partição antes do <strong>de</strong>feito, ou retorna como processo assíncrono.<br />

O mecanismo <strong>de</strong> recuperação <strong>de</strong> <strong>de</strong>feitos <strong>de</strong>ve utilizar armazenamento estável para recuperar<br />

o estado do processo. O armazenamento é utilizado tanto para garantir a recuperação do<br />

estado geral do processo, inclusive a <strong>de</strong>terminação <strong>de</strong> quais protocolos estão sendo executados,<br />

como para armazenar informação necessária à participação do processo nestes protocolos,<br />

como será visto na seção 4.3. A recuperação <strong>de</strong> um processo, efetuada por este mecanismo<br />

<strong>de</strong> recuperação, não é instantãnea, e como utiliza armazenamento estavel, leva um tempo<br />

consi<strong>de</strong>ravel se comparada com a execução dos protocolos <strong>de</strong> <strong>de</strong>tecção <strong>de</strong> <strong>de</strong>feitos e do<br />

consenso.<br />

4.1. Adaptando os Detectores <strong>de</strong> Defeitos para uso com Recuperação<br />

O protocolo para <strong>de</strong>tecção <strong>de</strong> <strong>de</strong>feitos apresentado em [Macêdo and Goren<strong>de</strong>r 2009] monitora<br />

processos membros <strong>de</strong> partições síncronas que não estejam apresentando falha, ou seja, não<br />

tenham sua i<strong>de</strong>ntificação inserida no conjunto faulty i para cada processo p i ∈ Π. Este<br />

algoritmo implementa um <strong>de</strong>tector P no caso <strong>de</strong> a proprieda<strong>de</strong> strong partitioned synchrony<br />

ser satisfeita, e um <strong>de</strong>tector <strong>de</strong> <strong>de</strong>feitos xP , caso a proprieda<strong>de</strong> weak partitioned synchrony<br />

seja satisfeita. Nesta última situação, existem processos que não são membros <strong>de</strong> partições<br />

síncronas e estes processos não são monitorados. O <strong>de</strong>tector xP satisfaz as proprieda<strong>de</strong>s<br />

Partially Strong Completeness (todo processo pertencente a uma partição síncrona que falha<br />

será <strong>de</strong>tectado por todo processo correto em um tempo finito) e Partially Strong Accuracy<br />

(se um processo pertencente a uma partição síncrona for <strong>de</strong>tectado, este processo falhou). Para<br />

garantir a proprieda<strong>de</strong> Partially Strong Completeness, o intervalo <strong>de</strong> monitoração é configurado<br />

para um valor sempre inferior ao tempo mínimo <strong>de</strong> recuperação dos processos.<br />

Na figura 1 apresentamos uma versão modificada do algoritmo <strong>de</strong> <strong>de</strong>tecção <strong>de</strong> <strong>de</strong>feitos,<br />

para consi<strong>de</strong>rar a recuperação <strong>de</strong> processos. Esta modificação foi inserida na tarefa T 3 do<br />

algoritmo.<br />

Na versão original <strong>de</strong>ste algoritmo, mensagens are-you-alive continuam a ser enviadas<br />

a todos os processos, periodicamente, provocando a resposta <strong>de</strong>stes através <strong>de</strong> mensagens<br />

i-am-alive. A tarefa T 3 é executada quando uma mensagem i-am-alive é recebida, com o<br />

objetivo <strong>de</strong> cancelar o timeout <strong>de</strong>finido para a recepção <strong>de</strong>sta mensagem (linha 10). Nesta nova<br />

versão, quando a tarefa T 3 é executada, além do cancelamento do timeout, caso a i<strong>de</strong>ntificação<br />

do processo emissor da mensagem faça parte do conjunto faulty i , assume-se que este processo<br />

falhou e apresentou uma recuperação <strong>de</strong>sta falha. A i<strong>de</strong>ntificação <strong>de</strong>ste processo é retirada do<br />

conjunto faulty i (linha 11). Ao ter sua i<strong>de</strong>ntificação retirada do conjunto faulty i , o processo<br />

volta a ser monitorado. Processos que não são componentes <strong>de</strong> partições síncronas não são<br />

monitorados pelo <strong>de</strong>tector xP , e po<strong>de</strong>m falhar e se recuperar, voltando ao seu estado anterior,<br />

sem interferir com o <strong>de</strong>tector. A i<strong>de</strong>ntificação <strong>de</strong>stes processos não é inserida no conjunto<br />

faulty i para os processos p i .<br />

A i<strong>de</strong>ntificação <strong>de</strong> que processos são membros <strong>de</strong> partição síncrona e <strong>de</strong><br />

quais não são é feita por um oráculo, como <strong>de</strong>finido em [Macêdo and Goren<strong>de</strong>r 2008,<br />

Macêdo and Goren<strong>de</strong>r 2009]. O estado <strong>de</strong>stes processos é <strong>de</strong>finido no início da execução do<br />

sistema, permanecendo estável durante sua execução. Processos e canais <strong>de</strong> comunicação não

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!