XI Workshop de Testes e TolerÃ¢ncia a Falhas (WTF) - SBRC 2010

More documents

Recommendations

Info

8 Anais em andamento (por exemplo, o consenso). Quando um processo se recupera de um defeito, retorna ao estado anterior à ocorrência do defeito, mantendo seus canais de comunicação e seu estado de sincronismo. Desta forma, o processo volta a ser membro de uma partição síncrona, se era membro desta partição antes do defeito, ou retorna como processo assíncrono. O mecanismo de recuperação de defeitos deve utilizar armazenamento estável para recuperar o estado do processo. O armazenamento é utilizado tanto para garantir a recuperação do estado geral do processo, inclusive a determinação de quais protocolos estão sendo executados, como para armazenar informação necessária à participação do processo nestes protocolos, como será visto na seção 4.3. A recuperação de um processo, efetuada por este mecanismo de recuperação, não é instantãnea, e como utiliza armazenamento estavel, leva um tempo consideravel se comparada com a execução dos protocolos de detecção de defeitos e do consenso. 4.1. Adaptando os Detectores de Defeitos para uso com Recuperação O protocolo para detecção de defeitos apresentado em [Macêdo and Gorender 2009] monitora processos membros de partições síncronas que não estejam apresentando falha, ou seja, não tenham sua identificação inserida no conjunto faulty i para cada processo p i ∈ Π. Este algoritmo implementa um detector P no caso de a propriedade strong partitioned synchrony ser satisfeita, e um detector de defeitos xP , caso a propriedade weak partitioned synchrony seja satisfeita. Nesta última situação, existem processos que não são membros de partições síncronas e estes processos não são monitorados. O detector xP satisfaz as propriedades Partially Strong Completeness (todo processo pertencente a uma partição síncrona que falha será detectado por todo processo correto em um tempo finito) e Partially Strong Accuracy (se um processo pertencente a uma partição síncrona for detectado, este processo falhou). Para garantir a propriedade Partially Strong Completeness, o intervalo de monitoração é configurado para um valor sempre inferior ao tempo mínimo de recuperação dos processos. Na figura 1 apresentamos uma versão modificada do algoritmo de detecção de defeitos, para considerar a recuperação de processos. Esta modificação foi inserida na tarefa T 3 do algoritmo. Na versão original deste algoritmo, mensagens are-you-alive continuam a ser enviadas a todos os processos, periodicamente, provocando a resposta destes através de mensagens i-am-alive. A tarefa T 3 é executada quando uma mensagem i-am-alive é recebida, com o objetivo de cancelar o timeout definido para a recepção desta mensagem (linha 10). Nesta nova versão, quando a tarefa T 3 é executada, além do cancelamento do timeout, caso a identificação do processo emissor da mensagem faça parte do conjunto faulty i , assume-se que este processo falhou e apresentou uma recuperação desta falha. A identificação deste processo é retirada do conjunto faulty i (linha 11). Ao ter sua identificação retirada do conjunto faulty i , o processo volta a ser monitorado. Processos que não são componentes de partições síncronas não são monitorados pelo detector xP , e podem falhar e se recuperar, voltando ao seu estado anterior, sem interferir com o detector. A identificação destes processos não é inserida no conjunto faulty i para os processos p i . A identificação de que processos são membros de partição síncrona e de quais não são é feita por um oráculo, como definido em [Macêdo and Gorender 2008, Macêdo and Gorender 2009]. O estado destes processos é definido no início da execução do sistema, permanecendo estável durante sua execução. Processos e canais de comunicação não
XI Workshop de Testes e Tolerância a Falhas 9 Task T 1: every monitoringInterval do (1) for_each p j , p j ≠ p i do (2) timeout i [p j ] ← CT i () + 2δ + α; (3) send “are-you-alive?” message to p j (4) end Task T 2: when ∃p j : (p j /∈ faulty i ) ∧ (CT i () > timeout i [p j ])) do (5) if (QoS(c i/j ) = T ) then (6) faulty i ← faulty i ∪ {p j }; (7) send notification (p i , p j ) to every p x such that p x ≠ p i ∧ p x ≠ p j (8) else do nothing (wait for a remote notification) (9) end_if Task T 3: when “I-am-alive” is received from p j do (10) timeout i [p j ] ← ∞; /* cancels timeout */ (11) if (p j ∈ faulty i ) then faulty i ← faulty i − p j ; Task T 4: when notification(p x , p j ) is received do (12) if p j /∈ faulty i then (13) faulty i ← faulty i ∪ {p j }; (14) end_if Task T 5: when “are-you-alive?” is received from p j do (15) send “I-am-alive” to p j Figure 1. Algoritmo do detector de defeitos xP para o processo p i com recuperação. alteram seu estado entre síncrono/assíncrono. Como o número de partições síncronas existentes é estável, digamos k partições, e por definição [Macêdo and Gorender 2008, Macêdo and Gorender 2009], toda partição síncrona possui ao menos um processo que não falha, permanecendo correto, temos no mínimo k processos que não falham durante a sua execução. 4.2. Mecanismo para eleição de líder Assumimos a existência de um mecanismo para eleição de líder para o modelo Spa, baseado no detector de defeitos utilizado (classe P ou xP ). Este mecanismo sempre indica como líder um processo pertencente a alguma partição síncrona (caso a propriedade strong partitioned synchrony seja válida será qualquer processo). Inicialmente, o mecanismo indica como líder do grupo, para cada processo p i ∈ Π, o processo de menor identificação, que seja membro de alguma partição síncrona, e que não tenha a sua identificação inserida no conjunto faulty i . Durante a execução do sistema novos processos líderes podem ser indicados pelo mecanismo, à medida em que os líderes atuais falhem. Neste caso, quando o módulo do detector de defeitos de cada processo p i ∈ Π detectar a falha do líder atual, sendo a identificação deste inserida no conjunto faulty i , um novo processo líder será escolhido para substituir o que falhou. Este novo líder será um processo membro de partição síncrona que não apresente falha, e cuja identificação seja a de menor número, desde que maior do que a identificação do líder a ser substituído. Desta forma, os líderes serão sempre escolhidos em ordem crescente de suas identificações. Este dispositivo evita que processos instáveis possam falhar e se recuperar com freqüência, voltando a liderar o grupo, e gerando instabilidade na execução de protocolos. No pior caso, como existem por definição ao menos k processos corretos, um para
Page 1 and 2: XXVIII Simpósio Brasileiro de Rede
Page 3 and 4: XI Workshop de Testes e Tolerância
Page 13: XI Workshop de Testes e Tolerância
Page 16 and 17: 4 Anais tais problemas. Portanto, h
Page 18 and 19: 6 Anais consenso para o modelo ass
Page 22 and 23: 10 Anais cada partição síncrona,
Page 24 and 25: 12 Anais A tarefa T 4 é executada
Page 26 and 27: 14 Anais • Assumimos que o proces
Page 28 and 29: 16 Anais Veríssimo, P. and Casimir
Page 30 and 31: 18 Anais Entretanto, em caso de fal
Page 32 and 33: 20 Anais à aplicação: SafeSendT
Page 34 and 35: 22 Anais Na fase de inicialização
Page 36 and 37: 24 Anais acesso a C e nem a C d . E
Page 38 and 39: 26 Anais Prova. 1. Se t + 1 /∈ C
Page 40 and 41: 28 Anais algoritmo de término. Vá
Page 42 and 43: 30 Anais instantânea. Além disso,
Page 44 and 45: 32 Anais [Chandra and Toueg 1996].
Page 46 and 47: 34 Anais Every JXTA-FD instance exe
Page 48 and 49: 36 Anais 3.4. GossipTask A rotina G
Page 50 and 51: 38 Anais mecanismo foi adotado para
Page 52 and 53: 40 Anais Tempo de Detecção e Recu
Page 54 and 55: 42 Anais nout em relação à exati
Page 56 and 57: 44 Anais Fischer, M. J., Lynch, N.
Page 58 and 59: 46 Anais 1. Introdução Sistemas d
Page 60 and 61: 48 Anais canais de comunicação co
Page 62 and 63: 50 Anais Figura 1. Interface do QoS
Page 64 and 65: 52 Anais onde as aplicações solic
Page 66 and 67: 54 Anais • QOSP _REGIST ER: Esta
Page 68 and 69: 56 Anais O DSCP utilizado para o Se
Page 70 and 71:
58 Anais seu destino, enquanto que
Page 73 and 74:
XI Workshop de Testes e Tolerância
Page 75 and 76:
Page 77 and 78:
Page 79 and 80:
Page 81 and 82:
Page 83 and 84:
Page 85 and 86:
Page 87 and 88:
Page 89 and 90:
Page 91 and 92:
Page 93 and 94:
Page 95 and 96:
Page 97 and 98:
Page 99 and 100:
Page 101:
Page 104 and 105:
92 Anais geralmente baseados nos gr
Page 106 and 107:
94 Anais Os parâmetros podem repre
Page 108 and 109:
96 Anais Um exemplo de configuraç
Page 110 and 111:
98 Anais E. Evolução O Módulo Ev
Page 112 and 113:
100 Anais Tabela 1: Cobertura obtid
Page 114 and 115:
102 Anais ineditismo, o que parece
Page 116 and 117:
104 Anais Evaluation of Novel Appro
Page 118 and 119:
106 Anais protocolo; (2) verificaç
Page 120 and 121:
108 Anais Uma MEF pode ser represen
Page 122 and 123:
110 Anais se dá em uma seqüência
Page 124 and 125:
112 Anais 1 2 3 4 5 Data: MEF M e C
Page 126 and 127:
114 Anais (a) Variação do número
Page 128 and 129:
116 Anais Fujiwara, S., Bochman, G.
Page 131 and 132:
Page 133 and 134:
Page 135 and 136:
Page 137 and 138:
Page 139 and 140:
Page 141 and 142:
Page 143 and 144:
Page 145 and 146:
Page 147 and 148:
Page 149 and 150:
Page 151 and 152:
Page 153 and 154:
Page 155 and 156:
Page 157:
Page 161 and 162:
Page 163 and 164:
Page 165 and 166:
Page 167 and 168:
Page 169 and 170:
Page 171 and 172:
Page 173 and 174:
Page 175 and 176:
Page 177 and 178:
Page 179 and 180:
Page 181 and 182:
Page 183 and 184:
Page 185 and 186:
Page 187 and 188:
Page 189:
show all

XI Workshop de Testes e TolerÃ¢ncia a Falhas (WTF) - SBRC 2010

Create successful ePaper yourself

Delete template?

Save as template?