18.03.2015 Views

XI Workshop de Testes e Tolerância a Falhas (WTF) - SBRC 2010

XI Workshop de Testes e Tolerância a Falhas (WTF) - SBRC 2010

XI Workshop de Testes e Tolerância a Falhas (WTF) - SBRC 2010

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>XI</strong> <strong>Workshop</strong> <strong>de</strong> <strong>Testes</strong> e Tolerância a <strong>Falhas</strong> 3<br />

Consenso com Recuperação no Mo<strong>de</strong>lo<br />

Partitioned Synchronous<br />

Sérgio Goren<strong>de</strong>r e Raimundo Macêdo<br />

1 Laboratório <strong>de</strong> Sistemas Distribuídos (LaSiD)<br />

Departamento <strong>de</strong> Ciência da Computação<br />

Universida<strong>de</strong> Fe<strong>de</strong>ral da Bahia<br />

Campus <strong>de</strong> Ondina - Salvador - BA - Brasil<br />

{macedo,goren<strong>de</strong>r}@ufba.br<br />

Abstract. The partioned synchronous distributed system mo<strong>de</strong>l has been introduced<br />

to take advantage of synchronous partitions of hybrid distributed systems, as such<br />

synchronous partitions are implementable in many real scenarios. In this paper we<br />

present for the first time a consensus algorithm for proceses that can recover, and its<br />

formal proofs, <strong>de</strong>voted to the partioned synchronous mo<strong>de</strong>l. The main advantage of<br />

the proposed algorithm is that it can tolerate up to n-k process failures in a system<br />

with n processes and k synchronous partitions - not all processes need to belong to<br />

synchronous partitions. In particular, such robustness is valid even if the majority of<br />

processes does not belong to synchronous partitions, which is an advantage in terms<br />

of robustness when compared with algorithms for conventional distributed system<br />

mo<strong>de</strong>ls.<br />

Resumo. O mo<strong>de</strong>lo síncrono particionado (partioned synchronous foi introduzido<br />

para tirar proveito <strong>de</strong> partições síncronas em sistemas distribuídos híbridos, uma<br />

vez que estas são implementáveis em muitos cenários reais. No presente artigo<br />

apresentamos pela primeira vez um algoritmo para consenso com recuperação <strong>de</strong><br />

processos, e respectivas provas formais, a<strong>de</strong>quado ao mo<strong>de</strong>lo síncrono particionado.<br />

O algoritmo proposto tem como principal vantagem a capacida<strong>de</strong> <strong>de</strong> tolerar n-k<br />

<strong>de</strong>feitos <strong>de</strong> processos, on<strong>de</strong> k é o número <strong>de</strong> partições síncronas e n o tonal <strong>de</strong><br />

processos no sistema - sendo que po<strong>de</strong>m existir processos que não fazem parte <strong>de</strong><br />

partições síncronas. Em particular, a robustez do protocolo se aplica mesmo se a<br />

maioria dos processos não estiver em partições síncronas, o que representa uma<br />

vantagem em termos <strong>de</strong> robustez quando comparado com soluções para mo<strong>de</strong>los<br />

convencionais.<br />

1. Introdução<br />

Os sistemas distribuídos são compostos por um conjunto <strong>de</strong> processos resi<strong>de</strong>ntes em diversos<br />

computadores <strong>de</strong> uma re<strong>de</strong> <strong>de</strong> comunicação, on<strong>de</strong> os processos se comunicam por troca <strong>de</strong><br />

mensagens. Uma das principais vantagens dos sistemas distribuídos é a possibilida<strong>de</strong> <strong>de</strong> se<br />

implementar aplicações tolerantes a falhas, por exemplo, através da replicação <strong>de</strong> processos,<br />

garantindo a continuida<strong>de</strong> do serviço sendo executado mesmo que ocorram <strong>de</strong>feitos em<br />

um <strong>de</strong>terminado número <strong>de</strong> processos e canais <strong>de</strong> comunicação. A capacida<strong>de</strong> <strong>de</strong> resolver<br />

problemas <strong>de</strong> tolerância a falhas em sistemas distribuídos está intimamente ligada à existência<br />

<strong>de</strong> um mo<strong>de</strong>lo <strong>de</strong> sistema a<strong>de</strong>quado on<strong>de</strong> se possa <strong>de</strong>monstrar a possibilida<strong>de</strong> <strong>de</strong> solução <strong>de</strong>

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!