10.04.2015 Views

Formato PDF - mtc-m17:80 - Inpe

Formato PDF - mtc-m17:80 - Inpe

Formato PDF - mtc-m17:80 - Inpe

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

para cada formiga de seu subconjunto de formigas. Esta estratégia aplica-se ao laço correspondente<br />

às linhas 8, 9 e 10 do algoritmo 3.2 3.4.1.<br />

É interessante notar que, nos casos considerados o maior tempo de processamento é demandado<br />

pela avaliação de cada solução candidata, ou seja, pelo LTS N . O esquema de<br />

pré-seleção das formigas demanda um custo de processamento relativamente menor, pois<br />

implica apenas na avaliação da norma-2 de Tikhonov e, além disso, não seria trivialmente<br />

paralelizável, pois demandaria comunicação entre processadores.<br />

Entretanto, a execução sequencial da pré-seleção afeta negativamente o "speed up"devido<br />

à Lei de Amdahl. Conforme será discutido adiante, esta penalização é maior no caso com<br />

simetria azimutal pois a fração de código sequencial (que inclui a pré-seleção) é maior<br />

comparativamente ao caso sem simetria azimutal.<br />

Apesar da opção de paralelizar o ACO, ou seja, distribuir a avaliação das formigas entre<br />

processadores, testes comparativos realizados com N F = N g =173, discretização usada<br />

em algumas reconstruções apresentadas, mostraram que o ganho de desempenho é equivalente<br />

ao que seria obtido com a paralelização dos modos azimutais do LTS N .<br />

Entretanto, conforme mencionado acima, seria possível, nos casos sem simetria azimutal,<br />

distribuir a avaliação de formigas entre processadores, sendo que, para cada avaliação, os<br />

modos azimutais do LTS N seriam distribuídos entre outros conjuntos de processadores.<br />

Para isto, seria necessária uma MPP.<br />

Os programas associados ao presente trabalho foram paralelizados pela inclusão de chamadas<br />

a rotinas da biblioteca de comunicação MPI e executados em uma máquina paralela<br />

de memória distribuída, um cluster de baixo custo, composto por 17 nós monoprocessados<br />

interligados por uma rede padrão Fast Ethernet com um switch de 24 portas. Os processadores<br />

são AMD 1,67 GHZ, de arquitetura IA32, escalares, e cada nó tem 1 GB de memória<br />

principal. Pode-se afirmar que, apesar do cluster utilizado, a paralelização tornou viável<br />

a execução dos casos de testes apresentados, possibilitando um ciclo de experimentação<br />

numérica possível de ser realizado em poucas horas.<br />

Caso contrário, seria ainda possível executar cada reconstrução independentemente num<br />

nó monoprocessado diferente, mas isso demandaria dias para cada uma. Este esquema é<br />

relativamente adequado para a execução de programas que demandam menor tempo de<br />

processamento, não estão paralelizados (ou não podem ser paralelizados) e que diferem<br />

entre si apenas por utilizarem dados de entrada diferentes. Assim, utiliza-se cada nó do<br />

95

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!