Formato PDF - mtc-m17:80 - Inpe
Formato PDF - mtc-m17:80 - Inpe
Formato PDF - mtc-m17:80 - Inpe
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
para cada formiga de seu subconjunto de formigas. Esta estratégia aplica-se ao laço correspondente<br />
às linhas 8, 9 e 10 do algoritmo 3.2 3.4.1.<br />
É interessante notar que, nos casos considerados o maior tempo de processamento é demandado<br />
pela avaliação de cada solução candidata, ou seja, pelo LTS N . O esquema de<br />
pré-seleção das formigas demanda um custo de processamento relativamente menor, pois<br />
implica apenas na avaliação da norma-2 de Tikhonov e, além disso, não seria trivialmente<br />
paralelizável, pois demandaria comunicação entre processadores.<br />
Entretanto, a execução sequencial da pré-seleção afeta negativamente o "speed up"devido<br />
à Lei de Amdahl. Conforme será discutido adiante, esta penalização é maior no caso com<br />
simetria azimutal pois a fração de código sequencial (que inclui a pré-seleção) é maior<br />
comparativamente ao caso sem simetria azimutal.<br />
Apesar da opção de paralelizar o ACO, ou seja, distribuir a avaliação das formigas entre<br />
processadores, testes comparativos realizados com N F = N g =173, discretização usada<br />
em algumas reconstruções apresentadas, mostraram que o ganho de desempenho é equivalente<br />
ao que seria obtido com a paralelização dos modos azimutais do LTS N .<br />
Entretanto, conforme mencionado acima, seria possível, nos casos sem simetria azimutal,<br />
distribuir a avaliação de formigas entre processadores, sendo que, para cada avaliação, os<br />
modos azimutais do LTS N seriam distribuídos entre outros conjuntos de processadores.<br />
Para isto, seria necessária uma MPP.<br />
Os programas associados ao presente trabalho foram paralelizados pela inclusão de chamadas<br />
a rotinas da biblioteca de comunicação MPI e executados em uma máquina paralela<br />
de memória distribuída, um cluster de baixo custo, composto por 17 nós monoprocessados<br />
interligados por uma rede padrão Fast Ethernet com um switch de 24 portas. Os processadores<br />
são AMD 1,67 GHZ, de arquitetura IA32, escalares, e cada nó tem 1 GB de memória<br />
principal. Pode-se afirmar que, apesar do cluster utilizado, a paralelização tornou viável<br />
a execução dos casos de testes apresentados, possibilitando um ciclo de experimentação<br />
numérica possível de ser realizado em poucas horas.<br />
Caso contrário, seria ainda possível executar cada reconstrução independentemente num<br />
nó monoprocessado diferente, mas isso demandaria dias para cada uma. Este esquema é<br />
relativamente adequado para a execução de programas que demandam menor tempo de<br />
processamento, não estão paralelizados (ou não podem ser paralelizados) e que diferem<br />
entre si apenas por utilizarem dados de entrada diferentes. Assim, utiliza-se cada nó do<br />
95