12.07.2015 Views

Tamtam Proceedings - lamsin

Tamtam Proceedings - lamsin

Tamtam Proceedings - lamsin

SHOW MORE
SHOW LESS
  • No tags were found...

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Simulation d’écoulements diphasiques 283Toutefois, pour les produits scalaires, une communication sera nécessaire pour que chaqueprocesseur envoie aux autres sa partie et reçoive de chacun leur partie. La dérivation destâches indépendantes dans la troisième opération (produit matrice-vecteur) est fonctiondu stockage morse utilisé. Cette opération est la plus importante en temps de calcul, elleconsomme a peu près 70% du temps CPU total. La stratégie adopté consiste à équidistribuerpar paquets de lignes de la matrice sur les processus ; chacun aura la totalité duvecteur X et un bloc A i de lignes de A h (Fig1). Chaque processeur P i se charge localementde faire le produit du bloc A i par le vecteur X. Le résultat sera un vecteur (AX) ide dimension égale au nombre de lignes de A i . On utilise une fonction de communicationsynchrone pour la mise à jour du vecteur global après chaque produit matrice-vecteur.Pour tester cette stratégie, nous avons exécuté le code parallélisé sous MPI [10] sur uneMaillage noeuds inconnuesh11089 3267h4225 126752h316641 49923h4 66049 198147Figure 1. Matrix-vector productFigure 2. Table de Maillages testsmachine MIMD (HP-V 2250) à 16 processeurs avec 8Go de mémoire partagée en architecture“Cross bar”. Les tests de performance ont été menés sur 4 discrétisations spatialesdu même domaine de calcul suivant le tableau FIG.2.On note que le passage d’un maillage h i à h i+1 nécessite 4 fois plus de données.Pour chaque maillage, une série d’exécution avec une partition sur 2,3,4,6,8,10,12 et 14processeurs a été effectuée. Les résultats seront analysés suivant deux types de courbes :- Courbes de temps CPU (Fig.3) et Elapsed (Fig.4) nous indiquant l’évolution absoluepar rapport au nombre de processeurs.- Courbes de Speed-Up CPU (Fig.5) et Elapsed (Fig.6) permettant d’évaluer l’efficacitéde l’algorithme parallélisé, l’influence de la communication entre les processeurs etl’impact de la granularité de calcul sur les performances.Au premier abord, on remarque généralement que plus le maillage est fin, plus le gainen performance est significatif et ce quelque soit le nombre de processeurs considéré.Ensuite on observe un comportement superlinéaire aussi bien en speed-Up CPU (à partirde 2 processeurs et du maillage h 2 ) qu’en speed-Up Elapsed (à partir de 2 processeurset du maillage h 3 ) : deux argumentations justifieraient ce comportement lié intimementà la granularité de calcul. En effet, pour les temps CPU la performance est quasi linéairemême pour le cas h 1 ce qui éliminent l’effet négatif de l’overhead ; par contre, pour lestemps Elapsed,est exclu la partie la plus importante de l’overhead résulte de l’échangeTAMTAM –Tunis– 2005

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!