31.07.2015 Aufrufe

Loadbalancing auf Parallelrechnern mit Hilfe endlicher Dimension ...

Loadbalancing auf Parallelrechnern mit Hilfe endlicher Dimension ...

Loadbalancing auf Parallelrechnern mit Hilfe endlicher Dimension ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

5 Details zur Implementierung und MessergebnisseTaktfrequenz sowie 256 MB Speicher ausgestattet. Als Kommunikationshardware kommtein Myrinet-Netzwerk zum Einsatz. Als dar<strong>auf</strong> <strong>auf</strong>setzende MPI-Implementierung wirdParastation3 (www.par-tec.com) verwendet. Übersetzt wird das Programm <strong>mit</strong> demCompaq-C++-Compiler cxx in Version 6.3.9.6.PSCDer zweite zum Testen verwendete Rechner ist der PSC am Paderborn Center for ParallelComputing (PC 2 , www.upb.de/pc2/index.html). Dieser Rechner vom Typ SiemenshpcLine besteht aus 96 Knoten <strong>mit</strong> je zwei Pentium-III-Prozessoren <strong>mit</strong> 850 MHzund 512 MB Speicher. Zwar enthalten die Knoten schnelle Dolphin-PCI/SCI-Kartenzur Kommunikation, für die Tests wurden jedoch nur die zusätzlich vorhandenen 100-MBit-Ethernet-Karten benutzt. Auf diese Weise stehen die Resultate für einen ”typischen“PC-Cluster. Als Kommunikationssoftware wird MPICH in der Version 1.2.4(www.mcs.anl.gov/mpi/mpich) verwendet, als Compiler g++ Version 2.95.3. Von denzwei Prozessoren pro Knoten wurde für die Messungen jeweils nur einer verwendet.PC-ClusterAls dritte Testplattform diente ein kleiner PC-Cluster am Fachbereich Mathematik derUniversität Wuppertal, bestehend aus 16 Pentium-III-PCs <strong>mit</strong> 800 MHz und 384 MBRAM sowie 100-MBit-Ethernet-Kommunikation. Bei Topologien über 16 Knoten wurdenmehrere Prozesse pro Rechner gestartet. Die verwendete MPI-Implementierung istLAM/MPI Version 6.5.6 (www.lam-mpi.org) in Kombination <strong>mit</strong> dem g++ in Version3.0.3. Statt des Client-to-Client-Mode (c2c) wurde die prinzipiell langsamere Kommunikationüber den LAM-Dämon verwendet. Der Grund hierfür sind Performance-Einbrücheim c2c-Mode, wenn mehrere Prozesse <strong>auf</strong> dem selben Rechner asynchron kommunizieren.EigenwertberechnungIn Fällen, wo keine expliziten Formeln zur Eigenwertberechnung bekannt sind, also vorallem bei unstrukturierten Graphen, wird zur effizienten Berechnung der EigenwerteLAPACK (Linear Algebra Package, www.netlib.org/lapack) verwendet in Kombination<strong>mit</strong> einer für den jeweiligen Rechner optimierten BLAS-Bibliothek (Basic LinearAlgebra Subprograms). Während für ALiCE <strong>mit</strong> der cxml eine Compaq-eigene BLAS-Version existiert, sollte <strong>auf</strong> PCs ATLAS (Automatically Tuned Linear Algebra Software,math-atlas.sourceforge.net) verwendet werden.5.8 Ergebnisse der Zeit- und FlussmessungenFür die Zeit- und Flussmessungen wurden insgesamt sechs Topologien betrachtet: Zyklus,kompletter Graph, Gitter, Torus, Hypercube und zufälliger Graph. Die angegebenenZeiten beinhalten nur das eigentliche <strong>Loadbalancing</strong>, nicht aber die Berechnungder Eigenwerte oder zum Beispiel die Bestimmung des optimalen α beim FOS. Gehtman davon aus, dass sich die Topologie nicht ändert, muss die Eigenwertberechnungja auch nur einmal durchgeführt werden, während das <strong>Loadbalancing</strong> wiederholt angewandtwird. Außerdem haben die Messwerte ergeben, dass diese zusätzlichen Zeitenim Vergleich zum gesamten <strong>Loadbalancing</strong> keine entscheidende Rolle spielen. Die einzige114

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!