Loadbalancing auf Parallelrechnern mit Hilfe endlicher Dimension ...

Weitere Magazine

Empfehlungen

Info

5 Details zur Implementierung und MessergebnisseTaktfrequenz sowie 256 MB Speicher ausgestattet. Als Kommunikationshardware kommtein Myrinet-Netzwerk zum Einsatz. Als darauf aufsetzende MPI-Implementierung wirdParastation3 (www.par-tec.com) verwendet. Übersetzt wird das Programm mit demCompaq-C++-Compiler cxx in Version 6.3.9.6.PSCDer zweite zum Testen verwendete Rechner ist der PSC am Paderborn Center for ParallelComputing (PC 2 , www.upb.de/pc2/index.html). Dieser Rechner vom Typ SiemenshpcLine besteht aus 96 Knoten mit je zwei Pentium-III-Prozessoren mit 850 MHzund 512 MB Speicher. Zwar enthalten die Knoten schnelle Dolphin-PCI/SCI-Kartenzur Kommunikation, für die Tests wurden jedoch nur die zusätzlich vorhandenen 100-MBit-Ethernet-Karten benutzt. Auf diese Weise stehen die Resultate für einen ”typischen“PC-Cluster. Als Kommunikationssoftware wird MPICH in der Version 1.2.4(www.mcs.anl.gov/mpi/mpich) verwendet, als Compiler g++ Version 2.95.3. Von denzwei Prozessoren pro Knoten wurde für die Messungen jeweils nur einer verwendet.PC-ClusterAls dritte Testplattform diente ein kleiner PC-Cluster am Fachbereich Mathematik derUniversität Wuppertal, bestehend aus 16 Pentium-III-PCs mit 800 MHz und 384 MBRAM sowie 100-MBit-Ethernet-Kommunikation. Bei Topologien über 16 Knoten wurdenmehrere Prozesse pro Rechner gestartet. Die verwendete MPI-Implementierung istLAM/MPI Version 6.5.6 (www.lam-mpi.org) in Kombination mit dem g++ in Version3.0.3. Statt des Client-to-Client-Mode (c2c) wurde die prinzipiell langsamere Kommunikationüber den LAM-Dämon verwendet. Der Grund hierfür sind Performance-Einbrücheim c2c-Mode, wenn mehrere Prozesse auf dem selben Rechner asynchron kommunizieren.EigenwertberechnungIn Fällen, wo keine expliziten Formeln zur Eigenwertberechnung bekannt sind, also vorallem bei unstrukturierten Graphen, wird zur effizienten Berechnung der EigenwerteLAPACK (Linear Algebra Package, www.netlib.org/lapack) verwendet in Kombinationmit einer für den jeweiligen Rechner optimierten BLAS-Bibliothek (Basic LinearAlgebra Subprograms). Während für ALiCE mit der cxml eine Compaq-eigene BLAS-Version existiert, sollte auf PCs ATLAS (Automatically Tuned Linear Algebra Software,math-atlas.sourceforge.net) verwendet werden.5.8 Ergebnisse der Zeit- und FlussmessungenFür die Zeit- und Flussmessungen wurden insgesamt sechs Topologien betrachtet: Zyklus,kompletter Graph, Gitter, Torus, Hypercube und zufälliger Graph. Die angegebenenZeiten beinhalten nur das eigentliche Loadbalancing, nicht aber die Berechnungder Eigenwerte oder zum Beispiel die Bestimmung des optimalen α beim FOS. Gehtman davon aus, dass sich die Topologie nicht ändert, muss die Eigenwertberechnungja auch nur einmal durchgeführt werden, während das Loadbalancing wiederholt angewandtwird. Außerdem haben die Messwerte ergeben, dass diese zusätzlichen Zeitenim Vergleich zum gesamten Loadbalancing keine entscheidende Rolle spielen. Die einzige114
5.8 Ergebnisse der Zeit- und FlussmessungenAusnahme hiervon stellt vielleicht das DE-FOS bei unstrukturierten Graphen dar, wo zurBestimmung des optimalen α eine Art binäre Suche mit mehreren Eigenwertberechnungendurchgeführt wird. Um die Zeiten der verschieden schnellen Rechner besser vergleichenzu können, sind skalierte statt absoluter Zeiten abgedruckt. Als Referenz dient daseinfachste (d. h. am leichtesten zu implementierende) endliche Verfahren, nämlich OPT;dessen Zeiten werden auf 100 gesetzt. Die realen Zeiten für dieses Verfahren sind in Tabelle5.1 ersichtlich. Sie liegen in der Regel im Bereich weniger Milli- bis Zentisekunden.Graph ALiCE PSC PC-ClusterC 32 1,41 4,26 16,83K 16 0,751 2,26 10,2G 8 5,23 14,6 191T 8 2,14 6,88 94,8H 6 1,65 9,85 92,0R 32,96 10,7 29,3 110Tabelle 5.1: Zeiten für OPT auf den Graphen der nachfolgenden Tabellen in Millisekunden(im Falle des PC-Clusters sind die gemessenen Zeiten dividiert durchdie Anzahl der Prozesse pro Prozessor)Im Falle des PC-Clusters sind die gemessen Zeiten durch die Anzahl der Prozesse proRechner dividiert. Mit Ausnahme der Hypercubes und vielleicht des zufälligen Graphenwar hier sichergestellt, dass keine zwei zu benachbarten Knoten gehörenden Prozesse aufdem selben Prozessor liefen. Als Referenz für den minimalen Fluss wurden die Resultatedes OPS-Verfahrens verwendet, da dieses ein besonders stabiles Konvergenzverhaltenzeigt.Von maximal 28 verschiedenen Verfahren wurden jeweils die durchgeführt, die auf denjeweiligen Graphen anwendbar sind.Der Wert für das konstante Kantengewicht α wurde für alle nicht-endlichen Verfahrenjeweils optimal gewählt, bei allen Dimension-Exchange-Verfahren gleich 1 2, und beimOPS so, dass alle Diagonalelemente von M Diff positiv bleiben (0,4 / 0,06 / 0,2 / 0,2/ 0,15 / 0,1 für C / K / G / T / H / R). Bei den endlichen Verfahren wurden dieEigenwerte mittels Leja-Sortierung angeordnet; als Exponent g für die Gewichtsfunktionwurde 1 bei Nicht-ADI- und 1,5 bei ADI-Verfahren benutzt. Der Wert für η bei ADI-OPSund dessen Varianten wurde auf 4 gesetzt.Um die Zeiten im Millisekundenbereich exakt genug messen zu können, wurden erstensmindestens 50 Messungen hintereinander ausgeführt und zweitens wurde mindestens 20Sekunden lang gemessen. Diese Prozedur wurde sechsmal wiederholt. Nach Streichungdes kleinsten und größten Wertes wurde über die vier übrigen Werte gemittelt.Die erste Tabelle 5.2 zum Zyklus C 32 zeigt, dass sich die OPT-Zeiten, in Übereinstimmungmit den Vorhersagen in Tabelle 3.4, etwa auf die Hälfte reduzieren lassen. Esist zu erkennen, dass die Verfahren DE-OPTfb und SDE-OPT bei einem Graphen mitnur zwei Farben wegen der Zusammenfassung von je zwei Teilschritten tatsächlich kaumlänger dauern als DE-OPT. Das Problem der nicht-minimalen Flüsse kann bei Zyklen115
Seite 1:
Loadbalancingauf Parallelrechnernmi
Seite 5:
Inhaltsverzeichnis8 Zusammenfassung
Seite 9:
Abbildungsverzeichnis2.1 Konvergenz
Seite 13 und 14:
VorwortLoadbalancing-Verfahren werd
Seite 15:
Kapitel 5 enthält Hinweise zur Imp
Seite 18:
1 EinleitungVor Ausführung eines L
Seite 21 und 22:
1.5 Kommunikationsmodelle und Verfa
Seite 23:
1.9 Bezeichnungen für spezielle Ma
Seite 26 und 27:
2 Diffusionsverfahren(Definition 2.
Seite 28 und 29:
2 DiffusionsverfahrenLemma 2.17 ([D
Seite 30 und 31:
2 DiffusionsverfahrenDie zugehörig
Seite 32 und 33:
2 DiffusionsverfahrenC 1210 210 00
Seite 34 und 35:
2 DiffusionsverfahrenG keinem der o
Seite 36 und 37:
2 Diffusionsverfahren• Leja (1) (
Seite 38 und 39:
2 DiffusionsverfahrenP 810 210 010
Seite 40 und 41:
3 Dimension-Exchange-VerfahrenBeim
Seite 43 und 44:
3.4 Ein erstes Dimension-Exchange-V
Seite 45:
3.4 Ein erstes Dimension-Exchange-V
Seite 48 und 49:
3 Dimension-Exchange-Verfahrenŵ 0
Seite 50 und 51:
3 Dimension-Exchange-Verfahrenbekan
Seite 52 und 53:
3 Dimension-Exchange-VerfahrenDefin
Seite 54 und 55:
3 Dimension-Exchange-Verfahrenmit(
Seite 56 und 57:
3 Dimension-Exchange-Verfahren1 2 3
Seite 58 und 59:
3 Dimension-Exchange-Verfahrenwobei
Seite 60 und 61:
3 Dimension-Exchange-VerfahrenM DE
Seite 62 und 63:
3 Dimension-Exchange-Verfahrenbzw.
Seite 64 und 65: 3 Dimension-Exchange-VerfahrenGraph
Seite 66 und 67: 3 Dimension-Exchange-Verfahren‖x(
Seite 68 und 69: 3 Dimension-Exchange-VerfahrenKommu
Seite 70 und 71: 3 Dimension-Exchange-Verfahrenfolge
Seite 72 und 73: 3 Dimension-Exchange-VerfahrenBewei
Seite 74 und 75: 3 Dimension-Exchange-Verfahren2. Di
Seite 76 und 77: 3 Dimension-Exchange-VerfahrenNach
Seite 82 und 83: 3 Dimension-Exchange-VerfahrenDie l
Seite 84 und 85: 3 Dimension-Exchange-VerfahrenK.-Sc
Seite 86 und 87: 3 Dimension-Exchange-VerfahrenGraph
Seite 88 und 89: 3 Dimension-Exchange-Verfahrenverbe
Seite 90 und 91: 4 Verfahren für Produktgraphenfor
Seite 92 und 93: 4 Verfahren für Produktgraphen‖x
Seite 94 und 95: 4 Verfahren für ProduktgraphenG 16
Seite 96 und 97: 4 Verfahren für Produktgraphenx =
Seite 98 und 99: 4 Verfahren für ProduktgraphenWäh
Seite 100 und 101: 4 Verfahren für Produktgraphen( )(
Seite 102 und 103: 4 Verfahren für ProduktgraphenExpe
Seite 104 und 105: 4 Verfahren für Produktgraphen1.25
Seite 106 und 107: 4 Verfahren für ProduktgraphenVerf
Seite 108 und 109: 108
Seite 110 und 111: 5 Details zur Implementierung und M
Seite 122 und 123: 6 Scheduling-VerfahrenGemäß [DFM9
Seite 124 und 125: 6 Scheduling-Verfahren∥ ∥ x k
Seite 126 und 127: 6 Scheduling-Verfahrenα Ges.-last
Seite 128 und 129: 7 Kurze AusblickeWeitere, insbesond
Seite 130 und 131: 8 Zusammenfassung der Ergebnisse∥
Seite 132 und 133: Literaturverzeichnis[EFMP99] Robert
Alle anzeigen

Loadbalancing auf Parallelrechnern mit Hilfe endlicher Dimension ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?