Loadbalancing auf Parallelrechnern mit Hilfe endlicher Dimension ...

Weitere Magazine

Empfehlungen

Info

5 Details zur Implementierung und Messergebnissea)2 1 1 2 1 21 2 3b)Rechnung 1:Rechnung 2:Rechnung 3:1 2 1 2 1 22 1 2 1 21 2 1 21 21 21 211 2Abbildung 5.2: Ablauf von DE-OPTcc für den Zyklus C 3 : a) Skizze des Graphen mitlokaler Nummerierung der Nachbarn, b) Ablauf des Verfahrens aus Sichtvon Prozessor 3können nur ganze Lasten verschoben werden. Diese Rundung kann dazu führen, dass dietatsächliche Last nach Ende des Schedulings bei einem Knoten vom Grad δ um maximalδ 2 vom exakten Mittelwert (w i) abweicht. Außerdem kann es vorkommen, dass derbei exakter Rechnung l 2 -minimale Fluss nach Rundung unter allen ganzzahligen Flüssennicht mehr die kleinste Norm aufweist.Haben zwei Prozessoren A und B eine gemeinsame Kante, so wird der Fluss über dieseKante auf beiden Prozessoren, aber mit unterschiedlichem Vorzeichen, gespeichert.Prozessor A Prozessor By = α (w A − w B ) y = α (w B − w A )x AB = x AB + y x BA = x BA + yIn obigem Ausschnitt aus dem FOS muss sichergestellt sein, dass anschließend exaktx AB = −x BA gilt. Schon bei kleinen Rundungsfehlern können sich bei der abschließendenRundung der Flüsse auf ganze Zahlen Abweichungen von einer ganzen Lasteinheitergeben. Bei x86-Prozessoren tritt genau dieses Problem auf, da Zwischenergebnissein Registern mit höherer Genauigkeit (80 Bit) gespeichert werden können. WerdenRegisterinhalte zwischenzeitlich in den Hauptspeicher ausgelagert, so wird auf 64Bit gerundet. IEEE-Konformität erreicht man mit dem g++-Compiler durch die Option-ffloat-store. Die damit verbundenen Performance-Einbußen bei den Berechnungenfallen wegen der Dominanz der Kommunikationszeiten kaum auf.5.5 Grundlegende Voraussetzungen für alle VerfahrenEs wird bei allen Verfahren verlangt, dass sie ohne globale Kommunikation währenddes Loadbalancings auskommen. Bei allen iterativen, nicht-endlichen Verfahren (z. B.FOS, SOS) wird jedoch zur Bestimmung der notwendigen Anzahl der Iterationsschritteeinmal zu Beginn der anfängliche Fehler ∥ ∥ e0 2= ∥ w 0 − w ∥ 2bestimmt. Mit Hilfe derFehlerabschätzungen aus Kapitel 2.2 wird garantiert, dass der abschließende Fehler inder l 2 -Norm kleiner als 1 2wird. Beim DE-FOS findet sich keine vergleichbar einfacheAbschätzung, da die Iterationsmatrix M DE unsymmetrisch ist. Ungeachtet dessen wird112
5.6 Synchron oder Asynchron?hier wie beim FOS der zweitgrößte Eigenwert zu Rate gezogen. Die Praxis zeigt, dass dieabschließenden Fehler auf diese Weise zumindest in der Größenordnung von 1 2 bleiben.Endliche Verfahren wie OPS oder OPT werden nicht vorzeitig abgebrochen, auch wenndies manchmal sinnvoll wäre; vergleiche hierzu zum Beispiel die Konvergenz für das GitterG 24 in Abbildung 2.4. Stattdessen werden immer m − 1 Schritte durchgeführt, wobeim die Anzahl verschiedener Eigenwerte ist, inklusive 1. Allerdings werden bei der Berechnungder Eigenwerte solche Eigenwerte als gleich angesehen und damit nur einmalgezählt, die absolut näher als 10 −12 beieinander liegen. (Eine vergleichbare relative Genauigkeitkann mit den üblichen Berechnungsmethoden für Eigenwerte nicht garantiertwerden.)5.6 Synchron oder Asynchron?Bei Dimension-Exchange-Verfahren ist die Reihenfolge der Kommunikation eines Prozessorsmit seinen Nachbarn durch die Einfärbung des Graphen strikt festgelegt. DerDatenaustausch erfolgt paarweise durch eine Sende-Empfangs-Operation (Sendrecv inMPI).Da der gleichzeitige Datenaustausch mit mehreren Nachbarknoten, wie er für Diffusionsverfahrenoptimal wäre, auf den meisten Systemen nicht durchführbar ist, wird auchbei diesen Verfahren einzeln mit allen Nachbarn kommuniziert. Am einfachsten ist es,hierzu die sowieso vorhandene Einfärbung zu benutzen und genauso zu verfahren, wiebeim Dimension-Exchange auch. Alternativ hierzu wurde folgende asynchrone Alternativeuntersucht: Zu Beginn eines Schrittes wird für alle Nachbarn ein nicht-blockierendesSenden (Isend) des eigenen Lastwertes initialisiert. In der darauffolgenden Schleife werdenLastinformationen von den Nachbarn nacheinander, aber in beliebiger Reihenfolge,empfangen und weiterverarbeitet. Erst danach werden die Sendeoperationen abgeschlossen.Verfahren, die nach diesem Prinzip arbeiten, bekommen den Zusatz Async-.Die schnellsten Diffusionszeiten erreicht man durch eine Kombination von Vorwärts-Rückwärts-Iteration und asynchroner Kommunikation; bezeichnet wird dies mit FB-Async-. Zwei aufeinander folgende Kommunikationen über eine spezielle erste oder letzteKante werden zusammengefasst und nur für die übrigen ”mittleren“ Kanten wird asynchroneKommunikation verwendet.5.7 Verwendete Rechner und SoftwareDie Zeitmessungen wurden auf drei verschiedenen Parallelrechnern bzw. Rechnerclusterndurchgeführt.ALiCEALiCE (Alpha-Linux-Cluster-Engine,www.theorie.physik.uni-wuppertal.de/Computerlabor/ALiCE.phtml) ist der Parallelrechnerder Universität Wuppertal. Er besteht aus 128 Compaq DS10 Workstations.Jeder einzelne Rechner ist mit einem Alpha 21264 EV67 Prozessor mit 616 MHz113
Seite 1:
Loadbalancingauf Parallelrechnernmi
Seite 5:
Inhaltsverzeichnis8 Zusammenfassung
Seite 9:
Abbildungsverzeichnis2.1 Konvergenz
Seite 13 und 14:
VorwortLoadbalancing-Verfahren werd
Seite 15:
Kapitel 5 enthält Hinweise zur Imp
Seite 18:
1 EinleitungVor Ausführung eines L
Seite 21 und 22:
1.5 Kommunikationsmodelle und Verfa
Seite 23:
1.9 Bezeichnungen für spezielle Ma
Seite 26 und 27:
2 Diffusionsverfahren(Definition 2.
Seite 28 und 29:
2 DiffusionsverfahrenLemma 2.17 ([D
Seite 30 und 31:
2 DiffusionsverfahrenDie zugehörig
Seite 32 und 33:
2 DiffusionsverfahrenC 1210 210 00
Seite 34 und 35:
2 DiffusionsverfahrenG keinem der o
Seite 36 und 37:
2 Diffusionsverfahren• Leja (1) (
Seite 38 und 39:
2 DiffusionsverfahrenP 810 210 010
Seite 40 und 41:
3 Dimension-Exchange-VerfahrenBeim
Seite 43 und 44:
3.4 Ein erstes Dimension-Exchange-V
Seite 45:
3.4 Ein erstes Dimension-Exchange-V
Seite 48 und 49:
3 Dimension-Exchange-Verfahrenŵ 0
Seite 50 und 51:
3 Dimension-Exchange-Verfahrenbekan
Seite 52 und 53:
3 Dimension-Exchange-VerfahrenDefin
Seite 54 und 55:
3 Dimension-Exchange-Verfahrenmit(
Seite 56 und 57:
3 Dimension-Exchange-Verfahren1 2 3
Seite 58 und 59:
3 Dimension-Exchange-Verfahrenwobei
Seite 60 und 61:
3 Dimension-Exchange-VerfahrenM DE
Seite 62 und 63: 3 Dimension-Exchange-Verfahrenbzw.
Seite 64 und 65: 3 Dimension-Exchange-VerfahrenGraph
Seite 66 und 67: 3 Dimension-Exchange-Verfahren‖x(
Seite 68 und 69: 3 Dimension-Exchange-VerfahrenKommu
Seite 70 und 71: 3 Dimension-Exchange-Verfahrenfolge
Seite 72 und 73: 3 Dimension-Exchange-VerfahrenBewei
Seite 74 und 75: 3 Dimension-Exchange-Verfahren2. Di
Seite 76 und 77: 3 Dimension-Exchange-VerfahrenNach
Seite 82 und 83: 3 Dimension-Exchange-VerfahrenDie l
Seite 84 und 85: 3 Dimension-Exchange-VerfahrenK.-Sc
Seite 86 und 87: 3 Dimension-Exchange-VerfahrenGraph
Seite 88 und 89: 3 Dimension-Exchange-Verfahrenverbe
Seite 90 und 91: 4 Verfahren für Produktgraphenfor
Seite 92 und 93: 4 Verfahren für Produktgraphen‖x
Seite 94 und 95: 4 Verfahren für ProduktgraphenG 16
Seite 96 und 97: 4 Verfahren für Produktgraphenx =
Seite 98 und 99: 4 Verfahren für ProduktgraphenWäh
Seite 100 und 101: 4 Verfahren für Produktgraphen( )(
Seite 102 und 103: 4 Verfahren für ProduktgraphenExpe
Seite 104 und 105: 4 Verfahren für Produktgraphen1.25
Seite 106 und 107: 4 Verfahren für ProduktgraphenVerf
Seite 108 und 109: 108
Seite 110 und 111: 5 Details zur Implementierung und M
Seite 122 und 123: 6 Scheduling-VerfahrenGemäß [DFM9
Seite 124 und 125: 6 Scheduling-Verfahren∥ ∥ x k
Seite 126 und 127: 6 Scheduling-Verfahrenα Ges.-last
Seite 128 und 129: 7 Kurze AusblickeWeitere, insbesond
Seite 130 und 131: 8 Zusammenfassung der Ergebnisse∥
Seite 132 und 133: Literaturverzeichnis[EFMP99] Robert
Alle anzeigen

Loadbalancing auf Parallelrechnern mit Hilfe endlicher Dimension ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?