31.07.2015 Aufrufe

Loadbalancing auf Parallelrechnern mit Hilfe endlicher Dimension ...

Loadbalancing auf Parallelrechnern mit Hilfe endlicher Dimension ...

Loadbalancing auf Parallelrechnern mit Hilfe endlicher Dimension ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

5 Details zur Implementierung und Messergebnissea)2 1 1 2 1 21 2 3b)Rechnung 1:Rechnung 2:Rechnung 3:1 2 1 2 1 22 1 2 1 21 2 1 21 21 21 211 2Abbildung 5.2: Abl<strong>auf</strong> von DE-OPTcc für den Zyklus C 3 : a) Skizze des Graphen <strong>mit</strong>lokaler Nummerierung der Nachbarn, b) Abl<strong>auf</strong> des Verfahrens aus Sichtvon Prozessor 3können nur ganze Lasten verschoben werden. Diese Rundung kann dazu führen, dass dietatsächliche Last nach Ende des Schedulings bei einem Knoten vom Grad δ um maximalδ 2 vom exakten Mittelwert (w i) abweicht. Außerdem kann es vorkommen, dass derbei exakter Rechnung l 2 -minimale Fluss nach Rundung unter allen ganzzahligen Flüssennicht mehr die kleinste Norm <strong>auf</strong>weist.Haben zwei Prozessoren A und B eine gemeinsame Kante, so wird der Fluss über dieseKante <strong>auf</strong> beiden Prozessoren, aber <strong>mit</strong> unterschiedlichem Vorzeichen, gespeichert.Prozessor A Prozessor By = α (w A − w B ) y = α (w B − w A )x AB = x AB + y x BA = x BA + yIn obigem Ausschnitt aus dem FOS muss sichergestellt sein, dass anschließend exaktx AB = −x BA gilt. Schon bei kleinen Rundungsfehlern können sich bei der abschließendenRundung der Flüsse <strong>auf</strong> ganze Zahlen Abweichungen von einer ganzen Lasteinheitergeben. Bei x86-Prozessoren tritt genau dieses Problem <strong>auf</strong>, da Zwischenergebnissein Registern <strong>mit</strong> höherer Genauigkeit (80 Bit) gespeichert werden können. WerdenRegisterinhalte zwischenzeitlich in den Hauptspeicher ausgelagert, so wird <strong>auf</strong> 64Bit gerundet. IEEE-Konfor<strong>mit</strong>ät erreicht man <strong>mit</strong> dem g++-Compiler durch die Option-ffloat-store. Die da<strong>mit</strong> verbundenen Performance-Einbußen bei den Berechnungenfallen wegen der Dominanz der Kommunikationszeiten kaum <strong>auf</strong>.5.5 Grundlegende Voraussetzungen für alle VerfahrenEs wird bei allen Verfahren verlangt, dass sie ohne globale Kommunikation währenddes <strong>Loadbalancing</strong>s auskommen. Bei allen iterativen, nicht-endlichen Verfahren (z. B.FOS, SOS) wird jedoch zur Bestimmung der notwendigen Anzahl der Iterationsschritteeinmal zu Beginn der anfängliche Fehler ∥ ∥ e0 2= ∥ w 0 − w ∥ 2bestimmt. Mit <strong>Hilfe</strong> derFehlerabschätzungen aus Kapitel 2.2 wird garantiert, dass der abschließende Fehler inder l 2 -Norm kleiner als 1 2wird. Beim DE-FOS findet sich keine vergleichbar einfacheAbschätzung, da die Iterationsmatrix M DE unsymmetrisch ist. Ungeachtet dessen wird112

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!