PARS-Mitteilungen 2007 - Parallel-Algorithmen, -Rechnerstrukturen ...

Weitere Magazine

Empfehlungen

Info

Behandlung offener Netzwerkverbindungen bei Prozessmigration Andreas Bergmann Jörg Schneider Technische Universität Berlin Hans-Ulrich Heiß 1 Einleitung Verschiedene Ansätze sind bekannt, um verteilte Rechner so zusammenzufassen, dass sie als ein Rechnerverbund agieren. Für lose gekoppelte parallele Anwendungen eignen sich besonders die sogenannten Networks of Workstations. In einem solchem Netzwerk stehen die Rechner nicht exklusiv für die Anwendung zur Verfügung und sind nur über ein einfaches Verbindungsnetzwerk verbunden. Ein solches Netzwerk kann nur effizient arbeiten, wenn die Rechenlast gleichmäßig und unter Berücksichtigung der sonstigen Nutzung verteilt wird. Eine gute Lastverteilung muss auf wechselnde Rechnerauslastungen reagieren und einzelne Komponenten einer parallelen Anwendung auf andere Rechner verschieben können. Das Verschieben einer laufenden Anwendung oder eines Anwendungsteils von einem Rechner auf einen anderen wird Prozessmigration genannt. Bei der Migration wird der aktuelle Zustand eines Prozesses gesichert, auf einen anderen Rechner übertragen und dort ab dem gesicherten Zustand wieder weiter ausgeführt. Falls der Zustand des Prozesses auch von seiner Umgebung abhängig ist, wie zum Beispiel von einer geöffneten Datei, kann er entweder nicht migriert werden oder die alte Umgebung muss auf dem neuen Rechner nachgestellt werden. Dazu wäre es nötig, die Umgebung ebenfalls zu kopieren. Das ist bei Dateien möglich, funktioniert aber bei Netzwerkverbindungen nicht. Wir stellen ein Verfahren vor, um eine geöffnete Netzwerkverbindung nach der Migration wiederherzustellen. Die Wiederherstellung läuft vollständig auf Benutzerebene und ist damit leicht in bestehende Netzwerke zu integrieren. Im Folgenden beschreiben wir kurz die bisher verwendeten Ansätze zur Migration von Prozessen und dem Umgang mit offenen Netzwerkverbindungen dabei. Danach stellen wir unser Verfahren und die Ergebnisse vor, die wir durch Experimente mit einer prototypischen Implementierung des Verfahren gewonnen haben. 2 Bekannte Verfahren Die Umleitung bestehender Netzwerkverbindungen kann auf verschiedenen Ebenen des Netzwerkprotokolls umgesetzt werden. Auf einer niedrigen Protokollebene wäre die Umlenkung der Netzwerkdaten, zum Beispiel mit Hilfe einer Protokollerweiterung ähnlich der TCP Migrate Option[4] oder durch Änderung des Routings[1] denkbar. Die Umsetzung auf der höchsten Protokollebene wäre innerhalb der Programmlogik der Anwendung durchzuführen. Die übliche Herangehensweise bei der Prozessmigration liegt in der Mitte und soll am Beispiel zweier bekannten Cluster-Verwaltungssysteme vorgestellt werden. Beim MOSIX-Projekt[2] wird der Rechner, auf dem das Programm zuerst gestartet wurde, zum Heimatknoten. Auf dem Heimatknoten läuft ein Stellvertreter, welcher die Dateisystemzugriffe und Netzwerkkommunikation übernimmt. Nach der Migration eines Prozesses werden alle ein- und ausgehenden Pakete über den Stellvertreter weitergeleitet. Für die Anwendung ist diese Umleitung unsichtbar und eher als Ausnahme gedacht. Prozesse mit hohem Kommunikationsaufkommen werden deshalb auf ihren Heimatknoten zurückmigriert. Beim Condor-Framework[3] sind Migrationen von Netzwerkverbindungen zwar möglich, allerdings wird ein Prozess nicht migriert, solange eine Verbindung offen ist. Solange ein Prozess nur kurze Nachrichten an einen bekannten Partner schickt und dann die Verbindung beendet, kann er von Condor migriert werden. 3 Automatisches Wiederverbinden nach der Prozessmigration Bei dem im Folgenden vorgeschlagenen Verfahren wird eine Netzwerkverbindung vor der Migration beendet und danach wieder direkt zwischen beiden Endpunkten aufgebaut. Damit weder die Anwendung noch das zugrundeliegende Betriebssystem dafür geändert werden muss, wird eine Zwischenschicht im Benutzerbereich hinzugefügt. Die Zwischenschicht wird als Bestandteil einer Anwendung mit ihr zusammen auf den neuen Rechner migriert. Allerdings erfährt sie genauso wenig wie die Anwendung vom Ziel der Migration. Deshalb ist es nicht möglich, vor der Migration mit der Gegenstelle die Adressen für eine Wiederherstellung der Verbindung auszuhandeln. Aus diesem Grund wird schon beim Verbindungsaufbau für jede Seite ein Port für das Wiederverbinden ausgehandelt. Nachdem einer der Partner migriert wurde, stellt er eine 48
Verbindung zu dieser Adresse her. Der nicht migrierte Endpunkt bemerkt die Migration durch fehlgeschlagene Sende- oder Empfangsversuche und erwartet die Kontaktaufnahme des migrierten Endpunktes an dem ausgehandelten Port. Erst wenn sich die Gegenstelle innerhalb einer bestimmten Zeit nicht wiederverbindet, kann von einem Netzwerkfehler oder Ausfall der Gegenstelle ausgegangen werden und ein Fehler wird an die Anwendung gemeldet. Da die Migration nicht angekündigt wird, können die Daten im Sende- und Empfangspuffer eines Sockets vor einer Migration nicht gesichert werden. Deshalb kann nicht sicher bestimmt werden, welche Daten vom Partner bereits empfangen wurden. Die Daten aus den Socketpuffern könnten also verloren gehen. Daher wird ein Teil der gesendeten Daten zusätzlich innerhalb der Zwischenschicht zwischengespeichert. Nach dem Wiederverbinden wird dann abgeglichen, welche Daten noch einmal geschickt werden müssen, um auf beiden Seiten den gleichen Verbindungszustand wiederherzustellen. Die Zwischenschicht kümmert sich somit um die Wiederaufnahme einer migrierten Verbindung und um die Datenkonsistenz beider Endpunkte. Um das sicherzustellen, dürfen nicht beide Endpunkte zur gleichen Zeit migrieren, da sonst keine Adresse für das Wiederverbinden verfügbar wäre. 4 Prototyp und Leistungsbewertung Das vorgestellte Verfahren wurde prototypisch implementiert. Dabei wurde das Condor-Framework für die Migration der Prozesse und die Zuordnung auf die Rechner verwendet. Mit Hilfe des Prototypes wurde untersucht, welchen Einfluss die zusätzlich eingeführten Mechanismen auf die Leistungsfähigkeit der Netzwerkverbindung haben. Als Ergebnis konnte festgestellt werden, das der Verbindungsaufbau durch das Aushandeln der Parameter für die Wiederverbindung um Größenordnungen langsamer ist als bei einer Socketverbindung. Die Sende- und Empfangsoperationen werden jedoch nur in geringem Maße verzögert, die Latenz bleibt nahezu gleich. Bei der nutzbaren Bandbreite haben wir allerdings Einbußen von 18% gemessen, die sich auf die zusätzlich notwendigen Berechnungen in der Zwischenschicht zurückführen lassen. Gerade durch die kaum angestiegene Latenz ist das vorgestellte Verfahren besser für parallele Anwendungen geeignet als eine Lösung, bei der der Netzwerkverkehr immer über den Heimatknoten laufen muss. 5 Zusammenfassung und Ausblick Wir haben ein Verfahren vorgestellt, das Netzwerkverbindungen auch nach der Migration eines Partners wieder direkt aufbaut und damit den Umweg über den Heimatknoten der aktuell gebräuchlichen Lösungen umgeht. Experimente mit einer Implementierung des Verfahrens zeigten den geringen Einfluss auf die gerade bei parallelen Anwendungen wichtige Latenz. Das hier vorgestellte Verfahren konzentriert sich auf bereits geöffnete Netzwerkverbindungen. Um auch neue Verbindungen zu migrierten Kommunikationspartnern herstellen zu können, muss ein entsprechender Informationsdienst integriert werden. Literatur [1] W. Almesberger. TCP connection passing. In Proceeding of the Linux Symposium, volume 1, Ottawa, Ontario Canada, 21.-24. Juli 2004. [2] A. Barak and O. La’adan. MOSIX multicomputer operating system for high performance cluster computing. Future Generation Computer Systems, 13(4):361–372, 1998. [3] M. Litzkow, T. Tannenbaum, J. Basney, and M. Livny. Checkpoint and migration of unix processes in the condor distributed processing system. Technical Report 1346, University of Wisconsin-Madison, WI, USA, April 1997. [4] A. C. Snoeren and H. Balakrishnan. An end-to-end approach to host mobility. In Proc. 6th International Conference on Mobile Computing and Networking (MobiCom), 2000. 49
Seite 1 und 2: GESELLSCHAFT FÜR INFORMATIK E.V. P
Seite 3: GESELLSCHAFT FÜR INFORMATIK E.V. P
Seite 6 und 7: schaftler S.C. Hu zunächst ein 3-P
Seite 8 und 9: [Leh90] [LGR88] Lehmann-Emilius, L.
Seite 11 und 12: Wolfgang Händler und die Erlanger
Seite 13 und 14: Models for Parallel Computing: Revi
Seite 15 und 16: has the responsibility for load bal
Seite 17 und 18: etween L and o it is possible to mo
Seite 19 und 20: commit completely to shared memory
Seite 21 und 22: Systolic computing is a pipelining-
Seite 23 und 24: Practical Relevance. While dataow c
Seite 25 und 26: epresents a unique way of exploitin
Seite 27 und 28: 12. Guy Blelloch. Programming Paral
Seite 29: 75. D. B. Skillicorn. miniBSP: a BS
Seite 33 und 34: 21. PARS-Workshop (Full Papers) Sei
Seite 35 und 36: D-Grid Volker Gülzow DESY in Hambu
Seite 37 und 38: estimmten Rechner des Zielsystems z
Seite 39 und 40: Das im Jahr 1983 von Kirkpatrick et
Seite 41 und 42: schreitet selektiert. Die Wahrschei
Seite 43 und 44: Die Architekturbeschreibungen denie
Seite 45 und 46: Abbildung 3. Schedule-Länge bei gr
Seite 47: 8. Davidovi¢, T., Crainic, T.G.: B
Seite 51 und 52: und gegenwärtig geringen Verbreitu
Seite 53 und 54: Wiedererrichtung von Verteilbäumen
Seite 55 und 56: gen, andererseits auch Updatepakete
Seite 57 und 58: Segments Left Der Wert dieses 8 Bit
Seite 59 und 60: des RSA-Algorithmus überprüft. Al
Seite 61 und 62: auswirkt. Sollten diese Überprüfu
Seite 63 und 64: Sec Arithmetisches Mittel der Stand
Seite 65 und 66: Reparallelisierung und Migration vo
Seite 67 und 68: 3 Reparallelisierung von OpenMP-Kon
Seite 69 und 70: 3.2 Reduktionen Reduktionen fassen
Seite 71 und 72: Zustand der Applikation gesichert u
Seite 73 und 74: Erlangen (RRZE) betrieben und beste
Seite 75 und 76: 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 K
Seite 77 und 78: ÑÙÐØÒÈÊÅÓÒÈÖÐÐÐÓÑ
Seite 79 und 80: ÙØØ××ÑÙÐØÓÒÛÓÙÐÕÙ
Seite 81 und 82: ÒÑ×××ÒÒÔÙØÒÓÙØÔÙØ
Seite 83 und 84: ××ÒØÑÓiÒÖÚØÑÓi+1ºÌÑ
Seite 85 und 86: 160 140 pramsim pramsim 2 threads p
Seite 87 und 88: ÔÔÐØÓÒÔÖÓÖÑºÐ×ÓØØ
Seite 89 und 90: ÓØÚÖÝÒÖÒÙÐÖØÝÓØ×Ñ
Seite 91 und 92: Of course, additional parallelism p
Seite 93 und 94: combine policies are also predened
Seite 95 und 96: done on the PPE, we need to have pr
Seite 97 und 98: 8 7 Speedup Pi speedup 8 7 Speedup
Seite 99 und 100:
cumbersome syntax, as shown in Sect
Seite 101 und 102:
hig sind. Der Datenaustausch erfolg
Seite 103 und 104:
Dieses Wissen wird bei der leistung
Seite 105 und 106:
erechnen. Jobs vom Typ JT 1 würden
Seite 107 und 108:
von der ersten auf die zweite Ausfa
Seite 109 und 110:
short % DONE medium % DONE long % D
Seite 111 und 112:
4.2 Kombinierte Verteilung Das komb
Seite 113 und 114:
5 Zusammenfassung Die Simulation de
Seite 115 und 116:
the performance advantage of MPI wi
Seite 117 und 118:
system in order to t to the VMM. Th
Seite 119 und 120:
Once the topology is discovered, an
Seite 121 und 122:
12 Intel MPI Benchmark: PingPong cl
Seite 123 und 124:
200 180 polopt - High Voltage Switc
Seite 125 und 126:
Auswirkungen von Multicore- und Mul
Seite 127 und 128:
Tower sehr nahe kommt. Alle fliegen
Seite 129 und 130:
Speichercontroller besitzen und fü
Seite 131 und 132:
Die Dateioganisation ist in Bild 2
Seite 133 und 134:
Das hier dargestellte schwache Absc
Seite 135 und 136:
Objektorientierte Programmierung vo
Seite 137 und 138:
Abbildung 1. Gitterzelle mit E- und
Seite 139 und 140:
Die Funktion zur Berechnung des H-F
Seite 141 und 142:
und stellt eine Kapselung des eindi
Seite 143 und 144:
in p 3D-Subgitter ungefähr gleiche
Seite 145 und 146:
S-Net: A Declarative Approach towar
Seite 147 und 148:
Using the S-Net support for variant
Seite 149 und 150:
snet_handle_t *foo( snet_handle_t *
Seite 151 und 152:
A distinctive feature of S-Net is t
Seite 153 und 154:
net XYZ connect ((A..B | C..D)!)*{}
Seite 155 und 156:
References 1. Sutter, H.: The free
Seite 157 und 158:
ausüben. Beweisbare Aussagen über
Seite 159 und 160:
Mark MPI Program Translate into Aut
Seite 161 und 162:
#include #include #include "mpi.h
Seite 163 und 164:
werden. Die Ergebnisse der Verifika
Seite 165 und 166:
Literatur [AD94] R. Alur and D.L. D
Seite 167 und 168:
ØÖÒ×ÓÖÑØÓÒ nÑÒ×ÓÒÐ
Seite 169 und 170:
×ØÖÙØÒÙÑÖ×¸ÛÖm×Ø×Þ
Seite 171 und 172:
ÖÖÓÖ×ºÌ×Ý×ØÑ×ÚÖÝÖ
Seite 173 und 174:
ÓÑÔÙØØÓÒ×ÓÒ¾ÔÖÓ××
Seite 175 und 176:
º½¼ºËØÓØÒ×ÑÐÚÖÕÙØ
Seite 177 und 178:
problem considered here, the sets a
Seite 179 und 180:
after extending it by 2 cells canno
Seite 181 und 182:
algorithm does not use any BDD-spec
Seite 183 und 184:
7 Summary and Outlook The results o
Seite 185 und 186:
Graphics Processing Units as Fast C
Seite 187 und 188:
The GTX version of the GeForce 8800
Seite 189 und 190:
Nvidia has implemented highly optim
Seite 191 und 192:
70,000 60,000 Performance of TRSM f
Seite 193 und 194:
the Figure represents the sgemm per
Seite 195 und 196:
21. PARS-Workshop (Poster) Seite Im
Seite 197 und 198:
Implementing APL-like data parallel
Seite 199 und 200:
- Horizontal and vertical rotation
Seite 201 und 202:
Instruction Fetch Fetch Operands Lo
Seite 203 und 204:
Parallelisierung der automatischen
Seite 205 und 206:
Abbildung 2. Beispielaufnahmen (lin
Seite 207 und 208:
Bioinspired Parallel Algorithms for
Seite 209 und 210:
Hybride parallele Implementierung v
Seite 211 und 212:
ÒÓÖÑÖØØÒËÙÒÒ 29 28 27 2
Seite 213 und 214:
Parallelisierung von SAT-basierter
Seite 215 und 216:
1 while ( d e c i d e ( ) ) do 2 pr
Seite 217 und 218:
eine Lösung nicht zuletzt durch d
Seite 219 und 220:
ØÓÖ½ÐÒ×ÑÖÐ×ÖÒÒÙØº
Seite 221 und 222:
ËÔÖÒÖØÚÓÒ¾¸»×ÖËÈ×
Seite 223 und 224:
ÇØÓÖÒØÖØÅ××¹È××Ò¹
Seite 225 und 226:
ÐØÒµº ÑÒØÖØº´ÍÑÔÖØ
Seite 227 und 228:
3.Workshop Grid-Technologie für de
Seite 229 und 230:
3. Workshop „Grid-Technologie fü
Seite 231 und 232:
Inhaltsverzeichnis Untersuchung der
Seite 233 und 234:
Untersuchung der Laufzeit Thread-ba
Seite 235 und 236:
300 250 Laufzeit 200 150 100 50 AMD
Seite 237 und 238:
Variablen für andere Threads auf d
Seite 239 und 240:
5 Literatur Literatur [1] www.knopp
Seite 241 und 242:
ÈÐØÞÖÙÒ ÙÒ ÈÖÓÖ×ÖÙ
Seite 243 und 244:
140,00 120,00 100,00 Zeit in Sekund
Seite 245 und 246:
ÃÙ ÒÓÑÑÒº ËÝÒÖÓÒ×Ø
Seite 247 und 248:
Ein ZA-basiertes Modell zur Simulat
Seite 249 und 250:
3. Ein ZA-Modell für die single-fi
Seite 251 und 252:
Teilautomaten in die entsprechend e
Seite 253 und 254:
6. Auswertung Das vorgestellte ZA-M
Seite 255 und 256:
Lehrstuhl für Rechnerarchitektur u
Seite 257 und 258:
Figure 2: Multi-cluster example. Pr
Seite 259 und 260:
(a) Weight vector: {220, 200, 180}
Seite 261 und 262:
1.2 1.1 Relative Load 1 0.9 0.8 0.7
Seite 263 und 264:
SCEs und Grid-Computing T. Pingel,
Seite 265 und 266:
Automatisierungsprozess wird ledigl
Seite 267 und 268:
2.3 Klassifikation Die Projekte wur
Seite 269 und 270:
5. Einsammeln aller Output-Dateien,
Seite 271 und 272:
sowie gfeval() auf Backend- beziehu
Seite 273 und 274:
Investigations have shown that Tote
Seite 275 und 276:
For α a value of 1 8 , which is cl
Seite 277 und 278:
6 Grid Experiments A major concern
Seite 279 und 280:
Acknowledgements We thank the D-Gri
Seite 281 und 282:
User Problem Front-End Results Jobs
Seite 283 und 284:
schlagen, die die Mächtigkeit besi
Seite 285 und 286:
wird. Prinzipiell sind zwei Variant
Seite 287 und 288:
287
Seite 289 und 290:
Abbildung 2: Aufbau eines Unicore G
Seite 291 und 292:
Abbildung 5: Aufbau eines Unicore-G
Seite 293 und 294:
293
Seite 295 und 296:
GESELLSCHAFT FÜR INFORMATIK E.V. P
Seite 297 und 298:
2. Zur Historie von PARS Bereits am
Seite 299 und 300:
PARS-Mitteilungen/Workshops: Aufruf
Seite 301 und 302:
1. Parallelrechner-Algorithmen und
Seite 303 und 304:
CALL FOR PAPERS 9 th Workshop on Pa
Seite 305 und 306:
Las Palmas de Gran Canaria, Canary
Seite 307 und 308:
PARS Einladung zur Mitarbeit in der
Alle anzeigen

PARS-Mitteilungen 2007 - Parallel-Algorithmen, -Rechnerstrukturen ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?