Betriebssysteme II - Betriebssysteme und verteilte Systeme

2.2 (Shared-Memory-)Multiprozessoren ... 

2.2.5 Besonderheiten bei BSen für CC-NUMA Systeme 

➥ Speicherverwaltung 

Betriebssysteme II 

SS 2007 

Roland Wismüller, Univ. Siegen 

roland.wismueller@uni-siegen.de 

Tel.: 0271/740-4050, Büro: H-B 8404 

Stand: 8. Mai 2007 

Roland Wismüller 

Betriebssysteme / verteilte Systeme Betriebssysteme II i 

➥ Zuteilung von Kacheln auf möglichst nahem Knoten 

➥ Auslagerung von Seiten pro Speicherzone (Knoten) 

➥ jeder Knoten lagert nur lokale Seiten aus 

➥ Scheduling mit hoher Prozessor-Affinität 

➥ Prozeß/Thread möglichst nahe bei seinen Daten starten 

➥ Processor Pinning: feste Zuordnung einer CPU 

➥ Teilweise statische Ressourcenzuteilung möglich 

➥ Threads und Bereichen des log. Adreßraums können bei 

Programmstart (über Konfigurationsdatei) feste Knoten 

zugeordnet werden 


Betriebssysteme / verteilte Systeme Betriebssysteme II 138 

2.3 Multicomputer 

2.3.1 Aufbau von Multicomputern 

CPU 

Cache 

lokaler Netzwerk 

lokaler 

Speicher adapter CPU Speicher 



2.3.1 Aufbau von Multicomputern ... 

Kommunikationssystem 

➥ Früher: Knoten mit mehreren anderen Knoten fest verbunden 

➥ statische Topologie mit Storeand-Forward-Weiterleitung 

➥ Heute: Einsatz von schnellen (Crossbar-)Switches 

➥ mit effizienter Weiterleitung (Virtual Cut Through bzw. 

Wormhole-Routing) 

➥ bei größeren Systemen: mehrstufige Netze, z.B. Clos-Netz 

x 

x 

x x x x 

➥ (☞ RN-II, Kap. 5; PV, Kap. 6.1) 

Cache 

Knoten Knoten 

(Hochgeschwindigkeits−)Verbindungsnetzwerk 

➥ Im Prinzip vernetzte Rechner (PC-Cluster, COW) 

Netzwerk 

adapter 

➥ Skalierbar bis über 100.000 CPUs (IBM BlueGene/L: 131072) 

➥ heute häufig Multiprozessorsysteme als Knoten 

➥ Kommunikation / Synchronisation nur über Nachrichtenaustausch 


Betriebssysteme / verteilte Systeme Betriebssysteme II 140

2.3 Multicomputer ... 

2.3.2 Low-Level Kommunikationssoftware 

➥ Klassisch: Netzwerkkarte im BS-Adreßraum 

➥ Senden/Empfangen muß über Systemaufruf erfolgen 

➥ BS muß zwischen Prozeß- und BS-Adreßraum kopieren 

➥ Bei modernen Multicomputern: Netzwerkkarte wird in den 

Prozeßadreßraum abgebildet (☞ RN-II, 5.3.3) 

➥ Prozeß kann Auftrag direkt an Netzwerkkarte geben 

➥ Daten per DMA aus/in Prozeßadreßraum gelesen/geschrieben 

➥ Problem: DMA nutzt physische Adressen ⇒ Seiten 

müssen im Speicher verriegelt werden 

➥ einfachster Fall: nur ein Prozeß die Netzwerkkarte nutzen 

➥ eigene Netzwerkkarte für BS-Kommunikation 

➥ oder: Netzwerkkarte mit VIA (Virtual Interface Architecture) 




2.3.3 Kommunikation auf Benutzerebene 

➥ Nachrichtenversand mit send() / receive() (☞ BS-I, 3.2.2) 

➥ blockierendes Senden (synchron) 

➥ erlaubt direktes Kopieren in Speicher des Empfängers 

➥ aber: Sender wird blockiert, bis Empfänger bereit ist 

➥ nicht-blockierendes Senden (asynchron) 

➥ Puffer darf nicht verändert werden, bis Nachricht gesendet 

➥ ggf. Kopie in Zwischenpuffer beim Sender oder Empfänger 

➥ oder: copy on write 

➥ Seiten des Sendepuffers schreibschützen 

➥ erst bei Schreibzugriff: Kopie der Seite erstellen 

➥ Empfang blockierend und nicht-blockierend (Polling) 



2.3.3 Kommunikation auf Benutzerebene ... 

2.3.3 Kommunikation auf Benutzerebene... 

➥ Pop-Up-Threads: bei Eingang der Nachricht wird neuer Thread 

im Empfängerprozeß erzeugt 

➥ führt vordefinierte Prozedur aus, die die Nachricht behandelt 

➥ Active Messages: Empfängercode wird direkt im Interrupt- 

Handler aufgerufen 

➥ Nachricht entählt Adresse des Handlers 

➥ Handler liest Nachricht direkt aus der Netzwerkkarte und 

bearbeitet sie 

➥ nur möglich, wenn Empfänger dem Sender vertrauen kann 

➥ Remote Procedure Call (RPC) (☞ BS-I, 3.2.4) 

➥ Gemeinsamer Speicher: (Software) Distributed Shared Memory 

➥ siehe Kap. 3 




2.3.4 Multicomputer-Scheduling und Lastverteilung 

➥ Jeder Knoten hat seinen eigenen Speicher / sein eigenes BS 

➥ daher: jeder Knoten hat seine festen Prozesse 

➥ beliebige Scheduling-Verfahren möglich 

➥ Scheduling auf globaler Ebene 

➥ oft Space Sharing: Knoten werden exklusiv an eine 

Anwendung zugeteilt 

➥ auch Gang Scheduling ist möglich / sinnvoll 

➥ erfordert Synchronisation aller Knoten 

➥ wichtigste Frage: welchem Knoten wird ein neuer Prozeß 

zugewiesen (Processor Allocation)? 

➥ Ziele: Lastausgleich, Minimierung der Kommunikation, ... 

➥ (i.a. realisiert in systemnaher Software bzw. Middleware) 



2.3.4 Multicomputer-Scheduling und Lastverteilung ... 

(Animierte Folie) 

Lastverteilung durch Graphpartitionierung 

= 30 

➥ Gegeben: Prozeßsystem mit 

➥ CPU- / Speicheranforderungen 

➥ Angabe der Kommunikationslast 

zwischen je 2 Prozessen 

i.a. dargestellt als Graph 

A 

6 

G 

3 

2 

E 

3 

1 

2 

B C 

3 

1 

2 8 D 

F 

5 

4 5 4 

1 

4 2 

H I 

2 3 

➥ Gesucht: Aufteilung (Partitionierung) des Graphen so, daß 

➥ CPU- und Speicheranforderungen für jeden Knoten erfüllt 

➥ Partitionen in etwa gleich groß (Lastausgleich) 

➥ Gewichte-Summe der geschnittenen Kanten minimal 

➥ d.h. möglichst wenig Kommunikation zwischen Knoten 

➥ NP-vollständig, daher viele heuristische Verfahren 



2.3.4 Multicomputer-Scheduling und Lastverteilung ... 

Weitere Verfahren zur Lastverteilung 

➥ Senderinitiierte Lastverteilung 

➥ Prozeß i.a. auf eigenem Knoten gestartet 

➥ falls Knoten überlastet: Last anderer Knoten ermitteln und 

Prozess auf niedrig belastetem Knoten starten 

➥ z.B. frage zufällig ausgewählten Knoten nach Last, sende 

Prozeß falls Last ≤ Schwellwert, sonst: nächster Knoten 

➥ Nachteil: zusätzliche Arbeit für ohnehin überlasteten Knoten! 

➥ Empfängerinitiierte Lastverteilung 

➥ bei Terminierung eines Prozesses: prüfe ob noch genügend 

Arbeit (Prozesse) vorhanden sind 

➥ falls nicht: frage andere Knoten nach Arbeit 

➥ Bieter-Algorithmus nach dem Vorbild der Ökonomie

Betriebssysteme II - Betriebssysteme und verteilte Systeme

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?