Grundlagen paralleler Architekturen

Vorlesung Rechnerarchitektur 2 Seite 14 

Einleitung 

Lehrstuhl für Rechnerarchitektur - Universität Mannheim 

Grundlagen paralleler Architekturen 

Das Ziel der Entwicklung paralleler Rechnerarchitekturen ist die Überwindung der Einschränkungen, 

die durch die sequentielle Verarbeitung nicht-paralleler Architekturen vorgegeben 

sind. Als wichtigste Einschränkung ist hier die Leistung eines Rechnersystems zu 

nennen. Neben weiteren funktionalen Eigenschaften von Parallelrechnern, (wie z.B. Fehlertoleranz, 

Modularität, Anwendungsspezialisierung, etc.) ist die Leistungssteigerung, möglichst 

proportional zur Anzahl der parallelen Einheiten, die entscheidende Anforderung an 

die Entwicklung von parallelen Rechnerarchitekturen. (-> Skalierbarkeit) 

Hierzu ist ein grundsätzliches Umdenken der Personen erforderlich, die Anwendungen, Algorithmen 

und Software entwickeln, um das Potential der parallelen Architekturen für konkrete 

Anwendungen ausschöpfen zu können. Der Hardwareentwurf paralleler Architekturen 

sollte die verschiedenen Anforderungen mit seinen parallelen Funktionseinheiten optimal 

unterstützen, wobei die Randbedingung der Kosteneffektivität bei der Realisierung eines 

parallelen Systems starke Berücksichtigung finden sollte (Verwendung preiswerter Technologie). 

Der aktuelle Trend, immer mehr Komponenten aus dem Bereich der Massenproduktion 

(COTS, commodity off the shelf) einzusetzen, führte zu dem Aufkommen von Clustersystemen, 

bestehend aus Knoten mit PCs oder Workstations und der Entwicklung von Verbindungsnetzwerken, 

die für diese Systeme optimiert wurden. 

Getrieben wird die Entwicklung auf dem Gebiet der parallelen Architekturen durch die Anforderungen 

an immer höhere Rechenleistungen, die mit sequentiellen Architekturen entweder 

gar nicht oder aber nur durch einen sehr hohen technologischen Aufwand erzielbar sind. 

Die hohen Anforderungen an die Rechenleistung werden von Anwendungen bestimmt, deren 

Lösung zu den großen Herausforderungen (‘Grand Challenges’) der Wissenschaft gehören. 

Die Anwendungen von Parallelrechnern können in zwei wesentliche Gruppen unterteilen 

werden, die numerischen und die nicht-numerischen. 

Verteilte Datenbanken, Suchmaschinen und die digitale Schaltkreissimulation sind nur 

einige Beispiele für die Gruppe der nicht-numerischen Anwendungen. 

Als Beispiel für die numerischen Anwendungen stehen mathematische Probleme und Simulationen. 

((UN-)Wettervorhersagen, Erdbeben, Crash-Tests, bio-chem. Simulation, 

Atombomben-Simulation, ...) 

WS03/04


Parallelität in Algorithmen 



Die Lösung von solchen umfangreichen Aufgaben kann durch Aufteilung in Teilaufgaben 

und deren parallele Bearbeitung beschleunigt werden. 

Die wichtigsten Voraussetzungen für die Ausnutzung von Parallelität sind: 

• die Existenz ausnutzbarer Parallelität 

• die Erkennung der Parallelität 

• die (sinnvolle) Aufteilbarkeit in Teilaufgaben 

• das Vorhandensein von parallelen Verarbeitungseinheiten 

Die obere Grenze des Leistungsgewinns, den man durch Parallelisierung erhalten kann, ist 

vom Grad der Parallelität bestimmt, der in der Applikation enthalten ist. Dieser ist natürlich 

sehr stark von dem verwendeten Lösungsalgorithmus abhängig. Aufgaben, die bisher sequentiell 

ausgeführt wurden, müssen zur Parallelisierung in unabhängige Teilaufgaben zerlegt 

werden, was bei sequentiellen Algorithmen nicht immer möglich ist. Für eine 

Steigerung des Leistungsgewinn ist oft auch die Entwicklung neuer ‘parallelerer’ Algorithmen 

erforderlich. Wie gut die Ausnutzung der Parallelität gelingt, wird von der gewählten 

Systemarchitektur und der Effizienz der Abbildung des Algorithmus auf diese bestimmt. 

Die verschiedenen Ebenen, auf denen die Parallelität genutzt werden kann, wird im folgenden 

Abschnitt dargestellt und die sich daraus ergebenden Rechnerarchitekturen aufgezeigt. 

Die Parallelisierbarkeit eines Algorithmus hängt sehr stark vom Algorithmus selbst ab, nicht 

so sehr von den Eigenschaften der gewählten Rechnerarchitektur. 

WS03/04


Die Ebenen der Parallelität 



In Parallelrechnern ist die Ausnutzung aller Ebenen der Parallelität von ausschlaggebender 

Bedeutung. Nur ein ausgewogenes System bietet dem Benutzer den höchsten Leistungsgewinn. 

Die unterscheidbaren Ebenen der Parallelität erfordern auch verschiedene Maßnahmen, 

um einen Leistungsgewinn zu erreichen. Benutzt werden die im folgenden 

beschriebenen Ebenen. Sie sind uneinheitlich, nach verschiedenen Merkmalen aufgeteilt 

und überlappen sich zum Teil. Zu jeder Ebene ist eine kurze Beschreibung der Maßnahmen 

zur Ausnutzung der Parallelität angefügt. 

1. Maschinenbefehle (Instruction Level Parallelism (ILP)) 

a) Parallelität im organisatorischen Ablauf (Überlappen von Operationen) 

b) Operationen innerhalb einzelner Anweisungen (chaining, micropipelining) 

2. Anweisungen eines Benutzerprogramms (fine grain dataflow) 

3. Datenstrukturen (medium grain dataflow) 

4. Kooperierende Prozesse (coarse grain dataflow, Thread-Level Parallelism (TLP)) 

5. einzelne Benutzerprogramme (multi computing) 

Multi-Computing 

Die Parallelitätsebene mehrerer parallel ablaufender Benutzerprogramme (‘tasks’) wird 

durch den Mehrbenutzerbetrieb (‘multi user mode’) von Rechnern ausgenutzt. Diese Betriebsart 

ist von Betriebssystemen sequentieller Rechner bestens bekannt und wird auf ihnen 

durch ein Zeitscheibenverfahren (‘time-multiplex’) emuliert. Durch den erhöhten Zeitaufwand 

der Betriebssystemfunktionen für den Mehrbenutzerbetrieb wird die Laufzeit der einzelnen 

Tasks verlängert. Die Ausnutzung dieser Parallelitätsebene steigert im wesentlichen 

den Durchsatz an Benutzerprozessen, nicht aber die Abarbeitungsgeschwindigkeit eines 

Programms. In parallelen Systemen mit wenigen Prozessoren können die Benutzerprozesse 

und unter Umständen auch die Betriebssystemprozesse auf die parallelen Prozessoren verteilt 

werden. Dadurch kann für ein solches System die Zuteilungszeit für einen lauffähigen 

Benutzerprozeß deutlich gesteigert werden und damit die Laufzeit der Applikation verringert 

werden, aber leider nicht unter die Laufzeit des Prozesses auf einem sequentiellen System 

mit einem Prozessor ohne Zeitscheibenverfahren. Auf Grund der komplexen 

Kontrollvorgänge, insbesondere im Betriebssystem, kann bei massiv parallelen Systemen 

diese Ebene der Parallelität selten mit dem notwendigen Leistungsgewinn ausgenutzt werden 

und wird hier nicht weiter betrachtet. 

WS03/04




Architekturformen für die Parallelitätsebenen 

Parallelitätsebene 

kooperierende 

Prozesse 

Datenstrukturen 

Anweisungen 

und Schleifen 

Maschinenbefehle 

Table 1: Parallelitätsebenen und ihre Architekturformen 

potentieller 

Parallelitäts 

grad 

Erkennung der 

Parallelität und 

Aufteilung in 

Teilaufgaben 

durch 

hoch Anwender 

Algorithmus 

hoch Anwender 

Sprachebene 

Compiler 

niedrig bis 

hoch 

Architekturformen 

- Multiprozessorsysteme 

mit verteiltem Speicher 

- Nachrichtenorientierte 

Parallelrechner 

- Vektorrechner 

- Feldrechner 

Compiler - Multiprozessorsysteme 

mit gemeinsamen Speicher 

- ’Multi-threaded’ 

Architekturen 

niedrig Compiler - superskalare Prozessoren 

- VLIW-Prozessoren 

- Datenflußrechner 

Kommunikation 

Synchronisation 

hoch niedrig 

niedrig hoch 

niedrig / 

nicht 

vorhanden 

Die Nutzung mehrerer verschiedener Parallelitätsebenen in den Architekturformen ist 

durchaus möglich und nur eine Frage des erreichbaren Leistungsgewinns. Die Pfeile in der 

Tabelle deuten diese übergreifenden Nutzungen an. Nachfolgend werden die einzelnen 

Parallelitätsebenen ausführlicher beschrieben. 

hoch 

WS03/04


Kooperierende Prozesse 



Die Parallelitätsebene der kooperierenden Prozesse ist eine häufig genutzte Ebene. Sie beruht 

auf dem grundlegenden Konzept des Prozesses. Die Definition des Prozesses ist für die 

nachfolgende Beschreibung hilfreich. 

Definition : Ein Prozeß ist eine funktionelle Einheit, bestehend aus einem zeitlich 

invarianten Programm, einem Satz von Daten, mit dem der Prozeß initialisiert 

wird und einem zeitlich varianten Zustand [Gil93]. 

Auf sequentiellen Rechnern ist der Prozeß im wesentlichen eine Einheit, dessen Adressraum 

gegenüber anderen Prozessen geschützt ist. Ein solcher Prozeß mit Adressraumschutz wird 

als schwergewichtiger Prozeß bezeichnet und ist auch die Einheit, die auf der Benutzerprozeßebene 

verwendet wird. Die Kommunikation der Prozesse erfolgt durch die Mechanismen 

der Prozeßkommunikation (‘inter process communication’, IPC). Beim Client-Server Modell 

[Tan92] liegt die Aufteilung der Prozesse in dienstanfordernde (‘client’) und diensterbringende 

(‘server’) bereits vor und kann dadurch speziell auf dem Server einfach genutzt 

werden. 

Threads 

Wird die Zerlegung einer Anwendung für die parallele Ausführung auf einem Parallelrechner 

vorgenommen, so ist ein Adressraumschutz für diese Prozesse unerwünscht, da 

sie ja in einem gemeinsamen Adressraum miteinander kooperieren sollen. 

Solche kooperierenden Prozesse im gleichen Adressraum bezeichnet man als leichtgewichtige 

Prozesse. Die Bezeichnung thread (Kontrollfaden) ist eine häufig anzutreffende 

für den leichtgewichtigen Prozess. 

Sind diese Prozesse voneinander datenunabhängig, so können sie parallel ausgeführt werden 

und sind damit konkurrent. Die Kommunikation der kooperierenden Prozesse kann entweder 

durch gemeinsame Daten (‘memory sharing’) oder durch expliziten Nachrichtenaustausch 

(‘message passing’) erfolgen. Im Abschnitt Kommunikation und Synchronisation 

wird auf diese Problematik noch näher eingegangen. 

WS03/04


Kooperierende Prozesse 



Threads besitzen genau wie Prozesse einen eigenen Programm-Counter (PC), einen Registersatz 

und einen Stack. Der wesentliche Unterschied zu Prozessen ist daß Threads keinen 

eigenen Adressraum haben, sondern den des übergeordneten Prozesses mit nutzen. 

Threads werden in der Regel so implementiert, daß ein Prozess aus n Threads bestehen kann 

(1-n Modell). Zumindest ist dies das für den Anwender sichtbare Modell, für die eigentliche 

Implementierung innerhalb des Betriebssystems gibt es viele Ansätze, die hier nicht behandelt 

werden. 

Prozess 

Thread PC 

Drei Prozesse mit je einen Thread Ein Prozess mit drei Threads 

Leistungsgewinn durch kooperierende Prozesse 

Um einen Leistungsgewinn auf dieser Ebene zu erzielen, muß man die in kooperierende 

Prozesse aufgeteilte Applikation auf entsprechende Verarbeitungseinheiten verteilen 

(‘mapping’) und die Prozesse dürfen keine zu starken Datenabhängigkeiten aufweisen. 

Als Verarbeitungseinheiten verwendet man parallel arbeitende Prozessoren mit jeweils 

eigenem Instruktionsstrom. Diese Architekturform wird nach Flynn [Fly72] als Parallelrechner 

mit mehrfacher Instruktionsverarbeitung und mehrfacher Datenverarbeitung 

(‘multiple instruction - multiple data stream’, MIMD) bezeichnet. 

Weiterführende Info: 

• Tanenbaum, Moderne Betriebssysteme 

• Vorlesung Betriebssysteme 

WS03/04


Datenstrukturen 



Datenstrukturen bieten eine weitere Ebene der Nutzung von Parallelität. Als Beispiel sei die 

Verwendung von Vektoren und Matrizen angeführt, die für die Lösung von numerischen 

Problemen oft benutzt werden. Die Addition oder Multiplikation zweier Vektoren besteht 

aus datenunabhängigen Teiloperationen auf den Elementen des Vektors und kann damit 

konkurrent ausgeführt werden. Desweiteren ist die Adressierungsfunktion für den Zugriff 

auf die Elemente vorgegeben und ermöglicht damit auch den parallelen Zugriff auf die Elemente. 

Die Ausnutzung der Datenparallelität erfordert entweder Programmiersprachen mit 

Datenstrukturtypen [Gil93] und darauf definierten Operationen [For90] oder vektorisierende 

Compiler, die aus den Schleifen für die Beschreibung der Vektoroperationen die Maschinenbefehle 

für die Vektorverarbeitung erzeugen. 

Diese Datenparallelität bei strukturierten Daten führt zu der Architekturform, in der mit einer 

Instruktion mehrere Datenoperationen ausgeführt werden und die als SIMD-Architektur 

(‘single instruction - multiple data stream’) bezeichnet wird. 

Als eines der wesentlichen Werkzeuge kann hier der vektorisierende Compiler genannt werden. 

Sprachen wie High-Performance Fortran und Fortran-90 stellen schon Konstrukte für 

Operationen auf Vektoren bereit, die von entsprechenden Compilern parallelisiert werden. 

Anweisungen und Schleifen 

Die Parallelitätsebene der Anweisungen und Schleifen enthält, betrachtet man nur die Basisblöcke 

(Anweisungen zwischen zwei Kontrollflußverzweigungen), relativ wenig Parallelität 

(2-3). Versucht man die Beschränkungen durch die Kontrollflußverzweigungen zu 

überwinden, so ergeben sich wesentlich größere Parallelitätsgrade [NiF84]. Hier kommen 

Methoden wie speculative Execution, Predication und Loop-Unrolling zum Einsatz. 

Bei dieser Betrachtung sollte man immer berücksichtigen, daß die meisten Schleifen nur die 

Datenparallelität in der sequentiellen Programmiersprache ausdrücken. 

WS03/04




Maschinenbefehle - Instruction Level Parallelism (ILP) 

Analyseverfahren von Compilern, die über Kontrollflußgrenzen hinausgehen, wurden zur 

Erkennung und Nutzung dieser Parallelitätsebene entwickelt [Nic85] [Gas89] [Ess90]. 

Auch Schleifeniterationen von Berechnungen [Lil94] kann man auf diese Weise für die Ausnutzung 

der Parallelität heranziehen und dann ergeben sich erhebliche Gewinne, die zum 

Teil natürlich von den zugrunde liegenden Datenstrukturtypen stammen. Im Gegensatz zu 

den Vektoroperationen können aber auf dieser Ebene die Anweisungen innerhalb der Schleifen 

von größerer Allgemeinheit sein und müssen nicht auf Vektoroperationen abbildbar 

sein. 

Die Nutzung dieser Parallelitätsebene führt zu mehreren recht unterschiedlichen Architekturformen. 

Ihre gemeinsame Eigenschaft ist die enge Kopplung der Verarbeitungseinheiten, 

die den Aufwand für die Ablaufsteuerung und die Synchronisation zwischen den Verarbeitungseinheiten 

gering hält. Auch die mehrfädigen Architekturen (multi-threaded Architectures, 

MTA) nutzen diese Parallelitätsebene und versuchen die Latenzzeit der 

Synchronisation in der Bearbeitungszeit weiterer Basisblöcke zu verstecken. 

Die Parallelitätsebene der Maschinenbefehle enthält die Elementaroperation, die zur Lösung 

von arithmetischen Ausdrücken benötigt werden. Da diese Datenabhängigkeiten aufweisen, 

ist eine der wichtigsten Aufgaben des Compilers eine Datenabhängigkeitsanalyse zu erstellen, 

die es ermöglicht, den Abhängigkeitsgraph so zu transformieren [Kuc78], daß sich ein 

hohes Maß an konkurrenten Operationen ergibt. 

Die Ausnutzung dieser Parallelität geschieht durch parallele Funktionseinheiten innerhalb 

der Verarbeitungseinheiten. Die Ablaufsteuerung wird vom Compiler bereits zur Übersetzungszeit 

geplant oder zur Laufzeit von effizienten Hardwareresourcen innerhalb der Verarbeitungseinheiten 

ausgeführt. Beispiele hierfür sind VLIW-Prozessoren (‘very long 

instruction word’), superskalare Prozessoren und Pipeline-Prozessoren. Allerdings sind die 

Verarbeitungseinheiten, mit denen diese Parallelitätsebene gut ausnutzbar ist, immer nur so 

gut, wie der Compiler die dafür notwendigen Optimierungen beherrscht. 

Die feinkörnigen Datenflußsysteme nutzen ebenfalls diese Ebene, erkennen aber die parallel 

ausführbaren Operationen zur Laufzeit durch die in Hardware realisierte Datenflußsynchronisation. 

(Datenfluss vs. Kontrollfluss) 

WS03/04


Granularität 



Den Ebenen der Parallelität entsprechend kann man eine Körnigkeit oder Granularität der 

Parallelarbeit feststellen. Jede Ebene besitzt eine ihr eigene Granularität, die im folgenden 

nach [KrS88] definiert wird. 

Definition : Grob-körnige Parallelität ist die Art von Parallelität, die zwischen 

großen Teilen von Programmen, weit oberhalb der Prozedurebene, im 

gemeinsamen Adressraum der Applikation existiert (‘coarse-grain 

parallelism’). 

Definition : Fein-körnige Parallelität ist die Art von Parallelität, die man auf der 

Ebene von Instruktionen innerhalb eines oder auch zwischen wenigen 

Basisblöcken (‘basic blocks’) von sequentiellen Programmen findet 

(fine-grain parallelism’). 

Für die bei numerischen Problemen sehr häufig auftretenden Schleifeniterationen, die eine 

der wesentlichen Quellen der Parallelität in numerischen Programmen ist, wird häufig auch 

noch die Definition der mittel-körnigen Granularität verwendet. 

Definition : Mittel-körnige Parallelität ist die Art von Parallelität, die zwischen 

längeren Sequenzen von Instruktionen existiert. Sie tritt hauptsächlich 

bei Schleifeniterationen auf und stammt im wesentlichen von der 

datenparallelen Verarbeitung von strukturierten Datenobjekten 

(‘loop-level parallelism’, ’medium-grain parallelism’). 

Granularität des Algorithmus 

Je kleiner die Granularität des Algorithmus, desto schwieriger wird die Parallelisierung sein. 

Feine Granularität bevorzugt Architekturen bzw. Implementierungen mit kurzen ’start up’- 

Zeiten und leistungsfähiger Kommunikation. 

Als grundlegende Regel gilt, daß die Kosten (d.h. die Bearbeitungszeit) der Teiloperation 

wesentlich grösser als die Kosten der Kommunikation/Synchronisation sein sollte. 

WS03/04




Ebenen der Parallelarbeit (Beispiele) - Übersicht 

Parallelität im organisatorischen Ablauf, Überlappen von Operationen 

Aufruf eines Unterprogramms 

Aufteilung in Teilaufgaben (Phasen) 

• Parameter-Übergabe 

• PC und Status retten 

• Platz für lokale Variablen bereitstellen 

Überlappen der einzelnen Phasen mit anderen vorlaufenden oder nachfolgenden Operationen 

(Pipelining). 

stark sprachenabhängig 

Operationen innerhalb einzelner Anweisungen: 

R:= (A+B) * C/D + (E+F) 

Datenabhängigkeitsgraph 

+ / + 

* 

+ 

R 

evtl. Ressourcenkonflikt 

Lösen eines 

arithmetischen Ausdrucks 

WS03/04




Ebenen der Parallelarbeit (Beispiele) - Medium-grain parallelism 

Parallelausführung der Teiloperationen innerhalb von Operationen auf Datenstrukturtypen 

Ri := Ai * Bi , i = 1 .. n 

(automatische Adressrechnung, da Zugriffsfunktion auf strukturiertes Datenobjekt im voraus 

bekannt ist) 

=> Ausnutzung der Parallelität durch Vektorverarbeitung 

Ausnutzung der Parallelität durch Überlappen (Pipelining) der Teilschritte in mehreren Stufen 

Ai Bi t ges = 300 ns 

t start 

t flush 

A i B i 

* 

R i 

Gewinn einer Pipeline 

für n -> oo => G -> k 

t step = t ges /4 ~75 ns 

1 

2 

3 

k = 4 

R i 

n = Anzahl der Werte 

k = Anzahl der Pipelinestufen 

}* 

WS03/04




Ebenen der Parallelarbeit (Beispiele) - Fine-grain parallelism 

Ausnutzung der Parallelität in Anweisungen und Schleifen eines Benutzerprogramms, aufteilbar 

in 2 Phasen: 

• Erkennen von datenunabhängigen Anweisungen 

• Verteilen der Instruktionen an parallele Verarbeitungseinheiten 

Erkennen von datenunabhängigen Anweisungen 

zur Compilezeit zur Ausführungszeit 

VLIW, Transputer intelligent instruction issue logic (I 3 L) 

Datenflussrechner, Scoreboarding 

Verteilen der Instruktionen an parallele Verarbeitungseinheiten 

zur Compilezeit zur Auführungszeit 

VLIW I 3 L, Scoreboarding, dataflow synchronisation 

WS03/04




Ebenen der Parallelarbeit (Beispiele) - Coarse-grain parallelism 

Ausnutzung der Parallelität in kooperierenden Prozessen 

Impliziert das Aufteilen des Algorithmus in mehrere zusammenarbeitende Prozesse 

"kooperierende Prozesse" 

send receive 

Prozess A Prozess B 

receive 

Möglichkeiten der Kommunikation: 

• memory sharing 

• message passing 

Sinnvoll ist die Verteilung der Prozesse (A,B, ..) auf einzelne Prozessoren (mapping) 

Wichtig: 

Je geringer der Overhead für die Kommunikation, desto größer der Gewinn der Aufteilung 

(ermöglicht damit eine feinere Aufteilung) 

send 

Es macht keinen Sinn ein Problem soweit aufzuteilen, daß die Bearbeitungszeit für eine 

Kommunikation die Bearbeitungszeit einer Teilaufgabe überschreitet. 

WS03/04

Grundlagen paralleler Architekturen

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?