Überblick - Uni Bremen

Überblick 

zEinleitung 

yLit., Motivation, Geschichte, v.Neumann- 

Modell, VHDL 

zBefehlsschnittstelle 

zMikroarchitektur 

zSpeicherarchitektur 

zEin-/Ausgabe 

zMultiprozessorsysteme, ...

Kap.6 

Multiprozessorsysteme

Einsatz der zusätzlich verfügbaren 

Chipfläche 

z Parallelität auf Bitebene: bis etwa 1985 

y Kombinatorische Addierer und Multiplizierer, etc. 

y → wachsende Wortbreite auf 64 Bit 

z Parallelität auf Instruktionsebene: 1985 bis heute 

y Pipelining der Instruktionsverarbeitung 

y Mehrere Funktionseinheiten (→ superskalare Prozessoren) 

bei mehr als 4 Funktionseinheiten verhindern Datenabhängigkeiten 

oft eine effiziente Ausnutzung 

z Integration von Caches und Hauptspeicher auf die Chipfläche: 1990 

bis heute 

y Zur Verringerung der mittleren Zugriffszeiten 

y → DEC Alpha 21164: 77% der Fläche für Caches 

z Parallelität auf Prozessorebene: Perspektive

Performanz von Rechnern lässt sich durch 

Parallelverarbeitung 

steigern. 

z Parallelverarbeitung erfolgt bei 

y Verteilten Systemen 

Diese bestehen aus mehreren Prozessoren ohne gemeinsamen 

Speicher. Jeder Prozessor hat einen eigenen Speicher (local memory). 

Die Prozessoren tauschen Daten durch Nachrichten aus. 

Nachteil: Evtl. hoher Aufwand für Nachrichtenaustausch. 

y Parallelrechnern 

Diese bestehen ebenfalls aus mehreren Prozessoren und haben einen 

gemeinsamen Speicher (shared memory). Die Kommunikation erfolgt 

über den gemeinsamen Speicher. 

Nachteil: Evtl. Performanz-Probleme, wenn viele Prozessoren 

gleichzeitig auf den Speicher zugreifen wollen.

Architektur von 

verteilten/parallelen Systemen 

z Systeme mit Verbindungsnetzwerk und lokalem 

Speicher 

M1 

M2 

M3 

M4 

Cache 

Cache 

Cache 

Cache 

P1 

P2 

P3 

P4 

Verbindungsnetzwerk 

y Zugriff auf fremden lokalen Speicher nicht möglich 

y Kommunikation durch Austausch von Nachrichten 

y gute physikalische Skalierbarkeit


verteilten/parallelen Systemen ff 

z Symmetrische Multiprozessoren (SMP) 

y gemeinsamer nichtverteilter Speicher 

P1 

P2 

P3 

P4 

Cache 

Cache 

Cache 

Cache 

Speicher 

y meist busbasiert mit physikalisch gemeinsamem Speicher 

y Reduktion der Speicherzugriffslatenz durch lokale Caches 

y Problem: Cache-Kohärenz 

y Beispiele: SGI Challenge, Sun Enterprise



z Verteilter gemeinsamer Speicher 

y lokale Speichermodule 

y gemeinsamer Adressraum 

P1 

P2 

P3 

P4 

M1 

M2 

M3 

M4 


Beispiel: 

Cray T3D



z Verteilter gemeinsamer Speicher mit lokalem Cache 

y lokale Speichermodule 

y gemeinsamer Adressraum 

y Zugriff der Prozessoren über prozessor-eigenen Cache 

P1 

P2 

P3 

P4 

Cache 

Cache 

Cache 

Cache 

M1 

M2 

M3 

M4 


Beispiele: 

HP Convex SPP

Unterteilung von 

paralleln/verteilten Systemen 

nach dem verwendeten Speichermodell: 

y verteilter Speicher, getrennte Adressräume 

y verteilter Speicher, gemeinsamer Adressraum 

y Nichtverteilter Speicher, gemeinsamer Adressraum 

nach der Homogenität der Prozessoren 

y homogene Parallelrechner: alle Prozessoren sind gleich 

y heterogene Parallelrechner: Prozessoren dürfen sich 

hardwaremäßig unterscheiden 

Nach der Hierarchie zwischen den Prozessoren 

y symmetrische Parallelrechner: die Prozessoren sind bzgl. ihrer 

Rolle im System untereinander austauschbar 

y nichtsymmetrische Parallelrechner: es gibt Masters und Slaves 

Nach der Eigenständigkeit der Prozessoren 

y lose gekoppelte Parallelrechner: Netzwerk von eigenständigen 

Rechnern 

y eng gekoppelte Parallelrechner: physikalisch ein Rechner

Bsp.: 

Flynn's Schema ´66 

z Einteilung von Rechnern in Klassen: 

y SISD (Single Instruction stream, Single Data stream) 

→ Personal Computer 

y SIMD (Single Instruction stream, Multiple Data streams) 

→ Vektorrechner, wie Illiac IV (1972, 64 Knoten), CM-2 (1987, 65536 

Knoten) Die gleiche Instruktion wird parallel auf einen Vektor von 

Daten angewendet. 

y MISD (Multiple Instruction streams, Single Data stream) 

Mehrere Anweisungen parallel. 

y MIMD (Multiple Instruction streams, Multiple Data streams) 

→ INMOS Transputer, CONVEX SPP, CRAY T3D/T3E, IBM SP2

Verbindungsstrukturen 

z Der Kommunikationsaufwand zwischen den Prozessoren ist 

einer der Hauptpunkte für die Leistung des parallelen/verteilten 

Systems. 

⇒ nicht jedes Problem ist für Parallelisierung geeignet. 

z Verschiedene Kommunikationsstrukturen unterscheiden sich 

hinsichtlich ihrer Kosten und ihrer Leistung. 

Beispiel: 

Vollständiger 

Verbindungsgraph

Modellierung von Verbindungen 

z Modellierung: Die Topologie eines Parallelrechners wird durch einen 

abstrakten Graphen G=(V,E) dargestellt, mit 

y V = { 1, ... , n } Menge der Knoten, d.h. der Prozessoren 

y E ⊆ { {a,b}; a,b ∈ V }, die Menge der Kanten, d.h. der Verbindungen 

z Charakteristika einer Verbindungsstruktur 

y Durchmesser(G) = max v,w∈V 

{ Länge des kürzesten Pfades von v nach 

w} 

y Grad(G) = max v∈V 

| { w ∈ V; {v,w} ∈ E } | 

y Anzahl der physikalischen Verbindungen (G) = | E |

Verbindungsstrukturen 

z Vollständiger Verbindungsgraph 

Zu teuer wegen dem großen Fanout 

• Durchmesser = 1 

• Grad = n-1 

• |Verbindungen| = n(n-1)/2, keine „Kollisionen“

Verbindungsstrukturen ff 

z Stern 


• Grad = n-1 

• |Verbindungen| = n-1,


z Bus 

Topologie versagt bei den heutigen Technologien bei 

großem Datentransfer zwischen den Prozessoren 

• Ein Bus lässt sich als Stern modellieren, wobei der zentrale Knoten 

aber kein Prozessor ist, sondern der zentrale Bus. 

• Gleiches „Flaschenhalsproblem“ wie bei Stern.

Beispiel für Bustopologie: Ethernet 

Charakteristika 

z Bus-Topologie 

z 10 - 100 Mbit / Sekunde 

z Paket-Versand mit Paketgrößen von 64-1518 Bytes 

z Nicht abhörsicher: alle hören mit ! 

z (Lokales) Rechnernetz über eine Bridge mit der Außenwelt 

verbunden, die die Nachrichten filtert und verstärkt 

Übertragungsvorgang 

z Nachrichten werden in Pakete fester Länge zerteilt. Jedes Paket 

enthält Headerinformation mit Zieladresse und Sequenznummer 

z Jeder Rechner horcht am Bus und empfängt die Pakete, die seine 

Adresse tragen 

z Kollisionen von mehreren Sendern werden erkannt.


z Ring 

• Durchmesser = n/2 

• Grad = 2 

• |Verbindungen| = n, 

Beispiel für Ring: Token-Ring 

Es kreist ein sogenanntes Token 

(spezielles Paket). 

Ein Rechner darf nur dann senden, wenn 

er das Token besitzt.

Beispiel für Ringtopologie: CDDI/FDDI- 

Ring 

[Copper / Fiber Distributed Data Interconnect] 

Charakteristika 

z Ring-Topologie 

z Besteht aus zwei gegenläufigen Ringen 

→ Fehlertolerantes Netz 

z ... ansonsten wie beim Token-Ring

CDDI/FDDI-Ring ist fehlertolerant !


z Stern 

HUB 


• Grad = 1 

• |Verbindungen| = n,


z MESH (torusähnliches Gitter) 

Typischer Vertreter war das Transputer-Netz von INMOS 

• Durchmesser = n 1/2 

• Grad = 4 

• |Verbindungen| = 2n


z Hypercube (d-dimensionaler Würfel) 

Nicht verwendbar, da Grad zu hoch 

• Durchmesser = log n 

• Grad = log n 

• |Verbindungen| = (n log n) / 2, in der Regel keine Wartezeiten


z Cube Connected Cycle (CCC) 

• Durchmesser ≈ 2 log n 

• Grad = 3 

• |Verbindungen| = 3n / 2, in der Regel keine Wartezeiten


z Crossbar Switch 

meist verwendete Struktur bei 

Parallelrechnern mit gemeinsamen 

"nichtverteilten" Speicher 

CPU 0 

CPU 1 

CPU 2 

CPU 3 

CPU 4 

CPU 5 

CPU 6 

CPU 7 

S0 S1 S2 S3 S4 S5 S6 S7 

keine 

Verbindung 

Verbindung 

Nachteil: n⋅m Crosspoints 

entspricht


z Omega Netzwerk (als Alternative zum Crossbar Scwitch) 

P 

R 

O 

Z 

E 

S 

S 

O 

R 

E 

N 

000 

001 

010 

011 

100 

101 

110 

111 

1A 

1B 

1C 

1D 

2A 

2B 

2C 

2D 

3A 

3B 

3C 

3D 

000 

001 

010 

011 

100 

101 

110 

111 

S 

P 

E 

I 

C 

H 

E 

R 

... besitzt nur n/2 log n Schalter


z Omega Netzwerk 

y der obere Ausgang eines Schalters ist der 0-Ausgang 

y der untere Ausgang eines Schalters ist der 1-Ausgang 

y ein Schalter der Stufe i schaltet gemäß dem i-ten Bit der 

Zieladresse 

P 

R 

O 

Z 

E 

S 

S 

O 

R 

E 

N 

000 

001 

010 

011 

100 

101 

110 

111 

1A 

1B 

1C 

1D 

2A 

2B 

2C 

2D 

3A 

3B 

3C 

3D 

000 

001 

010 

011 

100 

101 

110 

111 

S 

P 

E 

I 

C 

H 

E 

R


z Omega Netzwerk 

y nicht jede Kommunikation ist gleichzeitig möglich, auch wenn alle 

Zieladressen paarweise verschieden sind (blocking 

network) 

P 

R 

O 

Z 

E 

S 

S 

O 

R 

E 

N 

000 

001 

010 

011 

100 

101 

110 

111 

1A 

1B 

1C 

1D 

2A 

2B 

2C 

2D 

3A 

3B 

3C 

3D 

000 

001 

010 

011 

100 

101 

110 

111 

S 

P 

E 

I 

C 

H 

E 

R

Local and Wide Area Networks 

4 Mbit/s 

Token Ring 

4 Mbit/s 

Subnet 

(Telekom) 

2 Mbit/s 

B-ISDN 

34 Mbit/s 

155 Mbit/s 

Token Ring 

Token Ring 

10 Mbps 4Mbps 

Ethernet 

z Lokale Netze (LAN): Netze mit Ausdehnung von wenigen 100 Metern zur 

Verbindung der Rechner einer Abteilung oder einer kleineren Firma 

z Weitverkehrsnetze (WAN): zur weltweiten Verbindung über Datennetze 

der Post bzw. private / kommerzielle Satellitenverbindungen

Vermittlungsarten 

z Paket-vermittelnde Vermittlung 

y Nachricht wird in ein oder mehrere Pakete verpackt 

y Jedes der Pakete enthält die Adresse des Empfängers 

y Es wird kein Pfad vom Sender zum Empfänger freigeschaltet 

y Das Paket wird in Abhängigkeit der Empfängeradresse immer nur zu 

einem direkten Nachbarn geschickt. 

z Leitungsvermittelnde Vermittlung 

Leitungsvermittelnde Vermittlung 

y Es wird im Netzwerk ein Pfad vom Sender zum Empfänger geschaltet, 

über den alle Nachrichten geschickt werden (Bsp: Telefonverbindung)

Leitungsvermittelnde Vermittlung 

Sender 1 

Sender 1 

Empfänger 1 

Empfänger 1 

Sender 2 

Sender 2 

Empfänger 2 

Empfänger 2 

Sender 3 

Sender 3 

Empfänger 3 

Empfänger 3 

Ú Schnelle Übertragung großer Datenmengen 

‣ Geschalteter Pfad blockiert andere Verbindungen

Paket-vermittelnde Vermittlung 

Sender 1 

Sender 1 

Empfänger 1 

Empfänger 1 

Sender 2 

Sender 2 

Empfänger 2 

Empfänger 2 

Sender 3 

Sender 3 

Empfänger 3 

Empfänger 3 

Ú Keine Verbindung muss lange warten 

‣ Unterbrechungen während einer Übertragung möglich

Kommunikationskontrolle 

z 

z 

deterministische Kontrolle 

der Weg eines jeden Pakets ist reproduzierbar 

randomisierte Kontrolle 

an bestimmten Stellen des Algorithmus werden zufällige 

Entscheidungen getroffen 

Beispiel: Valiant-Paradigma 

u Route zu einer zufälligen Zwischenadresse 

u Route dann erst zum Ziel

Überblick - Uni Bremen

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?